CN110941703A - 一种基于机器学习和模糊规则的集成简历信息抽取方法 - Google Patents
一种基于机器学习和模糊规则的集成简历信息抽取方法 Download PDFInfo
- Publication number
- CN110941703A CN110941703A CN201911217801.2A CN201911217801A CN110941703A CN 110941703 A CN110941703 A CN 110941703A CN 201911217801 A CN201911217801 A CN 201911217801A CN 110941703 A CN110941703 A CN 110941703A
- Authority
- CN
- China
- Prior art keywords
- resume
- information
- extracting
- fuzzy
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Abstract
本发明公开了一种基于机器学习和模糊规则的集成简历信息抽取方法,包括:抽取简历、疑似简历和非简历文本的特征,通过特征信息,筛选简历文本;对筛选得到的简历文本进行词频统计,获取常用关键词并生成模糊匹配规则;使用模糊匹配规则对简历文本进行切分,并抽样检查分块结果,验证分块的正确率;针对简历文本切分后各个分块的数据分布特征,采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息;使用订正策略对不合理的结果进行订正并输出结构化的简历信息。本发明有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。
Description
技术领域
本发明公开了一种基于机器学习和模糊规则的集成简历信息抽取方法,涉及自然语言处理中的信息抽取技术领域。
背景技术
在现有技术中,目前简历信息抽取技术常见的包括以下三种方法:1、使用统计分析和规则匹配抽取简历信息;2、使用机器学习算法抽取简历信息;3、使用规则和机器学习的组合的方法抽取信息。
方法1属于传统的抽取方法。首先统计出词频较高的标题词,如:姓名、电话、毕业院校、公司名称等。然后针对统计出的高频词或者期望提取的词,制定提取规则,实现信息的抽取。该方法虽然抽取的信息较准确,但能抽取的信息有限,规则不能覆盖到的数据将会丢失。
方法2通过将信息抽取问题抽象为序列标注问题,使用隐马尔可夫链(HMM)、条件随机场(CRF)、长短期记忆网络(LSTM)以及深度学习的方法抽取信息。该方法对规整的文本,抽取的效果较为明显。但简历数据格式繁杂,如:doc、docx、html、pdf等,将简历转换成净文本格式后,文本中可能含有错行、无效换行、无效字符等情况,此时单纯的使用机器学习方法抽取的效果较差。
方法3将规则匹配和机器学习方法组合起来抽取信息。该方法首先使用规则对固定格式的数据进行抽取,如:手机号、邮箱、生日、工作年限等,然后通过机器学习的方法抽取其它信息,如:个人其它基本信息、工作教育信息等。该方法是目前简历信息抽取的主流方法。但仍然存在容易受无效信息干扰、实体指代不明以及分词粒度过小的问题。无法规避非简历信息的干扰;简历中出现多个姓名时,无法确定简历作者本人的姓名;工作经历和教育经历中都出现学校名称时,无法区分该名称是工作单位还是学习学校;对于时间段
1988.06-1982.09,无法区分是学习时间段还是工作时间段等等。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于机器学习和模糊规则的集成简历信息抽取方法,
本发明为解决上述技术问题采用以下技术方案:
一种基于机器学习和模糊规则的集成简历信息抽取方法,所述方法包括如下步骤:
步骤一、抽取简历、疑似简历和非简历文本的特征,通过特征信息,筛选简历文本;
步骤二、对筛选得到的简历文本进行词频统计,获取常用关键词并生成模糊匹配规则;
步骤三、使用模糊匹配规则对简历文本进行切分,并抽样检查分块结果,验证分块的正确率;
步骤四、针对简历文本切分后各个分块的数据分布特征,采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息;
步骤五、使用订正策略对不合理的结果进行订正并输出结构化的简历信息。
作为本发明的进一步优选方案,所述步骤一的方法具体包括:
101、标注简历、疑似简历以及非简历样本;
102、使用特征抽取器抽取上述3类样本的特征,并训练分类模型;
103、输入文本到模型,输出简历、疑似简历、非简历三者之一。
作为本发明的进一步优选方案,所述步骤二的方法具体包括:
201、对简历文本内容按照空格进行分词,统计词频,从词频的Top N中筛选候选关键词;
202、根据候选关键词生成模糊规则。
作为本发明的进一步优选方案,步骤202中,当关键词为项目经历时,生成的模糊规则为:^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。
作为本发明的进一步优选方案,所述步骤三的方法具体包括:
301、使用生成的模糊匹配规则对简历文本进行切分;
302、抽样验证切分的正确率,并根据验证结果对模糊匹配规则进行优化或剔除;
303、根据步骤302优化后获取的模糊匹配规则对简历文本进行切分,得到分块结果。
作为本发明的进一步优选方案,所述步骤四的方法具体包括:
401、对固定格式的信息使用模糊匹配规则进行提取;所述固定格式的信息包括电话号码、邮箱或者时间段。
402、对关键信息使用分类方法进行抽取;所述关键信息包括公司名称、部门岗位、学校名称、学院或者专业。
403、对描述信息使用序列标注的方法抽取实体;所述描述信息包括如工作描述、兴趣爱好或者项目经验。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明所公开的简历抽取方法,有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。
附图说明
图1是本发明的方法流程示意图;
其中:1、筛选简历文本过程,2、模糊规则分块过程,3、分块信息提取过程中的模糊规则处理步骤,4、分块信息提取过程中的分类模型处理步骤,5、分块信息提取过程中的分词模型处理步骤。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明所公开的方法基于机器学习自然语言处理技术,首先抽取简历、疑似简历和非简历文本的特征,然后统计关键词并使用模糊规则匹配对简历文本进行分块,再针对各个分块的数据分布特点,采用不同的信息抽取或分类方法,最终完成简历数据的结构化。本发明的方法流程示意图如图1所示,具体步骤如下:
步骤一、抽取简历、疑似简历和非简历文本的特征,通过特征信息,筛选简历文本,如图1中的1所示,具体包括:
1.标注简历、疑似简历(如:招聘offer、推荐书)以及非简历样本;
2.使用特征抽取器抽取上述3类样本的特征,并训练分类模型;
3.输入文本到模型,输出简历、疑似简历、非简历三者之一。
步骤二、使用大量的简历文本进行词频统计,获取常用关键词并生成模糊匹配规则,具体包括:
1.对简历内容按照空格进行分词,统计词频,从词频的Top N中筛选候选关键词;
2.根据候选关键词生成模糊规则,如项目经历,生成的模糊规则为^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。
步骤三、使用模糊匹配规则对简历文本进行切分,并抽样检查分块结果,验证分块的正确率,如图1中的2所述,具体包括:
1.使用生成的模糊规则对简历进行切分;
2.抽样验证切分的正确率,并根据验证结果对规则进行优化或剔除;
3.根据获取的模糊规则对简历进行分块,得到分块结果。
步骤四、针对各个分块的数据分布特征,采用模糊规则匹配、序列标注或者分类的方法抽取具体的信息,如图1中的3、4、5所示,以下的各个步骤适合于每个分块:
1.对固定格式的信息使用模糊规则进行提取,如电话号码、邮箱、时间段等。
2.对关键信息,如公司名称、部门岗位、学校名称、学院、专业等,使用分类方法进行抽取。
3.对描述信息,如工作描述、兴趣爱好、项目经验等,使用序列标注的方法抽取实体。
步骤五、使用订正策略对不合理的结果进行订正并输出结构化的简历信息。
本发明所公开的简历抽取方法,有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (9)
1.一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于,所述方法包括如下步骤:
步骤一、抽取简历、疑似简历和非简历文本的特征,通过特征信息,筛选简历文本;
步骤二、对筛选得到的简历文本进行词频统计,获取常用关键词并生成模糊匹配规则;
步骤三、使用模糊匹配规则对简历文本进行切分,并抽样检查分块结果,验证分块的正确率;
步骤四、针对简历文本切分后各个分块的数据分布特征,采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息;
步骤五、使用订正策略对不合理的结果进行订正并输出结构化的简历信息。
2.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于,所述步骤一的方法具体包括:
101、标注简历、疑似简历以及非简历样本;
102、使用特征抽取器抽取上述3类样本的特征,并训练分类模型;
103、输入文本到模型,输出简历、疑似简历、非简历三者之一。
3.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于,所述步骤二的方法具体包括:
201、对简历文本内容按照空格进行分词,统计词频,从词频的Top N中筛选候选关键词;
202、根据候选关键词生成模糊规则。
4.如权利要求3所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于:步骤202中,当关键词为项目经历时,生成的模糊规则为:^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。
5.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于,所述步骤三的方法具体包括:
301、使用生成的模糊匹配规则对简历文本进行切分;
302、抽样验证切分的正确率,并根据验证结果对模糊匹配规则进行优化或剔除;
303、根据步骤302优化后获取的模糊匹配规则对简历文本进行切分,得到分块结果。
6.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于,所述步骤四的方法具体包括:
401、对固定格式的信息使用模糊匹配规则进行提取;
402、对关键信息使用分类方法进行抽取;
403、对描述信息使用序列标注的方法抽取实体。
7.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于:步骤401中,所述固定格式的信息包括电话号码、邮箱或者时间段。
8.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于:步骤402中,所述关键信息包括公司名称、部门岗位、学校名称、学院或者专业。
9.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法,其特征在于:步骤403中,所述描述信息包括如工作描述、兴趣爱好或者项目经验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911217801.2A CN110941703A (zh) | 2019-12-03 | 2019-12-03 | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911217801.2A CN110941703A (zh) | 2019-12-03 | 2019-12-03 | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110941703A true CN110941703A (zh) | 2020-03-31 |
Family
ID=69909694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911217801.2A Pending CN110941703A (zh) | 2019-12-03 | 2019-12-03 | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941703A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723269A (zh) * | 2020-06-28 | 2020-09-29 | 上海沃锐企业发展有限公司 | 一种简历查重方法 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541910A (zh) * | 2010-12-27 | 2012-07-04 | 上海杉达学院 | 提取关键字的方法 |
CN105916127A (zh) * | 2016-06-27 | 2016-08-31 | 北京奇虎科技有限公司 | 用于获取用户流量信息的方法、装置及服务器 |
CN106021461A (zh) * | 2016-05-17 | 2016-10-12 | 深圳市中润四方信息技术有限公司 | 一种文本分类的方法及文本分类系统 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109992778A (zh) * | 2019-03-26 | 2019-07-09 | 深圳八爪网络科技有限公司 | 基于机器学习的简历文档判别方法及装置 |
CN110443571A (zh) * | 2019-07-16 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 基于知识图谱进行简历评估的方法、装置及设备 |
-
2019
- 2019-12-03 CN CN201911217801.2A patent/CN110941703A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541910A (zh) * | 2010-12-27 | 2012-07-04 | 上海杉达学院 | 提取关键字的方法 |
CN106021461A (zh) * | 2016-05-17 | 2016-10-12 | 深圳市中润四方信息技术有限公司 | 一种文本分类的方法及文本分类系统 |
CN105916127A (zh) * | 2016-06-27 | 2016-08-31 | 北京奇虎科技有限公司 | 用于获取用户流量信息的方法、装置及服务器 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109992778A (zh) * | 2019-03-26 | 2019-07-09 | 深圳八爪网络科技有限公司 | 基于机器学习的简历文档判别方法及装置 |
CN110443571A (zh) * | 2019-07-16 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 基于知识图谱进行简历评估的方法、装置及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723269A (zh) * | 2020-06-28 | 2020-09-29 | 上海沃锐企业发展有限公司 | 一种简历查重方法 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN103473262B (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN108920466A (zh) | 一种基于word2vec和TextRank的科技文本关键词提取方法 | |
CN104182423A (zh) | 一种基于条件随机场的中文人名自动识别方法 | |
WO2017075912A1 (zh) | 一种新闻事件抽取方法及系统 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN109446299B (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 | |
CN109190099A (zh) | 句模提取方法及装置 | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
CN115186654A (zh) | 一种公文文本摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |
|
RJ01 | Rejection of invention patent application after publication |