CN110941703A

CN110941703A - 一种基于机器学习和模糊规则的集成简历信息抽取方法

Info

Publication number: CN110941703A
Application number: CN201911217801.2A
Authority: CN
Inventors: 宋万军; 郭晓杰; 王峥; 李曙光; 王黎黎; 高永伟; 陈白雪; 姜广栋; 杨万刚; 李峰
Original assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Current assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-03-31

Abstract

本发明公开了一种基于机器学习和模糊规则的集成简历信息抽取方法，包括：抽取简历、疑似简历和非简历文本的特征，通过特征信息，筛选简历文本；对筛选得到的简历文本进行词频统计，获取常用关键词并生成模糊匹配规则；使用模糊匹配规则对简历文本进行切分，并抽样检查分块结果，验证分块的正确率；针对简历文本切分后各个分块的数据分布特征，采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息；使用订正策略对不合理的结果进行订正并输出结构化的简历信息。本发明有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。

Description

一种基于机器学习和模糊规则的集成简历信息抽取方法

技术领域

本发明公开了一种基于机器学习和模糊规则的集成简历信息抽取方法，涉及自然语言处理中的信息抽取技术领域。

背景技术

在现有技术中，目前简历信息抽取技术常见的包括以下三种方法：1、使用统计分析和规则匹配抽取简历信息；2、使用机器学习算法抽取简历信息；3、使用规则和机器学习的组合的方法抽取信息。

方法1属于传统的抽取方法。首先统计出词频较高的标题词，如：姓名、电话、毕业院校、公司名称等。然后针对统计出的高频词或者期望提取的词，制定提取规则，实现信息的抽取。该方法虽然抽取的信息较准确，但能抽取的信息有限，规则不能覆盖到的数据将会丢失。

方法2通过将信息抽取问题抽象为序列标注问题，使用隐马尔可夫链(HMM)、条件随机场(CRF)、长短期记忆网络(LSTM)以及深度学习的方法抽取信息。该方法对规整的文本，抽取的效果较为明显。但简历数据格式繁杂，如：doc、docx、html、pdf等，将简历转换成净文本格式后，文本中可能含有错行、无效换行、无效字符等情况，此时单纯的使用机器学习方法抽取的效果较差。

方法3将规则匹配和机器学习方法组合起来抽取信息。该方法首先使用规则对固定格式的数据进行抽取，如：手机号、邮箱、生日、工作年限等，然后通过机器学习的方法抽取其它信息，如：个人其它基本信息、工作教育信息等。该方法是目前简历信息抽取的主流方法。但仍然存在容易受无效信息干扰、实体指代不明以及分词粒度过小的问题。无法规避非简历信息的干扰；简历中出现多个姓名时，无法确定简历作者本人的姓名；工作经历和教育经历中都出现学校名称时，无法区分该名称是工作单位还是学习学校；对于时间段

1988.06-1982.09，无法区分是学习时间段还是工作时间段等等。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于机器学习和模糊规则的集成简历信息抽取方法，

本发明为解决上述技术问题采用以下技术方案：

一种基于机器学习和模糊规则的集成简历信息抽取方法，所述方法包括如下步骤：

步骤一、抽取简历、疑似简历和非简历文本的特征，通过特征信息，筛选简历文本；

步骤二、对筛选得到的简历文本进行词频统计，获取常用关键词并生成模糊匹配规则；

步骤三、使用模糊匹配规则对简历文本进行切分，并抽样检查分块结果，验证分块的正确率；

步骤四、针对简历文本切分后各个分块的数据分布特征，采用模糊匹配规则、序列标注或者分类的方法抽取简历文本具体的信息；

步骤五、使用订正策略对不合理的结果进行订正并输出结构化的简历信息。

作为本发明的进一步优选方案，所述步骤一的方法具体包括：

101、标注简历、疑似简历以及非简历样本；

102、使用特征抽取器抽取上述3类样本的特征，并训练分类模型；

103、输入文本到模型，输出简历、疑似简历、非简历三者之一。

作为本发明的进一步优选方案，所述步骤二的方法具体包括：

201、对简历文本内容按照空格进行分词，统计词频，从词频的Top N中筛选候选关键词；

202、根据候选关键词生成模糊规则。

作为本发明的进一步优选方案，步骤202中，当关键词为项目经历时，生成的模糊规则为：^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。

作为本发明的进一步优选方案，所述步骤三的方法具体包括：

301、使用生成的模糊匹配规则对简历文本进行切分；

302、抽样验证切分的正确率，并根据验证结果对模糊匹配规则进行优化或剔除；

303、根据步骤302优化后获取的模糊匹配规则对简历文本进行切分，得到分块结果。

作为本发明的进一步优选方案，所述步骤四的方法具体包括：

401、对固定格式的信息使用模糊匹配规则进行提取；所述固定格式的信息包括电话号码、邮箱或者时间段。

402、对关键信息使用分类方法进行抽取；所述关键信息包括公司名称、部门岗位、学校名称、学院或者专业。

403、对描述信息使用序列标注的方法抽取实体；所述描述信息包括如工作描述、兴趣爱好或者项目经验。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明所公开的简历抽取方法，有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。

附图说明

图1是本发明的方法流程示意图；

其中：1、筛选简历文本过程，2、模糊规则分块过程，3、分块信息提取过程中的模糊规则处理步骤，4、分块信息提取过程中的分类模型处理步骤，5、分块信息提取过程中的分词模型处理步骤。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明所公开的方法基于机器学习自然语言处理技术，首先抽取简历、疑似简历和非简历文本的特征，然后统计关键词并使用模糊规则匹配对简历文本进行分块，再针对各个分块的数据分布特点，采用不同的信息抽取或分类方法，最终完成简历数据的结构化。本发明的方法流程示意图如图1所示，具体步骤如下：

步骤一、抽取简历、疑似简历和非简历文本的特征，通过特征信息，筛选简历文本，如图1中的1所示，具体包括：

1.标注简历、疑似简历(如：招聘offer、推荐书)以及非简历样本；

2.使用特征抽取器抽取上述3类样本的特征，并训练分类模型；

3.输入文本到模型，输出简历、疑似简历、非简历三者之一。

步骤二、使用大量的简历文本进行词频统计，获取常用关键词并生成模糊匹配规则，具体包括：

1.对简历内容按照空格进行分词，统计词频，从词频的Top N中筛选候选关键词；

2.根据候选关键词生成模糊规则，如项目经历，生成的模糊规则为^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。

步骤三、使用模糊匹配规则对简历文本进行切分，并抽样检查分块结果，验证分块的正确率，如图1中的2所述，具体包括：

1.使用生成的模糊规则对简历进行切分；

2.抽样验证切分的正确率，并根据验证结果对规则进行优化或剔除；

3.根据获取的模糊规则对简历进行分块，得到分块结果。

步骤四、针对各个分块的数据分布特征，采用模糊规则匹配、序列标注或者分类的方法抽取具体的信息，如图1中的3、4、5所示，以下的各个步骤适合于每个分块：

1.对固定格式的信息使用模糊规则进行提取，如电话号码、邮箱、时间段等。

2.对关键信息，如公司名称、部门岗位、学校名称、学院、专业等，使用分类方法进行抽取。

3.对描述信息，如工作描述、兴趣爱好、项目经验等，使用序列标注的方法抽取实体。

本发明所公开的简历抽取方法，有效的解决容了简历信息抽取过程易受无效信息干扰、分词粒度过小和实体指代不明的问题。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于，所述步骤一的方法具体包括：

101、标注简历、疑似简历以及非简历样本；

3.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于，所述步骤二的方法具体包括：

202、根据候选关键词生成模糊规则。

4.如权利要求3所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于：步骤202中，当关键词为项目经历时，生成的模糊规则为：^.{0,4}项\W{0,4}目\W{0,4}经\W{0,4}历\W{0,4}。

5.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于，所述步骤三的方法具体包括：

301、使用生成的模糊匹配规则对简历文本进行切分；

6.如权利要求1所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于，所述步骤四的方法具体包括：

401、对固定格式的信息使用模糊匹配规则进行提取；

402、对关键信息使用分类方法进行抽取；

403、对描述信息使用序列标注的方法抽取实体。

7.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于：步骤401中，所述固定格式的信息包括电话号码、邮箱或者时间段。

8.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于：步骤402中，所述关键信息包括公司名称、部门岗位、学校名称、学院或者专业。

9.如权利要求6所述的一种基于机器学习和模糊规则的集成简历信息抽取方法，其特征在于：步骤403中，所述描述信息包括如工作描述、兴趣爱好或者项目经验。