CN112214572B

CN112214572B - 一种简历解析中二次提取实体的方法

Info

Publication number: CN112214572B
Application number: CN202011125481.0A
Authority: CN
Inventors: 陈其宾; 李锐; 王建华
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-11-01
Anticipated expiration: 2040-10-20
Also published as: CN112214572A

Abstract

本发明涉及简历解析、人工智能和自然语言处理领域，具体提供了一种简历解析中二次提取实体的方法，具有如下步骤：S1、实体提取及拆分记录；S2、拆分片段进行文本预处理；S3、划分符合条件的潜在实体和待提取字段；S4、采用打分法对符合条件的潜在实体进行打分；S5、选取最高分；S6、最高分与阈值对比，输出二次提取实体及对应字段。与现有技术相比，本发明的一种简历解析中二次提取实体的方法，通过进行二次实体抽取，能够准确的提取全部实体，能够有效的解决实体遗漏的问题，具有良好的推广价值。

Description

一种简历解析中二次提取实体的方法

技术领域

本发明涉及简历解析、人工智能和自然语言处理领域，具体提供一种简历解析中二次提取实体的方法。

背景技术

简历内容解析是把非结构化的简历数据转化为结构化数据，以便进行简历打分、筛选等进一步的分析工作。目前主流的解决方法包括两个步骤，首先，对简历进行分块，分成个人信息、教育经历和工作经历等模块，其次对每一模块进行分析，提取目标字段。在提取教育经历、工作经历和项目经历等包含多条记录的信息时，还需要对其中的每条记录进行切分，分别提取每条记录中的信息，如教育信息中每条记录往往包括学校、专业、起止时间、主修课程、GPA等信息，工作信息中每条记录往往包括工作单位、部门、岗位、起止时间等信息。

目前主流的提取方法是，先通过规则以及机器学习或深度学习方法识别实体，然后基于识别出的实体对记录拆分，并将识别出的实体分配到各条拆分的记录中，每条记录对应一组实体，如第一条记录结果为(单位1，部门1，起止时间1)，第二条记录结果为(单位2，部门2，起止时间2)。但是，由于简历类型多样，现有的方法往往不能准确提取全部实体，导致结果中部分实体缺失的问题。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的简历解析中二次提取实体的方法。

本发明解决其技术问题所采用的技术方案是：

一种简历解析中二次提取实体的方法，其特征在于，具有如下步骤：

S1、实体提取及拆分记录；

S2、拆分片段进行文本预处理；

S3、划分符合条件的潜在实体和待提取字段；

S4、采用打分法对符合条件的潜在实体进行打分；

S5、选取最高分；

S6、最高分与阈值对比，输出二次提取实体及对应字段。

进一步的，在步骤S1中，将已提取实体分配到已拆分的各条记录中，对每条记录中已提取实体按照位置进行排序，使用已提取实体对所在的记录进行拆分。

进一步的，在步骤S2中，所在记录进行拆分后的片段作为潜在实体，对所述潜在实体进行文本预处理。

进一步的，在步骤S3中，文本预处理中，筛选掉格式不符合条件的潜在实体，得到符合条件的潜在实体，将已提取的实体对应的字段定义为已提取字段，将其他字段定义为待提取字段。

作为优选，在步骤S4中，打分法的打分因素包括通用因素和专用因素，

所述通用因素包括潜在实体的位置、字符长度、中文字符和英文字符长度；

所述专用因素包括每个字段特有的因素。

进一步的，在步骤S4中，对符合条件的潜在实体进行打分，包括：

对每个符合条件的潜在实体和每个待提取字段的组合进行打分。

进一步的，在步骤S5中，对于每个符合条件的潜在实体，选择得分最高的待提取字段作为最优字段；

对于一个待提取字段是多个符合条件的潜在实体最优字段的情况，选择得分最高的符合条件的潜在实体，这个符合条件的潜在实体作为该待提取字段对应的符合条件的潜在实体。

进一步的，在步骤S6中，选择得分高于阈值的待提取字段和符合条件的潜在实体的组合，将所述符合条件的潜在实体加入已提取实体中，将所述待提取字段加入已提取字段中。

本发明的一种简历解析中二次提取实体的方法和现有技术相比，具有以下突出的有益效果：

本发明的一种简历解析中二次提取实体的方法，通过进行二次实体抽取，能够准确的提取全部实体，能够有效的解决实体遗漏的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种简历解析中二次提取实体的方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种简历解析中二次提取实体的方法，分为以下步骤：

S1、实体提取及拆分记录：

将已提取实体分配到已拆分的各条记录中，对每条记录中已提取实体按照位置进行排序，使用已提取实体对所在的记录进行拆分。

S2、拆分片段进行文本预处理：

所在记录进行拆分后的片段作为潜在实体，对所述潜在实体进行文本预处理，删除特殊字符以及长度不符合要求的片段。

S3、划分符合条件的潜在实体和待提取字段：

文本预处理中，筛选掉格式不符合条件的潜在实体，得到符合条件的潜在实体。

每条记录中有多个字段，如工作信息的每条记录往往包括工作单位、部门、起止时间等，将已提取的实体对应的字段定义为已提取字段，将其他字段定义为待提取字段。

S4、采用打分法对符合条件的潜在实体进行打分：

对符合条件的潜在实体进行打分，包括：

打分法的打分因素包括通用因素和专用因素，

其中，通用因素包括潜在实体的位置、字符长度、中文字符和英文字符长度，专用因素是指每个字段特有的因素。

专用因素包括每个字段特有的因素，如工作单位考虑包括“集团、公司、科技”等关键词的潜在实体。同时，为每个因素按照重要程度设置权重。

S5、选取最高分：

对于每个符合条件的潜在实体，选择得分最高的待提取字段作为最优字段；

S6、最高分与阈值对比，输出二次提取实体及对应字段：

选择得分高于阈值的待提取字段和符合条件的潜在实体的组合，将符合条件的潜在实体加入已提取实体中，将待提取字段加入已提取字段中。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种简历解析中二次提取实体的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种简历解析中二次提取实体的方法，其特征在于，具有如下步骤：

S1、实体提取及拆分记录；

将已提取实体分配到已拆分的各条记录中，对每条记录中已提取实体按照位置进行排序，使用已提取实体对所在的记录进行拆分；

S2、拆分片段进行文本预处理；

所在记录进行拆分后的片段作为潜在实体，对所述潜在实体进行文本预处理；

S3、划分符合条件的潜在实体和待提取字段；

文本预处理中，筛选掉格式不符合条件的潜在实体，得到符合条件的潜在实体，将已提取的实体对应的字段定义为已提取字段，将其他字段定义为待提取字段；

S4、采用打分法对符合条件的潜在实体进行打分；

打分法的打分因素包括通用因素和专用因素，

所述通用因素包括潜在实体的位置、中文字符和英文字符长度；

所述专用因素包括每个字段特有的因素；

对符合条件的潜在实体进行打分，包括：

对每个符合条件的潜在实体和每个待提取字段的组合进行打分；

S5、选取最高分；

对于一个待提取字段是多个符合条件的潜在实体最优字段的情况，选择得分最高的符合条件的潜在实体，这个符合条件的潜在实体作为该待提取字段对应的符合条件的潜在实体；

S6、最高分与阈值对比，输出二次提取实体及对应字段；

选择得分高于阈值的待提取字段和符合条件的潜在实体的组合，将所述符合条件的潜在实体加入已提取实体中，将所述待提取字段加入已提取字段中。