CN110866393B

CN110866393B - 基于领域知识库的简历信息抽取方法及系统

Info

Publication number: CN110866393B
Application number: CN201911134165.7A
Authority: CN
Inventors: 郭盛
Original assignee: Beijing Wangpin Consulting Co ltd
Current assignee: Beijing Wangpin Consulting Co ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-06-23
Anticipated expiration: 2039-11-19
Also published as: CN110866393A

Abstract

本发明公开了基于领域知识库的简历信息抽取方法，包括：建立知识库；建立栏目标题集合；为第一类待抽取信息和第二类待抽取信息分别建立抽取规则；采集样本简历，以第一类待抽取信息的关键词组合为神经网络的输入，以第二类待抽取信息的关键词组合为神经网络的输出，训练得到神经网络预测模型；获取目标简历，将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的误差小于设定阈值，则舍弃。本发明还公开了基于领域知识库的简历信息抽取装置。本发明针对简历自身特点，能够快速抽取信息，并能够对信息进行初步筛选，舍弃异常信息。

Description

基于领域知识库的简历信息抽取方法及系统

技术领域

本发明涉及招聘领域。更具体地说，本发明涉及一种基于领域知识库的简历信息抽取方法及系统。

背景技术

简历是求职者的书面介绍，通过人工的方式搜索、阅读、记录海量的简历，需要耗费巨大的工作量。现有技术中也出现了一些使用信息抽取技术自动抽取文档信息的技术方案，但是简历不同于一般文档，现有技术不能简单适用，而且现有技术无法对异常简历进行初步筛选。因此，亟需设计一种能够一定程度克服上述缺陷的抽取方法及系统。

发明内容

本发明的一个目的是提供一种基于领域知识库的简历信息抽取方法及系统，其针对简历自身特点，能够快速抽取信息，并能够对信息进行初步筛选，舍弃异常信息。

为了实现根据本发明的这些目的和其它优点，提供了基于领域知识库的简历信息抽取方法，包括：

建立知识库，所述知识库中包括多个简历信息属性以及分别与多个简历信息属性对应的多个词语集合；

建立栏目标题集合，所述栏目标题为简历中各类型文本信息的标题；

为第一类待抽取信息和第二类待抽取信息分别建立抽取规则，所述抽取规则包括与第一类待抽取信息或第二类待抽取信息所对应的栏目标题以及与第一类待抽取信息或第二类待抽取信息对应的关键词组合；

采集样本简历，根据栏目标题集合，识别样本简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，以第一类待抽取信息的关键词组合为神经网络的输入，以第二类待抽取信息的关键词组合为神经网络的输出，训练得到神经网络预测模型；

获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差小于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息。

优选的是，所述的基于领域知识库的简历信息抽取方法，所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词。

优选的是，所述的基于领域知识库的简历信息抽取方法，所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价。

优选的是，所述的基于领域知识库的简历信息抽取方法，第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息。

优选的是，所述的基于领域知识库的简历信息抽取方法，第一类待抽取信息和第二类待抽取信息的关键词分别转化为词向量，分别作为神经网络的输入和输出。

本发明还提供了基于领域知识库的简历信息抽取系统，包括：

知识库构建模块，其用于建立知识库，所述知识库中包括多个简历信息属性以及分别与多个简历信息属性对应的多个词语集合；

栏目标题集合构建模块，其用于建立栏目标题集合，所述栏目标题为简历中各类型文本信息的标题；

抽取规则构建模块，其用于为第一类待抽取信息和第二类待抽取信息分别建立抽取规则，所述抽取规则包括与第一类待抽取信息或第二类待抽取信息所对应的栏目标题以及与第一类待抽取信息或第二类待抽取信息对应的关键词组合；

神经网络预测模型构建模块，其采集样本简历，根据栏目标题集合，识别样本简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，以第一类待抽取信息的关键词组合为神经网络的输入，以第二类待抽取信息的关键词组合为神经网络的输出，训练得到神经网络预测模型；

抽取模块，其获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差大于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息。

优选的是，所述的基于领域知识库的简历信息抽取系统，所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词，所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价，第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息。

本发明至少包括以下有益效果：

本发明首先建立知识库，然后根据简历的特点，按照栏目标题将简历分为多个文本内容，将多个文本内容与待抽取信息对应，然后采用预设的抽取规则抽取待抽取信息。本发明还通过训练得到神经网络预测模型，通过比较预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差，确定简历是否异常，若异常，则舍弃。可见，本发明能够高效地抽取有效信息，并能够初步筛选简历，提升招聘者体验。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

在一种技术方案中，如图1所示，基于领域知识库的简历信息抽取方法，包括：

获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差大于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息。

上述技术方案中，知识库是简历信息抽取过程中必要的词库，用于使得信息抽取准确度更高，知识库至少包括企业名称、姓氏、专业名称、学校名称、专业术语、技能名称、奖励名称等。知识库可以直接使用现有词库，或者通过采集百度百科等网络资源建立。

一般简历包括多个栏目，每个栏目包括一种类型的文本信息，比如常见的栏目包括基本信息、教育背景、工作经历等。为了更加准确地抽取信息，需要在各栏目内分别抽取所需的信息。建立栏目标题集合，即尽可能多的列举简历采用的栏目标题。

正常简历的各部分内容有一定的关联性，比如教育、项目类信息与工作经历类信息具有较大的关联性，若关联性小，则成为异常简历的可能性大。第一类待抽取信息即是教育、项目类信息，第二类待抽取信息即是工作经历类信息。抽取规则即按照信息的表述形式抽取关键词，比如教育背景和工作经历一般是时间、机构、内容的组合，按照这个组合抽取关键词，能够提高抽取效率和准确率。具体抽取时，先分词，然后根据知识库进行抽取。对于样本简历，将第一类待抽取信息的关键词作为输入，将第二类待抽取信息的关键词作为输出，训练得到神经网络预测模型。

对于正常简历，以相同的抽取规则抽取关键词组合，然后输入神经网络预测模型，得到预测的第二类待抽取信息的关键词组合，并与实际的第二类待抽取信息的关键词组合比较，若误差大于设定阈值，则表明关联性差，为异常简历，将该条抽取的信息舍弃。比如某个关键词预测的概率小于10％，而该关键词实际存在，即可舍弃该条信息。

可见，本技术方案能够根据知识库高效、准确地抽取有效信息，并能够初步筛选简历，避免招聘者陷入海量的简历，提升了用户体验。

在另一种技术方案中，所述的基于领域知识库的简历信息抽取方法，所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词。这里提供了优选的简历信息属性，能够全面辅助各类信息的提取。

在另一种技术方案中，所述的基于领域知识库的简历信息抽取方法，所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价。这里提供了优选的栏目标题，基本能够覆盖大多数网络简历。

在另一种技术方案中，所述的基于领域知识库的简历信息抽取方法，第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息。这里提供了第一类待抽取信息和第二类待抽取信息的优选类型，个人经历类信息是指工作前的信息，如教育背景、项目经历、参赛经历等，与工作经历具有较大关联性。

在另一种技术方案中，所述的基于领域知识库的简历信息抽取方法，第一类待抽取信息和第二类待抽取信息的关键词分别转化为词向量，分别作为神经网络的输入和输出。将关键词转化为词向量为现有技术，一般首先获取由预设简历关键词和所述预设简历关键词对应的词向量组成的样本集合，输入到预设神经网络模型，训练得到词向量推断神经网络模型，根据词向量推断神经网络模型即可得到各关键词的词向量。

抽取模块，其获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差小于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息。

本技术方案基于与基于领域知识库的简历信息抽取方法相同的发明构思，理解本技术方案可参见抽取方法部分的描述。本技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在另一种技术方案中，所述的基于领域知识库的简历信息抽取系统，所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词，所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价，第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息。理解本技术方案请参见抽取方法部分的描述。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明基于领域知识库的简历信息抽取方法及系统的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于领域知识库的简历信息抽取方法，其特征在于，包括：

获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差小于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息；

所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词；

所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价；

第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息；

第一类待抽取信息和第二类待抽取信息的关键词分别转化为词向量，分别作为神经网络的输入和输出。

2.基于领域知识库的简历信息抽取系统，其特征在于，包括：

抽取模块，其获取目标简历，根据栏目标题集合，识别目标简历的栏目标题以及与栏目标题对应的文本内容，根据抽取规则从文本内容中抽取第一类待抽取信息和第二类待抽取信息的关键词组合，并将第一类待抽取信息的关键词组合输入神经网络预测模型，获得预测的第二类待抽取信息的关键词组合，若预测的第二类待抽取信息的关键词组合与实际的第二类待抽取信息的关键词组合的误差大于设定阈值，则舍弃抽取到的第一类待抽取信息和第二类待抽取信息；

所述简历信息属性包括姓名、专业名、籍贯、学校名、公司名、专有名词，所述栏目标题包括个人信息、教育背景、项目经历、工作经历、专业技能、获奖经历、自我评价，第一类待抽取信息为个人经历类信息，第二类待抽取信息为工作经历类信息。