CN105069560A - 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 - Google Patents

一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 Download PDF

Info

Publication number
CN105069560A
CN105069560A CN201510457976.6A CN201510457976A CN105069560A CN 105069560 A CN105069560 A CN 105069560A CN 201510457976 A CN201510457976 A CN 201510457976A CN 105069560 A CN105069560 A CN 105069560A
Authority
CN
China
Prior art keywords
information
resume
knowledge
collection
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510457976.6A
Other languages
English (en)
Other versions
CN105069560B (zh
Inventor
马志柔
刘杰
伍海江
叶丹
吴怀林
钟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201510457976.6A priority Critical patent/CN105069560B/zh
Publication of CN105069560A publication Critical patent/CN105069560A/zh
Application granted granted Critical
Publication of CN105069560B publication Critical patent/CN105069560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,通过知识匹配和语义推理方法来实现对履历信息提取,得出履历中所隐含的工作时间、工作地点、工作单位、工作职位等信息;并可在此基础上对提取结果按照一定规则进行特征标识,支持基于领域特征进行履历的语义搜索。本发明提高了信息提取的正确率,实现对履历的自动化特征标识。

Description

一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
技术领域
本发明涉及一种履历信息分析处理方法,尤其涉及一种基于知识库和规则库的履历信息抽取与特征标识分析方法,其通过知识匹配、语义推理和聚合分析来实现对履历信息抽取与特征标识分析,属于计算机软件技术领域。
背景技术
目前,我国各级政府部门和企事业单位的信息化建设已初具规模,在政府机构的人事管理系统、大型企业的人力资源系统、网络招聘的人力资源服务系统中管理着大量的电子简历。在系统中每一条工作经历或学习经历,一般分为两部分,即起止日期和经历内容,比如“2000-09-01到2001-12-01北京海淀中关村街道工委书记、办事处主任”。虽然近年来新实施的管理系统一般要求分属性、分字段的录入工作经历,但是大量历史采集的履历信息是以这种非结构化文本的形式存在于数据库中。基于这种非结构化文本数据,无法支持对人的工作时间、工作单位、工作职位等的精确的分析,只能通过关键词匹配方式查询,因为存在书写不规范的情况,很难返回完整的结果。对于更复杂的情况,基于业务语言来查询履历,比如查找“985高校学习经历”、“具有管理经验的高级IT从业人员”的人,这种查询通过关键词搜索无法返回结果,需要对履历进行语义特征标识分析,借助领域知识库,来进行搜索匹配。针对履历分析面临的这些问题,需要首先解决基于履历的工作时间、工作地点、工作单位、工作职位等实体信息的抽取问题,其次需要解决如何对履历进行语义特征标识分析的问题。
履历信息抽取作为信息抽取的一个具体应用领域具有很高的商业价值和实用价值,通过从自由格式的开放性履历文本中抽取出有用的信息,构造规范化的人才库,能够帮助政府部门、企事业单位、大型公司有效地进行人才管理、匹配和检索,更进一步能够进行人才选拔、人才培养与人才规律发掘。
履历信息是一类特殊的文本,有着其特有的特点和共性。从内容上,按自然语法组织语言具有自由性和非结构性,往往形式多样,因人而异;从本质上,又有一定格式约束,符合一定的标准,能兼顾风格统一和内容灵活。简历通常包含了作者的基本信息、教育经历和工作经历等信息。随着信息抽取理论研究的不断发展与成熟,其研究成果越来越多地应用到简历信息抽取领域中,涌现出了各种各样的简历信息抽取技术,有的基于自然语言处理方式、有的基于本体方式、有的基于统计学习方式,但目前的信息抽取技术只对简历抽取了简单的基本要素,包括基本信息、教育经历和工作经历等。如何利用抽取的信息来更准确的查询分析?如何抽取更详细的信息,并且建立这些信息之间的联系呢?现存的简历信息抽取技术还不能满足需求。
信息抽取技术的核心内容包括命名实体识别、指代消解、关系抽取、事件抽取等内容,其中事件抽取又可分为元事件抽取和主题事件抽取两个层次。目前简历信息抽取主要停留在命名实体识别和元事件抽取上,通过基于规则的方法和基于统计的方法将半结构化的简历文本转化为结构化的简历文本,在此基础上只能做简单的查询、匹配、分析。而如果要基于简历进行精准分析,需要对抽取出的工作经历,即对半结构化的履历信息进一步信息抽取,从履历信息中抽取工作时间、工作地点、工作单位、工作职位等。在国内,有些研究团队提出了利用自然语言处理技术对纯履历文本进行分词与命名实体识别,来提取履历特征要素,包括开始时间、终止时间、地点、单位、职位等要素。有的基于正则表达式进行提取,其要求履历信息格式足够标准,格式不规范将不能正确提取;有的基于关键词词典进行提取,其要求关键词词典对待分析履历集覆盖,否则不能正确提取。而往往在实际生活中,履历信息的书写因人而异,格式不尽相同,采用目前现有的提取方法,通常情况下准确率和召回率都不高。当面对海量数据要分析时,则情况更加复杂。
当今社会,履历分析的应用越来越广泛,如何快速、有效的抽取履历中的信息成为迫切需求。一方面,从信息抽取的效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从信息抽取的准确度上看,结合履历的特征和文本信息抽取技术,如正则表达式匹配、关键词词典匹配等方法可以使信息抽取的结果满足部分需要。
因此,对履历信息抽取实现指代消解、关系抽取、主题事件抽取等,不仅可以对单条履历提取出该作者在何时、何地、什么单位担任什么职位,而且可以对群体履历聚合分析,提高信息提取的正确率,也实现对履历的自动化特征标识是非常有必要的。目前,国内外尚未有相关的文献报导。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,提高信息提取的正确率,实现对履历的自动化特征标识。
本发明技术解决方案之一,一种基于知识库的履历信息抽取系统,包括知识库集模块、时间信息提取模块、划分语义模块、知识匹配语义推理模块和更新知识库集模块;
知识库集模块包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用;所述行政区划信息集是对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;
时间信息提取模块,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;
划分语义模块,将去除时间信息后的履历部分拆分成一个个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;
知识匹配模块,对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;
语义分析和知识提取模块,对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;
更新知识库集模块,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。
所述行政区划信息集构造实现为:
将全国四级行政区划信息集构造成一棵五层知识树表示,从上到下依次为根节点(R0)、省级节点(R1)、地级节点(R2)、县级节点(R3)、乡级节点(R4),此表示结构便于在知识匹配中快速查找、补全和纠错地点信息。
所述知识匹配模块具体实现为:
(1)选取行政区划信息集,分层进行正向最大匹配,将分出的词标注为工作地点;
(2)选取职位信息集,将剩余语义模块部分进行逆向最大匹配,将分出的词标注为工作职位;
(3)将未匹配的剩余语义模块部分进行普通分词标注。
所述语义分析和知识提取模块实现为:
(1)利用行政区划信息集将地址信息的补全和修正;
(2)利用统计和规则相结合方法对词组进行组合或拆分,得出工作单位和工作职位;
(3)利用单位信息集对提取结果进行校验。
本发明技术解决方案之二,一种基于规则库的履历信息特征标识分析系统,所述特征标识分析系统包括:规则库构造模块、本发明所述的基于知识库的履历信息抽取系统、履历特征标识模块和人才标签标识模块;其中:
规则库构造模块,定义业务规则库,包括对工作年限、工作地点、工作单位和工作职位的组合要求;
基于知识库的履历信息抽取系统,对一个人的履历信息进行抽取得到工作时间、工作地点、工作单位和工作职位的履历元数据;
履历特征标识模块,按照定义的业务规则对整条履历元数据进行条件组合判断,如果符合条件则对该条履历进行特征标识;
人才标签标识模块,遍历一个人的所有履历得到一个履历特征标识集,履历特征标识集即这个人所属的业务规则的标签标识。
本发明的技术解决方案之三,一种基于知识库的履历信息抽取方法包括以下各步骤:
步骤1:建立全国四级行政区划信息集、职位信息集和单位信息集,其中全国四级行政区划信息集是一个知识库,该知识库中除了包含行政地名,还包含地名和地名间的隶属关系;职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科等获取整理,扩展职位在本发明中不断学习完善;单位信息集也是一个字典集,本发明中不断优化完善;当单位和职位关联起来后,也形成一个知识库;
步骤2:对每条履历的起始时间描述进行提取,利用正则表达式来匹配,并将提取的时间信息标准化;
步骤3:对每条履历信息进行独立语义模块拆分,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;
步骤4:对每个语义模块进行知识匹配,利用两个知识库对模块进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集(可能为空);对标注词组和未标注词组进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位等实体;
步骤5:对提取后的结果进行信息反馈和更新知识,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集。
进一步地,所述语义模块的知识匹配具体为:
1)选取行政区划集,分层进行正向最大匹配,将分出的词标注为工作地点;
2)选取职位集,将剩余模块部分进行逆向最大匹配,将分出的词标注为工作职位;
3)将未匹配的剩余模块部分进行普通分词标注。
进一步地,所述语义分析和知识提取具体为:
1)利用行政区划信息集将地址信息的补全和修正;
2)利用统计和规则相结合方法对词组进行组合或拆分,得出单位和职位;
3)利用单位集对提取结果进行校验。
更进一步地,该方法还包括履历信息提取后的数据挖掘方法,比如分析某一地区人的履历,得出该地区的机关单位或企业公司;分析某一群人的履历,得出该群人之间存在的同事关系或上下级关系。
本发明技术解决方案之四,基于规则库的履历信息特征标识分析包括以下各步骤:
步骤1:规则库构造,包括对工作年限、工作地点、工作单位、工作职位的组合要求;
步骤2:履历信息抽取,对一个人的履历信息进行抽取得到工作时间、工作地点、工作单位、工作职位等履历元数据,详细过程见上文所述;
步骤3:履历元数据标识,按照业务规则对信息抽取出的履历元数据进行匹配,并对履历元数据进行特征标识;
步骤4:履历特征标识,按照定义的业务规则对整条履历的元数据进行条件组合判断,如果符合条件则对该条履历进行特征标识;
步骤5:人才特征标识,得到一个人所属的业务规则的特征标签。
进一步地,该方法可以利用业务语言构建相应的规则库,从而进行人才的语义搜索查找,对人才进行全面的分析和挖掘。
本发明与现有技术相比优点在于:
(1)本发明的通过知识匹配和语义推理方法来实现对履历信息提取,既有利于新的知识库构建,又有利于扩展知识库对其他领域信息抽取。
(2)本发明基于规则库实现履历的特征标识分析,有利于对履历基于业务规则进行智能化搜索。
(3)本发明可为大数据分析提供机器学习应用,如舆情分析、推荐系统、社交网络、语义搜索、关系挖掘等领域的应用。
(4)本发明可以构造规范化的人才库,为将来的简历管理、检索,人才匹配、干部选拔等做准备。
附图说明
图1为本发明基于知识库的履历信息抽取流程图;
图2为本发明中行政区划知识库结构图;
图3为本发明中知识匹配语义推理过程图;
图4为本发明中履历结构模式图;
图5为本发明基于规则库的履历信息特征标识分析流程图。
具体实施方式
本发明的目的在于提供一种基于知识库和规则库的履历信息抽取与特征标识分析方法,通过知识匹配和语义推理方法来实现对履历信息提取,得出履历中所隐含的工作时间、工作地点、工作单位、工作职位等信息;并可在此基础上对提取结果按照一定规则进行特征标识,支持基于领域特征进行履历的语义搜索。
下面结合具体实施例和附图对本发明作更详细的说明。
假定从网上取到一条履历“2000-09-01到2001-12-01北京海淀中关村街道工委书记、办事处主任”,要从该条履历中得出其在什么时间段、在什么地方、在什么单位、从事什么工作,并在此基础上进一步进行挖掘分析处理,查找具有“基层工作经历”的人才。
本发明实例中的基于知识库的履历信息抽取流程,如图1所示,主要涉及知识库集构造、时间信息提取、语义模块划分、知识匹配语义推理和知识库集更新等过程。
具体步骤如下:
1、构造知识库集。
本发明中知识库集包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用。
1)行政区划信息集。对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系。这里将全国四级行政区划信息集中的信息按照行政区划隶属关系构造成一棵五层知识树表示,形成用于地点匹配的行政区划知识库结构图,如图2所示,从上到下依次为根节点(R0)、省级节点(R1)、地级节点(R2)、县级节点(R3)、乡级节点(R4)。此表示结构便于在知识匹配中快速查找、补全和纠错地点信息。
2)职位信息集。根据《职业分类与代码》从维基百科、百度百科等采集整理各个行业的职位名称,形成常用职位信息集;而扩展职位信息集初始为空,在本发明中不断学习和完善,两者共同组成职位信息集。
3)单位信息集。初始时为空,可以通过百科网站采集整理,也可以在后续履历信息提取中学习得到。单位不单独存在,依赖于前两个信息集,比如某个行政地区有哪些单位、某个单位下有哪些职位。
2、提取时间信息。
一般每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,主要有1998.1、1998.01、1998年1月等格式,在这里就不多进行赘述了。本实例中,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较。
此步骤完成后,本实例提取到开始时间“2000-09-01”、结束时间“2001-12-01”。
3、划分语义模块。
一般每条履历由一个或多个独立语义模块组成,即一个履历存在多个工作经历的情况,需要将履历切分为多个独立的语义模块,每个独立语义模块之间有明显的分隔符号。利用标点符号如逗号、顿号、分号、冒号以及非标点分割符号如空格、“兼任”、“兼”等,将去除时间信息后的履历部分拆分成一个一个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成。
此步骤完成后,本实例切分出两个独立的语义模块“北京海淀中关村街道工委书记”、“办事处主任”。
4、知识匹配语义推理。
利用两个信息集对每个语义模块进行知识标注分词和语义推理分析,提取出履历中隐含的工作地点、工作单位和工作职位等信息,本发明实例中的知识匹配语义推理过程图,如图3所示。
1)知识匹配将语义模块和行政区划信息集匹配得出工作地点,其匹配方法采用正向最大匹配法。履历中所含的地址信息书写格式多种多样,有简写的,比如“北京市朝阳区亚运村街道”书写成“北京朝阳亚运村”,甚至省略掉了省一级的行政区域,直接书写成“朝阳亚运村”;有同名的,比如“北京朝阳”和“辽宁朝阳”;有错误的,比如“宁夏回族自治区”误写为“宁夏省”。其算法描述如下:
输入:一个履历语义模块
输出:一个四级行政地名
步骤:
(1)在省级节点R1中进行正向最大匹配法,如果存在则进行(3),否则进行(2);
(2)在地级节点R2中进行正向最大匹配法,如果存在则进行(4),否则进行(5);
(3)在某R1的子节点R2中进行正向最大匹配法,如果存在未匹配部分则进入(4);
(4)在某R2的子节点R3中进行正向最大匹配法,如果存在未匹配部分则进入(6);
(5)选取常用R2的子节点R3中进行正向最大匹配法,如果存在未匹配部分则进入下一步;
(6)在某县级节点R3的子节点R4中进行正向最大匹配法。
此步骤完成后,本实例匹配到的行政地名为“北京市海淀区中关村街道”。
2)词典匹配将语义模块和职位信息集匹配得出工作单位和职位,其匹配方法采用逆向最大匹配法。其算法描述如下:
输入:一个履历语义模块
输出:工作单位和工作职位
步骤:
(1)将语义模块从后向前,在职位信息集中进行匹配;
(2)如果匹配结果集不为空,则选取长度最大的一个词进行切分;如果匹配结果集为空,则算法结束;
(3)如果切分为两块,则一个是工作单位、一个是工作职位;如果切分为一块,那么为工作职位。
此步骤完成后,本实例匹配到的职位为“书记”、单位为“工委”,未匹配到的模块为“办事处主任”。
3)分词标注将未匹配的模块进行分词标注,利用开源分词工具IKAnalyzer将语义模块拆分成一个一个词,在后续步骤中确定分词结果。
此步骤完成后,本实例的未匹配模块拆分成两组词,一组是“办事”和“处主任”,一组是“办事处”和“主任”。
4)实体消岐如果分词出现多义词或多种分词情况,在这里通过实体消岐,确保数据的有效性。其算法描述如下:
输入:两组分词
输出:一组分词
步骤:
(1)比较两组词的有效文本长度,如果不相等则返回长度大的词,否则进行下一步;
(2)比较两组词的词元个数,如果不相等则返回个数少的词,否则进行下一步;
(3)比较两组词的路径跨度,如果不相等则返回跨度大的词,否则进行下一步;
(4)比较两组词的切分位置,如果不相等则返回位置靠后的词,否则进行下一步;
(5)比较两组词的词元长度积,如果不相等返回取长度积大的词,否则进行下一步;
(6)比较两组词的词元位置权重,如果不相等返回取位置权重小的词,否则进行人工判断。
此步骤完成后,本实例的未匹配模块分词取“办事处”和“主任”为正确的分词。
5)规则推理按照履历结构组成,进行推理分析,哪个是单位,哪个是职位。本发明实例中的履历结构模式图,如图4所示,说明了履历结构组成,履历的结构要么是模式(a)由一个单位和多个职位构成,要么是模式(b)由多个单位和职位构成,要么是两者混合方式。
此步骤完成后,本实例的未匹配模块中标注“办事处”为单位和“主任”为职位。
6)知识提取按照上述过程,对划分的语义模块补全或纠错,得出履历中隐含的一条工作时间、工作地点、工作单位、工作职位等信息的记录。
此步骤完成后,本实例的提取到的履历信息为两条:
a、从“2000-09-01”到“2001-12-01”在“北京市海淀区中关村街道”的“工委”担任“书记”职位。
b、从“2000-09-01”到“2001-12-01”在“北京市海淀区中关村街道”的“办事处”担任“主任”职位。
5、更新知识库集。
将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集。可以重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。
本实例中的履历信息特征标识分析方法流程,如图5所示,主要涉及规则库构造、履历信息抽取、履历元数据标识、履历特征标识和人才标签标识等过程。
具体步骤如下:
1、规则库构造。
本发明中规则库是在实际应用中根据业务需求定义的,对工作时间、工作地点、工作单位、工作职位进行条件限制。比如定义“基层工作经历”的规则,工作经历条件为工作地点在县级以下、工作单位在党政机关且工作年限满3年。
2、履历信息抽取。
利用上文所述的履历信息抽取方法,对一个人的履历信息进行抽取得到工作时间、工作地点、工作单位、工作职位等履历元数据。
3、履历元数据标识。
按照业务规则分别对信息抽取出的履历元数据进行匹配,比如哪些工作地点在县级以下、哪些工作单位属党政机关、哪些工作年限满3年,并对符合条件的履历元数据分别进行特征标识为“基层工作”。
4、履历特征标识。
按照业务规则对整条履历的元数据进行条件组合判断,比如同时符合工作地点在县级以下、工作单位属党政机关且工作年限满3年的履历特征标识为“基层工作”。
5、人才标签标识。
遍历一个人的所有履历得到一个履历的特征标识集,特征标识集即这个人所属的业务规则的标签标识。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。

Claims (9)

1.一种基于知识库的履历信息抽取系统,其特征在于包括:知识库集模块、时间信息提取模块、划分语义模块、知识匹配语义推理模块和更新知识库集模块;
知识库集模块包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用;所述行政区划信息集是对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;
时间信息提取模块,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;
划分语义模块,将去除时间信息后的履历部分拆分成一个个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;
知识匹配模块,对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;
语义分析和知识提取模块,对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;
更新知识库集模块,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。
2.根据权利要求1所述的基于知识库的履历信息抽取系统,其特征在于:将全国四级行政区划信息集构造成一棵五层知识树表示,从上到下依次为根节点(R0)、省级节点(R1)、地级节点(R2)、县级节点(R3)、乡级节点(R4),此表示结构便于在知识匹配中快速查找、补全和纠错地点信息。
3.根据权利要求1所述的基于知识库的履历信息抽取系统,其特征在于:所述知识匹配模块具体实现为:
(21)选取行政区划信息集,分层进行正向最大匹配,将分出的词标注为工作地点;
(22)选取职位信息集,将剩余语义模块部分进行逆向最大匹配,将分出的词标注为工作职位;
(23)将未匹配的剩余语义模块部分进行普通分词标注。
4.根据权利要求1所述的基于知识库的履历信息抽取系统,其特征在于:所述语义分析和知识提取模块实现为:
(31)利用行政区划信息集将地址信息的补全和修正;
(32)利用统计和规则相结合方法对词组进行组合或拆分,得出工作单位和工作职位;
(33)利用单位信息集对提取结果进行校验。
5.一种基于规则库的履历信息特征标识分析系统,其特征在于:所述特征标识分析系统包括:规则库构造模块、权利要求1-4任意之一所述的基于知识库的履历信息抽取系统、履历特征标识模块和人才标签标识模块;其中:
规则库构造模块,定义业务规则库,包括对工作年限、工作地点、工作单位和工作职位的组合要求;
基于知识库的履历信息抽取系统,对一个人的履历信息进行抽取得到工作时间、工作地点、工作单位和工作职位的履历元数据;
履历特征标识模块,按照定义的业务规则对整条履历元数据进行条件组合判断,如果符合条件则对该条履历进行特征标识;
人才标签标识模块,遍历一个人的所有履历得到一个履历特征标识集,履历特征标识集即这个人所属的业务规则的标签标识。
6.一种基于知识库的履历信息抽取方法,其特征在于实现步骤如下:
步骤1:建立知识库,知识库为行政区划信息集、职位信息集和单位信息集,所述行政区划信息集中对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;
步骤2:时间信息提取,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;
步骤3:对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;
步骤4:对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;
步骤5:将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。
7.根据权利要求6所述的基于知识库的履历信息抽取方法,其特征在于:所述步骤3具体实现为:
(21)选取行政区划信息集,分层进行正向最大匹配,将分出的词标注为工作地点;
(22)选取职位信息集,将剩余语义模块部分进行逆向最大匹配,将分出的词标注为工作职位;
(23)将未匹配的剩余语义模块部分进行普通分词标注。
8.根据权利要求6所述的基于知识库的履历信息抽取方法,其特征在于:所述步骤4具体实现为:
(31)利用行政区划信息集将地址信息的补全和修正;
(32)利用统计和规则相结合方法对词组进行组合或拆分,得出工作单位和工作职位;
(33)利用单位信息集对提取结果进行校验。
9.一种基于规则库的履历信息特征标识分析方法,其特征在于包括以下步骤:
步骤1:定义业务规则库,包括对工作年限、工作地点、工作单位、工作职位的组合要求;
步骤2:对一个人的履历信息进行抽取得到工作时间、工作地点、工作单位、工作职位等履历元数据,详细过程见上文所述;
步骤3:按照业务规则对信息抽取出的履历元数据进行匹配,并对履历元数据进行特征标识;
步骤4:按照定义的业务规则对整条履历的元数据进行条件组合判断,如果符合条件则对该条履历进行特征标识;
步骤5:遍历一个人的所有履历得到一个履历特征标识集,履历特征标识集即这个人所属的业务规则的标签标识。
CN201510457976.6A 2015-07-30 2015-07-30 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 Active CN105069560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510457976.6A CN105069560B (zh) 2015-07-30 2015-07-30 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510457976.6A CN105069560B (zh) 2015-07-30 2015-07-30 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Publications (2)

Publication Number Publication Date
CN105069560A true CN105069560A (zh) 2015-11-18
CN105069560B CN105069560B (zh) 2018-05-01

Family

ID=54498920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510457976.6A Active CN105069560B (zh) 2015-07-30 2015-07-30 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Country Status (1)

Country Link
CN (1) CN105069560B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN106933798A (zh) * 2015-12-31 2017-07-07 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN107145947A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN107590119A (zh) * 2016-07-07 2018-01-16 北京国双科技有限公司 人物属性信息抽取方法及装置
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108804408A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 基于领域专家知识体系的信息抽取系统及信息抽取方法
CN108920500A (zh) * 2018-05-24 2018-11-30 众安信息技术服务有限公司 一种时间解析方法
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109657039A (zh) * 2018-11-15 2019-04-19 中山大学 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN109767182A (zh) * 2018-12-29 2019-05-17 金现代信息产业股份有限公司 一种基于规则库的干部调整方法及系统
CN110059176A (zh) * 2019-02-28 2019-07-26 南京大学 一种基于规则的通用文本信息抽取和信息生成方法
CN110362803A (zh) * 2019-07-19 2019-10-22 北京邮电大学 一种基于领域特征词法组合的文本模板生成方法
CN110413715A (zh) * 2019-07-16 2019-11-05 联动优势科技有限公司 一种地址的标准化处理方法及装置
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110648080A (zh) * 2019-09-30 2020-01-03 石化盈科信息技术有限责任公司 基于智能点的信息物理系统及其构建方法
CN111178071A (zh) * 2019-12-26 2020-05-19 北京明略软件系统有限公司 履历信息的处理方法、装置及计算机可读存储介质
CN112036692A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN116468585A (zh) * 2023-04-20 2023-07-21 点米(北京)科技有限公司 一种基于大数据的人事信息管理系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259610A (ja) * 2001-02-27 2002-09-13 Nna Japan Co Ltd 就職サポートシステム
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN102117323A (zh) * 2011-02-21 2011-07-06 深圳埃斯欧纳信息咨询有限公司 一种推荐求职简历的处理方法和系统
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259610A (ja) * 2001-02-27 2002-09-13 Nna Japan Co Ltd 就職サポートシステム
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN102117323A (zh) * 2011-02-21 2011-07-06 深圳埃斯欧纳信息咨询有限公司 一种推荐求职简历的处理方法和系统
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈川波: "基于半结构化文本信息抽取的简历识别系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933798A (zh) * 2015-12-31 2017-07-07 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN106933798B (zh) * 2015-12-31 2020-09-08 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN107590119A (zh) * 2016-07-07 2018-01-16 北京国双科技有限公司 人物属性信息抽取方法及装置
CN107590119B (zh) * 2016-07-07 2020-12-25 北京国双科技有限公司 人物属性信息抽取方法及装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN107145947B (zh) * 2017-04-26 2020-08-07 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN107145947A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN108804408A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 基于领域专家知识体系的信息抽取系统及信息抽取方法
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108920500A (zh) * 2018-05-24 2018-11-30 众安信息技术服务有限公司 一种时间解析方法
CN108920500B (zh) * 2018-05-24 2022-02-11 众安信息技术服务有限公司 一种时间解析方法
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109657039B (zh) * 2018-11-15 2023-04-07 中山大学 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN109657039A (zh) * 2018-11-15 2019-04-19 中山大学 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN109767182A (zh) * 2018-12-29 2019-05-17 金现代信息产业股份有限公司 一种基于规则库的干部调整方法及系统
CN110059176A (zh) * 2019-02-28 2019-07-26 南京大学 一种基于规则的通用文本信息抽取和信息生成方法
CN110413715A (zh) * 2019-07-16 2019-11-05 联动优势科技有限公司 一种地址的标准化处理方法及装置
CN110362803A (zh) * 2019-07-19 2019-10-22 北京邮电大学 一种基于领域特征词法组合的文本模板生成方法
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110648080A (zh) * 2019-09-30 2020-01-03 石化盈科信息技术有限责任公司 基于智能点的信息物理系统及其构建方法
CN111178071A (zh) * 2019-12-26 2020-05-19 北京明略软件系统有限公司 履历信息的处理方法、装置及计算机可读存储介质
CN112036692A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN116468585A (zh) * 2023-04-20 2023-07-21 点米(北京)科技有限公司 一种基于大数据的人事信息管理系统和方法
CN116468585B (zh) * 2023-04-20 2023-10-24 点米(北京)科技有限公司 一种基于大数据的人事信息管理系统和方法

Also Published As

Publication number Publication date
CN105069560B (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN105069560A (zh) 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN108027818B (zh) 基于图的查询
Green et al. The skull beneath the skin: entity-relationship models of information artifacts
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
Ryu et al. Open domain question answering using Wikipedia-based knowledge model
CN106547809A (zh) 将复合关系表示在图数据库中
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
Fu et al. Automatic record linkage of individuals and households in historical census data
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
Jacob et al. sCooL: A system for academic institution name normalization
Lässig Digital History: Challenges and Opportunities for the Profession
Arasu et al. A grammar-based entity representation framework for data cleaning
Zhao et al. Business Relations in the Web: Semantics and a Case Study.
CN110334112B (zh) 一种简历信息检索方法及装置
Xu et al. Construction of chinese sports knowledge graph based on neo4j
Ritze Web-scale web table to knowledge base matching
Hovy et al. Data Acquisition and Integration in the DGRC's Energy Data Collection Project
Jotikabukkana et al. Social media text classification by enhancing well-formed text trained model
Zhao et al. Sentiment analysis based on transfer learning for Chinese ancient literature
Saleh et al. Semantic kernels for semantic parsing
Touya Lessons learned from research on multimedia summarization
Krzywicki et al. A knowledge acquisition method for event extraction and coding based on deep patterns
Gu et al. Research on building family networks based on bootstrapping and coreference resolution
Huang et al. Extracting academic activity transaction in chinese documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant