CN109472310A

CN109472310A - 确定两份简历为相同人才的识别方法及装置

Info

Publication number: CN109472310A
Application number: CN201811340166.2A
Authority: CN
Inventors: 邹丽霞; 沈剑
Original assignee: Shenzhen Bazhao Network Technology Co Ltd
Current assignee: Shenzhen Bazhao Network Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-03-15
Anticipated expiration: 2038-11-12
Also published as: CN109472310B

Abstract

本发明公开了一种确定两份简历为相同人才的识别方法及装置，该方法包括确认两份待识别简历的姓名信息并确定目标特征；根据比对规则计算两份待识别简历的目标特征的相似性，以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量；利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测，以确定两份待识别简历是否为相同人才。本发明通过结合人才多种信息能够智能、快速地识别百万级别简历中的相同人才；在简历无需联系方式时也能从企业人才库中找到过往人才，帮助猎头和HR提高招聘效率降低招聘成本；同时为简历去重、简历作弊识别、人才能力模型构建等人才数据挖掘应用提供基础。

Description

确定两份简历为相同人才的识别方法及装置

技术领域

本发明涉及人才简历识别技术，尤其涉及一种确定两份简历为相同人才的识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

在人力资源行业，简历是企业挑选和甄别求职者的重要依据。过往招聘过程中企业累积了成千上万甚至更高量级的人才简历，人才简历获取时间和来源渠道差异导致这些简历内容不尽相同。一方面，企业招聘人员需要耗费大量时间从成千上万简历中辨别相同的人才并寻找合适人选。这降低了人力资源部门的工作效率，提高了企业人才维护成本和招聘成本。另一方面，掌握大量人才简历信息的企业可以进行广泛的数据挖掘应用，比如简历作弊识别、人才能力模型构建、人才关系网络链接等等。而识别出规模简历中的相同人才是实现这些挖掘应用的基础。

现有技术中，行业也开始通过姓名、手机号或邮箱来识别相同人才，但是这些方式存在许多问题：姓名表示形式不一致或不完全、手机号变更、多个邮箱交叉使用等情形会导致相同人才错配及识别不完全等问题。另外，人力资源企业获取简历的渠道多样，简历的不同格式加大了相同简历识别的难度；若用人工浏览简历费时费力，工作效率较低。

有鉴于此，有必要提出对目前的简历识别技术进行进一步的改进。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种确定两份简历为相同人才的识别方法、装置、计算机设备及计算机可读存储介质。

为实现上述目的，本发明采用的第一个技术方案为：提供一种确定两份简历为相同人才的识别方法，包括：

确认两份待识别简历的姓名信息，在待识别简历的姓名信息为姓名全称时，根据第一模型特征组合从待识别简历中抽取对应的第一目标特征；在识别简历的姓名信息为姓氏时，根据第二模型特征组合从待识别简历中抽取对应的第二目标特征；在识别简历的姓名信息为空白时，根据第三模型特征组合从待识别简历中抽取对应的第三目标特征；

根据比对规则计算两份待识别简历的目标特征的相似性，以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量；

利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测，以确定两份待识别简历是否为相同人才。

其中，所述第一模型特征组合中有7个模型特征，分别为姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称；

所述第二模型特征组合中有7个模型特征，分别为姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称，其中，所述姓氏频繁度为中国姓氏的使用频率；

所述第三模型特征组合中有8个模型特征，分别为年龄、性别，教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称，其中，所述年龄与性别两者的加权对应姓名模型特征。

其中，还包括根据姓氏使用频率将姓氏频繁度顺次分成多个等级。

其中，所述经训练的机器学习分类器模型包括机器学习分类器模型A及机器学习分类器模型B，其中，利用机器学习分类器模型A对第一特征向量及第三特征向量进行预测，以及利用经训练的机器学习分类器模型B对第二特征向量进行预测。

其中，所述利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测之前，还包括：对机器学习分类器模型进行训练，具体包括：

在多份简历样本中对任意两份进行样本标注得到正例样本及负例样本，所述正例样本表示两份简历属于同一人，所述负例样本表示两份简历属于不同人；

确定简历样本中姓名信息，在姓名信息为姓名全称时，分别选取姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第一模型特征组合；在姓名信息为姓氏时，分别选取姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第二模型特征组合；

根据比对规则计算两份简历样本中模型特征的相似性，以及根据相似性与姓名信息生成对应的两个样本特征向量；

根据分类算法分别对两个样本特征向量进行训练，以得到最优的机器学习分类器模型A及机器学习分类器模型B。

其中，所述分类算法包括随机森林算法、梯度提升树算法、支持向量机算法、逻辑回归算法及深度学习算法中的至少一种。

为实现上述目的，本发明采用的第二个技术方案为：提供一种确定两份简历为相同人才的识别装置，包括：

抽取模块，用于确认两份待识别简历的姓名信息，在待识别简历的姓名信息为姓名全称时，根据第一模型特征组合从待识别简历中抽取对应的第一目标特征；在识别简历的姓名信息为姓氏时，根据第二模型特征组合从待识别简历中抽取对应的第二目标特征；在识别简历的姓名信息为空白时，根据第三模型特征组合从待识别简历中抽取对应的第三目标特征；

计算模块，用于根据比对规则计算两份待识别简历的目标特征的相似性，以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量；

预测模块，用于利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测，以确定两份待识别简历是否为相同人才。

为实现上述目的，本发明采用的第三个技术方案为：提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明采用的第四个技术方案为：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的技术方案采用确认两份待识别简历的姓名信息确定抽取的模型特征组合，而后计算两份待识别简历的目标特征的相似性与姓名信息生成对应的特征向量，最后根据利用经训练的机器学习分类器模型对特征向量进行预测，以识别出两份简历是否为相同人才，相比于现有技术中的人工识别，能够提高简历的识别效率；综上，通过上述的方案能够结合人才多种信息智能、快速地识别百万级别简历中的相同人才；在简历无需联系方式时也能从企业人才库中找到过往人才，帮助猎头和HR提高招聘效率降低招聘成本；同时为简历去重、简历作弊识别、人才能力模型构建等人才数据挖掘应用提供基础。

附图说明

图1为本发明一实施例确定两份简历为相同人才的识别方法的方法流程图；

图2为本发明另一实施例确定两份简历为相同人才的识别方法的方法流程图；

图3为图2中对机器学习分类器模型进行训练的方法流程图；

图4为本发明一实施例确定两份简历为相同人才的识别装置的模块方框图；

图5为本发明一实施例计算机设备的内部结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参照图1，在本发明实施例中，该确定两份简历为相同人才的识别方法，包括：

步骤S10、确认两份待识别简历的姓名信息，在待识别简历的姓名信息为姓名全称时，根据第一模型特征组合从待识别简历中抽取对应的第一目标特征；在识别简历的姓名信息为姓氏时，根据第二模型特征组合从待识别简历中抽取对应的第二目标特征；在识别简历的姓名信息为空白时，根据第三模型特征组合从待识别简历中抽取对应的第三目标特征；本步骤中，基于对姓名信息的确认来抽取不同给的模型特征。姓名信息包括有三类，第一种是简历上的姓名为姓名全称，例如张三；第二种是简历上的姓名为姓氏，例如张先生；第三种简历上的姓名为空白。不同情形下模型训练和简历预测会有些许差异，通过分开预测可以提高简历为相同人才，即两份简历为同一人的准确性。对应的，当姓名为姓名全称时，从简历中抽取第一目标特征；当姓名为姓氏时，从简历中抽取第二目标特征；当姓名为空白时，从简历中抽取第三目标特征。

步骤S20、根据比对规则计算两份待识别简历的目标特征的相似性，以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量；本步骤中，该比对规则包括simhash汉明距离算法、编辑距离算法、余弦距离算法等，计算出相似性后，可根据相似性与姓名信息生成对应的特征向量。

步骤S30、利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测，以确定两份待识别简历是否为相同人才。本步骤中，将生成的特征向量导入经训练的机器学习分类器模型后，可以由机器学习分类器模型直接预测两份简历是否为相同人才。本步骤中，由于年龄和性别对人才的辨别力度弱于姓名，因此，没有姓名的简历识别会根据年龄和性别的加权趋近或等同模型特征，该加权值可以根据预测概率值和特征向量元素值来制定苛刻的规则，并根据此规则预测待识别简历。

上述实施例中，所述第一模型特征组合中有7个模型特征，分别为姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称，具体的，两份简历的7个特征信息分别是[张三,北京大学,统计学,2010-06,2014-06，腾讯科技,产品经理]，[张三,北京大学,数理统计,2010-05,2014-07，腾讯,产品经理],它们生成的特征向量是[1,1,20,1,1,12,1]。该7个特征针对简历中有姓名全称时选取，保证简历识别的准确性，有利于降低处理的难度。

所述第二模型特征组合中有7个模型特征，分别为姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称，其中，所述姓氏频繁度为中国姓氏的使用频率；具体的，两份简历的7个特征信息分别是[张先生,北京大学,统计学,2010-06,2014-06，腾讯科技,产品经理]，[张小姐,北京大学,数理统计,2010-05,2014-07，腾讯,产品经理],它们生成的特征向量是[1,1,20,1,1,12,1]。该7个特征针对简历中有姓氏全称时选取，保证简历识别的准确性，有利于降低处理的难度。

所述第三模型特征组合中有8个模型特征，分别为年龄、性别，教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称，其中，所述年龄与性别两者的加权对应姓名模型特征。具体的，两份简历的8个特征信息分别是[24岁,男，北京大学,统计学,2010-06,2014-06，腾讯科技,产品经理]，[24岁,男，北京大学,数理统计,2010-05,2014-07，腾讯,产品经理],它们生成的特征向量是[1,1,20,1,1,12,1]。年龄和性别共同沟通特征向量的第一个元素年龄与性别两者的加权的具体算法可以根据实际应用灵活设计，以趋近或等同姓名模型特征的权值。

上述实施例中，姓氏频繁度与姓氏使用频率相关，具体为，姓氏使用频率越高对应的姓氏频繁度越低，反之则越高。还包括根据姓氏使用频率将姓氏频繁度顺次分成多个等级。本方案中，将姓氏频繁度分为7个等级。如‘王’、‘张’、‘李’、‘陈’、‘刘’的姓氏频繁度为1，‘岑’、‘迟’、‘轩辕’的姓氏频繁度为7，频繁度值越小姓氏越常见。

在一具体的实施方式中，所述经训练的机器学习分类器模型包括机器学习分类器模型A及机器学习分类器模型B，其中，利用机器学习分类器模型A对第一特征向量及第三特征向量进行预测，以及利用经训练的机器学习分类器模型B对第二特征向量进行预测。经测试，利用机器学习分类器模型进行预测的准确率为95％，利用机器学习分类器模型B进行预测的准确率为92％。

请参照图2，图2为本发明另一实施例确定两份简历为相同人才的识别方法的方法流程图。从图2中可以看出，该方法流程同时包含有对确定两份简历为相同人才的识别方法直接处理流程，还包含了对机器学习分类器模型的预处理流程，也即，下述的对机器学习分类器模型进行训练。需要注意的是，在机器学习分类器模型预测时，需要事先对机器学习分类器进行学习。

请参照图3，图3为图2中对机器学习分类器模型进行训练的方法流程图。所述利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测之前，还包括：对机器学习分类器模型进行训练，具体包括：

步骤S01、在多份简历样本中对任意两份进行样本标注得到正例样本及负例样本，所述正例样本表示两份简历属于同一人，所述负例样本表示两份简历属于不同人；本步骤之前，还包括将所有简历样本解析至结构化数据，本方案中，总共整理3265份简历样本，包括1000个人才，这说明一个人才平均可能存在3.2份不同的简历。本方案中，相同人才的识别主要运用有监督的机器学习方法，因此必须先标注正例样本及负例样本。假设任意两份简历作为一个比对组，3265份简历两两比较会产生5328480个比对组，为降低工作量这里根据相同姓名来选择要比较的两份简历。如果一个比对组中的两份简历属于同一个人，那么这个比对组属于正例样本，如果不是，则属于负例样本。两两比对共生成4566个正例样本组，为保证正负样例均衡，在所有负例中随机选取9000份作为负例样本组，合计共13566份已标注的样本。每个对比组的比对结果用唯一id标记。

步骤S02、确定简历样本中姓名信息，在姓名信息为姓名全称时，分别选取姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第一模型特征组合；在姓名信息为姓氏时，分别选取姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第二模型特征组合；

步骤S03、根据比对规则计算两份简历样本中模型特征的相似性，以及根据相似性与姓名信息生成对应的两个样本特征向量；步骤S02及S03的具体示例，请参照上述的举例说明，此处不再赘述。

步骤S04、根据分类算法分别对两个样本特征向量进行训练，以得到最优的机器学习分类器模型A及机器学习分类器模型B。本步骤中，机器学习分类器模型A可以对抽取出第一特征向量及第三特征向量的简历进行预测，机器学习分类器模型B可以对抽取出第二特征向量的简历进行预测。

具体的，所述分类算法包括随机森林算法、梯度提升树算法、支持向量机算法、逻辑回归算法及深度学习算法中的至少一种。分类算法为多种，利用某种或某几种分类算法预测的准确率并不相同，本方案根据预测的准确率选择最优的算法，以训练出最优的机器学习分类器模型A及机器学习分类器模型B，提高预测的可靠性。

请参照图4，图4为本发明一实施例确定两份简历为相同人才的识别装置的模块方框图。在本发明的实施例中，该确定两份简历为相同人才的识别装置，包括：

抽取模块10，用于确认两份待识别简历的姓名信息，在待识别简历的姓名信息为姓名全称时，根据第一模型特征组合从待识别简历中抽取对应的第一目标特征；在识别简历的姓名信息为姓氏时，根据第二模型特征组合从待识别简历中抽取对应的第二目标特征；在识别简历的姓名信息为空白时，根据第三模型特征组合从待识别简历中抽取对应的第三目标特征；

计算模块20，用于根据比对规则计算两份待识别简历的目标特征的相似性，以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量；

预测模块30，用于利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测，以确定两份待识别简历是否为相同人才。

本实施例中，先通过选择模块10，可以从批量简历中选择两份待识别简历，然后通过抽取模块10，在根据确认两份待识别简历的姓名信息确定抽取的模型特征组合，在通过计算模块20计算两份待识别简历的目标特征的相似性与姓名信息生成对应的特征向量，最后通过预测模块30，利用经训练的机器学习分类器模型对特征向量进行预测，以识别出两份简历是否为相同人才，相比于现有技术中的人工识别，能够提高简历的识别效率；综上，通过上述的方案能够结合人才多种信息智能、快速地识别百万级别简历中的相同人才；在简历无需联系方式时也能从企业人才库中找到过往人才，帮助猎头和HR提高招聘效率降低招聘成本；同时为简历去重、简历作弊识别、人才能力模型构建等人才数据挖掘应用提供基础。除了上述模块外，本方案还包括有解析模块，用于从批量简历中选择两份待预测的简历文本，然后对简历文本分别进行解析得到对应的结构化简历，以通过将简历文本转化成结构化数据，能够方便后续简历特征的抽取及计算。还包括训练模块，用于对机器学习分类器模型进行训练，具体包括：在多份简历样本中对任意两份进行样本标注得到正例样本及负例样本，所述正例样本表示两份简历属于同一人，所述负例样本表示两份简历属于不同人；确定简历样本中姓名信息，在姓名信息为姓名全称时，分别选取姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第一模型特征组合；在姓名信息为姓氏时，分别选取姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第二模型特征组合；计算两份简历样本中模型特征的相似性，以及根据相似性生成对应的两个样本特征向量；根据分类算法分别对两个样本特征向量进行训练，以得到最优的机器学习分类器模型A及机器学习分类器模型B。

请参照图5，图5为图5为本发明一实施例计算机设备的内部结构图。在一实施例中，该计算机设备包括通过系统总线连接的处理器、存储器及网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种确定两份简历为相同人才的识别方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以上各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种确定两份简历为相同人才的识别方法，其特征在于，所述确定两份简历为相同人才的识别方法，包括：

2.如权利要求1所述的确定两份简历为相同人才的识别方法，其特征在于，所述第一模型特征组合中有7个模型特征，分别为姓名、教育背景中的学校名称、专业、教育开始时间、教育开始时间、工作经历中的所在公司名称及职位名称；

3.如权利要求2所述的确定两份简历为相同人才的识别方法，其特征在于，还包括根据姓氏使用频率将姓氏频繁度顺次分成多个等级。

4.如权利要求2所述的确定两份简历为相同人才的识别方法，其特征在于，所述经训练的机器学习分类器模型包括机器学习分类器模型A及机器学习分类器模型B，具体的，利用机器学习分类器模型A对第一特征向量及第三特征向量进行预测，以及利用经训练的机器学习分类器模型B对第二特征向量进行预测。

5.如权利要求1所述的确定两份简历为相同人才的识别方法，其特征在于，所述利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测之前，还包括：对机器学习分类器模型进行训练，具体包括：

根据对比规则计算两份简历样本中模型特征的相似性，以及根据相似性与姓名信息生成对应的两个样本特征向量；

6.如权利要求5所述的确定两份简历为相同人才的识别方法，其特征在于，所述分类算法包括随机森林算法、梯度提升树算法、支持向量机算法、逻辑回归算法及深度学习算法中的至少一种。

7.一种确定两份简历为相同人才的识别装置，其特征在于，所述确定两份简历为相同人才的识别装置，包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。