CN109740147B

CN109740147B - 一种大数量人才简历去重匹配分析方法

Info

Publication number: CN109740147B
Application number: CN201811532406.9A
Authority: CN
Inventors: 郑锐韬; 涂旭平; 李勇波; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-08-04
Anticipated expiration: 2038-12-14
Also published as: CN109740147A

Abstract

本发明涉及大数据匹配分析技术领域，尤其是一种大数量人才简历去重匹配分析方法。本发明方法基于LAS(潜在语义分析)算法及FP‑Growth算法，利用LAS(潜在语义分析)算法高效的语义分析，获取大数量人才简历的特征，基于FP‑Growth算法对简历特征进行关联匹配，从而判断大数量人才简历中是否为重复的一个人的信息。本发明方法提高了传统通过两两人才简历特征一一匹配分析的效率；使大数量的人才简历可快速分别出同为一个人的简历并进行合并；减少了大量简历的重复问题，为后续的检索、查询提供了高效的信息内容。

Description

一种大数量人才简历去重匹配分析方法

技术领域

本发明涉及大数据匹配分析技术领域，尤其是一种大数量人才简历去重匹配分析方法。

背景技术

随着人才市场的发展，网上出现了大量的人才市场网；并有大量的人才在各大人才市场网上注册并填写个人简历信息。对于企业来说，查找人才并确定人才是一个刚需，如何准确查找到需要的人才，则需要汇总各人才市场上的人才简历信息；一般可通过爬虫进行获取，然后从中获取各人才的信息。

在获取、收集各大人才市场网的个人简历的过程，会遇到同一个人但在多个人才市场网上登记的情况；但是由于一些获取数据的流程的原因，一般无法获取人才简历的姓名或明确的特征信息；所以在获取了大数量的人才简历后，如何快速地实现重复人才简历的识别，涉及快速提高人才查找的效率。一般通过爬虫获取的资料，都为非结构化的信息，所以就需通过技术的方法，解决大量人才简历去重匹配识别问题，提高人才简历的查找效率。

发明内容

本发明解决的技术问题在于提供一种大数量人才简历去重匹配分析方法；解决人才简历去重匹配识别问题，提高人才简历的查找效率。

本发明解决上述技术问题的技术方案是：

所述的方法包括以下步骤：

步骤1：获取大数量人才简历的内容，分别按标点符号进行删除处理；

步骤2：输入每个处理后的简历信息，构建形成基于每个人才简历的词-文档矩阵，每个人才简历分析得出多个代表词语，及各词语的出现次数，按出现的次数进行统计；

步骤3：对统计后的每个简历的词频进行处理，去除常用的介词、副词、助词，对于单字出现频率较高的词，进行分开另行统计处理；把处理后的各个简历的词频按简历特征进行一对多的保存，形成各个简历的特征；

步骤4：从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析，构建FP-Growth关联树进行两两关联分析；获取各人才简历基于TrieTree提取出来的特征作为输入，分析两两人才简历的关联度；

步骤5：经过关联分析处理后，按简历对获取有关联的特征及特征的词频，对关联的特征的词频进行统计，关联出来的简历特征按词频分别统计相同的词汇的数据，统计相同词汇的占比；

步骤6：分析进行关联对比的人才简历间的词频的词汇相同比率，超过50的相同词汇，判定为同一个人的不同简历，可合并为同一个人的信息；对于低于10％的简历，判断为不是同一个人；对于相同率在10％～50％的简历，按相同率形成匹配度，进行标识，并可后续由人工进行判定。

所述的步骤5中，把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分：

1)、词频次数大于1、且词频的数量大于20的：对于此部分的识别率，占识别匹配分析的比重60％；

2)、词频数量为1的，且词频长度大于2的对于此部分的识别率，占识别匹配分析的比重40％。

在所述的步骤5中，大数量人才简历去重匹配分析的过程为：

1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇，统计相同的数量，并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值，形成词频次数大于1、且词频的数量大于20的词汇的相识度；

2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的，且词频长度大于2的词汇，统计相同的数量，并除以两个或更多的简历中词频数量为1的，且词频长度大于2的最大值，形成词频数量为1、且词频长度大于2的词汇的相识度；

3)、1)中的相识度乘以60％加上2)中的相识度乘以40％，得出两两人才简历对的总的相识度。

所述步骤6中的词汇相同比率即词汇的相似度；对于总的相识度大于50％表示两个人才简历为同一个人，简历可合并为同一个人的名下；对于总的相似度小于10％表示两个人才简历不是同一个人，而且两份简历的相识度极低；对于总的相似度在10％至50％区间，表两份人才简历有相关的匹配度，相似度越高表示匹配度越高，可进行人工介入识别，同时也可为后续的人才简历检索，提供人才画像。

本发明的有益效果是：

通过本方法，获取人才简历的特征后，通过FP-Growth算法基于树状的关联分析，大大提高了传统通过两两人才简历特征一一匹配分析的效率，使大数量的人才简历可快速分别出同为一个人的简历并进行合并，对于从不同的渠道获取的人才简历，就算不知道其姓名，也能快速地进行去重识别，匹配后出来的简历可以归类为同一个人的信息，减少了大量简历的重复问题，为后续的检索、查询提供了高效的信息内容。

附图说明

下面结合附图对本发明进一步说明：

附图1是本发明人才简历去重匹配分析流程图；。

具体实施方式

见图1所示，本发明的流程如下：

步骤1：获取大数量人才简历的内容，分别按标点符号进行删除处理，从而形成可用于LAS算法输入的简历内容；

步骤3：对统计后的每个简历的词频进行处理，去除常用的介词、副词、助词等，对于单字出现频率较高的词，进行分开另行统计处理；把处理后的各个简历的词频按简历特征进行一对多的保存，形成各个简历的特征；

步骤4：从开始获取第一个简历，与后面的各个简历形成人才简历对进行两两关联分析，构建FP-Growth关联树进行两两关联分析，获取各人才简历基于LSA提取出来的代表词语作为输入，分析两两人才简历的关联度；

步骤5：经过关联分析处理后的按简历对获取有关联的特征及特征的词频，对关联的特征的词频进行统计，分两部分进行比较：一是相关联的特征的词频次数大于1、且关联的特征的数量大于20的；另一部分是相关联的特征的词频数量为1的，且关联的特征的长度大于2的词汇进行匹配；关联出来的简历特征按词频的长度分别统计相同的语汇的数据，统计相同的占比；

步骤6：分析进行关联对比的人才简历间的词频的词汇相同比率，超过50的相同词汇，基本可判定为同一个人的不同简历，可合并为同一个人的信息；对于低于10％的简历，可判断为不是同一个人；对于相同率在10％～50％的简历，可按相同率形成匹配度，进行标识，并可后续由人工进行判定，从而实现同名、同音简历的匹配分析。

获取大量的人才简历的过程中，有可能是通过基于网络爬虫获取，或是通过集中式的文档获取，形成的大数量人才简历只有简历内容，而没有明确的姓名或是明显的特征；所有的人才简历，按标点符号进行删除处理，形成简历的输入集。

对于中文简历，裁剪了标点符号的简历，作为LSA算法的输入，从而形成基于简历内容的词-文档矩阵，各简历出现的代表词语，包括了出现的次数的统计。

统计出来的各人才简历的代表词语及词频，对于特殊字符的处理，不管是什么简历，都可形成统一的处理方法，特别是对于去除各介词、副词、助词等特定的词汇，可进行统一的处理；处理过后的各人才简历的词频，形成每个简历的特征，通过一对多的方式进行保存。

按顺序从第一份人才简历开始，与后面的人才简历形成两两的简历对，分别获取简历对的特征作为关联分析的项，进行简历的两两FP-Growth关联分析，由于关联分析是基于树的分析，效率比进行一一的比对有明显的效率提升，分析后分别提取出两两简历对相关联的特征，对应相应在各简历的词频。

把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分：

1)、词频次数大于1、且词频的数量大于20的：此类信息基于标识了一个人的基本信息，是识别一个人才简历的关键词汇，对于此部分的识别率，占识别匹配分析的比重60％；

2)、词频数量为1的，且词频需长度大于2的词汇进行匹配：此类信息是人才简历识别的辅助信息，此信息也可间接识别人才简历对的匹配度，对于此部分的识别率，占识别匹配分析的比重40％；

在所述的步骤5中，大数量人才简历去重匹配分析的过程为：

2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的，且词频需长度大于2的词汇，统计相同的数量，并除以两个或更多的简历中词频数量为1的，且词频需长度大于2的最大值，形成词频数量为1的，且词频需长度大于2的词汇的相识度；

3)、1)中的相识度乘以60％加上2)中的相识度乘以40％，得出两两人才简历对的总的相识度；

基于两两关联分析获取的简历对中相关联的特征去重匹配分析的相识度，对于总的相识度大于50％表示两个人才简历为同一个人，简历可合并为同一个人的名下；对于总的相识度小于10％表示两个人才简历不是同一个人，而且两份简历的相识度极低；对于总的相识度在10％至50％区间，表两份人才简历有相关的匹配度，相识度越高表示匹配度越高，可进行人工介入识别，同时也可为后续的人才简历检索，提供人才画像；

本发明方法基于LSA算法优秀的插入和查询时间复杂度，及FP-Growth算法高效的关联分析算法；利用LAS(潜在语义分析)算法高效的语义分析，获取大数量人才简历的特征；基于FP-Growth算法对简历特征进行关联匹配；从而判断大数量人才简历中是否为重复的一个人的信息，为大量的人才数据的去重、简化、合并人才简历提供了一种简单高效的方法。

Claims

1.一种大数量人才简历去重匹配分析方法，其特征在于：所述的方法包括以下步骤：

步骤1：获取一定数量人才简历的内容，分别按标点符号进行删除处理；

步骤3：对统计后的每个简历的词频进行处理，去除介词、副词、助词，对于单字出现达到一定频率的词进行分开另行统计处理；把处理后的各个简历的词频按简历特征进行一对多的保存，形成各个简历的特征；

步骤5：经过关联分析处理后，按简历对获取有关联的特征及特征的词频，对关联的特征的词频进行统计，关联出来的简历特征按词频分别统计相同的词汇的数据，统计相同词汇的占比，即词汇相同率；

步骤6：分析进行关联对比的人才简历间的词频的词汇相同率，超过50％相同率的简历，判定为同一个人的不同简历，合并为同一个人的信息；对于低于10％相同率的简历，判断为不是同一个人；对于相同率在10％～50％的简历，按相同率形成匹配度，进行标识，并可后续由人工进行判定；

所述步骤6中的词汇相同率即词汇的相似度。

2.根据权利要求1所述的方法，其特征在于：

1)、词频次数大于1且词频的数量大于20的：对于此部分的识别率，占识别匹配分析的比重60％；

2)、词频数量为1的且词频长度大于2的：对于此部分的识别率，占识别匹配分析的比重40％。

3.根据权利要求1所述的方法，其特征在于：

在所述的步骤5中，大数量人才简历去重匹配分析的过程为：

1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇，统计相同的数量，并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值，形成词频次数大于1、且词频的数量大于20的词汇的相似度；

2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的，且词频长度大于2的词汇，统计相同的数量，并除以两个或更多的简历中词频数量为1的，且词频长度大于2的最大值，形成词频数量为1、且词频长度大于2的词汇的相似度；

3)、1)中的相似度乘以60％加上2)中的相似度乘以40％，得出两两人才简历对的总的相似度。

4.根据权利要求2所述的方法，其特征在于：

在所述的步骤5中，大数量人才简历去重匹配分析的过程为：

5.根据权利要求3或4所述的方法，其特征在于：对于总的相似度大于50％表示两个人才简历为同一个人，简历合并为同一个人的名下；对于总的相似度小于10％表示两个人才简历不是同一个人，而且两份简历的相似度极低；对于总的相似度在10％至50％区间，表两份人才简历有相关的匹配度，相似度越高表示匹配度越高，可进行人工介入识别，同时也可为后续的人才简历检索，提供人才画像。