CN109740147B - 一种大数量人才简历去重匹配分析方法 - Google Patents

一种大数量人才简历去重匹配分析方法 Download PDF

Info

Publication number
CN109740147B
CN109740147B CN201811532406.9A CN201811532406A CN109740147B CN 109740147 B CN109740147 B CN 109740147B CN 201811532406 A CN201811532406 A CN 201811532406A CN 109740147 B CN109740147 B CN 109740147B
Authority
CN
China
Prior art keywords
resume
word frequency
word
talent
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811532406.9A
Other languages
English (en)
Other versions
CN109740147A (zh
Inventor
郑锐韬
涂旭平
李勇波
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201811532406.9A priority Critical patent/CN109740147B/zh
Publication of CN109740147A publication Critical patent/CN109740147A/zh
Application granted granted Critical
Publication of CN109740147B publication Critical patent/CN109740147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据匹配分析技术领域,尤其是一种大数量人才简历去重匹配分析方法。本发明方法基于LAS(潜在语义分析)算法及FP‑Growth算法,利用LAS(潜在语义分析)算法高效的语义分析,获取大数量人才简历的特征,基于FP‑Growth算法对简历特征进行关联匹配,从而判断大数量人才简历中是否为重复的一个人的信息。本发明方法提高了传统通过两两人才简历特征一一匹配分析的效率;使大数量的人才简历可快速分别出同为一个人的简历并进行合并;减少了大量简历的重复问题,为后续的检索、查询提供了高效的信息内容。

Description

一种大数量人才简历去重匹配分析方法
技术领域
本发明涉及大数据匹配分析技术领域,尤其是一种大数量人才简历去重匹配分析方法。
背景技术
随着人才市场的发展,网上出现了大量的人才市场网;并有大量的人才在各大人才市场网上注册并填写个人简历信息。对于企业来说,查找人才并确定人才是一个刚需,如何准确查找到需要的人才,则需要汇总各人才市场上的人才简历信息;一般可通过爬虫进行获取,然后从中获取各人才的信息。
在获取、收集各大人才市场网的个人简历的过程,会遇到同一个人但在多个人才市场网上登记的情况;但是由于一些获取数据的流程的原因,一般无法获取人才简历的姓名或明确的特征信息;所以在获取了大数量的人才简历后,如何快速地实现重复人才简历的识别,涉及快速提高人才查找的效率。一般通过爬虫获取的资料,都为非结构化的信息,所以就需通过技术的方法,解决大量人才简历去重匹配识别问题,提高人才简历的查找效率。
发明内容
本发明解决的技术问题在于提供一种大数量人才简历去重匹配分析方法;解决人才简历去重匹配识别问题,提高人才简历的查找效率。
本发明解决上述技术问题的技术方案是:
所述的方法包括以下步骤:
步骤1:获取大数量人才简历的内容,分别按标点符号进行删除处理;
步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;
步骤3:对统计后的每个简历的词频进行处理,去除常用的介词、副词、助词,对于单字出现频率较高的词,进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;
步骤4:从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析,构建FP-Growth关联树进行两两关联分析;获取各人才简历基于TrieTree提取出来的特征作为输入,分析两两人才简历的关联度;
步骤5:经过关联分析处理后,按简历对获取有关联的特征及特征的词频,对关联的特征的词频进行统计,关联出来的简历特征按词频分别统计相同的词汇的数据,统计相同词汇的占比;
步骤6:分析进行关联对比的人才简历间的词频的词汇相同比率,超过50的相同词汇,判定为同一个人的不同简历,可合并为同一个人的信息;对于低于10%的简历,判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并可后续由人工进行判定。
所述的步骤5中,把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分:
1)、词频次数大于1、且词频的数量大于20的:对于此部分的识别率,占识别匹配分析的比重60%;
2)、词频数量为1的,且词频长度大于2的对于此部分的识别率,占识别匹配分析的比重40%。
在所述的步骤5中,大数量人才简历去重匹配分析的过程为:
1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇,统计相同的数量,并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值,形成词频次数大于1、且词频的数量大于20的词汇的相识度;
2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的,且词频长度大于2的词汇,统计相同的数量,并除以两个或更多的简历中词频数量为1的,且词频长度大于2的最大值,形成词频数量为1、且词频长度大于2的词汇的相识度;
3)、1)中的相识度乘以60%加上2)中的相识度乘以40%,得出两两人才简历对的总的相识度。
所述步骤6中的词汇相同比率即词汇的相似度;对于总的相识度大于50%表示两个人才简历为同一个人,简历可合并为同一个人的名下;对于总的相似度小于10%表示两个人才简历不是同一个人,而且两份简历的相识度极低;对于总的相似度在10%至50%区间,表两份人才简历有相关的匹配度,相似度越高表示匹配度越高,可进行人工介入识别,同时也可为后续的人才简历检索,提供人才画像。
本发明的有益效果是:
通过本方法,获取人才简历的特征后,通过FP-Growth算法基于树状的关联分析,大大提高了传统通过两两人才简历特征一一匹配分析的效率,使大数量的人才简历可快速分别出同为一个人的简历并进行合并,对于从不同的渠道获取的人才简历,就算不知道其姓名,也能快速地进行去重识别,匹配后出来的简历可以归类为同一个人的信息,减少了大量简历的重复问题,为后续的检索、查询提供了高效的信息内容。
附图说明
下面结合附图对本发明进一步说明:
附图1是本发明人才简历去重匹配分析流程图;。
具体实施方式
见图1所示,本发明的流程如下:
步骤1:获取大数量人才简历的内容,分别按标点符号进行删除处理,从而形成可用于LAS算法输入的简历内容;
步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;
步骤3:对统计后的每个简历的词频进行处理,去除常用的介词、副词、助词等,对于单字出现频率较高的词,进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;
步骤4:从开始获取第一个简历,与后面的各个简历形成人才简历对进行两两关联分析,构建FP-Growth关联树进行两两关联分析,获取各人才简历基于LSA提取出来的代表词语作为输入,分析两两人才简历的关联度;
步骤5:经过关联分析处理后的按简历对获取有关联的特征及特征的词频,对关联的特征的词频进行统计,分两部分进行比较:一是相关联的特征的词频次数大于1、且关联的特征的数量大于20的;另一部分是相关联的特征的词频数量为1的,且关联的特征的长度大于2的词汇进行匹配;关联出来的简历特征按词频的长度分别统计相同的语汇的数据,统计相同的占比;
步骤6:分析进行关联对比的人才简历间的词频的词汇相同比率,超过50的相同词汇,基本可判定为同一个人的不同简历,可合并为同一个人的信息;对于低于10%的简历,可判断为不是同一个人;对于相同率在10%~50%的简历,可按相同率形成匹配度,进行标识,并可后续由人工进行判定,从而实现同名、同音简历的匹配分析。
获取大量的人才简历的过程中,有可能是通过基于网络爬虫获取,或是通过集中式的文档获取,形成的大数量人才简历只有简历内容,而没有明确的姓名或是明显的特征;所有的人才简历,按标点符号进行删除处理,形成简历的输入集。
对于中文简历,裁剪了标点符号的简历,作为LSA算法的输入,从而形成基于简历内容的词-文档矩阵,各简历出现的代表词语,包括了出现的次数的统计。
统计出来的各人才简历的代表词语及词频,对于特殊字符的处理,不管是什么简历,都可形成统一的处理方法,特别是对于去除各介词、副词、助词等特定的词汇,可进行统一的处理;处理过后的各人才简历的词频,形成每个简历的特征,通过一对多的方式进行保存。
按顺序从第一份人才简历开始,与后面的人才简历形成两两的简历对,分别获取简历对的特征作为关联分析的项,进行简历的两两FP-Growth关联分析,由于关联分析是基于树的分析,效率比进行一一的比对有明显的效率提升,分析后分别提取出两两简历对相关联的特征,对应相应在各简历的词频。
把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分:
1)、词频次数大于1、且词频的数量大于20的:此类信息基于标识了一个人的基本信息,是识别一个人才简历的关键词汇,对于此部分的识别率,占识别匹配分析的比重60%;
2)、词频数量为1的,且词频需长度大于2的词汇进行匹配:此类信息是人才简历识别的辅助信息,此信息也可间接识别人才简历对的匹配度,对于此部分的识别率,占识别匹配分析的比重40%;
在所述的步骤5中,大数量人才简历去重匹配分析的过程为:
1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇,统计相同的数量,并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值,形成词频次数大于1、且词频的数量大于20的词汇的相识度;
2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的,且词频需长度大于2的词汇,统计相同的数量,并除以两个或更多的简历中词频数量为1的,且词频需长度大于2的最大值,形成词频数量为1的,且词频需长度大于2的词汇的相识度;
3)、1)中的相识度乘以60%加上2)中的相识度乘以40%,得出两两人才简历对的总的相识度;
基于两两关联分析获取的简历对中相关联的特征去重匹配分析的相识度,对于总的相识度大于50%表示两个人才简历为同一个人,简历可合并为同一个人的名下;对于总的相识度小于10%表示两个人才简历不是同一个人,而且两份简历的相识度极低;对于总的相识度在10%至50%区间,表两份人才简历有相关的匹配度,相识度越高表示匹配度越高,可进行人工介入识别,同时也可为后续的人才简历检索,提供人才画像;
本发明方法基于LSA算法优秀的插入和查询时间复杂度,及FP-Growth算法高效的关联分析算法;利用LAS(潜在语义分析)算法高效的语义分析,获取大数量人才简历的特征;基于FP-Growth算法对简历特征进行关联匹配;从而判断大数量人才简历中是否为重复的一个人的信息,为大量的人才数据的去重、简化、合并人才简历提供了一种简单高效的方法。

Claims (5)

1.一种大数量人才简历去重匹配分析方法,其特征在于:所述的方法包括以下步骤:
步骤1:获取一定数量人才简历的内容,分别按标点符号进行删除处理;
步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;
步骤3:对统计后的每个简历的词频进行处理,去除介词、副词、助词,对于单字出现达到一定频率的词进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;
步骤4:从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析,构建FP-Growth关联树进行两两关联分析;获取各人才简历基于TrieTree提取出来的特征作为输入,分析两两人才简历的关联度;
步骤5:经过关联分析处理后,按简历对获取有关联的特征及特征的词频,对关联的特征的词频进行统计,关联出来的简历特征按词频分别统计相同的词汇的数据,统计相同词汇的占比,即词汇相同率;
步骤6:分析进行关联对比的人才简历间的词频的词汇相同率,超过50%相同率的简历,判定为同一个人的不同简历,合并为同一个人的信息;对于低于10%相同率的简历,判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并可后续由人工进行判定;
所述步骤6中的词汇相同率即词汇的相似度。
2.根据权利要求1所述的方法,其特征在于:
所述的步骤5中,把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分:
1)、词频次数大于1且词频的数量大于20的:对于此部分的识别率,占识别匹配分析的比重60%;
2)、词频数量为1的且词频长度大于2的:对于此部分的识别率,占识别匹配分析的比重40%。
3.根据权利要求1所述的方法,其特征在于:
在所述的步骤5中,大数量人才简历去重匹配分析的过程为:
1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇,统计相同的数量,并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值,形成词频次数大于1、且词频的数量大于20的词汇的相似度;
2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的,且词频长度大于2的词汇,统计相同的数量,并除以两个或更多的简历中词频数量为1的,且词频长度大于2的最大值,形成词频数量为1、且词频长度大于2的词汇的相似度;
3)、1)中的相似度乘以60%加上2)中的相似度乘以40%,得出两两人才简历对的总的相似度。
4.根据权利要求2所述的方法,其特征在于:
在所述的步骤5中,大数量人才简历去重匹配分析的过程为:
1)基于两两关联分析获取的简历对中相关联的特征得出的词频次数大于1、且词频的数量大于20的词汇,统计相同的数量,并除以两个或更多的简历中词频次数大于1、且词频的数量大于20的词汇的最大值,形成词频次数大于1、且词频的数量大于20的词汇的相似度;
2)、基于两两关联分析获取的简历对中相关联的特征得出的词频数量为1的,且词频长度大于2的词汇,统计相同的数量,并除以两个或更多的简历中词频数量为1的,且词频长度大于2的最大值,形成词频数量为1、且词频长度大于2的词汇的相似度;
3)、1)中的相似度乘以60%加上2)中的相似度乘以40%,得出两两人才简历对的总的相似度。
5.根据权利要求3或4所述的方法,其特征在于:对于总的相似度大于50%表示两个人才简历为同一个人,简历合并为同一个人的名下;对于总的相似度小于10%表示两个人才简历不是同一个人,而且两份简历的相似度极低;对于总的相似度在10%至50%区间,表两份人才简历有相关的匹配度,相似度越高表示匹配度越高,可进行人工介入识别,同时也可为后续的人才简历检索,提供人才画像。
CN201811532406.9A 2018-12-14 2018-12-14 一种大数量人才简历去重匹配分析方法 Active CN109740147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811532406.9A CN109740147B (zh) 2018-12-14 2018-12-14 一种大数量人才简历去重匹配分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811532406.9A CN109740147B (zh) 2018-12-14 2018-12-14 一种大数量人才简历去重匹配分析方法

Publications (2)

Publication Number Publication Date
CN109740147A CN109740147A (zh) 2019-05-10
CN109740147B true CN109740147B (zh) 2023-08-04

Family

ID=66359010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811532406.9A Active CN109740147B (zh) 2018-12-14 2018-12-14 一种大数量人才简历去重匹配分析方法

Country Status (1)

Country Link
CN (1) CN109740147B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413742B (zh) * 2019-08-08 2022-03-29 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN113947322A (zh) * 2021-10-25 2022-01-18 国能大渡河大数据服务有限公司 一种基于FP-Growth算法的画像匹配方法及系统
US11599856B1 (en) 2022-01-24 2023-03-07 My Job Matcher, Inc. Apparatuses and methods for parsing and comparing video resume duplications

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1167026C (zh) * 2001-01-22 2004-09-15 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
WO2009135153A2 (en) * 2008-05-01 2009-11-05 Myperfectgig, Inc. Systems and methods for modeling workforce talent supply and for automatically processing candidate resumes and job specifications expressed in natural language
CN103634420B (zh) * 2013-11-22 2017-07-28 谢小雪 简历邮件筛选系统及方法
CN106294677B (zh) * 2016-08-04 2019-08-16 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN106547739B (zh) * 2016-11-03 2019-04-02 同济大学 一种文本语义相似度分析方法
CN106777296A (zh) * 2016-12-30 2017-05-31 深圳爱拼信息科技有限公司 一种基于语义匹配的人才搜索推荐方法及系统
CN107870976A (zh) * 2017-09-25 2018-04-03 平安科技(深圳)有限公司 简历识别装置、方法及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
以招聘就业大数据为基础反馈教学的"校企学"服务模式思考;肖云鹏 等;《当代教育实践与教学研究》;第35、158页 *

Also Published As

Publication number Publication date
CN109740147A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109446513B (zh) 一种基于自然语言理解的文本中事件的抽取方法
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN109740147B (zh) 一种大数量人才简历去重匹配分析方法
CN104199965B (zh) 一种语义信息检索方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN107145516B (zh) 一种文本聚类方法及系统
CN100478962C (zh) 搜索网页的方法、装置及系统和建立索引数据库的装置
US10387805B2 (en) System and method for ranking news feeds
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110891030B (zh) 一种基于机器学习的http流量特征识别与提取方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
EP3232336A1 (en) Method and device for recognizing stop word
CN113641833B (zh) 服务需求匹配方法及装置
CN108021667A (zh) 一种文本分类方法和装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN103218368B (zh) 一种挖掘热词的方法与装置
CN114266256A (zh) 一种领域新词的提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant