CN110209659A - 一种简历过滤方法、系统和计算机可读存储介质 - Google Patents

一种简历过滤方法、系统和计算机可读存储介质 Download PDF

Info

Publication number
CN110209659A
CN110209659A CN201910495143.7A CN201910495143A CN110209659A CN 110209659 A CN110209659 A CN 110209659A CN 201910495143 A CN201910495143 A CN 201910495143A CN 110209659 A CN110209659 A CN 110209659A
Authority
CN
China
Prior art keywords
resume
filtered
hash
structural data
local sensitivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910495143.7A
Other languages
English (en)
Inventor
徐家健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Mo Computer Technology Co Ltd
Original Assignee
Guangzhou He Mo Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Mo Computer Technology Co Ltd filed Critical Guangzhou He Mo Computer Technology Co Ltd
Priority to CN201910495143.7A priority Critical patent/CN110209659A/zh
Publication of CN110209659A publication Critical patent/CN110209659A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种简历过滤方法、系统和计算机可读存储介质,所述方法包括:获取历史简历,并构建简历库;将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;接收用户上传的待过滤简历,并将其解析成结构化数据;基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理;本发明基于海量的简历库计算哈希签名后,训练出局部敏感哈希森林模型,待用户上传简历时,能够自动进行查重和敏感词检测,高效地过滤简历。

Description

一种简历过滤方法、系统和计算机可读存储介质
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种简历过滤方法、系统和计算机可读存储介质。
背景技术
用户通过招聘平台上传简历,或者通过邮件向招聘企业发简历,简历的内容都是不可控制的,难免会出现用户重复上传,用户篡改他人简历,内容包含敏感信息等现象。所以需要对简历进行查重、敏感词检测等处理。
一般的文本重复判定方法都是通过对比全文,如果两个字符串完全匹配,则视为相同的文本。字符串是有字符组成的,如:“a”,“~”,“我”等各种语言文字和标点符号组成的字符串,仅当两个字符串的组成和顺序完全一致时,两个字符串才判定为完全匹配。然而,通过字符串完全匹配的方法来判断简历是否重复,存在明显的缺陷。如果两个字符串不完全匹配(如:“我过去任职于XX公司”,“我曾任职于XX公司”),则不能判定为重复的文本。对于简历这种长文本,包含多段工作经历的介绍,要求每一个字都相同实在是不可能,对于恶意篡改他人简历的行为,更加是不能成功防止。
另外也有一些利用检索引擎快速查找库中简历的方法。利用简历检索引擎将简历的全文关键字进行快速索引,通过按字索引的方式使简历数据库中存在的简历数据能够快速有效地被检索出来。然而,使用检索引擎的方法以词语为单位,按此方法搜索得到的简历拥有重复数量最高的词语,但重复的词语不按照先后顺序匹配,所以搜索结果不一定与原简历相似,内容也可能完全不同。并且该方法还需要人工判断重复与否,效率低下。这就导致了现有的方法都不能有效的找到重复简历和相似的简历。
也有人提出使用Jaccard相似度判断简历是否重复,利用分词技术和Jaccard相似,计算用户上传简历与数据库中现有的简历是否重复。实际上,Jaccard相似度则是根据简历的词语集合计算相似度的一种方法,既不能解决词语的先后顺序问题,也不能高效的进行判断,并且需要与库中所有简历进行一次全面计算才能得到最终结果,效率低下。
总之,现有大多数方法都没有对语义重复和恶意篡改的简历进行识别,尤其是在特定领域的简历上,如互联网领域。现有部分简历重复识别方法通过关键词检索、完全匹配的方法,在浅层意义上实现了“重复简历”的识别,没有达到真正的效果。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种简历过滤方法、系统和计算机可读存储介质。
为了实现上述目的,本发明第一方面提出了一种简历过滤方法,包括:
获取历史简历,并构建简历库;
将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
接收用户上传的待过滤简历,并将其解析成结构化数据;
基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
本方案中,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
本方案中,接收用户上传的待过滤简历,并将其解析成结构化数据之后,还包括:
判断所述简历库是否存在与待过滤简历的基本信息相匹配的历史简历,其中,所述基本信息为姓名、性别、年龄、祖籍、手机号码的一种或几种;
如存在,则判定所述待过滤简历为重复简历。
本方案中,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
本方案中,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理之后,还包括:
采用Aho-Corasick算法对所述待过滤简历进行敏感词检测;
如检测结果具有敏感词时,则拒绝将所述待过滤简历入库处理。
优选的,所述结构化数据为基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力的一种或几种。
本发明第二方面还提出一种简历过滤系统,所述简历过滤系统包括:存储器及处理器,所述存储器中包括一种简历过滤方法程序,所述简历过滤方法程序被所述处理器执行时实现如下步骤:
获取历史简历,并构建简历库;
将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
接收用户上传的待过滤简历,并将其解析成结构化数据;
基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
本方案中,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
本方案中,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种简历过滤方法程序,所述简历过滤方法程序被处理器执行时,实现如上述的一种简历过滤方法的步骤。
本发明通过获取历史简历,并构建简历库;将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;接收用户上传的待过滤简历,并将其解析成结构化数据;基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。本发明基于海量的简历库计算哈希签名后,训练出局部敏感哈希森林模型,待用户上传简历时,能够自动进行查重和敏感词检测,高效地过滤简历。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种简历过滤方法的流程图;
图2示出了本发明构建局部敏感哈希森林模型的方法流程图;
图3示出了本发明一种简历查重方法的流程图;
图4示出了本发明简历过滤中敏感词检测的方法流程图;
图5示出了本发明一种有限状态自动机的示意图;
图6示出了本发明一种简历过滤系统的框图;
图7示出了本发明一个实施例的简历过滤方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种简历过滤方法的流程图。
如图1所示,本发明第一方面提出一种简历过滤方法,包括:
S102,获取历史简历,并构建简历库;
S104,将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
S106,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
S108,接收用户上传的待过滤简历,并将其解析成结构化数据;
S110,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
可以理解,获取历史简历的方式有很多。首先可以在一些招聘网、GitHub、论坛、高校网站等进行爬取;其次可以与猎头公司进行合作,获取文档、JSON、数据库备份格式的简历;最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作。
需要说明的是,所述结构化数据为基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力的一种或几种。但不限于此。
可以理解,在将简历解析成结构化数据过程中,一般简历有如下几个模块:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、GitHub、论坛、高校网站、招聘网上获取的简历,上述三个模块分割比较简单,它们已经分好了模块或者将几个小模块拼凑起来即可。如果是文档形式的简历,则需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。
图2示出了本发明构建局部敏感哈希森林模型的方法流程图。
如图2所示,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
S202,基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
S204,待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
需要说明的是,简历的所属人一般会采用大量文字描述过去的经历,字数一般在500到3000左右。针对这类型的长文本,可以采用最小哈希签名(MinHash),计算出每份简历的哈希指纹。
最小哈希签名可以使用一个小而固定的内存空间估计线性时间内任意大小的集合之间的相似性。其原理是利用文本中的每一个词语的SHA1哈希值组成的矩阵,经过线性变换后,获得每一维度下的最小值,此结果便是这段文本的最小哈希签名。
对简历库中的每份历史简历的结构化数据计算最小哈希签名后,把所有计算结果汇集起来,构建局部敏感哈希森林(LSH Forest),可以提高搜索哈希签名的效率。
需要说明的是,局部敏感哈希(LSH)又称作位置敏感哈希。LSH是一种哈希算法,主要运用到高维海量数据的快速近似查找。近似查找便是比较数据点之间的距离或者是相似度。因此,LSH是向量空间模型下的数据结构体,一切数据都是以点或者说以向量的形式表现出来的。
局部敏感哈希森林(LSH Forest)是在LSH算法基础上的一种变体,是一种通用的LSH数据结构,它使top-k查询可用于许多不同类型的LSH索引,可以直接返回最相似的k个数据,更加适用于重复简历的查找。
上述构建局部敏感哈希森林的步骤属于预处理阶段,提前构建局部敏感哈希森林模型,当真正查询数据时,能即时调用模型,快速得到结果。使用哈希签名的优点在于每份简历都拥有自己的哈希签名,越相似的简历其哈希签名也越接近。而局部敏感哈希森林的优点则在于准确且效率高,在海量数据中能通过哈希签名快速找到最接近的若干份简历,且不需要与库中所有简历逐一进行对比。
根据本发明的实施例,接收用户上传的待过滤简历,并将其解析成结构化数据之后,还包括:
判断所述简历库是否存在与待过滤简历的基本信息相匹配的历史简历,其中,所述基本信息为姓名、性别、年龄、祖籍、手机号码的一种或几种;
如存在,则判定所述待过滤简历为重复简历。
可以理解,简历中一般会包含大量的基本信息,例如:姓名、年龄、手机号码等,根据简历中的这些基本信息可以很轻易地判断两份简历是否属于同一个人。例如,姓名、性别、年龄和祖籍相同,但手机号码不同,则可以判断这是同一个人的简历被篡改。以此类推,可以推理出多种情况的相同简历。所以,根据基本信息可以初步筛选出有可能重复的简历。
图3示出了本发明一种简历查重方法的流程图。
如图3所示,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
S302,基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
S304,采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
S306,将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
S308,当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
需要说明的是,当待过滤简历与k份历史简历中的所有历史简历的相似度均为达到设定的阈值时,则判定所述待过滤简历不为重复简历。
需要说明的是,在采用最小哈希签名方法计算出对应的哈希签名结果信息时,可以对待过滤简历除去基本信息外的部分计算哈希签名,把计算得到的哈希签名,用LSH算法从局部敏感哈希森林模型中找到最近的k份历史简历数据,并进行相似度排序,若最高相似度超过设定的阈值,则用户上传待过滤简历视为重复简历,反之,则没有重复简历。
根据本发明的实施例,可以采用如下方法定义两份简历之间的相似度:
Manhattan相似度,即计算两个向量的距离:manhattan(Vi(t),Vcj(t))=∑|Vi(t)-Vcj(t)|。
余弦相似度:
内积相似度:
欧几里得距离:
优选的,两份简历之间的相似度可以采用余弦相似度来定义。
图4示出了本发明简历过滤中敏感词检测的方法流程图。
如图4所示,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理之后,还包括:
S402,采用Aho-Corasick算法对所述待过滤简历进行敏感词检测;
S404,如检测结果具有敏感词时,则拒绝将所述待过滤简历入库处理。
需要说明的是,查重处理后,若证实待过滤简历为重复简历时,则可跳过上述步骤S402-S404,若证实待过滤简历为非重复简历时,则需要判断上传的待过滤简历是否合法。具体的,可以判断待过滤简历是否含有非法词汇、敏感词汇等。
本发明通过敏感词检测能够防止用户的恶意攻击,对政治敏感、色情、辱骂等词语进行检测并过滤,保障平台的文明和整洁。优选的,本发明采用Aho-Corasick算法进行敏感词快速检测。
Aho-Corasick算法,简称AC算法,通过将模式串预处理为确定有限状态自动机,扫描文本一遍就能结束。其复杂度为O(n),即与模式串的数量和长度无关。自动机按照文本字符顺序,接受字符,并发生状态转移。这些状态缓存了“按照字符转移成功(但不是模式串的结尾)”、“按照字符转移成功(是模式串的结尾)”、“按照字符转移失败”三种情况下的跳转与输出情况,因而降低了复杂度。
以经典的ushers为例,模式串是he/she/his/hers,文本为“ushers”。构建的自动机如图5所示。
根据本发明的实施例,所述简历过滤方法还包括过时检测步骤,即检测简历是否过时。由于简历具有时效性,同一个人在上一年写的简历与当年写的简历必定有所不同。工作经历的改变和项目经验的增加,使得上一年的简历已经过时失效,招聘者也不会查阅过时的简历,所以需要对过时的简历进行识别,并过滤这类简历。
需要说明的是,查重处理后,若证实待过滤简历为重复简历时,则可跳过上述过时检测步骤,若证实待过滤简历为非重复简历时,则需要判断上传的待过滤简历是否过时。
根据本发明的实施例,所述简历过滤方法还包括将有效简历入库。通过上述的一系列查重、检测,筛选出合格且不重复的有效简历,并把有效简历存入数据库进行持久化存储,方便后续的一系列应用。
图6示出了本发明一种简历过滤系统的框图。
如图6所示,本发明第二方面还提出一种简历过滤系统6,所述简历过滤系统6包括:存储器61及处理器62,所述存储器61中包括一种简历过滤方法程序,所述简历过滤方法程序被所述处理器62执行时实现如下步骤:
获取历史简历,并构建简历库;
将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
接收用户上传的待过滤简历,并将其解析成结构化数据;
基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
需要说明的是,本发明的系统可以在PC、手机、PAD等终端设备中进行操作。
需要说明的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
需要说明的是,所述系统还可以包括显示器,查重处理的结果信息通过显示器反馈给用户。所述显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器用于显示在系统中处理的信息以及用于显示可视化的工作界面。
可以理解,获取历史简历的方式有很多。首先可以在一些招聘网、GitHub、论坛、高校网站等进行爬取;其次可以与猎头公司进行合作,获取文档、JSON、数据库备份格式的简历;最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作。
需要说明的是,所述结构化数据为基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力的一种或几种。但不限于此。
可以理解,在将简历解析成结构化数据过程中,一般简历有如下几个模块:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、GitHub、论坛、高校网站、招聘网上获取的简历,上述三个模块分割比较简单,它们已经分好了模块或者将几个小模块拼凑起来即可。如果是文档形式的简历,则需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。
进一步的,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
需要说明的是,简历的所属人一般会采用大量文字描述过去的经历,字数一般在500到3000左右。针对这类型的长文本,可以采用最小哈希签名(MinHash),计算出每份简历的哈希指纹。
最小哈希签名可以使用一个小而固定的内存空间估计线性时间内任意大小的集合之间的相似性。其原理是利用文本中的每一个词语的SHA1哈希值组成的矩阵,经过线性变换后,获得每一维度下的最小值,此结果便是这段文本的最小哈希签名。
对简历库中的每份历史简历的结构化数据计算最小哈希签名后,把所有计算结果汇集起来,构建局部敏感哈希森林(LSH Forest),可以提高搜索哈希签名的效率。
需要说明的是,局部敏感哈希(LSH)又称作位置敏感哈希。LSH是一种哈希算法,主要运用到高维海量数据的快速近似查找。近似查找便是比较数据点之间的距离或者是相似度。因此,LSH是向量空间模型下的数据结构体,一切数据都是以点或者说以向量的形式表现出来的。
局部敏感哈希森林(LSH Forest)是在LSH算法基础上的一种变体,是一种通用的LSH数据结构,它使top-k查询可用于许多不同类型的LSH索引,可以直接返回最相似的k个数据,更加适用于重复简历的查找。
上述构建局部敏感哈希森林的步骤属于预处理阶段,提前构建局部敏感哈希森林模型,当真正查询数据时,能即时调用模型,快速得到结果。使用哈希签名的优点在于每份简历都拥有自己的哈希签名,越相似的简历其哈希签名也越接近。而局部敏感哈希森林的优点则在于准确且效率高,在海量数据中能通过哈希签名快速找到最接近的若干份简历,且不需要与库中所有简历逐一进行对比。
根据本发明的实施例,接收用户上传的待过滤简历,并将其解析成结构化数据之后,还包括:
判断所述简历库是否存在与待过滤简历的基本信息相匹配的历史简历,其中,所述基本信息为姓名、性别、年龄、祖籍、手机号码的一种或几种;
如存在,则判定所述待过滤简历为重复简历。
可以理解,简历中一般会包含大量的基本信息,例如:姓名、年龄、手机号码等,根据简历中的这些基本信息可以很轻易地判断两份简历是否属于同一个人。例如,姓名、性别、年龄和祖籍相同,但手机号码不同,则可以判断这是同一个人的简历被篡改。以此类推,可以推理出多种情况的相同简历。所以,根据基本信息可以初步筛选出有可能重复的简历。
根据本发明的实施例,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
需要说明的是,当待过滤简历与k份历史简历中的所有历史简历的相似度均为达到设定的阈值时,则判定所述待过滤简历不为重复简历。
需要说明的是,在采用最小哈希签名方法计算出对应的哈希签名结果信息时,可以对待过滤简历除去基本信息外的部分计算哈希签名,把计算得到的哈希签名,用LSH算法从局部敏感哈希森林模型中找到最近的k份历史简历数据,并进行相似度排序,若最高相似度超过设定的阈值,则用户上传待过滤简历视为重复简历,反之,则没有重复简历。
根据本发明的实施例,可以采用如下方法定义两份简历之间的相似度:
Manhattan相似度,即计算两个向量的距离:manhattan(Vi(t),Vcj(t))=∑|Vi(t)-Vcj(t)|。
余弦相似度:
内积相似度:
欧几里得距离:
优选的,两份简历之间的相似度可以采用余弦相似度来定义。
根据本发明的实施例,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理之后,还包括:
采用Aho-Corasick算法对所述待过滤简历进行敏感词检测;
如检测结果具有敏感词时,则拒绝将所述待过滤简历入库处理。
需要说明的是,查重处理后,若证实待过滤简历为重复简历时,则可跳过上述步骤S402-S404,若证实待过滤简历为非重复简历时,则需要判断上传的待过滤简历是否合法。具体的,可以判断待过滤简历是否含有非法词汇、敏感词汇等。
本发明通过敏感词检测能够防止用户的恶意攻击,对政治敏感、色情、辱骂等词语进行检测并过滤,保障平台的文明和整洁。优选的,本发明采用Aho-Corasick算法进行敏感词快速检测。
Aho-Corasick算法,简称AC算法,通过将模式串预处理为确定有限状态自动机,扫描文本一遍就能结束。其复杂度为O(n),即与模式串的数量和长度无关。自动机按照文本字符顺序,接受字符,并发生状态转移。这些状态缓存了“按照字符转移成功(但不是模式串的结尾)”、“按照字符转移成功(是模式串的结尾)”、“按照字符转移失败”三种情况下的跳转与输出情况,因而降低了复杂度。
根据本发明的实施例,所述系统还能够对待过滤简历进行过时检测,即检测简历是否过时。由于简历具有时效性,同一个人在上一年写的简历与当年写的简历必定有所不同。工作经历的改变和项目经验的增加,使得上一年的简历已经过时失效,招聘者也不会查阅过时的简历,所以需要对过时的简历进行识别,并过滤这类简历。
需要说明的是,查重处理后,若证实待过滤简历为重复简历时,则可跳过上述过时检测步骤,若证实待过滤简历为非重复简历时,则需要判断上传的待过滤简历是否过时。
根据本发明的实施例,所述系统还能够将有效简历入库。通过上述的一系列查重、检测,筛选出合格且不重复的有效简历,并把有效简历存入数据库进行持久化存储,方便后续的一系列应用。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种简历过滤方法程序,所述简历过滤方法程序被处理器执行时,实现如上述的一种简历过滤方法的步骤。
为了更好的解释本发明的技术方案,下面将通过一实施例进行详细说明。
如图7所示,首先,将简历库中的简历分别解析成对应的结构化数据,并通过最小哈希算法计算得出哈希签名,然后基于上述哈希签名训练得出哈希深林模型。当接收到用户上传的简历时,先将其解析成结构化数据,然后通过最小哈希算法计算得出哈希签名,将该哈希签名输入哈希深林模型中,并通过局部敏感哈希查询出最相似的k份简历,然后分别计算k份简历与用户上传的简历之间的相似度,并进行排序,即可从k份简历中找到最相似的一份简历。当最相似的一份简历与用户上传简历之间的相似度超过设定的阀值时,即判定用户上传的简历为重复简历,并将其丢弃处理;当最相似的一份简历与用户上传简历之间的相似度未超过设定的阀值时,则需要对用户上传的简历进行敏感词检测,判断用户上传的简历是否包含敏感词,如果包含敏感词,则将该简历丢弃,如果不包含敏感词,则可以将该简历进行入库。
可以理解,本发明通过结合传统规则、哈希方法和相似度的方法识别出重复无效的简历,并能够检测出简历中含有的敏感词,最终可以基于上述查重、检测结果来进行过滤简历。
本发明通过获取历史简历,并构建简历库;将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;接收用户上传的待过滤简历,并将其解析成结构化数据;基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。本发明基于海量的简历库计算哈希签名后,训练出局部敏感哈希森林模型,待用户上传简历时,能够自动进行查重和敏感词检测,高效地过滤简历。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种简历过滤方法,其特征在于,包括:
获取历史简历,并构建简历库;
将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
接收用户上传的待过滤简历,并将其解析成结构化数据;
基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
2.根据权利要求1所述的一种简历过滤方法,其特征在于,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
3.根据权利要求1所述的一种简历过滤方法,其特征在于,接收用户上传的待过滤简历,并将其解析成结构化数据之后,还包括:
判断所述简历库是否存在与待过滤简历的基本信息相匹配的历史简历,其中,所述基本信息为姓名、性别、年龄、祖籍、手机号码的一种或几种;
如存在,则判定所述待过滤简历为重复简历。
4.根据权利要求1所述的一种简历过滤方法,其特征在于,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
5.根据权利要求1所述的一种简历过滤方法,其特征在于,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理之后,还包括:
采用Aho-Corasick算法对所述待过滤简历进行敏感词检测;
如检测结果具有敏感词时,则拒绝将所述待过滤简历入库处理。
6.根据权利要求1至5任意一项所述的一种简历过滤方法,其特征在于,所述结构化数据为基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力的一种或几种。
7.一种简历过滤系统,其特征在于,所述简历过滤系统包括:存储器及处理器,所述存储器中包括一种简历过滤方法程序,所述简历过滤方法程序被所述处理器执行时实现如下步骤:
获取历史简历,并构建简历库;
将所述简历库中的所有历史简历分别解析成结构化数据,并存入关系数据库中;
根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型;
接收用户上传的待过滤简历,并将其解析成结构化数据;
基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理。
8.根据权利要求7所述的一种简历过滤系统,其特征在于,根据所述关系数据库中的结构化数据,训练得到局部敏感哈希森林模型,还包括:
基于所述关系数据库中每份结构化数据,采用最小哈希签名方法计算得出对应的哈希签名结果信息;
待所述关系数据库中所有结构化数据完成计算最小哈希签名后,汇集所有计算出的哈希签名结果信息,并构建局部敏感哈希森林模型。
9.根据权利要求7所述的一种简历过滤系统,其特征在于,基于待过滤简历的结构化数据,并调用所述局部敏感哈希森林模型对其进行查重处理,还包括:
基于所述待过滤简历的结构化数据,采用最小哈希签名方法计算出对应的哈希签名结果信息;
采用LSH算法从所述局部敏感哈希森林模型中查找到最近的k份历史简历;
将所述待过滤简历与查找到的k份历史简历进行逐一比较,并分别计算相似度;
当待过滤简历与至少一份历史简历的相似度达到设定的阈值时,则判定所述待过滤简历为重复简历。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种简历过滤方法程序,所述简历过滤方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种简历过滤方法的步骤。
CN201910495143.7A 2019-06-10 2019-06-10 一种简历过滤方法、系统和计算机可读存储介质 Pending CN110209659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910495143.7A CN110209659A (zh) 2019-06-10 2019-06-10 一种简历过滤方法、系统和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910495143.7A CN110209659A (zh) 2019-06-10 2019-06-10 一种简历过滤方法、系统和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110209659A true CN110209659A (zh) 2019-09-06

Family

ID=67791657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910495143.7A Pending CN110209659A (zh) 2019-06-10 2019-06-10 一种简历过滤方法、系统和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110209659A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861361A (zh) * 2020-04-09 2020-10-30 河北利至人力资源服务有限公司 一种智能简历推送系统及方法
CN112183092A (zh) * 2020-10-30 2021-01-05 平安数字信息科技(深圳)有限公司 简历查重方法、装置、设备及介质
CN114841247A (zh) * 2022-03-31 2022-08-02 前锦网络信息技术(上海)有限公司 一种恶意用户识别方法和系统
US11599856B1 (en) 2022-01-24 2023-03-07 My Job Matcher, Inc. Apparatuses and methods for parsing and comparing video resume duplications
US11829386B2 (en) 2020-01-30 2023-11-28 HG Insights, Inc. Identifying anonymized resume corpus data pertaining to the same individual

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162474A1 (en) * 2006-12-29 2008-07-03 Jm Van Thong Image-based retrieval for high quality visual or acoustic rendering
US20130041962A1 (en) * 2011-08-08 2013-02-14 Alibaba Group Holding Limited Information Filtering
CN104392002A (zh) * 2014-12-15 2015-03-04 中国科学院信息工程研究所 一种大规模网页集合的近似重复查找方法
CN104463423A (zh) * 2014-11-10 2015-03-25 深圳市网家缘科技有限公司 一种格式化的视频简历采集方法及系统
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
CN106649221A (zh) * 2016-12-06 2017-05-10 北京锐安科技有限公司 重复文本的检测方法及装置
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162474A1 (en) * 2006-12-29 2008-07-03 Jm Van Thong Image-based retrieval for high quality visual or acoustic rendering
US20130041962A1 (en) * 2011-08-08 2013-02-14 Alibaba Group Holding Limited Information Filtering
CN104463423A (zh) * 2014-11-10 2015-03-25 深圳市网家缘科技有限公司 一种格式化的视频简历采集方法及系统
CN104392002A (zh) * 2014-12-15 2015-03-04 中国科学院信息工程研究所 一种大规模网页集合的近似重复查找方法
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
CN106649221A (zh) * 2016-12-06 2017-05-10 北京锐安科技有限公司 重复文本的检测方法及装置
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SACHENDRA SINGH CHAUHAN 等: "Finding similar items using LSH and Bloom Filter", 《2014 IEEE INTERNATIONAL CONFERENCE ON ADVANCED COMMUNICATIONS, CONTROL AND COMPUTING TECHNOLOGIES》 *
王源: "一种基于Simhash的文本快速去重算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829386B2 (en) 2020-01-30 2023-11-28 HG Insights, Inc. Identifying anonymized resume corpus data pertaining to the same individual
CN111861361A (zh) * 2020-04-09 2020-10-30 河北利至人力资源服务有限公司 一种智能简历推送系统及方法
CN111861361B (zh) * 2020-04-09 2021-07-27 河北利至人力资源服务有限公司 一种智能简历推送系统及方法
CN112183092A (zh) * 2020-10-30 2021-01-05 平安数字信息科技(深圳)有限公司 简历查重方法、装置、设备及介质
CN112183092B (zh) * 2020-10-30 2023-08-15 深圳平安智汇企业信息管理有限公司 简历查重方法、装置、设备及介质
US11599856B1 (en) 2022-01-24 2023-03-07 My Job Matcher, Inc. Apparatuses and methods for parsing and comparing video resume duplications
CN114841247A (zh) * 2022-03-31 2022-08-02 前锦网络信息技术(上海)有限公司 一种恶意用户识别方法和系统

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
US9489401B1 (en) Methods and systems for object recognition
CN103177075B (zh) 基于知识的实体检测和消歧
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
US20110264651A1 (en) Large scale entity-specific resource classification
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
Peled et al. Matching entities across online social networks
US9311388B2 (en) Semantic and contextual searching of knowledge repositories
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN110569328A (zh) 实体链接方法、电子装置及计算机设备
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN104462396B (zh) 字符串处理方法和装置
CN112148701A (zh) 一种文件检索的方法及设备
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
US20160321345A1 (en) Chain understanding in search
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN114416939A (zh) 智能问答方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20221216

AD01 Patent right deemed abandoned