CN113326687A

CN113326687A - 一种简历查重方法、简历查重系统

Info

Publication number: CN113326687A
Application number: CN202110544936.0A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd; Duoyi Network Co ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd; Duoyi Network Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-31

Abstract

本发明公开一种简历查重方法、简历查重系统，所述方法包括：招聘方客户端获取待查重的简历文本，并向招聘方服务端发送简历文本；招聘方服务端对简历文本进行分段文本处理，生成待查重的的文本段；招聘方服务端在生成文本段后，发起查重请求，向查重接收服务端发送文本段；查重接收服务端将接收到的文本段推进队列以待查重；爬虫服务端从队列中依次读取要爬取的文本段，并在搜索引擎中对各文本段进行搜索、爬取、匹配和数据处理，得到与各文本段相似度最高的第一文本；爬虫服务端向招聘方服务端发送第一文本；招聘方服务端根据每一第一文本与其对应的文本段的相似度计算简历的查重率。本发明减少了简历查重所花费的时间和提高了简历查重结果的准确性。

Description

一种简历查重方法、简历查重系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种简历查重方法、简历查重系统。

背景技术

由于网络招聘具有覆盖面广、时效性强、成本低等优点，因此，目前大多数企业是通过网络招聘的。虽然网络招聘相比于传统线下招聘能够使企业接收到大量简历投递，从而能够更有机会招聘到优秀的人才，但是，大量的简历会降低招聘效率，特别是如今简历抄袭网络信息较为普遍的情况下，需要花费大量人力和时间甄选人才。

目前市面上鲜有识别简历抄袭的方案。市面上存在查重哈希签名矩阵方案也仅能从简历库中按照信息分类进行相似简历查询，得到候选简历集合，哈希签名矩阵库匹配只能在现有的简历库中搜索对应信息进行匹配，现有的简历库中只能记录已经投递了的简历信息。但是对于新投递的简历而言，简历中的信息基本与现有简历库中的信息无关。如果候选人在网上抄袭了一段文本，而这段文本从未在现有的简历库中出现过，则无法被识别出来，可以看出该方法的局限性比较大，无法达到抄袭判断的目的。另外，目前大多数企业为人工进行整段简历文本的搜索判断，基于市面上搜索引擎的搜索规则，整段文本搜索可能出现无法搜索或者搜索结果不准确等问题，浪费不必要的时间精力，增加额外的工作负担，若对简历文本进行人力分割文本，则会出现工作量大，重复率高，判断规则不一等问题，无法提高招聘的工作效率，满足简历抄袭判断的需求。

发明内容

本发明的目的在于提供一种简历查重方法、简历查重系统，以减少简历查重、简历抄袭判断所花费的时间，提高简历查重结果、简历抄袭判断结果的准确性。

第一方面，本发明实施例提供一种简历查重方法，包括：

招聘方客户端获取待查重的简历文本，并向招聘方服务端发送所述简历文本；

所述招聘方服务端接收所述简历文本，并根据预设的规则对所述简历文本进行分段文本处理，生成待查重的的文本段；

所述招聘方服务端在生成所述文本段后，发起查重请求，向查重接收服务端发送所述文本段；

所述查重接收服务端接收所述文本段，并将接收到的文本段推进队列以待查重；

爬虫服务端从所述队列中依次读取要爬取的文本段，并在搜索引擎中对各文本段进行搜索、爬取、匹配和数据处理，得到与各文本段相似度最高的第一文本；

所述爬虫服务端向所述招聘方服务端发送所述第一文本；

所述招聘方服务端根据每一所述第一文本与其对应的文本段的相似度计算所述简历的查重率。

优选地，所述简历查重方法还包括：

所述招聘方服务端将所述查重率和预设的阈值进行比较，得到比较结果；

所述招聘方服务端向所述招聘方客户端发送所述比较结果；

所述招聘方客户端接收所述比较结果，当所述比较结果为所述查重率大于等于所述阈值，则为所述简历打上第一标记；其中，所述第一标记表示所述简历疑似抄袭；

当所述比较结果为所述查重率小于所述阈值，则为所述简历打上第二标记；其中，所述第二标记表示所述简历未发现抄袭。

优选地，所述简历查重方法还包括：

所述招聘方服务端在所述文本段中对命中文本进行标记，得到第一标记文本；

所述招聘方客户端接收所述第一标记文本，并根据所述第一标记文本的标记突出显示所述命中文本。

优选地，所述简历查重方法还包括：

所述招聘方服务端在所述第一文本中对命中文本进行标记，得到第二标记文本；

所述招聘方客户端接收所述第二标记文本，并根据所述第二标记文本的标记突出显示所述命中文本。

优选地，所述简历查重方法还包括：

所述招聘方客户端接收用户对未发现抄袭的简历打上所述第一标记的指令，并向所述招聘方服务端发送所述指令；

所述招聘方服务端接收并解析所述指令，当所述指令被所述招聘方服务端解析为所述简历疑似抄袭时，向所述招聘方客户端发送为所述简历打上所述第一标记的指令；

所述招聘方客户端接收所述指令，并根据所述指令为所述简历打上所述第一标记。

优选地，所述简历查重方法还包括：

所述招聘方客户端接收用户输入的清除所述第一标记的指令，并向所述招聘方服务端发送所述指令；

所述招聘方服务端接收并解析所述指令，当所述指令被所述招聘方服务端解析为取消所述简历疑似抄袭的认定时，向所述招聘方客户端发送清除所述第一标记的指令；

所述招聘方客户端接收所述指令，并根据所述指令清除所述第一标记。

优选地，所述根据预设的规则对所述待查重的简历文本进行分段文本处理，生成待查重的的文本段，具体包括：

识别所述待查重简历文本中的冗余符号；

去除在所述待查重简历文本中识别出的冗余符号，得到待分段的简历文本；

根据文本分割符号和每段不超过预设的字数对所述待分段的简历文本进行分割，生成所述待查重的的文本段。

优选地，所述冗余符号包括：中文符号、英文符号、数学符号和其他符号；所述中文符号包括：顿号、双引号、单引号、括号、花括号、方括号、书名号、间隔号和破折号；所述英文符号包括连字符、双引号、单引号、间隔号、括号、方括号和花括号；所述数学符号包括小于号、大于号和等于号；所述其他符号包括at符和下划线。

优选地，所述文本分割符号包括中文符号和英文符号；所述中文符号包括句号、问号、叹号、逗号、分号、冒号和省略号；所述英文符号包括句号、问号、叹号、逗号、分号和冒号。

第二方面，本发明实施例提供一种简历查重系统，包括：

招聘方客户端，用于获取待查重的简历文本，并向招聘方服务端发送所述简历文本；

招聘方服务端，用于接收所述简历文本，并根据预设的规则对所述简历文本进行分段文本处理，生成待查重的的文本段；

所述查重接收服务端，用于接收所述文本段，并将接收到的文本段推进队列以待查重；

爬虫服务端，用于从所述队列中依次读取要爬取的文本段，并在搜索引擎中对各文本段进行搜索、爬取、匹配和数据处理，得到与各文本段相似度最高的第一文本；

所述爬虫服务端，还用于向所述招聘方服务端发送所述第一文本；

所述招聘方服务端，还用于根据每一所述第一文本与其对应的文本段的相似度计算所述简历的查重率。

与现有技术相比，本发明实施例通过自动按照设定的规则将简历文本分割成文本段，从而避免了人工手动分割简历文本导致简历查重、简历抄袭判断所花费时间长、效率低的问题，减少了简历查重、简历抄袭判断所花费的时间，提高了简历查重、简历抄袭判断的效率；此外，在搜索引擎中对各文本段进行搜索、爬取、能够时刻获取到最新的网络文本进行检测匹配，相比于哈希签名矩阵库匹配只能在现有的简历库中搜索对应信息进行匹配提高了查重结果的准确性、从而提高了简历抄袭判断结果的准确性。由于大多数应聘者抄袭时会在搜索引擎上搜索并抄袭，因此，相比于通过在简历库中搜索相似简历，本发明实施例提供的简历查重方法更符合实际业务场景需求。

附图说明

图1是本发明一实施例提供的简历查重方法的流程示意图；

图2是本发明另一实施例提供的简历查重方法的流程示意图；

图3是本发明一实施例提供的简历查重方法的查重结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于理解，下面对本发明涉及到的技术术语进行解释：

分段文本：将文本按照标点进行语义规则的切割，得到若干分段文本。

命中：将文本切割后，将分段文本在百度等搜索引擎中进行爬虫搜索，将该分段文本与搜索出来的结果进行匹配，如果分段文本中的字在搜索结果中出现，则代表命中，去除重复后，搜索结果越多，则命中数越高。

查重率：也叫命中率，文本的命中数除以文本的全部字数。

抄袭阈值：根据随机抽样原则，对多份简历命中率进行评估，综合得出命中率达到某个值时视为抄袭，而这个值即为抄袭阈值。

请参阅图1，本发明实施例提供一种简历查重方法，包括：

所述爬虫服务端向所述招聘方服务端发送所述第一文本；

在本发明实施例中，需要说明的是，所述相似度根据命中数确定，即分段文本中的字在搜索结果中出现越多，则命中数越多、相似度越高。

所述招聘方客户端、所述招聘方服务端、所述查重接收服务端、所述爬虫服务端均可配置在电子设备上，所述电子设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，所述电子设备是可以是电脑，手机，平板或智能交互平板等。所述招聘方服务端、所述查重接收服务端、所述爬虫服务端可配置在同一个电子设备上，也可不配置在同一个电子设备上。所述搜索引擎可根据具体需要选择，例如，可以是百度搜索引擎。

所述招聘方客户端具有一交互界面，用户可通过在所述交互界面中输入所述简历文本，这样，招聘方客户端便可获取得到待查重的简历文本，另外，所述招聘方客户端也可通过直接从简历中导入简历文本的方式获取到所述待查重的简历文本。另外，所述招聘方客户端具有显示功能。

请参阅图2，在其中一种优选的实施方式中，所述简历查重方法还包括：

所述招聘方服务端向所述招聘方客户端发送所述比较结果；

在本发明实施例中，需要说明的是，打上第一标记或第二标记后，所述简历上会显示所述第一标记或第二标记；所述阈值为抄袭阈值。

在其中一种优选的实施方式中，所述简历查重方法还包括：

作为本发明实施例的一种举例，所述突出显示所述命中文本可通过高亮显示所述命中文本，也可通过使所述命中文本与未命中的文本的颜色不同等方式突出显示所述命中文本。

在其中一种优选的实施方式中，所述简历查重方法还包括：

如图3所示，在文本段中和第一文本中对命中文本进行突出显示。其中，中，下划线为命中文本，即为疑似抄袭文本(红色)，没有下划线的文本为未命中文本(黑色)，即为未发现抄袭的文本。此外，图3还显示了第一文本的出处，即第一文本所在的原文的网络地址。

在其中一种优选的实施方式中，所述简历查重方法还包括：

在本发明实施例中，当所述简历被判定为未发现抄袭时，所述客户端显示界面显示有打上第一标记虚拟按钮(标记抄袭按钮)，这样，用户通过点击所述标记抄袭按钮，便可把简历从未发现抄袭变更为疑似抄袭。

在其中一种优选的实施方式中，所述简历查重方法还包括：

当所述简历被判定为疑似抄袭时，所述客户端显示界面显示有取消第一标记的虚拟按钮(取消抄袭标记按钮)，这样，用户通过点击所述取消抄袭标记按钮，便可把简历从疑似抄袭变更为未发现抄袭。

在其中一种优选的实施方式中，所述根据预设的规则对所述待查重的简历文本进行分段文本处理，生成待查重的的文本段，具体包括：

识别所述待查重简历文本中的冗余符号；

在本发明实施例中，优选地，每段不超过38个字。

所述冗余符号包括：

中文符号：顿号(、)，双引号(“”)，单引号(‘’)，括号(())，花括号({})，方括号(【】)，书名号(《》)，间隔号(·)，破折号(——)；

英文符号：连字符(-)，双引号("),单引号('),间隔号(·),括号(()),方括号([]),花括号({})；

数学符号：小于号(<)，大于号(>)，等于号(＝)；

其他：at符(@)，下划线(_)。

所述文本分割符号包括：

中文：句号(。)，问号(？)，叹号(！)，逗号(，)，分号(；)，冒号(：)，省略号(……)；

英文：句号(.)，问号(？)，叹号(！)，逗号(,)，分号(；)，冒号(:)。

实施例2：

本发明提供一种简历查重系统，包括：

需要说明的是，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种简历查重方法，其特征在于，包括：

所述爬虫服务端向所述招聘方服务端发送所述第一文本；

2.根据权利要求1所述的简历查重方法，其特征在于，所述简历查重方法还包括：

所述招聘方服务端向所述招聘方客户端发送所述比较结果；

3.根据权利要求1所述的简历查重方法，其特征在于，所述简历查重方法还包括：

4.根据权利要求1所述的简历查重方法，其特征在于，所述简历查重方法还包括：

5.根据权利要求2所述的简历查重方法，其特征在于，所述简历查重方法还包括：

6.根据权利要求2所述的简历查重方法，其特征在于，所述简历查重方法还包括：

7.根据权利要求1所述的简历查重方法，其特征在于，所述根据预设的规则对所述待查重的简历文本进行分段文本处理，生成待查重的的文本段，具体包括：

识别所述待查重简历文本中的冗余符号；

8.根据权利要求7所述的简历查重方法，其特征在于，所述冗余符号包括：中文符号、英文符号、数学符号和其他符号；所述中文符号包括：顿号、双引号、单引号、括号、花括号、方括号、书名号、间隔号和破折号；所述英文符号包括连字符、双引号、单引号、间隔号、括号、方括号和花括号；所述数学符号包括小于号、大于号和等于号；所述其他符号包括at符和下划线。

9.根据权利要求7所述的简历查重方法，其特征在于，所述文本分割符号包括中文符号和英文符号；所述中文符号包括句号、问号、叹号、逗号、分号、冒号和省略号；所述英文符号包括句号、问号、叹号、逗号、分号和冒号。

10.一种简历查重系统，其特征在于，包括：

所述招聘方服务端，用于接收所述简历文本，并根据预设的规则对所述简历文本进行分段文本处理，生成待查重的的文本段；

所述招聘方服务端，还用于在生成所述文本段后，发起查重请求，向查重接收服务端发送所述文本段；