CN111522938A

CN111522938A - 一种人才业绩文档的筛选方法、装置和设备

Info

Publication number: CN111522938A
Application number: CN202010343141.9A
Authority: CN
Inventors: 郭建龙; 周青云; 黄钦伟; 秦妍; 温满华; 薛江
Original assignee: Training and Evaluation Center of Guangdong Power Grid Co Ltd
Current assignee: Training and Evaluation Center of Guangdong Power Grid Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-11
Anticipated expiration: 2040-04-27
Also published as: CN111522938B

Abstract

本申请公开了一种人才业绩文档的筛选方法、装置和设备，方法包括：对获取到的待筛选文档进行内容提取，得到待处理文档；对待处理文档进行分句处理，得到候选句集合；对候选句集合中的候选句进行分词处理后，得到候选词集合；基于TextRank算法，结合待处理文档，得到候选词集合对应的待分析关键词集合；基于TextRank算法，遍历候选句集合得到待筛选文档的摘要信息；将待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合；根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分；根据匹配度得分，展示待分析关键词集合和摘要信息。解决了现有招聘人员在进行业绩评审工作时，由于业绩文档数量多，一一翻阅的方式效率较低的技术问题。

Description

一种人才业绩文档的筛选方法、装置和设备

技术领域

本申请涉及文档信息提取领域，尤其涉及一种人才业绩文档的筛选方法、装置和设备。

背景技术

在全球化的竞争环境下，企业人力资源为了能够获取到优质人才，需要从众多投递简历中筛选出匹配简历。在这些简历中，比较吸引人的当属工作业绩，工作业绩可以说明自己在过往工作中取得的成果及认可。

工作业绩的材料以文档形式存在，每个应聘者的业绩文档，少则几十分，多则上百份，量大且格式不一。招聘人员在进行业绩评审工作时，对每个应聘者的业绩文档一一翻阅，来给应聘者对应的简历进行筛选。但由于业绩文档数量多，一一翻阅的方式仍然是一种非常低效的方式。

发明内容

本申请提供了一种人才业绩文档的筛选方法、装置和设备，解决了现有招聘人员在进行业绩评审工作时，对每个应聘者的业绩文档一一翻阅，来给应聘者对应的简历进行筛选。但由于业绩文档数量多，一一翻阅的方式仍然是一种非常低效的方式的技术问题。

有鉴于此，本申请第一方面提供了一种人才业绩文档的筛选方法，包括：

对获取到的待筛选文档进行内容提取，得到待处理文档；

对所述待处理文档进行分句处理，得到候选句集合；

对所述候选句集合中的候选句进行分词处理后，得到候选词集合；

基于TextRank算法，结合所述待处理文档，得到所述候选词集合对应的待分析关键词集合；

基于TextRank算法，遍历所述候选句集合得到所述待筛选文档的摘要信息；

将所述待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的关键词集合；

根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分；

根据所述匹配度得分，展示所述待分析关键词集合和所述摘要信息。

可选地，所述对获取到的待筛选文档进行内容提取，得到待处理文档具体包括：

对获取到的待筛选文档进行内容提取，得到原始文档内容；

根据正则表达式去除所述原始文档内容中的第一字符后，得到待处理文档，其中，所述第一字符包括：换行符、空格和数字。

可选地，所述对所述待处理文档进行分句处理，得到候选句集合具体包括：

将所述文档中的句子结束符作为所述待处理文档的分割点后，对所述待处理文档进行分句处理，得到候选句集合。

可选地，所述对所述候选句集合中的候选句进行分词处理后，得到候选词集合具体包括：

通过预置分词系统，对所述候选句集合中的候选句进行分词处理后，得到候选词集合。

可选地，所述基于TextRank算法，结合所述待处理文档，得到所述候选词集合对应的待分析关键词集合具体包括：

通过TextRank算法，确定所述候选词集合的关键词图及所述关键词图对应的第一权重；

按照所述第一权重，将所述关键词图进行降序排序，得到候选关键词列表；

将候选关键词列表中的候选关键词放置于所述待处理文档中，并进行标记；

当所述待处理文档中存在两个相邻的词均被标记时，将相邻的所述候选关键词进行组合；

将所述候选关键词列表中，未被组合的所述候选关键词构成的集合作为待分析关键词集合。

可选地，所述基于TextRank算法，遍历所述候选句集合得到所述待筛选文档的摘要信息具体包括：

通过TextRank算法，确定所述候选句集合对应的句子相似度图及所述句子相似度图对应的第二权重；

按照所述第二权重，将所述句子相似图度进行降序排序，得到候选句列表；

根据摘要信息的字数阈值及句数阈值，从候选句列表中抽取句子得到所述待筛选文档的摘要信息。

可选地，所述将所述待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的关键词集合具体包括：

将所述待分析关键词集合和选聘关键词集合进行重复性对比，并将所述待分析关键词结合中重复的待分析关键词构成的集合作为匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的选聘关键词集合。

可选地，所述根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分具体包括：

基于第一预置公式，根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分，其中，所述第一预置公式包括：

其中，n为匹配关键词集合中匹配关键词的数量，m为选聘关键词集中选聘关键词的数量，l_i为第i个匹配关键词的长度，μ_i为第i个匹配关键词的权重，l_j为第j个匹配关键词的长度，μ_j为第j个匹配关键词的权重。

本申请第二方面提供了一种人才业绩文档的筛选装置，包括：

内容提取单元，用于对获取到的待筛选文档进行内容提取，得到待处理文档；

分句单元，用于对所述待处理文档进行分句处理，得到候选句集合；

分词单元，用于对所述候选句集合中的候选句进行分词处理后，得到候选词集合；

第一单元，用于基于TextRank算法，结合所述待处理文档，得到所述候选词集合对应的待分析关键词集合；

遍历单元，用于基于TextRank算法，遍历所述候选句集合得到所述待筛选文档的摘要信息；

对比单元，用于将所述待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的关键词集合；

计算单元，用于根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分；

展示单元，用于根据所述匹配度得分，展示所述待分析关键词集合和所述摘要信息。

本申请第三方面提供了一种人才业绩文档的筛选设备，包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的人才业绩文档的筛选方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种人才业绩文档的筛选方法，包括：对获取到的待筛选文档进行内容提取，得到待处理文档；对所述待处理文档进行分句处理，得到候选句集合；对所述候选句集合中的候选句进行分词处理后，得到候选词集合；基于TextRank算法，结合所述待处理文档，得到所述候选词集合对应的待分析关键词集合；基于TextRank算法，遍历所述候选句集合得到所述待筛选文档的摘要信息；将所述待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的关键词集合；根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分；根据所述匹配度得分，展示所述待分析关键词集合和所述摘要信息。

在对招聘人员进行业绩评审时，可以将本申请中的方法加载至计算机或具有计算机处理能力的其他执行主体上，当该执行主体在执行本申请中的方法时，首先获取到招聘人员对应的业绩文档(即待筛选文档)后，对待筛选文档进行内容提取、分句、关键词的确定等，并进一步地计算待筛选文档与选聘项目之间的匹配度得分，最后根据匹配度得分，展示待分析关键词集合和摘要信息，这样可以自动地对待筛选文档进行筛选展示，解决了现有招聘人员在进行业绩评审工作时，对每个应聘者的业绩文档一一翻阅，来给应聘者对应的简历进行筛选。但由于业绩文档数量多，一一翻阅的方式仍然是一种非常低效的方式的技术问题。

附图说明

图1为本申请实施例中一种人才业绩文档的筛选方法的第一实施例的流程示意图；

图2为本申请实施例中一种人才业绩文档的筛选方法的第二实施例的流程示意图；

图3为本申请实施例中一种人才业绩文档的筛选装置的结构示意图。

具体实施方式

本申请实施例提供了一种人才业绩文档的筛选方法、装置和设备，解决了现有招聘人员在进行业绩评审工作时，对每个应聘者的业绩文档一一翻阅，来给应聘者对应的简历进行筛选。但由于业绩文档数量多，一一翻阅的方式仍然是一种非常低效的方式的技术问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例中一种人才业绩文档的筛选方法的第一实施例的流程示意图，包括：

步骤101、对获取到的待筛选文档进行内容提取，得到待处理文档。

在获取到需要进行筛选的待筛选文档后，对获取到的待筛选文档进行内容提取，得到待处理文档。

待筛选文档的格式可以为多种，例如doc、docx、wps等格式，本实施例中对此不作具体限定。

步骤102、对待处理文档进行分句处理，得到候选句集合。

在得到待处理文档后，对待处理文档中的内容文档进行分句处理，便可以得到候选句集合。

步骤103、对候选句集合中的候选句进行分词处理后，得到候选词集合。

在得到候选句集合后，对候选句集合中的候选句进行进一步的分词处理，便可以得到由候选词构成的候选词集合。

步骤104、基于TextRank算法，结合待处理文档，得到候选词集合对应的待分析关键词集合。

得到候选词集合后，需要从候选词集合中提取出待分析关键词集合，具体地，基于TextRank算法，结合待处理文档，得到候选词集合对应的待分析关键词集合。

步骤105、基于TextRank算法，遍历候选句集合得到待筛选文档的摘要信息。

在候选句集合中，基于TextRank算法，遍历候选句集合得到待筛选文档的摘要信息。

步骤106、将待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，选聘关键词集合为选聘项目对应的关键词集合。

步骤107、根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分。

步骤108、根据匹配度得分，展示待分析关键词集合和摘要信息。

以上为本申请实施例提供的一种人才业绩文档的筛选方法的第一实施例，以下为本申请实施例提供的一种人才业绩文档的筛选方法的第二实施例。

请参阅图2，本申请实施例中一种人才业绩文档的筛选方法的第二实施例的流程示意图，包括：

步骤201、对获取到的待筛选文档进行内容提取，得到原始文档内容。

需要说明的是，步骤201的内容与步骤101的内容相同，具体可以参加上述描述，在此不再赘述。

步骤202、根据正则表达式去除原始文档内容中的第一字符后，得到待处理文档，其中，第一字符包括：换行符、空格和数字。

对待筛选文档进行内容提取后得到的原始文档内容中，存在换行符、空格、数字的无用字符，故用正则表达式去除原始文档内容中这些无用字符，主要保留实质文档内容，便得到了待处理文档。

步骤203、将文档中的句子结束符作为待处理文档的分割点后，对待处理文档进行分句处理，得到候选句集合。

为了能够准确分句，对待处理文档进行分句处理，便可得到候选句集合，即T＝[S₁,S₂,……,S_m]，此时将文档中的句子结束符作为待处理文档的分割点。

步骤204、通过预置分词系统，对候选句集合中的候选句进行分词处理后，得到候选词集合。

本实施例中，在得到候选句集合T后，对候选句集合中的每个候选句S_i进行分词处理，得到对应的候选词集合S_i＝[t_i,1,t_i,2,……,t_i,n]，其中t_i,j∈T。

在进行分词处理的时候，可以进一步地剔除停用词，即过滤掉数词、量词、副词、介词等词语。可以理解的是，预置分词系统可以是有ICTCLAS、jieba等分词系统，本领域技术人员可以根据需要进行选择，在此不作具体限定。

步骤205、通过TextRank算法，确定候选词集合的关键词图及关键词图对应的第一权重。

需要说明的是，通过TextRank算法，确定候选词集合的关键词图及关键词图对应的第一权重具体包括：

通过TextRank算法构建候选词集合的关键词图G₁＝(V₁,E₁),其中V₁表示节点集由多个t_i,j组成,E₁表示连接两点的共现频率，也是两点的权重。通过该方式迭代至权重收敛，收敛的阈值为0.0001。

步骤206、按照第一权重，将关键词图进行降序排序，得到候选关键词列表。

需要说明的是，按照第一权重，将关键词图进行降序排序，得到候选关键词列表具体包括：

遍历关键词图G₁，并将节点V₁按照权重倒排排序，得到按权重从大到小排列的候选关键词，取前m个词作为候选关键词列表M。

步骤207、将候选关键词列表中的候选关键词放置于待处理文档中，并进行标记。

将候选关键词列表M中的候选关键词放置于待处理文档T中，并将放置在待处理文档T中的候选关键词进行标记。

步骤208、当待处理文档中存在两个相邻的词均被标记时，将相邻的候选关键词进行组合。

当待处理文档T中存在两个相邻的词均被标记时，将相邻的这两个候选关键词进行组合，得到一个多次关键词。

此处需要说明的是，当一对的两个相邻候选关键词组合后，候选关键词列表M中的候选关键词的数量会少1，此时需要再重新从排序后的候选关键词中选取一个补充至候选关键词列表M中，保证候选关键词列表M中的候选关键词的数量始终为m个。

步骤209、将候选关键词列表中，未被组合的候选关键词构成的集合作为待分析关键词集合。

在对候选关键词列表进行标记组合后，未被组合的候选关键词构成的集合作为待分析关键词集合K₁。

步骤210、通过TextRank算法，确定候选句集合对应的句子相似度图及句子相似度图对应的第二权重。

需要说明的是，通过TextRank算法，确定候选句集合对应的句子相似度图及句子相似度图对应的第二权重具体包括：

通过TextRank算法构建候选词集合的关键词图G₂＝(V₂,E₂),其中V₂表示节点集由多个S_i组成,E₂表示连接两点的句子相似度，也是两点的权重。通过该方式迭代至权重收敛，收敛的阈值为0.001。

句子相似度计算公式为，

其中S_i,S_j分别表示两个候选句，t_k表示S_i,S_j中的一个词。

步骤211、按照第二权重，将句子相似图度进行降序排序，得到候选句列表。

需要说明的是，按照第二权重，将句子相似图度进行降序排序，得到候选句列表具体包括：

遍历句子相似度图G₂，并将节点V₂按照权重降序排序，得到按权重从大到小排列的候选句，取前n个句子作为候选句列表N。

步骤212、根据摘要信息的字数阈值及句数阈值，从候选句列表中抽取句子得到待筛选文档的摘要信息。

本实施例中，根据摘要信息的字数阈值、句数阈值，从候选句列表N抽取候选句组成业绩文档的摘要信息K₂。

可以理解的是，字数阈值和句数阈值可以根据需要进行设置，本领域不作具体限定。

步骤213、将待分析关键词集合和选聘关键词集合进行重复性对比，并将待分析关键词结合中重复的待分析关键词构成的集合作为匹配关键词集合。

将待分析关键词集合K₁和选聘关键词集合K₃进行重复性对比,得到由重复的待分析关键词构成的匹配关键词集合K₄。

需要说明的是，选聘关键词集合为选聘项目对应的选聘关键词集合。

步骤214、基于第一预置公式，根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分。

需要说明的是，本实施例中，在得到匹配关键词集合K₄后，需要根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分，本实施例中的匹配度得分用相关性系数计算。具体用于计算的第一预置公式为：

步骤215、根据匹配度得分，展示待分析关键词集合和摘要信息。

通过匹配度得分，展示每个待筛选分档包含的摘要信息、关键词集合，帮助业绩评审工作中评审专家快速发现目标文档，快速理解文档主要内容，快速做出业绩评价。

以上为本申请实施例提供的一种人才业绩文档的筛选方法的第二实施例，以下为本申请实施例提供的一种人才业绩文档的筛选装置的实施例，请参阅图3。

本申请实施例中提供的一种人才业绩文档的筛选装置，包括：

内容提取单元301，用于对获取到的待筛选文档进行内容提取，得到待处理文档；

分句单元302，用于对待处理文档进行分句处理，得到候选句集合；

分词单元303，用于对候选句集合中的候选句进行分词处理后，得到候选词集合；

第一单元304，用于基于TextRank算法，结合待处理文档，得到候选词集合对应的待分析关键词集合；

遍历单元305，用于基于TextRank算法，遍历候选句集合得到待筛选文档的摘要信息；

对比单元306，用于将待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，选聘关键词集合为选聘项目对应的关键词集合；

计算单元307，用于根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分；

展示单元308，用于根据匹配度得分，展示待分析关键词集合和摘要信息。

本实施例提供了一种人才业绩文档的筛选装置，能够对获取到的待筛选文档进行内容提取，得到待处理文档；对待处理文档进行分句处理，得到候选句集合；对候选句集合中的候选句进行分词处理后，得到候选词集合；基于TextRank算法，结合待处理文档，得到候选词集合对应的待分析关键词集合；基于TextRank算法，遍历候选句集合得到待筛选文档的摘要信息；将待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，选聘关键词集合为选聘项目对应的关键词集合；根据匹配关键词集合，计算待筛选文档与选聘项目之间的匹配度得分；根据匹配度得分，展示待分析关键词集合和摘要信息，这样可以自动地对待筛选文档进行筛选展示，解决了现有招聘人员在进行业绩评审工作时，对每个应聘者的业绩文档一一翻阅，来给应聘者对应的简历进行筛选。但由于业绩文档数量多，一一翻阅的方式仍然是一种非常低效的方式的技术问题。

本申请实施例还提供了一种人才业绩文档的筛选设备的实施例，本实施例中包括处理器以及存储器；存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行第一实施例或第二实施例的人才业绩文档的筛选方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人才业绩文档的筛选方法，其特征在于，包括：

对获取到的待筛选文档进行内容提取，得到待处理文档；

对所述待处理文档进行分句处理，得到候选句集合；

2.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述对获取到的待筛选文档进行内容提取，得到待处理文档具体包括：

对获取到的待筛选文档进行内容提取，得到原始文档内容；

3.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述对所述待处理文档进行分句处理，得到候选句集合具体包括：

4.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述对所述候选句集合中的候选句进行分词处理后，得到候选词集合具体包括：

5.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述基于TextRank算法，结合所述待处理文档，得到所述候选词集合对应的待分析关键词集合具体包括：

6.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述基于TextRank算法，遍历所述候选句集合得到所述待筛选文档的摘要信息具体包括：

7.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述将所述待分析关键词集合和选聘关键词集合进行对比，得到匹配关键词集合，其中，所述选聘关键词集合为所述选聘项目对应的关键词集合具体包括：

8.根据权利要求1所述的人才业绩文档的筛选方法，其特征在于，所述根据所述匹配关键词集合，计算所述待筛选文档与所述选聘项目之间的匹配度得分具体包括：

9.一种人才业绩文档的筛选装置，其特征在于，包括：

10.一种人才业绩文档的筛选设备，其特征在于，包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1至8中任一项所述的人才业绩文档的筛选方法。