CN109992778A

CN109992778A - 基于机器学习的简历文档判别方法及装置

Info

Publication number: CN109992778A
Application number: CN201910234751.2A
Authority: CN
Inventors: 黄威威; 沈剑
Original assignee: Shenzhen Bazhao Network Technology Co Ltd
Current assignee: Shenzhen Bazhao Network Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-09
Anticipated expiration: 2039-03-26
Also published as: CN109992778B

Abstract

本发明公开了一种基于机器学习的简历文档判别方法及装置，其中，所述基于机器学习的简历文档判别方法，包括：对导入文档进行预处理，得到导入文本；抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。本发明的技术方案能够在保护用户隐私信息前提下，高效快速准确的筛选出简历文档，从而提高用户体验。

Description

基于机器学习的简历文档判别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。

背景技术

人力资源公司的用户简历一般都分布在不同的渠道，包括各大招聘网站、邮箱、U盘、云端、电脑桌面等。为了更好的管理用户的简历，平台会让用户将不同渠道的简历统一上传到管理平台。在上传的过程中，除了各大招聘网站的导入文本质量较高外，邮箱、U盘、云端、客户端等方式上传时会获取到用户很多隐私性的非简历文件。因此，为了能够自动高效正确的获取用户的导入文本，需要在文件上传时建立一种判别机制。

当前的处理机制有以下几种：

1、让用户上传所有的文档，然后进行解析。对解析后的文档进行分析判断。基于这种方法的判断存在一个非常大的问题就是用户安全隐私问题，会导致用户非简历类重要文件全部自动上传。

2、基于简单的规则进行判断，如“工作职责”、“基本信息”等。基于这种方法的判断的准确度低，而且这种规则很容易识别，导致在文本加入这些规则后达到以假乱真的效果。

有鉴于此，有必要提出对目前的简历判别方法进行进一步的改进。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用的第一个技术方案为：提供一种基于机器学习的简历文档判别方法，包括：

对导入文档进行预处理，得到导入文本；

抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；

根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；

根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。

其中，所述抽取预处理导入文本中关键词特征，具体包括：

在导入文本中的分词与预定义关键词完全匹配时，抽取导入文本中的分词作为关键词特征；以及在导入文本中的分词与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值时，抽取导入文本中的分词作为关键词特征。

其中，所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量，具体包括：

根据与预定义关键词完全匹配的分词获取相应的子文本特征向量，根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量，通过相加得到新的子文本特征向量，再与根据导入文本顺序特征获取相应的子文本特征向量进行拼接，形成最终的文本向量特征。

其中，所述根据构建的预测模型对文本特征向量进行预测，得到对应的置信度，具体包括：

根据构建的多个预测模型分别对文本特征向量进行预测，得到对应的多个子置信度；

分别对多个置信度进行加权，并计算出多个子置信度的均值，并将均值作为导入文本的置信度。

其中，所述根据置信度对导入文本进行判别，还包括：

在置信度小于或等于设定阈值，则表示导入文本为非简历文档。

其中，所述对导入文档进行预处理，得到导入文本，包括：

对导入文档进行解析得到解析文本；以及

对解析文本进行无用字符删除处理、特殊字符转换处理、大小写转换处理、全角半角转换处理及分词处理中至少一种文本处理。

其中，所述根据构建的预测模型对文本特征向量进行预测之前，还包括：

训练分类预测模型。

为实现上述目的，本发明采用的第二个技术方案为：提供一种基于机器学习的简历文档判别装置，包括：

预处理模块，用于对导入文档进行预处理，得到导入文本；

抽取模块，用于抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；

预测模块，用于根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；

判别模块，用于根据置信度对导入文本进行判别，在置信度大于设定阈值，则表示导入文本为简历文档。

为实现上述目的，本发明采用的第三个技术方案为：提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明采用的第四个技术方案为：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本发明的技术方案主要采用先对导入文档进行预处理，得到导入文本，然后抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量，再根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；最后根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。本方案通过自动抓取导入文本，提取更加有效的导入文本特征，能够在保护用户隐私的情况下，高效快速准确的筛选出简历文档，从而提高用户体验。

附图说明

图1为本发明一实施例基于机器学习的简历文档判别方法的方法流程图；

图2为图1中步骤S20的流程图；

图3为图1中步骤S30与步骤S40的流程图；

图4为本发明一实施例基于机器学习的简历文档判别装置的模块方框图；

图5为本发明一实施例计算机设备的内部结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参照图1，图1为本发明一实施例基于机器学习的简历文档判别方法的方法流程图。在本发明实施例中，该基于机器学习的简历文档判别方法，包括：

步骤S10、对导入文档进行预处理，得到导入文本；

步骤S20、抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；

步骤S30、根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；

步骤S40、根据置信度对导入文本进行判别，在置信度大于设定阈值，则表示导入文本为简历文档。

本实施例中，该方法适用于对WEB端、客户端及邮件等方式导入文档的处理。导入文档包括简历文档及非简历文档。应用该方法可以从导入文档中准确判别出简历文档。具体，在获取到待判别的文档时，先对对导入文档进行预处理，可以解析得到多个分词形式的导入文本。然后从预处理导入文本中的抽取关键词特征及导入文本顺序特征。判断一份简历里面是否存在关键词或者类似的词，当一份简历中存在某些关键词时，该特征的特征值就为1或者是关键词的频次。导入文本顺序特征为，根据简历的格式(在简历的排版上某部分内容的位置信息)，可以确定简历的某一部分内容一定出现在另部分内容前面或者后面，例如，简历基本信息一定在工作描述前面。根据上述的内在逻辑能得到对应的特征信息。而后将关键词特征以及导入文本顺序特征分别转化为数值向量，以方便简历的预测及训练，根据数值向量的累加和拼接确定导入文本的文本特征向量。根据构建的预测模型对文本特征向量进行预测，得到对应的置信度。该预测模型可以是一个，也可以是多个。在多个模型的构建上采用集成学习(Ensemble Learning)思想，在模型的训练上则采用正则化思想。最后，根据置信度是否大于设定阈值对导入文本进行判断，如果置信度大于设定阈值，则表示导入文本为简历文档。如此，以从导入文档中准确判别出简历文档。在置信度小于或等于设定阈值，则表示导入文本为非简历文档。在导入文本为非简历文档时，不导入非简历文本的数据，以避免导入非简历文档数据，能够保护用户的隐私。

在一具体的实施方式中，所述抽取预处理导入文本中关键词特征，具体包括：

上述的，预定义的关键词可以根据业务知识和统计分析来获取。导入文本中的分词可以与预定义的关键词进行匹配。该匹配的方式包括完全匹配以及相似度匹配。在两者为完全匹配时，完全匹配一次的特征值为1。在两者为语义相似度匹配和/或词移距离(WordMover’s Distance)匹配，计算导入文本中分词与预定义的关键词相似度，在语义相似度值和/或词移距离大于设定阈值时，将导入文本中的分词作为关键词特征，并将相应的相似度数值作为特征值。

请参照图2，图2为图1中步骤S20的流程图。在一具体的实施方式中，所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量，具体包括：

上述的，根据与预定义关键词完全匹配的分词获取相应的子文本特征向量；根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量，两者相加得到新的子文本特征向量。对于导入文本顺序特征为，判断是否内容上是否存在先后顺序，存在特征值就为1，否则为0。根据上述的转化竖直向量可以获取子文本特征向量，并拼接上述的相加得到的新的子文本特征向量，可以形成最终的文本向量特征。

请参照图3，图3为图1中步骤S30与步骤S40的流程图。在一具体的实施方式中，所述根据构建的预测模型对文本特征向量进行预测，得到对应的置信度，具体包括：

上述的，为了提高预测的准确性，得到的文本向量特征输入多个预测模型，通过多个预测模型对文本向量特征进行预测，得到对应的多个子置信度，然后根据分别对多个置信度进行加权，并计算出多个子置信度的均值，并将均值作为导入文本的置信度，能够得到准确的置信度。

在一具体的实施方式中，所述对导入文档进行预处理，得到导入文本，包括：

对导入文档进行解析得到解析文本；以及

上述的，对导入文档可以进行不同格式的解析得到解析文本，然后将解析后的文本进行删除无用字符、特殊字符转换、大小写转换、全角半角转换、分词等中的至少一种文本处理，得到多个分词。在进行分词处理时，还需要加入相应词库，以方便后续处理。

在一具体的实施方式中，所述根据构建的预测模型对文本特征向量进行预测之前，还包括：

训练分类预测模型。

上述的，模型训练主要包含正负样本确定、样本不平衡的处理和模型构建三部分内容。上述的正负样本确定就是将简历认为是正样本，负样本是基于用户反馈数据统计分析确定当前有哪些类型的非简历，从而构建负样本。所谓的样本不平衡的处理就是采用上采样或者下采样的方法来采集训练样本，在模型构建上采用了正则化的逻辑回归模型、SVM、GBDT等机器学习模型。

请参照图4，图4为本发明一实施例基于机器学习的简历文档判别装置的模块方框图。本发明的实施例中，该基于机器学习的简历文档判别装置，包括：

预处理模块10，用于对导入文档进行预处理，得到导入文本；

抽取模块20，用于抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；

预测模块30，用于根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；

判别模块40，用于根据置信度对导入文本进行判别，在置信度大于设定阈值，则表示导入文本为简历文档。

在获取到待判别的文档时，通过预处理模块10，对导入文档进行预处理，可以解析得到多个分词形式的导入文本。通过抽取模块20，从预处理导入文本中的抽取关键词特征及导入文本顺序特征。判断一份简历里面是否存在关键词或者类似的词，当一份简历中存在某些关键词时，该特征的特征值就为1或者是关键词的频次。导入文本顺序特征为，根据简历的格式(在简历的排版上某部分内容的位置信息)，可以确定简历的某一部分内容一定出现在另部分内容前面或者后面，例如，简历基本信息一定在工作描述前面。根据上述的内在逻辑能得到对应的特征信息。而后将关键词特征以及导入文本顺序特征分别转化为数值向量，以方便简历的预测及训练，根据数值向量的累加确定导入文本的文本特征向量。通过预测模块30，可以根据构建的预测模型对文本特征向量进行预测，得到对应的置信度。该预测模型可以是一个，也可以是多个。在多个模型的构建上采用集成学习(EnsembleLearning)思想，在模型的训练上则采用正则化思想。最后，通过判别模块40，根据置信度是否大于设定阈值对导入文本进行判断，如果置信度大于设定阈值，则表示导入文本为简历文档。如此，以从导入文档中准确判别出简历文档。在置信度小于或等于设定阈值，则表示导入文本为非简历文档。

在一具体的实施方式中，所述抽取模块20，还用于：

在一具体的实施方式中，所述预测模块30，还用于：

其中，所述根据置信度对导入文本进行判别，还包括：

在一具体的实施方式中，所述预处理模块10，用于：

对导入文档进行解析得到解析文本；以及

请参照图5，图5为本发明一实施例计算机设备的内部结构图。在一实施例中，该计算机设备包括通过系统总线连接的处理器、存储器及网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的简历文档判别方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以上各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的简历文档判别方法，其特征在于，所述基于机器学习的简历文档判别方法，包括：

对导入文档进行预处理，得到导入文本；

2.如权利要求1所述的基于机器学习的简历文档判别方法，其特征在于，所述抽取预处理导入文本中关键词特征，具体包括：

3.如权利要求2所述的基于机器学习的简历文档判别方法，其特征在于，所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量，具体包括：

4.如权利要求1所述的基于机器学习的简历文档判别方法，其特征在于，所述根据构建的预测模型对文本特征向量进行预测，得到对应的置信度，具体包括：

5.如权利要求4所述的基于机器学习的简历文档判别方法，其特征在于，所述根据置信度对导入文本进行判别，还包括：

如果置信度小于或等于设定阈值，则表示导入文本为非简历文档。

6.如权利要求1所述的基于机器学习的简历文档判别方法，其特征在于，所述对导入文档进行预处理，得到导入文本，包括：

对导入文档进行解析得到解析文本；以及

7.如权利要求1所述的基于机器学习的简历文档判别方法，其特征在于，所述根据构建的预测模型对文本特征向量进行预测之前，还包括：

训练分类预测模型。

8.一种基于机器学习的简历文档判别装置，其特征在于，所述基于机器学习的简历文档判别装置，包括：

预处理模块，用于对导入文档进行预处理，得到导入文本；

判别模块，用于根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。