CN111311180A

CN111311180A - 简历筛选方法及装置

Info

Publication number: CN111311180A
Application number: CN202010084611.4A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-19
Anticipated expiration: 2040-02-10
Also published as: CN111311180B

Abstract

本发明提供了一种简历筛选方法及装置；方法包括：获取待筛选简历及对应的投递岗位类别；基于待筛选简历的模块化信息结构，从所述待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据；对所述目标信息模块对应的简历数据进行向量化编码，得到对应所述简历数据的编码向量；对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量；将所述第一特征向量分别与所述投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；根据所述匹配结果，对所述待筛选简历进行简历筛选。通过本发明，能够提高简历筛选的效率及准确性。

Description

简历筛选方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及一种简历筛选方法及装置。

背景技术

人才对于企业发展起着举足轻重的作用，招聘合适的人选和人才是每个公司都非常重视的一环。随着企业的发展和人力资源体系的完善，精准高效的自动化简历筛选方法能够极大地提高公司挑选优秀人才的效率，同时在面试环节之前进行筛选降低不合适人选的引入，提高面试成功率，实现智能决策。

相关技术中，通过用户画像与岗位能力标签匹配的方法进行简历筛选，需要人工创建能力标签，通用性能较低，且耗时耗力；通过简历抽取关键词的方法进行简历筛选，依赖于分词和关键词抽取结果的准确性，关键词抽取不准确会影响筛选的效果；基于卷积神经网络模型的方法进行简历筛选，由于模型训练的过程十分耗时，无法满足实时筛选的需求。

发明内容

本发明实施例提供一种简历筛选方法及装置，能够提高简历筛选的效率及准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种简历筛选方法，包括：

获取待筛选简历及对应的投递岗位类别；

基于待筛选简历的模块化信息结构，从所述待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据；

对所述目标信息模块对应的简历数据进行向量化编码，得到对应所述简历数据的编码向量；

对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量；

将所述第一特征向量分别与所述投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；

根据所述匹配结果，对所述待筛选简历进行简历筛选。

本发明实施例提供一种简历筛选装置，包括：

简历获取模块，用于获取待筛选简历及对应的投递岗位类别；

数据提取模块，用于基于待筛选简历的模块化信息结构，从所述待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据；

数据编码模块，用于对所述目标信息模块对应的简历数据进行向量化编码，得到对应所述简历数据的编码向量；

特征提取模块，用于对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量；

相似度匹配模块，用于将所述第一特征向量分别与所述投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；

简历筛选模块，用于根据所述匹配结果，对所述待筛选简历进行简历筛选。

上述方案中，所述数据提取模块，还用于从所述待筛选简历包括的多个信息模块中，确定以下模块至少之一为目标信息模块：教育经历、工作经历、自我评价、专业技能、获奖情况；

提取所述目标信息模块对应的简历数据。

上述方案中，所述数据编码模块，还用于构建混合向量矩阵，所述混合向量矩阵的每一行用于表征一个字的混合向量；

获取所述简历数据中各个字的独热编码向量；

根据各个所述字的独热编码向量，从混合向量矩阵中提取各个所述字对应的混合向量，以得到对应所述简历数据的编码向量。

上述方案中，所述数据编码模块，还用于对所述目标信息模块对应的简历数据进行分字和分词，得到对应所述简历数据的字序列和词序列；

获取对应所述字序列的字向量序列、及对应所述词序列的词向量序列；

将所述字向量序列与所述词向量序列进行拼接，得到对应所述混合向量矩阵。

上述方案中，所述特征提取模块，还用于通过简历处理模型中的编码模型，对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量。

上述方案中，所述简历处理模型还包括分类模型；所述装置还包括：

模型训练模块，用于获取简历样本，所述简历样本标注有所述简历样本所适配的目标岗位类别；

基于所述简历样本的模块化信息结构，从所述简历样本包括的多个信息模块中，提取目标信息模块对应的简历数据；

通过编码模型，对所述编码向量进行特征提取，得到所述简历样本的第一特征向量；

通过分类模型，对所述简历样本的第一特征向量进行岗位类别的分类预测，得到所述简历样本所适配的岗位类别；

获取预测得到的岗位类别与所述目标岗位类别的差异，并基于所述差异更新所述简历处理模型的模型参数。

上述方案中，所述模型训练模块，还用于获取历史在职员工的简历及在职员工的简历；

根据所述简历所对应的员工在职时间以及考核成绩，将在职时间满足时间阈值、且考核成绩满足成绩阈值的员工对应的简历作为简历样本；

根据简历样本对应的员工所在的岗位类别，标注所述简历样本所适配的目标岗位类别。

上述方案中，简历筛选模块，还用于根据所述匹配结果，按照与所述待筛选简历的相似度的高低，对所述至少两个目标简历排序，得到目标简历序列；

从所述目标简历序列中第一个目标简历开始，选取目标数量的目标简历；

基于选取的各目标简历与所述待筛选简历的相似度，确定所述目标数量的目标简历的相似度平均值；

当所述相似度平均值达到相似度阈值时，确定所述待筛选简历为合格简历。

上述方案中，简历筛选模块，还用于根据所述匹配结果，获取与所述待筛选简历的相似度达到相似度阈值的目标简历的数量；

当所述数量达到数量阈值时，确定所述待筛选简历为合格简历。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的简历筛选方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的简历筛选方法。

本发明实施例具有以下有益效果：

1)通过对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量；对编码向量进行特征提取，得到待筛选简历的第一特征向量；如此，相对于提取关键词，建立关键词权重组成向量来表征待筛选简历，本发明的第一特征向量不会受到关键词提取准确性的影响，能够提升简历筛选的准确性；

2)通过将所述第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；根据匹配结果，对所待筛选简历进行简历筛选；由于是将基于待筛选简历与投递岗位类别的至少两个目标简历的相似度来进行简历筛选，而不需要人工构建先验知识库，如人工创建对应投递岗位类别的能力标签，如此，能够节省人力和时间，提高简历筛选的效率。

附图说明

图1是本发明实施例提供的简历处理系统100的一个可选的架构示意图；

图2是本发明实施例提供的电子设备的结构示意图；

图3是本发明实施例提供的简历筛选方法的流程示意图；

图4是本发明实施例提供的获取第i个字的混合向量的示意图；

图5是本发明实施例提供的字向量序列与词向量序列进行拼接的示意图；

图6是本发明实施例提供的分类示意图；

图7是本发明实施例提供的简历筛选方法的流程示意图；

图8是本发明实施例提供的简历处理模型的训练方法的流程示意图；

图9是本发明实施例提供的简历筛选方法的流程示意图；

图10是本发明实施例提供的简历处理模型的结构示意图；

图11是本发明实施例提供的简历筛选装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)模块化信息结构，简历与其它文本的显著差异在于简历具有层次化、模块化的结构，通常包含：个人基本信息、求职意向、教育经历、工作经历(项目经验)、自我评价、专业技能、获奖情况等多个模块，可以根据模块名称对简历数据进行分块。

2)独热编码，即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如对六个状态进行编码：000001,000010,000100,001000,010000,100000。

3)分词，将连续的字序列按照一定的规范重新组合成词序列的过程。

自动化的简历筛选在岗位匹配挖掘、人才筛选和猎聘等领域具有广泛的应用场景，相关技术中进行简历筛选的方法主要有通过用户画像与岗位能力标签匹配的方法、基于简历关键词权重的岗位匹配方法、构建职业评分模型进行打分方法，下面介绍具体方法。

通过用户画像与岗位能力标签匹配的方法：首先需要人工创建能力标签库，从标签库中过滤得到目标岗位对应的能力标签，生成能力标签树，同时对简历文本进行自然语言分析，刻画简历的能力画像，然后与目标岗位的能力标签进行匹配，若匹配则为合格简历，若不匹配则为不合格简历，以实现简历的智能评价和人才筛选。

基于简历关键词权重的岗位匹配方法：首先依据目标岗位的岗位模型关联得到目标关键词，建立目标简历的关键词权重组成向量，计算目标简历与目标岗位的匹配值，若匹配值达到设定阈值则符合岗位要求，若未达到阈值则不符合岗位要求；

构建职业评分模型进行打分方法首先根据每一份简历中的职位信息进行分类，得到分类集合，然后基于职业对应的业内人才信息和特征采用卷积神经网络算法得到职业评分模型，根据职业评分模型对每一份简历进行打分后排序，将满足打分的简历添加到职业需求人才库。

相关技术中的简历筛选方法，存在的问题在于：

1)通过用户画像与岗位能力标签匹配的方法，依赖于人工建立的先验知识库，通用性能较低，同时对于不同的职业岗位知识库需要重新建立，非常耗时耗力；

2)基于简历抽取关键词方法依赖于分词和关键词抽取结果的准确性，而实际上简历中往往包含许多专业用语，这部分词语很容易被误拆分，导致关键词抽取不准确影响最终效果；

3)基于卷积神经网络模型进行打分的方法模型训练过程中比较耗时，在工业应用中较难满足目前实时筛选获取结果的要求。

基于此，本发明提供一种简历处理方法，不受关键词抽取效果的影响，也不需要人工构建先验知识库，能够提高简历筛选的效率及准确性。

参见图1，图1是本发明实施例提供的简历处理系统100的一个可选的架构示意图，为实现支撑一个示例性应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400，用于发送待筛选简历及对应的投递岗位类别；

服务器200，用于获取待筛选简历及对应的投递岗位类别；基于待筛选简历的模块化信息结构，从待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据；对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量；对编码向量进行特征提取，得到待筛选简历的第一特征向量；将第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；根据匹配结果，对待筛选简历进行简历筛选

在实际应用中，服务器既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

接下来对实施本发明实施例的简历处理方法的电子设备进行说明。参见图2，图2是本发明实施例提供的电子设备的结构示意图，图2所示的电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Mem ory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的简历处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：简历获取模块4551、数据提取模块4552、数据编码模块4553、特征提取模块4554、相似度匹配模块4555及简历筛选模块4556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的简历处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的简历处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的简历处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的简历筛选方法。

图3为本发明实施例提供的简历筛选方法的流程示意图，参见图3，本发明实施例提供的简历筛选方法包括：

步骤301：服务器获取待筛选简历及对应的投递岗位类别。

这里，待筛选简历为用户投递的简历，对应的投递岗位类别为用户投递的岗位类别。需要说明的是，定义每个岗位为一个岗位类别。

在一些实施例中，用户可以通过终端选择投递岗位类别，并投递待筛选简历，服务器接收终端选择的投递岗位类别、及投递的待筛选简历。在另一些实施例中，待筛选简历中包括对应意向岗位的信息模块，服务器可以对待筛选简历中对应意向岗位的信息模块的文本进行识别，以得到投递岗位类别。

步骤302：基于待筛选简历的模块化信息结构，从待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据。

需要说明的是，简历与其他文本的显著差异在于简历具有层次化、模块化的结构，也即简历包括多个信息模块，如个人基本信息、求职意向、教育经历、工作经历(项目经验)、自我评价、专业技能、获奖情况等。

在一些实施例中，服务器可以根据各个模块的名称，过滤掉与岗位类别不显著相关的信息模块，选择与岗位类别相关的信息模块作为目标信息模块，然后提取目标信息模块对应的简历数据。

例如，服务器可以从待筛选简历包括的多个信息模块中，过滤掉基本信息模块、求职意向模块，基本信息模块通常包括姓名、性别、生日、地址、手机号码、邮箱等，其与是否满足投递岗位类别的需求的相关性不高；求职意向模块通常包括意向岗位、期望薪资等，其与是否满足投递岗位类别的需求的相关性也不高。

在实际实施时，可以通过正则表达式，将各个模块名称与目标信息模块的关键词进行匹配，以确定目标信息模块。

这里，正则表达式描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

在一些实施例中，服务器可以通过以下方式提取目标信息模块对应的简历数据：从所述待筛选简历包括的多个信息模块中，确定以下信息模块至少之一为目标信息模块：教育经历、工作经历、自我评价、专业技能、获奖情况；提取所述目标信息模块对应的简历数据。

在实际实施时，服务器可以将教育经历、工作经历、自我评价、专业技能、获奖情况一起作为目标信息模块，也可以根据公司对不同模块的重视程度，选择目标数量的信息模块作为目标信息模块，需要说明的是，不同公司所重视的内容不同，可以根据不同公司的需求，选择不同的目标信息模块。

例如，有些公司更看重教育经历和工作经历，那么可以将教育经历和工作经历作为目标信息模块；有些公司更看重专业技能，那么将专业技能作为目标信息模块。

在一些实施例中，服务器还可以过滤掉目标信息模块对应的简历数据中的时间信息。例如，在教育经历模块中，通常包括时间、学校、专业、学历，通常判断该简历是否符合投递岗位类别的要求仅需要考虑毕业院校、专业、学历，而并不需要考虑到时间信息，因此，可以将时间信息剔除。

步骤303：对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量。

在实际实施时，服务器可以分别对各目标信息模块对应的简历数据进行向量化编码，得到各目标信息模块的特征向量，以得到对应简历数据的编码向量；或者，服务器也可以对目标信息模块对应的简历数据进行分词，获取分词得到的各个词对应的词向量，以得到对应简历数据的编码向量；或者，服务器也可以对目标信息模块对应的简历数据进行分字，获取分字得到的各个字对应的字向量，以得到对应简历数据的编码向量。

需要说明的是，所有获取目标信息模块的向量表示的方式均可以用于对目标信息模块对应的简历数据进行向量化编码，并不限于以上所述的方法。

在一些实施例中，服务器还可以通过以下方式对目标信息模块对应的简历数据进行向量化编码：构建混合向量矩阵，所述混合向量矩阵的每一行用于表征一个字的混合向量；获取简历数据中各个字的独热编码向量；根据各个字的独热编码向量，从混合向量矩阵中提取各个字对应的混合向量，以得到对应所述简历数据的编码向量。

这里，从Word2Vec的训练语料中构建词索引字典，即每个出现过的字会与一个独热编码向量对应，用于指示各个字对应的混合向量在混合向量矩阵中的位置，以从混合向量矩阵中提取各个字对应的混合向量。在实际实施时，可以分别计算各个字的独热编码向量与混合向量矩阵的乘积，得到各个字的混合向量。

例如，图4为本发明实施例提供的获取第i个字的混合向量的示意图，参见图4，第i个字的独热编码向量与混合向量矩阵经过矩阵乘法，得到第i个字的混合向量。

在一些实施例中，服务器可以通过以下方式构建混合向量矩阵：

对目标信息模块对应的简历数据进行分字和分词，得到对应简历数据的字序列和词序列；获取对应字序列的字向量序列、及对应词序列的词向量序列；将字向量序列与词向量序列进行拼接，得到对应混合向量矩阵。

在实际实施时，服务器分别训练以字为单项的字向量模型和以词为单项的词向量模型，分别通过字向量模型和词向量模型，获取对应字序列的字向量序列、及对应词序列的词向量序列。

需要说明的是，为了将字向量序列与词向量序列进行拼接，字向量序列需要与词向量序列对齐，也即字向量序列中字向量的个数与词向量序列中词向量的个数相同，因此，每个词需要重复编码，重复次数为组成词的字的字数。

例如，图5为本发明实施例提供的字向量序列与词向量序列进行拼接的示意图，参见图5，“简历”重复编码了两次，得到两个“简历”的词向量，分别用于与“简”的字向量和“历”的字向量进行拼接。

步骤304：对编码向量进行特征提取，得到待筛选简历的第一特征向量。

在实际实施时，可以通过词频方法、文档频次方法、神经网络模型等对编码向量进行特征提取，得到待筛选简历的第一特征向量。

以词频方法为例，服务器可以根据一个词在简历中出现的次数，将出现次数小于次数阈值的词对应的向量删除，以降低特征空间的维数。当编码向量为各个字的混合向量时，则将出现次数小于次数阈值的词对应的多个字的混合向量删除，如“简历”出现次数小于次数阈值，那么删除“简”的混合向量和“历”的混合向量。

以文档频次方法为例，服务器可以根据一个词在整个数据集中有多少个简历中包括这个词，去除频次特征高的词和特别低的词的特征。

在一些实施例中，服务器通过简历处理模型中的编码模型，对编码向量进行特征提取，得到待筛选简历的第一特征向量。

在实际实施时，服务器可以训练得到的编码模型(如卷积神经网络模型，(CNN，Convolutional Neural Networks)、长短期记忆网络(LSTM，Long Short-Term Memory)等)，对编码向量进行特征提取。

需要说明的是，利用双向长短期记忆网络(Bi-LSTM，Bi-directional LongShort-Term Memory)作为编码模型能够更好地抽取简历特征，在计算待筛选简历与简历样本的特征相似度方面，泛化能力更高，效率更高。

在一些实施例中，简历处理模型还包括分类模型；服务器可以通过以下方式训练简历处理模型：获取简历样本，简历样本标注有简历样本所适配的目标岗位类别；基于简历样本的模块化信息结构，从简历样本包括的多个信息模块中，提取目标信息模块对应的简历数据；对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量；通过编码模型，对编码向量进行特征提取，得到简历样本的第一特征向量；通过分类模型，对简历样本的第一特征向量进行岗位类别的分类预测，得到简历样本所适配的岗位类别；获取预测得到的岗位类别与目标岗位类别的差异，并基于差异更新简历处理模型的模型参数。

在实际实施时，通过分类来解决相似度的问题，分类模型仅仅是一个训练方案，也即，认为属于同一个类别的两个简历是相似的，通过对简历处理模型的训练，得到编码模型，在训练完成后，仅需要使用编码模型对简历进行特征提取，根据提取的第一特征进行相似度匹配，而并不需要分类模型。需要说明的是，

在一些实施例中，可以通过以下方式实现简历处理模型的训练：根据预测得到的岗位类别与目标岗位类别的差异，确定简历处理模型的损失函数的值；当损失函数的值达到预设阈值时，基于简历处理模型的损失函数的值确定相应的误差信号；将误差信号在简历处理模型中反向传播，并在传播的过程中更新简历处理模型的各个层的模型参数。

在实际应用中，简历处理模型的损失函数可以为：

Loss＝-log_pt (1)

其中，p为简历样本所适配的岗位类别，t为简历样本所适配的目标岗位类别。

这里对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

以损失函数为(1)为例，服务器基于损失函数确定误差信号，误差信号从简历处理模型的输出层反向传播，逐层反向传播误差信号，在误差信号到达每一层时，结合传导的误差信号来求解梯度(也就是Loss函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

在一些实施例中，简历处理模型中的分类模型可采用margin softmax模型，比如a-softmax模型、am-softmax模型、aam-softmax模型等。

以简历处理模型中的分类模型采用am-softmax模型为例，假设W＝(c₁,c₂,...,c_n)，那么，p＝am-softmax(＜y,c₁＞,＜y,c₂＞,...,＜y,c_n＞)，相应的，简历处理模型的损失函数为：

其中，c_i为类别中心，y为编码模型输出的简历样本的第一特征向量。

而am-softmax模型将y和c_i都做l2归一化，也就是说，内积变成了cos值；以及，对目标cos值减去一个正数m，然后做比例缩放s。即，简历处理模型的损失函数变为：

其中，θ_i代表y与c_i的夹角。在实际实施时，s取30，m取0.35。

本发明通过am-softmax模型实现分类模型，能够更好地使训练结果趋近于简历特征之间相似度计算的排序结果，从而能够快速提升简历处理模型计算效果。

需要说明的是，图6为本发明实施例提供的分类示意图，参见图6，图中y₁、y₃距离c₁最近，所以它们是类别1的，y₂距离c₂最近，所以它是类别2的。

在一些实施例中，服务器可以通过以下获取简历样本：获取历史在职员工的简历及在职员工的简历；根据简历所对应的员工在职时间以及考核成绩，将在职时间满足时间阈值、且考核成绩满足成绩阈值的员工对应的简历作为简历样本；根据简历样本对应的员工所在的岗位类别，标注简历样本所适配的目标岗位类别。

在实际实施时，对于每个岗位类别，根据该岗位类别历史在职的简历和当前在职员工的简历，筛选满足条件的简历。其中，考核成绩可以根据合格次数占总考核次数的比例确定，也可以根据全部考核成绩的平均值确定。

如，可以将在职时间超过三年，且在职期间考核成绩的合格次数占总考核次数的60％以上的员工对应的简历作为简历样本，而将其他简历剔除。

步骤305：将第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果。

在实际实施时，目标简历可以根据投递岗位类别的历史在职员工的简历及在职员工的简历确定。也即，根据简历所对应的员工在职时间以及考核成绩，将在职时间满足时间阈值、且考核成绩满足成绩阈值的员工对应的简历，确定投递岗位类别的至少两个目标简历。

本发明根据投递岗位类别的历史在职员工的简历及在职员工的简历确定与投递岗位类别的至少两个目标简历，无需人工构建先验知识库，如此，能够实现自动化、不需要人工参与的智能简历筛选方法。

在一些实施例中，服务器可以将标注有所适配的简历类别的简历样本作为对应各个岗位类别的目标简历。

在实际实施时，可以通过与获取第一特征向量相同的方式获取至少两个目标简历的第二特征向量，然后将第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到待筛选简历与各目标简历的相似度。

步骤306：根据匹配结果，对待筛选简历进行简历筛选。

在一些实施例中，服务器可以通过以下方式对待筛选简历进行简历筛选：根据匹配结果，按照与待筛选简历的相似度的高低，对至少两个目标简历排序，得到目标简历序列；从目标简历序列中第一个目标简历开始，选取目标数量的目标简历；基于选取的各目标简历与待筛选简历的相似度，确定目标数量的目标简历的相似度平均值；当相似度平均值达到相似度阈值时，确定待筛选简历为合格简历。

在实际实施时，目标简历序列中排序越靠前的目标简历，其与待筛选简历的相似度越高，服务器可以获取目标简历序列中前N个目标简历，计算这N个目标简历与待筛选简历的相似度的平均值。其中，N可以为任意值，如N可以取5。然后再判断相似度平均值是否达到相似度阈值，若达到，则确定待筛选简历为合格简历；否则，确定筛选简历为不合格简历。

在一些实施例中，服务器可以通过以下方式对待筛选简历进行简历筛选：根据匹配结果，获取与待筛选简历的相似度达到相似度阈值的目标简历的数量；当数量达到数量阈值时，确定待筛选简历为合格简历。

例如，相似度阈值可以设置为0.7，数量阈值可以设置为5，那么，只有当有5个或5个以上的目标简历与待筛选简历的相似度达到0.7，才能够确定待筛选简历为合格简历；否则，待筛选简历为不合格简历。

本发明实施例，一方面，通过对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量；对编码向量进行特征提取，得到待筛选简历的第一特征向量；如此，相对于提取关键词，建立关键词权重组成向量来表征待筛选简历，本发明的第一特征向量不会受到关键词提取准确性的影响，能够提升简历筛选的准确性。另一方面，通过将所述第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；根据匹配结果，对所待筛选简历进行简历筛选；由于是将基于待筛选简历与投递岗位类别的至少两个目标简历的相似度来进行简历筛选，而不需要人工构建先验知识库，如此，能够节省人力和时间，提高简历筛选的效率。

图7为本发明实施例提供的简历筛选方法的流程示意图，参见图7，本发明实施例提供的简历筛选方法包括：

步骤401：客户端发送待筛选简历及对应的投递岗位类别。

这里，定义每个岗位为一个岗位类别。用户可以通过客户端选择投递岗位类别，并投递待筛选简历。

步骤402：服务器从待筛选简历包括的多个信息模块中，确定以下信息模块为目标信息模块：教育经历、工作经历、自我评价、专业技能、获奖情况。

步骤403：对目标信息模块对应的简历数据进行分字和分词，得到对应简历数据的字序列和词序列。

步骤404：获取对应字序列的字向量序列、及对应词序列的词向量序列。

步骤405：将字向量序列与词向量序列进行拼接，得到对应混合向量矩阵。

这里，混合向量矩阵的每一行用于表征一个字的混合向量。

步骤406：获取简历数据中各个字的独热编码向量。

步骤407：根据各个字的独热编码向量，从混合向量矩阵中提取各个字对应的混合向量，以得到对应简历数据的编码向量。

例如，参见图4，第i个字的独热编码向量与混合向量矩阵经过矩阵乘法，得到第i个字的混合向量。

步骤408：通过简历处理模型中的编码模型，对编码向量进行特征提取，得到待筛选简历的第一特征向量。

在实际实施时，服务器可以训练得到的编码模型，对编码向量进行特征提取。

步骤409：将第一特征向量分别与投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果。

在实际实施时，目标简历可以根据投递岗位类别的历史在职员工的简历及在职员工的简历确定。也即，根据简历所对应的员工在职时间以及考核成绩，将在职时间满足时间阈值、且考核成绩满足成绩阈值的员工对应的简历，确定投递岗位类别的至少两个目标简历。其中，获取至少两个目标简历的第二特征向量与获取第一特征向量的方式是相同的。

步骤410：根据匹配结果，按照与待筛选简历的相似度的高低，对至少两个目标简历排序，得到目标简历序列。

步骤411：从目标简历序列中第一个目标简历开始，选取5个目标简历。

步骤412：基于选取的各目标简历与待筛选简历的相似度，确定5个目标简历的相似度平均值。

步骤413：当相似度平均值达到80％时，确定待筛选简历为合格简历。

步骤414：向终端发送简历通过筛选的提示信息。

下面对上述简历处理模型的训练过程进行说明，简历处理模型包括编码模型及分类模型。图8为本发明实施例提供的简历处理模型的训练方法的流程示意图，参见图8，本发明的简历处理模型的训练方法包括：

步骤501：服务器获取历史在职员工的简历及在职员工的简历。

步骤502：根据简历所对应的员工在职时间以及考核成绩，将在职时间大于3年、且在职期间考核成绩的合格次数占总考核次数的60％以上的员工对应的简历作为简历样本。

步骤503：根据简历样本对应的员工所在的岗位类别，标注简历样本所适配的目标岗位类别。

步骤504：基于简历样本的模块化信息结构，从简历样本包括的多个信息模块中，提取目标信息模块对应的简历数据。

步骤505：对目标信息模块对应的简历数据进行向量化编码，得到对应简历数据的编码向量。

步骤506：通过编码模型，对编码向量进行特征提取，得到所述简历样本的第一特征向量。

这里，编码模型采用Bi-LSTM模型。

步骤507：通过分类模型，对所述简历样本的第一特征向量进行岗位类别的分类预测，得到所述简历样本所适配的岗位类别。

这里，分类模型采用am-softmax模型。

步骤508：获取预测得到的岗位类别与所述目标岗位类别的差异，并基于所述差异更新简历处理模型的模型参数。

这里，简历处理模型的损失函数为：

其中，y为预测得到的岗位类别，t为简历样本所适配的目标岗位类别，c_i为类别中心，θ_i代表y与c_i的夹角。

在实际实施时，通过反向传播，不断更新简历处理模型的模型参数，直至收敛。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。图9为本发明实施例提供的简历筛选方法的流程示意图，参见图9，本发明实施例提供的简历筛选方法包括：

步骤701：获取简历样本。

在实际实施时，获取历史在职员工和当前在职员工的简历，根据简历所对应的员工在职时间以及考核成绩，将在职时间满足时间阈值、且考核成绩满足成绩阈值的员工对应的简历作为简历样本；根据简历样本对应的员工所在的岗位类别，标注简历样本所适配的目标岗位类别。

这里，定义每个岗位为一个岗位类别，根据该岗位类别历史在职员工和目前在职员工的简历，按照预设规则划分该岗位类别的正负样本集合。预设规则为：在该岗位类别的在职时间超过预设年限(如，3年)，并且在职期间考核成绩为合格的次数在所有考核次数中占比高于或等于预设考核阈值(如，0.8)的员工的简历作为正样本；在该岗位类别的预设年限(如，2年)内离职，或在职但期间考核为不合格次数在所有考核次数中占比高于或等于预设考核阈值(如，0.5)员工的简历作为负样本。按照该预设规则划分得到每个岗位类别对应的正负样本集合，将正样本集合中的简历作为简历样本。

步骤702：根据获取到的简历样本，构建<岗位类别，简历样本>评分数据库。

在实际实施时，根据获取到的简历样本，即正样本集合，构建<岗位类别，简历样本>评分数据库，每个岗位类别以类别id标记，如：0、1、2...。需要说明的是，负样本集合中的简历不纳入评分数据库。其中，评分数据库的结构如表1所示。

表1

这里，认为同一岗位类别的简历样本是存在某种关联的，即同一类别简历的文本特征是相似的，因此，根据该评分数据库中的简历样本构建简历处理模型。

步骤703：对简历样本进行预处理及向量化编码，得到简历样本的编码向量。

在实际实施时，服务器可以通过正则表达式，根据各个模块的名称，过滤掉与岗位类别不显著相关的信息模块，选择与岗位类别相关的信息模块作为目标信息模块，然后提取目标信息模块对应的简历数据。

也即，服务器可以从简历样本包括的多个信息模块中，过滤掉基本信息模块、求职意向模块，基本信息模块通常包括姓名、性别、生日、地址、手机号码、邮箱等，其与是否满足投递岗位类别的需求的相关性不高；求职意向模块通常包括意向岗位、期望薪资等，其与是否满足投递岗位类别的需求的相关性也不高。

提取目标信息模块对应的简历数据之后，基于正则匹配过滤到目标信息模块对应的简历数据中的时间信息。

然后，对预处理后的简历数据进行分字和分词，利用Word2vec分别训练以字为单项的字向量模型和以词为单项的词向量模型，分别通过字向量模型和词向量模型得到对应简历数据的字向量序列和词向量序列，将字向量序列和词向量序列进行拼接，得到混合向量矩阵。其中，混合向量矩阵的每一行代表一个字的混合向量。

需要说明的是，为了使字向量序列与词向量序列对齐，每个词要重复编码，重复次数为组成词的字的字数。例如，参见图5，“简历”重复编码了两次，得到两个“简历”的词向量，分别用于与“简”的字向量和“历”的字向量进行拼接。

接着，获取简历数据中各个字的独热编码向量，根据各个字的独热编码向量，从混合向量矩阵中提取各个字对应的混合向量，将各个字对应的混合向量作为简历样本的编码向量。

这里，为了满足LSTM网络的输入要求，从Word2Vec的训练语料中构建词索引字典，即每个出现过的字会与一个独热编码向量对应，假设表示为index_dict，wordlist代表了语料每个句子分字结果的集合。

模型的第一层是词嵌入层，这一层的输入有混合向量矩阵(Embedding_weights)，字索引字典(index_dict)和字向量矩阵(wordlist)。这个层运作的模式是，将wordlist的每个字换成index_dict中对应的独热编码向量，此时wordlist的每一行被转换为一个矩阵，矩阵的每一行都是独热编码向量，wordlist[i]为wordlist的第i行的独热编码向量，wordlist[i]和Embedding_weights经过矩阵乘法就能得到该行的Word2Vec向量矩阵表示，也即第i个字的混合向量，这个过程的示意图如图4所示。

步骤704：以简历样本的编码向量作为输入，训练简历处理模型。

这里，简历处理模型包括编码模型和分类模型，其中，编码模型为Bi-LSTM模型，分类模型为am-softmax模型。图10为本发明实施例提供的简历处理模型的结构示意图，参见图10，Bi-LSTM模型的输入为简历样本的编码向量，即简历数据中各个字的混合向量，x_i为简历数据中第i个字的混合向量。

简历处理模型可以表示为：

y＝Bi-LSTM(x) (4)

p＝am-softmax(yW) (5)

其中，x为简历样本的编码向量，y为Bi-LSTM模型的输出，即编码后的特征，W为对应类别集合。

这里，W＝(c₁,c₂,…,c_n)，那么，p＝am-softmax(＜y,c₁＞,＜y,c₂＞,...,＜y,c_n＞)，相应的，简历处理模型的损失函数为：

其中，θ_i代表y与c_i的夹角。在实际实施时，s取30，m取0.35。

在简历处理模型的训练过程中，通过最小化Loss的值进行训练，最终训练得到简历处理模型。但在应用时，仅使用简历处理模型中的编码模型，也即Bi-LSTM模型。

步骤705：将待筛选简历与评分数据库中投递岗位类别的简历样本进行相似度匹配，并根据匹配结果进行简历筛选。

在实际实施时，通过训练得到的编码模型获取待筛选简历的第一特征向量，以及投递岗位类别的简历样本的第二特征向量，计算第一特征向量与各简历样本的第二特征向量的相似度，根据得到的相似度高低，对各简历样本进行排序，排序越靠前的，选取最靠前的N个简历样本及对应的相似度，并计算相似度平均值。若平均相似度达到预设相似度阈值S(S可设为0.7)，则认为该员工的能力基本符合岗位要求，从而筛选得到合格简历。

应用本发明实施例，具有以下有益效果：

(1)通过对待筛选简历进行预处理和特征编码，通过训练得到简历处理模型中的编码模型，对待筛选简历进行特征提取，以基于提取的第一特征向量，确定与待筛选简历相似度最高的多个简历样本，根据确定的简历样本对应的相似度平均值，进而判断是否满足筛选条件，以判断是否符合岗位需求，如此，最终的筛选结果不会收到关键词抽取效果影响，能够提高筛选的准确性；

(2)通过am-softmax模型来实现简历处理模型中的分类模型，能够更好地使训练结果趋近于简历特征之间相似度计算的排序结果，从而能够快速提升简历处理模型计算效果，同时利用Bi-LSTM作为编码模型能够更好地抽取简历特征，在计算待筛选简历与简历样本的特征相似度方面，泛化能力更高，效率更高；

(3)本发明不需要构建专家先验知识库，能够实现自动化不需要人工参与的简历智能筛选，在工业上具备良好的可操作性。

下面继续说明本发明实施例提供的简历筛选装置455的实施为软件模块的示例性结构，图11是本发明实施例提供的简历筛选装置的组成结构示意图，如图11所示，简历筛选装置455包括：

简历获取模块4551，用于获取待筛选简历及对应的投递岗位类别；

数据提取模块4552，用于基于待筛选简历的模块化信息结构，从所述待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据；

数据编码模块4553，用于对所述目标信息模块对应的简历数据进行向量化编码，得到对应所述简历数据的编码向量；

特征提取模块4554，用于对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量；

相似度匹配模块4555，用于将所述第一特征向量分别与所述投递岗位类别的至少两个目标简历的第二特征向量进行相似度匹配，得到匹配结果；

简历筛选模块4556，用于根据所述匹配结果，对所述待筛选简历进行简历筛选。

在一些实施例中，所述数据提取模块4552，还用于从所述待筛选简历包括的多个信息模块中，确定以下模块至少之一为目标信息模块：教育经历、工作经历、自我评价、专业技能、获奖情况；

提取所述目标信息模块对应的简历数据。

在一些实施例中，所述数据编码模块4553，还用于构建混合向量矩阵，所述混合向量矩阵的每一行用于表征一个字的混合向量；

获取所述简历数据中各个字的独热编码向量；

上述方案中，所述数据编码模块4553，还用于对所述目标信息模块对应的简历数据进行分字和分词，得到对应所述简历数据的字序列和词序列；

在一些实施例中，所述特征提取模块4554，还用于通过简历处理模型中的编码模型，对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量。

在一些实施例中，所述简历处理模型还包括分类模型；所述装置还包括：

在一些实施例中，所述模型训练模块，还用于获取历史在职员工的简历及在职员工的简历；

在一些实施例中，简历筛选模块4556，还用于根据所述匹配结果，按照与所述待筛选简历的相似度的高低，对所述至少两个目标简历排序，得到目标简历序列；

在一些实施例中，简历筛选模块4556，还用于根据所述匹配结果，获取与所述待筛选简历的相似度达到相似度阈值的目标简历的数量；

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3示出的简历筛选方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种简历筛选方法，其特征在于，所述方法包括：

获取待筛选简历及对应的投递岗位类别；

根据所述匹配结果，对所述待筛选简历进行简历筛选。

2.如权利要求1所述的方法，其特征在于，所述从所述待筛选简历包括的多个信息模块中，提取目标信息模块对应的简历数据，包括：

从所述待筛选简历包括的多个信息模块中，确定以下模块至少之一为目标信息模块：教育经历、工作经历、自我评价、专业技能、获奖情况；

提取所述目标信息模块对应的简历数据。

3.如权利要求1所述的方法，其特征在于，所述对所述目标信息模块对应的简历数据进行向量化编码，得到对应所述简历数据的编码向量，包括：

构建混合向量矩阵，所述混合向量矩阵的每一行用于表征一个字的混合向量；

获取所述简历数据中各个字的独热编码向量；

4.如权利要求3所述的方法，其特征在于，所述构建混合向量矩阵，包括：

对所述目标信息模块对应的简历数据进行分字和分词，得到对应所述简历数据的字序列和词序列；

5.如权利要求1所述的方法，其特征在于，所述对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量，包括：

通过简历处理模型中的编码模型，对所述编码向量进行特征提取，得到所述待筛选简历的第一特征向量。

6.如权利要求5所述的方法，其特征在于，所述简历处理模型还包括分类模型；所述方法还包括：

获取简历样本，所述简历样本标注有所述简历样本所适配的目标岗位类别；

7.如权利要求6所述的方法，其特征在于，所述获取简历样本，包括：

获取历史在职员工的简历及在职员工的简历；

8.如权利要求1所述的方法，其特征在于，所述根据所述匹配结果，对所述待筛选简历进行简历筛选，包括：

根据所述匹配结果，按照与所述待筛选简历的相似度的高低，对所述至少两个目标简历排序，得到目标简历序列；

9.如权利要求1所述的方法，其特征在于，所述根据所述匹配结果，对所述待筛选简历进行简历筛选，包括：

根据所述匹配结果，获取与所述待筛选简历的相似度达到相似度阈值的目标简历的数量；

10.一种简历筛选装置，其特征在于，所述装置包括：