CN112990887A

CN112990887A - 一种简历和岗位匹配的方法及计算设备

Info

Publication number: CN112990887A
Application number: CN202110492791.4A
Authority: CN
Inventors: 王磊; 刘峰
Original assignee: Beijing Chezhiying Technology Co ltd
Current assignee: Beijing Chezhiying Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-06-18
Anticipated expiration: 2041-05-07
Also published as: CN112990887B

Abstract

本发明公开了一种简历和岗位匹配的方法，包括步骤：获取标签相关性矩阵，标签相关性矩阵的各元素表示标签集合中两个类别标签之间的相关性；将标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量；将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量；对标签相关性向量和人岗嵌入向量进行融合处理，生成融合向量；将融合向量拆分为第一拆分向量和第二拆分向量；以及基于第一拆分向量和第二拆分向量，获取简历文本和岗位文本的人岗匹配度。本发明一并公开了相应的计算设备。

Description

一种简历和岗位匹配的方法及计算设备

技术领域

本发明涉及机器学习领域，尤其涉及一种基于神经网络的简历和岗位匹配的方法及计算设备。

背景技术

随着互联网的发展，现如今各行各业中，招聘者与应聘者都使用网络招聘系统来发布岗位信息、筛选简历以及投递简历。如今，互联网上存在着数亿规模的岗位信息以及简历信息，并持续增长，大规模的数据量给招聘带来了新的挑战，应聘者也难以在大量的岗位信息中筛选与自己相匹配的岗位。在人工智能技术出现之前，传统的人岗匹配（即应聘者的简历与招聘岗位匹配）一般是通过关键词匹配来实现，先通过数据分析得到岗位信息的关键词，然后将得到的关键词与简历进行匹配，得到匹配的关键词集合以及次数等信息，最后设定匹配规则计算，并根据匹配规则获得该简历与职位的匹配得分。然而，这样的方法依靠人工设定各种匹配规则，规则设计较为简单，而且该方法中人的主观性因素影响较大，难以形成统一的标准，会造成无法系统地统一地为数据库中的简历评分，还会造成当岗位要求以及关键词发生变化时，需要人工不断调整关键词的集合和匹配度计算公式。

在人工智能技术出现之后，出现了基于深度神经网络来提取岗位和简历的标签信息并匹配的技术手段，首先整理人岗匹配相关的标签，设定标签体系；然后对数据进行标注，训练神经网络，输入文本的词向量提取岗位以及简历的标签信息；最后利用提取的标签信息，制定匹配公式来进行人岗匹配度的计算。然而利用该方法进行岗位和简历进行匹配的准确率依然较低，无法满足人岗匹配的需求。

发明内容

为此，本发明提供一种基于神经网络的简历和岗位匹配的方法及系统，以力图解决或至少缓解上面存在的问题。

根据本发明的第一个方面，提供了一种简历和岗位匹配的方法，在计算设备中执行，包括步骤：获取标签相关性矩阵，标签相关性矩阵的各元素表示标签集合中两个类别标签之间的相关性，其中，每个简历文本和岗位文本具有标签集合中的至少一个类别标签；将标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量；将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量；对标签相关性向量和人岗嵌入向量进行融合处理，生成融合向量；将融合向量拆分为第一拆分向量和第二拆分向量；以及基于第一拆分向量和第二拆分向量，获取简历文本和岗位文本的人岗匹配度。

可选地，在根据本发明的方法中，获取标签相关性矩阵的步骤包括：获取人岗文本样本集，人岗文本样本集包括多个岗位文本和多个简历文本；对于标签集合中的第一类别标签和第二类别标签，统计第一类别标签在人岗文本样本集中出现的第一次数，以及统计第一类别标签和第二类别标签在人岗文本样本集中共同出现的第二次数；计算第二次数与第一次数之商，得到第一类别标签和第二类别标签的相关性，并将该相关性作为标签相关性矩阵的一个元素。

可选地，在根据本发明的方法中，将标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量的步骤包括：将标签相关性矩阵和标签集合输入到第一图卷积神经网络层进行处理,得到第一隐藏向量；将第一隐藏向量输入到第二图卷积神经网络层进行处理，得到第二隐藏向量；将第二隐藏向量输入到第一池化层进行处理，得到第一特征向量；以及将第一特征向量输入到第一全连接层进行处理，得到标签相关性向量。

可选地，在根据本发明的方法中，将标签相关性矩阵和标签集合输入到第一图卷积神经网络层进行处理的步骤包括：将标签集合中的每个类别标签转换为标签向量，得到标签矩阵；将标签相关性矩阵和标签矩阵输入到第一图卷积神经网络层进行处理。

可选地，在根据本发明的方法中，将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量的步骤包括：将待匹配的简历文本和岗位文本输入到第二全连接层进行处理，得到全连接向量；将全连接向量输入到第二池化层进行处理，得到第二特征向量，以及将第二特征向量输入到第三全连接层进行处理，得到人岗嵌入向量。

可选地，在根据本发明的方法中，在将待匹配的简历文本和岗位文本输入到第二全连接层进行处理之前还包括步骤：获取待匹配的简历文本和岗位文本作为待增强向量输入数据增强层；从待增强向量中随机选取部分元素作为待处理元素；对待处理元素增加噪音，得到增强向量，噪音为服从高斯分布的向量中与待处理元素相对应的位置上的元素。

可选地，在根据本发明的方法中，从待增强向量中随机选取部分元素作为待处理元素的步骤包括：对待增强向量增加掩膜，掩膜的维度与待增强向量的维度相同；对掩膜中的元素进行随机选取，随机选取的元素标记为第一标记；掩膜中其余的元素标记为第二标记；基于掩膜中的标记，选择第一标记或第二标记其中一种标记所对应的元素作为待处理元素。

可选地，在根据本发明的方法中，对掩膜中的元素进行随机选取的选取比例为50%。

可选地，在根据本发明的方法中，基于第一拆分向量和第二拆分向量，获取简历文本和岗位文本的人岗匹配度的步骤包括：计算第一拆分向量和第二拆分向量之间的欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离，并将计算结果作为简历文本和岗位文本的人岗匹配度。

可选地，在根据本发明的方法中，第一拆分向量和第二拆分向量的维度相同。

可选地，在根据本发明的方法中，还包括步骤；将融合向量输入到分类器中进行处理，得到待匹配的简历文本和岗位文本分别具有的类别标签。

可选地，在根据本发明的方法中，分类器采用Sigmoid分类器。

根据本发明的第二个方面，提供了一种计算设备，包括：至少一个处理器和存储有程序指令的存储器；当程序指令被处理器读取并执行时，使得计算设备执行上述方法。

根据本发明的第三个方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行上述方法。

根据本发明的技术方案，针对简历和岗位匹配过程中，忽略简历与岗位的标签之间的联系，导致简历和岗位匹配的准确性低的问题，构造了标签相关性神经网络和人岗神经网络，考虑到简历与岗位的类别标签之间的联系，引入了标签相关性矩阵训练标签相关性神经网络，减少了分类时未考虑标签之间的信息，和仅使用分类网络输出类别标签，所带来的分类准确率较低和只能输出标签，无法给出匹配度的问题，提高了简历和岗位匹配的准确率，并一站式输出类别标签和人岗匹配度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的简历和岗位匹配的方法200的流程示意图；

图3示出了根据本发明一个实施例的标签相关性神经网络300的结构示意图；

图4示出了根据本发明一个实施例的标签相关性神经网络300中的图卷积神经网络310的示意图；

图5示出了根据本发明一个实施例的标签相关性神经网络300中的图卷积神经网络320的示意图；

图6示出了根据本发明一个实施例的人岗神经网络400的结构示意图；

图7示出了根据本发明一个实施例的数据增强方法500的流程示意图；

图8示出了根据本发明一个实施例的数据增强方法600的示意图；

图9示出了根据本发明一个实施例的人岗匹配模型700的结构示意图；

图10示出了根据本发明一个实施例的人岗匹配模型700生成类别标签的结构示意图；

图11示出了根据本发明一个实施例的人岗匹配模型700生成类别标签及人岗匹配度的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在现有的基于深度神经网络来提取岗位和简历的标签信息并匹配的方案中，仅利用岗位或者简历的文本特征进行分类，未考虑标签之间的信息并对其进行分类，该方法分类准确率较低；而且该方法仅使用分类网络，因而只能输出标签，例如当简历与所有标签的匹配度都不高时，依然会输出标签，用户无法得知简历与标签的匹配度，仍然会将该简历分类到该标签下，导致分类准确率不高。

针对现有技术中的问题，本发明提供一种基于深度学习的智能人岗匹配方法，该方法构建的人岗匹配模型能够一次性输出简历和岗位的类别标签以及人岗匹配度，并且自动推荐与岗位匹配度高的候选者，大大提高了人岗匹配计算的准确率，显著提升招聘的效率。

本发明的人岗匹配方法在计算设备中执行。计算设备例如可以是桌面电脑、笔记本电脑等个人配置的计算机，或手机、平板电脑、多媒体播放器、智能可穿戴设备等移动终端，但不限于此。

图1示出了根据本发明一个实施例的计算设备100的示意图。需要说明的是，图1所示的计算设备100仅为一个示例，在实践中，用于实施本发明的人岗匹配方法的计算设备可以是任意型号的设备，其硬件配置情况可以与图1所示的计算设备100相同，也可以与图1所示的计算设备100不同。实践中用于实施本发明的人岗匹配方法的计算设备可以对图1所示的计算设备100的硬件组件进行增加或删减，本发明对计算设备的具体硬件配置情况不做限制。

如图1所示，在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器（µP）、微控制器（µC）、数字信息处理器（DSP）或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元（ALU）、浮点数单元（FPU）、数字信号处理核心（DSP核心）或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器（诸如RAM）、非易失性存储器（诸如ROM、闪存等）或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等，其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令，应用122例如可以是浏览器、即时通讯软件、软件开发工具（例如集成开发环境IDE、编译器等）等，但不限于此。当应用122被安装到计算设备100中时，可以向操作系统120添加驱动模块。

在计算设备100启动运行时，处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上，利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时，应用122会加载至存储器106中，处理器104从存储器106中读取并执行应用122的程序指令。

计算设备100还包括储存设备132，储存设备132包括可移除储存器136和不可移除储存器138，可移除储存器136和不可移除储存器138均与储存接口总线134连接。

计算设备100还可以包括有助于从各种接口设备（例如，输出设备142、外设接口144和通信设备146）到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备（例如，键盘、鼠标、笔、语音输入设备、触摸输入设备）或者其他外设（例如打印机、扫描仪等）之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频（RF）、微波、红外（IR）或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备100中，应用122包括用于执行方法200的指令。上述指令可以指示处理器104执行本发明的简历和岗位匹配的方法200，实现简历文本和岗位文本的自动匹配，获得更准确的类别标签和人岗匹配度，大大提高了人岗信息匹配的准确率和用户使用效率。

图2示出了根据本发明一个实施例的简历和岗位匹配的方法200的流程示意图。方法200在计算设备（例如前述计算设备100）中执行，用于实现端对端的人岗匹配。如图2所示，方法200始于步骤S210。

在步骤S210中，获取标签相关性矩阵，标签相关性矩阵的各元素表示标签集合中两个类别标签之间的相关性，其中，每个简历文本和岗位文本具有所述标签集合中的至少一个类别标签。

具体地，先采集简历文本和岗位文本的类别标签，其中，每个简历文本和岗位文本都具有至少一个类别标签。然后，对标签之间的相关性进行计算，生成标签相关性矩阵。

根据一种实施例，采用如下方法生成标签相关性矩阵。

首先，采集类别标签，生成标签集合。在一种实施例中，一共采集到362个不同的类别标签，以覆盖市场上绝大部分的职位和技能标签。

接着，采集多个岗位文本和多个岗位文本，得到人岗文本样本集，对人岗文本样本集中的简历文本和岗位文本的类别标签进行提取，使每个简历文本和岗位文本具有标签集合中的至少一个类别标签。

然后，建立一个维度为

的标签相关性矩阵，标签相关性矩阵通过下述公式计算：

其中，

为类别标签的数量，

为标签相关性矩阵，

为标签相关性矩阵中第

行第

列的元素，

为第

个类别标签在人岗文本样本集中出现的次数，

为第

个类别标签和第

个类别标签在人岗文本样本集中共同出现的次数。所谓共同出现，是指对于样本集中的一个简历文本或者岗位文本，该简历文本或者岗位文本均具有该第

个类别标签和该第

个类别标签。

根据上述方法，提取类别标签之间的相关性信息，生成标签相关性矩阵。根据人岗文本样本集中的岗位文本和简历文本中的类别标签，计算相关性矩阵中每一个元素的值，确定了相关性矩阵中每一个元素的值，即获得了标签相关性矩阵。

由于简历文本和岗位文本中包含的信息通常不是单一的，往往含有多种类的标签信息，因此要进行多标签分类，并且需要考虑到，简历和岗位的类别标签之间存在一定的关联关系和关联信息。例如，在计算机领域中，岗位信息按照技术模块划分标签可以分为前端、后端、移动端、大数据等等；按照技术语言划分标签可以分为JAVA、C++、Python、Swift等等。而这些不同的标签之间内部存在着很多的联系，例如一些技术模块的标签会对应到一些特定的开发语言，比如后端开发大概率会对应到JAVA或C++标签。而且，标签之间存在的关联还存在一定的方向性，例如，当深度学习标签出现的时候，人工智能标签有大概率出现，反过来，人工智能标签出现的时候，深度学习标签不一定会出现，可见，深度学习标签与人工智能标签之间的关系是单方向的。在一些情况下，标签之间也存在双向的关系，例如当人工智能标签出现的时候，AI标签有大概率出现，反过来AI标签出现的时候，人工智能标签页有大概率出现，可见，人工智能标签与AI标签之间的关系是双向的。采用上述方法提取类别标签之间的相关性信息，生成标签相关性矩阵能够表示出标签之间的联系和方向性。因此，相比于把每个标签单独处理不考虑它们之间可能存在的关联，在人岗匹配时考虑标签之间的相关性能够很大地提高人岗匹配的准确率。

随后在步骤S220中，将标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量。

具体地，先将标签集合转换为标签矩阵。之后，将标签相关性矩阵和标签矩阵输入到标签相关性神经网络中进行处理，标签相关性神经网络的处理结果为一向量，称之为标签相关性向量。

根据一种实施例，采用如下方式将标签集合转换为标签矩阵。

首先，利用预训练好的词向量模型对标签进行词向量转换，将每一个类别标签都转换为固定维度的向量，在一种实施例中，将每一个类别标签转换为

维的向量，其中，每一个类别标签都能用这个固定维度的向量表示。预训练模型可以采用word2vec等等，本发明对预训练好的词向量模型不做限制。

然后，将标签集合中的每个类别标签转换为标签向量，得到标签矩阵；

根据一种实施例，由于标签集合中类别标签的数量为362个，标签相关性矩阵用来表示每两个标签之间的关系，因此，标签相关性矩阵的维度是

；并将每一个类别标签转换为

维的向量，得到一个

维的标签矩阵。然后，将

维的标签相关性矩阵和

维的标签矩阵输入到标签相关性神经网络中进行处理。

图3示出了根据本发明一个实施例的标签相关性神经网络300的结构示意图。其中，标签相关性神经网络300包括：图卷积神经网络层310、图卷积神经网络层320、池化层330和全连接层340。在将标签相关性矩阵和标签集合输入到标签相关性神经网络300之前，先将标签集合转换为标签矩阵。然后，将标签相关性矩阵和标签矩阵输入标签相关性神经网络300中。在标签相关性神经网络300中，先对标签相关性矩阵和标签矩阵进行了两层图卷积神经网络的处理（图卷积神经网络310和图卷积神经网络320），然后接入了池化层330和全连接层340，得到了标签相关性向量。

图4示出了根据本发明一个实施例的标签相关性神经网络300中的图卷积神经网络310的示意图，图卷积神经网络310的输入端包括：标签相关性矩阵A、标签矩阵H（0）和参数矩阵W（0）。根据一种实施例，标签相关性矩阵A为一个

维的矩阵；标签矩阵H（0）为一个

维的矩阵；参数矩阵W（0）为一个

维的矩阵；将上述矩阵A、H（0）和W（0）输入图卷积神经网络310后，经过激活函数处理，输出第一隐藏向量H（1），并作为图卷积神经网络层320的输入。

图5示出了根据本发明一个实施例的标签相关性神经网络中的图卷积神经网络320的示意图，图卷积神经网络320的输入端包括：标签相关性矩阵A、标签矩阵H（1）和参数矩阵W（1）。根据一种实施例，图卷积神经网络320中的标签相关性矩阵A与图卷积神经网络310中的标签相关性矩阵A相同，为一个

维的矩阵；标签矩阵H（1）为图卷积神经网络310输出的第一隐藏向量，是一个

维的矩阵；参数矩阵W（0）为一个

维的矩阵；将上述矩阵A、H（1）和W（0）输入图卷积神经网络320后，经过激活函数处理，输出一个

维第二隐藏向量H（2），并作为池化层330的输入。

经过池化层330处理，第二隐藏向量转换为一个第一特征向量，并作为全连接层340的输入，经过全连接层的处理，得到标签相关性向量。根据一种实施例，第一特征向量为一个

维的向量，并输入到全连接层340中，经过全连接层的处理，最终得到一个

维的标签相关性向量。

随后在步骤S230中，将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量。

具体地，先采集待匹配的简历文本和岗位文本。在将简历文本和岗位文本输入人岗神经网络之前，先将简历文本和岗位文本转换为简历向量和岗位向量。具体地，将简历文本和岗位文本输入到预训练好的词向量模型，对简历文本和岗位文本进行词向量转换，得到简历向量和岗位向量作为人岗神经网络的输入进行处理，生成人岗嵌入向量。

图6示出了根据本发明一个实施例的人岗神经网络400的结构示意图。人岗神经网络400包括：全连接层410、池化层420和全连接层430。在将待匹配的简历文本和岗位文本输入到人岗神经网络400之前，先将简历文本和岗位文本转换为简历向量和岗位向量。然后，将简历向量和岗位向量输入到人岗神经网络400中。在人岗神经网络400中，先对简历向量和岗位向量进行全连接层410的处理，然后接入了池化层420和全连接层430，得到了人岗嵌入向量。

具体地，在对简历向量和岗位向量进行全连接层410的处理之前，融合简历向量和岗位向量。在一种实施例中，简历向量和岗位向量皆为

维的向量，融合简历向量和岗位向量后，生成一个

维的向量输入到全连接层410中。

可选地，利用预训练好的词向量模型对简历文本和岗位文本进行转换，生成简历向量和岗位向量。预训练模型可以使用word2vec、glove、ELMo、BERT或Flair，本发明对此不做限定。通过使用预训练模型，可以节省模型的构建时间，提升准确率，并提高使用效率。

根据一种实施例，在将简历文本和岗位文本输入到人岗神经网络400之前，还可以对简历文本和岗位文本进行数据增强处理。在现有数据集的基础上，进行数据增强，能够大幅增加参与模型训练的数据量，减少模型的过拟合，以提升模型的泛化能力，增加模型的鲁棒性，从而提升模型的性能。

图7示出了根据本发明一个实施例的数据增强方法500的流程示意图。方法500始于步骤S510。

在步骤S510中，获取待匹配的简历文本和岗位文本作为待增强向量输入数据增强层。如前文所述，该简历文本和岗位文本首先转换为简历向量和岗位向量，作为待增强向量，再进行后续的处理。将简历向量和岗位向量输入数据增强层，数据增强层在人岗神经网络400中，全连接层410之前。

随后在步骤S520中，从待增强向量中随机选取部分元素作为待处理元素。在这一步骤中，随机选取待增强向量中的一部分元素作为待处理元素，为后续的数据增强处理做准备。

在一种实施例中，利用掩膜对待增强向量的元素进行随机选取。

图8示出了根据本发明一个实施例的数据增强方法的示意图。如图8所示，掩膜是一个由0或1组成的向量，该向量的维度与待增强向量一致。在一种实施例中，随机选取掩膜中部分元素的值设置为1，若待增强向量中的元素的位置与掩膜中值为1的元素的位置相同，则表示该待增强向量中的元素为待处理元素；掩膜中其余元素的值设置为0，与掩膜中元素值为0的元素相对应的待增强向量的元素不做处理。

随后在步骤S530中，对待处理元素增加噪音，得到增强向量，噪音为服从高斯分布的向量中与待处理元素相对应的位置上的元素。在一种实施例中，根据上述利用掩膜对待增强向量的元素进行随机选取的方法获取待处理元素，如图8所示，接下来对待处理元素增加噪音，噪音是一个服从高斯分布的向量。通过掩膜，选取噪音中与掩膜中元素值为1的元素相对应位置上的元素作为该位置上的待添加的噪音，并将待添加的噪音与待增强向量相对应位置上的待处理元素融合，生成增强后向量在该位置上的元素。其余的与掩膜中元素值为0的位置相对应的待增强后的向量中的元素，则不添加噪音，元素的值与待增强向量中相应位置的值相同。根据上述方法，计算每一个位置上的增强后向量的值，得到增强后的向量。

如图8所示，根据一种实施例，待增强向量为一个

维的向量a，其中，a1、a2…a768分别表示待增强向量中的第一个元素、第二个元素…第768个元素，掩膜为一个

维的向量M，该掩膜的元素的值为1或0，图8中掩膜的元素的值0或1不是固定的，掩膜的元素的值是随机生成的，图6的掩膜中的元素仅仅是一个示例，不代表掩膜的值与图8中相同。噪音为一个

维的服从高斯分布的向量b，其中，b1、b2…b768分别表示噪音中的第一个元素、第二个元素…第768个元素，生成的增强后向量的元素可以用

计算，其中

表示待增强向量的第n个元素，

表示掩膜的第n个元素，

表示噪音的第n个元素。

可选地，对简历文本和岗位文本进行数据增强还可以使用同义词替换、随机插入、随机交换或随机删除的方法，以上方法也可以组合使用，本发明对此不做限制。在简历文本和岗位文本转换为岗位向量和简历向量之前，先对简历文本和岗位文本进行数据增强处理。同义词替换的数据增强方法，即在简历文本中随机抽取几个词，从同义词词典中随机抽取同义词，并进行替换，该过程可以重复多次。随机插入的数据增强方法，即在简历文本中随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入到简历文本中的随机位置，该过程可以重复多次。随机交换的数据增强方法，即在文本中随机选择两个词，进行位置交换，该过程可以重复多次。随机删除的数据增强方法，即对文本中的每个词，以一定的概率随机选择删除。对文本进行数据增强能够增加训练样本的数据量，能够提高模型的泛化能力，防止过拟合，从而提升模型预测结果的准确性。

随后在步骤S240中，对标签相关性向量和人岗嵌入向量进行融合处理，生成融合向量。

图9示出了根据本发明一个实施例的人岗匹配模型700的结构示意图。如图9所示，在标签相关性矩阵和标签集合输入标签相关性神经网络300生成标签相关性向量，与待匹配的简历文本和岗位文本输入人岗神经网络400生成人岗嵌入向量之后，对标签相关性向量和人岗嵌入向量进行了融合处理，生成了融合向量。

在一种实施例中，标签相关性向量与人岗嵌入向量皆为

维的向量，融合后，生成一个

维的融合向量。可选地，将标签相关性向量中的元素与人岗嵌入向量相对应位置上的元素计算平均值，作为融合元素相对应位置上元素的值。可选地，对标签相关性向量中的元素的值按一定比例p相乘，人岗嵌入向量中相对应位置的元素的值按一定比例k相乘，将上述两个乘积相加得到融合向量相对应位置元素的值，生成融合向量。例如，对标签相关性向量

的第一个元素的值

按40%的比例相乘，得到

，对人岗嵌入向量

中相对应位置的元素即人岗嵌入向量

中的第一个元素

按60%的比例相乘，得到

，然后将上述两个乘积相加，即

作为融合向量的第一个元素的值，将融合向量的每一个元素按照上述方法生成，得到经过融合处理后的融合向量。

随后在步骤S250中，将融合向量拆分为第一拆分向量和第二拆分向量。如图9所示，在融合向量在经过拆分之后，生成第一拆分向量和第二拆分向量。可选地，将融合向量的前一半的部分作为第一拆分向量，后一半的部分作为第二拆分向量，第一拆分向量与第二拆分向量的维度相同。

随后在步骤S260中，基于第一拆分向量和第二拆分向量，获取简历文本和岗位文本的人岗匹配度。如图9所示，根据第一拆分向量和第二拆分向量，生成人岗匹配度。可选地，计算第一拆分向量和第二拆分向量之间的欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离，并将计算结果作为简历文本和岗位文本的人岗匹配度。在一种实现方式中，还可以对计算结果进行归一化处理，将第一拆分向量和第二拆分向量之间的欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离进行归一化处理，并将归一化处理后得到的计算结果作为人岗匹配度。第一拆分向量和第二拆分向量之间的距离越小表示人岗匹配度越高，反之距离越大则表示人岗匹配度越低。

如图9所示，在对标签相关性向量和人岗嵌入向量进行融合处理生成融合向量之后，将融合向量复制为两个相同的融合向量，对其中一个融合向量进行上述的生成人岗匹配度的操作。将另一个融合向量输入到分类器中进行处理，生成待匹配的简历文本和岗位文本的预测的类别标签。在一种实施例中，融合向量是一个

维的向量，如果输入人岗神经网络400的待匹配的简历文本和岗位文本的顺序为简历文本在前，岗位文本在后，则人岗匹配模型700生成的类别标签的前

维为预测的简历的类别标签，后

维为预测的岗位的类别标签；相应地，如果输入人岗神经网络400的待匹配的简历文本和岗位文本的顺序为岗位文本在前，简历文本在后，则人岗匹配模型700生成的类别标签的前

维为预测的岗位的类别标签，后

维为预测的简历的类别标签。可选地，分类器采用Sigmoid分类器。

图10示出了根据本发明一个实施例的人岗匹配模型700生成类别标签的结构示意图。人岗匹配模型700中的标签相关性神经网络300在训练完成后，在使用时，无需再次输入标签相关性矩阵和标签集合。因此，在使用中，仅需将待匹配的简历文本和岗位文本输入人岗匹配模型700中，经过人岗匹配模型700的处理后，生成简历文本和岗位文本的预测结果，即生成类别标签。

图11示出了根据本发明一个实施例的人岗匹配模型700生成标签及人岗匹配度的结构示意图。人岗匹配模型700不仅可以如图10所示简单地生成类别标签，同时，如图11所示，该模型还支持端对端输入待匹配的简历文本和岗位文本输出类别标签和人岗匹配度，最后根据人岗匹配度进行排序并展示，用户可以得到按照匹配度排序展示的人岗匹配度与其对应的类别标签，以便用户更直观方便的在大量数据中获得具有高匹配度的人岗匹配信息。

可选地，根据人岗匹配度进行排序，可以采用排序算法。根据一种实施例，人岗匹配度为第一拆分向量和第二拆分向量之间的欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离；第一拆分向量与第二拆分向量之间的距离越小，表示简历文本与岗位文本的匹配度越高。提取人岗匹配度，按照排序算法，将人岗匹配度由小到大的顺序排序，并输出人岗匹配度及其对应的类别标签。通过排序展示，最为匹配的简历与岗位能够清晰直观地展示给用户。可选地，排序算法可以采用冒泡排序、选择排序、插入排序等等，本发明对此不做限制。

可选地，根据人岗匹配度，生成匹配度得分。将人岗匹配度转换为一个百分制、十分制或五分制的匹配度得分，将匹配度得分代替人岗匹配度输出。通过匹配度得分，用户可以更清晰地获得简历文本与岗位文本的匹配程度。

应当指出，本发明对各激活层所采用的激活函数不做限制，本发明对池化层所采用的方法也不做限制，例如最大值池化、均值池化等，对于本领域技术人员来说，卷积网络中所包含的卷积、池化、激活等处理均属于已知内容，此处不再一一赘述。

接下来，对人岗匹配模型700的训练过程进行说明。

人岗匹配模型700包括标签相关性神经网络300和人岗神经网络400，融合向量之后有左侧通路和右侧通路，如图9所示，左侧通路将融合向量输入分类器输出类别标签，右侧通路将融合向量拆分为第一拆分向量和第二拆分向量，输出人岗匹配度。

首先，收集市面上的尽可能多的岗位与技能标签，得到一个标签集合。对于不同的岗位，采集大量的简历文本和岗位文本作为生成标签相关性矩阵的人岗文本样本集，提取人岗文本样本集中的标签，根据前文所述的方法生成相关性矩阵,作为标签相关性神经网络300的输入。

其次，对于不同的岗位，采集大量的简历文本和岗位文本，采集的简历文本和岗位文本需要尽可能地覆盖市面上各种岗位，也就是说，针对市面上每一个岗位，都需要采集相应的若干简历文本和岗位文本；针对每一个岗位，筛选出若干符合要求的简历标注为匹配，相应地，筛选出若干不符合岗位要求的简历并标注为不匹配作为训练样本，作为人岗训练样本集，用于人岗匹配模型700的训练，并且对于每一个简历文本和每一个岗位文本，还标注出其所具有的类别标签。

然后，将人岗训练样本集中的每一条训练样本以及标签相关性矩阵和标签集合输入到人岗匹配模型700进行处理，（标签相关性矩阵输入到标签相关性神经网络300中，人岗训练样本集中的每一个训练样本输入到人岗神经网络400中），输出预测的人岗匹配度、简历文本的预测类别标签和岗位文本的预测类别标签。

然后，计算预测的类别标签与标注的类别标签之间的第一损失函数，以及计算预测的人岗匹配度与标注的简历文本和岗位文本是否匹配（即简历文本和岗位文本标注为匹配或不匹配）之间的第二损失函数；

最后，基于第一损失函数与第二损失函数之和，来更新人岗匹配模型700的网络参数，直到满足预定条件时，训练结束，得到训练好的人岗匹配模型700。具体地，预定条件是指模型收敛时或者模型训练次数达到预设次数时。

根据本发明的实施例，第一损失函数可以是交叉熵损失函数，通过下式计算：

其中，

为类别标签的数量，

表示标签集合中第

个的标签，如果该标签属于标签集合，则其对应的标签值为1，否则为0；

表示在标签矩阵中预测第

个标签属于标签集合的概率值。

根据本发明的实施例，第二损失函数也可以是交叉熵损失函数。

根据本发明的另一个实施例，第二损失函数还可以采用归一化的欧氏距离、欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离，将第二损失函数的值限定在0和1之间，以欧式距离为例，可以通过下式计算归一化的欧氏距离：

其中，

表示每一个简历文本和岗位文本之间的欧式距离的值，

表示所有的简历文本和岗位文本之间的欧式距离的值中的最小值，

表示所有的简历文本和岗位文本之间的欧式距离的值中的最大值。

本发明的基于简历文本和岗位文本以及标签相关性信息构建的用于人岗匹配的深度神经网络，能够有效提升简历和岗位的类别标签预测的准确率，通过引入标签相关性信息、人岗匹配度的监督信息、结合类别标签预测的监督信息，并引入了图卷积神经网络来训练文本标签之间的相关性，使用了数据增强的技术手段增加训练样本，达到提升多标签分类和人岗匹配度准确率、提升人岗匹配模型的有效性和鲁棒性、以及端对端输出类别标签和人岗匹配度的有益效果。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的人岗匹配方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。

Claims

1.一种简历和岗位匹配的方法，在计算设备中执行，所述方法包括步骤：

获取标签相关性矩阵，所述标签相关性矩阵的各元素表示标签集合中两个类别标签之间的相关性，其中，每个简历文本和岗位文本具有所述标签集合中的至少一个类别标签；

将所述标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量；

将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量；

对所述标签相关性向量和所述人岗嵌入向量进行融合处理，生成融合向量；

将所述融合向量拆分为第一拆分向量和第二拆分向量；以及

基于所述第一拆分向量和所述第二拆分向量，获取简历文本和岗位文本的人岗匹配度。

2.如权利要求1所述的方法，其中，所述获取标签相关性矩阵的步骤包括：

获取人岗文本样本集，所述人岗文本样本集包括多个岗位文本和多个简历文本；

对于所述标签集合中的第一类别标签和第二类别标签，统计所述第一类别标签在所述人岗文本样本集中出现的第一次数，以及统计所述第一类别标签和第二类别标签在所述人岗文本样本集中共同出现的第二次数；

计算第二次数与第一次数之商，得到所述第一类别标签和第二类别标签的相关性，并将该相关性作为所述标签相关性矩阵的一个元素。

3.如权利要求1所述的方法，其中，所述将所述标签相关性矩阵和标签集合输入到标签相关性神经网络中进行处理，生成标签相关性向量的步骤包括：

将所述标签相关性矩阵和所述标签集合输入到第一图卷积神经网络层进行处理,得到第一隐藏向量；

将所述第一隐藏向量输入到第二图卷积神经网络层进行处理，得到第二隐藏向量；

将所述第二隐藏向量输入到第一池化层进行处理，得到第一特征向量；以及

将所述第一特征向量输入到第一全连接层进行处理，得到所述标签相关性向量。

4.如权利要求3所述的方法，其中，所述将所述标签相关性矩阵和所述标签集合输入到第一图卷积神经网络层进行处理的步骤包括：

将所述标签集合中的每个类别标签转换为标签向量，得到标签矩阵；

将所述标签相关性矩阵和标签矩阵输入到第一图卷积神经网络层进行处理。

5.如权利要求1所述的方法，其中，所述将待匹配的简历文本和岗位文本输入到人岗神经网络中进行处理，生成人岗嵌入向量的步骤包括：

将所述待匹配的简历文本和岗位文本输入到第二全连接层进行处理，得到全连接向量；

将所述全连接向量输入到第二池化层进行处理，得到第二特征向量；以及

将所述第二特征向量输入到第三全连接层进行处理，得到所述人岗嵌入向量。

6.如权利要求5所述的方法，其中，在所述将所述待匹配的简历文本和岗位文本输入到第二全连接层进行处理之前还包括步骤：

获取所述待匹配的简历文本和岗位文本作为待增强向量输入数据增强层；

从所述待增强向量中随机选取部分元素作为待处理元素；

对所述待处理元素增加噪音，得到增强向量，所述噪音为服从高斯分布的向量中与待处理元素相对应的位置上的元素。

7.如权利要求6所述的方法，其中，所述从所述待增强向量中随机选取部分元素作为待处理元素的步骤包括：

对待增强向量增加掩膜，所述掩膜的维度与所述待增强向量的维度相同；

对所述掩膜中的元素进行随机选取，随机选取的元素标记为第一标记；

所述掩膜中其余的元素标记为第二标记；

基于所述掩膜中的标记，选择所述第一标记或所述第二标记其中一种标记所对应的元素作为所述待处理元素。

8.如权利要求1所述的方法，其中，所述基于所述第一拆分向量和所述第二拆分向量，获取简历文本和岗位文本的人岗匹配度的步骤包括：

计算第一拆分向量和所述第二拆分向量之间的欧式距离、曼哈顿距离、切比雪夫距离、或余弦距离，并将计算结果作为简历文本和岗位文本的人岗匹配度。

9.一种计算设备，包括：

至少一个处理器和存储有程序指令的存储器；

当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。