CN115795150A

CN115795150A - 一种基于特征离散系数和注意力机制的智能人岗匹配方法

Info

Publication number: CN115795150A
Application number: CN202211484581.1A
Authority: CN
Inventors: 魏伟; 朱晓明; 黄程韦; 阚保春; 郑海天; 刘海丰; 陈圆谜
Original assignee: Zhejiang Hanggang Vocational Education Group Co ltd; Zhejiang Lab
Current assignee: Zhejiang Hanggang Vocational Education Group Co ltd; Zhejiang Lab
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-14

Abstract

本发明公开了一种基于特征离散系数和注意力机制的智能人岗匹配方法，所述方法包括获取简历/岗位文本语料对预训练语义抽取模型进行模型精调；根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征；根据不同特征类型分析简历/岗位文本语料以提取特征，并存储于向量数据库中；取应聘者在客户端最近的前N条浏览记录，在向量数据库中查找浏览记录对应的各特征值，以计算应聘者的兴趣画像和各特征对应的兴趣度；对于每一个候选岗位推荐项，根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度；对各候选项的匹配度进行排序，得到推荐结果。

Description

一种基于特征离散系数和注意力机制的智能人岗匹配方法

技术领域

本发明属于岗位匹配推荐领域，尤其涉及一种基于特征离散系数和注意力机制的智能人岗匹配方法。

背景技术

近年来随着人工智能技术的发展，以往需要专业招、应聘双方从海量候选对象中自行筛选查找目标对象的现象也不复存在，而是利用供需双方提供的文本描述或者其历史浏览记录，借助文本向量匹配技术或者序列预测技术等深度学习方法实现对供需双方的智能匹配和推荐。

上述通过文本向量匹配的方法主要是借助word2vec或者TFIDF等技术简单的将整个简历文本或者特定字段转化成文本向量，然后借助向量相似技术进行岗位匹配。这种方法存在多种问题和缺点。首先，招、应聘双方的真实需求往往存在一定的模糊性和弹性，这种模糊性和弹性本身就很难通过文字来准确地表达，如果再加上文本材料撰写人的知识水平和文字功底有限，文本材料所表示的含义就更容易偏离作者的真实意图。其次word2vce或者TFIDF等文本向量生成方法仅仅是利用词频统计或者词频共现等信息生成词向量，然后再利用词向量通过平均或者简单加权的方法来计算文本向量，这种方法计算出来的文本向量仅含浅层语义信息，无法挖掘出文本所蕴含的深度语义信息，这样在进行文本语义匹配的时候就会出现对相似文本匹配不够准确的情况。再者，这种将简历不同字段无差别的进行向量转化然后进行相似度计算的方法忽略了不同字段对岗位匹配模型的重要度差异，这明显是违背现实招聘场景的。最后这种方法还忽略了一个明显的事实，即招、应聘双方的兴趣并不是一成不变的。比如如果候选方某一方面的条件特别优秀，主选方可能就会降低或者放弃对其它一些条件的要求。或者遇上招聘淡季或者旺季，招应聘双方会根据自己投递情况的反馈情况无意中降低或者提高自己的整体要求。因为这种改变通常是短期的或者是不断变化的，所以导致双方都无意去修改文本材料，这样一来仅利用文本向量匹配进行岗位匹配的方法便不能很好的适应这种兴趣变化的场景。

发明内容

针对现有技术不足，本发明提供了一种基于特征离散系数和注意力机制的智能人岗匹配方法。

为解决上述技术问题，本发明的技术方案为：本发明实施例的第一方面提供了一种基于特征离散系数和注意力机制的智能人岗匹配方法，所述方法包括以下子步骤：

S1，获取简历/岗位文本语料，通过人工标注的方式生成相似句子对，将其标记为正例，再将相似句子对打乱顺序作为负例，然后作为正例和负例输入到预训练语义抽取模型进行模型精调；

S2，根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征；将文本特征转化为语义向量，将数值型特征、等级型特征转化为数值标量，并将语义向量和数值标量作为特征值存储于向量数据库中；

具体地，基于精调后的预训练语义抽取模型将文本特征转化为语义向量，基于简历/岗位文本统计分析将数值型、等级型特征归一化转化为0-1之间的数值标量，并将语义向量和数值标量作为特征值存储于向量数据库中；

S3，自定义浏览记录超参数N，取应聘者在客户端最近的前N条浏览记录，在向量数据库中查找浏览记录对应的各特征值，以获取应聘者的兴趣画像和各特征对应的兴趣度；

S4，对于每一个候选岗位推荐项，根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度；

S5，对步骤S4得到的各候选项的匹配度进行排序，得到推荐结果。

本发明实施例的第二方面提供了一种基于特征离散系数和注意力机制的智能人岗匹配装置，包括一个或多个处理器，用于上述的基于特征离散系数和注意力机制的智能人岗匹配方法。

本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有程序该程序被处理器执行时，用于实现上述的基于特征离散系数和注意力机制的智能人岗匹配方法。

与现有技术相比，本发明的有益效果为：

(1)本发明对文本特征采用预训练加精调的sentence_transformer进行向量转换，可以极大地增加文本特征向量表达的准确度。对于数值型特征、等级型特征根据值域范围分析并进行合理转化，使得各特征无需样本进行训练便可得到准确合理的表征。

(2)在计算特征更新向量时引入了兴趣、时长以及相似度等多维注意力机制，从用户对某一记录的浏览持续时长中提取了用户对该记录的兴趣注意力分数，作为该记录下所有特征的兴趣注意力分数；从用户浏览结束某一记录距今时长中提取了该记录的记忆注意力分数并作为该记录下所有特征的记忆注意力分数，从用户浏览记录各特征与特征画像相似度提取了特征相似注意力分数。

(3)通过不同子类注意力分数的均方根来计算综合注意力分数，使得生成新画像时对单项注意力分数非常高的特征记录给予更多的关注。

(4)计算候选简历/岗位与目标岗位/简历匹配度时，借助离散系数来生成特征匹配权重(即特征兴趣度)，确保对用户感兴趣(表现为相似度比较稳定)的特征给予更多的权重。

(5)本发明无需采集用户的原始数据进行训练，即可保证较高的推荐精准度，保证了用户的数据安全和隐私。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

图2为本发明装置的示意图。

具体实施方式

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本发明提出了一种基于特征离散系数和注意力机制的智能人岗匹配方法，所述方法具体包括以下子步骤：

S1，获取招聘领域文档材料(即简历/岗位文本语料)，通过人工标注的方式生成相似句子对，将其标记为正例，再将相似句子对打乱顺序作为负例，然后作为正例和负例输入到预训练语义抽取模型进行模型精调。

在上述步骤S1中，可以通过网上收集或自行生成的方式获取招聘领域文档材料，语料的收集以招聘领域材料为佳，若是招聘领域语料不足可以从各专业领域进行搜集补充。在完成语料搜集后最重要的是对招聘领域文档材料进行语句对的标注，语句对标注的方法是从语料库中遴选两两语义相似的句子/段落放在同一个列表中作为训练语库。为减轻人工遴选的工作量，可以先将语料分句或分段，然后转化成语句向量，再通过计算向量相似性从语料库中查找语义最相似的若干句子，最后通过人工复核的方式进行语料筛选，得到简历/岗位文本语料。在本实例中，所述预训练语义抽取模型选用sentence-transformer模型。

S2，根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征；根据不同特征类型通分析简历/岗位文本语料。

具体地，对于文本特征利用步骤S1精调后的预训练语义抽取模型将文本特征转换成句向量。

对于数值型特征，先推理得到数值型特征的数据范围，然后进行极大极小值归一化处理，转化为0-1之间的数值标量。

示例性地，数值型特征容易分辨，如果其值域范围已经明确可以直接采用最小最大值归一化的方法进行归一化；如果值域范围不明确，则借助专家经验获取需要从数据范围，这之后才可对其进行最小最大值归一化。

对于等级型特征根据等级数量不同，将其按照等差数列形式进行极大极小值归一化处理，转化为0-1之间的数值标量。

示例性地，等级特征是指那些属性有限可轻易穷举且有大小高低之分的特征，比如学历、职称等级、薪酬等级等；对于等级特征可以简单地将其按照小到大的顺序标为从1到N(N为属性数量)，然后将标记结果除以N进行归一化。

对于每份简历/岗位将不同的特征转化结果存储于向量数据库ES。

本发明对文本特征采用预训练加精调的sentence_transformer进行向量转换，可以极大地增加文本特征向量表达的准确度。对于数值型特征、等级型特征根据值域范围、等级数量不同分析并进行合理转化，使得各特征无需样本进行训练便可得到准确合理的表征。

S3，自定义浏览记录超参数N，取应聘者在客户端最近的前N条浏览记录，在向量数据库ES中查找浏览记录对应各特征的特征值Vrf，对每个特征基于注意力机制获取应聘者在该特征下的兴趣画像Ff。

本发明在计算特征更新向量时引入了兴趣、时长以及相似度等多维注意力机制，从用户对某一记录的浏览持续时长中提取了用户对该记录的兴趣注意力分数，作为该记录下所有特征的兴趣注意力分数；从用户浏览结束某一记录距今时长中提取了该记录的记忆注意力分数并作为该记录下所有特征的记忆注意力分数，从用户浏览记录各特征与特征画像相似度提取了特征相似注意力分数。

兴趣画像Ff具体的计算过程如下：

S31，对于每条浏览记录，将其浏览开始时间与浏览结束时间差值进行softmax归一化，然后将其作为每条浏览记录的兴趣注意力分数Wr_i；

S32，对于每条浏览记录，将其浏览结束时间与当前时间的差值的倒数进行softmax归一化，然后将其作为每条浏览记录的记忆注意力分数Wr_m；

S33，对不同浏览记录中的相同特征计算其特征平均值，对于每条浏览记录，每个特征计算其与对应特征平均值的相似度Srf；

S34，对每个特征，计算其在不同浏览记录下的相似度Srf的离散系数Df；

S35，对每个特征，利用其离散系数Df进行负自然指数计算其更新权重Uf；

S36，对不同特征的更新权重Uf进行softmax归一化计算，得到该特征的兴趣度If；借助离散系数来生成特征兴趣度，确保对用户感兴趣(表现为相似度比较稳定)的特征给予更多的权重。

S37，对每个特征，将步骤S33计算得到的在不同记录下的相似度Srf进行softmax归一化计算，并将结果作为每个特征在不同记录下的相似注意力分数Wrf_s；

S38，对每条记录中的每个特征，计算相似注意力分数Wrf_s、该记录的记忆注意力分数Wr_m和兴趣注意力分数Wr_i的均方根平均值作为综合注意力分数Wrf，

S39，对每个特征，根据其在不同浏览记录对应各特征的特征值Vrf与在该记录下的综合注意力分数Wrf以及更新权重Uf计算并更新该特征的兴趣画像Ff’。本发明方法通过不同子类注意力分数的均方根来计算综合注意力分数，使得生成新画像时对单项注意力分数非常高的特征记录给予更多的关注。

更新的兴趣画像Ff’的计算公式如下：

Ff’＝Ff×(1-Uf)+Vrf×Wrf×Uf。

S4，对于每一个岗位候选推荐项，根据岗位各个特征值Vif与对应特征的兴趣画像Ff之间的相似度Sf，然后与该特征的兴趣度If计算该候选推荐项与综合画像之间的匹配度M。

在本实例中，利用余弦相似度计算岗位各个特征值Vif与对应特征的兴趣画像Ff之间的相似度Sf。

匹配度M的计算包括：通过特征相似度Sf与特征兴趣度If的加权求和得出。

S5，对步骤S4得到的各候选项的匹配度M值进行排序，得到推荐结果。

特别地，本发明方法没有采集用户的大量的原始简历数据进行深度学习训练，即可保证较高的推荐精准度，保证了用户的数据安全和隐私。

实施例1

获取待匹配的个人简历，对获取的的个人简历进行处理。

个人简历包含以下字段：出生日期、所在城市、性别、荣誉奖项名称(注a)、技能语言(注a)、最高学历、学校名称(注a)、专业名称(注a)、主修课程名称(注a)、公司名称(注a)、公司所属行业(注a)、职位名称(注a)、工作描述(注a)、项目名称(注a)、担任职务(注a)、项目描述(注a)。

其中，职位描述包含：岗位类型、岗位名称、行业领域、薪酬范围、专业方向、工作区域、岗位描述。

简历中的出生日期可以转为年龄然后推理得到数值型特征的数据范围，在本实例中推理得到年龄的数据范围为16-70，然后再进行极小极大值归一化。

简历最高学历可以将专科以下、专科、本科、硕士、博士、博士后分别映射为1、2、3、4、5、6然后归一化为0、0.2、0.4、0.6、0.8、1.0。

岗位薪酬范围分别为“0-2k”、“2-5k”、“5-10k”、“10-20k”、“20-50k”、“50k以上”可以将其分别映射为1、2、3、4、5、6然后归一化为0、0.2、0.4、0.6、0.8、1.0。

除简历中的出生日期以及最高学历外其余字段可以采用精调后的sentence-transformer模型将其转化为语义向量。

对于标a的字段，每个字段可以存储多个值，该字段的最终向量结果是利用sentence-transformer模型分别计算各个值的语义向量，然后将不同值的语义向量进行平均后得到转化处理结果。

在本实施实例中对于每一份简历的处理结果都将存储于向量数据库ES中。

在本实例中，招聘者/求职者的一段简历/岗位浏览历史记录为R，Ri是其中第i条浏览记录；一份完整的简历/岗位特征组合为F，Fj是其中第j个特征，第i条浏览记录Ri中第j个特征Fj的特征值为Vij；一份完整的人才/岗位的兴趣画像为P，兴趣画像P中对应特征Fj的特征值为Vj。

其中，一条完整的历史浏览记录Ri包含以下信息：开始浏览时间Ti_s，结束浏览时间Ti_e，特征Fj对应的特征值Vij。

在本实施实例中特征值Vj的初始值来源于招聘/求职方岗位对应字段描述转换结果。

计算开始浏览时间Ti_s与结束浏览时间Ti_e的差值Ti_se；对Ti_se进行softmax归一化计算得到浏览记录兴趣注意力分数Wi_i(注：在本实例中Wi_i中第一个i是interest的简写，代表兴趣度)。

计算当前时间(画像更新时间)Tc与结束浏览时间Ti_e的差值Ti_ce；对Ti_ce的倒数进行softmax归一化计算得到浏览记录记忆注意力分数Wm_i。

对不同浏览记录中的相同特征计算其特征平均值，对于每条浏览记录，每个特征计算其与对应特征平均值的相似度Sij。

对浏览记录Ri下的相似度Sij进行softmax归一化得到浏览记录中各特征相似注意力分数Ws_ij。

计算相似注意力分数Ws_ij、该记录的记忆注意力分数Wm_i和兴趣注意力分数Wi_i的均方根平均值作为综合注意力分数Wrf；

对特征Fj下的特征值Vij计算其与W_ij的加权和，得到特征Fj的待更新分量Vj_u；对特征Fj计算不同Ri中相似注意力分数Ws_ij的离散系数，记为Dj；对离散系数Dj进行负自然指数计算得到各特征的更新权重Uj。对特征Fj，按照公式Vj＝Vj*(1-Uj)+Vj_u*Uj，计算更新后的特征值Vj值。对更新权重Uj进行softmax归一化得到各特征的兴趣度作为特征Ij。

候选简历/岗位集合为S，Sk是其中第K份候选简历/岗位；一份完整的简历/岗位特征组合为F，Fj是其第j个特征，Sk中特征Fj的特征值为Vkj；招聘者/求职的人才/岗位需求画像为P，画像P中特征Fj的特征值为Vj。

对第K份候选简历/岗位Sk计算其Vkj与Vj的相似度Skj；对第K份候选简历/岗位Sk计算Skj与Ij的加权和得到第K份候选简历/岗位Sk与岗位P的匹配度Mk。将Mk按照从高到低的顺序进行排列作为候选简历/岗位S的推荐结果。

与前述基于特征离散系数和注意力机制的智能人岗匹配方法的实施例相对应，本发明还提供了基于特征离散系数和注意力机制的智能人岗匹配装置的实施例。

参见图2，本发明实施例提供的一种基于特征离散系数和注意力机制的智能人岗匹配装置，包括一个或多个处理器，用于实现上述实施例中的基于特征离散系数和注意力机制的智能人岗匹配方法。

本发明基于特征离散系数和注意力机制的智能人岗匹配装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明基于特征离散系数和注意力机制的智能人岗匹配装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于特征离散系数和注意力机制的智能人岗匹配方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，所述方法包括以下子步骤：

S4，对于每一个候选岗位推荐项，根据候选岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度；

2.根据权利要求1所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，基于精调的预训练语义抽取模型、特征类型分析简历/岗位文本语料以提取特征的过程包括：

对于文本特征，利用步骤S1精调后的预训练语义抽取模型将文本特征转换成语义向量；

对于数值型特征，先推理得到数值型特征的数据范围，然后进行极大极小值归一化处理；

对于等级型特征根据等级数量不同，将其按照等差数列形式进行极大极小值归一化处理；

将上述提取的特征存储于向量数据库ES中。

3.根据权利要求1所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，所述步骤S3具体包括以下子步骤：

S35，对每个特征，利用其离散系数Df计算其更新权重Uf；

S36，对不同特征的更新权重Uf进行softmax归一化计算，得到该特征的兴趣度If；

S37，对每个特征，将步骤S33计算得到的在不同浏览记录下的相似度Srf进行softmax归一化计算，并将结果作为每个特征在不同浏览记录下的相似注意力分数Wrf_s；

S38，对每条浏览记录中的每个特征，根据相似注意力分数Wrf_s、该浏览记录的记忆注意力分数Wr_m和兴趣注意力分数Wr_i得到综合注意力分数Wrf；

S39，对每个特征，根据其在不同浏览记录对应各特征的特征值Vrf与在该记录下的综合注意力分数Wrf以及更新权重Uf计算并更新该特征的兴趣画像Ff。

4.根据权利要求3所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，利用其离散系数Df计算其更新权重Uf的计算方式为：利用其离散系数Df进行负自然指数计算其更新权重Uf。

5.根据权利要求3所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，根据相似注意力分数Wrf_s、该记录的记忆注意力分数Wr_m和兴趣注意力分数Wr_i得到综合注意力分数Wrf的过程包括：计算相似注意力分数Wrf_s、该记录的记忆注意力分数Wr_m和兴趣注意力分数Wr_i的均方根平均值作为综合注意力分数Wrf。

6.根据权利要求3所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，根据其在不同浏览记录对应各特征的特征值Vrf与在该记录下的综合注意力分数Wrf以及更新权重Uf计算并更新该特征的兴趣画像Ff包括：将更新后的兴趣画像记为Ff’，更新的兴趣画像Ff’的计算公式如下：

Ff’＝Ff×(1-Uf)+Vrf×Wrf×Uf。

7.根据权利要求1所述的基于特征离散系数和注意力机制的智能人岗匹配方法，其特征在于，根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度的计算方式为：根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度加权求和得到匹配度。

8.一种基于特征离散系数和注意力机制的智能人岗匹配装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的基于特征离散系数和注意力机制的智能人岗匹配方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-7中任一项所述的基于特征离散系数和注意力机制的智能人岗匹配方法。