CN114358657A

CN114358657A - 一种基于模型融合的岗位推荐方法及装置

Info

Publication number: CN114358657A
Application number: CN202210221387.8A
Authority: CN
Inventors: 刘学洋; 胡文蕙; 邵文宇
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-04-15
Anticipated expiration: 2042-03-09
Also published as: CN114358657B

Abstract

本发明提供一种基于模型融合的岗位推荐方法及装置，包括：将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；将所有的目标评分矩阵和目标个体的目标特征表进行拼接融合，确定目标融合特征并输入至岗位匹配模型，确定由岗位匹配模型输出的至少一个推荐岗位。本发明提供的基于模型融合的岗位推荐方法及装置，通过把特征表与两个基础预测模型生成的中间数据做融合，再将特征表输入至岗位匹配模型中，实现对目标个体下一次在每个预设岗位任职的概率进行预测，在召回率和归一化折损累计增益更高，使得预测的岗位更加准确，与人员的符合度更高。

Description

一种基于模型融合的岗位推荐方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于模型融合的岗位推荐方法及装置。

背景技术

现有的干部管理系统大部分只有数据库存储、规则查询等简单功能。

随着推荐系统技术的发展，岗位推荐是推荐系统很重要的应用方向之一。现有的在人岗匹配技术中，根据干部历史履历序列建模，学习干部职位的变化，从而预测干部下一个可能的职位。

上述方法存在推荐岗位不够精准等问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于模型融合的岗位推荐方法及装置。

本发明提供一种基于模型融合的岗位推荐方法，包括：将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；

将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；

将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

根据本发明提供的一种基于模型融合的岗位推荐方法，基础预测模型是基于神经网络模型构建的；神经网络模型包括马尔科夫链和图神经网络；

基础预测模型是基于样本任职序列，以及样本任职序列对应的岗位标签训练后得到的；基础预测模型用于根据目标任职序列生成的目标评分矩阵；目标评分矩阵包括目标任职序列与各预设岗位的匹配概率。

根据本发明提供的一种基于模型融合的岗位推荐方法，基础预测模型是基于以下方式训练得到的：

从履历数据库中获取多个样本履历数据；

根据所有预设岗位的岗位信息，确定每个预设岗位的岗位类别向量表示，以及每个预设岗位的岗位类别编码；

基于岗位类别编码，根据所有的样本履历数据，确定多个样本任职序列，以及每个样本任职序列对应的岗位标签；

将每个样本任职序列与每个样本任职序列对应的岗位标签的组合，作为一个基础训练样本，获取多个基础训练样本；

利用多个基础训练样本对初始基础模型进行训练，确定基础预测模型。

根据本发明提供的一种基于模型融合的岗位推荐方法，岗位匹配模型是基于以下方式训练得到的：

将所有的基础训练样本输入至至少一个基础预测模型，获取由各基础预测模型生成的样本评分矩阵；样本评分矩阵包括所有的样本任职序列与每个预设岗位的匹配概率；

并基于特征工程，根据每个基础训练样本对应的样本岗位信息、样本个体信息和样本履历数据，获取每个样本任职序列对应的样本个体特征和样本职位特征；

根据所有的样本个体特征和样本职位特征，确定样本特征表；

将各样本评分矩阵和样本特征表进行拼接融合，获取样本融合特征；

利用样本融合特征对初始匹配模型进行训练，确定岗位匹配模型。

根据本发明提供的一种基于模型融合的岗位推荐方法，根据所有预设岗位的岗位信息，确定每个预设岗位的岗位类别向量表示，包括：

根据岗位信息中的单位性质，确定岗位信息中每个预设岗位的单位类别信息；并根据岗位信息中预设岗位的职务和领域关键字，确定岗位信息中每个预设岗位的技能领域信息；并确定岗位信息中所有预设岗位的职级信息；

根据每个预设岗位的单位类别信息、技能领域信息、职级信息，确定每个预设岗位的岗位类别向量。

根据本发明提供的一种基于模型融合的岗位推荐方法，目标特征表是基于以下方法获取的：

获取目标个体的目标岗位信息、目标个体信息和目标履历数据；

基于特征工程，根据目标岗位信息、目标个体信息和目标履历数据，确定目标个体的目标个体特征和目标职位特征；

基于样本特征表，根据目标个体特征和目标职位特征，确定目标特征表。

根据本发明提供的一种基于模型融合的岗位推荐方法，目标任职序列是基于以下方法确定的：

获取目标履历数据；

基于每个预设岗位的岗位类别编码，根据目标履历数据中目标个体的历史任职岗位，确定目标任职序列；在目标任职序列中，目标个体的历史任职岗位按时间先后顺序排列。

本发明还提供一种基于模型融合的岗位推荐装置，包括：

获取模块，用于将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；

融合模块，用于将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；

推荐模块，用于将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于模型融合的岗位推荐方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于模型融合的岗位推荐方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于模型融合的岗位推荐方法。

本发明提供的基于模型融合的岗位推荐方法及装置，通过把特征表与两个基础预测模型生成的中间数据做融合，再将特征表输入至岗位匹配模型中，实现对目标个体下一次在每个预设岗位任职的概率进行预测，在召回率和归一化折损累计增益更高，使得预测的岗位更加准确，与人员的符合度更高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于模型融合的岗位推荐方法的流程示意图；

图2是本发明提供的模型融合方法的流程示意图；

图3是本发明提供的基于模型融合的岗位推荐装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

随着信息技术的飞速发展，数据量和信息量变得越来越大，于1992年提出的推荐算法才真正有了用武之地。推荐算法是推荐系统的核心，而推荐系统可以根据个人历史信息等数据帮助用户（user）在海量的数据中精准地找到高质量、高准确度的信息，并将这些信息推荐给用户，推荐系统的准确程度主要是受推荐算法的影响。

序列推荐在推荐系统里是非常重要的任务，它通过对user行为序列，比如购买商品的序列来建模，学到user兴趣的变化，从而能够对用户下一个行为进行预测。

基于序列的推荐算法将用户-物品交互视为一个动态序列，并考虑到序列相关性，以捕获用户当前和最近的偏好，以获得更准确的推荐。相对于基于协同过滤、基于特征的推荐算法，基于序列的推荐算法将用户行为进行序列化建模，通过学习历史行为序列尝试学习和理解用户行为、用户和物品之间的交互，以及用户偏好和物品流行度随时间的演变。基于序列的推荐算法，包括马尔可夫算法和图神经网络（Session-based Recommendationwith Graph Neural Networks，SR-GNN）算法等，这类方法利用它们在序列中用户与物品交互之间的序列相关性建模方面的自然优势，为基于序列的推荐提供了直观的解决方案。

马尔科夫算法是一种主流的序列建模方法，算法模型通过观察用户近期的行为来预测下一个时间节点的行为。个性化马尔可夫链（Factorizing Personalized MarkovChains，FPMC）模型是一种结合矩阵分解和马尔可夫链来进行序列推荐的方法。该模型为每一个用户学习其对应的一个转移矩阵，然后运用最大似然估计来求解参数。它对每一个用户建立一个状态转移矩阵，所以矩阵的维度是节点（item）的平方与user的乘积，对内存不友好，而且在数据稀疏的情况下，矩阵是非常容易过拟合的，所以采用矩阵分解，用潜在向量来表示序列（sequence）信息。

基于物品相似度的分解序列预测（Fusing similarity models with Markovchains，Fossil）模型是一种高阶马尔可夫链模型，通过高阶马尔可夫链来学到更多的信息，再结合相似性模型来解决序列推荐预测中的稀疏性问题。

一个马尔科夫过程就是指过程中的每个状态的转移只依赖于之前的L个状态，这个过程被称为L阶马尔科夫模型，其中L是影响转移状态的数目。最简单的马尔科夫过程就是一阶过程，每一个状态的转移只依赖于其之前的那一个状态。马尔科夫过程指的是一个状态不断演变的过程，对其进行建模后称之为马尔科夫模型。

马尔科夫模型是概率模型，每一个时间点的观测值体现为状态值，所谓状态值就是某一个类别的概率，马尔科夫模型当前状态与之前状态的关系是通过转移概率、转移概率矩阵来决定的。

Fossil模型使用物品相似度建模用户长期偏好，使用高阶马尔科夫链建模用户短期偏好，然后将长短期偏好结合为用户推荐物品。Fossil的两个关键组成部分，即基于相似性的方法和高阶马尔可夫链，都对其性能有很大贡献，尤其是在稀疏数据集上。因此，两者的精确组合为稀疏序列推荐任务生成了强有力的结果。

SR-GNN是一种基于会话（session）序列建模的推荐系统，这里所谓的会话是指用户的交互过程，每个会话表示一次用户行为和对应的服务，所以每个用户记录都会构建成一张图。SR-GNN将会话历史视作一张有向图，由于会话图中的节点可能会有多个入点出点，但至少比循环神经网络（Recurrent Neural Network，RNN）多考虑了后一个item，因此，除了考虑某item与相邻的前item的联系外，还考虑了与其他有交互的item之间的联系，也就是考虑了上下文的过渡信息。

另外，序列推荐的输出来自最后一个item，SR-GNN认为会话（尤其是短时间的会话）中应该更考虑整体的信息。SR-GNN首先对所有的session序列通过有向图进行建模，有向图首先建立在序列数据上，将每个交互作为图中的一个节点，同时将每个序列映射到一条路径。接着通过图神经网络（Graph Neural Networks，GNN），学习每一个对象node（节点item）的隐向量表示。然后通过一个注意力机制（attention）架构模型得到每个session的嵌入（embedding）。

当获得每一个会话的embedding后，可以计算出所有候选item的推荐分数值。接着利用softmax函数和已经获得的推荐分数值来计算不同候选item的概率值，来表明在该次会话中用户下一次可能点击的不同item的概率。

SR-GNN充分利用了GNN的优点，可以捕捉结构化关系数据集中的复杂关系。基于GNN的序列化推荐通过揭示推荐商品与相应的顺序上下文之间的复杂关系。

在机器学习的有监督学习算法中，目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时只能得到多个有偏好的模型。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成学习通常分为以下几类：自助聚合（Bagging）、随机森林、提升法（Boosting）、堆叠法（Stacking）。

在集成学习中，除了Bagging和Boosting对数据的横向划分划分之外，还有一个纵向划分或加深的方法，一般称为堆栈泛化（Stacked Generalization，SG）的技术。其中，Stacking方法是指训练一个模型用于组合其他各个模型。首先训练多个不同的模型，然后把之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出。

本发明基于注意力机制的高阶马尔科夫链算法和SR-GNN算法作为基学习器（Base-learner），极端梯度提升（eXtreme Gradient Boosting，XG-Boost）模型作为元学习器（Meta-learner），对两种序列算法进行模型融合，以减少单一学习器的依赖，增强模型表现。

模型融合的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来，加强模型效果。以通过数学证明模型，随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零。

融合多个机器学习模型往往可以提高整体的预测能力，这是一种非常有效的提升手段，在多分类器系统（multi-classifier system）和集成学习（ensemble learning）中，融合都是最重要的一个步骤。一般来说，模型融合或多或少都能提高的最终的预测能力，且一般不会比最优子模型差。

通过结合多个各有所长的子学习器，我们实现了更好的预测结果。基本的理论假设是：不同的子模型在不同的数据上有不同的表达能力，模型融合可以结合他们擅长的部分，得到一个在各个方面都很准确的模型。

XG-Boost是一种集成学习方法，它对应的模型是多个分类回归树（Classification And Regression Tree，CART树），树之间存在依赖关系，通过加入能够提升整体效果的CART树来用特征进行分裂，拟合上次预测的残差，不断降低损失，同时为了降低过拟合风险，通过在目标函数里加入惩罚项来限制叶子结点的个数。算法最终将每棵树的预测值加到一起作为最终的预测值。XG-Boost对损失函数做了二阶的泰勒展开，并在目标函数之外加入了正则项（即惩罚项）对整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。XG-Boost里面的基学习器除了用决策树（gbtree），也可用线性分类器（gblinear）。XG-Boost实现了分裂点寻找近似算法；利用了特征的稀疏性；数据事先排序并且以block形式存储，有利于并行计算。通常情况下，XG-Boost的训练速度要远远快于传统的梯度提升决策树（Gradient Boosting Decision Tree，GBDT）实现。

下面结合图1至图4描述本发明实施例所提供的基于模型融合的岗位推荐方法及装置。

图1是本发明提供的基于模型融合的岗位推荐方法的流程示意图，如图1所示，包括但不限于以下步骤：

首先，在步骤S1中，将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵。

目标个体可以是干部。

目标任职序列可以根据目标个体的目标履历数据确定，目标履历数据包括目标个体的个人信息、任职起止时间、任职地区、任职单位、任职单位类别、任职岗位关键字、任职级别等。在目标任职序列中，目标个体的历史任职岗位按照时间先后顺序依次排列。

预设岗位可以包括目标个体所任职过的所有岗位。

具体地，将目标任职序列分别输入至各基础预测模型，每个基础预测模型将目标任职序列对应的目标个体下一次在每个预设岗位的任职概率进行预测，并将这些预测的任职概率加入至各基础预测模型内原有的评分矩阵中，生成作为中间数据的目标评分矩阵。可以将每个基础预测模型生成的目标评分矩阵提取出来。

其中，基础预测模型可以是基于注意力机制构建的，也可以是基于图神经网络构建的。基础预测模型中加入的注意力机制，可以使得基础预测模型能够自适应学习历史所任岗位的贡献权重，使得输出的结果更加合理。

进一步地，在步骤S2中，将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征。

目标特征表不仅包括了目标个体的目标个体特征和目标职位特征，还包括了对基础预测模型进行训练的基础训练样本对应的样本个体特征和样本职位特征。

目标个体特征和目标职位特征可以通过对目标个体的目标岗位信息、目标个体信息和目标履历数据进行特征工程处理得到的，特征包括特征选择（Feature Selection）、特征提取（Feature Extraction）、特征构建（Feature Construction）。个体信息可以包括年龄、性别和教育经历等。

具体地，将每个基础预测模型根据目标任职序列生成的目标评分矩阵，以及目标特征表进行拼接融合，将每个目标评分矩阵中的概率对应融合至目标特征表中，最终得到目标融合特征。

进一步地，在步骤S3中，将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

将目标融合特征输入至基于XG-Boost模型构建的初始匹配模型之后，初始匹配模型会通过不同的特征进行分裂来添加CART树，一开始树是0，然后往里面加树，相当于多了一个函数，再加第二棵树，相当于又多了一个函数，每加一棵树就相当于增加了一个函数，这个过程中需要保证加入新的函数能够提升整体的表达效果，即目标函数（损失）的值要下降。这样在得到训练好的初始匹配模型之后，就可以用将训练好的初始匹配模型作为岗位匹配模型进行预测。

岗位匹配模型最终将每棵树的预测值加到一起作为最终的预测值。即根据样本融合特征，来训练初始匹配模型，最终使用岗位匹配模型预测的是个体下一次任职岗位的概率。

根据岗位匹配模型输出的所有预设岗位的匹配程度，在预设岗位中确定匹配程度最高的至少一个岗位，作为目标个体的推荐岗位。推荐岗位的数量可以根据实际需求预先设定。

本发明提供的基于模型融合的岗位推荐方法，通过把特征表与两个基础预测模型生成的中间数据做融合，再将特征表输入至岗位匹配模型中，实现对目标个体下一次在每个预设岗位任职的概率进行预测，在召回率和归一化折损累计增益更高，使得预测的岗位更加准确，与人员的符合度更高。

可选地，所述目标特征表是基于以下方法获取的：

获取所述目标个体的目标岗位信息、目标个体信息和目标履历数据；

基于特征工程，根据所述目标岗位信息、所述目标个体信息和所述目标履历数据，确定所述目标个体的目标个体特征和目标职位特征；

基于所述样本特征表，根据所述目标个体特征和目标职位特征，确定所述目标特征表。

样本特征表包括了对基础预测模型进行训练的基础训练样本对应的样本个体特征和样本职位特征。

特征工程是指从原始数据转换为特征向量的过程。典型的特征工程包括数据清理、特征离散化、特征提取、特征选择等过程。在大数据场景下，数据通常是分布式存储的，而特征工程处理需要把各方的建模样本数据融合在一起。

可选地，所述目标任职序列是基于以下方法确定的：

获取所述目标履历数据；

基于每个预设岗位的岗位类别编码，根据所述目标履历数据中所述目标个体的历史任职岗位，确定所述目标任职序列；在所述目标任职序列中，所述目标个体的历史任职岗位按时间先后顺序排列。

对于待匹配岗位的目标个体，得到目标个体的履历数据，即目标履历数据，目标履历数据中包括目标个体的个人信息和历史任职数据，历史任职数据包括历史所任职位的起止时间、任职地区、任职单位、任职单位的类别、任职岗位关键字、任职级别等。再从目标履历数据中抽取历史任职数据，将历史任职岗位的岗位编码按时间先后顺序排列，得到目标个体的目标任职序列。

此外，收集多个干部的履历数据，对所有的履历数据中的个人敏感信息进行脱敏处理，构建履历数据库。

由于一个干部有至少一个岗位任职经历，因此对应至少一个履历数据。每个履历数据包括干部的个人信息、任职起止时间、任职地区、任职单位、任职单位的类别、任职岗位关键字、任职级别等。

可选地，所述根据所有预设岗位的岗位信息，确定所述每个预设岗位的岗位类别向量表示，包括：

根据所述岗位信息中的单位性质，确定所述岗位信息中每个预设岗位的单位类别信息；并根据所述岗位信息中预设岗位的职务和领域关键字，确定所述岗位信息中每个预设岗位的技能领域信息；并确定所述岗位信息中所有预设岗位的职级信息；

根据每个预设岗位的所述单位类别信息、所述技能领域信息、所述职级信息，确定所述每个预设岗位的岗位类别向量。

收集多个干部的履历数据，对所有的履历数据中的个人敏感信息进行脱敏处理，构建履历数据库。

第一方面，根据每个预设岗位所在单位的单位性质，确定所述岗位信息中每个预设岗位的单位类别信息。

单位性质可以分为以下基本类别：地方企业、中央企业、外资企业、合资企业、学校、医院和其他。

表1为岗位的领域类别的领域关键字，分别将预设岗位所属的一级、二级、三级职务与表1所示的领域关键字进行匹配，确定岗位信息中每个预设岗位的技能领域信息。

表1 领域关键字

第二方面，将每个预设岗位的职务与领域关键字进行匹配，若职务与领域关键字匹配成功，则得到预设岗位的领域分类，确定每个预设岗位的技能领域信息。

若职务与领域关键字匹配失败，利用划分规则进行划分，得到领域分类，确定每个预设岗位的技能领域信息。

领域分类具体为：若职务与关键词匹配失败，且该预设岗位所属类别为学校，则确定预设岗位的技能领域信息为教育；若关键词匹配失败且所述类别不为教育，则确定预设岗位的技能领域信息为其他。

第三方面，经数据脱敏，履历数据库中可以仅保留任一职级及以下的干部的履历数据。职级信息可以为行政级别。

将每个预设岗位的单位类别信息、技能领域信息、职级信息的组合作为岗位的类别，在对类别进行编码，确定岗位类别编码，对每个预设岗位构建岗位类别向量。

可选地，所述基础预测模型是基于以下方式训练得到的：

从履历数据库中获取多个样本履历数据；

根据所有预设岗位的岗位信息，确定所述每个预设岗位的岗位类别向量表示，以及每个预设岗位的岗位类别编码；

基于所述岗位类别编码，根据所有的样本履历数据，确定多个样本任职序列，以及每个样本任职序列对应的岗位标签；

将每个样本任职序列与所述每个样本任职序列对应的岗位标签的组合，作为一个基础训练样本，获取多个基础训练样本；

利用所述多个基础训练样本对初始基础模型进行训练，确定所述基础预测模型。

从履历数据库中获取多个样本履历数据，每个样本履历数据对应的干部作为样本个体。

根据所有的样本履历数据，建立编码映射表，对样本个体进行编码，获得每个样本个体对应的个体编码；编码映射表包括样本个体与样本履历数据的对应关系。

基于所述岗位类别编码，在每个样本个体的样本履历数据中，将样本个体的历史任职岗位对应的岗位类别编码，按照时间先后顺序依次排列，确定每个样本个体的完整的任职序列。

对于完整的任职序列s，s[k]是序列s[0:k)的预测目标。对完整的任职序列s进行截断，能够得到样本任职序列，以及每个样本任职序列对应的岗位标签；岗位标签为样本个体的完整的任职序列进行截断处的下一个岗位的岗位类别编码。

其中，一条长度为n的完整的任职序列可生成n-1条样本任职序列，可以将80%的基础训练样本用于训练，其余20%的基础训练样本用于测试。

可选地，所述基础预测模型是基于神经网络模型构建的；所述神经网络模型包括马尔科夫链和图神经网络；

所述基础预测模型是基于所述样本任职序列，以及所述样本任职序列对应的岗位标签训练后得到的；所述基础预测模型用于根据所述目标任职序列生成的目标评分矩阵；所述目标评分矩阵包括所述目标任职序列与各预设岗位的匹配概率。

在基础预测模型基于注意力的高阶马尔科夫链构建的情况下，基础预测模型将岗位向量投影到低阶潜在空间，计算干部历史任职岗位与目标岗位的隐向量内积，作为对应的每个岗位的权重系数，来捕获干部长期任职信息和目标岗位之间的匹配程度；使用高阶马尔可夫链捕获干部短期任职序列与目标岗位的匹配程度；以此来作为历史任职职位贡献权重的操作。使用最大后验概率估计和随机梯度下降法求解模型参数；结合干部长期任职信息、短期任职序列得到干部任职目标岗位的匹配概率。

具体地，一阶马尔科夫链可用于建模干部上一次出任的岗位i与推荐岗位j的序列关系，高阶马尔科夫链可以建模干部近期出任的多个岗位与推荐岗位j的序列关系。使用高阶马尔科夫链的方法自适应建模干部近期序列信息，具体包括：

首先，在给定任职序列

的条件下，岗位类别j成为干部u下一次任职的概率的计算公式如下：

；

其中，

为干部的个体编码；L为预设的马尔科夫链阶数；

为干部u在t时刻的任职岗位，高阶马尔科夫链主要学习干部u近期出任的L个岗位

对推荐岗位的影响；

为干部u在t-k时刻的任职隐向量；

为待推荐岗位j的岗位隐向量表示；

代表干部u在t时刻之前出任的第k个岗位。此时，未考虑不同时期的岗位对待推荐岗位的贡献程度差异。

进一步地，在基础预测模型中加入的注意力机制可以自适应学习相应的贡献权重，使得结果更加合理。具体为：在基础预测模型中加入了计算不同历史任职的岗位类别与目标岗位类别的相似度，赋予各个原岗位相应的权重系数，以此来作为历史任职职位贡献权重的操作。

注意力系数的计算是将多个历史任职岗位的隐向量分别和待推荐岗位的隐向量进行内积操作，来为原岗位赋予相应的注意力权重。具体计算公式如下所示：

；

其中，

为干部u在t-k时刻的任职隐向量；

为待推荐岗位j的岗位隐向量表示；

为干部u在t-k时刻的任职岗位与岗位j的注意力权重。

进一步地，将注意力权重

加入至高阶马尔科夫链中，可以得到最终的预测匹配概率，令t等于当前时刻，可得到干部u下一次出任岗位j的任职概率

：

；

其中，

为与岗位j相关的偏置项；

为干部u在t-k时刻的任职岗位与岗位j 的注意力权重；

为干部u在t-k时刻的任职隐向量；

为待推荐岗位j的岗位隐向量表示。

在基础预测模型基于SR-GNN构建的情况下，基础预测模型对干部的履历数据进行序列化建模，然后将任职序列转换为岗位升迁变化的有向图，最后应用图神经网络模型计算个体和岗位的表示向量进行推荐。首先，基于干部任职序列数据，构建岗位变迁有向图，并进行数据初始化；进一步地，将干部的任职序列输入SR-GNN图神经网络模型中，基于干部任职岗位变迁子图，训练输出干部的任职序列表示；进一步地，将干部的任职序列表示输入打分函数，计算所有候选岗位的匹配概率。

具体地，基于干部任职序列数据，构建岗位变迁有向图，并进行数据初始化。每个任职序列s由一个有向图

构成，然后用边（edge）的出现次数除以edge起点的出度，实现对edge的权重进行归一化。

进一步地，构建SR-GNN图神经网络模型，将干部的任职序列输入模型中，从图中学习岗位节点向量表示。本发明采用门控图神经网络（Gated Graph Neural Network，GGNN）来学习岗位变迁图中所有节点的统一表示，岗位j的向量表示记为

。

进一步地，产生任职序列表示。在获得岗位的向量表示之后，生成干部任职序列的向量表示。干部任职序列的向量表示由该序列中涉及的岗位的向量表示直接表示。将干部当前任职的岗位表示向量作为初始化向量表示（local embedding），以强调当前任职的岗位的影响：

；

其中，

是任职序列s的初始化向量表示，

等于序列s中最后一个岗位的向量表示

。

进一步地，通过软注意力网络（soft-attention network）获得全局向量表示（global embedding），来表示全局偏好。使用参数

控制权重：

；

；

其中，

是第i个岗位的注意力权重；

均为权重参数；

为第i个岗位的向量表示；

为任职序列s的全局向量表示；

为偏移量。

进一步地，通过线性变换将

和

两个向量组合起来以获得干部任职序列的混合向量表示(hybrid embedding)：

；

其中，

为任职序列s的混合向量表示；

是任职序列s的初始化向量表示；

为任职序列s的全局向量表示；

为权重参数。

进一步地，将干部的任职序列表示输入打分函数，计算所有候选岗位的匹配概率，选择匹配概率最高的top-X个岗位进行个性化推荐。匹配概率计算步骤为：首先通过将岗位的向量表示与干部任职序列的表示相乘来计算每个候选岗位的得分。然后，使用softmax函数来获得模型的输出向量：

；

其中，

为任职序列s的向量表示；

为预设岗位i的岗位类别向量表示；

为SR-GNN模型预测的干部u下一次出任岗位j的任职概率；softmax是归一化指数函数。

对于每个会话图，损失函数被定义为预测值与实际值的交叉熵：

；

其中，m表示岗位个数；

表示对第i个岗位的预测值；

表示第i个岗位的实际值。

在数据集上进行算法训练和参数调优，分别保存训练效果最佳的多阶马尔科夫模型和SR-GNN模型，以及保存当前模型对应的对各个干部各个任职序列的相应预测岗位的评分构成的评分矩阵。

由于高阶马尔科夫链不如图神经网络考虑的条件信息多，图神经网络无法像马尔科夫这样调节阶数，本发明提供的的基于模型融合的岗位推荐方法，能够兼顾高阶马尔科夫链和图神经网络的优点，精准率、召回率和归一化折损累计增益（NormalizedDiscounted Cumulative Gain，NDCG）等模型指标上看，都比使用单一模型的预测结果有显著的提高。

可选地，所述岗位匹配模型是基于以下方式训练得到的：

将所有的基础训练样本输入至所述至少一个基础预测模型，获取由各基础预测模型生成的样本评分矩阵；所述样本评分矩阵包括所有的样本任职序列与每个预设岗位的匹配概率；

将各样本评分矩阵和所述样本特征表进行拼接融合，获取样本融合特征；

利用所述样本融合特征对初始匹配模型进行训练，确定所述岗位匹配模型。

在对干部

进行岗位推荐的情况下，干部

的任职序列

期望推荐的岗位数量X，

将

输入Base-learner中的结合注意力机制的高阶马尔科夫模型，计算第一目标评分矩阵

，

；

为结合注意力机制的高阶马尔科夫模型预测的干部

在下一次任职岗位m的概率。

并将

输入Base-learner中的SR-GNN模型，计算第二目标评分矩阵

，

；其中，

为SR-GNN模型预测的干部

在下一次任职岗位m的概率。

经过特征工程可得到干部

的特征表

。

将

进行拼接融合，将拼接融合后的融合特征输入Meta- learner的XG-Boost中，使用soft-max函数得到干部下一次任职岗位v的概率值

。

进一步地，最后按

的分值大小进行排序，输出匹配程度最高的top-X岗位

推荐给干部

。

本发明通过堆叠（Stacking）方法通过训练一个模型用于组合其他各个模型，实现对岗位的推荐，Stacking方法有两层学习器，Level 0的Base-learner的输出是Level 1的Meta-learner或者泛化器（Generalizer）的输入。首先训练多个不同的模型，然后把之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出。

图2是本发明提供的模型融合方法的流程示意图，如图2所示，干部u相当于推荐系统中的用户，岗位i相当于推荐系统中的物品，干部的履历信息相当于推荐系统中用户与物品交互信息；模型融合方法具体包括：

首先，根据目标个体的目标岗位信息、目标个体信息和目标履历数据，确定目标个体的目标任职序列。

进一步地，将目标任职序列分别输入至作为基学习器的马尔科夫链算法和图神经网络算法，获取目标任职序列与每个预设岗位的匹配概率组成的评分矩阵；并基于特征工程对目标个体的目标岗位信息、目标个体信息和目标履历数据进行特征提取，获取目标特征表，目标特征表包括目标个体特征和目标个体历史任职岗位的目标职位特征。

进一步地，将匹配概率的评分矩阵，以及目标特征表进行拼接融合，将拼接融合得到的目标融合特征输入至作为元学习器的XG-Boost模型，获取由XG-Boost模型输出的推荐结果。

在XG-Boost模型上选择多种特征，其中包括能直接从原始数据集中获取的特征，如干部的性别、民族等，以及需要通过额外数据分析和数据挖掘才能获取的特征，如使用数值计算得到的干部的年龄、干部的工龄、岗位升迁的间隔时间等，以及通过关键词匹配得到的岗位所属专业领域等。将这些特征作为本模型融合算法的特征输入，模型结果如下。

表2是本发明提供的基于模型融合的岗位推荐方法（Our method）与其他模型的效果对比，将召回率（recall）和NDCG作为模型效果的评价指标。recall是推荐系统在召回阶段常用的评价指标，衡量的是推荐系统的查全率，取值范围为[0,1]，recall数值越大代表推荐模型的效果越好。NDCG是一种考虑了推荐结果返回顺序的评价指标，取值范围为[0,1]，NDCG数值越大代表推荐模型的效果越好。

表2 本发明提供的基于模型融合的岗位推荐方法与其他模型的效果对比

在Recall和NDCG评价指标下，本发明提供的基于模型融合的岗位推荐方法优于其他参照（baseline）模型，多阶马尔科夫的表现优于一阶马尔科夫，不同阶数的马尔科夫链中，6阶的马尔科夫链对应的NDCG指标的效果相对较好，模型保存结果对应的阶数为6阶；在序列化推荐的过程中，干部的近期任职岗位和远期任职岗位与推荐目标岗位都存在一定的关系，但是干部的在不同时期的任职岗位对推荐目标职位的影响不同，所以应当考虑到干部历史任职序列中各个岗位在建模时的不同贡献程度，注意力机制可以自适应的学习岗位权重，从而提升模型的效果。对比Our method与其他baseline，Our method通过结合多个各有所长的Base-learner和序列模型缺少的特征输入，实现了更好的预测结果。

图3是本发明提供的基于模型融合的岗位推荐装置的结构示意图，如图3所示，包括：

获取模块301，用于将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；

融合模块302，用于将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；

推荐模块303，用于将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

首先，获取模块301将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵。

目标个体可以是干部。

预设岗位可以包括目标个体所任职过的所有岗位。

进一步地，融合模块302将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征。

目标个体特征和目标职位特征可以通过对目标个体的目标岗位信息、目标个体信息和目标履历数据进行特征工程处理得到的，特征包括特征选择、特征提取、特征构建。个体信息可以包括年龄、性别和教育经历等。

进一步地，推荐模块303将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

本发明提供的基于模型融合的岗位推荐装置，通过把特征表与两个基础预测模型生成的中间数据做融合，再将特征表输入至岗位匹配模型中，实现对目标个体下一次在每个预设岗位任职的概率进行预测，在召回率和归一化折损累计增益更高，使得预测的岗位更加准确，与人员的符合度更高。

需要说明的是，本发明实施例提供的基于模型融合的岗位推荐装置，在具体执行时，可以基于上述任一实施例所述的基于模型融合的岗位推荐方法来实现，对此本实施例不作赘述。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communications Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于模型融合的岗位推荐方法，该方法包括：将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于模型融合的岗位推荐方法，该方法包括：将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于模型融合的岗位推荐方法，该方法包括：将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；将所有的目标评分矩阵和所述目标个体的目标特征表进行拼接融合，确定目标融合特征；将所述目标融合特征输入至岗位匹配模型，确定由所述岗位匹配模型输出的至少一个推荐岗位；所述岗位匹配模型是基于样本任职序列的样本融合特征，以及所述样本任职序列对应的岗位标签训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于模型融合的岗位推荐方法，其特征在于，包括：

将目标个体的目标任职序列输入至少一个基础预测模型，获取由各基础预测模型生成的目标评分矩阵；

2.根据权利要求1所述的基于模型融合的岗位推荐方法，其特征在于，所述基础预测模型是基于神经网络模型构建的；所述神经网络模型包括马尔科夫链和图神经网络；

3.根据权利要求1所述的基于模型融合的岗位推荐方法，其特征在于，所述基础预测模型是基于以下方式训练得到的：

从履历数据库中获取多个样本履历数据；

根据所有预设岗位的岗位信息，确定每个预设岗位的岗位类别向量表示，以及所述每个预设岗位的岗位类别编码；

4.根据权利要求3所述的基于模型融合的岗位推荐方法，其特征在于，所述岗位匹配模型是基于以下方式训练得到的：

5.根据权利要求3所述的基于模型融合的岗位推荐方法，其特征在于，所述根据所有预设岗位的岗位信息，确定所述每个预设岗位的岗位类别向量表示，包括：

6.根据权利要求4所述的基于模型融合的岗位推荐方法，其特征在于，所述目标特征表是基于以下方法获取的：

7.根据权利要求6所述的基于模型融合的岗位推荐方法，其特征在于，所述目标任职序列是基于以下方法确定的：

获取所述目标履历数据；

8.一种基于模型融合的岗位推荐装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于模型融合的岗位推荐方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于模型融合的岗位推荐方法。