CN110704692A

CN110704692A - 基于图嵌入的员工离职行为预测方法及装置

Info

Publication number: CN110704692A
Application number: CN201910864727.7A
Authority: CN
Inventors: 尚家兴; 蔡昕均; 刘飞逸; 江林丽; 朱倩雯; 李旭
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-17

Abstract

本发明公开了一种结合动态图嵌入方法的员工离职行为预测方法，包括将员工的历史工作信息表示为员工节点与公司节点之间相连的二部图；通过有偏随机游走的方式，随机或有序选择相邻顶点来构造序列；对所述序列进行处理，以学习二部图的低维向量表示；对员工的基本属性与所述低维向量选择机器学习方法进行训练；利用训练的结果进行员工离职预测。本发明可以获得的特征能够更好地解决员工离职预测问题，同时比没有时间信息的其他图嵌入方法更有效。

Description

基于图嵌入的员工离职行为预测方法及装置

技术领域

本发明涉及一种结合动态图嵌入方法预测员工离职行为的方法，属于机器学习、数据挖掘领域。

背景技术

员工离职预测一直是人们普遍关注的问题，员工的离职意愿将影响公司的正常发展。离职可大致分为主动离职和被动离职两类，其中被动离职如解雇等一般是由人力资源部门决定的，所以一般预测员工的主动离职行为。用于员工离职预测的数据一般分为两类，一类是公司内部的员工的信息，包括入职时间、离职时间、工作时间、职位变动信息等，主要记录的是员工从入职到离职的这段信息，由人力资源部门进行记录；另一类数据是员工个人在职业社交网络上填写的工作经历等信息，例如国内的脉脉，国外的LinkedIn等网站，记录的大多是员工个人的基本信息和历史的工作记录。员工离职预测可以被看作二分类问题，主要是根据员工的特征进行训练，预测接下来一段时间是否会发生离职行为，也有部分研究的是员工的职业生涯轨迹等，主要是预测员工在某公司的职位变动等。从研究手段来看，目前的研究可大致分为四类，第一类是用传统的机器学习算法对员工的信息进行训练预测；第二类是基于生存分析的算法，预测的是员工在某一时间点的离职情况；第三类是基于半马尔科夫链算法；第四类是结合员工社交网络的特征。不同类别的研究使用的数据集类别也不同。现有的研究主要专注在员工的基本属性如性别、年龄等对离职的影响，大多数对员工社交网络的研究也局限于网络的中心性等基本网络结构信息，很少有研究将员工的历史工作记录用二部图表示，并且用动态的图嵌入方法解决员工离职问题。

发明内容

鉴于以上所述现有技术的缺点，本发明提供一种结合动态图嵌入方法的员工离职行为预测方法及装置。

为实现上述目的及其他相关目的，本发明提供一种结合动态图嵌入方法的员工离职行为预测方法，该方法包括：

将员工的历史工作信息表示为员工节点与公司节点之间相连的二部图；

通过有偏随机游走的方式，随机或有序选择相邻顶点来构造序列；

对所述序列进行处理，以学习二部图的低维向量表示；

对员工的基本属性与所述低维向量选择机器学习方法进行训练；

利用训练的结果进行员工离职预测。

可选地，所述序列遵循时间顺序。

可选地，使用语言模型Skip-gram模型对序列进行处理，以学习二部图的低维向量表示。

可选地，所述员工的基本属性包括人口统计特征、工作信息特征、工作经验特征和经济特征。

为实现上述目的及其他相关目的，本发明还提供一种结合动态图嵌入方法的员工离职行为预测装置，该装置包括：

二部图建立模块，用于将员工的历史工作信息表示为员工节点与公司节点之间相连的二部图；

序列构造模块，用于通过有偏随机游走的方式，随机或有序选择相邻顶点来构造序列；

序列处理模块，用于对所述序列进行处理，以学习二部图的低维向量表示；

训练模块，用于对员工的基本属性与所述低维向量选择机器学习方法进行训练；

预测模块，用于利用训练的结果进行员工离职预测。

可选地，所述序列遵循时间顺序。

如上所述，本发明的一种结合动态图嵌入方法的员工离职行为预测方法及装置，具有以下有益效果：

本发明提出了一种有效的获得动态二部图嵌入的方法称为DBGE(DynamicBipartite Graph Embedding)，以解决员工离职预测问题。首先使用时序随机游走获取带有时间顺序的顶点序列，然后采用skip-gram模型获得每个顶点的低维表示，最后结合员工的其他基本信息并应用机器学习方法进行预测。实际数据的实验结果表明，采用DBGE方法获得的特征能够更好地解决员工离职预测问题，同时比没有时间信息的其他图嵌入方法更有效。

附图说明

图1为公司节点的度分布；

图2为工作时长分布；

图3为普通动态图；

图4为动态二部图；

图5为RF特征重要性排名；

图6为本发明一种结合动态图嵌入方法的员工离职行为预测方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图6所示，本发明提供一种结合动态图嵌入方法的员工离职行为预测方法，该方法包括：

步骤S1将员工的历史工作信息表示为员工节点与公司节点之间相连的二部图；

步骤S2通过有偏随机游走的方式，随机或有序选择相邻顶点来构造序列；

步骤S3对所述序列进行处理，以学习二部图的低维向量表示；

步骤S4对员工的基本属性与所述低维向量选择机器学习方法进行训练；

步骤S5利用训练的结果进行员工离职预测。

以下对上述步骤进行详细说明。

数据集通过爬虫爬取自中国某在线职业社交网站。选择的特征分为四类(表1)：人口统计特征(性别，教育程度等)，工作信息特征(行业类型，职位级别，离职次数等)，工作经验特征(入职日期，离职日期，工作时间长度等)和经济特征(GDP)。

表1员工基本特征

类型	特征名称
		人口统计特征	gender
工作信息特征	cmp_scale
		工作经验特征	start_year
工作经验特征	end_year
		工作经验特征	timelength
经济特征	GDP
		工作信息特征	industry_type
工作信息特征	position_level
		工作信息特征	has_turnover_num
工作信息特征	has_timelength
		人口统计特征	max_degree
人口统计特征	max_sch_type
		标签	isexit

数据清洗后，有279,691条历史工作记录和12个特征。在构建的二部图中，有157,785 个员工顶点，126,753个公司顶点和279,691条边。如图1所示，大多数公司顶点的度较小，少数公司顶点的度较大。图2描述了历史工作记录中工作时间的长度，大部分是工作时间长度集中在30个月内，这与一段工作在大约2.5年内发生变化的事实是相符的。随机选择80％的数据集作为训练数据集，剩余的20％作为测试数据集。

为了证明本发明提出的带有时间信息的图嵌入方法是有效的，从公开的亚马逊交易数据集中选择了部分数据。该数据集包含来自不同客户对不同商品的278,677条产品评论，包括客户 ID，产品ID和评论时间等信息。首先随机选择70％的数据集来训练顶点的嵌入向量，剩余的 30％用作测试集。为了进行链接预测任务，随机生成了相同数量的未连接的顶点对作为负样本。

二部图是一种特殊的数据结构，其节点可以划分为两类实体，并且只有两类实体中的顶点相互之间存在连边，同类实体中的顶点之间不存在连边。

定义1(动态二部图)给定二部图G＝(X,Y,E,T),X,Y∈V，其中X和Y分别代表两种类型顶点的集合，V是图中所有顶点的集合，E∈X×Y为边，T是边E上的时间戳。对于某一顶点x∈X而言，它的每个连边e_x＝(x,y,t)具有唯一的时间t。

在图中，每条边表示两个顶点之间的一些相互作用或关系。在动态图中，与静态图不同的是每条边带有两个顶点之间的发生关系的时间。如图4所示。x_i和y_j分别表示X和Y中第i 和第j个顶点，其中i＝1,2,...,|X|，j＝1,2,...,|Y|。每条边的时间戳τ∈T代表每个关系发生的时间,τ(x₁,y₂)＜τ(x₁,y₃)表示发生关系(x₁,y₂)的时间早于关系(x₁,y₃)。

虽然在普通的动态网络中，每个连接之间也存在时间顺序，如图3所示，但与动态二分图不同的是，它的顶点是同质的，并且随着时间的推移每两个顶点之间都可能存在连接。然而，动态二分图的连接只能在两个不同类型的顶点之间发生。

实际上，大多数二分图络可以表示为单向网络结构，例如问答系统中的回答者回答提问者，客户在电子商务网站上购买产品等。因此，在研究中主要关注单向二部图。

有偏随机游走通过随机或有序选择相邻顶点来构造序列，通过定义选择相邻顶点的规则，产生遵循时间顺序的序列。

定义2(时序随机游走)时序随机游走(Horary Random Walks)是一种有偏的遵循时间顺序的游走。假设二部图中的方向是从X顶点到Y顶点。图G中一个从x出发的时序随机游走可以获得节点序列<x₁,y₁,x₂,…x_k,y_k>，其中1≤i≤k，表示序列中的第i个x或y顶点，并且τ(x_i,y_i)≤τ(x_i,y_i+1)。与节点x的连边时间晚于t的邻接点定义为Γ_t(x)＝{U|u∈N(x)∧τ(x,u)≥t_x}，其中N(x)为x的所有邻接点。如图4所示，如果选择x₁作为起始节点，可以得到序列如

这包括从顶点x₁到Y按时间顺序的连续交互过程。本研究没有为游走设置统一的长度，但如果根据时间顺序没有可选的邻接点时，则游走将停止，并且设置最大游走长度l以防止过长的序列。

由于上面提到的二分图的单向性，当从Y节点向X节点游走时，则不考虑边的时间顺序，采用完全随机游走的方式，通过这种方式增加游走的随机性，可以有效避免游走落入循环。此外，这种方式还能获得节点的高阶表示，例如图4中节点x₁的随机游走序列S_x1中可包含连接到y₃的节点x₂。

使用语言模型Skip-gram模型来处理通过时序随机游走(Horary Random Walks)获得的序列，以学习二部图的低维向量表示。可以通过最大化对数概率得到顶点的嵌入：

其中是顶点嵌入方程。对于输入的顶点，skip-gram模型假设经常在序列的相同上下文中共同出现的顶点应该在相应的低维向量空间中具有更高的相关度。本发明提出的动态二部图嵌入(DBGE)算法的总体思路如下：首先，输入一个有向(无向)的连通(非连通) 的动态二部图及相应的参数(skip-gram模型的窗口大小w，输出的低维向量的维数d，每个节点作为初始节点游走的次数r，最大的游走长度l)，然后，对每个节点迭代运行时序随机游走(算法2)，获得了每个节点的序列集合，最后将这些序列作为skip-gram模型的输入，最终获得了二部图顶点的低维表示，它保留了时间顺序，可以用作基于图的各种任务的特征，例如分类，聚类，链接预测，可视化等，并为机器学习和统计模型提供特征。

时序随机游走过程为：

首先初始化每个x节点的时间t_x，其记录了上次游走时所选择的时间，用于下次游走选择邻节点时进行比较。如果当前节点属于X节点，则接下来选择邻接点时，先将所有与当前节点相邻的边的时间，与上次此节点游走时所选边的时间t_x进行比较，筛选出连边时间大于t_x的邻接点，如果存在符合条件的邻接点，则选择连边时间最小的邻接点加入序列，并更新此节点的时间t_x，否则终止游走过程。如果当前节点属于Y节点，则直接进行完全随机游走过程，随机选择此节点的邻接点加入序列。如果序列长度超过最大长度l，则停止循环并返回序列，否则循环上述游走过程。

步骤S4对员工的基本属性与所述低维向量选择机器学习方法进行训练。

定义3(离职预测问题)给定员工p及性别、年龄、历史工作经验等基本信息和利用动态二部图嵌入获得的特征，指定的时间点t，离职预测问题旨在利用经典机器学习模型预测p是否将在时间点t之前离职。因此，离职预测问题是一个二分类问题。

在本实施例中，经典机器学习模型可以采用随机森林、XGB、Logistic回归、朴素贝叶斯。

为了更好地表示职业社交网络中员工的状态，构建了一个二部图G(X,Y,E,T)来表示员工的历史工作记录，两个不同的实体顶点X和Y分别表示为员工顶点和公司顶点，它们的边表示员工在公司工作过或正在工作，τ(x,y)是指员工x进入公司y的时间点。

使用时序随机游走在员工和公司之间按时间顺序获取历史工作记录，然后使用skip-gram 模型来学习员工和公司的低维特征。

为了与其他图嵌入方法进行公平比较，设置相同的参数以获得低维向量特征。在实验中，使用超参数(D＝128，l＝15，w＝5，r＝80)，其中D表示所要嵌入的空间即低维向量的维数，l表示进行时序随机游走(Horary Random Walks)时的最大序列长度，w表示运行skip-gram 模型的窗口大小，r表示对每个节点作为初始节点执行随机游走(HoraryRandom Walks)所循环的次数，学习了员工和公司两类顶点的低维向量。

经过DBGE算法处理之后，得到每个顶点的128维向量表示。对于员工离职预测问题，为了与员工的基本特征相结合，使用PCA来降低所获得的128维特征的维数。

为了证明本发明提出的算法DBGE是有效的，进行了两个对比实验。首先，进行了离职预测的实验，用以表明使用动态二部图嵌入获得的特征可以用作员工离职预测问题，并且这些特征对员工离职预测有很大的帮助。然后，将本发明提出的方法与经典图嵌入算法进行比较，以说明本发明算法的有效性。在这里选择DeepWalk，node2vec方法，它也使用随机游走和 skip-gram模型，以及另一种基于深度学习的方法SDNE。使用的比较算法如下：

随机森林(RF)：这种方法是集成学习中的经典bagging方法。它通过简单的有放回随机抽样来构建多个决策树，最后输出具有最高票数的类别。

XGBoost(XGB)：这种方法属于集成学习中的boosting方法。它通过迭代生成的新CART 树来拟合最后预测任务的残差，并引入正则化以防止过拟合。

Logistic回归(LR)：这种方法是一种常用的线性分类模型。它使用梯度下降法迭代地找到最小化损失函数的线性模型的最优参数，然后通过sigmoid函数输出分类的概率值。最后，通过与阈值的比较获得分类结果。

朴素贝叶斯(NB)：该方法使用贝叶斯公式通过先验概率计算其后验概率，即对象属于某一类的概率，并选择具有最大后验概率的类作为类别。

DeepWalk：这是一种经典的图嵌入方法，它使用随机游走随机选择网络顶点并生成一个固定长度的随机游走序列，与自然语言中的句子进行比较(顶点序列类似于句子，顶点类似句子中的单词)。它应用skip-gram模型来学习顶点的向量表示。

node2vec：与Deepwalk随机选择下一个顶点的方式相比，node2vec通过DFS和BFS搜索模式执行有偏的随机游走，保留了局部网络结构和全局网络结构。

SDNE：该方法使用深度自动编码器保留一阶和二阶邻相似性，利用无监督学习捕获全局网络结构，并使用监督学习保留局部网络结构，最后在半监督深度模型中进行联合优化。

为了公平比较，为所有比较方法设置相同的参数。在第一次比较实验中，使用的数据集是从中国某在线职业社交平台爬取的用户数据，而在第二次比较实验中，选择了公共开的亚马逊交易数据集。

首先，使用经典的机器学习算法对员工的基本特征进行了实验。然后，将员工的基本特征与DBGE获得的特征结合起来，并使用机器学习算法进行预测。使用的DBGE特征是经过PCA 算法降维的，RF₃表示采用随机森林作为预测模型，并加入3维的DBGE特征进行预测。

通过比较仅使用员工的基本信息和使用DBGE特征的评估指标来比较预测效果，来说明使用图嵌入方法可以更有效地解决员工离职预测问题。表2展示了仅使用员工基本特征的预测评估指标，表3表示组合了DBGE特征后的预测评估指标。

表2仅使用员工基本信息的评估指标

Method	Acc	Pre	Recall	F1	AUC
						RF	0.862511	0.870006	0.79256	0.829479	0.853063
XGB	0.852053	0.888709	0.74231	0.808939	0.837231
						LR	0.816622	0.84247	0.695407	0.761907	0.80025
NB	0.843705	0.868472	0.741929	0.800228	0.829959

表3结合DBGE特征的评估指标

Method	Acc	Pre	Recall	F1	AUC
						RF<sub>4</sub>	0.885965	0.915513	0.803915	0.856092	0.874883
XGB<sub>4</sub>	0.857362	0.892834	0.752224	0.81652	0.843162
						LR<sub>4</sub>	0.818785	0.842743	0.701381	0.765591	0.802928
NB<sub>4</sub>	0.844813	0.872783	0.740064	0.800963	0.830666

通过比较表2和表3的结果，可以看到除了NB方法之外，通过与4维DBGE特征相结合，其他算法的预测效果整体上得到了显著的改善，其中结合DBGE特征后的RF算法得到了最大的改进，并在所有评估指标中实现了最优。

为了评估每个特征的重要性并说明各个特征对分类预测任务的贡献程度，输出了与4维 DBGE特征相结合的RF特征重要性排名，如图5所示。可以看到，对于RF算法，max_sch_type 特征对员工流动预测任务的贡献最大，其次是性别特征，这与现实中一个人的最高学历和性别与离职的具有一定相关性是一致的。由此还可以看到DBGE的bg_cmp_vec4和bg_cmp_vec3 特征排名第3和第4，表明DBGE的特征为此任务做出了重要贡献。

为了证明本发明提出的基于时间顺序的DBGE算法是有效的，本发明用经典图嵌入算法进行了链接预测实验，这些算法不考虑时间顺序。

在链接预测任务中，分别由DBGE和其他方法训练的每个顶点的低维向量被视为逻辑回归分类器的特征，使用AUC指标来评估性能。表4说明了基准和DBGE的实验结果。

表4链接预测的AUC得分

Algorithm	Scores
		DBGE	0.6142
Node2Vec	0.6130
		DeepWalk	0.6043
SDNE	0.5980

从表4中可以看出，DBGE给出的特征具有最佳性能，这证明了本发明提出的按时间顺序图嵌入算法DBGE的有效性。

本发明还提供一种结合动态图嵌入方法的员工离职行为预测装置，该装置包括：

预测模块，用于利用训练的结果进行员工离职预测。

于一实施例中，所述序列遵循时间顺序。

于一实施例中，使用语言模型Skip-gram模型对序列进行处理，以学习二部图的低维向量表示。

于一实施例中，根据权利要求7所述的结合动态图嵌入方法的员工离职行为预测装置，其特征在于，所述员工的基本属性包括人口统计特征、工作信息特征、工作经验特征和经济特征。

由于装置实施部分与方法实施部分相对应，因此这里对装置实施部分不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种结合动态图嵌入方法的员工离职行为预测方法，其特征在于，该方法包括：

对所述序列进行处理，以学习二部图的低维向量表示；

利用训练的结果进行员工离职预测。

2.根据权利要求1所述的结合动态图嵌入方法的员工离职行为预测方法，其特征在于，所述序列遵循时间顺序。

3.根据权利要求2所述的结合动态图嵌入方法的员工离职行为预测方法，其特征在于，使用语言模型Skip-gram模型对序列进行处理，以学习二部图的低维向量表示。

4.根据权利要求3所述的结合动态图嵌入方法的员工离职行为预测方法，其特征在于，所述员工的基本属性包括人口统计特征、工作信息特征、工作经验特征和经济特征。

5.一种结合动态图嵌入方法的员工离职行为预测装置，其特征在于，该装置包括：

预测模块，用于利用训练的结果进行员工离职预测。

6.根据权利要求5所述的结合动态图嵌入方法的员工离职行为预测装置，其特征在于，所述序列遵循时间顺序。

7.根据权利要求6所述的结合动态图嵌入方法的员工离职行为预测装置，其特征在于，使用语言模型Skip-gram模型对序列进行处理，以学习二部图的低维向量表示。

8.根据权利要求7所述的结合动态图嵌入方法的员工离职行为预测装置，其特征在于，所述员工的基本属性包括人口统计特征、工作信息特征、工作经验特征和经济特征。