CN110163418A - 一种基于生存分析的员工离职行为预测方法 - Google Patents

一种基于生存分析的员工离职行为预测方法 Download PDF

Info

Publication number
CN110163418A
CN110163418A CN201910346268.3A CN201910346268A CN110163418A CN 110163418 A CN110163418 A CN 110163418A CN 201910346268 A CN201910346268 A CN 201910346268A CN 110163418 A CN110163418 A CN 110163418A
Authority
CN
China
Prior art keywords
feature
employee
survival analysis
node
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910346268.3A
Other languages
English (en)
Inventor
尚家兴
朱倩雯
蔡昕均
江林丽
刘飞逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201910346268.3A priority Critical patent/CN110163418A/zh
Publication of CN110163418A publication Critical patent/CN110163418A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生存分析的员工离职行为预测方法,方法包括以下步骤:步骤1:进行待预测员工的离职行为特征提取;步骤2:采用预测算法进行预测,得出重要特征;步骤3:对重要特征进行分析,得出结论。本发明提出的基于生存分析的离职预测方法,将生存分析的概率统计技术与随机森林的集成学习进行融合,既利用了事件和时间统计得出的生存率,又将问题归结为传统的有监督二分类问题,使得可以与大量成熟的机器学习算法进行比较,最终分类效果比已有的离职预测算法表现更佳。

Description

一种基于生存分析的员工离职行为预测方法
技术领域
本发明涉及人工智能和数据挖掘领域。特别涉及一种基于生存分析的员工离职行为预测方法。
背景技术
在人力资源管理中,员工离职预测对于公司的运营非常重要,因为关键员工的离职会给公司带来巨大的损失。离职可分为主动离职和被动离职,其中被动离职包括公司裁员等行为,这是难以预测的,所以需要着重预测员工的主动离职行为。已有研究使用的数据集可分为两类,一些研究使用的是企业内部人力资源部门提供的员工数据,公开的有IBMWatson Analytics的仿真员工数据集,特点是员工在该企业内部的工作内容信息丰富、时间维度短;还有研究使用线上职场社交平台的数据,典型的平台有LinkedIn、Xing和Viadeo,特点是社交信息丰富、时间维度长。从问题预测目标来看,大部分是有监督的二分类问题,即是否离职;也有少部分是关注离职时间,即什么时候离职。从解决算法来看,研究可分为4类。第一类是对各种常见机器学习算法进行实验对比,然后评价出哪种方法性能更高,一般来说决策树、随机森林和XGBoost的效果相对较好。此外,还会针对不同规模或者不同特征的数据集得出不同的最佳算法。还有按照行业分类再预测,不同行业的员工数据训练出的机器学习模型不同。第二类是基于生存分析的算法,预测的是员工的离职情况,即在某一时间点的离职概率。第三类是半马尔科夫算法。第四类是结合社交网络特征的算法。这四类算法是针对不同内容的数据集(如是公司内部数据还是职场社交平台数据)和不同的预测目标(如是预测是否离职还是预测离职概率)进行的,所以不同类别算法的性能难以进行统一比较。
生存分析是将终点事件和出现终点事件所经历的时间结合起来分析的一类统计分析方法,包括社会学中的事件史分析、工程领域的失效分析以及更广泛意义上的生物统计领域的生存分析。生存数据具有以下特点:①需要同时考虑结局和生存时间;②生存数据中包含有甚至是大量存在截尾数据;③生存时间的具体分布难以探知。
总之,现有的方法大多集中在以员工为中心的离职预测上,即根据这个人的基本信息和以往工作经历情况,预测当前工作是否会选择离职。但结合实际想来,这种问题定义可能是带有“偏见”的。员工在以往的工作中出现离职,不代表今后的所有工作离职可能性就一定大,这应该与具体工作内容有关。而且在不同时间,离职概率应该也会不同。另外,已有的少数用生存分析进行以工作为中心的离职预测方法。预测目标是每个人在某个时间点的生存率,时间点的范围取决于数据集中最长的“时间—事件”,时间点的粒度取决于“时间-事件”的时间单位。生存分析是传统的统计模型。此外,Cox模型具有较强的假设,而且是线性模型,所以当不符合假设却使用模型时,效果并不好。而且评价生存分析模型效果一般用的是一致性指标C-index,与AUC含义类似,但计算不同,所以不能和机器学习算法使用同一套评价指标,也就难以一起评价效果。这些都是已有的生存分析的离职预测方法存在的局限性。
可以看到,目前已有的各种员工离职预测的方法都存在着各自的缺点和不足。当拥有各段工作经历的数据时,以员工为中心的预测方法就不能突出同一员工在每段工作中的不同表现。当仅使用生存分析来进行以事件为中心的预测方法时,因为不能与成熟的机器学习方法进行性能比较,结果的说服力低。
因此,有必要提出一种基于生存分析的离职预测方法,以克服已有的以员工为中心的离职预测方法的不足。
发明内容
有鉴于此,本发明的目的是提供一种基于生存分析的员工离职行为预测方法,以克服已有的以员工为中心的离职预测方法的不足。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明提供了一种基于生存分析的员工离职行为预测方法,包括以下步骤:
步骤1:进行待预测员工的离职行为特征提取;
步骤2:采用预测算法进行预测,得出重要特征;
步骤3:对重要特征进行分析,得出结论。
进一步,所述步骤1中,行为特征分为四类,分别为:(1)员工个人因素;(2)组织因素;(3)外部环境因素;(4)结构因素,所述结构因素指员工社交网络关系。
进一步,所述四类行为特征中,员工个人因素包括但不限于:max_degree-最高学历;max_sch_type-最高学历对应学校的级别;gender-性别;
所述组织因素包括但不限于:start_year-开始年份;end_year-结束年份;industry_type-行业类别;position_level-职位级别;has_turnover_num-已经离职次数;has_timelength-已经工作时间;timelength-工作时间;
所述外部环境因素包括但不限于:GDP-国内GDP年增长率;
所述结构因素包括但不限于:interactions-互动数;dongtai-动态数;guandian-观点数;zhuanlan-专栏数;dianping-点评数;likes-被点赞次数;views-被访问次数;recent_feeds-最近收到的feed数;influence-影响力;inf_defeat-影响力超过百分之多少的其他人;info_ratio-资料完善度;imp_tag_num-印象标签数;pro_tag_num-职业标签数。
进一步,所述步骤2中,采用CoxRF算法进行预测。
进一步,所述步骤3中,先使用随机森林方法对特征重要性进行评估,得出各个特征的重要性得分,VIM是特征的重要性得分,随机森林中总共用到了c个特征,其中每棵决策树上用到了m(m≤c)个特征,设有m个特征X1,...,Xc,要计算的就是特征Xj的基尼指数得分VIMj (Gini),那么首先计算节点m的基尼指数:
其中,K表示K个类别,pmk表示节点m中类别k所占比例,然后计算特征Xj在节点m的重要性得分,即节点m分枝前后的基尼指数变化量:
其中,GIl和GIr表示分枝后两个新节点的基尼指数,设集合M是特征Xj在决策树i中作为节点分割属性出现的节点集合,则特征Xj在第i棵树的重要性得分为:
设随机森林中共有n棵决策树,计算特征Xj在这n棵决策树中的总得分:
最后,进行归一化处理:
进一步,所述步骤3中,针对得分高的特征,再用Kaplan-Meier方法来分析这几个得分高的特征对离职究竟有什么影响,得出结论。
第二方面,本发明提供一种基于聚类算法的员工离职风险预测装置,包括:
获取模块:用于获取待预测员工的离职行为特征;
计算分析模块,利用预测算法对所述待测员工进行预测,获得重要特征;
预测模块,对重要特征进行分析,得出结论。
第三方面,本发明提供了一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面所述的方法。
第四方面,本发明提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面所述的方法。
本发明的有益效果是:
本发明提出的基于生存分析的离职预测方法,将生存分析的概率统计技术与随机森林的集成学习进行融合,既利用了事件和时间统计得出的生存率,又将问题归结为传统的有监督二分类问题,使得可以与大量成熟的机器学习算法进行比较,最终分类效果比已有的离职预测算法表现更佳。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为Kaplan-Meier法得到的近似生存函数曲线;
图2为事件-人、年-事件的概念示意图;
图3为特征重要性得分排名图;
图4为性别分组的生存曲线;
图5为行业分组的生存曲线;
图6为学校等级分组的生存曲线。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
在目前的研究中,关注员工是否离职这一问题,容易想到的问题形式是根据这个人的以往工作经历情况,预测当前工作是否会选择离职。但结合实际来看,这种问题定义可能是带有“偏见”的。员工在以往的工作中出现离职,不代表今后的工作离职可能性就一定大,这与具体工作内容应该也有关。而且在不同时间,离职概率应该也会不同。那么具体的某个人、具体的当前工作、具体的预测时间,三者综合起来,才是我们应该确定的问题。时间就是根据生存函数选定的时间,然后提取员工的非时变信息和每份工作中的时变信息,最终将研究目标确定为预测每个员工在指定时间点是否会离职这一二分类任务。
本发明的方法涉及以下重要概念:
时间:观察期间,从开始观察到观测到事件发生或观察结束经历的时间
事件:生存分析中观察对象发生死亡、失效、离职或者其它感兴趣的情况
截尾:未观察到事件的发生。右截尾指在事件发生前,观察对象已经离开,观察结束;左截尾指观察对象参与前,事件就已经发生
生存函数:某个个体存活时间超过t的概率。假设S(0)=1,即初始观测对象都为存活状态。生存函数定义为:
S(t)=P(T>t) (1)
其中T表示死亡时间,t是时间
风险函数:当存活时间大于t时,在t时刻事件发生的概率。假设某个体存活时间超过了t,其不能再存活时间的概率P{X∈(t,t+dt|X>t)},风险函数定义为:
Kaplan-Meier:从生存数据中估计生存函数的非参数统计学方法,通过Kaplan-Meier方法,生存函数可以表示为:
其中ti表示事件发生的时刻,di表示在ti时刻事件发生的个数,ni表示ti时刻存活的个数。通过Kaplan-Meier图,可获得按时间变化的生存概率,即近似的生存函数曲线。图1就是根据生存数据得出每个时间点的被观察人群的整体存活率,即仍在职率。在0时刻,所有人都没发生离职事件,所以存活率为1;在t=100时,即经过了100个月后,存活率降至约0.32,表示有68%的工作在100个月时已经发生了离职事件。
本发明的一种基于生存分析的员工离职行为预测方法,包括以下步骤:
步骤1:进行待预测员工的离职行为特征提取;
步骤2:采用预测算法进行预测,得出重要特征;
步骤3:对重要特征进行分析,得出结论。
其中步骤1中,将影响员工主动离职的因素分为4类:①员工个人因素;②组织因素;③外部环境因素;④结构因素。其中,第1类员工的个人因素包括性别、年龄、婚姻情况、受教育情况等基本因素。以往研究中得出的重要的第1类因素有性别(男性离职率高)、婚姻状态(已婚员工离职率低)和学校排名(排名高的离职率高),重要的第2类因素有升职(升职次数多的离职率低)、职位(职位高的离职率高)、行业内工作时间(时间长的离职率高)、职称资质(职称高的离职率高)、曾经的离职次数(离职次数多的离职率高)和工作表现等。第3类外部环境因素主要包括宏观的经济环境、组织外的工作机会、劳动力市场状况等。一些研究表明外界环境对主动离职的影响很大,例如有研究得出了各公司股价涨跌与这些公司之间员工流动的关系,还有研究表明经济形势好,员工主动离职多;经济形势不好,员工被动离职多。第4类结构因素指员工社交网络关系。例如员工是中心节点还是边缘节点、出度、入度等特征。
在人力资源管理行业,数据非常封闭,公司与公司之间的员工数据流通率很低。所以很多定性研究和传统的统计方法,都是基于一家公司内部的员工数据,并且时间维度较短,很难对员工进行长期的职业评判,研究的大多是第1类和第2类因素。根据第1类因素,可提取的特征有性别、最高学历级别、最高学历级别对应的学校类型(顶尖/普通)。参考第2类因素,可提取的特征有当前工作的开始时间、当前工作的结束时间(若有截尾,则以用户更新该记录的系统时间替代)、行业分类、职称级别、已经离职次数、已经工作时间(当前工作和之前的工作的总时间)。其中已经离职次数特征是因为每个员工都是可能发生多次离职,从生存分析角度来说,也就是观察期内,对象会多次发生事件。对于重复事件情况的处理,已有的事件史研究提出重复计数的方法和使用相对时间来组织数据。为了方便理解,我们引入“事件-人”和“时间-事件”概念。如图2所示,2000年到2006年是观察期,员工A在观察期内被观测到2次事件的发生,员工B被观测到1次,员工C未被观测到事件发生,即发生截尾。接下来,做两个处理。一是将员工A的两次事件区分开,分别称作A1和A2。二是将绝对时间转换成相对时间,也就是将横坐标时间轴上的2000~2006改为0~6,即把大家开始工作的时间进行统一,忽略具体年份,而关注经过的时间长度。处理后的A1和A2就是“事件-人”,即按照人分割事件。处理后的0~6就是“年-事件”,属于“时间-事件”概念,即按照事件来分割时间。
第3类特征,即外部环境因素在预测员工离职算法中出现的很少,有的研究也只是探讨固定公司之间的人员流动。考虑到数据的完整性和易得性,选择能体现宏观的经济环境的特征GDP年增长率。另外,因为数据部分来自职场社交平台,有员工在该平台上的活跃度相关信息,也可作为特征提取。因为以事件为预测主体,而员工社交网络是研究人的行为,并且没有员工除离职之外的其他时变行为,所以第4类结构特征暂不考虑。表1总结了本发明的方法所使用的4类特征,共24个。
表1特征说明
其中,步骤2中,本实施例采用CoxRF算法进行预测。以下将对该算法进行具体阐述,该种算法包括建立Cox比例风险模型,即CoxPH,又称Cox模型,是当生存数据中有了除事件和时间以外的协变量时,用来估计这些协变量对时间的影响,也可以用来预测特定时间点的存活概率。它有两个假设:①比例风险假设(PH假设),即协变量与风险有倍数关系,各协变量的对风险影响不随时间的变化而改变,见公式(6);②对数线性假设,即协变量与对数风险比呈线性关系,见公式(7)。对于个体i,Yi表示生存时间,Ci表示事件是否发生,Xi={Xi1,Xi2,...,Xip}表示p个协变量,则个体i在t时刻的风险率可定义为:
λ(t|Xi)=λ0(t)exp(βTXi) (4)
其中λ0(t)是基准风险函数,β={β12,...,βp}是回归参数,β的估计需要借助偏似然函数。设λ0(t)表示在不受协变量Xi影响下,个体在t时刻的风险率,显然:
λ(t|Xi)=λ0(t) (5)
对于任意时刻t,都有:
由此可见,不需要估计λ0(t),个体在任意时刻t的风险率都与基准风险率成正比,风险率的大小只取决与协变量Xi,而与时间t无关。
本发明的基于生存分析的离职预测算法CoxRF的原理如下:
设拥有协变量Xi的个体i,在t时刻的生存率为:
其中S0(t)是基准生存率。因为风险率λ(t)的取值范围是[0,∞],而生存率S(t)的取值范围是[0,1],二者表征的含义实际上一致,所以取值范围小的生存率比风险率更适合作为特征进行学习。在选择协变量时要注意,如果Xij(0≤j≤p)对事件产生的影响程度会随着时间改变,即不仅与Xij自身值的大小有关,则βij(0≤j≤p)就不是常数了,而是关于时间t的函数,这会使得Cox模型不适用。考虑到Cox模型的强假设,选取对事件发生的影响不随时间改变的特征作为协变量,与时间和事件一起形成生存数据。
步骤3中,先用随机森林方法得出了不同特征的重要性,再采用Kaplan-Meier生存分析法对得分高的重要特征进行分析,得出结论。需要说明的是,随机森林方法是用来找到应该分析哪些特征,Kaplan-Meier生存分析法是用来分析特征对结果的影响。具体如下:先使用随机森林方法对特征重要性进行评估,得出各个特征的重要性得分,然后针对得分高的特征,再用Kaplan-Meier方法来分析这几个得分高的特征对离职究竟有什么影响,得出结论。其基本原理是计算每个特征在随机森林中的每棵树上所做贡献的平均值,贡献使用基尼指数来衡量。VIM是特征的重要性得分,随机森林中总共用到了c个特征,其中每棵决策树上用到了m(m≤c)个特征。现在设有m个特征X1,...,Xc,要计算的就是特征Xj的基尼指数得分VIMj (Gini)。那么首先计算节点m的基尼指数:
其中,K表示K个类别,pmk表示节点m中类别k所占比例。然后计算特征Xj在节点m的重要性得分,即节点m分枝前后的基尼指数变化量:
其中,GIl和GIr表示分枝后两个新节点的基尼指数。设集合M是特征Xj在决策树i中作为节点分割属性出现的节点集合,则特征Xj在第i棵树的重要性得分为:
设随机森林中共有n棵决策树,计算特征Xj在这n棵决策树中的总得分:
最后,进行归一化处理:
基于上述内容,本发明进行了实例研究,实施例数据描述如下:
在本次研究中,基于研究角度,从合法渠道获取了海量的职业社交数据。数据包含员工的教育经历、性别、家乡等个人信息,以及每段工作经历。具体来说,数据集中共有约29万名员工、46万段工作经历和24.3万段教育经历。其中员工信息包括三类,一是人口统计学信息,包括性别、家乡、生日、星座等;二是当前所在公司的名称、地理位置、工作领域、工作职称、工作职位等;三是在平台上的动态数、观点数、收到点赞数、专栏数、影响力、资料完整度、更新记录时间等。工作经历信息包括开始时间、结束时间、公司名称、工作职位、工作描述、标签、创建记录时间、用户更新记录时间。教育经历信息包括开始时间、结束时间、学校、专业、学历等级、经历描述、同校好友数。
在利用步骤2进行数据分析时,发明人根据现有的几种算法,做了一个算法比较研究。
基准算法简述如下:
支持向量机:支持向量机将向量映射到更高维的空间里,并创建最大间隔超平面。在分散数据的超平面的两侧形成两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。平行超平面的距离越大,支持向量机的误差就越小。
逻辑回归:Logistic回归解决回归或分类问题,建立成本函数,然后通过优化方法迭代求解最优模型参数,然后测试和验证求解模型的性能。
朴素贝叶斯:朴素贝叶斯分类器是基于贝叶斯定理的相对简单的分类器,其中朴素是因为假设属性之间相互独立,未将属性间的相关性纳入考虑。这个假设在实际应用中往往是不成立的,这给朴素贝叶斯模型的正确分类带来了一定影响。
决策树:决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。
XGBoost:XGBoost改进了梯度提升树的算法,原理上通过添加新的弱学习器来尝试纠正所有弱学习器的残差。最终将这样多个学习器加在一起进行最终预测。
随机森林:随机森林是用集成学习的思想将多棵决策树集成的算法。对于每棵树,训练集是采用放回的方式从总的训练集中采样出来的。在训练每棵树的结点时,使用的特征是按比例以随机方式从所有特征中抽取,并且无放回。
性能分析如下:
清洗后的数据集共有287229条工作记录数据。当用户填写了某段工作经历的确切开始时间和结束时间时,认为用户针对该段工作经历最后发生了离职行为,标签值为1;当用户只填写了开始时间,而没有填写结束时间时,认为用户当前任处于在职状态(即未离职),标签值为0。最终,数据集包含119728个正样本(离职),167501个负样本,正负样本比例约为0.42:0.58。我们从数据集中随机的按7:3的比例生成训练集和测试集。选择Accuracy、Recall、F1-measure和AUC四个评价指标来表示模型性能。首先给出表2中的混淆矩阵,然后介绍指标计算方法。
表2混淆矩阵
其中
其中表示第i条样本的序号。
表3给出了不同算法的运行结果,从表3中的结果可以看出,DT、XGBoost、RF和CoxRF等基于决策树的算法在各项指标上的表现都明显优于其他算法,说明这类算法能够较好地描述特征向量与用户离职行为之间的关系。其中DT在Recall一项上得分最高,但是其它三项指标都明显低于最高分,这主要是因为DT模型的泛化能力不如其他模型,容易造成过拟合。CoxRF在Accuracy、F1-measure和AUC上均获得最高分。考虑到F1-measure指标是对Precision和Recall的综合考量,并且CoxRF的Recall也只是略低于DT,排名第二,因此总体来说,CoxRF的综合性能最为突出。
表3不同算法性能比较
Accuracy Recall F1-measure AUC
SVM 0.594599 0.070894 0.127787 0.521507
NB 0.562499 0.541390 0.509019 0.559553
LR 0.667421 0.409741 0.507916 0.631458
DT 0.800241 0.768063 0.763105 0.795750
XGBoost 0.856224 0.749391 0.813668 0.841314
RF 0.855377 0.752715 0.813449 0.841049
CoxRF 0.856781 0.757120 0.815803 0.842872
如前所述,本实施例采用随机森林方法来进一步分析了不同特征的重要性,通过计算基尼指数得分的平均值,并归一化,得出的特征重要性得分排名如图3所示。显然性别、经济指标是最重要的两个特征,得分超过了0.15。其中性别是分类变量,我们使用Kaplan-Meier方法估计生存率并分组绘制生存曲线,查看组间区别。由图4可以看出不同性别的人群生存曲线形状类似,但是仔细查看会发现女性的生存率在绝大多数时间点都是低于男性的,也就是说,工作相同年限,女性的离职率更高些。最后200~400(月-事件),女性群体的生存曲线阶梯状严重,这可能是因为人数过少对曲线造成曲线扰动。
除了性别,数据中还有干净的行业分类特征,总共有18类。如图5所示,我们选择了典型的5类行业人群,对其生存曲线进行查看。从图5中可以得出,同一时间点,离职率由低到高排名为:政府行业、教育行业、金融和文化传媒行业、信息技术行业。在进入工作一年半的时间内,除了政府行业,其他4个行业的离职率都达到了20%,且存活率下降速度相当。而政府行业达到这一离职率数字,则花了三年时间。但是从两年后,各行业人群的存活率下降速度就有了较大区别。两年内,教育行业生存曲线都跟金融和文化传媒行业的靠拢,但是两年后就明显分开,向着政府行业生存曲线靠拢。文化传媒行业在七年内都与金融行业的生存曲线紧密在一起,但是七年后却明显降低了下降速度。金融业则比文化传媒行业晚一年降速。最值得关注的还是“高危”群体信息技术行业,经过两年时间,人群离职率就达到了50%这一惊人的数字,而政府行业是经过十年才达到50%。从对图5的分析可以看出,不同行业人群的离职特点很不相同,这可能与工作性质、工作内容、跳槽回报有很大关系。
此外,将用户取得最高学历的学校分为3类,982、211和其他,图6是这3组人群的生存曲线。可以看出,当工作时间达到3~5年以后,985和211高校背景的员工离职率显著高于其他普通学校背景的。这可能是因为有着良好学校背景的员工,在积累了一定工作经验后跳槽,能收获高回报。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的动态配置基于城市公共交通出行数据的社交推荐技术时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于生存分析的员工离职行为预测方法,其特征在于:所述方法包括以下步骤:
步骤1:进行待预测员工的离职行为特征提取;
步骤2:采用预测算法进行预测,得出重要特征;
步骤3:对重要特征进行分析,得出结论。
2.根据权利要求1所述的一种基于生存分析的员工离职行为预测方法,其特征在于:所述步骤1中,行为特征分为四类,分别为:(1)员工个人因素;(2)组织因素;(3)外部环境因素;(4)结构因素,所述结构因素指员工社交网络关系。
3.根据权利要求2所述的一种基于生存分析的员工离职行为预测方法,其特征在于:所述四类行为特征中,员工个人因素包括但不限于:max_degree-最高学历;max_sch_type-最高学历对应学校的级别;gender-性别;
所述组织因素包括但不限于:start_year-开始年份;end_year-结束年份;industry_type-行业类别;position_level-职位级别;has_turnover_num-已经离职次数;has_timelength-已经工作时间;timelength-工作时间;
所述外部环境因素包括但不限于:GDP-国内GDP年增长率;
所述结构因素包括但不限于:interactions-互动数;dongtai-动态数;guandian-观点数;zhuanlan-专栏数;dianping-点评数;likes-被点赞次数;views-被访问次数;recent_feeds-最近收到的feed数;influence-影响力;inf_defeat-影响力超过百分之多少的其他人;info_ratio-资料完善度;imp_tag_num-印象标签数;pro_tag_num-职业标签数。
4.根据权利要求1所述的一种基于生存分析的员工离职行为预测方法,其特征在于:所述步骤2中,采用CoxRF算法进行预测。
5.根据权利要求1所述的一种基于生存分析的员工离职行为预测方法,其特征在于:所述步骤3中,先使用随机森林方法对特征重要性进行评估,得出各个特征的重要性得分,VIM是特征的重要性得分,随机森林中总共用到了c个特征,其中每棵决策树上用到了m(m≤c)个特征,设有m个特征X1,...,Xc,要计算的就是特征Xj的基尼指数得分VIMj (Gini),那么首先计算节点m的基尼指数:
其中,K表示K个类别,pmk表示节点m中类别k所占比例,然后计算特征Xj在节点m的重要性得分,即节点m分枝前后的基尼指数变化量:
其中,GIl和GIr表示分枝后两个新节点的基尼指数,设集合M是特征Xj在决策树i中作为节点分割属性出现的节点集合,则特征Xj在第i棵树的重要性得分为:
设随机森林中共有n棵决策树,计算特征Xj在这n棵决策树中的总得分:
最后,进行归一化处理:
6.根据权利要求5所述的一种基于生存分析的员工离职行为预测方法,其特征在于:所述步骤3中,针对得分高的特征,再用Kaplan-Meier方法来分析得分高的特征对离职的影响,并得出结论。
7.一种基于聚类算法的员工离职风险预测装置,其特征在于,包括:
获取模块:用于获取待预测员工的离职行为特征;
计算分析模块,利用预测算法对所述待测员工进行预测,获得重要特征;
预测模块,对重要特征进行分析,得出结论。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-6任一项所述的方法。
CN201910346268.3A 2019-04-26 2019-04-26 一种基于生存分析的员工离职行为预测方法 Pending CN110163418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910346268.3A CN110163418A (zh) 2019-04-26 2019-04-26 一种基于生存分析的员工离职行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910346268.3A CN110163418A (zh) 2019-04-26 2019-04-26 一种基于生存分析的员工离职行为预测方法

Publications (1)

Publication Number Publication Date
CN110163418A true CN110163418A (zh) 2019-08-23

Family

ID=67638710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910346268.3A Pending CN110163418A (zh) 2019-04-26 2019-04-26 一种基于生存分析的员工离职行为预测方法

Country Status (1)

Country Link
CN (1) CN110163418A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704692A (zh) * 2019-09-12 2020-01-17 重庆大学 基于图嵌入的员工离职行为预测方法及装置
CN111629217A (zh) * 2020-04-20 2020-09-04 南京邮电大学 边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法
CN111639814A (zh) * 2020-06-02 2020-09-08 贝壳技术有限公司 预测变动行为发生概率的方法、装置、介质和电子设备
CN113723689A (zh) * 2021-09-01 2021-11-30 畅捷通信息技术股份有限公司 企业员工离职预测模型的构建方法、系统、终端及介质
TWI807780B (zh) * 2022-04-15 2023-07-01 和碩聯合科技股份有限公司 離職率預測方法及其電子裝置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160464A (zh) * 2015-08-24 2015-12-16 安徽味唯网络科技有限公司 一种预测员工工作效率与何时离职的方法
US20160171398A1 (en) * 2000-10-17 2016-06-16 Asset Reliance, Inc. Predictive Model Development System Applied To Enterprise Risk Management
CN106960308A (zh) * 2017-03-03 2017-07-18 辽宁石油化工大学 一种用统计模块预测中小型企业员工个人离职概率的方法
CN107886217A (zh) * 2017-10-17 2018-04-06 北京德塔精要信息技术有限公司 一种基于聚类算法的员工离职风险预测方法及装置
CN108805413A (zh) * 2018-05-21 2018-11-13 中国平安人寿保险股份有限公司 员工离职风险预测方法、装置、计算机设备以及存储介质
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171398A1 (en) * 2000-10-17 2016-06-16 Asset Reliance, Inc. Predictive Model Development System Applied To Enterprise Risk Management
CN105160464A (zh) * 2015-08-24 2015-12-16 安徽味唯网络科技有限公司 一种预测员工工作效率与何时离职的方法
CN106960308A (zh) * 2017-03-03 2017-07-18 辽宁石油化工大学 一种用统计模块预测中小型企业员工个人离职概率的方法
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN107886217A (zh) * 2017-10-17 2018-04-06 北京德塔精要信息技术有限公司 一种基于聚类算法的员工离职风险预测方法及装置
CN108805413A (zh) * 2018-05-21 2018-11-13 中国平安人寿保险股份有限公司 员工离职风险预测方法、装置、计算机设备以及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704692A (zh) * 2019-09-12 2020-01-17 重庆大学 基于图嵌入的员工离职行为预测方法及装置
CN111629217A (zh) * 2020-04-20 2020-09-04 南京邮电大学 边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法
CN111639814A (zh) * 2020-06-02 2020-09-08 贝壳技术有限公司 预测变动行为发生概率的方法、装置、介质和电子设备
CN113723689A (zh) * 2021-09-01 2021-11-30 畅捷通信息技术股份有限公司 企业员工离职预测模型的构建方法、系统、终端及介质
TWI807780B (zh) * 2022-04-15 2023-07-01 和碩聯合科技股份有限公司 離職率預測方法及其電子裝置

Similar Documents

Publication Publication Date Title
US10417523B2 (en) Dimension grouping and reduction for model generation, testing, and documentation
CN110163418A (zh) 一种基于生存分析的员工离职行为预测方法
Thangavel et al. Student placement analyzer: A recommendation system using machine learning
Jeevalatha et al. Performance analysis of undergraduate students placement selection using decision tree algorithms
Manohar et al. Utilizing big data analytics to improve education
Santhosh et al. Generalized fuzzy logic based performance prediction in data mining
Lottering et al. A model for the identification of students at risk of dropout at a university of technology
Xu et al. CET-4 score analysis based on data mining technology
Zhu et al. CoxRF: Employee turnover prediction based on survival analysis
Jannani et al. Predicting quality of life using machine learning: Case of world happiness index
Zhang et al. Analysis and research on library user behavior based on apriori algorithm
Usabiaga et al. Skill requirements and labour polarisation: An association analysis based on Polish online job offers
Behnisch et al. Urban data-mining: spatiotemporal exploration of multidimensional data
Singh Interpretable machine-learning approach in estimating FDI inflow: visualization of ML models with LIME and H2O
Zhu et al. A DEALG methodology for prediction of effective customers of internet financial loan products
Rezaei Ghahroodi Statistical matching of sample survey data: application to integrate Iranian time use and labour force surveys
Zaboev et al. Evaluation of current location and prospects of the European and Russian universities among the world's leading universities with the use of neural network methods clustering of data
Sumathi et al. Talent Flow Employee Analysis Based Turnover Prediction on Survival Analysis
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
Khandale et al. Campus placement analyzer: using supervised machine learning algorithms
Shi et al. Relationship between herd behavior and Chinese stock market fluctuations during a bullish period based on complex networks
Faghih et al. Entrepreneurship viability index: A new model based on the Global Entrepreneurship Monitor (GEM) dataset
Tong et al. Urban crime trends analysis and occurrence possibility prediction based on Light Gradient Boosting Machine
US20180189696A1 (en) System and method for measuring and monitoring innovation intelligence
Gamidullaeva et al. Study of regional innovation ecosystem based on the big data intellectual analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication