CN108805413A - 员工离职风险预测方法、装置、计算机设备以及存储介质 - Google Patents

员工离职风险预测方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN108805413A
CN108805413A CN201810487189.XA CN201810487189A CN108805413A CN 108805413 A CN108805413 A CN 108805413A CN 201810487189 A CN201810487189 A CN 201810487189A CN 108805413 A CN108805413 A CN 108805413A
Authority
CN
China
Prior art keywords
employee
data
characteristic information
various dimensions
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810487189.XA
Other languages
English (en)
Inventor
李晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810487189.XA priority Critical patent/CN108805413A/zh
Publication of CN108805413A publication Critical patent/CN108805413A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种员工离职风险预测方法、装置、计算机设备以及存储介质,其中,所述方法包括:获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;对所述在职员工数据和所述已离职员工数据进行预处理;从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;通过预设随机森林算法对所述训练集进行训练,得到预测模型;根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。本发明实施例可以提升企业预测员工离职意向的能力,以减少企业的损失。

Description

员工离职风险预测方法、装置、计算机设备以及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种员工离职风险预测方法、装置、计算机设备以及存储介质。
背景技术
现有技术中,员工的离职容易造成企业队伍结构的不稳定,虽然员工离职现象在企业中司空见惯,在很多情况下,企业预先不知道员工有离职倾向,一旦员工申请离职,企业往往会处于被动的境况。
发明内容
有鉴于此,本发明实施例提供一种员工离职风险预测方法、装置、计算机设备以及存储介质,可以提升企业预测员工离职意向的能力,以减少企业的损失。
一方面,本发明实施例提供了一种员工离职风险预测方法,该方法包括:
获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
对所述在职员工数据和所述已离职员工数据进行预处理;
从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
通过预设随机森林算法对所述训练集进行训练,并建立得到预测模型;
根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
另一方面,本发明实施例提供了一种员工离职风险预测装置,所述装置包括:
第一获取单元,用于获取待处理的业务数据;
获取单元,用于获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
预处理单元,用于对所述在职员工数据和所述已离职员工数据进行预处理;
构建单元,用于从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
建立单元,用于通过预设随机森林算法对所述训练集进行训练,得到预测模型;
预测单元,用于根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的员工离职风险预测方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如上所述的员工离职风险预测方法。
本发明实施例提供一种员工离职风险预测方法、装置、计算机设备以及存储介质,其中方法包括:获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;对所述在职员工数据和所述已离职员工数据进行预处理;从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;通过预设随机森林算法对所述训练集进行训练,得到预测模型;根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。本发明实施例可以提升企业预测员工离职意向的能力,以减少企业的损失。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种员工离职风险预测方法的示意流程图;
图2是本发明实施例提供的一种员工离职风险预测方法的示意流程图;
图3是本发明实施例提供的一种员工离职风险预测方法的示意流程图;
图4是本发明另一实施例提供的一种员工离职风险预测方法的示意流程图;
图5是本发明实施例提供的一种员工离职风险预测方法的示意流程图;
图6是本发明实施例提供的一种员工离职风险预测装置的示意性框图;
图7是本发明实施例提供的一种员工离职风险预测装置的另一示意性框图;
图8是本发明实施例提供的一种员工离职风险预测装置的另一示意性框图;
图9是本发明实施例提供的一种员工离职风险预测装置的另一示意性框图;
图10是本发明实施例提供的一种员工离职风险预测装置的另一示意性框图
图11是本发明实施例提供的一种计算机设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1为本发明实施例提供的一种员工离职风险预测方法的示意流程图。如图1所示,该方法包括步骤S101~S105。
S101,获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据。
在本发明实施例中,所述获取待测员工数据可以具体保存在数据库中,该数据库可以是ORACLE数据库,所述待测员工数据包括在职员工数据和已离职员工数据,其中,所述待测员工数据可以包括但不限于员工的部门、职位、薪水、工作时长、是否有职位晋升、对公司满意度、负责任务个数,还可以包括其他维度的信息,在本实施例中,可以通过连接ORACLE数据库的方式获取该业务数据,可选的,可以通过JDBC(Java DataBaseConnectivity,Java数据库连接)方式连接ORACLE数据库,以获取ORACLE数据库中的待测员工数据。
S102,对所述在职员工数据和所述已离职员工数据进行预处理。
在本发明实施例中,所述预处理指的是将所述在职员工数据和所述已离职员工数据进行向量空间模型处理,具体地,所述预处理是将所述在职员工数据和所述已离职员工数据对应的特征信息进行向量空间模型处理,以把特征信息的处理简单化为向量空间中的向量运算,并对特征信息对应的特征向量中的类别特征进行编号,可以提高决策树或者随机森林的分类效果。
进一步地,如图2所示,所述步骤S102包括步骤S201~S204。
S201,确定所述在职员工数据和所述已离职员工数据中的特征信息。
在本发明实施例中,该特征信息是指可以用于训练预测模型的所需要的待测员工数据,并且该特征信息中在训练预测模型的过程中将作为变量进行使用,该特征信息是与离职有关的多个维度的待测员工数据,具体地,该特征信息可以包括但不限于括员工的部门、职位、薪水、工作时长、是否有职位晋升、对公司满意度、负责任务个数。
S202,将所确定的特征信息转换为特征向量。
在本发明实施例中,将所确定的特征信息进行向量空间模型处理,以把特征信息处理简化为向量空间中的向量运算,例如,全部的特征信息为k1,k2,...,km,其中k1,k2,km分别表示不同的特征信息,则每个特征信息可以表示为如表1所示:
表1
k1 k2 ... km
Y1 Y11 Y12 ... Y1m
... ... ...
Yn Yn1 Yn2 ... Ynm
其中,Yij表示特征信息的权重,1≦i≦n,1≦j≦m,特征信息的权重可以通过有序二元比较量化法进行确定,k1...km表示m个特征向量。
需要说明的是,所述有序二元比较量化法将x个目标特征信息进行二元比较重要性定性排序,经过一致性检验判断与调整得到排序一致性二元对比标度矩阵E,根据标度矩阵E各行元素值之和,从大到小排列,得到关于优的排序次数,再以排序第1位的目标作为标准,与其他目标进行重要性程度的比较,可得非归一化目标权向量w'=w'1,w'2,…,w'p,然后进行归一化计算,即可得目标权向量式w=w1,w2,…,wp,以满足
S203,对所述特征向量进行K邻近平均处理。
在本发明实施例中,对特征向量进行K邻近平均处理的具体处理方法为:Li={j:xj与xi}类别相同,且是xi的k个邻近点},ei=(0,..,1,..,1,..0,..0),当j∈Li时,特征向量ei的第j个元素为1,否则为0,其中,xi‘表示求取j∈Li的xj的均值,XT表示X的转置,通过对特征向量采用K邻近平均处理,解决了特征向量在类间分布不均的情况。
S204,对处理后的特征向量进行编号。
在本发明实施例中,使用VectorIndexer算法对特征向量中的类别特征进行编号,具体的做法为:通过设置一个maxCategories(即最大编号数),对特征向量中某一个特征不重复取值个数小于maxCategories,则被编号为0~H(H≦maxCategories-1),某一个特征不重复取值个数大于maxCategories,则该特征为连续特征,不会重新进行编号,以达到不重新编号的目的,通过对特征向量进行编号可以提高决策树或随机森林的分类效果。
S103,从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集。
在本发明实施例中,可以从已预处理的已离职的员工数据中有放回地提取多维度特征信息,所述多维度特征信息指的是影响员工离职的多个维数,例如员工的离职不只是单纯的考虑员工的薪资,还需要考虑员工的工作年限、员工的年龄、员工的职位等三个维数;所提取的多维度特征信息的数目可以由用户自行决定,在此不作限制,例如所提取的多维度特征信息可以是100个,将所提取的多维度特征信息构成对应的样本,并且多个多维度特征信息构成样本集,根据该样本集构成建训练集,具体地,可以对已预处理的已离职的员工数据进行多次提取,每次提取的多个多维度特征信息构成一个样本集,多次提取的多个多维度特征信息构成多个样本集,多个样本集构建成多个训练集。由于是有放回地随机提取多维度特征信息,不同样本集中的多维度特征信息可以重复,同一个训练集中的多维度特征信息也可以重复,这样可以有效地防止训练结果陷入过拟合。
进一步地,如图3所示,所述步骤S103包括步骤S301~S302。
S301,从离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集。
在本发明实施例中,该预设数目可以根据实际需要自行定义取值,所提取的次数为至少一次,例如每次从已离职员工数据中有放回地提取100个多维度特征信息,构成对应的样本集。具体地,每次从已离职员工数据中有放回地提取多维度特征信息即每次随机地从已离职员工数据中取一个多维度特征信息,每次取完后将所取的多维度特征信息放回已离职员工数据中,再重新取一个多维度特征信息,并重复以上取样步骤直至提取到预设数目的多维度特征信息为止。
S302,根据所提取的样本集构建所述训练集。
在本发明实施例中,例如在一个样本集中包括100个多维度特征信息,将由100个多维度特征信息组成的样本集构成一个训练集,多个样本集构成多个训练集。
S104,通过预设随机森林算法对所述训练集进行训练,得到预测模型。
在本发明实施例中,针对任意一个训练集,可以先计算所述训练集中所包含的每个多维度特征信息的信息增益,可以按照公式a(S,K)=H(S)-H(S|K)计算每个训练集,具体地,公式a(S,K)=H(S)-H(S|K)计算每个训练集中所包括的每个多维度特征信息的信息增益,a(S,K)表示训练集S中多维度特征信息K的信息增益,H(S)表示训练集S的熵,H(S|K)表示使用多维度特征信息划分训练集S后训练集S的熵,在得到每个多维度特征信息的信息增益后,可以将信息增益最大的特征信息作为根节点的特征信息,将其余特征信息按照信息增益从大到小的顺序依次作为叶子节点的特征信息,生成对应的决策树,然后根据所生成的决策树获得预测模型。
S105,根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
在本发明实施例中,可以从已预处理的在职员工数据中有放回地提取多维度特征信息,所提取的多维度特征信息的数目可以由用户自行决定,在此不作限制,例如所提取的多维度特征信息可以是100个,将所提取的多维度特征信息构成对应的样本,并且多个多维度特征信息构成样本集,根据该样本集构成建测试集,具体地,可以对已预处理的在职员工数据进行多次提取,每次提取的多个多维度特征信息构成一个样本集,多次提取的多个多维度特征信息构成多个样本集,多个样本集构建成多个测试集。当需要对某个测试集进行预测时,利用所建立的预测模型对该测试集进行预测,具体地,利用所生成的决策树对该测试集进行预测。需要说明的是,预测过程可以为:首先,从所述测试集的多个多维度特征信息中,提取与所述决策树的根节点的分裂特征对应的特征信息,根据该决策树的根节点的分裂条件对提取的特征信息进行判断,以得到根节点的决策结果,如果决策结果满足停止遍历的条件,则输出测试集的预测结果;否则,则根据根节点决策结果确定待遍历的叶子节点,根据所述叶子节点的分裂条件,对所提取的特征信息进行判断,以得到叶子节点的决策结果,如果决策结果满足停止遍历的条件,则输出测试集的预测结果;否则,则根据根节点决策结果确定待遍历的下一个叶子节点;重复上述步骤,直至得到所述测试集的预测结果。
由以上可见,本实施例通过获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;对所述在职员工数据和所述已离职员工数据进行预处理;根据已预处理的已离职员工数据中提取多维度特征信息,构建训练集;通过预设随机森林算法对所述训练集进行训练,得到预测模型;根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。本发明实施例可以提升企业预测员工离职意向的能力,以减少企业的损失。
请参阅图4,图4是本发明实施例提供的一种员工离职风险预测方法的示意流程图。如图4所示,该方法包括步骤S401~S406。
S401,获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据。
在本发明实施例中,所述获取待测员工数据可以具体保存在数据库中,该数据库可以是ORACLE数据库,所述待测员工数据包括在职员工数据和已离职员工数据,其中,所述待测员工数据可以包括但不限于员工的部门、职位、薪水、工作时长、是否有职位晋升、对公司满意度、负责任务个数,还可以包括其他维度的信息,在本实施例中,可以通过连接ORACLE数据库的方式获取该业务数据,可选的,可以通过JDBC(Java DataBaseConnectivity,Java数据库连接)方式连接ORACLE数据库,以获取ORACLE数据库中的待测员工数据。
S402,对所述在职员工数据和所述已离职员工数据进行预处理。
在本发明实施例中,所述预处理指的是将所述在职员工数据和所述已离职员工数据进行向量空间模型处理,具体地,所述预处理是将所述在职员工数据和所述已离职员工数据对应的特征信息进行向量空间模型处理,以把特征信息的处理简单化为向量空间中的向量运算,并对特征信息对应的特征向量中的类别特征进行编号,可以提高决策树或者随机森林的分类效果。
S403,从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集。
在本发明实施例中,可以从已预处理的已离职的员工数据中有放回地提取多维度特征信息,所述多维度特征信息指的是影响员工离职的多个维数,例如员工的离职不只是单纯的考虑员工的薪资,还需要考虑员工的工作年限、员工的年龄、员工的职位等三个维数;所提取的多维度特征信息的数目可以由用户自行决定,在此不作限制,例如所提取的多维度特征信息可以是100个,将所提取的多维度特征信息构成对应的样本,并且多个多维度特征信息构成样本集,根据该样本集构成建训练集,具体地,可以对已预处理的已离职的员工数据进行多次提取,每次提取的多个多维度特征信息构成一个样本集,多次提取的多个多维度特征信息构成多个样本集,多个样本集构建成多个训练集。由于是有放回地随机提取多维度特征信息,不同样本集中的多维度特征信息可以重复,同一个训练集中的多维度特征信息也可以重复,这样可以有效地防止训练结果陷入过拟合。
S404,对所述多维度特征信息进行训练,并生成决策树。
在本发明实施例中,具体的生成决策树方法可参阅图5所示,包括以下步骤:
S501,对所述训练集进行列采样,列数目为m,m=Sqrt(N),其中N为多维度特征信息的数量。
在本发明实施例中,对所述训练集进行列采样,可以利用采样公式m=Sqrt(N)进行采样,其中m为列数目,N为多维度特征信息的数量,需要说明的是,每一棵决策树都从训练集中的N个多维度特征信息中随机挑选出m个特征信息作为节点分裂特征来计算,一般情况下m取N的平方根大小。
S502,对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。
在本发明实施例中,对采样之后的多维度特征信息使用完全分裂的方式建立出决策树,这样所建立的决策树,其某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。使用完全分裂的方法为:采用上述的列采样的过程从这m个多维度特征信息中采用某种策略(比如信息增益)来选择1个多维度特征信息作为决策树节点的分裂属性。决策树形成过程中每个节点都要按完全分裂的方式来分裂,一直到不能够再分裂为止(如果下一次该节点选出来的那一个多维度特征信息是刚刚其父节点分裂时用过的多维度特征信息,则该节点已经达到了叶子节点,无须继续分裂了)。例如,我们用LearnUnprunedTree(X,Y)表示生成一棵未剪枝的决策树的过程,以下简写LUT(X,Y):
输入:X是RxM的矩阵,Xij表示第i个训练集的第j个多维度特征信息,Y是Rx1的向量,Yi表示第i个训练集的类别标签。
输出:一棵未剪枝的树。
如果X的所有多维度特征信息都相同,或Y的所有类别标签相同,或者R<2,则产生一个叶结点,该结点的类别即是X中最多数的类别;否则从M个多维度特征信息中随机挑选m个多维度特征信息,在m个多维度特征信息中,信息增益最大的记为p。如果特征p的取值是非连续的(如员工性别:“男”,“女”),则对p的任一取值v,用Xv表示多维度特征信息p取值为v的样本,Yv为其对应类别Staffdv=LUT(Xv,Yv),返回一个树结点,在特征p处分裂,孩子的数量与特征p的不同取值数量相同。第v’个员工即是Staffv=LUT(Xv,Yv),如果特征p的取值是连续的,设t为最佳分裂阈值,XLO表示特征p的值<t的样本集合,YLO为其对应类别StaffLO=LUT(XLO,YLO),XHI表示特征p的值>=t的训练集,YHI为其对应类别StaffLO=LUT(XHI,YHI),返回一个树结点,在特征p处分裂,有2名员工,分别是StaffLO=LUT(XLO,YLO)和StaffLO=LUT(XHI,YHI)。
S503,将分裂完成的所有决策树组合成随机森林。
在本发明实施例中,将分列完成的所有决策树组合形成随机森林,通过该随机森林能够处理如员工在职/离职数据的多维度的数据,并且不会出现过度拟合,实现简单。
S405,通过所生成的决策树建立得到预测模型。
S406,根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
在本发明实施例中,可以从已预处理的在职员工数据中有放回地提取多维度特征信息,所提取的多维度特征信息的数目可以由用户自行决定,在此不作限制,例如所提取的多维度特征信息可以是100个,将所提取的多维度特征信息构成对应的样本,并且多个多维度特征信息构成样本集,根据该样本集构成建测试集,具体地,可以对已预处理的在职员工数据进行多次提取,每次提取的多个多维度特征信息构成一个样本集,多次提取的多个多维度特征信息构成多个样本集,多个样本集构建成多个测试集。当需要对某个测试集进行预测时,利用所建立的预测模型对该测试集进行预测,具体地,利用所生成的决策树对该测试集进行预测。需要说明的是,预测过程可以为:首先,从所述测试集的多个多维度特征信息中,提取与所述决策树的根节点的分裂特征对应的特征信息,根据该决策树的根节点的分裂条件对提取的特征信息进行判断,以得到根节点的决策结果,如果决策结果满足停止遍历的条件,则输出测试集的预测结果;否则,则根据根节点决策结果确定待遍历的叶子节点,根据所述叶子节点的分裂条件,对所提取的特征信息进行判断,以得到叶子节点的决策结果,如果决策结果满足停止遍历的条件,则输出测试集的预测结果;否则,则根据根节点决策结果确定待遍历的下一个叶子节点;重复上述步骤,直至得到所述测试集的预测结果。
请参阅图6,对应上述一种员工离职风险预测方法,本发明实施例还提出一种员工离职风险预测装置,该装置100包括:获取单元101、预处理单元102、构建单元103、训练单元104、预测单元105。
其中,所述获取单元101,用于获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据。
预处理单元102,用于对所述在职员工数据和所述已离职员工数据进行预处理。
构建单元103,用于从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集。
训练单元104,用于通过预设随机森林算法对所述训练集进行训练,得到预测模型。
预测单元105,用于根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
由以上可见,本实施例通过获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;对所述在职员工数据和所述已离职员工数据进行预处理;根据已预处理的已离职员工数据中提取多维度特征信息,构建训练集;通过预设随机森林算法对所述训练集进行训练,得到预测模型;根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。本发明实施例可以提升企业预测员工离职意向的能力,以减少企业的损失。
如图7所示,所述预处理单元102,包括:
确定单元1021,用于确定所述在职员工数据和所述已离职员工数据中的特征信息。
转换单元1022,用于将所确定的特征信息转换为特征向量。
处理单元1023,用于对所述特征向量进行K邻近平均处理。
编号单元1024,用于对处理后的特征向量进行编号。
如图8所示,所述构建单元103,包括:
构成单元1031,用于从已离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集。
构建子单元1032,用于根据所提取的样本集构建所述训练集。
请参阅图9,对应上述一种员工离职风险预测方法,本发明实施例还提出一种员工离职风险预测装置,该装置200包括:获取单元201、预处理单元202、构建单元203、生成单元204、建立单元205、预测单元206。
其中,所述获取单元201,用于获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据。
预处理单元202,用于对所述在职员工数据和所述已离职员工数据进行预处理。
构建单元203,用于从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集。
生成单元204,对所述多维度特征信息进行训练,并生成决策树。
建立单元205,用于通过所生成的决策树建立得到预测模型。
预测单元206,用于根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
如图10所示,所述生成单元204,包括:
列采样单元2041,用于对所述训练集进行列采样,列数目为m,m=Sqrt(N),其中N为多维度特征信息的数量。
生成子单元2042,用于对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。
组合单元2043,用于将分裂完成的所有决策树组合成随机森林。
上述员工离职风险预测装置与上述员工离职风险预测方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。
上述员工离职风险预测装置可以实现为一种计算机程序的形式,计算机程序可以在如图11所示的计算机设备上运行。
图11为本发明一种计算机设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能的电子装置。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图11,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种员工离职风险预测方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种员工离职风险预测方法。计算机设备500的网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行所述计算机程序时实现如下操作:
获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
对所述在职员工数据和所述已离职员工数据进行预处理;
从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
通过预设随机森林算法对所述训练集进行训练,得到预测模型;
根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
在一个实施例中,所述对所述在职员工数据和所述已离职员工数据进行预处理,包括:
确定所述在职员工数据和所述已离职员工数据中的特征信息;
将所确定的特征信息转换为特征向量;
对所述特征向量进行K邻近平均处理;
对处理后的特征向量进行编号。
在一个实施例中,所述从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集,包括:
从已离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集;
根据所提取的样本集构建所述训练集。
在一个实施例中,所述通过预设随机森林算法对所述训练集进行训练,得到预测模型,包括:
对所述多维度特征信息进行训练,并生成决策树;
通过所生成的决策树建立得到预测模型。
在一个实施例中,所述对所述多维度特征信息进行训练,并生成决策树,包括:
对所述训练集进行列采样,列数目为m,m=Sqrt(N),其中N为多维度特征信息的数量;
对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树;
将分裂完成的所有决策树组合成随机森林。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
对所述在职员工数据和所述已离职员工数据进行预处理;
从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
通过预设随机森林算法对所述训练集进行训练,得到预测模型;
根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
在一个实施例中,所述对所述在职员工数据和所述已离职员工数据进行预处理,包括:
确定所述在职员工数据和所述已离职员工数据中的特征信息;
将所确定的特征信息转换为特征向量;
对所述特征向量进行K邻近平均处理;
对处理后的特征向量进行编号。
在一个实施例中,所述从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集,包括:
从已离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集;
根据所提取的样本集构建所述训练集。
在一个实施例中,所述通过预设随机森林算法对所述训练集进行训练,得到预测模型,包括:
对所述多维度特征信息进行训练,并生成决策树;
通过所生成的决策树建立得到预测模型。
在一个实施例中,所述对所述多维度特征信息进行训练,并生成决策树,包括:
对所述训练集进行列采样,列数目为m,m=Sqrt(N),其中N为多维度特征信息的数量;
对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树;
将分裂完成的所有决策树组合成随机森林。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例员工离职风险预测方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例员工离职风险预测装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种员工离职风险预测方法,其特征在于,所述方法包括:
获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
对所述在职员工数据和所述已离职员工数据进行预处理;
从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
通过预设随机森林算法对所述训练集进行训练,得到预测模型;
根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
2.如权利要求1所述的方法,其特征在于,所述对所述在职员工数据和所述已离职员工数据进行预处理,包括:
确定所述在职员工数据和所述已离职员工数据中的特征信息;
将所确定的特征信息转换为特征向量;
对所述特征向量进行K邻近平均处理;
对处理后的特征向量进行编号。
3.如权利要求1所述的方法,其特征在于,所述从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集,包括:
从已离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集;
根据所提取的样本集构建所述训练集。
4.如权利要求1所述的方法,其特征在于,所述通过预设随机森林算法对所述训练集进行训练,得到预测模型,包括:
对所述多维度特征信息进行训练,并生成决策树;
通过所生成的决策树建立得到预测模型。
5.如权利要求4所述的方法,其特征在于,所述对所述多维度特征信息进行训练,并生成决策树,包括:
对所述训练集进行列采样,列数目为m,m=Sqrt(N),其中N为多维度特征信息的数量;
对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树;
将分裂完成的所有决策树组合成随机森林。
6.一种员工离职风险预测装置,其特征在于,所述装置包括:
获取单元,用于获取待测员工数据,所述待测员工数据包括在职员工数据和已离职员工数据;
预处理单元,用于对所述在职员工数据和所述已离职员工数据进行预处理;
构建单元,用于从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;
建立单元,用于通过预设随机森林算法对所述训练集进行训练,得到预测模型;
预测单元,用于根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。
7.如权利要求6所述的装置,其特征在于,所述预处理单元,包括:
确定单元,用于确定所述在职员工数据和所述已离职员工数据中的特征信息;
转换单元,用于将所确定的特征信息转换为特征向量;
处理单元,用于对所述特征向量进行K邻近平均处理;
编号单元,用于对处理后的特征向量进行编号。
8.如权利要求6所述的装置,其特征在于,所述构建单元,包括:
构成单元,用于从已离职员工数据中,有放回地随机提取预设数目的多维度特征信息构成样本集;
构建子单元,用于根据所提取的样本集构建所述训练集。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的员工离职风险预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的员工离职风险预测方法。
CN201810487189.XA 2018-05-21 2018-05-21 员工离职风险预测方法、装置、计算机设备以及存储介质 Pending CN108805413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810487189.XA CN108805413A (zh) 2018-05-21 2018-05-21 员工离职风险预测方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810487189.XA CN108805413A (zh) 2018-05-21 2018-05-21 员工离职风险预测方法、装置、计算机设备以及存储介质

Publications (1)

Publication Number Publication Date
CN108805413A true CN108805413A (zh) 2018-11-13

Family

ID=64091118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810487189.XA Pending CN108805413A (zh) 2018-05-21 2018-05-21 员工离职风险预测方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN108805413A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163418A (zh) * 2019-04-26 2019-08-23 重庆大学 一种基于生存分析的员工离职行为预测方法
CN111353622A (zh) * 2018-12-20 2020-06-30 顺丰科技有限公司 行为预测方法及装置
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN111667107A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 基于梯度随机森林的研发管控问题预测方法及装置
CN112488437A (zh) * 2019-09-12 2021-03-12 英业达科技有限公司 人力资源管理系统及其方法
WO2021179715A1 (zh) * 2020-10-21 2021-09-16 平安科技(深圳)有限公司 基于隐马尔可夫模型的离职预测方法及相关装置
CN113723689A (zh) * 2021-09-01 2021-11-30 畅捷通信息技术股份有限公司 企业员工离职预测模型的构建方法、系统、终端及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353622A (zh) * 2018-12-20 2020-06-30 顺丰科技有限公司 行为预测方法及装置
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN111352926B (zh) * 2018-12-20 2024-03-08 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN110163418A (zh) * 2019-04-26 2019-08-23 重庆大学 一种基于生存分析的员工离职行为预测方法
CN112488437A (zh) * 2019-09-12 2021-03-12 英业达科技有限公司 人力资源管理系统及其方法
CN111667107A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 基于梯度随机森林的研发管控问题预测方法及装置
CN111667107B (zh) * 2020-05-29 2024-05-14 中国工商银行股份有限公司 基于梯度随机森林的研发管控问题预测方法及装置
WO2021179715A1 (zh) * 2020-10-21 2021-09-16 平安科技(深圳)有限公司 基于隐马尔可夫模型的离职预测方法及相关装置
CN113723689A (zh) * 2021-09-01 2021-11-30 畅捷通信息技术股份有限公司 企业员工离职预测模型的构建方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
CN108805413A (zh) 员工离职风险预测方法、装置、计算机设备以及存储介质
CN108711103A (zh) 个人贷款偿还风险预测方法、装置、计算机设备以及介质
CN113240509B (zh) 一种基于多源数据联邦学习的贷款风险评估方法
Rajamohamed et al. Improved credit card churn prediction based on rough clustering and supervised learning techniques
CN104809408B (zh) 一种基于差分隐私的直方图发布方法
CN110516910B (zh) 基于大数据的保单核保模型训练方法和核保风险评估方法
CN107454105A (zh) 一种基于ahp与灰色关联的多维网络安全评估方法
CN112614011B (zh) 电力配网物资需求预测方法和装置、存储介质及电子设备
CN109784848B (zh) 酒店订单处理方法和相关产品
Agovino et al. Employment of disabled people in the private sector. An analysis at the level of Italian Provinces according to article 13 of law 68/1999
CN113971527A (zh) 基于机器学习的数据风险评估方法及装置
CN110427991A (zh) 一种字符串匹配方法及装置
Li et al. Research on QoS service composition based on coevolutionary genetic algorithm
CN108764726A (zh) 根据规则对请求进行决策的方法及装置
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
Ablanedo-Rosas et al. Surrogate constraint normalization for the set covering problem
CN114154672A (zh) 一种用于客户流失预测的数据挖掘方法
Peng et al. The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process
CN114781717A (zh) 网点设备推荐方法、装置、设备和存储介质
CN115983900A (zh) 用户营销策略的构建方法、装置、设备、介质和程序产品
Rahman et al. Seed-Detective: A Novel Clustering Technique Using High Quality Seed for K-Means on Categorical and Numerical Attributes.
CN110377828A (zh) 信息推荐方法、装置、服务器及存储介质
CN109558887A (zh) 一种预测行为的方法和装置
Lenzen Aggregating input–output systems with minimum error
CN116467751A (zh) 一种带有隐私保护的关联规则学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication