CN113780673A - 离职预测模型的训练方法、装置及离职预测方法、装置 - Google Patents

离职预测模型的训练方法、装置及离职预测方法、装置 Download PDF

Info

Publication number
CN113780673A
CN113780673A CN202111105956.4A CN202111105956A CN113780673A CN 113780673 A CN113780673 A CN 113780673A CN 202111105956 A CN202111105956 A CN 202111105956A CN 113780673 A CN113780673 A CN 113780673A
Authority
CN
China
Prior art keywords
employee
training
prediction model
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111105956.4A
Other languages
English (en)
Inventor
胡蓉
时宝旭
谷加祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Tiantian Digital Chain Technology Co ltd
Original Assignee
Hubei Tiantian Digital Chain Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Tiantian Digital Chain Technology Co ltd filed Critical Hubei Tiantian Digital Chain Technology Co ltd
Priority to CN202111105956.4A priority Critical patent/CN113780673A/zh
Publication of CN113780673A publication Critical patent/CN113780673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Abstract

本申请提供一种离职预测模型的训练方法、装置及离职预测方法、装置,该离职预测模型的训练方法包括:获取样本集,所述样本集包括不同员工的数据;对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。由此,用以解决现有技术中对离职预测模型训练效果较差,导致离职预测模型在进行离职预测时准确性较差的问题。

Description

离职预测模型的训练方法、装置及离职预测方法、装置
技术领域
本申请涉及模型训练及模型应用技术领域,具体而言,涉及一种离职预测模型的训练方法、离职预测模型的训练装置、离职预测方法、离职预测装置、电子设备以及存储介质。
背景技术
随着社会经济的快速发展,企业在人员管理方面也愈加重视。维持员工稳定性是企业人员管理的一项基本工作。一旦员工离职,岗位出现空缺,企业为填补岗位空缺需要投入精力与时间去招聘相关人员,大大增加了人力资源成本。因此,对于企业而言,在员工有离职意向时,如果可以提前获知该员工的离职概率并制定相关处理方案,可以有效减轻公司的损失。
现有技术中,对员工离职概率的相关预测大多是通过对员工信息进行数据解析,并将解析结果输入至随机森林模型中,依靠随机森林模型来选择员工特征,但若解析结果中有噪声较大的样本,容易造成模型过拟合的问题,可能会影响一些与离职相关的重要特征的重要性排序,导致最终模型预测的准确性较低。
发明内容
有鉴于此,本发明的目的在于提供一种离职预测模型的训练方法、离职预测模型的训练装置、离职预测方法、离职预测装置、电子设备以及存储介质,用以解决现有技术中对离职预测模型训练效果较差,导致离职预测模型在进行离职预测时准确性较差的问题。
第一方面,本申请提供一种离职预测模型的训练方法,所述方法包括:获取样本集,所述样本集包括不同员工的数据;对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
在本申请实施例中,在获取到样本集后,对样本集进行处理,获得第一员工特征,对第一员工特征进行特征选择,获得第二员工特征。通过对第一员工特征进行特征选择,可以删除与员工离职不相关的第一员工特征,生成第二员工特征,第二员工特征表征与员工离职相关联的信息,有利于提高模型预测的准确率,同时也减少了模型处理的数据量,进而加快模型的训练速度。由此,可以基于第二员工特征将初始的离职预测模型训练至收敛,使得训练好的离职预测模型可以较为准确地预测员工离职概率。
一实施例中,所述样本集包括离职员工数据以及在职员工数据。
在本申请实施例中,样本集包括离职员工数据以及在职员工数据,由此可以提高样本数据全面性,以便更好地对离职预测模型进行训练,进而可以在一定程度上提升训练好的离职预测模型在进行离职预测时的准确性。
一实施例中,所述对所述样本集进行处理,获得第一员工特征,包括:将所述样本集划分为离散员工数据和连续化员工数据;基于独热编码算法,对所述离散员工数据进行转换,获得所述离散员工数据对应的独热编码特征;根据预设的处理规则,对所述连续化员工数据进行非线性变化处理,获得衍生特征;将所述独热编码特征和所述衍生特征汇总,获得所述第一员工特征。
在本申请实施例中,将样本集依据数据类型的不同划分为离散员工数据和连续化员工数据,使得模型采用不同的处理方式对不同数据类型所对应的数据进行处理,有利于提高训练离职预测模型的速度,并且也有助于进行特征扩充,提升特征多样性。其中,基于独热编码算法,将离散员工数据转化为独热编码特征,转化的独热编码特征解决了模型中分类器不易对离散数据进行处理的问题,在一定程度上也起到扩充特征的作用。在原有的连续化员工数据的基础上,对连续化员工数据进行非线性处理,以拓展相关特征,有助于提升特征多样性,充分利用特征之间的隐藏相关性,以便后续可以更好地对模型进行训练,进而使得训练好的离职预测模型能够准确地对员工的离职概率进行预测。
一实施例中,所述第一员工特征具有多个特征种类,所述基于所述第一员工特征进行特征选择,包括:对所述第一员工特征中各个特征种类的特征分别进行方差计算,获得与每个特征种类对应的方差值;基于预设阈值对所述方差值进行筛选,以获得所述第二员工特征。
在本申请实施例中,在获得第一员工特征后,对第一员工特征进行选择,具体地,利用方差选择法,对第一员工特征中各个特征种类的特征进行方差计算,根据预设好的阈值对各个种类的特征进行筛选,去除第一员工特征中与离职相关性不大的特征,获得第二员工特征。通过对各个种类的特征的筛选,将与离职相关性不大的第一员工特征剔除掉,有助于提高模型训练的速度,并且经过筛选后获得的第二员工特征都是与离职相关的特征,利用第二员工特征对离职预测模型进行训练,可以在一定程度上提升训练好的离职预测模型在进行离职概率预测时的准确性。
一实施例中,所述基于所述第一员工特征进行特征选择,包括:基于皮尔森相关系数算法,对所述第一员工特征进行处理,获得所述第二员工特征。
在本申请实施例中,在获得第一员工特征后,可以基于皮尔森相关系数算法,对第一员工特征中一些紧密相关的特征种类进行筛选去除,获得第二员工特征。可以理解,紧密相关的特征种类在模型训练中属于重复特征,为了保证模型训练的效果(例如,提升训练速度),需要将重复的相关特征种类去除,由此,输入到模型中的每个特征都是独一无二的,有助于提高模型训练的精确性。
一实施例中,所述基于所述第二员工特征对初始的离职预测模型进行训练,包括:基于主成分分析算法,对所述第二员工特征进行降维压缩处理,获得压缩数据;利用所述压缩数据对所述初始的离职预测模型进行训练。
在本申请实施例中,当存在大量的第二员工特征时,可以利用主成分分析算法,对第二员工特征进行压缩降维处理,获得压缩数据。再利用压缩数据对初始的离职预测模型进行训练,使得离职预测模型训练至收敛。可以理解,在模型训练中,若特征种类较多,模型需要基于每个特征种类进行训练,这样无疑会降低模型的训练效率。通过主成分分析算法,对多个特征种类各自对应的特征进行降维压缩处理,然后利用压缩数据对模型进行训练,可以在一定程度上提高模型的训练效率,同时可以减少用于存储数据的内存空间。并且利用主成分分析算法,可以使第二员工特征中的一些原本无法可视化的高维数据通过降维压缩处理变得可视化,可以在一定程度上提升与离职预测相关的特征的多样性。
第二方面,本申请提供了一种离职预测方法,包括:获取待预测员工的简历数据;将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
第三方面,本申请提供了一种离职预测模型训练装置,包括:获取模块,用于获取样本集,所述样本集包括不同员工的数据;处理模块,用于对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;选择模块,用于基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;训练模块,用于基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
一实施例中,所述处理模块还用于:将所述样本集划分为离散员工数据和连续化员工数据;基于独热编码算法,对所述离散员工数据进行转换,获得所述离散员工数据对应的独热编码特征;根据预设的处理规则,对所述连续化员工数据进行非线性变化处理,获得衍生特征;将所述独热编码特征和所述衍生特征汇总,获得所述第一员工特征。
第四方面,本申请提供了一种离职预测装置,包括:获取模块,用于获取待预测员工的简历数据;预测模块,用于将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
第五方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
第六方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被计算机运行时,执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的离职预测模型的训练方法流程图;
图2为本申请一实施例提供的离职预测方法流程图;
图3为本申请一实施例提供的离职预测模型的训练装置的结构框图;
图4为本申请一实施例提供的离职预测装置的结构框图;
图5为本申请一实施例提供的电子设备的内部结构示意图;
图标:离职预测模型训练装置10;获取模块11;处理模块12;选择模块13;训练模块14;离职预测装置20;获取模块21;预测模块22。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,本申请一实施例提供的一种离职预测模型的训练方法。该离职预测模型的训练方法可以包括如下步骤。
步骤S101,获取样本集,所述样本集包括不同员工的数据。
一实施例中,可以通过如下方式获取样本集。
首先,获取简历数据库。
接着,对简历数据库中的简历数据进行解析,获得解析结果。一实施例中,解析结果可以包括三种类型的数据,分别为结构化数据、半结构化数据和非结构化数据。需要说明的是,对数据进行解析的具体过程为本领域的现有技术,在此不作展开介绍。
然后,将解析结果中的结构化简历数据确定为样本集。
一实施例中,单个样本中的数据可以包括年龄,毕业年限,学习专业,毕业学校,工作年限,行业,薪资,对应公司的规模行业等特征。样本集可以包括离职员工数据以及在职员工数据。进一步地,为了保证样本集的多样性,还可以从其他公司、人才市场上获得各种简历数据,本申请对简历数据的来源不作限定。通过将各来源获取的简历数据作为样本集,由此可以提高样本数据全面性,以便更好地对离职预测模型进行训练,进而可以在一定程度上提升训练好的离职预测模型在进行离职预测时的准确性。
步骤S102:对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息。
一实施例中,对所述样本集进行处理,获得第一员工特征,可以包括以下步骤。
步骤S201,将所述样本集划分为离散员工数据和连续化员工数据。
一实施例中,将样本集中的数据划分为离散员工数据和连续化员工数据。可以理解,离散员工数据表征特征是固定的,不会轻易改变。连续化员工数据表征特征是连续不断的。示例性地,离散员工数据可以为专业、行业等,连续化员工数据可以为年龄和毕业年限等。
步骤S202,基于独热编码算法,对所述离散员工数据进行转换,获得所述离散员工数据对应的独热编码特征。
一实施例中,基于独热编码算法(one-hot),将离散员工数据转化为独热编码特征,转化的独热编码特征解决了模型中分类器不易对离散数据进行处理的问题,在一定程度上也起到扩充特征的作用。示例性地,离散数据中的专业种类特征包括软件工程,网络工程以及物理,通过独热编码对特征种类进行转换,软件工程对应的独热编码特征为100,网络工程对应的独热编码特征为010,物理对应的独热编码特征为001。
进一步地,若一员工样本数据的专业种类包括网络工程和物理两类,则该员工的专业种类对应独热编码特征为011。
需要说明的是,通过独热编码进行数据转换的具体过程为本领域现有技术,在此不作展开说明。
步骤S203,根据预设的处理规则,对所述连续化员工数据进行非线性变化处理,获得衍生特征。
一实施例中,若连续化员工数据的数值较大,且该连续化员工数据与员工离职呈非线性关系,可以对连续化员工数据进行分箱处理,将连续化员工数据变得离散化。通过将原本数量众多的连续化员工数据离散化,合并成较少的数据,离职预测模型基于这些离散化的数据进行模型训练,有利于提高训练的速度。
本实施例中,对连续化员工数据中的年龄进行分箱处理,可以设定每5岁进行一次分箱,例如:18-23岁用1表示,24-29岁用2表示,以此类推。
另一实施例中,若连续化员工数据的数值较大,且该连续化员工数据与员工离职呈线性关系,例如:薪资等特征。可以采用归一化的方式,对连续化员工数据进行处理,使得连续化员工数据在不影响本身数据意义的情况下缩小数值,加快模型的收敛速度和提升训练好的模型在进行离职预测时的预测精度。需要说明的是,归一化处理的具体过程为本领域技术人员所熟知的惯用技术手段,为保持说明书的简洁性,在此不再过多描述。
一实施例中,还可以通过分类聚合的方式对连续化员工数据进行处理,获得衍生特征。
本实施例中,可以根据单个样本中的数据,通过计算汇总,获得该样本所对应的总的工作年限,待在同一公司的最长工作年限以及总共工作的公司数量。
一实施例中,还可以对连续化员工数据进行非线性变化处理,获得衍生特征。
具体地,可以将总工作年限/公司数获取平均工作年限作为一衍生特征。或者对已存在的一些特征,通过函数进行变换,示例性地,可以将毕业年限的平方、毕业年限的立方、毕业年限代入对数函数获得的值以及毕业年限代入S型函数(Sigmoid函数)获得的值,这四个新特征作为衍生特征。
进一步地,通过函数变换得到的新衍生特征的数值可能会比较大,此时也可以通过归一化的方式,把衍生特征数据缩小,方便后续步骤的数据处理。
可以理解,一实施例中,原本与员工离职不相关的样本特征,通过函数变化后所得到的衍生的样本特征可以与员工离职相关。
进一步地,还可以利用特征之间的关联,获得衍生特征。
具体地,可以将某行业薪资的均值和每个样本的薪资对比,若样本的薪资大于行业均值则设为1,小于行业均值则设为0。通过利用特征之间的关联生成衍生特征,有助于拓展可供选择的特征量,一定程度上可以提高模型训练的准确性。
需要说明的是,上述获得的衍生特征的数值最好保持在十位数以下,方便后续步骤的数据处理。
步骤S204,将所述独热编码特征和所述衍生特征汇总,获得所述第一员工特征。
本实施例中,通过将独热编码特征和衍生特征进行汇总,得到第一员工特征,其中,第一员工特征用于表征员工的基本信息。
步骤S103:基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息。
一实施例中,第一员工特征具有多个特征种类,基于第一员工特征进行特征选择,包括:对第一员工特征中各个特征种类的特征分别进行方差计算,获得与每个特征种类对应的方差值;基于预设阈值对方差值进行筛选,以获得第二员工特征。
具体地,获得第一员工特征后,将第一员工特征中各个特征种类分别计算对应方差,将各个方差与预先设定好的阈值进行对比,将小于阈值的方差对应的特征种类的所有特征去除。需要说明的是,对特征进行方差计算的过程为现有技术,在此不再作展开说明。
可以理解,若该特征种类计算所得的方差较小,例如接近于0,那么表征该方差对应的特征种类不发散,也就是说,样本集中各样本在该特征上基本没有差异,这类特征对于模型的训练无贡献。需要说明的是,阈值的设定需要根据样本集的数量、员工所属的行业领域等等来进行设定。
一实施例中,所述基于所述第一员工特征进行特征选择,还可以包括:基于皮尔森相关系数算法,对所述第一员工特征进行处理,获得所述第二员工特征。
可以理解,在本申请实施例中,在获得第一员工特征后,可以基于皮尔森相关系数算法,对第一员工特征中一些紧密相关的特征种类进行筛选去除,获得第二员工特征。可以理解,紧密相关的特征种类在模型训练中属于重复特征,为了保证模型训练的效果(例如,提升训练速度),需要将重复的相关特征种类去除,由此,输入到模型中的每个特征都是独一无二的,有助于提高模型训练的精确性。需要说明的是皮尔森算法是现有技术,在此不再多加描述。
步骤S104:基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
本实施例中,若第二员工特征中的特征种类不多,可以将第二员工特征直接导入到初始的离职预测模型中进行训练,使得离职预测模型能够快速收敛,实现对员工离职的精确预测。
若第二员工特征中的特征种类较多,则可以基于主成分分析算法(PCA,PrincipalComponent Analysis),对所述第二员工特征进行压缩降维处理,获得压缩数据。再利用压缩数据对初始的离职预测模型进行训练,使得离职预测模型训练至收敛。
可以理解,在模型训练中,若特征种类较多,模型需要基于每个特征种类进行训练,这样无疑会降低模型的训练效率。通过主成分分析算法,对多个特征种类各自对应的特征进行降维压缩处理,然后利用压缩数据对模型进行训练,可以在一定程度上提高模型的训练效率,同时可以减少用于存储数据的内存空间。并且利用主成分分析算法,可以使第二员工特征中的一些原本无法可视化的高维数据通过降维压缩处理变得可视化,可以在一定程度上提升与离职预测相关的特征的多样性。需要说明的是,主成分分析算法是现有技术,为保持说明书的简洁性,在此不再多加描述。
一实施例中,离职预测模型可以为XGBOOST模型、随机森林模型以及GBDT模型中的一种。
本实施例中,采用XGBOOST模型作为离职预测模型。
可以理解,GBDT模型仅支持CART作为基分类器,而XGBOOST模型支持多种类型的基分类器,例如线性分类器等。在不同应用场景下,XGBOOST模型通过选择合适的基分类器,在一定程度上,能够提高模型的性能(准确性等方面)。
进一步地,XGBOOST模型相对于随机森林模型,是两种不同的优化方式,随机森林注重减少计算结果的方差,而XGBOOST模型注重的是计算结果的偏差。可以理解,在对员工进行离职预测时,偏差相对于方差更能够精确预测员工离职的概率。
请参阅图2,本申请一实施例提供的一种离职预测方法,该离职预测方法可以包括如下步骤。
步骤S301:获取待预测员工的简历数据。
获取想要预测的员工对应的简历数据,需要说明的是,该员工的简历数据中需要包括与上述离职预测模型训练方法中选择得到的第二员工特征中的特征种类。
步骤S302:将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
将待预测的员工简历数据输入到已经训练至收敛的离职预测模型中,最终获得该员工的离职概率。
请参阅图3,基于同一发明构思,本申请实施例中还提供一种离职预测模型训练装置。本实施例中,离职预测模型训练装置可以包括获取模块,处理模块、选择模块以及训练模块。
获取模块,用于获取样本集,所述样本集包括不同员工的数据;处理模块,用于对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;选择模块,用于基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;训练模块,用于基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
一实施例中,获取模块所获取的样本集包括离职员工数据以及在职员工数据。
本申请实施例中,处理模块还用于:将样本集划分为离散员工数据和连续化员工数据;基于独热编码算法,对离散员工数据进行转换,获得离散员工数据对应的独热编码特征;根据预设的处理规则,对连续化员工数据进行非线性变化处理,获得衍生特征;将独热编码特征和衍生特征汇总,获得第一员工特征。
一实施例中,选择模块还用于:所述第一员工特征具有多个特征种类,所述基于所述第一员工特征进行特征选择,包括:对所述第一员工特征中各个特征种类的特征分别进行方差计算,获得与每个特征种类对应的方差值;基于预设阈值对所述方差值进行筛选,以获得所述第二员工特征。
一实施例中,选择模块还用于:所述基于所述第一员工特征进行特征选择,包括:基于皮尔森相关系数算法,对所述第一员工特征进行处理,获得所述第二员工特征。
一实施例中,训练模块还用于:所述基于所述第二员工特征对初始的离职预测模型进行训练,包括:基于主成分分析算法,对所述第二员工特征进行降维压缩处理,获得压缩数据;利用所述压缩数据对所述初始的离职预测模型进行训练。
可以理解,本申请提供的离职预测模型训练装置与本申请提供的离职预测模型训练方法对应,为使说明书简洁,相同或相似部分可以参照图像处理方法部分的内容,在此不再赘述。
请参阅图4,基于同一发明构思,本申请实施例中还提供一种离职预测装置。本实施例中,离职预测装置可以包括获取模块和预测模块。
获取模块,用于获取待预测员工的简历数据;预测模块,用于将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
可以理解,本申请提供的离职预测装置与本申请提供的离职预测方法对应,为使说明书简洁,相同或相似部分可以参照离职预测方法部分的内容,在此不再赘述。
上述离职预测训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中,也可以以软件形式存储于服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述离职预测训练方法和/或离职预测训练测装置可以实现为一种计算机可读指令的形式,计算机可读指令可以在如图5所示的电子设备上运行。
本申请实施例还提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,该处理器执行该程序时实现上述的离职预测训练方法。
图5为根据本申请的一个实施例的电子设备的内部结构示意图,电子设备可以为服务器。请参阅图5,该电子设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置、显示屏和网络接口。其中,该电子设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行本申请各实施例的一种离职预测训练方法,该方法的具体实现过程可参考图1的具体内容,在此不再赘述。该电子设备的处理器用于提供计算和控制能力,支撑整个电子设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种离职预测训练方法。电子设备的输入装置用于各个参数的输入,电子设备的显示屏用于进行显示,电子设备的网络接口用于进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于同一发明构思,本申请实施例提供的一种计算机可读存储介质,其上存储有计算机可读指令,该程序被处理器执行时实现上述的离职预测模型训练方法中的步骤。
如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种离职预测模型的训练方法,其特征在于,包括:
获取样本集,所述样本集包括不同员工的数据;
对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;
基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;
基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
2.如权利要求1所述的离职预测模型的训练方法,其特征在于,所述样本集包括离职员工数据以及在职员工数据。
3.如权利要求1或2所述的离职预测的模型训练方法,其特征在于,所述对所述样本集进行处理,获得第一员工特征,包括:
将所述样本集划分为离散员工数据和连续化员工数据;
基于独热编码算法,对所述离散员工数据进行转换,获得所述离散员工数据对应的独热编码特征;
根据预设的处理规则,对所述连续化员工数据进行非线性变化处理,获得衍生特征;
将所述独热编码特征和所述衍生特征汇总,获得所述第一员工特征。
4.如权利要求1所述的离职预测模型的训练方法,其特征在于,所述第一员工特征具有多个特征种类,所述基于所述第一员工特征进行特征选择,包括:
对所述第一员工特征中各个特征种类的特征分别进行方差计算,获得与每个特征种类对应的方差值;
基于预设阈值对所述方差值进行筛选,以获得所述第二员工特征。
5.如权利要求1所述的离职预测模型的训练方法,其特征在于,所述基于所述第一员工特征进行特征选择,包括:
基于皮尔森相关系数算法,对所述第一员工特征进行处理,获得所述第二员工特征。
6.如权利要求1所述的离职预测模型的训练方法,其特征在于,所述基于所述第二员工特征对初始的离职预测模型进行训练,包括:基于主成分分析算法,对所述第二员工特征进行降维压缩处理,获得压缩数据;利用所述压缩数据对所述初始的离职预测模型进行训练。
7.一种离职预测方法,其特征在于,包括:
获取待预测员工的简历数据;
将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
8.一种离职预测模型的训练装置,其特征在于,包括:
获取模块,用于获取样本集,所述样本集包括不同员工的数据;
处理模块,用于对所述样本集进行处理,获得第一员工特征,所述第一员工特征用于表征员工的基本信息;
选择模块,用于基于所述第一员工特征进行特征选择,获得第二员工特征,所述第二员工特征表征与员工离职相关联的信息;
训练模块,用于基于所述第二员工特征对初始的离职预测模型进行训练,直至模型收敛,获得训练好的离职预测模型。
9.如权利要求8所述的离职预测模型的训练装置,其特征在于,所述处理模块还用于:将所述样本集划分为离散员工数据和连续化员工数据;基于独热编码算法,对所述离散员工数据进行转换,获得所述离散员工数据对应的独热编码特征;根据预设的处理规则,对所述连续化员工数据进行非线性变化处理,获得衍生特征;将所述独热编码特征和所述衍生特征汇总,获得所述第一员工特征。
10.一种离职预测装置,其特征在于,包括:
获取模块,用于获取待预测员工的简历数据;
预测模块,用于将所述简历数据输入到训练好的离职预测模型中,获得所述待测员工的离职的概率,其中,所述训练好的离职预测模型通过前述方式训练得到。
11.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的一种离职预测模型训练方法或实现如权利要求8-9任一项所述的一种离职预测模型训练装置的功能。
12.一种存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的一种离职预测方法或实现如权利要求8-9任一项所述的一种离职预测模型训练装置的功能。
CN202111105956.4A 2021-09-22 2021-09-22 离职预测模型的训练方法、装置及离职预测方法、装置 Pending CN113780673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111105956.4A CN113780673A (zh) 2021-09-22 2021-09-22 离职预测模型的训练方法、装置及离职预测方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111105956.4A CN113780673A (zh) 2021-09-22 2021-09-22 离职预测模型的训练方法、装置及离职预测方法、装置

Publications (1)

Publication Number Publication Date
CN113780673A true CN113780673A (zh) 2021-12-10

Family

ID=78852492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111105956.4A Pending CN113780673A (zh) 2021-09-22 2021-09-22 离职预测模型的训练方法、装置及离职预测方法、装置

Country Status (1)

Country Link
CN (1) CN113780673A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925287A (zh) * 2022-07-22 2022-08-19 天津大学 基于大数据的智能知识管理系统与方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925287A (zh) * 2022-07-22 2022-08-19 天津大学 基于大数据的智能知识管理系统与方法
CN114925287B (zh) * 2022-07-22 2022-11-18 天津大学 基于大数据的智能知识管理系统与方法

Similar Documents

Publication Publication Date Title
Dentcheva et al. Two-stage stochastic optimization problems with stochastic ordering constraints on the recourse
WO2022126961A1 (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN111652468A (zh) 业务流程的生成方法、装置、存储介质及计算机设备
CN111738331A (zh) 用户分类方法及装置、计算机可读存储介质、电子设备
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN113780673A (zh) 离职预测模型的训练方法、装置及离职预测方法、装置
CN111950623B (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN113687825A (zh) 一种软件模块的构建方法、装置、设备及存储介质
CN117522538A (zh) 招投标信息处理方法、装置、计算机设备及存储介质
US10460010B2 (en) Computing scenario forecasts using electronic inputs
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
KR102185359B1 (ko) 메뉴 변경에 따른 서비스 사용변화량과 연동되는 서비스 복원 장치
US8374897B2 (en) Apparatus and method for forecasting qualitative assessments
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
CN117135034B (zh) 一种用于告警智能收敛的规则分析筛选方法及装置
JP7163463B1 (ja) 業務分析装置、業務分析方法、およびプログラム
CN117312991B (zh) 一种分类识别系统的构建方法及其相关设备
CN110874612B (zh) 时段预测方法、装置、计算机设备和存储介质
CN116796133A (zh) 数据分析方法、装置、计算机设备及存储介质
CN113408925A (zh) 一种基于大数据的企业发展状态评估系统及方法
CN116611936A (zh) 数据分析方法、装置、计算机设备及存储介质
CN116703487A (zh) 基于人工智能的数据分析方法、装置、设备及存储介质
CN116737792A (zh) 数据集成的方法、装置、设备以及存储介质
CN117421207A (zh) 智能评估影响点测试方法、装置、计算机设备及存储介质
CN118035560A (zh) 基于人工智能的数据推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination