CN111709714B - 基于人工智能的流失人员预测方法和装置 - Google Patents

基于人工智能的流失人员预测方法和装置 Download PDF

Info

Publication number
CN111709714B
CN111709714B CN202010555668.8A CN202010555668A CN111709714B CN 111709714 B CN111709714 B CN 111709714B CN 202010555668 A CN202010555668 A CN 202010555668A CN 111709714 B CN111709714 B CN 111709714B
Authority
CN
China
Prior art keywords
feature
person
codes
feature code
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010555668.8A
Other languages
English (en)
Other versions
CN111709714A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202010555668.8A priority Critical patent/CN111709714B/zh
Publication of CN111709714A publication Critical patent/CN111709714A/zh
Application granted granted Critical
Publication of CN111709714B publication Critical patent/CN111709714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

本发明提供了一种基于人工智能的流失人员预测方法和装置;方法包括:根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得样本流失人员的特征编码序列;在样本流失人员的特征编码序列所包括的特征编码子序列中,确定出现频率超过频率阈值的特征编码子序列作为频繁特征编码序列;将频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征流失人员集合的共性的强相关特征编码;基于强相关特征编码构造训练样本,基于训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。通过本发明,能够高效且准确的预测流失人员。

Description

基于人工智能的流失人员预测方法和装置
技术领域
本发明涉及人工智能领域和大数据技术领域,尤其涉及一种基于人工智能的流失人员预测方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展,并广泛应用于各种行业。
以预测流失人员的应用场景为例,人员流失是每个企业都会面临的难题,对于企业公司而言,员工流失是组织机构的一项主要的成本,同时找到合适的替代者需要大量的时间精力金钱成本,对公司的业务发展造成巨大的阻碍。因此,预测人事变动成为许多组织机构和公司的迫切需求,也是人力资源系统不断健全完善必经的重要途径。除此之外,通过模型分析流失员工的关键因素,通过采取适当措施进行良性诱导和转化,可以起到事半功倍的效果,因此人员流失预估模型对于社会发展具有重要的意义。
然而,相关技术对于如何高效且准确的预测流失人员尚无有效的方案。
发明内容
本发明实施例提供一种基于人工智能的流失人员预测方法、装置、电子设备及计算机可读存储介质,能够高效且准确的预测流失人员。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的流失人员预测方法,所述方法包括:
根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列;
在每个所述样本流失人员的特征编码序列所包括的特征编码子序列中,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
其中,所述频繁特征编码序列中包括所述样本流失人员的基础属性特征编码和/或历史任职属性特征编码;
将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码;
基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
本发明实施例提供一种基于人工智能的流失人员预测装置,包括:
编码模块,用于根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列;
选取模块,用于在每个所述样本流失人员的特征编码序列所包括的特征编码子序列中,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;其中,所述频繁特征编码序列中包括所述样本流失人员的基础属性特征编码和/或历史任职属性特征编码;
融合模块,用于将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码;
识别模块,用于基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
上述方案中,所述编码模块,还用于针对所述流失人员集合中每个样本流失人员执行以下处理:在所述样本流失人员的员工数据中,提取基础属性类型和历史任职属性类型的数据,并基于所提取的数据构建多个员工特征,其中,所述员工特征包括所述基础属性特征和所述历史任职属性特征;根据每个所述员工特征的特征值,从相应类型的编码表查找所述特征值的编码值;将对应每个所述员工特征的特征值所查找到的编码值进行组合,以获得所述样本流失人员的特征编码序列。
上述方案中,所述编码模块,还用于对每个所述员工特征进行以下预处理操作:确定所述样本流失人员对应于所述员工特征的特征值的缺失数量、以及对应于所述员工特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的员工特征进行过滤,以获得过滤后的特征;舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征进行特征值填充;将所述过滤后的特征中的连续型特征对应的特征值进行离散处理,以获得离散型特征;将所述离散处理后得到的离散型特征和所述过滤后的特征中的离散型特征,作为用于进行编码处理的员工特征。
上述方案中,所述选取模块,还用于在每个所述样本流失人员的特征编码序列中,多次选取基础属性特征编码和/或历史任职属性特征编码,并将每次选取的特征编码进行组合,以获得多个不同的特征编码子序列;其中,每个所述特征编码子序列中均包含归属于不同样本流失人员的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。
上述方案中,所述选取模块,还用于在所述序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项特征编码序列前缀确定为目标一项特征编码序列;在所述目标一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为所述频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。
上述方案中,所述融合模块,还用于确定所述频繁特征编码序列中的每个特征编码在所述流失人员集合中的出现频率,并将所述出现频率作为表征所述特征编码的重要程度的权重;将所述特征编码的权重和对应的特征编码进行加权,以获得表征所述流失人员集合的共性的强相关特征编码。
上述方案中,所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;所述识别模块,还用于将所述流失人员集合中每个样本流失人员的强相关特征编码和流失人员概率标签构造成训练样本;基于构造的多个训练样本,训练所述多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得所述集成学习模型。
上述方案中,所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;所述识别模块,还用于获取所述待预测人员的员工数据;从所述待预测人员的员工数据中提取所述待预测人员的特征;通过所述多个基分类模型,分别基于所述待预测人员的特征进行分类处理,以获得每个基分类模型的分类概率;将所述多个分类概率通过集合策略进行整合,以获得所述待预测人员成为流失人员的概率。
上述方案中,所述基于人工智能的流失人员预测装置还包括:衍生模块,用于从所述频繁特征编码序列中提取多个特征编码;将提取的多个特征编码进行衍生处理,以获得所述流失人员集合的衍生特征编码;其中,所述衍生处理的方式包括以下至少之一:将所述多个特征编码中的单一变量进行基础转换;将所述多个特征编码中的多变量进行组合;在所述多个特征编码中添加时间维度;根据决策树的路径将所述多个特征编码进行组合;所述识别模块,还用于基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述衍生特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
上述方案中,所述基于人工智能的流失人员预测装置还包括:相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;确定所述多个非强相关特征编码的方差,并过滤掉方差低于方差阈值的非强相关特征编码;将过滤后得到的非强相关特征编码进行组合,以形成非强相关特征编码集合;确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码;所述识别模块,还用于基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述预备强相关特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的流失人员预测方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的流失人员预测方法。
本发明实施例具有以下有益效果:
通过序列模式挖掘流失人员群体频繁特征编码序列,解决了相关技术构建特征比较粗糙的问题;并且对频繁特征编码序列中的特征编码按照重要程度进行融合,并基于融合后的特征编码训练分类模型,不仅使得模型泛化能力更高,而且提高了训练完成的机器学习模型预测流失人员的准确性。
附图说明
图1是本发明实施例提供的流失人员预测系统100的架构示意图;
图2是本发明实施例提供的电子设备500的结构示意图;
图3是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图;
图4是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图;
图5是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图;
图6是本发明实施例提供的基于人工智能的流失人员预测方法的应用示意图;
图7是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)云技术(Cloud Technology),基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
2)大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
3)序列模式,是指给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于最小支持度阈值。
4)数据的标准化(Normalization),是将数据按比例缩放,使之落入一个小的特定区间。可以去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据的标准化的处理方式包括数据的归一化处理,即将数据统一映射到[0,1]区间上。常用的数据归一化的方法为Min-Max标准化,也称离差标准化,是指对原始数据的线性变换,使标准化结果落到[0,1]区间。
5)训练样本,或称训练数据,是经过预处理后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与训练过程。
6)神经网络模型的参数,在神经网络模型的训练过程中自动更新或自行学习所获得的参数,包括有特征权重、偏置等。
7)梯度,在神经网络模型的训练过程中用于对模型参数进行梯度计算。模型计算节点每次根据各自所接收的样本数据的子集训练神经网络模型的过程均包括有正向传播和反向传播。其中,正向传播是指在训练模型中输入样本数据的子集并获得预测结果,计算预测结果与期望结果的差异的过程;反向传播则是指按照输出层、中间层、输入层的顺序,在根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新模型参数。
8)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
9)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
10)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易数据的快速查询。
11)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
12)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,并被用于更新状态数据库。
人员(或称员工)流失是每个企业都会面临的难题,对于企业公司而言,员工流失是组织机构的一项主要的成本,同时找到合适的替代者需要大量的时间精力金钱成本,对公司的业务发展造成巨大的阻碍。因此,预测人事变动成为许多组织机构和公司的迫切需求,也是人力资源系统不断健全完善必经的重要途径。除此之外,通过模型分析流失员工的关键因素,通过采取适当措施进行良性诱导和转化,可以起到事半功倍的效果,因此人员流失预估模型对于社会发展具有重要的意义。
相关技术中,进行人员流失预估的方法有基于逻辑回归预测模型、基于朴素贝叶斯等分类器构建概率模型、以及基于神经网络深度模型进行预测,下面分别介绍这些方法。
(1)基于逻辑回归预测模型方法首先人工构造与人员流失相关的因素特征,以人员流失概率连续值为构建逻辑回归模型拟合特征与目标值得到模型参数,通过该模型对新员工特征进行预测得到流失概率。
(2)基于朴素贝叶斯等分类器构建概率模型通过在流失样本与非流失样本的类别标签样本上训练一个区分人员流失概率的分类模型,由于朴素贝叶斯模型简单且本身具有良好的解释性,因此被广泛应用。
(3)基于神经网络深度模型方法同样先构造于人员流失率相关的特征,利用随机梯度等方法最小化损失从而得到预测值和真实值之间的误差最小化模型,基于该模型输入新的用户样本特征进行预测。
上述方法在应用过程中,会出现以下技术问题:
(1)特征构建过程没有充分挖掘出与人员流失强相关的特征,没有对各特征的特征值进行重要性衡量,忽略了某些特征值是影响人员流失的重要影响因素。
(2)朴素贝叶斯基于特征独立性假设,而实际应用场景中数据特征之间往往是不独立,即假设不严格成立。
(3)只进行特征选择但没有对特征值的选取,没有充分利用强相关特征值进行学习,另外神经网络模型的方法往往较耗时。
针对上述问题,本发明实施例提供一种基于人工智能的流失人员预测方法、装置、电子设备及计算机可读存储介质,能够高效且准确的预测流失人员。下面说明本发明实施例提供的基于人工智能的流失人员预测方法的示例性应用,本发明实施例提供的基于人工智能的流失人员预测方法可以由各种电子设备实施,例如可以由服务器实施。
需要说明的是,上述的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,本发明在此不做限制。
下面,以由服务器实施为例说明本发明实施例,参见图1,图1是本发明实施例提供的流失人员预测系统100的架构示意图。其中,流失人员预测系统100包括有:服务器200、网络300和终端400,将分别进行说明。
服务器200,用于获取训练样本,并基于训练样本训练机器学习模型,以获得用于预测流失人员的机器学习模型(将在下文详细说明训练机器学习模型的过程);还用于通过数据库获取待预测人员的员工数据,并基于训练完成的机器学习模型判断待预测人员成为流失人员的概率(或称流失概率),统计概率高于流失概率阈值的员工,并将统计的员工名单发送至管理人员(或称管理层)所属的终端400。
网络300用于作为服务器200和终端400之间通信的媒介,可以是广域网或者局域网,又或者是二者的组合。
终端400用于接收服务器200发送的流失概率高于流失概率阈值的员工名单,并向管理人员进行展示,以使管理人员对员工名单上的员工进行约谈以降低员工流失的可能性。
本发明实施例可以广泛应用于人力资源构建、以及人员培训管理等领域,例如,在人力资源应用平台,挖掘预估流失人员离职倾向以及影响其决定性因素,企业可以提前做出应对措施避免补救,或者提前准备后备人才,减少交接成本和业务延期;对于猎头猎聘领域,通过预估公司流失人员和可能离职原因,可以帮助其更好地进行定向猎聘和说服候选人,提高成交率。除此以外,与人员流失预估相关的场景都属于该发明的潜在应用场景。
接下来说明本发明实施例提供的用于流失人员预测的电子设备的结构,电子设备可以是图1所示的服务器200。下面以电子设备是图1所示的服务器200为例说明该电子设备的结构,参见图2,图2是本发明实施例提供的电子设备500的结构示意图,图2所示的电子设备500包括:至少一个处理器510、存储器540和至少一个网络接口520。电子设备500中的各个组件通过总线系统530耦合在一起。可理解,总线系统530用于实现这些组件之间的连接通信。总线系统530除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统530。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器540包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器540旨在包括任意适合类型的存储器。存储器540可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器540能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统541,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块542,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本发明实施例提供的基于人工智能的流失人员预测装置可以采用软件方式实现,图2示出了存储在存储器540中的基于人工智能的流失人员预测装置543,其可以是程序和插件等形式的软件,包括以下软件模块:编码模块5431、选取模块5432、融合模块5433、以及识别模块5434。这些模块是可以是逻辑功能模块,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于人工智能的流失人员预测装置543可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的流失人员预测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,以由图1中的服务器200实施本发明实施例提供的基于人工智能的流失人员预测方法为例说明。参见图3,图3是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图,将结合图3示出的步骤进行说明。
在步骤S101中,根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得样本流失人员的特征编码序列。
在一些实施例中,将流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,按照所涉及的类型进行编码处理,以获得样本流失人员的特征编码序列。
在一些实施例中,针对流失人员集合中每个样本流失人员执行以下处理:在样本流失人员的员工数据中,提取基础属性类型(或称基础属性维度)和历史任职属性类型(或称历史经历维度)的数据,并基于所提取的数据构建多个员工特征,其中,员工特征包括基础属性特征和历史任职属性特征;根据每个员工特征的特征值,从相应类型的编码表查找特征值的编码值;将对应每个员工特征的特征值所查找到的编码值进行组合,以获得样本流失人员的特征编码序列。
员工数据包括:职位、年龄、性别、家与公司的距离(地图距离、是否有班车点)、教育状况(学历)、加班情况(上下班打卡时间)、出差情况、本公司工作年限、总工作年限、婚姻状态(是否已婚、是否有孩)、绩效情况、历史上级评价、报酬(涨幅、股权或其他激励)、参加公司培训次数、参加公司组织活动次数、曾任职公司数量、历史公司的在职年限、职级(晋升情况、距离上次晋升时间)、工作满意度(包括上级、企业文化)、以及入职投递简历与现工作岗位匹配度等。这里的员工数据可以根据人力资源系统员工信息以及问卷调查形式进行采集。这里,利用历史离职人员样本构建流失人员集合,流失人员集合中的样本数量会随着时间推移、人员流动不断扩充,意味着系统训练样本增加,模型准确率也会不断提升,直到到达较高准确率的临界点。
参见表1、表2、表3、表4和表5,表1是职位特征的编码表,表2是年龄特征的编码表,表3是性别特征的编码表,表4是家与公司的距离特征的编码表,表5是家附近是否有班车点特征的编码表。
表1职位特征的编码表
表2年龄特征的编码表
表3性别特征的编码表
性别 性别编码
性别a
性别b
表4家与公司的距离特征的编码表
家与公司的距离 距离编码
1公里以内 距离区间a
1-2公里以内 距离区间b
2-5公里以内 距离区间c
5公里-10公里 距离区间d
10公里-15公里 距离区间e
15公里以上 距离区间f
表5家附近是否有班车点特征的编码表
家附近是否有班车点 编码
班车1
班车0
作为示例,首先获得样本流失人员的员工数据,并将员工数据中的关键字段(或特征)进行提取,例如年龄、性别和家附近是否有班车点等;然后根据每个员工特征的特征值,从相应类型的编码表查找特征值的编码值,例如该员工性别男,则查找编码表后获取的编码值为性别a;最后将对应每个员工特征的特征值所查找到的编码值进行组合,以获得样本流失人员的特征编码序列。
举例来说,样本流失人员的员工数据为{年龄18岁,性别男,家附近有班车点},将其进行编码处理后,获得的样本流失人员的特征编码序列为{年龄a,性别a,班车1}。
在一些实施例中,还可以对多个员工特征中的每个员工特征进行以下预处理操作:确定样本流失人员对应于员工特征的特征值的缺失数量、以及对应于员工特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的员工特征进行过滤,以获得过滤后的特征;舍弃对应于过滤后的特征的异常特征值,并针对过滤后的特征进行特征值填充;将过滤后的特征中的连续型特征对应的特征值进行离散处理,以获得离散型特征;将离散处理后得到的离散型特征和过滤后的特征中的离散型特征,作为用于进行编码处理的员工特征。
这里,缺失值过滤阈值a=b×G,G∈[0,1],其中,b为样本数据量,G为缺失值过滤系数,缺失值过滤系数越小,过滤门槛越高,过滤后特征的数量越少、且过滤后特征所对应的特征值更完整。相同数量阈值c=d×M,M∈[0,1],其中,d为样本数据量,M为相同数量过滤系数。若某个特征的取值(即特征值)90%都是一样的、或者所有取值都是一样的,则该特征称为单值特征,需要将单值特征进行过滤。因为对应于员工特征的相同特征值的数量越大,对于后续筛选样本流失人员的强相关特征编码用处越小,所以需要将其过滤。
作为示例,舍弃对应于过滤后的特征的异常特征值,例如,根据特征分布,舍弃特征取值太大的异常值;针对过滤后的特征进行特征值填充,例如,连续型特征中对应缺失的特征取值用均值填充,离散型特征中对应缺失的特征取值用常数填充。
作为示例,离散处理可以是分箱操作,包括等距分箱操作和等频分箱操作,例如,表2中年龄特征是连续型特征,将年龄特征对应的特征值等频分箱操作后离散型年龄特征为{18-25,26-30,31-35,36-40,41-45,46-50,51-60,60以上};表3中的性别特征是离散型特征,因此无需对性别特征进行离散处理。
本发明实施例中,对于后续筛选样本流失人员的强相关特征编码进行过滤和填充,能够更好的构建流失人员的强相关特征编码,从而可以提高后续基于强相关特征编码训练获得的机器学习模型预测流失人员的准确性;将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小训练机器学习模型的时间和空间开销,并且可以提高机器学习模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服员工数据中隐藏的缺陷,使机器学习模型的训练结果更加稳定。
在步骤S102中,在每个样本流失人员的特征编码序列所包括的特征编码子序列中,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列。
这里,特征编码子序列中包括样本流失人员的基础属性特征编码和/或历史任职属性特征编码;频繁特征编码序列中包括样本流失人员的基础属性特征编码和/或历史任职属性特征编码。
在一些实施例中,在每个样本流失人员的特征编码序列中,多次选取(多个)基础属性特征编码和/或历史任职属性特征编码,并将每次选取的特征编码进行组合,以获得多个不同的特征编码子序列;其中,每个特征编码子序列中均包含归属于不同样本流失人员的特征编码序列中的特征编码;在多个不同的特征编码子序列形成的序列集合中,选取出现频率超过频率阈值(或称最小支持度阈值)的特征编码子序列,以作为频繁特征编码序列。
作为示例,首先在多个不同样本流失人员的特征编码序列中提取的所有特征编码,然后在所有特征编码中随机抓取多个特征编码以形成特征编码子序列。例如:流失人员A的特征编码序列为{年龄a,性别a,班车1};流失人员B的特征编码序列为{年龄b,性别b,班车0};那么抓取的子序列可能为{年龄a,年龄b}、{年龄a,性别b,班车1}或{性别a,班车0},只需要每次抓取的多个特征编码至少归属于两个不同的流失人员即可。
作为示例,在序列集合中,根据出现频率选取频繁特征编码序列的过程具体为:在序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于一项特征编码序列前缀的投影数据集;当对应于一项特征编码序列前缀的投影数据集不为空时,将出现频率超过频率阈值的一项特征编码序列前缀确定为目标一项特征编码序列;在目标一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于n项特征编码序列前缀的投影数据集;当对应于n项特征编码序列前缀的投影数据集为空、且n项特征编码序列前缀的出现频率超过频率阈值时,将n项特征编码序列前缀确定为频繁特征编码序列;其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。
这里,频率阈值或称最小支持度阈值,最小支持度阈值为min_sup=e×f,其中,e为流失人员样本数量,f为最小支持率,最小支持率f可根据训练样本集的数量进行调整,当训练样本集的数量越大时,最小支持率越大。
下面,以样本流失人员的数量是2,频率阈值是0.5为例,说明根据出现频率选取频繁特征编码序列的具体过程。参见表6,表6是样本流失人员的特征编码序列表。
表6样本流失人员的特征编码序列表
根据表6,可统计获得样本流失人员的所有类型特征的出现频率如表7所示。
表7样本流失人员的所有类型特征的出现频率
满足最小支持度阈值的一项特征编码序列前缀和与其对应后缀(即投影数据集)如表8所示。
表8一项特征编码序列前缀和与其对应后缀
同样地,满足最小支持度阈值的二项特征编码序列前缀和与其对应后缀(即投影数据集)如表9所示。
表9二项特征编码序列前缀和与其对应后缀
同样地,满足最小支持度阈值的三项特征编码序列前缀和与其对应后缀(即投影数据集)如表10所示。
表10三项特征编码序列前缀和与其对应后缀
三项前缀 对应后缀
距离区间e、年限c、绩效c
上面例子中,最后确定的频繁特征编码序列是{距离区间e、年限c、绩效c}。
本发明实施例从样本流失人员的特征编码序列中挖掘频繁特征编码序列,频繁特征编码序列中包括的特征编码是流失人员群体所普遍具备的共同特征编码,针对此特征编码进行后续训练,可以提高训练获得的机器学习模型预测流失人员的准确性。本发明实施例还可以解决相关技术中无法对员工特征值进行重要性量化和进一步分析处理,以及忽略了某些特征值可能是区分流失人员的重要影响因素的技术问题,剔除影响不明显的特征,极大程度地减少了噪音特征的影响,提高模型预测的准确率。
在步骤S103中,将频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征流失人员集合的共性的强相关特征编码。
在一些实施例中,确定频繁特征编码序列中的每个特征编码在流失人员集合中的出现频率,并将出现频率作为表征特征编码的重要程度的权重;将特征编码的权重和对应的特征编码进行加权,以获得表征流失人员集合的共性的强相关特征编码。
作为示例,加权的权重设置为每个特征编码在流失人员集合中的出现频率(或称频次占比),例如,若特征编码(或称字段类型)“职位A-d”出现的频次占比为0.7,那么该特征编码加权权重为0.7;特征编码“加班时长d”出现频次占比为0.56,那么该字段类型加权权重为0.56。通过每个特征编码在流失人员集合中的出现频率对该特征编码进行加权,也就是说,流失人员群体越普遍存在的特征编码(或称特征类型值),该特征编码的加权的权重越大。
本方式实施例通过将每个特征编码按照重要程度进行融合,可以解决相关技术中存在的特征构建过程没有充分挖掘出与人员流失强相关的特征,没有对各特征的特征值进行重要性衡量,忽略了某些特征值是影响人员流失的重要影响因素的技术问题,提高模型预测的准确率。
在步骤S104中,基于流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型。
在一些实施例中,当机器学习模型为神经网络模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码和流失人员概率标签构造成训练样本;提取训练样本中样本流失人员的特征,将提取的特征输入至神经网络模型,以获得预测结果,并计算预测结果与期望结果(即流失人员标签)的差异,根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新神经网络模型的参数,以获得训练完成的神经网络模型。
本发明实施例搭建基于样本流失人员的强相关特征编码的神经网络模型,充分利用与流失人员强关联的因素进行学习,使得训练后的神经网络模型预测流失人员的准确性更高。
在另一些实施例中,当机器学习模型是集成学习模型时,集成学习模型包括多个基分类模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码和流失人员概率标签构造成训练样本;基于训练样本,训练多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得集成学习模型。
这里,集合策略包括平均法(例如,简单平均法和加权平均法)、投票法(例如,简单投票法和加权投票法)和学习法。平均法是对于多个基分类模型的输出进行简单平均或加权平均,以得到最终的分类结果(或称分类概率);投票法是多个基分类模型的对样本的分类结果中,数量最多的分类结果为最终的分类结果;学习法是将多个基分类模型的输出作为输入,将训练集的输出作为输出,重新训练一个中间分类模型来得到最终的分类结果。
作为一个示例,将样本流失人员的强相关特征编码和流失人员标签构成正样本,将非样本流失人员的强相关特征编码和非流失人员标签构成负样本,并将正样本和负样本组合为训练集,其中,训练集中包括正样本的数量和负样本的数量可以相同也可以不相同。首先从训练集用初始权重训练出一个基分类模型1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前基分类模型1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的基分类模型2中得到更多的重视。然后基于调整权重后的训练集来训练基分类模型2,如此重复进行,直到基分类模型的数量达到事先指定的数目T,最终将这T个基分类模型通过集合策略进行整合,得到最终的集成学习模型。
作为另一个示例,将样本流失人员的强相关特征编码和流失人员标签构成正样本,将非样本流失人员的强相关特征编码和非流失人员标签构成负样本,并将正样本和负样本组合为训练集,其中,训练集中包括正样本的数量和负样本的数量可以相同也可以不相同。首先从训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回,也就是说,之前采集到的样本在放回后有可能继续被采集到。例如,对于包含m个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集m次,最终可以得到m个样本的采样集,由于是随机采样,这样每次的采样集是和原始训练集不同的,和其他采样集也是不同的,然后基于这些采样集分别训练不同的基分类模型,以获得多个基分类模型。最后将多个基分类模型通过集合策略进行整合,得到最终的集成学习模型。本示例通过降低基分类模型的方差,改善了泛化误差;并且有助于降低训练数据的随机波动导致的误差;以及由于每个样本被选中的概率相同,因此本示例并不侧重于训练数据集中的任何特定实例。
本发明实施例搭建基于样本流失人员的强相关特征编码的集成学习模型,充分利用与流失人员强关联的因素进行学习,使得模型泛化能力更高。并且本发明实施例采用集成学习模型,可以解决相关技术中存在的基于神经网络构建员工关系链方法需要构建庞大的网络和复杂的节点关系,随着节点数和节点连线的增加,训练神经网络模型过程非常耗时的技术问题,从而减少了训练的时间,从而提高了训练的效率。
在步骤S105中,基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
在一些实施例中,当机器学习模型为神经网络模型时,预测过程具体为:获取待预测人员的员工数据;通过神经网络模型,从待预测人员的员工数据中提取待预测人员的特征,并将所提取的特征映射为对应属于流失人员类型的概率、以及属于非流失人员类型的概率;将属于流失人员类型的概率确定为待预测人员成为流失人员的概率。
在另一些实施例中,当机器学习模型是集成学习模型时,集成学习模型包括多个基分类模型时,预测过程具体为:获取待预测人员的员工数据;从待预测人员的员工数据中提取待预测人员的特征;通过多个基分类模型,分别基于待预测人员的特征进行分类处理,以获得每个基分类模型的分类概率;将多个分类概率通过集合策略进行整合,以获得待预测人员成为流失人员的概率。
这里,集合策略包括平均法(例如,简单平均法和加权平均法)、投票法(例如,简单投票法和加权投票法)和学习法。平均法是对于多个基分类模型的输出的分类概率进行简单平均或加权平均,以得到待预测人员成为流失人员的概率;投票法是多个基分类模型的对样本的分类概率中,将数量最多的分类概率作为待预测人员成为流失人员的概率;学习法是将多个基分类模型的输出的分类概率输入至中间分类模型,以获得待预测人员成为流失人员的概率。
作为示例,获取待预测人员的员工数据;从待预测人员的员工数据中提取待预测人员的特征;对提取的特征进行独热(One-Hot)编码,以获得特征独热编码;通过多个基分类模型,分别对特征独热编码进行分类处理,以获得每个基分类模型的分类概率;将多个分类概率通过集合策略进行整合,以获得待预测人员成为流失人员的概率。
本发明实施例基于从员工数据中提取强相关特征编码来训练机器学习模型,不同于相关技术中的通过构建员工关系网络方法来获得训练完成的机器学习模型,本发明实施例训练所获得的机器学习模型不仅通用性高,模型泛化性能强,而且基于机器学习模型判断待预测人员成为流失人员的概率,提高了预测流失人员的准确性。并且,相关技术的机器学习模型是基于规则区分流失人员的模型,通用性不好,面对多种应用场景的流失人员识别,需要分布部署对应的服务器,系统架构复杂,硬件资源消耗高;然而本发明实施例所获得的机器学习模型支持多种应用场景,具有良好的通用性,降低了系统布局的复杂度,减少了硬件资源消耗。
在一些实施例中,参见图4,图4是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图,图3示出的步骤S104之前还可以包括步骤S106,步骤S104可以用步骤S107替换,需要说明的是,步骤S106和步骤S103之间并无先后顺序,可以步骤S106在前,也可以步骤S103在前,还可以步骤S106和步骤S103并行执行。
在步骤S106中,对频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为流失人员集合的衍生特征编码。
在一些实施例中,从频繁特征编码序列中提取多个特征编码;将提取的多个特征编码进行衍生处理,以获得流失人员集合的衍生特征编码。
这里,衍生处理的过程包括以下至少之一:将多个特征编码中的单一变量进行基础转换;将多个特征编码中的多变量进行组合;在多个特征编码中添加时间维度以进行衍生;根据决策树(Xgboost)的路径,将多个特征编码进行组合。
作为示例,本发明实施例可以直接对多个特征编码进行衍生处理,以获得样本流失人员的衍生特征编码;还可以首先从频繁特征编码序列中提取多个特征编码,将特征编码根据编码表反向转换为相应的特征值,然后对特征值进行转换、计算以及组合而产生的新的特征值;最后将新的特征值按照步骤S101进行编码处理,以获得样本流失人员的衍生特征编码。
举例来说,员工的特征编码序列中包括{年龄a,性别b,一年参加公司培训次数c},可以将“年龄a”和“性别b”组合成一个新特征“年龄a性别b”;还可以将“一年参加公司培训次数c”根据时间维度进行衍生,以获得“三年参加公司培训次数f”(f的数值为c的三倍),只要属于衍生的范畴之内均可,在此不详尽举例。
在步骤S107中,基于流失人员集合中每个样本流失人员的强相关特征编码和衍生特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型。
在一些实施例中,当机器学习模型为神经网络模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码、衍生特征编码和流失人员概率标签构造成训练样本;提取训练样本中样本流失人员的特征,将提取的特征输入至神经网络模型,以获得预测结果,并计算预测结果与期望结果(即流失人员标签)的差异,根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新神经网络模型的参数,以获得训练完成的神经网络模型。
本发明实施例搭建基于样本流失人员的强相关特征编码和衍生特征编码的神经网络模型,充分利用与流失人员强关联的因素进行学习,使得训练后的神经网络模型预测流失人员的准确性更高。
在另一些实施例中,当机器学习模型是集成学习模型时,集成学习模型包括多个基分类模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码、衍生特征编码和流失人员概率标签构造成训练样本;基于训练样本,训练多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得集成学习模型。
需要说明的是,当机器学习模型是集成学习模型时,训练集成学习模型的过程和步骤S104相同,只是,步骤S104是基于强相关特征编码训练机器学习模型,而步骤S107是基于强相关特征编码和衍生特征编码训练机器学习模型,将在此不再进行赘述。
本发明实施例通过对频繁特征编码序列中的特征编码进行衍生处理,不仅可以提高特征编码的数量,还可以提高特征编码之间的粘性,从而可以避免训练获得的机器学习模型出现欠拟合和过拟合的问题。并且本发明实施例采用集成学习模型,可以避免了采用神经网络导致训练复杂的问题,减少了训练的时间,从而提高了训练的效率。
在一些实施例中,参见图5,图5是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图,图3示出的步骤S104之前还可以包括步骤S108,步骤S104可以用步骤S109替换,需要说明的是,步骤S108和步骤S103之间并无先后顺序,可以步骤S108在前,也可以步骤S103在前,还可以步骤S108和步骤S103并行执行。
在步骤S108中,在多个非强相关特征编码中,根据特征编码之间的相关度,选取部分特征编码以作为预备强相关特征编码。
这里,非强相关特征编码是出现频率不超过频率阈值的特征编码子序列中所包含的特征编码;也就是说,非强相关特征编码是不属于频繁特征编码序列中的特征编码。
在一些实施例中,确定多个非强相关特征编码,其中,非强相关特征编码是出现频率不超过频率阈值的特征编码子序列中所包含的特征编码;确定多个非强相关特征编码的方差,并过滤掉方差低于方差阈值的非强相关特征编码;将过滤后得到的非强相关特征编码进行组合,以形成非强相关特征编码集合;确定非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据任意两个非强相关特征编码之间的特征相关度,确定非强相关特征编码集合中的每一个非强相关特征编码与非强相关特征编码集合的平均相关度;根据平均相关度,将非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码。
作为示例,首先计算非强相关特征编码集合中所有特征编码的方差,方差越大的特征编码越有用,本发明实施例中设定方差阈值为1,方差小于该阈值的特征编码被过滤。然后根据公式(1)计算非强相关特征编码之间的特征相关度(相关度系数或相关系数)为:
其中,Xi表示特征X的每一维度,Yi表示特征Y的每一维度,X表示特征X的每一维度的均值,Y表示特征Y的每一维度的均值。特征相关度p(Xi,Yi)衡量特征Xi与特征Yi相关程度,特征相关度p(Xi,Yi)的取值范围是[-1,1]。特征相关度p(Xi,Yi)的绝对值越大,则表明特征Xi与特征Yi的相关程度越高。
根据公式(2)计算非强相关特征编码与非强相关特征编码集合的平均相关度(平均相关性)为:
其中,fi表示非强相关特征编码集合中的每一个非强相关特征编码。
根据每个非强相关特征编码的平均相关度,将非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码。
在步骤S109中,基于流失人员集合中每个样本流失人员的强相关特征编码和预备强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型。
在一些实施例中,当机器学习模型为神经网络模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码、预备强相关特征编码和流失人员概率标签构造成训练样本;提取训练样本中样本流失人员的特征,将提取的特征输入至神经网络模型,以获得预测结果,并计算预测结果与期望结果(即流失人员标签)的差异,根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新神经网络模型的参数,以获得训练完成的神经网络模型。
本发明实施例搭建基于样本流失人员的强相关特征编码和预备强相关特征编码的神经网络模型,充分利用与流失人员强关联的因素进行学习,使得训练后的神经网络模型预测流失人员的准确性更高。
在另一些实施例中,当机器学习模型是集成学习模型时,集成学习模型包括多个基分类模型时,训练过程具体为:将流失人员集合中每个样本流失人员的强相关特征编码、预备强相关特征编码和流失人员概率标签构造成训练样本;基于训练样本,训练多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得集成学习模型。
需要说明的是,当机器学习模型是集成学习模型时,训练集成学习模型的过程和步骤S104相同,只是,步骤S104是基于强相关特征编码训练机器学习模型,而步骤S109是基于强相关特征编码和预备强相关特征编码训练机器学习模型,将在此不再进行赘述。
本发明实施例搭建基于样本流失人员的强相关特征编码和预备强相关特征编码的集成学习模型,不仅保证了特征编码的数量,而且还充分利用与流失人员强关联的因素进行学习,使得模型泛化能力更高。并且本发明实施例采用集成学习模型,可以避免了采用神经网络导致训练复杂的问题,减少了训练的时间,从而提高了训练的效率。
在一些实施例中,在步骤S103之后,还可以包括:将强相关特征编码存储到区块链网络中,以使区块链网络响应针对强相关特征编码的获取请求。
接下来以图1中的服务器200将强相关特征编码上传至区块链网络保存为例,说明本发明实施例提供的基于人工智能的流失人员预测方法的示例性应用。参见图6,图6是本发明实施例提供的基于人工智能的流失人员预测方法的应用示意图,包括区块链网络600(示例性示出了共识节点610-1、共识节点610-2、和共识节点610-3)、认证中心700和业务主体800/900,下面分别进行说明。
区块链网络600的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备(例如,服务器200),都可以在不需要授权的情况下接入区块链网络600而成为客户端节点;以联盟链为例,业务主体在获得授权后其下辖的电子设备可以接入区块链网络600而成为客户端节点。
作为示例,当区块链网络600是联盟链时,业务主体800/900从认证中心700进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体800/900的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易(例如,用于上链存储强相关特征编码、或者查询强相关特征编码)中,并被发送到区块链网络600,以供区块链网络600从交易中取出数字证书和数字签名,验证交易的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络600会根据身份进行验证,例如是否具有发起交易的权限。
在一些实施例中,客户端节点可以只作为区块链网络600的观察者,即提供支持业务主体发起交易功能,对于区块链网络600的共识节点的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中,通过区块链网络600实现数据和业务处理过程的可信和可追溯。
区块链网络600中的共识节点接收来自不同业务主体(例如图6中示出的业务主体800/900)的客户端节点提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
下面以第一服务器将强相关特征编码上传至区块链网络保存为例,说明区块链网络的示例性应用,作为示例,第一服务器可以是归属于图6中业务主体800的服务器,其作为区块链网络的客户端节点810。
首先,在客户端节点810设置强相关特征编码上链的逻辑,例如当获得强相关特征编码时,客户端节点810将强相关特征编码发送至区块链网络600时,生成对应的交易,交易包括:为了上链强相关特征编码而需要调用的智能合约、以及向智能合约传递的参数;交易还包括客户端节点810的数字证书、签署的数字签名,并将交易广播到区块链网络600中的共识节点。
然后,区块链网络600中的共识节点接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点自己的数字签名(例如,使用节点610-1的私钥对交易的摘要进行加密得到),并继续在区块链网络600中广播。
最后,区块链网络600中的共识节点接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点广播的新区块时,会对新区块进行验证,例如,验证新区块中交易的数字签名是否有效,如果验证成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的存储强相关特征编码的交易,在状态数据库中添加包括强相关特征编码的键值对。
再以第二服务器在区块链网络600中查询强相关特征编码为例,说明区块链网络的示例性应用。参见图6,作为示例,第二服务器可以是归属于图6中业务主体900的服务器,其作为区块链网络的客户端节点910。
这里,第二服务器是需要进行流失人员预测的服务器,并且服务器200和第二服务器需要检测的员工群体的类型是相同的(将在下文以一个详细的示例进行说明)。
在一些实施例中,客户端节点910在区块链网络600中能够查询的数据的类型,可以由共识节点通过约束业务主体的客户端阶段能够发起的交易的权限来实现,当客户端节点910具有发起查询强相关特征编码的权限时,可以由客户端节点910生成用于查询强相关特征编码的交易并提交到区块链网络600中,从共识节点执行交易以从状态数据库中查询相应的强相关特征编码,并返回客户端节点910。
举例来说,业务主体800是互联网公司A,客户端节点810是互联网公司A的生产环境中的服务器(例如上文所述的第一服务器),互联网公司A需要在大量的员工群体中确定流失概率较高的员工;业务主体900是互联网公司B,客户端节点910是互联网公司B的生产环境中的服务器(例如上文所述的第二服务器),互联网公司B同样需要在大量的员工群体中确定流失概率较高的员工。如此,第一服务器和第二服务器训练机器学习模型所使用的强相关特征编码是一样的。因此,第二服务器可以直接通过区块链网络600获取强相关特征编码,从而可以避免第二服务器为获取强相关特征编码进行大量的特征运算,进而减少了第二服务器的资源的消耗。
下面继续结合图2说明电子设备500的结构,在一些实施例中,如图2所示,存储在存储器540的基于人工智能的流失人员预测装置543中的软件模块可以包括:编码模块5431、选取模块5432、融合模块5433以及识别模块5434。
编码模块5431,用于根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列;
选取模块5432,用于在每个所述样本流失人员的特征编码序列所包括的特征编码子序列中,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;其中,所述频繁特征编码序列中包括所述样本流失人员的基础属性特征编码和/或历史任职属性特征编码;
融合模块5433,用于将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码;
识别模块5434,用于基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
上述方案中,所述编码模块5431,还用于针对所述流失人员集合中每个样本流失人员执行以下处理:在所述样本流失人员的员工数据中,提取基础属性类型和历史任职属性类型的数据,并基于所提取的数据构建多个员工特征,其中,所述员工特征包括所述基础属性特征和所述历史任职属性特征;根据每个所述员工特征的特征值,从相应类型的编码表查找所述特征值的编码值;将对应每个所述员工特征的特征值所查找到的编码值进行组合,以获得所述样本流失人员的特征编码序列。
上述方案中,所述编码模块5431,还用于对每个所述员工特征进行以下预处理操作:确定所述样本流失人员对应于所述员工特征的特征值的缺失数量、以及对应于所述员工特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的员工特征进行过滤,以获得过滤后的特征;舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征进行特征值填充;将所述过滤后的特征中的连续型特征对应的特征值进行离散处理,以获得离散型特征;将所述离散处理后得到的离散型特征和所述过滤后的特征中的离散型特征,作为用于进行编码处理的员工特征。
上述方案中,所述选取模块5432,还用于在每个所述样本流失人员的特征编码序列中,多次选取基础属性特征编码和/或历史任职属性特征编码,并将每次选取的特征编码进行组合,以获得多个不同的特征编码子序列;其中,每个所述特征编码子序列中均包含归属于不同样本流失人员的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。
上述方案中,所述选取模块5432,还用于在所述序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项特征编码序列前缀确定为目标一项特征编码序列;在所述目标一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为所述频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。
上述方案中,所述融合模块5433,还用于确定所述频繁特征编码序列中的每个特征编码在所述流失人员集合中的出现频率,并将所述出现频率作为表征所述特征编码的重要程度的权重;将所述特征编码的权重和对应的特征编码进行加权,以获得表征所述流失人员集合的共性的强相关特征编码。
上述方案中,所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;所述识别模块5434,还用于将所述流失人员集合中每个样本流失人员的强相关特征编码和流失人员概率标签构造成训练样本;基于构造的多个训练样本,训练所述多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得所述集成学习模型。
上述方案中,所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;所述识别模块5434,还用于获取所述待预测人员的员工数据;从所述待预测人员的员工数据中提取所述待预测人员的特征;通过所述多个基分类模型,分别基于所述待预测人员的特征进行分类处理,以获得每个基分类模型的分类概率;将所述多个分类概率通过集合策略进行整合,以获得所述待预测人员成为流失人员的概率。
上述方案中,所述基于人工智能的流失人员预测装置543还包括:衍生模块,用于从所述频繁特征编码序列中提取多个特征编码;将提取的多个特征编码进行衍生处理,以获得所述流失人员集合的衍生特征编码;其中,所述衍生处理的方式包括以下至少之一:将所述多个特征编码中的单一变量进行基础转换;将所述多个特征编码中的多变量进行组合;在所述多个特征编码中添加时间维度;根据决策树的路径将所述多个特征编码进行组合;所述识别模块5434,还用于基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述衍生特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
上述方案中,所述基于人工智能的流失人员预测装置543还包括:相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;确定所述多个非强相关特征编码的方差,并过滤掉方差低于方差阈值的非强相关特征编码;将过滤后得到的非强相关特征编码进行组合,以形成非强相关特征编码集合;确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码;所述识别模块5434,还用于基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述预备强相关特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的流失人员预测方法,例如,图3、图4或图5示出的基于人工智能的流失人员预测方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将以人力资源应用场景为例说明本发明实施例提供的基于人工智能的流失人员预测方法。
人员流失是每个企业都会面临的难题,对于企业公司而言,员工流失是组织机构的一项主要的成本,同时找到合适的替代者需要大量的时间精力金钱成本,对公司的业务发展造成巨大的阻碍。因此,预测人事变动成为许多组织机构和公司的迫切需求,也是人力资源系统不断健全完善必经的重要途径。除此之外,通过模型分析流失员工的关键因素,通过采取适当措施进行良性诱导和转化,可以起到事半功倍的效果,因此人员流失预估模型对于社会发展具有重要的意义。
相关技术中,进行人员流失预估的方法有基于逻辑回归预测模型、基于朴素贝叶斯等分类器构建概率模型、以及基于神经网络深度模型进行预测,下面分别介绍这些方法。
(1)基于逻辑回归预测模型方法首先人工构造与人员流失相关的因素特征,以人员流失概率连续值为构建逻辑回归模型拟合特征与目标值得到模型参数,通过该模型对新员工特征进行预测得到流失概率。
(2)基于朴素贝叶斯等分类器构建概率模型通过在流失样本与非流失样本的类别标签样本上训练一个区分人员流失概率的分类模型,由于朴素贝叶斯模型简单且本身具有良好的解释性,因此被广泛应用。
(3)基于神经网络深度模型方法同样先构造于人员流失率相关的特征,利用随机梯度等方法最小化损失从而得到预测值和真实值之间的误差最小化模型,基于该模型输入新的用户样本特征进行预测。
上述方法在应用过程中,会出现以下技术问题:
(1)特征构建过程没有充分挖掘出与人员流失强相关的特征,没有对各特征的特征值进行重要性衡量,忽略了某些特征值是影响人员流失的重要影响因素。
(2)朴素贝叶斯基于特征独立性假设,而实际应用场景中数据特征之间往往是不独立,即假设不严格成立。
(3)只进行特征选择但没有对特征值的选取,没有充分利用强相关特征值进行学习,另外神经网络模型的方法往往较耗时。
鉴于以上方法存在的各种问题,本发明实施例提供一种基于人工智能的流失人员预测方法,本发明实施例相比于相关技术至少存在以下优势:
(1)本发明实施例通过构建流失人员样本库,基于序列模式挖掘(Prefixspan)算法挖掘员工属性,发现流失人员群体在序列模式上有共性的特性,能够挖掘流失人员更深层的共同属性并重点关注该部分特征类型,更好地构建流失人员特征。
(2)本发明实施例基于序列模式挖掘得到的强特征进行特征加权和组合衍生,充分利用与流失人员强关联因素进行学习,模型泛化能力更高。
(3)本发明实施例解决了相关技术中没有更好地对员工特征值进行重要性量化和特征加权,剔除影响不明显的特征,极大程度地减少了噪音特征的影响,提高模型预测的准确率。
参见图7,图7是本发明实施例提供的基于人工智能的流失人员预测方法的流程示意图,将结合图7示出的步骤进行说明。
在步骤S601中,构建员工特征编码,建立流失人员样本库(即上述的流失人员集合)。
在一些实施例中,对于人力资源系统而言,流失人员都是公司内部在职人员,因此人员相关信息以及行为状态都相对容易获取。首先从员工的基础属性维度和员工的历史经历维度去构建员工特征,包括但不限于以下特征:职位、年龄、性别、家与公司的距离(地图距离、是否有班车点)、教育状况(学历)、加班情况(上下班打卡时间)、出差情况、本公司工作年限、总工作年限、婚姻状态(是否已婚、是否有孩)、绩效情况、历史上级评价、报酬(涨幅、股权或其他激励)、参加公司培训次数、参加公司组织活动次数、曾任职公司数量、历史公司的在职年限、职级(晋升情况、距离上次晋升时间)、工作满意度(包括上级、企业文化)、以及入职投递简历与现工作岗位匹配度等。
根据人力资源系统所存储的员工信息以及问卷调查形式采集员工信息,接下来进行数据预处理并构建员工特征编码,过程具体为:
(1)舍弃缺失值过多的特征:设定缺失值过滤阈值=样本数据量*G,G∈[0,1],G可设置为0.4,当某特征数据(即上述的特征值或特征取值)缺失的数量超过该阈值时,过滤该特征,同时删除单值特征。
(2)进行异常值(即上述的异常特征值)处理:根据特征分布,舍弃特征取值太大或排在前0.0001(即万分之一)的异常值。
(3)缺失值处理:连续型特征的缺失值用均值填充,离散型特征的缺失值用常数填充作为单独的类别。
(4)特征构造:连续型特征进行分箱离散化(分箱方法可根据员工特征字段在各区间的分布占比进行分箱,即等频分箱操作),将分箱离散化后的连续型特征和离散型特征进行类型编码。
通过以上步骤将员工特征按照每个字段的类型进行类型编码(详细过程参见步骤S101,将在此不再进行赘述),从而得到员工的特征编码序列表示(多个员工即构成一个以员工样本数为行,特征数值化向量维度为列的矩阵)。
利用历史离职人员样本构建流失人员样本库,样本库会随着时间推移、人员流动不断扩充,意味着系统训练样本增加,模型准确率也会不断提升,直到到达较高准确率的临界点。
在步骤S602中,基于序列模式挖掘算法,挖掘流失人员特征编码频繁序列模式。
在一些实施例中,基于Prefixspan算法挖掘流失人员特征编码矩阵中满足最小支持度阈值的各个长度的频繁序列模式。同时,使用多最小支持度策略,最小支持度阈值的计算方法如公式(3)所示。
min_sup=e×f (3)
其中,e为流失人员样本数量,f为最小支持率,最小支持率根据训练样本集的数量进行调整。同时,本发明实施例采取一种“滚雪球”的方法和思路,即,每一轮挖掘都设置较高的支持度,保证序列模式挖掘的准确性,通过多轮迭代挖掘提高序列模式挖掘的查全率。
序列模式挖掘算法的具体过程如下(更为详细的序列模式挖掘的过程参见步骤S102,将在此不再进行赘述):
(1)找出单位长度为1的员工特征编码序列前缀和对应投影数据集;
(2)统计员工特征编码序列前缀出现频率,并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集序列模式(即上述的频繁一项特征编码序列);
(3)对所有长度为i且满足最小支持度要求的前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
2)统计对应投影数据集中各项的最小支持度,将满足最小支持度阈值的各单项与当前缀合并,得到新前缀,若不满足最小支持度阈值则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第(3)步;
(4)返回该员工特征编码序列样本集中所有的频繁特征编码序列模式(即上述的频繁特征编码序列)。
本发明实施例通过序列模式挖掘可获得流失人员群体普遍具备的共同特征。
在步骤S603中,对满足支持度要求的特征(即上述的特征编码)进行加权(即上述的融合)。
在一些实施例中,通过步骤S602从流失人员特征序列挖掘流失人员样本频繁序列模式,从而在建模方法上更加关注这部分特征类型,对这部分类型特征进行加权处理,以及对序列模式的各项频繁前缀中都不出现的特征类型字段进行剔除,过滤对人员流失影响不大的因素,即仅对频繁序列中的特征编码进行加权处理。加权权重设置为各字段类型(即上述的特征编码)对应的频次占比(即上述的出现频率),例如,若字段类型“职位A-d”出现的频次占比为0.7,那么该字段类型加权权重为0.7;字段类型“加班时长d”出现频次占比为0.56,那么该字段类型加权权重为0.56。通过支持度(即该特征或特征编码在流失人员样本库中出现频率或出现频次)对特征进行加权,也就是说,流失人员群体越普遍存在的特征类型值,该特征类型值的加权权重越大。
在步骤S604中,对满足支持度要求的特征编码(即特征值)进行特征衍生(即上述的衍生处理)。
在一些实施例中,通过步骤S602从流失人员特征序列挖掘流失人员样本频繁序列模式,步骤S604可以对挖掘所获得的特征值进行特征衍生,其中,衍生方式可以通过对原有的特征值进行转换,计算以及组合而产生的新的特征值,特征衍生的方式具体包括:
(1)单一变量进行基础转换,例如,对单一变量进行平方、开根号、log转换等。
(2)添加时间维度进行衍生。
(3)多变量进行衍生,例如,变量相加,相乘或变量间计算比率后得到新变量。
(4)利用Xgboost树的路径组合特征。
在另一些实施例中,对序列模式的各项频繁前缀中都不出现的特征类型字段(即上述的不属于频繁特征编码序列的多个特征编码,以下称为非强相关特征)通过方差和相关性计算进行适当删减,过滤对区分流失人员影响不够显著的因素,例如,当最小支持度阈值设置为0.5时,若某个字段的各种类型值的频次占比都小于该最小支持度阈值,则计算字段的方差和相关性。
基于最大区分度和最大相关度的原则,对非强相关特征进行排序打分衡量特征的重要性,输出一个有序特征序列(输出有序特征序列的详细过程参见步骤S108,将在此不再进行赘述)。根据特征数量选取该有序特征序列的排序靠前的W个特征,其中,W为整数,W的数值大小基于数据量和特征量设定。
在步骤S605中,构建分类模型(即上述的机器学习模型)预测人员的流失概率。
在一些实施例中,基于以上步骤对人员特征进行处理,同时剔除掉特征字段的各种类型值的频次占比都小于设定最小支持度的特征从而进行特征筛选,之后对连续型特征进行分箱操作,将分箱后的连续型特征和离散型特征进行One-Hot编码,根据步骤S603对满足支持度要求的特征进行支持度权重加权,从而构造流失人员样本特征。训练(样本)集的构建方式为:正样本为步骤1构建的流失人员样本库,负样本为历次考核优良、在职时间超过一定年限且目前仍未流失的人员样本,随机抽取数量接近的正样本和负样本,输入到分类模型中进行训练,训练完成后,基于训练得到的分类模型,进行分类处理,以获得待预测人员成为流失人员的概率。
综上所述,本发明实施例具有以下有益效果:
1)通过序列模式挖掘流失人员人群频繁特征编码序列模式,解决了相关技术构建特征比较粗糙的问题。
2)可以广泛地应用于人力资源系统建设、人员内部管理、以及挖掘员工在职状态等场景。
3)对于后续筛选样本流失人员的强相关特征进行过滤和填充,能够更好的构建流失人员的强相关特征编码,从而可以提高后续基于强相关特征编码训练获得的机器学习模型预测流失人员的准确性。
4)将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小训练集成学习模型的时间和空间开销,并且可以提高集成学习模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服员工数据中隐藏的缺陷,使集成学习模型的训练结果更加稳定。
5)通过对频繁特征编码序列中的特征编码进行衍生处理,不仅可以提高特征编码的数量,还可以提高特征编码之间的粘性,从而可以避免训练获得的集成学习模型出现欠拟合和过拟合的问题。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (11)

1.一种基于人工智能的流失人员预测方法,其特征在于,所述方法包括:
根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列;
在每个所述样本流失人员的特征编码序列中,多次选取基础属性特征编码和/或历史任职属性特征编码,并将每次选取的特征编码进行组合,以获得多个不同的特征编码子序列;
其中,每个所述特征编码子序列中均包含归属于不同样本流失人员的特征编码序列中的特征编码;
在所述多个不同的特征编码子序列形成的序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;
当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过频率阈值的一项特征编码序列前缀确定为目标一项特征编码序列;
在所述目标一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;
确定对应于所述n项特征编码序列前缀的投影数据集;
当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为频繁特征编码序列;
其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量,所述频繁特征编码序列中包括所述样本流失人员的基础属性特征编码和/或历史任职属性特征编码;
将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码;
基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
2.根据权利要求1所述的方法,其特征在于,所述根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列,包括:
针对所述流失人员集合中每个样本流失人员执行以下处理:
在所述样本流失人员的员工数据中,提取基础属性类型和历史任职属性类型的数据,并基于所提取的数据构建多个员工特征,其中,所述员工特征包括所述基础属性特征和所述历史任职属性特征;
根据每个所述员工特征的特征值,从相应类型的编码表查找所述特征值的编码值;
将对应每个所述员工特征的特征值所查找到的编码值进行组合,以获得所述样本流失人员的特征编码序列。
3.根据权利要求2所述的方法,其特征在于,在所述根据每个所述员工特征的特征值,从相应类型的编码表查找所述特征值的编码值之前,所述方法还包括:
对每个所述员工特征进行以下预处理操作:
确定所述样本流失人员对应于所述员工特征的特征值的缺失数量、以及对应于所述员工特征的相同特征值的数量;
将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的员工特征进行过滤,以获得过滤后的特征;
舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征进行特征值填充;
将所述过滤后的特征中的连续型特征对应的特征值进行离散处理,以获得离散型特征;
将所述离散处理后得到的离散型特征和所述过滤后的特征中的离散型特征,作为用于进行编码处理的员工特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码,包括:
确定所述频繁特征编码序列中的每个特征编码在所述流失人员集合中的出现频率,并将所述出现频率作为表征所述特征编码的重要程度的权重;
将所述特征编码的权重和对应的特征编码进行加权,以获得表征所述流失人员集合的共性的强相关特征编码。
5.根据权利要求1所述的方法,其特征在于,
所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;
所述基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,包括:
将所述流失人员集合中每个样本流失人员的强相关特征编码和流失人员概率标签构造成训练样本;
基于构造的多个训练样本,训练所述多个基分类模型;
将训练完成的多个基分类模型通过集合策略进行整合,以获得所述集成学习模型。
6.根据权利要求1所述的方法,其特征在于,
所述机器学习模型是集成学习模型,所述集成学习模型包括多个基分类模型;
所述基于训练后的机器学习模型预测待预测人员成为流失人员的概率,包括:
获取所述待预测人员的员工数据;
从所述待预测人员的员工数据中提取所述待预测人员的特征;
通过所述多个基分类模型,分别基于所述待预测人员的特征进行分类处理,以获得每个基分类模型的分类概率;
将多个分类概率通过集合策略进行整合,以获得所述待预测人员成为流失人员的概率。
7.根据权利要求1至6任一项所述的方法,其特征在于,
在所述基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型之前,所述方法还包括:
从所述频繁特征编码序列中提取多个特征编码;
将提取的多个特征编码进行衍生处理,以获得所述流失人员集合的衍生特征编码;
其中,所述衍生处理的方式包括以下至少之一:
将所述多个特征编码中的单一变量进行基础转换;
将所述多个特征编码中的多变量进行组合;
在所述多个特征编码中添加时间维度;
根据决策树的路径将所述多个特征编码进行组合;
所述基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,包括:
基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述衍生特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
8.根据权利要求1至6任一项所述的方法,其特征在于,
在所述基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型之前,所述方法还包括:
确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;
确定所述多个非强相关特征编码的方差,并过滤掉方差低于方差阈值的非强相关特征编码;
将过滤后得到的非强相关特征编码进行组合,以形成非强相关特征编码集合;
确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;
根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;
根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码;
所述基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,包括:
基于所述流失人员集合中每个样本流失人员的所述强相关特征编码和所述预备强相关特征编码构造训练样本,基于构造的多个训练样本训练所述机器学习模型。
9.一种基于人工智能的流失人员预测装置,其特征在于,所述装置包括:
编码模块,用于根据流失人员集合中每个样本流失人员的基础属性特征和历史任职属性特征,获得所述样本流失人员的特征编码序列;
选取模块,用于在每个所述样本流失人员的特征编码序列中,多次选取基础属性特征编码和/或历史任职属性特征编码,并将每次选取的特征编码进行组合,以获得多个不同的特征编码子序列;其中,每个所述特征编码子序列中均包含归属于不同样本流失人员的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过频率阈值的一项特征编码序列前缀确定为目标一项特征编码序列;在所述目标一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量,所述频繁特征编码序列中包括所述样本流失人员的基础属性特征编码和/或历史任职属性特征编码;
融合模块,用于将所述频繁特征编码序列中的每个特征编码按照重要程度进行融合,得到表征所述流失人员集合的共性的强相关特征编码;
识别模块,用于基于所述流失人员集合中每个样本流失人员的强相关特征编码构造训练样本,基于构造的多个训练样本训练机器学习模型,并基于训练后的机器学习模型预测待预测人员成为流失人员的概率。
10.一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1-8任一项所述的基于人工智能的流失人员预测方法。
11.一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现权利要求1-8任一项所述的基于人工智能的流失人员预测方法。
CN202010555668.8A 2020-06-17 2020-06-17 基于人工智能的流失人员预测方法和装置 Active CN111709714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555668.8A CN111709714B (zh) 2020-06-17 2020-06-17 基于人工智能的流失人员预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555668.8A CN111709714B (zh) 2020-06-17 2020-06-17 基于人工智能的流失人员预测方法和装置

Publications (2)

Publication Number Publication Date
CN111709714A CN111709714A (zh) 2020-09-25
CN111709714B true CN111709714B (zh) 2024-03-29

Family

ID=72541221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555668.8A Active CN111709714B (zh) 2020-06-17 2020-06-17 基于人工智能的流失人员预测方法和装置

Country Status (1)

Country Link
CN (1) CN111709714B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541548A (zh) * 2020-12-14 2021-03-23 百果园技术(新加坡)有限公司 关系网络的生成方法、装置、计算机设备及存储介质
CN112862546B (zh) * 2021-04-25 2021-08-13 平安科技(深圳)有限公司 用户流失预测方法、装置、计算机设备及存储介质
CN113947246B (zh) * 2021-10-21 2023-06-13 腾讯科技(深圳)有限公司 基于人工智能的流失处理方法、装置及电子设备
US11461652B1 (en) 2022-03-09 2022-10-04 My Job Matcher, Inc. Apparatus and methods for status management of immutable sequential listing records for postings

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491956A (zh) * 2018-02-07 2018-09-04 链家网(北京)科技有限公司 一种经纪人离职预估系统及方法
CN108764582A (zh) * 2018-06-04 2018-11-06 中国平安人寿保险股份有限公司 员工离职特征的训练方法、装置、计算机设备及存储介质
CN108921342A (zh) * 2018-06-26 2018-11-30 圆通速递有限公司 一种物流客户流失预测方法、介质和系统
EP3483797A1 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN110378543A (zh) * 2018-04-12 2019-10-25 百度在线网络技术(北京)有限公司 离职风险预测方法、装置、计算机设备和存储介质
CN110659757A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 员工离职预测方法以及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712828B2 (en) * 2005-12-30 2014-04-29 Accenture Global Services Limited Churn prediction and management system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483797A1 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN108491956A (zh) * 2018-02-07 2018-09-04 链家网(北京)科技有限公司 一种经纪人离职预估系统及方法
CN110378543A (zh) * 2018-04-12 2019-10-25 百度在线网络技术(北京)有限公司 离职风险预测方法、装置、计算机设备和存储介质
CN108764582A (zh) * 2018-06-04 2018-11-06 中国平安人寿保险股份有限公司 员工离职特征的训练方法、装置、计算机设备及存储介质
CN108921342A (zh) * 2018-06-26 2018-11-30 圆通速递有限公司 一种物流客户流失预测方法、介质和系统
CN110659757A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 员工离职预测方法以及装置

Also Published As

Publication number Publication date
CN111709714A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709714B (zh) 基于人工智能的流失人员预测方法和装置
US7657540B1 (en) Method and system for linking and delinking data records
US7912842B1 (en) Method and system for processing and linking data records
US7403942B1 (en) Method and system for processing data records
US7720846B1 (en) System and method of using ghost identifiers in a database
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN106933956B (zh) 数据挖掘方法和装置
CN111460323B (zh) 基于人工智能的焦点用户挖掘方法和装置
JP2015533436A (ja) データストレージシステムにおけるデータソースを特徴付けるための方法
Saliminejad et al. A spatial‐Bayesian technique for imputing pavement network repair data
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
Deylami et al. Link prediction in social networks using hierarchical community detection
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Wang et al. An unsupervised cluster method for pavement grouping based on multidimensional performance data
Zihayat et al. Leveraging non-respondent data in customer satisfaction modeling
Fan et al. Spatially enabled customer segmentation using a data classification method with uncertain predicates
CN104636422B (zh) 用于挖掘数据集中的模式的方法和系统
CN113449002A (zh) 车辆推荐方法、装置、电子设备及存储介质
Luca et al. Trajectory test-train overlap in next-location prediction datasets
Yunus et al. Proposed data quality evaluation method for a transportation agency
KR20200129132A (ko) 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템
CN116126975B (zh) 一种基于商业区块链技术的多属性数字积分流通系统
Li et al. Research and Application of Driver Recommendation Algorithm in Firm Vehicle Scheduling Management Platform
Adesunkanmi et al. Prediction of Pavement Overall Condition Index Based on Wrapper Feature-Selection Techniques Using Municipal Pavement Data
Fisher Advanced Entity Resolution Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant