CN112257777B

CN112257777B - 基于隐马尔可夫模型的离职预测方法及相关装置

Info

Publication number: CN112257777B
Application number: CN202011134554.2A
Authority: CN
Inventors: 夏婧; 吴振宇; 王建明
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2023-09-05
Anticipated expiration: 2040-10-21
Also published as: WO2021179715A1; CN112257777A

Abstract

本发明公开了一种基于隐马尔可夫模型的离职预测方法及相关装置。其中方法包括：基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；获取求职者的应聘数据，基于该应聘数据构建该求职者的静态信息特征数据集；将该静态信息特征数据集输入该隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。通过上述方式，为人力资源管理部门做出是否录用决定提供参考信息，避免将易离职的不稳定求职者招聘到企业中，降低人力招聘成本。此外，该方法在时间尺度上的可拓展性强，如后序可实现离职预警等。

Description

基于隐马尔可夫模型的离职预测方法及相关装置

技术领域

本发明涉及大数据技术领域，特别是涉及一种基于隐马尔可夫模型的离职预测方法及相关装置。

背景技术

人力资源管理是公司运营的重要组成，对员工离职的预测是人力资源领域一重要难题。员工离职对公司在经济成本、效率成本、文化流失成本上有着极大的负面影响，因此，现有技术提供了一些预测坐席离职方法，这些方法大多为逻辑回归或随机森林等方法，用于预测在职员工的离职概率和离职原因等。而对于潜在员工，如求职者，如何合理预测其入职后的工作状态和离职概率，为人力资源管理部门做出是否录用决定提供参考信息，目前还显有报道。并且，现有的预测坐席离职方法中所使用的评估指标，如面试选拔的有效性、培训过程中的针对性、平时高强度工作量的定量化衡量以及长时间工作状态的预判等大都基于人为评判，不可避免给人力资源管理带来了主观随意性和随机不确定性。

发明内容

基于此，有必要提供一种基于隐马尔可夫模型的离职预测方法及相关装置，以实现合理预测求职者入职后的工作状态和离职概率，为人力资源管理部门做出是否录用决定提供参考信息。

一种基于隐马尔可夫模型的离职预测方法，所述方法包括：

基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对所述预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；

获取求职者的应聘数据，基于所述应聘数据构建所述求职者的静态信息特征数据集；

将所述静态信息特征数据集输入所述隐马尔可夫模型，预测所述求职者入职后的工作状态和离职概率。

在其中一个实施例中，所述基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对所述预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型，包括：

将员工的静态信息作为输入，以员工的工作状态为隐含状态、员工的离职意向为观测状态，构建预训练隐马尔可夫模型，所述预训练隐马尔可夫模型的模型参数包括第一观测概率矩阵A、状态转移概率矩阵B和第二观测概率矩阵C；其中，所述第一观测概率矩阵A中的元素表示静态信息为X_i时，工作状态为X_j的概率；所述状态转移概率矩阵B中的元素/>表示工作状态X_j向工作状态Y_k转移的概率；所述第二观测概率矩阵C中的元素/>表示静态信息为X_i时，离职意向为Z_j的概率，i，j和k均为正整数；

建立训练集数据，所述训练集数据中包括多个第一已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，所述离职意向标注值序列中的离职意向标注值与所述工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应；其中，所述第一已录用员工样本中包括第一在职员工样本和第一离职员工样本；

利用所述训练集数据对所述预训练隐马尔可夫模型进行训练。

在其中一个实施例中，所述构建预训练隐马尔可夫模型之后，还包括：

建立测试集数据，所述测试集数据中包括多个第二已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，所述离职意向标注值序列中的离职意向标注值与所述工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应；其中，所述第二已录用员工样本中包括第二在职员工样本和第二离职员工样本；

所述利用所述训练集数据对所述预训练隐马尔可夫模型进行训练之后，还包括：

将所述测试集数据中的静态信息特征数据集输入至训练后的预训练隐马尔可夫模型中进行测试，输出每个所述第二已录用员工样本的工作状态特征数据集预测序列和离职意向标注值预测序列；

将所述工作状态特征数据集预测序列与所述测试集数据中对应的工作状态特征数据集序列进行比对、以及将所述离职意向标注值预测序列与所述测试集数据中对应的离职意向标注值序列进行比对，计算预测准确率；

当所述预测准确率大于或等于预设准确率阈值时，结束训练并确定模型参数；

当所述预测准确率小于所述预设准确率阈值时，返回所述建立训练集数据步骤，以对训练后得到的模型参数进行优化。

在其中一个实施例中，所述静态信息特征数据集中包括：简历信息特征、面试视频特征、以及笔试信息特征中的任意一种或几种的组合。

在其中一个实施例中，所述简历信息特征的获取方法包括：将简历文本输入至深度学习的简历文本图神经网络模型中，所述深度学习的简历文本图神经网络模型输出所述简历信息特征；和/或

所述面试视频特征的获取方法包括：将面试视频中的至少一帧图像输入至深度学习的面试图神经网络模型中，所述深度学习的面试图神经网络模型输出所述面试视频特征；和/或

所述笔试信息特征的获取方法包括：将笔试文本输入至深度学习的笔试文本图神经网络模型中，所述深度学习的笔试文本图神经网络模型输出所述笔试信息特征。

在其中一个实施例中，所述方法还包括：基于所述求职者的应聘数据确定所述求职者所属区域类别；

所述获取用于预测求职者工作状态和离职概率的隐马尔可夫模型，包括：

根据所述求职者所属区域类别调用与所述区域类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型；和/或

所述方法还包括：基于所述求职者的应聘数据确定所述求职者所属工作年限类别；

根据所述求职者所属工作年限类别调用与所述工作年限类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

在其中一个实施例中，所述方法还包括：根据所述求职者的静态信息特征数据集创建求职画像；

所述预测所述求职者入职后的工作状态和离职概率之后，还包括：

当预测到所述求职者的离职概率大于预设概率阈值时所对应的入职时间小于预设时间阈值时，在所述求职者的求职画像上设置不录取标识；

当预测到所述求职者的离职概率大于预设概率阈值时所对应的入职时间大于或等于所述预设时间阈值时，在所述求职者的求职画像上设置可以录取标识。

一种基于隐马尔可夫模型的离职预测装置，所述装置包括：

第一获取模块，所述第一获取模块用于基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对所述预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；

第二获取模块，所述第二获取模块用于获取求职者的应聘数据，基于所述应聘数据构建所述求职者的静态信息特征数据集；

预测模块，所述预测模块用于将所述静态信息特征数据集输入所述隐马尔可夫模型，预测所述求职者入职后的工作状态和离职概率。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述基于隐马尔可夫模型的离职预测方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述基于隐马尔可夫模型的离职预测方法的步骤。

与现有技术相比，本申请的基于隐马尔可夫模型的离职预测方法及相关装置，通过基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对所述预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；获取求职者的应聘数据，基于所述应聘数据构建所述求职者的静态信息特征数据集；将所述静态信息特征数据集输入所述隐马尔可夫模型，预测所述求职者入职后的工作状态和离职概率。通过预测求职者入职后的工作状态和离职概率，使得人力资源管理部门在应聘流程结束后，可以结合预测结果做出是否录用决定，从而实现尽量避免将易离职的不稳定求职者招聘到企业中，进而降低员工离职所带来的损失，同时也能减少人力招聘成本。此外，本申请采用的隐马尔可夫模型为时序模型，其预测结果中还包含了离职时间，因此，本申请提供的离职预测方法在时间尺度上的可拓展性强，如后序可以进一步实现实时响应离职预警等。

附图说明

图1是本发明一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图；

图2为图1所示方法中预训练隐马尔可夫模型的一种结构示意图；

图3是本发明另一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图；

图4是本发明再一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图；

图5是本发明又一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图；

图6是本发明又一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图；

图7是本发明一个实施例基于隐马尔可夫模型的离职预测装置的结构示意图；

图8是本发明一个实施例计算机设备的结构示意图；

图9是本发明一个实施例存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了合理预测求职者入职后的工作状态和离职概率，为人力资源管理部门做出是否录用决定提供参考信息，本发明提供了一种基于隐马尔可夫模型的离职预测方法及相关装置。

请参阅图1所示，图1是本发明一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括：

步骤S101：基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型。

可选的，在步骤101中，员工的静态信息包括员工个人的一些基本信息，如姓名、年龄、家庭住址、电话、毕业院校、学历、专业、项目经历、实习经历、个人评价、专业技能等，这些基本信息一般都是不大会改动的，可以从员工应聘时产生的应聘数据中提取整合得到。进一步的，该应聘数据可以包括简历数据、面试视频数据和笔试数据中的任意一种或者几种的组合。

员工的工作状态包括员工绩效、员工考勤、员工请假频率、领导打分记录、同事评价记录以及员工奖惩等。员工入职后产生的工作状态数据可以存储在员工管理系统中，当构建用于训练或验证模型所需的数据集时可以从中进行提取。

员工的离职意向，即员工离职的可能性，可使用数值进行标注。如数值1表示员工离职，数值0表示员工不离职，数值越接近于1时，表示员工的离职意向越强烈，数值越接近于0时，表示员工的离职意向越弱。

需要说明的是，在存储数据或者构建用于训练或验证模型所需的数据集时，将员工的工作状态和离职意向按照时间排序一一对应。对于在职员工，将其入职后的离职意向标注值均设置为0，即对于在职员工而言，其在任意时刻下的工作状态所对应的离职意向标注值均可以假设为0。对于离职员工，将其离职前的离职意向标注值均设置为0，而将其离职时的离职意向标注值设置为1，即其离职时所产生的工作状态数据所对应的离职意向标注值要假设为1。

一般情况下，员工的静态信息对员工入职后的工作状态和离职意向均会产生一定的影响。举例说明，若员工应聘时对其所应聘岗位的工作期待较高，这些特征在其面试时可能会表现出来，其入职后的工作状态也可能会比较好，从而离职意向较弱。再或者，员工应聘时是无工作经验的应届毕业生，可以通过其就读的学校、参加的活动类型等预判其专业知识是否扎实，学习能力强弱等，这些特征一般会直接记录在简历数据中。若其专业知识扎实并具备较强的学习能力，其入职后对第一份工作的适应能力就会比较强，从而工作状态也会比较好，离职意向弱。反之，其入职后对第一份工作的适应能力可能较弱，导致工作状态较差，进而离职意向就会比较强烈。又或者，员工所在城市大小会影响其对通勤距离的接受程度，如一线城市，每天单程通勤一小时属于可接受范围，而三四线城市，每天单程通勤一小时则不太容易被接受。即员工所在城市以及通勤时长属于可接受范围时，其离职意向就会比较弱，否则，其离职意向就会较强。

因此，在本发明中，将员工的静态信息作为输入，以员工的工作状态为隐含状态，员工的离职意向为观测状态，构建预训练隐马尔可夫模型λ＝((A,B,C),X,π)。其中，X表示员工的静态信息，为模型的输入项；A,B,C均为模型参数，π为初始状态概率矩阵。

为了便于理解，请参阅图2所示，图2为步骤S101中构建的预训练隐马尔可夫模型的一种结构示意图。如图2中所示，员工的工作状态Y为隐含状态，员工的离职意向Z为观测状态；A为第一观测概率矩阵，该第一观测概率矩阵中的元素表示静态信息为X_i时，工作状态为Y_j的概率；B为状态转移概率矩阵，该状态转移概率矩阵中的元素表示工作状态Y_j向工作状态Y_k转移的概率；C为第二观测概率矩阵，该第二观测概率矩阵中的元素/>表示静态信息为X_i时，离职意向为Z_j的概率，i，j和k均为大于或等于1的自然数。

需要说明的是，在该预训练隐马尔可夫模型λ＝((A,B,C),X,π)中，模型参数A,B,C均是未知的，需要经过训练得到。而隐含状态序列{Y₁,Y₂,…,Y_n}可以通过对已录用员工样本的工作状态数据分析后确定，即隐含状态序列中的各个隐含状态Y_j分别表示员工的何种工作状态是给定的。其中，已录用员工样本包括在职员工样本和离职员工样本，离职员工样本包括已离职员工样本和已提交离职申请但未正式离职的员工样本。

可选的，通过统计的方法确定隐含状态序列。例如先统计每个已录用员工样本的工作状态类别，考虑到不同已录用员工样本可能具有相同或相近的工作状态类别，可以使用本领域中任何合适的方式将相同的工作状态类别进行去重，或者直接对各个已录用员工样本的工作状态类别进行聚类，最后基于去重后的所有工作状态类别或者聚类后的工作状态类别建立隐含状态序列。

通过建立如上述的预训练隐马尔可夫模型，然后利用已录用员工样本数据对其进行训练，以获取可以用于预测求职者入职后工作状态和离职概率的隐马尔可夫模型。其中，已录用员工样本数据包括每个员工样本应聘时产生的应聘数据、入职后产生的工作状态数据、以及与工作状态数据按照时间排序一一对应的离职意向数据。

可选的，利用已录用员工样本数据对该预训练隐马尔可夫模型进行训练的方法包括：先建立训练集数据，该训练集数据中包括多个第一已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，其中，离职意向标注值序列中的离职意向标注值与工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应，第一已录用员工样本包括第一在职员工样本和第一离职员工样本。然后利用该训练集数据对该预训练隐马尔可夫模型进行训练。

需要说明的是，在本实施例中，将已录用员工样本数据分为第一已录用员工样本数据和第二已录用员工样本数据两部分。其中第一已录用员工样本数据用于建立训练集数据，该训练集数据用于训练前述构建的预训练隐马尔可夫模型，以获取模型参数。第二已录用员工样本数据用于建立测试集数据，该测试集数据用于检验训练后得到的模型参数是否为较优或最优模型参数。

具体的，静态信息特征数据集中包括简历信息特征、面试视频特征、以及笔试信息特征中的任意一种或几种的组合。

为了避免预测模型对数据形式的依赖性和数据维度过高产生的过拟合，优选的，在本实施例中，通过深度学习的图神经网络模型对简历文本数据、面试视频数据和笔试文本数据进行降维分类，实现对非结构化数据的高效转化、分析和整合，以提高模型预测准确率。

具体的，简历信息特征的获取方法包括：将简历文本输入至深度学习的简历文本图神经网络模型中，该深度学习的简历文本图神经网络模型输出与该简历文本对应的简历信息特征。可选的，该简历信息特征包括学历、年龄、项目经历、实习经历、个人评价、专业技能等。

面试视频特征的获取方法包括：将面试视频中的至少一帧图像输入至深度学习的面试图神经网络模型中，该深度学习的面试图神经网络模型输出与该图像对应的面试视频特征。可选的，该面试视频特征包括表情、着装、礼仪、面试时长等。

笔试信息特征的获取方法包括：将笔试文本输入至深度学习的笔试文本图神经网络模型中，该深度学习的笔试文本图神经网络模型输出与该笔试文本对应的笔试信息特征。可选的，该笔试信息特征包括性格测试得分、专业技能得分等。

具体的，工作状态特征数据集中包括员工绩效、员工考勤、员工请假频率、领导打分、同事评价、员工奖惩中的任意一种或者多种的组合。

具体的，离职意向标注值序列为由0和1组成的序列，如表示员工在t时刻，工作状态为Y_j时未离职，再如/>表示员工在t+1时刻，工作状态为Y_j时离职。

具体的，训练时，以员工的静态信息特征数据集和员工的工作状态数据集序列作为输入，通过调整模型参数A,B,C，输出员工的离职意向值，然后再将输出的离职意向值与对应的实际的离职意向标注值进行比对，若输出的离职意向与实际的离职意向均一致，确定此时的模型参数A,B,C；反之，继续调整模型参数A,B,C。

需要说明的是，模型输出的员工离职意向值的范围为0～1。当模型输出的员工离职意向值介于0-0.5之间时，表明员工的离职意向较低，判定其不离职。若此时与其对应的实际的离职意向标注值为0，就可以判定为模型输出的员工离职意向值与实际的离职意向标注值一致，反之判定不一致。当模型输出的员工离职意向值介于0.5-1之间时，表明员工的离职意向较高，判定其离职。若此时与其对应的实际的离职意向标注值为1，就可以判定为模型输出的员工离职意向值与实际的离职意向标注值一致，反之，判定不一致。

在本发明的其他实施例中，在训练结束之后，还需要对训练得到的模型参数A,B,C进行测试检验，若检验不通过，还需要对训练后得到的模型参数A,B,C进行优化。可选的，测试检验方法包括：将测试集数据中的静态信息特征数据集输入至训练后的预训练隐马尔可夫模型中进行测试，输出每个第二已录用员工样本的工作状态特征数据集预测序列和离职意向标注值预测序列。然后将该工作状态特征数据集预测序列和离职意向标注值预测序列分别与测试集数据中对应的工作状态特征数据集序列以及离职意向标注值序列进行比对，计算预测准确率。当预测准确率大于或等于预设准确率阈值时，结束训练并确定模型参数；当预测准确率小于预设准确率阈值时，返回重新建立训练集数据，以重复训练过程，以对训练后得到的模型参数进行优化，直至得到预测精度高的、能够用于预测求职者工作状态和离职概率的隐马尔可夫模型。

需要说明的是，测试集数据的建立方法与训练集数据的建立方法相同，为简约起见，在此不再赘述。具体的，该测试集数据中包括多个第二已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，其中，离职意向标注值序列中的离职意向标注值与工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应；该第二已录用员工样本包括第二在职员工样本和第二离职员工样本。

需要说明的是，在步骤S101中，可以预先构建并训练得到用于预测求职者工作状态和离职概率的隐马尔可夫模型，当需要使用时直接调用即可。也可以在使用时才进行构建并训练得到用于预测求职者工作状态和离职概率的隐马尔可夫模型操作，然后进行调用。

步骤S102：获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集。

在步骤S102中，构建求职者的静态信息特征数据集的方法与步骤S101中构建第一已录用员工样本的静态信息特征数据集的方法相同，为简约起见，在此不再赘述。

步骤S103：将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

可选的，在步骤S103中，将静态信息特征数据集输入隐马尔可夫模型后，通过前向后向算法求解隐含状态序列的概率，预测求职者入职后的工作状态和离职概率。

具体的求解过程如下：

假设隐含状态序列为o₁,o₂,o₃,...,o_t,...,o_n，观测状态序列为s₁,s₂,s₃,...,s_t,...,s_n。

前向概率：

给定隐马尔可夫模型λ＝((A,B,C),X,π)，定义到t时刻部分观测状态序o₁,o₂,o₃,...,o_t，且工作状态为s_t的概率为前向概率，记作α_t(i)＝P(o₁,o₂,...,o_t,s_t|λ)，根据递推公式

，求解前向概率。

同样地，给定隐马尔可夫模型λ＝((A,B,C),X,π)，定义在t时刻且工作状态为s_t的条件下，从t+1到T的部分观测序列为部分观测状态序o_t+1,o_t+2,o_t+3,...,o_T的概率为后向概率，记为β_t(i)＝p(o_t+1,o_t+2,o_t+3,...,o_T|s_t,λ)，根据递推公式

求解后向概率，即得到预测的员工工作状态。由于存在关系P(s_t|o)∝α_t(s_t)β_t(s_t)，因此可以预测出员工离职的概率。

本申请中，预测时，使用的数据为求职者的静态信息特征数据集，无人为评判指标，因此，可以避免为人力资源管理带来的主观随意性和随机不确定性。

图1所示实施例的基于隐马尔可夫模型的离职预测方法，通过基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；获取求职者的应聘数据，基于该求职者的应聘数据构建求职者的静态信息特征数据集；将该静态信息特征数据集输入该隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。通过预测求职者入职后的工作状态和离职概率，使得人力资源管理部门在应聘流程结束后，可以结合预测结果做出是否录用决定，从而实现尽量避免将易离职的不稳定求职者招聘到企业中，进而降低员工离职所带来的损失，同时也能减少人力招聘成本。此外，本实施例采用的隐马尔可夫模型为时序模型，其预测结果中还包含了离职时间，因此，本实施例提供的离职预测方法在时间尺度上的可拓展性强，如后序可以进一步实现实时响应离职预警等。

在前述实施例中，隐含状态序列是基于对选定的所有已录用员工样本的工作状态数据分析后确定的。考虑到不同工作年限的求职者入职后的工作状态差异较大，在本发明的另一个实施例中，对工作年限进行了分类，例如包括无工作年限(即应届毕业生)类别、1-2年工作年限类别、2-5年工作年限类别、5-10年工作年限类别等，然后按照该类别分别构建并训练用于预测求职者未来工作状态和离职概率的隐马尔可夫模型。在每个类别中，具体的训练方法同步骤S101中所述的训练方法，为简约起见，在此不再赘述。

请参阅图3所示，图3是本发明另一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。如图3所示，该方法包括：

步骤S201：获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属的工作年限类别。

在该步骤S201中，获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集步骤与图1所示实施例的步骤S102类似，为简约起见，在此不再赘述。

在步骤S201中，可以使用本领域中任何合适的分类模型来确定求职者所属的工作年限类别。也可以人为识别工作年限后，人为进行类别分类。

步骤S202：根据该求职者所属工作年限类别调用与该工作年限类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

在本实施例中，预先构建并训练得到不同工作年限类别所对应的预测模型，然后在步骤S202中，就可以根据求职者所属工作年限类别调用对应的预测模型。

步骤S203：将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

在本实施例中，步骤S203与图1所示实施例的步骤S103类似，为简约起见，在此不再赘述。

图3所示实施例的基于隐马尔可夫模型的离职预测方法，通过获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属的工作年限类别；根据该求职者所属工作年限类别调用与该工作年限类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型；将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。相比较于图1所示实施例，通过上述方式，可以提高模型预测准确率，以帮助人力资源管理部门做出更加正确的决定，进一步降低员工离职所带来的损失和减少人力招聘成本。

进一步的，考虑到不同区域的员工和求职者对工作的期望要求和可接受范围有差异，在本发明的另一个实施例中，对员工所在区域进行了分类，例如分成南方和北方，又或者按照城市划分为一线城市、二线城市、三线城市、……等，然后按照该区域类别分别构建并训练用于预测求职者未来工作状态和离职概率的隐马尔可夫模型。在每个类别中，具体的训练方法同步骤S101中所述的训练方法，为简约起见，在此不再赘述。

请参阅图4所示，图4是本发明再一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。如图4所示，该方法包括：

步骤S301：获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属区域类别。

在该步骤S301中，获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集步骤与图1所示实施例的步骤S102类似，为简约起见，在此不再赘述。

可选的，在步骤S301中，先根据该求职者的简历文本信息确定该求职者所属行政区域，然后根据其所属行政区域确定其所属区域类别。

步骤S302：根据该求职者所属区域类别调用与该区域类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

在本实施例中，预先构建并训练得到不同区域类别所对应的预测模型，然后在步骤S302中，就可以根据求职者所属区域类别调用对应的预测模型。

步骤S303：将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

在本实施例中，步骤S303与图1所示实施例的步骤S103类似，为简约起见，在此不再赘述。

图4所示实施例的基于隐马尔可夫模型的离职预测方法，通过获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属区域类别；根据该求职者所属区域类别调用与该区域类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型；将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。相比较于图1所示实施例，通过上述方式，可以提高模型预测准确率，以帮助人力资源管理部门做出更加正确的决定，进一步降低员工离职所带来的损失和减少人力招聘成本。

请参阅图5所示，图5是本发明又一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该方法包括：

步骤S401：获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属区域类别和工作年限类别。

在该步骤S401中，获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集步骤与图1所示实施例的步骤S102类似，确定该求职者所属区域类别步骤与图3所示实施例的步骤S201类似，确定该求职者所属工作年限类别步骤与图4所示实施例的步骤S301类似，为简约起见，在此不再赘述。

步骤S402：根据该求职者所属区域类别和工作年限类别调用与该区域类别以及工作年限类别均对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

在本实施例中，按照区域分类，在每个区域类别中，预先构建并训练得到不同工作年限类别所对应的预测模型，然后在步骤S402中，就可以根据求职者所属区域类别和工作年限类别调用对应的预测模型。

步骤S403：将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

在本实施例中，步骤S403与图1所示实施例的步骤S103类似，为简约起见，在此不再赘述。

图5所示实施例的基于隐马尔可夫模型的离职预测方法，通过获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集并确定该求职者所属区域类别和工作年限类别；根据该求职者所属区域类别和工作年限类别调用与该区域类别相对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型；将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。相比较于图1所示实施例，通过上述方式，可以提高模型预测准确率，以帮助人力资源管理部门做出更加正确的决定，进一步降低员工离职所带来的损失和减少人力招聘成本。

请参阅图6所示，图6是本发明又一个实施例基于隐马尔可夫模型的离职预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括：

步骤S501：基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型。

可选的，在本实施例中，步骤S501与图1所示实施例的步骤S101类似，为简约起见，在此不再赘述。

步骤S502：获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集，并根据该求职者的静态信息特征数据集创建求职画像。

可选的，在本实施例中，步骤S502中的获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集步骤与图1所示实施例的步骤S102类似，为简约起见，在此不再赘述。

可选的，当获取到求职者的静态信息特征数据集后，可以为该求职者建立专属于该求职者的个人档案(即求职画像)，所述个人档案可以配合求职者的照片以及应聘编号，方便查找，所有建立的这些个人档案可以存储在数据库中，由于求职者的应聘编号在企业内部是唯一的，因此存储在数据库中的档案可以根据应聘编号唯一标识进行查找。

步骤S503：将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

可选的，在本实施例中，步骤S503与图1所示实施例的步骤S503类似，为简约起见，在此不再赘述。

步骤S504：判断该求职者的离职概率大于预设概率阈值时所对应的入职时间是否大于或等于预设时间阈值。

可选的，在步骤S504中，预设概率阈值和预设时间阈值可以根据实际需求进行设置。如将预设概率阈值设为0.9，将预设时间阈值设为2年，当然预设时间阈值还可以根据所应聘岗位分别设置，如重要或核心项目岗位的预设时间阈值可以设置得稍长一些，如5年等。

前述已经介绍了隐马尔可夫模型为时序模型，当预测到求职者要离职时，就能对应获知其离职时所对应的入职时间，如果该入职时间大于或等于预设时间阈值，判定该求职者属于不易离职的稳定型求职者，执行步骤S505。否则，判定该求职者属于易离职的不稳定型求职者，执行步骤S506。

步骤S505：在该求职者的求职画像上设置可以录取标识。

步骤S506：在该求职者的求职画像上设置不录取标识。

图6所示实施例的基于隐马尔可夫模型的离职预测方法，通过基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型；获取求职者的应聘数据，基于该求职者的应聘数据构建该求职者的静态信息特征数据集，并根据该求职者的静态信息特征数据集创建求职画像；将该静态信息特征数据集输入该用于预测求职者工作状态和离职概率的隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率；判断该求职者的离职概率大于预设概率阈值时所对应的入职时间是否大于或等于预设时间阈值；若是，在该求职者的求职画像上设置可以录取标识；否则，在该求职者的求职画像上设置不录取标识。通过为求职者创建求职画像，根据预设条件判断其是否可以被录取，并在求职画像上设置对应的标识，更加方便人力资源管理部门直观获取可以录取的求职者资料，同时也为人力资源管理部门后序寻找后补员工提供参考信息，使得人力资源管理部门的工作更加便捷，可以提升人力资源管理部门的工作管理效率，降低招聘成本等。

图7是本发明一个实施例基于隐马尔可夫模型的离职预测装置的结构示意图。如图7所示，该离职预测装置60包括第一获取模块61、第二获取模块62和预测模块63。

其中，第一获取模块61用于基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对该预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型。第二获取模块62用于获取求职者的应聘数据，基于该应聘数据构建该求职者的静态信息特征数据集。预测模块63与第一获取模块61以及第二获取模块62均耦接，用于将该静态信息特征数据集输入隐马尔可夫模型，预测该求职者入职后的工作状态和离职概率。

可选的，第一获取模块61获取用于预测求职者工作状态和离职概率的隐马尔可夫模型的操作包括：将员工的静态信息作为输入，以员工的工作状态为隐含状态、员工的离职意向为观测状态，构建预训练隐马尔可夫模型，该预训练隐马尔可夫模型的模型参数包括第一观测概率矩阵A、状态转移概率矩阵B和第二观测概率矩阵C；其中，第一观测概率矩阵A中的元素表示静态信息为X_i时，工作状态为Y_j的概率；状态转移概率矩阵B中的元素/>表示工作状态Y_j向工作状态Y_k转移的概率；第二观测概率矩阵C中的元素/>表示静态信息为X_i时，离职意向为Z_j的概率，i，j和k均为大于或等于1的自然数；建立训练集数据，该训练集数据中包括多个第一已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，离职意向标注值序列中的离职意向标注值与工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应；其中，第一已录用员工样本中包括第一在职员工样本和第一离职员工样本；利用该训练集数据对该预训练隐马尔可夫模型进行训练。

可选的，第一获取模块61获取用于预测求职者工作状态和离职概率的隐马尔可夫模型的操作还包括：建立测试集数据，该测试集数据中包括多个第二已录用员工样本的静态信息特征数据集、工作状态特征数据集序列以及离职意向标注值序列，离职意向标注值序列中的离职意向标注值与工作状态特征数据集序列中的工作状态特征数据集按照时间排序一一对应；其中，第二已录用员工样本中包括第二在职员工样本和第二离职员工样本；将该测试集数据中的静态信息特征数据集输入至训练后的预训练隐马尔可夫模型中进行测试，输出每个第二已录用员工样本的工作状态特征数据集预测序列和离职意向标注值预测序列；将工作状态特征数据集预测序列与测试集数据中对应的工作状态特征数据集序列进行比对、以及将离职意向标注值预测序列与测试集数据中对应的离职意向标注值序列进行比对，计算预测准确率；当预测准确率大于或等于预设准确率阈值时，结束训练并确定模型参数；当预测准确率小于预设准确率阈值时，返回建立训练集数据步骤，以对训练后得到的模型参数进行优化。

可选的，静态信息特征数据集中包括：简历信息特征、面试视频特征、以及笔试信息特征中的任意一种或几种的组合。

可选的，简历信息特征的获取方法包括：将简历文本输入至深度学习的简历文本图神经网络模型中，所述深度学习的简历文本图神经网络模型输出所述简历信息特征。

可选的，面试视频特征的获取方法包括：将面试视频中的至少一帧图像输入至深度学习的面试图神经网络模型中，所述深度学习的面试图神经网络模型输出所述面试视频特征。

可选的，笔试信息特征的获取方法包括：将笔试文本输入至深度学习的笔试文本图神经网络模型中，所述深度学习的笔试文本图神经网络模型输出所述笔试信息特征。

可选的，该离职预测装置60还包括与第二获取模块62耦接的确定模型64，用于基于求职者的应聘数据确定求职者所属区域类别。第一获取模块61还与确定模块64耦接，用于根据求职者所属区域类别调用与该区域类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

可选的，确定模型64还用于基于求职者的应聘数据确定求职者所属工作年限类别。第一获取模块61还用于根据求职者所属工作年限类别调用与该工作年限类别对应的用于预测求职者工作状态和离职概率的隐马尔可夫模型。

可选的，该离职预测装置60还包括与第二获取模块62耦接的创建模块65，用于根据求职者的静态信息特征数据集创建求职画像。

可选的，预测模块63还与创建模块65耦接，用于当预测到求职者的离职概率大于预设概率阈值时所对应的入职时间小于预设时间阈值时，在求职者的求职画像上设置不录取标识；当预测到求职者的离职概率大于预设概率阈值时所对应的入职时间大于或等于预设时间阈值时，在求职者的求职画像上设置可以录取标识。

请参阅图8，图8为本发明一个实施例计算机设备的结构示意图。如图8所示，该计算机设备70包括处理器71及和处理器71耦接的存储器72。存储器72中存储有计算机可读指令，该计算机可读指令被处理器71执行时，使得处理器71执行上述的基于隐马尔可夫模型的离职预测方法的步骤。

其中，处理器71还可以称为CPU(Central Processing Unit，中央处理单元)。处理器71可能是一种集成电路芯片，具有信号的处理能力。处理器71还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明一个实施例的存储介质的结构示意图。该存储介质80中存储有计算机可读指令81，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的基于隐马尔可夫模型的离职预测方法的步骤。其中，该计算机可读指令81可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质80包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于隐马尔可夫模型的离职预测方法，其特征在于，所述方法包括：

将所述静态信息特征数据集输入所述隐马尔可夫模型，预测所述求职者入职后的工作状态和离职概率；

所述基于员工的静态信息和工作状态对员工离职意向的影响，构建预训练隐马尔可夫模型，并通过已录用员工样本数据对所述预训练隐马尔可夫模型进行训练，获取用于预测求职者工作状态和离职概率的隐马尔可夫模型，包括：

将员工的静态信息作为输入，以员工的工作状态为隐含状态、员工的离职意向为观测状态，构建预训练隐马尔可夫模型，所述预训练隐马尔可夫模型的模型参数包括第一观测概率矩阵A、状态转移概率矩阵B和第二观测概率矩阵C；其中，所述第一观测概率矩阵A中的元素表示静态信息为X_i时，工作状态为Y_j的概率；所述状态转移概率矩阵B中的元素/>表示工作状态Y_j向工作状态Y_k转移的概率；所述第二观测概率矩阵C中的元素/>表示静态信息为X_i时，离职意向为Z_j的概率，i，j和k均为正整数；

2.根据权利要求1所述的方法，其特征在于，所述构建预训练隐马尔可夫模型之后，还包括：

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述静态信息特征数据集中包括：简历信息特征、面试视频特征、以及笔试信息特征中的任意一种或几种的组合。

4.根据权利要求3所述的方法，其特征在于，

所述简历信息特征的获取方法包括：将简历文本输入至深度学习的简历文本图神经网络模型中，所述深度学习的简历文本图神经网络模型输出所述简历信息特征；和/或

5.根据权利要求1所述的方法，其特征在于，

所述方法还包括：基于所述求职者的应聘数据确定所述求职者所属区域类别；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述求职者的静态信息特征数据集创建求职画像；

7.一种基于隐马尔可夫模型的离职预测装置，其特征在于，所述装置包括：

预测模块，所述预测模块用于将所述静态信息特征数据集输入所述隐马尔可夫模型，预测所述求职者入职后的工作状态和离职概率；

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的基于隐马尔可夫模型的离职预测方法的步骤。

9.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项所述的基于隐马尔可夫模型的离职预测方法的步骤。