CN111798059B

CN111798059B - 离职预测系统及方法

Info

Publication number: CN111798059B
Application number: CN202010650648.9A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2023-11-24
Anticipated expiration: 2040-07-10
Also published as: CN111798059A

Abstract

本公开提供了一种离职预测系统，用于预测员工在未来一段时间内的离职概率，其特征在于，包括：基础资料获取单元，获取员工在公司登记的基础数据，处理并得到基础数据的属性与其对应的数值，匹配得到多个基础资料特征；公开资料获取单元，爬取在公开网络上的与员工有关的数据，得到公开资料；数据预处理单元，分类并匹配所述公开资料中数据的属性和属性的值，得到多个公开资料特征；离职信息强化单元，处理所述基础资料特征和公开资料特征，强化其中与离职密切相关的特征，得到统一格式的离职数据特征；以及离职预测单元，处理所述离职数据特征，输出员工在未来一段时间内的离职概率。本公开还提供了一种离职预测方法。

Description

离职预测系统及方法

技术领域

本公开涉及互联网信息处理技术领域，更具体地，涉及一种自动预测员工在未来一段时间内的离职概率的系统及方法。

背景技术

随着社会经济的发展，人们观念的转变，交通越来越便利，社会中各种类型的公司创造了越来越多的工作岗位。这虽然丰富了人们求职时的可选择性，但随之而来的问题是，对于一家公司而言，员工的流动性也增强了。而且，即使现在招聘方式和手段非常丰富，但在一些重要或关键的岗位，招聘到合适的员工，也并非一件容易的事。同时，招聘本身的经济成本和时间成本也非常大，新招聘的员工也并不一定总能适应岗位的需求。总之，对于现代化的企业来说，急需一种离职预测系统和方法，对在职的员工进行在未来一段时间内离职概率的预测，对于离职概率大并且想要挽留的员工，提前做出应对措施。

发明内容

有鉴于此，本公开实施例的目的在于提供一种离职预测系统和方法，旨在提高预测员工在未来一段时间内离职的概率的准确度，帮助企业提前做出应对措施，找到员工离职的原因，优化内部管理，最终减少员工的离职率，节约企业招聘所花费的成本。

根据本公开的第一方面，提供了一种离职预测系统，用于预测员工在未来一段时间内的离职概率，其特征在于，包括：

基础资料获取单元，获取员工在公司登记的基础数据，处理并得到基础数据的属性与其对应的数值，匹配得到多个基础资料特征；

公开资料获取单元，爬取在公开网络上的与员工有关的数据，得到公开资料；

数据预处理单元，分类并匹配所述公开资料中数据的属性和属性的值，得到多个公开资料特征；

离职信息强化单元，处理所述基础资料特征和公开资料特征，强化其中与离职密切相关的特征，得到统一格式的离职数据特征；以及

离职预测单元，处理所述离职数据特征，输出员工在未来一段时间内的离职概率。

在一个可能的实施例中，所述数据预处理单元包括：

文本分类单元，用于将所述公开资料按照语义分类，得到与离职有关的文本的属性；

数值匹配单元，用于将所述文本的属性与其对应的数值匹配，得到公开资料特征。

在一个可能的实施例中，所述文本分类单元是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

在一个可能的实施例中，所述变体ReLU函数的表达式为：

或者

在一个可能的实施例中，所述离职信息强化单元包括：

特征重复验证单元，用于验证所述基础资料特征和公开资料特征是否存在重复，若存在重复，则保留较新的特征，删除较旧的特征；

特征语义强化单元，用于加强与离职密切相关的特征的权重，以及减少同类特征中，语义矛盾项中置信度较低的特征的权重。

根据本公开的第二方面，提供了一种预测离职的方法，用于预测员工在未来一段时间内的离职概率，其特征在于，包括：

根据获取的员工在公司登记的基础数据，处理并得到基础数据的属性与其对应的数值，匹配得到多个基础资料特征；

爬取在公开网络上的与员工有关的数据，得到公开资料；

匹配所述公开资料中数据的属性和属性的值，得到多个公开资料特征；

处理所述基础资料特征和公开资料特征，强化其中与离职密切相关的特征，得到统一格式的离职数据特征；以及

处理所述离职数据特征，输出员工在未来一段时间内的离职概率。

在一个可能的实施例中，所述匹配所述公开资料中数据的属性和属性的值包括：

将所述公开资料按照语义进行分类，得到与离职有关的文本的属性；

匹配所述文本的属性与其对应的数值，得到公开资料特征。

在一个可能的实施例中，所述将所述公开资料的按照语义进行分类是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

在一个可能的实施例中，所述变体ReLU函数的表达式为：

或者

在一个可能的实施例中，所述强化其中与离职密切相关的特征包括：

验证所述基础资料特征和公开资料特征是否存在重复，若存在重复，则保留较新的特征，删除较旧的特征；

加强与离职密切相关的特征的权重，以及减少同类特征中，语义矛盾项中置信度较低的特征的权重。

根据本公开的第三方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第二方面所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如第二方面所述的方法。

本公开实施例提供的预测离职的系统和方法，将员工登记在企业内的数据整理成与离职有关的基础资料特征，在公开网站获取的互联网数据整理成与离职有关的公开资料特征，将两者相结合，对重点部分进行了语义强化，对互相矛盾的部门减少了语义权重，得到离职数据特征。因此，在预测离职概率时，精准的考虑到了员工在企业工作中不会表现出的特征(即公开资料特征)，预测效果更加准确。在数据预处理时，采用了特别优化的激活函数，更好的适应了离职预测时的数据特点，提高了预测模型的速度和泛化能力。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本公开实施例的典型的互联网社区岗位招聘的示意图。

图2示出了根据本公开实施例的典型的互联网社区个人简历的示意图。

图3示出了根据本公开实施例的典型的互联网社区培训课程的示意图。

图4示出了根据本公开实施例的离职预测系统的示意图。

图5示出了根据本公开实施例的基础资料特征的示意图。

图6示出了根据本公开实施例的公开资料特征的示意图。

图7示出了根据本公开实施例的神经网络的示意图。

图8示出了根据本公开实施例的激活函数的示意图。

图9示出了根据本公开实施例的激活函数的示意图。

图10示出了用于实现本公开实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

如何预测员工在未来一段时间内的离职概率对于企业来说意义重大，现有技术中对于员工离职的预测多数都考虑了一些通常情况下与离职密切相关的属性，例如收入、绩效、升职等，以及根据员工简历中所反应的员工职业变迁记录。这些数据都是记载在企业的，其真实性一般较高。但由于员工与企业是劳动关系，员工不可能将全部的，特别是个人隐私的数据登记在公司资料中。每一个员工的性格不同、能力不同、家庭不同，机遇不同，同一个预测离职的属性，不一定适用于每一个员工。比如一般来说，工资对员工是否离职的判断是重要的属性之一，但如果一个员工由于家庭原因，必须找一份离家近的工作，这时工资对于这位员工就不是重要的属性，而上班距离则是重要的属性。所以，进行离职预测时，必须考虑员工的其他离职属性特征，而这些属性特征往往在员工登记在企业的基础资料中无法体现。

由于互联网的发展普及，出现了许多招聘网站、招聘社区、面试培训网站等，这些网站上面，往往设置有评论区、聊天区等。网友们也喜欢这种轻松、匿名的交流方式，反而更会倾吐心声，交流一些平时在公司中不会与同事交流的事情。

在很多招聘社区，用户可以浏览企业发布的招聘岗位信息，可以收藏、关注企业的联系人，互加好友、申请该职位等。这种社区带有社交的性质，不同于传统的招聘网站，在这里浏览的信息是双向的。招聘者可以看到求职者的个人页面，求职者也可以看到公司页面，互相留言聊天，互相了解。在个人页面中，隐私设置为所有人可见的，就能被浏览网页的所有人看到，或被网页爬虫爬取到。

在这种带有社交属性的招聘网站，个人简历不再是简单的表格，上面可以有很多更加丰富的个人介绍、照片、视频等想要展示的信息，招聘者也可以根据求职者关注的企业、好友、协会等，判断求职者是否符合招聘岗位要求。求职者也可以浏览企业页面展示的信息，例如企业文化、培训、行业互动等信息，来判断自己是否喜欢这家企业。在留言区中，隐私设置为所有人可见的聊天内容，也能被浏览网页的所有人看到，或被网页爬虫爬取到。

在带有社交属性的招聘网站中，也有一些求职培训，例如一些通用的面试技巧培训，也有一些专业的技能知识培训。这些培训课程的一般都设置了对课程的评论区，用户可以自由发表看法，甚至在评论区自由聊天。评论区的隐私设置都是所有人可见，能被浏览网页的所有人看到，或被网页爬虫爬取到。

有鉴于此，本发明提供了一种预测离职的系统和方法，将爬取到的公开资料数据整理成与离职有关的公开资料特征，结合员工登记在企业内的数据整理成与离职有关的基础资料特征，对重点部分进行了语义强化，对互相矛盾的部门减少了语义权重，得到离职资料特征，最终预测出员工在未来一段时间内离职的概率，其预测效果更加准确和快速。

图4示出了根据本公开实施例的离职预测系统200的示意图。系统200包括基础资料获取单元201、公开资料获取单元202、文本分类单元2031、数值匹配单元2032、特征重复验证单元2041、特征语义强化单元2042、离职预测单元205。本文中，文本分类单元2031和数值匹配单元2032有时也统称为数据预处理单元203，特征重复验证单元2041和特征语义强化单元2042有时也统称为离职信息强化单元204。

基础资料获取单元201用于获取来自企业HR数据库的数据，例如员工入职时填写的资料，员工在企业工作的时间，职位、薪资、绩效记录等，或其他企业记录的数据，本文不做过多限制。

这些基础资料数据，由于来自于企业，已经经过了加工整理，其数据格式规范，可以包括：个人基本信息(性别、年龄、婚育情况等)、家庭住址、公司地址、公司电脑上的网站浏览记录、登录求职网站的频度等。基础资料获取单元201将其属性，以及属性对应的值，匹配成为基础资料特征。

图5示出了根据本公开实施例的基础资料特征的示意图。属性为反应事物特征的抽象名称，属性的值为其对应的数值或描述。例如，工资为属性，属性的值为10000。上班方式为属性，属性的值为地铁。

公开资料获取单元202利用爬虫网络技术抓取员工在网上留下的信息，例如，获取员工的聊天记录、社交媒体的活跃度(微博、微信等)，招聘网站的个人页面是否更新，关注新的公司等。

爬虫技术是基于SCRAPY的爬虫框架的现有技术，实现对求职网站及职场社交网站中职位数据、简历数据、聊天记录的爬取。可以想到的是，爬取的数据格式不规范，聊天记录中也可能包含大量有用的信息。数据的属性，与属性的值，可能出现在一句话中，也可能出现在多句问答之中。

例如，在爬取的信息是在一段聊天中：

A：多少钱的工资你会考虑？

B：可能超过1万元吧，离家也不能太远。

A:多远你就不能接受？

B:路程不超过一小时。

A:地铁吗？

B:开车。

这段话中出现了两个重要的与离职密切相关的话题：收入和通勤，而且还聊到了对这两个方面的要求。如果能将其按照语义分类、匹配成与基础资料数据一样的数据格式，无疑对于判断员工离职概率是非常有用的。

数据预处理单元203可以从杂乱的互联网信息中提取到与离职相关的信息，有效地对文本分类，提取属性并匹配其数值，将一段聊天记录分类到相关话题，并赋予话题的数值参数，整理成属性与属性的值的数据格式。

数据预处理单元203接收来自公开资料获取单元202的数据，识别出与待预测员工相关的数据。识别爬取的数据与待预测员工是否相关的方法可以是检测用户ID、个人资料是否匹配等。例如有招聘社区的求职者个人页面的资料与基础资料特征中的信息完全匹配，可以认为是一个人，则其在招聘社区的用户ID会被锁定，其用户ID在该网络社区，以及其他网站发表的信息，都会被认为是同一个人。现在很多网站是授权微信、微博等账号登录，这些账户在不同网站发表的信息，都被认为是同一个人。识别爬取的数据与待预测员工是否相关的方法，本公开不做限制。

数据预处理单元203包括文本分类单元2031，对与员工有关的数据，进行语义分类，将数据的属性打上不同的标签。

例如，对于一段爬取到的待预测的员工B的聊天记录：

A：多少钱的工资你会考虑？

B：可能超过1万元吧，离家也不能太远。

A:多远你就不能接受？

B:路程不超过一小时。

A:地铁吗？

B:开车。

文本分类单元2031将其分类成3个标签，标签1的属性为工资，标签2的属性为通勤方式，标签3的属性为通勤时间。

数据预处理单元203还包括数值匹配单元2032，将文本分类单元2031得到的多个属性与属性的值匹配，其方法可以是从原始文本中匹配和标签语义相近的词语，然后再定位的词语的附近查询相关联的数值。关于匹配的方法，本公开不做限制。

最后，得到与基础资料特征一致的数据格式的形式，称为公开资料特征。对于上述的例子，标签1的属性为工资，属性的值为10000。标签2的属性为通勤方式，属性的值为开车。标签3的属性为通勤时间，属性的值为1小时。这些数据，称为公开资料特征。

图6示出了根据本公开实施例的公开资料特征的示意图。

离职信息强化单元204中包括特征重复验证单元2041，交叉验证基础资料特征和公开资料特征中的信息是否有重复项，例如有多个家庭住址，目标薪资，目标职位等，以时间标签最新的为准，剔除时间标签在前的重复项。例如：2018年登记的地址是A小区，2020年登记的地址是B小区，则删除A小区，在数据对中保留B小区。

离职信息强化单元204中还包括特征语义强化单元2042，进行语义强化，对于与判断离职密切相关的信息，给与权重强化，比如相关信息包括但不限于个人信息，教育背景，职业背景，公司属性、地区属性、人员属性等；公司属性包括但不限于：公司简介，公司业务，行业领域等；地区属性包括但不限于：地区，商圈，及其他特定地理信息相关联属性等；人员属性包括但不限于：年龄，性别，政治背景，教育背景等。

离职信息强化单元204的语料库是针对离职判断特别经过整理和优化，对上述信息就会特别注意到，赋予重点语义更多的权重。同样的，对于同类特征中，语义矛盾项中置信度较低的特征的权重，会进行减少。比如，目标通勤方式中，多个语料中出现了开车，只有一个语料出现了地铁。则可以判断出员工更多的倾向于开车上下班。对于采用地铁通勤的方式，置信度较低，会适当降低其权重。关于判断置信度的方法，可以是统计学中的任何方法，也可以是其他方法，本公开不做限制。

可以理解的是，与离职密切相关的因素较多，例如绩效、司龄、薪资、升值、上班路程(具体还包括距离、交通时间成本、转车次数成本、费用成本等)，甚至包括婚姻等因素，故本实施例中的离职属性不限于上述这些，还可以包括企业发展、行业发展等，本公开不做限制。

例如，对于基础资料特征和公开资料特征中的数据，不同的数据属性排序是杂乱无章的，这里就针对内容上有关联的数据，进行组合，形成离职数据特征。例如，(上班距离，10公里)，(薪资，1万元)，(当前通勤距离，20公里)，(当前薪资，8000元)这类型的信息，会匹配成(期望的上班距离，10公里)，(期望的薪资，10000元)。类似这样的信息，反应了员工的求职状态，非常重要，都会进行加重权重，并与(当前通勤距离，20公里)，(当前薪资，8000元)组成离职数据特征，实现对离职判断有意义的信息在语句排列的距离上也靠近的效果。

通过该操作，可以利用离职信息中的相关信息对语义表示进行增强，相当于从另外一个角度对每个词进行了表示，再把两个结果拼接起来，会帮助接下来的机器学习模型更好的判断员工的离职概率。

离职预测单元205利用离职数据特征，基于机器学习模型，对员工在未来一段时间内的离职概率进行预测，输出一个n维向量，向量的每一个元素代表了员工在设定好的时间粒度下离职的概率。例如输出为(0.9,0.8,0.7,0.7,0.6,0.5)，设定的时间粒度为1个月，n为6，则表示员工在1个月后离职的概率为0.9,2个月后离职的概率为0.8，以此类推，6个月后离职的概率为0.5。

预测离职概率的机器学习模型可以是常规的机器学习模型。预测的时间粒度可以调整，例如，2周，1个月，2个月，3个月等，预测输出向量维度n可以设置，例如n＝3,6,9,12等。

在一个可能的实施例中，文本分类单元2031可以是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

图7示出了根据本公开实施例的神经网络的示意图。

计算每一个分类类别时，取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入；对于邻近句子开头或句子结束的词，填充0以保证所有词的输入向量为固定长度；在输入窗口中的每个词可被映射到N维向量，N是词向量维数；然后，卷积层产生对应于隐藏节点的全局化特征；这些特征会被输送到池化层，然后通过一个非线性变化层和一个权值非线性层。最后，这些包括局部特征和全局特征的特征会一并送入一个标准的放射网络，将最后一层经过特征提取的隐函数值乘以一定的权重w_i，反向输出至线性神经单元，即池化层，以实现对有价值的信息进行重复利用，增加在整体信息中的权重。使用反向传播算法进行训练至整个网络合适稳定的水平。

卷积层的卷积核，对判断离职密切相关的语言会特别注意，并提取出来，作为局部特征。

局部特征：与判断离职密切相关的属性，例如，工资，公司，职位等等。

图8示出了根据本公开实施例的激活函数的示意图。非线性神经元的激活函数为变体的Relu函数，激活函数的公式如下

实际的训练中发现，数据出现负值的情况非常多，常用的激活函数容易出现饱和，导致训练效果不佳，得不到合适的神经网络参数。

变体的ReLu函数，其负半轴较其他Relu函数更为陡峭，误差梯度下降更快，训练速度更快，调参效果更好。

其他在x＜0时，另斜率更陡峭的函数，也在保护范围中，例如

或者，如图9示出了根据本公开实施例的另一个激活函数的示意图，激活函数的公式如下：

图10示出了用于实现本公开的实施例的电子设备的结构示意图。如图10所示，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)703中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。CPU 701、ROM 703以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该指令被中央处理单元(CPU)701执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种离职预测系统，用于预测员工在未来一段时间内的离职概率，其特征在于，包括：

离职信息强化单元，处理所述基础资料特征和公开资料特征，强化其中与离职密切相关的特征，得到统一格式的离职数据特征；其中，所述离职信息强化单元包括：特征重复验证单元，用于验证所述基础资料特征和公开资料特征是否存在重复，若存在重复，则保留较新的特征，删除较旧的特征；特征语义强化单元，用于加强与离职密切相关的特征的权重，以及减少同类特征中，语义矛盾项中置信度较低的特征的权重；

2.如权利要求1所述的离职预测系统，所述数据预处理单元包括：

3.如权利要求2所述的离职预测系统，所述文本分类单元是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

4.如权利要求3所述的离职预测系统，所述变体ReLU函数的表达式为：

或者

5.一种预测离职的方法，用于预测员工在未来一段时间内的离职概率，其特征在于，包括：

爬取在公开网络上的与员工有关的数据，得到公开资料；

处理所述基础资料特征和公开资料特征，强化其中与离职密切相关的特征，得到统一格式的离职数据特征；其中，所述强化其中与离职密切相关的特征包括：验证所述基础资料特征和公开资料特征是否存在重复，若存在重复，则保留较新的特征，删除较旧的特征；加强与离职密切相关的特征的权重，以及减少同类特征中，语义矛盾项中置信度较低的特征的权重；

6.如权利要求5所述的预测离职的方法，所述匹配所述公开资料中数据的属性和属性的值包括：

匹配所述文本的属性与其对应的数值，得到公开资料特征。

7.如权利要求6所述的预测离职的方法，所述将所述公开资料的按照语义进行分类是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

8.如权利要求7所述的预测离职的方法，所述变体ReLU函数的表达式为：

或者