CN111369044B

CN111369044B - 一种估计流失的方法、设备及计算机可读存储介质

Info

Publication number: CN111369044B
Application number: CN202010125344.0A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-06-06
Anticipated expiration: 2040-02-27
Also published as: CN111369044A

Abstract

本发明提供了一种估计流失的方法、设备及计算机可读存储介质；该方法包括：接收流失人员样本分析指令，并响应于流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息；利用流失人员样本信息构造出流失人员样本序列，并对流失人员样本序列进行序列模式挖掘，得到频繁序列模式；根据频繁序列模式计算出流失人员样本序列对应的样本权重；基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置；当获取到待预测序列时，计算至少一个聚类中心位置与待预测序列的距离信息，进而得到待预测序列的流失概率，完成人员的流失估计。通过本发明，能够提高人员流失估计的准确率。

Description

一种估计流失的方法、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种估计流失的方法、设备及计算机可读存储介质。

背景技术

人员流失估计是指利用人工智能等技术来对人员的流失倾向进行预测估计，以利用预测估计出的流失倾向，来为企业的人力资源工作做出指导，例如，判断企业人员在近期时间内是否会离职，以降低因为企业人员突然离职造成的风险。

相关技术中，人员流失估计的方法主要是从流失人员样本中人工挑选或者是机器自动挑选出特征，用所挑选出的特征来训练朴素贝叶斯分类器、逻辑回归分类器和深度神经网络等模型，建立人员流动与特征之间的概率关系，之后用训练好的模型对新人员样本进行预测，得到最终的流失概率。

然而，在实际的应用场景中，人员样本数据中的各个特征往往是具有关联性的，在利用挑选出的特征训练朴素贝叶斯分类器、逻辑回归分类器时，往往会忽略特征之间的关联性，使得人员流失估计的准确率较低，而利用深度神经网络等模型时会忽略人员样本之间的联系，从而导致人员流失估计的准确率较低。

发明内容

本发明实施例提供一种估计流失的方法、设备及计算机可读存储介质，能够提高人员流失估计的准确率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种估计流失的方法，包括：

接收流失人员样本分析指令，并响应于所述流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息；

利用所述流失人员样本信息构造出流失人员样本序列，并对所述流失人员样本序列进行序列模式挖掘，得到频繁序列模式；所述频繁序列模式表征了所述流失人员样本信息所共同具备的特征；

根据所述频繁序列模式计算出所述流失人员样本序列对应的样本权重；

基于所述样本权重，对所述流失人员样本序列进行聚类，得到至少一个聚类中心；

获取待预测序列，并计算所述至少一个聚类中心与所述待预测序列的距离信息，进而得到所述待预测序列的流失概率，完成人员的流失估计。

本发明实施例提供一种估计流失设备，包括：

存储器，用于存储可执行估计流失指令；

处理器，用于执行所述存储器中存储的可执行估计流失指令时，实现本发明实施例提供的估计流失方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行估计流失指令，用于引起处理器执行时，实现本发明实施例提供的估计流失方法。

本发明实施例具有以下有益效果：

本发明实施例中，估计流失设备获取流失人员样本分析指令，并响应于流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息，之后，利用流失人员样本信息构造出流失人员样本序列，并对流失人员样本序列进行序列模式挖掘，得到频繁序列模式，接着，根据频繁序列模式计算出流失人员样本序列对应的样本权重，然后基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置，最后，当获取到待预测序列时，计算至少一个聚类中心位置与待预测序列的距离信息，进而得到待预测序列的流失概率，完成人员的流失估计。如此，在流失估计时，不仅能够考虑到特征之间的关联性，还能够考虑到人员样本之间的联系，从而能够提升流失估计的准确率。

附图说明

图1是本发明实施例提供的估计流失系统100的一个可选的架构示意图；

图2是本发明实施例提供的服务器200的结构示意图；

图3是本发明实施例提供的估计流失的方法的一个可选的流程示意图一；

图4是本发明实施例提供的流失概率的呈现示意图；

图5是本发明实施例提供的估计流失的方法的一个可选的流程示意图二；

图6是本发明实施例提供的估计流失的方法的一个可选的流程示意图三；

图7是本发明实施例提供的估计流失的方法的一个可选的流程示意图四；

图8是本发明实施例提供的进行序列模式挖掘的过程示意图；

图9是本发明实施例提供的判断企业人员的离职概率的过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)人员流失估计，是指对企业工作人员的人事变动的倾向进行预测估计，例如，企业可以利用可以对企业内的一些员工的离职意向进行估计，以判断员工是否有可能会离职。人员流失估计可以被应用于人力资源系统之中，以便于采取适当良性诱导和转化，降低由于人员流动带来的风险。

2)流失人员样本信息，用来表征已经流失的人员的各种信息，该信息中可以具有基础属性维度的信息，例如人员的年龄、性别、学历等，还可以具有人员历史经历的维度的信息，例如人员曾经任职过的企业，人员曾经的职位信息等。在实际应用中，企业可以为其构建流失人员样本库，将所有的流失人员的流失人员所对应的流失人员样本信息存储在内，以便于后续的人事分析。

3)流失人员样本序列，是指将流失人员的各种信息，即将流失人员样本信息编码之后所得到的序列。例如，对流失人员的职位、学历、性别以及年龄等进行编码，并将编码结果按照一定顺序组成流失人员样本序列。

4)频繁序列模式，是指在流失人员样本序列中频繁出现的子序列。这些频繁出现的子序列能够表明流失人员样本信息中，存在着一些共性，而这种共性，是对人员流动预测具有一定的指导意义的。

5)特征字段，是指特征信息的类别字段，换句话说，特征信息是特征字段的具体内容。例如，某个特征字段为性别时，则该特征字段对应的特征信息就是男或者女。

在相关技术中，基于人工智能技术来进行人员流失估计，具有三种较为常用的方法，分别为利用逻辑回归结合人工特征来进行预测，利用朴素贝叶斯等分类器结合流失人员样本来进行预测，以及基于深度神经网络来进行预测。

利用逻辑回归结合人工特征来进行预测时，需要人工筛选与人员流动相关的因素特征，并构建逻辑回归模型，以用逻辑回归模型对这些因素特征和连续的流失概率分布进行拟合。当具有新人员信息时，就可以用该逻辑回归模型对新人员信息进行流失概率估计。然而，利用人工筛选因素特征，会忽略因素特征之间的序列信息和关联性，使得人员流失估计的准确率较低。

利用朴素贝叶斯等分类器结合流失人员样本进行预测时，需要先对流失人员样本和非流失人员样本进行特征选择和特征预处理，使得因素特征满足特征独立性假设。然而在实际中，人员样本的各个特征之间具有联系，一些特征之间的关联性难以分开，因而，会导致人员流失估计的准确率较低。同时，特征预处理工作和特征选择工作，也给人员流失估计增加了工作量。

基于深度神经网络进行预测时，是由机器使用流失人员样本来训练深度神经网络，即机器从流失人员样本中自主选择或构造人员流失的相关特征，然后利用采用随机梯度下降算法等将误差值最小化，得到训练好的模型，最后利用训练好的模型对新的人员样本进行预测。然而，流失人员之间极有可能是存在关联的，该方式忽略了这种关联性，导致人员流失估计的准确率较低。

本发明实施例提供一种估计流失的方法、设备和计算机可读存储介质，能够提高人员的流失估计的准确性。下面说明本发明实施例提供的估计流失设备的示例性应用，本发明实施例提供的估计流失设备可以实施为各种类型的服务器，也可以实施为个人电脑、笔记本电脑等各种类型的用户终端。

参见图1，图1是本发明实施例提供的估计流失系统100的一个可选的架构示意图，为实现支撑一个估计流失的应用，终端400通过网络300连接估计流失设备200，网络300可以是广域网或者局域网，又或者是二者的组合。在本发明的一些实施例中，终端400也可以和估计流失设备200合并，即只用人员流动设备200完成人员的流失估计功能。

在进行估计流失时，可以先对流失人员样本进行分析，此时，工作人员可以操作终端400，通过网络300向估计流失设备200发送流失人员样本分析指令，估计流失设备200接收流失人员样本分析指令，并响应于流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息。之后，估计流失设备200会利用流失人员样本信息构造出流失人员样本序列，并对流失人员样本序列进行模式挖掘，得到流失人员样本序列中的频繁序列模式，其中，频繁序列模式表征了流失人员样本信息所共同具备的特征。紧接着，估计流失设备200根据频繁序列模式计算出流失人员样本序列对应的样本权重，再基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置。最后，在有针对人员的估计流失需求时，估计流失设备200获取需要进行人员流失估计的待预测序列，分别计算至少一个聚类中心位置与待预测序列的距离信息，进而根据待预测序列与至少一个聚类中心的距离信息来得到待预测序列的流失概率，完成人员的流失估计过程。最后，估计流失设备200可以将所得到的流失概率发送给终端400，终端400将流失概率显示在显示界面410上，以便于工作人员知晓。

参见图2，图2是本发明实施例提供的估计流失设备200的结构示意图，图2所示的估计流失设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的估计流失装置可以采用软件方式实现，图2示出了存储在存储器250中的估计流失装置255，其可以是程序和插件等形式的软件，包括以下软件模块：接收模块2551、提取模块2552、序列处理模块2553、权重计算模块2554、聚类模块2555和估计模块2556，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的估计流失装置可以采用硬件方式实现，作为示例，本发明实施例提供的估计流失装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的估计流失的方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progr ammable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programma ble Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Ar ray)或其他电子元件。

示例性的，本发明实施例提供了一种估计流失设备，包括

存储器，用于存储可执行估计流失指令；

下面，将结合本发明实施例提供的估计流失设备的示例性应用和实施，说明本发明实施例提供的估计流失的方法。

参见图3，图3是本发明实施例提供的估计流失的方法的一个可选的流程示意图一，将结合3示出的步骤进行说明。

S101、接收流失人员样本分析指令，并响应于流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息。

本发明实施例是在对人员样本进行流失概率预测的场景下实现的，例如，对企业中的在职人员进行预测估计，以判断在职人员是否具有离职意向等。在进行估计流失之前，可以对流失人员样本进行分析，即寻找出已经流失的人员的特点，这样，在后续就可以依据这些特点来对在职人员进行分析。此时，估计流失设备可以先接收人员样本分析指令，然后依据所接收到的流失人员样本分析指令从流失人员样本库中提取出流失人员样本信息，以便于后续对流失人员样本进行分析。

需要说明的是，在本发明的一些实施例中，估计流失设备可以是先对流失人员样本进行分析，接着在分析出流失人员样本的共性之后的任意时刻，只要具有估计流失的需求，就可以直接利用上述流失人员样本的共性来对待预测的人员样本进行判断，如此，使得节省对待预测人员样本判断时所需的时间。在本发明的另一些实施例中，估计流失设备还可以是在知晓人员的估计流失需求之后，再分析流失人员样本的共性，以使得每次进行估计流失时，都能够基于最新的流失人员样本的共性来进行。

进一步的，在先分析流失人员样本的共性，后明确估计流失的需求的实施例中，流失人员样本分析指令可以是定时触发的，即在估计流失设备中设置了定时分析流失人员样本的程序，在达到预设时间，例如每天00:00触发流失人员样本分析过程。在先明确估计流失的需求，后分析流失人员样本的共性的实施例中，流失人员样本分析指令可以是由工作人员在前端触发的，例如，当具有估计流失的需求时，工作人员可以通过点击前端页面的人员流动预测按钮或其他类似的按钮，来触发流失人员样本分析过程。

可以理解的是，流失人员样本信息指的是已经流失的人员的各类信息，例如，已经流失人员的基础属性维度的特征信息，和历史经历维度的特征信息，换句话说，流失人员样本信息中具有至少一个特征信息。流失人员样本库是用来存储已经流失人员的各类信息的数据库。当然，在本发明实施例中，流失人员样本信息还可以包括其他类型的特征，本发明实施例在此不作具体限制。

需要说明的是，至少一个特征信息中的每个特征信息，都有其所属的特征字段，例如，针对36岁这一特征信息，其所属的特征字段就是年龄。每个特征字段都对应了一个或多个特征信息，这是由于流失人员样本信息是多个，每个流失人员样本信息中都有某个特征字段所对应的特征信息，例如，针对年龄这一特征字段，不同的流失人员样本信息中，具体的年龄是不同的，可以36岁，也可以是28岁。

在本发明实施例中，基础属性维度的特征信息指的是与工作经历，或者是与工作其他方面等无关的特征，例如，人员的年龄、性别、职位、教育状况以及婚姻状态等情况。历史经历维度则指的是与工作经历等息息相关的特征，例如职位、出差情况、本公司工作年限、总工作年限、曾任职工作数量、历史上级评价等，还有一些与工作其他方面有关的特征，例如，工作地点与居住地的距离、工作地与居住地是否有班车、薪酬情况、绩效情况、参加公司培训次数以及参加公司组织活动次数等情况。

需要说明的是，本发明实施例中，流失人员样本信息是泛指所有流失人员的信息，并不是特指一个流失人员的信息，换句话说，估计流失设备响应于流失人员样本分析指令，是从流失人员样本库中提取出了多个流失人员样本信息，具体流失人员样本信息的数量，可以由流失人员的数量确定。

S102、利用流失人员样本信息构造出流失人员样本序列，并对流失人员样本序列进行序列模式挖掘，得到频繁序列模式；频繁序列模式表征了流失人员样本信息所共同具备的特征。

估计流失设备在得到流失人员样本信息之后，就可以对流失人员样本信息中的各种特征信息进行编码，然后用编码后的结果构造成流失人员样本序列。之后，估计流失设备便会利用序列挖掘算法，从流失人员样本序列中挖掘出频繁序列模式。由于频繁序列模式是流失人员样本序列中经常出现的序列，而流失人员样本序列中的各个元素，都是由流失人员样本信息中的特征信息编码而来的，因此，频繁序列模式能够体现出流失人员样本信息中的哪些特征信息是频繁出现的，即表征了流失人员样本信息所共同具备的特征。

可以理解的是，由于具有多个流失人员样本信息，此时，估计流失设备会为每个流失人员样本信息构造流失人员样本序列，因此，估计流失设备所得到的流失人员样本序列的数量，是与流失人员样本信息的数量相同。

需要说明的是，流失人员样本序列的序列长度，是与流失人员样本信息中的特征信息的个数相同的。示例性的，当流失人员样本信息中具有年龄、性别、职位、学历这4个特征字段的特征信息时，流失人员样本序列的序列长度就为4。

为了便于存储流失人员样本序列，在本发明的一些实施例中，估计流失设备可以用一个流失人员样本序列为一行，构成一个人员样本数量行，流失人员样本序列的序列长度列的矩阵，以便后续使用流失人员样本序列。

需要说明的是，本发明实施例中，可以利用各种序列模式挖掘算法来从流失人员样本序列中挖掘出频繁序列模式，例如，使用Freespan算法，或是Pref ixSpan算法等，还可以是其他挖掘算法，本发明实施例在此不作限定。

在本发明实施例中，估计流失设备挖掘出的频繁序列模式，并不是特指一个序列，而是泛指所有在流失人员样本序列中频繁出现的序列，即可能具有多个长度不同的频繁序列模式。

S103、根据频繁序列模式计算出流失人员样本序列对应的样本权重。

估计流失设备在得到频繁序列模式之后，就可以在进行估计流失时，将注意力主要集中在频繁序列模式中的特征信息上，以过滤或者减小其他特征信息所带来的影响。更具体的，估计流失设备可以利用频繁序列模式中的各个信息特征出现的频次，来计算出流失人员样本序列对应的样本权重，以便于在后续进行聚类时，利用这些样本权重来为频繁序列模式中的特征信息增加影响力。

需要说明的是，人员流动设备在计算样本权重时，可以是只使用频繁序列模式中的特征信息的出现频次，来计算出样本权重，也可以是为除频繁序列模式中的特征信息之外的特征信息直接赋予较小的影响值，然后利用这些影响值和频繁序列模式中的特征信息的出现频次计算出样本权重。当然，还可以根据其他方式来计算样本权重，本发明实施例在此不作具体限定。

在本发明的一些实施例中，估计流失设备在根据频繁序列模式计算样本权重时，可以是直接将频繁序列模式在所有流失人员样本序列中的出现频率作为样本权重，也可以是综合利用频繁序列模式在所有流失人员样本序列中的出现频率，以及除频繁序列模式之外的其他特征信息的出现频率，共同计算出样本权重。具体计算样本权重的方式可以根据实际情况进行选择，本发明实施例在此不作限定。

S104、基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置。

估计流失设备在得到样本权重之后，就可以在样本权重的基础上来对流失人员样本序列进行聚类了。具体的，估计流失设备可以先观察出某个流失人员样本中包含哪个频繁序列模式，然后将该频繁序列模式对应的样本权重与该流失人员样本序列相乘，如此，可以使得所有流失人员样本序列带上权重，然后利用带上权重的流失人员样本序列进行聚类操作，即将流失人员样本序列划分成不同的类簇，从而得到每个类簇的中心所在的位置，也就是得到至少一个聚类中心位置。

需要说明的是，在聚类进行之前，类别的数量就已经确定好了，估计流失设备可以得到确定好的类别数量个聚类中心。例如，当具有1个类别时，聚类就可以得到这1个类别的聚类中心位置，当具有2个类别时，相应的，聚类就可以得到这2个类别的聚类中心位置。

可以理解的是，本发明实施例中，可以使用K-means聚类算法、Mean-Shi-ft聚类算法，或者是其他能够达到相同目的的算法来进行聚类，本发明实施例在此不作限定。

S105、当获取到待预测序列时，计算至少一个聚类中心位置与待预测序列的距离信息，进而得到待预测序列的流失概率，完成人员的流失估计。

估计流失设备在进行上述步骤操作之前，或是进行上述操作步骤的同时，可以获取待预测的人员样本的特征信息，然后根据将这些特征信息编码，用编码结果构成待预测序列并存储。在需要计算待预测的人员样本的流失概率之前，估计流失设备会获取待预测序列，然后分别计算待预测序列与每个聚类中心的距离信息。若是待预测序列距离聚类中心比较远，则说明待预测序列的流失概率较低，若是待预测序列距离聚类中心位置较近，说明待预测序列的流失概率较高，如此，估计流失设备就完成了针对待预测的人员样本的估计流失。之后，人员流动设备可以将流失概率呈现前端上，以反映给工作人员。

在本发明的一些实施例中，可以为距离信息设置距离阈值，当距离信息超过距离阈值时，可以直接将流失概率记为高，并呈现在前端上，还可以根据距离信息计算出流失概率的具体数值，呈现在前端上。

示例性的，本发明实施例了提供流失概率的呈现示意图，如图4所示，在前端的显示界面中设置有显示区域4-1和显示区域4-2。其中，显示区域4-1中呈现有待预测的人员样本，即员工4-11，以及员工4-11的一些特征信息，例如年龄：26岁，性别：男，学历：硕士，职位：研发人员等，在显示区域4-2中显示有员工4-11的离职概率4-21：中等。如此，在估计流失设备完成人员的流失估计后，工作人员在前端就可以知晓某个员工的流失概率了。

本发明实施例中，估计流失设备获取流失人员样本分析指令，并响应于流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息，之后，利用流失人员样本信息构造出流失人员样本序列，并对流失人员样本序列进行序列模式挖掘，得到频繁序列模式，接着，根据频繁序列模式计算出流失人员样本序列对应的样本权重，然后基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置，最后，当获取到待预测序列，并计算至少一个聚类中心位置与待预测序列的距离信息，进而得到待预测序列的流失概率，完成人员的流失估计。如此，在流失估计时，不仅能够考虑到特征之间的关联性，还能够考虑到人员样本之间的联系，从而能够提升流失估计的准确率。

基于图3，参见图5，图5是本发明实施例提供的估计流失的方法的一个可选的流程示意图二，在本发明的一些实施例中，在根据频繁序列模式计算出流失人员样本序列对应的样本权重之后，即在S103之后，该方法还可以包括：S106-S109。需要说明的是，S104-S105与S106-S109是S103之后并列的两种实现过程，在S103结束后，具体是执行S104-S105还是S106-S109，是可以根据实际情况进行选择的。

S106、当获取到待预测序列和非流失人员样本信息时，利用非流失人员样本信息构造出非流失人员样本序列。

估计流失设备在计算出流失人员样本序列的样本权重之后，还可以直接先获取之前所构造好的待预测的人员样本的待预测序列，以及从在职人员样本库中获取到在职人员的样本信息，即获取非流失人员样本信息，并按照与构造流失人员样本信息类似的方法，构造出非流失人员样本序列。

可以理解的是，在本发明的一些实施例中，待预测的人员样本的特征信息可以是在本发明实施例开始之前，或者是本发明实施例S106之前就构造好的，这里直接获取使用即可。

与流失人员样本序列类似的是，非流失人员样本序列的个数，是与当前的在职人员的人数相关的，即非流失人员样本序列泛指的是所有的在职人员的样本序列，并不是特指一个样本序列。

S107、基于样本权重，对待预测序列、流失人员样本序列和非流失人员样本序列进行聚类，得到至少一个聚类结果。

人员估计流失设备先观察待预测序列中包含有哪种频繁序列模式，然后得到根据频繁序列模式找到对应的样本权重，同时，为流失人员样本序列也进行这种操作，然后将所找到的样本权重和其所对应的序列相乘，得到带权重的待预测序列和带权重的非流失人员样本序列，然后再用这些带有权重的序列和非流失人员样本序列进行聚类操作，得到至少一个聚类结果。

可以理解的是，至少一个聚类结果，并不等同于聚类中心，而是指所划分出的类簇，换句话说，就是给出了某个类别中都具有哪些样本序列。

S108、从至少一个聚类结果中挑选出待预测序列所属的目标聚类结果。

估计流失设备查询每个聚类结果中是否具有待预测序列，在完成查询之后，就可以知晓待预测序列是属于哪个类簇的了，即挑选出待预测序列所属的目标聚类结果。

可以理解的是，估计流失设备可以为待预测序列、流失人员样本序列和非流失人员样本序列都打上标记，例如，为上述样本序列编号等，然后标记来查询待预测序列所属的聚类结果，得到目标聚类结果。

S109、对目标聚类结果中的流失人员样本序列的数量进行占比计算，得到待预测序列的流失概率，完成人员的流失估计。

估计流失设备在得到目标聚类结果之后，会将目标聚类结果中的流失人员样本序列统计出来，并将目标聚类结果中的样本序列的总数统计出来，然后计算出流失人员样本序列的数量占样本序列的总数的比例。当该比例较大时，说明目标聚类结果中已经流失的人员样本越多，而待预测序列与这些已经流失的人员样本属于同一类别，能够说明待预测的人员样本的流失概率较大，反之，当该比例较小时，说明待预测的人员样本的流动的流失概率较小。

本发明实施例中，估计流失设备还可以在得到样本权重之后，将待预测序列，与流失人员样本序列、非流失人员样本序列一起加权聚类，计算出待预测序列所属的目标聚类结果中流失人员样本序列所占的比例，从而得到待预测序列的流失概率。如此，能够利用频繁序列模式来体现特征之间的联系，以及利用聚类来体现不同的流失人员样本之间的联系，利用这些联系来进一步提高流失概率的准确度，进而提高估计流失的准确率。

在本发明的一些实施例中，对目标聚类结果中的流失人员样本序列的数量进行占比计算，得到待预测序列的流失概率，完成人员的流失估计，即S109的具体实现过程，可以包括：S1091-S1092，如下：

S1091、对目标聚类结果中的流失人员样本序列进行数量统计，得到统计结果。

S1092、利用统计结果与目标聚类结果中的人员样本序列的总数量相比，得到流失概率。

估计流失设备对目标聚类结果中人员样本序列进行识别，从中确定出流失人员样本序列，然后统计这些流失人员样本序列的数量，并将统计出的数量作为统计结果。接着，估计流失设备统计出目标聚类结果中的人员样本序列的总数，然后用统计结果比上人员样本序列的总数，所得到的比值便是待预测序列的流失概率。

本发明实施例中，估计流失设备利用流失人员样本序列的数目，与人员样本序列的总数量相比，计算出流失概率。如此，估计流失设备就可以得到流失概率了。

在本发明的一些实施例中，流失人员样本信息中具有至少一个特征信息；利用流失人员样本信息构造出流失人员样本序列，即S102的具体实现过程，可以包括：S1021-S1022，如下：

S1021、对至少一个特征信息中的每个特征信息进行编码，得到编码结果。

估计流失设备在构造流失人员样本序列时，首先是先将每个流失人员样本信息中的至少一个特征信息都提取出来，然后按照这些特征信息的特性，为其进行编码，得到每个特征信息的编码结果。

可以理解的是，估计流失设备针对离散型的特征信息，可以直接进行编码，例如，针对某个职位，可以直接按照预设好的职位编码表进行编码；针对连续型的特征信息，则需要对其进行离散化，例如分箱操作后再进行编码。当然，估计流失设备还可以按照其他的方式对特征信息进行编码，本发明实施例在此不作具体限定。

示例性的，本发明实施例提供了对离散型的职位信息进行编码的示例，参见表1：

表1

从表1中可以看出，职位信息的最终编码由两部分组成，一部分是职位类别，一部分是详细的职位。表1中，将技术研发类用类别编码A表示，产品类用B表示，项目类用C表示。在技术研发类中，数据分析职位用a表示，其对应的最终编码为职位A-a；后台开发用b表示，其对应的最终编码为职位A-b；前端开发用c表示，其最终编码为职位A-c。在产品类中，产品运营用d表示，则最终编码为职位B-d，产品策划用e表示，则最终编码为职位B-e。在项目类中，项目管理用f表示，其对应的最终编码为职位C-f。按照表1这种方式，可以完成对离散型的职位信息的编码。

示例性的，本发明实施例提供了对离散型的班车信息进行编码的示例，如表2所示：

表2

住所附近是否有班车	编码
		是	班车1
否	班车0

对于班车信息这种二元离散型的特征信息，可以直接用0和1来进行编码，如表2中，利用班车1表示住所附近有班车，利用班车0表示住所附近没有班车。

示例性的，本发明实施例还提供了对连续型的年龄信息进行编码的示例，如表3：

表3

年龄分箱	26-30	31-35	36-40	41-45	46-50
						编码	年龄a	年龄b	年龄c	年龄d	年龄e

在针对年龄信息这种连续型的特征信息进行编码时，估计流失设备会先将不同的流失人员样本信息的年龄按照26-30、31-35、36-40、41-45、46-50这几个年龄段进行分箱，然后分别为这些年龄分箱进行编码，得到年龄a、年龄b、年龄c、年龄d和年龄e等编码结果，如此，估计流失设备就能够对所有的流失人员的年龄进行编码。

类似的，本发明实施例还提供了对连续型的住所距离信息进行编码的示例，参见表4：

表4

住所距离分箱	编码
		0-2公里以内	距离a
2-5公里以内	距离b
		5-10公里以内	距离c

与年龄信息类似，针对连续型的住所距离信息，估计流失设备也是先对其进行分箱，例如将住所距离划分成为0-2公里以内、2-5公里以内以及5-10公里以内3个类别，然后将这3个类别分别用距离a、距离b和距离c表示，以完成对流失人员的住所距离信息的编码。

S1022、利用编码结果组合得到流失人员样本序列。

估计流失设备在完成针对每个流失人员样本信息中的各种特征信息的编码之后，就会按照流失人员样本信息中各种特征信息的排列次序，再将编码结构排列起来，这样，估计流失设备就完成了利用编码结果组合得到流失人员样本序列的过程。

示例性的，假设流失人员样本信息中的各种特征信息，按照性别、年龄、职位、住所距离进行排序时，估计流失设备在完成针对上述特征信息类别的编码之后，就会将这些特征信息各自对应的编码结果再次按照性别、年龄、职位、住所距离的顺序排列起来，所得到的排列结果即是流失人员样本序列。

本发明实施例中，人员估计流失设备能够先对流失人员样本信息中的至少一个特征信息进行编码，然后利用编码结果组成流失人员样本序列，如此，人员估计流失设备就能够在后续依据对流失人员样本序列的处理，完成对流失人员样本信息的分析了。

参见图6，图6是本发明实施例提供的估计流失的方法的一个可选的流程示意图三，在本发明的一些实施例中，每个特征信息都有其所属的特征字段，每个特征字段对应了一个或多个特征信息；在对至少一个特征信息中的每个特征信息进行编码，得到编码结果之前，即在S1021之前，该方法还可以包括：S1023-S1024，如下：

S1023、从每个特征字段对应的一个或多个特征信息中，挑选出表征特征信息为空的空值特征信息，并统计出空值特征信息的数量。

当特征信息为空值时，其会对后续的编码工作以及聚类工作带来影响，因此，需要对为空值的特征信息进行预处理，例如，用常数替换为空值的特征信息，或是将为空值的特征信息所属的特征字段剔除等，以减小为空值的特征信息给后续步骤所带来的影响。这时，估计流失设备会先从每个特征字段所对应的一个或多个特征信息中，将为空值的特征信息挑选出来，作为空值特征信息，并统计出空值特征信息的数量。

S1024、将空值特征信息的数量大于等于预设特征过滤阈值的特征字段作为空值特征字段。

当某个特征字段的空值特征信息较多时，若是对这些空值特征信息进行修正，例如赋予常数或是平均数等，人为修改的部分较多，使得这个特征字段丧失了自己的特性，此时，估计流失设备会考虑将该特征字段剔除，即不再对该特征字段下的特征信息进行编码，使得该特征字段不再参与后续的频繁序列挖掘过程以及聚类过程，减小该特征字段带来的负面影响。因此，估计流失设备将所统计出的空值特征信息的数量，与预设特征过滤阈值进行比较，将大于等于预设特征过滤阈值的特征字段记为控制特征字段。相应的，在后续S1021中对至少一个特征信息中的每个特征信息进行编码，得到编码结果，就会变为：对至少一个特征信息中除空值特征字段外的特征字段，所对应的一个或多个特征信息进行编码，得到编码结果。

需要说明的是，本发明实施例中，预设特征过滤阈值是根据特征字段所对应的特征信息的个数，和预设好的过滤比例决定的，换句话说，预设特征过滤阈值是由流失人员样本信息的数量，即流失人员的数量，与预设好的过滤比例相乘得到的。其中，预设好的过滤比例可以根据实际情况进行设置，例如设置为0.5，设置为0.4等，本发明实施例在此不作限定。

示例性的，本发明实施例提供了计算预设特征过滤阈值的示例，如式(1)所示：

a＝M×N，N∈[0，1] (1)

其中，M是流失人员样本信息的总数量，N是预设好的过滤比例，a是计算出的预设特征过滤阈值。人员估计流失设备在知晓了上述参数的具体数值之后，就可以将这些具体数值代入至式(1)，计算出最终的预设特征过滤阈值。

本发明实施例中，人员估计流失设备能够从每个特征字段对应的一个或多个特征信息中挑选出空值特征信息，并统计出空值特征信息的数量，然后将空值特征信息的数量大于等于预设特征过滤阈值的特征字段作为空值特征字段，以便于在后续编码中剔除这些空值特征字段，减小空值过多的特征字段为后续才带来的不良影响。

在本发明的一些实施例中，在从每个特征字段对应的一个或多个特征信息中，挑选出表征特征信息为空的控制特征信息，并统计出空值特征信息之后，即S1023之后，该方法还可以包括：

S1025、将空值特征信息的数量小于预设特征过滤阈值的特征字段作为正常特征字段，从正常特征字段所对应的一个或多个特征信息中挑选出异常特征信息并删除，得到正常特征字段的中间特征信息；异常特征信息表征不符合特征信息的分布规律的特征信息。

估计流失设备空值特征信息的数量小于预设特征过滤阈值的特征字段提取出来，记为正常特征字段，然后对正常特征字段所对应的一个或多个特征信息进行检查，从中挑选出异常特征信息，然后将这些异常信息删除掉，以避免这些异常特征信息对频繁序列挖掘和聚类造成负面影响。估计流失设备将正常特征字段中除异常特征信息之外的特征信息，记为中间特征信息。

需要说明的是，异常特征信息表征的是不符合特征信息的分布规律的特征信息。示例性的，针对年龄这一特征字段，特征信息的范围为0～110，若是年龄字段的某个特征信息为200，则是明显不符合年龄信息的分布规律的，需要删除。

在本发明的另一些实施例中，若是特征信息的分布规律不明显，则估计流失设备可以对特征信息进行排序，然后将特征信息的最大值或是最小值作为异常特征信息，以进行删除。

S1026、利用中间特征信息构造出替代值。

针对连续数值型的特征信息，例如年龄、住所距离等，估计流失设备可以对中间特征信息求平均值，将最终的平均值替代值。而针对离散型的特征信息，估计流失设备可以将常见量设为替代值，例如针对职位，可以将流失人员样本信息中出现频次最多的职位，或是某个固定的职位等设置为替代值。如此，人员流失样本信息就可以替代值。

S1027、利用替代值替换正常特征字段中的空值特征信息和异常特征信息，得到正常特征字段对应的优化后的特征信息。

估计流失设备用替代值，把正常特征字段中原有的空值特征信息，以及原有的异常特征信息替换掉，这样，就能够将正常特征字段中的有问题的特征信息优化掉，得到正常特征字段所对应的优化后的特征信息，以减小正常特征字段中有问题的特征信息给后续的频繁序列挖掘和聚类带来的负面影响。相应的，在后续对至少一个特征信息中的每个特征信息进行编码，得到每个特征信息的编码结果，就会变为：对优化后的特征信息进行编码，得到编码结果。

本发明实施例中，估计流失设备将空值特征信息的数量小于预设特征过滤阈值的特征字段作为正常特征字段，从正常特征字段所对应的一个或多个特征信息中挑选出异常特征信息并删除，得到正常特征字段的中间特征信息，之后，利用由中间特征信息构造出的替代值替换掉原有的空值特征信息和异常特征信息，得到正常特征字段所对应的优化后的特征信息，以便于后续对优化后的特征信息进行编码。如此，能够减小正常特征字段中有问题的特征信息给后续的频繁序列挖掘和聚类带来的负面影响。

参见图7，图7是本发明实施例提供的估计流失的方法的一个可选的流程示意图四，在本发明的一些实施例中，根据频繁序列模式计算出流失人员样本序列对应的样本权重，即S103的具体实现过程，可以包括：S1031-S1032，如下：

S1031、统计出频繁序列模式在所有流失人员样本序列中的第一出现次数，并对第一出现次数和流失人员样本序列的总数量进行比例运算，得到频繁权重。

由于频繁序列模式是由多个长度不同的序列模式组成的，估计流失设备在根据频繁序列模式计算流失人员样本序列对应的样本权重时，先要判断每个流失人员流失样本序列中，是否包含有频繁序列模式中的最长的序列模式，并统计出包含最长的一个序列模式的样本数量，即统计出最长的一个序列模式在所有流失人员样本序列中的第一出现次数，之后，估计流失设备对统计出的第一出现次数作为分子，将流失人员样本序列的总数量作为分母，以进行比例运算，最终所得到的比值结果即是流失人员样本序列对应的频繁权重。

需要说明的是，当流失人员序列中没有包含频繁序列模式中的最长的序列模式时，估计流失设备可以继续判断每个流失人员样本中是否包含有频繁序列模式中的次长的序列模式，并统计出包含次长的序列模式的样本数量。依次类推，人员流失设备总会统计出流失人员样本序列中所包含的某个频繁序列模式的样本数量的。

示例性的，当频繁特征模式中最长的序列模式为距离区间e、年限c和绩效c所组成的序列时，估计流失设备判断每个人员流失样本序列中是不是具有该序列模式，把具有该序列模式的样本数量统计出来，得到第一出现次数，之后，再用样本数量比上流失人员样本序列的总数量，就能够得到频繁权重。

S1032、统计出除频繁序列模式之外的其他特征信息，在所有流失人员样本序列中的第二出现次数，并将第二出现次数与流失人员样本序列的总数量相比，得到非频繁权重。

在本发明实施例中，在计算样本权重时，还可以将除频繁序列模式中特征信息之外的其他特征信息引入进来，以使得其他特征信息也能影响后续的聚类步骤，只是，其他特征信息的影响力并没有频繁序列模式中的特征信息的影响力大。估计流失设备将除频繁序列模式之中的特征信息之外的每个其他特征信息，在所有流失人员样本序列中的出现次数统计出来，得到第二出现次数，然后将第二出现次数与流失人员样本序列的总数量相比，得到其他特征信息所对应的非频繁权重。

由于相比频繁序列模式中的特征信息，其他特征信息的在所有流失人员样本序列中的出现次数是较少的，从而会使得非频繁权重小于频繁权重，使得后续聚类时更关注频繁序列模式中的特征信息。

除了统计其他特征信息的出现次数并求比值之外，估计流失设备还可以直接将最小支持度作为非频繁权重。当然，在本发明的另一些实施例中，还可以利用其他方式，例如直接设置常数等方式，来设定非频繁权重，只要保证非频繁权重小于频繁权重即可。

S1033、对频繁权重和非频繁权重进行加权，得到样本权重。

估计流失设备在得到频繁权重和非频繁权重之后，就可以先统计出频繁序列模式中的特征信息的个数，以及统计出其他特征信息的个数，然后将频繁权重与频繁序列模式中的特征信息的个数相乘，得到第一乘积，将非频繁权重与其他特征信息的个数相乘，得到第二乘积，之后，再用第一乘积和第二乘积之和，比上频繁序列模式中的特征信息的个数与其他特征信息的个数之和，得到样本权重。

示例性的，当某个流失人员样本序列的为“AaBcAort”，频繁序列模式为“AaBcA”，其对应的频繁权重为0.56，其他特征信息为“ort”，对应的非频繁权重为0.5，则样本权重为：(0.56*5+0.5*2)/(5+2)＝0.54。

需要说明的是，流失人员样本序列固定之后，由于频繁序列模式和其他特征都确定了，使得样本权重也是固定的，并且，对于两个不同的流失人员，只有其流失人员样本序列是相同的，则样本权重也会是相同的，例如表5所示：

表5

流失人员样本序列	流失人员	样本权重
			bcagh	流失人员1	0.76
bcagh	流失人员2	0.76
			AaB	流失人员3	0.85
acdhg	流失人员4	0.92
			acdgh	流失人员5	0.92

从表5可以看出，流失人员1和流失人员2的流失人员样本序列都为“bc agh”，则它们的样本权重同为0.76；流失人员3的流失人员样本序列模式为“A aB”，样本权重为0.85；类似的，流失人员4和流失人员5的流失人员样本序列模式都为“acdhg”，则它们的样本权重相同，都为0.92。

本发明实施例中，估计流失设备能够统计出频繁序列模式在所有流失人员样本序列中的第一出现次数，进而得到频繁权重，统计出除频繁序列模式之外的其他特征信息在所有流失人员样本序列中的第二出现次数，进而得到非频繁权重，之后用频繁权重和非频繁权重进行加权，得到样本权重。如此，估计流失设备就能够根据频繁序列模式，计算出样本权重。

在本发明的一些实施例中，基于样本权重，对流失人员样本序列进行聚类，得到至少一个聚类中心位置，即S104的具体实现过程，可以包括：S1041-S1045，如下：

S1041、将样本权重与流失人员样本序列相乘，得到带权重的流失人员样本序列。

S1042、将带权重的流失人员样本序列随机划分为预设类别数目个初始聚类类别，并对属于同一聚类类别的带权重的流失人员样本序列进行叠加，得到预设类别数目个初始聚类中心位置。

人员估计流失设备将样本权重，与其所对应的流失人员样本序列相乘，所得到的乘积就是带权重的流失人员样本序列，之后，估计流失设备将带权重的流失人员样本序列随机划分成为预设类别数目个初始聚类类别，然后对每个聚类类别中的带权重的流失人员样本序列进行叠加，由于向量的方向性，叠加后的结果就是每个聚类类别的初始聚类中心位置，这样，可以得到预设类别数目个初始聚类中心位置。

示例性的，假设第i个初始聚类类别中的第j个流失人员样本序列为

w_j为第j个流失人员样本序列的权重，可以由其对应的频繁序列模式决定，则第i个初始聚类类别的初始聚类中心位置/>

则可以表示为式(2)：

其中，m_i是第i个初始聚类类别中的流失人员样本序列的总数目。

可以理解的是，预设类别数目是可以根据实际情况进行设置的，可以设置为2，也可设置为其他数目，本发明实施例在此不作限定。

S1043、计算出每个初始聚类类别中的带权重的流失人员样本序列，与每个初始聚类类别所对应的初始聚类中心位置的余弦相似度，进而得到初始聚类类别的凝聚程度。

流失人员样本序列在得到初始聚类中心位置之后，会将每个初始聚类类别中的所有带权重的流失人员样本序列，分别与初始聚类类别的初始聚类中心位置进行余弦相似度计算，得到每个流失人员样本序列与初始聚类中心的余弦相似度，之后，将同一个初始聚类类别中的所有余弦相似度累加，得到每个初始聚类结果的累加结果，接着，再将所有初始聚类结果的累加结果进行累加，得到最终的凝聚程度。其中，凝聚度表明了每个聚类类别的紧凑情况，即表明了不同类别的类簇之间是否能够区分出来，当凝聚程度大于预设的凝聚度阈值时，说明类簇已经足够紧凑，类簇与类簇之间已经可以区分开，而当凝聚程度小于等于预设的凝聚度阈值时，说明类簇的紧凑程度还不够，不同类簇中的样本序列还有可能混合在一起，即类簇与类簇之间无法区分开，还需要继续聚类。

示例性的，本发明实施例提供了计算凝聚程度的公式，如式(3)所示：

其中，

是余弦相似度，m_i是第i个初始聚类类别中的流失人员样本序列的总数目，k是初始聚类类别的总个数。

S1044、对初始聚类类别进行更新，得到预设类别数目个中间聚类类别，和预设类别数目个中间聚类中心位置，进而得到中间聚类类别的凝聚程度。

S1045、重复对中间聚类类别进行更新的过程，直至凝聚程度达到预设凝聚度阈值时停止，得到至少一个聚类中心位置。

估计流失设备对初始聚类类别进行更新，得到中间聚类类别，和每个中间聚类类别的中间聚类中心位置，接着再按照上述步骤中计算初始聚类类别的凝聚程度的方式，计算每个中间聚类类别的凝聚程度。估计流失设备不断重复更新过程，直到凝聚程度足够大，停止更新过程，将这时的中间聚类中心，作为最终的聚类中心位置，如此，估计流失设备就能够得到至少一个聚类中心位置。

本发明实施例中，估计流失设备能够将样本权重与流失人员样本序列相乘，得到带权重的流失人员样本序列，然后将带权重的流失人员样本序列进行随机类别划分，得到预设类别数个初始聚类类别，进而得到预设类别数目个初始聚类中心位置，接着，估计流失设备计算初始聚类类别的凝聚程度，之后，估计流失设备对初始聚类类别进行更新，得到中间聚类类别，并进一步计算中间聚类类别的凝聚程度，然后继续更新，直至凝聚程度达到预设凝聚度阈值时停止，得到至少一个聚类中心位置。如此，流动估计流失设备就完成了对带权重的流失人员样本序列的聚类了，以便于后续使用聚类中心位置计算流失概率。

在本发明的一些实施例中，对流失人员样本序列进行序列模式挖掘，得到频繁序列模式，即S102的具体实现过程，还可以包括：S201-S206，如下：

S201、从流失人员样本序列中提取出长度为初始序列长度的多个初始序列前缀，并获取最小支持度阈值；其中，最小支持度阈值是利用流失人员样本序列的数量与预设好的最小支持率计算出的。

人员估计流失设备先将流失人员样本序列中长度为初始序列长度的序列提取出来，作为初始序列前缀，同时，获取计算好的最小支持度阈值。

可以理解的是，初始序列长度可以设置为1，即将流失人员样本序列按照单个编码结果拆解，得到多个初始序列前缀；初始序列长度也可以设置为2，即将编码结果两两拆解，得到多个初始序列前缀。具体的初始序列长度可以根据实际需求设置，本发明实施例在此不作限定。

需要说明的是，本发明实施例中，最小支持度阈值时利用流失人员样本序列的数量与预设好的最小支持率计算出的，更进一步的，是用流失人员样本序列的数量与预设好的最小支持率相乘得到的。其中。最小支持率是可以根据实际情况设置的，例如设置为0.5、0.6等。

示例性的，当预设好的最小支持率用n表示，流失人员样本序列的数量用a表示时，最小支持度阈值则为式(4)所示：

min_sup＝a×n (4)

其中，min_sup为最小支持度阈值，当估计流失设备知晓了预设好的最小支持率和流失人员样本序列的具体数量之后，就可以将这些具体数值代入至式(4)中，得到最小支持度阈值的数值结果。

需要说明的是，随着时间的推进，流失人员样本库中流失人员样本的个数是会增加的，这时，当流失人员样本的数量增大时，可以重新设置最小支持率，进而改变最小支持度阈值，以使得挖掘到的频繁序列模式可以根据流失人员样本的数量的调整而动态调整。

S202、利用最小支持度阈值从多个初始序列前缀中筛选出初始频繁前缀，并从流失人员样本序列中确定出初始频繁前缀所对应的初始后缀序列。

估计流失设备统计多个初始序列前缀中的每个初始序列前缀，在所有流失人员样本序列中的出现次数，当出现次数大于等于最小支持度阈值的初始序列前缀时，该初始序列前缀就是初始频繁前缀，之后，人员流动设备将每个流失人员样本序列中，从初始频繁前缀开始，到流失人员样本序列的末尾的序列，作为初始频繁全追对应的初始后缀序列。

S203、采样最小支持度阈值从初始后缀序列中筛选出临时后缀。

S204、利用初始频繁前缀和临时后缀组成成中间频繁前缀，并从初始后缀序列中确定出中间频繁前缀所对应的中间后缀序列。

人员流动设备继续利用最小支持度阈值，按照与S201类似的方式，从初始后缀序列中筛选出出现次数大于等于最小支持度阈值的后缀，作为临时后缀，然后再用初始频繁前缀和临时后缀组合成中间频繁前缀，并继续确定出中间频繁前缀所对应的中间后缀序列。

S205、重复采用最小支持度从中间后缀序列中筛选出临时后缀，利用中间频繁前缀和临时后缀组合成中间频繁前缀，并确定中间频繁前缀对应的中间后缀序列的过程，直至中间后缀序列中不存在满足最小支持度阈值的序列。

重复上述筛选临时后缀，利用中间频繁前缀和临时后缀组合成中间频繁前缀，以及确定中间频繁前缀对应的中间后缀的过程，直至中间后缀序列中不再具有出现次数大于等于最小支持度阈值的序列，或者是直至中间后续序列已经为空时停止。

S206、将初始频繁前缀和中间频繁前缀作为频繁序列模式。

估计流失设备将所得到的所有初始频繁前缀，和所有的中间频繁前缀，都做为频繁序列模式，也就是说，对流失人员样本序列进行序列模式挖掘，可以得到不止一个频繁序列模式。

示例性的，本发明实施例提供了进行序列模式挖掘的过程示意图，如图8所示，流失人员8-A的职位的编码为职位A-b，年龄编码为年龄b，离家距离的编码为距离区间c，工作年限为年限c，加班情况为g，绩效情况为绩效c，这些编码就组成了流失人员8-A的样本序列；类似的，流失人员8-B的样本序列为职位A-e、年龄d、距离区间e、年限c、加班时长d和绩效c。当预设好的最小支持率为0.5时，最小支持度阈值就为1，这时，人员估计流失设备统计出了各种编码结果的出现次数8-1，其中，职位A-b、职位A-e、年龄b、年龄d、加班时长g和加班时长d的出现次数都为1，距离区间e、年限c和绩效c的出现次数都为2，因此，可以得到初始频繁前缀8-2为距离区间e、年限c和绩效c。其中，距离区间e对应的初始后缀序列有2个，分别为(年限c、加班时长d、绩效c)序列，以及(年限c、加班时长d、绩效c)序列；年限c对应的初始后缀序列也有2个，分别为(加班时长g、绩效c)序列，以及(加班时长d、绩效c)序列；绩效c已经处于末尾，没有对应的初始后缀序列。接着，估计流失设备再从初始后缀中继续选择临时后缀，并用临时后缀和初始频繁前缀组成中间频繁前缀8-3，即(距离区间e、年限c)前缀，和(年限c、绩效c)前缀。其中，(距离区间e、年限c)前缀有对应的中间后缀序列，分别为(加班时长g、绩效c)序列，和(加班时长d、绩效c)序列。继续进行上述过程，可以再次得到一个中间频繁前缀8-4，即(距离区间e、年限c、绩效c)，而这个中间频繁前缀8-4已经没有对应的后缀了，挖掘停止，此时，估计流失设备将距离区间e、年限c、绩效c、(距离区间e、年限c)、(年限c、绩效c)以及(距离区间e、年限c、绩效c)作为挖掘出的频繁序列模式。

本发明实施例中，估计流失设备能够从流失人员样本序列中提取出长度为初始序列长度的多个初始序列前缀，并用获取到的最小支持度阈值从多个初始序列前缀中筛选出初始频繁前缀，并从流失人员样本序列中确定出初始频繁前缀所对应的初始后缀序列，之后采用最小支持度阈值从初始后缀序列中筛选出临时后缀，利用初始频繁前缀和临时后缀组成中间频繁前缀，并从初始后缀序列中确定出中间频繁前缀所对应的中间后缀序列，接着，重复上述过程，直到中间后缀序列不存在满足最小支持度阈值的序列为止，最后将初始频繁前缀和中间频繁前缀作为频繁序列模式。如此，估计流失设备就可以挖掘出频繁序列模式。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例是在判断企业人员的离职概率的应用场景下实现的。图9是本发明实施例提供的判断企业人员的离职概率的过程示意图，如图9所示，判断企业人员的离职概率的过程，主要具有以下几步：构建人员特征与流失人员样本库9-1，基于序列模式挖掘流失序列模式(频繁序列模式)9-2，序列模式特征加权计算样本权重9-3，聚类得到流失群体聚类结果(至少一个聚类中心)9-4以及通过聚类结果预测人员(待预测序列)流失概率9-5。

其中，构建人员特征与流失人员样本库9-1的具体实现过程，首先是从用户基础属性维度和用户历史经历维度构建人员特征(至少一个特征信息)，这些人员特征可以是由人力资源系统员工信息中得到的，或者是问卷调查形式采集到的。之后，对人员特征进行预处理，包括：舍弃缺失值过多的特征(空值特征字段)，即某个特征缺失的数量超过阈值时，删除该特征；进行异常值处理(异常特征信息)，即根据特征分布，舍弃特征数值过大，或者是排在最前面的数值；缺失值(空值特征信息)处理，即对特征缺失的数量没有超过阈值的，连续型的特征用均值填充，离散型的特征用常数填充等。在预处理结束之后，对连续型的特征进行分箱离散化，例如根据流失人员在该字段各个区间的数据占比进行分箱，对离散型数据进行类型编码。通过对每个流失人员的特征按照字段类型(特征字段)进行编码，构成一个以流失人员样本数为行，特征数值化向量维数为列的矩阵。更进一步的，随着时间的推移，流失人员样本会逐渐增加，样本库也可以定时更新。

基于序列模式挖掘流失序列模式9-2的具体实现过程，是基于PrefixSpan算法挖掘流失用户样本的频繁出现的特征模式(频繁特征模式)，同时支持最小支持度(最小支持度阈值)策略，并用式(4)来计算最小支持度。算法的具体步骤包括：找出单位长度为1(初始序列长度)的人员行为序列前缀(初始序列前缀)；确定对应的投影数据集(初始后缀序列)，统计行为序列前缀出现频率并将支持度高于最小支持度的前缀添加到数据集，获取频繁一项序列模式(初始频繁前缀)；对所有长度为i且满足最小支持度要求的前缀递归挖掘，即挖掘前缀的投影数据集，若投影数据集为空(不存在满足最小支持度阈值的序列)，则返回递归，或是统计对应投影数据集中各项的最小支持度，将满足最小值支持度的各单项(临时后缀)与前缀合并，得到新前缀(中间频繁前缀)，不满足最小支持度要求则递归返回，令i＝i+1，前缀为合并单项后的各个新前缀，分别递归执行第3步；返回流失序列模式。

序列模式特征加权计算样本权重9-3的具有两种实现过程。第一种是将用户序列所包含的最长的流失序列模式的支持度作为该用户序列的样本权重，最长的流失模式的支持度(频繁权重)＝包含该最长的流失序列模式的流失人员样本数/流失人员样本总数。第二种是先计算出最长的流失序列模式的支持度，再计算出非流失序列模式的特征(其他特征信息)的支持度，将这个支持度作为非流失序列模式的权重(非频繁权重)，然后对流失序列模式的支持度与非流失序列模式的权重进行加权，得到样本权重。其中，非流失序列模式的权重＝该特征出现的样本数/流失人员样本总数。

聚类得到流失群体聚类结果9-4中，是利用向量夹角的余弦计算相似度，来判断什么时候结束聚类过程，并用带有权重的人员特征向量(带有权重的流失人员样本序列)，来计算聚类结果。而通过聚类结果预测人员流失概率9-5中，具有两种实现方式。方式一为计算新样本特征向量(待预测序列)与聚类中心的距离，距离越近说明新样本人员预估的流失概率雨大，通过距离量化预估新样本流失可能性；方式二是将新样本特征向量与流失人员样本、非流失人员样本特征向量(非流失人员样本序列)共同进行加权聚类，完成聚类后计算新样本特征向量所属类别中流失样本数占比，流失样本数占比越高表示新样本人员流失概率越大，通过聚类结果的占比量化新样本流失可能性。

通过上述可知，估计流失设备能够通过挖掘流失序列模式，区分出重要特征，并且不遗漏特征之间的关联，同时利用聚类过程，使得流失人员之间的关联性也得以保存，如此，能够有效提高了企业人员离职概率的估计准确度。

下面继续说明本发明实施例提供的估计流失装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的估计流失装置255中的软件模块可以包括：

接收模块2551，用于接收流失人员样本分析指令；

提取模块2552，用于响应于所述流失人员样本分析指令，从流失人员样本库中提取出流失人员样本信息；

序列处理模块2553，用于利用所述流失人员样本信息构造出流失人员样本序列，并对所述流失人员样本序列进行序列模式挖掘，得到频繁序列模式；所述频繁序列模式表征了所述流失人员样本信息所共同具备的特征；

权重计算模块2554，用于根据所述频繁序列模式计算出所述流失人员样本序列对应的样本权重；

聚类模块2555，用于基于所述样本权重，对所述流失人员样本序列进行聚类，得到至少一个聚类中心位置；

估计模块2556，用于当获取到待预测序列时，计算所述至少一个聚类中心位置与所述待预测序列的距离信息，进而得到所述待预测序列的流失概率，完成人员的流失估计。

在本发明的一些实施例中，所述序列处理模块2553，还用于当获取到所述待预测序列和非流失人员样本信息时，并利用所述非流失人员样本信息构造出非流失人员样本序列；

所述聚类模块2555，还用于基于所述样本权重，对所述待预测序列、所述流失人员样本序列和所述非流失人员样本序列进行聚类，得到至少一个聚类结果；

所述估计模块2556，还用于从所述至少一个聚类结果中挑选出所述待预测序列所属的目标聚类结果；对所述目标聚类结果中的流失人员样本序列的数量进行占比计算，得到所述待预测序列的流失概率，完成人员的流失估计。

在本发明的一些实施例中，所述估计模块2556，具体用于对所述目标聚类结果中的流失人员样本序列进行数量统计，得到统计结果；利用所述统计结果与所述目标聚类结果中的人员样本序列的总数量相比，得到所述流失概率，从而完成人员的流失估计。

在本发明的一些实施例中，所述序列处理模块2553，具体用于对所述至少一个特征信息中的每个特征信息进行编码，得到编码结果；利用所述编码结果组合得到所述流失人员样本序列。

在本发明的一些实施例中，所述序列处理模块2553，还具体用于从所述每个特征字段对应的所述一个或多个特征信息中，挑选出表征特征信息为空的空值特征信息，并统计出所述空值特征信息的数量；将所述空值特征信息的数量大于等于预设特征过滤阈值的特征字段作为空值特征字段；以及对所述至少一个特征信息中除所述空值特征字段外的特征字段所对应的一个或个特征信息进行编码，得到所述编码结果。

在本发明的一些实施例中，所述序列处理模块2553，还具体用于将所述空值特征信息的数量小于预设特征过滤阈值的特征字段作为正常特征字段，从所述正常特征字段所对应的一个或多个特征信息中挑选出异常特征信息并删除，得到所述正常特征字段的中间特征信息；所述异常特征信息表征不符合特征信息的分布规律的特征信息；利用所述中间特征信息构造出替代值；利用所述替代值替换所述正常特征字段中的空值特征信息和异常特征信息，得到所述正常特征字段对应的优化后的特征信息；以及对所述优化后的特征信息进行编码，得到所述编码结果。

在本发明的一些实施例中，所述权重计算模块2554，具体用于统计出所述频繁序列模式在所有流失人员样本序列中的第一出现次数，并对所述第一出现次数和所述流失人员样本序列的总数量进行比例运算，得到频繁权重；统计出除所述频繁序列模式之外的其他特征信息，在所述所有流失人员样本序列中的第二出现次数，并将所述第二出现次数与所述所述流失人员样本序列的总数量相比，得到非频繁权重；对所述频繁权重和所述非频繁权重进行加权，得到所述样本权重。。

在本发明的一些实施例中，所述聚类模块2555，具体用于将所述样本权重与所述流失人员样本序列相乘，得到带权重的流失人员样本序列；将所述带权重的流失人员样本序列随机划分为预设类别数目个初始聚类类别，并对属于同一聚类类别的带权重的流失人员样本序列进行叠加，得到所述预设类别数目个初始聚类中心位置；计算出每个初始聚类类别中的带权重的流失人员样本序列，与所述每个初始聚类类别所对应的初始聚类中心位置的余弦相似度，进而得到所述初始聚类类别的凝聚程度；对所述初始聚类类别进行更新，得到所述预设类别数目个中间聚类类别，和所述预设类别数目个中间聚类中心位置，进而得到所述中间聚类类别的凝聚程度；重复对中间聚类类别进行更新的过程，直至所述凝聚程度达到预设凝聚度阈值时停止，得到所述至少一个聚类中心位置。

在本发明的一些实施例中，所述序列处理模块2553，具体用于从所述流失人员样本序列中提取出长度为初始序列长度的多个初始序列前缀，并获取最小支持度阈值；其中，所述最小支持度阈值是利用所述流失人员样本序列的数量与预设好的最小支持率计算出的；利用所述最小支持度阈值从所述多个初始序列前缀中筛选出初始频繁前缀，并从所述流失人员样本序列中确定出所述初始频繁前缀所对应的初始后缀序列；采用所述最小支持度阈值从所述初始后缀序列中筛选出临时后缀；利用所述初始频繁前缀和所述临时后缀组合成中间频繁前缀，并从所述初始后缀序列中确定出所述中间频繁前缀所对应的中间后缀序列；重复所述采用所述最小支持度阈值从所述中间后缀序列中筛选出临时后缀，所述利用所述中间频繁前缀和所述临时后缀组合成所述中间频繁前缀，并确定所述中间频繁前缀对应的中间后缀序列的过程，直至所述中间后缀序列中不存在满足所述最小支持度阈值的序列；将所述初始频繁前缀和所述中间频繁前缀作为所述频繁序列模式。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行估计流失指令，当可执行估计流失指令被处理器执行时，将引起处理器执行本发明实施例提供的估计流失的方法，例如，如图3、图5、图6、图7和图9示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行估计流失指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行估计流失指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行估计流失指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种估计流失的方法，其特征在于，包括：

利用所述流失人员样本信息构造出流失人员样本序列，并对所述流失人员样本序列进行序列模式挖掘，得到频繁序列模式；所述频繁序列模式表征了所述流失人员样本信息所共同具备的特征，所述频繁序列模式是由所述流失人员样本序列所包含的序列子集组成；

基于所述样本权重，对所述流失人员样本序列进行聚类，得到至少一个聚类中心位置；

当获取到待预测序列时，计算所述至少一个聚类中心位置与所述待预测序列的距离信息，进而得到所述待预测序列的流失概率，完成人员的流失估计。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述频繁序列模式计算出所述流失人员样本序列对应的样本权重之后，所述方法还包括：

当获取到所述待预测序列和非流失人员样本信息时，利用所述非流失人员样本信息构造出非流失人员样本序列；

基于所述样本权重，对所述待预测序列、所述流失人员样本序列和所述非流失人员样本序列进行聚类，得到至少一个聚类结果；

从所述至少一个聚类结果中挑选出所述待预测序列所属的目标聚类结果；

对所述目标聚类结果中的流失人员样本序列的数量进行占比计算，得到所述待预测序列的流失概率，完成人员的流失估计。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标聚类结果中的流失人员样本序列的数量进行占比计算，得到所述待预测序列的流失概率，完成人员的流失估计，包括：

对所述目标聚类结果中的流失人员样本序列进行数量统计，得到统计结果；

利用所述统计结果与所述目标聚类结果中的人员样本序列的总数量相比，得到所述流失概率，从而完成人员的流失估计。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述流失人员样本信息中具有至少一个特征信息；所述利用所述流失人员样本信息构造出流失人员样本序列，包括：

对所述至少一个特征信息中的每个特征信息进行编码，得到编码结果；

利用所述编码结果组合得到所述流失人员样本序列。

5.根据权利要求4所述的方法，其特征在于，所述每个特征信息都有其所属的特征字段，每个特征字段对应了一个或多个特征信息；在所述对所述至少一个特征信息中的每个特征信息进行编码，得到编码结果之前，所述方法还包括：

从所述每个特征字段对应的所述一个或多个特征信息中，挑选出表征特征信息为空的空值特征信息，并统计出所述空值特征信息的数量；

将所述空值特征信息的数量大于等于预设特征过滤阈值的特征字段作为空值特征字段；

相应的，所述对所述至少一个特征信息中的每个特征信息进行编码，得到编码结果，包括：

对所述至少一个特征信息中除所述空值特征字段外的特征字段所对应的一个或个特征信息进行编码，得到所述编码结果。

6.根据权利要求5所述的方法，其特征在于，在所述从所述每个特征字段对应的所述一个或多个特征信息中，挑选出表征特征信息为空的空值特征信息，并统计出所述空值特征信息的数量之后，所述方法还包括：

将所述空值特征信息的数量小于预设特征过滤阈值的特征字段作为正常特征字段，从所述正常特征字段所对应的一个或多个特征信息中挑选出异常特征信息并删除，得到所述正常特征字段的中间特征信息；所述异常特征信息表征不符合特征信息的分布规律的特征信息；

利用所述中间特征信息构造出替代值；

利用所述替代值替换所述正常特征字段中的空值特征信息和异常特征信息，得到所述正常特征字段对应的优化后的特征信息；

相应的，所述对所述至少一个特征信息中的每个特征信息进行编码，得到所述每个特征信息的编码结果，包括：

对所述优化后的特征信息进行编码，得到所述编码结果。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述频繁序列模式计算出所述流失人员样本序列对应的样本权重，包括：

统计出所述频繁序列模式在所有流失人员样本序列中的第一出现次数，并对所述第一出现次数和所述流失人员样本序列的总数量进行比例运算，得到频繁权重；

统计出除所述频繁序列模式之外的其他特征信息，在所述所有流失人员样本序列中的第二出现次数，并将所述第二出现次数与所述所述流失人员样本序列的总数量相比，得到非频繁权重；

对所述频繁权重和所述非频繁权重进行加权，得到所述样本权重。

8.根据权利要求1所述的方法，其特征在于，所述基于所述样本权重，对所述流失人员样本序列进行聚类，得到至少一个聚类中心位置，包括：

将所述样本权重与所述流失人员样本序列相乘，得到带权重的流失人员样本序列；

将所述带权重的流失人员样本序列随机划分为预设类别数目个初始聚类类别，并对属于同一聚类类别的带权重的流失人员样本序列进行叠加，得到所述预设类别数目个初始聚类中心位置；

计算出每个初始聚类类别中的带权重的流失人员样本序列，与所述每个初始聚类类别所对应的初始聚类中心位置的余弦相似度，进而得到所述初始聚类类别的凝聚程度；

对所述初始聚类类别进行更新，得到所述预设类别数目个中间聚类类别，和所述预设类别数目个中间聚类中心位置，进而得到所述中间聚类类别的凝聚程度；

重复对中间聚类类别进行更新的过程，直至所述凝聚程度达到预设凝聚度阈值时停止，得到所述至少一个聚类中心位置。

9.一种估计流失设备，其特征在于，包括：

存储器，用于存储可执行估计流失指令；

处理器，用于执行所述存储器中存储的可执行估计流失指令时，实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行估计流失指令，用于引起处理器执行时，实现权利要求1-8任一项所述的方法。