CN111489030B

CN111489030B - 一种基于文本分词的离职预测方法及系统

Info

Publication number: CN111489030B
Application number: CN202010273748.4A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Lizhi Human Resource Service Co ltd
Current assignee: Hebei Lizhi Human Resource Service Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-15
Anticipated expiration: 2040-04-09
Also published as: CN111489030A

Abstract

本发明提供了一种基于文本分词的离职预测方法及系统，通过对通讯日志文本进行分词，获得离职关键词特征向量，比对文本中心词汇与岗位文本获得离职原因特征向量，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度，提高了数据匹配的效率和预测的准确度，更加全面客观地预测了数据。

Description

一种基于文本分词的离职预测方法及系统

技术领域

本发明涉及大数据的技术领域，特别涉及一种基于文本分词的离职预测方法及系统。

背景技术

人力资源已经成为企业竞争的核心资源,保持一个相对稳定的高素质员工队伍是企业可持续发展的前提.员工的主动离职不仅会浪费企业人力资本投入,而且可能造成重要客户流失、商业技术泄密、企业竞争力下降, 甚至危及企业生存.因而,对离职问题的研究具有重要的理论价值和现实意义。

现有技术中，主流的员工离职预测率方法，未做到自动抓取离职相关数据，没有客观的对相关数据建模，数据的处理方式效率不高，数据处理方法不够科学客观，预测的参数与特征向量不够全面，预测的准确度较低。

发明内容

基于上述问题，本发明提供了一种基于文本分词的离职预测方法及系统，通过对通讯日志文本进行分词，获得离职关键词特征向量，比对文本中心词汇与岗位文本获得离职原因特征向量，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度，使用网络爬虫和分词算法计算获得离职倾向度，提高了数据匹配的效率和预测的准确度。

为实现上述目的，本发明提供了一种基于文本分词的离职预测方法：

所述方法包括：

步骤101，获取通讯文本与工作日志记录，形成通讯日志文本，发送至所述大数据库；获取网页数据，自动学习离职词汇，提取离职原因与离职关键词，并记录所述离职关键词、离职原因出现频次，定期将新学习训练的数据发送至所述大数据库；

步骤102，对所述通讯日志文本进行分词处理；所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职词汇，并记录大数据库中索引表存在的离职关键词权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职原因权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；

步骤103，将文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表；

步骤104，定时启动大数据批量计算任务，计算离职关键词索引表中对应的频次，在总频次中所占比例并作为离职关键词特征向量权重系数；

步骤105，根据分类模型，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度。

进一步地，所述分词处理具体为，所述分词处理模块对通讯日志文本进行结构化文本编辑处理，获得格式化的通讯日志文本，通过标点符号识别将格式化通讯日志文本变为N个词条，建立链式数据结构词条链，通过自然语句文法标记所述词条链中的动词、名词、停用词，采用分词算法进行分词获得通讯日志分词文本，将所述通讯日志分词文本存储至所述大数据库。

进一步地，所述分词算法具体为，第一步，假设M为词条链CL_nm(x)中语句的数量，对整数i进行遍历，i表示第i条语句；第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量Z^W；第三步，对整数w进行遍历，w的最大值取Z^W的长度len(Z^W)；第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离获得剩余长度；第五步，假设U为大数据库中存储的中文字典中最长单词长度；第六步，使用IfIndic函数判断当前指针词是否在字典目录内，如果在则分词文本Fenci赋值当前文本Z^W和切分标志号。

进一步地，所述归一化因子算法公式为

其中S1为分词文本Fenci中每个间隔提取词汇，S2为大数据库中离职关键词索引表中词汇，simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇，加入离职关键词特征向量

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。

进一步地，文本聚类模块将文本中心词汇与该员工的岗位对比具体为，通过语义分析获取通讯日志文本中心主旨，通过大数据库获取通讯日志分词文本，遍历间隔符对所述通讯日志分词文本进行数据清洗，比对大数据库词典，去除聚类无效停用词，遍历通讯日志分词文本词汇，建立聚类特征向量，采用词频-逆向文件频率算法进行权值转换，词频计算公式为

计算该词汇在文本中出现频率，逆向文件频率计算公式为

L为该文本词汇总数，分母为文本中包含该词汇的次数；取tfidf＝Tf*idf，作为文本向量权值边长赋值给

设置 r个聚类族，采用r分-K-means聚类可视化算法，先将本分词汇分为r个类，对于每个类采用K-means聚类可视化算法，以

为横坐标，

为纵坐标，打印出中心图形，通过计算图的几何中心坐标，选取横纵坐标处于中心的词汇作为该族的中心词汇，以该词汇的

为该族横坐标，

为该族纵坐标，通过递归法打印各族图形，选取选取横纵坐标处于中心族为中心族，该族的词汇

为文本中心词汇，将该文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量

并写入大数据库预警表。

另外，本发明还提供了一种基于文本分词的离职预测系统：

所述系统包括：边缘爬虫云平台以及数据处理平台；所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块；所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录，形成通讯日志文本，发送至所述大数据库；所述互联网边缘网络爬虫服务模块获取网页数据，自动学习离职词汇，提取离职原因与离职关键词，并记录所述离职关键词、离职原因出现频次，定期将新学习训练的数据发送至所述大数据库；

所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块；所述分词处理模块用于对所述通讯日志文本进行分词处理；所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职词汇，并记录大数据库中索引表存在的离职关键词权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职原因权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；所述文本聚类模块将文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表；所述大数据处理模块用于设置大数据算法优先级，配置大数据计算程序参数以及大数据计算资源动态调配，定时启动大数据批量计算任务，计算离职关键词索引表中对应的频次，在总频次中所占比例并作为离职关键词特征向量权重系数；所述分类预测模块根据分类模型，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度。

进一步地，所述分词算法具体为，第一步，假设M为词条链

中语句的数量，对整数i进行遍历，i表示第i条语句；第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量Z^W；第三步，对整数w进行遍历，w的最大值取Z^W的长度len(Z^W)；第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离获得剩余长度；第五步，假设U为大数据库中存储的中文字典中最长单词长度；第六步，使用IfIndic函数判断当前指针词是否在字典目录内，如果在则分词文本Fenci赋值当前文本Z^W和切分标志号。

进一步地，所述归一化因子算法公式为

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。

进一步地，文本聚类模块将文本中心词汇与岗位文本对比具体为，通过语义分析获取通讯日志文本中心主旨，通过大数据库获取通讯日志分词文本，遍历间隔符对所述通讯日志分词文本进行数据清洗，比对大数据库词典，去除聚类无效停用词，遍历通讯日志分词文本词汇，建立聚类特征向量，采用词频-逆向文件频率算法进行权值转换，词频计算公式为

计算该词汇在文本中出现频率，逆向文件频率计算公式为

为横坐标，

为该族横坐标，

并写入大数据库预警表。

本发明提供了一种基于文本分词的离职预测方法及系统，通过对通讯日志文本进行分词，获得离职关键词特征向量，比对文本中心词汇与岗位文本获得离职原因特征向量，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度，提高了数据匹配的效率和预测的准确度，解决了现有技术数据的处理方式效率不高，数据处理方法不够科学客观，预测的参数与特征向量不够全面的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于文本分词的离职预测系统的结构框图；

图2为本发明的基于文本分词的离职预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决了现有技术数据的处理方式效率不高，数据处理方法不够科学客观，预测的参数与特征向量不够全面的问题，本发明提出了一种基于文本分词的离职预测方法：

所述方法包括：

边缘爬虫云平台，包括不少于一个通讯日志边缘网络爬虫服务和不少于一个互联网边缘网络爬虫服务。其中，通讯日志边缘网络爬虫服务模块获取一段时间内员工即时通讯文本与工作日志记录，形成通讯日志文本，发送至数据处理平台的大数据库。其中，互联网边缘网络爬虫服务爬取互联网网络半结构化的html网页数据，自动学习互联网网页中离职相关词汇，提取词汇中离职原因与离职关键词，并记录该离职关键词、离职原因出现频次，定期将互联网边缘网络爬虫服务中新学习训练的数据发送至数据处理平台的大数据库。

其中，分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理，分词处理模块先对通讯日志文本进行结构化文本编辑处理，获得text格式的通讯日志文本，通过标点符号识别将通讯日志文本变为N个词条(N大于等于1)，并建立方便大数据计算的链式数据结构词条链

n表示所属文本编号，m代表所述语句编号，x为所述词汇编号，通过自然语句文法标记词条链中的动词、名词、停用词，采用基于词典的分类方法和正向最大匹配法进行分词，分词后将通讯日志分词文本存储到大数据库中，分词算法步骤如下，第一步，假设M为词条链

中语句的数量，对整数i进行遍历，i表示第i条语句。第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量Z^W。第三步，对整数w进行遍历，w的最大值取Z^W的长度len(Z^W)。第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离，即剩余长度。第五步，假设U为大数据库中存储的中文字典中最长单词长度。第六步，IfIndic()函数判断当前指针词是否在字典目录内，如果在就给分词文本Fenci赋值当前文本Z^W和切分标志号“&％￥”，具体计算方式如下：

其中，关键词比对模块将通讯日志分词文本中的词汇与大数据库中离职关键词索引表进行对比，以间隔符“&％￥”提取分词文本中的词汇，采用TextRank归一化因子算法，计算词汇之间相似度，相似度大于0.7时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职关键词权重系数。TextRank归一化因子算法公式为

其中S1为分词文本Fenci中每个间隔提取词汇，S2为大数据库中离职关键词索引表中词汇，simi(s1,s2)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。

其中，离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比，以间隔符“&％￥”提取分词文本中的词汇，采用TextRank归一化因子算法，计算词汇之间相似度，相似度大于0.7时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职原因权重系数。TextRank归一化因子算法公式为

其中S1为分词文本Fenci中每个间隔提取词汇，S3为大数据库中离职原因索引表中词汇，simi(s1,s3)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量

其中n表示所属文本编号，m表示所属语句编号， y＝1时

代表离职原因词汇，y＝2时

表示离职原因所属权重。

文本聚类模块通过语义分析获取通讯日志文本的中心主旨，文本聚类模块通过大数据库获取通讯日志分词文本，通过遍历间隔符“&％￥”方式，对文本中的数据进行数据清洗作业，通过比对大数据库中的词典，去除对聚类无实际作用的停用词，遍历分词文本中的词汇，建立聚类特征向量

其中n表示所属文本编号，m表示n文本所属语句编号，g为该语句中词汇编号，y为1时

表示词汇文本，y为2时

表示文本出现次数，y为3时

表示文本向量权值。采用“词频- 逆向文件频率”算法进行权值转换，词频计算公式为

计算该词汇在文本中出现频率，逆向文件频率计算公式为

L为该文本词汇总数，分母为文本中包含该词汇的次数。因此取tfidf＝Tf*idf,作为文本向量权值边长赋值给

设置r 个聚类族，采用“r分-K-means聚类可视化算法”，先将本分词汇分为r个类，对于每个类采用K-means聚类可视化算法，以

为横坐标，

为该族横坐标，

为该族纵坐标，再通过递归法，打印各族图形，最后选取选取横纵坐标处于中心族为中心族，该族的词汇

为文本中心词汇。将该文本中心词汇与该员工的岗位对比，如果相似性小于0.6则加入离职原因特征向量

并写入大数据库预警表。

数据处理模块负责设置大数据算法优先级，配置大数据计算程序参数，负责大数据计算资源动态调配。大数据处理模块定时启动大数据批量计算任务，计算网络爬虫模块爬取的离职原因索引表中离职原因对应的频次在总频次中所占比例，计算结果作为权重系数存储在特征向量中。数据处理模块定时启动大数据批量计算任务，计算离职关键词索引表中对应的频次，在总频次中所占比例，并作为离职关键词特征向量权重系数。

分类预测模块根据预先设立的分类模型，以离职关键词特征向量

和离职原因特征向量

为输入，计算员工的离职倾向。预设的分类模型为决策树模型和BP神经网络。决策树模型是从上而下的模型，通过递归方式比较内部离职特征向量的特征值，将叶子节点逐渐向下划分，从而得到最终归一的特征值，作为离职倾向度。BP神经网络为反向传播的神经网络，通过对随机的任一离职特征向量初始化，随机选取学习样本输入参数，将其与参数逐一输入，在中间节点输出计算结果，然后不断迭代计算两者之间误差，在中间层和输入输出层不断调整权值，最终将误差降到最低，选出归一化特征值作为离职倾向度。

另外，本发明还提供了一种基于文本分词的离职预测系统：

分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理，分词处理模块先对通讯日志文本进行结构化文本编辑处理，获得text 格式的通讯日志文本，通过标点符号识别将通讯日志文本变为N个词条(N 大于等于1)，并建立方便大数据计算的链式数据结构词条链

中语句的数量，对整数i进行遍历，i表示第i条语句。第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量Z^W。第三步，对整数w进行遍历，w的最大值取 Z^W的长度len(Z^W)。第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离，即剩余长度。第五步，假设U为大数据库中存储的中文字典中最长单词长度。第六步，IfIndic()函数判断当前指针词是否在字典目录内，如果在就给分词文本Fenci赋值当前文本Z^W和切分标志号“&％￥”，具体计算方式如下：

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。

其中n表示所属文本编号，m表示所属语句编号， y＝1时

代表离职原因词汇，y＝2时

表示离职原因所属权重。

表示词汇文本，y为2时

表示文本出现次数，y为3时

计算该词汇在文本中出现频率，逆向文件频率计算公式为

为横坐标，

为该族横坐标，

并写入大数据库预警表。

和离职原因特征向量

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于文本分词的离职预测方法，其特征在于，所述方法包括：

步骤101，获取通讯文本与工作日志记录，形成通讯日志文本，发送至大数据库；获取网页数据，自动学习离职词汇，提取离职原因与离职关键词，并记录所述离职关键词、离职原因出现频次，定期将新学习训练的数据发送至所述大数据库；

步骤102，对所述通讯日志文本进行分词处理；关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职词汇，并记录大数据库中索引表存在的离职关键词权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职原因权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；

分词算法具体为，第一步，假设M为词条链

中语句的数量，对整数i进行遍历，i表示第i条语句；第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量Z^W；第三步，对整数w进行遍历，w的最大值取Z^W的长度len(Z^W)；第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离获得剩余长度；第五步，假设U为大数据库中存储的中文字典中最长单词长度；第六步，使用IfIndic函数判断当前指针词是否在字典目录内，如果在则分词文本Fenci赋值当前文本Z^W和切分标志号；

步骤103，将文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表；具体包括：通过语义分析获取通讯日志文本中心主旨，通过大数据库获取通讯日志分词文本，遍历间隔符对所述通讯日志分词文本进行数据清洗，比对大数据库词典，去除聚类无效停用词，遍历通讯日志分词文本词汇，建立聚类特征向量，采用词频-逆向文件频率算法进行权值转换，词频计算公式为

y为2时

表示文本出现次数，y为3时

表示文本向量权值，计算该词汇在文本中出现频率，逆向文件频率计算公式为

，n∈L；L为该文本词汇总数，分母为文本中包含该词汇的次数；取tfidf＝Tf*idf，作为文本向量权值边长赋值给

设置r个聚类族，采用r分-K-means聚类可视化算法，先将本分词汇分为r个类，对于每个类采用K-means聚类可视化算法，以

为横坐标，

为该族横坐标，

为该族纵坐标，通过递归法打印各族图形，选取横纵坐标处于中心族为中心族，该族的词汇

为文本中心词汇，将该文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量，并写入大数据库预警表；

2.根据权利要求1所述的方法，其特征在于，所述分词处理具体为，所述分词处理模块对通讯日志文本进行结构化文本编辑处理，获得格式化的通讯日志文本，通过标点符号识别将格式化通讯日志文本变为N个词条，建立链式数据结构词条链，通过自然语句文法标记所述词条链中的动词、名词、停用词，采用分词算法进行分词获得通讯日志分词文本，将所述通讯日志分词文本存储至所述大数据库。

3.根据权利要求1所述的方法，其特征在于，所述归一化因子算法公式为

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。

4.一种基于文本分词的离职预测系统，其特征在于，所述系统包括：边缘爬虫云平台以及数据处理平台；

所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块；所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录，形成通讯日志文本，发送至大数据库；所述互联网边缘网络爬虫服务模块获取网页数据，自动学习离职词汇，提取离职原因与离职关键词，并记录所述离职关键词、离职原因出现频次，定期将新学习训练的数据发送至所述大数据库；

所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块；所述分词处理模块用于对所述通讯日志文本进行分词处理；

分词算法具体为，第一步，假设M为词条链

中语句的数量，对整数i进行遍历，i表示第i条语句；第二步，取Z^W为指针向量，并将第i条的语句逐字付给指针向量ZW；第三步，对整数w进行遍历，w的最大值取Z^W的长度len(Z^W)；第四步，取整数E表示指针向量Z^W的当前指针距离末位指针距离获得剩余长度；第五步，假设U为大数据库中存储的中文字典中最长单词长度；第六步，使用IfIndic函数判断当前指针词是否在字典目录内，如果在则分词文本Fenci赋值当前文本Z^W和切分标志号；

所述关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职词汇，并记录大数据库中索引表存在的离职关键词权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比，以间隔符提取分词文本中的词汇，采用归一化因子算法，计算词汇之间相似度，相似度大于预设阈值时判断为识别离职相关词汇，并记录大数据库中索引表存在的离职原因权重系数，归一化因子大于预设阈值时判断为离职词汇，将所述离职词汇加入到离职关键词特征向量；所述文本聚类模块将文本中心词汇与岗位文本对比，如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表，具体包括：通过语义分析获取通讯日志文本中心主旨，通过大数据库获取通讯日志分词文本，遍历间隔符对所述通讯日志分词文本进行数据清洗，比对大数据库词典，去除聚类无效停用词，遍历通讯日志分词文本词汇，建立聚类特征向量，采用词频-逆向文件频率算法进行权值转换，词频计算公式为

计算该词汇在文本中出现频率，逆向文件频率计算公式为

为横坐标，

为该族横坐标，

所述大数据处理模块用于设置大数据算法优先级，配置大数据计算程序参数以及大数据计算资源动态调配，定时启动大数据批量计算任务，计算离职关键词索引表中对应的频次，在总频次中所占比例并作为离职关键词特征向量权重系数；所述分类预测模块根据分类模型，以离职关键词特征向量和离职原因特征向量为输入，计算获得离职倾向度。

5.根据权利要求4所述的系统，其特征在于，所述分词处理具体为，所述分词处理模块对通讯日志文本进行结构化文本编辑处理，获得格式化的通讯日志文本，通过标点符号识别将格式化通讯日志文本变为N个词条，建立链式数据结构词条链，通过自然语句文法标记所述词条链中的动词、名词、停用词，采用分词算法进行分词获得通讯日志分词文本，将所述通讯日志分词文本存储至所述大数据库。

6.根据权利要求5所述的系统，其特征在于，所述归一化因子算法公式为

其中n表示所属文本编号，m表示所属语句编号，y＝1时

代表离职关键词，y＝2时

表示离职关键词所属权重。