CN111489030B - 一种基于文本分词的离职预测方法及系统 - Google Patents
一种基于文本分词的离职预测方法及系统 Download PDFInfo
- Publication number
- CN111489030B CN111489030B CN202010273748.4A CN202010273748A CN111489030B CN 111489030 B CN111489030 B CN 111489030B CN 202010273748 A CN202010273748 A CN 202010273748A CN 111489030 B CN111489030 B CN 111489030B
- Authority
- CN
- China
- Prior art keywords
- text
- vocabulary
- word segmentation
- communication log
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,更加全面客观地预测了数据。
Description
技术领域
本发明涉及大数据的技术领域,特别涉及一种基于文本分词的离职预测方法及系统。
背景技术
人力资源已经成为企业竞争的核心资源,保持一个相对稳定的高素质员工队伍是企业可持续发展的前提.员工的主动离职不仅会浪费企业人力资本投入,而且可能造成重要客户流失、商业技术泄密、企业竞争力下降, 甚至危及企业生存.因而,对离职问题的研究具有重要的理论价值和现实意义。
现有技术中,主流的员工离职预测率方法,未做到自动抓取离职相关数据,没有客观的对相关数据建模,数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面,预测的准确度较低。
发明内容
基于上述问题,本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度,使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度。
为实现上述目的,本发明提供了一种基于文本分词的离职预测方法:
所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
步骤102,对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
进一步地,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
进一步地,所述分词算法具体为,第一步,假设M为词条链CLnm(x)中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号。
进一步地,所述归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号,y=1时代表离职关键词,y=2时表示离职关键词所属权重。
进一步地,文本聚类模块将文本中心词汇与该员工的岗位对比具体为,通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为计算该词汇在文本中出现频率,逆向文件频率计算公式为L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给设置 r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,通过递归法打印各族图形,选取选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表。
另外,本发明还提供了一种基于文本分词的离职预测系统:
所述系统包括:边缘爬虫云平台以及数据处理平台;所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
进一步地,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
进一步地,所述分词算法具体为,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号。
进一步地,所述归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号,y=1时代表离职关键词,y=2时表示离职关键词所属权重。
进一步地,文本聚类模块将文本中心词汇与岗位文本对比具体为,通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为计算该词汇在文本中出现频率,逆向文件频率计算公式为L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给设置 r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,通过递归法打印各族图形,选取选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表。
本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于文本分词的离职预测系统的结构框图;
图2为本发明的基于文本分词的离职预测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题,本发明提出了一种基于文本分词的离职预测方法:
所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
边缘爬虫云平台,包括不少于一个通讯日志边缘网络爬虫服务和不少于一个互联网边缘网络爬虫服务。其中,通讯日志边缘网络爬虫服务模块获取一段时间内员工即时通讯文本与工作日志记录,形成通讯日志文本,发送至数据处理平台的大数据库。其中,互联网边缘网络爬虫服务爬取互联网网络半结构化的html网页数据,自动学习互联网网页中离职相关词汇,提取词汇中离职原因与离职关键词,并记录该离职关键词、离职原因出现频次,定期将互联网边缘网络爬虫服务中新学习训练的数据发送至数据处理平台的大数据库。
步骤102,对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
其中,分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理,分词处理模块先对通讯日志文本进行结构化文本编辑处理,获得text格式的通讯日志文本,通过标点符号识别将通讯日志文本变为N个词条(N大于等于1),并建立方便大数据计算的链式数据结构词条链n表示所属文本编号,m代表所述语句编号,x为所述词汇编号,通过自然语句文法标记词条链中的动词、名词、停用词,采用基于词典的分类方法和正向最大匹配法进行分词,分词后将通讯日志分词文本存储到大数据库中,分词算法步骤如下,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句。第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW。第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW)。第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离,即剩余长度。第五步,假设U为大数据库中存储的中文字典中最长单词长度。第六步,IfIndic()函数判断当前指针词是否在字典目录内,如果在就给分词文本Fenci赋值当前文本ZW和切分标志号“&%¥”,具体计算方式如下:
其中,关键词比对模块将通讯日志分词文本中的词汇与大数据库中离职关键词索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职关键词权重系数。TextRank归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号,y=1时代表离职关键词,y=2时表示离职关键词所属权重。
其中,离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数。TextRank归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S3为大数据库中离职原因索引表中词汇,simi(s1,s3)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号, y=1时代表离职原因词汇,y=2时表示离职原因所属权重。
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;
文本聚类模块通过语义分析获取通讯日志文本的中心主旨,文本聚类模块通过大数据库获取通讯日志分词文本,通过遍历间隔符“&%¥”方式,对文本中的数据进行数据清洗作业,通过比对大数据库中的词典,去除对聚类无实际作用的停用词,遍历分词文本中的词汇,建立聚类特征向量其中n表示所属文本编号,m表示n文本所属语句编号,g为该语句中词汇编号,y为1时表示词汇文本,y为2时表示文本出现次数,y为3时表示文本向量权值。采用“词频- 逆向文件频率”算法进行权值转换,词频计算公式为计算该词汇在文本中出现频率,逆向文件频率计算公式为L为该文本词汇总数,分母为文本中包含该词汇的次数。因此取tfidf=Tf*idf,作为文本向量权值边长赋值给设置r 个聚类族,采用“r分-K-means聚类可视化算法”,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,再通过递归法,打印各族图形,最后选取选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇。将该文本中心词汇与该员工的岗位对比,如果相似性小于0.6则加入离职原因特征向量并写入大数据库预警表。
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
数据处理模块负责设置大数据算法优先级,配置大数据计算程序参数,负责大数据计算资源动态调配。大数据处理模块定时启动大数据批量计算任务,计算网络爬虫模块爬取的离职原因索引表中离职原因对应的频次在总频次中所占比例,计算结果作为权重系数存储在特征向量中。数据处理模块定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例,并作为离职关键词特征向量权重系数。
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
分类预测模块根据预先设立的分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算员工的离职倾向。预设的分类模型为决策树模型和BP神经网络。决策树模型是从上而下的模型,通过递归方式比较内部离职特征向量的特征值,将叶子节点逐渐向下划分,从而得到最终归一的特征值,作为离职倾向度。BP神经网络为反向传播的神经网络,通过对随机的任一离职特征向量初始化,随机选取学习样本输入参数,将其与参数逐一输入,在中间节点输出计算结果,然后不断迭代计算两者之间误差,在中间层和输入输出层不断调整权值,最终将误差降到最低,选出归一化特征值作为离职倾向度。
另外,本发明还提供了一种基于文本分词的离职预测系统:
所述系统包括:边缘爬虫云平台以及数据处理平台;所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
边缘爬虫云平台,包括不少于一个通讯日志边缘网络爬虫服务和不少于一个互联网边缘网络爬虫服务。其中,通讯日志边缘网络爬虫服务模块获取一段时间内员工即时通讯文本与工作日志记录,形成通讯日志文本,发送至数据处理平台的大数据库。其中,互联网边缘网络爬虫服务爬取互联网网络半结构化的html网页数据,自动学习互联网网页中离职相关词汇,提取词汇中离职原因与离职关键词,并记录该离职关键词、离职原因出现频次,定期将互联网边缘网络爬虫服务中新学习训练的数据发送至数据处理平台的大数据库。
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理,分词处理模块先对通讯日志文本进行结构化文本编辑处理,获得text 格式的通讯日志文本,通过标点符号识别将通讯日志文本变为N个词条(N 大于等于1),并建立方便大数据计算的链式数据结构词条链n表示所属文本编号,m代表所述语句编号,x为所述词汇编号,通过自然语句文法标记词条链中的动词、名词、停用词,采用基于词典的分类方法和正向最大匹配法进行分词,分词后将通讯日志分词文本存储到大数据库中,分词算法步骤如下,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句。第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW。第三步,对整数w进行遍历,w的最大值取 ZW的长度len(ZW)。第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离,即剩余长度。第五步,假设U为大数据库中存储的中文字典中最长单词长度。第六步,IfIndic()函数判断当前指针词是否在字典目录内,如果在就给分词文本Fenci赋值当前文本ZW和切分标志号“&%¥”,具体计算方式如下:
其中,关键词比对模块将通讯日志分词文本中的词汇与大数据库中离职关键词索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职关键词权重系数。TextRank归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号,y=1时代表离职关键词,y=2时表示离职关键词所属权重。
其中,离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数。TextRank归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S3为大数据库中离职原因索引表中词汇,simi(s1,s3)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号, y=1时代表离职原因词汇,y=2时表示离职原因所属权重。
文本聚类模块通过语义分析获取通讯日志文本的中心主旨,文本聚类模块通过大数据库获取通讯日志分词文本,通过遍历间隔符“&%¥”方式,对文本中的数据进行数据清洗作业,通过比对大数据库中的词典,去除对聚类无实际作用的停用词,遍历分词文本中的词汇,建立聚类特征向量其中n表示所属文本编号,m表示n文本所属语句编号,g为该语句中词汇编号,y为1时表示词汇文本,y为2时表示文本出现次数,y为3时表示文本向量权值。采用“词频- 逆向文件频率”算法进行权值转换,词频计算公式为计算该词汇在文本中出现频率,逆向文件频率计算公式为L为该文本词汇总数,分母为文本中包含该词汇的次数。因此取tfidf=Tf*idf,作为文本向量权值边长赋值给设置r 个聚类族,采用“r分-K-means聚类可视化算法”,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,再通过递归法,打印各族图形,最后选取选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇。将该文本中心词汇与该员工的岗位对比,如果相似性小于0.6则加入离职原因特征向量并写入大数据库预警表。
数据处理模块负责设置大数据算法优先级,配置大数据计算程序参数,负责大数据计算资源动态调配。大数据处理模块定时启动大数据批量计算任务,计算网络爬虫模块爬取的离职原因索引表中离职原因对应的频次在总频次中所占比例,计算结果作为权重系数存储在特征向量中。数据处理模块定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例,并作为离职关键词特征向量权重系数。
分类预测模块根据预先设立的分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算员工的离职倾向。预设的分类模型为决策树模型和BP神经网络。决策树模型是从上而下的模型,通过递归方式比较内部离职特征向量的特征值,将叶子节点逐渐向下划分,从而得到最终归一的特征值,作为离职倾向度。BP神经网络为反向传播的神经网络,通过对随机的任一离职特征向量初始化,随机选取学习样本输入参数,将其与参数逐一输入,在中间节点输出计算结果,然后不断迭代计算两者之间误差,在中间层和输入输出层不断调整权值,最终将误差降到最低,选出归一化特征值作为离职倾向度。
本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (6)
1.一种基于文本分词的离职预测方法,其特征在于,所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
步骤102,对所述通讯日志文本进行分词处理;关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
分词算法具体为,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号;
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;具体包括:通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为y为2时表示文本出现次数,y为3时表示文本向量权值,计算该词汇在文本中出现频率,逆向文件频率计算公式为,n∈L;L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给设置r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,通过递归法打印各族图形,选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量,并写入大数据库预警表;
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
2.根据权利要求1所述的方法,其特征在于,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
4.一种基于文本分词的离职预测系统,其特征在于,所述系统包括:边缘爬虫云平台以及数据处理平台;
所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;
分词算法具体为,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号;
所述关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表,具体包括:通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为计算该词汇在文本中出现频率,逆向文件频率计算公式为,n∈L;L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给设置r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,通过递归法打印各族图形,选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量,并写入大数据库预警表;
所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
5.根据权利要求4所述的系统,其特征在于,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273748.4A CN111489030B (zh) | 2020-04-09 | 2020-04-09 | 一种基于文本分词的离职预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273748.4A CN111489030B (zh) | 2020-04-09 | 2020-04-09 | 一种基于文本分词的离职预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111489030A CN111489030A (zh) | 2020-08-04 |
CN111489030B true CN111489030B (zh) | 2021-10-15 |
Family
ID=71811807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010273748.4A Active CN111489030B (zh) | 2020-04-09 | 2020-04-09 | 一种基于文本分词的离职预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489030B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765660A (zh) * | 2021-01-25 | 2021-05-07 | 湖南大学 | 一种基于MapReduce并行聚类技术的终端安全性分析方法和系统 |
CN113128210A (zh) * | 2021-03-08 | 2021-07-16 | 西安理工大学 | 一种基于同义词发现的网页表格信息解析方法 |
CN113807807A (zh) * | 2021-08-16 | 2021-12-17 | 深圳市云采网络科技有限公司 | 一种元器件参数识别方法、装置、电子设备及可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870537A (zh) * | 2013-12-03 | 2014-06-18 | 山东金质信息技术有限公司 | 一种标准检索智能分词方法 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN105868183A (zh) * | 2016-05-09 | 2016-08-17 | 陈包容 | 一种预测员工离职的方法及装置 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN110019689A (zh) * | 2019-04-17 | 2019-07-16 | 北京网聘咨询有限公司 | 职位匹配方法和职位匹配系统 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9116995B2 (en) * | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US20130006996A1 (en) * | 2011-06-22 | 2013-01-03 | Google Inc. | Clustering E-Mails Using Collaborative Information |
CN104142918B (zh) * | 2014-07-31 | 2017-04-05 | 天津大学 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
CN106372051B8 (zh) * | 2016-10-20 | 2019-06-18 | 长城计算机软件与系统有限公司 | 一种专利地图的可视化方法和系统 |
-
2020
- 2020-04-09 CN CN202010273748.4A patent/CN111489030B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870537A (zh) * | 2013-12-03 | 2014-06-18 | 山东金质信息技术有限公司 | 一种标准检索智能分词方法 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN105868183A (zh) * | 2016-05-09 | 2016-08-17 | 陈包容 | 一种预测员工离职的方法及装置 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110019689A (zh) * | 2019-04-17 | 2019-07-16 | 北京网聘咨询有限公司 | 职位匹配方法和职位匹配系统 |
Non-Patent Citations (1)
Title |
---|
使用K-means及TF-IDF算法对中文文本聚类并可视化;ioiogoo;《https://www.jianshu.com/p/622222b96f76》;20180531;第2-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111489030A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489030B (zh) | 一种基于文本分词的离职预测方法及系统 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN111695358B (zh) | 生成词向量的方法、装置、计算机存储介质和电子设备 | |
CN112395385A (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN113033183A (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN102999533A (zh) | 一种火星文识别方法和系统 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN111241824A (zh) | 一种用于中文隐喻信息识别的方法 | |
KR102376489B1 (ko) | 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN112632272B (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
CN110633468B (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
CN111639189A (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN115730221A (zh) | 基于溯因推理的虚假新闻识别方法、装置、设备及介质 | |
CN113158669B (zh) | 一种用工平台正负面评论识别的方法及系统 | |
CN115879460A (zh) | 面向文本内容的新标签实体识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |