CN111489030B - 一种基于文本分词的离职预测方法及系统 - Google Patents

一种基于文本分词的离职预测方法及系统 Download PDF

Info

Publication number
CN111489030B
CN111489030B CN202010273748.4A CN202010273748A CN111489030B CN 111489030 B CN111489030 B CN 111489030B CN 202010273748 A CN202010273748 A CN 202010273748A CN 111489030 B CN111489030 B CN 111489030B
Authority
CN
China
Prior art keywords
text
vocabulary
word segmentation
communication log
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010273748.4A
Other languages
English (en)
Other versions
CN111489030A (zh
Inventor
吴晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Lizhi Human Resource Service Co ltd
Original Assignee
Hebei Lizhi Human Resource Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Lizhi Human Resource Service Co ltd filed Critical Hebei Lizhi Human Resource Service Co ltd
Priority to CN202010273748.4A priority Critical patent/CN111489030B/zh
Publication of CN111489030A publication Critical patent/CN111489030A/zh
Application granted granted Critical
Publication of CN111489030B publication Critical patent/CN111489030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,更加全面客观地预测了数据。

Description

一种基于文本分词的离职预测方法及系统
技术领域
本发明涉及大数据的技术领域,特别涉及一种基于文本分词的离职预测方法及系统。
背景技术
人力资源已经成为企业竞争的核心资源,保持一个相对稳定的高素质员工队伍是企业可持续发展的前提.员工的主动离职不仅会浪费企业人力资本投入,而且可能造成重要客户流失、商业技术泄密、企业竞争力下降, 甚至危及企业生存.因而,对离职问题的研究具有重要的理论价值和现实意义。
现有技术中,主流的员工离职预测率方法,未做到自动抓取离职相关数据,没有客观的对相关数据建模,数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面,预测的准确度较低。
发明内容
基于上述问题,本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度,使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度。
为实现上述目的,本发明提供了一种基于文本分词的离职预测方法:
所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
步骤102,对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
进一步地,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
进一步地,所述分词算法具体为,第一步,假设M为词条链CLnm(x)中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号。
进一步地,所述归一化因子算法公式为
Figure BDA0002444050900000031
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000032
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure BDA0002444050900000033
代表离职关键词,y=2时
Figure BDA0002444050900000034
表示离职关键词所属权重。
进一步地,文本聚类模块将文本中心词汇与该员工的岗位对比具体为,通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为
Figure BDA0002444050900000035
计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure BDA0002444050900000036
L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure BDA0002444050900000037
设置 r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure BDA0002444050900000038
为横坐标,
Figure BDA0002444050900000041
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure BDA0002444050900000042
为该族横坐标,
Figure BDA0002444050900000043
为该族纵坐标,通过递归法打印各族图形,选取选取横纵坐标处于中心族为中心族,该族的词汇
Figure BDA0002444050900000044
为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量
Figure BDA0002444050900000045
并写入大数据库预警表。
另外,本发明还提供了一种基于文本分词的离职预测系统:
所述系统包括:边缘爬虫云平台以及数据处理平台;所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
进一步地,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
进一步地,所述分词算法具体为,第一步,假设M为词条链
Figure BDA0002444050900000051
中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号。
进一步地,所述归一化因子算法公式为
Figure BDA0002444050900000052
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000061
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure BDA0002444050900000062
代表离职关键词,y=2时
Figure BDA0002444050900000063
表示离职关键词所属权重。
进一步地,文本聚类模块将文本中心词汇与岗位文本对比具体为,通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为
Figure BDA0002444050900000064
计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure BDA0002444050900000065
L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure BDA0002444050900000066
设置 r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure BDA0002444050900000067
为横坐标,
Figure BDA0002444050900000068
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure BDA0002444050900000069
为该族横坐标,
Figure BDA00024440509000000610
为该族纵坐标,通过递归法打印各族图形,选取选取横纵坐标处于中心族为中心族,该族的词汇
Figure BDA00024440509000000611
为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量
Figure BDA0002444050900000071
并写入大数据库预警表。
本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于文本分词的离职预测系统的结构框图;
图2为本发明的基于文本分词的离职预测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题,本发明提出了一种基于文本分词的离职预测方法:
所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
边缘爬虫云平台,包括不少于一个通讯日志边缘网络爬虫服务和不少于一个互联网边缘网络爬虫服务。其中,通讯日志边缘网络爬虫服务模块获取一段时间内员工即时通讯文本与工作日志记录,形成通讯日志文本,发送至数据处理平台的大数据库。其中,互联网边缘网络爬虫服务爬取互联网网络半结构化的html网页数据,自动学习互联网网页中离职相关词汇,提取词汇中离职原因与离职关键词,并记录该离职关键词、离职原因出现频次,定期将互联网边缘网络爬虫服务中新学习训练的数据发送至数据处理平台的大数据库。
步骤102,对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
其中,分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理,分词处理模块先对通讯日志文本进行结构化文本编辑处理,获得text格式的通讯日志文本,通过标点符号识别将通讯日志文本变为N个词条(N大于等于1),并建立方便大数据计算的链式数据结构词条链
Figure BDA0002444050900000081
n表示所属文本编号,m代表所述语句编号,x为所述词汇编号,通过自然语句文法标记词条链中的动词、名词、停用词,采用基于词典的分类方法和正向最大匹配法进行分词,分词后将通讯日志分词文本存储到大数据库中,分词算法步骤如下,第一步,假设M为词条链
Figure BDA0002444050900000091
中语句的数量,对整数i进行遍历,i表示第i条语句。第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW。第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW)。第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离,即剩余长度。第五步,假设U为大数据库中存储的中文字典中最长单词长度。第六步,IfIndic()函数判断当前指针词是否在字典目录内,如果在就给分词文本Fenci赋值当前文本ZW和切分标志号“&%¥”,具体计算方式如下:
Figure BDA0002444050900000092
其中,关键词比对模块将通讯日志分词文本中的词汇与大数据库中离职关键词索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职关键词权重系数。TextRank归一化因子算法公式为
Figure BDA0002444050900000093
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000101
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure BDA0002444050900000102
代表离职关键词,y=2时
Figure BDA0002444050900000103
表示离职关键词所属权重。
其中,离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数。TextRank归一化因子算法公式为
Figure BDA0002444050900000104
其中S1为分词文本Fenci中每个间隔提取词汇,S3为大数据库中离职原因索引表中词汇,simi(s1,s3)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000105
其中n表示所属文本编号,m表示所属语句编号, y=1时
Figure BDA0002444050900000106
代表离职原因词汇,y=2时
Figure BDA0002444050900000107
表示离职原因所属权重。
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;
文本聚类模块通过语义分析获取通讯日志文本的中心主旨,文本聚类模块通过大数据库获取通讯日志分词文本,通过遍历间隔符“&%¥”方式,对文本中的数据进行数据清洗作业,通过比对大数据库中的词典,去除对聚类无实际作用的停用词,遍历分词文本中的词汇,建立聚类特征向量
Figure BDA0002444050900000108
其中n表示所属文本编号,m表示n文本所属语句编号,g为该语句中词汇编号,y为1时
Figure BDA0002444050900000109
表示词汇文本,y为2时
Figure BDA00024440509000001010
表示文本出现次数,y为3时
Figure BDA00024440509000001011
表示文本向量权值。采用“词频- 逆向文件频率”算法进行权值转换,词频计算公式为
Figure BDA00024440509000001012
计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure BDA0002444050900000111
L为该文本词汇总数,分母为文本中包含该词汇的次数。因此取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure BDA0002444050900000112
设置r 个聚类族,采用“r分-K-means聚类可视化算法”,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure BDA0002444050900000113
为横坐标,
Figure BDA0002444050900000114
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure BDA0002444050900000115
为该族横坐标,
Figure BDA0002444050900000116
为该族纵坐标,再通过递归法,打印各族图形,最后选取选取横纵坐标处于中心族为中心族,该族的词汇
Figure BDA0002444050900000117
为文本中心词汇。将该文本中心词汇与该员工的岗位对比,如果相似性小于0.6则加入离职原因特征向量
Figure BDA0002444050900000118
并写入大数据库预警表。
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
数据处理模块负责设置大数据算法优先级,配置大数据计算程序参数,负责大数据计算资源动态调配。大数据处理模块定时启动大数据批量计算任务,计算网络爬虫模块爬取的离职原因索引表中离职原因对应的频次在总频次中所占比例,计算结果作为权重系数存储在特征向量中。数据处理模块定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例,并作为离职关键词特征向量权重系数。
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
分类预测模块根据预先设立的分类模型,以离职关键词特征向量
Figure BDA0002444050900000119
和离职原因特征向量
Figure BDA00024440509000001110
为输入,计算员工的离职倾向。预设的分类模型为决策树模型和BP神经网络。决策树模型是从上而下的模型,通过递归方式比较内部离职特征向量的特征值,将叶子节点逐渐向下划分,从而得到最终归一的特征值,作为离职倾向度。BP神经网络为反向传播的神经网络,通过对随机的任一离职特征向量初始化,随机选取学习样本输入参数,将其与参数逐一输入,在中间节点输出计算结果,然后不断迭代计算两者之间误差,在中间层和输入输出层不断调整权值,最终将误差降到最低,选出归一化特征值作为离职倾向度。
另外,本发明还提供了一种基于文本分词的离职预测系统:
所述系统包括:边缘爬虫云平台以及数据处理平台;所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至所述大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
边缘爬虫云平台,包括不少于一个通讯日志边缘网络爬虫服务和不少于一个互联网边缘网络爬虫服务。其中,通讯日志边缘网络爬虫服务模块获取一段时间内员工即时通讯文本与工作日志记录,形成通讯日志文本,发送至数据处理平台的大数据库。其中,互联网边缘网络爬虫服务爬取互联网网络半结构化的html网页数据,自动学习互联网网页中离职相关词汇,提取词汇中离职原因与离职关键词,并记录该离职关键词、离职原因出现频次,定期将互联网边缘网络爬虫服务中新学习训练的数据发送至数据处理平台的大数据库。
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;所述关键词比对模块将所述通讯日志分词文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
分词处理模块负责对大数据库中保存的员工通讯日志文本进行分词处理,分词处理模块先对通讯日志文本进行结构化文本编辑处理,获得text 格式的通讯日志文本,通过标点符号识别将通讯日志文本变为N个词条(N 大于等于1),并建立方便大数据计算的链式数据结构词条链
Figure BDA0002444050900000131
n表示所属文本编号,m代表所述语句编号,x为所述词汇编号,通过自然语句文法标记词条链中的动词、名词、停用词,采用基于词典的分类方法和正向最大匹配法进行分词,分词后将通讯日志分词文本存储到大数据库中,分词算法步骤如下,第一步,假设M为词条链
Figure BDA0002444050900000132
中语句的数量,对整数i进行遍历,i表示第i条语句。第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW。第三步,对整数w进行遍历,w的最大值取 ZW的长度len(ZW)。第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离,即剩余长度。第五步,假设U为大数据库中存储的中文字典中最长单词长度。第六步,IfIndic()函数判断当前指针词是否在字典目录内,如果在就给分词文本Fenci赋值当前文本ZW和切分标志号“&%¥”,具体计算方式如下:
Figure BDA0002444050900000133
Figure BDA0002444050900000141
其中,关键词比对模块将通讯日志分词文本中的词汇与大数据库中离职关键词索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职关键词权重系数。TextRank归一化因子算法公式为
Figure BDA0002444050900000142
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,simi(s1,s2)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000143
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure BDA0002444050900000144
代表离职关键词,y=2时
Figure BDA0002444050900000145
表示离职关键词所属权重。
其中,离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符“&%¥”提取分词文本中的词汇,采用TextRank归一化因子算法,计算词汇之间相似度,相似度大于0.7时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数。TextRank归一化因子算法公式为
Figure BDA0002444050900000146
其中S1为分词文本Fenci中每个间隔提取词汇,S3为大数据库中离职原因索引表中词汇,simi(s1,s3)大于0.7时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure BDA0002444050900000147
其中n表示所属文本编号,m表示所属语句编号, y=1时
Figure BDA0002444050900000148
代表离职原因词汇,y=2时
Figure BDA0002444050900000149
表示离职原因所属权重。
文本聚类模块通过语义分析获取通讯日志文本的中心主旨,文本聚类模块通过大数据库获取通讯日志分词文本,通过遍历间隔符“&%¥”方式,对文本中的数据进行数据清洗作业,通过比对大数据库中的词典,去除对聚类无实际作用的停用词,遍历分词文本中的词汇,建立聚类特征向量
Figure BDA0002444050900000151
其中n表示所属文本编号,m表示n文本所属语句编号,g为该语句中词汇编号,y为1时
Figure BDA0002444050900000152
表示词汇文本,y为2时
Figure BDA0002444050900000153
表示文本出现次数,y为3时
Figure BDA0002444050900000154
表示文本向量权值。采用“词频- 逆向文件频率”算法进行权值转换,词频计算公式为
Figure BDA0002444050900000155
计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure BDA0002444050900000156
L为该文本词汇总数,分母为文本中包含该词汇的次数。因此取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure BDA0002444050900000157
设置r 个聚类族,采用“r分-K-means聚类可视化算法”,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure BDA0002444050900000158
为横坐标,
Figure BDA0002444050900000159
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure BDA00024440509000001510
为该族横坐标,
Figure BDA00024440509000001511
为该族纵坐标,再通过递归法,打印各族图形,最后选取选取横纵坐标处于中心族为中心族,该族的词汇
Figure BDA00024440509000001512
为文本中心词汇。将该文本中心词汇与该员工的岗位对比,如果相似性小于0.6则加入离职原因特征向量
Figure BDA00024440509000001513
并写入大数据库预警表。
数据处理模块负责设置大数据算法优先级,配置大数据计算程序参数,负责大数据计算资源动态调配。大数据处理模块定时启动大数据批量计算任务,计算网络爬虫模块爬取的离职原因索引表中离职原因对应的频次在总频次中所占比例,计算结果作为权重系数存储在特征向量中。数据处理模块定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例,并作为离职关键词特征向量权重系数。
分类预测模块根据预先设立的分类模型,以离职关键词特征向量
Figure BDA0002444050900000161
和离职原因特征向量
Figure BDA0002444050900000162
为输入,计算员工的离职倾向。预设的分类模型为决策树模型和BP神经网络。决策树模型是从上而下的模型,通过递归方式比较内部离职特征向量的特征值,将叶子节点逐渐向下划分,从而得到最终归一的特征值,作为离职倾向度。BP神经网络为反向传播的神经网络,通过对随机的任一离职特征向量初始化,随机选取学习样本输入参数,将其与参数逐一输入,在中间节点输出计算结果,然后不断迭代计算两者之间误差,在中间层和输入输出层不断调整权值,最终将误差降到最低,选出归一化特征值作为离职倾向度。
本发明提供了一种基于文本分词的离职预测方法及系统,通过对通讯日志文本进行分词,获得离职关键词特征向量,比对文本中心词汇与岗位文本获得离职原因特征向量,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。本发明使用网络爬虫和分词算法计算获得离职倾向度,提高了数据匹配的效率和预测的准确度,解决了现有技术数据的处理方式效率不高,数据处理方法不够科学客观,预测的参数与特征向量不够全面的问题。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种基于文本分词的离职预测方法,其特征在于,所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
步骤102,对所述通讯日志文本进行分词处理;关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
分词算法具体为,第一步,假设M为词条链
Figure 498338DEST_PATH_IMAGE001
中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号;
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;具体包括:通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为
Figure 507882DEST_PATH_IMAGE002
y为2时
Figure 620195DEST_PATH_IMAGE003
表示文本出现次数,y为3时
Figure 548836DEST_PATH_IMAGE004
表示文本向量权值,计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure 12179DEST_PATH_IMAGE005
,n∈L;L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure 684469DEST_PATH_IMAGE006
设置r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure 651287DEST_PATH_IMAGE007
为横坐标,
Figure 157355DEST_PATH_IMAGE008
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure 701469DEST_PATH_IMAGE009
为该族横坐标,
Figure 318395DEST_PATH_IMAGE010
为该族纵坐标,通过递归法打印各族图形,选取横纵坐标处于中心族为中心族,该族的词汇
Figure 264354DEST_PATH_IMAGE011
为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量,并写入大数据库预警表;
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
2.根据权利要求1所述的方法,其特征在于,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
3.根据权利要求1所述的方法,其特征在于,所述归一化因子算法公式为
Figure 941323DEST_PATH_IMAGE012
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,Simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure 848100DEST_PATH_IMAGE013
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure 862192DEST_PATH_IMAGE014
代表离职关键词,y=2时
Figure 69182DEST_PATH_IMAGE015
表示离职关键词所属权重。
4.一种基于文本分词的离职预测系统,其特征在于,所述系统包括:边缘爬虫云平台以及数据处理平台;
所述边缘爬虫云平台包括至少一通讯日志边缘网络爬虫服务模块以及至少一互联网边缘网络爬虫服务模块;所述通讯日志边缘网络爬虫服务模块获取通讯文本与工作日志记录,形成通讯日志文本,发送至大数据库;所述互联网边缘网络爬虫服务模块获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
所述数据处理平台包括分词处理模块、关键词比对模块、文本聚类模块、离职原因比对模块、大数据处理模块、分类预测模块以及大数据库模块;所述分词处理模块用于对所述通讯日志文本进行分词处理;
分词算法具体为,第一步,假设M为词条链
Figure 501739DEST_PATH_IMAGE016
中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号;
所述关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述离职原因比对模块将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;所述文本聚类模块将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表,具体包括:通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为
Figure 895811DEST_PATH_IMAGE017
计算该词汇在文本中出现频率,逆向文件频率计算公式为
Figure 979174DEST_PATH_IMAGE018
,n∈L;L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给
Figure 509512DEST_PATH_IMAGE019
设置r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以
Figure 387338DEST_PATH_IMAGE020
为横坐标,
Figure 534286DEST_PATH_IMAGE021
为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的
Figure 31126DEST_PATH_IMAGE022
为该族横坐标,
Figure 71763DEST_PATH_IMAGE023
为该族纵坐标,通过递归法打印各族图形,选取横纵坐标处于中心族为中心族,该族的词汇
Figure 730278DEST_PATH_IMAGE024
为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量,并写入大数据库预警表;
所述大数据处理模块用于设置大数据算法优先级,配置大数据计算程序参数以及大数据计算资源动态调配,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;所述分类预测模块根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
5.根据权利要求4所述的系统,其特征在于,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
6.根据权利要求5所述的系统,其特征在于,所述归一化因子算法公式为
Figure 364522DEST_PATH_IMAGE025
其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,Simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量
Figure 524107DEST_PATH_IMAGE026
其中n表示所属文本编号,m表示所属语句编号,y=1时
Figure 560197DEST_PATH_IMAGE027
代表离职关键词,y=2时
Figure 514246DEST_PATH_IMAGE028
表示离职关键词所属权重。
CN202010273748.4A 2020-04-09 2020-04-09 一种基于文本分词的离职预测方法及系统 Active CN111489030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010273748.4A CN111489030B (zh) 2020-04-09 2020-04-09 一种基于文本分词的离职预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010273748.4A CN111489030B (zh) 2020-04-09 2020-04-09 一种基于文本分词的离职预测方法及系统

Publications (2)

Publication Number Publication Date
CN111489030A CN111489030A (zh) 2020-08-04
CN111489030B true CN111489030B (zh) 2021-10-15

Family

ID=71811807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010273748.4A Active CN111489030B (zh) 2020-04-09 2020-04-09 一种基于文本分词的离职预测方法及系统

Country Status (1)

Country Link
CN (1) CN111489030B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765660A (zh) * 2021-01-25 2021-05-07 湖南大学 一种基于MapReduce并行聚类技术的终端安全性分析方法和系统
CN113128210A (zh) * 2021-03-08 2021-07-16 西安理工大学 一种基于同义词发现的网页表格信息解析方法
CN113807807A (zh) * 2021-08-16 2021-12-17 深圳市云采网络科技有限公司 一种元器件参数识别方法、装置、电子设备及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870537A (zh) * 2013-12-03 2014-06-18 山东金质信息技术有限公司 一种标准检索智能分词方法
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105868183A (zh) * 2016-05-09 2016-08-17 陈包容 一种预测员工离职的方法及装置
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN110019689A (zh) * 2019-04-17 2019-07-16 北京网聘咨询有限公司 职位匹配方法和职位匹配系统
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9116995B2 (en) * 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
US20130006996A1 (en) * 2011-06-22 2013-01-03 Google Inc. Clustering E-Mails Using Collaborative Information
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN106372051B8 (zh) * 2016-10-20 2019-06-18 长城计算机软件与系统有限公司 一种专利地图的可视化方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870537A (zh) * 2013-12-03 2014-06-18 山东金质信息技术有限公司 一种标准检索智能分词方法
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN105868183A (zh) * 2016-05-09 2016-08-17 陈包容 一种预测员工离职的方法及装置
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110019689A (zh) * 2019-04-17 2019-07-16 北京网聘咨询有限公司 职位匹配方法和职位匹配系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
使用K-means及TF-IDF算法对中文文本聚类并可视化;ioiogoo;《https://www.jianshu.com/p/622222b96f76》;20180531;第2-3页 *

Also Published As

Publication number Publication date
CN111489030A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111489030B (zh) 一种基于文本分词的离职预测方法及系统
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN111695358B (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112507711A (zh) 文本摘要抽取方法及系统
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN102999533A (zh) 一种火星文识别方法和系统
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN111241824A (zh) 一种用于中文隐喻信息识别的方法
KR102376489B1 (ko) 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN115730221A (zh) 基于溯因推理的虚假新闻识别方法、装置、设备及介质
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant