CN112949287B - 热词挖掘方法、系统、计算机设备和存储介质 - Google Patents

热词挖掘方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN112949287B
CN112949287B CN202110041543.8A CN202110041543A CN112949287B CN 112949287 B CN112949287 B CN 112949287B CN 202110041543 A CN202110041543 A CN 202110041543A CN 112949287 B CN112949287 B CN 112949287B
Authority
CN
China
Prior art keywords
word
search
matrix
speech
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110041543.8A
Other languages
English (en)
Other versions
CN112949287A (zh
Inventor
许丹
杨德杰
叶聆音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110041543.8A priority Critical patent/CN112949287B/zh
Publication of CN112949287A publication Critical patent/CN112949287A/zh
Application granted granted Critical
Publication of CN112949287B publication Critical patent/CN112949287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种热词挖掘方法,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理,并按照员工群体类别进行数据串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典;对词频矩阵进行逆文档频率计算,以获得第一tf‑idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf‑idf矩阵进行处理,以获得第二tf‑idf矩阵;对第二tf‑idf矩阵中各员工群体的tf‑idf权重进行排序,以得到各员工群体的热词。因此,本发明所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好。同时,本发明还涉及区块链技术。

Description

热词挖掘方法、系统、计算机设备和存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及热词挖掘方法、系统、计算机设备和存储介质。
背景技术
企业自建的学习平台在企业员工培训环节中起到非常重要的作用,是贯穿员工职涯的学习交流平台。员工在学习平台的角色既是学习参与者,又可以是内容制造者。通过挖掘员工在学习平台的搜索内容可以洞察员工的关注点和兴趣点,进而聚焦在员工亟需被满足的培训内容。再进一步,识别不同企业员工人群的关注点有利于使内容输出做到更加精细化、差异化。总之,合理利用搜索文本数据可以帮助培训环节做到有的放矢。
TF-IDF(term frequency-inverse document frequency)技术是一种常被用于关键词提炼的加权技术,用以评估一个词对一个文档的重要程度。其随着一个词在文档中出现的次数(TF)上升而上升,同时随着其在文档库中出现频率(IDF)的上升而下降。
对TF-IDF的使用方法一般分为两种。一种是将待挖掘文本中的字词和提前准备好的能够模拟语言使用环境的特定语料库做比较算出IDF。这种方法虽然可以成功地弱化一些常用字词如‘你’、‘我’、‘的’等的权重,但是特定领域专业词汇的重要性依然会被如‘销售’、‘服务’等非专业词会掩盖,人群差异性进而不能凸显。同时,语料库同待挖掘文本一样需要经过切词等数据预处理,会增加时间成本。
第二种常用方法是使用Scikit-learn的CountVectorizer和TfidfTransformer工具。其专门用来矢量化文本类数据并给出TF-IDF矩阵。CountVectorizer和TfidfTransformer工具支持以分好词的文档序列作为输入。这样做既能构建专业领域语料库,又能提炼差异化的文档关键词。但是,员工搜索短文本并不适合作为文档序列直接输入,至此我们亟待解决构造合适的模型输入,优化TF-IDF矩阵提炼流程的问题,以达到提炼不同员工人群差异化关键词的目的。
发明内容
基于此,本发明提供了一种热词挖掘方法、系统、计算机设备和存储介质,以能够满足不同类型人群的差异化分类培训需求。
为实现上述目的,本发明提供一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,所述热词挖掘方法包括:
获取员工群体标签,并根据标签对员工群体进行分类;
获取已分类员工群体的搜索数据,并对搜索数据进行预处理;
将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。
优选的,所述对搜索数据进行预处理包括:
以词为语义最小单元对中文进行结巴切词,词间以空格分离;
将切词后的搜索数据进行去重。
优选的,所述对搜索数据进行预处理还包括:
利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;
对所述搜索数据去停词、去单字、替换歧义词的处理。
优选的,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:
对搜索词群进行m*n矩阵排列,以获得字典矩阵;
对字典矩阵进行词频和归一化处理,以获得词频矩阵。
优选的,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。
优选的,所述对词频矩阵进行逆文档频率计算采用逆文档频率计算公式:
Figure GDA0004203617420000031
其中,t代表词项,d∈D代表一类人的所有搜索词序列,D表示所有搜索词序列d组成的文集,N是搜索词总数量,nt指搜索词在多少搜索词群中出现过。
优选的,所述根据词性字典获得词性权重,包括:
根据词性字典获得词性权重,所述词性权重以占比最大的词性的搜索词个数为基准,对其它词性搜索词分别算和并分别计算占比最大的词性的搜索词数量的比值,以所述比值作为其他词性搜索词的词性权重。
为实现上述目的,本发明还提供了一种基于TF-IDF技术的热词挖掘系统,用于企业培训平台的搜索数据处理,所述热词挖掘系统包括:
分类模块,用于获取员工群体标签,并根据标签对员工群体进行分类;
数据处理模块,用于获取已分类员工群体的搜索数据,并对搜索数据进行预处理;
串联模块,用于将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
词频词性模块,用于对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
逆文档频率模块,用于对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
权重模块,用于根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
排序模块,用于对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。
为实现上述目的,本发明还提供一种计算机设备,包括储存器和处理器,所述储存器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上所述热词挖掘方法的步骤。
为实现上述目的,本发明还提供一种存储介质,存储有能够实现如上所述热词挖掘方法的程序文件。
上述本发明提供了一种热词挖掘方法、系统、计算机设备和存储介质,其中,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理;将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。因此,本发明所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好,此外,本发明无需准备额外的语料库,只需对有用信息进行分词处理,无需对庞大的额外语料库进行处理,减少模型成本。
附图说明
图1为一个实施例中提供的计算方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3为一个实施例中热词挖掘方法的流程图;
图4为一个实施例中热词挖掘系统的示意图;
图5为一个实施例中的计算机设备的结构示意图;
图6为一个实施例中的存储介质的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为一个实施例中提供的基于TF-IDF技术的热词挖掘方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110和显示设备120。
计算机设备110可以为用户使用的电脑等计算机设备,计算机设备110上安装有基于TF-IDF技术的热词挖掘系统。当计算时,用户可以在计算机设备110依照基于TF-IDF技术的热词挖掘方法进行计算,并通过显示设备120显示计算结果。
需要说明的是,计算机设备110和显示设备120组合起来可以为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、储存器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于TF-IDF技术的热词挖掘方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的储存器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于TF-IDF技术的热词挖掘方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提出了一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,所述热词挖掘方法可以应用于上述的计算机设备110和显示设备120中,具体可以包括以下步骤:
步骤31,获取员工群体标签,并根据标签对员工群体进行分类。
具体的,在企业中,企业员工一般具有特定的属性,例如,员工按照职务、工作年限、考核绩效以及学历等可以贴上不同的标签,通过标签的设定,可以找到某类员工的共有属性,这在企业培训中往往具有很大的好处。
步骤32,获取已分类员工群体的搜索数据,并对搜索数据进行预处理。
具体的,在企业中,尤其是中大型企业中,由于员工数量较多,一般会建立内部的学习平台,例如,大型公司建立的员工学习平台,员工学习平台在员工培训环节中起到非常重要的作用,是贯穿员工职涯的学习交流平台。员工在学习平台的角色既是学习参与者,又可以是内容制造者。通过挖掘员工在学习平台的搜索内容可以洞察员工的关注点和兴趣点,进而聚焦在员工亟需被满足的培训内容。再进一步,识别不同人群,如绩优员工、非绩优员工、员工主管等的关注点有利于使内容输出做到更加精细化、差异化。总之,合理利用企业培训平台的搜索数据可以帮助培训环节做到有的放矢。
在本步骤中,需要获取至少两类人群的搜索数据。
根据本步骤,所述预处理包括:
S321、以词为语义最小单元对搜索数据进行结巴切词,词间以空格分离;
具体的,随着NLP技术的日益成熟,开源实现的分词工具越来越多,Jieba工具正是其中常用一款。Jieba工具功能丰富,并不是只有分词这一个功能,其是一个开源框架,提供了很多在分词之上的算法,如关键词提取、词性标注等。Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,例如词典中出现了“上”,之后以“上”开头的词都会出现在这一部分,例如“上海”,进而会出现“上海市”,从而形成一种层级包含结构。如果将词看作节点,词和词之间的分词符看作边,那么一种分词方案则对应着从第一个字到最后一个字的一条分词路径。因此,基于前缀词典可以快速构建包含全部可能分词结果的有向无环图,这个图中包含多条分词路径,有向是指全部的路径都始于第一个字、止于最后一个字,无环是指节点之间不构成闭环。基于标注语料,使用动态规划的方法可以找出最大概率路径,并将其作为最终的分词结果。对于未登录词,Jieba使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。Jieba具有三种分词模式,其中,精确模式是试图将句子最精确地切开,适合文本分析;全模式是把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式是在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
S322、将切词后的搜索数据进行去重。
具体的,将每条搜索数据经过分词和筛选后的词语去重,放入列表替换原有搜索数据。进一步的,如果同一人员具有2个或2个以上的搜索数据,那么每一条搜索数据都需要单独算一次。
根据本步骤,所述预处理还包括:
S323、利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字。
具体的,正则表达式是一种可以用于模式匹配和替换的规范,一般是通过正则表达式过滤特殊符号,这里是过滤掉阿拉伯数字和标点符合,但汉字大写数字不会被过滤掉。
S324、对所述搜索数据去停词、去单字或/和替换歧义词的处理。
具体的,所述去停词处理是预设本行业停用词典,根据停用词典去掉停用词;所述去单字处理是指去掉单个的字,因为单个的字在本发明中没有任何意义;所述替换歧义词是利用预先定义好的同音/近似词词典,将需要被替换的词替换成标准形式,进一步的,所述替换歧义词主要是为了解决笔误问题。
此外,如果搜索数据包括有大写字母,也需要将大写字母替换为小写字母。
需要说明的是,步骤S323和S324可以在分词之前也可以在分词之后进行,根据实际情况进行变化。
请参考表1-1至表1-2的实施例,原始数据样式和搜索数据预处理步骤实例见表1-1至表1-2,预处理每一步起到作用的搜索数据由下划线标出,同理,以下表的搜索数据出现变化后或进行提示时,也将采用下划线标出,在后续部分将不再累述。
表1-1
人群标签 搜索内容 转小写 去数字和标点 用jieba库分词
1年+普通 产品E第一期 产品e第一期 产品e第一期 产品e第一期
主管 导师,直博 导师,直博 导师直博 导师直博
主管 准时下课 准时下课 准时下课 准时下课
主管 产品e操作 产品e操作 产品e操作 产品e操作
1年内A 产品e处理1 产品e处理1 产品e处理 产品e处理
1年+绩优 产品e处理2 产品e处理2 产品e处理 产品e处理
1年内A 导师讲绩优银行 导师讲绩优银行 导师讲绩优银行 导师讲绩优银行
1年内B 导师网站导师 导师网站导师 导师网站导师 导师网站导师
表1-2
人群标签 去停用词 去单字 近义词替换 去重
1年+普通 产品e第一期 产品e第一期 产品e第一期 产品e第一期
主管 导师直博 导师直博 导师直播 导师直播
主管 准时下课 准时下课 准时下课 准时下课
主管 产品e操作 产品e操作 产品e操作 产品e操作
1年内A 产品e处理 产品e处理 产品e处理 产品e处理
1年+绩优 产品e处理 产品e处理 产品e处理 产品e处理
1年内A 导师讲绩优 导师绩优 导师绩优 导师绩优
1年内B 导师网站导师 导师网站导师 导师网站导师 导师网站
步骤33,将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群。
具体的,以人群为单位整理相应个数的文档:将人群标签相同的所有整理好的搜索数据以空格键相连,形成拥有字符串相连的文档序列,每个字符串对应一个人群。在本实施例中,是具有5个字符串,具体实例请参见表2。本步骤是核心点,是将预处理后的数据串联在一起,5类人群就有5个字符串,不去重,以方便后面寻找热词。具体实例请参照表2如下:
表2
Figure GDA0004203617420000081
Figure GDA0004203617420000091
步骤34,对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群。
具体的,在一个实施例中,本步骤是调用CountVectorizer的fit_transform方法获得字典数据,所述字典数据包括词语对应的词性字典以及词频矩阵。其中,CountVectorizer()函数只考虑每个单词出现的频率,然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果,其思想是先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表(vocabulary list)。fit()就是求得训练集X的均值、方差、最大值、最小值等这些训练集X固有的属性;transform()在fit的基础上,进行标准化、降维、归一化等操作;fit_transform是fit和transform的组合,既包括了训练又包含了转换。fit_transform()的功能是对数据进行某种统一处理。
进一步的,TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF有两层意思,一层是“词频”(Term Frequency,缩写为TF),另一层是“逆文档频率”(Inverse Document Frequency,缩写为IDF)。假设我们现在有一篇长文叫做《量化系统架构设计》,词频高在文章中往往是停用词,如“的”、“是”、“了”等,这些在文档中最常见但对结果毫无帮助,是需要过滤掉的词,用TF可以统计到这些停用词并把它们过滤。当高频词过滤后就只需考虑剩下的有实际意义的词。但这样又会遇到了另一个问题,我们可能发现“量化”、“系统”、“架构”这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?事实上,“系统”应该在其他文章比较常见,所以在关键词排序上,“量化”和“架构”应该排在“系统”前面,这个时候就需要IDF,IDF会给常见的词较小的权重,它的大小与一个词的常见程度成反比。当有TF和IDF后,将这两个词相乘,就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。
根据本步骤,包括:
S341、对搜索词群进行m*n矩阵排列,以获得字典矩阵;
其中,根据表2,继续本步骤,假设本步骤是以全部搜索词群生成的5个搜索文档,总共出现如下12个词。进一步的,m的矩阵内容为员工群体,m代表总共有多少不一样的员工群体,根据标签属性进行统计;n的矩阵内容为搜索词群,n代表总共有多少不一样的搜索词,对搜索数据进行切词之后就会产生n对应的内容,m和n为矩阵维度,称之为字典矩阵,请参见表3,主要显示搜索词在该类员工群体中出现的次数。
表3
字典矩阵X1 导师 产品e 下课 直播 绩优 网站 操作 理赔 第一期 处理 准时 按时
主管 3 4 2 1 1 1 1 1 1 1 1 1
1年内A 1 4 0 0 1 0 1 0 1 1 0 0
1年内B 2 3 0 0 0 1 1 2 0 0 0 0
1年+普通 1 2 0 0 0 0 0 0 1 1 0 0
1年+绩优 2 1 0 1 0 0 0 0 0 1 0 0
S342、对字典矩阵进行词频和归一化处理,以获得词频矩阵。
具体的,请根据表3所示的字典矩阵,继续进行词频和归一化处理。
其中,词频-tf(term frequency)存储在矩阵:X1[m,n]=tf(t,d),m=0,…,4(代表5类人群),n=0,…,11(表示12个词)。
进一步的,t代表词项,d∈D代表一类人的所有搜索词序列,D表示所有搜索词序列d组成的文集,例如:
X1[0,0]=tf(主管,导师)=3;
表示‘导师’这个词在‘主管’文档中总共出现了3次。
进一步的,对tf做范数归一划调整,所述归一化调整是为了取得共同值,缩小工作量,所示处理公式如下:
Figure GDA0004203617420000101
经过处理之后,得到tf′(t,d),表格主要显示是词频概率,如表4所示:
表4
词频矩阵X'1 导师 产品e 下课 直播 绩优 网站 操作 理赔 第一期 处理 准时 按时
主管 0.49 0.65 0.32 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16
1年内A 0.22 0.87 0.00 0.00 0.22 0.00 0.22 0.00 0.22 0.22 0.00 0.00
1年内B 0.46 0.69 0.00 0.00 0.00 0.23 0.23 0.46 0.00 0.00 0.00 0.00
1年+普通 0.38 0.76 0.00 0.00 0.00 0.00 0.00 0.00 0.38 0.38 0.00 0.00
1年+绩优 0.76 0.38 0.00 0.38 0.00 0.00 0.00 0.00 0.00 0.38 0.00 0.00
同时,在步骤34中,可以得到如下词语-词性列表,如表5-1所示:
表5-1
词性列表 导师 产品e 下课 直播 绩优 网站 操作 理赔 第一期 处理 准时 按时
词性 名词 名词 动词 动词 形容词 名词 动词 动词 数量词 动词 形容词 形容词
根据本步骤,进一步的,为提供词性的准确性,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。
具体的,利用LC-CRF模型对每个字符向量进行标注,从而依据每个字符的类别进行分词,包括:
采用LC-CRF模型将经过卷积运算的字符向量输入到输出层中,所述输出层对搜索词群l中每一个词群向量s进行评分,所述评分函数为:
Figure GDA0004203617420000111
其中:i为词群向量s中的第i个字符;λ为超参数;li为给第i个字符注明的词性;li-1为给第i-1个字符注明的词性。
进一步的,对所述评分分数进行指数化和标准化处理,即可以得到搜索词群l中一个词群向量s的词性标注正确概率值,若该概率值大于预设阈值,例如0.8,则认为该词群向量的词性标注正确,所述概率值计算公式为:
Figure GDA0004203617420000112
其中:l为搜索词群向量;s为搜索词群向量中的一个词群向量。
因此,根据以上,可以获得更新后的词性字段和词频矩阵m*n’,获得了更准确的词性权重,如下表5-2所示,例如直播可以是动词,也可以是名词,同理,词频矩阵也会发生变化,由12个词变为13个词,本发明引入结合具体业务场景的权重修正机制,对有用信息筛选更加精准。
表5-2
Figure GDA0004203617420000121
步骤35,对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵。
具体的,本步骤是继续采用CountVectorizer的fit_transform方法,所述对词频矩阵进行逆文档频率计算采用逆文档频率计算公式:
Figure GDA0004203617420000122
其中,N是搜索词总数量,nt指搜索词在多少搜索词群中出现过。可见一个词在越多文档中出现,其idf越小,其词语重要性在整个文档中将被弱化,请参见表6,还是以12个词为示例。
表6
idf列表 导师 产品e 下课 直播 绩优 网站 操作 理赔 第一期 处理 准时 按时
nt 5 5 1 2 2 2 3 2 3 4 1 1
idf 0.69 0.69 1.39 1.10 1.10 1.10 0.92 1.10 0.92 0.79 1.39 1.39
根据tfidf公式:
tfidf(t,d,D)=tf′(t,d)*idf(t,D)
得出tfidf矩阵X2,即第一tf-idf矩阵,请参见表7。
表7
tfidf矩阵X2 导师 产品e 下课 直播 绩优 网站 操作 理赔 第一期 处理 准时 按时
主管 0.34 0.45 0.45 0.18 0.18 0.18 0.15 0.18 0.15 0.13 0.22 0.22
1年内A 0.15 0.61 0.00 0.00 0.24 0.00 0.20 0.00 0.20 0.17 0.00 0.00
1年内B 0.32 0.48 0.00 0.00 0.00 0.25 0.21 0.50 0.00 0.00 0.00 0.00
1年+普通 0.26 0.52 0.00 0.00 0.00 0.00 0.00 0.00 0.35 0.30 0.00 0.00
1年+绩优 0.52 0.26 0.00 0.42 0.00 0.00 0.00 0.00 0.00 0.30 0.00 0.00
继续以‘主管’类为例,虽然在本步骤的统计中,‘导师’一次出现3次,大于‘下课’一词出现的2次,但是由于‘导师’一词在五个文档中均有出现,idf值为0.69较小。而‘下课’是‘主管’类的专有词,idf非常大,所以经过idf调整后‘下课’的tfidf大于‘导师’,排进热词前两名。
再看‘产品e’一词,虽然它在五个文档中均有出现,idf值同样较小,但是由于此词在‘主管’类中的词频tf非常高,出现了4次,所以即便经过idf的调整,得分依然最大,排在热词第一位。
步骤36,根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵。
具体的,根据词性字典获得词性权重,所述词性权重以占比最大的词性的搜索词个数为基准,对其它词性搜索词分别算和并分别计算占比最大的词性的搜索词数量的比值,以所述比值作为其他词性搜索词的词性权重。例如:将名词权重乘以一个不大于1的数,将量词权重乘以0等,目的为凸显有用信息,同时辅助停用词表放弃量词等无用词。
例如:经过人工筛选的有效热词中名词有10个、动词9个、形容词7个、数量词0个,则此四种词性对应的权重分别为1、0.9、0.7、0。这时,再将第一tf-idf矩阵中的每个值乘以对应词性的权重,得到调整后的第二tf-idf矩阵,具体请参见表8。
表8
Figure GDA0004203617420000131
可见,经过调整,‘绩优’、‘第一期’两个词不再属于热词,分别由权重较大的动词‘操作’和‘处理’取代热词位置。
步骤37,对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前的作为各员工群体的热词。
具体的,实例中的5类人群共同拥有1个词语字典,第i个人群的tfidf分数为X2[i]。分别对各人群的tfidf权重列按倒序排列,排名靠前的即为各类人群专属热词。
例如:请参见表9,第1行‘主管’人群的权重存在X2[0]向量中,第5行‘1年+B’人群的权重存在X2[4]向量中,将每一行的tfidf值排倒序,找到最大的两个值对应的词语,即为每一类的热词top2。
表9
Figure GDA0004203617420000141
在一个可选的实施方式中,还可以:将所述基于TF-IDF技术的热词挖掘方法的挖掘结果上传至区块链中。
具体地,基于所述基于TF-IDF技术的热词挖掘方法的挖掘结果得到对应的摘要信息,具体来说,摘要信息由所述基于TF-IDF技术的热词挖掘方法的挖掘结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述基于TF-IDF技术的热词挖掘方法的挖掘结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明提供了一种基于TF-IDF技术的热词挖掘方法,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理;将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。因此,本发明所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好,此外,本发明无需准备额外的语料库,只需对有用信息进行分词处理,无需对庞大的额外语料库进行处理,减少模型成本。同时,本发明还涉及区块链技术。
如图4所示,本发明还提供了一种基于TF-IDF技术的热词挖掘系统,该热词挖掘系统可以集成于上述的计算机设备110中,用于企业培训平台的搜索数据处理,所述热词挖掘系统包括分类模块20、数据处理模块30、串联模块40、词频词性模块50、逆文档频率模块60、权重模块70以及排序模块80。
所述分类模块20,用于获取员工群体标签,并根据标签对员工群体进行分类;所述数据处理模块30,用于获取已分类员工群体的搜索数据,并对搜索数据进行预处理;所述串联模块40,用于将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;所述词频词性模块50,用于对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;所述逆文档频率模块60,用于对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;所述权重模块70,用于根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;所述排序模块80,用于对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。
在一个实施例中,所述对搜索数据进行预处理包括:
利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;
对所述搜索数据去停词、去单字和/或替换歧义词的处理;
以词为语义最小单元对中文进行结巴切词,词间以空格分离;
将切词后的搜索数据进行去重。
在一个实施例中,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:
对搜索词群进行m*n矩阵排列,以获得字典矩阵;
对字典矩阵进行词频和归一化处理,以获得词频矩阵。
进一步的,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。
在一个实施例中,所述对词频矩阵进行逆文档频率计算采用逆文档频率计算公式:
Figure GDA0004203617420000161
其中,t代表词项,d∈D代表一类人的所有搜索词序列,D表示所有搜索词序列d组成的文集;N是搜索词总数量,nt指搜索词在多少搜索词群中出现过。
在一个实施例中,所述根据词性字典获得词性权重,包括:
根据词性字典获得词性权重,所述词性权重以占比最大的词性的搜索词个数为基准,对其它词性搜索词分别算和并分别计算占比最大的词性的搜索词数量的比值,以所述比值作为其他词性搜索词的词性权重。
在一个实施例中,所述热词挖掘系统还包括显示模块(未图示),用于显示计算结果,所述显示模块可以是台式电脑的显示器,也可以是其他计算机设备的显示装置。
请参考图5,图5为本发明实施例的设备的结构示意图。如图5所示,该设备200包括处理器201及和处理器201耦接的储存器202。
储存器202存储有用于实现上述任一实施例所述基于TF-IDF技术的热词挖掘方法的程序指令。
处理器201用于执行储存器202存储的程序指令。
其中,处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件301,其中,该程序文件301可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读储存器(ROM,Read-OnlyMemory)、随机存取储存器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (7)

1.一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘方法包括:
获取员工群体标签,并根据标签对员工群体进行分类;
获取已分类员工群体的搜索数据,并对搜索数据进行预处理;
所述对搜索数据进行预处理包括:
以词为语义最小单元对中文进行结巴切词,词间以空格分离;
将切词后的搜索数据进行去重;
所述对搜索数据进行预处理还包括:
利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;
对所述搜索数据去停词、去单字和/或替换歧义词的处理;
将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。
2.如权利要求1所述的热词挖掘方法,其特征在于,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:
对搜索词群进行m*n矩阵排列,以获得字典矩阵;
对字典矩阵进行词频和归一化处理,以获得词频矩阵。
3.如权利要求2所述的热词挖掘方法,其特征在于,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。
4.如权利要求1所述的热词挖掘方法,其特征在于,所述对词频矩阵进行逆文档频率计算采用逆文档频率计算公式:
Figure FDA0004203617410000021
其中,t代表词项,d∈D代表一类人的所有搜索词序列,D表示所有搜索词序列d组成的文集,N是搜索词总数量,nt指搜索词在多少搜索词群中出现过。
5.一种基于TF-IDF技术的热词挖掘系统,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘系统包括:
分类模块,用于获取员工群体标签,并根据标签对员工群体进行分类;
数据处理模块,用于获取已分类员工群体的搜索数据,并对搜索数据进行预处理,所述对搜索数据进行预处理包括:以词为语义最小单元对中文进行结巴切词,词间以空格分离;将切词后的搜索数据进行去重;所述对搜索数据进行预处理还包括:利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;对所述搜索数据去停词、去单字和/或替换歧义词的处理;
串联模块,用于将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
词频词性模块,用于对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
逆文档频率模块,用于对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
权重模块,用于根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
排序模块,用于对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。
6.一种计算机设备,包括储存器和处理器,所述储存器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述热词挖掘方法的步骤。
7.一种存储介质,其特征在于,存储有能够实现如权利要求1-4中任一项所述热词挖掘方法的程序文件。
CN202110041543.8A 2021-01-13 2021-01-13 热词挖掘方法、系统、计算机设备和存储介质 Active CN112949287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110041543.8A CN112949287B (zh) 2021-01-13 2021-01-13 热词挖掘方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110041543.8A CN112949287B (zh) 2021-01-13 2021-01-13 热词挖掘方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112949287A CN112949287A (zh) 2021-06-11
CN112949287B true CN112949287B (zh) 2023-06-27

Family

ID=76235177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110041543.8A Active CN112949287B (zh) 2021-01-13 2021-01-13 热词挖掘方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112949287B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180069813A (ko) * 2015-10-16 2018-06-25 알리바바 그룹 홀딩 리미티드 타이틀 표시 방법 및 장치
CN107784019A (zh) * 2016-08-30 2018-03-09 苏宁云商集团股份有限公司 一种搜索业务中搜索词处理方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法

Also Published As

Publication number Publication date
CN112949287A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Taj et al. Sentiment analysis of news articles: a lexicon based approach
Jung Semantic vector learning for natural language understanding
Khan et al. Extractive based text summarization using k-means and tf-idf
Weiss et al. Fundamentals of predictive text mining
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
JP5605583B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
US20130036076A1 (en) Method for keyword extraction
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Schmidt Stable random projection: Lightweight, general-purpose dimensionality reduction for digitized libraries
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
Pokharana et al. A Review on diverse algorithms used in the context of Plagiarism Detection
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
Maulidia et al. Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter
BAZRFKAN et al. Using machine learning methods to summarize persian texts
Robinson Disaster tweet classification using parts-of-speech tags: a domain adaptation approach
Bellar et al. Application of machine learning to sentiment analysis
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant