CN112860898B - 一种短文本框聚类方法、系统、设备及存储介质 - Google Patents

一种短文本框聚类方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN112860898B
CN112860898B CN202110279525.3A CN202110279525A CN112860898B CN 112860898 B CN112860898 B CN 112860898B CN 202110279525 A CN202110279525 A CN 202110279525A CN 112860898 B CN112860898 B CN 112860898B
Authority
CN
China
Prior art keywords
short text
word
feature
vector
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110279525.3A
Other languages
English (en)
Other versions
CN112860898A (zh
Inventor
王超俊
何清刚
魏玉良
王凯
王佰玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202110279525.3A priority Critical patent/CN112860898B/zh
Publication of CN112860898A publication Critical patent/CN112860898A/zh
Application granted granted Critical
Publication of CN112860898B publication Critical patent/CN112860898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种短文本框聚类方法、系统、设备及存储介质,该方法包括:对原始短文本进行预处理;提取短文本特征词;将短文本特征词转换为短文本特征向量;先初始化聚类中心,然后将聚类中心映射到LSH表中;再根据短文本到聚类中心的文本相似度,选择若干个候选类;根据哈希值选择短文本特征向量的簇集合;重新计算短文本特征向量的簇集合的新聚类中心;循环执行直到新聚类中心不再发生变化,输出文本聚类结果。本发明中,采用WMD‑IP距离作为文本相似度,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。

Description

一种短文本框聚类方法、系统、设备及存储介质
技术领域
本发明涉及一种短文本框聚类方法、系统、设备及存储介质,属于机器学习和模式识别领域。
背景技术
随着移动互联网设备的日益普及以及在线网络社交媒体平台的快速发展与应用,新浪微博、知乎、微信、抖音、推特、贴吧、论坛等社交媒体软件在人们日常生活中的使用越来越广泛,它们吸引了数以亿计的互联网用户。这些互联网用户每天都产生海量的文本数据通过这些软件进行传播,这些文本数据字数少,特征随着时间发生变化,承载了大量的信息。如何处理这些短文本数据,对这些短文本数据进行聚类与分析具有重要的研究意义与应用价值。
目前,常用的文本聚类方法有以下几种:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法和基于密度的聚类方法。
基于划分的聚类方法有K-means算法、CLARANS算法和PAM算法等,通过预先设定聚类数目,对数据样本集合不断迭代与划分,达到簇内数据相似度高,簇间数据相似度低。这种方法在处理大规模样本时结果多是局部最优,对于类簇中心的选择十分敏感,无法解决非凸数据。
基于层次的聚类方法有变色龙算法、AGNES算法和CURE算法等,通过将样本集合合并或者分裂成更高或者更细致的子样本集合,最终将样本集合形成一棵层次树,树中的每个节点表示一个簇。这种方法处理大量数据样本的算法平均时间复杂度过高并且已有的操作无法撤回。
基于网格的聚类方法有STING算法和CLIQUE算法等,通过对数据样本空间进行划分得到网格结构,按照一定的规则对网格进行聚类合并。这种方法对参数十分敏感,聚类精确度不高。
基于密度的聚类方法有DBSCAN算法、OPTICS算法和DENCLUE算法等,通过数据密集程度划分数据样本,首先找出密度较高的样本点,将该样本点周围相近的密度较高的样本点练成一片,最终形成各个类簇。这种方法聚类结果精度与参数设置密切相关,实用性不强。
发明内容
针对现有技术的不足,本发明提供了一种短文本框聚类方法及系统,对原始短文本数据预处理,提取短文本特征词,将短文本特征词转换为短文本特征向量,对短文本特征向量进行聚类,循环执行直到聚类中心不再发生变化,输出文本聚类结果。
本发明还提供了一种计算机设备及存储介质。
术语解释:
1.Word2Vec:词向量语言模型,Word2Vec是Google公司在2013年开源的一种能够将文本转化为词向量的浅层神经网络概率语言模型,该模型根据给定的语料库,通过一个训练后的优化模型将文本转化为向量的语言模型。CBOW模型和Skip-gram模型分别是Word2vec常用的词向量语言模型。
2.Skip-gram模型:Continuous Skip-gram Model,Skip-gram模型可根据当前词来预测其上下文。
3.局部敏感哈希算法:局部敏感哈希,Locality Sensitive Hashing,简称LSH。通过选取的哈希函数的映射变换能够将原始的数据集划分为若干较小的子集,且每个子集中的元素个数较小且相邻。如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。将相似的对象以较高的碰撞概率哈希到同一个哈希“桶”中,通过过滤掉大量的不相似的对象来避免不必要的相似性计算,降低相似性计算的代价,以快速获取近邻对象。
4.WMD距离:Word Mover’s Distance,简称WMD距离,词移距离,用于衡量任意两个文本之间的相似度。
5.词频:简称TF,是指文本特征词在文本中出现的次数,如某个文本特征词出现的次数越多,则该文本特征词越重要,且该特征词对文本分类的意义也越大。
6.逆文档频率:简称IDF,是指某一特征词对全部文本文档重要程度的度量。特征词的IDF值越大,则该特征词对整个文本集合的影响力也越大。
7.词频与逆文档频率的乘积:简称TF-IDF权值,该方法用于信息检索和数据挖掘,是一种常用的统计方法。它用于衡量特征词对文本的重要程度。
8.框聚类:指代后续提到的短文本聚类方法,即采用局部敏感哈希算法计算短文本哈希值,从LSH表中查找样本点的最近邻点,选择最近邻点所在的聚类中心作为样本点的簇集合,此过程类似于将样本点放入对应属性方框中,故简称为框聚类。
9.半监督学习:利用大量无标记样本和少量有标记样本训练模型,让模型自动地对大量未标记数据进行利用,辅助少量有标记数据进行学习,整个过程不需要人为干预。
本发明的技术方案为:
一种短文本框聚类方法,包括步骤:
(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;
(2)提取每个短文本的特征词;
(3)将短文本的特征词转化为特征词向量;
(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;
(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;候选类的个数为人为设定,一般选取3-5个,根据具体情况而定,候选类的个数会有所变化;
(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;各个候选类分别对应一个哈希函数,将短文本带入哈希函数中便可计算得到哈希值;短文本特征向量的簇集合即短文本特征向量所归属的聚类;
(7)重新计算短文本特征向量的簇集合的新聚类中心;
(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。
根据本发明优选的,步骤(1)中,对提取的原始的短文本进行数据预处理,具体为:
1)数据清洗:去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号;无用符号例如“@、#、[]、【】”;
对数据集进行数据清洗,减少数据噪声,达到格式标准化和去除重复数据的目的。
2)对数据清洗后的短文本进行文本分词:对于英文文本,直接利用空格对英文文本进行分词;对于中文文本,利用jieba分词器对中文文本进行分词;
3)进行停用词处理:通过建立停用词字典,将文本分词结果与停用词字典内的词进行匹配,如匹配成功,则去除该词,否则,保留。停用词字典通过借鉴专用领域通用词典和从大样本中提取关键词两种方法得到。不同的聚类任务有不同的专用领域通用词典,同时不同的聚类任务也要从相对应的样本中提取关键词。
根据本发明优选的,步骤(2)中,提取每个短文本的特征词,具体过程为:
计算每个短文本分词的词频(TF)、逆文档频率(IDF)及词频与逆文档频率的乘积(TF-IDF);对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序,提取词频与逆文档频率的乘积中前N个词作为短文本特征词,用于表示该短文本;提取词频与逆文档频率的乘积中前N个词作为短文本特征词可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等问题。
对于短文本j中第i个特征词ti,特征词ti的词频计算公式为:
Figure BDA0002978184030000041
式(I)中,nij为特征词ti在短文本j中出现的次数,∑k=1nkj表示短文本j中的总词数;
特征词ti的逆文档频率的计算公式为:idfi=log(N/ni) (II),
式(II)中,N表示短文本的总数,ni表示包含特征词ti的短文本数量;
词频与逆文档频率的乘积的计算公式为:
Figure BDA0002978184030000042
式(III)中,wij表示特征词的权重,∑k=1nkj表示短文本j中总词数,nij为特征词ti在短文本j中出现的次数,N表示短文本的总数,ni表示包含特征词ti的短文本数量。
根据本发明优选的,步骤(3)中,将短文本的特征词转化为特征词向量,具体为:
利用Word2Vec中的Skip-gram模型进行词向量转化,将短文本特征词映射成低维实数向量,即将短文本特征词序列[w1,w2,…,wn]中的每个特征词wi转换成特征词向量[v1,v2,…,vn],vi表示特征词向量,i的取值为1,2,3,……n。
根据本发明优选的,步骤(4)中,初始化聚类中心的过程为:
根据步骤(3)得到的特征词向量,得到短文本特征向量di,di=[v1,v2,…,vn],i的取值为1,2,3……m;进而得到短文本特征向量集合{d1,d2,d3,…,dm};
从短文本特征向量集合{d1,d2,d3,…,dm}中选择k个短文本作为聚类中心,k≤m,且k为正整数,实现初始化聚类中心。
根据本发明优选的,步骤(4)中,采用局部敏感哈希算法将聚类中心映射到LSH表中,具体过程为:
将聚类中心代入选择的哈希函数,得到对应的哈希值;每个哈希值对应一个哈希桶,然后将该聚类中心放入对应的哈希桶中,将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。
根据本发明优选的,步骤(4)中,采用半监督学习方法改进局部敏感哈希方法选择哈希函数;具体步骤为:
4-1、输入有标签的样本数据;
例如,对样本数据“杭州师范大学计算机在线询价采购项目采购公告”,其对应的标签为“计算机设备及软件”,样本数据和标签之间的对应关系与具体的应用场景相对应,需根据具体的应用场景对数据标记标签。
4-2、随机生成一定数量的哈希函数;
4-3、初始化哈希函数;即对哈希函数赋予初始值,哈希函数的初始值需根据具体的应用场景去设定;
4-4、根据初始化的哈希函数构造LSH表;
4-5、计算无标签样本数据与有标签样本数据之间的WMD-IP距离,如果WMD-IP距离小于设定的阈值,则输出哈希函数,否则执行步骤4-3。
结合半监督学习方法改进局部敏感哈希方法,利用有标签且具有代表性的样本迭代选择合适的哈希函数,提高短文本框聚类的效率与精度。
根据本发明优选的,步骤(5)中,根据短文本到聚类中心的文本相似度,选择若干个候选类,具体为:
采用WMD-IP距离作为短文本特征向量到k个聚类中心的文本相似度,将求得的WMD-IP距离进行排序,选择WMD-IP距离从小到大取若干个类作为候选类;
对于两个短文本特征向量du和dv之间的WMD-IP距离,WMD-IP距离的计算公式为
Figure BDA0002978184030000061
WMD-IP距离,Word Mover’s Distance Improvement,中文名称:词移改进距离,改进之处:整合词向量位置信息,增强权重系数赋予不同词向量不同权重。能够充分利用词语的语义信息,WMD距离采用词语的词频作为转移代价,未能充分整合词语的语义信息。由于不同词语对短文本贡献度不同,如果所有词语采用相同权重,不能很好地体现不同短语对短文本贡献度;
Figure BDA0002978184030000062
表示短文本特征向量du中的特征词向量vi移动到短文本特征向量dv中特征词向量vj的移动代价数值;将短文本向量du完全转移到dv中,需要满足:特征词向量vi转移出的总和
Figure BDA0002978184030000063
等于vi的权重系数
Figure BDA0002978184030000064
特征词向量vj转移入的总和
Figure BDA0002978184030000065
等于vj的权重系数
Figure BDA0002978184030000066
Figure BDA0002978184030000067
考虑特征词向量权重系数,根据短文本位置对特征词向量进行加权,对于短文本首段和尾段的词向量赋予较大权重,Pi为特征词向量vi的位置权重,Pi的计算公式为
Figure BDA0002978184030000068
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数,特征词向量vi在短文本向量du中的权重系数计算公式为
Figure BDA0002978184030000069
Figure BDA00029781840300000610
式(IV)中,
Figure BDA00029781840300000611
表示特征词向量vi对应的特征词在短文本向量du对应的短文本中的词频,
Figure BDA00029781840300000612
表示特征词向量vi对应的特征词的逆文档频率,N`表示短文本的总数,
Figure BDA00029781840300000613
表示包含特征词vi对应的特征词的短文本数量;
Figure BDA00029781840300000614
为特征词vi对应的特征词在短文本向量du对应的短文本中出现的次数,
Figure BDA00029781840300000615
表示短文本向量du对应的短文本中的总词数;
Figure BDA0002978184030000071
用于整合词语的TF-IDF值以及词语的位置权重值,这样便可更充分的利用词语的语义信息;
特征词向量vj在短文本向量dv中的权重系数计算公式为Wvj=TF-IDFvj×Pj;Pj为特征词向量vj的位置权重,Pj的计算公式为
Figure BDA0002978184030000072
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数;
Figure BDA0002978184030000073
Figure BDA0002978184030000074
式(V)中,
Figure BDA0002978184030000075
表示特征词向量vj对应的特征词在短文本向量dv对应的短文本中的词频,
Figure BDA0002978184030000076
表示特征词向量vj对应的特征词的逆文档频率,N``表示短文本的总数,
Figure BDA0002978184030000077
表示包含特征词vj对应的特征词的短文本数量;
Figure BDA0002978184030000078
为特征词vj对应的特征词在短文本向量dv对应的短文本中出现的次数,
Figure BDA0002978184030000079
表示短文本向量dv对应的短文本中的总词数;
c(vi,vj)表示特征词向量vi和特征词向量vj之间的相似度,c(vi,vj)采用余弦距离表示,即
Figure BDA00029781840300000710
相似度计算公式采用WMD-IP距离,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。
根据本发明优选的,步骤(7)中,重新计算短文本特征向量的簇集合的新聚类中心;具体过程为:
对于簇集合Cj={d1,d2,d3,…,dn},Cj表示第j个簇集合,d1,d2,d3,…,dn表示短文本特征向量,j的取值范围1≤j≤k,k表示k个聚类中心;
Figure BDA00029781840300000711
n表示簇集合Cj中短文本特征向量数目,di表示第i个短文本特征向量,Zj(t)表示第j个聚类中心的第t次计算结果,Zj(t+1)表示第j个聚类中心的第t+1次计算结果,j的取值范围1≤j≤k,k表示k个聚类中心。
上述短文本框聚类方法的实现系统,用于实现上述短文本框聚类方法,包括:
数据采集模块,用于从社交网站平台采集短文本数据,再将采集的短文本数据存入数据库;
数据预处理模块,用于对数据采集模块采集的短文本数据进行预处理得到短文本分词结果;
特征词提取模块,用于提取每个短文本的特征词;
词向量转化模块,用于将短文本特征词转化成短文本特征向量;
文本聚类模块,用于对短文本特征向量进行文本聚类,将文本聚类结果存入数据库,并在前端界面展示短文本数据聚类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的短文本框聚类方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的短文本框聚类方法的步骤。
本发明的有益效果为:
1.本发明中,相似度计算公式采用WMD-IP距离,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。
2.本发明提供的短文本框聚类的方法中,相比于传统文本聚类方法,提取短文本N关键词作为短文本特征词,可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等问题。
3.使用局部敏感哈希算法可以快速地从大量高维数据集合中找到样本点的最近邻点候选集,提高短文本聚类效率,效率能够提高8%-10%左右,而现有的其他的聚类算法的效率一般在70%-75%左右。
4.采用半监督学习方法改进局部敏感哈希方法选择哈希函数可以解决参数敏感和参数设置问题,局部敏感哈希可以克服局部最优,平均时间复杂度较低。
5.通过使用深度学习语言模型基于特征词集合构成的语料训练实现词向量转化,可以避免知识库更新速度无法匹配网络新词的语义识别问题。
6.本发明提出的短文本框聚类的方法可以效果很好地对短文本数据聚类,短文本数据聚类分析对于舆情分析、新闻热门话题追踪、事件检测以及个性化用户兴趣挖掘等应用场景具有重要意义。
附图说明
图1为本发明中短文本数据预处理的过程示意图;
图2为本发明提供的短文本框聚类方法的过程示意图;
图3为短文本框聚类方法的实现系统的结构示意图;
图4为采用半监督学习方法改进局部敏感哈希方法选择哈希函数的过程示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种短文本框聚类方法,如图2所示,包括步骤:
(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;
(2)提取每个短文本的特征词;
(3)将短文本的特征词转化为特征词向量;
(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;
(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;候选类的个数为人为设定,一般选取3-5个,根据具体情况而定,候选类的个数会有所变化;
(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;各个候选类分别对应一个哈希函数,将短文本带入哈希函数中便可计算得到哈希值;短文本特征向量的簇集合即短文本特征向量所归属的聚类;
(7)重新计算短文本特征向量的簇集合的新聚类中心;
(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。
实施例2
根据实施例1提供的一种短文本框聚类方法,区别之处在于:
步骤(1)中,对提取的原始的短文本进行数据预处理,如图1所示,具体为:
1)数据清洗:去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号;无用符号例如“@、#、[]、【】”;
对数据集进行数据清洗,减少数据噪声,达到格式标准化和去除重复数据的目的。
2)对数据清洗后的短文本进行文本分词:对于英文文本,直接利用空格对英文文本进行分词;对于中文文本,利用jieba分词器对中文文本进行分词;
3)进行停用词处理:通过建立停用词字典,将文本分词结果与停用词字典内的词进行匹配,如匹配成功,则去除该词,否则,保留。停用词字典通过借鉴专用领域通用词典和从大样本中提取关键词两种方法得到。不同的聚类任务有不同的专用领域通用词典,同时不同的聚类任务也要从相对应的样本中提取关键词。
步骤(2)中,提取每个短文本的特征词,具体过程为:
计算每个短文本分词的词频(TF)、逆文档频率(IDF)及词频与逆文档频率的乘积(TF-IDF);对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序,提取词频与逆文档频率的乘积中前N个词作为短文本特征词,用于表示该短文本;提取词频与逆文档频率的乘积中前N个词作为短文本特征词可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等问题。
对于短文本j中第i个特征词ti,特征词ti的词频计算公式为:
Figure BDA0002978184030000101
式(I)中,nij为特征词ti在短文本j中出现的次数,∑k=1nkj表示短文本j中的总词数;
特征词ti的逆文档频率的计算公式为:idfi=log(N/ni) (II),
式(II)中,N表示短文本的总数,ni表示包含特征词ti的短文本数量;
词频与逆文档频率的乘积的计算公式为:
Figure BDA0002978184030000102
式(III)中,wij表示特征词的权重,∑k=1nkj表示短文本j中总词数,nij为特征词ti在短文本j中出现的次数,N表示短文本的总数,ni表示包含特征词ti的短文本数量。
步骤(3)中,将短文本的特征词转化为特征词向量,具体为:
利用Word2Vec中的Skip-gram模型进行词向量转化,将短文本特征词映射成低维实数向量,即将短文本特征词序列[w1,w2,…,wn]中的每个特征词wi转换成特征词向量[v1,v2,…,vn],vi表示特征词向量,i的取值为1,2,3,……n。
步骤(4)中,初始化聚类中心的过程为:
根据步骤(3)得到的特征词向量,得到短文本特征向量di,di=[v1,v2,…,vn],i的取值为1,2,3……m;进而得到短文本特征向量集合{d1,d2,d3,…,dm};
从短文本特征向量集合{d1,d2,d3,…,dm}中选择k个短文本作为聚类中心,k≤m,且k为正整数,实现初始化聚类中心。
步骤(4)中,采用局部敏感哈希算法将聚类中心映射到LSH表中,具体过程为:
将聚类中心代入选择的哈希函数,得到对应的哈希值;每个哈希值对应一个哈希桶,然后将该聚类中心放入对应的哈希桶中,将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。
进一步的,步骤(4)中,如图4所示,采用半监督学习方法改进局部敏感哈希方法选择哈希函数;具体步骤为:
4-1、输入有标签的样本数据;
例如,对样本数据“杭州师范大学计算机在线询价采购项目采购公告”,其对应的标签为“计算机设备及软件”,样本数据和标签之间的对应关系与具体的应用场景相对应,需根据具体的应用场景对数据标记标签。
4-2、随机生成一定数量的哈希函数;
4-3、初始化哈希函数;即对哈希函数赋予初始值,哈希函数的初始值需根据具体的应用场景去设定;
4-4、根据初始化的哈希函数构造LSH表;
4-5、计算无标签样本数据与有标签样本数据之间的WMD-IP距离,如果WMD-IP距离小于设定的阈值,则输出哈希函数,否则执行步骤4-3。
结合半监督学习方法改进局部敏感哈希方法,利用有标签且具有代表性的样本迭代选择合适的哈希函数,提高短文本框聚类的效率与精度。
步骤(5)中,根据短文本到聚类中心的文本相似度,选择若干个候选类,具体为:
采用WMD-IP距离作为短文本特征向量到k个聚类中心的文本相似度,将求得的WMD-IP距离进行排序,选择WMD-IP距离从小到大取若干个类作为候选类;
对于两个短文本特征向量du和dv之间的WMD-IP距离,WMD-IP距离的计算公式为
Figure BDA0002978184030000121
WMD-IP距离,Word Mover’s Distance Improvement,中文名称:词移改进距离,改进之处:整合词向量位置信息,增强权重系数赋予不同词向量不同权重。能够充分利用词语的语义信息,WMD距离采用词语的词频作为转移代价,未能充分整合词语的语义信息。由于不同词语对短文本贡献度不同,如果所有词语采用相同权重,不能很好地体现不同短语对短文本贡献度;
Figure BDA0002978184030000122
表示短文本特征向量du中的特征词向量vi移动到短文本特征向量dv中特征词向量vj的移动代价数值;将短文本向量du完全转移到dv中,需要满足:特征词向量vi转移出的总和
Figure BDA0002978184030000123
等于vi的权重系数
Figure BDA0002978184030000124
特征词向量vj转移入的总和
Figure BDA0002978184030000125
等于vj的权重系数
Figure BDA0002978184030000126
Figure BDA0002978184030000127
考虑特征词向量权重系数,根据短文本位置对特征词向量进行加权,对于短文本首段和尾段的词向量赋予较大权重,Pi为特征词向量vi的位置权重,Pi的计算公式为
Figure BDA0002978184030000128
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数,特征词向量vi在短文本向量du中的权重系数计算公式为
Figure BDA0002978184030000129
Figure BDA00029781840300001210
式(IV)中,
Figure BDA00029781840300001211
表示特征词向量vi对应的特征词在短文本向量du对应的短文本中的词频,
Figure BDA00029781840300001212
表示特征词向量vi对应的特征词的逆文档频率,N`表示短文本的总数,
Figure BDA00029781840300001213
表示包含特征词vi对应的特征词的短文本数量;
Figure BDA00029781840300001214
为特征词vi对应的特征词在短文本向量du对应的短文本中出现的次数,
Figure BDA00029781840300001215
表示短文本向量du对应的短文本中的总词数;
Figure BDA00029781840300001216
用于整合词语的TF-IDF值以及词语的位置权重值,这样便可更充分的利用词语的语义信息;
特征词向量vj在短文本向量dv中的权重系数计算公式为Wvj=TF-IDFvj×Pj;Pj为特征词向量vj的位置权重,Pj的计算公式为
Figure BDA0002978184030000131
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数;
Figure BDA0002978184030000132
Figure BDA0002978184030000133
式(V)中,
Figure BDA0002978184030000134
表示特征词向量vj对应的特征词在短文本向量dv对应的短文本中的词频,
Figure BDA0002978184030000135
表示特征词向量vj对应的特征词的逆文档频率,N``表示短文本的总数,
Figure BDA0002978184030000136
表示包含特征词vj对应的特征词的短文本数量;
Figure BDA0002978184030000137
为特征词vj对应的特征词在短文本向量dv对应的短文本中出现的次数,
Figure BDA0002978184030000138
表示短文本向量dv对应的短文本中的总词数;
c(vi,vj)表示特征词向量vi和特征词向量vj之间的相似度,c(vi,vj)采用余弦距离表示,即
Figure BDA0002978184030000139
相似度计算公式采用WMD-IP距离,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。
步骤(6)中,将短文本向量代入哈希函数计算所得结果即为哈希值,将短文本向量放入哈希值对应的哈希桶中,LSH表包含若干个哈希桶;
一张LSH表包含若干个哈希桶,一个哈希桶包含若干个短文本向量。假设一个LSH表有哈希桶“0”、“1”、“2”、…、“K”,对于某一短文本向量,经过局部敏感哈希映射后得到哈希值“1”,则将该短文本向量放入哈希桶“1”中,以上为假设,对于具体情况,哈希值不一定为0、1、…、K。
步骤(7)中,重新计算短文本特征向量的簇集合的新聚类中心;具体过程为:
对于簇集合Cj={d1,d2,d3,…,dn},Cj表示第j个簇集合,d1,d2,d3,…,dn表示短文本特征向量,j的取值范围1≤j≤k,k表示k个聚类中心;
Figure BDA00029781840300001310
n表示簇集合Cj中短文本特征向量数目,di表示第i个短文本特征向量,Zj(t)表示第j个聚类中心的第t次计算结果,Zj(t+1)表示第j个聚类中心的第t+1次计算结果,j的取值范围1≤j≤k,k表示k个聚类中心。
步骤(8)中,判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果;具体为:
若Zj(t+1)≠Zj(t),1≤j≤k,即新聚类中心发生变化。
若Zj(t+1)=Zj(t),1≤j≤k,即新聚类中心未发生变化。
实施例3
实施例1或2提供的一种短文本框聚类方法的实现系统,如图3所示,包括:
数据采集模块,用于从社交网站平台采集短文本数据,再将采集的短文本数据存入数据库;
数据预处理模块,用于对数据采集模块采集的短文本数据进行预处理得到短文本分词结果;
特征词提取模块,用于提取每个短文本的特征词;
词向量转化模块,用于将短文本特征词转化成短文本特征向量;
文本聚类模块,用于对短文本特征向量进行文本聚类,将文本聚类结果存入数据库,并在前端界面展示短文本数据聚类结果。
实施例4
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1或2提供的一种短文本框聚类方法的步骤。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1或2提供的一种短文本框聚类方法的步骤。

Claims (9)

1.一种短文本框聚类方法,其特征在于,包括步骤:
(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;
(2)提取每个短文本的特征词;
(3)将短文本的特征词转化为特征词向量;
(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;
(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;具体为:
采用WMD-IP距离作为短文本特征向量到k个聚类中心的文本相似度,将求得的WMD-IP距离进行排序,选择WMD-IP距离从小到大取若干个类作为候选类;
对于两个短文本特征向量du和dv之间的WMD-IP距离,WMD-IP距离的计算公式为
Figure FDA0003602636320000011
Figure FDA0003602636320000012
表示短文本特征向量du中的特征词向量vi移动到短文本特征向量dv中特征词向量vj的移动代价数值;将短文本向量du完全转移到dv中,需要满足:特征词向量vi转移出的总和
Figure FDA0003602636320000013
等于vi的权重系数
Figure FDA0003602636320000014
特征词向量vj转移入的总和
Figure FDA0003602636320000015
等于vj的权重系数
Figure FDA0003602636320000016
Figure FDA0003602636320000017
考虑特征词向量权重系数,根据短文本位置对特征词向量进行加权,Pi为特征词向量vi的位置权重,Pi的计算公式为
Figure FDA0003602636320000018
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数,特征词向量vi在短文本向量du中的权重系数计算公式为
Figure FDA0003602636320000019
式(IV)中,
Figure FDA00036026363200000110
表示特征词向量vi对应的特征词在短文本向量du对应的短文本中的词频,
Figure FDA00036026363200000111
表示特征词向量vi对应的特征词的逆文档频率,N`表示短文本的总数,
Figure FDA00036026363200000112
表示包含特征词vi对应的特征词的短文本数量;
Figure FDA00036026363200000113
为特征词vi对应的特征词在短文本向量du对应的短文本中出现的次数,
Figure FDA0003602636320000021
表示短文本向量du对应的短文本中的总词数;
特征词向量vj在短文本向量dv中的权重系数计算公式为Wvj=TF-IDFvj×Pj;Pj为特征词向量vj的位置权重,Pj的计算公式为
Figure FDA0003602636320000022
p表示特征词向量在短文本向量中所在位置的百分比,a、b为设定参数;
Figure FDA0003602636320000023
Figure FDA0003602636320000024
式(V)中,
Figure FDA0003602636320000025
表示特征词向量vj对应的特征词在短文本向量dv对应的短文本中的词频,
Figure FDA0003602636320000026
表示特征词向量vj对应的特征词的逆文档频率,N``表示短文本的总数,
Figure FDA0003602636320000027
表示包含特征词vj对应的特征词的短文本数量;
Figure FDA0003602636320000028
为特征词vj对应的特征词在短文本向量dv对应的短文本中出现的次数,
Figure FDA0003602636320000029
表示短文本向量dv对应的短文本中的总词数;
c(vi,vj)表示特征词向量vi和特征词向量vj之间的相似度,c(vi,vj)采用余弦距离表示,即
Figure FDA00036026363200000210
(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;
(7)重新计算短文本特征向量的簇集合的新聚类中心;
(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。
2.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(1)中,对提取的原始的短文本进行数据预处理,具体为:
1)数据清洗:去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号;
2)对数据清洗后的短文本进行文本分词:对于英文文本,直接利用空格对英文文本进行分词;对于中文文本,利用jieba分词器对中文文本进行分词;
3)进行停用词处理:通过建立停用词字典,将文本分词结果与停用词字典内的词进行匹配,如匹配成功,则去除该词,否则,保留。
3.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(2)中,提取每个短文本的特征词,具体过程为:
计算每个短文本分词的词频、逆文档频率及词频与逆文档频率的乘积;对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序,提取词频与逆文档频率的乘积中前N个词作为短文本特征词,用于表示该短文本;
对于短文本j中第i个特征词ti,特征词ti的词频计算公式为:
Figure FDA0003602636320000031
式(I)中,nij为特征词ti在短文本j中出现的次数,∑k=1nkj表示短文本j中的总词数;
特征词ti的逆文档频率的计算公式为:idfi=log(N/ni) (II),
式(II)中,N表示短文本的总数,ni表示包含特征词ti的短文本数量;
词频与逆文档频率的乘积的计算公式为:
Figure FDA0003602636320000032
式(III)中,wij表示特征词的权重,∑k=1nkj表示短文本j中总词数,nij为特征词ti在短文本j中出现的次数,N表示短文本的总数,ni表示包含特征词ti的短文本数量。
4.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(4)中,初始化聚类中心的过程为:
根据步骤(3)得到的特征词向量,得到短文本特征向量di,di=[v1,v2,…,vn],i的取值为1,2,3……m;进而得到短文本特征向量集合{d1,d2,d3,…,dm};
从短文本特征向量集合{d1,d2,d3,…,dm}中选择k个短文本作为聚类中心,k≤m,且k为正整数,实现初始化聚类中心。
5.根据权利要求4所述的一种短文本框聚类方法,其特征在于,步骤(4)中,采用局部敏感哈希算法将聚类中心映射到LSH表中,具体过程为:
将聚类中心代入选择的哈希函数,得到对应的哈希值;每个哈希值对应一个哈希桶,然后将该聚类中心放入对应的哈希桶中,将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。
6.根据权利要求5所述的一种短文本框聚类方法,其特征在于,步骤(4)中,采用半监督学习方法改进局部敏感哈希方法选择哈希函数;具体步骤为:
4-1、输入有标签的样本数据;
4-2、随机生成一定数量的哈希函数;
4-3、初始化哈希函数;
4-4、根据初始化的哈希函数构造LSH表;
4-5、计算无标签样本数据与有标签样本数据之间的WMD-IP距离,如果WMD-IP距离小于设定的阈值,则输出哈希函数,否则执行步骤4-3。
7.一种短文本框聚类方法的实现系统,其特征在于,用于实现权利要求1-6任一项所述的一种短文本框聚类方法,包括:
数据采集模块,用于从社交网站平台采集短文本数据,再将采集的短文本数据存入数据库;
数据预处理模块,用于对数据采集模块采集的短文本数据进行预处理得到短文本分词结果;
特征词提取模块,用于提取每个短文本的特征词;
词向量转化模块,用于将短文本特征词转化成短文本特征向量;
文本聚类模块,用于对短文本特征向量进行文本聚类,将文本聚类结果存入数据库,并在前端界面展示短文本数据聚类结果。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的短文本框聚类方法的步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的短文本框聚类方法的步骤。
CN202110279525.3A 2021-03-16 2021-03-16 一种短文本框聚类方法、系统、设备及存储介质 Active CN112860898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279525.3A CN112860898B (zh) 2021-03-16 2021-03-16 一种短文本框聚类方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279525.3A CN112860898B (zh) 2021-03-16 2021-03-16 一种短文本框聚类方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112860898A CN112860898A (zh) 2021-05-28
CN112860898B true CN112860898B (zh) 2022-05-27

Family

ID=75994582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279525.3A Active CN112860898B (zh) 2021-03-16 2021-03-16 一种短文本框聚类方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112860898B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法
CN113704465A (zh) * 2021-07-21 2021-11-26 大箴(杭州)科技有限公司 文本聚类方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631928B (zh) * 2013-12-05 2017-02-01 中国科学院信息工程研究所 一种基于局部敏感哈希的聚类索引方法及系统
CN105808526B (zh) * 2016-03-30 2019-07-30 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN106599029B (zh) * 2016-11-02 2021-04-06 焦点科技股份有限公司 一种中文短文本聚类方法
CN109960799B (zh) * 2019-03-12 2021-07-27 中南大学 一种面向短文本的优化分类方法
CN111694927B (zh) * 2020-05-22 2023-07-21 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Also Published As

Publication number Publication date
CN112860898A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN106484797B (zh) 基于稀疏学习的突发事件摘要抽取方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN112559684A (zh) 一种关键词提取及信息检索方法
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
Qu et al. Improved Bayes method based on TF-IDF feature and grade factor feature for chinese information classification
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN111949774A (zh) 一种智能问答方法和系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN116127099A (zh) 基于图卷积网络的联合文本增强的表实体与类型注释方法
CN111325036A (zh) 一种面向新兴技术预测的佐证事实的抽取方法及系统
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
Sharma et al. Resume Classification using Elite Bag-of-Words Approach
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN114818727A (zh) 关键句抽取方法及装置
CN110717015B (zh) 一种基于神经网络的多义词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Bailing

Inventor after: Wei Yuliang

Inventor after: Wang Chaojun

Inventor after: He Qinggang

Inventor after: Wang Kai

Inventor before: Wang Chaojun

Inventor before: He Qinggang

Inventor before: Wei Yuliang

Inventor before: Wang Kai

Inventor before: Wang Bailing