CN112860898B

CN112860898B - 一种短文本框聚类方法、系统、设备及存储介质

Info

Publication number: CN112860898B
Application number: CN202110279525.3A
Authority: CN
Inventors: 王超俊; 何清刚; 魏玉良; 王凯; 王佰玲
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-05-27
Anticipated expiration: 2041-03-16
Also published as: CN112860898A

Abstract

本发明涉及一种短文本框聚类方法、系统、设备及存储介质，该方法包括：对原始短文本进行预处理；提取短文本特征词；将短文本特征词转换为短文本特征向量；先初始化聚类中心，然后将聚类中心映射到LSH表中；再根据短文本到聚类中心的文本相似度，选择若干个候选类；根据哈希值选择短文本特征向量的簇集合；重新计算短文本特征向量的簇集合的新聚类中心；循环执行直到新聚类中心不再发生变化，输出文本聚类结果。本发明中，采用WMD‑IP距离作为文本相似度，考虑词向量的位置，这样便可更充分的利用词语的语义信息，减少中间计算过程的复杂度，提高短文本框聚类结果的精度。

Description

一种短文本框聚类方法、系统、设备及存储介质

技术领域

本发明涉及一种短文本框聚类方法、系统、设备及存储介质，属于机器学习和模式识别领域。

背景技术

随着移动互联网设备的日益普及以及在线网络社交媒体平台的快速发展与应用，新浪微博、知乎、微信、抖音、推特、贴吧、论坛等社交媒体软件在人们日常生活中的使用越来越广泛，它们吸引了数以亿计的互联网用户。这些互联网用户每天都产生海量的文本数据通过这些软件进行传播，这些文本数据字数少，特征随着时间发生变化，承载了大量的信息。如何处理这些短文本数据，对这些短文本数据进行聚类与分析具有重要的研究意义与应用价值。

目前，常用的文本聚类方法有以下几种：基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法和基于密度的聚类方法。

基于划分的聚类方法有K-means算法、CLARANS算法和PAM算法等，通过预先设定聚类数目，对数据样本集合不断迭代与划分，达到簇内数据相似度高，簇间数据相似度低。这种方法在处理大规模样本时结果多是局部最优，对于类簇中心的选择十分敏感，无法解决非凸数据。

基于层次的聚类方法有变色龙算法、AGNES算法和CURE算法等，通过将样本集合合并或者分裂成更高或者更细致的子样本集合，最终将样本集合形成一棵层次树，树中的每个节点表示一个簇。这种方法处理大量数据样本的算法平均时间复杂度过高并且已有的操作无法撤回。

基于网格的聚类方法有STING算法和CLIQUE算法等，通过对数据样本空间进行划分得到网格结构，按照一定的规则对网格进行聚类合并。这种方法对参数十分敏感，聚类精确度不高。

基于密度的聚类方法有DBSCAN算法、OPTICS算法和DENCLUE算法等，通过数据密集程度划分数据样本，首先找出密度较高的样本点，将该样本点周围相近的密度较高的样本点练成一片，最终形成各个类簇。这种方法聚类结果精度与参数设置密切相关，实用性不强。

发明内容

针对现有技术的不足，本发明提供了一种短文本框聚类方法及系统，对原始短文本数据预处理，提取短文本特征词，将短文本特征词转换为短文本特征向量，对短文本特征向量进行聚类，循环执行直到聚类中心不再发生变化，输出文本聚类结果。

本发明还提供了一种计算机设备及存储介质。

术语解释：

1.Word2Vec：词向量语言模型，Word2Vec是Google公司在2013年开源的一种能够将文本转化为词向量的浅层神经网络概率语言模型，该模型根据给定的语料库，通过一个训练后的优化模型将文本转化为向量的语言模型。CBOW模型和Skip-gram模型分别是Word2vec常用的词向量语言模型。

2.Skip-gram模型：Continuous Skip-gram Model，Skip-gram模型可根据当前词来预测其上下文。

3.局部敏感哈希算法：局部敏感哈希，Locality Sensitive Hashing，简称LSH。通过选取的哈希函数的映射变换能够将原始的数据集划分为若干较小的子集，且每个子集中的元素个数较小且相邻。如果两个文本在原有的数据空间是相似的，那么分别经过哈希函数转换以后的它们也具有很高的相似度；相反，如果它们本身是不相似的，那么经过转换后它们应仍不具有相似性。将相似的对象以较高的碰撞概率哈希到同一个哈希“桶”中，通过过滤掉大量的不相似的对象来避免不必要的相似性计算，降低相似性计算的代价，以快速获取近邻对象。

4.WMD距离：Word Mover’s Distance,简称WMD距离，词移距离，用于衡量任意两个文本之间的相似度。

5.词频：简称TF，是指文本特征词在文本中出现的次数，如某个文本特征词出现的次数越多，则该文本特征词越重要，且该特征词对文本分类的意义也越大。

6.逆文档频率：简称IDF，是指某一特征词对全部文本文档重要程度的度量。特征词的IDF值越大，则该特征词对整个文本集合的影响力也越大。

7.词频与逆文档频率的乘积：简称TF-IDF权值，该方法用于信息检索和数据挖掘，是一种常用的统计方法。它用于衡量特征词对文本的重要程度。

8.框聚类：指代后续提到的短文本聚类方法，即采用局部敏感哈希算法计算短文本哈希值，从LSH表中查找样本点的最近邻点，选择最近邻点所在的聚类中心作为样本点的簇集合，此过程类似于将样本点放入对应属性方框中，故简称为框聚类。

9.半监督学习：利用大量无标记样本和少量有标记样本训练模型，让模型自动地对大量未标记数据进行利用，辅助少量有标记数据进行学习，整个过程不需要人为干预。

本发明的技术方案为：

一种短文本框聚类方法，包括步骤：

(1)对提取的原始的短文本进行数据预处理,得到短文本的分词；

(2)提取每个短文本的特征词；

(3)将短文本的特征词转化为特征词向量；

(4)先初始化聚类中心，然后采用局部敏感哈希算法将聚类中心映射到LSH表中；

(5)根据短文本到聚类中心的文本相似度，选择若干个候选类；候选类的个数为人为设定，一般选取3-5个，根据具体情况而定，候选类的个数会有所变化；

(6)计算每个短文本特征向量在各个候选类中的哈希值，并从LSH表中查找短文本特征向量的最近邻点，选择最近邻点所在的聚类中心作为短文本特征向量的簇集合；各个候选类分别对应一个哈希函数，将短文本带入哈希函数中便可计算得到哈希值；短文本特征向量的簇集合即短文本特征向量所归属的聚类；

(7)重新计算短文本特征向量的簇集合的新聚类中心；

(8)判断新聚类中心是否发生变化，当新聚类中心发生变化，则重复步骤(5)-(7)；当新聚类中心没有发生变化，则输出短文本聚类结果。

根据本发明优选的，步骤(1)中，对提取的原始的短文本进行数据预处理，具体为：

1)数据清洗：去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号；无用符号例如“@、#、[]、【】”；

对数据集进行数据清洗，减少数据噪声，达到格式标准化和去除重复数据的目的。

2)对数据清洗后的短文本进行文本分词：对于英文文本，直接利用空格对英文文本进行分词；对于中文文本，利用jieba分词器对中文文本进行分词；

3)进行停用词处理：通过建立停用词字典，将文本分词结果与停用词字典内的词进行匹配，如匹配成功，则去除该词，否则，保留。停用词字典通过借鉴专用领域通用词典和从大样本中提取关键词两种方法得到。不同的聚类任务有不同的专用领域通用词典，同时不同的聚类任务也要从相对应的样本中提取关键词。

根据本发明优选的，步骤(2)中，提取每个短文本的特征词，具体过程为：

计算每个短文本分词的词频(TF)、逆文档频率(IDF)及词频与逆文档频率的乘积(TF-IDF)；对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序，提取词频与逆文档频率的乘积中前N个词作为短文本特征词，用于表示该短文本；提取词频与逆文档频率的乘积中前N个词作为短文本特征词可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等问题。

对于短文本j中第i个特征词t_i，特征词t_i的词频计算公式为：

式(I)中，n_ij为特征词t_i在短文本j中出现的次数，∑_k＝1n_kj表示短文本j中的总词数；

特征词t_i的逆文档频率的计算公式为：idf_i＝log(N/n_i) (II)，

式(II)中，N表示短文本的总数，n_i表示包含特征词t_i的短文本数量；

词频与逆文档频率的乘积的计算公式为：

式(III)中，w_ij表示特征词的权重，∑_k＝1n_kj表示短文本j中总词数,n_ij为特征词t_i在短文本j中出现的次数，N表示短文本的总数，n_i表示包含特征词t_i的短文本数量。

根据本发明优选的，步骤(3)中，将短文本的特征词转化为特征词向量，具体为：

利用Word2Vec中的Skip-gram模型进行词向量转化，将短文本特征词映射成低维实数向量，即将短文本特征词序列[w₁,w₂,…,w_n]中的每个特征词w_i转换成特征词向量[v₁,v₂,…,v_n]，v_i表示特征词向量，i的取值为1,2,3，……n。

根据本发明优选的，步骤(4)中，初始化聚类中心的过程为：

根据步骤(3)得到的特征词向量，得到短文本特征向量d_i，d_i＝[v₁,v₂,…,v_n]，i的取值为1,2,3……m；进而得到短文本特征向量集合{d₁,d₂,d₃,…,d_m}；

从短文本特征向量集合{d₁,d₂,d₃,…,d_m}中选择k个短文本作为聚类中心，k≤m，且k为正整数，实现初始化聚类中心。

根据本发明优选的，步骤(4)中，采用局部敏感哈希算法将聚类中心映射到LSH表中，具体过程为：

将聚类中心代入选择的哈希函数，得到对应的哈希值；每个哈希值对应一个哈希桶，然后将该聚类中心放入对应的哈希桶中，将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。

根据本发明优选的，步骤(4)中，采用半监督学习方法改进局部敏感哈希方法选择哈希函数；具体步骤为：

4-1、输入有标签的样本数据；

例如，对样本数据“杭州师范大学计算机在线询价采购项目采购公告”，其对应的标签为“计算机设备及软件”，样本数据和标签之间的对应关系与具体的应用场景相对应，需根据具体的应用场景对数据标记标签。

4-2、随机生成一定数量的哈希函数；

4-3、初始化哈希函数；即对哈希函数赋予初始值，哈希函数的初始值需根据具体的应用场景去设定；

4-4、根据初始化的哈希函数构造LSH表；

4-5、计算无标签样本数据与有标签样本数据之间的WMD-IP距离，如果WMD-IP距离小于设定的阈值，则输出哈希函数，否则执行步骤4-3。

结合半监督学习方法改进局部敏感哈希方法,利用有标签且具有代表性的样本迭代选择合适的哈希函数，提高短文本框聚类的效率与精度。

根据本发明优选的，步骤(5)中，根据短文本到聚类中心的文本相似度，选择若干个候选类，具体为：

采用WMD-IP距离作为短文本特征向量到k个聚类中心的文本相似度，将求得的WMD-IP距离进行排序，选择WMD-IP距离从小到大取若干个类作为候选类；

对于两个短文本特征向量d_u和d_v之间的WMD-IP距离，WMD-IP距离的计算公式为

WMD-IP距离，Word Mover’s Distance Improvement，中文名称：词移改进距离，改进之处：整合词向量位置信息，增强权重系数赋予不同词向量不同权重。能够充分利用词语的语义信息，WMD距离采用词语的词频作为转移代价，未能充分整合词语的语义信息。由于不同词语对短文本贡献度不同，如果所有词语采用相同权重，不能很好地体现不同短语对短文本贡献度；

表示短文本特征向量d_u中的特征词向量v_i移动到短文本特征向量d_v中特征词向量v_j的移动代价数值；将短文本向量d_u完全转移到d_v中，需要满足：特征词向量v_i转移出的总和

等于v_i的权重系数

特征词向量v_j转移入的总和

等于v_j的权重系数

即

考虑特征词向量权重系数，根据短文本位置对特征词向量进行加权，对于短文本首段和尾段的词向量赋予较大权重，P_i为特征词向量v_i的位置权重，P_i的计算公式为

p表示特征词向量在短文本向量中所在位置的百分比，a、b为设定参数，特征词向量v_i在短文本向量d_u中的权重系数计算公式为

式(IV)中，

表示特征词向量v_i对应的特征词在短文本向量d_u对应的短文本中的词频，

表示特征词向量v_i对应的特征词的逆文档频率，N^`表示短文本的总数，

表示包含特征词v_i对应的特征词的短文本数量；

为特征词v_i对应的特征词在短文本向量d_u对应的短文本中出现的次数，

表示短文本向量d_u对应的短文本中的总词数；

用于整合词语的TF-IDF值以及词语的位置权重值，这样便可更充分的利用词语的语义信息；

特征词向量v_j在短文本向量d_v中的权重系数计算公式为W_vj＝TF-IDF_vj×P_j；P_j为特征词向量v_j的位置权重，P_j的计算公式为

p表示特征词向量在短文本向量中所在位置的百分比，a、b为设定参数；

式(V)中，

表示特征词向量v_j对应的特征词在短文本向量d_v对应的短文本中的词频，

表示特征词向量v_j对应的特征词的逆文档频率，N^``表示短文本的总数，

表示包含特征词v_j对应的特征词的短文本数量；

为特征词v_j对应的特征词在短文本向量d_v对应的短文本中出现的次数，

表示短文本向量d_v对应的短文本中的总词数；

c(v_i,v_j)表示特征词向量v_i和特征词向量v_j之间的相似度，c(v_i,v_j)采用余弦距离表示，即

相似度计算公式采用WMD-IP距离，考虑词向量的位置，这样便可更充分的利用词语的语义信息，减少中间计算过程的复杂度，提高短文本框聚类结果的精度。

根据本发明优选的，步骤(7)中，重新计算短文本特征向量的簇集合的新聚类中心；具体过程为：

对于簇集合C_j＝{d₁,d₂,d₃,…,d_n},C_j表示第j个簇集合，d₁,d₂,d₃,…,d_n表示短文本特征向量，j的取值范围1≤j≤k，k表示k个聚类中心；

n表示簇集合C_j中短文本特征向量数目，d_i表示第i个短文本特征向量，Z_j(t)表示第j个聚类中心的第t次计算结果，Z_j(t+1)表示第j个聚类中心的第t+1次计算结果，j的取值范围1≤j≤k，k表示k个聚类中心。

上述短文本框聚类方法的实现系统，用于实现上述短文本框聚类方法，包括：

数据采集模块，用于从社交网站平台采集短文本数据，再将采集的短文本数据存入数据库；

数据预处理模块，用于对数据采集模块采集的短文本数据进行预处理得到短文本分词结果；

特征词提取模块，用于提取每个短文本的特征词；

词向量转化模块，用于将短文本特征词转化成短文本特征向量；

文本聚类模块，用于对短文本特征向量进行文本聚类，将文本聚类结果存入数据库，并在前端界面展示短文本数据聚类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的短文本框聚类方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的短文本框聚类方法的步骤。

本发明的有益效果为：

1.本发明中，相似度计算公式采用WMD-IP距离，考虑词向量的位置，这样便可更充分的利用词语的语义信息，减少中间计算过程的复杂度，提高短文本框聚类结果的精度。

2.本发明提供的短文本框聚类的方法中，相比于传统文本聚类方法，提取短文本N关键词作为短文本特征词，可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等问题。

3.使用局部敏感哈希算法可以快速地从大量高维数据集合中找到样本点的最近邻点候选集，提高短文本聚类效率,效率能够提高8％-10％左右，而现有的其他的聚类算法的效率一般在70％-75％左右。

4.采用半监督学习方法改进局部敏感哈希方法选择哈希函数可以解决参数敏感和参数设置问题，局部敏感哈希可以克服局部最优，平均时间复杂度较低。

5.通过使用深度学习语言模型基于特征词集合构成的语料训练实现词向量转化，可以避免知识库更新速度无法匹配网络新词的语义识别问题。

6.本发明提出的短文本框聚类的方法可以效果很好地对短文本数据聚类，短文本数据聚类分析对于舆情分析、新闻热门话题追踪、事件检测以及个性化用户兴趣挖掘等应用场景具有重要意义。

附图说明

图1为本发明中短文本数据预处理的过程示意图；

图2为本发明提供的短文本框聚类方法的过程示意图；

图3为短文本框聚类方法的实现系统的结构示意图；

图4为采用半监督学习方法改进局部敏感哈希方法选择哈希函数的过程示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种短文本框聚类方法，如图2所示，包括步骤：

(2)提取每个短文本的特征词；

(3)将短文本的特征词转化为特征词向量；

(7)重新计算短文本特征向量的簇集合的新聚类中心；

实施例2

根据实施例1提供的一种短文本框聚类方法，区别之处在于：

步骤(1)中，对提取的原始的短文本进行数据预处理，如图1所示，具体为：

步骤(2)中，提取每个短文本的特征词，具体过程为：

特征词t_i的逆文档频率的计算公式为：idf_i＝log(N/n_i) (II)，

词频与逆文档频率的乘积的计算公式为：

步骤(3)中，将短文本的特征词转化为特征词向量，具体为：

步骤(4)中，初始化聚类中心的过程为：

步骤(4)中，采用局部敏感哈希算法将聚类中心映射到LSH表中，具体过程为：

进一步的，步骤(4)中，如图4所示，采用半监督学习方法改进局部敏感哈希方法选择哈希函数；具体步骤为：

4-1、输入有标签的样本数据；

4-2、随机生成一定数量的哈希函数；

4-4、根据初始化的哈希函数构造LSH表；

步骤(5)中，根据短文本到聚类中心的文本相似度，选择若干个候选类，具体为：

等于v_i的权重系数

特征词向量v_j转移入的总和

等于v_j的权重系数

即

式(IV)中，

表示包含特征词v_i对应的特征词的短文本数量；

表示短文本向量d_u对应的短文本中的总词数；

式(V)中，

表示特征词向量v_j对应的特征词的逆文档频率，N``表示短文本的总数，

表示包含特征词v_j对应的特征词的短文本数量；

表示短文本向量d_v对应的短文本中的总词数；

步骤(6)中，将短文本向量代入哈希函数计算所得结果即为哈希值，将短文本向量放入哈希值对应的哈希桶中，LSH表包含若干个哈希桶；

一张LSH表包含若干个哈希桶，一个哈希桶包含若干个短文本向量。假设一个LSH表有哈希桶“0”、“1”、“2”、…、“K”，对于某一短文本向量，经过局部敏感哈希映射后得到哈希值“1”，则将该短文本向量放入哈希桶“1”中，以上为假设，对于具体情况，哈希值不一定为0、1、…、K。

步骤(7)中，重新计算短文本特征向量的簇集合的新聚类中心；具体过程为：

步骤(8)中，判断新聚类中心是否发生变化，当新聚类中心发生变化，则重复步骤(5)-(7)；当新聚类中心没有发生变化，则输出短文本聚类结果；具体为：

若Z_j(t+1)≠Z_j(t),1≤j≤k,即新聚类中心发生变化。

若Z_j(t+1)＝Z_j(t),1≤j≤k,即新聚类中心未发生变化。

实施例3

实施例1或2提供的一种短文本框聚类方法的实现系统，如图3所示，包括：

特征词提取模块，用于提取每个短文本的特征词；

实施例4

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例1或2提供的一种短文本框聚类方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1或2提供的一种短文本框聚类方法的步骤。

Claims

1.一种短文本框聚类方法，其特征在于，包括步骤：

(1)对提取的原始的短文本进行数据预处理，得到短文本的分词；

(2)提取每个短文本的特征词；

(3)将短文本的特征词转化为特征词向量；

(5)根据短文本到聚类中心的文本相似度，选择若干个候选类；具体为：

等于v_i的权重系数

特征词向量v_j转移入的总和

等于v_j的权重系数

即

考虑特征词向量权重系数，根据短文本位置对特征词向量进行加权，P_i为特征词向量v_i的位置权重，P_i的计算公式为

式(IV)中，

表示特征词向量v_i对应的特征词的逆文档频率，N`表示短文本的总数，

表示包含特征词v_i对应的特征词的短文本数量；

表示短文本向量d_u对应的短文本中的总词数；

式(V)中，

表示包含特征词v_j对应的特征词的短文本数量；

表示短文本向量d_v对应的短文本中的总词数；

c(v_i，v_j)表示特征词向量v_i和特征词向量v_j之间的相似度，c(v_i，v_j)采用余弦距离表示，即

(6)计算每个短文本特征向量在各个候选类中的哈希值，并从LSH表中查找短文本特征向量的最近邻点，选择最近邻点所在的聚类中心作为短文本特征向量的簇集合；

(7)重新计算短文本特征向量的簇集合的新聚类中心；

2.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(1)中，对提取的原始的短文本进行数据预处理，具体为：

1)数据清洗：去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号；

3)进行停用词处理：通过建立停用词字典，将文本分词结果与停用词字典内的词进行匹配，如匹配成功，则去除该词，否则，保留。

3.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(2)中，提取每个短文本的特征词，具体过程为：

计算每个短文本分词的词频、逆文档频率及词频与逆文档频率的乘积；对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序，提取词频与逆文档频率的乘积中前N个词作为短文本特征词，用于表示该短文本；

特征词t_i的逆文档频率的计算公式为：idf_i＝log(N/n_i) (II)，

词频与逆文档频率的乘积的计算公式为：

式(III)中，w_ij表示特征词的权重，∑_k＝1n_kj表示短文本j中总词数，n_ij为特征词t_i在短文本j中出现的次数，N表示短文本的总数，n_i表示包含特征词t_i的短文本数量。

4.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(4)中，初始化聚类中心的过程为：

根据步骤(3)得到的特征词向量，得到短文本特征向量d_i，d_i＝[v₁，v₂，…，v_n]，i的取值为1，2，3……m；进而得到短文本特征向量集合{d₁，d₂，d₃，…，d_m}；

从短文本特征向量集合{d₁，d₂，d₃，…，d_m}中选择k个短文本作为聚类中心，k≤m，且k为正整数，实现初始化聚类中心。

5.根据权利要求4所述的一种短文本框聚类方法，其特征在于，步骤(4)中，采用局部敏感哈希算法将聚类中心映射到LSH表中，具体过程为：

6.根据权利要求5所述的一种短文本框聚类方法，其特征在于，步骤(4)中，采用半监督学习方法改进局部敏感哈希方法选择哈希函数；具体步骤为：

4-1、输入有标签的样本数据；

4-2、随机生成一定数量的哈希函数；

4-3、初始化哈希函数；

4-4、根据初始化的哈希函数构造LSH表；

7.一种短文本框聚类方法的实现系统，其特征在于，用于实现权利要求1-6任一项所述的一种短文本框聚类方法，包括：

特征词提取模块，用于提取每个短文本的特征词；

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的短文本框聚类方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的短文本框聚类方法的步骤。