CN109726394A

CN109726394A - 基于融合btm模型的短文本主题聚类方法

Info

Publication number: CN109726394A
Application number: CN201811546170.4A
Authority: CN
Inventors: 贾海涛; 李泽华; 刘小清; 任利; 贾宇明; 赫熙煦; 周焕来; 罗心; 王启杰; 李清
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-05-07

Abstract

本发明公开了一种基于融合BTM模型的短文本主题聚类方法，属于数据聚类技术领域。本发明首先对待聚类的短文本进行文本预处理，得到数据集D；然后分别提取基于BTM模型、VSM模型的文本向量；在对数据集D进行k‑means聚类时，基于本发明所设置的估计聚类数k方式所获得的聚类数，进行k聚类处理，且聚类处理时采用的聚类标准为：基于两个文本向量所分别计算的任意两个文本间的距离的加权和。本发明结合BTM模型和VSM模型实现对短文本主题的聚类处理，以提高聚类效果；同时基于类内、类间距离对聚类效果进行度量，自动调节聚簇数量，补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。

Description

基于融合BTM模型的短文本主题聚类方法

技术领域

本发明属于数据聚类技术领域，具体涉及一种基于融合BTM模型的短文本主题聚类方法。

背景技术

当前，关于短文本主题的模型主要有BTM(Biterm topic model)模型、VSM(VectorSpace Model)模型和LDA(Latent Dirichlet Allocation)模型。

其中，BTM模型是一种文本主题模型，但是它和传统的主题模型如PLSA(隐形语义分析)或LDA有明显的区别。一般传统的主题模型只适用于长文本处理，因为短文本的特征稀疏和缺失会对模型建立产生严重的影响，但是也有很多研究人员试图对模型进行扩展和优化，来增强对短文本的适用性。例如通过引入外部知识来扩充短文本，或将短文本进行拼接，作为伪长文本来处理。这种做法虽然可以改进模型上的不足，但是无法克服传统模型天生的缺点，而BTM模型的建模过程却可以避免上述缺点，取得较好效果。

VSM模型，即向量空间模型，其原理比较简单，即将文本内用基于空间向量进行表示，后续便可以使用向量的运算方法对文本进行运算。所以，将一篇文本映射到向量空间之后，文本间的相似度就可以通过向量间距离来进行度量，且易于理解。

当前，经典的聚类算法有k-means和k-medoids等，但是这类算法需要事先指定聚类个数，同时最优聚类个数不能事先进行评估。

发明内容

本发明的发明目的在于：针对上述存在的问题，结合BTM模型和VSM模型实现对短文本主题的聚类处理，以提高聚类效果；同时基于类内、类间距离对聚类效果进行度量，自动调节聚簇数量，补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。

本发明的基于融合BTM模型的短文本主题聚类方法，包括下列步骤：

步骤S1：对待聚类的短文本进行文本预处理，得到数据集D；

步骤S2：基于数据集D，以及预设的主题个数K，进行BTM模型建模，生成文档-主题分布矩阵θ和主题-词分布矩阵

并基于文档-主题分布矩阵θ表示数据集D中的任意文本i的文本向量，记为d_{i_btm}；

步骤S3：基于数据集D，基于TF-IDF策略对数据集D中的任意文本i进行文本向量表示，记为d_{i_vsm}；

步骤S4：初始化标记位k＝k_min，其中k_min表示k-means算法的聚类个数的下限；

步骤S5：若k＞k_max，则执行步骤8；否则执行步骤S6；其中k_max表示k-means算法的聚类个数的上限；

步骤S6：从数据集D中随机选取k个文本向量作为初始聚类中心，并基于k-means算法对数据集D进行k聚类处理，基于得到的聚类结果计算对应k值的聚类质量J(k)；

定义标记位对应的k的聚类质量为若则更新后，再执行步骤S7；否则直接执行步骤S7；

其中，在进行聚类处理时，采用的聚类标准为：第一距离和第二距离的加权和，其中第一距离为基于文本向量d_{i_btm}的JS(Jensen-Shannon)距离，第二距离为基于文本向量d_{i_vsm}的余弦距离；

聚类质量其中I(k)表示类内距离，B(k)表示类间距离；

所述类内距离为每个文本与其他文本的平均距离的最小值；

所述类间距离为不同聚类间最近的两个文本的距离；

步骤S7：更新k＝k+1后，继续执行步骤S5；

步骤S8：基于k-means算法进行k聚类处理，其中

综上所述，由于采用了上述技术方案，本发明的有益效果是：结合BTM和VSM两者特点并优化文本特征，提高聚类效果，同时基于类内、类间距离对聚类效果进行度量，自动调节聚簇数量，补偿BTM模型需提前预指定主题数量导致的精度下降的问题。

附图说明

图1是BTM voca.txt输入格式的示意图；

图2是BTM输doc_wids.txt输入格式的示意图；

图3是融合BTM模型聚类流程图；

图4是分词编号结果图示意图；

图5是BTM模型词对编号结果示意图；

图6是文档空间向量矩阵示意图；

图7是BTM模型文档-主题分布矩阵的示意图；

图8是BTM和LDA在不同主题数K下F值对比图；

图9是融合模型不同λ取值曲线；

图10是不同聚类个数下类内类间距离示意图；

图11是各模型聚类准确率对比图；

图12是各模型F值对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

短文本主题模型BTM(Biterm Topic Model)主要针对整体文档-主题分布概率进行研究，淡化了单文档内词频特征，而向量空间模型VSM(Vector Space Model)侧重词频特征，为了克服两个模型单独实现时的不足，本发明结合两者特点并优化文本特征，提高聚类效果，同时基于类内、类间距离对聚类效果进行度量，自动调节聚簇数量，补偿BTM模型需提前预指定主题数量导致的精度下降的问题。

VSM的内在原理比较简单，即将文本内用基于空间向量进行表示，后续便可以使用向量的运算方法对文本进行运算。所以，将一篇文本映射到向量空间之后，文本间的相似度就可以通过向量间距离来进行度量，且易于理解。

假设有m篇文档，其中共有n个不同的词，故这m篇文档可以基于n个词w_i(i＝1,…,n)进行表示。所以文档向量空间模型可以表示为d_i＝{w₁,w₂,w₃...w_n}，m篇文档的文本向量矩阵D可以表示为：

其中，该矩阵的每行代表一篇文本，每列代表一个独立的词，矩阵中元素d_ij表示第j个词在第i个文档中所占比重。

BTM是一个基于统计的模型，它规避了传统短文本模型易受短文本特征稀疏影响的缺点，利用词间隐含语义，将文本映射到主题空间上。所以基于该模型，可以得出较为理想的文档-主题和主题-词分布。本具体实施方式中，基于文档-主题分布矩阵来表示文档特征，标记为d_btm。同时，利用TF-IDF加权策略将短文本进行向量化表示，标记为d_vsm，最后在文档相似度计算过程中引入加权融合系数λ，进行融合处理。

其中第i个文本的d_vsm、d_btm的向量表示分别为：

d_{i_vsm}＝{w₁,w₂,w₃...w_n}；

d_{i_btm}＝{p(z₁|d),p(z₂|d),p(z₃|d)....p(z_k|d)}；

其中p(z_j|d)表示第j个主题z_j在文本d的分布概率，j＝1,2,…,K；

TF-IDF是向量空间中对特征词进行加权的最经典也是最常用的方法。在本具体实施方式中，将短文本中独立的词作为特征项，对应的权由TF和IDF进行加权计算。

TF(Term Frequency)表示某特征词t_k在特定某篇文中本d_i中出现的次数。随着出现次数的增多，表明该特征词所占的比重就越大，其出现的次数标记为TF_(i,k)。但是对于短文本来说，其中包含的特征词在该文本中出现次数总体相近，所以单独依靠TF很难判断出文本总体特征。

IDF(Inverse Document Frequency)是指特征词在文本集中出当前文本之外的文本中出现的次数。如果出现次数较多次，说明该词不能很好的进行区分文本，如果出现次数较少，说明该词可以被当作某些文本的特征进行考量，IDF的计算方法为：

其中，i为文档(文本)区分符，k为词区分符，N表示文档库中所有文本条数，n表示包含有词t_k的文本条数，α是一个经验值，一般情况下取α＝0.01。

综上可得，任意文本d_i中特征词t_k的权重为：w_(i,k)＝TF_(i,k)×IDF_(i,k)，即用权重w(i,k)表征d_{i_vsm}＝{w₁,w₂,w₃...w_n}中的每个单词，从而得到基于TF-IDF策略对数据集D中的任意文本i进行文本向量。

文本通过主题分布的向量d_btm进行表示，所以在后续对比中，本发明基于文本的主题特征进行相似性计算。同时由于主题向量是以统计模型得出，故采用概率进行描述。

使用基于KL距离(Kullback-Leibler差异)的对称版本，即JS距离进行度量。即对于任意文本d_i和d_j之间的第一距离(第一相似度)可以表示为：

其中，函数

而对于基于特征词词权重表示的全文本向量d_vsm，则采取直接计算两向量余弦距离进行度量，即对于任意文本d_i和d_j之间的第二距离(第二相似度)可以表示为：

在计算完成以上两种相似度后，引入加权系数λ，进行加权融合度量，形成基于JS距离的加权文本相似度计算公式：D(d_i,d_j)＝λD_btm(d_i,d_j)+(1-λ)D_vsm(d_i,d_j)。

参见图1，本具体实施方式中，基于上述融合BTM模型的短文本主题聚类包括下列步骤：

(1)对待聚类的短文本进行文本预处理，得到数据集D，其中文本预处理包括对短文本进行分词和去掉停用词处理；

其中，待聚类的短文本通常为：经日志聚类后有微博、贴吧、论坛评论或通信行为的用户会话中的短文本数据。

(2)BTM模型预处理，即规则化处理，分别生成两个文档，其中一个文档为词典文档，记为voca.txt，目的是为每个词进行编号；另一个文档记为doc_winds.txt，用于将整个文本集中词进行编号替换。两文件具体格式如图2、3所示。

(3)基于BTM模型进行建模，生成文档-主题分布矩阵θ和主题-词分布矩阵

模型的输入是words.txt和words_winds.txt两文档，主题个数K及Dirichlet先验分布的两个超参数α和β，其中α＝50/K和β＝0.01。输出为文档-主题分布矩阵θ和主题-词分布矩阵由于BTM模型的建模过程为现有技术，此处不再赘述。

(4)基于TF-IDF策略进行文本向量表示；

(5)基于k-means算法对BTM模型生成的文档-主题向量和文档VSM向量进行加权聚类；

(6)对聚类产生的聚簇进行描述，为网络管理或舆论监控做出参考。

即本发明的融合BTM模型的短文本主题聚类的具体实现过程如下：

步骤S1：输入待聚类的数据集D，以及设置BTM的主题个数，k-means算法的聚类个数范围[k_min,k_max]；

步骤S2：基于数据集D，进行BTM模型建模，生成文档-主题分布矩阵θ和主题-词分布矩阵

步骤S3：基于数据集D，基于TF-IDF策略进行文本向量表示，得到d_vsm；

步骤S4：初始化标记位k＝k_min；

步骤S5：若k＞k_max，则执行步骤8；否则执行步骤S6；

步骤S6：从数据集D中随机选取k个初始聚类中心，并基于k-means算法进行k聚类处理，基于得到的聚类结果计算对应k值的聚类质量J(k)；

定义标记位对应的k的聚类质量为若则更新后，再执行步骤S7；否则直接执行步骤S7(标记位保持不变)；

其中，在进行聚类处理时，采用的聚类标准为：第一距离和第二距离的加权和；

聚类质量其中I(k)表示类内距离，B(k)表示类间距离；

所述类内距离为每个文本与其他文本的平均距离的最小值，即：

其中，|C_j|表示在聚类C_j中的文本数量，x_i、x_p分别表示所属于聚类C_j中的文本对象。

所述类间距离为不同聚类间最近的两个文本的距离，即：

其中，i＝1,2,...,k；j＝1,2,...,k；且i≠j，x_p,x_q表示聚类C_i和C_j中的文本对象。

步骤S7：更新k＝k+1后，继续执行步骤S5；

步骤S8：基于k-means算法进行k聚类处理，其中

实施例

采用的实验数据来自新浪微博，并基于本文算法在数据上进行建模及聚类分析。实验部分主要包括融合全文本VSM和BTM的加权算法聚类算法，以及单独使用BTM、VSM和LDA的算法进行的对比。

其中实验数据集(采用的语料库)是来自新浪微博2014年5月的开源数据，其中共有6个热点类别(房价、公务员、韩剧、雾霾、转基因、手机)，每个类别1000篇并已经带有类别标签，词表大小：9372词。

在实验进行前，首先进行数据的预处理工作，将文本进行分词编号，BTM模型需要进行词对编号。分词编号结果如图4所示，词对编号如图5所示。

在完成数据预处理后，对基于IF-IDF算法进行文档向量化表示，形成VSM模型，文档表示结果如图6所示。

(1)BTM与LDA主题聚类效果对比：

BTM模型是一种非监督模型，在运算中不需要人为干预，但是缺点是需要在建模前人为预设文档集整体主题聚类个数K，K的设定是否贴合数据的实际情况，会影响到模型的聚类性能。

在本实验中，事先已知文档集有6个类别，也就是有6话题，来分别验证BTM和LDA主题模型最优主题数K。为确定最优主题数K，本次实验主题数分别取5，6，7，8，9，10，11，12，13，14进行实验，模型迭代次数为1000次，α＝50/K，β＝0.01。在模型训练后基于k-means算法进行聚类，聚类个数k＝6，由于该聚类算法容易陷入局部最优解，所以每次实验中重复10次聚类实验，取聚类结果的平均F值(同时考量准确率和召回率)进行评估。在实验之后，确定的最优主题数K将用于后续实验中。BTM模型中文本-主题矩阵如图7所示。

从表1和图8中的实验结果中可以看到，在已知文档集分类的情况下进行聚类主题数K验证，BTM模型在K取6时得到的主题聚类效果最好，LDA模型在K取10时主题聚类效果最好，总体来说，BTM效果要优于LDA。

随着主题数K的增加，两模型效果都有不同程度的减弱。这说明BTM模型中，在词对数量不变的情况下，预设主题数量偏离真是数量太多会导致原有主题概率被细分，造成文档-主题分布变化，最终导致依据此概率分布进行文档聚类的结果也随之改变。在LDA模型中，建模效果整体较差，原因是模型受到短文本特征稀疏的影响，导致文档-主题分布不准确，进而聚类效果较差。

表1 BTM和LDA在不同K值下建模F值对比

(2)融合系数λ的设置：

基于上述实验结果，本次实验取BTM模型主题数K＝6，k-means算法聚类个数k∈[5,15]时分别进行实验，最后整体结果取均值进行表示。实验中，设λ＝{0，0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1.0}，分别验证主题聚类精度。在结果中可以发现，当λ＝0.8时，整体聚类结果比较好，在后续实验中，取λ＝0.8进行实验。实验结果如图9所示。

(3)最优聚类个数确定：

在实际情况中，并不知道文档的分类情况，所以本次实验在默认不知道聚类个数的情况下，基于类内类间距离进行聚类效果评估。在融合BTM模型主题数K＝6，λ＝0.8的情况下，输入聚类范围[5,15]进行聚类。图10为在不同聚类个数下得到的类内类间距离比值折线图。在结果中可以看到，当取聚类个数为6时类内类间距离比值最小，聚类效果最好。结果与数据集特征相符合，说明了类内类间距离度量聚类结果的有效性。所以，取聚类数目为6进行后续的实验。

(4)各模型聚类效果对比：

本次实验主要是基于文档集的6个类别进行聚类效果对比。比较模型为融合BTM模型、BTM模型、LDA模型和VSM模型。模型中，BTM模型的主题数K取6，LDA主题数K取10，k-means算法聚类个数设为6。在实验结果中，分别采用准确率P和F值对聚类效果进行评价。聚类算法聚类效果越好，其对应的准确率P值就越大，而F值则是同时考量了准确率和召回率，聚类效果也是正比于F值的大小，几种模型的聚类效果如下表所示：

表2各模型准确率P

图11给出了对应表2的各模型聚类准确率对比曲线图，由图可知，本发明的准确率性能最好。

表3各模型F值对比

图12给出了对应表3的各模型聚类F值对比曲线图，由图可知，本发明的优势最明显。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于融合BTM模型的短文本主题聚类方法，其特征在于，包括下列步骤：

步骤S1：对待聚类的短文本进行文本预处理，得到数据集D；

步骤S2：基于数据集D，以及预设的主题个数K，进行BTM模型建模，生成文档-主题分布矩阵和主题-词分布矩阵；

并基于文档-主题分布矩阵表示数据集D中的任意文本i的文本向量，记为d_{i_btm}；

步骤S5：若k＞k_max，则执行步骤S8；否则执行步骤S6；其中k_max表示k-means算法的聚类个数的上限；

其中，在进行聚类处理时，采用的聚类标准为：第一距离和第二距离的加权和，其中第一距离为基于文本向量d_{i_btm}的JS距离，第二距离为基于文本向量d_{i_vsm}的余弦距离；

聚类质量其中I(k)表示类内距离，B(k)表示类间距离；

所述类内距离为每个文本与其他文本的平均距离的最小值；

所述类间距离为不同聚类间最近的两个文本的距离；

步骤S7：更新k＝k+1后，继续执行步骤S5；

步骤S8：基于k-means算法进行k聚类处理，其中

2.如权利要求1所述的方法，其特征在于，第一距离的权重设置为0.8，第二距离的权重为0.2。

3.权利要求1所述的方法，其特征在于，文本预处理包括对短文本进行分词和去掉停用词处理。