CN112579783B

CN112579783B - 基于拉普拉斯图谱的短文本聚类方法

Info

Publication number: CN112579783B
Application number: CN202011636862.5A
Authority: CN
Inventors: 孟海宁; 冯锴; 朱磊; 张贝贝; 童新宇; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-12
Anticipated expiration: 2040-12-31
Also published as: CN112579783A

Abstract

本发明公开了一种基于拉普拉斯图谱的短文本聚类方法。首先对短文本数据集进行预处理；对数据进行向量化表示和降维处理；然后根据拉普拉斯矩阵特征向量确定初始聚类中心，并进行K‑means聚类输出聚类结果；通过对数据集注入噪声数据来检验算法鲁棒性；最后根据查准率、查全率和F‑score三个指标来检验所提出方法的性能。本发明根据向量空间模型和拉普拉斯矩阵的特征，提出了一种基于拉普拉斯图谱和TF‑IDF词频处理的短文本聚类方法。针对短文本数据集构建特征向量空间模型，采用K‑means聚类算法进行聚类。同时利用拉普拉斯矩阵特性选择初始聚类中心，使聚类算法的迭代次数减少。解决了短文本数据向量化表示困难和传统聚类算法针对短文本数据集聚类精度不高的问题。

Description

基于拉普拉斯图谱的短文本聚类方法

技术领域

本发明属于短文本聚类技术领域，具体涉及一种基于拉普拉斯图谱的短文本聚类方法。

背景技术

随着互联网技术的蓬勃发展，网络上的文本信息呈现急剧扩张的态势，如何精确快速地对文本信息进行分类和聚类是目前面临的重要难题。例如识别垃圾短信的文本对信息进行分类，通常需扫描数以千计的Web页面，过程困难且耗时，类似的问题可通过聚类技术解决。聚类是将类似事物分成一类并将不同事物分成不同类别的过程，它是重要的数据分析手段。数据聚类方法将数据根据其固有性质划分为不同的类，同一类中的数据尽可能具有较高的相似性。

短文本是常见的一种内容形式，例如手机短信、用户评论以及微博话题等都属于短文本类别。针对长文本数据的聚类较容易，这是因为长文本数据包含词量较大，每个文本数据的特征比较多，有助于聚类。但是对于短文本数据，由于每个对象的特征比较少，如果使用传统向量空间模型中的方法，则每个对象构建的特征向量较长；再有，如果采用传统的聚类方法，计算对象间的相似性时，往往依赖于文本间的词义相似性。该类方法没有考虑到一个对象中存在关键词的情况，关键词往往具有较强的划分能力。如果没有考虑关键词的权重，而只是匹配相同词语的个数，那么聚类精度不会高。对短文本进行聚类分析具有很强的应用价值，例如可以对用户评论进行观点挖掘，对社交媒体进行话题检测以及舆情预警等。由于短文本数据具有特征难于提取、噪音数据多以及数据量大等特点，传统的适合长文本以及小数据量的划分聚类算法在处理短文本数据时存在问题，一是若初始聚类中心选择不好，易使聚类结果不准确；二是聚类算法在处理数据量大的数据集时，时间开销较大；再有，对于非结构化或半结构化的文本数据，文本向量维度高且具有稀疏性，导致聚类效果差。

发明内容

本发明的目的是提供一种基于拉普拉斯图谱的短文本聚类方法。针对短文本数据集，利用自然语言处理工具包，对短文本数据集进行标记化分词、去除停用词、词性标注、词干提取等处理。之后利用TF-IDF对数据集进行词频处理，将原始文本数据集转化为词频矩阵。然后根据词频矩阵进行拉普拉斯变换生成特征向量矩阵，并输入K-means聚类算法中进行聚类。解决了传统聚类算法对短文本数据聚类精度不高的问题。

本发明所采用的技术方案是，基于拉普拉斯图谱的短文本聚类方法，具体包括以下步骤：

步骤1，用自然语言处理工具包对短文本数据集进行预处理；

步骤2，对步骤1中得到的预处理后的数据集进行向量化处理和降维处理；

步骤3，根据步骤2中得到降维后的的数据集，利用拉普拉斯矩阵的特性选择初始聚类中心；

步骤4，将数据集输入K-means聚类算法进行多次聚类，直至算法收敛；

步骤5，算法收敛后，检验本发明提出的方法的鲁棒性；

步骤6，利用查准率、查全率和F-score，评价本发明提出的方法的性能。

本发明的特点还在于：

步骤2中，对短文本数据集的向量化表示和降维处理。依据向量空间模型，使用词频和逆文本频率指数(TF-IDF)，将短文本数据集映射到二维向量空间。并根据拉普拉斯图谱进行聚类，目标是得到互有关系的顶点，在降维后的空间中尽可能靠近；相互无关的顶点，在降维后的空间中尽可能远离。拉普拉斯图谱的聚类特性非常符合从高维数据中提取对原始数据的低维表达的情况。其具体步骤如下：

步骤2.1，计算预处理后数据集词频和逆文本频率指数，并通过TF-IDF将短文本数据集映射到二维向量空间；

步骤2.2，根据词语的TF-IDF权值，将短文本数据集转化为词频矩阵Q_n×m；

步骤2.3，计算测试数据集词频矩阵Q的邻接矩阵A和度矩阵M；

步骤2.4，计算拉普拉斯矩阵L，然后求解拉普拉斯矩阵L的最小特征值以及最小特征值所对应的特征向量。

步骤3中，用拉普拉斯矩阵的特性选择初始聚类中心。K-means聚类算法一般采取随机选取初始聚类中心，在算法迭代中不断更新聚类中心，聚类结果取决于K个初始聚类中心。本发明提出的基于拉普拉斯图谱的短文本聚类方法中，初始聚类中心依据拉普拉斯矩阵的特性决定。具体过程如下：

步骤3.1，根据拉普拉斯矩阵特征分解后特征值非负的特点，对特征值按照由大到小排序，得到词语在文本中的重要性排序；

步骤3.2，选取前K个特征值对应的特征向量作为初始聚类中心；

步骤3.3，将初始聚类中心输入K-means聚类算法，然后进行K-means聚类，从而减少算法迭代次数；

步骤4中，将数据集输入K-means聚类算法进行聚类，在聚类过程中，计算拉普拉斯矩阵的特征值，并按从小到大的顺序进行排列，同时对应的特征向量按特征值递增排列，取前K个特征向量进行K-means聚类，可得到相应的K个类别。

步骤5中，检验算法的鲁棒性。对于聚类算法而言，鲁棒性意味着聚类结果不应受到数据集中存在的数据扰动、噪声及离群点的影响。本发明通过对SSC数据集人工加入噪音比例依次递增的噪音数据，得到若干个含不同比例噪音的数据集。在每个含不同比例噪音的数据集上，检测本发明提出的于拉普拉斯图谱的短文本聚类方法的正确率，并比较正确率的变化情况，从而检验本发明方法的鲁棒性。

本发明的有益效果为：

本发明方法对原始数据集进行拉普拉斯矩阵化，拉普拉斯矩阵是半正定的对称矩阵，将矩阵特征值按由大到小排列，可判断词语在文本中的重要性。从而对短文本数据集进行降维处理，避免发生维度爆炸问题。通过将原始数据集在低维下表示，计算权值矩阵的度矩阵和邻接矩阵，能够表示文本间的相似关系，使词频处理结果更加准确。此外相较于传统聚类算法随机选取初始聚类中心的方法，本发明所提出的聚类方法，选择拉普拉斯矩阵前K个特征值对应的特征向量作为初始聚类中心，提高了候选聚类中心的准确性，从而减少聚类过程迭代次数，提高聚类精度。

附图说明

图1是本发明基于拉普拉斯图谱的短文本聚类方法方法整体流程图；

图2是本发明基于拉普拉斯图谱的短文本聚类方法所使用的SSC数据集组成图；

图3是本发明基于拉普拉斯图谱的短文本聚类方法所使用的20 News Group数据集组成图；

图4是本发明基于拉普拉斯图谱的短文本聚类方法所使用的K-means聚类算法具体流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明基于拉普拉斯图谱的短文本聚类方法，具体包括以下步骤：

步骤1，对SSC和20News Group两个短文本数据集进行预处理。即对短文本数据集，使用自然语言处理工具包NLTK(Natural Language Toolkit)，进行标记化分词、去除停用词、词性标注、词干提取处理。

步骤2，对步骤1预处理后的短文本数据集进行向量化表示和降维处理。

步骤2的具体过程如下：

步骤2.1，预处理后的数据集表示为D＝{d_j|j＝1,2,3,…,n}，n为文本总数。数据集D中文本特征词语构成的集合C＝{t_i|i＝1,2,3,…,m}，其中m为文本特征词语总数。若空间模型中每一维由文本特征词语和对应的权值组成，数据集D中第j个文本可以表示为d_j＝{(t₁,w_j1),(t₂,w_j2),…,(t_i,w_ji),…,(t_m,w_jm)}，其中w_ji表示该特征词语t_i在文本d_j中对应的特征权值；

步骤2.2，采用TF-IDF方法，计算步骤2.1中短文本数据集的词频指数TF值和逆文本频率指数IDF值。词频指数TF值的计算公式如式(1)所示：

逆文本频率指数IDF值的计算公式如式(2)所示：

其中N(t_i,d_j)表示文本d_j中特征词语t_i出现的次数，N(d_j)表示文本d_j中的词条总数。n是短文本数据集的文本总数，M(t_i)是包含特征词语t_i的文本数，分母加1是为了避免特征词语t_i未出现在任何文本中从而导致分母为零的情况；

步骤2.3，根据TF和IDF，得到特征词语t_i的TF-IDF权值，计算公式如式(3)所示：

TF-IDF(t_i,d_j)＝TF(t_i,d_j)×IDF(t_i) (3)

步骤2.4，根据每个词语的TF-IDF权值，将文本数据集D转化为词频矩阵Q_n×m；

步骤2.5，根据词频矩阵Q，计算测试数据集的邻接矩阵A、度矩阵M。邻接矩阵是表示顶点之间相邻关系的矩阵，度矩阵由每个顶点的度计算得出。然后根据公式(4)计算拉普拉斯矩阵L：

L＝M-A (4)

步骤2.6，将拉普拉斯矩阵L的前K个特征值，按照从小到大排序，并计算其对应的特征向量，组成矩阵R作为K-means算法的输入。

步骤3，通过拉普拉斯矩阵特性，确定初始的聚类中心，依据拉普拉斯矩阵特征分解后特征值非负，对特征值按照由大到小排序，得到词语在文本中的重要性排序的特性。选取步骤2.6中矩阵R的前K个特征向量，作为K-means算法的K个初始聚类中心。

步骤3的具体过程如下：

步骤3.1，将特征权值矩阵R的特征值从大到小进行排序；

步骤3.2，选取特征权值矩阵R中前K个特征值所对应的特征向量；

步骤3.3，将前K个特征向量作为K-means算法的K个初始聚类中心。

步骤4，对经过预处理、向量化表示和降维处理后的短文本数据集，采用K-means算法进行聚类。

如图4所示，步骤4的具体过程如下：

步骤4.1，接收步骤3.3中的初始聚类中心，作为K-means聚类算法中K个类的初始聚类中心坐标；

步骤4.2，对于剩余的对象，根据其与聚类中心的欧式距离，将每个对象分配到距离聚类中心最近的类中；

步骤4.3，重新计算每个类的中心距离平均值，更新聚类中心；

步骤4.4，不断迭代步骤4.2和步骤4.3，直到根据准则函数总体平均误差显著较小，则表示算法收敛聚类结束，输出聚类结果。

步骤4.2中，判断对象与聚类中心的距离时使用欧氏距离，即向量的自然长度(即该点到原点的距离)，在二维和三维空间中的欧式距离就是两点之间的实际距离。

步骤4.4中，判断K-means聚类算法收敛时，准则函数采用误差平方和函数E，如公式(5)所示：

其中d表示聚类空间中的点，M_i表示类C_i的平均值。当误差小于阈值10％时，断定K-means聚类算法达到收敛，可以输出聚类结果。

步骤5，检验本发明所提出的基于拉普拉斯图谱的短文本聚类方法的鲁棒性。

步骤5的具体过程如下：

步骤5.1，对SSC和20News Group两个数据集，人工地加入噪音比例依次为5％、10％、15％、20％、25％、30％的文本噪音数据，得到12个含不同比例噪音的数据集；

步骤5.2，在每个数据集上检测本发明提出的基于拉普拉斯图谱的短文本聚类方法的正确率，测试本发明方法的鲁棒性。

步骤6，通过指标评价方法的性能。聚类性能评估包括聚类质量和聚类迭代次数两个方面，其中聚类质量采用查准率(Precision)、查全率(Recall)和F-score值三个评价指标。

步骤6的具体步骤如下：

步骤6.1，计算本发明提出方法的查准率，查准率表示被正确分类的样本数与参与分类的样本总数之比。计算公式如式(6)所示：

其中TP(True Positives)为正确地划分为正例的个数；FP(False Positives)为错误地划分为正例的个数。

步骤6.2，计算本发明提出方法的查全率，查全率表示被正确分类的样本数与应当被正确分类的样本数之比。计算公式如式(7)所示：

其中FN(False Negatives)为错误地划分为负例的个数。

步骤6.3，计算本发明提出方法的F-score，F-score是查准率和查全率的调和平均。其公式如式(8)所示：

其中b为调节查准率和查全率的权值系数。本发明选取b＝1，采用F₁作为性能评价标准。

本发明数据集采用UCI的SSC数据集和20News Group数据集。SSC数据集是一组带有SMS数据标签的短文本数据，共计5574份数据。包括4827条SMS合法消息(SMS LegitimateMsssages:86.60％)和747条垃圾消息(Spam Messages:13.40％)。其数据组成如图2所示。20News Group数据集是数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。一些新闻组的主题相似，还有一些新闻组的主题不相关。本发明所采用的20News Group数据集组成如图3所示。实验中，通过统计每类中聚类正确的文本数来计算正确率(Accuracy)，并采用十折交叉验证法(10-Fold Cross-Validation)对聚类结果的正确率进行验证。具体地，将数据集分成10份，其中9份作为训练数据集，1份作为测试数据集。每次实验得出聚类结果正确率，用10次正确率的平均值评估算法性能。

Claims

1.基于拉普拉斯图谱的短文本聚类方法，具体包括以下步骤：

步骤1，对SSC和20 News Group短文本数据集使用NLTK自然语言处理工具包进行预处理，包括标记化分词、去除停用词、词性标注和词干提取；

步骤2，对步骤1预处理后的短文本数据集进行向量化表示和降维处理，具体如下：

步骤2.1，预处理的数据集表示为D={d _j|j=1,2,3,…,n}；数据集D中文本特征词语构成的集合C={t _i|i=1,2,3,…,m}；数据集D中第j个文本可以表示为d _j={(t ₁,w _j1),(t ₂,w _j2),…,(t _i,w _ji),…,(t _m,w _jm)}；

步骤2.2，采用TF-IDF方法，计算词频TF和逆文本频率指数IDF值；

步骤2.3，根据TF和IDF，得到特征词语t _i的TF-IDF权值；

步骤2.4，根据词语的TF-IDF权值，将文本数据集D转化为词频矩阵Q_n×m；

步骤2.5，根据词频矩阵Q，计算测试数据集的邻接矩阵A、度矩阵M和拉普拉斯矩阵L；

步骤2.6，将拉普拉斯矩阵L的前K个特征值，按照从小到大排序，得到对应的特征向量，组成矩阵R作为K-means算法的输入；

步骤3，对步骤2得到降维数据集，根据拉普拉斯矩阵特性，确定初始的聚类中心，根据拉普拉斯矩阵的特性选择初始聚类中心；通过步骤2中对文本数据集向量化表示并计算对应得拉普拉斯矩阵，依据拉普拉斯矩阵特征分解后特征值非负，对特征值按照大小排序，得到词语在文本中的重要性排序，对拉普拉斯矩阵的前K个特征值按照降序排序，将前K个特征值最大的特征向量作为初始聚类中心；K-means算法会迭代中不断更新聚类中心，聚类结果取决于K个初始聚类中心；基于拉普拉斯图谱的短文本聚类方法中，初始聚类中心依据拉普拉斯矩阵的特性决定；其具体步骤如下：

步骤3.1，将特征权值矩阵R的特征值从大到小进行排序；

步骤3.3，将前K个特征向量作为K-means算法的K个初始聚类中心；

步骤4，基于步骤3中的初始聚类中心，对预处理、向量化表示和降维处理后的短文本数据集进行K-means聚类，具体为：将数据集输入K-means聚类算法进行聚类，在聚类过程中计算拉普拉斯矩阵的特征值并从小到大排列，其对应的特征向量也按特征值递增排列，提取前K个特征值对应的特征向量进行K-means聚类，可得到相应的K个类别；

步骤5，通过对数据集注入噪声数据来检验所提出方法的鲁棒性，其具体步骤如下：

步骤5.1，对SSC数据集和20 News Group两个数据集人工加入噪音比例依次为5%、10%、15%、20%、25%、30%的噪音数据，得到12个含有不同比例噪音数据的数据集；

步骤5.2，通过在每个数据集上检测该基于拉普拉斯图谱的短文本聚类方法的正确率，查看正确率变化程度，检验该方法的鲁棒性。