CN112464638B

CN112464638B - 一种基于改进谱聚类算法的文本聚类方法

Info

Publication number: CN112464638B
Application number: CN202011464923.4A
Authority: CN
Inventors: 张校源; 马祥祥
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-12-30
Anticipated expiration: 2040-12-14
Also published as: WO2022126810A1; CN112464638A

Abstract

本发明涉及一种基于改进谱聚类算法的文本聚类方法，包括：对待聚类文档集依次进行分词、去停用词以及提取关键词处理；创建文本相似度矩阵、邻接矩阵、度矩阵以及拉普拉斯矩阵；计算拉普拉斯矩阵的特征值和特征向量，得到特征矩阵；采用经典聚类方法对特征矩阵进行聚类，得到对应的聚类结果；若已知类别个数，则结合聚类结果以及提取的关键词，基于TF‑IDF算法提取出类别关键词；若未知类别个数，则依次调整聚类参数，以得到对应的多个调整聚类结果，对多个调整聚类结果进行评估，选取出最优的聚类结果；输出聚类结果及对应的类别关键词。与现有技术相比，本发明针对已知或未知类别数的情况，能够对文本进行聚类，同时能够输出对应于各类别的关键词。

Description

一种基于改进谱聚类算法的文本聚类方法

技术领域

本发明涉及文本分析技术领域，尤其是涉及一种基于改进谱聚类算法的文本聚类方法。

背景技术

文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效组织、摘要和导航的重要手段，也被越来越多的研究人员所关注。

目前，文本聚类主要有几个方法：1、划分法；2、密度法；3、层次法，常用的聚类算法包括属于划分法中的kmeans、kmean++，属于密度法的DBscan以及属于层次方法的BIRCH算法，谱聚类算法是一种建立在谱图理论基础上的方法，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。谱聚类算法将数据集中的每个对象看作是图的顶点V，将顶点间的相似度量化作为相应顶点连接边E的权值，这样就得到一个基于相似度的无向加权图G(V,E)，于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大，子图之间的相似度最小。谱聚类算法有着不同的具体实现方法，但是这些实现方法都可以归纳为下面三个主要步骤：

1)构建表示对象集的相似度矩阵S；

2)计算度矩阵和拉普拉斯矩阵，构建特征向量空间；

3)利用Kmeans或其它经典聚类算法对特征向量空间中的特征向量进行聚类。

上述这些聚类方法只能在已知类别数的情况下进行文本聚类，并且无法给出聚类后的类别关键词，使得用户无法根据关键词直接获知此类别所要表达的主题内容，此外，现有的聚类方法计算得到的聚类结果大多存在精确率和召回率较低的问题，即聚类结果的准确度较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于改进谱聚类算法的文本聚类方法，针对已知或未知类别数的情况，能够对文本进行聚类，同时能够输出对应于各类别的关键词。

本发明的目的可以通过以下技术方案来实现：一种基于改进谱聚类算法的文本聚类方法，包括以下步骤：

S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理；

S2、根据提取的关键词，创建文本相似度矩阵；

S3、基于文本相似度矩阵构建邻接矩阵，基于邻接矩阵构建度矩阵；

S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵；

S5、计算拉普拉斯矩阵的特征值和特征向量，得到对应于待聚类文档集的特征矩阵；

S6、采用经典聚类方法对特征矩阵进行聚类，得到对应的聚类结果；

S7、若已知聚类的类别个数，则执行步骤S9；

若未知聚类的类别个数，则执行步骤S8；

S8、依次调整聚类参数，以确定对应的类别个数，之后返回执行步骤S3～S6，得到多个调整聚类结果，并对多个调整聚类结果进行评估，选取得到最优的聚类结果；

S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词，基于TF-IDF算法提取出类别关键词；

S10、输出聚类结果及对应的类别关键词。

进一步地，所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。

进一步地，所述步骤S2具体包括以下步骤：

S21、计算不同文本中各关键词的TF-IDF值，并将所有文本中各关键词的TF-IDF值放入词袋中；

S22、根据词袋中存入的所有文本中各关键词的TF-IDF值，计算得到各文本之间的相似度，利用各文本之间的相似度构建文本相似度矩阵。

进一步地，所述文本相似度矩阵具体为一个N*N的矩阵，该矩阵中的每个元素分别为不同文本之间的相似度。

进一步地，所述步骤S3具体包括以下步骤：

S31、基于文本相似度矩阵，采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W；

S32、根据邻接矩阵中的元素，构建一个对角矩阵，即得到度矩阵D。

进一步地，所述步骤S31中，若采用∈-邻近法，则邻接矩阵W具体为：

其中，w_ij为邻接矩阵W中第i行第j列元素，s_ij为文本相似度矩阵中元素x_i与元素x_j之间的欧式距离，∈为设定的距离阈值；

若采用K邻近法，则邻接矩阵W具体为：

其中，KNN(x_i)为元素x_i的K个近邻，KNN(x_j)为元素x_j的K个近邻，σ为方差；

若采用全连接法，则邻接矩阵W具体为：

进一步地，所述步骤S32中，度矩阵D具体为：

其中，d_i为度矩阵D中第i行位于主对角线上的元素，n为文本个数。

进一步地，所述步骤S4中拉普拉斯矩阵具体为：

L＝D-W

其中，L为拉普拉斯矩阵，D为度矩阵，W为邻接矩阵。

进一步地，所述步骤S5具体包括以下步骤：

S51、根据拉普拉斯矩阵的特征多项式，求解得到特征值；

S52、根据特征值，求解得到特征向量；

S53、根据类别个数，筛选出满足预设条件的特征值的数量为k，将特征向量降维到k，从而构建得到降维处理后的特征矩阵，其中，预设条件具体为特征值的数值小于(1-1/m)*0.95，m为类别个数。

进一步地，所述步骤S8具体是采用计算直方图的方式，以对多个调整聚类结果进行评估。

与现有技术相比，本发明具有以下优点：

一、本发明通过设置调整聚类参数的过程，实现对谱聚类算法的改进，以自主给出对应的类别个数，并通过对相应的调整聚类结果进行评估，能够选取出最优的聚类结果，从而确定对应的类别个数，以此实现对未知类别个数的文档集进行聚类的目的，使得用户只需提供文档集数据，基于本发明提出的方法，即可完成对文档集的类别区分工作。

二、本发明结合聚类结果以及提取的关键词，采用TF-IDF算法能够提取出对应于聚类结果的类别关键词，使得用户能够直观查看到不同类别文本对应的类别关键词，无需翻看文件内容即可获知该文本的主题内容。

三、本发明基于类别个数对特征值进行筛选，以将筛选的特征值个数作为降维的维度数，从而降维处理得到待聚类文档集对应的特征矩阵，能够大大降低后续聚类处理的复杂度，此外，本发明利用从待聚类文档集提取的关键词，以构建文本相似度矩阵，能够有效地对稀疏数据进行聚类。

附图说明

图1为本发明的方法流程示意图；

图2为实施例中文本聚类过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于改进谱聚类算法的文本聚类方法，包括以下步骤：

S2、根据提取的关键词，创建文本相似度矩阵；

S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵；

S7、若已知聚类的类别个数，则执行步骤S9；

若未知聚类的类别个数，则执行步骤S8；

S10、输出聚类结果及对应的类别关键词。

将上述方法应用于实际，具体工作过程如图2所示，从用户输入文档集至输出文本聚类结果，主要包括以下过程：

一、对输入的文档集进行分词、去停用词以及提取关键词处理

在对文本聚类之前，需要提取文本关键词，有两个原因：一是缩小创建文本相似矩阵的向量维度，二是在聚类完成后可根据文本关键词提取出类别关键词。在提取关键词时，通过词性过滤，主要保留了词性为名词、动词、动名词、人名、地名及机构名词等的关键词，以提高文本相似度的精确性。

二、通过提取出来的关键词创建文本相似度矩阵

通常计算文本相似度方法有余弦相似度、欧式距离、jaccard距离等方法，本发明采用构建词袋的方式来计算文本相似度，主要是计算文本下每个关键词的TF-IDF值，保存在一个类似袋子的地方，通过判断一个文本与另一个文本之间是否有相同的关键词，再利用词袋里的TF-IDF值计算文本之间的相似度，此种方法类似余弦距离计算方式，但是能够进一步减少计算量、达到提高效率的效果。得到的文本相似度矩阵就是一个N*N的矩阵，每个值都是文本与文本之间的相似度。

三、计算邻接矩阵(W)、度矩阵(D)和拉普拉斯矩阵(L)

邻接矩阵(W)：构建邻接矩阵的方法有三类：∈-邻近法、K邻近法和全连接法。其中，∈-邻近法，它设置了一个距离阈值∈，然后用欧式距离度量任意两点之间的距离。即有文本相似矩阵的欧式距离为：

其中，s_ij为文本相似度矩阵中元素x_i与元素x_j之间的欧式距离，根据s_ij和∈的大小关系，定义邻接矩阵W如下：

其中，w_ij为邻接矩阵W中第i行第j列元素；

K邻近法是只要一个点在另一个点的K近邻中，则保留s_ij，或两个点互为K近邻中，才能保留s_ij：

全连接法，相比前两种方法，全连接方法所有的点之间的权重值都大于0，因此称之为全连接法。可以选择不同的核函数来定义边权重，常用的有多项式核函数，高斯核函数和Sigmoid核函数。最常用的是高斯核函数RBF，此时相似矩阵和邻接矩阵相同：

度矩阵D是由邻接矩阵构建，度矩阵是一个对角矩阵，只有主对角线上有值，其他位置的值都为0。对角线上的值为本行所有值得和，即：

拉普拉斯矩阵是对称矩阵，由D和W都是对称矩阵而得，并且它的所有的特征值都是实数：

L＝D-W

其中，L为拉普拉斯矩阵，D为度矩阵，W为邻接矩阵。

四、计算特征值、特征向量和特征矩阵

根据拉普拉斯矩阵计算矩阵的特征值和特征向量，先根据拉普拉斯矩阵的特征多项式求解得到特征值，根据特征值求解特征向量，再通过聚类个数(m)判断特征值大小满足条件(具体是特征值的数值小于(1-1/m)*0.95)的个数，以作为降维的维度数，通过降维得到待聚类文档集的特征矩阵。

五、本实施例通过kmeans对特征矩阵进行聚类

在构建特征矩阵后，利用传统的经典聚类算法kmeans对特征矩阵进行聚类。谱聚类只需要文本之间的相似度矩阵，对处理稀疏数据比较有效，直接用kmeans很难做到；谱聚类使用了降维，处理高维数据时比直接使用kmeans效果要好。若直接传入聚类的类别个数，在通过kmeans聚类完成后即可跳过以下第六步骤，到第七步骤，直接提取类别关键词，完成聚类任务。若未传入具体聚类的类别个数，则需要通过第六步找到一个效果较好的聚类个数完成聚类，再进行关键词提取，完成聚类任务。

六、评估聚类效果

通过调整参数聚类个数，返回步骤三，重新获得聚类结果，并且评估聚类结果的直方图，找到一个效果最优直方图对应的聚类个数作为此次聚类任务的类别个数。

七、提取类别关键词

根据聚类结果和文本关键词通过TF-IDF算法提取出类别关键词，可根据类别关键词大致判断此类别所述内容。此类别关键词是基于此次聚类任务下几个类别计算的TF-IDF值提取的关键词，与非此次任务的文本数据无关。

八、整个流程结束，返回类别文本及类别关键词

本实施例应用本发明方法与kmeans、DBscan算法分别对四类数据进行聚类处理，其中，四类数据具体为：

数据1：

表1

数据2：

表2

类别名词	数量(篇)	平均大小(k)	其他说明
				测试	10	9	本类别及其他类别文本为本公司文本数据
方案	10	25
				最佳实践	10	17
指导文件	10	18

数据3(网络下载，由清华大学自然语言处理与社会人文计算实验室提供的新浪新闻数据，共14个新闻类别)：

表3

类别	数量(篇)
		财经	200
彩票	200
		房产	200
股票	200
		家具	200
教育	200
		科技	200
社会	200
		时尚	200
时政	200
		体育	200
星座	200
		娱乐	200

数据4(网络下载复旦大学李荣陆提供数据集，用于分类模型训练数据集)：

表4

类别	数量(篇)
		Art	800
Economy	800
		Politics	800
Space	800
		Sports	800
Agriculture	300
		Computer	300
Enviornment	300
		History	300

本实施例具体是利用上述四种数据，结合kmeans、DBscan算法以及本发明提出的方法测试得到精确率、召回率以及F1值，首先对这三个测试指标进行说明，根据混淆矩阵，假如现在有一个二分类问题，那么预测结果和实际结果两两结合会出现如下四种情况：

表5

由于用数字1、0表示不太方便阅读，转换为用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预测结果(P|N)，然后再针对实际结果对比预测结果，给出判断结果(T|F)。按照上面逻辑，重新分配后为：

表6

TP、FP、FN、TN可以理解为：

TP：预测为1，实际为1，预测正确；

FP：预测为1，实际为0，预测错误；

FN：预测为0，实际为1，预测错误；

TN：预测为0，实际为0，预测正确。

准确率：预测正确的结果占总样本的百分比，表达式为：

精确率：针对预测结果而言的，其含义是在被所有预测为正的样本中实际为正样本的概率，表达式为：

召回率：针对原样本而言的，其含义是在实际为正的样本中被预测为正样本的概率，表达式为：

F1分数表达式为：

对于数据1，在已知传入类别个数的情况下进行测试，测试结果如表7所示：

表7

由表7的数据可知，利用不同的聚类算法，传入固定的聚类个数时，本方法的精确率、召回率和F1值均优于kmeans算法和DBscan算法。

对于数据2，采用本发明提出的方法，分别在指定和未指定类别个数的情况下进行测试，测试结果如表8所示：

表8

是否指定聚类个数	聚类结果	精确率(％)	召回率(％)	F1值(％)
					指定聚类个数4	4个类别	96.2	93.7	94.9
未指定聚类个数	4个类别	96.2	93.7	94.9

由表8的数据可知，已知测试文档集有4类数据，在指定和不指定4个类别数据时，本方法的聚类结果都是4个类别，并且聚类效果较优。

对于数据3，在指定聚类个数的情况下测试本方法结果：

表9

聚类结果	精确率(％)	召回率(％)	F1值(％)
				14个类别	93.2	93	93

由表9的数据可知，当利用多个类别、数量较多的文档集进行测试时，在传入固定的类别个数情况下，本方法测试结果的平均精确率、平均召回率及平均F1值均超过90％，效果较优。

对于数据4，共进行了两次测试，第一次测试是利用所有9个类别，每个类别包含300个文本，共2700个文本进行测试，并对比kmean和DBscan测试结果如表10所示：

表10

算法	平均精确率(％)	平均召回率(％)	平均F1值(％)
				Kmeans	65.8	63.9	64.8
DBscan	52.3	49.5	50.86
				本方法	68.3	66.9	67.6

从测试数据看，本方法与kmeans方法对比后效果并没有特别突出，整体数据值相差不大；并且每个算法整体数据都不太高；经过抽查文本及聚类结果分析，发现此数据集中有个别不同类别的文本比较相似，有交叉的情况，比如：Enviorment(环境)类别与Agriculture(农业)类别中，有较多交叉文本，提取的关键词比较相似，也就是根据这些关键词会容易判断错误类别；

基于上面的分析，本实施例对数据4进行了测试数据优化，直接去掉了有文本交叉的类别数据，只用了9个类别中的5个类别(Art，Economy，Politics，Space，Sports)，每个类别800个数据，共4000个文本数据，做了第二次测试，数据结果如表11所示：

表11

算法	平均精确率(％)	平均召回率(％)	平均F1值(％)
				Kmeans	83.3	79.6	81.4
DBscan	63.2	65.8	64.5
				本方法	89.61	89.02	89.31

由表11和表10的数据可知，整体效果都有一定提高，对比数据4的两次测试结果，不管有没有对数据集进行优化，本方法效果都比kmeans和dbscan算法的效果要高。

综上所述，本发明在原谱聚类的基础上进行改进，一是可不指定聚类个数的情况下进行聚类；二是特征向量降维的维度数不是传入的聚类个数，而是取决于特征值里较小值的个数；三是聚类完成后可提取出类别关键词。主要流程是在构建好文本相似度矩阵后，通过调整参数聚类个数，计算出邻接矩阵(W)、度矩阵(D)和拉普拉斯矩阵(L)，再计算得到特征值和特征向量，通过判断特征值大小满足条件的个数k，把特征向量降维到k，构建成一个特征向量矩阵，利用其他经典聚类算法(比如：kmeans)对特征向量矩阵进行聚类，通过评估聚类效果选择聚类效果比较好的聚类个数，以达到在不传入聚类个数的情况下，聚类效果仍然能够满足需求，并保留原谱聚类方法中可指定聚类个数对文本集进行聚类的方法。不仅有利于用户对未知数据集进行聚类操作，还可以让用户在已知类别数的情况下进行文本聚类，同时在对文档集进行聚类的同时，提取出根据此聚类结果计算出的类别关键词，让用户能够根据关键词判断此类别所要表达的主题内容。通过测试，本发明的聚类效果也比传统的聚类算法在精确率和召回率上有一定的提高。

在实际应用中，采用本发明提出的方法，能够针对未知或已知类别个数的情况下，对文档集进行聚类，可以应用于客户想对一些未标注的文本集进行类别划分，并提取出类别下的关键词，可延伸精确应用于对未知类别敏感文档集进行聚类，然后再用这些有标注的敏感文档的关键词进行文档分类，以达到应用已知的敏感文件判断未知的文档是否属于敏感文件及判断所属的类别，并根据判断的敏感类别做出相应的反应。

在文本聚类时不仅可以对已知类别个数的文档集进行聚类，还可以对未知类别个数的文档集进行聚类，用户只要有文档集数据，都可以完成文档的类别区分工作；

对稀疏数据很有效，比传统聚类算法的效果好；对高维数据也使用了降维处理，聚类时的复杂度也比传统聚类算法好；

聚类结果的精确率和召回率比传统算法好，应用广泛，既可以处理未知类别文档集，又可以处理已知类别文档集。既可以对特定领域的文档集进行聚类处理(比如：已知敏感文件或机密文件等)，也可以对普通的文档集进行聚类操作。在聚类的基础上还可以查看类别关键词，在不用翻看每个文件内容的情况下就可以查看类别文本所讲的大致内容。并且可以用类别文本关键词创建文本分类模型，应用于文本分类。