CN113837218A

CN113837218A - 一种基于一步后融合多视图的文本聚类方法及系统

Info

Publication number: CN113837218A
Application number: CN202110940783.1A
Authority: CN
Inventors: 朱信忠; 徐慧英; 刘新旺; 李苗苗; 张毅; 殷建平
Original assignee: Dongguan University of Technology; Zhejiang Normal University CJNU
Current assignee: Dongguan University of Technology; Zhejiang Normal University CJNU
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-24
Also published as: WO2023020391A1

Abstract

本发明公开了一种基于一步后融合多视图的文本聚类方法及系统。其中涉及的一种基于一步后融合多视图的文本聚类方法，包括步骤：S1.获取文本数据，并对获取的文本数据进行处理，得到一致性聚类矩阵；S2.将得到的一致性聚类矩阵进行分解，得到分解后的一致性聚类矩阵；S3.基于分解后的一致性聚类矩阵，构建一致性矩阵和聚类标签的目标函数；S4.通过交替优化方法求解构建的目标函数，得到最优矩阵；S5.对得到最优矩阵进行聚类，实现聚类。

Description

一种基于一步后融合多视图的文本聚类方法及系统

技术领域

本发明涉及文本聚类的技术领域，尤其涉及一种基于一步后融合多视图的文本聚类方法及系统。

背景技术

文本聚类是指将一组文章或文本信息进行相似性比较，将相似度高的文章或文本信息归为同一组的技术。随着社会的发展和项目需求的变化，传统的文本聚类视图聚类方法已经不能满足人们对于数据信息量和聚类准确性的需求，越来越多的国内外学者将目光投向了多视图聚类算法的研究，以期从多视角对各种类型的聚类情况实现改进。

多视图聚类最大限度地利用一组预先计算的互补视图来提高聚类性能(Peng,X.,Huang,Z.,Lv,J.,Zhu,H.,and Zhou,J.T.COMIC:multi-view clustering withoutparameter selection.)。它已被深入研究并成功地应用于各种应用(Huang,Z.,Hu,P.,Zhou,J.T.,Lv,J.,and Peng,X.Partially view-aligned clustering.)。根据融合视图的方式不同，现有的MVC大致可以分为三类:特征拼接、多核聚类和后期融合MVC。第一类方法将来自不同视图的特征连接成高维表示，然后将其作为现有单视图聚类算法的输入来生成聚类标签。尽管简单且计算效率高，但这些方法通常表现出不令人满意的聚类性能，因为不同视图之间的互补信息不能被充分利用。通过遵循多核学习框架，第二类，即多核聚类，首先基于每个视图计算相似性(核)矩阵，然后最优地组合这些核矩阵以学习用于聚类的最优核矩阵。沿着这条路线，已经开发了许多变体(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion forkernel k-means clustering.)。在(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion for kernel k-means clustering.)中的工作提出了一种三步交替算法来联合执行核聚类、系数优化和降维。在(G¨onen,M.and Margolin,A.A.Localized data fusion for kernel k-meansclustering with application to cancer biology.)中的工作开发了一个本地化的多核k均值(MKKM)，其中每个样本的核权重是自适应的。在(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignmentmaximization.)中，将矩阵诱导正则化项引入到现有的MKKM中，以增强所选核矩阵的多样性并减少冗余。此外，局部核对齐准则(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignment maximization.)已被应用于多核学习以增强(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiplekernel clustering with local kernel alignment maximization.)中的聚类性能。第二类方法已经被深入研究并在各种应用中显示出优越的聚类性能。然而，它们的计算复杂度通常是样本数的立方，这使得它们无法进行中值或大规模聚类任务。为了降低多核聚类算法的计算成本，第三类提出了一种不同的MVC范式，称为后融合MVC。具体来说，这些方法首先通过用K_P执行核k-均值来计算聚类划分矩阵H_P，其中K_P表示第p个视图的成对样本相似性。之后，从具有线性计算复杂度的H_P(Wang,S.,Liu,X.,Zhu,E.,Tang,C.,Liu,J.,Hu,J.,Xia,J.,and Yin,J.Multi-view clustering via late fusion align-mentmaximization.)那里学习共识矩阵。除了显著降低的计算复杂度之外，最后一类方法通常在各种应用中表现出有希望的聚类性能。这些优势使得后期融合范式成为解决MVC的代表。

尽管基于后融合的多视图控制算法在聚类精度和计算复杂度方面都有显著提高，但我们观察到聚类标签的生成和一致性划分矩阵的学习是分开进行的。具体来说，学习的共识划分矩阵通常作为k均值的输入来生成聚类标签。正如所看到的，通过现有的后期融合MVC方法获得的共识矩阵可能不能最好地服务于聚类标签的生成，导致不令人满意的聚类性能。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于一步后融合多视图的文本聚类方法及系统。

为了实现以上目的，本发明采用以下技术方案：

一种基于一步后融合多视图的文本聚类方法，包括步骤：

S1.获取文本数据，并对获取的文本数据进行处理，得到一致性聚类矩阵；

S2.将得到的一致性聚类矩阵进行分解，得到分解后的一致性聚类矩阵；

S3.基于分解后的一致性聚类矩阵，构建一致性矩阵和聚类标签的目标函数；

S4.通过交替优化方法求解构建的目标函数，得到最优矩阵；

S5.对得到最优矩阵进行聚类，实现聚类。

进一步的，所述步骤S2中将得到的一致性聚类矩阵进行分解，表示为：

H＝YC (1)

其中，H表示一致性聚类矩阵；Y表示聚类标签矩阵，

表示k个质心。

进一步的，所述步骤S3中构建一致性矩阵和聚类标签的目标函数，表示为：

其中，C^T表示C的转置；Y^T表示Y的转置；W_p表示第p个变换矩阵；β表示核的系数；β_p表示第p个核的系数；H_p表示聚类划分矩阵；I_k表示单位矩阵；m表示p的上界；p表示0到n的任意整数；k表示聚类标签矩阵的列数；n表示聚类标签矩阵的行数；

表示W_p的转置。

进一步的，所述步骤S4中通过交替优化方法求解构建的目标函数具体为：

S41.优化Y，固定β、

和C，优化公式(2)中的Y，表示为：

max_Y Tr(YB^T)s.t.Y∈{0,1}^n×k (3)

其中，B表示公式(4)中的和；B^T表示B的转置；

优化在公式(3)中的Y，表示为：

Y(i,j)＝1 (5)

其中，j＝arg max B(i,:)，表示当B取最大值时i的取值；i表示数值的行数；

S42.优化C，固定\

和Y，优化公式(2)中的C，表示为：

max_C Tr(C^TA)s.t.C^TC＝I_k (6)

其中，A表示Y的转置和加和的积；

S43.优化W_p，固定β、Y和C，优化公式(2)中的W_p，表示为：

其中，

表示H_p的转置；

S44.优化β，固定Y、C和

优化公式(2)中的β，表示为：

α_p＝Tr(C^TY^TH_pW_p) (10)

优化公式(8)，表示为：

其中，α_p表示矩阵乘积的迹；q表示系数；

相应的，还提供一种基于一步后融合多视图的文本聚类系统，包括：

获取模块，用于获取文本数据，并对获取的文本数据进行处理，得到一致性聚类矩阵；

分解模块，用于将得到的一致性聚类矩阵进行分解，得到分解后的一致性聚类矩阵；

构建模块，用于基于分解后的一致性聚类矩阵，构建一致性矩阵和聚类标签的目标函数；

求解模块，用于通过交替优化方法求解构建的目标函数，得到最优矩阵；

聚类模块，用于对得到最优矩阵进行聚类，实现聚类。

进一步的，所述分解模块中将得到的一致性聚类矩阵进行分解，表示为：

H＝YC (1)

其中，H表示一致性聚类矩阵；Y表示聚类标签矩阵，

表示k个质心。

进一步的，所述构建模块中构建一致性矩阵和聚类标签的目标函数，表示为：

表示W_p的转置。

进一步的，所述求解模块中通过交替优化方法求解构建的目标函数具体为：

第一优化模块，用于优化Y，固定β、

和C，优化公式(2)中的Y，表示为：

max_Y Tr(YB^T)s.t.Y∈{0,1}^n×k (3)

其中，B表示公式(4)中的和；B^T表示B的转置；

优化在公式(3)中的Y，表示为：

Y(i,j)＝1 (5)

其中，j＝argmaxB(i,:)，表示当B取最大值时i的取值；i表示数值的行数；

第二优化模块，用于优化C，固定\

和Y，优化公式(2)中的C，表示为：

max_C Tr(C^TA)s.t.C^TC＝I_k (6)

其中，A表示Y的转置和加和的积；

第三优化模块，用于优化W_p，固定β、Y和C，优化公式(2)中的W_p，表示为：

其中，

表示H_p的转置；

第四优化模块，用于优化β，固定Y、C和

优化公式(2)中的β，表示为：

α_p＝Tr(C^TY^TH_pW_p) (10)

优化公式(8)，表示为：

其中，α_p表示矩阵乘积的迹；q表示系数；

与现有技术相比，本发明提出了一种直接优化聚类标签的OP-LFMVC算法，而不是一致划分矩阵；通过这种方式，OP-LFMVC增强了聚类标签生成和聚类优化之间的协商，且所得到的目标可以通过广泛使用的交替优化来解决；本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。

附图说明

图1是实施例一提供的一种基于一步后融合多视图的文本聚类方法流程图；

图2是实施例二提供的OP-LFMVC算法在所有基准数据集上的运行时间示意图；

图3是实施例二提供的随迭代次数增加，聚类性能的变化示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供一种基于一步后融合多视图的文本聚类方法，如图1所示，包括步骤：

S4.通过交替优化方法求解构建的目标函数，得到最优矩阵；

S5.对得到最优矩阵进行聚类，实现聚类。

本实施例设计的是一种新的MVC算法，该算法将一致性矩阵的学习和聚类标签的生成统一起来。为了实现这一目标，本实施例提出将上述两个学习过程集成到一个统一的优化中，其中共识划分矩阵可以更好地服务于聚类标签的生成，而后者更有利于指导前者的学习。通过这种方式，这两个学习过程可以无缝连接以获得更好的解决方案，从而提高聚类性能。为了优化结果优化问题，我们开发了一个四步交替算法，并证明了其收敛性。此外，从理论上分析了该算法在未知样本上的聚类泛化误差。

在步骤S2中，将得到的一致性聚类矩阵进行分解，得到分解后的一致性聚类矩阵。

一致性聚类矩阵进行分解，表示为：

H＝YC (1)

其中，H表示一致性聚类矩阵；Y∈{0,1}^n×k表示聚类标签矩阵，Y的每一行都有一个元素为1，其他元素为0；

表示k个质心。

在步骤S3中，基于分解后的一致性聚类矩阵，构建一致性矩阵和聚类标签的目标函数。

通过结合公式(1)，构建一致性矩阵和聚类标签OP-LFMVC的目标函数，表示为：

表示W_p的转置。

本实施例通过学习共识矩阵H，所的目标函数直接优化聚类标签。通过这种方式，聚类标签的学习和聚类可以相互协商以实现最优性，从而提高聚类性能。

在步骤S4中，通过交替优化方法求解构建的目标函数，得到最优矩阵。

本实施例采用交替优化的方法对公式(2)进行优化，在公式(2)中有四个变量有待优化，本实施例设计一个四步优化程序来交替求解，在每一步中，一个变量被优化，其他变量被固定。

S41.优化Y，固定β、

和C，优化公式(2)中的Y，表示为：

max_Y Tr(YB^T)s.t.Y∈{0,1}^n×k (3)

其中，B表示公式(4)中的和；B^T表示B的转置；

优化在公式(3)中的Y，表示为：

Y(i,j)＝1 (5)

其中，j＝argmaxB(i,:)，表示当B取最大值时i的取值；i表示数值的行数；通过这种方法优化Y的计算复杂度为O(n)。

S42.优化C，固定\

和Y，优化公式(2)中的C，表示为：

max_C Tr(C^TA)s.t.C^TC＝I_k (6)

其中，A表示Y的转置和加和的积；

公式(6)和公式(7)可以使用奇异值分解的方法高效求解，其计算复杂度为O(nk²)。

S43.优化W_p，固定β、Y和C，优化公式(2)中的W_p，表示为：

其中，

表示H_p的转置；

类似于公式(6)，公式(8)也可以通过奇异值分解求解，计算复杂度为O(nk²)。

S44.优化β，固定Y、C和

优化公式(2)中的β，表示为：

α_p＝Tr(C^TY^TH_pW_p) (10)

优化公式(8)，表示为：

其中，α_p表示矩阵乘积的迹；q表示系数；

与现有技术相比，本实施例提出了一种直接优化聚类标签的OP-LFMVC算法，而不是一致划分矩阵；通过这种方式，OP-LFMVC增强了聚类标签生成和聚类优化之间的协商，且所得到的目标可以通过广泛使用的交替优化来解决；本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。

聚类模块，用于对得到最优矩阵进行聚类，实现聚类。

H＝YC (1)

其中，H表示一致性聚类矩阵；Y表示聚类标签矩阵，

表示k个质心。

表示W_p的转置。

第一优化模块，用于优化Y，固定β、

和C，优化公式(2)中的Y，表示为：

max_Y Tr(YB^T)s.t.Y∈{0,1}^n×k (3)

其中，B表示公式(4)中的和；B^T表示B的转置；

优化在公式(3)中的Y，表示为：

Y(i,j)＝1 (5)

第二优化模块，用于优化C，固定\

和Y，优化公式(2)中的C，表示为：

max_C Tr(C^TA)s.t.C^TC＝I_k (6)

其中，A表示Y的转置和加和的积；

其中，

表示H_p的转置；

第四优化模块，用于优化β，固定Y、C和

优化公式(2)中的β，表示为：

α_p＝Tr(C^TY^TH_pW_p) (10)

优化公式(8)，表示为：

其中，α_p表示矩阵乘积的迹；q表示系数；

实施例二

本实施例提供的一种基于一步后融合多视图的文本聚类方法与实施例一的不同之处在于：

本实施例在8个标准数据集上测试了本发明方法的聚类性能，包括Citeseer、Cora、Cal-20、Football、3Sources、BBC-Sport、Olympics和Politics8。

数据集的相关信息参见表1。

Dataset	Samples	Kernels	Clusters
				Citeseer	3312	2	6
Cora	2708	2	7
				Cal-20	2386	6	20
Football	248	9	20
				3Sources	169	3	6
BBCSport	544	2	5
				Olympics	464	9	29
Politics8	419	9	5

表1所使用的数据集

对于所有数据集，假设已知聚类k的真实数量，并将其设置为类的真实数量。所有算法的聚类性能由四个广泛使用的指标来评估：聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)。对于所有比较的算法，为了通过k-means减轻随机性的不利影响，本实施例重复每个实验50次，并报告平均值和相应的标准偏差。最高的和没有统计差异的用粗体标出。

本实验采用平均多核聚类算法(A-MKKM)、多核k均值聚类(MKKM)、局部化的多核k均值聚类(LMKKM)、鲁棒的多核聚类(MKKM-MM)、带矩阵诱导正则化项的多核k均值聚类(MKKM-MR)、最优邻居多核聚类(ONKC)、基于后期融合的最大化对齐多视图聚类(MVC-LFA)、局部对齐最大化的多核聚类(LKAM)。在所有实验中，所有基准核首先被中心化和正则化。

表2

表2展示了在聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)方面，对OP-LFMVC与八个数据集上的九种基线方法进行了实证评估和比较。黑体表示和最好的没有统计上的区别。根据该表可以观察到：1.所提出的算法在三种评价标准下，均优于所有对比算法。2.当在所有基准数据集上与多个核聚类算法进行比较时，LF-MVC显示出总体上更好的聚类性能，这表明后期融合优于基于核的融合。例如，根据足球数据集上的ACC，LF-MVC超过SMKKM(刘等人，2020)近10％。请注意，SMKKM被认为是多核聚类算法中最先进的。这些结果验证了后期融合范式在解决多视图聚类中的有效性。3.在所有基准数据集上，我们提出的算法在ACC方面分别超出第二好的数据集5.3％、8.4％、9.3％、3.5％、22.9％、9.9％、7.8％和2.8％。在其他标准方面的改进是相似的。这些结果很好地证明了联合学习聚类标签的优越性。

图2示出了OP-LFMVC算法在所有基准数据集上的运行时间其中，每个数据集下的柱状图从左到右依次为Avg-KKM、MKKM、LMKKM、ONKC、MKKM-MiR、LKAM、LF-MVC、MKKM-MM、SimpleMKKM、LSMKKM；图3示出了随迭代次数增加，聚类性能的变化。

为了评估所提出算法的计算效率，本实施例采用所有算法运行时间的对数。可以看出，与其他多视图算法相比，OP-LFMVC在所有数据集上的运行时间都要短得多，验证了其计算效率。总之，理论和实验结果都很好地证明了所提出算法的计算优势，使其能够有效地处理实际的多视图聚类任务。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。