CN113837218A - 一种基于一步后融合多视图的文本聚类方法及系统 - Google Patents

一种基于一步后融合多视图的文本聚类方法及系统 Download PDF

Info

Publication number
CN113837218A
CN113837218A CN202110940783.1A CN202110940783A CN113837218A CN 113837218 A CN113837218 A CN 113837218A CN 202110940783 A CN202110940783 A CN 202110940783A CN 113837218 A CN113837218 A CN 113837218A
Authority
CN
China
Prior art keywords
matrix
clustering
optimizing
representing
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110940783.1A
Other languages
English (en)
Inventor
朱信忠
徐慧英
刘新旺
李苗苗
张毅
殷建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Zhejiang Normal University CJNU
Original Assignee
Dongguan University of Technology
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology, Zhejiang Normal University CJNU filed Critical Dongguan University of Technology
Priority to CN202110940783.1A priority Critical patent/CN113837218A/zh
Publication of CN113837218A publication Critical patent/CN113837218A/zh
Priority to PCT/CN2022/112152 priority patent/WO2023020391A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于一步后融合多视图的文本聚类方法及系统。其中涉及的一种基于一步后融合多视图的文本聚类方法,包括步骤:S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;S5.对得到最优矩阵进行聚类,实现聚类。

Description

一种基于一步后融合多视图的文本聚类方法及系统
技术领域
本发明涉及文本聚类的技术领域,尤其涉及一种基于一步后融合多视图的文本聚类方法及系统。
背景技术
文本聚类是指将一组文章或文本信息进行相似性比较,将相似度高的文章或文本信息归为同一组的技术。随着社会的发展和项目需求的变化,传统的文本聚类视图聚类方法已经不能满足人们对于数据信息量和聚类准确性的需求,越来越多的国内外学者将目光投向了多视图聚类算法的研究,以期从多视角对各种类型的聚类情况实现改进。
多视图聚类最大限度地利用一组预先计算的互补视图来提高聚类性能(Peng,X.,Huang,Z.,Lv,J.,Zhu,H.,and Zhou,J.T.COMIC:multi-view clustering withoutparameter selection.)。它已被深入研究并成功地应用于各种应用(Huang,Z.,Hu,P.,Zhou,J.T.,Lv,J.,and Peng,X.Partially view-aligned clustering.)。根据融合视图的方式不同,现有的MVC大致可以分为三类:特征拼接、多核聚类和后期融合MVC。第一类方法将来自不同视图的特征连接成高维表示,然后将其作为现有单视图聚类算法的输入来生成聚类标签。尽管简单且计算效率高,但这些方法通常表现出不令人满意的聚类性能,因为不同视图之间的互补信息不能被充分利用。通过遵循多核学习框架,第二类,即多核聚类,首先基于每个视图计算相似性(核)矩阵,然后最优地组合这些核矩阵以学习用于聚类的最优核矩阵。沿着这条路线,已经开发了许多变体(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion forkernel k-means clustering.)。在(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion for kernel k-means clustering.)中的工作提出了一种三步交替算法来联合执行核聚类、系数优化和降维。在(G¨onen,M.and Margolin,A.A.Localized data fusion for kernel k-meansclustering with application to cancer biology.)中的工作开发了一个本地化的多核k均值(MKKM),其中每个样本的核权重是自适应的。在(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignmentmaximization.)中,将矩阵诱导正则化项引入到现有的MKKM中,以增强所选核矩阵的多样性并减少冗余。此外,局部核对齐准则(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignment maximization.)已被应用于多核学习以增强(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiplekernel clustering with local kernel alignment maximization.)中的聚类性能。第二类方法已经被深入研究并在各种应用中显示出优越的聚类性能。然而,它们的计算复杂度通常是样本数的立方,这使得它们无法进行中值或大规模聚类任务。为了降低多核聚类算法的计算成本,第三类提出了一种不同的MVC范式,称为后融合MVC。具体来说,这些方法首先通过用K_P执行核k-均值来计算聚类划分矩阵H_P,其中K_P表示第p个视图的成对样本相似性。之后,从具有线性计算复杂度的H_P(Wang,S.,Liu,X.,Zhu,E.,Tang,C.,Liu,J.,Hu,J.,Xia,J.,and Yin,J.Multi-view clustering via late fusion align-mentmaximization.)那里学习共识矩阵。除了显著降低的计算复杂度之外,最后一类方法通常在各种应用中表现出有希望的聚类性能。这些优势使得后期融合范式成为解决MVC的代表。
尽管基于后融合的多视图控制算法在聚类精度和计算复杂度方面都有显著提高,但我们观察到聚类标签的生成和一致性划分矩阵的学习是分开进行的。具体来说,学习的共识划分矩阵通常作为k均值的输入来生成聚类标签。正如所看到的,通过现有的后期融合MVC方法获得的共识矩阵可能不能最好地服务于聚类标签的生成,导致不令人满意的聚类性能。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于一步后融合多视图的文本聚类方法及系统。
为了实现以上目的,本发明采用以下技术方案:
一种基于一步后融合多视图的文本聚类方法,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
进一步的,所述步骤S2中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y表示聚类标签矩阵,
Figure BDA0003214767000000031
表示k个质心。
进一步的,所述步骤S3中构建一致性矩阵和聚类标签的目标函数,表示为:
Figure BDA0003214767000000032
Figure BDA0003214767000000033
Figure BDA0003214767000000034
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure BDA0003214767000000035
表示Wp的转置。
进一步的,所述步骤S4中通过交替优化方法求解构建的目标函数具体为:
S41.优化Y,固定β、
Figure BDA0003214767000000036
和C,优化公式(2)中的Y,表示为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
Figure BDA0003214767000000037
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=arg max B(i,:),表示当B取最大值时i的取值;i表示数值的行数;
S42.优化C,固定\
Figure BDA0003214767000000041
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure BDA0003214767000000042
其中,A表示Y的转置和加和的积;
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure BDA0003214767000000043
其中,
Figure BDA0003214767000000044
表示Hp的转置;
S44.优化β,固定Y、C和
Figure BDA0003214767000000045
优化公式(2)中的β,表示为:
Figure BDA0003214767000000046
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure BDA0003214767000000047
其中,αp表示矩阵乘积的迹;q表示系数;
相应的,还提供一种基于一步后融合多视图的文本聚类系统,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
进一步的,所述分解模块中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y表示聚类标签矩阵,
Figure BDA0003214767000000048
表示k个质心。
进一步的,所述构建模块中构建一致性矩阵和聚类标签的目标函数,表示为:
Figure BDA0003214767000000051
Figure BDA0003214767000000052
Figure BDA0003214767000000053
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure BDA0003214767000000054
表示Wp的转置。
进一步的,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
第一优化模块,用于优化Y,固定β、
Figure BDA0003214767000000055
和C,优化公式(2)中的Y,表示为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
Figure BDA0003214767000000056
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
第二优化模块,用于优化C,固定\
Figure BDA0003214767000000057
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure BDA0003214767000000058
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure BDA0003214767000000059
其中,
Figure BDA00032147670000000510
表示Hp的转置;
第四优化模块,用于优化β,固定Y、C和
Figure BDA00032147670000000511
优化公式(2)中的β,表示为:
Figure BDA0003214767000000061
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure BDA0003214767000000062
其中,αp表示矩阵乘积的迹;q表示系数;
与现有技术相比,本发明提出了一种直接优化聚类标签的OP-LFMVC算法,而不是一致划分矩阵;通过这种方式,OP-LFMVC增强了聚类标签生成和聚类优化之间的协商,且所得到的目标可以通过广泛使用的交替优化来解决;本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。
附图说明
图1是实施例一提供的一种基于一步后融合多视图的文本聚类方法流程图;
图2是实施例二提供的OP-LFMVC算法在所有基准数据集上的运行时间示意图;
图3是实施例二提供的随迭代次数增加,聚类性能的变化示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于一步后融合多视图的文本聚类方法及系统。
实施例一
本实施例提供一种基于一步后融合多视图的文本聚类方法,如图1所示,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
本实施例设计的是一种新的MVC算法,该算法将一致性矩阵的学习和聚类标签的生成统一起来。为了实现这一目标,本实施例提出将上述两个学习过程集成到一个统一的优化中,其中共识划分矩阵可以更好地服务于聚类标签的生成,而后者更有利于指导前者的学习。通过这种方式,这两个学习过程可以无缝连接以获得更好的解决方案,从而提高聚类性能。为了优化结果优化问题,我们开发了一个四步交替算法,并证明了其收敛性。此外,从理论上分析了该算法在未知样本上的聚类泛化误差。
在步骤S2中,将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵。
一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y∈{0,1}n×k表示聚类标签矩阵,Y的每一行都有一个元素为1,其他元素为0;
Figure BDA0003214767000000071
表示k个质心。
在步骤S3中,基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数。
通过结合公式(1),构建一致性矩阵和聚类标签OP-LFMVC的目标函数,表示为:
Figure BDA0003214767000000072
Figure BDA0003214767000000073
Figure BDA0003214767000000074
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure BDA0003214767000000081
表示Wp的转置。
本实施例通过学习共识矩阵H,所的目标函数直接优化聚类标签。通过这种方式,聚类标签的学习和聚类可以相互协商以实现最优性,从而提高聚类性能。
在步骤S4中,通过交替优化方法求解构建的目标函数,得到最优矩阵。
本实施例采用交替优化的方法对公式(2)进行优化,在公式(2)中有四个变量有待优化,本实施例设计一个四步优化程序来交替求解,在每一步中,一个变量被优化,其他变量被固定。
S41.优化Y,固定β、
Figure BDA0003214767000000082
和C,优化公式(2)中的Y,表示为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
Figure BDA0003214767000000083
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;通过这种方法优化Y的计算复杂度为O(n)。
S42.优化C,固定\
Figure BDA0003214767000000084
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure BDA0003214767000000085
其中,A表示Y的转置和加和的积;
公式(6)和公式(7)可以使用奇异值分解的方法高效求解,其计算复杂度为O(nk2)。
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure BDA0003214767000000086
其中,
Figure BDA0003214767000000087
表示Hp的转置;
类似于公式(6),公式(8)也可以通过奇异值分解求解,计算复杂度为O(nk2)。
S44.优化β,固定Y、C和
Figure BDA0003214767000000091
优化公式(2)中的β,表示为:
Figure BDA0003214767000000092
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure BDA0003214767000000093
其中,αp表示矩阵乘积的迹;q表示系数;
与现有技术相比,本实施例提出了一种直接优化聚类标签的OP-LFMVC算法,而不是一致划分矩阵;通过这种方式,OP-LFMVC增强了聚类标签生成和聚类优化之间的协商,且所得到的目标可以通过广泛使用的交替优化来解决;本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。
相应的,还提供一种基于一步后融合多视图的文本聚类系统,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
进一步的,所述分解模块中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y表示聚类标签矩阵,
Figure BDA0003214767000000094
表示k个质心。
进一步的,所述构建模块中构建一致性矩阵和聚类标签的目标函数,表示为:
Figure BDA0003214767000000095
Figure BDA0003214767000000101
Figure BDA0003214767000000102
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure BDA0003214767000000103
表示Wp的转置。
进一步的,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
第一优化模块,用于优化Y,固定β、
Figure BDA0003214767000000104
和C,优化公式(2)中的Y,表示为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
Figure BDA0003214767000000105
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
第二优化模块,用于优化C,固定\
Figure BDA0003214767000000106
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure BDA0003214767000000107
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure BDA0003214767000000108
其中,
Figure BDA0003214767000000109
表示Hp的转置;
第四优化模块,用于优化β,固定Y、C和
Figure BDA00032147670000001010
优化公式(2)中的β,表示为:
Figure BDA00032147670000001011
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure BDA0003214767000000111
其中,αp表示矩阵乘积的迹;q表示系数;
实施例二
本实施例提供的一种基于一步后融合多视图的文本聚类方法与实施例一的不同之处在于:
本实施例在8个标准数据集上测试了本发明方法的聚类性能,包括Citeseer、Cora、Cal-20、Football、3Sources、BBC-Sport、Olympics和Politics8。
数据集的相关信息参见表1。
Dataset Samples Kernels Clusters
Citeseer 3312 2 6
Cora 2708 2 7
Cal-20 2386 6 20
Football 248 9 20
3Sources 169 3 6
BBCSport 544 2 5
Olympics 464 9 29
Politics8 419 9 5
表1所使用的数据集
对于所有数据集,假设已知聚类k的真实数量,并将其设置为类的真实数量。所有算法的聚类性能由四个广泛使用的指标来评估:聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)。对于所有比较的算法,为了通过k-means减轻随机性的不利影响,本实施例重复每个实验50次,并报告平均值和相应的标准偏差。最高的和没有统计差异的用粗体标出。
本实验采用平均多核聚类算法(A-MKKM)、多核k均值聚类(MKKM)、局部化的多核k均值聚类(LMKKM)、鲁棒的多核聚类(MKKM-MM)、带矩阵诱导正则化项的多核k均值聚类(MKKM-MR)、最优邻居多核聚类(ONKC)、基于后期融合的最大化对齐多视图聚类(MVC-LFA)、局部对齐最大化的多核聚类(LKAM)。在所有实验中,所有基准核首先被中心化和正则化。
Figure BDA0003214767000000121
表2
表2展示了在聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)方面,对OP-LFMVC与八个数据集上的九种基线方法进行了实证评估和比较。黑体表示和最好的没有统计上的区别。根据该表可以观察到:1.所提出的算法在三种评价标准下,均优于所有对比算法。2.当在所有基准数据集上与多个核聚类算法进行比较时,LF-MVC显示出总体上更好的聚类性能,这表明后期融合优于基于核的融合。例如,根据足球数据集上的ACC,LF-MVC超过SMKKM(刘等人,2020)近10%。请注意,SMKKM被认为是多核聚类算法中最先进的。这些结果验证了后期融合范式在解决多视图聚类中的有效性。3.在所有基准数据集上,我们提出的算法在ACC方面分别超出第二好的数据集5.3%、8.4%、9.3%、3.5%、22.9%、9.9%、7.8%和2.8%。在其他标准方面的改进是相似的。这些结果很好地证明了联合学习聚类标签的优越性。
图2示出了OP-LFMVC算法在所有基准数据集上的运行时间其中,每个数据集下的柱状图从左到右依次为Avg-KKM、MKKM、LMKKM、ONKC、MKKM-MiR、LKAM、LF-MVC、MKKM-MM、SimpleMKKM、LSMKKM;图3示出了随迭代次数增加,聚类性能的变化。
为了评估所提出算法的计算效率,本实施例采用所有算法运行时间的对数。可以看出,与其他多视图算法相比,OP-LFMVC在所有数据集上的运行时间都要短得多,验证了其计算效率。总之,理论和实验结果都很好地证明了所提出算法的计算优势,使其能够有效地处理实际的多视图聚类任务。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于一步后融合多视图的文本聚类方法,其特征在于,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
2.根据权利要求1所述的一种基于一步后融合多视图的文本聚类方法,其特征在于,所述步骤S2中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y表示聚类标签矩阵,
Figure FDA0003214766990000011
表示k个质心。
3.根据权利要求2所述的一种基于一步后融合多视图的文本聚类方法,其特征在于,所述步骤S3中构建一致性矩阵和聚类标签的目标函数,表示为:
Figure FDA0003214766990000012
Figure FDA0003214766990000013
Figure FDA0003214766990000014
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure FDA0003214766990000015
表示Wp的转置。
4.根据权利要求3所述的一种基于一步后融合多视图的文本聚类方法,其特征在于,所述步骤S4中通过交替优化方法求解构建的目标函数具体为:
S41.优化Y,固定β、
Figure FDA0003214766990000016
和C,优化公式(2)中的Y,表示为:
maxYTr(YBT)s.t.Y∈{0,1}n×k (3)
Figure FDA0003214766990000017
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
S42.优化C,固定\
Figure FDA0003214766990000021
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure FDA0003214766990000022
其中,A表示Y的转置和加和的积;
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure FDA0003214766990000023
其中,
Figure FDA0003214766990000024
表示Hp的转置;
S44.优化β,固定Y、C和
Figure FDA0003214766990000025
优化公式(2)中的β,表示为:
Figure FDA0003214766990000026
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure FDA0003214766990000027
其中,αp表示矩阵乘积的迹;q表示系数。
5.一种基于一步后融合多视图的文本聚类系统,其特征在于,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
6.根据权利要求5所述的一种基于一步后融合多视图的文本聚类系统,其特征在于,所述分解模块中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
其中,H表示一致性聚类矩阵;Y表示聚类标签矩阵,
Figure FDA0003214766990000031
表示k个质心。
7.根据权利要求62所述的一种基于一步后融合多视图的文本聚类系统,其特征在于,所述构建模块中构建一致性矩阵和聚类标签的目标函数,表示为:
Figure FDA0003214766990000032
Figure FDA0003214766990000033
Figure FDA0003214766990000034
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;
Figure FDA0003214766990000035
表示Wp的转置。
8.根据权利要求7所述的一种基于一步后融合多视图的文本聚类系统,其特征在于,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
第一优化模块,用于优化Y,固定β、
Figure FDA0003214766990000036
和C,优化公式(2)中的Y,表示为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
Figure FDA0003214766990000037
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
第二优化模块,用于优化C,固定\
Figure FDA0003214766990000038
和Y,优化公式(2)中的C,表示为:
maxC Tr(CTA)s.t.CTC=Ik (6)
Figure FDA0003214766990000039
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
Figure FDA0003214766990000041
其中,
Figure FDA0003214766990000042
表示Hp的转置;
第四优化模块,用于优化β,固定Y、C和
Figure FDA0003214766990000043
优化公式(2)中的β,表示为:
Figure FDA0003214766990000044
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
Figure FDA0003214766990000045
其中,αp表示矩阵乘积的迹;q表示系数。
CN202110940783.1A 2021-08-17 2021-08-17 一种基于一步后融合多视图的文本聚类方法及系统 Pending CN113837218A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110940783.1A CN113837218A (zh) 2021-08-17 2021-08-17 一种基于一步后融合多视图的文本聚类方法及系统
PCT/CN2022/112152 WO2023020391A1 (zh) 2021-08-17 2022-08-12 一种基于一步后融合多视图的文本聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940783.1A CN113837218A (zh) 2021-08-17 2021-08-17 一种基于一步后融合多视图的文本聚类方法及系统

Publications (1)

Publication Number Publication Date
CN113837218A true CN113837218A (zh) 2021-12-24

Family

ID=78960581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940783.1A Pending CN113837218A (zh) 2021-08-17 2021-08-17 一种基于一步后融合多视图的文本聚类方法及系统

Country Status (2)

Country Link
CN (1) CN113837218A (zh)
WO (1) WO2023020391A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023020391A1 (zh) * 2021-08-17 2023-02-23 浙江师范大学 一种基于一步后融合多视图的文本聚类方法及系统
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253065A (zh) * 2023-09-29 2023-12-19 哈尔滨理工大学 一种基于局部和全局锚图集成的非完备多视角场景图像数据聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145976A (zh) * 2018-08-14 2019-01-04 聚时科技(上海)有限公司 一种基于最优邻居核的多视图聚类机器学习方法
CN109145975A (zh) * 2018-08-14 2019-01-04 聚时科技(上海)有限公司 一种矩阵范数导出正则化的多视图聚类机器学习方法
CN110598740A (zh) * 2019-08-08 2019-12-20 中国地质大学(武汉) 一种基于多样性和一致性学习的谱嵌入多视图聚类方法
US20200074220A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Multi-view image clustering techniques using binary compression

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990265A (zh) * 2021-02-09 2021-06-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统
CN113837218A (zh) * 2021-08-17 2021-12-24 浙江师范大学 一种基于一步后融合多视图的文本聚类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145976A (zh) * 2018-08-14 2019-01-04 聚时科技(上海)有限公司 一种基于最优邻居核的多视图聚类机器学习方法
CN109145975A (zh) * 2018-08-14 2019-01-04 聚时科技(上海)有限公司 一种矩阵范数导出正则化的多视图聚类机器学习方法
US20200074220A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Multi-view image clustering techniques using binary compression
CN110598740A (zh) * 2019-08-08 2019-12-20 中国地质大学(武汉) 一种基于多样性和一致性学习的谱嵌入多视图聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIU, XINWANG 等: "ONE PASS LATE FUSION MULTI-VIEW CLUSTERING", ONE PASS LATE FUSION MULTI-VIEW CLUSTERING, vol. 139, 24 July 2021 (2021-07-24), pages 6850 - 6859, XP093036360 *
SHI YU 等: "Optimized Data Fusion for Kernel k-Means Clustering", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 5, 31 May 2012 (2012-05-31), pages 1031 - 1039, XP011436803, DOI: 10.1109/TPAMI.2011.255 *
XINWANG LIU 等: "Multiple Kernel k-Means with Incomplete Kernels", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 42, no. 5, 31 May 2020 (2020-05-31), pages 1191 - 1204, XP011780949, DOI: 10.1109/TPAMI.2019.2892416 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023020391A1 (zh) * 2021-08-17 2023-02-23 浙江师范大学 一种基于一步后融合多视图的文本聚类方法及系统
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备

Also Published As

Publication number Publication date
WO2023020391A1 (zh) 2023-02-23

Similar Documents

Publication Publication Date Title
Hu et al. Graph self-representation method for unsupervised feature selection
CN113837218A (zh) 一种基于一步后融合多视图的文本聚类方法及系统
Nie et al. A general framework for auto-weighted feature selection via global redundancy minimization
Yoo et al. Orthogonal nonnegative matrix tri-factorization for co-clustering: Multiplicative updates on stiefel manifolds
Wang et al. Efficient and effective one-step multiview clustering
Yang et al. Least squares recursive projection twin support vector machine for multi-class classification
Huang et al. Spectral co-clustering ensemble
Zhang et al. Locally discriminative coclustering
Ye et al. Co-regularized kernel k-means for multi-view clustering
Wan et al. Global and intrinsic geometric structure embedding for unsupervised feature selection
Zare et al. Supervised feature selection via matrix factorization based on singular value decomposition
Zhong et al. Self-taught multi-view spectral clustering
Lin et al. Simultaneously learning feature-wise weights and local structures for multi-view subspace clustering
Yan et al. From joint feature selection and self-representation learning to robust multi-view subspace clustering
CN113269231A (zh) 一种基于局部核的最优邻居多核聚类方法及系统
He et al. A similarity matrix low-rank approximation and inconsistency separation fusion approach for multiview clustering
Tang et al. Multi-view subspace clustering via adaptive graph learning and late fusion alignment
Guo et al. Tensor-based adaptive consensus graph learning for multi-view clustering
Chen et al. A novel twin support vector machine for binary classification problems
Moon et al. Image patch analysis of sunspots and active regions-II. Clustering via matrix factorization
Sunitha et al. Multi-class classification for large datasets with optimized SVM by non-linear kernel function
Deng et al. Tensor envelope mixture model for simultaneous clustering and multiway dimension reduction
Wang et al. Parallel multi-view concept clustering in distributed computing
Sun et al. A scalable clustering-based local multi-label classification method
Diallo et al. Concept-enhanced multi-view clustering of document data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination