CN113837218A - 一种基于一步后融合多视图的文本聚类方法及系统 - Google Patents
一种基于一步后融合多视图的文本聚类方法及系统 Download PDFInfo
- Publication number
- CN113837218A CN113837218A CN202110940783.1A CN202110940783A CN113837218A CN 113837218 A CN113837218 A CN 113837218A CN 202110940783 A CN202110940783 A CN 202110940783A CN 113837218 A CN113837218 A CN 113837218A
- Authority
- CN
- China
- Prior art keywords
- matrix
- clustering
- optimizing
- representing
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 129
- 238000005457 optimization Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 229940050561 matrix product Drugs 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于一步后融合多视图的文本聚类方法及系统。其中涉及的一种基于一步后融合多视图的文本聚类方法,包括步骤:S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;S5.对得到最优矩阵进行聚类,实现聚类。
Description
技术领域
本发明涉及文本聚类的技术领域,尤其涉及一种基于一步后融合多视图的文本聚类方法及系统。
背景技术
文本聚类是指将一组文章或文本信息进行相似性比较,将相似度高的文章或文本信息归为同一组的技术。随着社会的发展和项目需求的变化,传统的文本聚类视图聚类方法已经不能满足人们对于数据信息量和聚类准确性的需求,越来越多的国内外学者将目光投向了多视图聚类算法的研究,以期从多视角对各种类型的聚类情况实现改进。
多视图聚类最大限度地利用一组预先计算的互补视图来提高聚类性能(Peng,X.,Huang,Z.,Lv,J.,Zhu,H.,and Zhou,J.T.COMIC:multi-view clustering withoutparameter selection.)。它已被深入研究并成功地应用于各种应用(Huang,Z.,Hu,P.,Zhou,J.T.,Lv,J.,and Peng,X.Partially view-aligned clustering.)。根据融合视图的方式不同,现有的MVC大致可以分为三类:特征拼接、多核聚类和后期融合MVC。第一类方法将来自不同视图的特征连接成高维表示,然后将其作为现有单视图聚类算法的输入来生成聚类标签。尽管简单且计算效率高,但这些方法通常表现出不令人满意的聚类性能,因为不同视图之间的互补信息不能被充分利用。通过遵循多核学习框架,第二类,即多核聚类,首先基于每个视图计算相似性(核)矩阵,然后最优地组合这些核矩阵以学习用于聚类的最优核矩阵。沿着这条路线,已经开发了许多变体(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion forkernel k-means clustering.)。在(Y u,S.,Tranchevent,L.-C.,Liu,X.,Gl¨anzel,W.,Suykens,J.A.K.,Moor,B.D.,and Moreau,Y.Optimized data fusion for kernel k-means clustering.)中的工作提出了一种三步交替算法来联合执行核聚类、系数优化和降维。在(G¨onen,M.and Margolin,A.A.Localized data fusion for kernel k-meansclustering with application to cancer biology.)中的工作开发了一个本地化的多核k均值(MKKM),其中每个样本的核权重是自适应的。在(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignmentmaximization.)中,将矩阵诱导正则化项引入到现有的MKKM中,以增强所选核矩阵的多样性并减少冗余。此外,局部核对齐准则(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiple kernel clustering with local kernel alignment maximization.)已被应用于多核学习以增强(Li,M.,Liu,X.,Wang,L.,Dou,Y.,Yin,J.,and Zhu,E.Multiplekernel clustering with local kernel alignment maximization.)中的聚类性能。第二类方法已经被深入研究并在各种应用中显示出优越的聚类性能。然而,它们的计算复杂度通常是样本数的立方,这使得它们无法进行中值或大规模聚类任务。为了降低多核聚类算法的计算成本,第三类提出了一种不同的MVC范式,称为后融合MVC。具体来说,这些方法首先通过用K_P执行核k-均值来计算聚类划分矩阵H_P,其中K_P表示第p个视图的成对样本相似性。之后,从具有线性计算复杂度的H_P(Wang,S.,Liu,X.,Zhu,E.,Tang,C.,Liu,J.,Hu,J.,Xia,J.,and Yin,J.Multi-view clustering via late fusion align-mentmaximization.)那里学习共识矩阵。除了显著降低的计算复杂度之外,最后一类方法通常在各种应用中表现出有希望的聚类性能。这些优势使得后期融合范式成为解决MVC的代表。
尽管基于后融合的多视图控制算法在聚类精度和计算复杂度方面都有显著提高,但我们观察到聚类标签的生成和一致性划分矩阵的学习是分开进行的。具体来说,学习的共识划分矩阵通常作为k均值的输入来生成聚类标签。正如所看到的,通过现有的后期融合MVC方法获得的共识矩阵可能不能最好地服务于聚类标签的生成,导致不令人满意的聚类性能。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于一步后融合多视图的文本聚类方法及系统。
为了实现以上目的,本发明采用以下技术方案:
一种基于一步后融合多视图的文本聚类方法,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
进一步的,所述步骤S2中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
进一步的,所述步骤S3中构建一致性矩阵和聚类标签的目标函数,表示为:
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;表示Wp的转置。
进一步的,所述步骤S4中通过交替优化方法求解构建的目标函数具体为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=arg max B(i,:),表示当B取最大值时i的取值;i表示数值的行数;
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数;
相应的,还提供一种基于一步后融合多视图的文本聚类系统,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
进一步的,所述分解模块中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
进一步的,所述构建模块中构建一致性矩阵和聚类标签的目标函数,表示为:
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;表示Wp的转置。
进一步的,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数;
与现有技术相比,本发明提出了一种直接优化聚类标签的OP-LFMVC算法,而不是一致划分矩阵;通过这种方式,OP-LFMVC增强了聚类标签生成和聚类优化之间的协商,且所得到的目标可以通过广泛使用的交替优化来解决;本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。
附图说明
图1是实施例一提供的一种基于一步后融合多视图的文本聚类方法流程图;
图2是实施例二提供的OP-LFMVC算法在所有基准数据集上的运行时间示意图;
图3是实施例二提供的随迭代次数增加,聚类性能的变化示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于一步后融合多视图的文本聚类方法及系统。
实施例一
本实施例提供一种基于一步后融合多视图的文本聚类方法,如图1所示,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
本实施例设计的是一种新的MVC算法,该算法将一致性矩阵的学习和聚类标签的生成统一起来。为了实现这一目标,本实施例提出将上述两个学习过程集成到一个统一的优化中,其中共识划分矩阵可以更好地服务于聚类标签的生成,而后者更有利于指导前者的学习。通过这种方式,这两个学习过程可以无缝连接以获得更好的解决方案,从而提高聚类性能。为了优化结果优化问题,我们开发了一个四步交替算法,并证明了其收敛性。此外,从理论上分析了该算法在未知样本上的聚类泛化误差。
在步骤S2中,将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵。
一致性聚类矩阵进行分解,表示为:
H=YC (1)
在步骤S3中,基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数。
通过结合公式(1),构建一致性矩阵和聚类标签OP-LFMVC的目标函数,表示为:
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;表示Wp的转置。
本实施例通过学习共识矩阵H,所的目标函数直接优化聚类标签。通过这种方式,聚类标签的学习和聚类可以相互协商以实现最优性,从而提高聚类性能。
在步骤S4中,通过交替优化方法求解构建的目标函数,得到最优矩阵。
本实施例采用交替优化的方法对公式(2)进行优化,在公式(2)中有四个变量有待优化,本实施例设计一个四步优化程序来交替求解,在每一步中,一个变量被优化,其他变量被固定。
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;通过这种方法优化Y的计算复杂度为O(n)。
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
公式(6)和公式(7)可以使用奇异值分解的方法高效求解,其计算复杂度为O(nk2)。
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
类似于公式(6),公式(8)也可以通过奇异值分解求解,计算复杂度为O(nk2)。
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数;
与现有技术相比,本实施例提出了一种直接优化聚类标签的OP-LFMVC算法,而不是一致划分矩阵;通过这种方式,OP-LFMVC增强了聚类标签生成和聚类优化之间的协商,且所得到的目标可以通过广泛使用的交替优化来解决;本发明使用全局拉德马赫复杂性分析为本方法导出了一个一般化界限。综合实验证明了该算法的有效性和高效性。
相应的,还提供一种基于一步后融合多视图的文本聚类系统,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
进一步的,所述分解模块中将得到的一致性聚类矩阵进行分解,表示为:
H=YC (1)
进一步的,所述构建模块中构建一致性矩阵和聚类标签的目标函数,表示为:
其中,CT表示C的转置;YT表示Y的转置;Wp表示第p个变换矩阵;β表示核的系数;βp表示第p个核的系数;Hp表示聚类划分矩阵;Ik表示单位矩阵;m表示p的上界;p表示0到n的任意整数;k表示聚类标签矩阵的列数;n表示聚类标签矩阵的行数;表示Wp的转置。
进一步的,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数;
实施例二
本实施例提供的一种基于一步后融合多视图的文本聚类方法与实施例一的不同之处在于:
本实施例在8个标准数据集上测试了本发明方法的聚类性能,包括Citeseer、Cora、Cal-20、Football、3Sources、BBC-Sport、Olympics和Politics8。
数据集的相关信息参见表1。
Dataset | Samples | Kernels | Clusters |
Citeseer | 3312 | 2 | 6 |
Cora | 2708 | 2 | 7 |
Cal-20 | 2386 | 6 | 20 |
Football | 248 | 9 | 20 |
3Sources | 169 | 3 | 6 |
BBCSport | 544 | 2 | 5 |
Olympics | 464 | 9 | 29 |
Politics8 | 419 | 9 | 5 |
表1所使用的数据集
对于所有数据集,假设已知聚类k的真实数量,并将其设置为类的真实数量。所有算法的聚类性能由四个广泛使用的指标来评估:聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)。对于所有比较的算法,为了通过k-means减轻随机性的不利影响,本实施例重复每个实验50次,并报告平均值和相应的标准偏差。最高的和没有统计差异的用粗体标出。
本实验采用平均多核聚类算法(A-MKKM)、多核k均值聚类(MKKM)、局部化的多核k均值聚类(LMKKM)、鲁棒的多核聚类(MKKM-MM)、带矩阵诱导正则化项的多核k均值聚类(MKKM-MR)、最优邻居多核聚类(ONKC)、基于后期融合的最大化对齐多视图聚类(MVC-LFA)、局部对齐最大化的多核聚类(LKAM)。在所有实验中,所有基准核首先被中心化和正则化。
表2
表2展示了在聚类精度(ACC)、归一化互信息(NMI)、纯度和兰德指数(RI)方面,对OP-LFMVC与八个数据集上的九种基线方法进行了实证评估和比较。黑体表示和最好的没有统计上的区别。根据该表可以观察到:1.所提出的算法在三种评价标准下,均优于所有对比算法。2.当在所有基准数据集上与多个核聚类算法进行比较时,LF-MVC显示出总体上更好的聚类性能,这表明后期融合优于基于核的融合。例如,根据足球数据集上的ACC,LF-MVC超过SMKKM(刘等人,2020)近10%。请注意,SMKKM被认为是多核聚类算法中最先进的。这些结果验证了后期融合范式在解决多视图聚类中的有效性。3.在所有基准数据集上,我们提出的算法在ACC方面分别超出第二好的数据集5.3%、8.4%、9.3%、3.5%、22.9%、9.9%、7.8%和2.8%。在其他标准方面的改进是相似的。这些结果很好地证明了联合学习聚类标签的优越性。
图2示出了OP-LFMVC算法在所有基准数据集上的运行时间其中,每个数据集下的柱状图从左到右依次为Avg-KKM、MKKM、LMKKM、ONKC、MKKM-MiR、LKAM、LF-MVC、MKKM-MM、SimpleMKKM、LSMKKM;图3示出了随迭代次数增加,聚类性能的变化。
为了评估所提出算法的计算效率,本实施例采用所有算法运行时间的对数。可以看出,与其他多视图算法相比,OP-LFMVC在所有数据集上的运行时间都要短得多,验证了其计算效率。总之,理论和实验结果都很好地证明了所提出算法的计算优势,使其能够有效地处理实际的多视图聚类任务。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种基于一步后融合多视图的文本聚类方法,其特征在于,包括步骤:
S1.获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
S2.将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
S3.基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
S4.通过交替优化方法求解构建的目标函数,得到最优矩阵;
S5.对得到最优矩阵进行聚类,实现聚类。
4.根据权利要求3所述的一种基于一步后融合多视图的文本聚类方法,其特征在于,所述步骤S4中通过交替优化方法求解构建的目标函数具体为:
maxYTr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
S43.优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数。
5.一种基于一步后融合多视图的文本聚类系统,其特征在于,包括:
获取模块,用于获取文本数据,并对获取的文本数据进行处理,得到一致性聚类矩阵;
分解模块,用于将得到的一致性聚类矩阵进行分解,得到分解后的一致性聚类矩阵;
构建模块,用于基于分解后的一致性聚类矩阵,构建一致性矩阵和聚类标签的目标函数;
求解模块,用于通过交替优化方法求解构建的目标函数,得到最优矩阵;
聚类模块,用于对得到最优矩阵进行聚类,实现聚类。
8.根据权利要求7所述的一种基于一步后融合多视图的文本聚类系统,其特征在于,所述求解模块中通过交替优化方法求解构建的目标函数具体为:
maxY Tr(YBT)s.t.Y∈{0,1}n×k (3)
其中,B表示公式(4)中的和;BT表示B的转置;
优化在公式(3)中的Y,表示为:
Y(i,j)=1 (5)
其中,j=argmaxB(i,:),表示当B取最大值时i的取值;i表示数值的行数;
maxC Tr(CTA)s.t.CTC=Ik (6)
其中,A表示Y的转置和加和的积;
第三优化模块,用于优化Wp,固定β、Y和C,优化公式(2)中的Wp,表示为:
αp=Tr(CTYTHpWp) (10)
优化公式(8),表示为:
其中,αp表示矩阵乘积的迹;q表示系数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110940783.1A CN113837218A (zh) | 2021-08-17 | 2021-08-17 | 一种基于一步后融合多视图的文本聚类方法及系统 |
PCT/CN2022/112152 WO2023020391A1 (zh) | 2021-08-17 | 2022-08-12 | 一种基于一步后融合多视图的文本聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110940783.1A CN113837218A (zh) | 2021-08-17 | 2021-08-17 | 一种基于一步后融合多视图的文本聚类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837218A true CN113837218A (zh) | 2021-12-24 |
Family
ID=78960581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110940783.1A Pending CN113837218A (zh) | 2021-08-17 | 2021-08-17 | 一种基于一步后融合多视图的文本聚类方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113837218A (zh) |
WO (1) | WO2023020391A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023020391A1 (zh) * | 2021-08-17 | 2023-02-23 | 浙江师范大学 | 一种基于一步后融合多视图的文本聚类方法及系统 |
CN116564534A (zh) * | 2023-04-03 | 2023-08-08 | 北京林业大学 | 中医临床数据的多视图聚类方法、装置及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253065A (zh) * | 2023-09-29 | 2023-12-19 | 哈尔滨理工大学 | 一种基于局部和全局锚图集成的非完备多视角场景图像数据聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145976A (zh) * | 2018-08-14 | 2019-01-04 | 聚时科技(上海)有限公司 | 一种基于最优邻居核的多视图聚类机器学习方法 |
CN109145975A (zh) * | 2018-08-14 | 2019-01-04 | 聚时科技(上海)有限公司 | 一种矩阵范数导出正则化的多视图聚类机器学习方法 |
CN110598740A (zh) * | 2019-08-08 | 2019-12-20 | 中国地质大学(武汉) | 一种基于多样性和一致性学习的谱嵌入多视图聚类方法 |
US20200074220A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Multi-view image clustering techniques using binary compression |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990265A (zh) * | 2021-02-09 | 2021-06-18 | 浙江师范大学 | 基于二部图的后期融合多视图聚类机器学习方法及系统 |
CN113837218A (zh) * | 2021-08-17 | 2021-12-24 | 浙江师范大学 | 一种基于一步后融合多视图的文本聚类方法及系统 |
-
2021
- 2021-08-17 CN CN202110940783.1A patent/CN113837218A/zh active Pending
-
2022
- 2022-08-12 WO PCT/CN2022/112152 patent/WO2023020391A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145976A (zh) * | 2018-08-14 | 2019-01-04 | 聚时科技(上海)有限公司 | 一种基于最优邻居核的多视图聚类机器学习方法 |
CN109145975A (zh) * | 2018-08-14 | 2019-01-04 | 聚时科技(上海)有限公司 | 一种矩阵范数导出正则化的多视图聚类机器学习方法 |
US20200074220A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Multi-view image clustering techniques using binary compression |
CN110598740A (zh) * | 2019-08-08 | 2019-12-20 | 中国地质大学(武汉) | 一种基于多样性和一致性学习的谱嵌入多视图聚类方法 |
Non-Patent Citations (3)
Title |
---|
LIU, XINWANG 等: "ONE PASS LATE FUSION MULTI-VIEW CLUSTERING", ONE PASS LATE FUSION MULTI-VIEW CLUSTERING, vol. 139, 24 July 2021 (2021-07-24), pages 6850 - 6859, XP093036360 * |
SHI YU 等: "Optimized Data Fusion for Kernel k-Means Clustering", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 5, 31 May 2012 (2012-05-31), pages 1031 - 1039, XP011436803, DOI: 10.1109/TPAMI.2011.255 * |
XINWANG LIU 等: "Multiple Kernel k-Means with Incomplete Kernels", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 42, no. 5, 31 May 2020 (2020-05-31), pages 1191 - 1204, XP011780949, DOI: 10.1109/TPAMI.2019.2892416 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023020391A1 (zh) * | 2021-08-17 | 2023-02-23 | 浙江师范大学 | 一种基于一步后融合多视图的文本聚类方法及系统 |
CN116564534A (zh) * | 2023-04-03 | 2023-08-08 | 北京林业大学 | 中医临床数据的多视图聚类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023020391A1 (zh) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Graph self-representation method for unsupervised feature selection | |
CN113837218A (zh) | 一种基于一步后融合多视图的文本聚类方法及系统 | |
Nie et al. | A general framework for auto-weighted feature selection via global redundancy minimization | |
Yoo et al. | Orthogonal nonnegative matrix tri-factorization for co-clustering: Multiplicative updates on stiefel manifolds | |
Wang et al. | Efficient and effective one-step multiview clustering | |
Yang et al. | Least squares recursive projection twin support vector machine for multi-class classification | |
Huang et al. | Spectral co-clustering ensemble | |
Zhang et al. | Locally discriminative coclustering | |
Ye et al. | Co-regularized kernel k-means for multi-view clustering | |
Wan et al. | Global and intrinsic geometric structure embedding for unsupervised feature selection | |
Zare et al. | Supervised feature selection via matrix factorization based on singular value decomposition | |
Zhong et al. | Self-taught multi-view spectral clustering | |
Lin et al. | Simultaneously learning feature-wise weights and local structures for multi-view subspace clustering | |
Yan et al. | From joint feature selection and self-representation learning to robust multi-view subspace clustering | |
CN113269231A (zh) | 一种基于局部核的最优邻居多核聚类方法及系统 | |
He et al. | A similarity matrix low-rank approximation and inconsistency separation fusion approach for multiview clustering | |
Tang et al. | Multi-view subspace clustering via adaptive graph learning and late fusion alignment | |
Guo et al. | Tensor-based adaptive consensus graph learning for multi-view clustering | |
Chen et al. | A novel twin support vector machine for binary classification problems | |
Moon et al. | Image patch analysis of sunspots and active regions-II. Clustering via matrix factorization | |
Sunitha et al. | Multi-class classification for large datasets with optimized SVM by non-linear kernel function | |
Deng et al. | Tensor envelope mixture model for simultaneous clustering and multiway dimension reduction | |
Wang et al. | Parallel multi-view concept clustering in distributed computing | |
Sun et al. | A scalable clustering-based local multi-label classification method | |
Diallo et al. | Concept-enhanced multi-view clustering of document data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |