CN114882262B - 一种基于拓扑流形的多视图聚类方法及系统 - Google Patents

一种基于拓扑流形的多视图聚类方法及系统 Download PDF

Info

Publication number
CN114882262B
CN114882262B CN202210495105.3A CN202210495105A CN114882262B CN 114882262 B CN114882262 B CN 114882262B CN 202210495105 A CN202210495105 A CN 202210495105A CN 114882262 B CN114882262 B CN 114882262B
Authority
CN
China
Prior art keywords
matrix
view
topological
objective function
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210495105.3A
Other languages
English (en)
Other versions
CN114882262A (zh
Inventor
黄树东
蔡和城
杨帆
刘权辉
叶庆
汤臣薇
冯文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210495105.3A priority Critical patent/CN114882262B/zh
Publication of CN114882262A publication Critical patent/CN114882262A/zh
Application granted granted Critical
Publication of CN114882262B publication Critical patent/CN114882262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于拓扑流形的多视图聚类方法与系统,通过采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;并根据相似度矩阵构建拓扑相关性矩阵,利用拓扑相关性矩阵构建各视图的共识图矩阵;基于各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数,并通过对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果;本发明实施例利用拓扑流形上的多视图数据所隐藏的拓扑相关性进行聚类,提升了多视图聚类性能;并避免了大多数聚类方法需要的后处理步骤导致的最优结果偏离,直接在统一的框架中得到显示得聚类结果;同时利用超参数提高了本方法的鲁棒性和稳定性。

Description

一种基于拓扑流形的多视图聚类方法及系统
技术领域
本发明涉及多视图聚类技术领域,具体涉及一种基于拓扑流形的多视图聚类方法及系统。
背景技术
在许多真实场景中,数据通常来自不同领域的不同来源,或者由不同的特征集(即视图)来描述。一个典型的例子是文档,它可以用不同的语言书写,却表达同样的意思。多视图聚类主要根据编码在异构特征中的兼容和互补信息,将数据划分为不同的簇,一直以来使无监督学习领域的热点话题。
近些年来,人们已经研究了许多视图聚类方法,其中面向图的多视图聚类方法占了很大比例。现有技术中包括多种聚类方法,例如,一种新的交替优化方案,使得每个视图的一致和不一致部分都可以被显式检测;例如在联合框架中同时利用多视图一致性和多视图多样性,由于提取多视图间相似性的高效率,核策略被广泛用于提高多视图聚类的学习性能;例如用给定的核矩阵来表达每个视图,并在分区的同时学习核的加权组合;例如将多视图核谱聚类表示为原始-对偶优化环境下的加权核典型相关分析,其中包含一个耦合项,以强制不同视图对应的聚类分数对齐。
尽管面向图的多视图聚类方法取得了不错的成果,但仍然存在一些缺点。首先这些方法在构建数据图时,仅当两个点相邻时才设置较高的相似度。但现实世界的数据往往是从非线性流形中采样的,它们可以通过连续的邻居进行连接,使得即使相距较远的数据点仍然保持较高的一致性。因此,这些方法不能充分研究流形上数据的潜在拓扑结构。其次,基于图论的优化不能直接产生聚类结果,因此必须进行后处理(例如,k-means),这使得结果偏离最优解。
现有技术中其他尚存多视图聚类方法只是考虑了空间上的距离与相似度,不能适应采集自流形的数据,导致在进行多视图聚类的时候,不能挖掘数据中潜在的拓扑结构,进而一定程度上影响了聚类性能。
发明内容
针对现有技术中的上述不足,本发明提供一种基于拓扑流形的多视图聚类方法及系统,弥补了基于拓扑流形上的多视图聚类方法的空缺,克服了现有的多视图聚类方法没有考虑到流形数据隐藏的拓扑结构,且需要后处理的问题。
为了达到上述发明目的,本发明采用的技术方案为:
一方面,一种基于拓扑流形的多视图聚类方法,包括以下分步骤:
S1、采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;
S2、根据相似度矩阵构建拓扑相关性矩阵;
S3、根据拓扑相关性矩阵构建各视图的共识图矩阵;
S4、根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数;
S5、对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果。
另一方面,一种基于拓扑流形的多视图聚类系统,包括:
数据采集预处理模块,用于采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;
拓扑相关性矩阵构建模块,用于根据相似度矩阵构建拓扑相关性矩阵;
共识图矩阵构建模块,用于根据拓扑相关性矩阵构建各视图的共识图矩阵;
基于拓扑流形的多视图聚类目标函数构建模块,用于根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数;
最优多视图聚类结果获取模块,用于对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果。
本发明具有以下有益效果:
通过采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;并根据相似度矩阵构建拓扑相关性矩阵,利用拓扑相关性矩阵构建各视图的共识图矩阵;基于各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数,并通过对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果;本发明实施例利用拓扑流形上的多视图数据所隐藏的拓扑相关性进行聚类,提升了多视图聚类性能;并避免了大多数聚类方法需要的后处理步骤导致的最优结果偏离,直接在统一的框架中得到显示得聚类结果;同时利用超参数提高了本方法的鲁棒性和稳定性,克服了现有的多视图聚类方法没有考虑到流形数据隐藏的拓扑结构,且需要后处理的问题。
附图说明
图1为本发明提供的一种基于拓扑流形的多视图聚类方法的步骤流程图;
图2为本发明实施例中3Sources文本数据集所对应的对比试验结果;
图3为本发明实施例中HW数据集所对应的对比试验结果;
图4为本发明实施例中Caltech101-7目标识别数据集所对应的对比试验结果;
图5为本发明实施例中Caltech101-20目标识别数据集所对应的对比试验结果;
图6为本发明实施例中HW数据集上不同算法的共识图;
图7为本发明实施例中不同参数设置下的聚类性能对比图;其中,图7(a) 为不同参数设置下的精确度对比图;图7(b)为不同参数设置下的归一化互信息对比图;图7(c)为不同参数设置下的纯度对比图;图7(d)为不同参数设置下的 F分数对比图;图7(e)为不同参数设置下的精度对比图;图7(f)为不同参数设置下的召回率对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一方面,一种基于拓扑流形的多视图聚类方法,包括以下分步骤:
S1、采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;
本发明实施例中,采集多视图数据并对多视图数据的进行标准化,根据标准化后的多视图数据得到各视图所对应的相似度矩阵。
S2、根据相似度矩阵构建拓扑相关性矩阵;
本发明实施例中,根据标准化后的多视图数据间的拓扑关系,学习构建该视图上的拓扑相关性矩阵;其中各视图所对应的相似度矩阵则为该多视图数据所包含的数据信息,其中多视图数据对应的相似度矩阵表示为: G(1),G(2),…,G(m),其中第v个视图所对应的相似度矩阵表示为:G(v),且满足行列数为n的全集,n为样本的个数,即:
优选地,步骤S2具体为:
根据各视图所对应的相似度矩阵构建各视图间基于拓扑相关性矩阵的目标函数,并以使得目标函数结果最小所对应的拓扑相关性矩阵,作为各视图的拓扑相关性矩阵;其中,基于各视图间拓扑相关性矩阵的目标函数表示为:
约束条件:
其中,为第v个视图上第i个数据样本与第k个数据样本间的相似度, m为视图总数,n为第v个视图上数据样本总数,/>为在第v个视图上,第i 个数据样本与第j个数据样本之间的拓扑相似度,/>为矩阵各项元素值的平方和,I为单位矩阵,Z(v)为在第v个视图上的拓扑相关性矩阵,/>为第v个视图的相似度矩阵所对应的度矩阵中第j行第j列个元素,/>为第v个视图的相似度矩阵所对应的度矩阵中第k行第k列个元素,α为第一平衡系数,/>为第v个视图上的拓扑相关性矩阵第i行第j列个元素;(.)T为矩阵转置;1为全为1的列向量。。
本发明实施例中,为矩阵各项元素值的平方和,可防止在第v个视图上的拓扑相关性矩阵Z(v)的平凡分解,即避免Z(v)的所有元素都是相同的。
S3、根据拓扑相关性矩阵构建各视图的共识图矩阵;
优选地,步骤S3具体为:
根据各拓扑相关性矩阵构建各视图间基于共识图矩阵的目标函数,并以使得目标函数结果最小所对应的共识图矩阵,作为各视图的共识图矩阵;其基于共识图矩阵的目标函数表示为:
约束条件:(si)T1=1,sij≥0,
其中,S为各视图的共识图矩阵,亦可表述为多视图数据每个视图的拓扑相似度矩阵乘以对应的权重求和后得到的共识图矩阵;μ(v)为基于在第v个视图上拓扑相关性矩阵的权重;m为视图总数;为矩阵各项元素值的平方和; (.)T为转置函数;rank(.)为秩约束;LS为基于共识图矩阵S的拉普拉斯矩阵;β为第二平衡参数;si为共识图矩阵S中第i行;n为第v个视图上数据样本总数, c为聚类的簇数。
本发明实施例中,为每个视图匹配权重,并利用权重得到共识图,即:各视图乘以权重并进行求和;其中,为共识图S的拉普拉斯阵LS添加秩约束,即: rank(LS)=n-c,以在共识图S中得到显示的聚类结果,可以避免共识图S需要进一步的聚类方法处理才能得到最终的聚类结果。
S4、根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数;
优选地,步骤S4中基于拓扑流形的多视图聚类目标函数表示为:
约束条件:
其中,F为拉普拉斯矩阵LS的特征矩阵;FT为拉普拉斯矩阵LS的特征矩阵的转置,λ为自调理参数,Tr(.)为秩函数。
本发明实施例中,第一项用来学习每个视图的拓扑相关性矩阵Z,第二项是Z的拟合约束,第三项是学习每个Z对应的权重μ,并融合成共识图矩阵S; D(v)为Z(v)的度矩阵,Z(v)除以D(v)的平方根是一个标准化处理,其中α,β是平衡两项的系数,作为超参数被人工输入两个固定的值,λ是自调整参数,只需输入一个非负值即可;m是视图的总数,n是样本总数;
其中,由于约束条件(rank(LS)=n-c)使得问题难以求解,在得到目标函数时将其做了变换处理,具体过程如下:
当原有的约束条件(rank(LS)=n-c)成立时,有再根据 Ky Fan定理,有
约束条件:FTF=I.
这样约束条件(rank(LS)=n-c),即可转化成目标函数中的第三部分 2λTr(FTLSF),以及新的约束条件FTF=I。
S5、对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果。
本发明实施例中,通过迭代优化策略求解目标函数,具体为使用交替迭代优化策略来搜索最的权重μ,拓扑相关性矩阵Z,共识图矩阵S,LS为S的拉普拉斯矩阵的特征矩阵。
优选地,步骤S5具体为:
A1、在预设权重阈值、预设拓扑相关性矩阵、预设共识图矩阵下,利用基于拓扑流形的多视图聚类目标函数更新拉普拉斯矩阵的特征矩阵,得到更新后的特征矩阵;
步骤A1中特征矩阵的更新式表示为:
其中,为横纵坐标分别为n、c的全集;Tr(.)为秩函数。
本发明实施例中,特征矩阵的更新式表示为:以满足最小基于特征矩阵 F、特征矩阵F的转置举证FT、拉普拉斯矩阵LS间矩阵乘积的秩的特征矩阵F 作为更新后的特征矩阵;在给定条件下的权重μ、拓扑相关性矩阵Z、共识图矩阵S下替换多视图聚类目标函数中与特征矩阵F无关的项,则可得到特征矩阵的更新式,这是一个经典的谱问题,此更新式的解为拉普拉斯矩阵LS的c个最小的特征值对应的特征向量。
A2、在预设权重阈值、预设特征矩阵、预设共识图矩阵下,利用基于拓扑流形的多视图聚类目标函数更新拓扑相关性矩阵,得到更新后的拓扑相关性矩阵;其中拓扑相关性矩阵的更新式表示为:
约束条件:
本发明实施例中,可将特征矩阵的更新式整理为:
约束条件:
其中,Iij为单位矩阵的第i行第j列元素;Sij为为矩阵S的第i行第j列元素;其中,矩阵Z(v)包含n行,对应样本总数n,表示第i个样本对应的第i行,对于每一行分别求解,将上述问题替换为向量形式,其中以第i行为例
约束条件:
定义矩阵向量b=2αei+ 2βμ(v)si,其中,D为G(v)的度矩阵;即可重新表示为:
上述算子可通过用ALM方法解决,对应式表示为:
该式的增广拉格朗日函数可表示为:
其中,p在逼近q为参数,η为惩罚系数;更新增广拉格朗日函数中p 与/>直到收敛,则可得到更新后的拓扑相关性矩阵;
其中,增广拉格朗日函数中p与的更新过程表示为:
1)根据更新p
2)求解更新/>具体的步骤与2.3中得优化方法一致。
3)更新η←ρη
4)更新
将矩阵的每一行组合起来即得到更新后的Z(v)
A3、在预设权重阈值、预设拓扑相关性矩阵、预设特征矩阵下,利用基于拓扑流形的多视图聚类目标函数更新共识图矩阵,得到更新后的共识图矩阵;其中共识图矩阵的更新式表示为:
约束条件:(si)T1=1,sij≥0
其中,λ为自调理参数;
本发明实施例中,在给定条件下的权重μ、拓扑相关性矩阵Z、特征矩阵F 下替换多视图聚类目标函数中与共识图矩阵S无关的项,则可得到共识图矩阵的更新式,根据共识图矩阵的更新式得到更新后的共识图矩阵的过程为:
对于不同的数据样本i为独立的,此共识图矩阵的更新式可修改为:
约束条件:(si)T1=1,sij≥0
进一步可替换为:
其中,hi为前式的压缩表达;si为矩阵S的第i行;基于上式,为了简洁表示用x表示对于每一个视图单独求解(去掉上标v),原式化为:
基于上式,可得拉格朗日函数为
进一步基于KKT条件可得:
其中,表示向量/>的第j个标量元素,/>为拉格朗日参数;
由于:(si)T1=1,
定义和/>
其中,γ*1为单位列向量,x为/>可知,此处x+=max(x,0);进而/>即可通过求解/>得到/>其中基于KKT条件,/>可进一步表示为:
定义函数并使之为0,最后可利用牛顿法解得其中,/>
以上,便可得到更新后的共识图矩阵。
A4、在预设拓扑相关性矩阵、预设共识图矩阵、预设特征矩阵下,利用基于拓扑流形的多视图聚类目标函数更新权重阈值,得到更新后的权重阈值;其中权重阈值的更新式表示为:
本发明实施例中,根据权重阈值的更新式得到更新后的权重阈值的过程为:
对于每一个视图,拉格朗日函数
其中,γ是第v个视图的拉格朗日乘数,对μ(v)求导,使其等于0,得到μ(v)的解:
A5、根据更新后的权重阈值、更新后的拓扑相关性矩阵、更新后的共识图矩阵以及更新后的特征矩阵计算更新后的多视图聚类目标函数值;
A6、判断更新后的多视图聚类目标函数值是否满足预设条件,若满足则结束迭代优化,得到最优多视图聚类结果;否则,以当前更新后的各阈值作为优化迭代的预设阈值,返回步骤A1。
本发明实施例中,预设条件为:最大迭代次数或更新后的多视图聚类目标函数值收敛;且,设置平衡参数为1,即:λ=α=γ=1。
另一方面,一种基于拓扑流形的多视图聚类系统,包括:
数据采集预处理模块,用于采集基于拓扑流形的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;
拓扑相关性矩阵构建模块,用于根据相似度矩阵构建拓扑相关性矩阵;
共识图矩阵构建模块,用于根据拓扑相关性矩阵构建各视图的共识图矩阵;
基于拓扑流形的多视图聚类目标函数构建模块,用于根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数;
最优多视图聚类结果获取模块,用于对基于拓扑流形的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果。
本发明实施例中提供的一种基于拓扑流形的多视图聚类系统包括上述基于拓扑流形的多视图聚类方法的全部有益效果;
即:
1)本发明考虑利用拓扑流形上的多视图数据所隐藏的拓扑相关性进行聚类,提升了多视图聚类性能;
2)避免了大多数聚类方法需要的后处理步骤导致的最优结果偏离,直接在统一的框架中得到显示得聚类结果;
3)设置超参数,提高了多视图聚类结果的鲁棒性和稳定性。
本发明实施例中进行现有技术中11种聚类算法的对比试验:
其中:11种聚类算法包括:
①谱聚类(SC)、②Co-trian、③Co-reg、④DiMSC、⑤WMSC、⑥AWP、⑦MCGC、⑧mPAC、⑨LMSC、⑩GMC、GDC;
并在四种不同场景下的数据集中进行对比试验;
包括:①3Sources文本数据集、②HandWritten手写数字识别数据集,即 HW数据集、Caltech101-7目标识别数据集、④Caltech101-20目标识别数据集;
1)聚类分析:
具体的:4个不同场景下的数据集上进行聚类试验,并将每个实验重复10 次,并计算其平均值和标准偏差以进行比较。值得注意的是最优的聚类性能已经被加粗;如图2至图5所示,很明显,本发明方法在大多数情况下实现了最佳性能,例如图2所示,七个指标除了归一化信息略微低于第二好的方法,其它指标均优于其它对比方法;这验证了本发明方法的有效性;
如图6所示在HW数据集上,DiMSC无法找到一致性图的块对角结构; MCGC能够学习到块对角结构,但对角块的数量不正确;LMSC可以找到正确的对角块数,但它已严重损坏;显然,本发明方法几乎得到了一个纯结构化的一致性图,具有更清晰的聚类结构,能正确地逼近真实的聚类结果
其中,使用7个聚类指标:标准化互信息(NMI)、精确度(ACC)、调整兰德系数(ARI)、F分数(F-score)、精度(Precision)、召回率(Recall)和纯度 (Purity)评估聚类的性能,其中各指标值越高表明聚类性能越好。
2)灵敏性分析:
参数λ可以以启发式的方式进行调整,将λ初始化为一个随机的正值(例如,λ=1),那么本发明方法中模型就可以能够自动将其减半或加倍;本发明方法能够在每次迭代中,当S的联通组件的数量大于或小于集群数c时,本发明方法中模型能够自动将其减半或加倍。因此,只需搜索参数α和β;α和β的范围为[0.05,0.1,0.5,1,2,5,10]。以数据集3Sources为例,在图7中可知看到本发明在不同的参数设置下的聚类性能是相对稳定的,在不同的参数设置下,可证明了本发明中模型的鲁棒性。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种基于拓扑流型的多视图聚类方法,其特征在于,包括以下步骤:
S1、采集基于拓扑流型的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;所述多视图数据包括文本数据或手写数字识别数据;
S2、根据相似度矩阵构建拓扑相关性矩阵;具体为:
根据各视图所对应的相似度矩阵构建各视图间基于拓扑相关性矩阵的目标函数,并以使得目标函数结果最小所对应的拓扑相关性矩阵,作为各视图的拓扑相关性矩阵;其中,基于各视图间拓扑相关性矩阵的目标函数表示为:
其中,为第v个视图上第j个数据样本与第k个数据样本间的相似度,m为视图总数,n为第v个视图上数据样本总数,/>为在第v个视图上,第i个数据样本与第j个数据样本之间的拓扑相似度,/>为矩阵各项元素值的平方和,/>为单位矩阵,/>为在第v个视图上的拓扑相关性矩阵,/>为第v个视图的相似度矩阵所对应的度矩阵中第/>行第/>列个元素,为第v个视图的相似度矩阵所对应的度矩阵中第k行第k列个元素,/>为第一平衡系数,为第v个视图上的拓扑相关性矩阵第/>行第/>列个元素;/>为矩阵转置;/>为全为1的列向量;
S3、根据拓扑相关性矩阵构建各视图的共识图矩阵;具体为:
根据各拓扑相关性矩阵构建各视图间基于共识图矩阵的目标函数,并以使得目标函数结果最小所对应的共识图矩阵,作为各视图的共识图矩阵;其基于共识图矩阵的目标函数表示为:
其中,为各视图的共识图矩阵;/>为基于在第v个视图上拓扑相关性矩阵的权重;m为视图总数;/>为矩阵各项元素值的平方和;/>为转置函数;/>为秩约束;/>为基于共识图矩阵/>的拉普拉斯矩阵;/>为第二平衡参数;/>为共识图矩阵/>中第i行;/>为第v个视图上数据样本总数,/>为聚类的簇数;
S4、根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流型的多视图聚类目标函数;其中基于拓扑流型的多视图聚类目标函数表示为:
其中,为拉普拉斯矩阵/>的特征矩阵;/>为拉普拉斯矩阵/>的特征矩阵的转置,/>为自调理参数,/>为秩函数;
S5、对基于拓扑流型的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果;具体为:
A1、在预设权重阈值、预设拓扑相关性矩阵、预设共识图矩阵下,利用基于拓扑流型的多视图聚类目标函数更新拉普拉斯矩阵的特征矩阵,得到更新后的特征矩阵;
A2、在预设权重阈值、预设特征矩阵、预设共识图矩阵下,利用基于拓扑流型的多视图聚类目标函数更新拓扑相关性矩阵,得到更新后的拓扑相关性矩阵;其中拓扑相关性矩阵的更新式表示为:
A3、在预设权重阈值、预设拓扑相关性矩阵、预设特征矩阵下,利用基于拓扑流型的多视图聚类目标函数更新共识图矩阵,得到更新后的共识图矩阵;其中共识图矩阵的更新式表示为:
A4、在预设拓扑相关性矩阵、预设共识图矩阵、预设特征矩阵下,利用基于拓扑流型的多视图聚类目标函数更新权重阈值,得到更新后的权重阈值;其中权重阈值的更新式表示为:
A5、根据更新后的权重阈值、更新后的拓扑相关性矩阵、更新后的共识图矩阵以及更新后的特征矩阵计算更新后的多视图聚类目标函数值;
A6、判断更新后的多视图聚类目标函数值是否满足预设条件,若满足则结束迭代优化,得到最优多视图聚类结果;否则,以当前更新后的各阈值作为优化迭代的预设阈值,返回步骤A1。
2.根据权利要求1中所述的基于拓扑流型的多视图聚类方法,其特征在于,步骤A1中特征矩阵的更新式表示为:
其中,为横纵坐标分别为nc的全集;/>为秩函数。
3.一种应用权利要求1所述方法的基于拓扑流型的多视图聚类系统,其特征在于,包括:
数据采集预处理模块,用于采集基于拓扑流型的多视图数据,并根据多视图数据得到各视图所对应的相似度矩阵;所述多视图数据包括文本数据或手写数字识别数据;
拓扑相关性矩阵构建模块,用于根据相似度矩阵构建拓扑相关性矩阵;
共识图矩阵构建模块,用于根据拓扑相关性矩阵构建各视图的共识图矩阵;
基于拓扑流型的多视图聚类目标函数构建模块,用于根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流型的多视图聚类目标函数;
最优多视图聚类结果获取模块,用于对基于拓扑流型的多视图聚类目标函数进行迭代优化,得到最优多视图聚类结果。
CN202210495105.3A 2022-05-07 2022-05-07 一种基于拓扑流形的多视图聚类方法及系统 Active CN114882262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210495105.3A CN114882262B (zh) 2022-05-07 2022-05-07 一种基于拓扑流形的多视图聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210495105.3A CN114882262B (zh) 2022-05-07 2022-05-07 一种基于拓扑流形的多视图聚类方法及系统

Publications (2)

Publication Number Publication Date
CN114882262A CN114882262A (zh) 2022-08-09
CN114882262B true CN114882262B (zh) 2024-01-26

Family

ID=82673689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210495105.3A Active CN114882262B (zh) 2022-05-07 2022-05-07 一种基于拓扑流形的多视图聚类方法及系统

Country Status (1)

Country Link
CN (1) CN114882262B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615014A (zh) * 2018-12-17 2019-04-12 清华大学 一种基于kl散度优化的数据分类系统与方法
CN109920050A (zh) * 2019-03-01 2019-06-21 中北大学 一种基于深度学习和薄板样条的单视图三维火焰重建方法
CN110990775A (zh) * 2019-11-28 2020-04-10 江苏理工学院 基于多流形对偶图正则化非负矩阵分解的多视图聚类方法
CN111626354A (zh) * 2020-05-27 2020-09-04 多伦科技股份有限公司 应用于车联网中的基于任务依赖性的聚类方法
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN113139556A (zh) * 2021-04-22 2021-07-20 扬州大学 基于自适应构图的流形多视图图像聚类方法及系统
CN114898167A (zh) * 2022-05-13 2022-08-12 四川大学 基于视图间差异性检测的多视图子空间聚类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615014A (zh) * 2018-12-17 2019-04-12 清华大学 一种基于kl散度优化的数据分类系统与方法
CN109920050A (zh) * 2019-03-01 2019-06-21 中北大学 一种基于深度学习和薄板样条的单视图三维火焰重建方法
CN110990775A (zh) * 2019-11-28 2020-04-10 江苏理工学院 基于多流形对偶图正则化非负矩阵分解的多视图聚类方法
CN111626354A (zh) * 2020-05-27 2020-09-04 多伦科技股份有限公司 应用于车联网中的基于任务依赖性的聚类方法
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN113139556A (zh) * 2021-04-22 2021-07-20 扬州大学 基于自适应构图的流形多视图图像聚类方法及系统
CN114898167A (zh) * 2022-05-13 2022-08-12 四川大学 基于视图间差异性检测的多视图子空间聚类方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CDD:Multi-view subspace clustering via cross-view diversity detection;shudong Huang;《Proceedings of the 29th ACM international conference on multimedia》;第2308-2316页 *
Latent Multi-view Subspace Clustering;Changqing Zhang等;《2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》;第4333-4341页 *
Multi-view clustering on topological manifold;Shudong Huang;《Proceedings of the AAAI Conference on Topological Manifold》;第36卷(第6期);第6944-6951页 *
基于异常值分析的多视图模糊聚类算法研究;郭呈怡;《中国硕士学位论文全文数据库信息科技辑》(第1期);第I138-1906页 *
基于深度图正则化矩阵分解的多视图聚类算法;刘相男等;《智能系统学报》;第17卷(第1期);第158-169页 *
面向多源异构数据的矩阵分解算法研究及应用;黄树东;《中国博士学位论文全文数据库信息科技辑》(第4期);第I140-5页 *
面向视图结构信息探索和多样性互补融合的多视图聚类;谭俊鹏;《中国硕士学位论文全文数据库信息科技辑》(第3期);第I138-1110页 *

Also Published As

Publication number Publication date
CN114882262A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
WO2021003951A1 (zh) 一种基于标签约束弹性网图模型的高光谱图像分类方法
CN108021930B (zh) 一种自适应的多视角图像分类方法及系统
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN106886793B (zh) 基于判别信息和流形信息的高光谱图像波段选择方法
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN109214429A (zh) 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN110348287A (zh) 一种基于字典和样本相似图的无监督特征选择方法和装置
CN113128600A (zh) 一种结构化深度非完整多视角聚类方法
CN112148911A (zh) 一种多视图本征低秩结构的图像聚类方法
CN105160598B (zh) 一种基于改进em算法的电网业务分类方法
CN114898167A (zh) 基于视图间差异性检测的多视图子空间聚类方法及系统
CN115311483A (zh) 基于局部结构与平衡感知的不完备多视图聚类方法及系统
CN112967755B (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN106845462A (zh) 基于三元组诱导的同时选择特征及聚类的人脸识别方法
CN114882262B (zh) 一种基于拓扑流形的多视图聚类方法及系统
CN111310807B (zh) 一种基于异质特征联合自表示的特征子空间与亲和矩阵联合学习方法
CN114692809A (zh) 基于神经集群的数据处理方法及装置、存储介质、处理器
CN107894967A (zh) 一种基于局部与全局正则化稀疏编码方法
CN105389560B (zh) 基于局部约束的图优化维数约简方法
CN106599801A (zh) 类内平均值最大相似性协作表示人脸识别方法
CN115601578A (zh) 基于自步学习与视图赋权的多视图聚类方法及系统
Yang et al. Robust landmark graph-based clustering for high-dimensional data
CN108875552A (zh) 基于约减字典低秩表示的异常检测方法
CN111967499B (zh) 基于自步学习的数据降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant