CN109214429B - 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法 - Google Patents

基于矩阵引导正则化的局部缺失多视图聚类机器学习方法 Download PDF

Info

Publication number
CN109214429B
CN109214429B CN201810924243.2A CN201810924243A CN109214429B CN 109214429 B CN109214429 B CN 109214429B CN 201810924243 A CN201810924243 A CN 201810924243A CN 109214429 B CN109214429 B CN 109214429B
Authority
CN
China
Prior art keywords
clustering
matrix
regularization
guided
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810924243.2A
Other languages
English (en)
Other versions
CN109214429A (zh
Inventor
郑军
刘新旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Matrixtime Robotics Shanghai Co ltd
Original Assignee
Matrixtime Robotics Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matrixtime Robotics Shanghai Co ltd filed Critical Matrixtime Robotics Shanghai Co ltd
Priority to CN201810924243.2A priority Critical patent/CN109214429B/zh
Publication of CN109214429A publication Critical patent/CN109214429A/zh
Application granted granted Critical
Publication of CN109214429B publication Critical patent/CN109214429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法,该方法将填充与聚类相融合,在聚类的引导下填充缺失核,用填充的核进行聚类,并在填充缺失核时,同时引入矩阵引导的正则化,该方法具体步骤包括:1)获取目标数据样本和聚类目标数,将所述目标数据样本映射至多核空间;2)引入矩阵引导的正则化,建立正则化的局部缺失多核k‑均值聚类优化目标函数;3)采用循环方式求解所述正则化的局部缺失多核k‑均值聚类优化目标函数,实现聚类。与现有技术相比,本发明具有聚类效果好、计算量低等优点。

Description

基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种多视图聚类方法,尤其是涉及一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法。
背景技术
多视图聚类(MKC)旨在最佳地组合一组预先指定的基本视图来进行聚类,这在过去几十年中得到了深入的研究。如文献“Multiple kernel clustering”(B.Zhao,J.T.Kwok,and C.Zhang,in SDM,2009,pp.638–649)开创性工作提出了一种多核聚类算法,可以最大限度地优化超平面的最大边距,最佳聚类标签和最优内核。在文献“Optimizeddata fusion for kernel k-means clustering”(S.Yu,L.-C.Tranchevent,X.Liu,W.
Figure BDA0001764982120000012
J.A.K.Suykens,B.D.Moor,and Y.Moreau,IEEE TPAMI,vol.34,no.5,pp.1031–1039,2012)中提出了一种新颖的优化核k-means算法,以集成多种数据源进行聚类分析。通过允许多核组合的权重能够自适应地改变,文献“Localized data fusion for kernel k-means clustering with application to cancer biology”(M.
Figure BDA0001764982120000011
andA.A.Margolin,in NIPS,2014,pp.1305–1313)设计了一个局部化的多核k-means聚类算法,以便捕获各个样本的特征。在文献“Robust multiple kernel k-means clustering usingl21-norm”(L.Du,P.Zhou,L.Shi,H.Wang,M.Fan,W.Wang,and Y.-D.Shen,in IJCAI,2015,pp.3476–3482)中,通过用k-means中的l2,1-范式来替换平方误差,提出了鲁棒性良好的多核内核k-means(MKKM)算法,它能够同时优化最佳的聚类标签和最佳的核组合。由于观察到现有的MKKM算法没有充分考虑到多核之间的相关性,在文献“Multiple kernel k-meansclustering with matrix-induced regularization”(X.Liu,Y.Dou,J.Yin,L.Wang,andE.Zhu,in AAAI,2016,pp.1888–1894)中施加了用矩阵引导的正则化,以减少冗余并增强所选择的内核的多样性。最近,提出了一种最优邻域的多核聚类(ONKC)算法,以提高最优核的表示性,同时加强多核优化与聚类之间的关联。这些MKC算法已经被应用于各种应用,并且展示了有说服力的聚类性能。
上述MKC算法通用的前提假设是所有预先指定的基本内核都是完整的。然而,在一些实际应用中,例如阿尔茨海默病预测和心脏疾病鉴别等,都存在一些样本的某些视图是缺失的情况。因此,这将导致相关的核矩阵的行和列并未填充完整。存在不完整核矩阵的这种情况使得利用所有视图的信息进行聚类更困难。一个简单的补救措施是首先用填充的算法填充不完整的核矩阵,然后在这些估算的核矩阵中应用一个标准的MKC算法。比较广泛使用的插补算法包括零填充、平均值填充、k-最近邻填充和期望最大化(EM)填充,也可通过一些先进的算法来执行矩阵填充。例如,在一个完整的视图的帮助下,文献“Multiviewclustering with incompleteviews”(A.Trivedi,P.Rai,H.DauméIII,and S.L.DuVall,inNIPS 2010:Machine Learning for Social Computing Workshop,Whistler,Canada,2010)中提出为其它不完整的视图构建一个完整的核矩阵。文献“Multi-view learningwith incomplete views”(C.Xu,D.Tao,and C.Xu,IEEE Trans.Image Processing,vol.24,no.12,pp.5812–5825,2015)中提出了一种通过假设从共享子空间生成不同的视图,利用多个视图的联系完成多视图学习的算法。在文献“Multiple incomplete viewsclustering via weighted nonnegative matrix factorization with l2, 1regularization”(W.Shao,L.He,and P.S.Yu,in ECML PKDD,2015,pp.318–334)中提出了一个缺失多视图聚类算法,它为所有视图学习潜在的特征矩阵,并通过最小化每个视图与共识之间的差异来生成共识矩阵。此外,文献“Multi-view kernel completion”(S.Bhadra,S.Kaski,and J.Rousu,in arXiv:1602.02518,2016)中的方法提出通过对核矩阵值之间的视图和内视图之间的关系进行建模来,预测缺失核矩阵的缺失行和列。
可以看出,上述“两阶”算法共同的一个缺点是它们分离了缺失核矩阵填充和聚类的过程,从而阻止了两个学习过程之间的协同来实现最优聚类。为了克服这个缺点,文献“Multiple kernel k-means with incomplete kernels”(X.Liu,M.Li,L.Wang,Y.Dou,J.Yin,and E.Zhu,in AAAI,2017,pp.2259–2265)提出将缺失填充和聚类整合到单一的优化过程中。在该算法中,最后一次迭代的聚类结果指示了缺少的核矩阵元素的填充,后者又被用于进行后续的聚类。通过这种方式,为了实现更好的聚类性能,这两个过程是协调连接的。然而上述方法还存在以下不足:1)强制性地迫使更近和更远的样本对与相同的理想相似度相等,并且不适当地忽略同一类别中样本的变化;2)没有充分考虑到多核矩阵之间的相关性,这可能导致所选择的内核存在高冗余度和低样性。这两个因素使得这些预定义的核矩阵没有得到有效的利用,反过来又不利地影响聚类表现。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法。
本发明的目的可以通过以下技术方案来实现:
一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法,该方法将填充与聚类相融合,在聚类的引导下填充缺失核,用填充的核进行聚类,并在填充缺失核时,同时引入矩阵引导的正则化,该方法具体步骤包括:
1)获取目标数据样本和聚类目标数,将所述目标数据样本映射至多核空间;
2)引入矩阵引导的正则化,建立正则化的局部缺失多核k-均值聚类优化目标函数;
3)采用循环方式求解所述正则化的局部缺失多核k-均值聚类优化目标函数,实现聚类。
进一步地,所述正则化的局部缺失多核k-均值聚类优化目标函数具体为:
Figure BDA0001764982120000031
Figure BDA0001764982120000032
HTH=IkT1m=1,βp≥0
Figure BDA0001764982120000033
其中,H表示一中间参数,β表示核系数向量,Kp表示第p个核矩阵,m表示总核数,I表示单位矩阵,n表示样本个数,k表示聚类簇数,λ是正则化参数,
Figure BDA0001764982120000034
表示所有元素都为1的列向量,sp表示本第p个核的索引,
Figure BDA0001764982120000035
表示子核矩阵,
Figure BDA0001764982120000036
Figure BDA0001764982120000037
表示核间相关性参数矩阵,A(i)=S(i)S(i)T,S(i)表示邻居索引矩阵,S(i)∈{0,1}n×τ,τ表示与当前样本最接近的邻居的数量。
进一步地,所述具体为基核行和列的缺失。
进一步地,所述步骤3)中,采用三步交替法求解所述正则化的局部缺失多核k-均值聚类优化目标函数。
进一步地,所述三步交替法具体包括:
i)固定β和
Figure BDA0001764982120000041
优化H;
ii)固定β和H,优化
Figure BDA0001764982120000042
iii)固定H和
Figure BDA0001764982120000043
优化β。
进一步地,所述优化H时,将正则化的局部缺失多核k-均值聚类优化目标函数转化为传统核k-均值聚类问题。
进一步地,所述优化
Figure BDA0001764982120000044
时,具体包括以下步骤:
101)固定β和H,将正则化的局部缺失多核k-均值聚类优化目标函数转化为:
Figure BDA0001764982120000045
102)将步骤101)中的方程分解为m个独立的子问题,所述子问题的方程为:
Figure BDA0001764982120000046
其中,
Figure BDA0001764982120000047
103)求解所述子问题,计算获得最优的Kp
进一步地,所述优化β时,将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题,具体为:
Figure BDA0001764982120000048
其中,Z=diag([Tr(K1V),…,Tr(KmV)]),
Figure BDA0001764982120000049
进一步地,循环过程的终止条件为:
(obj(t-1)-obj(t))/obj(t)≤ε0
其中,obj(t)、obj(t-1)分别表示第t、t-1轮迭代的目标函数值,ε0为设定精度。
与现有技术相比,本发明具有以下有益效果:
1)本发明采用填充和聚类的联合优化,一方面,填充是以聚类结果为指导的,使缺失元素的填充更直接地以最终的优化目标为目标。另一方面,这种有意义的填充有利于优化聚类结果,使得这两个学习过程相互协调,从而提高了聚类的性能。
2)本发明采用填充和聚类的联合优化,可以用聚类结果引导填充过程,并引入了由矩阵引导的正则化,这能够减少多核的冗余并增强所选择的核的多样性,使多核能够更好地用于聚类,聚类效果好。本发明充分利用了数据的局部结构和基核的相关性设计了灵活的局部核对齐标准,允许预先设定的核进行对齐以便更好地进行聚类。此外,本发明通过矩阵引导的正则化降低了高冗余度,并在选择的基核中通过低差异,使预先核得到很好的利用。
3)本发明区别于强制性地迫使更近和更远的样本对被均匀地对准到相同的理想相似度的缺点,仅要求样本与其k个最近的邻居的相似性与理想的相似性矩阵对齐。这种对齐将有助于聚类过程中更能集中在更近的样本对,并且避免了对于较远的样本对的不可靠的相似性评估。
4)本发明建立的目标函数中,利用了核间相关性参数的近似值,降低了计算量,提高聚类效率。
附图说明
图1为本发明的结构示意图;
图2为在Flower17和Flower102数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图;
图3为在Caltech102-5、Caltech102-10、Caltech102-15及Caltech102-20数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图;
图4为在Caltech102-25及Caltech102-30数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图;
图5为λ和τ变化时,本发明方法收敛性及参数敏感性分析示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一、多核k-means算法(MKKM)
Figure BDA0001764982120000051
表示n个样本的集合,
Figure BDA0001764982120000052
表示第p个特征被x匹配到一个再生核希尔伯特空间
Figure BDA0001764982120000053
在多核配置中,每一个样本都有多种特征表示,这些特征表示是由一组特征映射
Figure BDA0001764982120000054
定义的。具体来说,每一个样本被表示成φβ(x)=[β1φ1(x)T,…,βmφm(x)T]T,其中β=[β1,…,βm]T,表示m个基核的系数。这些系数将会在学习的过程中被优化。基于定义φβ(x),一个核函数可以被表示成:
Figure BDA0001764982120000061
通过核函数
Figure BDA0001764982120000062
计算核矩阵Kβ,多核聚类的目标函数可以写成:
Figure BDA0001764982120000063
该问题可以通过交替更新H和β求解:
i)优化H固定β,固定核系数β,H可以通过解核k-均值聚类优化问题求解,公式为:
Figure BDA0001764982120000064
通过获取矩阵K的k个特征值所对应的特征向量来求得优化的H。
ii)优化β固定H,固定H,可以通过求解下面的线性约束的二次规划问题可以求解β,
Figure BDA0001764982120000065
二、MKKM和缺失核(Incomplete Kernel)
现有一种扩展现有MKKM的聚类方法MKKM-IK,其能够处理具有缺失的多核聚类。所述具体为基核行和列的缺失。具体来说,它将填充和聚类过程统一到单个优化目标中,并且可以交替优化它们,所采用的聚类目标函数如下:
Figure BDA0001764982120000066
其中,H表示一中间参数,β表示核系数,Kp表示第p个核矩阵,m表示总核数,I表示单位矩阵,n表示样本个数,k表示聚类簇数,
Figure BDA0001764982120000067
表示所有元素都为1的列向量,sp表示第p个核的索引,即样本展示的第p个视图,
Figure BDA0001764982120000068
表示计算这些样本的子核矩阵。约束
Figure BDA0001764982120000069
用于确保Kp包含了那些已知的输入在学习过程中没有被改变。
上述聚类目标函数通过一个三阶的轮替优化算法来求解:
i)固定β和
Figure BDA0001764982120000071
优化H。
优化H时,将公式(5)转化为一个传统核k-均值聚类问题,即应用方程(3)进行有效求解。
ii)固定β和H,优化
Figure BDA0001764982120000072
优化
Figure BDA0001764982120000073
时,方程(5)中针对每一个Kp的优化问题等价于以下的优化问题:
Figure BDA0001764982120000074
计算获得最优的Kp
Figure BDA0001764982120000075
其中,U=In-HHT
iii)固定H和
Figure BDA0001764982120000076
优化β。优化β时,将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题,即通过方程(4)进行有效求解。
上述MKKM-IK方法还存在:不适当地利用样本的局部分布,不加区分地迫使远近不同的样本对与同样的相似度矩阵值相等问题,这使得基核的多样性不能很好地利用,不利于聚类性能。
三、本发明方法
本发明实现一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法,同时利用局部缺失多核k-means和矩阵引导的正则化(Matrix-induced Regularization),称为LI-MKKM-MR。该方法将填充与聚类相融合,在聚类的引导下填充缺失核,用填充的核进行聚类,并在填充缺失核时,同时引入矩阵引导的正则化,有效提高聚类效果。
如图1所示,该方法具体步骤包括:
1)获取目标数据样本和聚类目标数,将所述目标数据样本映射至多核空间。
2)引入矩阵引导的正则化,建立正则化的局部缺失多核k-均值聚类优化目标函数。
第i个样本的局部核对齐计算如下:
<S(i)TKβS(i),S(i)T(1-HHT)S(i)> (8)
其中,S(i)表示邻居索引矩阵,S(i)∈{0,1}n×τ,τ表示与当前样本最接近的邻居的数量。例如
Figure BDA0001764982120000081
定义了xj是第v个最接近的xi人邻居,且1≤v≤τ,τ为最接近的邻居的数量。
令A(i)=S(i)S(i)T,获得局部缺失MKKM的优化目标:
Figure BDA0001764982120000082
只要优化组合核与理想相似度矩阵之间的对齐,无论以全局或局部的方式,都会导致所选基核之间的高冗余度和低样性,从而似的基核没有得到很好的利用。为了克服这个问题,本发明引入矩阵引导的正则化βTMβ来减少冗余并强制所选基核的多样性。其中M衡量两个核间的相关性,即Mpq衡量Kp和Kq之间的相关性。通过将该正则化项整合到公式(9)中,得到以下目标,
Figure BDA0001764982120000083
其中λ是用来平衡局部核k-means的损失和在核权重的正则化项参数。
一方面,合并βTMβ有助于充分利用更多的基核矩阵,这是提高聚类性能所需的。另一方面,它使结果优化更具挑战性,因为每个Kp的优化是一个二次规划的半定义编程,其计算成本是很高的,这使得它很难被应用到实际应用中去。为了降低计算量,本发明以
Figure BDA0001764982120000084
近似Mpq,而且使得在学习过程中保持不变,其中
Figure BDA0001764982120000085
是Kp的初始填充,进而获得局部缺失多核k-means和施加的用矩阵引导的正则化的目标优化函数,具体为:
Figure BDA0001764982120000086
3)采用循环方式求解所述正则化的局部缺失多核k-均值聚类优化目标函数,实现聚类。
采用三步交替法(交替优化)求解所述正则化的局部缺失多核k-均值聚类优化目标函数具体包括:
i)固定β和
Figure BDA0001764982120000091
优化H。
给定β和
Figure BDA0001764982120000092
则优化函数转化成为:
Figure BDA0001764982120000093
这是一个传统的核k-means优化问题,并易于用现有方法解决。
ii)固定β和H,优化
Figure BDA0001764982120000094
给定β和H,则优化函数转化成为:
Figure BDA0001764982120000095
方程(13)中每个约束独立地施加在每一个Kp而且目标函数是每一个Kp的总和。因此将公式(13)等价分解为m个独立的子问题,所述子问题的方程为:
Figure BDA0001764982120000096
Figure BDA0001764982120000097
方程(14)利用数据的局部结构来指导每个基核的填充,局部地将每个样本与其最接近的τ个邻居的样本的相似度矩阵与理想的内核矩阵相对应,这不仅是灵活的,而且能够很好地处理聚类簇内的变化。
103)求解所述子问题,计算获得最优的Kp
iii)固定H和
Figure BDA0001764982120000098
优化β。
优化β时,将目标函数转化为带有线性约束的二次规划问题,具体为:
Figure BDA0001764982120000099
其中,Z=diag([Tr(K1V),…,Tr(KmV)]),
Figure BDA00017649821200000910
上述基于矩阵引导正则化的局部缺失多视图聚类机器学习方法(LI-MKKM-MR)具体如下:
1:输入:
Figure BDA00017649821200000911
k,τ,λ and ε0.
2:输出:H,βand
Figure BDA0001764982120000101
3:初始化β(0)=1m/m,
Figure BDA0001764982120000102
and t=1.
4:通过
Figure BDA0001764982120000103
产生对于第i个样本(1≤i≤n)的S(i).
5:repeat
6:
Figure BDA0001764982120000104
7:给定
Figure BDA0001764982120000105
通过公式(12)来更新H(t).
7:利用H(t)
Figure BDA0001764982120000106
通过公式(14)来更新每一个
Figure BDA0001764982120000107
9:给定H(t)
Figure BDA0001764982120000108
通过公式(16)来更新β(t).
10:t=t+1.
11:until(obj(t-1)-obj(t))/obj(t)≤ε0.
其中,obj(t)、obj(t-1)分别表示第t、t-1轮迭代的目标函数值,ε0为设定精度。
上述方法中,每个样本的邻域在优化过程中保持不变,这样在每次迭代中对一个变量进行优化时,保证了算法的目标,即优化目标是单调减少的。同时,目标的下限为零,本发明方法是保证收敛的。此外,如实验研究所示,本发明方法通常在不到10次迭代中收敛。
四、实验
本实施例在采用如表1中显示的广泛使用于MKL的基准数据集进行实验验证。对于这些数据集,所有核矩阵都是预先被定义好的,可以从上述网站上公开下载。其中,Caltech102-5表示每个聚类簇的样本数是5个。
表1实验中应用的数据集
Figure BDA0001764982120000109
本实施例将本发明方法与几种常用的填充方法进行比较,包括零填充(ZF)、平均充填(MF)、k近邻填充(近邻)和[35]中的对齐-最大化填充(AF),并将MKKM应用于这些估算的基核。这两个阶段的方法分别被称为MKKM+ZF、MKKM+MF、MKKM+近邻和MKKM+AF。为了更好地证明矩阵引导的正则化的有效性,本实施例还给出了MKKM-IK和IL-MKKM的实验结果。
对于所有数据集,假定所有聚类类别的真实数目是已知的,并且已经被设置为真实的类别数。首先生成丢失的向量
Figure BDA0001764982120000111
本实施例先选择round(ε*n)样本,其中round(·)表示一个四舍五入函数。对于每一个选中的样本,都有一个随机的向量v=(v1,…,vm)∈[0,1]m和标量v0(v0∈[0,1])生成。如果满足vp≥v0,则该样本的第p个视图将会出现。如果v1,…,vm都不满足条件,则生成一个新的向量v以确保每个样本至少有一个视图是可用的。完成上面的步骤后,将会得到一个索引向量sp,该向量可以列出样本的第p个视图是存在的。在实验中参数ε表示缺失率,控制视图存在缺失的样本的百分比,在对比时它会影响算法的性能。直觉上,ε越大,聚类算法的性能越差。具体来说,ε在所有数据集上的取值设置为[0.1:0.1:0.9]。
表2对所有数据集的不同聚类算法进行ACC、NMI和纯度比较(均值+方差)
Figure BDA0001764982120000112
本实施例使用聚类精度(ACC)、归一化互信息(NMI)和purity(纯度)作为评估聚类算法性能的评价指标,如表2所示。对于所有算法,每个实验用不同的随机初值做50次,以用来减小k-均值算法带来的随机性,然后选取最好的结果。同时,通过上述方法随机生成30次缺失模式,获取数据结果。
表2、图2-图4介绍了上述算法在八种数据集上的不同缺失率下的ACC、NMI和纯度的比较,结果显示,本发明方法显著优于现有的两阶填充方法,且显著地提高了聚类性能,且随着缺失率的提高,本发明的改进更加显著。例如,如图2所示,当缺少的比率为0.1时时,它比Flower17上的第二个最佳算法的聚类精确度提高了15%。
通过以上实验说明,本发明方法充分利用了数据的局部结构和基核的相关性,并利用了填充与聚类过程之间的联系,显著地改进聚类性能。此外,本发明在理论上保证收敛到一个局部极小值。在上述实验中,本发明算法的目标值在每次迭代时都单调地减少,并且它通常以少于10次的迭代次数收敛。
本实施例通过在Flower17数据集上固定其他的参数来显示每个参数对算法性能的影响,结果如图5所示。从结果可知,1)随着τ的增加,ACC首先增加到一个高值,然后降低,验证了最大化局部核对齐的有效性;2)本发明方法具有较佳性能,并在广泛的τ的取值中显示了稳定的性能。
本发明方法以局部方式计算核对齐,并结合矩阵引导的正则化,有效地解决了聚类优化问题,通过对基准数据集进行广泛的实验,证明了本发明的聚类性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,该方法用于对图像进行处理,将填充与聚类相融合,在聚类的引导下填充缺失核,用填充的核进行聚类,并在填充缺失核时,同时引入矩阵引导的正则化,该方法具体步骤包括:
1)获取目标图像数据样本和聚类目标数,将所述目标图像数据样本映射至多核空间;
2)引入矩阵引导的正则化,建立正则化的局部缺失多核k-均值聚类优化目标函数;
3)采用循环方式求解所述正则化的局部缺失多核k-均值聚类优化目标函数,实现聚类;
所述正则化的局部缺失多核k-均值聚类优化目标函数具体为:
Figure FDA0003004095830000011
Figure FDA0003004095830000012
Figure FDA0003004095830000013
其中,H表示一中间参数,β表示核系数向量,Kp表示第p个核矩阵,m表示总核数,I表示单位矩阵,n表示样本个数,k表示聚类簇数,λ是正则化参数,
Figure FDA0003004095830000014
表示所有元素都为1的列向量,sp表示第p个核的索引,
Figure FDA0003004095830000015
表示子核矩阵,
Figure FDA0003004095830000016
Figure FDA0003004095830000017
表示核间相关性参数矩阵,A(i)=S(i)S(i)T,S(i)表示邻居索引矩阵,S(i)∈{0,1}n×τ,τ表示与当前样本最接近的邻居的数量。
2.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述具体为基核行和列的缺失。
3.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述步骤3)中,采用三步交替法求解所述正则化的局部缺失多核k-均值聚类优化目标函数。
4.根据权利要求3所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述三步交替法具体包括:
i)固定β和
Figure FDA0003004095830000021
优化H;
ii)固定β和H,优化
Figure FDA0003004095830000022
iii)固定H和
Figure FDA0003004095830000023
优化β。
5.根据权利要求4所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述优化H时,将正则化的局部缺失多核k-均值聚类优化目标函数转化为传统核k-均值聚类问题。
6.根据权利要求4所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述优化
Figure FDA0003004095830000024
时,具体包括以下步骤:
101)固定β和H,将正则化的局部缺失多核k-均值聚类优化目标函数转化为:
Figure FDA0003004095830000025
Figure FDA0003004095830000026
102)将步骤101)中的方程分解为m个独立的子问题,所述子问题的方程为:
Figure FDA0003004095830000027
其中,
Figure FDA0003004095830000028
103)求解所述子问题,计算获得最优的Kp
7.根据权利要求4所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,所述优化β时,将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题,具体为:
Figure FDA0003004095830000029
其中,Z=diag([Tr(K1V),…,Tr(KmV)]),
Figure FDA00030040958300000210
8.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类方法,其特征在于,循环过程的终止条件为:
(obj(t-1)-obj(t))/obj(t)≤ε0
其中,obj(t)、obj(t-1)分别表示第t、t-1轮迭代的目标函数值,ε0为设定精度。
CN201810924243.2A 2018-08-14 2018-08-14 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法 Active CN109214429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810924243.2A CN109214429B (zh) 2018-08-14 2018-08-14 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810924243.2A CN109214429B (zh) 2018-08-14 2018-08-14 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Publications (2)

Publication Number Publication Date
CN109214429A CN109214429A (zh) 2019-01-15
CN109214429B true CN109214429B (zh) 2021-07-27

Family

ID=64988086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810924243.2A Active CN109214429B (zh) 2018-08-14 2018-08-14 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Country Status (1)

Country Link
CN (1) CN109214429B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993214B (zh) * 2019-03-08 2021-06-08 华南理工大学 基于拉普拉斯正则化和秩约束的多视图聚类方法
CN111046026B (zh) * 2019-11-03 2023-04-07 复旦大学 一种基于约束优化的缺失能耗数据填补方法
CN111445998B (zh) * 2020-02-05 2023-05-30 华东理工大学 一种基于边界增强的心衰死亡预测系统
CN112990265A (zh) * 2021-02-09 2021-06-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统
CN113139556B (zh) * 2021-04-22 2023-06-23 扬州大学 基于自适应构图的流形多视图图像聚类方法及系统
CN113239983A (zh) * 2021-04-25 2021-08-10 浙江师范大学 基于高阶关联保持的缺失多视图子空间聚类方法及系统
CN113435603A (zh) * 2021-06-01 2021-09-24 浙江师范大学 基于代理图改善的后期融合多核聚类机器学习方法及系统
CN113627237A (zh) * 2021-06-24 2021-11-09 浙江师范大学 基于局部最大对齐的后期融合人脸图像聚类方法及系统
CN113762354A (zh) * 2021-08-17 2021-12-07 浙江师范大学 基于局部化简单多核k-均值的人脸图像聚类方法及系统
CN116432062B (zh) * 2021-12-29 2024-05-31 西南科技大学 聚类中心一致性指导采样学习的多核聚类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514368A (zh) * 2013-09-18 2014-01-15 燕山大学 一种采用聚类技术的实时与阶段理论线损快速估算方法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514368A (zh) * 2013-09-18 2014-01-15 燕山大学 一种采用聚类技术的实时与阶段理论线损快速估算方法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multiple Kernel k-means with Incomplete Kernels;Xinwang Liu等;《PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20180630;第1-14页 *

Also Published As

Publication number Publication date
CN109214429A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109214429B (zh) 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
Ma et al. Regularized vector field learning with sparse approximation for mismatch removal
Patel et al. Latent space sparse and low-rank subspace clustering
Wang et al. Multiple graph regularized nonnegative matrix factorization
Alaba et al. Towards a more efficient and cost-sensitive extreme learning machine: A state-of-the-art review of recent trend
WO2019157228A1 (en) Systems and methods for training generative machine learning models
Saegusa et al. Joint estimation of precision matrices in heterogeneous populations
CN108021930B (zh) 一种自适应的多视角图像分类方法及系统
CN112990265A (zh) 基于二部图的后期融合多视图聚类机器学习方法及系统
Liang et al. Incomplete multi-view clustering with sample-level auto-weighted graph fusion
Peng et al. Mutual information deep regularization for semi-supervised segmentation
CN109102021A (zh) 缺失条件下的核互补齐多核k-均值聚类机器学习方法
CN114969648B (zh) 基于模态自适应调整降维的故障检测方法及系统
Kuhnel et al. Latent space non-linear statistics
CN109117881A (zh) 一种具有缺失核的多视图聚类机器学习方法
CN113298009B (zh) 一种基于熵正则化的自适应近邻人脸图像聚类方法
CN111340697A (zh) 一种基于聚类回归的图像超分辨方法
CN111340106A (zh) 基于图学习和视图权重学习的无监督多视图特征选择方法
CN117557579A (zh) 一种空洞金字塔协同注意力机制助力无监督超像素分割方法及系统
CN118038533B (zh) 一种人脸识别方法、终端及介质
CN114254703A (zh) 一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法
Zhou et al. Multi-kernel graph fusion for spectral clustering
Wang et al. High-dimensional Data Clustering Using K-means Subspace Feature Selection.
CN109145976A (zh) 一种基于最优邻居核的多视图聚类机器学习方法
CN105184320B (zh) 基于结构相似度的非负稀疏编码的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Jun

Inventor before: Zheng Jun

Inventor before: Liu Xinwang