CN109214429A

CN109214429A - 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Info

Publication number: CN109214429A
Application number: CN201810924243.2A
Authority: CN
Inventors: 郑军; 刘新旺
Original assignee: Jushi Technology (shanghai) Co Ltd
Current assignee: Jushi Technology (shanghai) Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-01-15
Anticipated expiration: 2038-08-14
Also published as: CN109214429B

Abstract

本发明涉及一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，该方法将填充与聚类相融合，在聚类的引导下填充缺失核，用填充的核进行聚类，并在填充缺失核时，同时引入矩阵引导的正则化，该方法具体步骤包括：1)获取目标数据样本和聚类目标数，将所述目标数据样本映射至多核空间；2)引入矩阵引导的正则化，建立正则化的局部缺失多核k‑均值聚类优化目标函数；3)采用循环方式求解所述正则化的局部缺失多核k‑均值聚类优化目标函数，实现聚类。与现有技术相比，本发明具有聚类效果好、计算量低等优点。

Description

基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种多视图聚类方法，尤其是涉及一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法。

背景技术

多视图聚类(MKC)旨在最佳地组合一组预先指定的基本视图来进行聚类，这在过去几十年中得到了深入的研究。如文献“Multiple kernel clustering”(B.Zhao,J.T.Kwok,and C.Zhang,in SDM,2009,pp.638–649)开创性工作提出了一种多核聚类算法，可以最大限度地优化超平面的最大边距，最佳聚类标签和最优内核。在文献“Optimizeddata fusion for kernel k-means clustering”(S.Yu,L.-C.Tranchevent,X.Liu,W.J.A.K.Suykens,B.D.Moor,and Y.Moreau,IEEE TPAMI,vol.34,no.5,pp.1031–1039,2012)中提出了一种新颖的优化核k-means算法，以集成多种数据源进行聚类分析。通过允许多核组合的权重能够自适应地改变，文献“Localized data fusion for kernel k-means clustering with application to cancer biology”(M.andA.A.Margolin,in NIPS,2014,pp.1305–1313)设计了一个局部化的多核k-means聚类算法，以便捕获各个样本的特征。在文献“Robust multiple kernel k-means clustering usingl₂₁-norm”(L.Du,P.Zhou,L.Shi,H.Wang,M.Fan,W.Wang,and Y.-D.Shen,in IJCAI,2015,pp.3476–3482)中，通过用k-means中的l_2,1-范式来替换平方误差，提出了鲁棒性良好的多核内核k-means(MKKM)算法，它能够同时优化最佳的聚类标签和最佳的核组合。由于观察到现有的MKKM算法没有充分考虑到多核之间的相关性，在文献“Multiple kernel k-meansclustering with matrix-induced regularization”(X.Liu,Y.Dou,J.Yin,L.Wang,andE.Zhu,in AAAI,2016,pp.1888–1894)中施加了用矩阵引导的正则化，以减少冗余并增强所选择的内核的多样性。最近，提出了一种最优邻域的多核聚类(ONKC)算法，以提高最优核的表示性，同时加强多核优化与聚类之间的关联。这些MKC算法已经被应用于各种应用，并且展示了有说服力的聚类性能。

上述MKC算法通用的前提假设是所有预先指定的基本内核都是完整的。然而，在一些实际应用中，例如阿尔茨海默病预测和心脏疾病鉴别等，都存在一些样本的某些视图是缺失的情况。因此，这将导致相关的核矩阵的行和列并未填充完整。存在不完整核矩阵的这种情况使得利用所有视图的信息进行聚类更困难。一个简单的补救措施是首先用填充的算法填充不完整的核矩阵，然后在这些估算的核矩阵中应用一个标准的MKC算法。比较广泛使用的插补算法包括零填充、平均值填充、k-最近邻填充和期望最大化(EM)填充，也可通过一些先进的算法来执行矩阵填充。例如，在一个完整的视图的帮助下，文献“Multiviewclustering with incompleteviews”(A.Trivedi,P.Rai,H.DauméIII,and S.L.DuVall,inNIPS 2010:Machine Learning for Social Computing Workshop,Whistler,Canada,2010)中提出为其它不完整的视图构建一个完整的核矩阵。文献“Multi-view learningwith incomplete views”(C.Xu,D.Tao,and C.Xu,IEEE Trans.Image Processing,vol.24,no.12,pp.5812–5825,2015)中提出了一种通过假设从共享子空间生成不同的视图，利用多个视图的联系完成多视图学习的算法。在文献“Multiple incomplete viewsclustering via weighted nonnegative matrix factorization with l_2, ₁regularization”(W.Shao,L.He,and P.S.Yu,in ECML PKDD,2015,pp.318–334)中提出了一个缺失多视图聚类算法，它为所有视图学习潜在的特征矩阵，并通过最小化每个视图与共识之间的差异来生成共识矩阵。此外，文献“Multi-view kernel completion”(S.Bhadra,S.Kaski,and J.Rousu,in arXiv:1602.02518,2016)中的方法提出通过对核矩阵值之间的视图和内视图之间的关系进行建模来，预测缺失核矩阵的缺失行和列。

可以看出，上述“两阶”算法共同的一个缺点是它们分离了缺失核矩阵填充和聚类的过程，从而阻止了两个学习过程之间的协同来实现最优聚类。为了克服这个缺点，文献“Multiple kernel k-means with incomplete kernels”(X.Liu,M.Li,L.Wang,Y.Dou,J.Yin,and E.Zhu,in AAAI,2017,pp.2259–2265)提出将缺失填充和聚类整合到单一的优化过程中。在该算法中，最后一次迭代的聚类结果指示了缺少的核矩阵元素的填充，后者又被用于进行后续的聚类。通过这种方式，为了实现更好的聚类性能，这两个过程是协调连接的。然而上述方法还存在以下不足：1)强制性地迫使更近和更远的样本对与相同的理想相似度相等，并且不适当地忽略同一类别中样本的变化；2)没有充分考虑到多核矩阵之间的相关性，这可能导致所选择的内核存在高冗余度和低样性。这两个因素使得这些预定义的核矩阵没有得到有效的利用，反过来又不利地影响聚类表现。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法。

本发明的目的可以通过以下技术方案来实现：

一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，该方法将填充与聚类相融合，在聚类的引导下填充缺失核，用填充的核进行聚类，并在填充缺失核时，同时引入矩阵引导的正则化，该方法具体步骤包括：

1)获取目标数据样本和聚类目标数，将所述目标数据样本映射至多核空间；

2)引入矩阵引导的正则化，建立正则化的局部缺失多核k-均值聚类优化目标函数；

3)采用循环方式求解所述正则化的局部缺失多核k-均值聚类优化目标函数，实现聚类。

进一步地，所述正则化的局部缺失多核k-均值聚类优化目标函数具体为：

H^TH＝I_k,β^T1_m＝1,β_p≥0

其中，H表示一中间参数，β表示核系数向量，K_p表示第p个核矩阵，m表示总核数，I表示单位矩阵，n表示样本个数，k表示聚类簇数，λ是正则化参数，表示所有元素都为1的列向量，s_p表示本第p个核的索引，表示子核矩阵，表示核间相关性参数矩阵，A⁽ⁱ⁾＝S⁽ⁱ⁾S^(i)T，S⁽ⁱ⁾表示邻居索引矩阵，S⁽ⁱ⁾∈{0,1}^n×τ，τ表示与当前样本最接近的邻居的数量。

进一步地，所述具体为基核行和列的缺失。

进一步地，所述步骤3)中，采用三步交替法求解所述正则化的局部缺失多核k-均值聚类优化目标函数。

进一步地，所述三步交替法具体包括：

i)固定β和优化H；

ii)固定β和H，优化

iii)固定H和优化β。

进一步地，所述优化H时，将正则化的局部缺失多核k-均值聚类优化目标函数转化为传统核k-均值聚类问题。

进一步地，所述优化时，具体包括以下步骤：

101)固定β和H，将正则化的局部缺失多核k-均值聚类优化目标函数转化为：

102)将步骤101)中的方程分解为m个独立的子问题，所述子问题的方程为：

其中，

103)求解所述子问题，计算获得最优的K_p。

进一步地，所述优化β时，将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题，具体为：

其中，Z＝diag([Tr(K₁V),…,Tr(K_mV)])，

进一步地，循环过程的终止条件为：

(obj^(t-1)-obj^(t))/obj^(t)≤ε₀

其中，obj^(t)、obj^(t-1)分别表示第t、t-1轮迭代的目标函数值，ε₀为设定精度。

与现有技术相比，本发明具有以下有益效果：

1)本发明采用填充和聚类的联合优化，一方面，填充是以聚类结果为指导的，使缺失元素的填充更直接地以最终的优化目标为目标。另一方面，这种有意义的填充有利于优化聚类结果，使得这两个学习过程相互协调，从而提高了聚类的性能。

2)本发明采用填充和聚类的联合优化，可以用聚类结果引导填充过程，并引入了由矩阵引导的正则化，这能够减少多核的冗余并增强所选择的核的多样性，使多核能够更好地用于聚类，聚类效果好。本发明充分利用了数据的局部结构和基核的相关性设计了灵活的局部核对齐标准，允许预先设定的核进行对齐以便更好地进行聚类。此外，本发明通过矩阵引导的正则化降低了高冗余度，并在选择的基核中通过低差异，使预先核得到很好的利用。

3)本发明区别于强制性地迫使更近和更远的样本对被均匀地对准到相同的理想相似度的缺点，仅要求样本与其k个最近的邻居的相似性与理想的相似性矩阵对齐。这种对齐将有助于聚类过程中更能集中在更近的样本对，并且避免了对于较远的样本对的不可靠的相似性评估。

4)本发明建立的目标函数中，利用了核间相关性参数的近似值，降低了计算量，提高聚类效率。

附图说明

图1为本发明的结构示意图；

图2为在Flower17和Flower102数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图；

图3为在Caltech102-5、Caltech102-10、Caltech102-15及Caltech102-20数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图；

图4为在Caltech102-25及Caltech102-30数据集的聚类正确率、规范化互信息和纯度与在缺失率变化的比较图；

图5为λ和τ变化时，本发明方法收敛性及参数敏感性分析示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一、多核k-means算法(MKKM)

表示n个样本的集合，表示第p个特征被x匹配到一个再生核希尔伯特空间在多核配置中，每一个样本都有多种特征表示，这些特征表示是由一组特征映射定义的。具体来说，每一个样本被表示成φ_β(x)＝[β₁φ₁(x)^T,…,β_mφ_m(x)^T]^T，其中β＝[β₁,…,β_m]^T，表示m个基核的系数。这些系数将会在学习的过程中被优化。基于定义φ_β(x)，一个核函数可以被表示成：

通过核函数计算核矩阵K_β，多核聚类的目标函数可以写成：

该问题可以通过交替更新H和β求解：

i)优化H固定β，固定核系数β，H可以通过解核k-均值聚类优化问题求解，公式为：

通过获取矩阵K的k个特征值所对应的特征向量来求得优化的H。

ii)优化β固定H，固定H，可以通过求解下面的线性约束的二次规划问题可以求解β，

二、MKKM和缺失核(Incomplete Kernel)

现有一种扩展现有MKKM的聚类方法MKKM-IK，其能够处理具有缺失的多核聚类。所述具体为基核行和列的缺失。具体来说，它将填充和聚类过程统一到单个优化目标中，并且可以交替优化它们，所采用的聚类目标函数如下：

其中，H表示一中间参数，β表示核系数，K_p表示第p个核矩阵，m表示总核数，I表示单位矩阵，n表示样本个数，k表示聚类簇数，表示所有元素都为1的列向量，s_p表示第p个核的索引，即样本展示的第p个视图，表示计算这些样本的子核矩阵。约束用于确保K_p包含了那些已知的输入在学习过程中没有被改变。

上述聚类目标函数通过一个三阶的轮替优化算法来求解：

i)固定β和优化H。

优化H时，将公式(5)转化为一个传统核k-均值聚类问题，即应用方程(3)进行有效求解。

ii)固定β和H，优化

优化时，方程(5)中针对每一个K_p的优化问题等价于以下的优化问题：

计算获得最优的K_p：

其中，U＝I_n-HH^T。

iii)固定H和优化β。优化β时，将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题，即通过方程(4)进行有效求解。

上述MKKM-IK方法还存在：不适当地利用样本的局部分布，不加区分地迫使远近不同的样本对与同样的相似度矩阵值相等问题，这使得基核的多样性不能很好地利用，不利于聚类性能。

三、本发明方法

本发明实现一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，同时利用局部缺失多核k-means和矩阵引导的正则化(Matrix-induced Regularization)，称为LI-MKKM-MR。该方法将填充与聚类相融合，在聚类的引导下填充缺失核，用填充的核进行聚类，并在填充缺失核时，同时引入矩阵引导的正则化，有效提高聚类效果。

如图1所示，该方法具体步骤包括：

1)获取目标数据样本和聚类目标数，将所述目标数据样本映射至多核空间。

2)引入矩阵引导的正则化，建立正则化的局部缺失多核k-均值聚类优化目标函数。

第i个样本的局部核对齐计算如下：

<S^(i)TK_βS⁽ⁱ⁾,S^(i)T(1-HH^T)S⁽ⁱ⁾> (8)

其中，S⁽ⁱ⁾表示邻居索引矩阵，S⁽ⁱ⁾∈{0,1}^n×τ，τ表示与当前样本最接近的邻居的数量。例如定义了x_j是第v个最接近的x_i人邻居，且1≤v≤τ，τ为最接近的邻居的数量。

令A⁽ⁱ⁾＝S⁽ⁱ⁾S^(i)T，获得局部缺失MKKM的优化目标：

只要优化组合核与理想相似度矩阵之间的对齐，无论以全局或局部的方式，都会导致所选基核之间的高冗余度和低样性，从而似的基核没有得到很好的利用。为了克服这个问题，本发明引入矩阵引导的正则化β^TMβ来减少冗余并强制所选基核的多样性。其中M衡量两个核间的相关性，即M_pq衡量K_p和K_q之间的相关性。通过将该正则化项整合到公式(9)中，得到以下目标，

其中λ是用来平衡局部核k-means的损失和在核权重的正则化项参数。

一方面，合并β^TMβ有助于充分利用更多的基核矩阵，这是提高聚类性能所需的。另一方面，它使结果优化更具挑战性，因为每个K_p的优化是一个二次规划的半定义编程，其计算成本是很高的，这使得它很难被应用到实际应用中去。为了降低计算量，本发明以近似M_pq，而且使得在学习过程中保持不变，其中是K_p的初始填充，进而获得局部缺失多核k-means和施加的用矩阵引导的正则化的目标优化函数，具体为：

采用三步交替法(交替优化)求解所述正则化的局部缺失多核k-均值聚类优化目标函数具体包括：

i)固定β和优化H。

给定β和则优化函数转化成为：

这是一个传统的核k-means优化问题，并易于用现有方法解决。

ii)固定β和H，优化

给定β和H，则优化函数转化成为：

方程(13)中每个约束独立地施加在每一个K_p而且目标函数是每一个K_p的总和。因此将公式(13)等价分解为m个独立的子问题，所述子问题的方程为：

方程(14)利用数据的局部结构来指导每个基核的填充，局部地将每个样本与其最接近的τ个邻居的样本的相似度矩阵与理想的内核矩阵相对应，这不仅是灵活的，而且能够很好地处理聚类簇内的变化。

103)求解所述子问题，计算获得最优的K_p。

iii)固定H和优化β。

优化β时，将目标函数转化为带有线性约束的二次规划问题，具体为：

其中，Z＝diag([Tr(K₁V),…,Tr(K_mV)])，

上述基于矩阵引导正则化的局部缺失多视图聚类机器学习方法(LI-MKKM-MR)具体如下：

1:输入:k，τ，λ and ε₀.

2:输出:H，βand

3:初始化β⁽⁰⁾＝1_m/m，and t＝1.

4:通过产生对于第i个样本(1≤i≤n)的S⁽ⁱ⁾.

5:repeat

6:

7:给定通过公式(12)来更新H^(t).

7:利用H^(t)和通过公式(14)来更新每一个

9:给定H^(t)和通过公式(16)来更新β^(t).

10:t＝t+1.

11:until(obj^(t-1)-obj^(t))/obj^(t)≤ε₀.

上述方法中，每个样本的邻域在优化过程中保持不变，这样在每次迭代中对一个变量进行优化时，保证了算法的目标，即优化目标是单调减少的。同时，目标的下限为零，本发明方法是保证收敛的。此外，如实验研究所示，本发明方法通常在不到10次迭代中收敛。

四、实验

本实施例在采用如表1中显示的广泛使用于MKL的基准数据集进行实验验证。对于这些数据集，所有核矩阵都是预先被定义好的，可以从上述网站上公开下载。其中，Caltech102-5表示每个聚类簇的样本数是5个。

表1实验中应用的数据集

本实施例将本发明方法与几种常用的填充方法进行比较，包括零填充(ZF)、平均充填(MF)、k近邻填充(近邻)和[35]中的对齐-最大化填充(AF)，并将MKKM应用于这些估算的基核。这两个阶段的方法分别被称为MKKM+ZF、MKKM+MF、MKKM+近邻和MKKM+AF。为了更好地证明矩阵引导的正则化的有效性，本实施例还给出了MKKM-IK和IL-MKKM的实验结果。

对于所有数据集，假定所有聚类类别的真实数目是已知的，并且已经被设置为真实的类别数。首先生成丢失的向量本实施例先选择round(ε*n)样本，其中round(·)表示一个四舍五入函数。对于每一个选中的样本，都有一个随机的向量v＝(v₁,…,v_m)∈[0,1]^m和标量v₀(v₀∈[0,1])生成。如果满足v_p≥v₀，则该样本的第p个视图将会出现。如果v₁,…,v_m都不满足条件，则生成一个新的向量v以确保每个样本至少有一个视图是可用的。完成上面的步骤后，将会得到一个索引向量s_p，该向量可以列出样本的第p个视图是存在的。在实验中参数ε表示缺失率，控制视图存在缺失的样本的百分比，在对比时它会影响算法的性能。直觉上，ε越大，聚类算法的性能越差。具体来说，ε在所有数据集上的取值设置为[0.1:0.1:0.9]。

表2对所有数据集的不同聚类算法进行ACC、NMI和纯度比较(均值+方差)

本实施例使用聚类精度(ACC)、归一化互信息(NMI)和purity(纯度)作为评估聚类算法性能的评价指标，如表2所示。对于所有算法，每个实验用不同的随机初值做50次，以用来减小k-均值算法带来的随机性，然后选取最好的结果。同时，通过上述方法随机生成30次缺失模式，获取数据结果。

表2、图2-图4介绍了上述算法在八种数据集上的不同缺失率下的ACC、NMI和纯度的比较，结果显示，本发明方法显著优于现有的两阶填充方法，且显著地提高了聚类性能，且随着缺失率的提高，本发明的改进更加显著。例如，如图2所示，当缺少的比率为0.1时时，它比Flower17上的第二个最佳算法的聚类精确度提高了15％。

通过以上实验说明，本发明方法充分利用了数据的局部结构和基核的相关性，并利用了填充与聚类过程之间的联系，显著地改进聚类性能。此外，本发明在理论上保证收敛到一个局部极小值。在上述实验中，本发明算法的目标值在每次迭代时都单调地减少，并且它通常以少于10次的迭代次数收敛。

本实施例通过在Flower17数据集上固定其他的参数来显示每个参数对算法性能的影响，结果如图5所示。从结果可知，1)随着τ的增加，ACC首先增加到一个高值，然后降低，验证了最大化局部核对齐的有效性；2)本发明方法具有较佳性能，并在广泛的τ的取值中显示了稳定的性能。

本发明方法以局部方式计算核对齐，并结合矩阵引导的正则化，有效地解决了聚类优化问题，通过对基准数据集进行广泛的实验，证明了本发明的聚类性能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，该方法将填充与聚类相融合，在聚类的引导下填充缺失核，用填充的核进行聚类，并在填充缺失核时，同时引入矩阵引导的正则化，该方法具体步骤包括：

2.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述正则化的局部缺失多核k-均值聚类优化目标函数具体为：

3.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述具体为基核行和列的缺失。

4.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述步骤3)中，采用三步交替法求解所述正则化的局部缺失多核k-均值聚类优化目标函数。

5.根据权利要求4所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述三步交替法具体包括：

i)固定β和优化H；

ii)固定β和H，优化

iii)固定H和优化β。

6.根据权利要求5所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述优化H时，将正则化的局部缺失多核k-均值聚类优化目标函数转化为传统核k-均值聚类问题。

7.根据权利要求5所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述优化时，具体包括以下步骤：

其中，

103)求解所述子问题，计算获得最优的K_p。

8.根据权利要求5所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，所述优化β时，将缺失多核k-均值聚类优化目标函数转化为带有线性约束的二次规划问题，具体为：

其中，Z＝diag([Tr(K₁V),…,Tr(K_mV)])，

9.根据权利要求1所述的基于矩阵引导正则化的局部缺失多视图聚类机器学习方法，其特征在于，循环过程的终止条件为：

(obj^(t-1)-obj^(t))/obj^(t)≤ε₀