CN111401468A

CN111401468A - 一种基于共享近邻的权重自更新多视角谱聚类方法

Info

Publication number: CN111401468A
Application number: CN202010225440.2A
Authority: CN
Inventors: 宋艳; 殷俊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-10
Anticipated expiration: 2040-03-26
Also published as: CN111401468B

Abstract

本发明公开了一种基于共享近邻的权重自更新多视角谱聚类方法，该方法包括：步骤1：输入多个视角的数据集，根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵；步骤2：根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵；步骤3：根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵；步骤4：根据所得到的全局拉普拉斯矩阵，计算出全局相似矩阵，由此得到一个具有多个联通分支的全局相似矩阵，从而得到最终的多个簇。本发明能够提高谱聚类算法中相似矩阵构造的准确性，并减少在相似矩阵构造阶段所花费的计算时间，同时进一步优化多视角数据融合模型。

Description

一种基于共享近邻的权重自更新多视角谱聚类方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于共享近邻的权重自更新多视角谱聚类方法。

背景技术

聚类分析可以针对目标群体进行多指标的群体划分，为市场提供个性化和精细化的运营，实现所谓的物以类聚，人以群分的功能。在现实生活中，数据往往是从不同的特征中获取的。例如，一幅图像的颜色、纹理、旋转不变特性等特征是这幅图像的不同视角，这些多视角的数据共同描绘了一幅图像，利用多视角数据可以获得比任何单一视角数据更准确的聚类结果。多视角谱聚类利用不同视角数据之间的相关性以及互补性以获得更多潜在的有价值信息，是目前谱聚类研究中的一个重要方向。

多视角谱聚类以谱聚类算法为基础。谱聚类的基本思想是利用从数据中得到的更低维的特征矩阵实现聚类，依靠两个部分完成聚类工作。第一个部分为图的构造，即根据一定的算法构造数据点之间的相似矩阵，现有的图构造方法主要有高斯核函数法和k最近邻法。因为谱聚类算法离不开相似矩阵的构造所以说基于谱聚类的算法的性能的提升很大程度上依赖于相似矩阵构造的优化。第二个部分对构造好的图，诱导出拉普拉斯矩阵并做特征分解，将数据嵌入到特征向量空间，最后再次使用图分割技术或者k-means算法实现聚类。

对于多视角谱聚类算法而言，由于各个视角表现不同，SC-Best算法主张利用谱聚类算法挑选出表现最好的视角聚类结果方法，但是这种方法分裂了各个视角之间的关联信息。其他方法主要集中在多个视角中找到统一的嵌入矩阵或者相似矩阵以此来代表各个视角的信息。Kumar等人提出了协同正则多视角谱聚类算法(Co-Regularization SpectralClustering,CRSC),该算法在不同视角下的簇划分结果应该相同的假设下，将协同训练的思想和谱聚类算法相结合得到最终的中心嵌入矩阵；Zhan等人在KNN算法的基础上提出了图学习的多视角谱聚类算法(Graph Learning for Multiview Clustering,MVGL)，Xia等人提出了鲁棒多视图谱聚类(Robust multi-view spectral clustering via low-rankand sparse decomposition)该算法将马尔科夫链概率转移矩阵与谱聚类算法思想相结合求出统一的低秩拉普拉斯矩阵。这些算法都是在单视角下用KNN算法构造的相似矩阵的基础上，再用不同的方法将多视角的数据融合起来，包括协同方法，最小化重构误差方法。但是在多视角数据的融合中，很多算法都没有考虑各个视角所占的权重信息或者权重的计算方式并没有进一步优化。

以下将具体介绍两种多视角谱聚类算法并说明目前存在的问题：

1.协同正则多视角谱聚类采用交替正则化方法来平衡每个视角的谱聚类，让每个视角v的谱聚类的特征矩阵U^(v)尽可能和中心特征矩阵U^*一致，目标函数如下：

其中m表示视角个数，Tr表示求迹运算，参数γ_v给每个视角的正则化加权，γ_v的大小代表了视角v的重要程度。该方法中γ_v与所给数据集有很大关系且大部分情况下需要人工指定。

2.图学习的多视角谱聚类算法将各个视角下通过KNN算法得到的相似矩阵与全局相似矩阵进行重构误差最小化得到一个全局相似矩阵，并计算出各视角所占权重，最后通过拉普拉斯矩阵秩约束理论，根据全局相似矩阵得到聚类结果。该算法的目标函数：

其中矩阵A表示全局相似矩，A_j表示矩阵A的第j列，列和为1，α^(v)表示第v个视角的相似矩阵所占的比重，一共有m个视角，W^(v)表示第v个视角的相似矩阵，γ为权衡参数，矩阵L为矩阵A所对应的拉普拉斯矩阵，矩阵U是拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵，矩阵U其维度是n*c,n表示数据点的个数，c表示每个数据点的特征维度(R^n*c为数学公式中的常见表示方法，指代全体n*c维的矩阵集合)，I表示单位矩阵。这种方法下为了避免引入新的参数，并没有对α^(v)进行约束，当某个视角的数据较分散时或者某个视角受噪声干扰较大时，该视角容易被忽略，造成该视角的权重为0，这种情况下是没有意义的。

发明内容

本发明的目的是提供一种基于共享近邻的权重自更新多视角谱聚类方法，能够提高谱聚类算法中相似矩阵构造的准确性，并减少在相似矩阵构造阶段所花费的计算时间，同时进一步优化多视角数据融合模型。

为达到上述目的，本发明提供了一种基于共享近邻的权重自更新多视角谱聚类方法，其包括：

步骤1：输入多个视角的数据集，根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵；

步骤2：根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵；

步骤3：根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵；

步骤4：根据所得到的全局拉普拉斯矩阵，计算出全局相似矩阵，由此得到一个具有多个联通分支的全局相似矩阵，从而得到最终的多个簇。

上述的基于共享近邻的权重自更新多视角谱聚类方法，其中，步骤1具体包括：

步骤1.1：输入m个视角的数据集X＝{X₁,X₂,…,X_n}，n表示n个数据点；

步骤1.2：初始化零矩阵S，S＝{S_ij}，i∈[1，n]，j∈[1，n]，S_ij为任意两点X_i,X_j之间的相似度度量；

步骤1.3：令i＝1；

步骤1.4：若i＜n，执行步骤1.5；否则，输出相似矩阵S^(v)，v表示第v个视角；

步骤1.5：令j＝i+1；

步骤1.6：若j≤n，执行步骤1.7；否则，更新i＝i+1，执行步骤1.4；

步骤1.7：若数据点X_i在点X_j的k近邻空间中且数据点X_j在点X_i的k近邻空间中，则SNN(X_i,X_j)>阈值δ，令

其中σi和σj分别为点X_i和点X_j各自第p个近邻的欧氏距离，进一步更新j＝j+1，执行步骤1.6；否则，更新j＝j+1，执行步骤1.6；

步骤1.8：对每个视角均执行步骤1.2-步骤1.7，得到m个视角数据的相似矩阵S^(v)。

上述的基于共享近邻的权重自更新多视角谱聚类方法，其中，步骤2具体包括：

步骤2.1：输入第v个视角的相似矩阵S^(v)，及其聚类个数c'；

步骤2.2：通过初始的相似矩阵S^(v)对应的拉普拉斯矩阵L^(v)前c'个最小特征值对应的特征向量得到初始的嵌入矩阵U^(v)的值；

步骤2.3：根据公式

计算出S^(v)的值；

步骤2.4：计算出S^(v)对应的拉普拉斯矩阵L^(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U^(v)；

步骤2.5：将步骤2.3和步骤2.4计算出的S^(v)和U^(v)重新带入到公式

中，计算出结果并记为R1，其中，U^(v)∈R^n*c',U^(v)TU^(v)＝I，

S^(v) _j≥0,1^TS^(v) _j＝1，Tr表示求迹运算，S^(v) _j表示第v个视角相似矩阵的第j列，列和为1，α为权衡参数，I表示单位矩阵，R^n*c'为全体n*c'维的矩阵集合；

步骤2.6：将步骤2.3和步骤2.4计算出的S^(v)和U^(v)的值带入公式

中计算出新的S^(v)的值；

步骤2.7：根据步骤2.6计算出的S^(v)计算其对应的拉普拉斯矩阵L^(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U^(v)；

步骤2.8：将步骤2.6和步骤2.7计算出的S^(v)和U^(v)的值带入公式

中，计算出结果并记为R2；

步骤2.9：计算|R2-R1|，若其结果小于0.00001，则跳转至步骤2.10，否则跳转至步骤2.3；

步骤2.10：输出当前视角计算得到的优化后的相似矩阵S^(v)*；

步骤2.11：对每个视角都执行一遍上述步骤2.1-步骤2.10，最后得到优化后的m个视角数据的相似矩阵S^(v)*。

上述的基于共享近邻的权重自更新多视角谱聚类方法，其中，步骤3具体包括：

步骤3.1：输入优化后的m个视角的初始相似矩阵S^(v)*，及全局相似矩阵S的聚类个数c；

步骤3.2：全局拉普拉斯矩阵

第v个视角的拉普拉斯矩阵L^(v)＝D^(v)*-S^(v)*，D^(v)*为对角阵，对角元素是S^(v)*元素的列和；全局嵌入矩阵U是全局拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵；

步骤3.3：根据函数

计算出全局拉普拉斯矩阵L，其中，U∈R^n*c,U^TU＝I,L＝D-S，D为对角阵，对角元素是全局相似矩阵S元素的列和，R^n*c为全体n*c维的矩阵集合，α^(v)为衡量第v个视角数据的权重信息，γ为权衡参数；

步骤3.4：根据全局拉普拉斯矩阵L计算其前c个最小特征值对应的特征向量组成的全局嵌入矩阵U；

步骤3.5：将步骤3.3和步骤3.4计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式

中并计算出结果，将结果记为M1；

步骤3.6：将步骤1和步骤2计算出的L和U的值带入公式

中计算出新的L的值，其中，α为由α^(v)组成的一组向量；

步骤3.7：根据L计算其前c个最小特征值对应的特征向量组成的特征矩阵U；

步骤3.8：将步骤3.6和步骤3.7计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式

中并计算出结果，将结果记为M2；

步骤3.9：计算|M2-M1|，若其结果小于0.00001，则跳转至步骤3.10，否则跳转至步骤3.3；

步骤3.10：输出当前计算的全局拉普拉斯矩阵L。

上述的基于共享近邻的权重自更新多视角谱聚类方法，其中，步骤4具体包括：

步骤4.1：根据L＝D-S的关系计算出全局相似矩阵S；

步骤4.2：根据Matlab工具箱中的graphconncomp函数寻找无向图的连通分支结构；

步骤4.3：根据无向图的连通分支结构输出对应的c个簇。

相对于现有技术，本发明具有以下有益效果：

本发明能够提高谱聚类算法中相似矩阵构造的准确性，并减少在相似矩阵构造阶段所花费的计算时间，同时进一步优化多视角数据融合模型。

附图说明

图1为三维数据点示意图；

图2为多视角相似图融合示意图；

图3为三维数据点聚类示意图；

图4为共享近邻个数示意图；

图5为本发明基于共享近邻的权重自更新多视角谱聚类方法的流程图；

图6为本发明相似矩阵构造方法流程图；

图7为本发明相似矩阵优化流程图；

图8为本发明权重自更新的多视角谱聚类方法流程图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述，这些实施例仅用于说明本发明，并不是对本发明保护范围的限制。

本发明第一主要用于解决谱聚类算法中相似矩阵的构造问题，使得满足空间上相近的数据点具有较高的相似度且位于同一个簇中的数据点具有较高的相似度，所以提高前期相似矩阵构造的准确性将会提高最后聚类的准确度。

如图1(本发明中以三维数据为例进行说明)，三维坐标轴中散落着许多的数据点，每一个数据点代表一个拥有三维信息的物体，现在我们根据相似矩阵中的对应的值来估量各个数据点之间的相似性，从而实现相似性高的数据点聚在一起，实现簇的划分，研究事物之间的规律。所以本发明之一就是用来优化相似矩阵的构造。

第二用于解决后期多视角数据融合问题，将多个视角下的相似矩阵根据其对应权重相乘求和融合为一个全局相似矩阵，并根据这个相似矩阵得到最终的聚类结果，如图2所示。对真实三维数据点的模拟聚类结果在图3中。为了避免在构造重构误差模型时引入过多变量和参数，本发明将计算对象集中在相似矩阵S对应的拉普拉斯矩阵L上，简化模型的求解难度，降低时间复杂度，同时在分配各个视角权重的时候采用自更新的方式。

如图2所示，上面两个圈和左下一个圈表示三个视角的相似矩阵，右下角一个圈表示经过模型求出的多视角数据融合的全局相似图，该相似图中已经得到最终的聚类结果，一共有三个簇。

如图3所示，将三维数据点聚类情况可视化，数据点中同簇的数据点用相同的形状表示，数据一共聚成了四簇。

1.相似矩阵构造方法：对比经典的高斯核方法和KNN算法

(1)高斯核函数法：

其中X_i,X_j表示两个数据点，σ是一个需要人工指定的参数，S_ij表示两个数据点的相似度。该构造方法中，两点的相似度只与两点间的欧氏距离有关，一旦距离确定，不论两点近邻的分布情况如何，相似度都是确定的，但是只以距离作为衡量相似度的标准，对应不同密度的簇就无法处理。

(2)KNN算法：

KNN算法将自己和周围的邻居节点连接起来，可以适应数据密度有差异的情况，但是处于低密度区域的数据点可能会和处在高密度区域的数据点连接起来。

(3)相似矩阵优化算法：

将共享近邻的思想加入到相似矩阵的构造中。数据点X_i和X_j之间的共享最近邻：SNN(X_i,X_j)＝|N(X_i)∩N(X_j)|，其中N(X_i)表示与点X_i最近的前k个点构成的集合，N(X_j)表示与点X_j最近的前k个点构成的集合。因为每个数据点只要捕捉其周围几个数据点的信息，所以参数K值在大部分的数据集中都在20以内，这在一定程度上节约了计算的时间。

两个数据点的共享近邻数如图4所示。

图4中两个对象A、B(黑色的)的7个最近邻中，有4个(灰色的)是A、B共享的，因此这两个对象之间的共享近邻个数为4。

结合共享最近邻的思想，给出任意两点X_i,X_j之间的相似度度量S_ij—基于共享近邻的自适应高斯核函数：

其中，σi和σj分别为点X_i和点X_j各自第p个近邻的欧氏距离(p一般取7)，σi和σj能够捕捉到两点邻域内数据点分布的稀疏稠密情况，更好地应对两个数据点位于不同密度簇的情况，从而更容易得到正确的聚类结果。该公式中，当两点X_i和X_j距离较近时，

值较小，S_ij值较大，使得相近的数据点具有较高的相似度；当数据点X_i和X_j位于同一簇中，数据点X_i和X_k位于不同簇中，

且σiσj＝σiσk时，统计它们共同邻域内共享最近邻的数目，得到共享最近邻个数SNN(X_i,X_j)>SNN(X_i,X_k)，进而得到相似度S_ij>S_ik，使得位于同一簇上的两点具有更高的相似度。

最后因为谱聚类算法适合处理比较稀疏的数据，为了得到更精确的结果，本文进一步将相似矩阵进行稀疏化处理，只有两个数据点之间的共享近邻数大于阈值δ(δ＝1/2K)，相似度S_ij值才不为0。在计算两个数据点之间的相似度时，只要将两个已知数据向量带入上式即可，具体处理步骤在下节实施例中。

2.多视角数据融合算法：将各个视角下的相似矩阵乘以对应的权重并求和得到最终的全局相似矩阵。

现有的重构误差模型：

S_j≥0,1^TS_j＝1

其中m是视角个数，α^(v)用来衡量各个视角数据的权重信息，α为由α^(v)组成的一组向量，S为所要求的代表各个视角的相似矩阵，列和为1，S^(v)为各个视角的相似矩阵，||S-S^(v)||_F表示矩阵S-S^(v)的F范数，γ为权衡参数。模型中后一项使用||||₂二范数则用来避免平凡解的问题，防止出现没有意义的的解，即一个视角的权重为1，其余为0的情况。但是这种重构误差模型并没有对所要求的全局相似矩阵S添加相应的约束信息，例如平凡解约束，同时又引入了新的参数γ，给模型求解带来了很大的困难。

同样的，现有的大多数多视角数据融合算法都是基于最小化重构误差模型，且模型均有以上问题，比如引入新参数或者缺少相应的约束，使得重构误差模型没有达到使用最优化。

为了解决以上问题，提出了一个新的重构误差模型，该模型可以表示如下：

其中L是相似矩阵S对应的拉普拉斯矩阵(L＝D-S,L^(v)＝D^(v)-S^(v),D是对角矩阵，值为相似矩阵S的每列和),

表示对L约束的一般式，

是拉格朗日乘子。该模型中并没有明显的权重求解项，且只有一个待求解项L。

对上述模型中L求偏导得到：

因为

则

同时令

则

所以

因为α^(v)是只关于L的一个函数，所以在求解时可以将α^(v)先看作定函数，则

求导问题也可用于求解以下问题：

其中因为

当某个视角的拉普拉斯矩阵与全局统一的拉普拉斯矩阵误差值

较大时，其对应的权重也会很小，这样就实现了权重自更新的功能，避免了新变量和多余参数的引入。同时又因为L＝D-S，D是对角矩阵，值为相似矩阵S的每列和，用拉普拉斯矩阵L代替相似矩阵S进行多视角数据融合可以避免由矩阵S带来的相应的约束条件进一步简化目标函数，为函数求解带来了极大的方便。

在上述模型中的基础上，应用拉普拉斯矩阵秩约束理论，就可以根据上述模型求得的L直接得到最终的聚类结果。

拉普拉斯矩阵秩约束理论：相似矩阵S的连通分支数c等于其对应的拉普拉斯矩阵L的特征值为0的个数。

这个定理表明，如果满足rank(L)＝n-c这个条件(n是数据点的个数)，即L的前c个最小特征值之和等于0，那么就可以直接通过相似矩阵S得到最终的c个簇。根据Fan在这篇文章中(On a theorem of Weyl concerning eigenvalues of linear transformations)证实的理论，有以下等式：

s.t.U∈R^n*c,U^TU＝I

其中λi表示拉普拉斯矩阵L的第i个特征值，L＝D-S，D表示度矩阵，它是一个对角阵，对角元素是矩阵S元素的列和，U是由拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵。

在大部分的谱聚类算法中，最后都需要通过kmeans算法需要不断地迭代，一直到函数收敛，其所花费的时间是秩约束方法的几倍，当数据量越大时就会越明显。所以我们用该方法可以直接得到最终的聚类结果，因此上述模型可以表示为：

s.t.U∈R^n*c,U^TU＝I,L＝D-S

其中L表示全局拉普拉斯矩阵，U表示全局特征嵌入矩阵。这个模型解决了多视角数据的权重分配问题，又同时完成了簇的划分，将两个过程统一为一体，节约了内存消耗，在聚类时间上也大大缩短。

如图5所示，本发明提供了一种基于共享近邻的权重自更新多视角谱聚类方法，其包括：

为了实现最终的聚类效果，将具体分为两步进行实施。

1.单视角下谱聚类算法的优化：主要是对相似矩阵的构造算法进行优化，同时利用拉普拉斯矩阵秩约束理论对优化后的相似矩阵进一步处理。

(1)相似矩阵的构造算法优化：因为谱聚类算法适合处理比较稀疏的数据，为了得到更精确的结果，本文进一步将相似矩阵进行稀疏化处理，只有两个数据点之间的共享近邻数大于阈值δ，相似度S_ij值才不为0。具体的相似矩阵构造过程如下所示，图6为其方法流程图。

步骤1.1：输入m个视角的数据集X＝{X₁,X₂,…,X_n}，n表示n个数据点，每个数据点为一个向量，在实际使用中它可以代表为一张图片或一条文本信息；

步骤1.3：令i＝1；

步骤1.5：令j＝i+1；

在上述实施步骤中，主要有两个参数k和δ，δ值根据k值而定。对大部分的数据来说k值一般不超过20，δ＝1/2k。

(2)拉普拉斯矩阵秩约束优化：将上述输出的各个视角相似矩阵S^(v)进一步优化，使得单视角下的相似矩阵的聚类簇结构更加明显，该模型总结如下：

s.t.U^(v)∈R^nxc',U^(v)TU^(v)＝I

S^(v) _j≥0,1^TS^(v) _j＝1

其中S^(v) _j表示第v个视角相似矩阵的第j列，列和为1，α为权衡参数。模型中前一项为拉普拉斯矩阵秩约束，后面一项是对相似矩阵的非平凡解的约束。因为公式中总共有两个变量U^(v)和S^(v)，因此采用常用的拉格朗日求解方法对该方程分为两个子问题交替迭代，最终可以得到矩阵U^(v)和^S(v)的值。

具体的过程总结如下，图7为其方法流程图。

步骤2.1：输入第v个视角的相似矩阵S^(v)，及其聚类个数c'；

步骤2.3：根据公式

计算出S^(v)的值；

中，计算出结果并记为R1，其中，U^(v)∈R^n*c',U^(v)TU^(v)＝I，

步骤2.6：将步骤2.3和步骤2.4计算出的S^(v)和U^(v)的值带入公式

中计算出新的S^(v)的值；

步骤2.8：将步骤2.6和步骤2.7计算出的S^(v)和U^(v)的值带入公式

中，计算出结果并记为R2；

步骤2.9：计算|R2-R1|，若其结果小于0.00001(说明其收敛了)，则跳转至步骤2.10，否则跳转至步骤2.3；

步骤2.10：输出当前视角计算得到的优化后的相似矩阵S^(v)*；

2.多视角数据的融合

采用上文提出的模型

同样的用拉格朗日函数采取交替迭代的方式计算出L和U的值，最后根据L＝D-S的关系，得出S。具体过程总结如下，图8为其方法流程图。

步骤3.1：输入优化后的m个视角的初始相似矩阵^S(v)*，及全局相似矩阵S的聚类个数c；

步骤3.2：全局拉普拉斯矩阵

步骤3.3：根据函数

中并计算出结果，将结果记为M1；

步骤3.6：将步骤1和步骤2计算出的L和U的值带入公式

中计算出新的L的值，其中，α为由α^(v)组成的一组向量；

中并计算出结果，将结果记为M2；

步骤3.9：计算|M2-M1|，若其结果小于0.00001(说明其收敛了)，则跳转至步骤3.10，否则跳转至步骤3.3；

步骤3.10：输出当前计算的全局拉普拉斯矩阵L。

最终通过以下步骤全局相似矩阵S对应的c个簇：

步骤4.1：根据L＝D-S的关系计算出全局相似矩阵S；

步骤4.3：根据无向图的连通分支结构输出对应的c个簇。

综上所述，本发明能够提高谱聚类算法中相似矩阵构造的准确性，并减少在相似矩阵构造阶段所花费的计算时间，同时进一步优化多视角数据融合模型。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。