CN111401468A - 一种基于共享近邻的权重自更新多视角谱聚类方法 - Google Patents

一种基于共享近邻的权重自更新多视角谱聚类方法 Download PDF

Info

Publication number
CN111401468A
CN111401468A CN202010225440.2A CN202010225440A CN111401468A CN 111401468 A CN111401468 A CN 111401468A CN 202010225440 A CN202010225440 A CN 202010225440A CN 111401468 A CN111401468 A CN 111401468A
Authority
CN
China
Prior art keywords
matrix
global
similarity
view
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010225440.2A
Other languages
English (en)
Other versions
CN111401468B (zh
Inventor
宋艳
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202010225440.2A priority Critical patent/CN111401468B/zh
Publication of CN111401468A publication Critical patent/CN111401468A/zh
Application granted granted Critical
Publication of CN111401468B publication Critical patent/CN111401468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于共享近邻的权重自更新多视角谱聚类方法,该方法包括:步骤1:输入多个视角的数据集,根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵;步骤2:根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵;步骤3:根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵;步骤4:根据所得到的全局拉普拉斯矩阵,计算出全局相似矩阵,由此得到一个具有多个联通分支的全局相似矩阵,从而得到最终的多个簇。本发明能够提高谱聚类算法中相似矩阵构造的准确性,并减少在相似矩阵构造阶段所花费的计算时间,同时进一步优化多视角数据融合模型。

Description

一种基于共享近邻的权重自更新多视角谱聚类方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于共享近邻的权重自更新多视角谱聚类方法。
背景技术
聚类分析可以针对目标群体进行多指标的群体划分,为市场提供个性化和精细化的运营,实现所谓的物以类聚,人以群分的功能。在现实生活中,数据往往是从不同的特征中获取的。例如,一幅图像的颜色、纹理、旋转不变特性等特征是这幅图像的不同视角,这些多视角的数据共同描绘了一幅图像,利用多视角数据可以获得比任何单一视角数据更准确的聚类结果。多视角谱聚类利用不同视角数据之间的相关性以及互补性以获得更多潜在的有价值信息,是目前谱聚类研究中的一个重要方向。
多视角谱聚类以谱聚类算法为基础。谱聚类的基本思想是利用从数据中得到的更低维的特征矩阵实现聚类,依靠两个部分完成聚类工作。第一个部分为图的构造,即根据一定的算法构造数据点之间的相似矩阵,现有的图构造方法主要有高斯核函数法和k最近邻法。因为谱聚类算法离不开相似矩阵的构造所以说基于谱聚类的算法的性能的提升很大程度上依赖于相似矩阵构造的优化。第二个部分对构造好的图,诱导出拉普拉斯矩阵并做特征分解,将数据嵌入到特征向量空间,最后再次使用图分割技术或者k-means算法实现聚类。
对于多视角谱聚类算法而言,由于各个视角表现不同,SC-Best算法主张利用谱聚类算法挑选出表现最好的视角聚类结果方法,但是这种方法分裂了各个视角之间的关联信息。其他方法主要集中在多个视角中找到统一的嵌入矩阵或者相似矩阵以此来代表各个视角的信息。Kumar等人提出了协同正则多视角谱聚类算法(Co-Regularization SpectralClustering,CRSC),该算法在不同视角下的簇划分结果应该相同的假设下,将协同训练的思想和谱聚类算法相结合得到最终的中心嵌入矩阵;Zhan等人在KNN算法的基础上提出了图学习的多视角谱聚类算法(Graph Learning for Multiview Clustering,MVGL),Xia等人提出了鲁棒多视图谱聚类(Robust multi-view spectral clustering via low-rankand sparse decomposition)该算法将马尔科夫链概率转移矩阵与谱聚类算法思想相结合求出统一的低秩拉普拉斯矩阵。这些算法都是在单视角下用KNN算法构造的相似矩阵的基础上,再用不同的方法将多视角的数据融合起来,包括协同方法,最小化重构误差方法。但是在多视角数据的融合中,很多算法都没有考虑各个视角所占的权重信息或者权重的计算方式并没有进一步优化。
以下将具体介绍两种多视角谱聚类算法并说明目前存在的问题:
1.协同正则多视角谱聚类采用交替正则化方法来平衡每个视角的谱聚类,让每个视角v的谱聚类的特征矩阵U(v)尽可能和中心特征矩阵U*一致,目标函数如下:
Figure BDA0002427491480000021
其中m表示视角个数,Tr表示求迹运算,参数γv给每个视角的正则化加权,γv的大小代表了视角v的重要程度。该方法中γv与所给数据集有很大关系且大部分情况下需要人工指定。
2.图学习的多视角谱聚类算法将各个视角下通过KNN算法得到的相似矩阵与全局相似矩阵进行重构误差最小化得到一个全局相似矩阵,并计算出各视角所占权重,最后通过拉普拉斯矩阵秩约束理论,根据全局相似矩阵得到聚类结果。该算法的目标函数:
Figure BDA0002427491480000022
Figure BDA0002427491480000023
其中矩阵A表示全局相似矩,Aj表示矩阵A的第j列,列和为1,α(v)表示第v个视角的相似矩阵所占的比重,一共有m个视角,W(v)表示第v个视角的相似矩阵,γ为权衡参数,矩阵L为矩阵A所对应的拉普拉斯矩阵,矩阵U是拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵,矩阵U其维度是n*c,n表示数据点的个数,c表示每个数据点的特征维度(Rn*c为数学公式中的常见表示方法,指代全体n*c维的矩阵集合),I表示单位矩阵。这种方法下为了避免引入新的参数,并没有对α(v)进行约束,当某个视角的数据较分散时或者某个视角受噪声干扰较大时,该视角容易被忽略,造成该视角的权重为0,这种情况下是没有意义的。
发明内容
本发明的目的是提供一种基于共享近邻的权重自更新多视角谱聚类方法,能够提高谱聚类算法中相似矩阵构造的准确性,并减少在相似矩阵构造阶段所花费的计算时间,同时进一步优化多视角数据融合模型。
为达到上述目的,本发明提供了一种基于共享近邻的权重自更新多视角谱聚类方法,其包括:
步骤1:输入多个视角的数据集,根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵;
步骤2:根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵;
步骤3:根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵;
步骤4:根据所得到的全局拉普拉斯矩阵,计算出全局相似矩阵,由此得到一个具有多个联通分支的全局相似矩阵,从而得到最终的多个簇。
上述的基于共享近邻的权重自更新多视角谱聚类方法,其中,步骤1具体包括:
步骤1.1:输入m个视角的数据集X={X1,X2,…,Xn},n表示n个数据点;
步骤1.2:初始化零矩阵S,S={Sij},i∈[1,n],j∈[1,n],Sij为任意两点Xi,Xj之间的相似度度量;
步骤1.3:令i=1;
步骤1.4:若i<n,执行步骤1.5;否则,输出相似矩阵S(v),v表示第v个视角;
步骤1.5:令j=i+1;
步骤1.6:若j≤n,执行步骤1.7;否则,更新i=i+1,执行步骤1.4;
步骤1.7:若数据点Xi在点Xj的k近邻空间中且数据点Xj在点Xi的k近邻空间中,则SNN(Xi,Xj)>阈值δ,令
Figure BDA0002427491480000041
其中σi和σj分别为点Xi和点Xj各自第p个近邻的欧氏距离,进一步更新j=j+1,执行步骤1.6;否则,更新j=j+1,执行步骤1.6;
步骤1.8:对每个视角均执行步骤1.2-步骤1.7,得到m个视角数据的相似矩阵S(v)
上述的基于共享近邻的权重自更新多视角谱聚类方法,其中,步骤2具体包括:
步骤2.1:输入第v个视角的相似矩阵S(v),及其聚类个数c';
步骤2.2:通过初始的相似矩阵S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到初始的嵌入矩阵U(v)的值;
步骤2.3:根据公式
Figure BDA0002427491480000042
计算出S(v)的值;
步骤2.4:计算出S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.5:将步骤2.3和步骤2.4计算出的S(v)和U(v)重新带入到公式
Figure BDA0002427491480000043
中,计算出结果并记为R1,其中,U(v)∈Rn*c',U(v)TU(v)=I,
Figure BDA0002427491480000044
S(v) j≥0,1TS(v) j=1,Tr表示求迹运算,S(v) j表示第v个视角相似矩阵的第j列,列和为1,α为权衡参数,I表示单位矩阵,Rn*c'为全体n*c'维的矩阵集合;
步骤2.6:将步骤2.3和步骤2.4计算出的S(v)和U(v)的值带入公式
Figure BDA0002427491480000051
中计算出新的S(v)的值;
步骤2.7:根据步骤2.6计算出的S(v)计算其对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.8:将步骤2.6和步骤2.7计算出的S(v)和U(v)的值带入公式
Figure BDA0002427491480000052
中,计算出结果并记为R2;
步骤2.9:计算|R2-R1|,若其结果小于0.00001,则跳转至步骤2.10,否则跳转至步骤2.3;
步骤2.10:输出当前视角计算得到的优化后的相似矩阵S(v)*
步骤2.11:对每个视角都执行一遍上述步骤2.1-步骤2.10,最后得到优化后的m个视角数据的相似矩阵S(v)*
上述的基于共享近邻的权重自更新多视角谱聚类方法,其中,步骤3具体包括:
步骤3.1:输入优化后的m个视角的初始相似矩阵S(v)*,及全局相似矩阵S的聚类个数c;
步骤3.2:全局拉普拉斯矩阵
Figure BDA0002427491480000053
第v个视角的拉普拉斯矩阵L(v)=D(v)*-S(v)*,D(v)*为对角阵,对角元素是S(v)*元素的列和;全局嵌入矩阵U是全局拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵;
步骤3.3:根据函数
Figure BDA0002427491480000054
计算出全局拉普拉斯矩阵L,其中,U∈Rn*c,UTU=I,L=D-S,D为对角阵,对角元素是全局相似矩阵S元素的列和,Rn*c为全体n*c维的矩阵集合,α(v)为衡量第v个视角数据的权重信息,γ为权衡参数;
步骤3.4:根据全局拉普拉斯矩阵L计算其前c个最小特征值对应的特征向量组成的全局嵌入矩阵U;
步骤3.5:将步骤3.3和步骤3.4计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure BDA0002427491480000061
中并计算出结果,将结果记为M1;
步骤3.6:将步骤1和步骤2计算出的L和U的值带入公式
Figure BDA0002427491480000062
中计算出新的L的值,其中,α为由α(v)组成的一组向量;
步骤3.7:根据L计算其前c个最小特征值对应的特征向量组成的特征矩阵U;
步骤3.8:将步骤3.6和步骤3.7计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure BDA0002427491480000063
中并计算出结果,将结果记为M2;
步骤3.9:计算|M2-M1|,若其结果小于0.00001,则跳转至步骤3.10,否则跳转至步骤3.3;
步骤3.10:输出当前计算的全局拉普拉斯矩阵L。
上述的基于共享近邻的权重自更新多视角谱聚类方法,其中,步骤4具体包括:
步骤4.1:根据L=D-S的关系计算出全局相似矩阵S;
步骤4.2:根据Matlab工具箱中的graphconncomp函数寻找无向图的连通分支结构;
步骤4.3:根据无向图的连通分支结构输出对应的c个簇。
相对于现有技术,本发明具有以下有益效果:
本发明能够提高谱聚类算法中相似矩阵构造的准确性,并减少在相似矩阵构造阶段所花费的计算时间,同时进一步优化多视角数据融合模型。
附图说明
图1为三维数据点示意图;
图2为多视角相似图融合示意图;
图3为三维数据点聚类示意图;
图4为共享近邻个数示意图;
图5为本发明基于共享近邻的权重自更新多视角谱聚类方法的流程图;
图6为本发明相似矩阵构造方法流程图;
图7为本发明相似矩阵优化流程图;
图8为本发明权重自更新的多视角谱聚类方法流程图。
具体实施方式
以下结合附图通过具体实施例对本发明作进一步的描述,这些实施例仅用于说明本发明,并不是对本发明保护范围的限制。
本发明第一主要用于解决谱聚类算法中相似矩阵的构造问题,使得满足空间上相近的数据点具有较高的相似度且位于同一个簇中的数据点具有较高的相似度,所以提高前期相似矩阵构造的准确性将会提高最后聚类的准确度。
如图1(本发明中以三维数据为例进行说明),三维坐标轴中散落着许多的数据点,每一个数据点代表一个拥有三维信息的物体,现在我们根据相似矩阵中的对应的值来估量各个数据点之间的相似性,从而实现相似性高的数据点聚在一起,实现簇的划分,研究事物之间的规律。所以本发明之一就是用来优化相似矩阵的构造。
第二用于解决后期多视角数据融合问题,将多个视角下的相似矩阵根据其对应权重相乘求和融合为一个全局相似矩阵,并根据这个相似矩阵得到最终的聚类结果,如图2所示。对真实三维数据点的模拟聚类结果在图3中。为了避免在构造重构误差模型时引入过多变量和参数,本发明将计算对象集中在相似矩阵S对应的拉普拉斯矩阵L上,简化模型的求解难度,降低时间复杂度,同时在分配各个视角权重的时候采用自更新的方式。
如图2所示,上面两个圈和左下一个圈表示三个视角的相似矩阵,右下角一个圈表示经过模型求出的多视角数据融合的全局相似图,该相似图中已经得到最终的聚类结果,一共有三个簇。
如图3所示,将三维数据点聚类情况可视化,数据点中同簇的数据点用相同的形状表示,数据一共聚成了四簇。
1.相似矩阵构造方法:对比经典的高斯核方法和KNN算法
(1)高斯核函数法:
Figure BDA0002427491480000081
其中Xi,Xj表示两个数据点,σ是一个需要人工指定的参数,Sij表示两个数据点的相似度。该构造方法中,两点的相似度只与两点间的欧氏距离有关,一旦距离确定,不论两点近邻的分布情况如何,相似度都是确定的,但是只以距离作为衡量相似度的标准,对应不同密度的簇就无法处理。
(2)KNN算法:
KNN算法将自己和周围的邻居节点连接起来,可以适应数据密度有差异的情况,但是处于低密度区域的数据点可能会和处在高密度区域的数据点连接起来。
(3)相似矩阵优化算法:
将共享近邻的思想加入到相似矩阵的构造中。数据点Xi和Xj之间的共享最近邻:SNN(Xi,Xj)=|N(Xi)∩N(Xj)|,其中N(Xi)表示与点Xi最近的前k个点构成的集合,N(Xj)表示与点Xj最近的前k个点构成的集合。因为每个数据点只要捕捉其周围几个数据点的信息,所以参数K值在大部分的数据集中都在20以内,这在一定程度上节约了计算的时间。
两个数据点的共享近邻数如图4所示。
图4中两个对象A、B(黑色的)的7个最近邻中,有4个(灰色的)是A、B共享的,因此这两个对象之间的共享近邻个数为4。
结合共享最近邻的思想,给出任意两点Xi,Xj之间的相似度度量Sij—基于共享近邻的自适应高斯核函数:
Figure BDA0002427491480000082
其中,σi和σj分别为点Xi和点Xj各自第p个近邻的欧氏距离(p一般取7),σi和σj能够捕捉到两点邻域内数据点分布的稀疏稠密情况,更好地应对两个数据点位于不同密度簇的情况,从而更容易得到正确的聚类结果。该公式中,当两点Xi和Xj距离较近时,
Figure BDA0002427491480000091
值较小,Sij值较大,使得相近的数据点具有较高的相似度;当数据点Xi和Xj位于同一簇中,数据点Xi和Xk位于不同簇中,
Figure BDA0002427491480000092
且σiσj=σiσk时,统计它们共同邻域内共享最近邻的数目,得到共享最近邻个数SNN(Xi,Xj)>SNN(Xi,Xk),进而得到相似度Sij>Sik,使得位于同一簇上的两点具有更高的相似度。
最后因为谱聚类算法适合处理比较稀疏的数据,为了得到更精确的结果,本文进一步将相似矩阵进行稀疏化处理,只有两个数据点之间的共享近邻数大于阈值δ(δ=1/2K),相似度Sij值才不为0。在计算两个数据点之间的相似度时,只要将两个已知数据向量带入上式即可,具体处理步骤在下节实施例中。
2.多视角数据融合算法:将各个视角下的相似矩阵乘以对应的权重并求和得到最终的全局相似矩阵。
现有的重构误差模型:
Figure BDA0002427491480000093
Figure BDA0002427491480000094
Sj≥0,1TSj=1
其中m是视角个数,α(v)用来衡量各个视角数据的权重信息,α为由α(v)组成的一组向量,S为所要求的代表各个视角的相似矩阵,列和为1,S(v)为各个视角的相似矩阵,||S-S(v)||F表示矩阵S-S(v)的F范数,γ为权衡参数。模型中后一项使用||||2二范数则用来避免平凡解的问题,防止出现没有意义的的解,即一个视角的权重为1,其余为0的情况。但是这种重构误差模型并没有对所要求的全局相似矩阵S添加相应的约束信息,例如平凡解约束,同时又引入了新的参数γ,给模型求解带来了很大的困难。
同样的,现有的大多数多视角数据融合算法都是基于最小化重构误差模型,且模型均有以上问题,比如引入新参数或者缺少相应的约束,使得重构误差模型没有达到使用最优化。
为了解决以上问题,提出了一个新的重构误差模型,该模型可以表示如下:
Figure BDA0002427491480000101
其中L是相似矩阵S对应的拉普拉斯矩阵(L=D-S,L(v)=D(v)-S(v),D是对角矩阵,值为相似矩阵S的每列和),
Figure BDA0002427491480000102
表示对L约束的一般式,
Figure BDA0002427491480000103
是拉格朗日乘子。该模型中并没有明显的权重求解项,且只有一个待求解项L。
对上述模型中L求偏导得到:
Figure BDA0002427491480000104
因为
Figure BDA0002427491480000105
Figure BDA0002427491480000106
同时令
Figure BDA0002427491480000107
Figure BDA0002427491480000108
所以
Figure BDA0002427491480000109
因为α(v)是只关于L的一个函数,所以在求解时可以将α(v)先看作定函数,则
Figure BDA0002427491480000111
求导问题也可用于求解以下问题:
Figure BDA0002427491480000112
其中因为
Figure BDA0002427491480000113
当某个视角的拉普拉斯矩阵与全局统一的拉普拉斯矩阵误差值
Figure BDA0002427491480000114
较大时,其对应的权重也会很小,这样就实现了权重自更新的功能,避免了新变量和多余参数的引入。同时又因为L=D-S,D是对角矩阵,值为相似矩阵S的每列和,用拉普拉斯矩阵L代替相似矩阵S进行多视角数据融合可以避免由矩阵S带来的相应的约束条件进一步简化目标函数,为函数求解带来了极大的方便。
在上述模型中的基础上,应用拉普拉斯矩阵秩约束理论,就可以根据上述模型求得的L直接得到最终的聚类结果。
拉普拉斯矩阵秩约束理论:相似矩阵S的连通分支数c等于其对应的拉普拉斯矩阵L的特征值为0的个数。
这个定理表明,如果满足rank(L)=n-c这个条件(n是数据点的个数),即L的前c个最小特征值之和等于0,那么就可以直接通过相似矩阵S得到最终的c个簇。根据Fan在这篇文章中(On a theorem of Weyl concerning eigenvalues of linear transformations)证实的理论,有以下等式:
Figure BDA0002427491480000115
s.t.U∈Rn*c,UTU=I
其中λi表示拉普拉斯矩阵L的第i个特征值,L=D-S,D表示度矩阵,它是一个对角阵,对角元素是矩阵S元素的列和,U是由拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵。
在大部分的谱聚类算法中,最后都需要通过kmeans算法需要不断地迭代,一直到函数收敛,其所花费的时间是秩约束方法的几倍,当数据量越大时就会越明显。所以我们用该方法可以直接得到最终的聚类结果,因此上述模型可以表示为:
Figure BDA0002427491480000121
s.t.U∈Rn*c,UTU=I,L=D-S
其中L表示全局拉普拉斯矩阵,U表示全局特征嵌入矩阵。这个模型解决了多视角数据的权重分配问题,又同时完成了簇的划分,将两个过程统一为一体,节约了内存消耗,在聚类时间上也大大缩短。
如图5所示,本发明提供了一种基于共享近邻的权重自更新多视角谱聚类方法,其包括:
步骤1:输入多个视角的数据集,根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵;
步骤2:根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵;
步骤3:根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵;
步骤4:根据所得到的全局拉普拉斯矩阵,计算出全局相似矩阵,由此得到一个具有多个联通分支的全局相似矩阵,从而得到最终的多个簇。
为了实现最终的聚类效果,将具体分为两步进行实施。
1.单视角下谱聚类算法的优化:主要是对相似矩阵的构造算法进行优化,同时利用拉普拉斯矩阵秩约束理论对优化后的相似矩阵进一步处理。
(1)相似矩阵的构造算法优化:因为谱聚类算法适合处理比较稀疏的数据,为了得到更精确的结果,本文进一步将相似矩阵进行稀疏化处理,只有两个数据点之间的共享近邻数大于阈值δ,相似度Sij值才不为0。具体的相似矩阵构造过程如下所示,图6为其方法流程图。
步骤1.1:输入m个视角的数据集X={X1,X2,…,Xn},n表示n个数据点,每个数据点为一个向量,在实际使用中它可以代表为一张图片或一条文本信息;
步骤1.2:初始化零矩阵S,S={Sij},i∈[1,n],j∈[1,n],Sij为任意两点Xi,Xj之间的相似度度量;
步骤1.3:令i=1;
步骤1.4:若i<n,执行步骤1.5;否则,输出相似矩阵S(v),v表示第v个视角;
步骤1.5:令j=i+1;
步骤1.6:若j≤n,执行步骤1.7;否则,更新i=i+1,执行步骤1.4;
步骤1.7:若数据点Xi在点Xj的k近邻空间中且数据点Xj在点Xi的k近邻空间中,则SNN(Xi,Xj)>阈值δ,令
Figure BDA0002427491480000131
其中σi和σj分别为点Xi和点Xj各自第p个近邻的欧氏距离,进一步更新j=j+1,执行步骤1.6;否则,更新j=j+1,执行步骤1.6;
步骤1.8:对每个视角均执行步骤1.2-步骤1.7,得到m个视角数据的相似矩阵S(v)
在上述实施步骤中,主要有两个参数k和δ,δ值根据k值而定。对大部分的数据来说k值一般不超过20,δ=1/2k。
(2)拉普拉斯矩阵秩约束优化:将上述输出的各个视角相似矩阵S(v)进一步优化,使得单视角下的相似矩阵的聚类簇结构更加明显,该模型总结如下:
Figure BDA0002427491480000141
s.t.U(v)∈Rnxc',U(v)TU(v)=I
Figure BDA0002427491480000142
S(v) j≥0,1TS(v) j=1
其中S(v) j表示第v个视角相似矩阵的第j列,列和为1,α为权衡参数。模型中前一项为拉普拉斯矩阵秩约束,后面一项是对相似矩阵的非平凡解的约束。因为公式中总共有两个变量U(v)和S(v),因此采用常用的拉格朗日求解方法对该方程分为两个子问题交替迭代,最终可以得到矩阵U(v)S(v)的值。
具体的过程总结如下,图7为其方法流程图。
步骤2.1:输入第v个视角的相似矩阵S(v),及其聚类个数c';
步骤2.2:通过初始的相似矩阵S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到初始的嵌入矩阵U(v)的值;
步骤2.3:根据公式
Figure BDA0002427491480000143
计算出S(v)的值;
步骤2.4:计算出S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.5:将步骤2.3和步骤2.4计算出的S(v)和U(v)重新带入到公式
Figure BDA0002427491480000144
中,计算出结果并记为R1,其中,U(v)∈Rn*c',U(v)TU(v)=I,
Figure BDA0002427491480000145
S(v) j≥0,1TS(v) j=1,Tr表示求迹运算,S(v) j表示第v个视角相似矩阵的第j列,列和为1,α为权衡参数,I表示单位矩阵,Rn*c'为全体n*c'维的矩阵集合;
步骤2.6:将步骤2.3和步骤2.4计算出的S(v)和U(v)的值带入公式
Figure BDA0002427491480000146
中计算出新的S(v)的值;
步骤2.7:根据步骤2.6计算出的S(v)计算其对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.8:将步骤2.6和步骤2.7计算出的S(v)和U(v)的值带入公式
Figure BDA0002427491480000151
中,计算出结果并记为R2;
步骤2.9:计算|R2-R1|,若其结果小于0.00001(说明其收敛了),则跳转至步骤2.10,否则跳转至步骤2.3;
步骤2.10:输出当前视角计算得到的优化后的相似矩阵S(v)*
步骤2.11:对每个视角都执行一遍上述步骤2.1-步骤2.10,最后得到优化后的m个视角数据的相似矩阵S(v)*
2.多视角数据的融合
采用上文提出的模型
Figure BDA0002427491480000152
同样的用拉格朗日函数采取交替迭代的方式计算出L和U的值,最后根据L=D-S的关系,得出S。具体过程总结如下,图8为其方法流程图。
步骤3.1:输入优化后的m个视角的初始相似矩阵S(v)*,及全局相似矩阵S的聚类个数c;
步骤3.2:全局拉普拉斯矩阵
Figure BDA0002427491480000153
第v个视角的拉普拉斯矩阵L(v)=D(v)*-S(v)*,D(v)*为对角阵,对角元素是S(v)*元素的列和;全局嵌入矩阵U是全局拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵;
步骤3.3:根据函数
Figure BDA0002427491480000154
计算出全局拉普拉斯矩阵L,其中,U∈Rn*c,UTU=I,L=D-S,D为对角阵,对角元素是全局相似矩阵S元素的列和,Rn*c为全体n*c维的矩阵集合,α(v)为衡量第v个视角数据的权重信息,γ为权衡参数;
步骤3.4:根据全局拉普拉斯矩阵L计算其前c个最小特征值对应的特征向量组成的全局嵌入矩阵U;
步骤3.5:将步骤3.3和步骤3.4计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure BDA0002427491480000161
中并计算出结果,将结果记为M1;
步骤3.6:将步骤1和步骤2计算出的L和U的值带入公式
Figure BDA0002427491480000162
中计算出新的L的值,其中,α为由α(v)组成的一组向量;
步骤3.7:根据L计算其前c个最小特征值对应的特征向量组成的特征矩阵U;
步骤3.8:将步骤3.6和步骤3.7计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure BDA0002427491480000163
中并计算出结果,将结果记为M2;
步骤3.9:计算|M2-M1|,若其结果小于0.00001(说明其收敛了),则跳转至步骤3.10,否则跳转至步骤3.3;
步骤3.10:输出当前计算的全局拉普拉斯矩阵L。
最终通过以下步骤全局相似矩阵S对应的c个簇:
步骤4.1:根据L=D-S的关系计算出全局相似矩阵S;
步骤4.2:根据Matlab工具箱中的graphconncomp函数寻找无向图的连通分支结构;
步骤4.3:根据无向图的连通分支结构输出对应的c个簇。
综上所述,本发明能够提高谱聚类算法中相似矩阵构造的准确性,并减少在相似矩阵构造阶段所花费的计算时间,同时进一步优化多视角数据融合模型。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (5)

1.一种基于共享近邻的权重自更新多视角谱聚类方法,其特征在于,包括:
步骤1:输入多个视角的数据集,根据共享近邻的自适应高斯核函数计算出各个视角的相似矩阵;
步骤2:根据拉普拉斯矩阵秩约束理论对各个视角的相似矩阵的簇结构进一步优化各个视角的相似矩阵;
步骤3:根据权重自更新多视角谱聚类模型计算出全局拉普拉斯矩阵;
步骤4:根据所得到的全局拉普拉斯矩阵,计算出全局相似矩阵,由此得到一个具有多个联通分支的全局相似矩阵,从而得到最终的多个簇。
2.如权利要求1所述的基于共享近邻的权重自更新多视角谱聚类方法,其特征在于,步骤1具体包括:
步骤1.1:输入m个视角的数据集X={X1,X2,…,Xn},n表示n个数据点;
步骤1.2:初始化零矩阵S,S={Sij},i∈[1,n],j∈[1,n],Sij为任意两点Xi,Xj之间的相似度度量;
步骤1.3:令i=1;
步骤1.4:若i<n,执行步骤1.5;否则,输出相似矩阵S(v),v表示第v
个视角;
步骤1.5:令j=i+1;
步骤1.6:若j≤n,执行步骤1.7;否则,更新i=i+1,执行步骤1.4;
步骤1.7:若数据点Xi在点Xj的k近邻空间中且数据点Xj在点Xi的k近邻空间中,则SNN(Xi,Xj)>阈值δ,令
Figure FDA0002427491470000011
其中σi和σj分别为点Xi和点Xj各自第p个近邻的欧氏距离,进一步更新j=j+1,执行步骤1.6;
否则,更新j=j+1,执行步骤1.6;
步骤1.8:对每个视角均执行步骤1.2-步骤1.7,得到m个视角数据的相似矩阵S(v)
3.如权利要求2所述的基于共享近邻的权重自更新多视角谱聚类方法,其特征在于,步骤2具体包括:
步骤2.1:输入第v个视角的相似矩阵S(v),及其聚类个数c';
步骤2.2:通过初始的相似矩阵S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到初始的嵌入矩阵U(v)的值;
步骤2.3:根据公式
Figure FDA0002427491470000021
计算出S(v)的值;
步骤2.4:计算出S(v)对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.5:将步骤2.3和步骤2.4计算出的S(v)和U(v)重新带入到公式
Figure FDA0002427491470000022
中,计算出结果并记为R1,其中,U(v)∈Rn*c',U(v)TU(v)=I,
Figure FDA0002427491470000023
S(v) j≥0,1TS(v) j=1,Tr表示求迹运算,S(v) j表示第v个视角相似矩阵的第j列,列和为1,α为权衡参数,I表示单位矩阵,Rn*c'为全体n*c'维的矩阵集合;
步骤2.6:将步骤2.3和步骤2.4计算出的S(v)和U(v)的值带入公式
Figure FDA0002427491470000024
中计算出新的S(v)的值;
步骤2.7:根据步骤2.6计算出的S(v)计算其对应的拉普拉斯矩阵L(v)前c'个最小特征值对应的特征向量得到嵌入矩阵U(v)
步骤2.8:将步骤2.6和步骤2.7计算出的S(v)和U(v)的值带入公式
Figure FDA0002427491470000025
中,计算出结果并记为R2;
步骤2.9:计算|R2-R1|,若其结果小于0.00001,则跳转至步骤2.10,否则跳转至步骤2.3;
步骤2.10:输出当前视角计算得到的优化后的相似矩阵S(v)*
步骤2.11:对每个视角都执行一遍上述步骤2.1-步骤2.10,最后得到优化后的m个视角数据的相似矩阵S(v)*
4.如权利要求3所述的基于共享近邻的权重自更新多视角谱聚类方法,其特征在于,步骤3具体包括:
步骤3.1:输入优化后的m个视角的初始相似矩阵S(v)*,及全局相似矩阵S的聚类个数c;
步骤3.2:全局拉普拉斯矩阵
Figure FDA0002427491470000031
第v个视角的拉普拉斯矩阵L(v)=D(v)*-S(v)*,D(v)*为对角阵,对角元素是S(v)*元素的列和;全局嵌入矩阵U是全局拉普拉斯矩阵L前c个最小特征值对应的特征向量组成的矩阵;
步骤3.3:根据函数
Figure FDA0002427491470000032
计算出全局拉普拉斯矩阵L,其中,U∈Rn*c,UTU=I,L=D-S,D为对角阵,对角元素是全局相似矩阵S元素的列和,Rn*c为全体n*c维的矩阵集合,α(v)为衡量第v个视角数据的权重信息,γ为权衡参数;
步骤3.4:根据全局拉普拉斯矩阵L计算其前c个最小特征值对应的特征向量组成的全局嵌入矩阵U;
步骤3.5:将步骤3.3和步骤3.4计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure FDA0002427491470000033
中并计算出结果,将结果记为M1;
步骤3.6:将步骤1和步骤2计算出的L和U的值带入公式
Figure FDA0002427491470000041
中计算出新的L的值,其中,α为由α(v)组成的一组向量;
步骤3.7:根据L计算其前c个最小特征值对应的特征向量组成的特征矩阵U;
步骤3.8:将步骤3.6和步骤3.7计算出的全局拉普拉斯矩阵L和全局嵌入矩阵U带入到公式
Figure FDA0002427491470000042
中并计算出结果,将结果记为M2;
步骤3.9:计算|M2-M1|,若其结果小于0.00001,则跳转至步骤3.10,否则跳转至步骤3.3;
步骤3.10:输出当前计算的全局拉普拉斯矩阵L。
5.如权利要求4所述的基于共享近邻的权重自更新多视角谱聚类方法,其特征在于,步骤4具体包括:
步骤4.1:根据L=D-S的关系计算出全局相似矩阵S;
步骤4.2:根据Matlab工具箱中的graphconncomp函数寻找无向图的连通分支结构;
步骤4.3:根据无向图的连通分支结构输出对应的c个簇。
CN202010225440.2A 2020-03-26 2020-03-26 一种基于共享近邻的权重自更新多视角谱聚类方法 Active CN111401468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010225440.2A CN111401468B (zh) 2020-03-26 2020-03-26 一种基于共享近邻的权重自更新多视角谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010225440.2A CN111401468B (zh) 2020-03-26 2020-03-26 一种基于共享近邻的权重自更新多视角谱聚类方法

Publications (2)

Publication Number Publication Date
CN111401468A true CN111401468A (zh) 2020-07-10
CN111401468B CN111401468B (zh) 2023-03-24

Family

ID=71431295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010225440.2A Active CN111401468B (zh) 2020-03-26 2020-03-26 一种基于共享近邻的权重自更新多视角谱聚类方法

Country Status (1)

Country Link
CN (1) CN111401468B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598713A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 基于相似度权重更新的团伙识别方法、装置及电子设备
CN112148911A (zh) * 2020-08-19 2020-12-29 江苏大学 一种多视图本征低秩结构的图像聚类方法
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112766412A (zh) * 2021-02-05 2021-05-07 西北民族大学 一种基于自适应稀疏图学习的多视图聚类方法
CN112883154A (zh) * 2021-01-28 2021-06-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
CN112948345A (zh) * 2021-04-15 2021-06-11 苏州数海长云数据信息科技有限公司 一种基于云计算平台的大数据聚类方法
CN113420802A (zh) * 2021-06-04 2021-09-21 桂林电子科技大学 基于改进谱聚类的报警数据融合方法
CN114299128A (zh) * 2021-12-30 2022-04-08 咪咕视讯科技有限公司 多视角定位检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275862A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Spectral clustering using sequential matrix compression
US20080294686A1 (en) * 2007-05-25 2008-11-27 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US20150363361A1 (en) * 2014-06-16 2015-12-17 Mitsubishi Electric Research Laboratories, Inc. Method for Kernel Correlation-Based Spectral Data Processing
CN106991430A (zh) * 2017-02-28 2017-07-28 浙江工业大学 一种基于临近点法的聚类个数自动确定谱聚类方法
CN108596234A (zh) * 2018-04-17 2018-09-28 中国矿业大学 一种基于共享近邻的约束谱聚类方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法
CN109784374A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于自适应邻近点的多视角聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275862A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Spectral clustering using sequential matrix compression
US20080294686A1 (en) * 2007-05-25 2008-11-27 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US20150363361A1 (en) * 2014-06-16 2015-12-17 Mitsubishi Electric Research Laboratories, Inc. Method for Kernel Correlation-Based Spectral Data Processing
CN106991430A (zh) * 2017-02-28 2017-07-28 浙江工业大学 一种基于临近点法的聚类个数自动确定谱聚类方法
CN108596234A (zh) * 2018-04-17 2018-09-28 中国矿业大学 一种基于共享近邻的约束谱聚类方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法
CN109784374A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于自适应邻近点的多视角聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王贝贝等: "一种基于自适应相似矩阵的谱聚类算法", 《河北工业科技》 *
郑建炜等: "块对角拉普拉斯约束的平滑聚类算法", 《计算机辅助设计与图形学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598713A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 基于相似度权重更新的团伙识别方法、装置及电子设备
CN112148911A (zh) * 2020-08-19 2020-12-29 江苏大学 一种多视图本征低秩结构的图像聚类方法
CN112148911B (zh) * 2020-08-19 2024-03-19 江苏大学 一种多视图本征低秩结构的图像聚类方法
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112464638B (zh) * 2020-12-14 2022-12-30 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112883154A (zh) * 2021-01-28 2021-06-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
CN112766412A (zh) * 2021-02-05 2021-05-07 西北民族大学 一种基于自适应稀疏图学习的多视图聚类方法
CN112766412B (zh) * 2021-02-05 2023-11-07 西北民族大学 一种基于自适应稀疏图学习的多视图聚类方法
CN112948345A (zh) * 2021-04-15 2021-06-11 苏州数海长云数据信息科技有限公司 一种基于云计算平台的大数据聚类方法
CN113420802A (zh) * 2021-06-04 2021-09-21 桂林电子科技大学 基于改进谱聚类的报警数据融合方法
CN114299128A (zh) * 2021-12-30 2022-04-08 咪咕视讯科技有限公司 多视角定位检测方法及装置

Also Published As

Publication number Publication date
CN111401468B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111401468B (zh) 一种基于共享近邻的权重自更新多视角谱聚类方法
CN109685152B (zh) 一种基于dc-spp-yolo的图像目标检测方法
Zeng et al. 3dcontextnet: Kd tree guided hierarchical learning of point clouds using local and global contextual cues
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110097609B (zh) 一种基于样本域的精细化绣花纹理迁移方法
CN112215050A (zh) 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备
CN105631415A (zh) 一种基于卷积神经网络的视频行人识别方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别系统及方法
Park et al. Fast and scalable approximate spectral matching for higher order graph matching
Wang et al. An unequal deep learning approach for 3-D point cloud segmentation
CN112784782B (zh) 一种基于多视角双注意网络的三维物体识别方法
CN109711442B (zh) 无监督逐层生成对抗特征表示学习方法
CN117746260B (zh) 遥感数据智能解析方法及系统
Suykens Data visualization and dimensionality reduction using kernel maps with a reference point
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN110188621B (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
Lei et al. Mesh convolution with continuous filters for 3-D surface parsing
Deng et al. See-csom: Sharp-edged and efficient continuous semantic occupancy mapping for mobile robots
CN111126467B (zh) 一种基于多目标正余弦算法的遥感影像空谱聚类方法
CN115795073A (zh) 一种聚类方法、装置、设备及可读存储介质
CN107492101B (zh) 基于自适应构造最优图的多模态鼻咽肿瘤分割算法
Yu et al. Prototypical network based on Manhattan distance
CN113066094B (zh) 一种基于生成对抗网络的地理栅格智能化局部脱敏方法
Chen et al. 3D object retrieval with graph-based collaborative feature learning
CN113159233A (zh) 一种谱聚类加速方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant