CN102110173A - 一种改进亲和矩阵的多路谱聚类方法 - Google Patents

一种改进亲和矩阵的多路谱聚类方法 Download PDF

Info

Publication number
CN102110173A
CN102110173A CN2011100886305A CN201110088630A CN102110173A CN 102110173 A CN102110173 A CN 102110173A CN 2011100886305 A CN2011100886305 A CN 2011100886305A CN 201110088630 A CN201110088630 A CN 201110088630A CN 102110173 A CN102110173 A CN 102110173A
Authority
CN
China
Prior art keywords
matrix
point
similarity
neighbor relationships
spectral clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100886305A
Other languages
English (en)
Inventor
李新叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN2011100886305A priority Critical patent/CN102110173A/zh
Publication of CN102110173A publication Critical patent/CN102110173A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了聚类分析技术领域中的一种改进亲和矩阵的多路谱聚类方法。该方法计算了数据点间的欧氏距离、相似度,通过指定的阈值确定数据点间的近邻关系,并根据近邻传递原则更新近邻关系矩阵和相似度矩阵,最后得到亲和矩阵。本发明方法考虑了数据的分布结构,可以使数据点在任意形状和任意分布结构时,亲和矩阵中的元素值都能反映数据点的真实相似度,改善了多路谱聚类方法的聚类有效性和对任意数据集的适用性。

Description

一种改进亲和矩阵的多路谱聚类方法
技术领域
本发明属于聚类分析技术领域,尤其涉及一种改进亲和矩阵的多路谱聚类方法。
背景技术
聚类分析是数据挖掘研究和应用中的一个重要部分,在模式识别和人工智能等领域,聚类方法又被称为一种无监督的学习。聚类分析是将数据对象分组成多个类或多个簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。传统的聚类分析方法,如K-means、EM等都是建立在凸球形的样本空间上,当样本空间非凸时,该方法易陷入局部最优。为了能在任意形状的样本空间上聚类,且收敛于全局最优,一类新型的聚类方法-谱聚类被提出。谱聚类根据样本间的相似关系建立亲和矩阵,通过求解拉普拉斯矩阵的特征向量找出数据样本间的内在联系。与传统的聚类方法相比,谱聚类不含有凸球形数据分布的隐性假设,从而能够识别非凸类型的簇;因此,谱聚类已被广泛应用于图像分割、计算机视觉、语音识别、VLSI设计等领域。按照划分准则不同已有的谱聚类方法可以分为两种,一种是利用2-way划分准则迭代地对样本数据进行聚类;另一种是利用k-way划分准则,使用更多的特征向量直接计算k路分割,即多路谱聚类方法。由于多路谱聚类NJW方法稳定性好,得到的聚类效果更好,因此成为最常用的谱聚类方法之一。但是在多路谱聚类方法中,聚类个数K的选择及特征向量的选择不当都会直接影响聚类结果的准确性。理想情况下,如果一个数据集中包含k个聚簇,且聚簇内部分布得越密,各聚簇间分布得越开时,其对应的拉普拉斯矩阵的前k个最大特征值均为1,后面的第k+1个特征值会远小于1,这样第k+1个特征值与第k个特征值之间就存在一个较大的差值,称为eigengap,直接选择前k个特征值对应的特征向量进行求解,可以得到准确的划分结果;而在普通情况下,数据集分布不一定满足上述理想情况,此时亲和矩阵的块结构被噪声损坏,根据矩阵扰动理论,如果亲和矩阵的扰动很小,则拉普拉斯矩阵L的前k个特征值接近1,第k+1个特征值λk+1远远偏离1;扰动后的拉普拉斯矩阵L的特征向量和扰动前的拉普拉斯矩阵L的特征向量接近,此时直接选择前k个特征值对应的特征向量进行求解,也可以得到准确的划分结果。
对于分布结构复杂的数据集本身,用传统高斯函数构造亲和矩阵时并未考虑数据的分布结构,因此不能反映出数据之间的真实相似关系,由此计算得到的拉普拉斯矩阵,大多数情况下是不满足矩阵扰动理论的,此时聚类个数k的确定及特征向量的选取不再满足上述规律,特征向量选取不当会使聚类结果严重偏离实际。在这种情形下,怎样考虑数据的分布结构,选择合适的方法构造亲和矩阵,使其能够反映数据之间的真实相似关系,从而使得到的拉普拉斯矩阵与理想矩阵之间满足矩阵扰动理论,才能保证在用多路谱聚类方法时k的个数及特征向量的选取合理,聚类结果准确。
已有的改善亲和矩阵的方法主要有:
(1)基于路径的相似度度量构造亲和矩阵
一种基于路径的相似度度量定义为公式(1):
s ij = max p ∈ P ij { min 1 ≤ h ≤ | p | s p [ h ] p [ h + 1 ] ′ } - - - ( 1 )
则亲和矩阵A中的元素aij=sij
式中:Pij为由数据点构成的全连接图中从顶点i到j的所有路径;s′ij是用高斯函数定义的两点间的相似度,其中,
Figure BDA0000054399900000032
为点i与点j之间的欧式距离的平方,σ为尺度参数。
公式(1)使得属于同一簇的任意两点相似度大,属于不同簇的任意两点的相似度小。但当属于不同簇的两点之间存在一些边界点时,两点的相似度会变大,因此该方法对噪声和边界点敏感。
改进的基于路径的相似度度量如下:
s ij = max p ∈ P ij { min 1 ≤ h ≤ | p | w p [ h ] w p [ h + 1 ] s p [ h ] p [ h + 1 ] ′ }
                                   (2)
w i ′ = Σ x j ∈ N i s ij ′ ; w i = w i ′ max { w i ′ }
其中:Ni是点xi的近邻点集,如果点xi有更多的近邻点,则w′i值就更大;wi是对w′i的单位化,其值在{0,1}之间。按照公式(2),只有当w值和s′值都大时,点xi和xj的整体相似度才大,两者才可能属于同一聚簇;反之,两点可能属于不同聚簇或者属于边界点。
公式(2)计算相似度的值受点的密度值wi的影响,当聚簇内部数据点具有任意形状密度分布不同时,密度值小的点与类内其它点的相似度会减小。
此外,基于路径的相似度度量构造亲和矩阵方法需要求出全连通图上所有点对的所有路径,使得该方法变得复杂费时。
(2)基于密度敏感的距离测度构造亲和矩阵
该方法定义了密度可调的线段长度并在此基础上重新定义两点间的距离,使得穿过高密度区域用较短边相连的路径长度比穿过低密度区域直接相连的两点间的距离变短。
密度可调节的线段长度定义如下:
L(x,y)=ρdist(x,y)-1                               (3)
其中:dist(x,y)为数据点x和y间的欧氏距离;ρ称为伸缩因子,ρ>1。通过调节伸缩因子ρ来放大或缩短两点间线段长度。
密度敏感的距离测度定义为:
D ij = min l ∈ P ij Σ k = 1 m - 1 L ( p k , p k + 1 ) - - - ( 4 )
其中:L表示两点间密度可调节的线段长度;l为由数据点构成的图中从顶点i到j的一条路径;m为路径l中包含的顶点个数;Pij为从顶点i到j的所有路径,则亲和矩阵A中的元素aij定义为dij的倒数,aii=0。
根据公式(4),属于同一簇内穿过高密度区的两点的距离等于路径上各线段的距离之和,当从高密度区穿过两点的路径都很长时,其相似度有可能较小,对亲和矩阵的改善很小。此外,提前不知道数据分布情况下,伸缩因子的选取也没有成熟方法。
(3)基于流平面排序方法构造亲和矩阵
基于流平面排序构造亲和矩阵利用两个位于同一流平面的邻点和其它所有点的距离值相似这一数据的光滑一致性构造最优函数,求得的亲和矩阵A定义为:
A=(I-αS)-1Y    (5)
其中,
Figure BDA0000054399900000042
W为用高斯函数求出的初始亲和矩阵,将W矩阵的每行元素相加,即得到该顶点的度,以所有度值为对角元素构成的对角矩阵即为度矩阵DW;α∈(0,1);I为单位矩阵,无指导聚类时Y=I;即无指导聚类时,Y是单位矩阵。因此,公式(5)得到的亲和矩阵的向量空间与S的向量空间一致,因此在无指导聚类时公式(5)并未从根本上改善亲和矩阵。
发明内容
针对上述背景技术中提到的现有构造亲和矩阵的方法不能反映出数据之间真实相似关系的不足,本发明提出了一种改进亲和矩阵的多路谱聚类方法。
本发明的技术方案是,一种改进亲和矩阵的多路谱聚类方法,其特征是该方法包括以下步骤:
步骤1:构造亲和矩阵;
步骤2:构建拉普拉斯矩阵Lsym;
步骤3:计算拉普拉斯矩阵Lsym的前k个最大特征值以及前k个特征值对应的特征向量构成矩阵KK;
步骤4:对矩阵KK进行单位化处理,得到矩阵Y;
步骤5:将Y的每一行视为Rk空间中的一个点,使用K-均值算法,划分为k个簇,如果Y矩阵中的第i行属于第j簇,则点xi也属于第j个簇。
所述构造亲和矩阵包括以下步骤:
步骤1:计算任意两个数据点间的欧氏距离,得到距离矩阵D;
步骤2:计算任意两个数据点间的相似度,得到相似度矩阵W;
步骤3:根据阈值ε确定距离矩阵D中元素间的近邻关系,形成初始近邻关系矩阵N;
步骤4:根据近邻关系传递原则更新初始近邻关系矩阵N、相似度矩阵W;
步骤5:最终得到的相似度矩阵W即为亲和矩阵。
所述欧氏距离的计算公式为:
d ij = ( x i - x j ) 2 + ( y i - y j ) 2
其中:
dij为元素di和元素dj的欧氏距离;
xi、yi为距离矩阵D中元素di的横坐标、纵坐标;
xj、yj为距离矩阵D中元素dj的横坐标、纵坐标。
所述相似度的计算公式为:
w ij = exp ( - d ij 2 2 σ 2 )
其中:
wij为数据点Xi和数据点Xj之间的相似度;
σ为尺度参数。
所述阈值ε的计算公式为:
ϵ = max i = 1 n ( min j = 1 n d ij ) .
所述近邻关系的初始确定方法为:
如果距离矩阵D中dij小于等于阈值ε,则数据点xi和数据点xj属于近邻关系,在近邻关系矩阵N中令nij=1,nji=nij;由此判断出所有的近邻点对,并形成初始近邻关系矩阵N。
所述近邻关系传递原则为:
如果当前近邻关系矩阵N中有:nij=1,njk=1,而nik=0,则将nik和nki的值修改为1,同时将相似度矩阵W中元素wik和wki的值修改为min(wij,wjk);具体为:
步骤1:从点x1开始,依次将点x1和其后续点xm(m=2,3,…n)进行比较,如果点x1和其后续点xm此时不为近邻关系,则按照以下步骤修改x1和后续点xm的近邻关系:
步骤1.1:从除点x1和点xm以外的点中寻找同时与点x1和xm满足近邻关系的另一点xk,即满足n1k=1,nkm=1的另一点xk
步骤1.2:如果存在这样的点,则得出点x1和xm也满足近邻关系,修改n1m和nm1的值为1,同时修改w1m和wm1的值为min(w1k,wkm);反之,如果不存在这样的点,则不进行上述修改;
步骤2:再从点x2开始,依次将点x2和其后续点xm(m=3,…n)进行比较,
并按照步骤1中所述进行处理;
步骤3:重复上述步骤,直至最后点。
所述拉普拉斯矩阵Lsym的公式为:
Lsym = D A - 1 / 2 A D A - 1 / 2
其中:
DA为对角矩阵,其元素为
Figure BDA0000054399900000072
A为亲和矩阵,aij为亲和矩阵A的元素。
所述矩阵Y的计算公式为:
y ij = KK ij ( Σ j = 1 k KK ij 2 ) 1 / 2
其中:
yij为矩阵Y的元素。
本发明考虑了数据的分布结构,可以使数据点在任意形状和任意分布结构时,亲和矩阵中的元素值都能反映出数据点的真实相似度,改善了多路谱聚类NJW方法的聚类有效性和对任意数据集的适用性。
附图说明
图1为原始数据集。
图2为多种方法在原始数据集上计算得到的拉普拉斯矩阵的前7个特征值的对比图;
图a为本发明求得的σ=1,1.5,2,3,4,5时的效果图;图b为公式(1)求得的σ=1,1.5,2,3,4,5,6时的效果图;图c为公式(2)求得的σ=1,1.5,2,3,4,5时的效果图;图d为公式(4)求得的ρ=3,4.5,…21时的效果图;图e为公式(5)求得的σ=1,1.5,2,3,…10时的效果图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明方法实现数据的聚类分析如下:
1.构造亲和矩阵A;
1.1.计算任意两个数据点间的欧氏距离,得到距离矩阵D
计算任意两个数据点Xi和点Xj之间的欧氏距离
Figure BDA0000054399900000081
得到距离矩阵D;
1.2:计算任意两个数据点间的相似度,得到相似度矩阵W
计算点Xi和点Xj之间的相似度得到相似度矩阵W;
1.3:初始化近邻关系矩阵N中的元素,根据阈值ε确定距离矩阵D中元素的近邻关系
初始化近邻关系矩阵N中元素值为0,距离阈值ε根据公式(6)计算:
ϵ = max i = 1 n ( min j = 1 n d ij ) - - - ( 6 )
在距离矩阵D中,如果dij小于等于阈值ε,则点Xi和点Xj属于近邻,在近邻关系矩阵N中令nij=1,nji=1;从而形成初始近邻关系矩阵。这里,如果点Xi和点Xj属于近邻,则简记为(Xi,Xj)∈R,R表示近邻关系。附图1中,满足近邻关系定义的有(c,f)∈R,(f,g)∈R,(g,h)∈R,(h,d)∈R等,但
Figure BDA0000054399900000092
Figure BDA0000054399900000093
1.4:根据近邻关系传递原则更新近邻关系矩阵N、相似度矩阵W
如果当前近邻关系矩阵N、相似度矩阵W中有:nij=1,njk=1,而nik=0,则将nik和nki的值修改为1,同时将相似度矩阵W中元素wik和wki的值修改为min(wij,wjk);
设数据点集用序列{x1,x2,…xi,…xn}表示,一种近邻传递算法如下:
步骤1:从点x1开始,依次将点x1和其后续点xm(m=2,3,…n)进行比较,如果点x1和其后续点xm此时不为近邻关系,则按照以下步骤修改x1和后续点xm的近邻关系:
步骤1.1:从除点x1和点xm以外的点中寻找同时与点x1和xm满足近邻关系的另一点xk,即满足n1k=1,nkm=1的另一点xk
步骤1.2:如果存在这样的点,则得出点x1和xm也满足近邻关系,修改n1m和nm1的值为1,同时修改n1m和nm1的值为min(n1k,nkm);反之,如果不存在这样的点,则不进行上述修改;
步骤2:再从点x2开始,依次将点x2和其后续点xm(m=3,…n)进行比较,
并按照步骤1中所述进行处理;
步骤3:重复上述步骤,直至最后点。
一种具体的近邻传递算法如下:
输入:n×n维的欧式距离矩阵D;n×n维的初始相似矩阵W;n×n维的初始近邻关系矩阵N。
输出:亲和矩阵
Figure BDA0000054399900000101
Figure BDA0000054399900000111
1.5:最终得到的相似度矩阵W即为亲和矩阵
最终近邻关系矩阵N中的元素值反映了所有数据点对之间的近邻关系,相似度矩阵W中的元素值反映了所有数据点对之间的真实相似度。尤其是对于数据集中那些用高斯函数计算的初始相似度值很小但却处于同一分布结构内的点对(属于同一类内),经过本方法的近邻传递计算后,得到的相似度值变大,使其更符合真实的相似关系。这个最终的相似矩阵W即为所求的亲和矩阵。
2.构建拉普拉斯矩阵
Figure BDA0000054399900000112
DA为对角矩阵,
Figure BDA0000054399900000113
3.计算拉普拉斯矩阵Lsym的前k个最大特征值以及前k个特征值对应的特征向量构成矩阵KK;
4.对矩阵KK进行单位化处理,得到矩阵Y,即
Figure BDA0000054399900000114
5.将Y的每一行视为Rk空间中的一个点,使用K-均值算法,划分为k个簇,如果Y矩阵中的第i行属于第j簇,则点xi也属于第j个簇。
本发明方法与其他方法的对比:
根据本方法中近邻关系的传递原则,对附图1中的部分点对有以下推理关系成立:
( c , f ) ∈ R ( f , g ) ∈ R ⇒ ( c , g ) ∈ R ; ( c , g ) ∈ R ( g , h ) ∈ R ⇒ ( c , h ) ∈ R ; ( c , h ) ∈ R ( h , d ) ∈ R ⇒ ( c , d ) ∈ R ;
在传递近邻关系时,除了修改近邻关系矩阵N中元素的值外,同时还将相似度矩阵W中两点的相似度修改,在上例中,同时作如下修改:
W(c,g)=min{W(c,f),W(f,g)};
W(c,h)=min{W(c,g),W(g,h)};
W(c,d)=min{W(c,h),W(h,d)};
可以看出点对(c,d)的相似度比初始值增大了。同理,也可以推出(c,e)∈R,并增大(c,e)的相似度。
图1中由于点a和c之间的距离大于阈值ε,所以其初始近邻值为0;由于a的近邻区和c的近邻区没有交点,因此经过近邻传递后其近邻值仍为0。近邻传递结束后,将近邻值为0的两点的相似度值修改为W中的最小值。
由此看出本文方法能够增大同一类内点之间的相似度,减小不在同一类内的点的相似度,从而改善了亲和矩阵。
如果用基于路径的相似度度量公式(1)计算,在图1中,点对a和b的相似度s(a,b)=min(sac,sbc),比初始值增大了。即公式(1)有可能增大不同类间的点对的相似度;用公式(2),则点对c和d的相似度s(c,d)=wc*wf*scf,由于边界点c的wc很小,所以其相似度值远比同一类内其它点对(例如点对g和h)的相似度小。即公式(2)有可能相对减小同一类内的点对的相似度。
如果用基于密度敏感的距离测度方法,观察图1中的点对(c,e)和(f,k),根据公式(4)和(3),有:
d(c,e)=L(c,f)+L(f,g)+L(g,h)+L(h,d)+…
d(f,k)=L(f,k)
当点对(c,e)间的路径很长时,d(c,e)变大,从而使其相似度值变小,即同一聚簇内(c,e)点对的相似度会远低于(f,c)点对的相似度;另外,d(c,e)也可能大于d(f,k),即点对(c,e)的相似度有可能小于(f,k)的相似度,此时,不仅未改善亲和矩阵,反而使其噪声更大,远离理想情况。此外,在不知道数据集的分布结构时,ρ的值取多大并没有确定的方法。
基于流平面排序方法构造亲和矩阵其最终的亲和矩阵仍仅由S(或W)决定,没有实质上改变。
图2是各种方法的效果对比图,其中横坐标轴表示特征值序号,纵坐标轴表示特征值大小。每种情况下都列出了前7个特征值。
图2a是用本专利方法求得的拉普拉斯矩阵特征值情况,σ<4时,前3个特征值等于或非常接近1,第4个特征值则远远小于1,第3个特征值和第4个特征值之间的落差(eigengap)很大;当σ>4时,第3个特征值和第4个特征值之间的落差(eigengap)也很大(比其它相邻特征值间的落差都大)。由此确定聚类个数为3,取前3个特征值对应的特征向量进行聚类分析,得到的聚类结果均正确。
图2b和图2c分别是用公式(1)和公式(2)求得的拉普拉斯矩阵特征值情况,只有σ=1时,前3个特征值接近1,第4个特征值远小于1;当σ>1.5时,前3个特征值不再接近1,第3个特征值和第4个特征值之间的落差(eigengap)小于第1和第2个特征值之间的落差,此时不满足上述特征值分布规律,使聚类个数及特征向量的选取变得困难。
图2d和图2e分别是用公式(4)和公式(5)求得的拉普拉斯矩阵特征值情况,没有一种情况满足上述特征值分布规律,使聚类个数及特征向量的选取变得困难。
本发明提供了一种多路谱聚类NJW方法中亲和矩阵的构造方法,使得在数据点具有任意分布结构时,亲和矩阵中的元素值都能够反映出数据点的真实相似度,即使处于同一聚簇内的点的相似度大,不同簇间的点的相似度小,从而使得亲和矩阵与理想的块矩阵之间的扰动值很小,符合矩阵扰动理论,在本发明的亲和矩阵的基础上,根据多路谱聚类NJW方法可以很容易确定k的个数及特征向量的选择,从而使得聚类结果更合理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种改进亲和矩阵的多路谱聚类方法,其特征是该方法包括以下步骤:
步骤1:构造亲和矩阵;
步骤2:构建拉普拉斯矩阵Lsym;
步骤3:计算拉普拉斯矩阵Lsym的前k个最大特征值以及前k个特征值对应的特征向量构成矩阵KK;
步骤4:对矩阵KK进行单位化处理,得到矩阵Y;
步骤5:将Y的每一行视为Rk空间中的一个点,使用K-均值算法,划分为k个簇,如果Y矩阵中的第i行属于第j簇,则点xi也属于第j个簇。
2.根据权利要求1所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述构造亲和矩阵包括以下步骤:
步骤1:计算任意两个数据点间的欧氏距离,得到距离矩阵D;
步骤2:计算任意两个数据点间的相似度,得到相似度矩阵W;
步骤3:根据阈值ε确定距离矩阵D中元素间的近邻关系,形成初始近邻关系矩阵N;
步骤4:根据近邻关系传递原则更新初始近邻关系矩阵N、相似度矩阵W;
步骤5:最终得到的相似度矩阵W即为亲和矩阵。
3.根据权利要求2所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述欧氏距离的计算公式为:
d ij = ( x i - x j ) 2 + ( y i - y j ) 2
其中:
dij为元素di和元素dj的欧氏距离;
xi、yi为距离矩阵D中元素di的横坐标、纵坐标;
xj、yj为距离矩阵D中元素dj的横坐标、纵坐标。
4.根据权利要求2所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述相似度的计算公式为:
w ij = exp ( - d ij 2 2 σ 2 )
其中:
wij为数据点Xi和数据点Xj之间的相似度;
σ为尺度参数。
5.根据权利要求2所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述阈值ε的计算公式为:
ϵ = max i = 1 n ( min j = 1 n d ij ) .
6.根据权利要求2所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述近邻关系的初始确定方法为:
如果距离矩阵D中dij小于等于阈值ε,则数据点xi和数据点xj属于近邻关系,在近邻关系矩阵N中令nij=1,nji=nij;由此判断出所有的近邻点对,并形成初始近邻关系矩阵N。
7.根据权利要求2所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述近邻关系传递原则为:
如果当前近邻关系矩阵N有:nij=1,njk=1,而nik=0,则将nik和nki的值修改为1,同时将相似度矩阵W中元素wik和wki的值修改为min(wij,wjk);具体为:
步骤1:从点x1开始,依次将点x1和其后续点xm(m=2,3,…n)进行比较,如果点x1和其后续点xm此时不为近邻关系,则按照以下步骤修改x1和后续点xm的近邻关系:
步骤1.1:从除点x1和点xm以外的点中寻找同时与点x1和xm满足近邻关系的另一点xk,即满足n1k=1,nkm=1的另一点xk
步骤1.2:如果存在这样的点,则得出点x1和xm也满足近邻关系,修改n1m和nm1的值为1,同时修改w1m和wm1的值为min(w1k,wkm);反之,如果不存在这样的点,则不进行上述修改;
步骤2:再从点x2开始,依次将点x2和其后续点xm(m=3,…n)进行比较,
并按照步骤1中所述进行处理;
步骤3:重复上述步骤,直至最后点。
8.根据权利要求1所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述拉普拉斯矩阵Lsym的公式为:
Lsym = D A - 1 / 2 AD A - 1 / 2
其中:
DA为对角矩阵,其元素为
A为亲和矩阵,aij为亲和矩阵A的元素。
9.根据权利要求1所述一种改进亲和矩阵的多路谱聚类方法,其特征是所述矩阵Y的计算公式为:
y ij = KK ij ( Σ j = 1 k KK ij 2 ) 1 / 2
其中:
yij为矩阵Y的元素。
CN2011100886305A 2011-04-08 2011-04-08 一种改进亲和矩阵的多路谱聚类方法 Pending CN102110173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100886305A CN102110173A (zh) 2011-04-08 2011-04-08 一种改进亲和矩阵的多路谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100886305A CN102110173A (zh) 2011-04-08 2011-04-08 一种改进亲和矩阵的多路谱聚类方法

Publications (1)

Publication Number Publication Date
CN102110173A true CN102110173A (zh) 2011-06-29

Family

ID=44174334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100886305A Pending CN102110173A (zh) 2011-04-08 2011-04-08 一种改进亲和矩阵的多路谱聚类方法

Country Status (1)

Country Link
CN (1) CN102110173A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN103399852A (zh) * 2013-06-27 2013-11-20 江南大学 基于局部密度估计和近邻关系传播的多路谱聚类方法
CN108288076A (zh) * 2018-02-12 2018-07-17 深圳开思时代科技有限公司 汽车配件聚类方法、装置、电子设备及存储介质
CN109214428A (zh) * 2018-08-13 2019-01-15 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及计算机存储介质
CN110728327A (zh) * 2019-10-18 2020-01-24 中国科学技术大学 一种具有可解释性的直推学习方法及系统
CN110765327A (zh) * 2019-09-05 2020-02-07 深圳壹账通智能科技有限公司 数据分析方法、装置、计算机装置及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN103399852A (zh) * 2013-06-27 2013-11-20 江南大学 基于局部密度估计和近邻关系传播的多路谱聚类方法
CN108288076A (zh) * 2018-02-12 2018-07-17 深圳开思时代科技有限公司 汽车配件聚类方法、装置、电子设备及存储介质
CN109214428A (zh) * 2018-08-13 2019-01-15 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及计算机存储介质
CN109214428B (zh) * 2018-08-13 2023-12-26 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及计算机存储介质
CN110765327A (zh) * 2019-09-05 2020-02-07 深圳壹账通智能科技有限公司 数据分析方法、装置、计算机装置及存储介质
CN110728327A (zh) * 2019-10-18 2020-01-24 中国科学技术大学 一种具有可解释性的直推学习方法及系统
CN110728327B (zh) * 2019-10-18 2021-11-23 中国科学技术大学 一种具有可解释性的直推学习方法及系统

Similar Documents

Publication Publication Date Title
CN111814871B (zh) 一种基于可靠权重最优传输的图像分类方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN102110173A (zh) 一种改进亲和矩阵的多路谱聚类方法
CN100541523C (zh) 一种基于支持向量机的视频对象识别方法及系统
CN102831474B (zh) 基于量子粒子群优化改进的模糊c-均值聚类方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN110879961B (zh) 利用车道模型的车道检测方法和装置
CN101847263B (zh) 基于多目标免疫聚类集成的无监督图像分割方法
CN104091321A (zh) 适用于地面激光雷达点云分类的多层次点集特征的提取方法
CN101699514B (zh) 基于免疫克隆量子聚类的sar图像分割方法
JP2020038660A (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
CN103744886B (zh) 一种直接提取的k个最近邻点搜索方法
CN110132263A (zh) 一种基于表示学习的星图识别方法
CN105158761A (zh) 基于枝切法和曲面拟合的雷达合成相位解缠方法
CN102867192B (zh) 一种基于监督测地线传播的场景语义迁移方法
CN104363654A (zh) 基于Tunneling method的无线传感器网络三维节点定位方法
CN103399852A (zh) 基于局部密度估计和近邻关系传播的多路谱聚类方法
Du et al. PST: Plant segmentation transformer for 3D point clouds of rapeseed plants at the podding stage
Zhou et al. A novel K-means image clustering algorithm based on glowworm swarm optimization
CN111597943B (zh) 一种基于图神经网络的表格结构识别方法
CN113514072B (zh) 一种面向导航数据与大比例尺制图数据的道路匹配方法
CN107895137A (zh) 基于耦合隐马尔可夫模型的sar图像目标交互行为识别方法
CN105824937A (zh) 一种基于二进制萤火虫算法的属性选择方法
CN109344897A (zh) 一种基于图片蒸馏的通用物体检测框架及其实现方法
CN106203469A (zh) 一种基于有序模式的图分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110629