CN102799891A - 基于地标点表示的谱聚类方法 - Google Patents

基于地标点表示的谱聚类方法 Download PDF

Info

Publication number
CN102799891A
CN102799891A CN2012101680893A CN201210168089A CN102799891A CN 102799891 A CN102799891 A CN 102799891A CN 2012101680893 A CN2012101680893 A CN 2012101680893A CN 201210168089 A CN201210168089 A CN 201210168089A CN 102799891 A CN102799891 A CN 102799891A
Authority
CN
China
Prior art keywords
matrix
landmark point
proper vector
data
spectral clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101680893A
Other languages
English (en)
Inventor
蔡登�
陈鑫磊
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2012101680893A priority Critical patent/CN102799891A/zh
Publication of CN102799891A publication Critical patent/CN102799891A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地标点表示的谱聚类方法,其实施步骤如下:1)输入数据X和聚类数k;2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z;4)根据所述稀疏表示矩阵Z计算ZTZ的前k个特征向量A;5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZT的前k个特征向量BT;6)对特征向量BT的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。本发明具有谱聚类算法效率高、计算复杂度低、聚类效果好的优点。

Description

基于地标点表示的谱聚类方法
技术领域
本发明涉及图像数据处理中的机器学习与模式识别技术领域,具体涉及一种采用稀疏编码技术进行聚类分析的谱聚类方法。
背景技术
聚类是机器学习与模式识别中一种重要的方法,它要求能合理地按样本的特性来进行合理的分类,但没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的学习,是无监督学习的代表。
常见的聚类分析方法主要包括如下几种:
●分裂法,又称划分方法。首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有:Kmeans,Kmedoids和CLARA(Clustering LARgeApplication)等。
●层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有:BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies),CURE(Clustering Using REprisentatives)和CHEMALOEN等。
●基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有:DBSCAN(Densit-based SpatialClustering of Application with Noise)和OPTICS(Ordering Points ToIdentify the Clustering Structure)。
●基于图的方法。它将聚类问题视为图的划分问题,以谱聚类(SpectralClustering)为典型代表。谱聚类突破了其他聚类算法只能适用于欧式空间、得到的类只能为凸集的局限性,往往能够产生更好的聚类效果。然而该算法需要进行图的构建和分解过程,计算复杂度较高,不能应用在大规模数据集上。
针对以上的问题,也就是为了解决谱聚类对大规模数据集的计算复杂度过高的问题,需要设计新的算法既能够保持原始算法的聚类效果,又能加速聚类的过程。目前主要采用的手段有:
◆基于Kmeans的近似谱聚类(Kmeans-based Approximate SpectralClustering,PCA):该方法的核心在于减少数据集的大小,具体步骤为:通过Kmeans聚类将原始数据集用聚类中心点集来表示,然后直接对聚类中心点集进行谱聚类。
◆基于代表的谱聚类(Committees-based Spectral Clustering,CSC):该方法的关键思想也在于减少数据集的大小。具体步骤为:通过Kmeans聚类将原始数据集中最接近聚类中心的点用聚类中心表示,从而减少了数据集的大小便于随后的谱聚类,如图1所示,(a)为Kmeans聚类,A为Kmeans聚类的聚类分割线;(b)为谱聚类,B为谱聚类的聚类分割线。有图1可见,Kmeans聚类和谱聚类在中间点的分布上存在差异。
Figure BDA00001677109400021
分解法
Figure BDA00001677109400022
通过
Figure BDA00001677109400023
方法来加速图的特征值分解过程,从而加速谱聚类。上述方法都在某种意义上采用了随机采样的思想,用一部分点来作为整个数据集的代表,虽然在实际中具有一定的效果,但是还是丧失了大部分数据信息和具体的分布结构。
稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理等领域。
发明内容
本发明要解决的技术问题是提供一种谱聚类算法效率高、计算复杂度低、聚类效果好的基于地标点表示的谱聚类方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于地标点表示的谱聚类方法,其实施步骤如下:
1)输入数据X和聚类数k;
2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;
3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z;
4)根据所述稀疏表示矩阵Z计算ZTZ的前k个特征向量A;
5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZT的前k个特征向量BT
6)对特征向量BT的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。
作为本发明上述技术方案的进一步改进:
所述步骤3)中构建稀疏表示矩阵Z的表达式为:
x n = Σ i = 1 p Z in u i
其中xnxn为原始的数据点,P为地标点的数量,ui是地标点,所述ui为代表地标点的向量,ui的维度和xn的维度相同,Zin是用地标点来表示原始数据点所需的参数,Zin的构造方法为对离xn欧氏距离最近的预设数量个地标点,所述Zin的表达式为
Z in = exp ( - | | x n - u i | | 2 σ 2 )
其中σ为窗口大小。
所述步骤4)的详细步骤为:
4.1)根据所述稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵ZT
4.2)将所述转置矩阵ZT乘以稀疏表示矩阵Z得到ZTZ;
4.3)用QR分解等数值计算的方法来计算ZTZ的前k个特征向量A和所述特征向量对应的矩阵形式特征值∑。
所述步骤5)具体是指根据BT=∑-1AX求解ZZT的前k个特征向量BT,其中X为原始数据组成的矩阵,A为所述步骤4.3)中得到的前k个特征向量,∑为所述步骤4.3)中得到的特征向量对应的矩阵形式特征值,∑-1表示计算矩阵∑的逆。
本发明具有下述优点:
1.相比于直接的使用传统谱聚类方法,本发明将原始数据点的地标点稀疏表示以及特征值分解和奇异值分解的关系将计算复杂度降低到线性,本发明计算复杂度为O(n),其中n是原始数据点的数量,而原始的谱聚类算法是O(n2),所以相比原始的算法有效的加速了谱聚类算法,具有谱聚类算法效率高、计算复杂度低的优点。
2.但是现有技术采用的方法是减少数据集的大小,或者通过矩阵近似计算特征向量的方法,通过稀疏编码的方式有效的保留了整个数据集的信息,相比包括基于Kmeans的近似谱聚类、基于代表的谱聚类、
Figure BDA00001677109400042
分解法在内的现有技术的加速算法也是线性复杂度而言,本发明能够有效地提高聚类的效果,因此本发明有效保留了整个数据集的信息,相比现有的谱聚类加速算法提高了聚类效果,具备良好的聚类能力。
附图说明
图1为基于代表的谱聚类与Kmeans聚类比较示意图。
图2为本发明实施例的基本流程示意图。
图3为本发明实施例采用MNIST数据集的样例示意图。
图4为本发明实施例的效果对比分析示意图。
具体实施方式
如图2所示,本发明实施例基于地标点表示的谱聚类方法的实施步骤如下:
1)输入数据X和聚类数k;
2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;
3)将数据X基于P个地标点构建稀疏表示矩阵Z;
4)根据稀疏表示矩阵Z计算ZTZ的前k个特征向量A;
5)根据稀疏表示矩阵Z计算Z的右奇异向量得到ZZT的前k个特征向量BT
6)对特征向量BT的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。
本实施例中的数据X选自MNIST数据集,MNIST数据集的样例如图3所示,MNIST数据集的统计信息如下表所示:
  数据集   样本数目   样本类别数   维度
  MNIST   70000   10   784
因此,本实施例的步骤1)中具体是通过随机选取MNIST数据集中K类实例作为原始的高维数据集合X={x1,x2,…,xn,xi},xi∈RM。其中N=K×10,M=1024,M为特征的数量,就是矩阵的维度,R表示数据是在实数的范围内选取的。本实施例中用数据矩阵X∈RN×D的每行表示一个样本Xn∈RD,然后通过聚类或随机采样的方式产生远小于实际数据量N的P个地标点U∈RP×D,每行表示一个样本up∈RD
步骤3)中构建稀疏表示矩阵Z的表达式为:
x n = Σ i = 1 p Z in u i
其中xnxn为原始的数据点,P为地标点的数量,ui是地标点,ui为代表地标点的向量,ui的维度和xn的维度相同,Zin是用地标点来表示原始数据点所需的参数,Zin的构造方法为对离xn欧氏距离最近的预设数量个地标点,Zin的表达式为
Z in = exp ( - | | x n - u i | | 2 σ 2 )
其中σ为窗口大小。上式的稀疏性表现为只选择最近的r个地标点来表示每一个样本,非负参数Zin的和限制为1,既可以通过优化得到,也可以直接利用核密度估计计算得到。
步骤4)的详细步骤为:
4.1)根据稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵ZT
4.2)将转置矩阵ZT乘以稀疏表示矩阵Z得到ZTZ;
4.3)用QR分解等数值计算的方法来计算ZTZ的前k个特征向量A和特征向量对应的矩阵形式特征值∑。
参见上面的计算步骤4.1)~4.3),本实施例的计算过程中只用进行小矩阵相乘、计算小矩阵(大小为p×p的)前k个特征向量,所以避免了大矩阵的计算,将传统的大矩阵计算减少为线性计算。本实施例通过稀疏表示矩阵Z构建图W=ZTD-1Z,其中D是由Z的行和组成的对角矩阵。由特征值分解和奇异值分解的关系,W的特征值分解可以通过Z的奇异值分解得到,整个计算过程仅仅具有线性复杂度。
步骤5)具体是指根据BT=∑-1AX求解ZZT的前k个特征向量BT,其中X为原始数据组成的矩阵,A为步骤4.3)中得到的前k个特征向量,∑为步骤4.3)中得到的特征向量对应的矩阵形式特征值,∑-1表示计算矩阵∑的逆。
本实施例采用时间间隔Elapse来比较不同方法的速度,采用两种度量标准来比较不同方法的效果:精确度(accuracy,AC)和标准化互信息(normalizedmutual information,
Figure BDA00001677109400071
)
精确度是用来计量正确标记的数据的百分比:
标准化互信息是用来度量两个集合之间的相关性的信息度量,给定两个集合C和C′:
MI ( C , C ′ ) = Σ c i ∈ C , c j ′ ∈ C ′ p ( c i , c j ′ ) · log p ( c i , c j ′ ) p ( c i ) · p ( c j ′ )
Figure BDA00001677109400074
其中:p(ci),p(c′j)表示从数据集中任意选取某一数据时分别属于ci,c′j的概率,p(ci,c′j)则表示同时属于两类的概率;H(C)和H(C′)分别表示C和C′的熵。
本实施例通过将步骤2)产生P个地标点的方法根据采用Kmeans聚类算法或者随机采样分为两种验证其性能,LSC-K采用Kmeans聚类算法产生地标点,LSC-R随机采样产生地标点,依次将k取值为2,3,……,10,记录算法运行所需时间Elapse,并计算聚类结果的AC和MI,并另外在同样的数据集下比较另外3种现有的加速算法KASP,CSC和
Figure BDA00001677109400075
的效果,最终得到的实现结果如图4和下表所示:
Figure BDA00001677109400076
Figure BDA00001677109400081
其中LSC-R代表使用随机采样的方法选取地标点、LSC-K代表使用K-means聚类的方法并选取聚类后的中心为地标点。从上表可以看出,本实施例相比现有的谱聚类加速算法,具有很好的聚类效果。从图4中可以看出,本实施例中LSC-K的效果虽然最好(见表格)速度比较慢,但是LSC-R有效地实现了加速,比现有的方法快而且效果仅次于LSC-K。
以上所述仅为本发明的优选实施方式,本发明的保护范围并不仅限于上述实施方式,凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言,在不脱离本发明的原理的前提下进行的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于地标点表示的谱聚类方法,其特征在于其实施步骤如下:
1)输入数据X和聚类数k;
2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点;
3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z;
4)根据所述稀疏表示矩阵Z计算ZTZ的前k个特征向量A;
5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZT的前k个特征向量BT
6)对特征向量BT的每一行通过Kmeans聚类算法进行Kmeans聚类,最终输出聚类结果。
2.根据权利要求1所述的基于地标点表示的谱聚类方法,其特征在于,所述步骤3)中构建稀疏表示矩阵Z的表达式为:
x n = Σ i = 1 p Z in u i
其中xnxn为原始的数据点,P为地标点的数量,ui是地标点,所述ui为代表地标点的向量,ui的维度和xn的维度相同,Zin是用地标点来表示原始数据点所需的参数,Zin的构造方法为对离xn欧氏距离最近的预设数量个地标点,所述Zin的表达式为
Z in = exp ( - | | x n - u i | | 2 σ 2 )
其中σ为窗口大小。
3.根据权利要求1或2所述的基于地标点表示的谱聚类方法,其特征在于,所述步骤4)的详细步骤为:
4.1)根据所述稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵ZT
4.2)将所述转置矩阵ZT乘以稀疏表示矩阵Z得到ZTZ;
4.3)用QR分解等数值计算的方法来计算ZTZ的前k个特征向量A和所述特征向量对应的矩阵形式特征值∑。
4.根据权利要求3所述的基于地标点表示的谱聚类方法,其特征在于:所述步骤5)具体是指根据BT=∑-1AX求解ZZT的前k个特征向量BT,其中X为原始数据组成的矩阵,A为所述步骤4.3)中得到的前k个特征向量,∑为所述步骤4.3)中得到的特征向量对应的矩阵形式特征值,∑-1表示计算矩阵∑的逆。
CN2012101680893A 2012-05-24 2012-05-24 基于地标点表示的谱聚类方法 Pending CN102799891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101680893A CN102799891A (zh) 2012-05-24 2012-05-24 基于地标点表示的谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101680893A CN102799891A (zh) 2012-05-24 2012-05-24 基于地标点表示的谱聚类方法

Publications (1)

Publication Number Publication Date
CN102799891A true CN102799891A (zh) 2012-11-28

Family

ID=47198990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101680893A Pending CN102799891A (zh) 2012-05-24 2012-05-24 基于地标点表示的谱聚类方法

Country Status (1)

Country Link
CN (1) CN102799891A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995821A (zh) * 2014-03-14 2014-08-20 盐城工学院 一种基于谱聚类算法的选择性聚类集成方法
CN106778814A (zh) * 2016-11-24 2017-05-31 郑州航空工业管理学院 一种基于投影谱聚类算法的去除sar图像斑点的方法
CN107578063A (zh) * 2017-08-21 2018-01-12 西安电子科技大学 基于快速选取地标点的图像谱聚类方法
CN109272029A (zh) * 2018-08-31 2019-01-25 电子科技大学 井控稀疏表征大规模谱聚类地震相划分方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216886A (zh) * 2008-01-11 2008-07-09 北京航空航天大学 一种基于谱分割理论的镜头聚类方法
CN101763514A (zh) * 2010-01-15 2010-06-30 西安电子科技大学 基于特征重要度排序谱聚类的图像分割方法
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216886A (zh) * 2008-01-11 2008-07-09 北京航空航天大学 一种基于谱分割理论的镜头聚类方法
CN101763514A (zh) * 2010-01-15 2010-06-30 西安电子科技大学 基于特征重要度排序谱聚类的图像分割方法
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINLEI CHEN,DENGCAI: "Large Scale Spectral Clustering with Landmark-based Representation", 《PROCEEDINGS OF THE TWENTY-FIFTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995821A (zh) * 2014-03-14 2014-08-20 盐城工学院 一种基于谱聚类算法的选择性聚类集成方法
CN103995821B (zh) * 2014-03-14 2017-05-10 盐城工学院 一种基于谱聚类算法的选择性聚类集成方法
CN106778814A (zh) * 2016-11-24 2017-05-31 郑州航空工业管理学院 一种基于投影谱聚类算法的去除sar图像斑点的方法
CN106778814B (zh) * 2016-11-24 2020-06-12 郑州航空工业管理学院 一种基于投影谱聚类算法的去除sar图像斑点的方法
CN107578063A (zh) * 2017-08-21 2018-01-12 西安电子科技大学 基于快速选取地标点的图像谱聚类方法
CN107578063B (zh) * 2017-08-21 2019-11-26 西安电子科技大学 基于快速选取地标点的图像谱聚类方法
CN109272029A (zh) * 2018-08-31 2019-01-25 电子科技大学 井控稀疏表征大规模谱聚类地震相划分方法
CN109272029B (zh) * 2018-08-31 2022-02-22 电子科技大学 井控稀疏表征大规模谱聚类地震相划分方法

Similar Documents

Publication Publication Date Title
CN104008174A (zh) 一种海量图像检索的隐私保护索引生成方法
CN107070943A (zh) 基于流量特征图和感知哈希的工业互联网入侵检测方法
CN104731962A (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
CN101256631B (zh) 一种字符识别的方法、装置
CN109359588B (zh) 一种新的隐私保护下非交互式的k近邻分类方法
CN101853392A (zh) 基于条件互信息的遥感高光谱图像波段选择方法
CN102722578B (zh) 一种基于拉普拉斯正则化无监督的聚类特征选取方法
CN102411610A (zh) 一种用于高维数据聚类的半监督降维方法
CN105184772A (zh) 一种基于超像素的自适应彩色图像分割方法
CN104732545A (zh) 结合稀疏近邻传播和快速谱聚类的纹理图像分割方法
CN102799891A (zh) 基于地标点表示的谱聚类方法
CN103093238B (zh) 基于d-s证据理论的视觉词典构建方法
CN104809475A (zh) 基于增量线性判别分析的多类标场景分类方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN110347827B (zh) 面向异构文本运维数据的事件提取方法
CN102184422A (zh) 一种平均错分代价最小化的分类器集成方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
He et al. Classification of metro facilities with deep neural networks
CN107391443A (zh) 一种稀疏数据异常检测方法及装置
CN102779162B (zh) 一种带局域限制的矩阵概念分解方法
CN116823516A (zh) 一种基于联邦学习的窃电检测方法
CN109101998B (zh) 一种基于居民地上下文空间信息的聚类方法及系统
CN102663040A (zh) 基于正负对约束数据的kl距离训练得到属性列权重的方法
Li et al. High resolution radar data fusion based on clustering algorithm
CN109447131B (zh) 相似高维目标信息识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121128