CN109766910A - 基于相似度传递的图聚类方法 - Google Patents

基于相似度传递的图聚类方法 Download PDF

Info

Publication number
CN109766910A
CN109766910A CN201811468939.5A CN201811468939A CN109766910A CN 109766910 A CN109766910 A CN 109766910A CN 201811468939 A CN201811468939 A CN 201811468939A CN 109766910 A CN109766910 A CN 109766910A
Authority
CN
China
Prior art keywords
formula
matrix
data point
optimal
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811468939.5A
Other languages
English (en)
Inventor
李学龙
陈穆林
王�琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811468939.5A priority Critical patent/CN109766910A/zh
Publication of CN109766910A publication Critical patent/CN109766910A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递,挖掘流形结构,学习出能够反映数据点间拓扑关系的最优图,并通过拉普拉斯秩约束,使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别),避免后处理操作,提高聚类准确率。

Description

基于相似度传递的图聚类方法
技术领域
本发明属于机器学习领域,特别针对图聚类问题,进行数据间相似度的学习,将相似度高的数据合并为同类。本发明可应用到统计数据分析、模式识别等方面。
背景技术
随着大数据时代的深度发展,数据挖掘逐渐成为机器学习领域的一个热点。在数据挖掘技术中,聚类分析是广为研究的课题之一。所谓聚类,就是根据数据对象之间的相似性,对其进行区分,将数据合并为不同类别。被划分为同一类别的数据具有较高的相似度,而不同类别中数据的相似度较低。聚类方法不依赖先验信息,因此是一种无监督的学习方法。因其无监督的特性,聚类分析已被广泛应用在许多领域中,如数据分析、图像处理、模式识别等。
针对不同领域的问题,各国学者提出了大量聚类算法。根据类别划分依据的不同,现有的聚类方法大致分为:图聚类算法、划分聚类算法、层次聚类算法及网络聚类算法等。其中,图聚类是目前应用最为广泛的方法。图聚类方法根据数据点的局部关系,将其划分为不同类别。相比于其他聚类方法,图聚类能够保留数据间的关联信息,在处理具有复杂结构的数据时,具有天然的优势。因此,图聚类已被推广到许多实际应用中,如文本分类、生物信息、人脸识别等。
目前的大部分图聚类算法首先构建一个相似图以描述数据点的相似关系,然后优化某个目标函数将相似图分割为多个子图。这类方法存在三个问题:(1)过于依赖相似图。传统图聚类方法在优化过程中不会对相似图进行更新,因此很难得到最优的相似图。相似图的构建质量直接影响聚类结果。(2)无法掌握数据内部流形结构。相似图的构建是根据数据点间的相互关系,数据点在原始空间中的距离越近,相似度越高。然而,在具有流形结构的数据中,距离远的数据点也可能保持密切的关系。仅仅根据一对数据点间的关系,无法判断两者是否属于同类。(3)需要进行后处理。传统图聚类方法在优化完成后并不能直接得到聚类结果,往往需要使用K-means作为后处理步骤。而K-means的结果易受初始化影响,很难得到最优结果。
发明内容
要解决的技术问题
为了克服现有的图聚类方法存在的问题,本发明提出一种基于相似度传递的图聚类方法。
技术方案
一种基于相似度传递的图聚类方法,其特征在于步骤如下:
步骤1:构建一个维度为n的方阵W作为初始化相似图:
(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示;定义数据点xi和xj的距离为:
式中eij为数据点xi和xj的距离,||·||2为向量二范数;
(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein
(1c)将数据点xi和xj的初始相似度定义为
式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度;W是由Wij组成的维度为n的方阵,即为构建的初始相似图;
步骤2:设计并优化目标函数,得到最优图:
(2a)设计目标函数如下:
式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度;β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目;rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵;
秩约束rank(LS)=n-c等同于限制Tr(FTLSF)为0,其中上标T为矩阵转置符号,矩阵F为如下优化问题的最优解:
式中Tr(·)为方阵的迹,代表F是维度为n行c列的矩阵;将目标函数(3)转化为如下公式:
式中λ是可调节的参数,公式(5)即为最终的目标函数;
(2b)初始化变量:在第一次迭代中,将S初始化为W;同时,将参数β固定为1,并将参数λ初始化为1;
(2c)固定S优化F:去掉F的无关项,目标函数(5)变为公式(4),F的最优解即为由LS的c个最小特征值对应的特征向量所构成的矩阵;
(2d)固定F优化S:根据谱聚类理论,式(5)的第三项Tr(FTLSF)等于其中列向量fi和fj分别为矩阵F的第i行和第j行的转置;因此,公式(5)可以转化为
进一步地,记S和I的第i行的转置分别为列向量si和Ii,并定义n维列向量mi使其第j个元素为则公式(6)可以对S的每一行分别求解,以第i行为例:
式中符号1代表元素全部为1的n维列向量,LW为方阵W的拉普拉斯矩阵;公式(7)中的si可由增广拉格朗日方法进行快速求解,即得到方阵S中第i行的所有元素;通过对S的所有行求解,可得到更新后的最优图S;对参数λ进行调节,以保证Tr(FTLSF)接近于0;
(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛,即得到所求最优图S;
步骤3:若两个数据点在最优图S中属于同一连通分量,则两者属于同一类别;否则,两者属于不同类别。
有益效果
本发明提出的一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递,挖掘流形结构,学习出能够反映数据点间拓扑关系的最优图,并通过拉普拉斯秩约束,使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别),避免后处理操作,提高聚类准确率。本发明通过传递数据点的相似度,挖掘了点之间的拓扑关系,在优化的过程中得到最优相似图。通过对最优图进行拉普拉斯秩约束,使其具有清晰的类别结构,无需使用后处理算法即可得到聚类结果。
附图说明
图1本发明的流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
参照图1,本发明的具体实现步骤如下:
步骤1,根据Nie等人在文献“F.Nie,X.Wang,M.Jordan,and H.Huang.TheConstrained Laplacian Rank Algorithm for Graph-Based Clustering.AAAIConference on Artificial Intelligence,1969-1976,2016.”中的方法,构建一个维度为n的方阵W作为初始化相似图。
(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示。定义数据点xi和xj的距离为
式中eij为数据点xi和xj的距离,||·||2为向量二范数。
(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein
(1c)将数据点xi和xj的初始相似度定义为
式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度。W是维度为n的方阵,即为构建的初始相似图。这种构建方法可以保证相似图是稀疏的,每个数据点只和距离最近的5个点保持关联。
步骤2,设计并优化目标函数,得到最优图。
(2a)设计目标函数如下:
式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度。β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目。公式第一项假设如果第j和k个数据点在具有较高的初始相似度Wjk,则它们与其他任一数据点xi的相似度应该接近(即Sij与Sik接近)。这种假设可以保证相似度在邻近点间进行传递,从而挖掘数据中的流形结构,使得距离较远的数据点也可能被分配较高的相似度。式中第二项是为了防止最优图S中所有元素相等。约束是为了防止S中某些行所有元素都是0。rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵。根据Mohar等人在文献“B.Mohar,Y.Alavi,G.Chartrand,O.Oeelermann,and A.Schwenk.The Laplacian Spectrum of Graphs.GraphTheory,Combinatorics,and Applications,871-898,2001.”中的理论,将LS的秩限制为n-c,则S中会有c个连通分量。如果两个数据点在最优图S中属于同一连通分量,则说明两者有相似关系,可以判断其属于同一类别;否则,两者属于不同类别。因此,只要学习到最优图S,即可得到最终的聚类结果,无需任何后处理步骤。
根据Fan在文献“K.Fan.On A Theorem of Weyl Concerning Eigenvalues ofLinear Transformations I.”National Academy of Sciences of the United Statesof America,35(11),652–655,1949.”中的理论,秩约束rank(LS)=n-c等同于限制Tr(FTLSF)为0,其中上标T为矩阵转置符号,矩阵F为如下优化问题的最优解
式中Tr(·)为方阵的迹,代表F是维度为n行c列的矩阵。因此,目标函数(3)可转化为如下公式
式中λ是可调节的参数,以保证Tr(FTLSF)接近于0。公式(5)即为最终的目标函数。
(2b)初始化变量。由于目标函数中有S和F两个变量,因此在优化一个变量时将另外一个变量固定,进行多次迭代直至目标函数收敛。在第一次迭代中,将S初始化为W。同时,将参数β固定为1,并将参数λ初始化为1。
(2c)固定S优化F。去掉F的无关项,目标函数(5)变为公式(4),F的最优解即为由LS的c个最小特征值对应的特征向量所构成的矩阵。
(2d)固定F优化S,并调节参数λ。根据谱聚类理论,式(5)的第三项Tr(FTLSF)等于其中列向量fi和fj分别为矩阵F的第i行和第j行的转置。因此,公式(5)可以转化为
进一步地,记S和I的第i行的转置分别为列向量si和Ii,并定义n维列向量mi使其第j个元素为则公式(6)可以对S的每一行分别求解,以第i行为例:
式中符号1代表元素全部为1的n维列向量,LW为方阵W的拉普拉斯矩阵。公式(7)中的si可由增广拉格朗日方法进行快速求解,即得到方阵S中第i行的所有元素。通过对S的所有行求解,可得到更新后的最优图S。得到当前的S后,根据Nie等人在文献“F.Nie,X.Wang,M.Jordan,and H.Huang.The Constrained Laplacian Rank Algorithm for Graph-BasedClustering.AAAI Conference on Artificial Intelligence,1969-1976,2016.”中的参数调节方法对参数λ进行调节。
(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛,即得到所求最优图S。
步骤3,若两个数据点在最优图S中属于同一连通分量,则两者属于同一类别;否则,两者属于不同类别。依据此,得到最终聚类结果。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为i5-3470 3.2GHz CPU、内存4G、WINDOWS 7操作系统上,运用MATLAB软件进行的仿真。
实验中使用的测试数据来自常用的5个数据集:Cai等人在文献“D.Cai,X.He,J.Han,and T.S.Huang.Graph Regularized Nonnegative Matrix Factorization forData Representation.IEEE Transactions on Pattern Analysis and MachineIntelligence,33(8),1548-1560,2011.”中提出的COIL20数据集,Lyons等人在文献“M.Lyons,J.Budynek,and S.Akamatsu.Automatic Classification of Single FacialImages.IEEE Transactions on Pattern Analysis and Machine Intelligence,21(12),1357–1362,1999.”中提出的JAFFE数据集,Singh等人在文献“D.Singh,P.Febbo,K.Ross,D.Jackson,J.Manola,C.Ladd,P.Tamayo,A.Renshaw,A.D’Amico,and J.P.Richie.GeneExpression Correlates of Clinical Prostate Cancer Behavior.Cancer Cell,1(2),203-209,2002.”中提出的Lung数据集,Khan等人在文献“J.Khan,J.Wei,M.Ringnr,L.Saal,M.Ladanyi,F.Westermann,F.Berthold,M.Schwab,C.Antonescu,C.Peterson.Classification and Diagnostic Prediction of Cancers using GeneExperssion Profiling and Artificial Neural Networks.Nature Medicine,7(6),673-379,2001.”中提出的SRBCT数据集,以及Li等人在文献“J.Li,K.Cheng,S.Wang,F.Morstatter,T.Robert,J.Tang,and H.Liu.Feature Selection:A DataPerspective.arXiv:1601.07996,2016.”中提出的Carcinom数据集。
2.仿真内容
利用数据集中给出的类别数目,对数据进行分类,计算分类准确率。为了证明本发明的有效性,选取了4种聚类方法作为对比算法,其中包括Macqueen等人在文献“J.Macqueen.Some Methods for Classification and Analysis of MultivariateObservations.Berkeley Symposium on Mathematical Statistics and Probability,281–297,1967.”中提出的K均值方法(K-means),Chan等人在文献“P.Chan,M.Schlag,andJ.Zien,“Spectral k-Way Ratio-Cut Partitioning and Clustering.IEEETransactions on CAD of Integrated Circuits and Systems,13(9),1088–1096,1994.”中提出的比例图割方法(RCut),Shi等人在文献“J.Shi and J.Malik.Normalized Cutsand Image Segmentation.IEEE Transactions on Pattern Analysis on MachineIntelligence,22(8),888–905,2000.”中提出的正则化图割方法(NCut),Li等人在文献“T.Li and C.Ding.The Relationships among Various Nonnegative MatrixFactorization Methods for Clustering.IEEE International Conference on DataMining,362–371,2006.”中提出的非负矩阵分解方法(NMF)。使用分类准确率作为算法评价标准,对比结果如表1所示。
表1不同算法的聚类准确率对比
聚类方法 COIL20 JAFFE LUNG SRBCT Carcinom
K-means 0.63 0.85 0.79 0.39 0.66
RCut 0.40 0.73 0.75 0.42 0.29
NCut 0.48 0.80 0.59 0.37 0.71
NMF 0.40 0.67 0.51 0.36 0.57
本发明 0.83 0.97 0.86 0.57 0.82
从表1可见,在不同数据集上,本发明均获得最高的聚类准确率。本发明由于在进行目标函数优化时学习最优图,充分挖掘了数据点间的拓扑关系,保留了数据在原始空间中的局部关联。此外,由于本发明所学到的最优图中直接包含了聚类结果,避免了后处理步骤带来的不稳定性,因此只需运行一次即可得到最终结果,而其他对比算法均需要运行多次以减少后处理步骤的影响。因此,本发明取得了较好的聚类结果。

Claims (1)

1.一种基于相似度传递的图聚类方法,其特征在于步骤如下:
步骤1:构建一个维度为n的方阵W作为初始化相似图:
(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示;定义数据点xi和xj的距离为:
式中eij为数据点xi和xj的距离,||·||2为向量二范数;
(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein
(1c)将数据点xi和xj的初始相似度定义为
式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度;W是由Wij组成的维度为n的方阵,即为构建的初始相似图;
步骤2:设计并优化目标函数,得到最优图:
(2a)设计目标函数如下:
式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度;β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目;rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵;
秩约束rank(LS)=n-c等同于限制Tr(FTLSF)为0,其中上标T为矩阵转置符号,矩阵F为如下优化问题的最优解:
式中Tr(·)为方阵的迹,代表F是维度为n行c列的矩阵;将目标函数(3)转化为如下公式:
式中λ是可调节的参数,公式(5)即为最终的目标函数;
(2b)初始化变量:在第一次迭代中,将S初始化为W;同时,将参数β固定为1,并将参数λ初始化为1;
(2c)固定S优化F:去掉F的无关项,目标函数(5)变为公式(4),F的最优解即为由LS的c个最小特征值对应的特征向量所构成的矩阵;
(2d)固定F优化S:根据谱聚类理论,式(5)的第三项Tr(FTLSF)等于其中列向量fi和fj分别为矩阵F的第i行和第j行的转置;因此,公式(5)可以转化为
进一步地,记S和I的第i行的转置分别为列向量si和Ii,并定义n维列向量mi使其第j个元素为则公式(6)可以对S的每一行分别求解,以第i行为例:
式中符号1代表元素全部为1的n维列向量,LW为方阵W的拉普拉斯矩阵;公式(7)中的si可由增广拉格朗日方法进行快速求解,即得到方阵S中第i行的所有元素;通过对S的所有行求解,可得到更新后的最优图S;对参数λ进行调节,以保证Tr(FTLSF)接近于0;
(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛,即得到所求最优图S;
步骤3:若两个数据点在最优图S中属于同一连通分量,则两者属于同一类别;否则,两者属于不同类别。
CN201811468939.5A 2018-12-04 2018-12-04 基于相似度传递的图聚类方法 Pending CN109766910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811468939.5A CN109766910A (zh) 2018-12-04 2018-12-04 基于相似度传递的图聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811468939.5A CN109766910A (zh) 2018-12-04 2018-12-04 基于相似度传递的图聚类方法

Publications (1)

Publication Number Publication Date
CN109766910A true CN109766910A (zh) 2019-05-17

Family

ID=66450231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811468939.5A Pending CN109766910A (zh) 2018-12-04 2018-12-04 基于相似度传递的图聚类方法

Country Status (1)

Country Link
CN (1) CN109766910A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634270A (zh) * 2021-03-09 2021-04-09 深圳华龙讯达信息技术股份有限公司 一种基于工业互联网的成像检测系统及方法
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN112926658B (zh) * 2021-02-26 2023-03-21 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN112634270A (zh) * 2021-03-09 2021-04-09 深圳华龙讯达信息技术股份有限公司 一种基于工业互联网的成像检测系统及方法
CN112634270B (zh) * 2021-03-09 2021-06-04 深圳华龙讯达信息技术股份有限公司 一种基于工业互联网的成像检测系统及方法

Similar Documents

Publication Publication Date Title
Kulis et al. Revisiting k-means: New algorithms via Bayesian nonparametrics
Barmak et al. Information technology of separating hyperplanes synthesis for linear classifiers
CN107203785A (zh) 多路径高斯核模糊c均值聚类算法
CN104732545B (zh) 结合稀疏近邻传播和快速谱聚类的纹理图像分割方法
Tang et al. One-step multiview subspace segmentation via joint skinny tensor learning and latent clustering
Yi et al. An improved initialization center algorithm for K-means clustering
CN109766910A (zh) 基于相似度传递的图聚类方法
Ma et al. The BYY annealing learning algorithm for Gaussian mixture with automated model selection
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
Lu et al. Robust and scalable Gaussian process regression and its applications
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Kumar et al. A unified framework for optimization-based graph coarsening
Russell et al. Bayesian model averaging in model-based clustering and density estimation
CN109447147A (zh) 基于双图稀疏的深度矩阵分解的图像聚类方法
Garcia-Magarinos et al. Lasso logistic regression, GSoft and the cyclic coordinate descent algorithm: application to gene expression data
Xu et al. Graphical lasso quadratic discriminant function and its application to character recognition
Punzo et al. Outlier detection via parsimonious mixtures of contaminated Gaussian distributions
Wang Mixtures of common t-factor analyzers for modeling high-dimensional data with missing values
Baek et al. A review on spectral clustering and stochastic block models
Carmichael Learning sparsity and block diagonal structure in multi-view mixture models
Younso Nonparametric discrimination of areal functional data
Kumar et al. A Unified Framework for Optimization-Based Graph Coarsening
Kaski Learning metrics for exploratory data analysis
Shen Encoder Embedding for General Graph and Node Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190517

WD01 Invention patent application deemed withdrawn after publication