CN109766910A

CN109766910A - 基于相似度传递的图聚类方法

Info

Publication number: CN109766910A
Application number: CN201811468939.5A
Authority: CN
Inventors: 李学龙; 陈穆林; 王�琦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-05-17

Abstract

本发明涉及一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递，挖掘流形结构，学习出能够反映数据点间拓扑关系的最优图，并通过拉普拉斯秩约束，使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别)，避免后处理操作，提高聚类准确率。

Description

基于相似度传递的图聚类方法

技术领域

本发明属于机器学习领域，特别针对图聚类问题，进行数据间相似度的学习，将相似度高的数据合并为同类。本发明可应用到统计数据分析、模式识别等方面。

背景技术

随着大数据时代的深度发展，数据挖掘逐渐成为机器学习领域的一个热点。在数据挖掘技术中，聚类分析是广为研究的课题之一。所谓聚类，就是根据数据对象之间的相似性，对其进行区分，将数据合并为不同类别。被划分为同一类别的数据具有较高的相似度，而不同类别中数据的相似度较低。聚类方法不依赖先验信息，因此是一种无监督的学习方法。因其无监督的特性，聚类分析已被广泛应用在许多领域中，如数据分析、图像处理、模式识别等。

针对不同领域的问题，各国学者提出了大量聚类算法。根据类别划分依据的不同，现有的聚类方法大致分为：图聚类算法、划分聚类算法、层次聚类算法及网络聚类算法等。其中，图聚类是目前应用最为广泛的方法。图聚类方法根据数据点的局部关系，将其划分为不同类别。相比于其他聚类方法，图聚类能够保留数据间的关联信息，在处理具有复杂结构的数据时，具有天然的优势。因此，图聚类已被推广到许多实际应用中，如文本分类、生物信息、人脸识别等。

目前的大部分图聚类算法首先构建一个相似图以描述数据点的相似关系，然后优化某个目标函数将相似图分割为多个子图。这类方法存在三个问题：(1)过于依赖相似图。传统图聚类方法在优化过程中不会对相似图进行更新，因此很难得到最优的相似图。相似图的构建质量直接影响聚类结果。(2)无法掌握数据内部流形结构。相似图的构建是根据数据点间的相互关系，数据点在原始空间中的距离越近，相似度越高。然而，在具有流形结构的数据中，距离远的数据点也可能保持密切的关系。仅仅根据一对数据点间的关系，无法判断两者是否属于同类。(3)需要进行后处理。传统图聚类方法在优化完成后并不能直接得到聚类结果，往往需要使用K-means作为后处理步骤。而K-means的结果易受初始化影响，很难得到最优结果。

发明内容

要解决的技术问题

为了克服现有的图聚类方法存在的问题，本发明提出一种基于相似度传递的图聚类方法。

技术方案

一种基于相似度传递的图聚类方法，其特征在于步骤如下：

步骤1：构建一个维度为n的方阵W作为初始化相似图：

(1a)假设数据集中包含n个数据点，其中每个数据点都是d维的列向量，第j个数据点由符号x_j表示；定义数据点x_i和x_j的距离为：

式中e_ij为数据点x_i和x_j的距离，||·||₂为向量二范数；

(1b)对于数据x_i，将其与其他所有点的距离从小到大重新排序，使e_i1≤e_i2≤…≤e_in；

(1c)将数据点x_i和x_j的初始相似度定义为

式中e_i6为数据点x_i与其距离最近的第6个点之间的距离，W_ij为x_i和x_j的相似度；W是由W_ij组成的维度为n的方阵，即为构建的初始相似图；

步骤2：设计并优化目标函数，得到最优图：

(2a)设计目标函数如下：

式中方阵S是需要学习的最优图，维度为n，其中S_ij为数据点x_i和x_j更新后的相似度；β是权重参数，I是维度为n的单位矩阵，c是已知的类别数目；rank(·)代表矩阵的秩，方阵L_S是S的拉普拉斯矩阵；

秩约束rank(L_S)＝n-c等同于限制Tr(F^TL_SF)为0，其中上标T为矩阵转置符号，矩阵F为如下优化问题的最优解：

式中Tr(·)为方阵的迹，代表F是维度为n行c列的矩阵；将目标函数(3)转化为如下公式：

式中λ是可调节的参数，公式(5)即为最终的目标函数；

(2b)初始化变量：在第一次迭代中，将S初始化为W；同时，将参数β固定为1，并将参数λ初始化为1；

(2c)固定S优化F：去掉F的无关项，目标函数(5)变为公式(4)，F的最优解即为由L_S的c个最小特征值对应的特征向量所构成的矩阵；

(2d)固定F优化S：根据谱聚类理论，式(5)的第三项Tr(F^TL_SF)等于其中列向量f_i和f_j分别为矩阵F的第i行和第j行的转置；因此，公式(5)可以转化为

进一步地，记S和I的第i行的转置分别为列向量s_i和I_i，并定义n维列向量m_i使其第j个元素为则公式(6)可以对S的每一行分别求解，以第i行为例：

式中符号1代表元素全部为1的n维列向量，L_W为方阵W的拉普拉斯矩阵；公式(7)中的s_i可由增广拉格朗日方法进行快速求解，即得到方阵S中第i行的所有元素；通过对S的所有行求解，可得到更新后的最优图S；对参数λ进行调节，以保证Tr(F^TL_SF)接近于0；

(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛，即得到所求最优图S；

步骤3：若两个数据点在最优图S中属于同一连通分量，则两者属于同一类别；否则，两者属于不同类别。

有益效果

本发明提出的一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递，挖掘流形结构，学习出能够反映数据点间拓扑关系的最优图，并通过拉普拉斯秩约束，使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别)，避免后处理操作，提高聚类准确率。本发明通过传递数据点的相似度，挖掘了点之间的拓扑关系，在优化的过程中得到最优相似图。通过对最优图进行拉普拉斯秩约束，使其具有清晰的类别结构，无需使用后处理算法即可得到聚类结果。

附图说明

图1本发明的流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

参照图1，本发明的具体实现步骤如下：

步骤1，根据Nie等人在文献“F.Nie,X.Wang,M.Jordan,and H.Huang.TheConstrained Laplacian Rank Algorithm for Graph-Based Clustering.AAAIConference on Artificial Intelligence,1969-1976,2016.”中的方法，构建一个维度为n的方阵W作为初始化相似图。

(1a)假设数据集中包含n个数据点，其中每个数据点都是d维的列向量，第j个数据点由符号x_j表示。定义数据点x_i和x_j的距离为

式中e_ij为数据点x_i和x_j的距离，||·||₂为向量二范数。

(1b)对于数据x_i，将其与其他所有点的距离从小到大重新排序，使e_i1≤e_i2≤…≤e_in。

(1c)将数据点x_i和x_j的初始相似度定义为

式中e_i6为数据点x_i与其距离最近的第6个点之间的距离，W_ij为x_i和x_j的相似度。W是维度为n的方阵，即为构建的初始相似图。这种构建方法可以保证相似图是稀疏的，每个数据点只和距离最近的5个点保持关联。

步骤2，设计并优化目标函数，得到最优图。

(2a)设计目标函数如下：

式中方阵S是需要学习的最优图，维度为n，其中S_ij为数据点x_i和x_j更新后的相似度。β是权重参数，I是维度为n的单位矩阵，c是已知的类别数目。公式第一项假设如果第j和k个数据点在具有较高的初始相似度W_jk，则它们与其他任一数据点x_i的相似度应该接近(即S_ij与S_ik接近)。这种假设可以保证相似度在邻近点间进行传递，从而挖掘数据中的流形结构，使得距离较远的数据点也可能被分配较高的相似度。式中第二项是为了防止最优图S中所有元素相等。约束是为了防止S中某些行所有元素都是0。rank(·)代表矩阵的秩，方阵L_S是S的拉普拉斯矩阵。根据Mohar等人在文献“B.Mohar,Y.Alavi,G.Chartrand,O.Oeelermann,and A.Schwenk.The Laplacian Spectrum of Graphs.GraphTheory,Combinatorics,and Applications,871-898,2001.”中的理论，将L_S的秩限制为n-c，则S中会有c个连通分量。如果两个数据点在最优图S中属于同一连通分量，则说明两者有相似关系，可以判断其属于同一类别；否则，两者属于不同类别。因此，只要学习到最优图S，即可得到最终的聚类结果，无需任何后处理步骤。

根据Fan在文献“K.Fan.On A Theorem of Weyl Concerning Eigenvalues ofLinear Transformations I.”National Academy of Sciences of the United Statesof America,35(11),652–655,1949.”中的理论，秩约束rank(L_S)＝n-c等同于限制Tr(F^TL_SF)为0，其中上标T为矩阵转置符号，矩阵F为如下优化问题的最优解

式中Tr(·)为方阵的迹，代表F是维度为n行c列的矩阵。因此，目标函数(3)可转化为如下公式

式中λ是可调节的参数，以保证Tr(F^TL_SF)接近于0。公式(5)即为最终的目标函数。

(2b)初始化变量。由于目标函数中有S和F两个变量，因此在优化一个变量时将另外一个变量固定，进行多次迭代直至目标函数收敛。在第一次迭代中，将S初始化为W。同时，将参数β固定为1，并将参数λ初始化为1。

(2c)固定S优化F。去掉F的无关项，目标函数(5)变为公式(4)，F的最优解即为由L_S的c个最小特征值对应的特征向量所构成的矩阵。

(2d)固定F优化S，并调节参数λ。根据谱聚类理论，式(5)的第三项Tr(F^TL_SF)等于其中列向量f_i和f_j分别为矩阵F的第i行和第j行的转置。因此，公式(5)可以转化为

式中符号1代表元素全部为1的n维列向量，L_W为方阵W的拉普拉斯矩阵。公式(7)中的s_i可由增广拉格朗日方法进行快速求解，即得到方阵S中第i行的所有元素。通过对S的所有行求解，可得到更新后的最优图S。得到当前的S后，根据Nie等人在文献“F.Nie,X.Wang,M.Jordan,and H.Huang.The Constrained Laplacian Rank Algorithm for Graph-BasedClustering.AAAI Conference on Artificial Intelligence,1969-1976,2016.”中的参数调节方法对参数λ进行调节。

(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛，即得到所求最优图S。

步骤3，若两个数据点在最优图S中属于同一连通分量，则两者属于同一类别；否则，两者属于不同类别。依据此，得到最终聚类结果。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为i5-3470 3.2GHz CPU、内存4G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

实验中使用的测试数据来自常用的5个数据集：Cai等人在文献“D.Cai,X.He,J.Han,and T.S.Huang.Graph Regularized Nonnegative Matrix Factorization forData Representation.IEEE Transactions on Pattern Analysis and MachineIntelligence,33(8),1548-1560,2011.”中提出的COIL20数据集，Lyons等人在文献“M.Lyons,J.Budynek,and S.Akamatsu.Automatic Classification of Single FacialImages.IEEE Transactions on Pattern Analysis and Machine Intelligence,21(12),1357–1362,1999.”中提出的JAFFE数据集，Singh等人在文献“D.Singh,P.Febbo,K.Ross,D.Jackson,J.Manola,C.Ladd,P.Tamayo,A.Renshaw,A.D’Amico,and J.P.Richie.GeneExpression Correlates of Clinical Prostate Cancer Behavior.Cancer Cell,1(2),203-209,2002.”中提出的Lung数据集，Khan等人在文献“J.Khan,J.Wei,M.Ringnr,L.Saal,M.Ladanyi,F.Westermann,F.Berthold,M.Schwab,C.Antonescu,C.Peterson.Classification and Diagnostic Prediction of Cancers using GeneExperssion Profiling and Artificial Neural Networks.Nature Medicine,7(6),673-379,2001.”中提出的SRBCT数据集，以及Li等人在文献“J.Li,K.Cheng,S.Wang,F.Morstatter,T.Robert,J.Tang,and H.Liu.Feature Selection:A DataPerspective.arXiv:1601.07996,2016.”中提出的Carcinom数据集。

2.仿真内容

利用数据集中给出的类别数目，对数据进行分类，计算分类准确率。为了证明本发明的有效性，选取了4种聚类方法作为对比算法，其中包括Macqueen等人在文献“J.Macqueen.Some Methods for Classification and Analysis of MultivariateObservations.Berkeley Symposium on Mathematical Statistics and Probability,281–297,1967.”中提出的K均值方法(K-means)，Chan等人在文献“P.Chan,M.Schlag,andJ.Zien,“Spectral k-Way Ratio-Cut Partitioning and Clustering.IEEETransactions on CAD of Integrated Circuits and Systems,13(9),1088–1096,1994.”中提出的比例图割方法(RCut)，Shi等人在文献“J.Shi and J.Malik.Normalized Cutsand Image Segmentation.IEEE Transactions on Pattern Analysis on MachineIntelligence,22(8),888–905,2000.”中提出的正则化图割方法(NCut)，Li等人在文献“T.Li and C.Ding.The Relationships among Various Nonnegative MatrixFactorization Methods for Clustering.IEEE International Conference on DataMining,362–371,2006.”中提出的非负矩阵分解方法(NMF)。使用分类准确率作为算法评价标准，对比结果如表1所示。

表1不同算法的聚类准确率对比

聚类方法	COIL20	JAFFE	LUNG	SRBCT	Carcinom
						K-means	0.63	0.85	0.79	0.39	0.66
RCut	0.40	0.73	0.75	0.42	0.29
						NCut	0.48	0.80	0.59	0.37	0.71
NMF	0.40	0.67	0.51	0.36	0.57
						本发明	0.83	0.97	0.86	0.57	0.82

从表1可见，在不同数据集上，本发明均获得最高的聚类准确率。本发明由于在进行目标函数优化时学习最优图，充分挖掘了数据点间的拓扑关系，保留了数据在原始空间中的局部关联。此外，由于本发明所学到的最优图中直接包含了聚类结果，避免了后处理步骤带来的不稳定性，因此只需运行一次即可得到最终结果，而其他对比算法均需要运行多次以减少后处理步骤的影响。因此，本发明取得了较好的聚类结果。

Claims

1.一种基于相似度传递的图聚类方法，其特征在于步骤如下：

步骤1：构建一个维度为n的方阵W作为初始化相似图：

式中e_ij为数据点x_i和x_j的距离，||·||₂为向量二范数；

(1c)将数据点x_i和x_j的初始相似度定义为

步骤2：设计并优化目标函数，得到最优图：

(2a)设计目标函数如下：

式中λ是可调节的参数，公式(5)即为最终的目标函数；