CN102799891A

CN102799891A - 基于地标点表示的谱聚类方法

Info

Publication number: CN102799891A
Application number: CN2012101680893A
Authority: CN
Inventors: 蔡登�; 陈鑫磊; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2012-11-28

Abstract

本发明公开了一种基于地标点表示的谱聚类方法，其实施步骤如下：1)输入数据X和聚类数k；2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点；3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z；4)根据所述稀疏表示矩阵Z计算Z^TZ的前k个特征向量A；5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZ^T的前k个特征向量B^T；6)对特征向量B^T的每一行通过Kmeans聚类算法进行Kmeans聚类，最终输出聚类结果。本发明具有谱聚类算法效率高、计算复杂度低、聚类效果好的优点。

Description

基于地标点表示的谱聚类方法

技术领域

本发明涉及图像数据处理中的机器学习与模式识别技术领域，具体涉及一种采用稀疏编码技术进行聚类分析的谱聚类方法。

背景技术

聚类是机器学习与模式识别中一种重要的方法，它要求能合理地按样本的特性来进行合理的分类，但没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的学习，是无监督学习的代表。

常见的聚类分析方法主要包括如下几种：

●分裂法，又称划分方法。首先创建K个划分，K为要创建的划分的个数；然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有：Kmeans，Kmedoids和CLARA(Clustering LARgeApplication)等。

●层次法，通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的层次方法有：BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)，CURE(Clustering Using REprisentatives)和CHEMALOEN等。

●基于密度的方法，根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有：DBSCAN(Densit-based SpatialClustering of Application with Noise)和OPTICS(Ordering Points ToIdentify the Clustering Structure)。

●基于图的方法。它将聚类问题视为图的划分问题，以谱聚类(SpectralClustering)为典型代表。谱聚类突破了其他聚类算法只能适用于欧式空间、得到的类只能为凸集的局限性，往往能够产生更好的聚类效果。然而该算法需要进行图的构建和分解过程，计算复杂度较高，不能应用在大规模数据集上。

针对以上的问题，也就是为了解决谱聚类对大规模数据集的计算复杂度过高的问题，需要设计新的算法既能够保持原始算法的聚类效果，又能加速聚类的过程。目前主要采用的手段有：

◆基于Kmeans的近似谱聚类(Kmeans-based Approximate SpectralClustering，PCA)：该方法的核心在于减少数据集的大小，具体步骤为：通过Kmeans聚类将原始数据集用聚类中心点集来表示，然后直接对聚类中心点集进行谱聚类。

◆基于代表的谱聚类(Committees-based Spectral Clustering，CSC)：该方法的关键思想也在于减少数据集的大小。具体步骤为：通过Kmeans聚类将原始数据集中最接近聚类中心的点用聚类中心表示，从而减少了数据集的大小便于随后的谱聚类，如图1所示，(a)为Kmeans聚类，A为Kmeans聚类的聚类分割线；(b)为谱聚类，B为谱聚类的聚类分割线。有图1可见，Kmeans聚类和谱聚类在中间点的分布上存在差异。

◆

分解法

通过

方法来加速图的特征值分解过程，从而加速谱聚类。上述方法都在某种意义上采用了随机采样的思想，用一部分点来作为整个数据集的代表，虽然在实际中具有一定的效果，但是还是丧失了大部分数据信息和具体的分布结构。

稀疏编码是一种获取图像稀疏表达的方法，最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式，后来被广泛应用图像处理等领域。

发明内容

本发明要解决的技术问题是提供一种谱聚类算法效率高、计算复杂度低、聚类效果好的基于地标点表示的谱聚类方法。

为解决上述技术问题，本发明采用的技术方案为：

一种基于地标点表示的谱聚类方法，其实施步骤如下：

1)输入数据X和聚类数k；

2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点；

3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z；

4)根据所述稀疏表示矩阵Z计算Z^TZ的前k个特征向量A；

5)根据所述稀疏表示矩阵Z计算Z的右奇异向量得到ZZ^T的前k个特征向量B^T；

6)对特征向量B^T的每一行通过Kmeans聚类算法进行Kmeans聚类，最终输出聚类结果。

作为本发明上述技术方案的进一步改进：

所述步骤3)中构建稀疏表示矩阵Z的表达式为：

x_{n} = Σ_{i = 1}^{p} Z_{in} u_{i}

其中x_nx_n为原始的数据点，P为地标点的数量，u_i是地标点，所述u_i为代表地标点的向量，u_i的维度和x_n的维度相同，Z_in是用地标点来表示原始数据点所需的参数，Z_in的构造方法为对离x_n欧氏距离最近的预设数量个地标点，所述Z_in的表达式为

Z_{in} = \exp (- \frac{{| | x_{n} - u_{i} | |}^{2}}{σ^{2}})

其中σ为窗口大小。

所述步骤4)的详细步骤为：

4.1)根据所述稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵Z^T；

4.2)将所述转置矩阵Z^T乘以稀疏表示矩阵Z得到Z^TZ；

4.3)用QR分解等数值计算的方法来计算Z^TZ的前k个特征向量A和所述特征向量对应的矩阵形式特征值∑。

所述步骤5)具体是指根据B^T＝∑^-1AX求解ZZ^T的前k个特征向量B^T，其中X为原始数据组成的矩阵，A为所述步骤4.3)中得到的前k个特征向量，∑为所述步骤4.3)中得到的特征向量对应的矩阵形式特征值，∑^-1表示计算矩阵∑的逆。

本发明具有下述优点：

1.相比于直接的使用传统谱聚类方法，本发明将原始数据点的地标点稀疏表示以及特征值分解和奇异值分解的关系将计算复杂度降低到线性，本发明计算复杂度为O(n)，其中n是原始数据点的数量，而原始的谱聚类算法是O(n²)，所以相比原始的算法有效的加速了谱聚类算法，具有谱聚类算法效率高、计算复杂度低的优点。

2.但是现有技术采用的方法是减少数据集的大小，或者通过矩阵近似计算特征向量的方法，通过稀疏编码的方式有效的保留了整个数据集的信息，相比包括基于Kmeans的近似谱聚类、基于代表的谱聚类、

分解法在内的现有技术的加速算法也是线性复杂度而言，本发明能够有效地提高聚类的效果，因此本发明有效保留了整个数据集的信息，相比现有的谱聚类加速算法提高了聚类效果，具备良好的聚类能力。

附图说明

图1为基于代表的谱聚类与Kmeans聚类比较示意图。

图2为本发明实施例的基本流程示意图。

图3为本发明实施例采用MNIST数据集的样例示意图。

图4为本发明实施例的效果对比分析示意图。

具体实施方式

如图2所示，本发明实施例基于地标点表示的谱聚类方法的实施步骤如下：

1)输入数据X和聚类数k；

2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点；

3)将数据X基于P个地标点构建稀疏表示矩阵Z；

4)根据稀疏表示矩阵Z计算Z^TZ的前k个特征向量A；

5)根据稀疏表示矩阵Z计算Z的右奇异向量得到ZZ^T的前k个特征向量B^T；

本实施例中的数据X选自MNIST数据集，MNIST数据集的样例如图3所示，MNIST数据集的统计信息如下表所示：

数据集	样本数目	样本类别数	维度
				MNIST	70000	10	784

因此，本实施例的步骤1)中具体是通过随机选取MNIST数据集中K类实例作为原始的高维数据集合X＝{x₁，x₂，…，x_n，x_i}，x_i∈R^M。其中N＝K×10，M＝1024，M为特征的数量，就是矩阵的维度，R表示数据是在实数的范围内选取的。本实施例中用数据矩阵X∈R^N×D的每行表示一个样本X_n∈R^D，然后通过聚类或随机采样的方式产生远小于实际数据量N的P个地标点U∈R^P×D，每行表示一个样本u_p∈R^D。

步骤3)中构建稀疏表示矩阵Z的表达式为：

x_{n} = Σ_{i = 1}^{p} Z_{in} u_{i}

其中x_nx_n为原始的数据点，P为地标点的数量，u_i是地标点，u_i为代表地标点的向量，u_i的维度和x_n的维度相同，Z_in是用地标点来表示原始数据点所需的参数，Z_in的构造方法为对离x_n欧氏距离最近的预设数量个地标点，Z_in的表达式为

Z_{in} = \exp (- \frac{{| | x_{n} - u_{i} | |}^{2}}{σ^{2}})

其中σ为窗口大小。上式的稀疏性表现为只选择最近的r个地标点来表示每一个样本，非负参数Z_in的和限制为1，既可以通过优化得到，也可以直接利用核密度估计计算得到。

步骤4)的详细步骤为：

4.1)根据稀疏表示矩阵Z计算稀疏表示矩阵Z的转置矩阵Z^T；

4.2)将转置矩阵Z^T乘以稀疏表示矩阵Z得到Z^TZ；

4.3)用QR分解等数值计算的方法来计算Z^TZ的前k个特征向量A和特征向量对应的矩阵形式特征值∑。

参见上面的计算步骤4.1)～4.3)，本实施例的计算过程中只用进行小矩阵相乘、计算小矩阵(大小为p×p的)前k个特征向量，所以避免了大矩阵的计算，将传统的大矩阵计算减少为线性计算。本实施例通过稀疏表示矩阵Z构建图W＝Z^TD^-1Z，其中D是由Z的行和组成的对角矩阵。由特征值分解和奇异值分解的关系，W的特征值分解可以通过Z的奇异值分解得到，整个计算过程仅仅具有线性复杂度。

步骤5)具体是指根据B^T＝∑^-1AX求解ZZ^T的前k个特征向量B^T，其中X为原始数据组成的矩阵，A为步骤4.3)中得到的前k个特征向量，∑为步骤4.3)中得到的特征向量对应的矩阵形式特征值，∑^-1表示计算矩阵∑的逆。

本实施例采用时间间隔Elapse来比较不同方法的速度，采用两种度量标准来比较不同方法的效果：精确度(accuracy，AC)和标准化互信息(normalizedmutual information，

)

精确度是用来计量正确标记的数据的百分比：

标准化互信息是用来度量两个集合之间的相关性的信息度量，给定两个集合C和C′：

MI (C, C^{'}) = \underset{c_{i} &Element; C, c_{j}^{'} &Element; C^{'}}{Σ} p (c_{i}, c_{j}^{'}) \cdot \log \frac{p (c_{i}, c_{j}^{'})}{p (c_{i}) \cdot p (c_{j}^{'})}

其中：p(c_i)，p(c′_j)表示从数据集中任意选取某一数据时分别属于c_i，c′_j的概率，p(c_i，c′_j)则表示同时属于两类的概率；H(C)和H(C′)分别表示C和C′的熵。

本实施例通过将步骤2)产生P个地标点的方法根据采用Kmeans聚类算法或者随机采样分为两种验证其性能，LSC-K采用Kmeans聚类算法产生地标点，LSC-R随机采样产生地标点，依次将k取值为2，3，……，10，记录算法运行所需时间Elapse，并计算聚类结果的AC和MI，并另外在同样的数据集下比较另外3种现有的加速算法KASP，CSC和

的效果，最终得到的实现结果如图4和下表所示：

其中LSC-R代表使用随机采样的方法选取地标点、LSC-K代表使用K-means聚类的方法并选取聚类后的中心为地标点。从上表可以看出，本实施例相比现有的谱聚类加速算法，具有很好的聚类效果。从图4中可以看出，本实施例中LSC-K的效果虽然最好(见表格)速度比较慢，但是LSC-R有效地实现了加速，比现有的方法快而且效果仅次于LSC-K。

以上所述仅为本发明的优选实施方式，本发明的保护范围并不仅限于上述实施方式，凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言，在不脱离本发明的原理的前提下进行的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于地标点表示的谱聚类方法，其特征在于其实施步骤如下：

1)输入数据X和聚类数k；

2)在数据X中通过Kmeans聚类算法或者随机采样产生P个地标点；

3)将所述数据X基于所述P个地标点构建稀疏表示矩阵Z；

4)根据所述稀疏表示矩阵Z计算Z^TZ的前k个特征向量A；

2.根据权利要求1所述的基于地标点表示的谱聚类方法，其特征在于，所述步骤3)中构建稀疏表示矩阵Z的表达式为：

x_{n} = Σ_{i = 1}^{p} Z_{in} u_{i}

Z_{in} = \exp (- \frac{{| | x_{n} - u_{i} | |}^{2}}{σ^{2}})

其中σ为窗口大小。

3.根据权利要求1或2所述的基于地标点表示的谱聚类方法，其特征在于，所述步骤4)的详细步骤为：

4.2)将所述转置矩阵Z^T乘以稀疏表示矩阵Z得到Z^TZ；

4.根据权利要求3所述的基于地标点表示的谱聚类方法，其特征在于：所述步骤5)具体是指根据B^T＝∑^-1AX求解ZZ^T的前k个特征向量B^T，其中X为原始数据组成的矩阵，A为所述步骤4.3)中得到的前k个特征向量，∑为所述步骤4.3)中得到的特征向量对应的矩阵形式特征值，∑^-1表示计算矩阵∑的逆。