CN106203502A

CN106203502A - 基于流形结构的集成聚类数据处理方法

Info

Publication number: CN106203502A
Application number: CN201610537430.6A
Authority: CN
Inventors: 李学龙; 董永生; 鲁全茂
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2016-12-07

Abstract

本发明属于信息处理技术领域，具体涉及一种基于流形结构的集成聚类数据处理方法。该处理方法包括以下步骤：1】采集原始数据得到数据集；2】采用最大最小距离算法获取数据集的初始聚类结果；3】添加拉普拉斯正则项，构造基于流形结构的目标函数；4】求解目标函数得到最终聚类结果；5】根据最终聚类结果对指示矩阵进行扩充，更新目标函数并求解得到更新后的最终聚类结果；6】计算更新前后的两个最终聚类结果之差的绝对值；若绝对值小于或者等于给定的阈值则执行步骤7】，若绝对值大于给定的阈值则返回步骤5】；7】输出最终聚类结果。本发明解决了现有的集成聚类算法鲁棒性差的技术问题，提高了聚类结果的有效性。

Description

基于流形结构的集成聚类数据处理方法

技术领域

本发明属于信息处理技术领域，具体涉及一种基于流形结构的集成聚类数据处理方法。

背景技术

聚类分析作为数据分析的重要处理工具，已经被广泛用于各个领域，如数据挖掘、模式识别、图像分割、数据压缩等。数据聚类主要是根据数据之间的联系，将数据分为n个不同的子类，使得类内有较大的相似度，类间有较大的差异性。随着聚类技术的发展，已经提出了很多聚类算法，如K-means算法、高斯混合模型、谱聚类算法、分层聚类算法等，虽然这些算法在一些应用领域上取得了不错的效果，但对于同一个数据集，不同的聚类算法或者是具有不同的参数的同一个聚类算法通常会得到不同的聚类结果。因此单一的聚类算法是不稳定的并且非常依赖数据集，没有一种聚类算法可以适用于各种数据集。为了提高聚类算法的稳定性和普适性，集成聚类算法被提出，集成聚类算法主要是通过对多种聚类结果进行信息融合，运用适当的目标函数，得到性能更高的聚类结果，已经被用到了各个领域。

目前，根据融合方法的差异性，集成聚类算法主要可以分为三类。

一是重标记和投票的方法。该方法是通过一种简单直接的方式获得一致性的聚类结果，代表性的工作是Dimitriadou和Weingessel等人在“E.Dimitriadou,W.Andreas,andK.Hornik.Voting-merging:An Ensemble Method for Clustering.Artificial NeuralNetworks,217-224,1990.”提出的集成聚类算法，重标记主要是为了解决初始聚类结果之间的标签一致性问题，该方法直接选取一种聚类结果为作为参考，将其他的初始聚类结果按照本参考结果进行对应标签的修改，然后统计每一个数据样本被分到每个标签的次数，取最大值对应的标签为此样本最后的聚类结果，虽然此方法思路简单，但是解决标签一致性问题需要消耗大量的时间，为了降低算法的时间复杂度，研究者又提出了改进算法，用匈牙利算法来处理标签一致性问题，最后同样通过投票机制得到最后的聚类结果。此类算法存在的不足主要是初始的聚类结果对应的聚类数目必须相同，这对于集成聚类算法的研究是一个很强的限制。

二是基于相似度矩阵的方法。该方法主要根据初始聚类结果得到数据之间的相似性，然后构建相似度矩阵，运用基于相似度矩阵的聚类算法，得到最后的聚类结果，主要代表性的工作是Fred and Jain在“A.L.Fred and A.K.Jain.Combining MultipleClusterings Using Evidence Accumulation.IEEE Transactions Pattern Analysisand Machine Intelligence,27(6):835–850,2005.”提出的集成聚类算法，该算法首先是根据对于每一个聚类结果，统计出一个相似度矩阵，矩阵的维度和数据个数相同，如果数据属于同一类，则在矩阵中对应的位置为1，否则为0，最终把所有的相似度矩阵加起来求平均即可得到最后的相似度矩阵，然后利用分层聚类算法对相似度进行处理，得到最后的聚类结果。

三是基于图和超图的集成聚类算法。主要工作是Strehl and Ghosh在“A.Strehland J.Ghosh.Cluster Ensembles—A Knowledge Reuse Framework for CombiningMultiple Partitions.Journal of Machine Learning Research,3:583–617,2003.”中提出的三种基于图或超图的集成聚类算法：1)CSPA用相似度矩阵构建一个图结构，图中的顶点为数据点，边的权重即为数据之间的相似度，然后利用图割算法得到最后的聚类结果；2)HGPA利用初始聚类中所有的子类构建出一个超图，并且所有的超边具有相同的权重，最后利用图割算法得到最后的聚类结果；3)MCLA运用超图的聚合与分离操作，可以得到具有软分配的聚类结果。

发明内容

为了解决现有的集成聚类算法鲁棒性差的技术问题，本发明提供一种基于流形结构的集成聚类数据处理方法，提高了聚类结果的有效性。

本发明的技术解决方案是：一种基于流形结构的集成聚类数据处理方法，其特殊之处在于：包括以下步骤：

1】采集原始数据得到数据集；

2】采用最大最小距离算法获取数据集的初始聚类结果；

3】添加拉普拉斯正则项，构造基于流形结构的目标函数：

\{\begin{matrix} m i n Σ_{i = 1}^{k} c ({[A_{B}]}_{i}) x_{i} + x^{T} L x \\ \begin{matrix} s . t . & A_{B} x &GreaterEqual; e \\ Σ_{i = 1}^{k} x_{i} = k \\ x_{i} &Element; {0, 1}, i = 1 ... N \end{matrix} \end{matrix}

其中，N表示初始聚类结果中对应的子集的个数；A_B表示由已得到的子集构成的指示矩阵；e为一个全1的N维向量；c_i表示每一个子集对应的损失函数的取值；x_i表示子集i是否被选中，若i被选中则x_i取1，若i未被选中则x_i取零；

4】求解目标函数得到最终聚类结果；

5】根据最终聚类结果对指示矩阵进行扩充，更新目标函数并求解得到更新后的最终聚类结果；

6】计算更新前后的两个最终聚类结果之差的绝对值；若绝对值小于或者等于给定的阈值则执行步骤7】，若绝对值大于给定的阈值则返回步骤5】；

7】输出最终聚类结果。

上述步骤2】包括：

2.1】设置聚类数k，并从数据集中选择一点作为第一个聚类中心c₁；

2.2】计算每个数据点到所选取的聚类中心的距离，并将最小值记为D(x)；选取作为第i个聚类中心；

2.3】重复步骤2.2】直至选出k个聚类中心；

2.4】根据得到的聚类中心，分配每个数据点属于距其最近的聚类中心，得到初始聚类结果。

上述步骤4】包括：

4.1】用内点法对目标函数进行求解；

4.2】调整目标函数的求解结果，使每个数据属于且仅属于一个子类，得到一个合理的聚类结果P；

4.3】将P作为初始值，运用K-means算法进行聚类；

4.4】运用迭代优化算法得到聚类结果P′。

4、根据权利要求3所述的基于流形结构的集成聚类数据处理方法，其特征在于：所述步骤4.2】中对目标函数的调整方法为：

4.2.1】对解向量x的值进行排序，取前k个值为1，后面的值为0；

4.2.2】把出现在多个子类中的数据点分配给距其最近的聚类中心；

4.2.3】对于没有类别的数据，根据其与聚类中心的距离，寻找并将其分配给最近邻的聚类中心。

上述的基于流形结构的集成聚类数据处理方法，还包括以下步骤：

8】计算最终聚类结果对应的Minimum Sum-of-Squares Clustering值：

m i n Σ_{i = 1}^{k} \underset{x &Element; C_{i}}{Σ} | | x - m_{i} | |^{2}

s t . \{\begin{matrix} m_{i} = \frac{Σ_{x &Element; C_{i}} x}{| C_{i} |}, i = 1, ..., k \\ \cup_{i = 1}^{k} C_{i} = X \\ C_{i} \cap C_{j} = 0, &ForAll; i &NotEqual; j \end{matrix}

其中，x表示数据点，k表示聚类数，C_i表示第i个子类，m_i表示对应的类中心。

本发明的有益效果在于：

(1)本发明将集成聚类问题看成集覆盖问题，直接优化原始的目标函数式。通过在目标函数式中加入拉普拉斯正则约束来捕获数据之间的流形结构，进一步添加类间的判别性约束限制子类之间的距离，进而得到更鲁邦的聚类结果。这样也保证了聚类结果中子类之间具有较大的差异性，既可以提高聚类结果的稳定性，也符合聚类的标准。

(2)本发明对于不同的聚类结果选取不同的聚类数，然后运用最大化最小距离算法得到初始的聚类结果，降低了产生初始聚类结果的时间复杂度，增加了初始聚类结果的多样性。

附图说明

图1为本发明基于流形结构的集成聚类数据处理方法的较佳实施例的流程图；

图2为本发明仿真实验的可视化结果图。

具体实施方式

参照图1，本发明基于流形结构的集成聚类数据处理方法的较佳实施例的具体实现步骤如下：

步骤1，采用最大最小距离算法获取初始的聚类结果。

(1a)设置聚类数k，并随意从数据集中选择一点，作为第一个中心点c₁。

(1b)对于每个数据点，计算此数据点到目前已选取的聚类中心的距离，并选取最小值，记为D(x)，选取

(1c)重复步骤(1b)直到选出k个聚类中心。

(1d)根据得到的聚类中心，分配每个数据点属于距其最近的聚类中心，得到一种聚类结果，重复以上步骤即可得到多种不同的初始聚类结果。

步骤2，构造基于流形结构的目标函数式。

\{\begin{matrix} m i n Σ_{i = 1}^{k} c ({[A_{B}]}_{i}) x_{i} + x^{T} L x \\ \begin{matrix} s . t . & A_{B} x &GreaterEqual; e \\ Σ_{i = 1}^{k} x_{i} = k \\ x_{i} &Element; {0, 1}, i = 1 ... N \end{matrix} \end{matrix}

其中，N表示初始聚类结果中对应的子集的个数，A_B表示由已得到的子集构成的指示矩阵，在实际求解中，e为一个全1的N维向量，c_i表示每一个子集对应的损失函数的取值，x_i表示子集i是否被选中，选中去1，否则取零。为了方便求解，在实际求解时把x_i的取值范围改为了[0,1]。

步骤3，对步骤2的目标函数式进行求解，并进行的优化。

首先用内点法对目标函数式进行求解，得到目标函数的最优解，因为此时的解不一定是一个合适的聚类结果，接下来要对其进行优化，得到最后的聚类结果。

(3a)调整目标式的求解结果。对于解向量x，首先对其中的值进行排序，取前k个值为1，后面的值为0。然后把出现在多个子类中的数据点分配给距其最近的聚类中心，对于没有类别的数据，根据其与聚类中心的距离，寻找最近邻并将此点分配给最近邻，得到一个合理的聚类结果P。

(3b)将P作为初始值，并用K-means算法进行聚类得到聚类结果，并用迭代优化算法得到最终的聚类结果P'。

(3c)如果此时得到的聚类结果不满足收敛条件，可以将P和P'中的子类加入到目标函数中的指示矩阵，更新目标函数，迭代执行步骤2和步骤3，直到算法收敛。

步骤4，计算最终聚类结果对应的Minimum Sum-of-Squares Clustering(MSSC)值，具体公式为：

m i n Σ_{i = 1}^{k} \underset{x &Element; C_{i}}{Σ} | | x - m_{i} | |^{2}

s t . \{\begin{matrix} m_{i} = \frac{Σ_{x &Element; C_{i}} x}{| C_{i} |}, i = 1, ..., k \\ \cup_{i = 1}^{k} C_{i} = X \\ C_{i} \cap C_{j} = 0, &ForAll; i &NotEqual; j \end{matrix}

其中x表示数据点，k表示聚类数，C_i表示第i个子类，m_i表示对应的类中心。因为此公式为最小类内平方和，因此对于给定的聚类结果，其实是求解类内误差平方和，并且值MSSC值越小，表示聚类结果越好。

本发明的效果可以通过以下仿真实验做进一步的说明。

1、仿真条件

本发明是在中央处理器为Intel(R)Core i3-2130 3.40GHZ、内存16G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

实验中采用的数据集为FEI人脸数据集，该数据集共有50类700幅人脸图片，每一类有14张图片，主要区别为光照、阴影、角度的不同。

2、仿真内容

按照如下步骤用本发明方法进行数据的聚类处理：

首先，在FEI数据上，完成本发明方法(基于流形结构的集成聚类)的实验。为了验证算法的有效性，选择了3种聚类算法进行比较，分别为K-means，K-means++，EXACMCE算法。其中K-means算法是常用的聚类算法，广泛应用于各领域，K-means++算法是K-means算法的改进，主要是采用了一个概率模型来进行初始化，得到更稳定的聚类结果。EXAMCE算法在文献“I.T.Christou.Coordination of Cluster Ensembles via Exact Methods.IEEETransactions on Pattern Analysis and Machine Intelligence,33(2):279-293,2011.”中有详细的介绍。图2给出了聚类的可视化结果，每一行表示一类人脸图像，其中方框标注表示此图像本属于此类，但是在聚类结果中被错分到其他类中。

其次，将本发明方法求解的MMSC值与其他3种对比方法得到的值进行比较，结果如表1所示，从中可以看出，本发明方法在不同的k值上都取得了最好的效果，验证了方法的有效性。

表1 不同聚类算法的MSSC值对比结果

Claims

1.一种基于流形结构的集成聚类数据处理方法，其特征在于：包括以下步骤：