CN101894294A

CN101894294A - 一种基于特征分析的粒子群聚类方法

Info

Publication number: CN101894294A
Application number: CN2009100841612A
Authority: CN
Inventors: 邓貌; 鲁华祥; 金小贤; 王徽蓉
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2009-05-20
Filing date: 2009-05-20
Publication date: 2010-11-24

Abstract

本发明公开了一种基于特征分析的粒子群聚类方法，包括以下步骤：步骤1：将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S}，求出特征点集{S}的非零特征值及其对应的特征向量；步骤2：特征挑选，选取相应p个特征向量，将特征点集{S}变为点集{Y}；步骤3：对点集{Y}进行数据处理，更新形成新的点集{Y}；步骤4：对新的点集{Y}进行粒子群聚类。本发明克服了当后续方法是非智能方法时必须手动挑选合适特征的麻烦。另外，本发明对变换到特征空间的点作出进一步处理，比如尺度变换、归一化处理等操作，有利于后续优化方法的应用。

Description

一种基于特征分析的粒子群聚类方法

技术领域

本发明涉及数据点聚类分析技术领域，尤其涉及一种基于特征分析的粒子群聚类方法，在机器学习、数据挖掘、图像处理、模式识别等技术领域都面临需要对数据点聚类分析的问题。

背景技术

聚类是数据挖掘的重要内容，是无监督学习的重要方法。为此，产生了大量的聚类方法。在各种聚类优化方法中，基于进化计算的方法由于模拟自然界“物竞天择，适者生产”原则具有深刻的智能背景，越来越多地受到青睐。同为具有深刻智能背景的进化计算方法，粒子群优化(PSO)方法比遗传方法(GA)简单易于实现、收敛效率高，并且已经在聚类分析中展现了潜力，因此，在实际聚类问题特别是未知分布的复杂数据中得到了广泛的应用。

但是，在对线性不可分数据聚类时，粒子群聚类方法虽然能产生优于其它优化方法的聚类结果，但产生这种良好聚类效果的比率不高，它只能说明粒子群聚类方法有潜力，不具有实际应用意义。

图2示出了对于线性不可分数据环形数据(图2(a))聚类经典方法K-均值方法的结果(图2(b))，粒子群方法作为智能进化方法其典型结果如图2(c)，它们都不能得到将内环和外环分开的正确聚类结果。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种基于特征分析的粒子群聚类方法，使其能够在保持粒子群方法自身优点的基础上更进一步提高其聚类效果，特别是对于线性不可分数据的聚类效果。

(二)技术方案

为实现上述目的，本发明提供了一种基于特征分析的粒子群聚类方法，包括以下步骤：

步骤1：将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S}，求出特征点集{S}的非零特征值及其对应的特征向量；

步骤2：特征挑选，选取相应p个特征向量，将特征点集{S}变为点集{Y}；

步骤3：对点集{Y}进行数据处理，更新形成新的点集{Y}；

步骤4：对新的点集{Y}进行粒子群聚类。

上述方案中，步骤1中所述对投影到特征空间得到的特征点集{S}，应确保点集{S}具有零均值，采用的操作是对得到的核矩阵K按下式中心化处理：

其中，

是x_j经过核变换投影到核空间的特征点。

上述方案中，步骤2中所述的特征挑选，采用最值原则，抽取最大或最小的p个特征值对应的主分量，p的大小为聚类数目K。

上述方案中，步骤3中所述对点集{Y}进行数据处理，是对点集{Y}进行尺度变换或者加权处理。

上述方案中，所述对点集{Y}进行数据处理，具体包括：

如果点集{Y}中各数据点某一维的数值远大于1或者远小于1，则对该维进行相应的尺度压缩、拉伸变换；

如果点集{Y}中数据点各维数值范围差距过大，则对点集{Y}进行归一化操作。

上述方案中，步骤4中所述对新的点集{Y}进行粒子群聚类采用适应度函数

其中，C_i为第i个粒子，C_ij为第i个粒子中代表第j个聚类中心的分量，Y_n为样本集{Y}中所有属于第j个聚类的点。

上述方案中，步骤4中所述对新的点集{Y}进行粒子群聚类，具体包括：

输入：待聚类的特征点集聚类数目K；

输出：聚类划分的结果sub；

1)、用K个聚类的中心C作为问题的解

设定粒子数np，最大迭代步数maxstep，随机产生np个初始解C₀；

2)、根据当前位置，用适应度函数

计算适应值，设置当前适应值为个体极值pbestF，当前位置为个体极值位置pbestC，根据各个粒子的个体极值pbestF，找出全局极值gbestF和全局极值位置gbestC；

While(迭代次数＜maxstep)do

for j＝1：np；

3)、按V_id＝w*V_id+2*rand*(pbestC-y_id)+2*rand*(gbestC-y_id)更新自己的速度，并按把它限制在[-Vmax，Vmax]内；

4)、按y_id＝y_id+V_id更新自己的位置；

5)、根据当前位置，对特征点集Y的各个样本按最小距离原则分配给K个聚类中心；

6)、计算适应F，如果F(j)＜pbestF(j)，则pbestF(j)＝F(j)，pbestC(j)＝C(j)；

end

7)、比较pbestF，找出最小值作为全局极值，并更新全局极值位置。

8)、C0←C1

End。

(三)有益效果

本发明提供的这种基于特征分析的粒子群聚类方法，克服了当后续方法是非智能方法时必须手动挑选合适特征的麻烦。另外，本发明对变换到特征空间的点作出进一步处理，比如尺度变换、归一化处理等操作，有利于后续优化方法的应用。

附图说明

图1为本发明的聚类流程示意图；

图2为经典聚类方法K-均值、粒子群聚类(PSO)对线性不可分数据环形数据聚类遇到的困境，其中图2(a)表示待聚类的环形数据，图2(b)(c)分别为K-均值和粒子群聚类(PSO)的聚类结果，它们都不能正确聚类。

图3为本发明的KPCA-PSO方法、同为特征空间聚类的KPCA-KM方法对环形数据的聚类。其中：

图3(a)为环形数据；

图3(b)为本发明的KPCA-PSO方法聚类结果；

图3(c)为KPCA-KM方法当初始聚类中心良好的正确聚类；

图3(d)为KPCA-KM方法当初始聚类中心不好时的错误聚类结果。

图4为KPCA-PSO方法与几种基于Mercer核的聚类方法对更复杂的IRIS数据聚类的错误率，其中x轴的标号为7的方法为本发明的KPCA-PSO方法，标号为1-6对应的核方法为核k-均值(KKM)、核模糊聚类(KFCM)、核确定性退火(KDA)、核蚁群聚类(KCA)、核凝聚聚类、核可能性聚类(KPCM)。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出一种基于特征分析的粒子群聚类方法，包括以下步骤：首先采用核主分量分析(KPCA)方法将待聚类的数据点集映射到特征空间，并抽取主分量，形成新的特征空间的点集，实现将原空间的数据点集的聚类转换为对特征空间的新点集聚类。然后，使用具有智能进化特点的粒子群方法(PSO)对特征空间的点集聚类。由于粒子群方法本身就具有智能进化特点，在方法里又结合被证明有效的核主分量分析方法揭露数据的隐含特征，因此，聚类效果特别是对于线性不可分数据的聚类效果，比单纯的粒子群方法大大提高，也比单纯的用核主分量分析方法加上其它非智能方法如经典的K-均值方法即(KPCA-KM)效果好。

本发明中的核主分量分析(KPCA)步骤在抽取主分量时，采用的一种简便的处理方式，即最值抽取法，抽取最大或最小的K个特征值对应的主分量，K为聚类的数目。这样处理是因为：

(1)对应最值的特征值包含数据的主要的特征；

(2)如果手动挑选合适特征，过程十分繁琐费时，且不易推广方法应用；

(3)由于后续步骤是有智能进化特点的PSO方法，即使特征选取不是特别完美，也能得到比较好的结果，对特征选择具有一定的容错性。

以下结合图1所示的方法流程示意图说明本发明的聚类方法具体实施步骤：

步骤1、将样本空间待聚类的点集{X}通过核主分量分析(KPCA)方法投影到特征空间得到特征点集{S}，求出点集{S}的非零特征值及其对应的特征向量。

核主分量分析(KPCA)方法如下：

输入：样本集

选取特征向量个数p，选用核函数类型及其参数值；

输出：样本集X对应的特征空间点集

1)、构造N×N核矩阵K，

具体值由所选核函数确定；

2)、根据Kα＝λα，求特征值和特征向量；

3)、选取p个特征值和对应特征向量

并且使

α_{k}^{T} α_{k} = \frac{1}{λ_{k}}, k = 1,2, . . ., p;

4)、为抽取测试点x的主分量，计算投影

k＝1、2、...、p，其中α_k，j是特征向量α_k的第j个元素。

步骤2、运用最值原则，选取相应p个最大或最小的特征值对应的特征向量，p的大小为聚类数目K，具体选用最大还是最小根据样本集不同而区别；经过最值挑选后，特征点集{S}变为{Y}；

步骤3、为更好地实施后续聚类方法，对{Y}做相应的数据处理，比如尺度变换、归一化操作，然后更新{Y}集合；具体地，如果集合{Y}中各数据点某一维的数值远大于1或者远小于1，则对该维进行相应的尺度压缩、拉伸变换；如果{Y}中数据点各维数值范围差距过大，则进行归一化操作。

步骤4、对新的{Y}集合应用标准粒子群聚类方法(PSO)进行聚类，具体聚类方法包括：

输入：待聚类的特征点集聚类数目K；

输出：聚类划分的结果sub；

1)、用K个聚类的中心C作为问题的解

2)、根据当前位置，用适应度函数

While(迭代次数＜maxstep)do

for j＝1：np；

4)、按y_id＝y_id+V_id更新自己的位置；

end

8)、C0←C1

End。

实施例

人工环形数据(Ring data)，数据由两类圆形数据产生(半径分别为1，2)，每类有N＝51个样本组成，两类数据均加上了均值μ＝0，方差σ2＝0.001为高斯噪声.参见图3(a)，图3(b)为本发明提出的KPCA-PSO方法的典型结果，显然它能正确区分内环和外环数据点，优于图2(c)中的单纯的粒子群聚类(PSO)结果。图3(c)(d)为核主分量分析方法(KPCA)加上其它非智能方法(K-均值)的KPCA-KM方法的聚类结果，它受选取的初始聚类中心影响较大，当初始中心选取较好时就能正确聚类如图3(c)，反之得到错误聚类如图3(d)。实验结果显示，本发明提出的KPCA-PSO方法即优于单纯地应用进化方法PSO，也由于由核主分量分析(KPCA)结合其它的非进化智能方法(K-均值)得到的KPCA-KM方法。

实际数据(IRIS)，可以从UCI数据库获得。IRIS数据包含3类(IrisSetosa，Iris Versicolor and Iris Virginica)，每类50个点，数据点为4维(sepallength，sepal width，petal length，petal width)，其中一类与另外两类线性可分，后面两类互相不能线性区分。

表1

表1数据进一步证明了(1)本发明提出的KPCA-PSO方法能够有效地对线性不可分数据聚类(2)KPCA-PSO方法聚类效果优于经典非智能进化聚类方法(KM)、单纯使用智能进化方法(PSO)、使用核主分量分析(KPCA)与非智能进化方法(KM)结合(KPCA-KM)。

表2

为进一步测试本发明提出的KPCA-PSO方法性能，使之与目前存在的另一种处理线性不可分数据聚类技术即基于Mercer核函数的聚类方法的性能对比。由于它们都能处理简单的线性不可分数据，如环形数据，这已经被实验证明。因此，将它们在更复杂的数据IRIS上测试，所得结果如表2所示，显然本发明提出的方法具有明显的优越性。其错误率条形图如图4所示。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。