CN101894294A - 一种基于特征分析的粒子群聚类方法 - Google Patents
一种基于特征分析的粒子群聚类方法 Download PDFInfo
- Publication number
- CN101894294A CN101894294A CN2009100841612A CN200910084161A CN101894294A CN 101894294 A CN101894294 A CN 101894294A CN 2009100841612 A CN2009100841612 A CN 2009100841612A CN 200910084161 A CN200910084161 A CN 200910084161A CN 101894294 A CN101894294 A CN 101894294A
- Authority
- CN
- China
- Prior art keywords
- point set
- feature
- cluster
- carries out
- particle swarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于特征分析的粒子群聚类方法,包括以下步骤:步骤1:将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;步骤2:特征挑选,选取相应p个特征向量,将特征点集{S}变为点集{Y};步骤3:对点集{Y}进行数据处理,更新形成新的点集{Y};步骤4:对新的点集{Y}进行粒子群聚类。本发明克服了当后续方法是非智能方法时必须手动挑选合适特征的麻烦。另外,本发明对变换到特征空间的点作出进一步处理,比如尺度变换、归一化处理等操作,有利于后续优化方法的应用。
Description
技术领域
本发明涉及数据点聚类分析技术领域,尤其涉及一种基于特征分析的粒子群聚类方法,在机器学习、数据挖掘、图像处理、模式识别等技术领域都面临需要对数据点聚类分析的问题。
背景技术
聚类是数据挖掘的重要内容,是无监督学习的重要方法。为此,产生了大量的聚类方法。在各种聚类优化方法中,基于进化计算的方法由于模拟自然界“物竞天择,适者生产”原则具有深刻的智能背景,越来越多地受到青睐。同为具有深刻智能背景的进化计算方法,粒子群优化(PSO)方法比遗传方法(GA)简单易于实现、收敛效率高,并且已经在聚类分析中展现了潜力,因此,在实际聚类问题特别是未知分布的复杂数据中得到了广泛的应用。
但是,在对线性不可分数据聚类时,粒子群聚类方法虽然能产生优于其它优化方法的聚类结果,但产生这种良好聚类效果的比率不高,它只能说明粒子群聚类方法有潜力,不具有实际应用意义。
图2示出了对于线性不可分数据环形数据(图2(a))聚类经典方法K-均值方法的结果(图2(b)),粒子群方法作为智能进化方法其典型结果如图2(c),它们都不能得到将内环和外环分开的正确聚类结果。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种基于特征分析的粒子群聚类方法,使其能够在保持粒子群方法自身优点的基础上更进一步提高其聚类效果,特别是对于线性不可分数据的聚类效果。
(二)技术方案
为实现上述目的,本发明提供了一种基于特征分析的粒子群聚类方法,包括以下步骤:
步骤1:将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;
步骤2:特征挑选,选取相应p个特征向量,将特征点集{S}变为点集{Y};
步骤3:对点集{Y}进行数据处理,更新形成新的点集{Y};
步骤4:对新的点集{Y}进行粒子群聚类。
上述方案中,步骤2中所述的特征挑选,采用最值原则,抽取最大或最小的p个特征值对应的主分量,p的大小为聚类数目K。
上述方案中,步骤3中所述对点集{Y}进行数据处理,是对点集{Y}进行尺度变换或者加权处理。
上述方案中,所述对点集{Y}进行数据处理,具体包括:
如果点集{Y}中各数据点某一维的数值远大于1或者远小于1,则对该维进行相应的尺度压缩、拉伸变换;
如果点集{Y}中数据点各维数值范围差距过大,则对点集{Y}进行归一化操作。
其中,Ci为第i个粒子,Cij为第i个粒子中代表第j个聚类中心的分量,Yn为样本集{Y}中所有属于第j个聚类的点。
上述方案中,步骤4中所述对新的点集{Y}进行粒子群聚类,具体包括:
输入:待聚类的特征点集聚类数目K;
输出:聚类划分的结果sub;
2)、根据当前位置,用适应度函数计算适应值,设置当前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体极值pbestF,找出全局极值gbestF和全局极值位置gbestC;
While(迭代次数<maxstep)do
for j=1:np;
3)、按Vid=w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度,并按把它限制在[-Vmax,Vmax]内;
4)、按yid=yid+Vid更新自己的位置;
5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中心;
6)、计算适应F,如果F(j)<pbestF(j),则pbestF(j)=F(j),pbestC(j)=C(j);
end
7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。
8)、C0←C1
End。
(三)有益效果
本发明提供的这种基于特征分析的粒子群聚类方法,克服了当后续方法是非智能方法时必须手动挑选合适特征的麻烦。另外,本发明对变换到特征空间的点作出进一步处理,比如尺度变换、归一化处理等操作,有利于后续优化方法的应用。
附图说明
图1为本发明的聚类流程示意图;
图2为经典聚类方法K-均值、粒子群聚类(PSO)对线性不可分数据环形数据聚类遇到的困境,其中图2(a)表示待聚类的环形数据,图2(b)(c)分别为K-均值和粒子群聚类(PSO)的聚类结果,它们都不能正确聚类。
图3为本发明的KPCA-PSO方法、同为特征空间聚类的KPCA-KM方法对环形数据的聚类。其中:
图3(a)为环形数据;
图3(b)为本发明的KPCA-PSO方法聚类结果;
图3(c)为KPCA-KM方法当初始聚类中心良好的正确聚类;
图3(d)为KPCA-KM方法当初始聚类中心不好时的错误聚类结果。
图4为KPCA-PSO方法与几种基于Mercer核的聚类方法对更复杂的IRIS数据聚类的错误率,其中x轴的标号为7的方法为本发明的KPCA-PSO方法,标号为1-6对应的核方法为核k-均值(KKM)、核模糊聚类(KFCM)、核确定性退火(KDA)、核蚁群聚类(KCA)、核凝聚聚类、核可能性聚类(KPCM)。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出一种基于特征分析的粒子群聚类方法,包括以下步骤:首先采用核主分量分析(KPCA)方法将待聚类的数据点集映射到特征空间,并抽取主分量,形成新的特征空间的点集,实现将原空间的数据点集的聚类转换为对特征空间的新点集聚类。然后,使用具有智能进化特点的粒子群方法(PSO)对特征空间的点集聚类。由于粒子群方法本身就具有智能进化特点,在方法里又结合被证明有效的核主分量分析方法揭露数据的隐含特征,因此,聚类效果特别是对于线性不可分数据的聚类效果,比单纯的粒子群方法大大提高,也比单纯的用核主分量分析方法加上其它非智能方法如经典的K-均值方法即(KPCA-KM)效果好。
本发明中的核主分量分析(KPCA)步骤在抽取主分量时,采用的一种简便的处理方式,即最值抽取法,抽取最大或最小的K个特征值对应的主分量,K为聚类的数目。这样处理是因为:
(1)对应最值的特征值包含数据的主要的特征;
(2)如果手动挑选合适特征,过程十分繁琐费时,且不易推广方法应用;
(3)由于后续步骤是有智能进化特点的PSO方法,即使特征选取不是特别完美,也能得到比较好的结果,对特征选择具有一定的容错性。
以下结合图1所示的方法流程示意图说明本发明的聚类方法具体实施步骤:
步骤1、将样本空间待聚类的点集{X}通过核主分量分析(KPCA)方法投影到特征空间得到特征点集{S},求出点集{S}的非零特征值及其对应的特征向量。
核主分量分析(KPCA)方法如下:
2)、根据Kα=λα,求特征值和特征向量;
步骤2、运用最值原则,选取相应p个最大或最小的特征值对应的特征向量,p的大小为聚类数目K,具体选用最大还是最小根据样本集不同而区别;经过最值挑选后,特征点集{S}变为{Y};
步骤3、为更好地实施后续聚类方法,对{Y}做相应的数据处理,比如尺度变换、归一化操作,然后更新{Y}集合;具体地,如果集合{Y}中各数据点某一维的数值远大于1或者远小于1,则对该维进行相应的尺度压缩、拉伸变换;如果{Y}中数据点各维数值范围差距过大,则进行归一化操作。
步骤4、对新的{Y}集合应用标准粒子群聚类方法(PSO)进行聚类,具体聚类方法包括:
输入:待聚类的特征点集聚类数目K;
输出:聚类划分的结果sub;
2)、根据当前位置,用适应度函数计算适应值,设置当前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体极值pbestF,找出全局极值gbestF和全局极值位置gbestC;
While(迭代次数<maxstep)do
for j=1:np;
3)、按Vid=w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度,并按把它限制在[-Vmax,Vmax]内;
4)、按yid=yid+Vid更新自己的位置;
5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中心;
6)、计算适应F,如果F(j)<pbestF(j),则pbestF(j)=F(j),pbestC(j)=C(j);
end
7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。
8)、C0←C1
End。
实施例
人工环形数据(Ring data),数据由两类圆形数据产生(半径分别为1,2),每类有N=51个样本组成,两类数据均加上了均值μ=0,方差σ2=0.001为高斯噪声.参见图3(a),图3(b)为本发明提出的KPCA-PSO方法的典型结果,显然它能正确区分内环和外环数据点,优于图2(c)中的单纯的粒子群聚类(PSO)结果。图3(c)(d)为核主分量分析方法(KPCA)加上其它非智能方法(K-均值)的KPCA-KM方法的聚类结果,它受选取的初始聚类中心影响较大,当初始中心选取较好时就能正确聚类如图3(c),反之得到错误聚类如图3(d)。实验结果显示,本发明提出的KPCA-PSO方法即优于单纯地应用进化方法PSO,也由于由核主分量分析(KPCA)结合其它的非进化智能方法(K-均值)得到的KPCA-KM方法。
实际数据(IRIS),可以从UCI数据库获得。IRIS数据包含3类(IrisSetosa,Iris Versicolor and Iris Virginica),每类50个点,数据点为4维(sepallength,sepal width,petal length,petal width),其中一类与另外两类线性可分,后面两类互相不能线性区分。
表1
表1数据进一步证明了(1)本发明提出的KPCA-PSO方法能够有效地对线性不可分数据聚类(2)KPCA-PSO方法聚类效果优于经典非智能进化聚类方法(KM)、单纯使用智能进化方法(PSO)、使用核主分量分析(KPCA)与非智能进化方法(KM)结合(KPCA-KM)。
表2
为进一步测试本发明提出的KPCA-PSO方法性能,使之与目前存在的另一种处理线性不可分数据聚类技术即基于Mercer核函数的聚类方法的性能对比。由于它们都能处理简单的线性不可分数据,如环形数据,这已经被实验证明。因此,将它们在更复杂的数据IRIS上测试,所得结果如表2所示,显然本发明提出的方法具有明显的优越性。其错误率条形图如图4所示。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于特征分析的粒子群聚类方法,其特征在于,包括以下步骤:
步骤1:将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;
步骤2:特征挑选,选取相应p个特征向量,将特征点集{S}变为点集{Y};
步骤3:对点集{Y}进行数据处理,更新形成新的点集{Y};
步骤4:对新的点集{Y}进行粒子群聚类。
3.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤2中所述的特征挑选,采用最值原则,抽取最大或最小的p个特征值对应的主分量,p的大小为聚类数目K。
4.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤3中所述对点集{Y}进行数据处理,是对点集{Y}进行尺度变换或者归一化处理。
5.根据权利4所述的基于特征分析的粒子群聚类方法,其特征在于,所述对点集{Y}进行数据处理,具体包括:
如果点集{Y}中各数据点某一维的数值远大于1或者远小于1,则对该维进行相应的尺度压缩、拉伸变换;
如果点集{Y}中数据点各维数值范围差距过大,则对点集{Y}进行归一化操作。
6.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤4中所述对新的点集{Y}进行粒子群聚类采用适应度函数
其中,Ci为第i个粒子,Cij为第i个粒子中代表第j个聚类中心的分量,Yn为样本集{Y}中所有属于第j个聚类的点。
7.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤4中所述对新的点集{Y}进行粒子群聚类,具体包括:
输出:聚类划分的结果sub;
2)、根据当前位置,用适应度函数计算适应值,设置当前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体极值pbestF,找出全局极值gbestF和全局极值位置gbestC;
While(迭代次数<maxstep)do
for j=1:np;
3)、按Vid=w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度,并按把它限制在[-Vmax,Vmax]内;
4)、按yid=yid+Vid更新自己的位置;
5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中心;
6)、计算适应F,如果F(j)<pbestF(j),则pbestF(j)=F(j),pbestC(j)=C(j);
end
7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。
8)、C0←C1
End。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100841612A CN101894294A (zh) | 2009-05-20 | 2009-05-20 | 一种基于特征分析的粒子群聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100841612A CN101894294A (zh) | 2009-05-20 | 2009-05-20 | 一种基于特征分析的粒子群聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101894294A true CN101894294A (zh) | 2010-11-24 |
Family
ID=43103481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100841612A Pending CN101894294A (zh) | 2009-05-20 | 2009-05-20 | 一种基于特征分析的粒子群聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101894294A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN102855440A (zh) * | 2012-09-13 | 2013-01-02 | 北京奇虎科技有限公司 | 一种检测加壳可执行文件的方法、装置和系统 |
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
CN105512458A (zh) * | 2015-11-24 | 2016-04-20 | 中国石油天然气股份有限公司 | 缝洞型碳酸盐岩油藏衰竭开采特征的综合分析方法及装置 |
CN109856530A (zh) * | 2018-12-25 | 2019-06-07 | 国网江苏省电力有限公司南京供电分公司 | 一种有载分接开关在线监测故障诊断方法 |
CN113468988A (zh) * | 2021-06-18 | 2021-10-01 | 南京润楠医疗电子研究院有限公司 | 一种基于ecg信号的多压力状态下身份识别方法 |
-
2009
- 2009-05-20 CN CN2009100841612A patent/CN101894294A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831474A (zh) * | 2012-08-06 | 2012-12-19 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN102831474B (zh) * | 2012-08-06 | 2015-04-22 | 江南大学 | 基于量子粒子群优化改进的模糊c-均值聚类方法 |
CN102855440A (zh) * | 2012-09-13 | 2013-01-02 | 北京奇虎科技有限公司 | 一种检测加壳可执行文件的方法、装置和系统 |
CN102855440B (zh) * | 2012-09-13 | 2015-09-02 | 北京奇虎科技有限公司 | 一种检测加壳可执行文件的方法、装置和系统 |
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
CN105512458A (zh) * | 2015-11-24 | 2016-04-20 | 中国石油天然气股份有限公司 | 缝洞型碳酸盐岩油藏衰竭开采特征的综合分析方法及装置 |
CN109856530A (zh) * | 2018-12-25 | 2019-06-07 | 国网江苏省电力有限公司南京供电分公司 | 一种有载分接开关在线监测故障诊断方法 |
CN109856530B (zh) * | 2018-12-25 | 2021-11-02 | 国网江苏省电力有限公司南京供电分公司 | 一种有载分接开关在线监测故障诊断方法 |
CN113468988A (zh) * | 2021-06-18 | 2021-10-01 | 南京润楠医疗电子研究院有限公司 | 一种基于ecg信号的多压力状态下身份识别方法 |
CN113468988B (zh) * | 2021-06-18 | 2024-04-05 | 南京润楠医疗电子研究院有限公司 | 一种基于ecg信号的多压力状态下身份识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN101894294A (zh) | 一种基于特征分析的粒子群聚类方法 | |
CN102346829B (zh) | 基于集成分类的病毒检测方法 | |
CN109376772B (zh) | 一种基于神经网络模型的电力负荷组合预测方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN104142918A (zh) | 基于tf-idf特征的短文本聚类以及热点主题提取方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN101833667A (zh) | 一种基于分组稀疏表示的模式识别分类方法 | |
CN111143567B (zh) | 一种基于改进神经网络的评论情感分析方法 | |
CN101295362A (zh) | 结合支持向量机以及近邻法的模式分类方法 | |
CN113541834B (zh) | 一种异常信号半监督分类方法、系统、数据处理终端 | |
Wang et al. | Application research of ensemble learning frameworks | |
CN108763344B (zh) | 基于信息增益与最大相关最小冗余二阶段特征选择方法 | |
CN117076871B (zh) | 一种基于不平衡半监督对抗训练框架的电池故障分类方法 | |
CN114676431A (zh) | 一种基于api增强顺序的安卓恶意代码检测方法 | |
CN106971005A (zh) | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 | |
CN102609718A (zh) | 一种结合不同聚类算法生成视觉字典集体的方法 | |
CN108537279A (zh) | 基于改进Adaboost算法的数据源分类器构建方法 | |
Windeatt et al. | An empirical comparison of pruning methods for ensemble classifiers | |
CN104657949A (zh) | 一种煤泥浮选泡沫图像去噪中结构元素优化的方法 | |
CN110109904B (zh) | 一种面向环保大数据的水质软测量方法 | |
CN114238062B (zh) | 板卡烧录装置性能分析方法、装置、设备及可读存储介质 | |
CN105825240A (zh) | 一种基于ap聚类词袋建模的行为识别方法 | |
CN115066019A (zh) | 一种基于梯度掩膜的智能波束选择性能提升方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101124 |