CN107169522A - 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 - Google Patents
一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 Download PDFInfo
- Publication number
- CN107169522A CN107169522A CN201710381950.7A CN201710381950A CN107169522A CN 107169522 A CN107169522 A CN 107169522A CN 201710381950 A CN201710381950 A CN 201710381950A CN 107169522 A CN107169522 A CN 107169522A
- Authority
- CN
- China
- Prior art keywords
- mrow
- cluster
- particle
- msub
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于粗糙集和粒子群算法的改进模糊C‑均值算法。本发明引入了粒子群优化算法的全局搜索性能来克服传统模糊聚类的过早收敛问题,利用粗糙集的模糊平衡属性来处理类簇间的重叠以及类簇边界的模型不确定性。本发明方法利用Davies‑Bouldin(DB)指数评价聚类有效性,在给定的类簇个数范围内自动寻找最优聚类数目,以提供紧凑且良好分隔的类簇。实验结果表明,所提出的方法显著提高了聚类效果。
Description
技术领域
本发明属于聚类算法领域,具体涉及一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法。
背景技术
聚类是将一个同类对象组群划分为子集的过程,每个子集称为一个簇,同一个簇中的对象之间具有较高的相似度,不同簇中的对象差别较大。聚类技术已被广泛应用于数据挖掘,模式识别和机器学习。为处理这些随机分布的数据集,将软计算中引入了聚类,它利用不精确性和不确定性实现算法的可追踪性和鲁棒性,相应的模糊集和粗糙集也被引入到C均值体系中并衍生出模糊C均值(FCM)和粗糙C均值(RCM)算法。
模糊算法可以将数据对象分配到多个聚类并处理重叠聚类。模糊聚类中隶属度取决于数据对象对聚类中心的贴近度。最流行的模糊聚类算法是由Bezdek提出的FCM,现仍广泛使用。FCM是一种有效的算法,但其中心点的随机选择使迭代过程容易陷入鞍点或者局部最优解。此外,如果数据集包含严重的噪声点,或如果数据集是高维的,交替优化往往无法找到全局最优解。在这种情况下,通过采用随机的方法就可以提高找到全局最优的概率。为了克服FCM的缺点,粗糙集的概念被引入算法,通过消除对聚类结构带来负面影响的坏点来提高新原型的迭代效率,与FCM相比,粗糙C均值算法处理类簇边缘数据的能力有所提高;而为了解决FCM早熟的问题,粒子群算法(PSO)也被引入,利用其全局搜索能力寻找更为合适的聚类中心。
此外,虽然已有较多基于FCM、PSO或粗糙集的聚类算法,但是这些算法大多需要输入预估聚类的数目C。在一个给定的数据集合中为获得理想的聚类结果,通常需要手动设置C的值,但这是一个非常主观和随意的过程。因此,我们希望找到在给定聚类数量范围内C的最佳取值,通过考虑簇内紧凑性、簇间分散性以及降低对初始值的敏感程度,以便获得合理的聚类分割。本发明提出了一种改进的算法RP-FCM,它集成了PSO算法的优点,迭代时运用了粗糙集的特性,并可以快速地自动估计最佳聚类数目。
发明内容
本发明的目的在于提供一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法,本发明利用粒子群优化算法的全局搜索能力来克服传统模糊聚类的过早收敛问题,利用粗糙集模糊平衡属性来处理类簇间的重叠以及类簇边界的模型不确定性,利用DB指数评价聚类的有效性,在给定的类簇数量范围内自动寻找最优聚类数目,以提供紧凑且良好分隔的类簇。
本发明提出的一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法,具体步骤如下:
(1)初始化设定参数:给定聚类数量范围[Cmin,Cmax],令初始聚类数量C=Cmax,选取两个计数器,第一计数器的叠代次数k,第二计数器的叠代次数t,PSO的最大迭代次数T;
(2)初始化设定参数:根据PSO,给定粒子数量L,粒子最初速度V,粒子最初位置P,第一计数器的加速系数c1,第二计数器的加速系数c2,惯性常数w,聚类基数阈值ε和损耗率ρ;
(3)初始化设定参数:设定模糊集上近似的权重ωup,下近似的权重ωlow,且ωup+ωlow=1,模糊隶属度的加权指数m,阈值σ;
(4)根据步骤(1)-步骤(3)设定的参数,选取第二计数器,通过计算划分矩阵、聚类中心、适应度值、个体极值、全局极值,以及更新每个粒子的速度和位置,重复步骤(4.1)-(4.7)看其是否达到PSO算法的终止条件;
(4.1)计算所有待分类粒子的划分矩阵U(k);
U=[uij]N×C为隶属度矩阵,
其中:uij∈[0,1]表示数据对象xi关于聚类βj的隶属程度,xi,βj∈RV,V是数据的维数,1≤i≤N和1≤j≤C,dij=d(xi,βj)是数据向量xi到聚类中心βj的欧氏距离即 dij=||xi-βj||;
(4.2)计算所有待分类粒子的聚类中心:
其中:ukj表示粒子xk关于聚类βj的隶属程度,C j表示类Cj的下近似集合。代表Cj的边界区域集合;
(4.3)计算每个粒子的适应度值F;
其中:uij∈[0,1]表示数据对象xi关于聚类βj的隶属程度;
(4.4)计算每个粒子的个体极值pbest;
(4.5)计算群的全局极值gbest;
(4.6)根据PSO算法中每个粒子的个体极值,群的全局极值,并更新每个粒子的速度和位置V(t+1)=wV(t)+c1r1(pbest(t)-P(t))+c2r2(gbest(t)-P(t))和P(t+1)=P(t)+V(t+1);
其中:粒子t时刻的速度V(t),位置P(t),第一加速器加速系数c1,第二加速器加速系数c2,惯性常数w;r1,r2是[0,1]之间的常数;
(4.7)令t=t+1;
(5)根据步骤(4)会出现达到PSO算法的终止条件和未达到PSO算法的终止条件两种情况;
(5.1)当t≥T(达到最大迭代次数)或者经过多次迭代后更新速度接近于0,则符合达到PSO算法的终止条件,则进入步骤(5.1.1)-(5.1.8);
(5.1.1)重新计算每个粒子的聚类中心βj;
(5.1.2)重置第j个聚类的uij(1≤i≤N);
(5.1.3)令ujk表示对象xk到所有类的最大隶属度,ubk表示对象xk到所有类的次大隶属度,如果ubk-ujk≤σ,那么并且否则xk∈C j;
(5.1.4)根据Mj=card{uij|uik-ujk>σ},计算每个聚类的基数Mj(1≤j≤C);
(5.1.5)删除所有Mj<ε且Mj≤最低基数的聚类;
(5.1.6)更新聚类数量C;
(5.1.7)计算聚类有效性指数
(5.1.8)更新计数器k=k+1;
(5.1.8)当算法运行终止后,选择对应最佳聚类数量C、有效性指数SDB、矩阵B和U作为最终的聚类原型划分结果;
(5.2)对于未达到PSO算法的终止条件,则重复步骤(4),直至在一定阈值δ内向量B中的原型参数趋于稳定;或聚类数量达到最低Cmin,则结束。
本发明中,如果则令它等于1。这意味着具有最小基数的聚类可被移除。最开始Cmax个聚类的中心可以通过进行初始化。算法运行终止后,选择对应最佳聚类有效性指数SDB的C(其中C∈[Cmin,Cmax])、矩阵B和U作为最终的聚类原型划分结果。
本发明的优点在于能够可以自动寻找最优聚类数目,自动地组织各种数据集并获取准确的分类。
附图说明
图1为本发明流程图;
图2为实施例1的GDS2712酵母基因表达数据集聚类数目C和DB有效性指标间的关系。
具体实施方式
实施例1:以酵母基因表达数据集GDS2712为例,其簇和样本数量分别为15和9275。算法如下:
1)初始化:Cmin=10,Cmax=96,令C=Cmax,计数器k=0,t=0,PSO的最大迭代次数 T=80,并采用规则C≤N1/2。
2)初始化:粒子数量L=20,令参数c1=1.49,c2=1.49,w=0.72,集群基数阈值ε=20,损耗率ρ=0.08。
3)初始化:ωup=0.9,ωlow=0.1,模糊因子m=2,阈值σ=0.28;
4)在未达到终止条件之前重复以下操作:
a.计算所有粒子的划分矩阵U(k);
b.计算每个粒子的聚类中心βj;
c.计算每个粒子的适应度值F;
d.计算每个粒子的个体极值pbest;
e.计算群的全局极值gbest;
f.更新每个粒子的速度和位置;
g.令t=t+1;
5)接下来有如下两种情况
情况一:达到PSO算法的终止条件(*)
1.重新计算每个粒子的聚类中心βj;
2.重置第j个聚类的uij(1≤i≤N);
3.令ujk表示对象xk到所有类的最大隶属度,ubk表示对象xk到所有类的次大隶属度,如果ubk-ujk≤σ,那么并且否则xk∈C j;
4.计算每个聚类的基数Mj(1≤j≤C);
5.删除所有Mj<ε且Mj≤最低基数的聚类;
6.更新聚类数量C;
7.计算聚类有效性指数SDB(c);
8.更新计数器k=k+1;
情况二:没有达到终止条件(**)
(*)在该方法中PSO的终止条件是t≥T(达到最大迭代次数)或者经过多次迭代后速度更新接近于0;
(**)在以下任意情况下算法可以停止:
1.在一定阈值δ内向量B中原型参数趋于稳定;
2.聚类数量达到最低Cmin。
这里需要注意的是,如果我们让它等于1。这意味着具有最小基数的聚类可能被移除。最开始Cmax个聚类的中心可以通过进行初始化。算法运行终止后, 选择对应最佳聚类有效性指数SDB的C(其中C∈[Cmin,Cmax])、矩阵B和U作为最终的聚类原型划分结果。
通过以上步骤的计算,在每一个周期,我们得到每个集群分布,根据它们的基数去除一部分聚类,计算DB指标并聚类数C从Cmax变化到Cmin。在结束循环后,选择DB最低值的划分作为最终结果。如附图1所示,对于GDS2712,从C=96降低到C=20需要24次迭代,从C =20降低到C=15需要6次迭代,当聚类数C<15时DB指标开始上升。
在设定数据集GDS2712的最佳聚类数C之后,表1列出了不同算法的有效性指数。从表格中可以发现RP-FCM和SRCM取得较为一致的效果,且优于其他聚类算法。其原因为 PSO的全局搜索能力有利于找到更合适的聚类中心,而且避免了算法过早收敛于局部最优值。
表1针对酵母基因表达数据集算法FCM,RCM,SCM,SRCM和RP-FCM的性能对比
Claims (2)
1.一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法,其特征在于具体步骤如下:
(1)初始化设定参数:给定聚类数量范围[Cmin,Cmax],令初始聚类数量C=Cmax,选取两个计数器,第一计数器的叠代次数k,第二计数器的叠代次数t,PSO的最大迭代次数T;
(2)初始化设定参数:根据PSO,给定粒子数量L,粒子最初速度V,粒子最初位置P,第一计数器的加速系数c1,第二计数器的加速系数c2,惯性常数w,聚类基数阈值ε和损耗率ρ;
(3)初始化设定参数:设定模糊集上近似的权重ωup,下近似的权重ωlow,且ωup+ωlow=1,模糊隶属度的加权指数m,阈值σ;
(4)根据步骤(1)-步骤(3)设定的参数,选取第二计数器,通过计算划分矩阵、聚类中心、适应度值、个体极值、全局极值,以及更新每个粒子的速度和位置,重复步骤(4.1)-(4.7)看其是否达到PSO算法的终止条件;
(4.1)计算所有待分类粒子的划分矩阵U(k);
U=[uij]N×C为隶属度矩阵,
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>&beta;</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>2</mn>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
其中:uij∈[0,1]表示数据对象xi关于聚类βj的隶属程度,xi,βj∈RP,N是数据的维数,1≤i≤N和1≤j≤C,dij=d(xi,βj)是数据向量xi到聚类中心βj的欧氏距离即dij=||xi-βj||;
(4.2)计算所有待分类粒子的聚类中心:
其中:ukj表示粒子xk关于聚类βj的隶属程度,C j表示类Cj的下近似集合;代表Cj的边界区域集合;
(4.3)计算每个粒子的适应度值F;
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mi>m</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&beta;</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中:uij∈[0,1]表示数据对象xi关于聚类βj的隶属程度;
(4.4)计算每个粒子的个体极值pbest;
(4.5)计算群的全局极值gbest;
(4.6)根据PSO算法中每个粒子的个体极值,群的全局极值,并更新每个粒子的速度和位置V(t+1)=wV(t)+c1r1(pbest(t)-P(t))+c2r2(gbest(t)-P(t))和P(t+1)=P(t)+V(t+1);
其中:粒子t时刻的速度V(t),位置P(t),第一加速器加速系数c1,第二加速器加速系数c2,惯性常数w;r1,r2是[0,1]之间的常数;
(4.7)令t=t+1;
(5)根据步骤(4)会出现达到PSO算法的终止条件和未达到PSO算法的终止条件两种情况;
(5.1)当t≥T(达到最大迭代次数)或者经过多次迭代后更新速度接近于0,则符合达到PSO算法的终止条件,则进入步骤(5.1.1)-(5.1.8);
(5.1.1)重新计算每个粒子的聚类中心βj;
(5.1.2)重置第j个聚类的uij(1≤i≤N);
(5.1.3)令ujk表示对象xk到所有类的最大隶属度,ubk表示对象xk到所有类的次大隶属度,如果ubk-ujk≤σ,那么并且否则xk∈Cj;
(5.1.4)根据Mj=card{uij|uik-ujk>σ},计算每个聚类的基数Mj(1≤j≤C);
(5.1.5)删除所有Mj<ε且Mj≤最低基数的聚类;
(5.1.6)更新聚类数量C;
(5.1.7)计算聚类有效性指数
(5.1.8)更新计数器k=k+1;
(5.1.8)当算法运行终止后,选择对应最佳聚类数量C、有效性指数SDB、矩阵B和U作为最终的聚类原型划分结果;
(5.2)对于未达到PSO算法的终止条件,则重复步骤(4),直至在一定阈值δ内向量B中的原型参数趋于稳定;或聚类数量达到最低Cmin,则结束。
2.根据权利要求1所述的方法,其特征在于如果则令它等于1;这意味着具有最小基数的聚类可被移除;最开始Cmax个聚类的中心可以通过进行初始化;算法运行终止后,选择对应最佳聚类有效性指数SDB的C(其中C∈[Cmin,Cmax])、矩阵B和U作为最终的聚类原型划分结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710381950.7A CN107169522A (zh) | 2017-05-26 | 2017-05-26 | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710381950.7A CN107169522A (zh) | 2017-05-26 | 2017-05-26 | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107169522A true CN107169522A (zh) | 2017-09-15 |
Family
ID=59820852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710381950.7A Pending CN107169522A (zh) | 2017-05-26 | 2017-05-26 | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169522A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804661A (zh) * | 2018-06-06 | 2018-11-13 | 湘潭大学 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
CN109816034A (zh) * | 2019-01-31 | 2019-05-28 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN110677864A (zh) * | 2019-10-12 | 2020-01-10 | 长春工业大学 | 基于无线传感器网络的能量约束模糊c-均值聚类方法 |
-
2017
- 2017-05-26 CN CN201710381950.7A patent/CN107169522A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804661A (zh) * | 2018-06-06 | 2018-11-13 | 湘潭大学 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
CN108804661B (zh) * | 2018-06-06 | 2023-04-28 | 湘潭大学 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
CN109816034A (zh) * | 2019-01-31 | 2019-05-28 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN110677864A (zh) * | 2019-10-12 | 2020-01-10 | 长春工业大学 | 基于无线传感器网络的能量约束模糊c-均值聚类方法 |
CN110677864B (zh) * | 2019-10-12 | 2023-02-28 | 长春工业大学 | 基于无线传感器网络的能量约束模糊c-均值聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN104992191B (zh) | 基于深度学习的特征和最大置信路径的图像分类方法 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN108614997B (zh) | 一种基于改进AlexNet的遥感图像识别方法 | |
CN107220977B (zh) | 基于模糊聚类的有效性指标的图像分割方法 | |
CN112001218B (zh) | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 | |
CN109409400A (zh) | 基于k近邻和多类合并密度峰值聚类方法、图像分割系统 | |
CN110266672B (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
CN101853389A (zh) | 多类目标的检测装置及检测方法 | |
CN107169522A (zh) | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN106845536B (zh) | 一种基于图像缩放的并行聚类方法 | |
CN107301430A (zh) | 广义多变量模糊c均值聚类算法 | |
CN109726749A (zh) | 一种基于多属性决策的最优聚类算法选择方法和装置 | |
CN104217015A (zh) | 基于互为共享最近邻的层次聚类方法 | |
CN109002858A (zh) | 一种用于用户行为分析的基于证据推理的集成聚类方法 | |
CN102902976A (zh) | 一种基于目标及其空间关系特性的图像场景分类方法 | |
Wang et al. | An improving majority weighted minority oversampling technique for imbalanced classification problem | |
CN114386466B (zh) | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 | |
CN104182511B (zh) | 一种簇特征加权的模糊紧致散布聚类方法 | |
CN107564010A (zh) | 一种结合贝叶斯分类与SLIC的Grabcut彩色图像分割方法 | |
CN110781943A (zh) | 一种基于毗邻网格搜索的聚类方法 | |
CN105787505A (zh) | 一种结合稀疏编码和空间约束的红外图像聚类分割方法 | |
Guoli et al. | The improved research on k-means clustering algorithm in initial values | |
CN105403862B (zh) | 一种基于证据c均值的雷达信号类别分选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170915 |