CN107169522A

CN107169522A - 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法

Info

Publication number: CN107169522A
Application number: CN201710381950.7A
Authority: CN
Inventors: 张剑; 徐立云; 朱芳来; 张苗苗; 王云倩
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-09-15

Abstract

本发明涉及一种基于粗糙集和粒子群算法的改进模糊C‑均值算法。本发明引入了粒子群优化算法的全局搜索性能来克服传统模糊聚类的过早收敛问题，利用粗糙集的模糊平衡属性来处理类簇间的重叠以及类簇边界的模型不确定性。本发明方法利用Davies‑Bouldin(DB)指数评价聚类有效性，在给定的类簇个数范围内自动寻找最优聚类数目，以提供紧凑且良好分隔的类簇。实验结果表明，所提出的方法显著提高了聚类效果。

Description

一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法

技术领域

本发明属于聚类算法领域，具体涉及一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法。

背景技术

聚类是将一个同类对象组群划分为子集的过程，每个子集称为一个簇，同一个簇中的对象之间具有较高的相似度，不同簇中的对象差别较大。聚类技术已被广泛应用于数据挖掘，模式识别和机器学习。为处理这些随机分布的数据集，将软计算中引入了聚类，它利用不精确性和不确定性实现算法的可追踪性和鲁棒性，相应的模糊集和粗糙集也被引入到C均值体系中并衍生出模糊C均值(FCM)和粗糙C均值(RCM)算法。

模糊算法可以将数据对象分配到多个聚类并处理重叠聚类。模糊聚类中隶属度取决于数据对象对聚类中心的贴近度。最流行的模糊聚类算法是由Bezdek提出的FCM，现仍广泛使用。FCM是一种有效的算法，但其中心点的随机选择使迭代过程容易陷入鞍点或者局部最优解。此外，如果数据集包含严重的噪声点，或如果数据集是高维的，交替优化往往无法找到全局最优解。在这种情况下，通过采用随机的方法就可以提高找到全局最优的概率。为了克服FCM的缺点，粗糙集的概念被引入算法，通过消除对聚类结构带来负面影响的坏点来提高新原型的迭代效率，与FCM相比，粗糙C均值算法处理类簇边缘数据的能力有所提高；而为了解决FCM早熟的问题，粒子群算法(PSO)也被引入，利用其全局搜索能力寻找更为合适的聚类中心。

此外，虽然已有较多基于FCM、PSO或粗糙集的聚类算法，但是这些算法大多需要输入预估聚类的数目C。在一个给定的数据集合中为获得理想的聚类结果，通常需要手动设置C的值，但这是一个非常主观和随意的过程。因此，我们希望找到在给定聚类数量范围内C的最佳取值，通过考虑簇内紧凑性、簇间分散性以及降低对初始值的敏感程度，以便获得合理的聚类分割。本发明提出了一种改进的算法RP-FCM，它集成了PSO算法的优点，迭代时运用了粗糙集的特性，并可以快速地自动估计最佳聚类数目。

发明内容

本发明的目的在于提供一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法，本发明利用粒子群优化算法的全局搜索能力来克服传统模糊聚类的过早收敛问题，利用粗糙集模糊平衡属性来处理类簇间的重叠以及类簇边界的模型不确定性，利用DB指数评价聚类的有效性，在给定的类簇数量范围内自动寻找最优聚类数目，以提供紧凑且良好分隔的类簇。

本发明提出的一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法，具体步骤如下：

(1)初始化设定参数：给定聚类数量范围[C_min,C_max]，令初始聚类数量C＝C_max，选取两个计数器，第一计数器的叠代次数k,第二计数器的叠代次数t,PSO的最大迭代次数T；

(2)初始化设定参数：根据PSO，给定粒子数量L，粒子最初速度V，粒子最初位置P，第一计数器的加速系数c₁，第二计数器的加速系数c₂，惯性常数w，聚类基数阈值ε和损耗率ρ；

(3)初始化设定参数：设定模糊集上近似的权重ω_up，下近似的权重ω_low，且ω_up+ω_low＝1，模糊隶属度的加权指数m，阈值σ；

(4)根据步骤(1)－步骤(3)设定的参数，选取第二计数器，通过计算划分矩阵、聚类中心、适应度值、个体极值、全局极值，以及更新每个粒子的速度和位置，重复步骤(4.1)－(4.7)看其是否达到PSO算法的终止条件；

(4.1)计算所有待分类粒子的划分矩阵U(k)；

U＝[u_ij]_N×C为隶属度矩阵,

其中：u_ij∈[0，1]表示数据对象x_i关于聚类β_j的隶属程度，x_i,β_j∈R^V,V是数据的维数，1≤i≤N和1≤j≤C，d_ij＝d(x_i,β_j)是数据向量x_i到聚类中心β_j的欧氏距离即 d_ij＝||x_i-β_j||；

(4.2)计算所有待分类粒子的聚类中心：

其中：u_kj表示粒子x_k关于聚类β_j的隶属程度，C _j表示类C_j的下近似集合。代表C_j的边界区域集合；

(4.3)计算每个粒子的适应度值F；

其中：u_ij∈[0,1]表示数据对象x_i关于聚类β_j的隶属程度；

(4.4)计算每个粒子的个体极值pbest；

(4.5)计算群的全局极值gbest；

(4.6)根据PSO算法中每个粒子的个体极值，群的全局极值，并更新每个粒子的速度和位置V(t+1)＝wV(t)+c₁r₁(pbest(t)-P(t))+c₂r₂(gbest(t)-P(t))和P(t+1)＝P(t)+V(t+1)；

其中：粒子t时刻的速度V(t)，位置P(t)，第一加速器加速系数c₁，第二加速器加速系数c₂，惯性常数w；r₁，r₂是[0，1]之间的常数；

(4.7)令t＝t+1；

(5)根据步骤(4)会出现达到PSO算法的终止条件和未达到PSO算法的终止条件两种情况；

(5.1)当t≥T(达到最大迭代次数)或者经过多次迭代后更新速度接近于0，则符合达到PSO算法的终止条件，则进入步骤(5.1.1)－(5.1.8)；

(5.1.1)重新计算每个粒子的聚类中心β_j；

(5.1.2)重置第j个聚类的u_ij(1≤i≤N)；

(5.1.3)令u_jk表示对象x_k到所有类的最大隶属度，u_bk表示对象x_k到所有类的次大隶属度，如果u_bk-u_jk≤σ，那么并且否则x_k∈C _j；

(5.1.4)根据M_j＝card{u_ij|u_ik-u_jk>σ}，计算每个聚类的基数M_j(1≤j≤C)；

(5.1.5)删除所有M_j<ε且M_j≤最低基数的聚类；

(5.1.6)更新聚类数量C；

(5.1.7)计算聚类有效性指数

(5.1.8)更新计数器k＝k+1；

(5.1.8)当算法运行终止后，选择对应最佳聚类数量C、有效性指数S_DB、矩阵B和U作为最终的聚类原型划分结果；

(5.2)对于未达到PSO算法的终止条件，则重复步骤(4)，直至在一定阈值δ内向量B中的原型参数趋于稳定；或聚类数量达到最低C_min，则结束。

本发明中，如果则令它等于1。这意味着具有最小基数的聚类可被移除。最开始C_max个聚类的中心可以通过进行初始化。算法运行终止后,选择对应最佳聚类有效性指数S_DB的C(其中C∈[C_min,C_max])、矩阵B和U作为最终的聚类原型划分结果。

本发明的优点在于能够可以自动寻找最优聚类数目，自动地组织各种数据集并获取准确的分类。

附图说明

图1为本发明流程图；

图2为实施例1的GDS2712酵母基因表达数据集聚类数目C和DB有效性指标间的关系。

具体实施方式

实施例1：以酵母基因表达数据集GDS2712为例，其簇和样本数量分别为15和9275。算法如下：

1)初始化：C_min＝10，C_max＝96，令C＝C_max，计数器k＝0，t＝0，PSO的最大迭代次数 T＝80，并采用规则C≤N^1/2。

2)初始化：粒子数量L＝20，令参数c₁＝1.49，c₂＝1.49，w＝0.72，集群基数阈值ε＝20，损耗率ρ＝0.08。

3)初始化：ω_up＝0.9，ω_low＝0.1，模糊因子m＝2，阈值σ＝0.28；

4)在未达到终止条件之前重复以下操作：

a.计算所有粒子的划分矩阵U(k)；

b.计算每个粒子的聚类中心β_j；

c.计算每个粒子的适应度值F；

d.计算每个粒子的个体极值pbest；

e.计算群的全局极值gbest；

f.更新每个粒子的速度和位置；

g.令t＝t+1；

5)接下来有如下两种情况

情况一：达到PSO算法的终止条件(*)

1.重新计算每个粒子的聚类中心β_j；

2.重置第j个聚类的u_ij(1≤i≤N)；

3.令u_jk表示对象x_k到所有类的最大隶属度，u_bk表示对象x_k到所有类的次大隶属度，如果u_bk-u_jk≤σ，那么并且否则x_k∈C _j；

4.计算每个聚类的基数M_j(1≤j≤C)；

5.删除所有M_j<ε且M_j≤最低基数的聚类；

6.更新聚类数量C；

7.计算聚类有效性指数S_DB(c)；

8.更新计数器k＝k+1；

情况二：没有达到终止条件(**)

(*)在该方法中PSO的终止条件是t≥T(达到最大迭代次数)或者经过多次迭代后速度更新接近于0；

(**)在以下任意情况下算法可以停止：

1.在一定阈值δ内向量B中原型参数趋于稳定；

2.聚类数量达到最低C_min。

这里需要注意的是,如果我们让它等于1。这意味着具有最小基数的聚类可能被移除。最开始C_max个聚类的中心可以通过进行初始化。算法运行终止后, 选择对应最佳聚类有效性指数S_DB的C(其中C∈[C_min,C_max])、矩阵B和U作为最终的聚类原型划分结果。

通过以上步骤的计算，在每一个周期，我们得到每个集群分布，根据它们的基数去除一部分聚类，计算DB指标并聚类数C从C_max变化到C_min。在结束循环后，选择DB最低值的划分作为最终结果。如附图1所示，对于GDS2712，从C＝96降低到C＝20需要24次迭代，从C ＝20降低到C＝15需要6次迭代，当聚类数C＜15时DB指标开始上升。

在设定数据集GDS2712的最佳聚类数C之后，表1列出了不同算法的有效性指数。从表格中可以发现RP-FCM和SRCM取得较为一致的效果，且优于其他聚类算法。其原因为 PSO的全局搜索能力有利于找到更合适的聚类中心，而且避免了算法过早收敛于局部最优值。

表1针对酵母基因表达数据集算法FCM,RCM,SCM,SRCM和RP-FCM的性能对比

Claims

1.一种基于粗糙集和粒子群算法的改进模糊C-均值聚类算法，其特征在于具体步骤如下：

(4.1)计算所有待分类粒子的划分矩阵U(k)；

U＝[u_ij]_N×C为隶属度矩阵,

<mrow> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msup> <mrow> <mo>(</mo> <mrow> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>2</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow>

其中：u_ij∈[0,1]表示数据对象x_i关于聚类β_j的隶属程度，x_i,β_j∈R^P,N是数据的维数，1≤i≤N和1≤j≤C，d_ij＝d(x_i,β_j)是数据向量x_i到聚类中心β_j的欧氏距离即d_ij＝||x_i-β_j||；

(4.2)计算所有待分类粒子的聚类中心：

其中：u_kj表示粒子x_k关于聚类β_j的隶属程度，C _j表示类C_j的下近似集合；代表C_j的边界区域集合；

(4.3)计算每个粒子的适应度值F；

<mrow> <mi>F</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>

其中：u_ij∈[0,1]表示数据对象x_i关于聚类β_j的隶属程度；

(4.4)计算每个粒子的个体极值pbest；

(4.5)计算群的全局极值gbest；

(4.7)令t＝t+1；

(5.1.1)重新计算每个粒子的聚类中心β_j；

(5.1.2)重置第j个聚类的u_ij(1≤i≤N)；

(5.1.3)令u_jk表示对象x_k到所有类的最大隶属度，u_bk表示对象x_k到所有类的次大隶属度，如果u_bk-u_jk≤σ，那么并且否则x_k∈C_j；

(5.1.5)删除所有M_j<ε且M_j≤最低基数的聚类；

(5.1.6)更新聚类数量C；

(5.1.7)计算聚类有效性指数

(5.1.8)更新计数器k＝k+1；

2.根据权利要求1所述的方法，其特征在于如果则令它等于1；这意味着具有最小基数的聚类可被移除；最开始C_max个聚类的中心可以通过进行初始化；算法运行终止后,选择对应最佳聚类有效性指数S_DB的C(其中C∈[C_min,C_max])、矩阵B和U作为最终的聚类原型划分结果。