CN104881688A

CN104881688A - 一种两阶段的基于差分进化和模糊c-均值的聚类算法

Info

Publication number: CN104881688A
Application number: CN201510319187.6A
Authority: CN
Inventors: 杨波; 陈俊伟; 杨洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-11
Filing date: 2015-06-11
Publication date: 2015-09-02

Abstract

本发明公开了一种两阶段的基于差分进化和模糊C-均值的聚类算法，该算法包含两个阶段，第一阶段采用差分进化算法聚类，第二阶段采用模糊C-均值聚类算法聚类，当第一阶段执行到满足切换条件时，进入到第二阶段执行。提供了一种切换条件的具体方式，即测试种群收敛度；并提供了种群收敛度的具体计算方法。提供了一种第一阶段中对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法。与现有技术相比，本发明具有对初始值的依赖程度低、收敛速度快、容易收敛于全局最优、对参数F和CR不敏感等优点。

Description

一种两阶段的基于差分进化和模糊C-均值的聚类算法

技术领域

本发明是关于数据挖掘中的聚类算法，属于数据挖掘领域，尤其属于聚类领域。

背景技术

聚类是将样本空间的所有对象划分成若干组，使得同一个组内的对象具有很高的相似性，而不同组间的对象具有很大的差异性。其中，模糊C-均值聚类具有完善的理论基础，并已得到广泛应用。然而，模糊C-均值聚类算法存在一些缺点，主要表现在对初始值的依赖程度高、容易收敛于局部最优、对噪音数据处理能力较弱等。

差分进化(Differential Evolution,DE)算法是一种基于种群的寻优算法。差分进化算法对解采用实数向量编码，在整个搜索空间中随机进化，以寻找全局最优解。差分进化算法采用三个控制参数：变异缩放因子(F)、交叉概率因子(CR)、种群规模(NP)。差分进化算法具有对初始值的依赖程度小、容易收敛于全局最优、鲁棒性好等优点。

由于差分进化算法具有上述的一些优点，目前有研究将差分进化算法应用于聚类问题，提出了基于差分进化的模糊聚类算法。然而，现有的基于差分进化的模糊聚类算法具有两方面的缺点：(1)算法所采用的差分进化对变异缩放因子(F)和交叉概率因子(CR)敏感；(2)算法的收敛速度慢。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供一种对初始值的依赖程度低并且能够快速收敛于全局最优的聚类算法。

为实现上述目的，本发明提供一种两阶段的基于差分进化和模糊C-均值的聚类算法，其特征在于包含以下内容：

1.采用两个阶段相接合的方式进行聚类

如图1所示，本发明包含两个阶段——第一阶段：用差分进化算法聚类；第二阶段：用模糊C-均值聚类算法聚类。

2.参数的自适应动态调整

在本发明的第一阶段中，对变异缩放因子(F)和交叉概率因子(CR)两个参数提供一种自适应动态调整方法，即：每次在种群个体进化之前，先更新F和CR，使得F和CR的值不再是一个常量。通过该方法能有效地减少差分进化算法对F和CR的敏感度。更新F和CR的方法见公式(7)和(8)。

3.测试种群收敛度来作为由第一阶段进入到第二阶段的切换条件

在本发明的第一阶段中，在整个种群完成一次进化后，测试种群的收敛度h，h描述了种群个体之间的差异程度。若h小于事先给定的阈值hc，则结束第一阶段，以第一阶段得到的解作为第二阶段的初值，进入到第二阶段执行；否则继续执行第一阶段，即进行下一次迭代。

4.计算种群收敛度h的方法由公式(12)给出。

附图说明

图1是本发明的流程图。

图2是图1中步骤S1的流程图。

图3是图1中步骤S3的流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式做详细说明。

模糊聚类问题的描述如下：

给定数据集X＝{x₁,x₂…,x_n}，X中有n个对象，其中每个对象有d个维度。聚类就是将X划分为C个类。v_i(1≤i≤C)为第i个类的聚类中心，C个聚类中心组成的向量V＝{v₁,v₂,…,v_c}称为聚类中心矢量。与传统聚类不同，模糊聚类在划分时，每个对象不是严格地被划分到某个类中，而是用对象与类的隶属度来描述，隶属度的计算公式为(14a)和(14b)。U_n×C为隶属度矩阵，其中的元素u_ij表示第i个对象与第j类的隶属度，其满足：

u_{ij} &Element; [0,1], Σ_{j = 1}^{C} u_{ij} = 1 - - - (1)

聚类结果的优劣，用目标函数评价，目标函数为：

J (U, V) = Σ_{i = 1}^{n} Σ_{j = 1}^{C} {(u_{ij})}^{m} {| | x_{i} - v_{j} | |}^{2} - - - (2)

其中，||x_i-v_j||²为对象x_i与聚类中心v_j的距离，m＞1是模糊加权参数。

把聚类中心矢量用实数向量编码，可作为原问题的一个解，则解的格式为(3)式所示：

V＝[(v₁₁,v₁₂,…,v_1d),(v₂₁,v₂₂,…,v_2d),…,(v_C1,v_C2,…,v_Cd)] (3)

如图1所示，本发明所提供的算法包含两个阶段。

1.第一阶段：采用差分进化算法聚类

1.1初始化

算法执行前，首先由用户给定以下参数：聚类个数C、种群规模NP、收敛度阈值hc、变异缩放因子下界交叉概率因子下界模糊加权参数m、最大迭代次数。

然后初始化种群。初始化种群需要尽可能均匀地覆盖整个解空间，因此需要求得原始数据集X的下界和上界，分别为

X_{\min} = {x_{\min}^{1}, x_{\min}^{2}, . . ., x_{\min}^{d}} - - - (4)

X_{\max} = {x_{\max}^{1}, x_{\max}^{2}, . . ., x_{\max}^{d}} - - - (5)

其中，是原始数据集X中所有对象第i维度的最小值；是原始数据集X中所有对象第i维度的最大值。

随机初始化一个种群个体V，即一个聚类中心矢量，亦即原问题的一个解，初始化公式如(6)式所示：

v_{ij} = x_{\min}^{j} + rand (0,1) \times (x_{\max}^{j} - x_{\min}^{j}), i = 1,2, . . ., C, j = 1,2, . . ., d - - - (6)

v_ij表示聚类中心矢量的第i个聚类中心的第j个维度的值。其中，rand(0,1)返回一个[0,1]之间的浮点随机数，服从[0,1]上的均匀分布。

初始化NP个这样的聚类中心矢量，NP为种群的规模。第i个聚类中心矢量用V_i(1≤i≤NP)表示。种群为Z＝{V₁,V₂,…,V_NP}，这NP个个体格式一致，但互相各不相等，每个个体均可作为原问题的一个解，但这些解存在着优劣之分。

1.2进化过程

该过程对应图1中的步骤S1。该步又可分为4个步骤：参数自适应动态调整、变异操作、交叉操作和选择操作。

1.2.1参数自适应动态调整

该步骤对应图2中的步骤S1.1。

差分进化算法对变异缩放因子F和交叉概率因子CR敏感，因此本发明提供一种自适应的方法动态更新F和CR，其目的是让算法在执行过程中F和CR不再是常量，从而降低算法对这两个参数的敏感程度。F和CR的更新公式如(7)式和(8)式所示：

F = F_{l_{1}} + rand (0,1) \times (1 - F_{l_{1}}) - - - (7)

CR = F_{l_{2}} + rand (0,1) \times (1 - F_{l_{2}}) - - - (8)

其中，和分别表示F和CR的下界。

1.2.2变异操作

该步骤对应图2中的步骤S1.2。

用表示第g代种群中第i个个体。

从种群中随机地选择三个聚类中心矢量进行矢量运算，得到一个临时的实验矢量D，如(9)式所示

D = V_{r_{1}}^{(g)} + F \times (V_{r_{2}}^{(g)} - V_{r_{3}}^{(g)}) - - - (9)

其中，r_i(i＝1,2,3)是互不相等的整数，取值范围为[1,NP]。

1.2.3交叉操作

该步骤对应图2中的步骤S1.3。

通过矢量D与矢量的交叉操作得到交叉后的实验矢量S，S每一维度的取值如(10)式所示

其中，Ir是[1,C×d]上的一个随机整数，使得S中至少有一个分量是由D贡献的。

1.2.4选择操作

该步骤对应图2中的步骤S1.4。

依据目标函数进行选择操作：

1.3测试种群收敛度

该步骤对应图1中的步骤S2及下面的判定操作。

整个种群每完成一次进化后，测试种群的收敛度h，h描述了种群个体之间的差异程度。若h小于事先给定的阈值hc，说明解已经收敛到全局最优解附近，此时停止差分进化算法(图1中第一阶段)的执行，将差分进化算法得到的解作为模糊C-均值聚类算法的初值，进行聚类(图1中第二阶段)。若种群收敛度没有满足阈值条件，则继续执行第一阶段，即进行下一次迭代。通过测试种群收敛度的方式不仅可以得到较快的收敛速度，同时解决了模糊C-均值算法对初值敏感程度高、容易收敛于局部最优的问题。

种群的收敛度用(12)式来计算，若种群的规模为NP，第i个个体的目标函数值为J_i＝J(U,V_i)，平均目标函数值为则种群收敛度定义如下：

h = Σ_{i = 1}^{NP} \frac{| J_{i} - J_{avg} |}{dev} - - - (12)

其中

2.第二阶段：用模糊C-均值聚类算法聚类

该步骤对应图1中的步骤S3。

2.1计算隶属度矩阵

该步骤对应图3中的步骤S3.1。

令I_i＝{j|1≤j≤C,||x_i-v_j||＝0},I_i＝{1,2,…,C}-I_i。

当I_i＝φ时，

u_{ij} = \frac{1}{Σ_{k = 1}^{C} {(\frac{{| | x_{i} - v_{j} | |}^{2}}{{| | x_{k} - v_{j} | |}^{2}})}^{\frac{1}{m - 1}}} - - - (14 a)

当I_i≠φ时，

\begin{matrix} &ForAll; i &Element; {\bar{I}}_{j}, u_{ij} = 0 \\ \underset{i &Element; I_{j}}{Σ} u_{ij} = 1 \end{matrix} - - - (14 b)

2.2计算聚类中心矢量

该步骤对应图3中的步骤S3.2。

聚类中心矢量的计算如(15)式所示：

v_{j} = \frac{Σ_{i = 1}^{n} {(u_{ij})}^{m} x_{i}}{Σ_{i = 1}^{n} {(u_{ij})}^{m}} - - - (15)

Claims

1.一种两阶段相接合的方式进行聚类的方法，其特征在于：采用两个阶段进行聚类，第一阶段采用差分进化算法聚类，第二阶段采用模糊C-均值聚类算法聚类，当第一阶段执行到满足切换条件时，进入到第二阶段执行，如图1所示。

2.一种权利要求1中的第一阶段的聚类算法中，对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法，其特征在于：每次进化之前，先对F和CR进行更新，更新F和CR的方法为公式(7)和(8)。

3.一种权利要求1中的切换条件的具体方式，其特征在于：整个种群完成一次进化后，测试种群收敛度h，若h小于一个事先给定的阈值hc，则结束第一阶段，以第一阶段得到的解作为第二阶段的初值，进入到第二阶段执行；否则继续执行第一阶段，即进行下一次迭代。

4.一种权利要求3中的种群收敛度h的具体计算方法，其特征在于：h由公式(12)来计算。