CN104239434A

CN104239434A - 一种基于带有多样化半径技术的小生境遗传算法的聚类方法

Info

Publication number: CN104239434A
Application number: CN201410431949.7A
Authority: CN
Inventors: 盛伟国; 范东成; 汪晓妍; 李军伟; 何俊丽; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2014-08-28
Filing date: 2014-08-28
Publication date: 2014-12-24

Abstract

一种基于带有多样化半径技术的小生境遗传算法的聚类方法，所述聚类方法包括以下步骤：1)染色体编码和种群初始化；2)计算个体适应度；3)采用动态识别方法识别群体中的小生境位置、内容和数目；4)执行多样化半径机制调整各个小生境的半径信息；5)应用适应度共享函数重新计算个体的新适应度；6)执行选择、交叉和变异操作；7)执行精英策略替换群体中最差的个体；8)若满足终止条件，则终止运行；否则，跳转至步骤5)。本发明提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。

Description

一种基于带有多样化半径技术的小生境遗传算法的聚类方法

技术领域

本发明涉及数据挖掘技术，尤其是一种聚类方法。

背景技术

数据挖掘是从海量的、模糊的、有噪声的、随机的、不完全的数据中,发掘隐含的、尚未发现的、却又是可能有用的信息和知识的过程。聚类分析是数据挖掘的一个重要内容和基本形式之一,数据聚类是指根据数据的内在特征，通过某种度量方式将数据分成若干聚合类，使每一个聚合类内的数据具有相似的特性，不同聚合类之间的数据的特性具有尽可能大的差异性。

对于实际要解决的数据集，在进行聚类分析时，具体应该选择哪种或哪类聚类算法，主要考虑数据的类型特征、算法的特点以及聚类的目标几个因素。有时，也需要同时采用多种聚类方法，以从不同的角度分析数据的特征，从而找出真正想要的结果。总体上，主要的聚类算法可以分为如下几类：

1)基于划分方法

对于含有n个数据的数据集，基于划分的方法需要用户预先给定最终划分的数目k，然后根据目标函数的最小化组合，将数据划分为k组。此时，划分为k组的数据应满足一下两个要求：1)每个组至少包含一个数据；2)每个数据至少属于且唯一属于一个组。基于划分的方法，算法首先要建立一个初始划分，即随机选取k个数据点作为初始划分中心点，然后采用迭代重定位技术，并通过不断移动数据在组间的划分找到最优划分。划分过程中采用的唯一准则就是：基于某种相似性度量方式，使同一个组内的数据尽可能的相似，不同组内数据的差异性尽可能的大^[38]。基于划分方法的聚类方法主要有：k-means、k-中心点、PAM、CLARA、CLARANS等。

2)基于层次方法

基于层次的方法按照对象的分层建立簇，同时形成一颗以簇为节点的树。根据层次分解形成的过程不同，基于层次的方法可以分成分裂的或凝聚的方法。凝聚法，也叫自底向上的方法，它首先将每个数据作为一个单独的组，然后不断的把相近的组或数据组合成一个组，直到所有的数据都被放在一个组里或者满足某个终止条件为止。分裂法，也叫自顶向下的方法，它首先把所有的数据都看成同一个簇，然后进行不断的迭代分裂，每次迭代的目的都是为了把上一个簇分成更小的簇，直到每个对象各自成为一个簇或者满足某个终止条件。这种方法的缺陷在于，合并或分裂簇的操作都是不可逆，这给聚类的结果带来了不准确性。目前有一些技术试图克服这一缺陷。有人试图通过移动树的分支以改善全局目标函数。也有人使用划分聚类的技术来创建许多小簇，然后从这些小簇出发进行层次聚类。基于层次方法的聚类算法主要有：BIRCH，CURE，ROCK，COBWEB算法等。

3)基于密度的方法

目前很多算法都是根据数据之间的距离来确定对象间的相似性的，前面提到的基于划分和基于层次的方法就是基于这种相似性来进行聚类。然而这类方法的缺陷在于，它们只能找到球形簇，而对于其他形状的簇则可能无法很好的辨别，甚至无法正确的进行聚类。因此产生了基于密度的方法。这种聚类方法的主要思想就是：根据数据点的密集程度来确定是否需要继续聚类^[40]。该种方法可以发现任意形状的簇，而且能够有效的去除噪声数据。典型的基于密度的聚类方法包括DBSCAN和OPTICS。

4)基于网格的方法

基于网格方法的基本思想就是把对象空间量化为一定数目的单元，这些单元组成一个网格结构，然后在这个结构上进行聚类操作。该方法主要的优点是：有着非常快的处理速度，它的处理时间与数据对象的数量是无关的，只与量化空间的每一维的单元数有关系^[41]。比较典型的基于网格的算法有：CLIQUE算法、OptiGird算法、STING算法等。

5)基于模型的方法

基于模型的聚类方法将不同的簇假定不同的模型，然后不断的寻找一定的数据集，使这个数据集能够与给定到的模型形成最佳的拟合。该方法的主要目的是试图将给定的数据和假定模型之间找出一个最优的组合。这种方法主要分成两类：一种是统计学方法，主要代表算法有COBWEB算法、CLASSIT算法、和AutoClass算法；另一种是神经网络方法，主要算法有竞争学习法和自组织特征映射法。

采用遗传算法解决数据聚类的问题，是一种新的聚类分析方法，对于数值属性和符号属性的数据进行聚类,具有较好的效果。近年来也有很多学者对基于遗传算法的聚类分析做了深入研究。现有的聚类方法存在的缺陷是：聚类效果相对较差、稳定性较差。

发明内容

为了克服已有基于遗传算法的聚类方法的聚类效果较差、稳定性较差的不足，本发明提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。

本发明解决其技术问题所采用的技术方案是：

一种基于带有多样化半径技术的小生境遗传算法的聚类方法，所述聚类方法包括以下步骤：

1)染色体编码和种群初始化

一个染色体被编码成一个聚类中心，每个染色体由v个实数组成，染色体表示为c＝[c₁,c₂,…,c_v]，这里v代表特征空间的维数；

随机选取N个数据点，N为群体规模，每个数据点是由v维实数组成，每个数据点表示一个染色体且没有重复的数据点；

2)计算个体适应度

令X＝{x₁,x₂,…,x_n}是N维向量空间的一个子集，K是聚类数目，S(x_j,c_i)表示数据点X_j和第i个聚类中心c_i的相似性度量函数，聚类目标是找出c_i使总相似度J(c)最大，J(c)表示为：

J (c) = Σ_{i = 1}^{K} Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - c_{i} | |}^{2}}{β}))}^{γ} - - - (1)

c＝(c₁,c₂,…,c_k),β定义为：

β = \frac{Σ_{j = 1}^{n} {| | x_{j} - \overset{&OverBar;}{x} | |}^{2}}{n} - - - (2)

其中，

\overset{&OverBar;}{x} = \frac{Σ_{j = 1}^{n} x_{j}}{n},;

令J_s(x_k)表示数据点x_k到其他所有点的总相似度，且J_s(x_k)的计算方式如下：

J_{s} (x_{k}) = Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - k_{k} | |}^{2}}{β})}^{γ}, k = 1,2, . . ., n . - - - (3)

该函数近似的看成是数据点x_k的领域密度函数；

γ的值用CCA算法来估计，在得到γ的估计值之后，函数J_s(x_k)则成为了一个多模函数，函数峰的数量等于聚类中心的数量，峰值点的位置也与聚类中心的位置相同；

3)采用动态识别方法识别群体中的小生境位置、内容和数目，过程如下：

3.1)将群体中的个体按照适应度的大小进行从大到小排序；

3.2)设定算法进化过程中的控制参数：令t代的候选小生境数v(t)＝0；t代的实际小生境数u(t)＝0；当前动态物种集CDSS＝0；

3.3)从第一个个体顺序执行下列步骤到最后一个个体：

(3.3.1)若个体未被标记，则标记该个体为新的小生境中心，且该个体为该小生境的优胜者；

(3.3.2)将群体中与该个体的距离小于该小生境半径，同时尚未被标记的个体分配给这个小生境；

(3.3.3)计算小生境中个体的数目，若个体数目大于1，则令候选小生境数加1；

4)执行多样化半径机制调整各个小生境的半径信息；

基于相邻小生境的位置关系来判断两个小生境是否需要合并，若合并，新产生的小生境的半径则要重新计算；再者，提出了一个小生境个体剔除的操作，这个操作的目的是把不属于该小生境的个体剔除。

5)应用适应度共享函数重新计算个体的新适应度；

设d_ij表示个体i和个体j之间的密切程度的度量，sh为共享函数，m_i表示个体i在群体中的共享度，则有计算出所有个体的共享度后,个体适应度f(i)依据下式调整为f_sh(i):f_s(i)＝f(i)/m_i；

6)执行选择、交叉和变异操作；

7)执行精英策略替换群体中最差的个体；

8)若满足终止条件，则终止运行；否则，跳转至步骤5)。

进一步，所述步骤3)中，小生境的代表着是第一个被识别的领导个体。当小生境的领导个体被选定后，这个小生境则被定义为如果群体中至少有一个个体与领导个体的距离小于相应的小生境半径，并且未被标记过，则领导个体作为新产生小生境的代表者，同时标记从属的个体；否则，该领导个体被视为独立个体。这是一个循环迭代的过程，当这个过程执行到群体的最后一个个体后，群体P_t被分为v(t)个小生境和若干独立个体的集合；

群体用下面的公式表示：

P_{t} = (\underset{i &Element; {1, . . ., v (t)}}{\cup} S_{t}^{i}) \cup S_{t}^{*} - - - (4)

这里代表候选小生境个体的集合，代表独立个体的集合。

再进一步，所述步骤4)中，定义1为合并规则：令N_i和N_j分别表示两个不同的小生境，他们的领导个体的适应度分别为f_i和f_j，若f_i>f_j，则将N_j合并到N_i中去，否则，将N_i合并到N_j中去；

定义2为距离度量方式：令个体M_i和M_j分别表示小生境N_i和N_j的领导个体，则这两个小生境之间的距离可以表示为

d(N_i,N_j)＝d(M_i,M_j)＝||M_i-M_j||². (5)

基于上定义1和定义2，小生境合并操作的步骤如下：对于任意使用DNI产生的候选小生境，用欧几里得距离公式找到与其最近的小生境，用一个v(t)×v(t)的矩阵W来表示任意两个小生境之间的关系，

w_{ij} = \{\begin{matrix} 1 ifd (N_{i}, N_{j}) = \min_{k &NotEqual; j, k = 1,2, . . ., v (t)} d (N_{k}, N_{j}), \\ 0 otherwise, \end{matrix} - - - (6)

这里d(N_i,N_j)表示小生境i和j之间的距离，W_ij＝1表示这两个小生境之间是最近的，合并因子用C_ij表示，若C_ij＝1，则二者需要合并，合并因子C_ij是由理论1来决定的，

理论1：令N_i和N_j分别表示两个不同的小生境，个体M_i和M_j分别表示小生境N_i和N_j的领导个体，且这两个领导个体的适应度分别为f_i和f_j，则连接两个领导个体的连线表示为：

x＝M_i+k(M_j-M_i),k∈(0,1). (7)

然后沿着这条连线分别产生r个随机点，同时计算它们的适应度，若存在 m∈(0,1)满足

f(x_m)＜min(f_i,f_j), (8)

也就是说，有凹点存在于N_i和N_j之间，因此N_i和N_j不需要合并，此时C_ij＝0；在理论1中，给定欧式空间中的两个端点，沿着由这两个端点组成的连线上随机的产生若干点并且计算它们的适应度，判断在这两个端点中间是否存在凹点；如果有凹点存在，则两个相邻的小生境是独立的，它们不需要合并；若没有凹点存在，则说明两个相邻的小生境不是独立的，也就是说他们属于同一个小生境，需要合并成一个小生境；

如果确定了两个小生境需要合并，则合并操作的具体描述见理论2，

理论2：令N_i和N_j为最相邻的两个小生境，定义分别为小生境N_i和N_j的个体集合，个体M_i和M_j分别表示小生境N_i和N_j的领导个体，且这两个领导个体的适应度分别为f_i和f_j。若C_ij＝1，且f_i>f_j，则把N_j合并到N_i中

s_{t}^{' i} = s_{t}^{i} + s_{t}^{j}, - - - (9)

如果小生境N_j中的个体k是离领导者M_i最远的个体，则小生境N_i的半径调整为

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{k}) if δ_{v (t)}^{i} < d (M_{i}, N_{j}^{k}) \\ δ_{v (t)}^{i} otherwise \end{matrix}, - - - (10)

这里N_j中的个体k，同时，设置

u(t)＝u(t)-1. (12)

在执行了小生境的合并操作之后，随后开始操作个体剔除的操作，参照理论3：

理论3：令个体M_i表示小生境N_i的领导个体，表示小生境中适应度最低的个体，表示小生境中离领导个体最远的个体，则下一代使用的小生境半径则按下式进行调整：

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{w}) if N_{j}^{w} &NotEqual; N_{j}^{f} \\ δ_{v (t)}^{i} otherwise \end{matrix} . - - - (13);

多样化半径机制的具体过程如下：

4.1)计算所有候选小生境之间的距离；

4.2)从第一个小生境顺序执行下列步骤到最后一个小生境：

(4.2.1)若小生境i与j是最相近的两个子群体，则根据理论1计算S_ij；

(4.2.2)若S_ij＝1，则根据定义1合并i和j，同时根据理论2调整小生境i和j的信息；

4.3)根据理论3更新所有小生境的半径；

4.4)调整初始半径

在执行多样化小生境半径的操作后，对群体则有了一个新的划分，划分结果如下：

P_{t} = (\underset{i &Element; {1, . . ., v (t)}}{\cup} S_{t}^{' i}) \cup S_{t}^{' *} . - - - (14)

然后群体中所有个体的适应度进行调整，独立个体的适应度不变，小生境数目的计算方式修改如下：

m_{i} = \underset{p_{j} &Element; s_{t}^{i}}{Σ} sh (d_{ij}) - - - (15) .

更进一步，定义一个忍受因子δ，此时公式8则修改为：

f(x_m)＜δmin(f_i,f_j). (16)。

所述步骤6)中，若c₁和c₂为父代个体，则后代c在父代经过中间重组交叉操作后的结果是：c＝c₁+r(c₁-c₂),这里r是[0,1]之间的符合平均分布的随机数；

每个染色体的变异概率为p_m。假设数据集中第q维的最大和最小值分别为c_min ^q和c_max ^q，变异基因点的值为c^q，则一致领域变异的结果为：

c_{0}^{q} = c^{q} + r_{m} R (c_{\max}^{q} - c_{\min}^{q}) - - - (17)

这里R是符合平均分布的随机数，取值区间为[-1,1]，r_m∈(0,1)。

本发明的有益效果主要表现在：具有很好的聚类效果、稳定性良好。

附图说明

图1为数据集的示意图，其中，(a)normal_5、(b)normal_16、(c)normal_4和(d)normal_3。

图2为四个数据集获得的聚类中心，其中(a)normal_5、(b)normal_16、(c) normal_4和(d)normal_3。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于带有多样化半径技术的小生境遗传算法的聚类方法，所述聚类方法包括以下步骤：

1)染色体编码和种群初始化

2)计算个体适应度

J (c) = Σ_{i = 1}^{K} Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - c_{i} | |}^{2}}{β}))}^{γ} - - - (1)

c＝(c₁,c₂,…,c_k),β定义为：

β = \frac{Σ_{j = 1}^{n} {| | x_{j} - \overset{&OverBar;}{x} | |}^{2}}{n} - - - (2)

其中，

\overset{&OverBar;}{x} = \frac{Σ_{j = 1}^{n} x_{j}}{n},;

J_{s} (x_{k}) = Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - k_{k} | |}^{2}}{β})}^{γ}, k = 1,2, . . ., n . - - - (3)

该函数近似的看成是数据点x_k的领域密度函数；

3.1)将群体中的个体按照适应度的大小进行从大到小排序；

3.3)从第一个个体顺序执行下列步骤到最后一个个体：

4)执行多样化半径机制调整各个小生境的半径信息；

5)应用适应度共享函数重新计算个体的新适应度；

6)执行选择、交叉和变异操作；

7)执行精英策略替换群体中最差的个体；

8)若满足终止条件，则终止运行；否则，跳转至步骤5)。

群体用下面的公式表示：

P_{t} = (\underset{i &Element; {1, . . ., v (t)}}{\cup} S_{t}^{i}) \cup S_{t}^{*} - - - (4)

这里代表候选小生境个体的集合，代表独立个体的集合。

d(N_i,N_j)＝d(M_i,M_j)＝||M_i-M_j||². (5)

w_{ij} = \{\begin{matrix} 1 ifd (N_{i}, N_{j}) = \min_{k &NotEqual; j, k = 1,2, . . ., v (t)} d (N_{k}, N_{j}), \\ 0 otherwise, \end{matrix} - - - (6)

x＝M_i+k(M_j-M_i),k∈(0,1). (7)

然后沿着这条连线分别产生r个随机点，同时计算它们的适应度，若存在m∈(0,1)满足

f(x_m)＜min(f_i,f_j), (8)

s_{t}^{' i} = s_{t}^{i} + s_{t}^{j}, - - - (9)

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{k}) if δ_{v (t)}^{i} < d (M_{i}, N_{j}^{k}) \\ δ_{v (t)}^{i} otherwise \end{matrix}, - - - (10)

这里N_j中的个体k，同时，设置

u(t)＝u(t)-1. (12)

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{w}) if N_{j}^{w} &NotEqual; N_{j}^{f} \\ δ_{v (t)}^{i} otherwise \end{matrix} . - - - (13);

多样化半径机制的具体过程如下：

4.1)计算所有候选小生境之间的距离；

4.2)从第一个小生境顺序执行下列步骤到最后一个小生境：

4.3)根据理论3更新所有小生境的半径。

Claims

1.一种基于带有多样化半径技术的小生境遗传算法的聚类方法，其特征在于：所述聚类方法包括以下步骤：

1)染色体编码和种群初始化

2)计算个体适应度

J (c) = Σ_{i = 1}^{K} Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - c_{i} | |}^{2}}{β}))}^{γ} - - - (1)

c＝(c₁,c₂,…,c_k),β定义为：

β = \frac{Σ_{j = 1}^{n} {| | x_{j} - \overset{&OverBar;}{x} | |}^{2}}{n} - - - (2)

其中，

\overset{&OverBar;}{x} = \frac{Σ_{j = 1}^{n} x_{j}}{n},;

J_{s} (x_{k}) = Σ_{j = 1}^{n} {(\exp (- \frac{{| | x_{j} - k_{k} | |}^{2}}{β})}^{γ}, k = 1,2, . . ., n . - - - (3)

该函数近似的看成是数据点x_k的领域密度函数；

3.1)将群体中的个体按照适应度的大小进行从大到小排序；

3.3)从第一个个体顺序执行下列步骤到最后一个个体：

4)执行多样化半径机制调整各个小生境的半径信息；

5)应用适应度共享函数重新计算个体的新适应度；

6)执行选择、交叉和变异操作；

7)执行精英策略替换群体中最差的个体；

8)若满足终止条件，则终止运行；否则，跳转至步骤5)。

2.如权利要求1所述的基于带有多样化半径技术的小生境遗传算法的聚类方法，其特征在于：所述步骤3)中，小生境的代表着是第一个被识别的领导个体。当小生境的领导个体被选定后，这个小生境则被定义为如果群体中至少有一个个体与领导个体的距离小于相应的小生境半径，并且未被标记过，则领导个体作为新产生小生境的代表者，同时标记从属的个体；否则，该领导个体被视为独立个体。这是一个循环迭代的过程，当这个过程执行到群体的最后一个个体后，群体P_t被分为v(t)个小生境和若干独立个体的集合；

群体用下面的公式表示：

P_{t} = (\underset{i &Element; {1, . . ., v (t)}}{\cup} S_{t}^{i}) \cup S_{t}^{*} - - - (4)

这里代表候选小生境个体的集合，代表独立个体的集合。

3.如权利要求1或2所述的基于带有多样化半径技术的小生境遗传算法的聚类方法，其特征在于：所述步骤4)中，定义1为合并规则：令N_i和N_j分别表示两个不同的小生境，他们的领导个体的适应度分别为f_i和f_j，若f_i>f_j，则将N_j合并到N_i中去，否则，将N_i合并到N_j中去；

d(N_i,N_j)＝d(M_i,M_j)＝||M_i-M_j||². (5)

w_{ij} = \{\begin{matrix} 1 ifd (N_{i}, N_{j}) = \min_{k &NotEqual; j, k = 1,2, . . ., v (t)} d (N_{k}, N_{j}), \\ 0 otherwise, \end{matrix} - - - (6)

x＝M_i+k(M_j-M_i),k∈(0,1). (7)

f(x_m)＜min(f_i,f_j), (8)

s_{t}^{' i} = s_{t}^{i} + s_{t}^{j}, - - - (9)

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{k}) if δ_{v (t)}^{i} < d (M_{i}, N_{j}^{k}) \\ δ_{v (t)}^{i} otherwise \end{matrix}, - - - (10)

这里N_j中的个体k，同时，设置

u(t)＝u(t)-1. (12)

δ_{v (t)}^{' i} = \{\begin{matrix} d (M_{i}, N_{j}^{w}) if N_{j}^{w} &NotEqual; N_{j}^{f} \\ δ_{v (t)}^{i} otherwise \end{matrix} . - - - (13);

多样化半径机制的具体过程如下：

4.1)计算所有候选小生境之间的距离；

4.2)从第一个小生境顺序执行下列步骤到最后一个小生境：

4.3)根据理论3更新所有小生境的半径；

4.4)调整初始半径

P_{t} = (\underset{i &Element; {1, . . ., v (t)}}{\cup} S_{t}^{' i}) \cup S_{t}^{' *} . - - - (14)

m_{i} = \underset{p_{j} &Element; s_{t}^{i}}{Σ} sh (d_{ij}) - - - (15) .

4.如权利要求3所述的基于带有多样化半径技术的小生境遗传算法的聚类方法，其特征在于：定义一个忍受因子δ，此时公式8则修改为：

f(x_m)＜δmin(f_i,f_j). (16)。

5.如权利要求4所述的基于带有多样化半径技术的小生境遗传算法的聚类方法，其特征在于：所述步骤6)中，若c₁和c₂为父代个体，则后代c在父代经过中间重组交叉操作后的结果是：c＝c₁+r(c₁-c₂),这里r是[0,1]之间的符合平均分布的随机数；

c_{0}^{q} = c^{q} + r_{m} R (c_{\max}^{q} - c_{\min}^{q}) - - - (17)