CN103617206A

CN103617206A - 基于自适应小生境的遗传聚类方法

Info

Publication number: CN103617206A
Application number: CN201310580924.9A
Authority: CN
Inventors: 盛伟国; 白丽叶; 盛蒙蒙; 单鹏霄; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-03-05

Abstract

一种基于自适应小生境的遗传聚类方法。该方法针对较大数据或大数据的遗传聚类问题，提出一种基于自适应小生境的遗传聚类算法。首先，生成一个初始种群，选择父本交叉产生后代；然后，采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体，并与其进行生存竞争，若后代优于被选择的竞争个体，则代替其进入种群；该过程不断重复直至终止条件成立并最后给出种群的最优解。

Description

基于自适应小生境的遗传聚类方法

技术领域

本发明涉及智能算法和数据聚类领域，具体涉及一种基于自适应小生境的遗传聚类方法，通过嵌入限制锦标赛选择（RTS）小生境方法自动设置其参数值。

背景技术

数据聚类是机器学习中最难、最具挑战性的问题之一。它的目标是将一个数据对象划分为多个簇，使得同一个簇内的对象彼此相似，来自不同簇的对象彼此不相似。数据聚类是无监督学习的一种基本工具，已被广泛应用于许多科学与工程领域，例如大数据分析和计算机视觉等。一般来讲，当需要把大量信息分类成便于管理的有意义的簇的时候，聚类方法极其重要。

数据聚类算法主要包括分层聚类和分割聚类。分层聚类方法生成簇的层次结构，每个簇嵌套在一个更高层次的簇内。这种方法不存在局部最优以及对初始化敏感等问题。然而，分层聚类在聚类过程中仅利用局部信息，忽略簇的大小和全局形状。此外，该方法是一种静态聚类方法，数据对象在聚类的早期阶段被分配到一个给定的簇后，在下一个阶段不能再被分配到其它的簇中。相对于分层聚类，分割聚类则是一种动态的方法，并且考虑簇的大小和全局形状。本发明专利设计的方法针对数据进行分割聚类。

对于一个较大的数据集，确定其最优分割结果被认为是非常困难的问题。为了解决这一难题，现有的方法往往采用随机优化技术，其中最突出的技术是遗传算法。遗传算法（GA）作为一种搜索和优化技术，目前已被广泛应用于生物信息学、计算机科学、工程学等领域。在数据聚类中，对于一些搜索空间较小的聚类问题，传统的GA通常有能力确定最优聚类方案。然而，对于复杂的聚类问题，往往涉及大量的局部最优解，传统GA则无法找出最优聚类结果。这主要是由于传统的GA在进化过程中不能保持解决方案多样性，从而导致整个种群过早收敛到局部最优解。

小生境方法的出现和发展能够缓解这一问题。在搜索过程中，应用小生境方法可以保持种群的多样性，从而防止陷入较差的局部最优解。然而，这些小生境方法的运行效果通常取决于其特定参数的设置。通常这些参数在被设定为某个值后，在整个遗传算法的运行过程中保持不变。由于遗传算法的运行是动态的过程，在整个运行过程中保持小生境方法参数值不变将在很大程度上限制其运行效果。

本发明提出了一种基于自适应RTS小生境的遗传聚类方法，该方法自动调节RTS小生境方法的参数，在种群中形成并维持高适应度的散布小生境，从而有效地探索聚类问题的复杂决策空间。

发明内容

本发明要解决现有遗传聚类算法的缺点和不足，提出一种基于自适应小生境的遗传聚类方法。该方法设计和采用自适应RTS小生境方法在种群中形成和维持高适宜度的散布小生境，从而有效地探索聚类问题的复杂决策空间。

本发明解决其技术问题所采用的方案是：

一种基于自适应小生境的遗传聚类方法，包括如下步骤：

1.产生一个具有P个解的初始种群；

2.计算初始种群中每一个解的适宜度值；

DB = \frac{1}{K} Σ_{i = 1}^{K} \max_{j, j &NotEqual; i} {\frac{S_{i} + S_{j}}{d_{ij}}}

其中，K为簇数目，d_ij为簇C_i与C_j之间的距离，S_i为簇C_i的散布度，

S_{I} = 1 / | C_{i} | Σ_{x &Element; C_{i}} | | x - z_{i} | |

这里Z_i为簇C_i的中心值，|C_i|为簇C_i中数据对象的个数。

3.重复以下(a)-(d)操作步骤，直到满足终止条件：

(a)应用RTS小生境方法选择一对父本，重复该过程直到选择P/2对父本；

(b)对每对父本进行交叉操作产生后代，并对后代执行变异操作；

(c)采用自适应RTS小生境方法为每一个后代个体选择一个相似度最高的种群个体，并与其进行生存竞争；

(d)计算每一个后代个体的适宜度值，如果后代个体优于被选择的竞争个体，则取代其竞争个体进入种群。

4.提供最终种群的最优解。

本发明提出的基于自适应小生境的遗传聚类算法，其关键技术在于采用可自动调节小生境参数的RTS方法，在种群中形成并维持高适应度的散布小生境。

对于每对父本产生的后代中的每一个个体，在种群中随机选取w个个体，确定其中与后代个体相似度最高的个体，并使其与后代个体进行基于适宜度的生存竞争；在选取个体的过程中，参数w值的设定对于方法的实施至关重要。本发明通过设计种群多样性指标，从而自适应的调整w值。

自适应RTS方法的具体步骤如下：

(1)根据个体中簇数目的不同，将种群P分成b个子种群。对于每个子种群S_j（j=1,2,…,b），设c为子种群中的个体数量，k为子种群中个体包含的簇数目，d为数据的维数。

(2)首先，根据每个个体在适宜度，通过其与子种群在解空间平均位置的距离，计算该子种群多样性。详细操作如下：

(2.1)计算子种群的平均基因位置：

A_{m} = \frac{1}{c} Σ_{i = 1}^{c} P_{i, m}

上式中，P_i,m为个体P_i的第m个基因，P_i=(P_i,1,P_i,2,…,P_i,k×d)。

(2.2)计算每个个体对子种群多样性的贡献，即计算每个个体到平均基因位置的适宜度加权距离：

P D_{i}^{S_{j}} = w_{i} \times \sqrt{\frac{1}{k} Σ_{m = 1}^{k \times d} {(P_{i, m} - A_{m})}^{2}}

其中，w_i=f_i/f_ave，f_i和f_ave分别是个体的适宜度和子种群的平均适宜度。

(2.3)通过求和所有个体对多样性的贡献，计算该子种群的多样性：

P D^{S_{j}} = Σ_{i = 1}^{c} P D_{i}^{S_{j}}

然后根据种群中存在的子种群数目，计算其多样性贡献：

P D^{b} = b \times {PD}_{i}^{\max}

上式中，

为当前一代种群中个体对多样性的最大贡献值。

最后，种群的多样性可以表示为：

PD = P D^{b} + Σ_{j = 1}^{b} P D^{S_{j}}

(3)通过步骤（2）动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略：在演化的初始阶段，使用一个较大的值w_max以促进在搜索空间中具较好适宜度小生境的形成。在此阶段，由于越来越多具较好适宜度小生境的形成，种群多样性指标也将相应增长。当种群多样性指标停止增长，则该阶段结束并记录种群多样性的最大值。然后，基于动态计算得到的种群多样性值，根据以下公式自动调节参数w的值：

w = w_{\max} - \frac{PD}{P D_{\max}} \times (w_{\max} - w_{\min})

上式中，w_max和w_min分别为w的上下界值，PD_max是到目前为止演化过程中得到的PD的最大值。

本发明的技术构思为：针对现有小生境方法中存在的缺点和不足，提出一种基于自适应小生境的遗传聚类算法，设计了自适应RTS小生境方法。具体的，根据演化聚类过程中动态计算得到的种群多样性指标来自动调整RTS中的参数w。本发明方法可在种群中形成并维持高适应度的散布小生境，从而有效地探索聚类问题的复杂决策空间。

本发明的创新之处在于：首先，设计种群多样性指标，根据该多样性指标自动调节RTS的参数值，从而有效克服如何为RTS设定其至关重要的参数值这一难题；其次，采用发明的自适应RTS方法有效解决较大数据或大数据的遗传聚类问题。对于这一特定问题，设计的种群多样性指标可同时用于促进群体的基因和适宜度的多样性。通过该指标控制RTS的参数，可在种群中形成和维持高适应度的散布小生境，从而有效搜索聚类问题中的复杂决策空间。

附图说明

图1是本发明中基于自适应小生境的遗传聚类方法流程图。

图2a是本发明中采用的模拟数据集1。

图2b是本发明中采用的模拟数据集2。

图3a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的运行中得到的最优解平均适宜度值（十次平均）。

图3b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的运行中得到的最优解平均适宜度值（十次平均）。

图4a是本发明中基于自适应小生境的遗传聚类方法在模拟数据1上的聚类结果。

图4b是本发明中基于自适应小生境的遗传聚类方法在模拟数据2上的聚类结果。

具体实施方式

下面结合附图1和实例对本发明的技术方案做进一步的详细说明。

1.产生一个具有P个解的初始种群；

2.计算初始种群中每一个解的适宜度值，

DB = \frac{1}{K} Σ_{i = 1}^{K} \max_{j, j &NotEqual; i} {\frac{S_{i} + S_{j}}{d_{ij}}}

S_{I} = 1 / | C_{i} | Σ_{x &Element; C_{i}} | | x - z_{i} | |

这里Z_i为簇C_i的中心值，|C_i|为簇C_i中数据对象的个数。

3.重复以下(a)-(d)操作步骤，直到满足终止条件：

(d)计算每一个后代个体的适宜度值，如果后代个体优于被选择的竞争个体，则取代该个体进入种群。

4.提供最终种群的最优解。

在步骤3（c）中，对于每对父本产生的后代中的每一个个体，在种群中随机选取w个个体，确定其中与后代个体相似度最高的个体，并使其与后代个体进行基于适宜度的生存竞争；在选取个体的过程中，本发明通过设计种群多样性指标来自适应调整w的值。

步骤3（c）中采用自适应RTS方法调节w值的具体操作如下：

(2)首先，根据每个个体的适宜度，通过加权其与子种群在解空间平均位置的距离，计算该子种群多样性。

(2.1)计算子种群的平均基因位置：

A_{m} = \frac{1}{c} Σ_{i = 1}^{c} P_{i, m} - - - (1)

其中，P_i,m为个体P_i的第m个基因，P_i=(P_i,1,P_i,2,…,P_i,k×d)。

P D_{i}^{S_{j}} = w_{i} \times \sqrt{\frac{1}{k} Σ_{m = 1}^{k \times d} {(P_{i, m} - A_{m})}^{2}} - - - (2)

其中w_i=f_i/f_ave，f_i和f_ave分别是个体的适宜度和子种群的平均适宜度。

P D^{S_{j}} = Σ_{i = 1}^{c} P D_{i}^{S_{j}} - - - (3)

然后根据种群中存在的子种群数目，计算其多样性贡献：

P D^{b} = b \times {PD}_{i}^{\max} - - - (4)

其中，

为当前一代种群中个体对多样性的最大贡献值。

最后，种群的多样性可以表示为：

PD = P D^{b} + Σ_{j = 1}^{b} P D^{S_{j}} - - - (5)

(3)通过步骤（2）动态计算得到的种群多样性值并用于自动调节RTS中参数w的值。具体策略：在演化的初始阶段，使用一个较大的值w_max以促进在搜索空间中具较好适宜度小生境的形成。在此阶段，由于越来越多具较好适宜度的小生境的形成，种群多样性指标也将相应增长。当种群多样性指标停止增长，则此阶段结束并记录种群多样性最大值。然后，基于动态计算得到的种群多样性值，根据以下公式自动调节参数w的值：

w = w_{\max} - \frac{PD}{P D_{\max}} \times (w_{\max} - w_{\min}) - - - (6)

上式中，w_max和w_min分别为w的上下界值，PD_max是到目前为止演化过程

中计算得到的PD的最大值。

实例

实验模拟数据采用R软件生成，如图2所示。从图2中可以看出，模拟数据1中的簇具有不同大小和尺寸，且其中几个簇之间存在相互重叠的状况；模拟数据2则具有大量的簇，并且被加入许多噪声数据以增大聚类的难度。

在实验步骤1中，种群大小被设为Q=100，步骤3（b）中变异率被设为r=0.01；然后在模拟数据上运行步骤1-3操作，在运行过程步骤3（c）中的RTS的w的值根据设计的自适应策略（即步骤3（c）中的具体操作（1）-（3））自动调节；该操作循环运行直到终止条件（即最优解在20代循环中没有变化）成立。根据运行结果，在2个模拟数据上，设计的算法都能正确的找到簇的数目，就聚类的准确性，在模拟数据1上为97.4%，在模拟数据2上为89.4%。本发明方法在模拟数据1上10次运行过程中得到的最优解的平均适宜度值如附图3所示，在模拟数2据上的运行结果如附图4所示。

由实验结果可以看出，本发明方法不仅可以准确确定较大数据或大数据的遗传聚类中簇的数量问题，而且求出的最优解具有较高的聚类精确度。

Claims

1.一种基于自适应小生境的遗传聚类方法，包括如下步骤：

第一步：产生一个具有P个解的初始种群；

第二步：计算初始种群中每一个解的适宜度值；

DB = \frac{1}{K} Σ_{i = 1}^{K} \max_{j, j &NotEqual; i} {\frac{S_{i} + S_{j}}{d_{ij}}}

S_{I} = 1 / | C_{i} | Σ_{x &Element; C_{i}} | | x - z_{i} | |

这里Z_i为簇C_i的中心值，|C_i|为簇C_i中数据对象的个数。

第三步：重复以下(a)-(d)操作步骤，直到满足终止条件：

第四步：提供最终种群的最优解。

2.如权利要求1所述的一种基于自适应小生境的遗传聚类方法，其特征在于：在第三步(c)中设计种群多样性指标来自适应的调整RTS小生境方法的关键参数w的值，具体步骤如下：

(1)根据个体中簇数目的不同，将种群P分成b个子种群。对于每个子种群S_j（j=1,2,…,b），设c为子种群中的个体数量，k为子种群中个体包含的簇数目，d为数据的维数；

(2)根据每个个体的适宜度，通其与子种群在解空间平均位置的距离，计算该子种群多样性。详细操作如下：

(2.1)计算子种群的平均基因位置：

A_{m} = \frac{1}{c} Σ_{i = 1}^{c} P_{i, m}

上式中，P_i,m为个体P_i的第m个基因，P_i=(P_i,1,P_i,2,…,P_i,k×d)；

P D_{i}^{S_{j}} = w_{i} \times \sqrt{\frac{1}{k} Σ_{m = 1}^{k \times d} {(P_{i, m} - A_{m})}^{2}}

其中，w_i=f_i/f_ave，f_i和f_ave分别是个体的适宜度和子种群的平均适宜度；

P D^{S_{j}} = Σ_{i = 1}^{c} P D_{i}^{S_{j}}

然后根据种群中存在的子种群数目，计算其多样性贡献：

P D^{b} = b \times {PD}_{i}^{\max}

上式中，

为当前一代种群中个体对多样性的最大贡献值；

最后，种群的多样性可以表示为：

PD = P D^{b} + Σ_{j = 1}^{b} P D^{S_{j}}

(3)通过步骤（2）动态计算得到的种群多样性值并用于自动调节RTS中参数w的值；具体策略：在演化的初始阶段，使用一个较大的值w_max以促进在搜索空间中具较好适宜度小生境的形成。然后，基于动态计算得到的种群多样性值，根据以下公式自动调节参数w的值：

w = w_{\max} - \frac{PD}{P D_{\max}} \times (w_{\max} - w_{\min})