CN110188785A

CN110188785A - 一种基于遗传算法的数据聚类分析方法

Info

Publication number: CN110188785A
Application number: CN201910242200.0A
Authority: CN
Inventors: 王利鑫
Original assignee: Shandong Inspur Cloud Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Information Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-08-30

Abstract

本发明特别涉及一种基于遗传算法的数据聚类分析方法。该基于遗传算法的数据聚类分析方法，首先从要聚类的样本集选出初始种群；对选出的初始种群执行遗传算法；对执行完遗传算法后产生的新种群执行K‑means操作；步骤(A)‑步骤(C)反复循环，直到寻找出聚类问题的最优解。该基于遗传算法的数据聚类分析方法，将K‑means算法的局部寻优与遗传算法的全局寻优相结合，通过多次选择、交叉、变异的遗传操作，最终得到最优的聚类数和初始质心集，克服了传统K‑means算法的局部性和对初始聚类中心的敏感性，实现了对数据的有效分类。

Description

一种基于遗传算法的数据聚类分析方法

技术领域

本发明涉及遗传算法技术领域，特别涉及一种基于遗传算法的数据聚类分析方法。

背景技术

聚类分析是一个无监督的学习过程，是指按照事物的某些属性将其聚集成类，使得簇间相似性尽量小，簇内相似性尽量大，实现对数据的分类。聚类分析是数据挖掘技术的重要组成部分，它既可以作为独立的数据挖掘工具来获取数据库中数据的分布情况，也可以作为其他数据挖掘算法的预处理步骤。聚类分析已成为数据挖掘主要的研究领域，目前已被广泛应用于模式识别、图像处理、数据分析和客户关系管理等领域中。

K-means算法是聚类分析中一种基本的划分方法，因其算法简单、理论可靠、收敛速度快、能有效处理较大数据而被广泛应用。但传统的K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感，容易受初始选定的聚类中心的影响而过早地收敛于局部最优解，因此亟需一种能克服上述缺点的全局优化算法。

遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。在进化过程中进行的遗传操作包括编码、选择、交叉、变异和适者生存选择。它以适应度函数为依据，通过对种群个体不断进行遗传操作实现种群个体一代代地优化并逐渐逼近最优解。用遗传算法求解聚类问题，首先要解决三个问题：

(1)如何将聚类问题的解编码到个体中；

(2)如何构造适应度函数来度量每个个体对聚类问题的适应程度，即如果某个个体的编码代表良好的聚类结果，则其适应度就高；反之，其适应度就低。适应度函数类似于有机体进化过程中环境的作用，适应度高的个体在一代又一代的繁殖过程中产生出较多的后代，而适应度低的个体则逐渐消亡；

(3)如何选择各个遗传操作以及如何确定各控制参数的取值。

解决了这些问题就可以利用遗传算法来求解聚类问题，这也显示了遗传算法与求解问题无关的特性。

鉴于遗传算法的全局优化性，针对应用最为广泛的K-means方法的缺点，本发明提出了一种基于遗传算法的K-means聚类算法，以克服传统K-means算法的局部性和对初始聚类中心的敏感性。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于遗传算法的数据聚类分析方法。

本发明是通过如下技术方案实现的：

一种基于遗传算法的数据聚类分析方法，其特征在于，包括以下步骤：

(A)首先从要聚类的样本集选出初始种群；

(B)对选出的初始种群执行遗传算法；

(C)对执行完遗传算法后产生的新种群执行K-means操作；

(D)步骤(A)-步骤(C)反复循环，直到寻找出聚类问题的最优解。

所述步骤(A)中，初始群体随机生成，具体步骤如下：

(1)首先从样本空间中随机选出k个个体，每个个体表示一个初始聚类中心；

(2)然后根据所采用的编码方式将这组随机选出的初始聚类中心编码成一条染色体；

(3)重复进行m次染色体初始化，直到生成初始种群，所述m为种群大小。

所述步骤(2)中，染色体编码采用基于聚类中心的浮点数编码方法。

所述步骤(B)中，对选出的初始种群执行遗传算法，包括以下步骤：

(1)采用锦标赛选择法进行选择操作，随机地从种群中挑选一定数目的个体，然后从中选出适应度最大的个体作为父个体，重复迭代该步骤直到父个体的总数达到种群规模；

(2)采用适合浮点数编码的算术交叉算子对两个相互配对的染色体进行交叉操作，形成两个新的个体；

(3)采用均匀变异算子对交叉操作得到的新个体染色体编码串进行变异操作，从而形成一个新的个体。

所述步骤(1)中，适应度是用来评价个体的适应度，区别群体中个体优劣的标准；个体的适应度越高，其存活的概率就越大；由于聚类准则函数J越小说明聚类划分的质量越好，聚类准则函数J越大说明聚类划分的质量越差，因此适应度函数表示为：

其中，聚类准则函数J公式为：

其中，k为聚类类别数，S_j为第j个类别的样本集合，x为样本对象，z_j为S_j集合的聚类中心。

所述步骤(2)中，交叉操作是指对两个相互配对的染色体按某种方式相互交换部分基因，从而形成两个新的个体；算术交叉是指由两个个体的线性组合而产生出两个新的个体。

当在两个个体x₁和x₂之间进行算术交叉时，交叉操作后产生的新个体为：

其中，α是交叉参数，在均匀算术交叉中α是一个常数。

所述步骤(3)中，变异是指将个体染色体编码串中的某些基因座上的基因值用该基因座的其他等位来替换，从而形成一个新的个体；变异的目的是改善遗传算法的局部搜索能力；维持群体的多样性，防止早熟收敛；变异操作包括以下步骤：

(S1)依次指定个体编码串中的每个基因座为变异点，并确定每个基因点的取值范围[U_min，U_max]；

(S2)对每一个变异点，以变异概率P_m从对应基因的取值范围内取一个随机数来代替原有值，其中变异点的新基因值为：

其中，r为(0，1)范围内符合均匀概率分布的一个随机数。

所述步骤(C)中，以变异后产生的新群体的编码值作为中心，把每个数据对象分配到最近的类，形成新的聚类划分；然后计算新的聚类中心，取代原来的编码值；经K-means优化操作后产生新一代种群开始执行下一轮遗传算法操作。

综上所述，该基于遗传算法的数据聚类分析方法，具体步骤如下：

(1)设置遗传参数，包括聚类类别数k，种群规模m，最大迭代次数T，交叉概率P_c和变异概率P_m；

(2)从样本中随机选取k个点作为聚类中心并进行染色体编码，重复m次，产生初始种群；

(3)计算群体中各个体的适应度f；

(4)依次通过选择操作、交叉操作、变异操作和K-means操作，产生新一代群体；

(5)重复步骤(3)和步骤(4)，直到达到最大迭代次数T；

(6)计算新一代群体的适应度f，以最大适应度的最佳个体为中心进行K-means聚类；

(7)输出聚类结果。

本发明的有益效果是：该基于遗传算法的数据聚类分析方法，将K-means算法的局部寻优与遗传算法的全局寻优相结合，通过多次选择、交叉、变异的遗传操作，最终得到最优的聚类数和初始质心集，克服了传统K-means算法的局部性和对初始聚类中心的敏感性，实现了对数据的有效分类。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该基于遗传算法的数据聚类分析方法，包括以下步骤：

(A)首先从要聚类的样本集选出初始种群；

(B)对选出的初始种群执行遗传算法；

(C)对执行完遗传算法后产生的新种群执行K-means操作；

(D)步骤(A)-步骤(C)反复循环，直到寻找出聚类问题的最优解。

所述步骤(A)中，初始群体随机生成，具体步骤如下：

遗传算法的编码方法分为三大类：二进制编码、符号编码和浮点数编码，其中二进制编码方法是遗传算法中最主要和常用的一种编码方法。由于聚类样本具有多维性、数据量大等特点，如果采用传统的二进制编码，染色体的长度会随着维数的增加或精度的提高而显著增加，从而使得搜索空间急剧增大，大大降低了计算效率。所述步骤(2)中，染色体编码采用基于聚类中心的浮点数编码方法。

例如对于一个类别为3的聚类问题，假设数据集为2维，初始的3个聚类中心点为(10， 20)、(30，40)和(50，60)，则染色体编码为(10，20，30，40，50，60)。这种基于聚类中心的编码方式意义明确、直观，缩短了染色体的长度，提高了运算效率,对于求解大量数据的复杂聚类问题效果较好。

遗传算法使用选择操作来实现对群体中的个体进行优胜劣汰操作，适应度高的个体被遗传到下一代群体中的概率大，适应度低的个体被遗传到下一代群体中的概率小。所述步骤(1)中，适应度是用来评价个体的适应度，区别群体中个体优劣的标准；个体的适应度越高，其存活的概率就越大；由于聚类准则函数J越小说明聚类划分的质量越好，聚类准则函数J越大说明聚类划分的质量越差，因此适应度函数表示为：

其中，聚类准则函数J公式为：

其中，α是交叉参数，在均匀算术交叉中α是一个常数。

其中，r为(0，1)范围内符合均匀概率分布的一个随机数。

由于K-means是一种局部搜索能力强的算法，该基于遗传算法的数据聚类分析方法，在每一代执行完遗传操作后引入了K-means算法中的一个操作步骤K-means操作，对新生种群中的每个个体进行K-means优化，优化后的群体作为下一代种群进入演化。这样不仅可以提高混合算法的局部搜索能力，同时也有利于提高其收敛速度。

(1)设置遗传参数，包括聚类类别数k，种群规模m，最大迭代次数T，交叉概率 P_c和变异概率P_m；

(3)计算群体中各个体的适应度f；

(5)重复步骤(3)和步骤(4)，直到达到最大迭代次数T；

(7)输出聚类结果。

为了验证算法的有效性，对K-means算法和该基于遗传算法的数据聚类分析方法(简称GKA算法)进行了对比实验。分别编写K-means算法和GKA算法，导入数据进行实验。实验数据来自KDD CUP(数据挖掘与知识发现竞赛)，数据集分别是机器学习常用数据集iris和wine。其中，iris包含150个数据，分为3类，每类50个数据，每个数据包含4个属性；wine数据集包含178个数据，分为3类，每个数据包含13个属性。

该基于遗传算法的数据聚类分析方法，参数设置如下：种群大小m＝30，算法的最大迭代次数T＝50，交叉概率P_c＝0.9，变异概率P_m＝0.001。

所有算法各运行20次，运行结果如表1所示。从表1可以看出，K-means算法对初始聚类中心的选取敏感性很大，容易陷入局部最小值，并不是每次都能得到最优解，特别是对于wine这种较高维度的数据集，有时聚类准确度不够理想。除数据集iris外，K-mean 算法每组数据收敛到最优解的平均迭代次数都比GKA算法多，所以GKA算法的收敛速度也较快。实验结果表明，GKA算法在聚类准确度和收敛速度上均比K-means算法更优。

表1 K-means和GKA算法比较

Claims

1.一种基于遗传算法的数据聚类分析方法，其特征在于，包括以下步骤：

(A)首先从要聚类的样本集选出初始种群；

(B)对选出的初始种群执行遗传算法；

(C)对执行完遗传算法后产生的新种群执行K-means操作；

(D)步骤(A)-步骤(C)反复循环，直到寻找出聚类问题的最优解。

2.根据权利要求1所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(A)中，初始群体随机生成，具体步骤如下：

3.根据权利要求2所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(2)中，染色体编码采用基于聚类中心的浮点数编码方法。

4.根据权利要求1所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(B)中，对选出的初始种群执行遗传算法，包括以下步骤：

5.根据权利要求4所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(1)中，适应度是用来评价个体的适应度，区别群体中个体优劣的标准；个体的适应度越高，其存活的概率就越大；由于聚类准则函数J越小说明聚类划分的质量越好，聚类准则函数J越大说明聚类划分的质量越差，因此适应度函数表示为：

其中，聚类准则函数J公式为：

6.根据权利要求4所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(2)中，交叉操作是指对两个相互配对的染色体按某种方式相互交换部分基因，从而形成两个新的个体；算术交叉是指由两个个体的线性组合而产生出两个新的个体；

其中，α是交叉参数，在均匀算术交叉中α是一个常数。

7.根据权利要求4所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(3)中，变异是指将个体染色体编码串中的某些基因座上的基因值用该基因座的其他等位来替换，从而形成一个新的个体；变异的目的是改善遗传算法的局部搜索能力；维持群体的多样性，防止早熟收敛；变异操作包括以下步骤：

其中，r为(0，1)范围内符合均匀概率分布的一个随机数。

8.根据权利要求1所述的基于遗传算法的数据聚类分析方法，其特征在于：所述步骤(C)中，以变异后产生的新群体的编码值作为中心，把每个数据对象分配到最近的类，形成新的聚类划分；然后计算新的聚类中心，取代原来的编码值；经K-means优化操作后产生新一代种群开始执行下一轮遗传算法操作。

9.根据权利要求1～8任意一项所述的基于遗传算法的数据聚类分析方法，其特征在于，具体步骤如下：

(3)计算群体中各个体的适应度f；

(5)重复步骤(3)和步骤(4)，直到达到最大迭代次数T；

(7)输出聚类结果。