CN111368891A

CN111368891A - 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法

Info

Publication number: CN111368891A
Application number: CN202010122596.8A
Authority: CN
Inventors: 邱少明; 张斌; 杜秀丽; 吕亚娜
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-03
Anticipated expiration: 2040-02-27
Also published as: CN111368891B

Abstract

本发明公开了一种基于免疫克隆灰狼优化算法的K‑Means文本聚类方法，属于数据挖掘领域，该方法包括对文本数据进行数据预处理，采用余弦角度为相似性度量，分别计算预处理后的文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离，再计算下一个灰狼个体的数据分配结果，直到灰狼种群中所有的灰狼个体都计算完毕，得到N种初步文本聚类结果，从适应度值降序排列的灰狼种群个体中，选择前m个形成灰狼个体组成精英种群；根据X_α聚类中心得到最终的文本数据聚类结果；该方法可以克服传统K‑Means算法容易陷入局部最优，对初始聚类中心的过度依赖的局限性，极大的提高了文本数据划分的准确性。

Description

一种基于免疫克隆灰狼优化算法的K-Means文本分类方法

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于免疫克隆灰狼优化算法的K-Means文本分类方法。

背景技术

随着科技进步和存储成本的降低，人们倾向于用电子媒介存储文本文件与信息。目前，绝大多数的信息的表现形式为文本形式，如何在大量的文本中提取用户感谢兴趣的、潜在有用的信息是需要解决的问题。文本挖掘是对文本信息进行数据挖掘的过程，随着文本数据的增长，文本挖掘成为数据挖掘领域中的一个重要研究方向，而文本聚类是文本挖掘方法中重要的信息挖掘方法。

文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。

而现如今用于文本聚类的方法一般分为5类：(1)基于划分的文本聚类方法；(2)基于密度的文本聚类方法；(3)基于网格的文本聚类方法(4)基于层次的文本聚类方法；(5)基于模型的文本聚类

本发明所用到的文本聚类方法：K-Means算法，就是基于划分的文本聚类方法：给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：(1)每一个分组至少包含一个数据纪录；(2)每一个数据纪录属于且仅属于一个分组(注意：这个要求在某些模糊聚类算法中可以放宽)；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的记录越远越好。如K-Means算法，K-MEDOIDS算法、CLARANS算法等；

Kmeans算法是一种典型的基于划分的聚类算法，该聚类算法的基本思想是在聚类开始时根据用户预设的类簇数目k随机地在所有文本集当中选择k个对象，将这些对象作为k个初始类簇的平均值或者中心，对于文本集中剩余的每个对象，根据对象到每一个类簇中心的欧几里得距离，划分到最近的类簇中；全部分配完之后，重新计算每个类簇的平均值或者中心，再计算每篇文本距离这些新的类簇平均值或中心的距离，将文本重新归入目前最近的类簇中；不断重复这个过程，直到所有的样本都不能再重新分配为止。

但是K-Mean算法也存在着一些缺点：(1)对初始聚类中心的选取比较敏感，往往得不到全局最优解，得到的多是次优解；(2)关于算法需要预先设定的k值，限定了聚类结果中话题的个数，这在非给定语料的应用中并不可行；(3)该算法容易受到异常点的干扰而造成结果的严重偏差。因此多采用运用元启发算法：如引力搜索算法、模拟退火算法、粒子群算法、遗传算法，凭借其优秀的寻优能力以及收敛速度来克服K-Means算法的局限性，灰狼优化算法(Grey Wolf Optimizer，GWO)较上述提及的元启发算法有更好的全局寻优能力，部分研究人员采用灰狼优化算法去克服K-Means算法的缺点：Kumar V等开发了一种基于GWO算法的聚类算法，与传统K-Means算法相比，提高了聚类性能；Zhang等提出了一种具有Powell局部优化的GWO聚类算法；杨红光等提出了一种结合灰狼优化和K-Means的混合聚类算法，以解决K-Means算法对初始中心选择敏感和全局搜索能力不足的缺点；刘佳铭同样将GWO算法与K-Means算法结合以改善K-Means算法对初始聚类中心位置敏感的问题。

尽管上述方法在一定程度上改进了算法的聚类效果，但是早熟收敛现象仍然发生，种群多样性较差，算法仍可能出现早熟收敛现象。基于此，本发明将免疫克隆选择加入到GWO算法(ICGWO)中，以提高GWO算法的深度探索能力，来克服K-Means算法自身局限性。

发明内容

根据现有技术存在的问题，本发明公开了一种基于免疫克隆灰狼优化算法的K-Means文本分类方法，包括以下步骤：

S1：对文本数据进行数据预处理，得到预处理后的文本数据；

S2：采用余弦角度为相似性度量，分别计算预处理后的文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离，并按相似度最接近的原则，分别将本文数据中的数据对象分配到对应的K个类簇中，直到所有的数据对象分配完毕，形成K个类簇；再计算下一个灰狼个体的数据分配结果，直到灰狼种群中所有的灰狼个体都计算完毕，得到N种初步文本聚类结果；

S3：分别计算每一个灰狼个体到数据中心点间的距离之和，分别得到了N个灰狼个体的适应度评估函数值；

S4：对N个适应度评估函数值进行排序，选出适应度评估函数值最小的前三只狼作为α狼，β狼，δ狼；并根据α狼，β狼，δ狼三只狼的位置，计算灰狼种群中其他灰狼个体到三只狼的距离，并计算其余灰狼个体位置更新的中间变量

的值；

S5：从适应度值降序排列的灰狼种群个体中，选择前m个形成灰狼个体组成精英种群；

S6：克隆精英种群中的所有个体，并对克隆个体执行高频变异；

S7：对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新；

S8：判断免疫克隆改进的灰狼优化算法的K-Means的文本聚类方法法是否达到最大迭代次数，如果否，则继续执行步骤2；如果是，输出α狼的适应度值及其位置X_α，根据X_α聚类中心得到最终的文本数据聚类结果。

进一步地：所述文本数据进行预处理步骤如下：

S1：采用分词软件划分反映完整文本句意的最小单位的词组；

S2：筛选无意义词组；

S3：采用向量空间模型进行数学建模，对分词后的本文数据采用词频统计进行分词权重计算，提取文本数据中的关键词；

S4：使用Word2Vec模型进行词的向量化，用向量化之后的文本数据向量作为聚类的数据输入。

进一步地，克隆精英种群中的所有个体的过程中形成的临时种群T的大小通过如下公式确定：

其中，round()函数为取整函数；λ是属于[0,1]之间的随机数；b是整型常数且b≥1；m是选取的精英个数，这样可以确保精英种群中的每个个体都有一定数量的克隆体。

进一步地，对种群T中的每个个体进行高频变异操作，突变算子如下公式所示：

η＝1-exp(1-imax/(i+1)) (4)

其中t_i是种群T第i次迭代的个体；

是t_i在经过变异操作后产生的新的个体；r₄,r₅,r₆是属于[0,1]之间的随机数；i代表第i次迭代；i_max表示克隆变异操作的最大迭代次数；η是克隆变异参数，p表示增加变异可能性的一个随机变量。

进一步地，适应度评估函数值公式如公式如下：

其中，K代表聚类个数，其中X_i(i＝1,2,3...,n)表述数据对象向量，X_j(j＝1,2,3,...,n)表示中心点向量。

进一步地，所述灰狼个体进行位置更新根据如下公式进行：

其中灰狼位置更新速度

通过如下公式确定：

其中，w称为惯性因子，r₇，r₈，r₉是属于[0,1]间的随机数，

分别表示控制种群中其余狼与三只头狼之间距离的参数，为了让其余狼判断是在全局范围搜索还是局部范围猎物，其大小范围在[0，2]之间；

分别表示位置更新后的灰狼个体位置的中间变量；

代表当前灰狼的位置。

由于采用了上述技术方案，本发明提供的基于免疫克隆灰狼优化算法的K-Means文本分类方法，利用免疫克隆灰狼优化算法的快速寻优能力快速找到各类文本的聚类中心，然后利用K-Means算法按距离最小的原则根据其聚类中心，将所有的文本数据进行最为准确性的类别划分，可以克服传统K-Means算法容易陷入局部最优，对初始聚类中心的过度依赖的局限性，极大的提高了文本数据划分的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于免疫克隆灰狼优化算法的K-Means文本聚类方法的流程图；

图2为灰狼种群中四个等级划分图；

图3为本发明为本发明算法与在GWO-KM算法Iris数据集上的类内距离之和收敛曲线对比图；

图4为本图发明算法与在GWO-KM算法Wine数据集上的类内距离之和收敛曲线对比图；

图5为本发明算法与在GWO-KM算法Heart数据集上的类内距离之和收敛曲线对比图；

图6为本发明算法与在GWO-KM算法Balancescale数据集上的类内距离之和收敛曲线对比图；

图7为本发明算法与在GWO-KM算法Seeds数据集上的类内距离之和收敛曲线对比图；

图8为本发明算法与在GWO-KM算法CMC数据集上的类内距离之和收敛曲线对比图；

图9为本发明算法与在GWO-KM算法Cancer数据集上的类内距离之和收敛曲线对比图；

图10为本发明算法与在GWO-KM算法Haberman数据集上的类内距离之和收敛曲线对比图。

图11为本发明算法在文本数据集文学分类中一次运行的准确率曲线图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

图1为本发明一种基于免疫克隆灰狼优化算法的K-Means文本聚类方法的流程图；将本发明应用于对文本数据的聚类中，由于文本数据不是数值型数据，所以在得到文本数据时，需要对文本数据进行数据的预处理及数学建模，才可以将本发明应用于对文本数据的聚类分析中，具体实施步骤如下：

S1：对文本数据进行数据预处理，预处理主要包括如下几个步骤，

S1-1本文分词：反映完整文本句意的最小单位是文本中的词组，为了将文本文档中的词语划分开来，采用的文本分词软件为：中科院研发的NLPIR分词软件；

S1-2筛选无意义词组：无意义的词组主要包括文本文档中出现的高频率词组和低频率词组，其中的高频率词组指的是各种文档中都常出现的词组，而低频率词组主要指的是停顿词和一些习惯用词；

S1-3提取文本数据中的关键词：采用向量空间模型进行数学建模，对分词后的本文数据采用词频统计(TF-IDF)进行分词权重计算，计算结果为一个列表和一个矩阵，列表中放置的是文本数据的分词(去除重复之后的)，矩阵中为每个词语对应的权值；

S1-4把分词后的所有的文本数据作为一个语料库，使用Word2Vec模型进行词的向量化，用向量化之后的文本数据向量作为聚类的数据输入；

S2：原始K-Means算法中对数据的相似性度量采用的是欧式距离的度量方法，但是对于文本数据，这样可能会造成很大的误差，因此，在这里将相似性度量改为使用余弦角度为相似性度量；

在S2中，相似性度量如公式(1)所示

其中Xi(i＝1,2,3...,n)表述数据对象向量，和Xj(j＝1,2,3,...,n)表示中心点向量。

S3：按照K-Means算法及S2中更正的公式，分别计算文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点(每个灰狼个体都包含K个初始聚类中心)间的距离，并按相似度最接近的原则，分别将本文数据中的数据对象分配到对应的K个类簇中，直到所有的数据对象分配完毕，形成K个类簇；再计算下一个灰狼个体的数据分配结果，直到灰狼种群中所有的灰狼个体都计算完毕，得到初步聚类结果；

S4：在S3中，通过对每个灰狼个体的相似性计算将所有的文本数据分为了K个不同的类簇，形成了n种不同的聚类结果；在数据挖掘的聚类分析中，类内距离之和是评估聚类准确度的一个重要指标；因此，在这里将类内距离之和(类内距离之和越小，表明聚类结果越准确)作为灰狼优化算法的适应度评估函数，分别计算N个灰狼个体的数据分配结果的类内距离之和(适应度评估函数值)；

在S4中，适应度评估函数：类内距离之和，可以通过发明内容中的公式(2)计算。

S5：通过S4的计算，分别得到了n个灰狼个体的适应度评估函数值，对n个适应度评估函数值进行排序，适应度评估函数值最小的前三只狼作为α狼，β狼，δ狼；并根据这三只狼的位置通过发明内容中的公式(3)计算灰狼种群中其他灰狼个体到这三只狼的距离，并计算

的值；

其中，D_α，D_β，D_δ分别代表灰狼个体到α狼，β狼，δ狼的距离，X_α，X_β，X_δ代表α狼，β狼，δ狼的位置,

可有公式(4)得出，

得到每只狼的距离之后，通过公式(4)和(5)更新灰狼个体的位置：

S6：将计算得到的灰狼适应度值进行排列，并从中选出前m个灰狼个体组成精英种群，m根据种群数来确定的，种群总数的1/4；克隆精英种群中的所有个体，确保精英种群中每个个体都有一定数量的克隆体，并对克隆个体执行高频变异；

S8：判断粒子群位置更新思想改进的灰狼优化算法的K-Means聚类算法是否达到最大迭代次数，如果否，则继续执行步骤2；如果是，输出α狼的适应度值及其位置X_α，其中X_α就是最终的聚类中心，根据X_α聚类中心得到的文本数据分配结果就是最终的文本数据聚类结果。

其中，round()函数为取整函数；λ是属于[0,1]之间的随机数；b是整型常数且b≥1；m是选取的精英个数；这样可以确保精英种群中的每个个体都有一定数量的克隆体。

进一步地：对种群T中的每个个体进行高频变异操作，突变算子如下公式所示：

η＝1-exp(1-i_max/(i+1)) (8)

其中t_i是种群T第i次迭代的个体；

是t_i在经过变异操作后产生的新的个体；r₄,r₅,r₆是属于[0,1]之间的随机数；i代表第i次迭代；i_max表示克隆变异操作的最大迭代次数；η是克隆变异参数，p表示增加变异可能性的一个随机变量。免疫克隆灰狼优化算法的增强性质体现在：

在原灰狼优化算法的基础中加入免疫克隆选择操作对原始灰狼种群中的精英个体进行更深入的探索，从精英中再挑出最佳的个体。其本质是根据精英个体的适应度对精英个体进行克隆操作，从而在克隆中产生一定数量的突变个体，以扩大搜索范围并改善种群多样性。

实施例1：通过以上对文本数据的聚类步骤，文本数据集分为了四类，文本数据类别及数据个数如表1所示：

表1文本数据

类别	女性	体育	文学出版	校园
					篇数	30	30	30	30

Matlab运行30次，取平均值作为聚类结果，准确度分别为：女性准确率：89.25％，体育准确率：83.13％，文学出版准确率：90.28％，校园准确率：72.69％。

实施例2，为验证本发明的聚类性能，在此对UCI数据库中提供的鸢尾花数据(Iris集)、葡萄酒数据(Wine数据集)、心脏病数据(Heart数据集)等不同的8个数据集进行聚类分析，通过聚类质量的评估标准：类内距离之和对聚类性能进行验证，关于8个数据集的详细信息介绍如表2。

表2 UCI数据集详情

数据集	类别数	特征数	数据个数
				Iris	3	4	150
Wine	3	13	178
				Seeds	3	7	210
Balancescale	3	4	625
				Cancer	2	9	683
Heart	2	13	270
				CMC	3	9	1473
Haberman	2	3	306

由于本发明方法对8种数据进行聚类分析的执行步骤具有很大的相似性(8个数据集不同的地方如表2所示的类别、特征以及数据个数)，为了避免冗余，以Wine数据集为例，首先对Wine数据集中的178个数据点计算每一个数据点分别到3个初始聚类中心的欧式距离，找出三个欧氏距离中距离最小的一个，并将该数据点划分为这一类别，经过178次距离计算，得到第一次的聚类结果；然后对聚类好的数据计算粒子群思想灰狼优化算法的适应度函数(类内距离之和)值，并进行带有粒子群位置更新思想的个体位置更新；最后达到最大迭代次数后，输出α狼的适应度值及其位置X_α，其中X_α就是Wine最优聚类中心，α狼的适应度值就是最佳的聚类结果。

本发明对Wine数据进行聚类分析的更详细的应用如下：

S1：对Wine数据集进行数据预处理，将数据中的类别数据去除；定义初始聚类类别K＝3，定义Wine数据特征数(维度)D＝13和灰狼个体数量n＝50；并按13个不同的维度对50个灰狼个体进行随机初始化(对Wine数据集，种群中每个个体包含了3个聚类中心)，获得包含50个灰狼个体的灰狼种群X＝{x₁,x₂,x₃,...,x₅₀}；

在S1中，获得的灰狼种群中每一个个体x_i由发明内容种的公式(9)获得。

x_i＝x_min+rand(0,1)·(x_max-x_min) (9)

其中：x_max和x_min分别是各维度数据的最大值和最小值，rand(0,1)属于是[0,1]之间的随机数。

S2：按照K-Means算法，分别计算Wine数据集中的每一个数据对象到每一个初始灰狼个体中3个初始聚类中心点(每个灰狼个体都包含3个初始聚类中心)间的距离，并按距离最近原则分别将Wine数据中的178个对象分配到对应的3个类簇中，直到所有的数据对象分配完毕，形成3个类簇；再计算下一个灰狼个体的数据分配结果，直到灰狼种群中所有的灰狼个体都计算完毕，得到50个聚类结果；

S2中，K-Means算法中，将Wine数据集中所有数据对象按距离不同分配到3个不同的类簇中，其中的距离采用欧式距离的计算方法，如发明内容中的公式(10)所示。

其中，s_i是数据点，c_j是第j个聚类中心，d(s_i,c_j)代表第i个数据点到第j个聚类中心的距离。

S3：在S2中，通过对每个灰狼个体的距离计算将所有的数据点分为了3个不同的类簇，形成了50种不同的聚类结果；在数据挖掘的聚类分析中，类内距离之和是评估聚类准确度的一个重要指标；因此，在这里将类内距离之和(类内距离之和越小，表明聚类结果越准确)作为灰狼优化算法的适应度评估函数，分别计算50个灰狼个体的数据分配结果的类内距离之和(适应度评估函数值)；在S3中，适应度评估函数：类内距离之和，可以通过发明内容中的公式(2)计算。

S4：通过S3的计算，分别得到了50个灰狼个体的适应度评估函数值，并从这50个适应度评估函数值中选出适应度评估函数值较好(适应度评估函数值较小)的前三只狼作为α，β，δ狼；并根据这三只狼的位置通过发明内容中的公式(5)计算灰狼种群中其他灰狼个体到这三只狼的距离，并计算

的值将计算得到的灰狼适应度值进行排列，并从中选出前13个灰狼个体组成精英种群；

S5：克隆精英种群中的所有个体，确保精英种群中每个个体都有一定数量的克隆体，并对克隆个体执行高频变异；

S6：对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新；

S7：判断粒子群位置更新思想改进的灰狼优化算法的K-Means聚类算法是否达到最大迭代次数，如果否，则继续执行步骤2；如果是，输出α狼的适应度值及其位置X_α，其中X_α就是最终的聚类中心，α狼的适应度值就是最佳的聚类结果，为与已经提出的算法进行比较。Wine数据集经过50次仿真实验得出适应度值的平均值、最大值、最小值和标准差对比已提出的2个算法的聚类结果如表3所示(其中ICGWO-KM算法为本发明方法)。

表3 Wine数据集经过50次仿真实验的实验结果对比

从表3可以看出，基于免疫克隆灰狼优化算法的K-Means聚类算法(ICGWO-KM算法)有更好的聚类性能(类内距离之和越小，代表聚类性能越好)及稳定性(标准差越小，表示越稳定)。

图3为本发明为本发明算法与在GWO-KM算法Iris数据集上的类内距离之和收敛曲线对比图；图4为本图发明算法与在GWO-KM算法Wine数据集上的类内距离之和收敛曲线对比图；图5为本发明算法与在GWO-KM算法Heart数据集上的类内距离之和收敛曲线对比图；图6为本发明算法与在GWO-KM算法Balancescale数据集上的类内距离之和收敛曲线对比图；图7为本发明算法与在GWO-KM算法Seeds数据集上的类内距离之和收敛曲线对比图；图8为本发明算法与在GWO-KM算法CMC数据集上的类内距离之和收敛曲线对比图；图9为本发明算法与在GWO-KM算法Cancer数据集上的类内距离之和收敛曲线对比图；图10为本发明算法与在GWO-KM算法Haberman数据集上的类内距离之和收敛曲线对比图,由图可以看出，本发明具有更小的适应度值，说明聚类性能越好，收敛速度更快，图11为本发明方法在文本数据集：“文学”类的准确率曲线，可以看出文本分类准确率表现良好。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。