CN111368891B - 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 - Google Patents

一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 Download PDF

Info

Publication number
CN111368891B
CN111368891B CN202010122596.8A CN202010122596A CN111368891B CN 111368891 B CN111368891 B CN 111368891B CN 202010122596 A CN202010122596 A CN 202010122596A CN 111368891 B CN111368891 B CN 111368891B
Authority
CN
China
Prior art keywords
wolf
data
wolves
text
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010122596.8A
Other languages
English (en)
Other versions
CN111368891A (zh
Inventor
邱少明
张斌
杜秀丽
吕亚娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202010122596.8A priority Critical patent/CN111368891B/zh
Publication of CN111368891A publication Critical patent/CN111368891A/zh
Application granted granted Critical
Publication of CN111368891B publication Critical patent/CN111368891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于免疫克隆灰狼优化算法的K‑Means文本聚类方法,属于数据挖掘领域,该方法包括对文本数据进行数据预处理,采用余弦角度为相似性度量,分别计算预处理后的文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果,从适应度值降序排列的灰狼种群个体中,选择前m个形成灰狼个体组成精英种群;根据Xα聚类中心得到最终的文本数据聚类结果;该方法可以克服传统K‑Means算法容易陷入局部最优,对初始聚类中心的过度依赖的局限性,极大的提高了文本数据划分的准确性。

Description

一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于免疫克隆灰狼优化算法的K-Means文本分类方法。
背景技术
随着科技进步和存储成本的降低,人们倾向于用电子媒介存储文本文件与信息。目前,绝大多数的信息的表现形式为文本形式,如何在大量的文本中提取用户感谢兴趣的、潜在有用的信息是需要解决的问题。文本挖掘是对文本信息进行数据挖掘的过程,随着文本数据的增长,文本挖掘成为数据挖掘领域中的一个重要研究方向,而文本聚类是文本挖掘方法中重要的信息挖掘方法。
文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。
而现如今用于文本聚类的方法一般分为5类:(1)基于划分的文本聚类方法;(2)基于密度的文本聚类方法;(3)基于网格的文本聚类方法(4)基于层次的文本聚类方法;(5)基于模型的文本聚类
本发明所用到的文本聚类方法:K-Means算法,就是基于划分的文本聚类方法:给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。如K-Means算法,K-MEDOIDS算法、CLARANS算法等;
Kmeans算法是一种典型的基于划分的聚类算法,该聚类算法的基本思想是在聚类开始时根据用户预设的类簇数目k随机地在所有文本集当中选择k个对象,将这些对象作为k个初始类簇的平均值或者中心,对于文本集中剩余的每个对象,根据对象到每一个类簇中心的欧几里得距离,划分到最近的类簇中;全部分配完之后,重新计算每个类簇的平均值或者中心,再计算每篇文本距离这些新的类簇平均值或中心的距离,将文本重新归入目前最近的类簇中;不断重复这个过程,直到所有的样本都不能再重新分配为止。
但是K-Mean算法也存在着一些缺点:(1)对初始聚类中心的选取比较敏感,往往得不到全局最优解,得到的多是次优解;(2)关于算法需要预先设定的k值,限定了聚类结果中话题的个数,这在非给定语料的应用中并不可行;(3)该算法容易受到异常点的干扰而造成结果的严重偏差。因此多采用运用元启发算法:如引力搜索算法、模拟退火算法、粒子群算法、遗传算法,凭借其优秀的寻优能力以及收敛速度来克服K-Means算法的局限性,灰狼优化算法(Grey Wolf Optimizer,GWO)较上述提及的元启发算法有更好的全局寻优能力,部分研究人员采用灰狼优化算法去克服K-Means算法的缺点:Kumar V等开发了一种基于GWO算法的聚类算法,与传统K-Means算法相比,提高了聚类性能;Zhang等提出了一种具有Powell局部优化的GWO聚类算法;杨红光等提出了一种结合灰狼优化和K-Means的混合聚类算法,以解决K-Means算法对初始中心选择敏感和全局搜索能力不足的缺点;刘佳铭同样将GWO算法与K-Means算法结合以改善K-Means算法对初始聚类中心位置敏感的问题。
尽管上述方法在一定程度上改进了算法的聚类效果,但是早熟收敛现象仍然发生,种群多样性较差,算法仍可能出现早熟收敛现象。基于此,本发明将免疫克隆选择加入到GWO算法(ICGWO)中,以提高GWO算法的深度探索能力,来克服K-Means算法自身局限性。
发明内容
根据现有技术存在的问题,本发明公开了一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,包括以下步骤:
S1:对文本数据进行数据预处理,得到预处理后的文本数据;
S2:采用余弦角度为相似性度量,分别计算预处理后的文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,并按相似度最接近的原则,分别将本文数据中的数据对象分配到对应的K个类簇中,直到所有的数据对象分配完毕,形成K个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果;
S3:分别计算每一个灰狼个体到数据中心点间的距离之和,分别得到了N个灰狼个体的适应度评估函数值;
S4:对N个适应度评估函数值进行排序,选出适应度评估函数值最小的前三只狼作为α狼,β狼,δ狼;并根据α狼,β狼,δ狼三只狼的位置,计算灰狼种群中其他灰狼个体到三只狼的距离,并计算其余灰狼个体位置更新的中间变量
Figure BDA0002393426810000032
的值;
S5:从适应度值降序排列的灰狼种群个体中,选择前m个形成灰狼个体组成精英种群;
S6:克隆精英种群中的所有个体,并对克隆个体执行高频变异;
S7:对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新;
S8:判断免疫克隆改进的灰狼优化算法的K-Means的文本聚类方法法是否达到最大迭代次数,如果否,则继续执行步骤2;如果是,输出α狼的适应度值及其位置Xα,根据Xα聚类中心得到最终的文本数据聚类结果。
进一步地:所述文本数据进行预处理步骤如下:
S1:采用分词软件划分反映完整文本句意的最小单位的词组;
S2:筛选无意义词组;
S3:采用向量空间模型进行数学建模,对分词后的本文数据采用词频统计进行分词权重计算,提取文本数据中的关键词;
S4:使用Word2Vec模型进行词的向量化,用向量化之后的文本数据向量作为聚类的数据输入。
进一步地,克隆精英种群中的所有个体的过程中形成的临时种群T的大小通过如下公式确定:
Figure BDA0002393426810000031
其中,round()函数为取整函数;λ是属于[0,1]之间的随机数;b是整型常数且b≥1;m是选取的精英个数,这样可以确保精英种群中的每个个体都有一定数量的克隆体。
进一步地,对种群T中的每个个体进行高频变异操作,突变算子如下公式所示:
Figure BDA0002393426810000041
Figure BDA0002393426810000042
η=1-exp(1-imax/(i+1)) (4)
其中ti是种群T第i次迭代的个体;
Figure BDA0002393426810000043
是ti在经过变异操作后产生的新的个体;r4,r5,r6是属于[0,1]之间的随机数;i代表第i次迭代;imax表示克隆变异操作的最大迭代次数;η是克隆变异参数,p表示增加变异可能性的一个随机变量。
进一步地,适应度评估函数值公式如公式如下:
Figure BDA0002393426810000044
其中,K代表聚类个数,其中Xi(i=1,2,3...,n)表述数据对象向量,Xj(j=1,2,3,...,n)表示中心点向量。
进一步地,所述灰狼个体进行位置更新根据如下公式进行:
Figure BDA0002393426810000045
其中灰狼位置更新速度
Figure BDA0002393426810000046
通过如下公式确定:
Figure BDA0002393426810000047
其中,w称为惯性因子,r7,r8,r9是属于[0,1]间的随机数,
Figure BDA0002393426810000048
分别表示控制种群中其余狼与三只头狼之间距离的参数,为了让其余狼判断是在全局范围搜索还是局部范围猎物,其大小范围在[0,2]之间;/>
Figure BDA0002393426810000049
分别表示位置更新后的灰狼个体位置的中间变量;/>
Figure BDA00023934268100000410
代表当前灰狼的位置。
由于采用了上述技术方案,本发明提供的基于免疫克隆灰狼优化算法的K-Means文本分类方法,利用免疫克隆灰狼优化算法的快速寻优能力快速找到各类文本的聚类中心,然后利用K-Means算法按距离最小的原则根据其聚类中心,将所有的文本数据进行最为准确性的类别划分,可以克服传统K-Means算法容易陷入局部最优,对初始聚类中心的过度依赖的局限性,极大的提高了文本数据划分的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于免疫克隆灰狼优化算法的K-Means文本聚类方法的流程图;
图2为灰狼种群中四个等级划分图;
图3为本发明为本发明算法与在GWO-KM算法Iris数据集上的类内距离之和收敛曲线对比图;
图4为本图发明算法与在GWO-KM算法Wine数据集上的类内距离之和收敛曲线对比图;
图5为本发明算法与在GWO-KM算法Heart数据集上的类内距离之和收敛曲线对比图;
图6为本发明算法与在GWO-KM算法Balancescale数据集上的类内距离之和收敛曲线对比图;
图7为本发明算法与在GWO-KM算法Seeds数据集上的类内距离之和收敛曲线对比图;
图8为本发明算法与在GWO-KM算法CMC数据集上的类内距离之和收敛曲线对比图;
图9为本发明算法与在GWO-KM算法Cancer数据集上的类内距离之和收敛曲线对比图;
图10为本发明算法与在GWO-KM算法Haberman数据集上的类内距离之和收敛曲线对比图。
图11为本发明算法在文本数据集文学分类中一次运行的准确率曲线图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
图1为本发明一种基于免疫克隆灰狼优化算法的K-Means文本聚类方法的流程图;将本发明应用于对文本数据的聚类中,由于文本数据不是数值型数据,所以在得到文本数据时,需要对文本数据进行数据的预处理及数学建模,才可以将本发明应用于对文本数据的聚类分析中,具体实施步骤如下:
S1:对文本数据进行数据预处理,预处理主要包括如下几个步骤,
S1-1本文分词:反映完整文本句意的最小单位是文本中的词组,为了将文本文档中的词语划分开来,采用的文本分词软件为:中科院研发的NLPIR分词软件;
S1-2筛选无意义词组:无意义的词组主要包括文本文档中出现的高频率词组和低频率词组,其中的高频率词组指的是各种文档中都常出现的词组,而低频率词组主要指的是停顿词和一些习惯用词;
S1-3提取文本数据中的关键词:采用向量空间模型进行数学建模,对分词后的本文数据采用词频统计(TF-IDF)进行分词权重计算,计算结果为一个列表和一个矩阵,列表中放置的是文本数据的分词(去除重复之后的),矩阵中为每个词语对应的权值;
S1-4把分词后的所有的文本数据作为一个语料库,使用Word2Vec模型进行词的向量化,用向量化之后的文本数据向量作为聚类的数据输入;
S2:原始K-Means算法中对数据的相似性度量采用的是欧式距离的度量方法,但是对于文本数据,这样可能会造成很大的误差,因此,在这里将相似性度量改为使用余弦角度为相似性度量;
在S2中,相似性度量如公式(1)所示
Figure BDA0002393426810000061
其中Xi(i=1,2,3...,n)表述数据对象向量,和Xj(j=1,2,3,...,n)表示中心点向量。
S3:按照K-Means算法及S2中更正的公式,分别计算文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点(每个灰狼个体都包含K个初始聚类中心)间的距离,并按相似度最接近的原则,分别将本文数据中的数据对象分配到对应的K个类簇中,直到所有的数据对象分配完毕,形成K个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到初步聚类结果;
S4:在S3中,通过对每个灰狼个体的相似性计算将所有的文本数据分为了K个不同的类簇,形成了n种不同的聚类结果;在数据挖掘的聚类分析中,类内距离之和是评估聚类准确度的一个重要指标;因此,在这里将类内距离之和(类内距离之和越小,表明聚类结果越准确)作为灰狼优化算法的适应度评估函数,分别计算N个灰狼个体的数据分配结果的类内距离之和(适应度评估函数值);
在S4中,适应度评估函数:类内距离之和,可以通过发明内容中的公式(2)计算。
Figure BDA0002393426810000071
S5:通过S4的计算,分别得到了n个灰狼个体的适应度评估函数值,对n个适应度评估函数值进行排序,适应度评估函数值最小的前三只狼作为α狼,β狼,δ狼;并根据这三只狼的位置通过发明内容中的公式(3)计算灰狼种群中其他灰狼个体到这三只狼的距离,并计算
Figure BDA0002393426810000072
的值;
Figure BDA0002393426810000073
其中,Dα,Dβ,Dδ分别代表灰狼个体到α狼,β狼,δ狼的距离,Xα,Xβ,Xδ代表α狼,β狼,δ狼的位置,
Figure BDA0002393426810000074
可有公式(4)得出,
得到每只狼的距离之后,通过公式(4)和(5)更新灰狼个体的位置:
Figure BDA0002393426810000075
Figure BDA0002393426810000076
S6:将计算得到的灰狼适应度值进行排列,并从中选出前m个灰狼个体组成精英种群,m根据种群数来确定的,种群总数的1/4;克隆精英种群中的所有个体,确保精英种群中每个个体都有一定数量的克隆体,并对克隆个体执行高频变异;
S7:对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新;
S8:判断粒子群位置更新思想改进的灰狼优化算法的K-Means聚类算法是否达到最大迭代次数,如果否,则继续执行步骤2;如果是,输出α狼的适应度值及其位置Xα,其中Xα就是最终的聚类中心,根据Xα聚类中心得到的文本数据分配结果就是最终的文本数据聚类结果。
进一步地,克隆精英种群中的所有个体的过程中形成的临时种群T的大小通过如下公式确定:
Figure BDA0002393426810000077
其中,round()函数为取整函数;λ是属于[0,1]之间的随机数;b是整型常数且b≥1;m是选取的精英个数;这样可以确保精英种群中的每个个体都有一定数量的克隆体。
进一步地:对种群T中的每个个体进行高频变异操作,突变算子如下公式所示:
Figure BDA0002393426810000081
Figure BDA0002393426810000082
η=1-exp(1-imax/(i+1)) (8)
其中ti是种群T第i次迭代的个体;
Figure BDA0002393426810000083
是ti在经过变异操作后产生的新的个体;r4,r5,r6是属于[0,1]之间的随机数;i代表第i次迭代;imax表示克隆变异操作的最大迭代次数;η是克隆变异参数,p表示增加变异可能性的一个随机变量。免疫克隆灰狼优化算法的增强性质体现在:
在原灰狼优化算法的基础中加入免疫克隆选择操作对原始灰狼种群中的精英个体进行更深入的探索,从精英中再挑出最佳的个体。其本质是根据精英个体的适应度对精英个体进行克隆操作,从而在克隆中产生一定数量的突变个体,以扩大搜索范围并改善种群多样性。
实施例1:通过以上对文本数据的聚类步骤,文本数据集分为了四类,文本数据类别及数据个数如表1所示:
表1文本数据
类别 女性 体育 文学出版 校园
篇数 30 30 30 30
Matlab运行30次,取平均值作为聚类结果,准确度分别为:女性准确率:89.25%,体育准确率:83.13%,文学出版准确率:90.28%,校园准确率:72.69%。
实施例2,为验证本发明的聚类性能,在此对UCI数据库中提供的鸢尾花数据(Iris集)、葡萄酒数据(Wine数据集)、心脏病数据(Heart数据集)等不同的8个数据集进行聚类分析,通过聚类质量的评估标准:类内距离之和对聚类性能进行验证,关于8个数据集的详细信息介绍如表2。
表2 UCI数据集详情
数据集 类别数 特征数 数据个数
Iris 3 4 150
Wine 3 13 178
Seeds 3 7 210
Balancescale 3 4 625
Cancer 2 9 683
Heart 2 13 270
CMC 3 9 1473
Haberman 2 3 306
由于本发明方法对8种数据进行聚类分析的执行步骤具有很大的相似性(8个数据集不同的地方如表2所示的类别、特征以及数据个数),为了避免冗余,以Wine数据集为例,首先对Wine数据集中的178个数据点计算每一个数据点分别到3个初始聚类中心的欧式距离,找出三个欧氏距离中距离最小的一个,并将该数据点划分为这一类别,经过178次距离计算,得到第一次的聚类结果;然后对聚类好的数据计算粒子群思想灰狼优化算法的适应度函数(类内距离之和)值,并进行带有粒子群位置更新思想的个体位置更新;最后达到最大迭代次数后,输出α狼的适应度值及其位置Xα,其中Xα就是Wine最优聚类中心,α狼的适应度值就是最佳的聚类结果。
本发明对Wine数据进行聚类分析的更详细的应用如下:
S1:对Wine数据集进行数据预处理,将数据中的类别数据去除;定义初始聚类类别K=3,定义Wine数据特征数(维度)D=13和灰狼个体数量n=50;并按13个不同的维度对50个灰狼个体进行随机初始化(对Wine数据集,种群中每个个体包含了3个聚类中心),获得包含50个灰狼个体的灰狼种群X={x1,x2,x3,...,x50};
在S1中,获得的灰狼种群中每一个个体xi由发明内容种的公式(9)获得。
xi=xmin+rand(0,1)·(xmax-xmin) (9)
其中:xmax和xmin分别是各维度数据的最大值和最小值,rand(0,1)属于是[0,1]之间的随机数。
S2:按照K-Means算法,分别计算Wine数据集中的每一个数据对象到每一个初始灰狼个体中3个初始聚类中心点(每个灰狼个体都包含3个初始聚类中心)间的距离,并按距离最近原则分别将Wine数据中的178个对象分配到对应的3个类簇中,直到所有的数据对象分配完毕,形成3个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到50个聚类结果;
S2中,K-Means算法中,将Wine数据集中所有数据对象按距离不同分配到3个不同的类簇中,其中的距离采用欧式距离的计算方法,如发明内容中的公式(10)所示。
Figure BDA0002393426810000101
其中,si是数据点,cj是第j个聚类中心,d(si,cj)代表第i个数据点到第j个聚类中心的距离。
S3:在S2中,通过对每个灰狼个体的距离计算将所有的数据点分为了3个不同的类簇,形成了50种不同的聚类结果;在数据挖掘的聚类分析中,类内距离之和是评估聚类准确度的一个重要指标;因此,在这里将类内距离之和(类内距离之和越小,表明聚类结果越准确)作为灰狼优化算法的适应度评估函数,分别计算50个灰狼个体的数据分配结果的类内距离之和(适应度评估函数值);在S3中,适应度评估函数:类内距离之和,可以通过发明内容中的公式(2)计算。
S4:通过S3的计算,分别得到了50个灰狼个体的适应度评估函数值,并从这50个适应度评估函数值中选出适应度评估函数值较好(适应度评估函数值较小)的前三只狼作为α,β,δ狼;并根据这三只狼的位置通过发明内容中的公式(5)计算灰狼种群中其他灰狼个体到这三只狼的距离,并计算
Figure BDA0002393426810000102
Figure BDA0002393426810000103
的值将计算得到的灰狼适应度值进行排列,并从中选出前13个灰狼个体组成精英种群;
S5:克隆精英种群中的所有个体,确保精英种群中每个个体都有一定数量的克隆体,并对克隆个体执行高频变异;
S6:对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新;
S7:判断粒子群位置更新思想改进的灰狼优化算法的K-Means聚类算法是否达到最大迭代次数,如果否,则继续执行步骤2;如果是,输出α狼的适应度值及其位置Xα,其中Xα就是最终的聚类中心,α狼的适应度值就是最佳的聚类结果,为与已经提出的算法进行比较。Wine数据集经过50次仿真实验得出适应度值的平均值、最大值、最小值和标准差对比已提出的2个算法的聚类结果如表3所示(其中ICGWO-KM算法为本发明方法)。
表3 Wine数据集经过50次仿真实验的实验结果对比
Figure BDA0002393426810000111
从表3可以看出,基于免疫克隆灰狼优化算法的K-Means聚类算法(ICGWO-KM算法)有更好的聚类性能(类内距离之和越小,代表聚类性能越好)及稳定性(标准差越小,表示越稳定)。
图3为本发明为本发明算法与在GWO-KM算法Iris数据集上的类内距离之和收敛曲线对比图;图4为本图发明算法与在GWO-KM算法Wine数据集上的类内距离之和收敛曲线对比图;图5为本发明算法与在GWO-KM算法Heart数据集上的类内距离之和收敛曲线对比图;图6为本发明算法与在GWO-KM算法Balancescale数据集上的类内距离之和收敛曲线对比图;图7为本发明算法与在GWO-KM算法Seeds数据集上的类内距离之和收敛曲线对比图;图8为本发明算法与在GWO-KM算法CMC数据集上的类内距离之和收敛曲线对比图;图9为本发明算法与在GWO-KM算法Cancer数据集上的类内距离之和收敛曲线对比图;图10为本发明算法与在GWO-KM算法Haberman数据集上的类内距离之和收敛曲线对比图,由图可以看出,本发明具有更小的适应度值,说明聚类性能越好,收敛速度更快,图11为本发明方法在文本数据集:“文学”类的准确率曲线,可以看出文本分类准确率表现良好。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,其特征在于,包括以下步骤:
S1:对文本数据进行数据预处理,得到预处理后的文本数据;
S2:采用余弦角度为相似性度量,分别计算预处理后的文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,并按相似度最接近的原则,分别将文本数据中的数据对象分配到对应的K个类簇中,直到所有的数据对象分配完毕,形成K个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果;
S3:分别计算每一个灰狼个体到数据中心点间的距离之和,分别得到了N个灰狼个体的适应度评估函数值;
S4:对N个适应度评估函数值进行排序,选出适应度评估函数值最小的前三只狼作为α狼,β狼,δ狼;并根据α狼,β狼,δ狼三只狼的位置,计算灰狼种群中其他灰狼个体到三只狼的距离,并计算其余灰狼个体位置更新的中间变量
Figure FDA0004131208880000011
的值;
所述灰狼个体进行位置更新根据如下公式进行:
Figure FDA0004131208880000012
其中灰狼位置更新速度
Figure FDA0004131208880000013
通过如下公式确定:
Figure FDA0004131208880000014
其中,w称为惯性因子,r7,r8,r9是属于[0,1]间的随机数,
Figure FDA0004131208880000015
分别表示控制种群中其余狼与三只头狼之间距离的参数,其大小范围在[0,2]之间;/>
Figure FDA0004131208880000016
分别表示位置更新后的灰狼个体位置的中间变量;/>
Figure FDA0004131208880000017
代表当前灰狼的位置;
S5:从适应度评估函数值降序排列的灰狼种群个体中,选择前m个形成灰狼个体组成精英种群;
S6:克隆精英种群中的所有个体,并对克隆个体执行高频变异;
S7:对免疫克隆选择后产生的灰狼精英种群进行灰狼位置更新;
S8:判断免疫克隆改进的灰狼优化算法的K-Means的文本聚类方法是否达到最大迭代次数,如果否,则继续执行步骤S2;如果是,输出α狼的适应度评估函数值及其位置Xα,根据Xα聚类中心得到最终的文本数据聚类结果。
2.根据权利要求1所述的一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,其特征还在于:所述文本数据进行预处理步骤如下:
S1:采用分词软件划分反映完整文本句意的最小单位的词组;
S2:筛选无意义词组;
S3:采用向量空间模型进行数学建模,对分词后的文本数据采用词频统计进行分词权重计算,提取文本数据中的关键词;
S4:使用Word2Vec模型进行词的向量化,用向量化之后的文本数据向量作为聚类的数据输入。
3.根据权利要求1所述的一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,其特征还在于:克隆精英种群中的所有个体的过程中形成的临时种群T的大小通过如下公式确定:
Figure FDA0004131208880000021
其中,round()函数为取整函数;λ是属于[0,1]之间的随机数;b是整型常数且b≥1;m是选取的精英个数。
4.根据权利要求3所述的一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,其特征还在于:对种群T中的每个个体进行高频变异操作,突变算子如下公式所示:
Figure FDA0004131208880000022
Figure FDA0004131208880000023
η=1-exp(1-imax/(i+1)) (4)
其中ti是种群T第i次迭代的个体;
Figure FDA0004131208880000024
是ti在经过变异操作后产生的新的个体;r4,r5,r6是属于[0,1]之间的随机数;i代表第i次迭代;imax表示克隆变异操作的最大迭代次数;η是克隆变异参数,p表示增加变异可能性的一个随机变量。
5.根据权利要求1所述的一种基于免疫克隆灰狼优化算法的K-Means文本分类方法,其特征还在于:适应度评估函数值公式如下:
Figure FDA0004131208880000031
其中,K代表聚类个数,其中Xi(i=1,2,3...,n)表述数据对象向量,Xj(j=1,2,3,...,n)表示中心点向量。
CN202010122596.8A 2020-02-27 2020-02-27 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 Active CN111368891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010122596.8A CN111368891B (zh) 2020-02-27 2020-02-27 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122596.8A CN111368891B (zh) 2020-02-27 2020-02-27 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法

Publications (2)

Publication Number Publication Date
CN111368891A CN111368891A (zh) 2020-07-03
CN111368891B true CN111368891B (zh) 2023-06-13

Family

ID=71209696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122596.8A Active CN111368891B (zh) 2020-02-27 2020-02-27 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法

Country Status (1)

Country Link
CN (1) CN111368891B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112086200B (zh) * 2020-09-17 2024-01-12 吾征智能技术(北京)有限公司 一种基于口苦预测疾病的系统、设备、存储介质
CN112446435B (zh) * 2020-12-10 2023-12-05 长春理工大学 一种城市数据分类方法及系统
CN113239503B (zh) * 2021-05-10 2022-09-23 上海电气工程设计有限公司 基于改进k-means聚类算法的新能源出力场景分析方法及系统
CN115297497B (zh) * 2022-10-08 2023-02-03 中国人民解放军海军工程大学 一种基于生物启发算法的高效节能分簇方法
CN116432064B (zh) * 2023-03-06 2023-10-27 北京车讯互联网股份有限公司 一种数据预处理系统及方法
CN116400028B (zh) * 2023-05-29 2023-08-22 湖南汇湘轩生物科技股份有限公司 一种基于气味传感器的香精质量检测方法、系统及介质
CN117809300B (zh) * 2023-12-29 2024-10-08 中国人民解放军陆军军医大学第二附属医院 基于机器视觉的免疫电泳分型检测方法及系统
CN117493423B (zh) * 2023-12-29 2024-03-26 江西合一云数据科技股份有限公司 互联网数据挖掘方法、装置计算机设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020711A (zh) * 2019-03-25 2019-07-16 湖北工业大学 一种采用灰狼优化算法的大数据分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020711A (zh) * 2019-03-25 2019-07-16 湖北工业大学 一种采用灰狼优化算法的大数据分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Vijay Kumar 等.Grey Wolf Algorithm-Based Clustering Technique.Journal of Intelligent Systems.2017,26(1),第153-168页. *
刘佳鸣 等.灰狼优化的k均值聚类算法.中国科技论文.2019,14(7),第778-807页. *
杨红光 等.一种结合灰狼优化和K-均值的混合聚类算法.江西理工大学学报.2015,36(05),第85-89页. *
范会联 等.带信息熵反馈机制的免疫克隆文本聚类算法.郑州大学学报(理学版).2011,43(01),第46-49页. *

Also Published As

Publication number Publication date
CN111368891A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368891B (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN111368077B (zh) 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN109165383B (zh) 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN106156374A (zh) 一种基于视觉词典优化和查询扩展的图像检索方法
CN112801140A (zh) 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN110738053A (zh) 基于语义分析与监督学习模型的新闻主题推荐算法
CN112883722B (zh) 一种基于云数据中心分布式文本摘要方法
Wang et al. An improved k NN text classification method
CN109800790B (zh) 一种面向高维数据的特征选择方法
CN109299357B (zh) 一种老挝语文本主题分类方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN110580252B (zh) 多目标优化下的空间对象索引与查询方法
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
CN111831822A (zh) 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法
CN116417070A (zh) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
CN111709460A (zh) 基于相关系数的互信息特征选择方法
Basha et al. An improved similarity matching based clustering framework for short and sentence level text
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
Kadhim et al. Combined chi-square with k-means for document clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant