CN105139037A - 基于最小生成树的集成多目标进化自动聚类方法 - Google Patents

基于最小生成树的集成多目标进化自动聚类方法 Download PDF

Info

Publication number
CN105139037A
CN105139037A CN201510560024.7A CN201510560024A CN105139037A CN 105139037 A CN105139037 A CN 105139037A CN 201510560024 A CN201510560024 A CN 201510560024A CN 105139037 A CN105139037 A CN 105139037A
Authority
CN
China
Prior art keywords
parent population
individual
clustered
data collection
spanning tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510560024.7A
Other languages
English (en)
Other versions
CN105139037B (zh
Inventor
刘若辰
焦李成
罗婉菁
卞仁玉
张向荣
李阳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510560024.7A priority Critical patent/CN105139037B/zh
Publication of CN105139037A publication Critical patent/CN105139037A/zh
Application granted granted Critical
Publication of CN105139037B publication Critical patent/CN105139037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于最小生成树的集成多目标进化自动聚类方法,克服了现有技术中对高维数据集处理效果不佳的问题。其实现步骤是:(1)输入待聚类的基因数据集;(2)初始化;(3)设定迭代参数;(4)计算簇间相似性;(5)生成最小生成树;(6)断开最小生成树;(7)合并种群;(8)快速非支配排序;(9)计算拥挤度;(10)生成新的父代种群;(11)判断迭代次数是否小于50;(12)选择最优个体;(13)计算最优个体的精确值;本发明提出的方法运行速度快,可有效地对各种基因数据集进行聚类分析,不需要预先设定数据集的类别数,能够应用于生物医学识别、肿瘤检测等领域中存在的高维度数据分析。

Description

基于最小生成树的集成多目标进化自动聚类方法
技术领域
本发明属于网络技术领域,更进一步涉及数据挖掘技术领域中的一种基于最小生成树的集成多目标进化自动聚类方法。本发明通过多目标进化算法,可有效地对各种基因数据集进行聚类分析,主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。
背景技术
在大规模数据分析中,传统的数据分析工具只能分析出数据的简单关系,但是不能挖掘到数据之间潜在的关系和隐藏的信息。近年来,许多学者通过对数据深层信息的挖掘,在人工智能、人工神经网络和智能计算等学科的基础上,对数据挖掘进行多方面的研究,将聚类分析应用到数据挖掘技术上,并且得到了广泛的应用。聚类技术是指在无监督条件下,对未知数据进行类别预测的技术。常见的应用如:数据分析、图像分割处理、生物医学识别、肿瘤检测等实际应用。目前已经提出了很多多目标聚类算法,但是大部分算法并没有致力于处理高维数据集,而用于生物医学识别和肿瘤检测的基因数据集的最大特点就是具有很高的维度。
西安电子科技大学申请的专利“监督基因表达数据分类方法”(专利申请号201410817036.9,公开号CN104504305A)中公开一种监督基因表达数据分类的方法。该方法采用类别保留投影方法获得训练样本的鉴别特征向量,再利用训练样本的鉴别特征向量,采用回归优化方法获得投影矩阵,通过投影矩阵获得训练样本特征集和测试样本特征集,最后用最近邻分类器实现对测试样本的分类识别。该方法存在的不足之处是,该方法必须预先定义类或者带类标记的训练样本,然而大部分基因数据集并不能预先知道类别数,并且由于该方法将类别保留投影方法转化到回归框架,加重了分类器设计的负担,从而降低了基因表达数据分类的准确性。
RCLiu等人在其发表的论文“Animprovedmethodformulti-objectiveclusteringensemblealgorithm”(IEEECongressonEvolutionaryComputation.2012.)中提出了一种基于四目标的聚类集成方法。该方法采用遗传算法的框架,利用四种不同的传统聚类算法产生初始种群,采用集成算法MCLA作为交叉算子,产生新的中间种群,利用多目标优化算法NSGA-II的思想,从中间种群中选择下一代种群,如果迭代没有达到设定次数,则跳回到交叉步骤一直循环,最终得到较好聚类结果的集群。该方法虽然采用集成算法MCLA作为交叉算子,具有很强的搜索能力,但是,该方法仍然存在的不足之处是,该方法采用的交叉方式在对基因数据集的处理时很容易产生非法的解,即所有的数据类标都变成了零,大大降低了该方法的准确性,影响了对基因数据集的分类结果。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于最小生成树的集成多目标进化自动聚类方法,以实现对高维度基因数据集的聚类分析,产生高质量的聚类划分。
实现本发明目的的具体步骤如下:
(1)输入待聚类的基因数据集;
(2)初始化:
(2a)设定待聚类基因数据集的类别数区间;
(2b)采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
(2c)采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
(2d)采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
(2e)采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
(2f)将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
(3)设定迭代参数:
将最大迭代次数设定为50次,初始迭代次数为1,迭代步长为1;
(4)计算簇间相似性:
按照下式,计算父代种群中所有簇之间的相似性:
E C S ( C 1 , C 2 ) = 1 | C 1 | | C 2 | Σ d 1 ∈ C 1 , d 2 ∈ C 2 s i m ( d 1 , d 2 )
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
(5)生成最小生成树:
(5a)采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
(5b)将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
(6)断开最小生成树:
(6a)将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
(6b)采用投票法,确定每个节点表示的簇中的数据点所属的个子生成树;
(6c)判断最小生成树中的所有边是否都断开,若是,则得到一个与父代种群规模相同的子种群,执行步骤(7);否则,执行步骤(6a);
(7)合并种群:
将与父代种群规模相同的子种群与父代种群合并为二倍种群;
(8)快速非支配排序:
(8a)搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
(8b)对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
(8c)判断二倍种群中的所有个体是否都被分级,若是,则执行步骤(9);否则,执行步骤(8b);
(9)计算拥挤度:
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列,得到拥挤度序;
(10)生成新的父代种群:
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群;
(11)判断迭代次数是否小于50,若是,将迭代次数加1,执行步骤(4);否则,执行步骤(12);
(12)选择最优个体:
计算父代种群中每个个体的评价函数值,将父代种群中评价函数值最大的个体作为父代种群中的最优个体;
(13)按照下式,计算父代种群中的最优个体的精确值:
C R = Σ i R Σ j C n i j - n Σ i R n i Σ j C n j 1 2 [ Σ i R n i + Σ j C n j ] - 1 n Σ i R n i Σ j C n j
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
本发明与现有技术相比具有以下优点:
第一,由于本发明引入普利姆算法生成最小生成树,产生新的中间种群,克服了现有技术中存在交叉方式在对基因数据集处理时容易产生非法的解的问题,使得本发明对解空间的搜索能力大幅增强,提高了本发明对数据聚类结果的准确性。
第二,由于本发明引入了快速非支配排序,选择新的父代种群时不需要预先定义种群类别数,克服了现有技术中必须预先定义类或者带标记的训练样本的问题,使得本发明的自适应性大幅提升。
附图说明
图1为本发明的流程图;
具体实施方式
下面结合图1对本发明的具体实施步骤做进一步的详细描述。
步骤1.输入待聚类的基因数据集。
步骤2.初始化。
当c>2时,初始种群个体的类别数区间为[c-2,c+2],当c≤2时,初始种群个体的类别数区间为[2,c+2],其中,c表示待聚类基因数据集的真实类别数。
采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
对于每一个数据集都有三种表现形式:原始数据,经过standardization处理过的数据,通过normalization处理过的数据。如果一个类别数是2的数据集,则该数据集初始化产生的父代种群大小为3*4*2*2=48,如果是一个类别数为6的数据集,则该数据集初始化产生的父代种群大小为6*4*2*2=80。
步骤3.设定迭代参数。
将最大迭代次数设定为50次,初始迭代次数1,迭代步长为1。
步骤4.计算簇间相似性。
按照下式,计算父代种群中所有簇之间的相似性:
E C S ( C 1 , C 2 ) = 1 | C 1 | | C 2 | Σ d 1 ∈ C 1 , d 2 ∈ C 2 s i m ( d 1 , d 2 )
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
步骤5.生成最小生成树。
采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
步骤6.断开最小生成树。
将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
计算最小生成树中每个节点表示的数据对象在每个子生成树中出现的次数和。当最小生成树中的节点表示的数据对象出现在某个子生成树中的次数和大于等于2时,则判定该数据对象属于该子生成树。
重复上述的操作,直到最小生成树中的所有边都断开,从而得到一个与父代种群规模相同的子种群。
步骤7.种群合并。
将与父代种群规模相同的子种群与父代种群合并为二倍种群。
步骤8.快速非支配排序。
第一步,搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
第二步,对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
第三步,判断二倍种群中的所有个体是否都被分级,若是,则执行步骤9;否则,执行第二步操作。
步骤9.计算拥挤度。
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列得到拥挤度序。
每个个体的拥挤度是按照下式计算得到的:
I ( d i ) = Σ i ∈ [ 2 , n - 1 ] [ p ( i + 1 ) - p ( i - 1 ) ] , i ∈ [ 2 , n - 1 ] ∞ , i = 1 , n
其中,I(di)表示二倍种群中第i个个体的拥挤度,i表示二倍种群中的任意一个个体,∑表示求和操作,∈表示属于符号,p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值,p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值,n表示二倍种群的种群规模。
步骤10.生成新的父代种群。
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群。
步骤11.判定迭代次数。
判断迭代次数是否小于50,若是,则将迭代次数加1,执行步骤4,否则,则执行步骤12。
步骤12.选择最优个体。
计算父代种群中每个个体的评价函数值,将评价函数值中最大的个体作为父代种群中的最优个体。
每个个体的评价函数值是按照下式计算得到的:
φ ( D ) = I C S ‾ ( D ) - E C S ‾ ( D )
其中,φ(D)表示父代种群中个体D的评价函数值,D表示父代种群中的任意一个个体,表示对父代种群中个体D的类内相似性进行归一化处理的值,表示对父代种群中个体D的类间相似性进行归一化处理的值。
步骤13.计算最优个体的精确值。
按照下式,计算父代种群中的最优个体的精确值:
C R = Σ i R Σ j C n i j - n Σ i R n i Σ j C n j 1 2 [ Σ i R n i + Σ j C n j ] - 1 n Σ i R n i Σ j C n j
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
本发明的效果可以通过以下实验做进一步的说明。
1.仿真条件:
本发明的仿真实验是在CPU为core22.4GHZ、内存2G、WINDOWS7系统上使用Matlab2009a进行仿真的。
2.仿真实验采用的数据集:
在本发明的算法中,所测的数据集都是数值型数据集,每一个数据集都有三种表现形式:原始数据集,经过standardization处理的数据集,经过normalization处理的数据集。
本发明的仿真实验当中的数据集全部都是基因数据集,都与癌症基因研究有关。表1是对基因数据集的说明,其中包括数据集名称,数据集样本个数,数据集类别数,数据集样本维数以及对数据集处理后的维数。从下表可以看出,基因数据集的特点就是高维度,小样本。
表1基因数据集属性描述表
数据集名称 数据集样本个数 数据集类别数 数据集样本维数 处理后的维数
Alizadeh-v1 42 2 4022 1095
Alizadeh-v2 62 3 4022 2093
Alizadeh-v3 62 4 4022 2093
Arnstrong-v1 72 2 12582 1071
Armstrong-v2 72 3 12582 2194
Bredel 50 3 41472 1739
Chen 179 2 22699 85
Chowdary 104 2 22283 182
Dyrskjot 40 3 7129 1203
Garber 66 4 24192 4553
Golub-v2 72 3 7129 1877
Gordon 181 2 12533 1626
Khan 83 4 6567 1069
Laiho 37 2 22883 2202
Lapointe-v1 69 3 42640 1625
Lapointe-v2 110 4 42640 2496
Liang 37 3 24192 1411
Nutt-v1 50 4 12625 1377
Nutt-v2 28 2 12625 1070
Nutt-v3 22 2 12625 1152
Pomemory-v2 42 5 7129 1379
Su 174 10 12533 1571
West 49 2 7129 1198
Yeoh-v2 248 6 61265 2526
3.仿真实验的参数设置:
表2主要说明了本发明的仿真实验的参数设置,主要包括以下三个参数:初始种群的大小、计算目标函数的最近邻点个数以及初始化中四种不同算法所用到的类别数区间。
4.仿真内容:
表3中给出了本发明中的算法和其他三种经典算法的对比结果,第二列是对比算法MCLA在21个基因数据集上的测试结果,第三列是对比算法MOCK在21个基因数据集上的测试结果,第四列是对比算法MOCLE在21个基因数据集上的测试结果,第五列是本发明的算法MOCNCD在21个基因数据集上的测试结果。由于四种算法具有一定的随机性,所以每个算法分别独立运行10次,得到平均值和方差。我们用黑体标注了四种算法中最好的解。
表2本发明仿真实验参数的设置表
数据集名称 初始种群大小 最近邻点个数 类别数区间
Alizadeh-v1 48 3 [2,4]
Alizadeh-v2 64 4 [2,5]
Alizadeh-v3 80 4 [2,6]
Arnstrong-v1 48 4 [2,4]
Armstrong-v2 64 4 [2,5]
Bredel 64 3 [2,5]
Chen 48 9 [2,4]
Chowdary 48 6 [2,4]
Dyrskjot 64 2 [2,5]
Garber 80 4 [2,6]
Golub-v2 64 4 [2,5]
Gordon 48 10 [2,4]
Khan 80 5 [2,6]
Laiho 48 2 [2,4]
Lapointe-v1 64 4 [2,5]
Lapointe-v2 80 6 [2,6]
Liang 64 2 [2,5]
Nutt-v1 80 3 [2,6]
Nutt-v2 48 2 [2,4]
Nutt-v3 48 2 [2,4]
Pomemory-v2 80 3 [2,7]
Su 80 9 [8,12]
West 48 3 [2,4]
Yeoh-v2 80 13 [2,8]
由表3可以看出,与三个对比算法(第二、三、四列结果)相比,本发明即第五列结果在大部分基因数据集上均优于其他三个对比算法。通过上述的仿真实验可以看出,本发明对在大部分数据集上都取得了不错得效果,有效地验证了本发明的合理性和有效性。
简而言之,本发明公开的一种基于最小生成树的集成多目标进化自动聚类方法,主要克服了现有技术中对高维数据集处理效果不佳的问题,本发明提出的方法运行速度快,可有效地对各种基因数据集进行聚类分析,不需要预先设定数据集的类别数,本发明通过经典的多目标进化算法,可有效地对各种基因数据集进行聚类分析,主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。
表310次独立运行的最优CR值的均值和方差值一览表
Data sets MCLA MOCK MOCLE MOCNCD
Alizadeh1 0.0641 0.0493±0.0277 0.2862±0.0955 0.1822±0.1314
Alizadeh2 0.8647 1.0000±0.0000 0.9870±0.0209 1.0000±0.0000
Alizadeh3 0.4916 0.5350±0.0000 0.5729±0.0467 0.6322±0.0243
Armstrong1 0.8381 0.2996±0.6767 0.5096±0.0104 0.5434±0.0257
Armstrong2 0.2362 0.6758±0.0950 0.9077±0.0345 0.9148±0.0121
Bredel 0.2508 0.5359±0.1671 0.6066±0.0837 0.6357±0.0499
Chen 0.1294 0.4028±0.0419 0.7013±0.0467 0.7044±0.0511
Chowdary 0.0755 0.9238±0.0000 0.9238±0.0000 0.9238±0.0000
Dyrskjot 0.2331 0.4520±0.0867 0.5200±0.0791 0.6139±0.0481
Garber 0.0849 0.0004±0.0000 0.3043±0.0000 0.2091±0.0152
Golub2 0.1356 0.6330±0.1278 0.8625±0.0315 0.8418±0.0271
Gordon 0.8190 0.8244±0.0302 0.8762±0.0751 0.9274±0.0719
Khan 0.0717 0.7659±0.1361 0.8588±0.0798 0.8283±0.0952
Laiho 0.3914 0.4449±0.0392 0.3044±0.0616 0.3266±0.0632
Lapointe 0.1222 0.1381±0.0243 0.1936±0.0156 0.2184±0.0221
Lapointe2 0.0127 0.0528±0.0000 0.2736±0.0513 0.2778±0.0664
Liang 0.2588. 0.3038±0.0059 0.2899±0.0387 0.3154±0.0352
Nutt 0.3291 0.1567±0.0000 0.3271±0.0383 0.3801±0.0309
Nutt2 0.0808 0.1108±0.0378 0.2220±0.1193 0.2621±0.0873
Nutt3 0.8791 0.4380±0.000 0.6992±0.2174 0.7671±0.1984
Pomemory2 0.2189 0.3680±0.0578 0.6812±0.0094 0.6305±0.0271
表3中第一列是数据集名称,第二列是对比算法MCLA在21个基因数据集上运行十次得到的平均值和方差值,第三列是对比算法MOCK在21个基因数据集上运行十次得到的平均值和方差值,第四列是对比算法MOCLE在21个基因数据集上运行十次得到的平均值和方差值,第五列是本发明的算法MOCNCD在21个基因数据集上运行十次得到的平均值和方差值。

Claims (5)

1.一种基于最小生成树的集成多目标进化自动聚类方法,具体步骤如下:
(1)输入待聚类的基因数据集;
(2)初始化:
(2a)设定待聚类基因数据集的类别数区间;
(2b)采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
(2c)采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
(2d)采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
(2e)采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
(2f)将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
(3)设定迭代参数:
将最大迭代次数设定为50次,初始迭代次数为1,迭代步长为1;
(4)计算簇间相似性:
按照下式,计算父代种群中所有簇之间的相似性:
E C S ( C 1 , C 2 ) = 1 | C 1 | | C 2 | Σ d 1 ∈ C 1 , d 2 ∈ C 2 s i m ( d 1 , d 2 )
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
(5)生成最小生成树:
(5a)采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
(5b)将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
(6)断开最小生成树:
(6a)将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
(6b)采用投票法,确定每个节点表示的簇中的数据点所属的个子生成树;
(6c)判断最小生成树中的所有边是否都断开,若是,则得到一个与父代种群规模相同的子种群,执行步骤(7);否则,执行步骤(6a);
(7)合并种群:
将与父代种群规模相同的子种群与父代种群合并为二倍种群;
(8)快速非支配排序:
(8a)搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
(8b)对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
(8c)判断二倍种群中的所有个体是否都被分级,若是,则执行步骤(9);否则,执行步骤(8b);
(9)计算拥挤度:
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列,得到拥挤度序;
(10)生成新的父代种群:
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群;
(11)判断迭代次数是否小于50,若是,将迭代次数加1,执行步骤(4);否则,执行步骤(12);
(12)选择最优个体:
计算父代种群中每个个体的评价函数值,将父代种群中评价函数值最大的个体作为父代种群中的最优个体;
(13)计算最优个体的精确值:
按照下式,计算父代种群中的最优个体的精确值:
C R = Σ i R Σ j C n i j - n Σ i R n i Σ j C n j 1 2 [ Σ i R n i + Σ j C n j ] - 1 n Σ i R n i Σ j C n j
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
2.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(2a)所述的待聚类基因数据集的类别数区间是指,当c>2时,待聚类基因数据集的类别数区间为[c-2,c+2],当c≤2时,待聚类基因数据集的类别数区间为[2,c+2],其中,c表示待聚类基因数据集的真实类别数。
3.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(6b)中所述的投票法的具体步骤如下:
第1步,计算最小生成树中每个节点表示的数据点出现在每个子生成树中的次数;
第2步,当最小生成树中的节点表示的数据点出现在某个子生成树中的次数大于或等于2时,判定该数据点属于该子生成树。
4.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(9)中所述二倍种群中的每个个体的拥挤度是按照下式计算得到的:
I ( d i ) = Σ i ∈ [ 2 , n - 1 ] [ p ( i + 1 ) - p ( i - 1 ) ] i ∈ [ 2 , n - 1 ] ∞ i = 1 , n
其中,I(di)表示二倍种群中第i个个体的拥挤度,∑表示求和操作,i表示二倍种群中的任意一个个体,∈表示属于符号,n表示二倍种群的个体数量,p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值,p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值。
5.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(12)中所述的父代种群中每个个体的评价函数值是按照下式计算得到的:
φ ( D ) = I C S ‾ ( D ) - E C S ‾ ( D )
其中,φ(D)表示父代种群中个体D的评价函数值,D表示父代种群中的任意一个个体,表示对父代种群中个体D的类内相似性进行归一化处理的值,表示对父代种群中个体D的类间相似性进行归一化处理的值。
CN201510560024.7A 2015-09-06 2015-09-06 基于最小生成树的集成多目标进化自动聚类方法 Active CN105139037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510560024.7A CN105139037B (zh) 2015-09-06 2015-09-06 基于最小生成树的集成多目标进化自动聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510560024.7A CN105139037B (zh) 2015-09-06 2015-09-06 基于最小生成树的集成多目标进化自动聚类方法

Publications (2)

Publication Number Publication Date
CN105139037A true CN105139037A (zh) 2015-12-09
CN105139037B CN105139037B (zh) 2018-04-17

Family

ID=54724380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510560024.7A Active CN105139037B (zh) 2015-09-06 2015-09-06 基于最小生成树的集成多目标进化自动聚类方法

Country Status (1)

Country Link
CN (1) CN105139037B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776919A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于聚类及进化算法构建信息核的物品推荐方法
CN110048945A (zh) * 2019-04-24 2019-07-23 湖南城市学院 一种节点移动性分簇方法及系统
CN110070121A (zh) * 2019-04-15 2019-07-30 西北工业大学 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN113838526A (zh) * 2021-09-16 2021-12-24 赛业(广州)生物科技有限公司 一种病毒突变体的生成方法、系统、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
CN102663100A (zh) * 2012-04-13 2012-09-12 西安电子科技大学 一种两阶段混合粒子群优化聚类方法
CN104809476A (zh) * 2015-05-12 2015-07-29 西安电子科技大学 一种基于分解的多目标进化模糊规则分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
CN102663100A (zh) * 2012-04-13 2012-09-12 西安电子科技大学 一种两阶段混合粒子群优化聚类方法
CN104809476A (zh) * 2015-05-12 2015-07-29 西安电子科技大学 一种基于分解的多目标进化模糊规则分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李密青 等: "一种基于最小生成树的多目标进化算法", 《计算机研究与发展》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776919A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于聚类及进化算法构建信息核的物品推荐方法
CN108776919B (zh) * 2018-05-31 2021-07-20 西安电子科技大学 基于聚类及进化算法构建信息核的物品推荐方法
CN110070121A (zh) * 2019-04-15 2019-07-30 西北工业大学 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN110070121B (zh) * 2019-04-15 2021-08-10 西北工业大学 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN110048945A (zh) * 2019-04-24 2019-07-23 湖南城市学院 一种节点移动性分簇方法及系统
CN113838526A (zh) * 2021-09-16 2021-12-24 赛业(广州)生物科技有限公司 一种病毒突变体的生成方法、系统、计算机设备及介质
CN113838526B (zh) * 2021-09-16 2023-08-25 赛业(广州)生物科技有限公司 一种病毒突变体的生成方法、系统、计算机设备及介质

Also Published As

Publication number Publication date
CN105139037B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
Lu et al. A hybrid ensemble algorithm combining AdaBoost and genetic algorithm for cancer classification with gene expression data
CN107862179A (zh) 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
Agusta Modified balanced random forest for improving imbalanced data prediction
CN105825078B (zh) 基于基因大数据的小样本基因表达数据分类方法
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN105139037A (zh) 基于最小生成树的集成多目标进化自动聚类方法
CN101178703A (zh) 基于网络分割的故障诊断谱聚类方法
CN101324926B (zh) 一种面向复杂模式分类的特征选择方法
Pouyan et al. Clustering single-cell expression data using random forest graphs
Li et al. Bregmannian consensus clustering for cancer subtypes analysis
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Saha et al. Application of data mining in protein sequence classification
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
Ma et al. Kernel soft-neighborhood network fusion for miRNA-disease interaction prediction
Ahmed et al. Improving prediction of plant disease using k-efficient clustering and classification algorithms
CN109766910A (zh) 基于相似度传递的图聚类方法
Priscilla et al. A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data
Pouyan et al. Distance metric learning using random forest for cytometry data
Fadaei et al. Taxonomy of Production Systems with Combining K-Means and Evolutionary Algorithms
Le et al. Choosing seeds for semi-supervised graph based clustering
Pouyan et al. A two-stage clustering technique for automatic biaxial gating of flow cytometry data
CN103488997B (zh) 基于各类重要波段提取的高光谱图像波段选择方法
Nivetha et al. Predicting survival of breast cancer patients using fuzzy rule based system
Ghai et al. Proximity measurement technique for gene expression data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant