CN105139037B - 基于最小生成树的集成多目标进化自动聚类方法 - Google Patents
基于最小生成树的集成多目标进化自动聚类方法 Download PDFInfo
- Publication number
- CN105139037B CN105139037B CN201510560024.7A CN201510560024A CN105139037B CN 105139037 B CN105139037 B CN 105139037B CN 201510560024 A CN201510560024 A CN 201510560024A CN 105139037 B CN105139037 B CN 105139037B
- Authority
- CN
- China
- Prior art keywords
- population
- individual
- clustered
- parent population
- spanning tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Discrete Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于最小生成树的集成多目标进化自动聚类方法,克服了现有技术中对高维数据集处理效果不佳的问题。其实现步骤是:(1)输入待聚类的基因数据集;(2)初始化;(3)设定迭代参数;(4)计算簇间相似性;(5)生成最小生成树;(6)断开最小生成树;(7)合并种群;(8)快速非支配排序;(9)计算拥挤度;(10)生成新的父代种群;(11)判断迭代次数是否小于50;(12)选择最优个体;(13)计算最优个体的精确值;本发明提出的方法运行速度快,可有效地对各种基因数据集进行聚类分析,不需要预先设定数据集的类别数,能够应用于生物医学识别、肿瘤检测等领域中存在的高维度数据分析。
Description
技术领域
本发明属于网络技术领域,更进一步涉及数据挖掘技术领域中的一种基于最小生成树的集成多目标进化自动聚类方法。本发明通过多目标进化算法,可有效地对各种基因数据集进行聚类分析,主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。
背景技术
在大规模数据分析中,传统的数据分析工具只能分析出数据的简单关系,但是不能挖掘到数据之间潜在的关系和隐藏的信息。近年来,许多学者通过对数据深层信息的挖掘,在人工智能、人工神经网络和智能计算等学科的基础上,对数据挖掘进行多方面的研究,将聚类分析应用到数据挖掘技术上,并且得到了广泛的应用。聚类技术是指在无监督条件下,对未知数据进行类别预测的技术。常见的应用如:数据分析、图像分割处理、生物医学识别、肿瘤检测等实际应用。目前已经提出了很多多目标聚类算法,但是大部分算法并没有致力于处理高维数据集,而用于生物医学识别和肿瘤检测的基因数据集的最大特点就是具有很高的维度。
西安电子科技大学申请的专利“监督基因表达数据分类方法”(专利申请号201410817036.9,公开号CN 104504305A)中公开一种监督基因表达数据分类的方法。该方法采用类别保留投影方法获得训练样本的鉴别特征向量,再利用训练样本的鉴别特征向量,采用回归优化方法获得投影矩阵,通过投影矩阵获得训练样本特征集和测试样本特征集,最后用最近邻分类器实现对测试样本的分类识别。该方法存在的不足之处是,该方法必须预先定义类或者带类标记的训练样本,然而大部分基因数据集并不能预先知道类别数,并且由于该方法将类别保留投影方法转化到回归框架,加重了分类器设计的负担,从而降低了基因表达数据分类的准确性。
RC Liu等人在其发表的论文“An improved method for multi-objectiveclustering ensemble algorithm”(IEEE Congress on EvolutionaryComputation.2012.)中提出了一种基于四目标的聚类集成方法。该方法采用遗传算法的框架,利用四种不同的传统聚类算法产生初始种群,采用集成算法MCLA作为交叉算子,产生新的中间种群,利用多目标优化算法NSGA-II的思想,从中间种群中选择下一代种群,如果迭代没有达到设定次数,则跳回到交叉步骤一直循环,最终得到较好聚类结果的集群。该方法虽然采用集成算法MCLA作为交叉算子,具有很强的搜索能力,但是,该方法仍然存在的不足之处是,该方法采用的交叉方式在对基因数据集的处理时很容易产生非法的解,即所有的数据类标都变成了零,大大降低了该方法的准确性,影响了对基因数据集的分类结果。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于最小生成树的集成多目标进化自动聚类方法,以实现对高维度基因数据集的聚类分析,产生高质量的聚类划分。
实现本发明目的的具体步骤如下:
(1)输入待聚类的基因数据集;
(2)初始化:
(2a)设定待聚类基因数据集的类别数区间;
(2b)采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
(2c)采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
(2d)采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
(2e)采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
(2f)将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
(3)设定迭代参数:
将最大迭代次数设定为50次,初始迭代次数为1,迭代步长为1;
(4)计算簇间相似性:
按照下式,计算父代种群中所有簇之间的相似性:
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
(5)生成最小生成树:
(5a)采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
(5b)将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
(6)断开最小生成树:
(6a)将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
(6b)采用投票法,确定每个节点表示的簇中的数据点所属的个子生成树;
(6c)判断最小生成树中的所有边是否都断开,若是,则得到一个与父代种群规模相同的子种群,执行步骤(7);否则,执行步骤(6a);
(7)合并种群:
将与父代种群规模相同的子种群与父代种群合并为二倍种群;
(8)快速非支配排序:
(8a)搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
(8b)对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
(8c)判断二倍种群中的所有个体是否都被分级,若是,则执行步骤(9);否则,执行步骤(8b);
(9)计算拥挤度:
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列,得到拥挤度序;
(10)生成新的父代种群:
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群;
(11)判断迭代次数是否小于50,若是,将迭代次数加1,执行步骤(4);否则,执行步骤(12);
(12)选择最优个体:
计算父代种群中每个个体的评价函数值,将父代种群中评价函数值最大的个体作为父代种群中的最优个体;
(13)按照下式,计算父代种群中的最优个体的精确值:
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
本发明与现有技术相比具有以下优点:
第一,由于本发明引入普利姆算法生成最小生成树,产生新的中间种群,克服了现有技术中存在交叉方式在对基因数据集处理时容易产生非法的解的问题,使得本发明对解空间的搜索能力大幅增强,提高了本发明对数据聚类结果的准确性。
第二,由于本发明引入了快速非支配排序,选择新的父代种群时不需要预先定义种群类别数,克服了现有技术中必须预先定义类或者带标记的训练样本的问题,使得本发明的自适应性大幅提升。
附图说明
图1为本发明的流程图;
具体实施方式
下面结合图1对本发明的具体实施步骤做进一步的详细描述。
步骤1.输入待聚类的基因数据集。
步骤2.初始化。
当c>2时,初始种群个体的类别数区间为[c-2,c+2],当c≤2时,初始种群个体的类别数区间为[2,c+2],其中,c表示待聚类基因数据集的真实类别数。
采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
对于每一个数据集都有三种表现形式:原始数据,经过standardization处理过的数据,通过normalization处理过的数据。如果一个类别数是2的数据集,则该数据集初始化产生的父代种群大小为3*4*2*2=48,如果是一个类别数为6的数据集,则该数据集初始化产生的父代种群大小为6*4*2*2=80。
步骤3.设定迭代参数。
将最大迭代次数设定为50次,初始迭代次数1,迭代步长为1。
步骤4.计算簇间相似性。
按照下式,计算父代种群中所有簇之间的相似性:
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
步骤5.生成最小生成树。
采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
步骤6.断开最小生成树。
将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
计算最小生成树中每个节点表示的数据对象在每个子生成树中出现的次数和。当最小生成树中的节点表示的数据对象出现在某个子生成树中的次数和大于等于2时,则判定该数据对象属于该子生成树。
重复上述的操作,直到最小生成树中的所有边都断开,从而得到一个与父代种群规模相同的子种群。
步骤7.种群合并。
将与父代种群规模相同的子种群与父代种群合并为二倍种群。
步骤8.快速非支配排序。
第一步,搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
第二步,对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
第三步,判断二倍种群中的所有个体是否都被分级,若是,则执行步骤9;否则,执行第二步操作。
步骤9.计算拥挤度。
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列得到拥挤度序。
每个个体的拥挤度是按照下式计算得到的:
其中,I(di)表示二倍种群中第i个个体的拥挤度,i表示二倍种群中的任意一个个体,∑表示求和操作,∈表示属于符号,p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值,p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值,n表示二倍种群的种群规模。
步骤10.生成新的父代种群。
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群。
步骤11.判定迭代次数。
判断迭代次数是否小于50,若是,则将迭代次数加1,执行步骤4,否则,则执行步骤12。
步骤12.选择最优个体。
计算父代种群中每个个体的评价函数值,将评价函数值中最大的个体作为父代种群中的最优个体。
每个个体的评价函数值是按照下式计算得到的:
其中,φ(D)表示父代种群中个体D的评价函数值,D表示父代种群中的任意一个个体,表示对父代种群中个体D的类内相似性进行归一化处理的值,表示对父代种群中个体D的类间相似性进行归一化处理的值。
步骤13.计算最优个体的精确值。
按照下式,计算父代种群中的最优个体的精确值:
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
本发明的效果可以通过以下实验做进一步的说明。
1.仿真条件:
本发明的仿真实验是在CPU为core 2 2.4GHZ、内存2G、WINDOWS 7系统上使用Matlab 2009a进行仿真的。
2.仿真实验采用的数据集:
在本发明的算法中,所测的数据集都是数值型数据集,每一个数据集都有三种表现形式:原始数据集,经过standardization处理的数据集,经过normalization处理的数据集。
本发明的仿真实验当中的数据集全部都是基因数据集,都与癌症基因研究有关。表1是对基因数据集的说明,其中包括数据集名称,数据集样本个数,数据集类别数,数据集样本维数以及对数据集处理后的维数。从下表可以看出,基因数据集的特点就是高维度,小样本。
表1 基因数据集属性描述表
数据集名称 | 数据集样本个数 | 数据集类别数 | 数据集样本维数 | 处理后的维数 |
Alizadeh-v1 | 42 | 2 | 4022 | 1095 |
Alizadeh-v2 | 62 | 3 | 4022 | 2093 |
Alizadeh-v3 | 62 | 4 | 4022 | 2093 |
Arnstrong-v1 | 72 | 2 | 12582 | 1071 |
Armstrong-v2 | 72 | 3 | 12582 | 2194 |
Bredel | 50 | 3 | 41472 | 1739 |
Chen | 179 | 2 | 22699 | 85 |
Chowdary | 104 | 2 | 22283 | 182 |
Dyrskjot | 40 | 3 | 7129 | 1203 |
Garber | 66 | 4 | 24192 | 4553 |
Golub-v2 | 72 | 3 | 7129 | 1877 |
Gordon | 181 | 2 | 12533 | 1626 |
Khan | 83 | 4 | 6567 | 1069 |
Laiho | 37 | 2 | 22883 | 2202 |
Lapointe-v1 | 69 | 3 | 42640 | 1625 |
Lapointe-v2 | 110 | 4 | 42640 | 2496 |
Liang | 37 | 3 | 24192 | 1411 |
Nutt-v1 | 50 | 4 | 12625 | 1377 |
Nutt-v2 | 28 | 2 | 12625 | 1070 |
Nutt-v3 | 22 | 2 | 12625 | 1152 |
Pomemory-v2 | 42 | 5 | 7129 | 1379 |
Su | 174 | 10 | 12533 | 1571 |
West | 49 | 2 | 7129 | 1198 |
Yeoh-v2 | 248 | 6 | 61265 | 2526 |
3.仿真实验的参数设置:
表2主要说明了本发明的仿真实验的参数设置,主要包括以下三个参数:初始种群的大小、计算目标函数的最近邻点个数以及初始化中四种不同算法所用到的类别数区间。
4.仿真内容:
表3中给出了本发明中的算法和其他三种经典算法的对比结果,第二列是对比算法MCLA在21个基因数据集上的测试结果,第三列是对比算法MOCK在21个基因数据集上的测试结果,第四列是对比算法MOCLE在21个基因数据集上的测试结果,第五列是本发明的算法MOCNCD在21个基因数据集上的测试结果。由于四种算法具有一定的随机性,所以每个算法分别独立运行10次,得到平均值和方差。我们用黑体标注了四种算法中最好的解。
表2 本发明仿真实验参数的设置表
数据集名称 | 初始种群大小 | 最近邻点个数 | 类别数区间 |
Alizadeh-v1 | 48 | 3 | [2,4] |
Alizadeh-v2 | 64 | 4 | [2,5] |
Alizadeh-v3 | 80 | 4 | [2,6] |
Arnstrong-v1 | 48 | 4 | [2,4] |
Armstrong-v2 | 64 | 4 | [2,5] |
Bredel | 64 | 3 | [2,5] |
Chen | 48 | 9 | [2,4] |
Chowdary | 48 | 6 | [2,4] |
Dyrskjot | 64 | 2 | [2,5] |
Garber | 80 | 4 | [2,6] |
Golub-v2 | 64 | 4 | [2,5] |
Gordon | 48 | 10 | [2,4] |
Khan | 80 | 5 | [2,6] |
Laiho | 48 | 2 | [2,4] |
Lapointe-v1 | 64 | 4 | [2,5] |
Lapointe-v2 | 80 | 6 | [2,6] |
Liang | 64 | 2 | [2,5] |
Nutt-v1 | 80 | 3 | [2,6] |
Nutt-v2 | 48 | 2 | [2,4] |
Nutt-v3 | 48 | 2 | [2,4] |
Pomemory-v2 | 80 | 3 | [2,7] |
Su | 80 | 9 | [8,12] |
West | 48 | 3 | [2,4] |
Yeoh-v2 | 80 | 13 | [2,8] |
由表3可以看出,与三个对比算法(第二、三、四列结果)相比,本发明即第五列结果在大部分基因数据集上均优于其他三个对比算法。通过上述的仿真实验可以看出,本发明对在大部分数据集上都取得了不错得效果,有效地验证了本发明的合理性和有效性。
简而言之,本发明公开的一种基于最小生成树的集成多目标进化自动聚类方法,主要克服了现有技术中对高维数据集处理效果不佳的问题,本发明提出的方法运行速度快,可有效地对各种基因数据集进行聚类分析,不需要预先设定数据集的类别数,本发明通过经典的多目标进化算法,可有效地对各种基因数据集进行聚类分析,主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。
表3 10次独立运行的最优CR值的均值和方差值一览表
Data sets | MCLA | MOCK | MOCLE | MOCNCD |
Alizadeh1 | 0.0641 | 0.0493±0.0277 | 0.2862±0.0955 | 0.1822±0.1314 |
Alizadeh2 | 0.8647 | 1.0000±0.0000 | 0.9870±0.0209 | 1.0000±0.0000 |
Alizadeh3 | 0.4916 | 0.5350±0.0000 | 0.5729±0.0467 | 0.6322±0.0243 |
Armstrong1 | 0.8381 | 0.2996±0.6767 | 0.5096±0.0104 | 0.5434±0.0257 |
Armstrong2 | 0.2362 | 0.6758±0.0950 | 0.9077±0.0345 | 0.9148±0.0121 |
Bredel | 0.2508 | 0.5359±0.1671 | 0.6066±0.0837 | 0.6357±0.0499 |
Chen | 0.1294 | 0.4028±0.0419 | 0.7013±0.0467 | 0.7044±0.0511 |
Chowdary | 0.0755 | 0.9238±0.0000 | 0.9238±0.0000 | 0.9238±0.0000 |
Dyrskjot | 0.2331 | 0.4520±0.0867 | 0.5200±0.0791 | 0.6139±0.0481 |
Garber | 0.0849 | 0.0004±0.0000 | 0.3043±0.0000 | 0.2091±0.0152 |
Golub2 | 0.1356 | 0.6330±0.1278 | 0.8625±0.0315 | 0.8418±0.0271 |
Gordon | 0.8190 | 0.8244±0.0302 | 0.8762±0.0751 | 0.9274±0.0719 |
Khan | 0.0717 | 0.7659±0.1361 | 0.8588±0.0798 | 0.8283±0.0952 |
Laiho | 0.3914 | 0.4449±0.0392 | 0.3044±0.0616 | 0.3266±0.0632 |
Lapointe | 0.1222 | 0.1381±0.0243 | 0.1936±0.0156 | 0.2184±0.0221 |
Lapointe2 | 0.0127 | 0.0528±0.0000 | 0.2736±0.0513 | 0.2778±0.0664 |
Liang | 0.2588. | 0.3038±0.0059 | 0.2899±0.0387 | 0.3154±0.0352 |
Nutt | 0.3291 | 0.1567±0.0000 | 0.3271±0.0383 | 0.3801±0.0309 |
Nutt2 | 0.0808 | 0.1108±0.0378 | 0.2220±0.1193 | 0.2621±0.0873 |
Nutt3 | 0.8791 | 0.4380±0.000 | 0.6992±0.2174 | 0.7671±0.1984 |
Pomemory2 | 0.2189 | 0.3680±0.0578 | 0.6812±0.0094 | 0.6305±0.0271 |
表3中第一列是数据集名称,第二列是对比算法MCLA在21个基因数据集上运行十次得到的平均值和方差值,第三列是对比算法MOCK在21个基因数据集上运行十次得到的平均值和方差值,第四列是对比算法MOCLE在21个基因数据集上运行十次得到的平均值和方差值,第五列是本发明的算法MOCNCD在21个基因数据集上运行十次得到的平均值和方差值。
Claims (5)
1.一种基于最小生成树的集成多目标进化自动聚类方法,具体步骤如下:
(1)输入待聚类的基因数据集;
(2)初始化:
(2a)设定待聚类基因数据集的类别数区间;
(2b)采用K均值算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的K均值基聚类种群;
(2c)采用平均距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的平均距离基聚类种群;
(2d)采用最大距离算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的最大距离基聚类种群;
(2e)采用谱聚类算法,分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数,对确定类别数的待聚类基因数据集进行聚类,得到不同的谱聚类基聚类种群;
(2f)将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群;
(3)设定迭代参数:
将最大迭代次数设定为50次,初始迭代次数为1,迭代步长为1;
(4)计算簇间相似性:
按照下式,计算父代种群中所有簇之间的相似性:
<mrow>
<mi>E</mi>
<mi>C</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
<mo>|</mo>
</mrow>
</mrow>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mn>2</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,ECS(·)表示父代种群中任意两个簇的簇间相似性,C1,C2分别表示父代种群中不同的两个簇,|C1|、|C2|分别表示簇C1和簇C2中所包含的数据点个数,∑表示求和操作,∈表示属于符号,d1表示父代种群簇C1中的数据点,d2表示父代种群簇C2中的数据点,sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数;
(5)生成最小生成树:
(5a)采用普利姆算法,生成最小生成树,最小生成树中的每个节点代表父代种群中的每个簇;
(5b)将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值;
(6)断开最小生成树:
(6a)将最小生成树所有边中权值最小的边断开,将整个最小生成树分成c个子生成树,其中,c表示待聚类基因数据集的真实类别数;
(6b)采用投票法,确定每个节点表示的簇中的数据点所属的子生成树;
(6c)判断最小生成树中的所有边是否都断开,若是,则得到一个与父代种群规模相同的子种群,执行步骤(7);否则,执行步骤(6a);
(7)合并种群:
将与父代种群规模相同的子种群与父代种群合并为二倍种群;
(8)快速非支配排序:
(8a)搜索二倍种群中的被支配个体数量为0的个体,将其全部放入第一集合中,并赋予该集合中每个个体相应的非支配序;
(8b)对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体,其放入第二集合中,赋予该集合中个体相应的非支配序;
(8c)判断二倍种群中的所有个体是否都被分级,若是,则执行步骤(9);否则,执行步骤(8b);
(9)计算拥挤度:
计算二倍种群中每个个体的拥挤度,按照拥挤度的大小进行降序排列,得到拥挤度序;
(10)生成新的父代种群:
将二倍种群中每个个体按照非支配序从小到大排列,相同的非支配序个体之间按照拥挤度序从大到小排列,从排列好的二倍种群中选择前一半个体组成新的父代种群;
(11)判断迭代次数是否小于50,若是,将迭代次数加1,执行步骤(4);否则,执行步骤(12);
(12)选择最优个体:
计算父代种群中每个个体的评价函数值,将父代种群中评价函数值最大的个体作为父代种群中的最优个体;
(13)计算最优个体的精确值:
按照下式,计算父代种群中的最优个体的精确值:
<mrow>
<mi>C</mi>
<mi>R</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mi>i</mi>
<mi>R</mi>
</msubsup>
<msubsup>
<mi>&Sigma;</mi>
<mi>j</mi>
<mi>C</mi>
</msubsup>
<msub>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<msubsup>
<mi>n&Sigma;</mi>
<mi>i</mi>
<mi>R</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>&Sigma;</mi>
<mi>j</mi>
<mi>C</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>&lsqb;</mo>
<msubsup>
<mi>&Sigma;</mi>
<mi>i</mi>
<mi>R</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msubsup>
<mi>&Sigma;</mi>
<mi>j</mi>
<mi>C</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
<mo>&rsqb;</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mi>i</mi>
<mi>R</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>&Sigma;</mi>
<mi>j</mi>
<mi>C</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
</mrow>
其中,CR表示父代种群中最优个体的精确值,∑表示求和操作,R表示父代种群中个体u所包含的数据点个数,i表示父代种群个体u中的任意一个数据点,C表示父代种群中个体v所包含的数据点个数,j表示父代种群个体v中的任意一个数据点,u、v分别表示父代种群中的任意两个个体,nij表示同时出现在簇ui和簇vi中的数据点的个数,n表示输入的待聚类数据集的数据点个数,ni表示只出现在簇ui中的数据点个数,nj表示只出现在簇uj中的数据点个数,ui表示父代种群中个体u中任意一个簇,vi表示父代种群中个体v中的任意一个簇。
2.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(2a)所述的待聚类基因数据集的类别数区间是指,当c>2时,待聚类基因数据集的类别数区间为[c-2,c+2],当c≤2时,待聚类基因数据集的类别数区间为[2,c+2],其中,c表示待聚类基因数据集的真实类别数。
3.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(6b)中所述的投票法的具体步骤如下:
第1步,计算最小生成树中每个节点表示的数据点出现在每个子生成树中的次数;
第2步,当最小生成树中的节点表示的数据点出现在某个子生成树中的次数大于或等于2时,判定该数据点属于该子生成树。
4.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(9)中所述二倍种群中的每个个体的拥挤度是按照下式计算得到的:
<mrow>
<mi>I</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
</munder>
<mo>&lsqb;</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>&infin;</mi>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,I(di)表示二倍种群中第i个个体的拥挤度,∑表示求和操作,i表示二倍种群中的任意一个个体,∈表示属于符号,n表示二倍种群的个体数量,p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值,p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值。
5.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法,其特征在于,步骤(12)中所述的父代种群中每个个体的评价函数值是按照下式计算得到的:
<mrow>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mover>
<mrow>
<mi>I</mi>
<mi>C</mi>
<mi>S</mi>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mover>
<mrow>
<mi>E</mi>
<mi>C</mi>
<mi>S</mi>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,φ(D)表示父代种群中个体D的评价函数值,D表示父代种群中的任意一个个体,表示对父代种群中个体D的类内相似性进行归一化处理的值,表示对父代种群中个体D的类间相似性进行归一化处理的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510560024.7A CN105139037B (zh) | 2015-09-06 | 2015-09-06 | 基于最小生成树的集成多目标进化自动聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510560024.7A CN105139037B (zh) | 2015-09-06 | 2015-09-06 | 基于最小生成树的集成多目标进化自动聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105139037A CN105139037A (zh) | 2015-12-09 |
CN105139037B true CN105139037B (zh) | 2018-04-17 |
Family
ID=54724380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510560024.7A Active CN105139037B (zh) | 2015-09-06 | 2015-09-06 | 基于最小生成树的集成多目标进化自动聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105139037B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776919B (zh) * | 2018-05-31 | 2021-07-20 | 西安电子科技大学 | 基于聚类及进化算法构建信息核的物品推荐方法 |
CN110070121B (zh) * | 2019-04-15 | 2021-08-10 | 西北工业大学 | 一种基于树策略与平衡k均值聚类的快速近似k近邻方法 |
CN110048945B (zh) * | 2019-04-24 | 2021-03-02 | 湖南城市学院 | 一种节点移动性分簇方法及系统 |
CN113838526B (zh) * | 2021-09-16 | 2023-08-25 | 赛业(广州)生物科技有限公司 | 一种病毒突变体的生成方法、系统、计算机设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663100A (zh) * | 2012-04-13 | 2012-09-12 | 西安电子科技大学 | 一种两阶段混合粒子群优化聚类方法 |
CN104809476A (zh) * | 2015-05-12 | 2015-07-29 | 西安电子科技大学 | 一种基于分解的多目标进化模糊规则分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
-
2015
- 2015-09-06 CN CN201510560024.7A patent/CN105139037B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663100A (zh) * | 2012-04-13 | 2012-09-12 | 西安电子科技大学 | 一种两阶段混合粒子群优化聚类方法 |
CN104809476A (zh) * | 2015-05-12 | 2015-07-29 | 西安电子科技大学 | 一种基于分解的多目标进化模糊规则分类方法 |
Non-Patent Citations (1)
Title |
---|
一种基于最小生成树的多目标进化算法;李密青 等;《计算机研究与发展》;20090531;第46卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105139037A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aydadenta et al. | A clustering approach for feature selection in microarray data classification using random forest | |
US7890445B2 (en) | Model selection for cluster data analysis | |
Latkowski et al. | Data mining for feature selection in gene expression autism data | |
Chen et al. | A novel ensemble of classifiers for microarray data classification | |
CN103886330B (zh) | 基于半监督svm集成学习的分类方法 | |
CN105139037B (zh) | 基于最小生成树的集成多目标进化自动聚类方法 | |
Liu et al. | Feature selection based on sensitivity analysis of fuzzy ISODATA | |
de Arruda et al. | A complex networks approach for data clustering | |
Latkowski et al. | Computerized system for recognition of autism on the basis of gene expression microarray data | |
Cord et al. | Feature selection in robust clustering based on Laplace mixture | |
Mabu et al. | Mining gene expression data using data mining techniques: A critical review | |
Pouyan et al. | Clustering single-cell expression data using random forest graphs | |
CN106875402B (zh) | 一种基于选取合适聚类数目的聚类算法的数字图像处理方法 | |
Liu | A new index for clustering evaluation based on density estimation | |
Rathore et al. | CBISC: a novel approach for colon biopsy image segmentation and classification | |
Sathishkumar et al. | A novel approach for single gene selection using clustering and dimensionality reduction | |
Ragunthar et al. | Classification of gene expression data with optimized feature selection | |
Wu | On biological validity indices for soft clustering algorithms for gene expression data | |
Wong et al. | A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection | |
CN115310491A (zh) | 一种基于深度学习的类不平衡磁共振全脑数据分类方法 | |
Ahmed et al. | Improving prediction of plant disease using k-efficient clustering and classification algorithms | |
Priscilla et al. | A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data | |
German et al. | Microarray classification from several two-gene expression comparisons | |
CN103761433A (zh) | 一种网络服务资源分类方法 | |
Salem et al. | A new gene selection technique based on hybrid methods for cancer classification using microarrays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |