CN105139037B

CN105139037B - 基于最小生成树的集成多目标进化自动聚类方法

Info

Publication number: CN105139037B
Application number: CN201510560024.7A
Authority: CN
Inventors: 刘若辰; 焦李成; 罗婉菁; 卞仁玉; 张向荣; 李阳阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2018-04-17
Anticipated expiration: 2035-09-06
Also published as: CN105139037A

Abstract

本发明提出了一种基于最小生成树的集成多目标进化自动聚类方法，克服了现有技术中对高维数据集处理效果不佳的问题。其实现步骤是：(1)输入待聚类的基因数据集；(2)初始化；(3)设定迭代参数；(4)计算簇间相似性；(5)生成最小生成树；(6)断开最小生成树；(7)合并种群；(8)快速非支配排序；(9)计算拥挤度；(10)生成新的父代种群；(11)判断迭代次数是否小于50；(12)选择最优个体；(13)计算最优个体的精确值；本发明提出的方法运行速度快，可有效地对各种基因数据集进行聚类分析，不需要预先设定数据集的类别数，能够应用于生物医学识别、肿瘤检测等领域中存在的高维度数据分析。

Description

基于最小生成树的集成多目标进化自动聚类方法

技术领域

本发明属于网络技术领域，更进一步涉及数据挖掘技术领域中的一种基于最小生成树的集成多目标进化自动聚类方法。本发明通过多目标进化算法，可有效地对各种基因数据集进行聚类分析，主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。

背景技术

在大规模数据分析中，传统的数据分析工具只能分析出数据的简单关系，但是不能挖掘到数据之间潜在的关系和隐藏的信息。近年来，许多学者通过对数据深层信息的挖掘，在人工智能、人工神经网络和智能计算等学科的基础上，对数据挖掘进行多方面的研究，将聚类分析应用到数据挖掘技术上，并且得到了广泛的应用。聚类技术是指在无监督条件下，对未知数据进行类别预测的技术。常见的应用如：数据分析、图像分割处理、生物医学识别、肿瘤检测等实际应用。目前已经提出了很多多目标聚类算法，但是大部分算法并没有致力于处理高维数据集，而用于生物医学识别和肿瘤检测的基因数据集的最大特点就是具有很高的维度。

西安电子科技大学申请的专利“监督基因表达数据分类方法”(专利申请号201410817036.9，公开号CN 104504305A)中公开一种监督基因表达数据分类的方法。该方法采用类别保留投影方法获得训练样本的鉴别特征向量，再利用训练样本的鉴别特征向量，采用回归优化方法获得投影矩阵，通过投影矩阵获得训练样本特征集和测试样本特征集，最后用最近邻分类器实现对测试样本的分类识别。该方法存在的不足之处是，该方法必须预先定义类或者带类标记的训练样本，然而大部分基因数据集并不能预先知道类别数，并且由于该方法将类别保留投影方法转化到回归框架，加重了分类器设计的负担，从而降低了基因表达数据分类的准确性。

RC Liu等人在其发表的论文“An improved method for multi-objectiveclustering ensemble algorithm”(IEEE Congress on EvolutionaryComputation.2012.)中提出了一种基于四目标的聚类集成方法。该方法采用遗传算法的框架，利用四种不同的传统聚类算法产生初始种群，采用集成算法MCLA作为交叉算子，产生新的中间种群，利用多目标优化算法NSGA-II的思想，从中间种群中选择下一代种群，如果迭代没有达到设定次数，则跳回到交叉步骤一直循环，最终得到较好聚类结果的集群。该方法虽然采用集成算法MCLA作为交叉算子，具有很强的搜索能力，但是，该方法仍然存在的不足之处是，该方法采用的交叉方式在对基因数据集的处理时很容易产生非法的解，即所有的数据类标都变成了零，大大降低了该方法的准确性，影响了对基因数据集的分类结果。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于最小生成树的集成多目标进化自动聚类方法，以实现对高维度基因数据集的聚类分析，产生高质量的聚类划分。

实现本发明目的的具体步骤如下：

(1)输入待聚类的基因数据集；

(2)初始化：

(2a)设定待聚类基因数据集的类别数区间；

(2b)采用K均值算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的K均值基聚类种群；

(2c)采用平均距离算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的平均距离基聚类种群；

(2d)采用最大距离算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的最大距离基聚类种群；

(2e)采用谱聚类算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的谱聚类基聚类种群；

(2f)将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群；

(3)设定迭代参数：

将最大迭代次数设定为50次，初始迭代次数为1，迭代步长为1；

(4)计算簇间相似性：

按照下式，计算父代种群中所有簇之间的相似性：

其中，ECS(·)表示父代种群中任意两个簇的簇间相似性，C₁，C₂分别表示父代种群中不同的两个簇，|C₁|、|C₂｜分别表示簇C₁和簇C₂中所包含的数据点个数，∑表示求和操作，∈表示属于符号，d₁表示父代种群簇C₁中的数据点，d₂表示父代种群簇C₂中的数据点，sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数；

(5)生成最小生成树：

(5a)采用普利姆算法，生成最小生成树，最小生成树中的每个节点代表父代种群中的每个簇；

(5b)将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值；

(6)断开最小生成树：

(6a)将最小生成树所有边中权值最小的边断开，将整个最小生成树分成c个子生成树，其中，c表示待聚类基因数据集的真实类别数；

(6b)采用投票法，确定每个节点表示的簇中的数据点所属的个子生成树；

(6c)判断最小生成树中的所有边是否都断开，若是，则得到一个与父代种群规模相同的子种群，执行步骤(7)；否则，执行步骤(6a)；

(7)合并种群：

将与父代种群规模相同的子种群与父代种群合并为二倍种群；

(8)快速非支配排序：

(8a)搜索二倍种群中的被支配个体数量为0的个体，将其全部放入第一集合中，并赋予该集合中每个个体相应的非支配序；

(8b)对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体，其放入第二集合中，赋予该集合中个体相应的非支配序；

(8c)判断二倍种群中的所有个体是否都被分级，若是，则执行步骤(9)；否则，执行步骤(8b)；

(9)计算拥挤度：

计算二倍种群中每个个体的拥挤度，按照拥挤度的大小进行降序排列，得到拥挤度序；

(10)生成新的父代种群：

将二倍种群中每个个体按照非支配序从小到大排列，相同的非支配序个体之间按照拥挤度序从大到小排列，从排列好的二倍种群中选择前一半个体组成新的父代种群；

(11)判断迭代次数是否小于50，若是，将迭代次数加1，执行步骤(4)；否则，执行步骤(12)；

(12)选择最优个体：

计算父代种群中每个个体的评价函数值，将父代种群中评价函数值最大的个体作为父代种群中的最优个体；

(13)按照下式，计算父代种群中的最优个体的精确值：

其中，CR表示父代种群中最优个体的精确值，∑表示求和操作，R表示父代种群中个体u所包含的数据点个数，i表示父代种群个体u中的任意一个数据点，C表示父代种群中个体v所包含的数据点个数，j表示父代种群个体v中的任意一个数据点，u、v分别表示父代种群中的任意两个个体，n_ij表示同时出现在簇u_i和簇v_i中的数据点的个数，n表示输入的待聚类数据集的数据点个数，n_i表示只出现在簇u_i中的数据点个数，n_j表示只出现在簇u_j中的数据点个数，u_i表示父代种群中个体u中任意一个簇，v_i表示父代种群中个体v中的任意一个簇。

本发明与现有技术相比具有以下优点：

第一，由于本发明引入普利姆算法生成最小生成树，产生新的中间种群，克服了现有技术中存在交叉方式在对基因数据集处理时容易产生非法的解的问题，使得本发明对解空间的搜索能力大幅增强，提高了本发明对数据聚类结果的准确性。

第二，由于本发明引入了快速非支配排序，选择新的父代种群时不需要预先定义种群类别数，克服了现有技术中必须预先定义类或者带标记的训练样本的问题，使得本发明的自适应性大幅提升。

附图说明

图1为本发明的流程图；

具体实施方式

下面结合图1对本发明的具体实施步骤做进一步的详细描述。

步骤1.输入待聚类的基因数据集。

步骤2.初始化。

当c>2时，初始种群个体的类别数区间为[c-2,c+2]，当c≤2时，初始种群个体的类别数区间为[2,c+2]，其中，c表示待聚类基因数据集的真实类别数。

采用K均值算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的K均值基聚类种群；

采用平均距离算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的平均距离基聚类种群；

采用最大距离算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的最大距离基聚类种群；

采用谱聚类算法，分别将待聚类基因数据集的类别数区间中的每一个值作为待聚类基因数据集的类别数，对确定类别数的待聚类基因数据集进行聚类，得到不同的谱聚类基聚类种群；

将K均值基聚类种群、平均距离基聚类种群、最大距离基聚类种群、谱聚类基聚类种群合并为父代种群；

对于每一个数据集都有三种表现形式：原始数据，经过standardization处理过的数据，通过normalization处理过的数据。如果一个类别数是2的数据集，则该数据集初始化产生的父代种群大小为3*4*2*2＝48，如果是一个类别数为6的数据集，则该数据集初始化产生的父代种群大小为6*4*2*2＝80。

步骤3.设定迭代参数。

将最大迭代次数设定为50次，初始迭代次数1，迭代步长为1。

步骤4.计算簇间相似性。

按照下式，计算父代种群中所有簇之间的相似性：

其中，ECS(·)表示父代种群中任意两个簇的簇间相似性，C₁，C₂分别表示父代种群中不同的两个簇，|C₁|、|C₂|分别表示簇C₁和簇C₂中所包含的数据点个数，∑表示求和操作，∈表示属于符号，d₁表示父代种群簇C₁中的数据点，d₂表示父代种群簇C₂中的数据点，sim(·)表示父代种群中不同的数据点出现在同一个簇中的次数；

步骤5.生成最小生成树。

采用普利姆算法，生成最小生成树，最小生成树中的每个节点代表父代种群中的每个簇；

将最小生成树中任意两个节点的簇间相似性的值赋予连接这两个节点边的权值；

步骤6.断开最小生成树。

将最小生成树所有边中权值最小的边断开，将整个最小生成树分成c个子生成树，其中，c表示待聚类基因数据集的真实类别数；

计算最小生成树中每个节点表示的数据对象在每个子生成树中出现的次数和。当最小生成树中的节点表示的数据对象出现在某个子生成树中的次数和大于等于2时，则判定该数据对象属于该子生成树。

重复上述的操作，直到最小生成树中的所有边都断开，从而得到一个与父代种群规模相同的子种群。

步骤7.种群合并。

将与父代种群规模相同的子种群与父代种群合并为二倍种群。

步骤8.快速非支配排序。

第一步，搜索二倍种群中的被支配个体数量为0的个体，将其全部放入第一集合中，并赋予该集合中每个个体相应的非支配序；

第二步，对第一集合中个体所支配个体的子集合中的被支配个体数量为1的个体，其放入第二集合中，赋予该集合中个体相应的非支配序；

第三步，判断二倍种群中的所有个体是否都被分级，若是，则执行步骤9；否则，执行第二步操作。

步骤9.计算拥挤度。

计算二倍种群中每个个体的拥挤度，按照拥挤度的大小进行降序排列得到拥挤度序。

每个个体的拥挤度是按照下式计算得到的：

其中，I(d_i)表示二倍种群中第i个个体的拥挤度，i表示二倍种群中的任意一个个体，∑表示求和操作，∈表示属于符号，p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值，p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值，n表示二倍种群的种群规模。

步骤10.生成新的父代种群。

将二倍种群中每个个体按照非支配序从小到大排列，相同的非支配序个体之间按照拥挤度序从大到小排列，从排列好的二倍种群中选择前一半个体组成新的父代种群。

步骤11.判定迭代次数。

判断迭代次数是否小于50，若是，则将迭代次数加1，执行步骤4，否则，则执行步骤12。

步骤12.选择最优个体。

计算父代种群中每个个体的评价函数值，将评价函数值中最大的个体作为父代种群中的最优个体。

每个个体的评价函数值是按照下式计算得到的：

其中，φ(D)表示父代种群中个体D的评价函数值，D表示父代种群中的任意一个个体，表示对父代种群中个体D的类内相似性进行归一化处理的值，表示对父代种群中个体D的类间相似性进行归一化处理的值。

步骤13.计算最优个体的精确值。

按照下式，计算父代种群中的最优个体的精确值：

本发明的效果可以通过以下实验做进一步的说明。

1.仿真条件：

本发明的仿真实验是在CPU为core 2 2.4GHZ、内存2G、WINDOWS 7系统上使用Matlab 2009a进行仿真的。

2.仿真实验采用的数据集：

在本发明的算法中，所测的数据集都是数值型数据集，每一个数据集都有三种表现形式：原始数据集，经过standardization处理的数据集，经过normalization处理的数据集。

本发明的仿真实验当中的数据集全部都是基因数据集，都与癌症基因研究有关。表1是对基因数据集的说明，其中包括数据集名称，数据集样本个数，数据集类别数，数据集样本维数以及对数据集处理后的维数。从下表可以看出，基因数据集的特点就是高维度，小样本。

表1 基因数据集属性描述表

数据集名称	数据集样本个数	数据集类别数	数据集样本维数	处理后的维数
					Alizadeh-v1	42	2	4022	1095
Alizadeh-v2	62	3	4022	2093
					Alizadeh-v3	62	4	4022	2093
Arnstrong-v1	72	2	12582	1071
					Armstrong-v2	72	3	12582	2194
Bredel	50	3	41472	1739
					Chen	179	2	22699	85
Chowdary	104	2	22283	182
					Dyrskjot	40	3	7129	1203
Garber	66	4	24192	4553
					Golub-v2	72	3	7129	1877
Gordon	181	2	12533	1626
					Khan	83	4	6567	1069
Laiho	37	2	22883	2202
					Lapointe-v1	69	3	42640	1625
Lapointe-v2	110	4	42640	2496
					Liang	37	3	24192	1411
Nutt-v1	50	4	12625	1377
					Nutt-v2	28	2	12625	1070
Nutt-v3	22	2	12625	1152
					Pomemory-v2	42	5	7129	1379
Su	174	10	12533	1571
					West	49	2	7129	1198
Yeoh-v2	248	6	61265	2526

3.仿真实验的参数设置：

表2主要说明了本发明的仿真实验的参数设置，主要包括以下三个参数：初始种群的大小、计算目标函数的最近邻点个数以及初始化中四种不同算法所用到的类别数区间。

4.仿真内容：

表3中给出了本发明中的算法和其他三种经典算法的对比结果，第二列是对比算法MCLA在21个基因数据集上的测试结果，第三列是对比算法MOCK在21个基因数据集上的测试结果，第四列是对比算法MOCLE在21个基因数据集上的测试结果，第五列是本发明的算法MOCNCD在21个基因数据集上的测试结果。由于四种算法具有一定的随机性，所以每个算法分别独立运行10次，得到平均值和方差。我们用黑体标注了四种算法中最好的解。

表2 本发明仿真实验参数的设置表

数据集名称	初始种群大小	最近邻点个数	类别数区间
				Alizadeh-v1	48	3	[2,4]
Alizadeh-v2	64	4	[2,5]
				Alizadeh-v3	80	4	[2,6]
Arnstrong-v1	48	4	[2,4]
				Armstrong-v2	64	4	[2,5]
Bredel	64	3	[2,5]
				Chen	48	9	[2,4]
Chowdary	48	6	[2,4]
				Dyrskjot	64	2	[2,5]
Garber	80	4	[2,6]
				Golub-v2	64	4	[2,5]
Gordon	48	10	[2,4]
				Khan	80	5	[2,6]
Laiho	48	2	[2,4]
				Lapointe-v1	64	4	[2,5]
Lapointe-v2	80	6	[2,6]
				Liang	64	2	[2,5]
Nutt-v1	80	3	[2,6]
				Nutt-v2	48	2	[2,4]
Nutt-v3	48	2	[2,4]
				Pomemory-v2	80	3	[2,7]
Su	80	9	[8,12]
				West	48	3	[2,4]
Yeoh-v2	80	13	[2,8]

由表3可以看出，与三个对比算法(第二、三、四列结果)相比，本发明即第五列结果在大部分基因数据集上均优于其他三个对比算法。通过上述的仿真实验可以看出，本发明对在大部分数据集上都取得了不错得效果，有效地验证了本发明的合理性和有效性。

简而言之，本发明公开的一种基于最小生成树的集成多目标进化自动聚类方法，主要克服了现有技术中对高维数据集处理效果不佳的问题，本发明提出的方法运行速度快，可有效地对各种基因数据集进行聚类分析，不需要预先设定数据集的类别数，本发明通过经典的多目标进化算法，可有效地对各种基因数据集进行聚类分析，主要用于生物医学识别、肿瘤检测等领域中存在的高维度数据的分析。

表3 10次独立运行的最优CR值的均值和方差值一览表

Data sets	MCLA	MOCK	MOCLE	MOCNCD
					Alizadeh1	0.0641	0.0493±0.0277	0.2862±0.0955	0.1822±0.1314
Alizadeh2	0.8647	1.0000±0.0000	0.9870±0.0209	1.0000±0.0000
					Alizadeh3	0.4916	0.5350±0.0000	0.5729±0.0467	0.6322±0.0243
Armstrong1	0.8381	0.2996±0.6767	0.5096±0.0104	0.5434±0.0257
					Armstrong2	0.2362	0.6758±0.0950	0.9077±0.0345	0.9148±0.0121
Bredel	0.2508	0.5359±0.1671	0.6066±0.0837	0.6357±0.0499
					Chen	0.1294	0.4028±0.0419	0.7013±0.0467	0.7044±0.0511
Chowdary	0.0755	0.9238±0.0000	0.9238±0.0000	0.9238±0.0000
					Dyrskjot	0.2331	0.4520±0.0867	0.5200±0.0791	0.6139±0.0481
Garber	0.0849	0.0004±0.0000	0.3043±0.0000	0.2091±0.0152
					Golub2	0.1356	0.6330±0.1278	0.8625±0.0315	0.8418±0.0271
Gordon	0.8190	0.8244±0.0302	0.8762±0.0751	0.9274±0.0719
					Khan	0.0717	0.7659±0.1361	0.8588±0.0798	0.8283±0.0952
Laiho	0.3914	0.4449±0.0392	0.3044±0.0616	0.3266±0.0632
					Lapointe	0.1222	0.1381±0.0243	0.1936±0.0156	0.2184±0.0221
Lapointe2	0.0127	0.0528±0.0000	0.2736±0.0513	0.2778±0.0664
					Liang	0.2588.	0.3038±0.0059	0.2899±0.0387	0.3154±0.0352
Nutt	0.3291	0.1567±0.0000	0.3271±0.0383	0.3801±0.0309
					Nutt2	0.0808	0.1108±0.0378	0.2220±0.1193	0.2621±0.0873
Nutt3	0.8791	0.4380±0.000	0.6992±0.2174	0.7671±0.1984
					Pomemory2	0.2189	0.3680±0.0578	0.6812±0.0094	0.6305±0.0271

表3中第一列是数据集名称，第二列是对比算法MCLA在21个基因数据集上运行十次得到的平均值和方差值，第三列是对比算法MOCK在21个基因数据集上运行十次得到的平均值和方差值，第四列是对比算法MOCLE在21个基因数据集上运行十次得到的平均值和方差值，第五列是本发明的算法MOCNCD在21个基因数据集上运行十次得到的平均值和方差值。

Claims

1.一种基于最小生成树的集成多目标进化自动聚类方法，具体步骤如下：

(1)输入待聚类的基因数据集；

(2)初始化：

(2a)设定待聚类基因数据集的类别数区间；

(3)设定迭代参数：

(4)计算簇间相似性：

按照下式，计算父代种群中所有簇之间的相似性：

<mrow> <mi>E</mi> <mi>C</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>|</mo> </mrow> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>d</mi> <mn>1</mn> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>d</mi> <mn>2</mn> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>d</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow>

(5)生成最小生成树：

(6)断开最小生成树：

(6b)采用投票法，确定每个节点表示的簇中的数据点所属的子生成树；

(7)合并种群：

(8)快速非支配排序：

(9)计算拥挤度：

(10)生成新的父代种群：

(12)选择最优个体：

(13)计算最优个体的精确值：

按照下式，计算父代种群中的最优个体的精确值：

<mrow> <mi>C</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mi>i</mi> <mi>R</mi> </msubsup> <msubsup> <mi>&Sigma;</mi> <mi>j</mi> <mi>C</mi> </msubsup> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mi>n&Sigma;</mi> <mi>i</mi> <mi>R</mi> </msubsup> <msub> <mi>n</mi> <mi>i</mi> </msub> <msubsup> <mi>&Sigma;</mi> <mi>j</mi> <mi>C</mi> </msubsup> <msub> <mi>n</mi> <mi>j</mi> </msub> </mrow> <mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>&lsqb;</mo> <msubsup> <mi>&Sigma;</mi> <mi>i</mi> <mi>R</mi> </msubsup> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>+</mo> <msubsup> <mi>&Sigma;</mi> <mi>j</mi> <mi>C</mi> </msubsup> <msub> <mi>n</mi> <mi>j</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mi>i</mi> <mi>R</mi> </msubsup> <msub> <mi>n</mi> <mi>i</mi> </msub> <msubsup> <mi>&Sigma;</mi> <mi>j</mi> <mi>C</mi> </msubsup> <msub> <mi>n</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>

2.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法，其特征在于，步骤(2a)所述的待聚类基因数据集的类别数区间是指，当c>2时，待聚类基因数据集的类别数区间为[c-2,c+2]，当c≤2时，待聚类基因数据集的类别数区间为[2,c+2]，其中，c表示待聚类基因数据集的真实类别数。

3.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法，其特征在于，步骤(6b)中所述的投票法的具体步骤如下：

第1步，计算最小生成树中每个节点表示的数据点出现在每个子生成树中的次数；

第2步，当最小生成树中的节点表示的数据点出现在某个子生成树中的次数大于或等于2时，判定该数据点属于该子生成树。

4.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法，其特征在于，步骤(9)中所述二倍种群中的每个个体的拥挤度是按照下式计算得到的：

<mrow> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>2</mn> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>&rsqb;</mo> </mrow> </munder> <mo>&lsqb;</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>2</mn> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>&infin;</mi> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>n</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，I(d_i)表示二倍种群中第i个个体的拥挤度，∑表示求和操作，i表示二倍种群中的任意一个个体，∈表示属于符号，n表示二倍种群的个体数量，p(i+1)表示在目标函数取值上大于且最接近第i个个体的个体函数值，p(i-1)表示在目标函数取值上小于且最接近第i个个体的个体函数值。

5.根据权利要求1所述的基于最小生成树的集成多目标进化自动聚类方法，其特征在于，步骤(12)中所述的父代种群中每个个体的评价函数值是按照下式计算得到的：

<mrow> <mi>&phi;</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mrow> <mi>I</mi> <mi>C</mi> <mi>S</mi> </mrow> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>-</mo> <mover> <mrow> <mi>E</mi> <mi>C</mi> <mi>S</mi> </mrow> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> </mrow>