CN108573274A

CN108573274A - 一种基于数据稳定性的选择性聚类集成方法

Info

Publication number: CN108573274A
Application number: CN201810181682.9A
Authority: CN
Inventors: 余志文; 黄炜杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2018-09-25

Abstract

本发明公开了一种基于数据稳定性的选择性聚类集成方法，包括步骤：1)输入数据集并进行预处理；2)对数据集进行聚类结果集合生成；3)进行聚类结果筛选，得到聚类子集；4)进行样本划分，把数据集划分为稳定子集及不稳定子集；5)制定基于稳定子集及不稳定子集的目标函数，进一步筛选聚类子集；6)融合最终聚类子集，得到聚类结果。较于传统方法，本发明有以下创新点：多视角聚类，增强多样性；自动筛选合适聚类算法，避免数据假设不符合问题；设计基于数据稳定性的目标函数，具有很强的自适应性；通过指标提升程度控制多目标遗传算法收敛方向，提高收敛速度及准确性。

Description

一种基于数据稳定性的选择性聚类集成方法

技术领域

本发明涉及计算机人工智能的技术领域，尤其是指一种基于数据稳定性的选择性聚类集成方法。

背景技术

聚类分析是机器学习与数据挖掘中重要而又充满挑战的问题，聚类的目标是把相似的样本归到同一类，但是不同聚类算法对数据有不同的前提假设，而且单一算法很难处理复杂的特征表示问题。聚类集成很好地解决了以上的问题因此得到广泛应用，通过融合多个具有多样性、准确性的聚类结果，往往能对聚类效果有很大的提升，但是聚类结果中有很多噪声成员，不将其去除将会影响聚类集成的性能，本发明主要解决聚类集成选择问题。

在传统的聚类集成选择方法中，Kuncheva等人发现多样性高的聚类子集性能最佳。而Kuncheva等人发现适度的多样性效果更好。Fern等人设计了三个结合多样性与质量的启发函数来选择聚类子集。Azimi等人通过对数据集进行分类来采取不同集成选择策略。目前聚类集成选择方法具有以下缺点：第一，缺乏自适应性，对于所有的数据集几乎采取同样的选择策略；第二，先验知识依赖程度大，大部分算法采用k-means作为聚类生成函数，只对球状类簇数据适用；第三，优化效率低，大部分算法将多目标合并进行启发式搜索，搜索效率低且容易陷入局部最优。

本发明对数据进行了连续型的稳定性评估，根据数据集情况采用不同集成选择策略，并提出新型多目标遗传算法进行目标函数优化，具有很好的自适应性，从而提高聚类分析的准确率。

发明内容

本发明的目的在于克服传统聚类集成选择方法中缺乏自适应性、依赖先验知识、优化效率低等问题，提出了一种基于数据稳定性的选择性聚类集成方法，可有效提高聚类的多样性，能自动识别特定数据集最佳的聚类算法，对聚类结果的选择具有自适应性，适用于各种特性的数据集，同时本发明中的多目标遗传算法收敛速度快、精度高，从而有效提高了聚类分析的准确性。

为实现上述目的，本发明所提供的技术方案为：一种基于数据稳定性的选择性聚类集成方法，包括以下步骤：

1)输入测试数据集，并对其进行预处理；

2)结合基础聚类算法及特征子空间技术对测试数据集进行初始聚类结果集合生成；

3)对初始聚类结果集合进行算法级结果筛选，得到初步聚类结果子集；

4)利用初步聚类结果子集进行样本划分，把测试数据集划分为稳定子集及不稳定子集；

5)制定基于稳定子集及不稳定子集的目标函数，根据初步聚类结果子集得到聚类结果选择器集合；

6)融合由聚类结果选择器集合构成的最终聚类结果子集，得到最终聚类结果。

在步骤1)中，输入矩阵形式的测试数据集，对其执行归一化操作：

其中，N为测试集的样本个数，F为测试数据集的特征个数，为测试数据集第i个样本的第k个特征的值，X(k)_min为测试数据集第k个特征的最小值，X(k)_max为测试数据集第k个特征的最大值。

在步骤2)中，对测试数据集采集随机子空间，采用不同的聚类算法对随机子空间进行聚类，得到初始聚类结果集合，包括以下步骤：

2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数，记为N_RSM，其中F为测试数据集的特征个数，然后对向量[1,2,...,F]进行随机排序，取其前面N_RSM个元素作为特征下标，提取测试数据集对应下标的特征作为随机子空间；

2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage作为聚类算法，并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数，记为N_C，其中C为测试数据集的真实类个数；

2.3)利用所选择的聚类算法对随机子空间进行聚类，聚类类个数设为N_C；

2.4)重复步骤2.1)～2.3)直至生成6B个聚类结果，其中B为用户预设的正整数。

在步骤3)中，计算不同聚类算法的外部一致性及内部稳定性，结合这两个指标评估初始聚类结果集合，选择出初步聚类结果子集，包括以下步骤：

3.1)根据初始聚类结果集合构成聚类关联矩阵，记初始聚类结果集合为{c₁,c₂,...,c_E}，其中E为聚类结果个数，c_k为初始聚类结果集合中第k个聚类结果，首先将聚类结果c_k转化为邻接矩阵M_k，M_k中第i行第j列的的元素为：

聚类关联矩阵W邻由E个邻接矩阵求得：

然后利用现有Average Linkage算法对聚类关联矩阵W进行聚类，得到代理融合聚类结果；

3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合，对于每个集合生成其聚类关联矩阵，然后利用现有Average Linkage算法对其聚类关联矩阵进行聚类，得到子集融合聚类结果，然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性，其中相似性采用NMI，即为标准互信息，NMI的计算方式为：

其中，C_a、C_b为样本个数相同的聚类结果，k_a、k_b分别为C_a、C_b的类个数，n为C_a中的样本个数，为属于C_a中的类h的样本个数，为属于C_b中的类l的样本个数，n_h,l为同时属于C_a中的类h及C_b中的类l的样本个数，log为自然对数函数，对六个集合的外部一致性作比较，把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除，得到一致性聚类结果子集；

3.3)把一致性聚类结果子集中的聚类结果根据聚类算法的不同分为三个集合，对于每个集合S，计算其内部稳定性，记为stab_S：

其中，N_S为集合S中的聚类结果个数，c_i为集合S中第i个聚类结果，c_j为集合S中第j个聚类结果，NMI为标准互信息，对三个集合的内部稳定性作比较，把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除，得到初步聚类结果子集。

在步骤4)中，对数据集稳定性及样本稳定性进行评估，把测试数据集划分为稳定子集及不稳定子集，包括以下步骤：

4.1)对于初步聚类结果子集SI，记数据集稳定性为M_stability，其计算方式为：

其中，N_SI为集合SI中的聚类结果个数，c_i为SI中第i个聚类结果，c_j为SI中第j个聚类结果，NMI为标准互信息，设数据集稳定性下限为M_min_stability，上限为M_max_stability，然后对M_stability进行归一化，得到数据集稳定性指标，记为M_DS：

4.2)设稳定子集比例最小值为N_min，最大值为N_max，则稳定子集大小N_S为：

N_S＝N·[N_min+M_DS·(N_max-N_min)]

其中N为测试数据集的样本个数；

4.3)根据初步聚类结果子集计算其聚类关联性矩阵M^*，对M^*中第i行第j列的元素作如下修改：

其中，max()为最大化函数，然后对矩阵M^*按列取平均，得到样本稳定性；

4.4)将初步聚类结果子集中的样本按样本稳定性进行排序，取样本稳定性最大的N_S个样本构成稳定子集，其中N_S为稳定子集大小，取剩余样本构成不稳定子集。

在步骤5)中，制定基于稳定子集及不稳定子集的目标函数，利用多目标遗传算法对初步聚类结果子集进行提炼，得到聚类结果选择器集合，包括以下步骤：

5.1)新建并设置目标函数阈值THO₁和目标函数阈值THO₂设为零，生成P_init个长度为F，值全为0的向量作为聚类结果选择器，其中P_init为用户预设正整数，F为测试数据集的特征个数，对于每一个聚类结果选择器i，生成一个在区间[1,F]上服从均匀分布的随机整数NP_i，将聚类结果选择器i中前NP_i个元素置为1，然后对该聚类结果选择器的元素进行随机排序，最后将这P_init个聚类结果选择器合并为当前种群；

5.2)计算当前种群在稳定子集上的相似度矩阵simi_stable，其中第i行第j列的元素为：

simi_stable(i,j)＝NMI(c_i,stable,c_j,stable)，i∈{1,2,...,M},j∈{1,2,...,M}

其中，M为初步聚类结果子集中聚类结果的个数，c_i,stable为初步聚类结果子集中第i个聚类结果中稳定子集的标签值，c_j,stable为初步聚类结果子集中第j个聚类结果中稳定子集的标签值，NMI为标准互信息，对此矩阵simi_stable按列取平均，得到聚类结果置信度向量Vec_conf，将初步聚类结果子集中的聚类结果按Vec_conf进行排序，取出值最大的N_conf个聚类结果构成准度参考集S_conf，其中N_conf为用户预设正整数，对于每个聚类结果选择器k，记其中值为1的下标对应的聚类结果组成的集合为S_select(k)，则聚类结果选择器k的目标函数obj₁(k)为：

其中|·|为集合的大小；

5.3)计算当前种群计算在不稳定子集上的相似度矩阵simi_unstable，其中第i行第j列的元素为：

simi_unstable(i,j)＝NMI(c_i,unstable,c_j,unstable)，i∈{1,2,...,M},j∈{1,2,...,M}

其中，M为初步聚类结果子集中聚类结果的个数，c_i,unstable为初步聚类结果子集中第i个聚类结果中不稳定子集的标签向量，c_j,unstable为初步聚类结果子集中第j个聚类结果中不稳定子集的标签向量，对于每个聚类结果选择器k，记其中值为1的下标对应的聚类结果组成的集合为S_select(k)，则聚类结果选择器k的目标函数obj₂(k)为：

其中|·|为集合的大小；

5.4)对于obj₁小于THO₁或obj₂小于THO₂的聚类结果选择器i，设置obj₁(i)和obj₂(i)为原值的其中factor_THO为用户预设正整数，将所有聚类结果选择器修改前的obj₁的最小值作为新的THO₁值，将所有聚类结果选择器修改前的obj₂的最小值作为新的THO₂值；

5.5)用户自设定精英种群大小为正整数N_elist，对当前种群中的聚类结果选择器根据现有NSGA-II算法中的帕累托排序方法进行排序，设前k个帕累托层对应的聚类结果选择器个数为N_{pareto_select}(k)，选择前n层的聚类结果选择器，使得不等式N_{pareto_select}(n)≤N_elist和N_{pareto_select}(n+1)＞N_elist成立，对于第n+1个帕累托层的聚类结果选择器，按照NSGA-II算法中的密集程度计算方式计算密集距离，选择其中密集距离最大的N_elist-N_{pareto_select}(k)个聚类结果选择器，与前n个帕累托层中的聚类结果选择器共同构成精英种群；

5.6)用户自设定新种群大小为正整数N_new，并设变异率rate_mutation为区间[0,1]上的实数，将新种群置为空集，对精英种群中每个聚类结果选择器p_i，新建聚类结果选择器p_{new_1,i}，对p_i中每个元素p_i(j)，其中j∈{1,2,...,M}，其中M为初始聚类结果子集中聚类结果的个数，生成一个在在区间[0,1]上服从均匀分布的随机实数rand_i,j,则p_{new_1,i}(j)的值为：

然后把p_{new_1,i}加入到新种群中，重复从精英种群中随机抽取N_new次聚类结果选择器，每次随机抽取2个聚类结果选择器p_i和p_j，生成一个在区间[1,M]上服从均匀分布的随机整数，记为N_crossover，其中M为初始聚类结果子集中聚类结果的个数，将p_i的前N_crossover个元素与p_j的后M-N_crossover个元素串联，构成新的聚类结果选择器p_{new_2}并加入到新种群中，将p_j的前N_crossover个元素与p_i的后M-N_crossover个元素串联，构成新的聚类结果选择器p_{new_3}并加入到新种群中，最后把精英种群也加入到新种群中；

5.7)重复步骤5.2)～5.6)T次，其中T为用户预设正整数，把精英种群作为聚类结果选择器集合。

在步骤6)中，根据聚类结果选择器集合获得最终聚类结果子集，然后构成有向图，最后采用图切割算法对有向图进行切割，得到最终聚类结果，包括以下步骤：

6.1)新建最终聚类结果子集，并将其置为空集，对于聚类结果选择器集合中的每个聚类结果选择器，记录其值为1的元素对应的下标，将此下标作为初步聚类结果子集的取值下标，把对应的聚类结果加入到最终聚类结果子集中，根据最终聚类结果子集构建聚类关联矩阵；

6.2)新建一个有向图，有向图中的顶点对应初步聚类结果子集中的聚类结果，有向图中的边对应步骤6.1)中的聚类关联矩阵的元素，采用现有Normalized Cut算法对有向图进行切割，将切割结果作为最终聚类结果。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明使用了多种聚类算法及特征表示来生成聚类数据，对数据的先验知识依赖程度低，聚类结果更可靠。

2、本发明设计了聚类结果筛选器，能自动筛选合适的聚类算法，降低了结果维度，省去算法挑选成本。

3、本发明对数据集的稳定性及样本稳定性进行了评估，充分考虑当前数据集的特性，为不同数据集进行不同的数据划分，确保了自适应性。

4、本发明设计了基于不同数据划分的目标函数，对聚类成员准确度有更好的估算精度，保证了优化效果。

5、本发明利用基于收敛程度调整进化方向的多目标遗传算法，具有很好的搜索效率，不容易陷入局部最优。

附图说明

图1为本发明的逻辑流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于数据稳定性的选择性聚类集成方法，是采用了多种聚类算法生成聚类结果，并进行了双层的结果筛选，其包括以下步骤：

1)采用UCI Reposity官网上的IRIS数据集作为测试数据集，对其执行归一化操作：

其中i∈{1,2,...,N},k∈{1,2,...,F}

其中，测试集的样本个数N＝150，测试数据集的特征个数F＝3，为测试数据集第i个样本的第k个特征的值，X(k)_min为测试数据集第k个特征的最小值，X(k)_max为测试数据集第k个特征的最大值。

2)对测试数据集采集随机子空间，采用不同的聚类算法对随机子空间进行聚类，得到初始聚类结果集合，包括以下步骤：

2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数，记为N_RSM，其中F＝3为测试数据集的特征个数，然后对向量[1,2,...,F]进行随机排序，取其前面N_RSM个元素作为特征下标，提取测试数据集对应下标的特征作为随机子空间；

2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage作为聚类算法，并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数，记为N_C，其中C＝3为测试数据集的真实类个数；

2.4)重复步骤2.1)～2.3)生成6B个聚类结果，其中B设为100；

采用上述步骤计算，得到初始聚类结果集合{c₁,c₂,...,c₆₀₀}，其中c_k为初始聚类结果集合中第k个聚类结果。

3)计算不同聚类算法的外部一致性及内部稳定性，结合这两个指标评估初始聚类结果集合，选择出初步聚类结果子集，包括以下步骤：

3.1)根据初始聚类结果集合构成聚类关联矩阵，记初始聚类结果集合为{c₁,c₂,...,c_E}其中E为聚类结果个数，c_k为初始聚类结果集合中第k个聚类结果，首先将聚类结果c_k转化为邻接矩阵M_k，M_k中第i行第j列的的元素为：

聚类关联矩阵W邻由E个邻接矩阵求得：

3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合，对于每个集合生成其聚类关联矩阵，然后利用现有Average Linkage算法对其聚类关联矩阵进行聚类，得到子集融合聚类结果，然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性，其中相似性采用NMI(即为标准互信息)，NMI的计算方式为：

其中C_a、C_b为样本个数相同的聚类结果，k_a、k_b分别为C_a、C_b的类个数，n为C_a中的样本个数，为属于C_a中的类h的样本个数，为属于C_b中的类l的样本个数，n_h,l为同时属于C_a中的类h及C_b中的类l的样本个数，log为自然对数函数，对六个集合的外部一致性作比较，把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除，得到一致性聚类结果子集；

其中N_S为集合S中的聚类结果个数，c_i为集合S中第i个聚类结果，c_j为集合S中第j个聚类结果，NMI为标准互信息，对三个集合的内部稳定性作比较，把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除，得到初步聚类结果子集。

采用上述步骤计算，K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage对应的集合的外部一致性分别为：0.8761、0.9433、0.3478、0.6514、0.5208、0.1650，剔除掉K-medoids、Single Linkage、Complete Linkage对应的集合，得到由K-means、Fuzzy C-means、Average Linkage对应的集合构成的一致性聚类结果子集。进一步求得K-means、Fuzzy C-means、Average Linkage对应的集合的内部稳定性分别为：0.9908、0.8963、0.9031，因此保留K-means算法对应的集合，记为初步聚类结果子集。

4)对数据集稳定性及样本稳定性进行评估，把测试数据集划分为稳定子集及不稳定子集，包括以下步骤：

其中N_SI为集合SI中的聚类结果个数，c_i为SI中第i个聚类结果，c_j为SI中第j个聚类结果，NMI为标准互信息，设数据集稳定性下限为M_min_stability＝0.6，上限为M_max_stability＝0.95，然后对M_stability进行归一化，得到数据集稳定性指标，记为M_DS：

4.2)设稳定子集比例最小值为N_min＝0.1，最大值为N_max＝0.9，则稳定子集大小N_S为：

N_S＝N·[N_min+M_DS·(N_max-N_min)]

其中N为测试数据集的样本个数；

其中max()为最大化函数，然后对矩阵M^*按列取平均，得到样本稳定性；

采用上述步骤计算，IRIS数据集归一化后的数据集稳定性等于0.7435，经过稳定性上下限调整好，得到稳定子集比例为69.48％，并根据样本稳定性把样本分为稳定子集及不稳定子集两部分。

5)制定基于稳定子集及不稳定子集的目标函数，利用多目标遗传算法对初步聚类结果子集进行提炼，得到聚类结果选择器集合，包括以下步骤：

5.1)新建并设置目标函数阈值THO₁和目标函数阈值THO₂设为零，生成P_init个长度为F，值全为0的向量作为聚类结果选择器，其中P_init设为1000，F为测试数据集的特征个数，对于每一个聚类结果选择器i，生成一个在区间[1,F]上服从均匀分布的随机整数NP_i，将聚类结果选择器i中前NP_i个元素置为1，然后对该聚类结果选择器的元素进行随机排序，最后将这P_init个聚类结果选择器合并为当前种群；

simi_stable(i,j)＝NMI(c_i,stable,c_j,stable)，i∈{1,2,...,M},j∈{1,2,...,M}

其中M为初步聚类结果子集中聚类结果的个数，c_i,stable为初步聚类结果子集中第i个聚类结果中稳定子集的标签值，c_j,stable为初步聚类结果子集中第j个聚类结果中稳定子集的标签值，NMI为标准互信息，对此矩阵simi_stable按列取平均，得到聚类结果置信度向量Vec_conf，将初步聚类结果子集中的聚类结果按Vec_conf进行排序，取出值最大的N_conf个聚类结果构成准度参考集S_conf，其中N_conf为用户预设正整数，对于每个聚类结果选择器k，记其中值为1的下标对应的聚类结果组成的集合为S_select(k)，则聚类结果选择器k的目标函数obj₁(k)为：

其中|·|为集合的大小；

其中M为初步聚类结果子集中聚类结果的个数，c_i,unstable为初步聚类结果子集中第i个聚类结果中不稳定子集的标签向量，c_j,unstable为初步聚类结果子集中第j个聚类结果中不稳定子集的标签向量，对于每个聚类结果选择器k，记其中值为1的下标对应的聚类结果组成的集合为S_select(k)，则聚类结果选择器k的目标函数obj₂(k)为：

其中|·|为集合的大小；

5.4)对于obj₁小于THO₁或obj₂小于THO₂的聚类结果选择器i，设置obj₁(i)和obj₂(i)为原值的其中factor_THO设定为1000，将所有聚类结果选择器修改前的obj₁的最小值作为新的THO₁值，将所有聚类结果选择器修改前的obj₂的最小值作为新的THO₂值；

5.5)设定精英种群大小N_elist为30，对当前种群中的聚类结果选择器根据现有NSGA-II算法中的帕累托排序方法进行排序，设前k个帕累托层对应的聚类结果选择器个数为N_{pareto_select}(k)，选择前n层的聚类结果选择器，使得不等式N_{pareto_select}(n)≤N_elist和N_{pareto_select}(n+1)＞N_elist成立，对于第n+1个帕累托层的聚类结果选择器，按照NSGA-II算法中的密集程度计算方式计算密集距离，选择其中密集距离最大的N_elist-N_{pareto_select}(k)个聚类结果选择器，与前n个帕累托层中的聚类结果选择器共同构成精英种群；

5.6)设定新种群大小N_new为100，并设变异率rate_mutation为0.01，将新种群置为空集，对精英种群中每个聚类结果选择器p_i，新建聚类结果选择器p_{new_1,i}，对p_i中每个元素p_i(j)(其中j∈{1,2,...,M})，其中M为初始聚类结果子集中聚类结果的个数，生成一个在在区间[0,1]上服从均匀分布的随机实数rand_i,j,则p_{new_1,i}(j)的值为：

5.7)重复步骤5.2)～5.6)T次，其中T＝500，把精英种群作为聚类结果选择器集合。

采用上述步骤计算，迭代500次算法后得到最终的精英种群，其中包含30个聚类结果选择器，每个选择器对应着100个聚类结果的选择情况。

6)根据聚类结果选择器集合获得最终聚类结果子集，然后构成有向图，最后采用图切割算法对有向图进行切割，得到最终聚类结果，包括以下步骤：

采用上述步骤计算，得到维度为150的标签向量，作为最终聚类结果，测得其与真实标签的标准互信息值为0.8865。

综上所述，本发明为聚类分析提供了新的方法，将聚类集成选择作为提高聚类分析准确率的一种有效手段，能够有效解决大数据聚类分析中自适应性的问题，有效推动信息科技产业的发展，具有实际推广价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于数据稳定性的选择性聚类集成方法，其特征在于，包括以下步骤：

1)输入测试数据集，并对其进行预处理；

2.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤1)中，输入矩阵形式的测试数据集，对其执行归一化操作：

3.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤2)中，对测试数据集采集随机子空间，采用不同的聚类算法对随机子空间进行聚类，得到初始聚类结果集合，包括以下步骤：

2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、SingleLinkage、Complete Linkage作为聚类算法，并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数，记为N_C，其中C为测试数据集的真实类个数；

4.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤3)中，计算不同聚类算法的外部一致性及内部稳定性，结合这两个指标评估初始聚类结果集合，选择出初步聚类结果子集，包括以下步骤：

聚类关联矩阵W邻由E个邻接矩阵求得：

5.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤4)中，对数据集稳定性及样本稳定性进行评估，把测试数据集划分为稳定子集及不稳定子集，包括以下步骤：

N_S＝N·[N_min+M_DS·(N_max-N_min)]

其中N为测试数据集的样本个数；

6.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤5)中，制定基于稳定子集及不稳定子集的目标函数，利用多目标遗传算法对初步聚类结果子集进行提炼，得到聚类结果选择器集合，包括以下步骤：

simi_stable(i,j)＝NMI(c_i,stable,c_j,stable)，i∈{1,2,...,M},j∈{1,2,...,M}

其中|·|为集合的大小；

7.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法，其特征在于：在步骤6)中，根据聚类结果选择器集合获得最终聚类结果子集，然后构成有向图，最后采用图切割算法对有向图进行切割，得到最终聚类结果，包括以下步骤：