CN108573274A - 一种基于数据稳定性的选择性聚类集成方法 - Google Patents
一种基于数据稳定性的选择性聚类集成方法 Download PDFInfo
- Publication number
- CN108573274A CN108573274A CN201810181682.9A CN201810181682A CN108573274A CN 108573274 A CN108573274 A CN 108573274A CN 201810181682 A CN201810181682 A CN 201810181682A CN 108573274 A CN108573274 A CN 108573274A
- Authority
- CN
- China
- Prior art keywords
- cluster result
- cluster
- result
- subset
- selector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据稳定性的选择性聚类集成方法,包括步骤:1)输入数据集并进行预处理;2)对数据集进行聚类结果集合生成;3)进行聚类结果筛选,得到聚类子集;4)进行样本划分,把数据集划分为稳定子集及不稳定子集;5)制定基于稳定子集及不稳定子集的目标函数,进一步筛选聚类子集;6)融合最终聚类子集,得到聚类结果。较于传统方法,本发明有以下创新点:多视角聚类,增强多样性;自动筛选合适聚类算法,避免数据假设不符合问题;设计基于数据稳定性的目标函数,具有很强的自适应性;通过指标提升程度控制多目标遗传算法收敛方向,提高收敛速度及准确性。
Description
技术领域
本发明涉及计算机人工智能的技术领域,尤其是指一种基于数据稳定性的选择性聚类集成方法。
背景技术
聚类分析是机器学习与数据挖掘中重要而又充满挑战的问题,聚类的目标是把相似的样本归到同一类,但是不同聚类算法对数据有不同的前提假设,而且单一算法很难处理复杂的特征表示问题。聚类集成很好地解决了以上的问题因此得到广泛应用,通过融合多个具有多样性、准确性的聚类结果,往往能对聚类效果有很大的提升,但是聚类结果中有很多噪声成员,不将其去除将会影响聚类集成的性能,本发明主要解决聚类集成选择问题。
在传统的聚类集成选择方法中,Kuncheva等人发现多样性高的聚类子集性能最佳。而Kuncheva等人发现适度的多样性效果更好。Fern等人设计了三个结合多样性与质量的启发函数来选择聚类子集。Azimi等人通过对数据集进行分类来采取不同集成选择策略。目前聚类集成选择方法具有以下缺点:第一,缺乏自适应性,对于所有的数据集几乎采取同样的选择策略;第二,先验知识依赖程度大,大部分算法采用k-means作为聚类生成函数,只对球状类簇数据适用;第三,优化效率低,大部分算法将多目标合并进行启发式搜索,搜索效率低且容易陷入局部最优。
本发明对数据进行了连续型的稳定性评估,根据数据集情况采用不同集成选择策略,并提出新型多目标遗传算法进行目标函数优化,具有很好的自适应性,从而提高聚类分析的准确率。
发明内容
本发明的目的在于克服传统聚类集成选择方法中缺乏自适应性、依赖先验知识、优化效率低等问题,提出了一种基于数据稳定性的选择性聚类集成方法,可有效提高聚类的多样性,能自动识别特定数据集最佳的聚类算法,对聚类结果的选择具有自适应性,适用于各种特性的数据集,同时本发明中的多目标遗传算法收敛速度快、精度高,从而有效提高了聚类分析的准确性。
为实现上述目的,本发明所提供的技术方案为:一种基于数据稳定性的选择性聚类集成方法,包括以下步骤:
1)输入测试数据集,并对其进行预处理;
2)结合基础聚类算法及特征子空间技术对测试数据集进行初始聚类结果集合生成;
3)对初始聚类结果集合进行算法级结果筛选,得到初步聚类结果子集;
4)利用初步聚类结果子集进行样本划分,把测试数据集划分为稳定子集及不稳定子集;
5)制定基于稳定子集及不稳定子集的目标函数,根据初步聚类结果子集得到聚类结果选择器集合;
6)融合由聚类结果选择器集合构成的最终聚类结果子集,得到最终聚类结果。
在步骤1)中,输入矩阵形式的测试数据集,对其执行归一化操作:
其中,N为测试集的样本个数,F为测试数据集的特征个数,为测试数据集第i个样本的第k个特征的值,X(k)min为测试数据集第k个特征的最小值,X(k)max为测试数据集第k个特征的最大值。
在步骤2)中,对测试数据集采集随机子空间,采用不同的聚类算法对随机子空间进行聚类,得到初始聚类结果集合,包括以下步骤:
2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数,记为NRSM,其中F为测试数据集的特征个数,然后对向量[1,2,...,F]进行随机排序,取其前面NRSM个元素作为特征下标,提取测试数据集对应下标的特征作为随机子空间;
2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage作为聚类算法,并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数,记为NC,其中C为测试数据集的真实类个数;
2.3)利用所选择的聚类算法对随机子空间进行聚类,聚类类个数设为NC;
2.4)重复步骤2.1)~2.3)直至生成6B个聚类结果,其中B为用户预设的正整数。
在步骤3)中,计算不同聚类算法的外部一致性及内部稳定性,结合这两个指标评估初始聚类结果集合,选择出初步聚类结果子集,包括以下步骤:
3.1)根据初始聚类结果集合构成聚类关联矩阵,记初始聚类结果集合为{c1,c2,...,cE},其中E为聚类结果个数,ck为初始聚类结果集合中第k个聚类结果,首先将聚类结果ck转化为邻接矩阵Mk,Mk中第i行第j列的的元素为:
聚类关联矩阵W邻由E个邻接矩阵求得:
然后利用现有Average Linkage算法对聚类关联矩阵W进行聚类,得到代理融合聚类结果;
3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合,对于每个集合生成其聚类关联矩阵,然后利用现有Average Linkage算法对其聚类关联矩阵进行聚类,得到子集融合聚类结果,然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性,其中相似性采用NMI,即为标准互信息,NMI的计算方式为:
其中,Ca、Cb为样本个数相同的聚类结果,ka、kb分别为Ca、Cb的类个数,n为Ca中的样本个数,为属于Ca中的类h的样本个数,为属于Cb中的类l的样本个数,nh,l为同时属于Ca中的类h及Cb中的类l的样本个数,log为自然对数函数,对六个集合的外部一致性作比较,把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除,得到一致性聚类结果子集;
3.3)把一致性聚类结果子集中的聚类结果根据聚类算法的不同分为三个集合,对于每个集合S,计算其内部稳定性,记为stabS:
其中,NS为集合S中的聚类结果个数,ci为集合S中第i个聚类结果,cj为集合S中第j个聚类结果,NMI为标准互信息,对三个集合的内部稳定性作比较,把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除,得到初步聚类结果子集。
在步骤4)中,对数据集稳定性及样本稳定性进行评估,把测试数据集划分为稳定子集及不稳定子集,包括以下步骤:
4.1)对于初步聚类结果子集SI,记数据集稳定性为Mstability,其计算方式为:
其中,NSI为集合SI中的聚类结果个数,ci为SI中第i个聚类结果,cj为SI中第j个聚类结果,NMI为标准互信息,设数据集稳定性下限为M_minstability,上限为M_maxstability,然后对Mstability进行归一化,得到数据集稳定性指标,记为MDS:
4.2)设稳定子集比例最小值为Nmin,最大值为Nmax,则稳定子集大小NS为:
NS=N·[Nmin+MDS·(Nmax-Nmin)]
其中N为测试数据集的样本个数;
4.3)根据初步聚类结果子集计算其聚类关联性矩阵M*,对M*中第i行第j列的元素作如下修改:
其中,max()为最大化函数,然后对矩阵M*按列取平均,得到样本稳定性;
4.4)将初步聚类结果子集中的样本按样本稳定性进行排序,取样本稳定性最大的NS个样本构成稳定子集,其中NS为稳定子集大小,取剩余样本构成不稳定子集。
在步骤5)中,制定基于稳定子集及不稳定子集的目标函数,利用多目标遗传算法对初步聚类结果子集进行提炼,得到聚类结果选择器集合,包括以下步骤:
5.1)新建并设置目标函数阈值THO1和目标函数阈值THO2设为零,生成Pinit个长度为F,值全为0的向量作为聚类结果选择器,其中Pinit为用户预设正整数,F为测试数据集的特征个数,对于每一个聚类结果选择器i,生成一个在区间[1,F]上服从均匀分布的随机整数NPi,将聚类结果选择器i中前NPi个元素置为1,然后对该聚类结果选择器的元素进行随机排序,最后将这Pinit个聚类结果选择器合并为当前种群;
5.2)计算当前种群在稳定子集上的相似度矩阵simistable,其中第i行第j列的元素为:
simistable(i,j)=NMI(ci,stable,cj,stable),i∈{1,2,...,M},j∈{1,2,...,M}
其中,M为初步聚类结果子集中聚类结果的个数,ci,stable为初步聚类结果子集中第i个聚类结果中稳定子集的标签值,cj,stable为初步聚类结果子集中第j个聚类结果中稳定子集的标签值,NMI为标准互信息,对此矩阵simistable按列取平均,得到聚类结果置信度向量Vecconf,将初步聚类结果子集中的聚类结果按Vecconf进行排序,取出值最大的Nconf个聚类结果构成准度参考集Sconf,其中Nconf为用户预设正整数,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj1(k)为:
其中|·|为集合的大小;
5.3)计算当前种群计算在不稳定子集上的相似度矩阵simiunstable,其中第i行第j列的元素为:
simiunstable(i,j)=NMI(ci,unstable,cj,unstable),i∈{1,2,...,M},j∈{1,2,...,M}
其中,M为初步聚类结果子集中聚类结果的个数,ci,unstable为初步聚类结果子集中第i个聚类结果中不稳定子集的标签向量,cj,unstable为初步聚类结果子集中第j个聚类结果中不稳定子集的标签向量,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj2(k)为:
其中|·|为集合的大小;
5.4)对于obj1小于THO1或obj2小于THO2的聚类结果选择器i,设置obj1(i)和obj2(i)为原值的其中factorTHO为用户预设正整数,将所有聚类结果选择器修改前的obj1的最小值作为新的THO1值,将所有聚类结果选择器修改前的obj2的最小值作为新的THO2值;
5.5)用户自设定精英种群大小为正整数Nelist,对当前种群中的聚类结果选择器根据现有NSGA-II算法中的帕累托排序方法进行排序,设前k个帕累托层对应的聚类结果选择器个数为Npareto_select(k),选择前n层的聚类结果选择器,使得不等式Npareto_select(n)≤Nelist和Npareto_select(n+1)>Nelist成立,对于第n+1个帕累托层的聚类结果选择器,按照NSGA-II算法中的密集程度计算方式计算密集距离,选择其中密集距离最大的Nelist-Npareto_select(k)个聚类结果选择器,与前n个帕累托层中的聚类结果选择器共同构成精英种群;
5.6)用户自设定新种群大小为正整数Nnew,并设变异率ratemutation为区间[0,1]上的实数,将新种群置为空集,对精英种群中每个聚类结果选择器pi,新建聚类结果选择器pnew_1,i,对pi中每个元素pi(j),其中j∈{1,2,...,M},其中M为初始聚类结果子集中聚类结果的个数,生成一个在在区间[0,1]上服从均匀分布的随机实数randi,j,则pnew_1,i(j)的值为:
然后把pnew_1,i加入到新种群中,重复从精英种群中随机抽取Nnew次聚类结果选择器,每次随机抽取2个聚类结果选择器pi和pj,生成一个在区间[1,M]上服从均匀分布的随机整数,记为Ncrossover,其中M为初始聚类结果子集中聚类结果的个数,将pi的前Ncrossover个元素与pj的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_2并加入到新种群中,将pj的前Ncrossover个元素与pi的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_3并加入到新种群中,最后把精英种群也加入到新种群中;
5.7)重复步骤5.2)~5.6)T次,其中T为用户预设正整数,把精英种群作为聚类结果选择器集合。
在步骤6)中,根据聚类结果选择器集合获得最终聚类结果子集,然后构成有向图,最后采用图切割算法对有向图进行切割,得到最终聚类结果,包括以下步骤:
6.1)新建最终聚类结果子集,并将其置为空集,对于聚类结果选择器集合中的每个聚类结果选择器,记录其值为1的元素对应的下标,将此下标作为初步聚类结果子集的取值下标,把对应的聚类结果加入到最终聚类结果子集中,根据最终聚类结果子集构建聚类关联矩阵;
6.2)新建一个有向图,有向图中的顶点对应初步聚类结果子集中的聚类结果,有向图中的边对应步骤6.1)中的聚类关联矩阵的元素,采用现有Normalized Cut算法对有向图进行切割,将切割结果作为最终聚类结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明使用了多种聚类算法及特征表示来生成聚类数据,对数据的先验知识依赖程度低,聚类结果更可靠。
2、本发明设计了聚类结果筛选器,能自动筛选合适的聚类算法,降低了结果维度,省去算法挑选成本。
3、本发明对数据集的稳定性及样本稳定性进行了评估,充分考虑当前数据集的特性,为不同数据集进行不同的数据划分,确保了自适应性。
4、本发明设计了基于不同数据划分的目标函数,对聚类成员准确度有更好的估算精度,保证了优化效果。
5、本发明利用基于收敛程度调整进化方向的多目标遗传算法,具有很好的搜索效率,不容易陷入局部最优。
附图说明
图1为本发明的逻辑流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于数据稳定性的选择性聚类集成方法,是采用了多种聚类算法生成聚类结果,并进行了双层的结果筛选,其包括以下步骤:
1)采用UCI Reposity官网上的IRIS数据集作为测试数据集,对其执行归一化操作:
其中i∈{1,2,...,N},k∈{1,2,...,F}
其中,测试集的样本个数N=150,测试数据集的特征个数F=3,为测试数据集第i个样本的第k个特征的值,X(k)min为测试数据集第k个特征的最小值,X(k)max为测试数据集第k个特征的最大值。
2)对测试数据集采集随机子空间,采用不同的聚类算法对随机子空间进行聚类,得到初始聚类结果集合,包括以下步骤:
2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数,记为NRSM,其中F=3为测试数据集的特征个数,然后对向量[1,2,...,F]进行随机排序,取其前面NRSM个元素作为特征下标,提取测试数据集对应下标的特征作为随机子空间;
2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage作为聚类算法,并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数,记为NC,其中C=3为测试数据集的真实类个数;
2.3)利用所选择的聚类算法对随机子空间进行聚类,聚类类个数设为NC;
2.4)重复步骤2.1)~2.3)生成6B个聚类结果,其中B设为100;
采用上述步骤计算,得到初始聚类结果集合{c1,c2,...,c600},其中ck为初始聚类结果集合中第k个聚类结果。
3)计算不同聚类算法的外部一致性及内部稳定性,结合这两个指标评估初始聚类结果集合,选择出初步聚类结果子集,包括以下步骤:
3.1)根据初始聚类结果集合构成聚类关联矩阵,记初始聚类结果集合为{c1,c2,...,cE}其中E为聚类结果个数,ck为初始聚类结果集合中第k个聚类结果,首先将聚类结果ck转化为邻接矩阵Mk,Mk中第i行第j列的的元素为:
聚类关联矩阵W邻由E个邻接矩阵求得:
然后利用现有Average Linkage算法对聚类关联矩阵W进行聚类,得到代理融合聚类结果;
3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合,对于每个集合生成其聚类关联矩阵,然后利用现有Average Linkage算法对其聚类关联矩阵进行聚类,得到子集融合聚类结果,然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性,其中相似性采用NMI(即为标准互信息),NMI的计算方式为:
其中Ca、Cb为样本个数相同的聚类结果,ka、kb分别为Ca、Cb的类个数,n为Ca中的样本个数,为属于Ca中的类h的样本个数,为属于Cb中的类l的样本个数,nh,l为同时属于Ca中的类h及Cb中的类l的样本个数,log为自然对数函数,对六个集合的外部一致性作比较,把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除,得到一致性聚类结果子集;
3.3)把一致性聚类结果子集中的聚类结果根据聚类算法的不同分为三个集合,对于每个集合S,计算其内部稳定性,记为stabS:
其中NS为集合S中的聚类结果个数,ci为集合S中第i个聚类结果,cj为集合S中第j个聚类结果,NMI为标准互信息,对三个集合的内部稳定性作比较,把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除,得到初步聚类结果子集。
采用上述步骤计算,K-means、Fuzzy C-means、K-medoids、Average Linkage、Single Linkage、Complete Linkage对应的集合的外部一致性分别为:0.8761、0.9433、0.3478、0.6514、0.5208、0.1650,剔除掉K-medoids、Single Linkage、Complete Linkage对应的集合,得到由K-means、Fuzzy C-means、Average Linkage对应的集合构成的一致性聚类结果子集。进一步求得K-means、Fuzzy C-means、Average Linkage对应的集合的内部稳定性分别为:0.9908、0.8963、0.9031,因此保留K-means算法对应的集合,记为初步聚类结果子集。
4)对数据集稳定性及样本稳定性进行评估,把测试数据集划分为稳定子集及不稳定子集,包括以下步骤:
4.1)对于初步聚类结果子集SI,记数据集稳定性为Mstability,其计算方式为:
其中NSI为集合SI中的聚类结果个数,ci为SI中第i个聚类结果,cj为SI中第j个聚类结果,NMI为标准互信息,设数据集稳定性下限为M_minstability=0.6,上限为M_maxstability=0.95,然后对Mstability进行归一化,得到数据集稳定性指标,记为MDS:
4.2)设稳定子集比例最小值为Nmin=0.1,最大值为Nmax=0.9,则稳定子集大小NS为:
NS=N·[Nmin+MDS·(Nmax-Nmin)]
其中N为测试数据集的样本个数;
4.3)根据初步聚类结果子集计算其聚类关联性矩阵M*,对M*中第i行第j列的元素作如下修改:
其中max()为最大化函数,然后对矩阵M*按列取平均,得到样本稳定性;
4.4)将初步聚类结果子集中的样本按样本稳定性进行排序,取样本稳定性最大的NS个样本构成稳定子集,其中NS为稳定子集大小,取剩余样本构成不稳定子集。
采用上述步骤计算,IRIS数据集归一化后的数据集稳定性等于0.7435,经过稳定性上下限调整好,得到稳定子集比例为69.48%,并根据样本稳定性把样本分为稳定子集及不稳定子集两部分。
5)制定基于稳定子集及不稳定子集的目标函数,利用多目标遗传算法对初步聚类结果子集进行提炼,得到聚类结果选择器集合,包括以下步骤:
5.1)新建并设置目标函数阈值THO1和目标函数阈值THO2设为零,生成Pinit个长度为F,值全为0的向量作为聚类结果选择器,其中Pinit设为1000,F为测试数据集的特征个数,对于每一个聚类结果选择器i,生成一个在区间[1,F]上服从均匀分布的随机整数NPi,将聚类结果选择器i中前NPi个元素置为1,然后对该聚类结果选择器的元素进行随机排序,最后将这Pinit个聚类结果选择器合并为当前种群;
5.2)计算当前种群在稳定子集上的相似度矩阵simistable,其中第i行第j列的元素为:
simistable(i,j)=NMI(ci,stable,cj,stable),i∈{1,2,...,M},j∈{1,2,...,M}
其中M为初步聚类结果子集中聚类结果的个数,ci,stable为初步聚类结果子集中第i个聚类结果中稳定子集的标签值,cj,stable为初步聚类结果子集中第j个聚类结果中稳定子集的标签值,NMI为标准互信息,对此矩阵simistable按列取平均,得到聚类结果置信度向量Vecconf,将初步聚类结果子集中的聚类结果按Vecconf进行排序,取出值最大的Nconf个聚类结果构成准度参考集Sconf,其中Nconf为用户预设正整数,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj1(k)为:
其中|·|为集合的大小;
5.3)计算当前种群计算在不稳定子集上的相似度矩阵simiunstable,其中第i行第j列的元素为:
simiunstable(i,j)=NMI(ci,unstable,cj,unstable),i∈{1,2,...,M},j∈{1,2,...,M}
其中M为初步聚类结果子集中聚类结果的个数,ci,unstable为初步聚类结果子集中第i个聚类结果中不稳定子集的标签向量,cj,unstable为初步聚类结果子集中第j个聚类结果中不稳定子集的标签向量,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj2(k)为:
其中|·|为集合的大小;
5.4)对于obj1小于THO1或obj2小于THO2的聚类结果选择器i,设置obj1(i)和obj2(i)为原值的其中factorTHO设定为1000,将所有聚类结果选择器修改前的obj1的最小值作为新的THO1值,将所有聚类结果选择器修改前的obj2的最小值作为新的THO2值;
5.5)设定精英种群大小Nelist为30,对当前种群中的聚类结果选择器根据现有NSGA-II算法中的帕累托排序方法进行排序,设前k个帕累托层对应的聚类结果选择器个数为Npareto_select(k),选择前n层的聚类结果选择器,使得不等式Npareto_select(n)≤Nelist和Npareto_select(n+1)>Nelist成立,对于第n+1个帕累托层的聚类结果选择器,按照NSGA-II算法中的密集程度计算方式计算密集距离,选择其中密集距离最大的Nelist-Npareto_select(k)个聚类结果选择器,与前n个帕累托层中的聚类结果选择器共同构成精英种群;
5.6)设定新种群大小Nnew为100,并设变异率ratemutation为0.01,将新种群置为空集,对精英种群中每个聚类结果选择器pi,新建聚类结果选择器pnew_1,i,对pi中每个元素pi(j)(其中j∈{1,2,...,M}),其中M为初始聚类结果子集中聚类结果的个数,生成一个在在区间[0,1]上服从均匀分布的随机实数randi,j,则pnew_1,i(j)的值为:
然后把pnew_1,i加入到新种群中,重复从精英种群中随机抽取Nnew次聚类结果选择器,每次随机抽取2个聚类结果选择器pi和pj,生成一个在区间[1,M]上服从均匀分布的随机整数,记为Ncrossover,其中M为初始聚类结果子集中聚类结果的个数,将pi的前Ncrossover个元素与pj的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_2并加入到新种群中,将pj的前Ncrossover个元素与pi的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_3并加入到新种群中,最后把精英种群也加入到新种群中;
5.7)重复步骤5.2)~5.6)T次,其中T=500,把精英种群作为聚类结果选择器集合。
采用上述步骤计算,迭代500次算法后得到最终的精英种群,其中包含30个聚类结果选择器,每个选择器对应着100个聚类结果的选择情况。
6)根据聚类结果选择器集合获得最终聚类结果子集,然后构成有向图,最后采用图切割算法对有向图进行切割,得到最终聚类结果,包括以下步骤:
6.1)新建最终聚类结果子集,并将其置为空集,对于聚类结果选择器集合中的每个聚类结果选择器,记录其值为1的元素对应的下标,将此下标作为初步聚类结果子集的取值下标,把对应的聚类结果加入到最终聚类结果子集中,根据最终聚类结果子集构建聚类关联矩阵;
6.2)新建一个有向图,有向图中的顶点对应初步聚类结果子集中的聚类结果,有向图中的边对应步骤6.1)中的聚类关联矩阵的元素,采用现有Normalized Cut算法对有向图进行切割,将切割结果作为最终聚类结果。
采用上述步骤计算,得到维度为150的标签向量,作为最终聚类结果,测得其与真实标签的标准互信息值为0.8865。
综上所述,本发明为聚类分析提供了新的方法,将聚类集成选择作为提高聚类分析准确率的一种有效手段,能够有效解决大数据聚类分析中自适应性的问题,有效推动信息科技产业的发展,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (7)
1.一种基于数据稳定性的选择性聚类集成方法,其特征在于,包括以下步骤:
1)输入测试数据集,并对其进行预处理;
2)结合基础聚类算法及特征子空间技术对测试数据集进行初始聚类结果集合生成;
3)对初始聚类结果集合进行算法级结果筛选,得到初步聚类结果子集;
4)利用初步聚类结果子集进行样本划分,把测试数据集划分为稳定子集及不稳定子集;
5)制定基于稳定子集及不稳定子集的目标函数,根据初步聚类结果子集得到聚类结果选择器集合;
6)融合由聚类结果选择器集合构成的最终聚类结果子集,得到最终聚类结果。
2.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤1)中,输入矩阵形式的测试数据集,对其执行归一化操作:
其中,N为测试集的样本个数,F为测试数据集的特征个数,为测试数据集第i个样本的第k个特征的值,X(k)min为测试数据集第k个特征的最小值,X(k)max为测试数据集第k个特征的最大值。
3.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤2)中,对测试数据集采集随机子空间,采用不同的聚类算法对随机子空间进行聚类,得到初始聚类结果集合,包括以下步骤:
2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数,记为NRSM,其中F为测试数据集的特征个数,然后对向量[1,2,...,F]进行随机排序,取其前面NRSM个元素作为特征下标,提取测试数据集对应下标的特征作为随机子空间;
2.2)依次采用现有的K-means、Fuzzy C-means、K-medoids、Average Linkage、SingleLinkage、Complete Linkage作为聚类算法,并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数,记为NC,其中C为测试数据集的真实类个数;
2.3)利用所选择的聚类算法对随机子空间进行聚类,聚类类个数设为NC;
2.4)重复步骤2.1)~2.3)直至生成6B个聚类结果,其中B为用户预设的正整数。
4.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤3)中,计算不同聚类算法的外部一致性及内部稳定性,结合这两个指标评估初始聚类结果集合,选择出初步聚类结果子集,包括以下步骤:
3.1)根据初始聚类结果集合构成聚类关联矩阵,记初始聚类结果集合为{c1,c2,...,cE},其中E为聚类结果个数,ck为初始聚类结果集合中第k个聚类结果,首先将聚类结果ck转化为邻接矩阵Mk,Mk中第i行第j列的的元素为:
聚类关联矩阵W邻由E个邻接矩阵求得:
然后利用现有Average Linkage算法对聚类关联矩阵W进行聚类,得到代理融合聚类结果;
3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合,对于每个集合生成其聚类关联矩阵,然后利用现有Average Linkage算法对其聚类关联矩阵进行聚类,得到子集融合聚类结果,然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性,其中相似性采用NMI,即为标准互信息,NMI的计算方式为:
其中,Ca、Cb为样本个数相同的聚类结果,ka、kb分别为Ca、Cb的类个数,n为Ca中的样本个数,为属于Ca中的类h的样本个数,为属于Cb中的类l的样本个数,nh,l为同时属于Ca中的类h及Cb中的类l的样本个数,log为自然对数函数,对六个集合的外部一致性作比较,把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除,得到一致性聚类结果子集;
3.3)把一致性聚类结果子集中的聚类结果根据聚类算法的不同分为三个集合,对于每个集合S,计算其内部稳定性,记为stabS:
其中,NS为集合S中的聚类结果个数,ci为集合S中第i个聚类结果,cj为集合S中第j个聚类结果,NMI为标准互信息,对三个集合的内部稳定性作比较,把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除,得到初步聚类结果子集。
5.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤4)中,对数据集稳定性及样本稳定性进行评估,把测试数据集划分为稳定子集及不稳定子集,包括以下步骤:
4.1)对于初步聚类结果子集SI,记数据集稳定性为Mstability,其计算方式为:
其中,NSI为集合SI中的聚类结果个数,ci为SI中第i个聚类结果,cj为SI中第j个聚类结果,NMI为标准互信息,设数据集稳定性下限为M_minstability,上限为M_maxstability,然后对Mstability进行归一化,得到数据集稳定性指标,记为MDS:
4.2)设稳定子集比例最小值为Nmin,最大值为Nmax,则稳定子集大小NS为:
NS=N·[Nmin+MDS·(Nmax-Nmin)]
其中N为测试数据集的样本个数;
4.3)根据初步聚类结果子集计算其聚类关联性矩阵M*,对M*中第i行第j列的元素作如下修改:
其中,max()为最大化函数,然后对矩阵M*按列取平均,得到样本稳定性;
4.4)将初步聚类结果子集中的样本按样本稳定性进行排序,取样本稳定性最大的NS个样本构成稳定子集,其中NS为稳定子集大小,取剩余样本构成不稳定子集。
6.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤5)中,制定基于稳定子集及不稳定子集的目标函数,利用多目标遗传算法对初步聚类结果子集进行提炼,得到聚类结果选择器集合,包括以下步骤:
5.1)新建并设置目标函数阈值THO1和目标函数阈值THO2设为零,生成Pinit个长度为F,值全为0的向量作为聚类结果选择器,其中Pinit为用户预设正整数,F为测试数据集的特征个数,对于每一个聚类结果选择器i,生成一个在区间[1,F]上服从均匀分布的随机整数NPi,将聚类结果选择器i中前NPi个元素置为1,然后对该聚类结果选择器的元素进行随机排序,最后将这Pinit个聚类结果选择器合并为当前种群;
5.2)计算当前种群在稳定子集上的相似度矩阵simistable,其中第i行第j列的元素为:
simistable(i,j)=NMI(ci,stable,cj,stable),i∈{1,2,...,M},j∈{1,2,...,M}
其中,M为初步聚类结果子集中聚类结果的个数,ci,stable为初步聚类结果子集中第i个聚类结果中稳定子集的标签值,cj,stable为初步聚类结果子集中第j个聚类结果中稳定子集的标签值,NMI为标准互信息,对此矩阵simistable按列取平均,得到聚类结果置信度向量Vecconf,将初步聚类结果子集中的聚类结果按Vecconf进行排序,取出值最大的Nconf个聚类结果构成准度参考集Sconf,其中Nconf为用户预设正整数,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj1(k)为:
其中|·|为集合的大小;
5.3)计算当前种群计算在不稳定子集上的相似度矩阵simiunstable,其中第i行第j列的元素为:
simiunstable(i,j)=NMI(ci,unstable,cj,unstable),i∈{1,2,...,M},j∈{1,2,...,M}
其中,M为初步聚类结果子集中聚类结果的个数,ci,unstable为初步聚类结果子集中第i个聚类结果中不稳定子集的标签向量,cj,unstable为初步聚类结果子集中第j个聚类结果中不稳定子集的标签向量,对于每个聚类结果选择器k,记其中值为1的下标对应的聚类结果组成的集合为Sselect(k),则聚类结果选择器k的目标函数obj2(k)为:
其中|·|为集合的大小;
5.4)对于obj1小于THO1或obj2小于THO2的聚类结果选择器i,设置obj1(i)和obj2(i)为原值的其中factorTHO为用户预设正整数,将所有聚类结果选择器修改前的obj1的最小值作为新的THO1值,将所有聚类结果选择器修改前的obj2的最小值作为新的THO2值;
5.5)用户自设定精英种群大小为正整数Nelist,对当前种群中的聚类结果选择器根据现有NSGA-II算法中的帕累托排序方法进行排序,设前k个帕累托层对应的聚类结果选择器个数为Npareto_select(k),选择前n层的聚类结果选择器,使得不等式Npareto_select(n)≤Nelist和Npareto_select(n+1)>Nelist成立,对于第n+1个帕累托层的聚类结果选择器,按照NSGA-II算法中的密集程度计算方式计算密集距离,选择其中密集距离最大的Nelist-Npareto_select(k)个聚类结果选择器,与前n个帕累托层中的聚类结果选择器共同构成精英种群;
5.6)用户自设定新种群大小为正整数Nnew,并设变异率ratemutation为区间[0,1]上的实数,将新种群置为空集,对精英种群中每个聚类结果选择器pi,新建聚类结果选择器pnew_1,i,对pi中每个元素pi(j),其中j∈{1,2,...,M},其中M为初始聚类结果子集中聚类结果的个数,生成一个在在区间[0,1]上服从均匀分布的随机实数randi,j,则pnew_1,i(j)的值为:
然后把pnew_1,i加入到新种群中,重复从精英种群中随机抽取Nnew次聚类结果选择器,每次随机抽取2个聚类结果选择器pi和pj,生成一个在区间[1,M]上服从均匀分布的随机整数,记为Ncrossover,其中M为初始聚类结果子集中聚类结果的个数,将pi的前Ncrossover个元素与pj的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_2并加入到新种群中,将pj的前Ncrossover个元素与pi的后M-Ncrossover个元素串联,构成新的聚类结果选择器pnew_3并加入到新种群中,最后把精英种群也加入到新种群中;
5.7)重复步骤5.2)~5.6)T次,其中T为用户预设正整数,把精英种群作为聚类结果选择器集合。
7.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤6)中,根据聚类结果选择器集合获得最终聚类结果子集,然后构成有向图,最后采用图切割算法对有向图进行切割,得到最终聚类结果,包括以下步骤:
6.1)新建最终聚类结果子集,并将其置为空集,对于聚类结果选择器集合中的每个聚类结果选择器,记录其值为1的元素对应的下标,将此下标作为初步聚类结果子集的取值下标,把对应的聚类结果加入到最终聚类结果子集中,根据最终聚类结果子集构建聚类关联矩阵;
6.2)新建一个有向图,有向图中的顶点对应初步聚类结果子集中的聚类结果,有向图中的边对应步骤6.1)中的聚类关联矩阵的元素,采用现有Normalized Cut算法对有向图进行切割,将切割结果作为最终聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181682.9A CN108573274A (zh) | 2018-03-06 | 2018-03-06 | 一种基于数据稳定性的选择性聚类集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181682.9A CN108573274A (zh) | 2018-03-06 | 2018-03-06 | 一种基于数据稳定性的选择性聚类集成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108573274A true CN108573274A (zh) | 2018-09-25 |
Family
ID=63576742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810181682.9A Pending CN108573274A (zh) | 2018-03-06 | 2018-03-06 | 一种基于数据稳定性的选择性聚类集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573274A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033031A (zh) * | 2019-03-27 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 群组检测方法、装置、计算设备和机器可读存储介质 |
CN110717096A (zh) * | 2019-09-06 | 2020-01-21 | 平安医疗健康管理股份有限公司 | 单据数据提取方法、装置、计算机设备和存储介质 |
CN111126419A (zh) * | 2018-10-30 | 2020-05-08 | 顺丰科技有限公司 | 网点聚类方法及装置 |
CN112667754A (zh) * | 2020-12-30 | 2021-04-16 | 深圳信息职业技术学院 | 大数据处理方法、装置、计算机设备及存储介质 |
CN112927000A (zh) * | 2019-12-05 | 2021-06-08 | 顺丰科技有限公司 | 网点的数据分析方法、装置、计算机设备及存储介质 |
CN114118296A (zh) * | 2021-12-08 | 2022-03-01 | 昆明理工大学 | 一种基于聚类集成的岩体结构面优势产状分组方法 |
CN114900365A (zh) * | 2022-05-20 | 2022-08-12 | 帕特思科技咨询(杭州)有限公司 | 一种创新服务资源数据处理及安全交互方法 |
-
2018
- 2018-03-06 CN CN201810181682.9A patent/CN108573274A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126419A (zh) * | 2018-10-30 | 2020-05-08 | 顺丰科技有限公司 | 网点聚类方法及装置 |
CN111126419B (zh) * | 2018-10-30 | 2023-12-01 | 顺丰科技有限公司 | 网点聚类方法及装置 |
CN110033031A (zh) * | 2019-03-27 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 群组检测方法、装置、计算设备和机器可读存储介质 |
CN110033031B (zh) * | 2019-03-27 | 2023-04-18 | 创新先进技术有限公司 | 群组检测方法、装置、计算设备和机器可读存储介质 |
CN110717096A (zh) * | 2019-09-06 | 2020-01-21 | 平安医疗健康管理股份有限公司 | 单据数据提取方法、装置、计算机设备和存储介质 |
CN112927000A (zh) * | 2019-12-05 | 2021-06-08 | 顺丰科技有限公司 | 网点的数据分析方法、装置、计算机设备及存储介质 |
CN112667754A (zh) * | 2020-12-30 | 2021-04-16 | 深圳信息职业技术学院 | 大数据处理方法、装置、计算机设备及存储介质 |
CN112667754B (zh) * | 2020-12-30 | 2021-09-28 | 深圳信息职业技术学院 | 大数据处理方法、装置、计算机设备及存储介质 |
CN114118296A (zh) * | 2021-12-08 | 2022-03-01 | 昆明理工大学 | 一种基于聚类集成的岩体结构面优势产状分组方法 |
CN114900365A (zh) * | 2022-05-20 | 2022-08-12 | 帕特思科技咨询(杭州)有限公司 | 一种创新服务资源数据处理及安全交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573274A (zh) | 一种基于数据稳定性的选择性聚类集成方法 | |
CN107590436B (zh) | 基于膜粒子群多目标算法的雷达辐射源信号特征选择方法 | |
CN108509335A (zh) | 基于遗传算法优化的软件测试数据生成方法 | |
CN106228183A (zh) | 一种半监督学习分类方法与装置 | |
CN100557626C (zh) | 基于免疫谱聚类的图像分割方法 | |
CN106096661B (zh) | 基于相对属性随机森林的零样本图像分类方法 | |
CN103888541B (zh) | 一种融合拓扑势和谱聚类的社区发现方法及系统 | |
CN105956184B (zh) | 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法 | |
CN106897821A (zh) | 一种暂态评估特征选择方法及装置 | |
CN109145960A (zh) | 基于改进粒子群算法的数据特征选择方法及系统 | |
CN102024179A (zh) | 一种基于半监督学习的ga-som聚类方法 | |
CN105320967A (zh) | 基于标签相关性的多标签AdaBoost集成方法 | |
CN101847263A (zh) | 基于多目标免疫聚类集成的无监督图像分割方法 | |
CN106845642A (zh) | 一种带约束云工作流调度的自适应多目标进化方法 | |
CN108875795A (zh) | 一种基于Relief和互信息的特征选择算法 | |
CN110083531A (zh) | 改进个体信息共享的多目标路径覆盖测试方法及实现系统 | |
CN106991444A (zh) | 基于峰值密度聚类的主动学习方法 | |
CN110751121A (zh) | 基于聚类与sofm的无监督雷达信号分选方法 | |
CN110442143A (zh) | 一种基于组合多目标鸽群优化的无人机态势数据聚类方法 | |
CN105184486A (zh) | 一种基于有向无环图支持向量机的电网业务分类方法 | |
CN104952067A (zh) | 基于nsga-ⅱ进化算法的彩色图像分割 | |
CN106599924A (zh) | 一种基于三支决策的分类器构建方法 | |
CN109583519A (zh) | 一种基于p-Laplacian图卷积神经网络的半监督分类方法 | |
CN103218419B (zh) | 网络标签聚类方法和系统 | |
CN107392249A (zh) | 一种k近邻相似度优化的密度峰聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180925 |
|
RJ01 | Rejection of invention patent application after publication |