CN105447521A - 一种K-means聚类的初值选择方法 - Google Patents

一种K-means聚类的初值选择方法 Download PDF

Info

Publication number
CN105447521A
CN105447521A CN201510829785.8A CN201510829785A CN105447521A CN 105447521 A CN105447521 A CN 105447521A CN 201510829785 A CN201510829785 A CN 201510829785A CN 105447521 A CN105447521 A CN 105447521A
Authority
CN
China
Prior art keywords
initial value
sampling
cluster
sample
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510829785.8A
Other languages
English (en)
Inventor
卢志茂
范冬梅
姚念民
谭国真
高振国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510829785.8A priority Critical patent/CN105447521A/zh
Publication of CN105447521A publication Critical patent/CN105447521A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种K-means聚类的初值选择方法,解决了K-means容易陷入局部极值、聚类结果不稳定、严重依赖初始聚类中心的问题。K-means聚类的初值通常是采用抽样的方法从数据集中获取。为了提高K-means的稳定性,需要为K-means提供质量更好的抽样。传统的解决方法计算复杂度偏高,而且总是拒绝最优的抽样结果。本发明充分考虑理想抽样的空间分布特点,采用样本之间距离的总体水平结合最小距离来评价随机抽样的质量。通过多次抽样,选择评价指标相对最优的抽样结果作为K-means的初值。新的K-means初值选择方法计算复杂度低,能够很容易捕捉到多次采样中随机出现的最好结果,从而为K-means提供相对更好的初值所需的数据对象,有效降低K-means陷入局部最优的概率,最终提高K-means聚类结果稳定性。

Description

一种K-means聚类的初值选择方法
技术领域
本发明涉及机器学习、模式分类、数据挖掘等分类领域,具体涉及数据挖掘领域中的划分聚类方法。
背景技术
聚类(clustering)是一种无监督的数据分析方法,主要处理没有先验信息的数据,广泛用于数据挖掘领域。
一般认为将物理或抽象的数据对象集合分成由相似的数据对象组成的多个分组(group)或者簇(cluster)的过程被称为聚类,参见图1。图1是具有4个自然簇的二维数据,每个颜色代表一个自然分组。
由聚类所生成的分组或者簇是一组数据对象的集合,同一个分组或者簇中的数据对象彼此相似,不同分组或者簇中的数据对象彼此相异。簇内数据对象越相似,聚类效果越好。
目前发展起来的聚类方法有很多种,大抵可以分为层次聚类和划分聚类两种。其中划分聚类方法简洁高效,伸缩性强,因而也备受青睐。K-means是划分聚类中最典型的方法,它在数据分析上的应用也最为普遍。
K-means的基本原理如下:
首先确定聚类结果需要的分组数量k;
然后从规模为n(n∈N)的独立同分布数据集X={xt}n t=1随机抽取k(2≤k)个数据对象作为聚类的初始中心{Oi}k i=1,聚类中心对应多维线性空间里的数据点。对于剩下的n-k个数据对象按照最小距离分类法将其一一分入与其最为相似的聚类中心所代表的簇中。
数据对象与均值中心的相似性是通过欧氏距离d度量:
d=||xt-Oi||2,(1-1)
接下来根据n个数据对象的分组情况,可以计算出各个簇的均值中心(means)作为新的聚类中心。通常新的中心会偏离初始中心的位置,表示聚类中心被更新。
根据分类前的聚类中心和聚类后的聚类中心分别计算由重构误差E(X)定义的目标函数:
E ( { O i } i = 1 k | X ) = Σ t = 1 n Σ i = 1 k b i t | | x t - O i | | 2 , - - - ( 1 - 2 )
其中
通常,分类后目标函数的值会减小,表明新的分组能使重构误差变小。
按照新的聚类中心重新对数据对象进行分类,并对聚类中心进行更新。
重新计算分类后的目标函数值。
如果目标函数值不再改变,则停止迭代,否则重复上述过程。
聚类的结果使得分组内部的数据对象尽可能紧凑而内聚,分组之间彼此分离。
K-means聚类的优点很多,但也有明显的缺点,例如它的聚类效果不稳定,严重依赖于初值的选择。如果选定的初值碰巧来自于某一个自然分组,那么K-means很可能收敛于局部最优,从而无法得到令人满意的聚类,参见图2和图3。图2中标识出有两个被选作初值的数据对象落入了通过一簇C中,图3是K-means在此初值上给出的一个聚类结果。因为初值选择不好,结果自然簇C被分裂,而自然簇B、D被合并。
发明内容
解决K-means聚类问题的主要思想就是希望选定的初值在多维空间彼此分离,距离越大越好,以免选作初值的数据对象因距离短而落入同一个自然簇。
一个广受业界认可的方法是通过距离约束来选择初值。前两个初值选择数据集中相距最远的两个数据对象,其后选择的初值都是距离已选作初值的数据对象最远的数据对象。此法可以让选作初值的数据对象彼此远离,从而降低K-means聚类陷入局部最优的概率。但是这样做也有明显的缺点,其一,该法确定数据集中最远的两个数据对象需要消耗O(n2)级别的时间,确定其余k-2个数据对象,需要耗费的时间为O(k×n),如果2k<n,则该环节的时间复杂度的下界是Ω(k×2k),因为2≤k<<n,总的时间开销为O(n2),计算量特别巨大,严重削弱了K-means的伸缩性,无法应对大数据的处理需求;其二,该法总是拒绝最优的随机初值。例如,最优的初值应该是距离自然簇均值中心最近的数据对象。如果该法首先确定了前两个可以作为初值的数据对象,那么这两个数据对象肯定落在簇的边界区域,这样才能保证距离最远,但也因此决定了该法不能选中距离自然簇均值中心最近的数据对象。
如果第一个初值随机选择,其它各个初值按照与已选定数据对象最远距离的原则确定,那么可以把计算复杂度降下来,例如时间复杂度为Ω(k×2k),但仍然很大。按照这样的策略简化处理,假设第一初值非常幸运地选中了一个距离某自然簇均值中心最近的数据对象,那么其它依次被选中的数据对象都很可能落在簇的边界区域,而不会是距离其它自然簇均值中心最近的数据对象。参见图4,如果随机选中数据对象Oi,它恰巧是均值中心,那么根据距离约束条件,下一个被选择的数据对象最可能是Oj,为了保证其距离Oi最大,它必须处在自然簇的边缘区域。实际上,随机抽样选中最理想初值的概率并不为零,然而该方法选中最优初值的可能性却为零。
为此,本发明设计实现了一种新的K-means初值选择方法。
K-means初值随机选择是对样本集的一次抽样(sampling)。对于规模为n的独立同分布数据集X={xt}N t=1,令每个自然分组(用Gi表示第i个分组)的概率为P(Gi)。一个好的抽样要求样本均匀地来自各个自然簇,样本集中来自第i个自然簇Gi的样本概率最好等于P(Gi),然而实际抽样很难满足这样的要求。将选择的数据对象尽可能彼此远离,就是希望抽取出来的样本来自于不同的簇。因此,样本之间的的距离远近可以作为度量样本集优劣的一个标准。令dij代表数据对象之间的欧氏距离,1≤i≤k,1≤j≤k,i≠j。样本之间距离的总体水平可以用样本集中样本间的距离的总和来衡量,也可以采用距离的期望dave
d a v e = E ( d i j ) = 2 k ( k - 1 ) &Sigma; i = 1 k &Sigma; j = 1 k ( d i j ) , i &NotEqual; j . - - - ( 1 - 4 )
其中,dij=||xi-xj||2
实际抽样中,有些样本间的距离明明很小,但因为个别样本间距离偏大而造成距离期望仍然很大,这样的样本集如何被发现并避免将其作为K-means聚类的初值呢?
考虑到随机抽样中存在的这种情况,只重视距离期望dave是不够的,为此需要引入新的评价指标“最小距离”。使用dmin对抽样中存在的最小距离进行定义:
d m i n = m i n i , j { d i j | i &NotEqual; j } . - - - ( 1 - 5 )
为了获得好的K-means聚类初值,我们希望抽取的数据对象之间都彼此远离。不仅要考核指标dave,还要考虑dmin,才能避免选中存在偏小dmin的样本集,而放弃dmin较大的样本集。显然,不同的样本集对应的dmin的值越大越好。
为了整合两个指标,以便更好地衡量样本集的质量,我们可以采用多种策略,例如将两个指标按照各自的权重求和:
Q(d)=αdave+βdmin,α>0,β>0,i≠j,(1-6)其中,Q(d)是评价样本集质量的函数。
这样设计,需要衡量两个指标对样本集质量的贡献大小,处理起来有些复杂,简化处理就是令α=β=1。
另外一种策略更为可取,即采用距离乘积的方法构建如下评价函数:
Q(d)=dave×dmin,i≠j.(1-7)
两个指标的乘积可以放大二者之间任何一个因素的改变给质量评价结果带来的影响。
将式(1-4)和(1-5)代入式(1-7),得到下面的表达式:
Q ( d ) = 2 k ( k - 1 ) &Sigma; i = 1 k &Sigma; j = 1 k ( d i j ) &times; m i n i , j { d i j } , i &NotEqual; j . - - - ( 1 - 8 )
对于不同的随机抽样,它的Q(d)值越大,说明样本集的质量越好,被选中的数据对象也就越分散,可以作为K-means的理想初值。
K-means的新初值选择方法仍然是随机的,但是要求多次抽样,并根据式(8)计算Q(d),并将其作为抽样的打分,选择其中打分最高的抽样作为K-means的初值。该方法可以在多次抽样中选出相对最适合做K-means初值的数据对象。
从处理过程看,该K-means的初值选择方法虽然不能保证能找到前面所述最优的初值,但是一旦随机抽样出现了可以作为最优初值的数据对象,本发明的方法是可以捕捉到这样的数据对象的。所以,本发明可以克服前面所述的初值选取方法的缺点,并且时间开销还很低。
该方法的执行效率可以借助时间复杂度来分析。
K-means的初值选择新方法,其主要的时间开销在于抽样点之间的距离计算上。如果抽样样本的规模是k,则有k(k-1)/2个不同样本对的距离,时间复杂度上界为O(k2)。计算距离的期望,以及确定最小距离,两个过程都分别需要有O(k2)级别的时间开销。可见,每次抽样的时间总开销的上界仍然为O(k2),2≤k<<n。一般情况下,k的大小不会超过二位数的规模,因此抽样对应的计算量很小,通过多次抽样选择初值的方法用时少,速度快。
综上所述,本发明设计实现的K-means初值选择新方法本质上是通过对抽样质量的评价来确定多次抽样中相对最好的抽样。本发明采用的抽样质量评价函数不仅可以在K-means的初值选择上发挥作用,也能很容易推广到其它类似的需要抽样的应用领域。
附图说明
附图1为二维数据的可视图。
附图2为K-means的一种初值选择结果。
附图3为K-means在图2初值上的聚类结果。
附图4为K-means的初值选择过程示意图。
具体实施方式
为了提高K-means聚类效果的稳定性,改善聚类的效果,可以采用本发明设计实现的初值选择新方法。
具体的实施可以遵从如下处理过程:
给定数据集X={xt}n t=1,规模为n,n∈N。确定K-means的聚类中心的数量k(2≤k)。
调用随机数生成算法,从数据集中随机抽取k个数据对象,得到样本集S,集合S可以记作:S={xi}k i=1
根据式(1-8)计算样本集S质量的评价函数值Q(d)。
重复抽样M(0<M且M∈N)次,可以得到M份抽样结果以及对应的评价函数值Qm(d),1≤m≤M。
令最佳样本集为Sg,1≤g≤M:
S g = arg m a x m Q m ( d ) .
最佳样本集Sg所包含的k个样本被选作K-means聚类的初值。

Claims (1)

1.一种K-means聚类的初值选择方法,其特征在于以下步骤:
(1)选择k个初始聚类中心:从包含有n(n∈N)个数据对象的数据集X={xt}n t=1中选择包含有k个数据对象的子集S={xi}k i=1作为K-means聚类的初值;xt表示数据集中第t个数据对象,k≥2;
做M次规模为k的随机抽样,0<M且M∈N,组成M个样本集;每个样本集包含k个样本;
(2)根据式(2-1)计算每个样本集Sm对应的质量函数Qm(d),1≤m≤M,以此评价样本集Sm的质量;
(3)按照式(2-2)选择具有最大Q(d)值的样本集Sg,1≤g≤M,作为K-means的初值;
Q ( d ) = 2 k ( k - 1 ) &Sigma; i = 1 k &Sigma; j = 1 k ( d i j ) &times; m i n i , j { d i j } , i &NotEqual; j - - - ( 2 - 1 )
式(2-1)中的Q(d)是样本集的质量评价函数,dij表示第i个和第j个样本之间的欧氏距离,dij=||xi-xj||2,1≤i≤k,1≤j≤k,i≠j,是计算样本间欧氏距离的期望,mini,j{dij}是计算样本间的最小距离。
S g = arg m a x m Q m ( d ) - - - ( 2 - 2 )
式(2-2)中的Sg代表具有最大Q(d)值的样本集。
CN201510829785.8A 2015-11-25 2015-11-25 一种K-means聚类的初值选择方法 Pending CN105447521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510829785.8A CN105447521A (zh) 2015-11-25 2015-11-25 一种K-means聚类的初值选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510829785.8A CN105447521A (zh) 2015-11-25 2015-11-25 一种K-means聚类的初值选择方法

Publications (1)

Publication Number Publication Date
CN105447521A true CN105447521A (zh) 2016-03-30

Family

ID=55557680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510829785.8A Pending CN105447521A (zh) 2015-11-25 2015-11-25 一种K-means聚类的初值选择方法

Country Status (1)

Country Link
CN (1) CN105447521A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017181660A1 (zh) * 2016-04-21 2017-10-26 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN107358368A (zh) * 2017-07-21 2017-11-17 国网四川省电力公司眉山供电公司 一种面向电力用户细分的鲁棒k‑means聚类方法
CN109241200A (zh) * 2018-08-21 2019-01-18 国网河北省电力有限公司石家庄供电分公司 电力物资聚类信息处理方法及系统
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置
CN113870948A (zh) * 2021-08-20 2021-12-31 中国人民解放军海军军医大学第三附属医院 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017181660A1 (zh) * 2016-04-21 2017-10-26 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN107358368A (zh) * 2017-07-21 2017-11-17 国网四川省电力公司眉山供电公司 一种面向电力用户细分的鲁棒k‑means聚类方法
CN107358368B (zh) * 2017-07-21 2021-07-20 国网四川省电力公司眉山供电公司 一种面向电力用户细分的鲁棒k-means聚类方法
CN109241200A (zh) * 2018-08-21 2019-01-18 国网河北省电力有限公司石家庄供电分公司 电力物资聚类信息处理方法及系统
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置
CN111738319B (zh) * 2020-06-11 2021-09-10 佳都科技集团股份有限公司 一种基于大规模样本的聚类结果评价方法及装置
CN113870948A (zh) * 2021-08-20 2021-12-31 中国人民解放军海军军医大学第三附属医院 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质

Similar Documents

Publication Publication Date Title
CN105447521A (zh) 一种K-means聚类的初值选择方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
Lall et al. Kernel flood frequency estimators: Bandwidth selection and kernel choice
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN102629305B (zh) 一种面向snp数据的特征选择方法
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN104093203A (zh) 一种用于无线室内定位的接入点选择算法
CN102184364A (zh) 基于半监督学习的推荐系统托攻击检测方法
CN103678500A (zh) 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
CN101807254A (zh) 面向数据特点的合成核支持向量机的实现方法
CN109726749A (zh) 一种基于多属性决策的最优聚类算法选择方法和装置
CN104021234B (zh) 一种基于自适应位分配哈希算法的大规模图像库检索方法
CN103020643A (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
CN105158761A (zh) 基于枝切法和曲面拟合的雷达合成相位解缠方法
CN107103336A (zh) 一种基于密度峰值的混合属性数据聚类方法
WO2022166363A1 (zh) 一种基于近邻子空间划分高光谱影像波段选择方法及系统
CN103714154A (zh) 一种确定最佳聚类数的方法
CN112348084A (zh) 改进k-means的未知协议数据帧分类方法
Tan et al. High-order fuzzy clustering algorithm based on multikernel mean shift
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN104714964B (zh) 一种生理数据离群检测方法及装置
CN109389172A (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN107945871A (zh) 一种基于大数据的血液病智能分类系统
CN111666999A (zh) 一种遥感图像的分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330