CN105447521A

CN105447521A - 一种K-means聚类的初值选择方法

Info

Publication number: CN105447521A
Application number: CN201510829785.8A
Authority: CN
Inventors: 卢志茂; 范冬梅; 姚念民; 谭国真; 高振国
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-03-30

Abstract

一种K-means聚类的初值选择方法，解决了K-means容易陷入局部极值、聚类结果不稳定、严重依赖初始聚类中心的问题。K-means聚类的初值通常是采用抽样的方法从数据集中获取。为了提高K-means的稳定性，需要为K-means提供质量更好的抽样。传统的解决方法计算复杂度偏高，而且总是拒绝最优的抽样结果。本发明充分考虑理想抽样的空间分布特点，采用样本之间距离的总体水平结合最小距离来评价随机抽样的质量。通过多次抽样，选择评价指标相对最优的抽样结果作为K-means的初值。新的K-means初值选择方法计算复杂度低，能够很容易捕捉到多次采样中随机出现的最好结果，从而为K-means提供相对更好的初值所需的数据对象，有效降低K-means陷入局部最优的概率，最终提高K-means聚类结果稳定性。

Description

一种K-means聚类的初值选择方法

技术领域

本发明涉及机器学习、模式分类、数据挖掘等分类领域，具体涉及数据挖掘领域中的划分聚类方法。

背景技术

聚类(clustering)是一种无监督的数据分析方法，主要处理没有先验信息的数据，广泛用于数据挖掘领域。

一般认为将物理或抽象的数据对象集合分成由相似的数据对象组成的多个分组(group)或者簇(cluster)的过程被称为聚类，参见图1。图1是具有4个自然簇的二维数据，每个颜色代表一个自然分组。

由聚类所生成的分组或者簇是一组数据对象的集合，同一个分组或者簇中的数据对象彼此相似，不同分组或者簇中的数据对象彼此相异。簇内数据对象越相似，聚类效果越好。

目前发展起来的聚类方法有很多种，大抵可以分为层次聚类和划分聚类两种。其中划分聚类方法简洁高效，伸缩性强，因而也备受青睐。K-means是划分聚类中最典型的方法，它在数据分析上的应用也最为普遍。

K-means的基本原理如下：

首先确定聚类结果需要的分组数量k；

然后从规模为n(n∈N)的独立同分布数据集X＝{x^t}ⁿ _t＝1随机抽取k(2≤k)个数据对象作为聚类的初始中心{O_i}^k _i＝1，聚类中心对应多维线性空间里的数据点。对于剩下的n-k个数据对象按照最小距离分类法将其一一分入与其最为相似的聚类中心所代表的簇中。

数据对象与均值中心的相似性是通过欧氏距离d度量：

d＝||x^t-O_i||²，(1-1)

接下来根据n个数据对象的分组情况，可以计算出各个簇的均值中心(means)作为新的聚类中心。通常新的中心会偏离初始中心的位置，表示聚类中心被更新。

根据分类前的聚类中心和聚类后的聚类中心分别计算由重构误差E(X)定义的目标函数：

E ({O_{i}}_{i = 1}^{k} | X) = Σ_{t = 1}^{n} Σ_{i = 1}^{k} b_{i}^{t} | | x^{t} - O_{i} | |^{2}, - - - (1 - 2)

其中

通常，分类后目标函数的值会减小，表明新的分组能使重构误差变小。

按照新的聚类中心重新对数据对象进行分类，并对聚类中心进行更新。

重新计算分类后的目标函数值。

如果目标函数值不再改变，则停止迭代，否则重复上述过程。

聚类的结果使得分组内部的数据对象尽可能紧凑而内聚，分组之间彼此分离。

K-means聚类的优点很多，但也有明显的缺点，例如它的聚类效果不稳定，严重依赖于初值的选择。如果选定的初值碰巧来自于某一个自然分组，那么K-means很可能收敛于局部最优，从而无法得到令人满意的聚类，参见图2和图3。图2中标识出有两个被选作初值的数据对象落入了通过一簇C中，图3是K-means在此初值上给出的一个聚类结果。因为初值选择不好，结果自然簇C被分裂，而自然簇B、D被合并。

发明内容

解决K-means聚类问题的主要思想就是希望选定的初值在多维空间彼此分离，距离越大越好，以免选作初值的数据对象因距离短而落入同一个自然簇。

一个广受业界认可的方法是通过距离约束来选择初值。前两个初值选择数据集中相距最远的两个数据对象，其后选择的初值都是距离已选作初值的数据对象最远的数据对象。此法可以让选作初值的数据对象彼此远离，从而降低K-means聚类陷入局部最优的概率。但是这样做也有明显的缺点，其一，该法确定数据集中最远的两个数据对象需要消耗O(n²)级别的时间，确定其余k-2个数据对象，需要耗费的时间为O(k×n)，如果2^k<n，则该环节的时间复杂度的下界是Ω(k×2^k)，因为2≤k<<n，总的时间开销为O(n²)，计算量特别巨大，严重削弱了K-means的伸缩性，无法应对大数据的处理需求；其二，该法总是拒绝最优的随机初值。例如，最优的初值应该是距离自然簇均值中心最近的数据对象。如果该法首先确定了前两个可以作为初值的数据对象，那么这两个数据对象肯定落在簇的边界区域，这样才能保证距离最远，但也因此决定了该法不能选中距离自然簇均值中心最近的数据对象。

如果第一个初值随机选择，其它各个初值按照与已选定数据对象最远距离的原则确定，那么可以把计算复杂度降下来，例如时间复杂度为Ω(k×2^k)，但仍然很大。按照这样的策略简化处理，假设第一初值非常幸运地选中了一个距离某自然簇均值中心最近的数据对象，那么其它依次被选中的数据对象都很可能落在簇的边界区域，而不会是距离其它自然簇均值中心最近的数据对象。参见图4，如果随机选中数据对象O_i，它恰巧是均值中心，那么根据距离约束条件，下一个被选择的数据对象最可能是O_j，为了保证其距离O_i最大，它必须处在自然簇的边缘区域。实际上，随机抽样选中最理想初值的概率并不为零，然而该方法选中最优初值的可能性却为零。

为此，本发明设计实现了一种新的K-means初值选择方法。

K-means初值随机选择是对样本集的一次抽样(sampling)。对于规模为n的独立同分布数据集X＝{x^t}^N _t＝1，令每个自然分组(用G_i表示第i个分组)的概率为P(G_i)。一个好的抽样要求样本均匀地来自各个自然簇，样本集中来自第i个自然簇G_i的样本概率最好等于P(G_i)，然而实际抽样很难满足这样的要求。将选择的数据对象尽可能彼此远离，就是希望抽取出来的样本来自于不同的簇。因此，样本之间的的距离远近可以作为度量样本集优劣的一个标准。令d_ij代表数据对象之间的欧氏距离，1≤i≤k，1≤j≤k，i≠j。样本之间距离的总体水平可以用样本集中样本间的距离的总和来衡量，也可以采用距离的期望d_ave：

d_{a v e} = E (d_{i j}) = \frac{2}{k (k - 1)} Σ_{i = 1}^{k} Σ_{j = 1}^{k} (d_{i j}), i &NotEqual; j . - - - (1 - 4)

其中，d_ij＝||xⁱ-x^j||²。

实际抽样中，有些样本间的距离明明很小，但因为个别样本间距离偏大而造成距离期望仍然很大，这样的样本集如何被发现并避免将其作为K-means聚类的初值呢？

考虑到随机抽样中存在的这种情况，只重视距离期望d_ave是不够的，为此需要引入新的评价指标“最小距离”。使用d_min对抽样中存在的最小距离进行定义：

d_{m i n} = \underset{i, j}{m i n} {d_{i j} | i &NotEqual; j} . - - - (1 - 5)

为了获得好的K-means聚类初值，我们希望抽取的数据对象之间都彼此远离。不仅要考核指标d_ave，还要考虑d_min，才能避免选中存在偏小d_min的样本集，而放弃d_min较大的样本集。显然，不同的样本集对应的d_min的值越大越好。

为了整合两个指标，以便更好地衡量样本集的质量，我们可以采用多种策略，例如将两个指标按照各自的权重求和：

Q(d)＝αd_ave+βd_min，α>0，β>0，i≠j，(1-6)其中，Q(d)是评价样本集质量的函数。

这样设计，需要衡量两个指标对样本集质量的贡献大小，处理起来有些复杂，简化处理就是令α＝β＝1。

另外一种策略更为可取，即采用距离乘积的方法构建如下评价函数：

Q(d)＝d_ave×d_min，i≠j.(1-7)

两个指标的乘积可以放大二者之间任何一个因素的改变给质量评价结果带来的影响。

将式(1-4)和(1-5)代入式(1-7)，得到下面的表达式：

Q (d) = \frac{2}{k (k - 1)} Σ_{i = 1}^{k} Σ_{j = 1}^{k} (d_{i j}) \times \underset{i, j}{m i n} {d_{i j}}, i &NotEqual; j . - - - (1 - 8)

对于不同的随机抽样，它的Q(d)值越大，说明样本集的质量越好，被选中的数据对象也就越分散，可以作为K-means的理想初值。

K-means的新初值选择方法仍然是随机的，但是要求多次抽样，并根据式(8)计算Q(d)，并将其作为抽样的打分，选择其中打分最高的抽样作为K-means的初值。该方法可以在多次抽样中选出相对最适合做K-means初值的数据对象。

从处理过程看，该K-means的初值选择方法虽然不能保证能找到前面所述最优的初值，但是一旦随机抽样出现了可以作为最优初值的数据对象，本发明的方法是可以捕捉到这样的数据对象的。所以，本发明可以克服前面所述的初值选取方法的缺点，并且时间开销还很低。

该方法的执行效率可以借助时间复杂度来分析。

K-means的初值选择新方法，其主要的时间开销在于抽样点之间的距离计算上。如果抽样样本的规模是k，则有k(k-1)/2个不同样本对的距离，时间复杂度上界为O(k²)。计算距离的期望，以及确定最小距离，两个过程都分别需要有O(k²)级别的时间开销。可见，每次抽样的时间总开销的上界仍然为O(k²)，2≤k<<n。一般情况下，k的大小不会超过二位数的规模，因此抽样对应的计算量很小，通过多次抽样选择初值的方法用时少，速度快。

综上所述，本发明设计实现的K-means初值选择新方法本质上是通过对抽样质量的评价来确定多次抽样中相对最好的抽样。本发明采用的抽样质量评价函数不仅可以在K-means的初值选择上发挥作用，也能很容易推广到其它类似的需要抽样的应用领域。

附图说明

附图1为二维数据的可视图。

附图2为K-means的一种初值选择结果。

附图3为K-means在图2初值上的聚类结果。

附图4为K-means的初值选择过程示意图。

具体实施方式

为了提高K-means聚类效果的稳定性，改善聚类的效果，可以采用本发明设计实现的初值选择新方法。

具体的实施可以遵从如下处理过程：

给定数据集X＝{x^t}ⁿ _t＝1，规模为n，n∈N。确定K-means的聚类中心的数量k(2≤k)。

调用随机数生成算法，从数据集中随机抽取k个数据对象，得到样本集S，集合S可以记作：S＝{xⁱ}^k _i＝1。

根据式(1-8)计算样本集S质量的评价函数值Q(d)。

重复抽样M(0<M且M∈N)次，可以得到M份抽样结果以及对应的评价函数值Q_m(d)，1≤m≤M。

令最佳样本集为S_g，1≤g≤M：

S_{g} = \arg \underset{m}{m a x} Q_{m} (d) .

最佳样本集S_g所包含的k个样本被选作K-means聚类的初值。

Claims

1.一种K-means聚类的初值选择方法，其特征在于以下步骤：

(1)选择k个初始聚类中心：从包含有n(n∈N)个数据对象的数据集X＝{x^t}ⁿ _t＝1中选择包含有k个数据对象的子集S＝{xⁱ}^k _i＝1作为K-means聚类的初值；x^t表示数据集中第t个数据对象，k≥2；

做M次规模为k的随机抽样，0<M且M∈N，组成M个样本集；每个样本集包含k个样本；

(2)根据式(2-1)计算每个样本集S_m对应的质量函数Q_m(d)，1≤m≤M，以此评价样本集S_m的质量；

(3)按照式(2-2)选择具有最大Q(d)值的样本集S_g，1≤g≤M，作为K-means的初值；

Q (d) = \frac{2}{k (k - 1)} Σ_{i = 1}^{k} Σ_{j = 1}^{k} (d_{i j}) \times \underset{i, j}{m i n} {d_{i j}}, i &NotEqual; j - - - (2 - 1)

式(2-1)中的Q(d)是样本集的质量评价函数，d_ij表示第i个和第j个样本之间的欧氏距离，d_ij＝||xⁱ-x^j||²，1≤i≤k，1≤j≤k，i≠j，是计算样本间欧氏距离的期望，min_i,j{d_ij}是计算样本间的最小距离。

S_{g} = \arg \underset{m}{m a x} Q_{m} (d) - - - (2 - 2)

式(2-2)中的S_g代表具有最大Q(d)值的样本集。