CN103810261A

CN103810261A - 一种基于商空间理论的K-means聚类方法

Info

Publication number: CN103810261A
Application number: CN201410037923.4A
Authority: CN
Inventors: 周红芳; 张国荣; 刘园; 郭杰; 段文聪; 王心怡; 何馨依
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2014-01-26
Filing date: 2014-01-26
Publication date: 2014-05-21

Abstract

基于商空间理论的K-means聚类方法，先输入聚类数K和数据集X，然后对数据集进行聚类，最后输出聚类结果。本发明聚类方法对任意形状的类簇、有噪声点都具有较好的聚类结果，在聚类效果上远胜过K-means算法，并且本发明在时间性能上远远好于MSCA算法，综合时间性能和聚类效果，整体效果最好。

Description

一种基于商空间理论的K-means聚类方法

技术领域

本发明属于数据挖掘方法技术领域，涉及一种基于商空间理论的K-means聚类方法。

背景技术

在数据挖掘领域中，聚类分析是一项重要的研究课题。聚类技术已经被广泛应用到电信业、零售业、生物学、市场营销等领域。聚类是一种无监督的分类，其目的是用来发现数据集中由于对象本身特征而聚集成簇的数据点，并且保证簇内具有尽可能大的相似度、簇间具有尽可能大的相异度。现有的聚类算法一般分为：1.以K-means、FuzzyK-means、k中心点为代表的基于划分的聚类算法；2.以CURE、BIRCH、ROCK为代表的基于层次的聚类算法；3.以DBSCAN、OPTICS为代表的基于密度的聚类算法；4.其他类型的聚类算法，例如基于子空间的聚类算法或者基于模型的聚类算法。

基于划分的聚类算法K-means因为其随机选择初始聚类中心，以及使用梯度下降的方法来优化目标函数、通过局部搜索来获得聚类结果，往往会导致聚类结果的不稳定性，且有可能造成目标函数的解落到局部极小值上。所以，为了确定K-means算法的初始聚类中心，Fayyad,Bradley等人提出了基于采样的初始聚类中心算法，Ding等人提出基于k近邻一致性的K-means-CP算法。

MSCA(Multi-granularity self-learning clustering algorithm)算法是采用商空间理论，基于密度的改进算法，其思想是通过动态计算类簇内最大、最小距离来合成粒度，使其能以自学习的方式动态确定聚合粒度，然后通过构造一颗聚合树来进行凝聚聚类。该算法可以获得较好的聚类效果，但存在的问题是时间复杂度过高。

发明内容

本发明的目的是提供一种基于商空间理论的K-means聚类方法，解决现有技术存在的时间复杂度过高的问题。

本发明的技术方案是，基于商空间理论的K-means聚类方法，先输入聚类数K和数据集X，然后进行聚类，最后输出聚类结果。

本发明的特点还在于：

所述进行聚类包括：

1).初始化聚类数K，对数据集X进行预处理；

2).对数据集X的每一个维度进行排序，并计算出初始粒度；

3).控制粒度增长函数g(t),使粒度快增长，形成粒度增长序列；

4).选择一个分布稀疏度η最大的维度，对数据集X进行遍历，查找当前粒度可聚的数据点与类簇；重复进行4)，直到粒度增长结束；

5).在3)产生的粒度增长序列中，逆序找出最大的可聚粒度，可聚粒度的数目等于聚类数K；然后从前一个粒度开始使用粒度增长函数的慢增长阶段，继续进行4)，直到粒度增长结束,退出，进入6）；

6).对离群点，边界簇，和未划分的数据点进行聚类；把这些点划分到与之最为接近的微簇中；

7).循环遍历6)生成的微簇集合，对每一个微簇在3）生成的粒度增长序列中查找可以合并的最小粒度，合并查找到的两个微簇；当微簇的数目达到算法的输入参数聚类数K时，退出循环。

数据集X在第j维的分布稀疏度为η_j:

η_{j} = \sqrt{\frac{{Σ_{i = 1}^{n} (x_{ij}^{'} - μ_{j})}^{2}}{n - 1}} - - - (1)

其中x′_ij是数据点x_i在第j维属性的[0,1]的规范值，μ_j是第j维属性的中心。

粒度增长函数g(t)是以迭代次数t为参数，用来控制粒度增长的函数，既g(t)＝δ_t；式[1]为粒度的快增长阶段，式[2]粒度的慢增长阶段：

g (t) = \{\begin{matrix} δ_{0} & t = 0, δ_{0} = Δ \\ δ_{t - 1} + \ln (0.1 + t) * Δ & [1] \\ δ_{t - 1} + \ln (H + 0.1 * t) * Δ & [2] \end{matrix} - - - (2)

其中，Δ为n维向量，Δ_j表示第j维上的最小粒度，

Δ_{j} = ϵ * \frac{\max {η_{1}, η_{2} . . . η_{d}}}{η_{j}} - - - (3)

上述对离群点，边界簇，和未划分的数据点进行聚类的方法包括:

（1）循环遍历边界簇和离群点，计算这些数据点到各个微簇的距离；

（2）选择数据点到微簇距离最小的值，将数据点划分到与之对应的簇中，直到循环结束。

本发明的有益效果:

1.时间性能上，本发明聚类方法的时间复杂度主要由以下三个方面组成：①数据集的每一个维度的排序。②在某一粒度δ_i下，查找粒度可聚的点，类簇。③对于未划分的数据点，边界簇，离群点使用改进的K-means算法进行聚类。因而，本发明聚类方法的时间复杂度为O(nlogn)+O(L*logn₁)+O(n₂K)。可以看出，K-means算法具有最好的时间复杂度，其次是本发明聚类方法的时间复杂度，最后MSCA算法的时间复杂度最差。虽然K-means算法具有最好的时间复杂度，但是它无法发现任意形状的类簇，且聚类结果易受到噪声点的影响。

2.聚类效果上，本发明聚类方法和MSCA算法对任意形状的类簇、有噪声都具有较好的聚类结果。而K-means算法仅能较好的识别出球形聚类特征的类簇。

3.本发明聚类方法对任意形状的类簇、有噪声点都具有较好的聚类结果，在聚类效果上远胜过K-means算法，并且本发明在时间性能上远远好于MSCA算法，综合时间性能和聚类效果，整体效果最好。

附图说明

图1是本发明聚类方法聚类过程中数据集的初始状态图；

图2是本发明聚类方法聚类过程中数据集的中间状态图；

图3是本发明聚类方法的最终聚类结果图；

图4是本发明聚类方法试验中用到的合成数据集1；

图5是本发明聚类方法实验中的合成数据集2；

图6是本发明聚类方法实验中的合成数据集3；

图7是本发明聚类方法实验中的合成数据集4；

图8是本发明基于商空间理论的K-means聚类方法与现有的MSCA算法，K-means算法在6个数据集上的时间对比图；

图9是本发明基于商空间理论的K-means聚类方法对合成数据集1的聚类结果图；

图10是本发明基于商空间理论的K-means聚类方法对合成数据集2的聚类结果图；

图11是本发明基于商空间理论的K-means聚类方法对合成数据集3的聚类结果图；

图12是本发明基于商空间理论的K-means聚类方法对合成数据集4的聚类结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中的相关定理、定义如下：

定义（粒度）粒度是指数据集中数据的细化和综合程度。粒度的划分原则是：细化程度越高，粒度越小；细化程度越低，粒度越大。

定义X为待研究问题的论域，f为论域上的属性函数，T为论域的结构，通过构造一个三元组(X,f,T)来描述问题。

定理1（保假原理）若问题A→B在(X,f,T)上有解，则在商空间([X],[f],[T])上，问题[A]→[B]也一定有解。

定理2（保真原理I）若问题[A]→[B]，在([X],[f],[T])上有解，而且对于任一[x],p^-1([x])在X上是连通集，则问题[A]→[B]，在(X,f,T)上也一定有解。

定理3（保真原理II）设(X₁,f₁,T₁),(X₂,f₂,T₂)是(X,f,T)的两个商空间，而且T_i，i=1,2是半序。令(X₃,f₃,T₃)是(X₁,f₁,T₁),(X₂,f₂,T₂)的上确界空间。若问题A₁→B₁，A₂→B₂在(X₁,f₁,T₁),(X₂,f₂,T₂)中有解，则对应的问题A₃→B₃在(X₃,f₃,T₃)上也有解，其中A₃＝A₁∩A₂B₃＝B₁∩B₂。

定义1（维度标准差）数据集X在第j维的分布稀疏度为η_j：

η_{j} = \sqrt{\frac{{Σ_{i = 1}^{n} (x_{ij}^{'} - μ_{j})}^{2}}{n - 1}} - - - (1)

定义2（粒度δ_t）粒度δ_t是在第t次迭代过程中通过粒度增长函数g(t)得到的一个N(N是数据集的维度个数)维向量。

定义3（粒度增长函数g(t)）粒度增长函数g(t)是以迭代次数t为参数，用来控制粒度增长的函数，既g(t)＝δ_t。式[1]为粒度的快增长阶段，式[2]粒度的慢增长阶段。

g (t) = \{\begin{matrix} δ_{0} & t = 0, δ_{0} = Δ \\ δ_{t - 1} + \ln (0.1 + t) * Δ & [1] \\ δ_{t - 1} + \ln (H + 0.1 * t) * Δ & [2] \end{matrix} - - - (2)

其中，Δ为n维向量，Δ_j表示第j维上的最小粒度，

Δ_{j} = ϵ * \frac{\max {η_{1}, η_{2} . . . η_{d}}}{η_{j}} - - - (3)

在高维的投影聚类中，正是以标准偏差作为基础，度量维度与簇之间的相关程度。H为快增长阶段最后一次的（0.1+t）。ε为控制系数，经过实验在取0.01时有最佳实验结果。

定义4（离群点）数据点x_i在粒度从δ₀增长到δ_t的时候，仍没有被划分到某个簇中，即为离群点。

定义5（边界簇）在粒度从δ₀增长到δ_t的时候，一个微簇中数据点的个数始终不超过3个，则将该簇定义为边界簇。

定义6（粒度δ_t可聚）在粒度向量δ_t＝{δ₁,δ₂...δ_n}时，①若点x＝{x₁,x₂...x_n}和点y＝{y₁,y₂...y_n},有如下性质：1≤j≤n，|x_j-y_j|≤[δ_t]_j时，则称x与y在粒度δ_t下可聚。②若分属不同的类簇C₁，C₂中的两点x,y有①的性质，则称C₁与C₂在粒度δ_t下可聚。

定义7（最大粒度可聚增量ΔI）在粒度δ_t下，当前类簇的扩展增量C_i为当前粒度δ_t下的类簇数目，C_j为前一粒度δ_t-1下的类簇数目。

本发明聚类方法的主要思想是“整体-局部”策略。首先，根据定义3和定义6，在粒度等于0的时候，认为数据集中每一个点都是一个簇。相反，在粒度为一个足够大的值的时候，所有的数据点将被划分到同一个簇中。所以，在粒度的增长过程中，就可以得到数据集的整体结构，并保存其结构上的信息。然后，在局部上将离群点和边界簇划分到附近的微簇中，使在局部上形成的微簇是紧凑的。本发明能够避免在因为初始聚类中心的不稳定，以及减少边界离群点对聚类中心的扰动，而且通过粒度的合成，还能发现非凸状结构的类簇。

本发明聚类方法的计算过程，首先通过粒度函数的快增长阶段g₁(t)扫描整个数据集，把整个数据集聚成一个类。接下来，在粒度增长序列中，从后往前查找出合并粒度最大的K-1（K为聚类数）个粒度δ_i,δ_i+j,δ_i+k,…(0<j<k)，然后从δ_i-1开始，使用粒度增长函数的慢增长阶段g2(t)，使粒度能够达到一个理想的状态，既能够把所有类簇的骨架刻画出来，还能够最大程度的分离出类簇之间的边界稀疏模糊区域，参见图1、图2和图3，如图2中所示，所有的微簇的骨干部分被发现。为此，本发明基于商空间理论的K-means聚类方法在第一阶段采取这样一种策略：在粒度的增长过程中，只需要完成数据集85%的聚类或者达到粒度δ_i的前一粒度，既为第一阶段的终止条件。

本发明把未划分的数据点、离群点、边界簇划分到微簇中，使产生的微簇更加紧凑。如图2中，边界簇A中的两个点将会被分别划分到上边和右边的两个微簇中。同样，对于离群点B来说，则会被划分到下边最近的微簇中去。然后采用改进的最小生成树方法对微簇进行合并，用来决策合并与否的最小距离由第一阶段的快增长部分保存的粒度结构信息来获取，从而可以避免了距离的计算过程，由此得到最终聚类结果图3。并且，由于single link是被证明能够发现非球状簇的合并策略，所以本发明聚类方法能够发现非球状结构的类簇。

本发明聚类方法执行步骤如下：

输入：聚类数K，数据集X

1).初始化算法参数，对数据集进行预处理。

2).对数据集的每一个维度进行排序，并计算出初始粒度。

3).控制粒度增长函数，使粒度快增长，重复进行4)，直到粒度增长结束。

4).选择一个η最大的维度，对数据集进行遍历，查找当前粒度可聚的数据点与类簇。

5).在3)产生的粒度增长序列中，逆序找出最大的前K个可聚粒度。然后从前一个粒度开始使用粒度增长函数的慢增长阶段，继续进行4)，直到符合结束条件退出，入6）。

6).对离群点，边界簇，和未划分的数据点使用K-means算法进行聚类。把这些点划分到与之最为接近的微簇中。

7).循环遍历6)生成的微簇集合，对每一个微簇在3）生成的粒度增长序列中查找可以合并的最小粒度，合并查找到的两个微簇。当微簇的数目达到算法的输入参数聚类数K时，退出循环。

输出：聚类结果

本发明聚类方法性能评测：

为了验证本发明聚类方法的有效性，采用K-means算法和MSCA算法与本发明聚类方法进行对比。MSCA算法采用的是通过动态的计算类簇内的最大、最小距离来合成粒度，使其能够以自学习的方式动态确定聚合粒度，然后通过构造一颗聚合树来进行凝聚聚类，此算法是基于密度的改进算法。K-means算法因为其初始中心的随机性，所以对K-means算法采取运行20次，取最佳结果。

实验采用4个人工数据集和2个UCI标准数据集(iris,wine)来对算法进行对比测试。4个合成数据集和2个UCI数据集的属性及参数如图4，图5，图6，图7，表1和表2所示：

表1合成数据集的数据特征

表2UCI数据集的各项参数

实验结果对比：

因为本发明聚类方法要对数据集的每一个维度进行排序，对于有13维度的wine数据集进行聚类所花费的时间要比只有2维的合成数据集DateSet1，DataSet2，DataSet3的要多。K-means算法虽然具有最好的时间复杂度，但在任意形状簇的数据集的聚类中，算法效果要明显劣于MSCA算法和本发明聚类方法，这三种算法的正确率比较如表3所示。MSCA算法因为要在一棵高度为n的树中进行粒度可聚的关系判断，所以最坏的情况下其时间复杂度达到了O(n³)，其平均情况下时间复杂度为O(nlog²n)。如图8所示，显示了本发明聚类方法，K-means算法，MSCA算法三种算法在6个数据集上的运行时间，由图中可以发现，MSCA算法在每个数据集上花费的时间均为最多，其次为本发明的聚类方法，用时最短的是K-means算法。

见表3，通过6个数据集上的聚类结果表明，本发明聚类方法对任意形状的类簇、有噪声都具有较好的聚类结果。而K-means算法仅能较好的识别出球形聚类特征的类簇。MSCA算法同样能够达到较好的聚类效果，但其时间复杂度远远大于本发明聚类方法。图9—图12为四个人工数据集的聚类结果。在图11中，本发明聚类方法把所有的噪声点全部划分到了离其最近的类中，以及在图12中，把圆环与圆心中间隔离的低密度簇分别划分到了附近的类中。由图9—图12可以说明本发明聚类方法在聚类的工程中能够识别非球状簇。

表3本发明和K-means，MSCA算法在6个数据集上的性能参数

本发明聚类方法是一种基于商空间理论和多粒度聚类方法，在时间性能和聚类效果上都有很大的提升。

Claims

1.基于商空间理论的K-means聚类方法，其特征在于，先输入聚类数K和数据集X，然后对数据集X进行聚类，最后输出聚类结果。

2.如权利要求1所述的基于商空间理论的K-means聚类方法，其特征在于，所述对数据集X进行聚类包括：

1)初始化聚类数K，对数据集X进行预处理；

2)对数据集X的每一个维度进行排序，并计算出初始粒度；

3)控制粒度增长函数g(t),使粒度快增长，形成粒度增长序列；

4)选择一个分布稀疏度η最大的维度，对数据集进行遍历，查找当前粒度可聚的数据点与类簇；重复进行4)，直到粒度增长结束；

5)在3)产生的粒度增长序列中，逆序找出最大的可聚粒度，可聚粒度的数目等于聚类数K；然后从前一个粒度开始使用粒度增长函数的慢增长阶段，继续进行4)，直到粒度增长结束,退出，进入6）；

6)对离群点，边界簇，和未划分的数据点进行聚类；把这些点划分到与之最为接近的微簇中；

7)循环遍历6)生成的微簇集合，对每一个微簇在3）生成的粒度增长序列中查找可以合并的最小粒度，合并查找到的两个微簇；当微簇的数目达到聚类数K时，退出循环。

3.如权利要求2所述的基于商空间理论的K-means聚类方法，其特征在于，数据集X在第j维的分布稀疏度为η_j:

η_{j} = \sqrt{\frac{{Σ_{i = 1}^{n} (x_{ij}^{'} - μ_{j})}^{2}}{n - 1}} - - - (1)

4.如权利要求2所述的基于商空间理论的K-means聚类方法，其特征在于，粒度增长函数g(t)是以迭代次数t为参数，用来控制粒度增长的函数，既g(t)＝δ_t；式[1]为粒度的快增长阶段，式[2]粒度的慢增长阶段：

g (t) = \{\begin{matrix} δ_{0} & t = 0, δ_{0} = Δ \\ δ_{t - 1} + \ln (0.1 + t) * Δ & [1] \\ δ_{t - 1} + \ln (H + 0.1 * t) * Δ & [2] \end{matrix} - - - (2)

其中，Δ为n维向量，Δ_j表示第j维上的最小粒度，

Δ_{j} = ϵ * \frac{\max {η_{1}, η_{2} . . . η_{d}}}{η_{j}} - - - (3)

5.如权利要求2所述的基于商空间理论的K-means聚类方法，其特征在于，所述对离群点，边界簇，和未划分的数据点进行聚类的方法包括：