CN105095266A

CN105095266A - 一种基于Canopy算法的聚类优化方法及系统

Info

Publication number: CN105095266A
Application number: CN201410194172.7A
Authority: CN
Inventors: 韩锐; 崔创雄
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2015-11-25

Abstract

本发明提供一种基于Canopy算法的聚类优化方法，所述方法包含：步骤101)基于Canopy算法对所有的原始数据进行分组处理，进而得到N个Canopy集合及各个Canopy集合的中心；步骤102)将Canopy集合的数量N作为K均值聚类算法的要构建的划分的数目k；将各个Canopy集合的中心作为划分的k个簇的簇中心；基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。本发明中Canopy聚类算法用于K均值聚类算法的预处理，用来找合适的k值和簇中心。大大降低整个聚类的运行时间，提高了算法的计算效率，增加了算法的容错性。

Description

一种基于Canopy算法的聚类优化方法及系统

技术领域

本发明涉及一种聚类方法，属于数据挖掘领域，具体涉及一种基于Canopy算法的聚类优化方法及系统。

背景技术

随着计算机技术的快速发展，数据量呈现指数型增长，如何从大量的数据中找出隐含的、先前未知的并有潜在价值的信息成为了人们越来越关心的问题，数据挖掘由此产生。聚类分析就是其中相当重要的一部分。聚类就是将一组数据划分到各个类中的一个过程，从而使得类内距离最小化，类间距离最大化，即同一类中的数据尽可能的相似，而不同类中的数据尽可能的不同。

K均值聚类是典型的基于距离的排他的划分方法：给定一个n个对象的数据集，它可以构建数据的k个划分，每个划分就是一个聚类，并且k<＝n，同时还需要满足两个要求：每个组至少包含一个对象；每个对象必须属于且仅属于一个组。K均值聚类的基本原理是：给定k(即要构建的划分的数目)，首先创建一个初始划分，随机地选择k个对象，每个对象初始地代表了一个簇中心。对于其他的对象，根据其与各个簇中心的距离，将它们赋给最近的簇；然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。所谓重定位技术，就是当有新的对象加入簇或者已有对象离开簇的时候，重新计算簇的平均值，然后对对象进行重新分配。这个过程不断重复，直到没有簇中对象的变化。

K均值聚类最大的优点是：原理简单，实现起来也相对简单，同时执行效率和对于大数据量的可伸缩性还是较强的。但是缺点是：K均值聚类要求用户必须事先给出聚类个数，k的选择一般都基于一些经验值和多次实验结果，对于不同的数据集，k的取值没有可借鉴性。另外，K均值对“噪音”和孤立点数据是敏感的，少量这类的数据就能对平均值造成极大的影响。

发明内容

本发明目的：针对上述现有方法存在的问题和不足，本发明的目的是提供一种基于Canopy算法的聚类优化方法及系统。

为实现上述目的，本发明提供了一种基于Canopy算法的聚类优化方法，所述方法包含：

步骤101)基于Canopy算法对所有的原始数据进行分组处理，进而得到N个Canopy集合及各个Canopy集合的中心；

步骤102)将Canopy集合的数量N作为K均值聚类算法的要构建的划分的数目k；

将各个Canopy集合的中心作为划分的k个簇的簇中心；

基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。

本发明还提供了一种基于Canopy算法的聚类优化系统，所述系统包含：

预处理模块，用于基于Canopy算法对所有的原始数据进行分组处理，进而得到N个Canopy集合及各个Canopy集合的中心；

聚类模块，用于：将Canopy集合的数量N作为K均值聚类算法的要构建的划分的数目k；将各个Canopy集合的中心作为划分的k个簇的簇中心；基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。

综上所述，本发明采用的技术方案为一种基于Canopy的聚类优化方法，本方法的主要思想是：针对某一数据集合，设置Canopy初始中心点与区域半径，将数据集合高效地划分成若干重叠的子集(即Canopy)，使得所有对象均落在Canopy覆盖的范围内；对落在同一区域内的对象，重新计算出新中心点并根据对象与新中心点之间的距离重新划分对象所属区域；循环执行“划分Canopy-计算中心点”的过程，直到k中心点的位置不再发生变化，即达到一种稳定的分类状态为止。Canopy聚类算法用于K均值聚类算法的预处理，用来找合适的k值和簇中心。

与现有技术相比，本发明的优点和积极效果：

1)传统的K均值算法对初始聚类中心敏感，针对K均值算法存在的问题，利用Canopy聚类划分来优化初始聚类中心。

2)由于先将所有的数据点进行Canopy划分，在计算数据点离哪个K-center最近时，不必计算其到所有K-centers的距离，只计算和它在同一个Canopy下的K-centers距离，避免了传统聚类算法中对所有数据点进行精确计算，通过减少比较次数大大降低整个聚类的运行时间，提高了算法的计算效率。

3)Canopy聚类允许有重叠子集，增加了算法的容错性，有利于消除孤立点的影响。

附图说明

图1是本发明所述方法的总体流程图；

图2-a和2-b是本发明所述方法中Canopy算法的示意图及完成后的仿真图；

图3是本发明所述方法中生成Canopy流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

本发明提供了一种基于Canopy算法的聚类优化方法，所述方法包含：

步骤101)基于Canopy算法对所有的原始数据进行分组处理，进而得到N个Canopy集合及各个Canopy集合的中心。

为了实现上述步骤101)本发明提供了一种具体的方法，具体步骤包含：

步骤101-1)从原始数据任意选取m个数据点作为初始中心点集合，并设置第一区域半径T1和第二区域半径T2，且T1>T2，m为大于等于一的自然数；

步骤101-2)将所有原始数据组成一个列表，并将上述选择的m个数据从列表中删除；

步骤101-3)从列表中取出第一个原始数据，并计算第一个原始数据与m个初始中心点的距离，并对所有初始中心点均进行如下处理：

当初始中心点i与第一个原始数据的距离小于第一区域半径T1时，将第一个原始数据划分到初始中心点i所在的Canopy集合中，然后重新计算Canopy集合的中心，并对初始中心点进行更新；

当初始中心点i与第一个原始数据的距离同时小于第二区域半径T2时，将第一个原始数据从列表中删除；

当第一个原始数据与所有m个初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并从列表中删除，进而构建一个新的Canopy集合；

步骤101-4)从列表中取出第二个原始数据，并计算第二个原始数据与上步骤更新后得到的各个新的初始中心点的距离，并对所有初始中心点均进行如下处理；

当初始中心点u与第二个原始数据的距离小于第一区域半径T1时，将第二个原始数据归到初始中心点u所在的Canopy集合中，然后重新计算Canopy集合的中心，对初始中心点进行再次更新；

当初始中心点u与第二个原始数据的距离同时小于第二区域半径T2时，将第二个原始数据从列表中删除；；

当第二个原始数据与初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并在列表中删除该原始数据，进而构建一个新的Canopy集合；

步骤101-5)依次取出列表中剩余的各个原始数据重复步骤101-3)或步骤101-4)的处理过程，直至Canopy集合的数目及各个Canopy集合的中心点位置均不再发生变化，即达到了稳定状态，输出最终的簇的数目k和每个簇的中心。

进一步可选的，所述的列表存放在内存中。

将各个Canopy集合的中心分别和k个簇的簇中心；

基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。具体为：在达到稳定态的各个Canopy集合内使用K均值聚类算法进行聚类优化。

此外，本发明还提供了一种基于Canopy算法的聚类优化系统，所述系统包含：

预处理模块，用于基于Canopy算法对所有的原始数据进行分组处理，进而得到N个Canopy集合及各个Canopy集合的中心。

可选的，上述所述预处理模块进一步包含：

设置模块，用于从原始数据任意选取m个作为初始中心点集合，并设置第一区域半径T1和第二区域半径T2，且T1>T2，m为大于等于一的自然数；

列表生成及列表更新模块，用于将所有原始数据组成一个列表，并将选作初始中心点的数据从列表中删除；

处理模块，用于：从列表中取出第一个原始数据，并计算第一个原始数据与m个初始中心点的距离，并对所有初始中心点均进行如下处理：当初始中心点i与第一个原始数据的距离小于第一区域半径T1时，将第一个原始数据划分到初始中心点i所在的Canopy集合中，然后重新计算Canopy集合的中心，并对初始中心点进行更新；当初始中心点i与第一个原始数据的距离同时小于第二区域半径T2时，将第一个原始数据从列表中删除；当第一个原始数据与所有m个初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并从列表中删除；

用于：从列表中取出第二个原始数据，并计算第二个原始数据与上步骤更新后得到的各个新的初始中心点的距离，并对所有初始中心点均进行如下处理；当初始中心点u与第二个原始数据的距离小于第一区域半径T1时，将第二个原始数据归到初始中心点u所在的Canopy集合中，然后重新计算Canopy集合的中心，对初始中心点进行再次更新；当初始中心点u与第二个原始数据的距离同时小于第二区域半径T2时，将第二个原始数据从列表中删除；当第二个原始数据与初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并在列表中删除该原始数据；

用于：依次取出列表中剩余的各个原始数据重复上述的处理过程将各原始数据划分至某个Canopy集合，直至Canopy集合的数目及各个Canopy集合的中心点位置均不再发生变化，即达到了稳定状态，输出最终的簇的数目k和每个簇的中心。

进一步可选的，上述所述处理模块进一步包含：

距离计算及判决模块，用于计算原始数据与一个初始中心点之间的距离；当得到的距离小于第一区域半径时把该原始数据划分至初始中心点所在的Canopy集合，当该距离同时还小于第二区域半径时将该原始数据从列表中删除；当得到的距离大于等于第一区域半径时，将该原始数据作为新的初始中心点，进而构建一个新的Canopy集合；

判决输出模块，用于判断列表中的原始数据是否取完，如果列表中的数据全部被取出后且当各个Canopy集合的中心不再变化且Canopy集合的数量不再变化时，获得最终的N个Canopy集合及各个Canopy集合的中心。

聚类模块，用于：将Canopy集合的数量N作为K均值聚类算法的要构建的划分的数目k；将各个Canopy集合的中心分别和k个簇的簇中心；基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。

实施例：

图1是本发明所述方法的总体流程图，主要分为2个步骤：

1)选择简单、计算代价较低的Canopy聚类方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理；数据集的Canopy聚类完成后，类似于图2：

2)在各个Canopy内使用K均值聚类算法，不属于同一Canopy的对象之间不进行相似性计算。

生成Canopy的主要思想：初始，假设我们有一组点集S，并且预设了两个距离阈值，T1，T2(T1>T2)；然后选择一个点，计算它与S中其他点的距离(这里采用成本很低的计算方法)，将距离在T1以内的放入一个Canopy中，同时从S中去掉那些与此点距离在T2以内的点(这里是为了保证和中心距离在T2以内的点不能再作为其他Canopy的中心)，重复整个过程直到S为空为止。

图2和图3是本发明所述方法中生成Canopy的流程图，生成Canopy包括以下

步骤：

3)将数据集向量化得到一个list后放入内存，选择两个距离阈值：T1和T2，其中T1>T2，T1和T2的值可以用交叉校验来确定；

4)从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy，则把点P作为一个Canopy)，如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy；

5)如果点P与某个Canopy的距离在T2以内，则需要把点P从list中删除，此时认为点P与这个Canopy已经很近，因此它不可以再做其它Canopy的中心；

6)重复步骤4)、步骤5)，直到list为空结束。

时间复杂度分析：

K均值聚类随机选择K个数据作为初始的聚类中心，按照算法的迭代执行，整个算法的结束条件是类的重心不再改变。传统的K均值聚类时间复杂度是O(n*k*t)，其中，n为对象个数，k为类别数，t为迭代次数。在运用Canopy算法对K均值聚类进行优化的情况下，由于划分Canopy是可覆盖划分，即某一点有可能同时属于多个Canopy，时间复杂度为O(n*k*t*f2/c)，其中n为对象个数，k为类别数，t为迭代次数，f为平均每个数据对象对应的Canopy个数，c为Canopy的总个数。

总之，本发明提供了一种基于Canopy的聚类优化方法，本方法的主要思想是：针对某一数据集合，设置Canopy初始中心点与区域半径，将数据集合高效地划分成若干重叠的子集(即Canopy)，使得所有对象均落在Canopy覆盖的范围内；对落在同一区域内的对象，重新计算出新中心点并根据对象与新中心点之间的距离重新划分对象所属区域；循环执行“划分Canopy-计算中心点”的过程，直到k中心点的位置不再发生变化，即达到一种稳定的分类状态为止。本发明中Canopy聚类算法用于K均值聚类算法的预处理，用来找合适的k值和簇中心。大大降低整个聚类的运行时间，提高了算法的计算效率，增加了算法的容错性。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Canopy算法的聚类优化方法，所述方法包含：

步骤102)将Canopy集合的数量N作为K均值聚类算法要构建的划分数目k；

将各个Canopy集合的中心作为划分的k个簇的簇中心；

2.根据权利要求1所述的基于Canopy算法的聚类优化方法，其特征在于，所述步骤101)进一步包含：

当初始中心点u与第二个原始数据的距离同时小于第二区域半径T2时，将第二个原始数据从列表中删除；

3.根据权利要求2所述的基于Canopy算法的聚类优化方法，其特征在于，所述的列表存放在内存中。

4.根据权利要求2所述的基于Canopy算法的聚类优化方法，其特征在于，步骤102)在达到稳定态的各个Canopy集合内使用K均值聚类算法进行聚类优化。

5.一种基于Canopy算法的聚类优化系统，其特征在于，所述系统包含：

聚类模块，用于：将Canopy集合的数量N作为K均值聚类算法要构建的划分数目k；将各个Canopy集合的中心作为k个簇的簇中心；基于上述确定的簇数k和簇中心对所有原始数据采用K均值聚类算法进行聚类优化处理，输出聚类优化结果。

6.根据权利要求5所述的基于Canopy算法的聚类优化系统，其特征在于，所述预处理模块进一步包含：

处理模块，用于：

从列表中取出第一个原始数据，并计算第一个原始数据与m个初始中心点的距离，并对所有初始中心点均进行如下处理：

当第一个原始数据与所有m个初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并从列表中删除；

从列表中取出第二个原始数据，并计算第二个原始数据与上步骤更新后得到的各个新的初始中心点的距离，并对所有初始中心点均进行如下处理；

当第二个原始数据与初始中心点的距离均大于等于第一区域半径T1时，将该原始数据作为一个新的Canopy集合的初始中心点并在列表中删除该原始数据；

依次取出列表中剩余的各个原始数据重复上述的处理过程将各原始数据划分至某个Canopy集合，直至Canopy集合的数目及各个Canopy集合的中心点位置均不再发生变化，即达到了稳定状态，输出最终的簇的数目k和每个簇的中心。

7.根据权利要求6所述的基于Canopy算法的聚类优化系统，其特征在于，所述的预处理模块将所有原始数据存放在内存中。

8.根据权利要求6所述的基于Canopy算法的聚类优化系统，其特征在于，所述处理模块进一步包含：