CN111079788A

CN111079788A - 一种基于密度Canopy的K-means聚类方法

Info

Publication number: CN111079788A
Application number: CN201911127104.8A
Authority: CN
Inventors: 龚昱文; 张承畅; 余洒; 张华誉; 徐余
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-28

Abstract

本发明公开了一种基于密度Canopy的K‑means聚类方法，以密度Canopy聚类作为K‑means算法的预处理步骤，通过计算数据集的样本密度、簇内样本平均距离以及簇间距离，选取密度最大样本点为第一类聚类中心，并从数据集中去除初始密度簇；定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积，在余下数据集中以权值积最大依次确定聚类中心，直到数据集为空集，并把密度Canopy聚类结果作为K‑means的类别数和初始聚类中心，最终进行数据集的聚类分析。选取UCI上的数据集对算法的有效性进行比较验证，结果表明：相比传统K‑means算法、基于Canopy的K‑means算法、半监督K‑means++算法和K‑means‑u*算法，本发明提出的基于密度Canopy的K‑means算法的聚类准确率均有所提高。

Description

一种基于密度Canopy的K-means聚类方法

技术领域

本发明涉数据分析和机器学习的相关算法，属于无监督学习领域，具体是一种基于密度Canopy的K-means聚类方法。

背景技术

聚类算法是数据挖掘经典算法之一，一直以来受到众多学者的关注。聚类属于无监督学习，其输入是一组未被标记的数据集，聚类根据数据自身的距离或相似度划分为若干组，目标是使组内(内部)距离最小化，组间(外部)距离最大化，1967年由文献1(ArthurD，Vassi lvitskii S.k-means++:the advantages of carefulseeding[C].EighteenthAcm-Siam Symposium on Discrete Algo-rithms.Society forIndustrial and AppliedMathematics，2007:1027-1035)提出的聚类算法——K-means算法因为其原理简单、执行过程高效，实现容易、快速、伸缩性好等优点在数据领域以及机器学习等领域应用最为广泛。

K-means算法以距离作为相似度将样本划分为若干簇，在同一簇中，样本间的相似度较高，不同簇中样本间的相异度较高。实现步骤中随机选取聚类类别数K值和初始中心点易造成聚类效果局部最优，导致算法不稳定，聚类准确性下降。针对K-means算法的缺点，已有很多学者在K-means的基础上提出了改进措施。文献2(Arthur D，VassilvitskiiS.k-means++:the advantages of careful seeding[C].Eighteenth Acm-SiamSymposium onDiscrete Algo-rithms.Society for Industrial and AppliedMathematics，2007:1027-1035)在K-Means基础上提出了 K-Means++算法，使得K个初始聚类中心相隔较远，该算法首先从数据集中随机选取一个样本作为初始聚类中心，计算剩余样本与当前已有聚类中心的最短距离，接着计算每个样本被选为下一个聚类中心的概率，最后按照轮盘法选出下一个聚类中心，不断重复直至选出K个聚类中心。文献3(雷小锋,谢昆青,林帆,等.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692.)提出一种数据采样与K-means预聚类的方法，通过多次数据采样，分别由K-means产生一次聚类结果，然后将各次的聚类结果求交集，从而确定出初始中心。文献4(毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26.)提出将Canopy算法与K-means算法相结合确定聚类输入参数的思想，采用了最大最小距离方法来解决Canopy聚类中、二者值的确定问题。文献5(李金涛,艾萍,岳兆新,etal.基于K-means聚类算法的改进[J].国外电子测量技术,2017(6))提出了基于密度的改进方法，该方法选取数据集中密度最大的点作为第1个聚类中心点，以此为基准，选取离此点最远的点作为第二个中心点，再在剩下的点找距离这两个初始点最远的点作为第三个点，以此类推，直至找到K个初始中心点。

综上所述，尽管前人已取得了不少的研究成果，但在针对K-means聚类算法的最佳K值确定和初始中心确定问题，并没有给出有效的处理方法，存在一定的局限性和不足。所以对K-means算法的改进是一个可以长期优化的问题难题，随着数据的增加，通过算法挖掘数据中有价值的信息具有重要意义。

发明内容

本发明为了提高K-means算法的聚类准确率和稳定性，解决算法最佳 K值和初始中心确定的问题，提出一种基于密度Canopy的K-means聚类方法。

为实现上述目的，本发明采用的技术方案是：一种基于密度Canopy的 K-means聚类方法，输入数据集D，通过优化的密度Canopy算法对数据集D进行预聚类，得到最优K值和初始聚类中心，然后将最优K值和初始聚类中心作为K-means聚类的输入参数，进行K-means聚类，输出聚类结果。

其中所述优化的密度Canopy算法包括以下步骤：

计算样本元素平均距离MeanDis(D)和样本元素密度ρ(i)；

选取样本元素密度值最大元素作为第一个聚类中心，将所有与第一个聚类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇，同时将这些样本元素从数据集D中去除；

计算数据集D中余下元素的权值积w，找出最大值，选取与之对应的样本元素作为第二个聚类中心，并得到第二聚类簇；重复进行，直到数据集D为空集。

本发明基于密度的Canopy方法具有很强的抗噪声干扰能力，通过ρ(i)和s(i) 的值可以分析出可能的异常点，并去除该样本。对于异常点，具有离散、低密度的特性，并且偏离正常的样本点。因而，当某一样本元素的ρ(i)值相对于正常值特别小，s(i)值相对于正常值却特别大，可考虑该点为异常点。异常噪声点的去除可以保证聚类的准确率，从而提升聚类的稳定性。

本发明针对现有Canopy算法距离阈值难确定的缺陷，提出一种加入样本密度值的Canopy聚类新方法，通过密度Canopy算法获取数据集的最优K值和初始聚类中心，作为K-means的输入参数，解决了传统的K-Means算法实现步骤中随机选取聚类类别数K值和初始中心点易造成聚类效果局部最优，导致算法不稳定，聚类准确性下降的问题。传统Canopy算法是随机选择阈值T₁、T₂，这种随机性会对聚类结果造成很大的影响。本发明提出样本密度最大权值法，可以降低阈值T₁、T₂选取随机性对聚类结果造成的不稳定，同时提升准确率。

附图说明

图1为最大权值法求取最佳聚类中心示意图；

图2为本发明的算法流程图；

图3为UCI数据集聚类结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明进行进一步详细说明，但并不用于限定本发明。

首先对本发明中涉及的计算进行以下定义：

1、密度Canopy算法基本概念

数据集D＝{x₁,x₂,...,x_n}，第m个样本元素记为 x_m＝{x_m1,x_m2,...,x_mr},1≤m≤n，r为元素x_m的属性数。n表示数据集中样本总数。

定义1数据集D中两个样本元素x_p＝{x_p1,...,x_pr}与 x_q＝{x_q1,...,x_qr}之间的欧氏距离为：

定义2数据集D中所有样本元素的平均距离为：

d(x_i,x_j)表示样本元素x_i与x_j之间的欧氏距离。

定义3数据集D中样本元素i的密度为：

(3)

其中

d(i,j)表示样本元素i和j的距离。

定义4由式(3)可知，ρ(i)为满足与样本元素i的距离小于MeanDis(D) 的样本元素数。所有满足条件的样本元素构成一个簇，定义簇内样本平均距离。为：

定义5簇间距离s(i)表示数据集中样本元素i与另一个具有更高局部密度样本元素j之间的距离。局部密度是指一个范围内样本元素的多少，更高局部密度就是这个范围内里的样本元素多。若样本点i的局部密度为最大，则s(i)定义为max{d(i,j)}；若存在ρ(j)＞ρ(i)，则s(i)定义min_{j:ρ(j)＞ρ(i)}{d(i,j)}，即：

d(i,j)表示样本点i和j之间的距离；

定义6数据集D共分为k个簇，簇C_j(j≤k)的中心为c_j，聚类结果的误差平方和为每个簇中样本元素到其所在簇中心的距离平方和。即：

2、最大权值积法

定义7定义数据集的样本元素密度ρ(i)、簇内样本平均距离的倒数

和簇间距离s(i)的乘积为权值积。即：

本发明的最大权值积法如下：

首先根据公式(3)计算样本元素的密度，找出密度值最大元素作为第一个聚类中心，将所有满足定义3中样本与初始聚类中心的距离小于MeanDis(D)条件的样本点加入当前簇，同时将这些样本点从集合D中去除；如图1所示，按照公式(3)、(4)、(5)、(7)计算余下元素权值积w，找出最大值，并选取对应样本元素作为第二个聚类中心，重复进行，直到集合D为空集。其中，ρ(i)越大，代表样本点i周围元素点越多，元素越集中；a(i)越小，则

越大，表示簇中元素越紧密；s(i)越大，说明两簇之间距离越远，其相异度就越大。因而，通过最大权值法可以求出最佳聚类中心。

最后，根据提出的最大权值积法将待聚类数据集分成若干数据子集，其次，计算出每个数据子集的样本平均值作为其相应的聚类中心，从而得到最佳聚类数K和初始聚类中心.

本发明，首先通过密度Canopy算法对数据集进行预聚类，得到聚类的最优 K值和初始聚类中心作为K-means算法输入参数，然后执行K-means算法流程。

基于密度Canopy的K-means算法

输入：数据集D

输出：数据的聚类结果

本发明算法步骤如下：

Step1算法第1-19行完成K值与初始聚类中心的确定。通过优化的密度 Canopy算法进行数据预聚类，得到最优K值和初始聚类中心。

Step2算法第21-27行完成数据集的聚类任务。计算其余数据集中各个样本元素到初始聚类中心的欧氏距离，根据距离最小原则将样本元素加入到对应聚类中心所在的簇集。

Step3算法第30-31行完成新的聚类中心的计算。计算簇集元素的平均距离，并更新为该簇新的聚类中心。

Step4比较更新的聚类中心与原始中心是否存在变化。若没有变化，则终止算法，即得到聚类结果；否则，算法转至Step2继续循环执行。

本发明方法流程如图2所示。

输入原始待聚类数据集D；

计算样本元素平均距离MeanDis(D)；

根据定义3计算样本元素密度ρ(i)；

选取样本元素密度值最大元素作为第一个聚类中心C₁，将所有与第一个聚类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇，同时将这些样本元素从数据集D中去除；

计算簇内样本平均距离a(i)；

计算簇间距离s(i)；

若样本元素具有较小的ρ(i)值，较大的s(i)值，可考虑该样本为异常点，并把该点从数据集D中去除；

计算数据集D中余下元素的权值积w，找出最大值，选取与之对应的样本元素作为第二个聚类中心C₂，并从数据集D中去除第二聚类簇中所有元素；重复进行，直到数据集D为空集；

将得到的K值和初始聚类中心作为K-means的输入；

计算各个样本元素到初始聚类中心的欧氏距离，根据距离最小原则将样本元素加入到对应聚类中心所在的簇集；

计算簇集元素的平均距离，并更新为该簇新的聚类中心；

比较新的聚类中心与原始中心是否存在变化，若没有变化，则输出聚类结果，算法结束；否则，重新计算样本元素到初始聚类中心的欧氏距离。

本发明的实验数据来源于UCI网站，选用了以下常用的七类测试数据集：Soybean-small、Iris、Wine、Segmentation、Ionoshpere、Pima Indians Diabetes和Segmentation-T。如表1所示：每个数据集具有不同的样本元素数，每个元素又具有不同的属性数，通过这些数据集来测试所提出算法的有效性。其中 Segmentation-T数据集在Segmentation数据集的基础上加入一定量模拟数值，用于测试算法针对大数据集的聚类效果。

聚类效果通过以下参数进行衡量比较：完成聚类所需的时间、聚类结果的误差平方和(根据公式6计算)、聚类结果的准确率；衡量聚类有效性的3个参数：Rand指数、Jaccard参数以及Adjust Rand指数。其中，表2是UCI数据集采用五种不同聚类算法(传统K-means算法、基于Canopy的K-means算法、基于密度Canopy的K-means算法、半监督K-means++算法和K-means-u*算法)的聚类时间和聚类结果的误差平方和的比较。

表1 UCI数据集的相关参数

表2 UCI数据集的聚类时间T(s)和聚类结果的误差平方和E

由表2中数据分析比较可以得出以下结论：

(1)在聚类时间上，传统K-means算法、半监督K-means++算法和 K-means-u*算法完成数据聚类时间更长。由于传统方法是随机选取初始中心，算法达到稳定状态时，其迭代次数较多，因而执行时间较久，此外，半监督 K-means++算法和K-means-u*算法具有更高的算法复杂度，其完成聚类时间也更长。两个以Canopy算法作为数据预处理的K-means聚类，其聚类时间要明显优于传统K-means算法，这是由于此类算法首先通过Canopy算法确定K-means 的输入，然后再进行数据集的聚类，算法达到稳定时迭代次数较少，因而比传统K-means算法高效。

(2)在聚类结果的误差平方和上，本发明提出的基于密度Canopy的K-means算法的聚类效果是最佳的。传统的K-means是随机选取初始聚类中心，其误差平方和最大，聚类效果最差。

图3是衡量聚类结果的参数比较。图3中聚类结果的参数比较表明：本发明方法的3个参数都是最优的，准确率也最高，且聚类准确率比传统K-means 算法平均高30.7个百分点，比基于Canopy的K-means算法高6.1个百分点，相比半监督K-means++算法和K-means-u*算法也相应提高了5.3个百分点和3.7个百分点。

本发明提出的基于密度Canopy的K-means算法，通过计算数据集的密度，找出数据集中的最紧密簇，通过最大权值积法依次确定初始聚类中心，并求出簇中元素的均值作为初始聚类中心，确定最佳K值。

这种方法把数据集元素的分布情况考虑到初始值的选取，更具有客观性，同时也解决了传统Canopy算法阈值T₁、T₂难确定的瓶颈。因而，本发明方法的聚类结果更精确，收敛速度更快，最终实现聚类的全局最优。