CN106919955A

CN106919955A - 一种基于密度划分准则的二分k均值算法

Info

Publication number: CN106919955A
Application number: CN201710131273.3A
Authority: CN
Inventors: 马汉达; 戴季国; 薛艳飞
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2017-07-04

Abstract

本发明涉及一种基于密度划分准则的二分K均值算法，通过二分K均值算法，将数据集划分成两个簇，并利用dbscan算法，得到所有簇可以划分成的子簇数目，将子簇最多的簇通过二分K均值算法进一步划分，通过不断迭代，最终完成聚类；本发明克服了”sse最小化划分准则”对簇的形状不敏感的缺点，能够更科学地选择需要划分的簇，有效地提高了聚类准确度，同时，只需要比较相同邻域半径和点数阈值条件下每个簇的子簇数目，消除了邻域半径和点数阈值设置不当对聚类准确度的影响，另外，本发明克服了划分聚类不能去除噪声点的缺点，具有重要的现实意义。

Description

一种基于密度划分准则的二分K均值算法

技术领域

本发明涉及数据聚类技术领域，具体涉及一种基于密度划分准则的二分K均值聚类方法。

背景技术

聚类又称聚类分析，是指将数据分配到不同的簇中，使得同一个簇中的数据差异尽可能小，不同簇中的数据差异尽可能大。聚类算法是一种非监督学习方法，被广泛应用于数据挖掘、推荐系统等领域。聚类的方法目前可大致分为划分聚类、层次聚类、密度聚类、网格聚类和模型聚类等方法。

其中，划分聚类是一种易于理解的聚类方法，也是最常见的聚类算法。著名的k-means算法就是个中典型，Kmeans算法由于便于理解，时间复杂度低，被广泛使用。然而，由于kmeans的代价函数(SSE)是非凸函数，所以经常只能求得局部最优解。为了解决这个问题，有人提出了二分K均值算法，实验表明，二分K均值算法在聚类准确度上确实有所提升，但仍然会出现陷入局部最优解的情况。为了解决二分K均值算法的局部最优问题，陆续有文章提出了各种初始聚类中心的选取方法，对于如何选择进一步划分簇，却少有提及和改进。现有的二分K均值算法及其变种都是选择sse最大的簇进行划分，或者分别划分每一个簇，找出能使总sse最小化的簇进行划分。

另一种比较直观的聚类方法就是基于密度的聚类，它是以数据集在空间分布上的稠密程度为依据进行聚类，无需预先设定簇的数量，因此特别适合对于未知内容的数据集进行聚类。DBSCAN就是一个比较有代表性的基于密度聚类的算法，它能够在空间数据库中发现任意形状的聚类，能够发现并去除噪声点，但是它对与邻域半径和邻域内最少包含的对象数却非常敏感，若设置不当，将造成聚类质量的下降。

本发明利用dbscan算法遍历操作每一个簇，得到每个簇中能产生子簇的多少，将可以产生子簇最多的簇作为二分K均值中进一步划分的簇。克服了“sse最小化”划分准则对于簇形状不敏感以及基于密度的算法对参数设定过于依赖的缺点，提高了聚类准确度。

发明内容

针对“sse最小化”划分准则对于簇形状不敏感的问题，本发明提供了一种基于密度划分准则的二分K均值算法，利用DBSCAN算法算出每个簇可划分出的子簇数目，以子簇最多的簇作为二分K均值算法进一步划分的簇，使得划分更加科学，聚类准确度更高。

为了实现上述目的，本发明具体技术方案如下：一种基于密度划分准则的二分K均值算法，包括如下步骤：

1)初始化点数阈值M和变化量阈值δ，其中，M表示核心点邻域内至少应包含的点的个数，即核心点邻域内包含的点数必须大于或等于M，δ代表SSE(误差平方和)的变化量阈值；

2)计算数据集P的邻域半径R，其中，数据集P＝{p(1),p(2)…p(n)}；

3)利用“最大最小距离”方法选择数据集的初始聚类中心；

4)将数据集划分成两个子簇，即利用步骤3)的两个初始聚类中心，执行二分K均值算法，将数据集划分成两个簇；

5)判断SSE的变化量是否小于δ，如果小于δ，转步骤7)，否则，转步骤6)；其中SSE为误差平方和(sum of the squared errors):

其中k是簇的个数，c_i是第i个簇的聚类中心，x是数据点，S_i是第i个簇中所有数据点的集合，d是距离函数；

6)选择可进一步划分的簇，即利用参数M和R对每一个簇遍历执行dbscan算法，得到所有簇可以划分成的子簇数目，将子簇最多的簇作为二分K均值算法进一步划分的簇；转步骤3)；

7)完成聚类。

进一步的，上述步骤2)中，计算数据集P的邻域半径R包含如下步骤：

2.1)初始化计数变量i＝1；

2.2)计算数据集P中p(i)点到其它点的距离，得到p(i)点的距离序列，记为N(i)；

2.3)将N(i)的元素值按由小到大排序，排序后的距离序列记为D(i)＝{d₁,d₂,…,d_M,…,d_n-1}；

2.4)根据D(i)，计算p(i)点的DM(i),DM(i)为p(i)点的距离序列中的第M小元素，即DM(i)＝d_M；

2.5)如果i<n，则i＝i+1，转步骤2.2，否则，转步骤2.6；

2.6)将数据集P中的所有点的DM由小到大排列，得到排序后的DM序列，记为E＝{e(1),e(2),…,e(n)}；

2.7)将E中急剧发生变化的元素值，确定为数据集P的邻域半径R的值。

进一步的，上述步骤3)中，选择初始聚类中心包含如下步骤：

3.1)找出数据集中相距最远的两个点，分别记为点a和点b；

3.2)从数据集P中找出离点a最近的点记为点c，从数据集P中找出离点b最近的点记为点d，则点c和点d即为初始聚类中心。

本发明的有益效果在于：本发明克服了”sse最小化划分准则”对簇的形状不敏感的缺点，能够更科学地选择需要划分的簇，有效地提高了聚类准确度，同时，只需要比较相同邻域半径和点数阈值条件下每个簇的子簇数目，消除了邻域半径和点数阈值设置不当对聚类准确度的影响，另外，本发明克服了划分聚类不能去除噪声点的缺点，具有重要的现实意义。

附图说明

图1为两种不同形状簇的示意图。

图2为本发明的算法流程图。

图3计算邻域半径的算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

如图1所示，展示了两种不同形状的簇，按照传统的“sse最小化划分准则”，则必定要选择簇B进行进一步划分，然而我们可以很明显的察觉，需要进一步划分的是簇A而不是簇B，如果选择簇B进行划分，则会造成聚类精度的缺失。这就是上文提到的“sse最小化划分准则”对簇形状不敏感的问题。

如图2所示，本发明实施例公开的一种基于密度划分准则的二分K均值算法，包括如下步骤：

1)初始化点数阈值M和变化量阈值δ，其中，M表示核心点邻域内至少应包含的点的个数，即核心点邻域内包含的点数必须大于或等于M，δ代表SSE(误差平方和)的变化量阈值；在具体实施例中，M初始化为4，δ初始化为0.2；

2)计算数据集P的邻域半径R，其中，数据集P＝{p(1),p(2)…p(n)}；方法流程如图3所示，有如下步骤：

2.1)初始化计数变量i＝1；

2.5)如果i<n，则i＝i+1，转步骤2.2，否则，转步骤2.6；

2.7)将E中急剧发生变化的元素值，确定为数据集P的邻域半径R的值；

3)利用“最大最小距离”方法选择数据集的初始聚类中心，步骤如下：

3.1)找出数据集中相距最远的两个点，分别记为点a和点b；即从数据集P的所有点的距离序列中，找出最大的距离值以及这个值对应的两个点a和b，这样可以确保两个初始聚类中心分布在两个不同的簇；

3.2)从数据集P中找出离点a最近的点记为点c，从数据集P中找出离点b最近的点记为点d，则点c和点d即为初始聚类中心，这样可以预防点a和b是孤立点的情况；

k是簇的个数，c_i是第i个簇的聚类中心，x是数据点，S_i是第i个簇中所有数据点的集合，d是距离函数；

7)完成聚类。

本发明在具体实施中，通过多次迭代执行后，聚类准确率提升至89％，相对于用“sse最小化准则”作为划分准则的K均值算法的72％的准确率，提升了17个百分点。可以看出，基于密度的划分准则确实可以克服“sse最小化准则”对于簇形状不敏感的缺点，具有现实意义。

Claims

1.一种基于密度划分准则的二分K均值算法，其特征在于包括如下步骤：

3)利用“最大最小距离”方法选择数据集的初始聚类中心；

5)判断SSE的变化量是否小于δ，如果小于δ，转步骤7)，否则，转步骤6)，其中SSE为误差平方和:

S S E = Σ_{i = 1}^{k} \underset{x &Element; S_{i}}{Σ} {(d (c_{i}, x))}^{2}

7)完成聚类。

2.如权利要求1所述的基于密度划分准则的二分K均值算法，其特征在于：所述步骤2)中，计算数据集P的邻域半径R包含如下步骤：

2.1)初始化计数变量i＝1；

2.5)如果i<n，则i＝i+1，转步骤2.2，否则，转步骤2.6；

3.如权利要求1所述的基于密度划分准则的二分K均值算法，其特征在于：所述步骤3)中，选择初始聚类中心包含如下步骤：

3.1)找出数据集中相距最远的两个点，分别记为点a和点b；