CN105930862A

CN105930862A - 一种基于密度自适应距离的密度峰聚类算法

Info

Publication number: CN105930862A
Application number: CN201610228374.8A
Authority: CN
Inventors: 葛洪伟; 李涛; 李莉; 朱嘉钢
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2016-04-13
Filing date: 2016-04-13
Publication date: 2016-09-07

Abstract

本发明公开了一种基于密度自适应距离的密度峰聚类算法，主要解决基于欧氏距离的密度峰聚类算法无法有效处理复杂结构数据集的问题。实现过程为：(1)基于欧氏距离和自适应相似度计算密度自适应距离，以更好地描述数据空间分布结构；(2)基于密度自适应距离，根据数据点的邻居点总数占数据集样本总数的比例值计算算法的输入参数，即截断距离；(3)根据截断距离和密度自适应距离计算每个数据点的局部密度和该点到具有更高局部密度点的最短距离，绘制决策图，选取聚类中心；(4)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇，得到聚类结果。在人工数据集和UCI真实数据集上的实验表明，与基于欧氏距离的密度峰聚类算法相比，本发明不仅能够有效处理复杂结构数据集，而且具有更高的准确率。

Description

一种基于密度自适应距离的密度峰聚类算法

技术领域

本发明属于聚类分析技术领域，主要为密度峰聚类算法的改进优化。具体为一种基于密度自适应距离的聚类算法，可应用于模式识别、数据挖掘及图像处理等领域。

背景技术

聚类作为一种重要的无监督的数据分析方法，既可以作为一个独立工具用于发现数据隐含信息，也可以作为其他数据分析算法的一个预处理步骤，在机器学习、模式识别、数据挖掘、图像处理等领域已经得到了广泛研究和应用。

聚类是根据数据对象相似度，把未知分类的数据集分割成不同的类或簇，使同一簇内的数据对象具有最大相似性，不同簇间的数据对象具有最小相似性。目前，许多聚类算法已被提出，如基于划分方法的K-means、K-medoids等算法；基于层次方法的CURE等算法；基于网格的STING、WAVECLUSTER等算法；基于模型的统计学聚类和神经网络聚类等算法；基于密度的DBSCAN、OPTICS等算法，等等。

2014年，Alex Rodriguez等人在《Science》上提出了一种新的基于密度的密度峰聚类算法：DPC(Clustering by fast search and find of Density Peaks)算法。DPC算法简洁高效，主要分为两步：首先根据决策图选取密度峰，也即聚类中心；其次分配剩余数据点，得到聚类结果。算法只有一个输入参数，不需预先指定聚类数目，能够发现一些非球形簇，不需考虑概率分布函数或将数据映射到向量空间，性能不受数据空间维度影响。

DPC算法基于如下假设：聚类中心被具有相对较低局部密度的邻居点包围，且与其它具有更高局部密度的数据点具有相对较大的距离。对于每个数据点i，只需计算点i的局部密度ρ_i及点i到具有更高局部密度的点j的最短距离δ_i。其中，ρ_i定义为

ρ_{i} = \underset{j}{Σ} χ (d_{i j} - d c)

当x＜0时χ(x)＝1，否则χ(x)＝0。d_ij是数据点之间的距离；dc是截断距离。δ_i定义为

δ_{i} = \min_{j : ρ_{j} > ρ_{i}} (d_{i j})

对于具有全局最高密度的数据点，有算法将同时具有较大ρ_i及δ_i的点视为聚类中心。聚类中心通过决策图选取，决策图为δ_i关于ρ_i的函数关系图。

聚类中心确定后，算法将剩下的每个数据点分配到最近且具有更高密度的数据点所属的簇。为了识别噪声点，DPC算法为每个簇定义边界区域密度ρ_b：属于某个簇并且与属于其他簇的数据点之间的距离小于dc的数据点总数。密度高于ρ_b的点被视为核心点，否则为噪声点。

在欧氏距离测度下，DPC算法仅能够有效处理每个簇内具有唯一密度峰或明显高密度区域的数据集，因为此时不仅容易从决策图上选取聚类中心，而且对簇内的非聚类中心点i而言，局部密度更高的最近点j通常分布在同一簇内距点i较近的区域或聚类中心周围，因而将点i和点j视为同一类时相对比较合理，出错的几率也较小。然而，对于那些复杂结构数据集，由于不同簇间密度差异较大，或同一簇内同时具有多个高密度区域，或同一簇的密度分布相对均匀，从而导致DPC算法容易出现以下两种问题：(1)聚类中心有时易被错选，甚至无法选取；(2)即使成功选取聚类中心却依然无法得到理想聚类结果。

发明内容

为了解决上述背景技术中密度峰算法存在的问题，本发明提出一种基于密度自适应距离的聚类算法。首先，基于欧氏距离和自适应相似度定义密度自适应距离，以更好地描述数据空间分布结构；其次，将密度自适应距离应用到密度峰聚类，得到新算法。在人工数据集和UCI真实数据集上的实验表明，新算法不仅能够有效处理复杂结构数据集，而且具有更高的准确率。具体实现步骤包括如下：

(1)输入数据集X＝{x₁,x₂,…,x_n}∈R^D，数据点的邻居点总数占数据集样本总数的比例值p，距离调节因子α；其中，n表示样本个数，D表示样本维数；

(2)首先计算数据点x_i与x_j之间的欧氏距离：

d (x_{i}, x_{j}) = \sqrt{Σ_{m = 1}^{D} {(x_{i m} - x_{j m})}^{2}}

得到欧氏距离矩阵d；其次计算点x_i与x_j之间的自适应相似度：

S (x_{i}, x_{j}) = \exp (\frac{- d^{2} (x_{i}, x_{j})}{σ_{i} σ_{j}})

得到相似度矩阵S。其中，局部尺度参数σ_i定义为σ_i＝d(x_i,x_kn)；σ_i表示点x_i与其第kn个近邻点x_kn的欧氏距离，取kn＝6。

(3)基于自适应相似度S和欧氏距离矩阵d定义局部密度自适应距离LD(x_i,x_j)：

L D (x_{i,} x_{j}) = \{\begin{matrix} α^{d (x_{i,}, x_{j}) w (x_{i}, x_{j})} - 1 & x_{j} &Element; N_{k} (x_{i}) \\ α^{d (x_{i,}, x_{j})} - 1 & x_{j} &NotElement; N_{k} (x_{i}) \end{matrix}

其中，α∈(1,10]是距离调节因子，默认值为2；N_k(x_i)表示点i基于欧氏距离测度的前k个近邻点构成的集合，取k＝5为默认常量；w(x_i,x_j)作为距离调节权重因子，仅作用于为k近邻关系的点x_i与x_j之间的距离调节，其定义如下：

w(x_i,x_j)＝1-S(x_i,x_j)

(4)基于局部密度自适应距离，将数据集构造为加权无向图G，p为图G上一条连接点x_i与x_j的路径，p_ij表示连接点x_i与x_j的所有路径的集合，|p|表示p的长度，定义全局密度自适应距离如下：

G D (x_{i}, x_{j}) = \underset{p &Element; p_{i j}}{m i n} | p |

(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc：首先对n个样本点的m＝n(n-1)/2个全局密度自适应距离进行排序，设按升序排序后的距离有gd₁≤gd₂≤…≤gd_m，则其中，表示对pm/100向上取整。

(6)基于全局密度自适应距离和截断距离计算每个点x_i的局部密度ρ_i和点i到具有更高局部密度点的最短距离δ_i，绘制决策图，选取聚类中心。

(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇。

(8)输出聚类结果C＝{C₁,C₂,…,C_k}，k为簇数。

本发明具有以下优点：

(1)与欧氏距离相比，密度自适应距离可以更好得描述数据空间分布结构，能够有效缩小同一簇内数据点之间的差异，放大不同簇间的差异，从而使得算法在聚类时更易区分不同簇、发现复杂结构簇，有利于得到理想聚类结果。

(2)与基于欧氏距离的DPC算法相比，在人工数据集和真实数据集上的实验表明，本发明算法不仅更易选取聚类中心，而且具有更高的准确率和更优的结果。

附图说明

图1是本发明的实现流程图；

图2是DPC算法在Jain数据集上错误聚类结果，2个类；

图3是本发明算法在Jain数据集上理想聚类结果，2个类；

图4是DPC算法在Circlebloc数据集上错误聚类结果，2个类；

图5是本发明算法在Circlebloc数据集上理想聚类结果，2个类；

图6是DPC算法在Lineblocks数据集上错误聚类结果，3个类；

图7是本发明算法在Lineblocks数据集上理想聚类结果，3个类；

图8是DPC算法在3circles数据集上错误聚类结果，7个类；

图9是本发明算法在3circles数据集上理想聚类结果，3个类；

图10是p取不同值时，本发明算法与DPC算法分别在Jain和Seeds数据集上ARI指标；

图11是α取不同值时，本发明算法在Jain和Seeds数据集上ARI指标；

另外，在附图2～图9中，聚类中心由加粗实心圆点表示，不同类别由不同形状符号表示。

具体实施方式

为了阐明本发明的目的、技术方案和优点，以下结合具体实施例及附图，对本发明做进一步详细说明。

参照图1，本发明的具体实施过程包括以下步骤：

(1)输入数据集X＝{x₁,x₂,…,x_n}∈R^D，数据点的邻居点总数占数据集样本总数的比例值p，距离调节因子α；其中，n表示样本个数，D表示样本维数。

(2)首先计算数据点x_i与x_j之间的欧氏距离：

d (x_{i}, x_{j}) = \sqrt{Σ_{m = 1}^{D} {(x_{i m} - x_{j m})}^{2}}

得到欧氏距离矩阵d_n×n；其次计算点x_i与x_j之间的自适应相似度：

S (x_{i}, x_{j}) = \exp (\frac{- d^{2} (x_{i}, x_{j})}{σ_{i} σ_{j}})

得到相似度矩阵S_n×n。其中，局部尺度参数σ_i定义为σ_i＝d(x_i,x_kn)；σ_i表示点x_i与其第kn个近邻点x_kn的欧氏距离，取kn＝6。自适应相似度考虑了数据点自身所处邻域环境对相似度的影响，能够更好地度量不同密度簇内点的相似度，特别是能够加大低密度簇内数据点间的相似度，从而有利于算法发现低密度簇。

(3)基于欧氏距离矩阵d_n×n和自适应相似度S_n×n定义局部密度自适应距离

L D (x_{i,} x_{j}) = \{\begin{matrix} α^{d (x_{i,}, x_{j}) w (x_{i}, x_{j})} - 1 & x_{j} &Element; N_{k} (x_{i}) \\ α^{d (x_{i,}, x_{j})} - 1 & x_{j} &NotElement; N_{k} (x_{i}) \end{matrix}

w(x_i,x_j)＝1-S(x_i,x_j)

(4)然而，局部密度自适应距离只能一定程度上对局部区域进行距离调节，尚不能从全局角度有效度量复杂结构簇。为了解决这一问题，在局部密度自适应距离的基础上定义全局密度自适应距离。将数据集构造为加权无向图G，p为图G上一条连接点x_i与x_j的路径，p_ij表示连接点x_i与x_j的所有路径的集合，|p|表示p的长度。定义全局密度自适应距离如下：

G D (x_{i}, x_{j}) = \underset{p &Element; p_{i j}}{m i n} | p |

(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc：首先对n个样本点的m＝n(n-1)/2个全局密度自适应距离快速排序，设按降序排序后的距离有gd₁≤gd₂≤…≤gd_m，则

(6)基于全局密度自适应距离和截断距离计算每个点x_i的局部密度ρ_i和点i到具有更高局部密度点的最短距离δ_i。其中，

ρ_{i} = \underset{j}{Σ} χ (d_{i j} - d c)

δ_{i} = \min_{j : ρ_{j} > ρ_{i}} (d_{i j})

然后绘制δ_i关于ρ_i的函数关系图，称为决策图，根据决策图选取聚类中心。

(8)输出聚类结果C＝{C₁,C₂,…,C_k}，k为簇数。

本发明的效果可通过以下仿真实验进一步说明。

1.仿真条件

为了验证本发明算法的性能，分别在人工数据集和UCI真实数据集上进行实验，实验所用数据集信息分别如表1和表2所示。仿真实验在同一PC机(Windows10 64位操作系统、Intel Core i7 2.5GHz CPU、4G内存)、MATLAB R2013a上编程及运行。

表1人工数据集

表2UCI真实数据集

2.仿真结果

实验1本发明方法与DPC方法在人工数据集上的对比实验

实验结果如附图2-图9所示。由于Jain数据集的两个不同密度簇相互缠绕，直接导致基于欧氏距离的DPC算法不仅容易错选聚类中心，而且易将两个簇相近的部分点错误合并，如图2所示。Circleblock数据集由一个密度分布不均匀的、具有多个高密度区域的环状簇和一个被环状簇包围的块状簇构成；由于环状簇内存在多个密度峰，因而导致DPC算法不仅容易错选聚类中心，而且即使选对了聚类中心也只能得到错误聚类结果，如图4所示。对于Lineblocks数据集，由于流形结构簇围绕着另两个块状簇，且流形结构簇的两端距另两个簇比较近，导致无论p取何值，DPC算法都无法准确区分三个簇，如图6所示。3circles数据集由两个密度分布相对均匀的圆形簇及一个团状簇构成，虽然三个簇之间都有明显的间隔区域，但由于两个圆形簇内的数据点分布相对均匀、没有明显的高密度区域，从而导致DPC算法极易错选7个而非正确的3个聚类中心，如图8所示。反之，本发明算法不仅降低了在上述4个数据集上准确选取聚类中心的难度，而且都能得到理想聚类结果，实验结果分别如图3、图5、图7、图9所示。上述实验表明，与DPC算法相比，本发明算法不仅更易选取聚类中心，而且具有更优的结果。

实验2本发明算法与DPC方法在UCI真实数据集上的对比实验

为了进一步验证本发明算法在真实数据集上的性能，使用表2中6个常用UCI数据集进行实验，并采用常用的F-measure与ARI(Adjusted Rand Index)指标评价聚类结果。其中，F-measure指标取值范围为[0,1]，ARI指标取值范围为[-1,1]，值越大表明聚类效果越好。

在最佳参数值下，DPC算法与本发明算法在表2数据集上聚类所得F-measure与ARI指标值见表3。表3表明，除了在处理Glass数据集时本发明算法的ARI指标值比DPC算法的低，在其他5个数据集上，本发明算法的两个指标值均比DPC算法的更优。特别是在Iris、Breast、Ecoli三个数据集上，两个指标值均得到了明显提高。整体而言，本发明算法能够得到更优的聚类结果，具有更高的准确度。

表3两种算法的F-measure与ARI指标值对比

实验3算法输入参数分析实验

与DPC算法相比，除了参数p，本发明算法引入了一个新参数：距离调节因子α。为了简要分析两个参数对算法的影响，采用人工数据集Jain和UCI真实数据集Seeds进行实验。图10为p取不同值时，两种算法在两个数据集上的ARI指标值。对于Jain数据集，p∈[0.5,15]时，DPC算法的指标值在[-0.0341,0.7055]之间变动，特别是当p∈[0.5,6]时曲线波动较大；而本发明算法的指标值则始终为1，表明结果正确且稳定。另外，在结构相对复杂的Seeds数据集上，虽然p∈[4.5,9.5]时DPC算法的指标值比本发明算法的稍高，但在其他区间，本发明算法的指标值则都高于DPC算法且在p∈[0.5,2.5]时能够取得最优值，而且本发明算法的曲线整体波动较小，在p≥4.5时能够趋于稳定。图11为p不变、α取不同值时，本发明算法在两个数据集上的ARI指标值。当α∈[1.5,10]时，对于Jain数据集，本发明算法的指标值始终为1，表明结果正确且稳定；对于Seeds数据集，当α∈[1.5,9]时，本发明算法的指标值相对较优且曲线只有小幅度波动。综上所述并结合其他实验，参数p和α建议取值：p∈[1,10]，α∈[2,10]。整体而言，算法对参数p或α不太敏感，二者的细微变化对聚类结果没有大的影响。

Claims

1.一种基于密度自适应距离的密度峰聚类算法，包括以下步骤：

(2)首先，计算数据点x_i与x_j之间的欧氏距离：

得到欧氏距离矩阵d_n _× _n。其次，计算点x_i与x_j之间的自适应相似度：

得到相似度矩阵S_n _× _n。其中，局部尺度参数σ_i定义为σ_i＝d(x_i,x_kn)；σ_i表示点x_i与其第kn个近邻点x_kn的欧氏距离，取kn＝6；

(3)基于自适应相似度S_n _× _n和欧氏距离矩阵d_n _× _n定义局部密度自适应距离LD(x_i,x_j)；

(4)基于局部密度自适应距离，将数据集构造为加权无向图G，设p为图G上一条连接点x_i与x_j的路径，|p|表示路径p的长度，p_ij表示连接点x_i与x_j的所有路径的集合，全局密度自适应距离定义为：

(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc：首先对n个样本点的m＝n(n-1)/2个全局密度自适应距离进行快速排序，设按升序排序后的距离有gd₁≤gd₂≤…≤gd_m，则其中，表示对pm/100向上取整；

(6)基于全局密度自适应距离和截断距离计算每个点i的局部密度ρ_i和点i到具有更高局部密度点的最短距离δ_i，绘制决策图，选取聚类中心；其中，

(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇；

(8)输出聚类结果C＝{C₁,C₂,…,C_k}，k为簇数。

2.根据权利要求1所述的聚类算法，步骤(3)按如下过程进行：

w(x_i,x_j)＝1-S(x_i,x_j)。