CN110232414A

CN110232414A - 基于k近邻与共享近邻的密度峰值聚类算法

Info

Publication number: CN110232414A
Application number: CN201910501077.XA
Authority: CN
Inventors: 殷茗; 王文杰; 马怀宇; 姜继娇; 孟丹荔; 张煊宇; 马子琛; 芦菲娅; 杨益; 王一博; 周翔; 熊敏光; 李欣; 吴瑜
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-13

Abstract

本发明公开了一种基于K近邻与共享近邻的密度峰值聚类算法，用于解决现有密度峰值聚类算法聚类效果差的技术问题。技术方案是基于K‑近邻和共享近邻相似度对DPC算法进行改进，每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定，若i的KNN(i)中属于某个类簇的点越多，且与i的欧式距离越近，则两个样本点之间的相似度越大，样本i关于KNN(i)所属类簇的归属度值就越大，此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域。本发明算法避免了DPC算法度量样本密度的缺陷、及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误，聚类效果好。

Description

基于K近邻与共享近邻的密度峰值聚类算法

技术领域

本发明涉及一种密度峰值聚类算法，特别涉及一种基于K近邻与共享近邻的密度峰值聚类算法。

背景技术

聚类分析是研究分类问题的一种统计分析方法，是数据挖掘的重要技术，以无监督的方式对数据样本和对象集进行分类，广泛用于数据挖掘、模式识别、文档检索以及图像分割等领域。尤其大数据背景下，海量和多样数据的存在，使得具有自动理解、处理和概括数据的聚类算法研究得到广泛的关注。聚类的主要目的是将给定的群体划分为具有共同特征的群组或群集，使得组内的数据相似性较高，而组间差异性较为明显。

文献“Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.”提出一种基于密度和距离的密度峰值聚类算法(DensityPeaks Clustering，DPC)。该算法能够快速发现任意形状数据集的密度峰值点，即类簇中心点，并高效进行数据样本点分配和剔除离群点，所需有关数据集的先验知识也较少，适用于大规模数据集的聚类分析。然而，DPC算法存在以下问题：一，在样本密度的度量方面，没有采用统一的计算方式，而是针对数据集规模大小采用不同的度量准则，样本较小时，截断距离d_c对聚类结果影响较大；二，在样本分配策略方面，采用一步分配策略，将数据样本对象分配到距离其最近且密度比它大的样本所在的类簇，这样会造成连带反应，一旦某个样本分配错误，就会导致一连串的样本分配错误，造成错误的聚类结果。

发明内容

为了克服现有密度峰值聚类算法聚类效果差的不足，本发明提供一种基于K近邻与共享近邻的密度峰值聚类算法。该方法基于K-近邻(KNN)和共享近邻相似度(SNN)对DPC算法进行改进，每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定，若i的KNN(i)中属于某个类簇的点越多，且与i的欧式距离越近，则两个样本点之间的相似度越大，样本i关于KNN(i)所属类簇的归属度值就越大，此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域，所以将各聚类中心某近邻区域内的点看作簇中心集合C，将其它样本点看作非中心点，即未扩展点。本发明算法避免了DPC算法度量样本密度的缺陷，及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误，聚类效果好。

本发明解决其技术问题所采用的技术方案：一种基于K近邻与共享近邻的密度峰值聚类算法，其特点是包括以下步骤：

步骤一、输入要聚类处理的数据Data、近邻参数K以及相近邻域半径r；

步骤二、对输入的数据进行处理，包括缺失值的填充和数据归一化；

步骤三、计算数据样本之间的距离，根据式(1)、(2)、(3)计算每个数据样本点的ρ和δ；

其中，d_c为截断距离，d_ij为样本i与样本j之间的欧式距离。

其中，d_ij为样本i与样本j之间的欧式距离，p为样本点局部密度。

步骤四、根据ρ和δ值构建决策图，并选出每个类簇中心组成的集合C；

步骤五、根据式(4)至(5)识别离群的异常数据样本；

Outliters＝{θ|K_dist(θ)＞τ} (5)

其中，K_dist为数据样本的K-近邻距离。

步骤六、按照分配策略一，分配排除异常样本后的非簇中心样本点；

步骤七、对分配策略一未分配的样本，采用策略二进行分配；

步骤八、对于剩余未分配的数据样本点，将其分配到与自己相似度最高且已分配的样本所在的簇。

其中，ρ为局部密度，δ为该样本到密度比它大的样本的最小距离。

改进后的DPC聚类算法数据样本分配策略如下：

数据样本分配策略一：

步骤(a)、从类簇中心集合C中选出未被分配的样本点C_i，作为新类簇的中心，将其标记设置为已分配；

步骤(b)、将C_i样本点的相似K近邻集合KNN(C_i)分配到C_i所在的簇，并初始化扩展队列Tq，将KNN(C_i)中样本点依次并入Tq队尾；

步骤(c)、取扩展队列Tq中的队首样本q，对于样本q的相似K近邻集合KNN(q)中的每个样本p，若满足以下条件：尚未被分配；S_qp≤mean({S_pj|j∈KNN(p)})；非异常点；则p为可分配样本，将p归于所q属类簇，并加入Tq队尾；

步骤(d)、若队列Tq不为空，则继续步骤(c)；

步骤(e)、若集合C中还有未分配的样本，则继续步骤(a)，否则结束操作。

数据样本分配策略二：

步骤(f)、计算每个样本归属每个类簇的归属度组成一个n*|C|的归属度矩阵，C为类簇中心数目；

步骤(g)、构建长度为n的向量VA，用于存储每个未被分配样本的归属度最大值，再用相同长度向量VP存储使样本达到归属度最大值的类簇的标记；

步骤(h)、遍历VA，找出使归属度达到最大值的样本点r，并将其分配到最可能在测类簇，若未能找到则退出分配策略二；

步骤(i)、更新样本r相似KNN(r)集合中的每一个样本q的归属度，此时的归属度值为、令

步骤(j)、若剩余样本分配完，则结束该分配策略，否则继续步骤(c)。

其中，i表示所选样本，C表示类簇中心集合，S表示数据样本关于类簇的归属度，P表示每个样本归属每个类簇的归属度。

本发明的有益效果是：该方法基于K-近邻(KNN)和共享近邻相似度(SNN)对DPC算法进行改进，每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定，若i的KNN(i)中属于某个类簇的点越多，且与i的欧式距离越近，则两个样本点之间的相似度越大，样本i关于KNN(i)所属类簇的归属度值就越大，此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域，所以将各聚类中心某近邻区域内的点看作簇中心集合C，将其它样本点看作非中心点，即未扩展点。本发明算法避免了DPC算法度量样本密度的缺陷，及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误，聚类效果好。

实验采用UCI真实数据集对比背景技术DPC算法和本发明算法，分别对Aggregation数据样本进行聚类处理，聚类结果如图1、2所示。从聚类结果可以看出，DPC算法和本发明算法都可以实现正确的聚类结果，在一定程度上说明本发明算法的有效性。

其次，采用背景技术DPC算法和本发明算法，分别对数据样本点比较稀疏，每个类簇间距离相对较远，且含有大量噪声点的真实数据集compound和Enzyme-Drug进行聚类处理，结果如图3－6所示。可以看出，背景技术DPC聚类算法在噪声点的影响下，会进行错误的归类，而本发明算法则会好的处理噪声点，聚类结果更加准确。

经过实验处理UCI真实数据集，实验结果表明本发明算法拥有较好的性能，可以更准确地发现类簇中心，并分配样本到合适的类簇，是一种非常有效的自适应聚类算法，更能识别任意形状的类簇，可以用于任意维度和规模的数据集，即使处理有噪声的数据，也能得到准确的聚类结果，具有较强的鲁棒性。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明密度峰值聚类算法处理Aggregation数据样本结果图。

图2是背景技术密度峰值聚类算法处理Aggregation数据样本结果图。

图3是本发明密度峰值聚类算法处理compound数据集效果图。

图4是背景技术密度峰值聚类算法处理compound数据集效果图。。

图5是本发明密度峰值聚类算法处理Enzyme-Drug数据集效果图。

图6是背景技术密度峰值聚类算法处理Enzyme-Drug数据集效果图。

具体实施方式

参照图1-6。本发明基于K近邻与共享近邻的密度峰值聚类算法具体步骤如下：

步骤二、对数据进行处理，包括缺失值的填充和数据归一化；

其中，式(1)和(2)中d_c为截断距离，d_ij为样本i与样本j之间的欧式距离。

步骤五、根据式(4)至(5)识别离群的异常数据样本；

Outliters＝{θ|K_dist(θ)＞τ} (5)

其中，K_dist为数据样本的K-近邻距离。

改进后的DPC聚类算法数据样本分配策略如下：

数据样本分配策略一：

步骤(d)、若队列Tq不为空，则继续步骤(c)；

数据样本分配策略二：

计算数据样本之间的距离：

计算数据样本的局部密度ρ：

计算数据样本的K-近邻距离：

获取异常数据样本点集合：

数据样本分配策略一：

数据样本分配策略二：

Claims

1.一种基于K近邻与共享近邻的密度峰值聚类算法，其特征在于包括以下步骤：

其中，d_c为截断距离，d_ij为样本i与样本j之间的欧式距离；

其中，d_ij为样本i与样本j之间的欧式距离，p为样本点局部密度；

步骤五、根据式(4)至(5)识别离群的异常数据样本；

Outliters＝{θ|K_dist(θ)＞τ} (5)

其中，K_dist为数据样本的K-近邻距离；

步骤八、对于剩余未分配的数据样本点，将其分配到与自己相似度最高且已分配的样本所在的簇；

其中，ρ为局部密度，δ为该样本到密度比它大的样本的最小距离；

改进后的DPC聚类算法数据样本分配策略如下：

数据样本分配策略一：

步骤(d)、若队列Tq不为空，则继续步骤(c)；

步骤(e)、若集合C中还有未分配的样本，则继续步骤(a)，否则结束操作；

数据样本分配策略二：

步骤(j)、若剩余样本分配完，则结束该分配策略，否则继续步骤(c)；