CN113378986A

CN113378986A - 密度峰值聚类算法的聚类策略优化

Info

Publication number: CN113378986A
Application number: CN202110762011.3A
Authority: CN
Inventors: 纪耀立; 万静; 姜诚
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-10

Abstract

本发明提出了一种方法，对于密度峰值聚类算法的聚类策略进行优化，主要解决密度峰值聚类算法在确定聚类中心后，剩余点分配过程中，因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点，使簇与簇之间更加独立；运用广度优先搜索遍历算法对簇进行遍历，实现样本点的聚类；最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响，避免了聚类过程中因为一个点分配错误而导致的连锁反应，显著提高了聚类效果。

Description

密度峰值聚类算法的聚类策略优化

技术领域

本发明涉及聚类分析技术领域，主要是对密度峰值聚类算法的聚类策略优化。

背景技术

聚类分析是一种无监督的学习方法，其目的是按照特定的标准，将数据划分到不同的簇中，探索数据的隐含信息，作为一种数据分析方法，聚类分析被广泛的应用于数据分析，图像处理，生物信息学，模式识别，机器学习等领域，传统的聚类分析方法主要分为以下几大类：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等，密度峰值聚类算法(Clustering by fast search and find of densitypeaks)是一种基于密度的聚类方法，于2014年由Alex Rodriguez和Alessandro在LaioScience上发表，该算法简洁且高效，可以快速搜索并发现任意形状数据集的密度峰值点，适用于大量数据的聚类，DPC算法首先需要计算数据集中每个点的局部密度ρ，然后找出每个点到局部密度比其大的最近点之间的欧氏距离δ；根据ρ和δ值画出决策图，并通过决策图选出初始聚类中心点；对于剩余的点，依次将其分配给密度比其大的最近点所在的簇类，DPC算法不需要事先指定簇类的数目，而是通过决策图选择聚类中心。

DPC算法虽然简洁高效，但在分配剩余点的时候存在以下缺陷：在将某个点A分配给局部密度比其大的最近点B所在的簇类时，若两个簇的距离较近，B点所在的簇类与与A点不属于同一个簇类，会导致该点的聚类结果发生错误，进而引发连锁反应，该点后面的点的聚类结果也会跟着出错。

发明内容

在针对上述提出的密度峰值聚类算法的缺陷，本文提出了一种新的聚类策略，对剩余点的分配过程进行优化，以避免出现相似的问题。具体步骤如下。

计算数据集中的每个样本点，到离其最近的第k个点之间的欧式距离，此距离记为该点的k-dist值，将数据集中所有样本点的k-dist值按照由小到大的顺序排序，取5％左右、k-dist值最大的样本点，标记为原始噪声点，k值的选取决定了将数据集中的哪些样本点标记为原始噪声点，在k＝1、k＝2、k＝3时，数据集中选取的原始噪声点是不同的，因此k值的选取决定了原始噪声点在数据集中的位置，也决定了是否能适当的将不同的簇分开。

为了使簇与簇之间分离的更加彻底，以每个原始噪声点为中心，将离其最近的第n个点标记为新噪声点；同时将所有原始噪声点到离其最近的第n个点的欧氏距离保存起来，从中选取最小值，记作R，为了防止选取过多的噪声点，此处的n值应尽量小，一般为1或2。

通过决策图选取多个初始聚类中心，视为集合H。从集合H中任选一点作为初始聚类中心点A，从A点开始，以上方选取的R值为半径画圆，将圆内所有未被标记过的点(且该点不能是噪声点)，标记为同一类，标记完成以后，从圆内选取离A点最近的点作为新的中心点，并同样以该点为中心，以R值为半径画圆，将圆内所有未被标记过的点标记为同一类，以此类推，利用广度优先搜索遍历算法的原理，遍历其它的点，当中心点范围内找不到未被标记过的点时，返回上一层，然后选取离上一层中心点第二近的点作为新的中心点，以R值为半径画圆，直到所有的点都找不到未被标记过的点(噪声点除外)为止，遍历结束。

以R值为半径能够最大程度的避免在遍历的过程中，从一个簇遍历到另一个簇中的点，选取原始噪声点时，一般选在簇与簇之间的临界处，以每个原始噪声点为中心，将离其最近的第n个点标记为新噪声点，能够保证簇与簇之间的欧式距离大于R值。

从集合H中逐个选取剩余的点作为初始聚类中心点，按照上述方法，再次进行遍历，直到集合H为空为止，在遍历的过程中遇到的已经被标记过的点，不能被再次标记。

在经过上述遍历过程以后，可能会出现零星未被标记到的点，因此将未被标记的点分配给离其最近的点所在的类，然后将新噪声点分配给离其最近的点所在的类，最后分配原始噪声点，至此，聚类过程结束。

本算法针对密度峰值聚类算法在分配剩余点时存在的由于一个点分配错误，引起连锁反应，进而导致剩余点分配错误的缺陷进行改进，大大提高了聚类结果的准确性。

附图说明

图1是DPC算法在Flame数据集上的聚类结果。

图2是本发明算法在Flame数据集上的聚类结果。

图3是DPC算法在Pathbased数据集上的聚类结果。

图4是本发明算法在Pathbased数据集上的聚类结果。

图5是DPC算法在Compound数据集上的聚类结果。

图6是本发明算法在Compound数据集上的聚类结果。

具体实施方式

本发明密度峰值聚类算法的聚类策略优化的具体实现步骤如下。

步骤一、输入二维数据集X＝{x1,x2,…,xn}。

步骤二、计算数据集中任意两点之间的欧式距离，将其保存至dist矩阵。

步骤三、输入k值，scale值，计算数据集中每个样本点的k-dist值，并选取比例为scale的样本点为原始噪声点，用列表tag标记数据集中的样本点所属的类，在tag列表中将原始噪声点标记为1。

步骤四、输入n值，将离原始噪声点最近的n个点标记为新噪声点，在tag列表中将新噪声点也标记为1。

步骤五、计算所有原始噪声点到离其最近的第n个点的欧氏距离，从中选取最小值保存到变量R中。

步骤六、根据式(1)(2)计算数据集中每个样本点的ρ和δ值。

其中dc为截断距离，dij为样本i与样本j之间的欧式距离。

其中ρ为样本点的局部密度，dij为样本i与j之间的欧式距离。

步骤七、根据ρ和δ构建决策图，并选出每个类簇中心组成的集合H。

步骤八、从集合H中逐个选取初始聚类中心，将以R为半径的圆内所有未被标记的点(切该点不能是噪声点)，标记为同一类，以此类推，利用广度优先搜索遍历算法，对数据集中的点进行聚类，当中心点范围内找不到未被标记过的点时，返回上一层，然后选取离上一层中心点第二近的点作为新的中心点，将以R为半径的圆内所有未被标记的点(切该点不能是噪声点)，标记为同一类，直到所有的点都找不到未被标记过的点(噪声点除外)为止，遍历结束。

步骤九、从集合H中逐个选取剩余的点作为初始聚类中心点，按照步骤八，再次进行遍历，直到集合H为空为止，在遍历的过程中遇到的已经被标记过的点，不能被再次标记。

步骤十、将未被标记的点分配给离其最近的点所在的类，然后将新噪声点分配给离其最近的点所在的类，最后分配原始噪声点。

Claims

1.密度峰值聚类算法的聚类策略优化，包括以下步骤：

步骤1：找出位于簇与簇连接处的样本点，将其标记为噪声点，利用噪声点将簇与簇之间的欧式距离控制在R范围内；

步骤2：根据决策图选取聚类中心点，以每个聚类中心点为初始聚类中心，对每个簇分别进行聚类；

步骤3：分配剩余未被标记的点，将所有未分配的点分配给离其最近的点。

2.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法，其特征在于：所述步骤1中，计算每个样本点到离其最近的第k个样本点之间的欧氏距离，此欧氏距离记为该点的k-dist值，将所有样本点的k-dist值按由小到大的顺序排列，取5％左右k-dist值最大的样本点，将其标记为原始噪声点，为了使簇与簇之间分离的更加彻底，以每个原始噪声点为中心，将离该噪声点最近的n个噪声点标记为新噪声点，同时，将所有原始噪声点到离其最近的第n个点的欧氏距离保存起来，从中选取最小值，记作R。

3.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法，其特征在于：所述步骤2中，以每个聚类中心点为圆心，以R为半径画圆，将圆内所有未被标记过的点(该点不能是噪声点)，标记为同一类，利用广度优先搜索遍历算法，逐层进行遍历。

4.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法，其特征在于：所述步骤3中，先将未被遍历到的点分配给离其最近的点所在的类，然后分配新噪声点，最后分配原始噪声点。