CN114611596A

CN114611596A - 一种基于自适应的密度峰值聚类方法

Info

Publication number: CN114611596A
Application number: CN202210223360.2A
Authority: CN
Inventors: 田新雨; 何云斌; 杨晓秋
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-10

Abstract

本发明涉及一种基于自适应的密度峰值聚类方法，属于密度聚类的基本算法之一，本发明旨在解决传统的DPC聚类算法中存在的问题，传统的DPC算法对数据进行处理，计算局部密度和最小距离，通过局部密度和最小距离构造决策图，人工选取局部密度和最小距离都较大的点作为聚类中心点，导致聚类的准确度不高，因此针对密度峰值聚类算法不能自适应选取簇的数目，人工选取聚类中心等问题，引入了迪杰特斯拉算法和模糊C‑均值算法，对DPC聚类算法进行改进，从而改善了DPC聚类算法中存在的不足，提高了聚类的精确度，达到优化密度峰聚类算法效果的目的。

Description

一种基于自适应的密度峰值聚类方法

技术领域

本发明涉及计算机技术应用领域，具体是一种基于自适应的密度峰值聚类方法。

背景技术

聚类是研究分类问题的一种统计分析方法，其所要求划分的类是未知的。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它的簇中的对象相异。聚类被广泛应用于多个领域，如机器学习、模式识别、图像处理、信息检索等。针对不同的应用和数据特性已出现了千余种不同的聚类算法，但不同的聚类算法都有其特定的适用范围和不足。

传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中最著名的两个算法分别是k-means算法和FCM(Fuzzy C-Means)算法，基于层次的聚类算法中三个有名的算法分别是CURE(Clustering Using Representative)算法和CHAMELEON算法，基于密度的聚类算法中最为著名的是DBSCAN算法，基于网格的聚类算法的典型代表是STING算法和CLIQUE算法，较为有名的几个模型聚类方法是CLASSI和EM。

2014年，Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法[17]，为聚类算法的设计提供了一种新的思路，引领了一新的聚类算法研究方向。该算法可以识别出任意形状的数据，能直观的找到簇的数量，也能非常容易地发现异常点，而且，其参数唯一、使用简单、具有非常好的鲁棒性。

但DPeak算法也有诸多不足之处，如1)复杂度高，不适用于复杂数据，2)不能自适应选择密度峰值、截断距离和簇的数目，3)计算局部密度时，若没有考虑到数据的局部结构会导致簇的丢失，假峰和无峰，4)高维数据适用性差等。

发明内容

鉴于此，本发明主要解决密度峰值聚类算法不能自适应选取簇的数目，人工选取聚类中心的问题。本发明主要使用了迪杰斯特拉算法自动化确定簇的数目以及模糊C-均值聚类算法自适应选取聚类中心。

为了达到上述目的，本发明的算法具体步骤如下：。

步骤一：确定样本数据集X，源点s以及距离矩阵matrix。

步骤二：根据欧氏距离矩阵matrix和源点s，使用迪杰斯特拉算法得到已找到最短路径的节点数组，从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。

步骤三：从最短路径数组中选取数组长度最长的一组最短路径，构成一个簇，簇的数目加一。

步骤四：使用样本数据点集删除最短路径节点数组中的数据点，从而获取剩余点。

步骤五：使用样本数据点集删除步骤三中已获取簇中的数据点，从而获取参与下次算法的数据点，返回到步骤二，获取下一个簇。经过多次迭代，获取最终簇的数目。

步骤六：使用DPC算法计算数据点i的局部密度ρ_i，其公式为：

步骤七：计算点i与其他密度更高的点之间的最小距离，其公式为：

对于密度最高的点，则可以取：

步骤八：DPC用上述两个变量，局部密度和最小距离构建ρ-δ决策图，将ρ和δ都较大的点选取为初始聚类中心，然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。

步骤九：将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件，同时设置指数权重因子为2。

步骤十：初始化迭代次数t，令t＝0。

步骤十一：根据初始化聚类中心集v_i，算出μ_ij，其公式为：

步骤十二：根据v_i和μ_ij，计算出目标函数J，其公式为：

步骤十三：根据μ_ij，计算出新的v_i，其公式为：

步骤十四：根据新的v_i，代入公式：

计算出新的μ_ij。

步骤十五：根据新的v_i和新的μ_ij，代入公式：

计算出新的目标函数J。

步骤十六：判断J^(t)-J^(t+1)>0是否成立，若成立，则令t＝t+1，并转到步骤十三，否则，终止运算。

步骤十七：经过多次迭代后，得到最终的聚类中心集V和隶属度矩阵U，由此划分数据集，得到聚类结果。

附图说明

图1为本发明基于自适应的密度峰值聚类方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于自适应的密度峰值聚类方法，其基本实现过程如下：

1.输入数据集

2.使用迪杰斯特拉算法自适应选取簇的数目。

根据已确定的欧氏距离矩阵matrix和源点s，使用迪杰斯特拉算法得到已找到最短路径的节点数组，从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。

从最短路径数组中选取数组长度最长的一组最短路径，构成一个簇，簇的数目加一。

使用样本数据点集删除最短路径节点数组中的数据点，从而获取剩余点。

使用样本数据点集删除已获取簇中的数据点，从而获取参与下次算法的数据点，返回到算法起始的地方，获取下一个簇。经过多次迭代，获取最终簇的数目。

3.使用DPC算法获取初始聚类中心。

计算数据点i的局部密度ρ_i，其公式为：

计算点i与其他密度更高的点之间的最小距离，其公式为：

对于密度最高的点，则可以取：

DPC用上述两个变量，局部密度和最小距离构建ρ-δ决策图，将ρ和δ都较大的点选取为初始聚类中心，然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。

4.使用模糊C-均值聚类算法自适应获取聚类中心。

将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件，同时设置指数权重因子为2。

初始化迭代次数t，令t＝0。

根据初始化聚类中心集v_i，算出μ_ij，其公式为：

根据v_i和μ_ij，计算出目标函数J，其公式为：

根据μ_ij，计算出新的v_i，其公式为：

根据新的v_i，代入公式：

计算出新的μ_ij。

根据新的v_i和新的μ_ij，代入公式：

计算出新的目标函数J。

判断J^(t)-J^(t+1)>0是否成立，若成立，则令t＝t+1，并转到步骤十三，否则，终止运算。

经过多次迭代后，得到最终的聚类中心集V和隶属度矩阵U，由此划分数据集，得到聚类结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于自适应的密度峰值聚类方法，主要包括以下步骤：

步骤一：首先通过DPC聚类算法计算数据点的局部密度。

步骤二：其次通过DPC聚类算法计算数据点与其他密度更高的点之间的最小距离。

步骤三：再通过局部密度和最小距离确定初始聚类中心。

步骤四：然后使用迪杰斯特拉算法自适应选取簇的数目。

步骤五：最后使用模糊C-均值聚类算法自适应确定最终的隶属度矩阵以及聚类中心点集。

2.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法，对于任意的数据点i，其局部密度ρ_i为：

3.根据权利要求2所述的局部密度，其中d_ij是数据点i和j的欧式距离，χ是指示函数，当x<0时，χ(x)＝1，否则χ(x)＝0；d_c是截断距离，通常将所有点间的欧氏距离从小到大排序后，取前2％～5％大小的距离。

4.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法，计算点i与其他密度更高的点之间的最小距离，

对于密度最高的点，则可以取：

5.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法，DPC使用局部密度和最小距离两个变量构建ρ-δ决策图，将ρ和δ都较大的点选取为初始聚类中心。

6.根据权利要求5所述的初始聚类中心，作为模糊C-均值聚类算法的输入条件，初步得到隶属度矩阵，其公式为：

7.根据权利要求6所述的隶属度矩阵和权利要求5所述的初始聚类中心，得到目标函数为：

8.根据权利要去6所述的隶属度矩阵，代入聚类中心点集的公式中，获取每一次迭代中所需要的聚类中心点，其公式为：