CN114861760A

CN114861760A - 一种基于密度峰值聚类算法的改进研究

Info

Publication number: CN114861760A
Application number: CN202210355459.8A
Authority: CN
Inventors: 田新雨; 杨晓秋; 弋琨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-04-04
Filing date: 2022-04-04
Publication date: 2022-08-05

Abstract

本发明涉及一种基于密度峰值的聚类算法改进研究，属于聚类算法之一，聚类属于无监督分类，目的是将数据划分为不同簇。密度峰值聚类算法根据决策图确定聚类中心并检测非球形聚类，而无需指定聚类数。本发明旨在解决传统DPC聚类算法中存在的问题，传统的DPC算法对数据进行处理，计算局部密度和最小距离，通过局部密度和最小距离构造决策图，人工选取局部密度和最小距离都较大的点作为聚类中心点，导致聚类的准确度不高，因此针对密度峰值聚类算法不能自适应选取阈值，分配剩余点容易产生多米诺骨牌效应等问题，引入了DTW算法并且设计自适应阈值，对DPC聚类算法进行改进，从而改善了DPC聚类算法中存在的不足，提高了聚类的精确度。

Description

一种基于密度峰值聚类算法的改进研究

技术领域

本发明涉及计算机技术应用领域，具体是一种基于密度峰值聚类算法的改进研究。

背景技术

聚类分析是一种分析数据间关系的无监督方法，是数据挖掘的预处理步骤，聚类分析是将数据划分成群组的过程，研究如何在没有训练的条件下把一组数据对象或者物理对象分成若干类。使类内对象之间相似度高、类间对象之间相似度低。聚类分析在数据挖掘、基因识别、图像处理和文档检索等领域应用广泛。

传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中经典的两个算法分别是K-MEANS算法和K-MEDOIDS算法，基于层次的聚类算法中三个有名的算法分别是BRICH算法、CURE(Clustering Using Representative)算法和CHAMELEON算法，基于密度的经典聚类算法有DBSCAN算法、OPTICS算法和DENCLUE算法，基于网格的聚类算法的典型代表是STING算法和CLIQUE算法，较为有名的几个模型聚类方法是CLASSI和EM。

2014年，Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法，为聚类算法的设计提供了一种新的思路，引领了一新的聚类算法研究方向。该算法适用于任意形状的数据集和大规模的数据集，对初始聚类中心有很强的针对性，能直观的找到簇的数量，也能非常容易地发现异常点，而且，其参数唯一、使用简单、具有非常好的鲁棒性。其算法思想是：簇中心的局部密度要大于簇周围数据的局部密度，且与比其局部密度大的对象间的距离较远。

但DPeak算法也有诸多不足之处，如1)复杂度高，不适用于复杂数据，2)不能自适应选择密度峰值、阈值和簇的数目，3)计算局部密度时，若没有考虑到数据的局部结构会导致簇的丢失，假峰和无峰，4)高维数据适用性差等。

发明内容

鉴于此，本发明主要解决密度峰值聚类算法不能自适应选取阈值，避免分配剩余点产生多米诺骨牌效应，一旦某一个样本分配错误，会导致后续样本分配错误的问题。本发明主要使用了DTW算法对剩余点进行分配以及结合均值和与中心点非同一类区域对比率自适应获取阈值。

为了达到上述目的，本发明的算法具体步骤如下：。

步骤一：确定样本数据集X，令c点为中心点。

步骤二：通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P，其公式为：

其中d(c,c_i)为两点之间的欧氏距离，σ为对比度调节因子，一般取[0.75,1.2]之间，对比度P取值范围在[0,1]之间，值越大，代表对比度越小，两者越相似，当值为1时，代表两点完全属于同一区域。

步骤三：计算局部区域对中心点c的累积对比度S，其公式为：

步骤四：计算与中心点属于同类区域的累积对比度A，其公式为：A(c)＝S(c)·δ，当P(c,c_i)＝1，δ＝1；当P(c,c_i)＝0，δ＝0。

步骤五：计算与中心点非同一类区域对比率R，其公式为：R(c)＝(S(c)-A(c))/S(c)，R越大，越不是同一类。

步骤六：结合R和均值确定阈值d_c，其公式为：d_c＝μ_c(1+k(R(c)-1))，R越大，R(c)-1越接近于0，表示阈值越接近于均值。

步骤七：使用DPC算法计算数据点i的局部密度ρ_i，其公式为：

步骤八：计算点i与其他密度更高的点之间的最小距离，其公式为：

对于密度最高的点，则可以取：

步骤九：DPC用上述两个变量，局部密度和最小距离构建ρ-δ决策图，将ρ和δ都较大的点选取为初始聚类中心。

步骤十：将剩余的点与其他类密度较大值点分别分为两组，使用DTW算法测试两组之间的距离，找出其中距离最短的那条路径，从而将剩余点分配给密度比它高的最近样本。DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值，其公式为：

其中d(i,j)为两点之间的欧氏距离。

步骤十一：由此划分数据集，得到聚类结果。

附图说明

图1为本发明基于密度峰值的聚类算法的改进研究的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于密度峰值聚类算法的改进研究，其基本实现过程如下：

1.输入数据集

2.选取中心点，自适应获取阈值。

通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P。

计算局部区域对中心点c的累积对比度S。

计算与中心点非同一类区域对比率R。

结合R和均值确定阈值d_c。

3.使用DPC算法获取初始聚类中心。

计算数据点i的局部密度ρ_i，其公式为：

计算点i与其他密度更高的点之间的最小距离，其公式为：

对于密度最高的点，则可以取：

DPC用上述两个变量，局部密度和最小距离构建ρ-δ决策图，将ρ和δ都较大的点选取为初始聚类中心。

4.使用DTW算法对剩余点进行分配。

将剩余的点与其他类密度较大值点分别分为两组，使用DTW算法测试两组之间的距离，找出其中距离最短的那条路径，从而将剩余点分配给密度比它高的最近样本。

DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值，其公式为：

其中d(i,j)为两点之间的欧氏距离。

划分数据集，得到聚类结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于密度峰值聚类算法的改进研究，主要包括以下步骤：

步骤一：首先计算数据集中心点的阈值d_c；

步骤二：通过DPC聚类算法计算数据点的局部密度ρ_i；

步骤三：其次通过DPC聚类算法计算数据点与其他密度更高的点之间的最小距离δ_i；

步骤四：再通过局部密度和最小距离确定聚类中心；

步骤五：最后使用动态时间规整(DTW)算法对剩余点进行分配。

2.根据权利要求1所述的一种基于密度峰值聚类算法的改进研究，对于数据集中心点c，结合均值和与中心点非同一类区域的对比率确定阈值，其阈值d_c为：d_c＝μ_c(1+k(R_c-1))。

3.根据权利要求1所述的一种基于密度峰值聚类算法的改进研究，对于任意的数据点i，其局部密度ρ_i为：

其中d_ij是数据点i和j的欧式距离，χ是指示函数，当x<0时，χ(x)＝1，否则χ(x)＝0。

4.根据权利要求1所述的一种基于度峰值聚类算法的改进研究，计算点i与其他密度更高的点之间的最小距离，

对于密度最高的点，则可以取：

5.根据权利要求1所述的一种基于度峰值聚类算法的改进研究，DPC使用局部密度和最小距离两个变量构建ρ-δ决策图，将ρ和δ都较大的点选取聚类中心。

6.根据权利要求1所述的一种基于度峰值聚类算法的改进研究，将剩余点与其他类密度较大值点使用DTW算法进行相似性度量，将非密度峰值分配给密度比它高的最近样本。