CN114638301A

CN114638301A - 基于密度相似性的密度峰值聚类算法

Info

Publication number: CN114638301A
Application number: CN202210264661.XA
Authority: CN
Inventors: 王言言; 万静; 田新雨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-17

Abstract

本发明针对密度峰值聚类算法(DPC)不适用于流形数据集、聚类中心的选择需要人为干预且会在剩余点分配会出现多米诺效应的缺陷。提出了一种基于密度相似性的密度峰值聚类算法(DA‑DPC)。首先，引用密度相识度来代替欧式距离来适用处理流形数据集，可以消除dc对算法结果的影响；其次，根据密度聚类指数的特点和聚类的定义，设计了一种新的密度聚类指数(DCI)，自动获取聚类中心，降低参数对聚类结果的影响；对于剩余点提出两种匹配策略，更好的达到聚类效果；实验表明，该算法在人工数据集和UCI真实数据集上比常用的几种聚类算法具有更好的聚类效果。

Description

基于密度相似性的密度峰值聚类算法

技术领域

本发明属于聚类分析技术领域，只要是为密度峰聚类算法进行改进优化。具体是一种基于密度相似性的密度峰值聚类算法，可应用于图像处理、医学诊断、数据挖掘等领域。

背景技术

聚类是无监督学习最重要的方法，是一种丰富的数据分析和解释的概念和算法框架。聚类的一般目标是最小化同一簇中实例之间的不相似性，最大化不同簇中的实例之间的不相似性。目前，聚类在数据挖掘、模式识别、图像分割、遗传病检测等方面得到了广泛的应用。

到目前为止，已经有很多种聚类算法被提出。根据对数据点的处理方式不同，可以分为基于层次的聚类算法、基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法等。

2014年Rodriguez和Laiozai在Science上提出的一种基于密度的聚类算法(clustering by fast search and find of density peaks，DPC)，由于该算法具有原理简单、能够快速发现任意形状的簇、且无需迭代的优点，在近几年一直是热门研究课题。

k-means算法是基于划分聚类的经典算法，该算法实现简单，在凸形结构数据集上具有良好的聚类效果，但K-means算法的聚类结果严重依赖初始聚类中心的选择，需要人为的指定类簇的个数，对噪声点和离群点较敏感。DIANA(Divisive Analysis)是一种基于层次的聚类算法，它能够快速对数据集进行聚类，但是该算法需要人为指定簇数目，且已做的分裂操作不能撤销，类之间不能交换对象。DBSCAN(Density-Based Algorithm forDiscovering Clusters in Large Spatial Databases with Noise)是一种典型的基于密度的聚类算法，它可以对仸意形状数据迚行聚类，不需要预先指定类簇个数，但受核心对象邻域包含的最少样本数Minpts和邻域半径ε参数设置的影响较大且高维数据的聚类效果差。CLIQUE算法结合了基于网格和基于密度的聚类算法的特点，利用频繁模式和关联规则挖掘的先验性质，得到了稠密单元关于维度的单调性，进而通过识别稠密单元进行聚类。

密度峰值聚类算法(DPC)核心思想主要依据两个假设：1)聚类中心的密度要远高于围着聚类中心数据点的密度；2)聚类中心离比它密度高的数据点的距离相对较远。对于数据集中的任意数据对象i,都要计算数据点的局部密度ρi和相对距离δi。局部密度公式如下：

p_i＝∑_jχ(d_ij-d_c)

其中，

dij表示数据点xi和xj的距离。dc是唯一的输入参数，表示截断距离，定义为两数据点之间相似度按小到大排列后1-2％位置处的值。

数据点xi的δi是点到所有比其局部密度大的点距离的最小值其公式为：

对于密度大的点我们可以得到：

δ_i＝max_jd_ij

DPC算法根据局部密度ρ和相对距离δ构造决策图，筛选出局部密度和相对距离都比较大的点标记为聚类中心，最后根据分配策略将剩余点分配给距离其最近的聚类中心。

DPC算法能发现非球形的簇且需要较少的参数，不需要预先指定类簇的个数，但是，DPC算法在很多方面也存在很多不足，包括以下三点：1.DPC对多数流形数据集效果不理想；2.参数dc的选取对聚类结果特别敏感；3.决策图的绘制方法有时会导致聚类中心不确定。

针对DPC算法截断距离需要人为操作和不能自动选取聚类中心的缺陷，本文提出一种基于密度相似性的密度峰值聚类算法(英文全称DA-DPC)。DA-DPC算法采用了k近邻思想和指数核函数，重新定义了局部密度，使样本的局部密度可以处理流形数据集，具有全局一致性；设计了DCI来自动识别聚类中心的数量；在对剩余点发配到距离最近的聚类中心的簇中，为了避免两个聚类被离群点所影响合成一个聚类，DA-DPC算法会先删除离群点，然后在通过广度优先搜索k个最近邻来分配非离群值，仍然会有一些点没有被分配，这些点是真正的噪声，它们将被分配到同一个聚类中，作为已经分配的最近的邻居。具体实现步骤如下：

定义1(k-近邻)样本点Xi∈X的k-近邻为该点都其它样本点的距离中最近的的K个点。定义如下：

KNN(i)＝{j∈X|d_ij≤d_k}

定义2(局部密度)为了更好的找到聚类中心结合k近邻和指数核函数重新定义了局部密度。假设任意点xi∈X,且R(i)＝{x1,x2....xk}是数据集中与点Xi相似度最高的K个集合，则局部密度定义如下：

定义3(密度相似度)与欧氏距离相比，密度敏感相似度更好地反映了流形数据集的特征，具有全局一致性。

聚类内相似度和聚类间相似度是聚类算法的两个主要评价因素。

通过计算数据点i到最艰难的聚类中所有点的平均距离来计算相似度。

其中，xp为聚类k中的实例数。

定义一个剪影系数：

最后，将所有数据点的平均si(i)定义为本次迭代的剪影系数:

在DA-DPC中，采用密度敏感相似度代替欧氏距离计算整体数据集之间的相似度。因此，构建DA-DPC的相似矩阵为:

S＝[s₁,s₂,...s_n]∈R_n×n

传统的DPC算法选取聚类中心根据局部密度和相对距离构造的决策图中手动选取局部密度和相对距离比较大的值，带有一些主观性，可能会造成聚类中心个数选择不准确的问题，会直接导致后来分配出现多米诺效应，影响最终聚类结果。

因此，我们采用DCI来确定聚类中心。首先，通过每个非中心点到聚类中心a(i)的平均距离计算聚类i的聚类内相似度。其次，i的簇间相似性是最接近簇的整体数据实例与簇中心b(i)的平均距离。我们只计算聚类中心来定义k个聚类的平均DCI。最后，得到最大的DCI对应最优分区即为聚类中心。

剩余点分配算法步骤如下：

参照所提出的两种策略，即策略1和策略2，则分配过程如下:DA-DPC首先找到离群点，然后从数据集X中删除离群点，并使用策略1尝试将离群点集中的点分配到相应的集群中。策略1分配的点组成了集群的核心。策略2使用分配离群点和策略1未分配中的剩余点。在应用两种分配策略后，仍然会有一些点没有被分配，这些点是真正的噪声，它们将被分配到同一个聚类中，作为已经分配的最近的邻居。分配策略1的基础是广度优先搜索连通加权图上从聚类中心开始的点的K个最近邻，其中顶点为非离群点，边的权值为点之间的欧氏距离。在策略1的约束下，将点的K个最近邻分配到它们的簇中。为了得到最佳的集群,模糊加权资讯的方法是开发年分配策略2被采用,以便集群信息获得可以使用的策略,尽可能将异常值和分未赋值的策略1,它们是最可能得到的集群。策略2的关键方面是了解点i属于聚类c的概率，然后将点i分配给其最相似的个聚类c，并使其具有最大的聚类c。为了定义pi，我们首先定义点i和j之间的相似性，这意味着点i和j之间的距离越小，它们就越相似。从聚类中心开始，将剩余点分配到距离最近的聚类中心中去，为了避免两个聚类被离群点的影响合并成一个聚类，基于密度相似性的密度峰值聚类算法会先删除离群点，然后在通过广度优先搜索k个最近邻来分配非离群值；仍然会有一些点没有被分配，这些点是真正的噪声，它们将被分配到同一个聚类中，作为已经分配的最近的邻居。

附图说明

图1为基于密度相似性的密度峰值聚类算法的流程图。

具体实施方式

为了阐明发明的目的，技术方案和优点，一下是详细说明。

定义1(k-近邻)样本点Xi∈X的k近邻为该点都其它样本点的距离中最近的的K个点。定义如下：

KNN(i)＝{j∈X|d_ij≤d_k}

其中，xp为聚类k中的实例数。

定义一个剪影系数：

最后，将所有数据点的平均si(i)定义为本次迭代的剪影系数:

S＝[s₁,s₂,...s_n]∈R_n×n

剩余点分配算法步骤如下：

四种算法在UCI数据集上的聚类性能：

实验结果显示，本文的算法在UCI数据集上的性能优于其他常用三种。

Claims

1.基于密度相似性的密度峰值聚类算法，其特征在于，包括以下步骤：

步骤1.对数据点的局部密度使用统一定义，根据k最近邻和指数核函数重新定义局部密度；

步骤2.聚类中心选取阶段：采用密度敏感相似度来代替欧式距离来处理流形数据集，根据密度聚类指数的特点和聚类的定义，设计了DCI来自动识别聚类中心的数量；

步骤3.重新定义了2种剩余点分配策略，从聚类中心开始，通过广度优先搜索点的K个最近邻来分配非离群值。

2.根据权利要求1所述的基于密度相相似性的密度峰值聚类算法，其特征在于，所述步骤1中，引入k近邻和指数核函数，这样使样本的局部密度反映了流形数据集的特征，具有全局一致性；在此基础上重新定义局部密度。

3.根据权利要求1所述的基于密度相相似性的密度峰值聚类算法，其特征在于，所述步骤2中，首先采用密度敏感相似度代替欧氏距离来度量数据实例间的相似度，其次，在k从2到n不等的情况下进行DPC迭代，自动获得不同的聚类结果；在此过程中，基于密度敏感相似度计算数据实例的局部密度和相对距离，然后，迭代计算每个聚类分区的DCI，得到聚类中心个数。

4.根据权利要求1所述的基于密度相似性的密度峰值聚类算法，其特征在于，所述步骤3中，从聚类中心开始，将剩余点分配到距离最近的聚类中心中去，为了避免两个聚类被离群点的影响合并成一个聚类，基于密度相似性的密度峰值聚类算法会先删除离群点，然后在通过广度优先搜索k个最近邻来分配非离群值；仍然会有一些点没有被分配，这些点是真正的噪声，它们将被分配到同一个聚类中，作为已经分配的最近的邻居。