CN109840558A

CN109840558A - 基于密度峰值-核心融合的自适应聚类方法

Info

Publication number: CN109840558A
Application number: CN201910071935.1A
Authority: CN
Inventors: 邱雷; 房芳; 袁慎芳; 任元强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-04
Anticipated expiration: 2039-01-25
Also published as: CN109840558B

Abstract

本发明提出了一种基于密度峰值‑核心融合的自适应聚类方法，属于模式识别领域。该方法包括如下步骤：（1）首先进行基于密度峰值的密度近邻聚类：采用核密度‑k近邻的密度估计方法计算待聚类数据集中每个数据点的密度，并通过自适应阈值确定密度峰值点，将密度峰值点作为类中心进行密度近邻聚类得到初始聚类结果；（2）进行基于类内散度的核心融合操作：首先自适应的确定每个初始类中的核心点，若两个初始类的核心点邻近且融合后能降低类内散度，则将这两个初始类进行融合，融合所有应融合的初始类得到最终的聚类结果。本方法简单、准确、高效，能够对具有任意形状及密度分布的数据集进行自适应聚类。

Description

基于密度峰值-核心融合的自适应聚类方法

技术领域

本发明涉及一种基于密度峰值-核心融合的自适应聚类方法，属于模式识别领域。

背景技术

聚类方法是模式识别及机器学习领域一项重要的技术，被广泛应用于人脸识别、搜索工程、图像分区等领域。聚类是根据数据点之间的相似性将数据集划分成类或集群的过程，属于同一类中的数据点之间具有较大的相似性，而属于不同类的数据点应尽可能不相似。数据点间的相似性可用距离度量，最常见的距离有欧几里得距离。由于数据来源、性质及分布的多样性，以及自动化工业进程的需求，很多领域都要求聚类方法能够自动确定数据集中类的数目并处理具有任意形状和密度分布的数据集。

密度聚类方法能够对具有任意形状的数据集进行聚类，且无需设定类的数目。最常见的密度聚类方法为应用噪声的基于密度空间聚类方法(Density-based SpatialClustering of Applications withNoise，DBSCAN)。在DBSCAN中，需要定义截断距离及密度阈值，由密度阈值确定核心点后，按属于不同类的核心点之间距离超出截断距离的原则完成聚类。该方法具有密度聚类方法的两大优点，即能够对具有任意形状分布的数据集进行聚类且无需设定类的数目。但该方法不仅需要预先设定截断距离，还需要预先设定核心点的密度阈值。此外，DBSCAN聚类结果容易受密度估计结果及核心点密度阈值的影响。

2014年，Science期刊发表了一种基于密度峰值搜寻的聚类方法(Clustering byfast search and find of density peaks，CFSFDP)。这是一种不需要预先设定核心点密度阈值的密度聚类方法。该方法提出了类中心具有的两个密度峰值特征，即类中心的密度值局部极大，且类中心与密度更大的数据点之间的最小距离也局部极大。CFSFDP根据这两个特征在横纵坐标分别为密度和最小距离的决策图上人为确定类中心，完成聚类。CFSFDP方法虽然对具有任意形状分布的数据集进行自适应聚类，但该方法也存在一些缺点。首先，CFSFDP方法聚类效果容易受密度估计结果的影响。其次，CFSFDP方法中人为确定类中心的过程限制了其在自动化任务中的应用效果。最重要的一点，一个类中可能存在多个密度峰值点，CFSFDP方法会将该类中多个密度峰值点都当作类中心，一个含有多个密度峰值点的类会被错误分成多个类，故CFSFDP方法无法确保正确的聚类结果。

综上所述，虽然现有的一些聚类方法能够自适应的处理具有任意形状分布的数据集，但这些数据集的形状及密度大多呈现为简单分布，在处理复杂分布数据时聚类方法的精度及效率等性能仍亟待提高。

发明内容

针对具有任意形状及密度分布的数据集自适应聚类问题，本发明提出了一种基于密度峰值-核心融合的自适应聚类方法，方法简单、准确、高效，能够对具有任意形状及密度分布的数据集进行自适应聚类。

本发明为解决其技术问题采用如下技术方案：

一种基于密度峰值-核心融合的自适应聚类方法，包括如下两个步骤：

(1)基于密度峰值的密度近邻聚类：首先采用核密度-k近邻的密度估计方法计算每个数据点的密度，然后计算每个数据点与密度比自身大的数据点之间的最小距离，再通过基于密度及最小距离的自适应阈值确定密度峰值点，最后将密度峰值点作为初始类的中心，进行密度近邻聚类得到初始的聚类结果；

(2)基于类内散度的核心融合操作：首先采用基于密度近邻的核心判别方法自适应确定每个初始类中的核心点，若两个初始类的核心点邻近且融合后能降低类内散度，则将这两个初始类进行融合，融合所有应融合的初始类得到最终的聚类结果。

步骤(1)中所述的基于密度峰值的密度近邻聚类具体步骤如下：

(a)假设一个待聚类的数据集为X，X＝{x₁,x₂,…,x_n}，其中：x₁为数据集中第一个数据点，x₂为数据集中第二个数据点，x_n为数据集中第n个数据点，n为数据集中数据点的数目，n为大于0的自然数，通过高斯核密度估计数据点x_i的密度，记作ρ_i，下标i为数据点的次序，i＝1,2,…,n，数据点x_i的密度ρ_i具体计算公式如下：

其中，d_ij为数据点x_i与x_j之间的距离，d_c为截断距离，d_ij的具体计算如下：

d_ij＝||x_i-x_j||₂

其中，x_j为第j个数据点，||·||₂为向量的2范数，基于k近邻的截断距离d_c估计表达式如下：

其中，d_k(x_i)为数据点x_i与距离x_i最近的第k个数据点之间的距离，k为大于0且小于n的自然数，取值计算如下：

其中，表示小于的最大整数，d为数据点的维度，d为大于0的自然数；

(b)对于任意一个数据点x_i，将密度比x_i大且距离x_i最近的数据点定义为x_i的密度近邻点，将x_i与其密度近邻点之间的距离记作x_i的最小距离δ_i，对于密度最大的数据点，将该点与其他点的最大距离作为该点的最小距离δ_i，最小距离δ_i的计算公式如下：

其中，ρ_j为第j个数据点x_j的密度，

(c)计算每个数据点x_i的密度ρ_i与最小距离δ_i的乘积，将该乘积作为衡量数据点x_i成为密度峰值点的概率指标γ_i，概率指标γ_i计算公式如下：

γ_i＝ρ_i×δ_i

(d)计算乘积γ_i的阈值γ_min，计算公式如下：

γ_min＝EX(ρ_i)×d_c

其中，EX(ρ_i)为密度ρ_i的均值；

(e)将满足以下不等式的数据点选出作为密度峰值点，密度峰值点的数目为M，M为不为0的自然数；

γ_i＞γ_min&δ_i＞d_c

(f)密度近邻聚类：将密度峰值点作为类中心，将剩余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中，得到初始的聚类结果，其中第t个初始类记作t＝1,2,…,M。

步骤(2)中所述的基于类内散度的核心融合操作具体如下：

A.统计每个数据点x_i成为其他数据点的密度近邻点的次数NT_i，计算公式如下：

其中，x为任意自变量，i为数据点x_i的下标并对应数据点x_i的次序，对于数据点x_j而言，为满足ρ_i>ρ_j且使得d_ij取得最小值时的x_i的次序i；

B.对于任意一个初始类找出其中NT_i＝0的数据点，计算这些数据点的密度均值，初始类中密度大于该密度均值的数据点为的核心点，的核心点构成的核心类，记作具体定义如下：

其中，EX(ρ_j)为初始类中NT_j＝0的数据点的密度均值，NT_j表示数据点x_j成为其他数据点的密度近邻点的次数；

C.计算每个核心类与其他核心类之间的最小距离，记第t个核心类与第r个核心类之间的最小距离为l_tr，计算公式如下：

D.确定每个核心类的近邻核心类，对于任意一个核心类若核心类是的近邻核心类，则与之间的最小距离l_tr应满足以下不等式：

l_tr≤d_c

E.计算每个核心类的类内散度，计算公式如下：

为核心类的类内散度，n^t为核心类中数据点的数目；

F.计算每个核心类与其近邻核心类融合后的类内散度，计算公式如下：

其中，为一个核心类，为的一个近邻核心类，为与融合后的类内散度，n^t为核心类中数据点的数目，n^r为核心类中数据点的数目，n^t和n^r均为大于0的自然数；

G.若一个核心类与其近邻核心类融合后的类内散度满足以下不等式，则将这两个核心类对应的初始类融合；

其中，为核心类的类内散度，为核心类的类内散度；

H.融合所有应融合的初始类得到最终的聚类结果。

本发明的有益效果如下：

(1)本发明方法简单、准确、高效。

(2)本发明能够自动确定数据集含有的类数目。

(3)本发明能够处理具有任意形状和密度分布的数据集。

附图说明

图1实施例中二维实际医学工业数据集分布。

图2本发明方法的整体架构及流程图。

图3实施例中初始聚类结果。

图4实施例中核心点分布图。

图5实施例中最终的聚类结果图。

具体实施方式

下面将结合附图对本发明创造做进一步详细说明。

本实施例中以一个二维实际医学工业数据集为例来具体说明本发明方法的实施过程。二维实际医学工业数据集分布如图1所示。该数据集实际包含两个类，这两个类距离很近且分界线不明显；其次，类内分布复杂，图1中类2包含多个密度峰值点。二维实际医学工业数据集共包含240个数据点，故n＝240，维数d＝2。

本发明的整个方法流程如图2所示。

一、计算数据集中数据点间的距离，计算截断距离d_c，计算每个数据点的密度ρ_i；

二、找到每个数据点的密度近邻点，计算每个数据点的最小距离δ_i；

三、计算每个数据点密度与最小距离的乘积γ_i及γ_i的阈值γ_min；

四、将γ_i大于γ_min且δ_i大于d_c的数据点选为密度峰值点；

五、将密度峰值点作为类中心，将其余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中，得到初始聚类结果，初始聚类结果如图3所示，初始类数目M＝4；

六、统计每个数据点成为其他数据点的密度近邻点的次数NT_i，计算每个初始类中NT_i＝0的数据点的密度均值，选出每个初始类中的核心点，二维实际医学工业数据集对应的核心点分布如图4所示，由每个初始类的核心点构成该初始类的核心类，。

七、对于任意一个核心类计算与其他任意一个核心类之间的最小距离l_tr，若l_tr小于截断距离d_c，则判定核心类与互为近邻核心类，找到每个核心类的近邻核心类。

八、计算每个核心类的类内散度

九、计算每个核心类与其近邻核心类融合后的类内散度，对于任意一个核心类的任意一个近邻核心类为若与融合后的类内散度小于融合前两个核心类对应的类内散度之和，则将两个核心类对应的初始类与融合。

十、融合所有应融合的初始类得到最终的聚类结果，最终的聚类结果如图5所示。

由图5可以看出，本发明能够对具有任意形状及密度分布的数据集进行准确、高效且自适应的聚类。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于密度峰值-核心融合的自适应聚类方法，其特征在于，包括如下两个步骤：

2.根据权利要求1所述的基于密度峰值-核心融合的自适应聚类方法，其特征在于，步骤(1)中所述的基于密度峰值的密度近邻聚类具体步骤如下：

(a)假设一个待聚类的数据集为X，X＝{x₁,x2,…,x_n}，其中：x₁为数据集中第一个数据点，x₂为数据集中第二个数据点，x_n为数据集中第n个数据点，n为数据集中数据点的数目，n为大于0的自然数，通过高斯核密度估计数据点x_i的密度，记作ρ_i，下标i为数据点的次序，i＝1,2,…,n，数据点x_i的密度ρ_i具体计算公式如下：