CN114117141A

CN114117141A - 一种自适应密度聚类方法、存储介质及系统

Info

Publication number: CN114117141A
Application number: CN202111443495.1A
Authority: CN
Inventors: 卢建云; 李腾; 路亚; 李士果; 绍俊明; 宁丹
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本发明涉及聚类分析技术领域，具体为一种自适应密度聚类方法、存储介质及系统其中方法包括：sup_k计算步骤：计算数据集S的自然特征值sup_k；

计算步骤：根据sup_k，计算自然特征集

Eps计算步骤：根据

中的数据对象，获取S中不同密度区域的Eps；聚类步骤：根据sup_k和S中不同密度区域的Eps，设置MinPts和Eps，启用DBSCAN算法进行聚类。本方案能自适应设置参数MinPts和Eps，克服数据集密度分布对DBSCAN的影响，从而保证聚类的效果。

Description

一种自适应密度聚类方法、存储介质及系统

技术领域

本发明涉及聚类分析技术领域，具体为一种自适应密度聚类方法、存储介质及系统。

背景技术

随着通信技术的飞速发展，使得信息数据的增长数据突破了指数级别，从而造成数据过量和信息爆炸等现象，传统的数据信息处理技术，已经无法在海量的数据信息中提取有价值的信息，因此为了满足人们对数据信息处理的需求，数据挖掘在大数据时代应运而生，成为处理海量数据信息的重要技术。数据挖掘分为分类、估值、预测、相关性分组或关联规则和聚类。其中聚类是自动寻找并建立分组规则的方法，通过判断样本之间的相似性，把相似样本划分在一个簇中。

聚类是数据挖掘中常用的方法，聚类拥有大量的聚类算法，其中典型的聚类算法包括：基于划分的K-means算法、K-medoids算法和K-Nearest Neighborhood算法，基于层次的CURE算法和CHAMELEON算法，基于密度的DBSCAN算法和OPTICS算法，基于网格的CLIQUE算法。基于密度的算法相对于其他聚类算法拥有很多优点，例如：不需要固定数量的簇，可以发现任意形状的聚类，不易受到噪声点的干扰等，因此被广泛应用在各个领域的信息处理中。在基于密度的聚类算法中，DBSCAN算法是其中最为经典的算法之一，DBSCAN算法使用人工设定的两个重要的参数——领域半径值Eps和领域阈值MinPts，通过查找每个数据对象的Eps领域中数据对象的点数Pts，通过Pts≥MinPts来定义核心对象，再对每个核心对象的点的Eps领域内的核心对象进行查找，将处于该核心对象的Eps领域内的核心对象的点定义为直接密度可达，并将所有密度可达的核心对象归为一个簇，接着再以密度连接的概念将密度可达的所有密度可达的核心对象归为一个簇，最后对于核心对象密度直接可达的非核心对象，算法将其归类于该核心对象所在的簇当中。

DBSCAN算法的性能受到两个重要的参数的影响，对不同的数据集进行聚类时，需要人工进行设置，如果每次都采用固定的Eps和MinPts对于稀疏程度不同的数据集不具适应性，会导致密度小的区域同一聚类易被分割，或密度大的区域不同聚类易被合并，而人工设置时只是根据反复测试的结果或者经验进行设置，如果设置的Eps和MinPts不合适，也会严重影响DBSCAN算法的效果。

发明内容

本发明的目的之一在于提供一种自适应密度聚类方法，能自适应设置参数，保证聚类的效果。

本发明提供的基础方案一：一种自适应密度聚类方法，包括如下内容：

sup_k计算步骤：计算数据集S的自然特征值sup_k；

计算步骤：根据sup_k，计算自然特征集

Eps计算步骤：根据

中的数据对象，获取S中不同密度区域的Eps；

聚类步骤：根据sup_k和S中不同密度区域的Eps，设置MinPts和Eps，启用DBSCAN算法进行聚类。

基础方案一的有益效果：对于Eps和MinPts的确定，本方法中计算数据集S的自然特征值sup_k，sup_k表示数据集S中所有数据对象的平均自然最近邻个数，其中自然最近邻的求解过程中，不需要指定自然最近邻个数或者自然最近邻的邻域半径，它是一种无尺度的最近邻概念，整个求解过程中只需要设置终止条件，因此整个计算过程是对给定的数据集的一个自适应过程，而自然最近邻个数是一种量化的度量方法，能够反映数据集疏密分布情况，数据集中大部分数据对象都拥有sup_k个自然最近邻，在不考虑噪声和局部绝对密度时，数据集中大部分数据对象都是核心对象，因此可以根据sup_k来设置MinPts。

自然最近邻个数为sup_k的数据对象基本能遍布S的每个区域，也就是说覆盖了S中的不同密度区域，因此为了便于标识，根据sup_k，计算自然特征集

将满足sup_k的数据对象组成集合

由于

中的数据对象的分布覆盖了S中的不同密度区域，因此根据

中的数据对象，获取S中不同密度区域的Eps，在根据S中不同密度区域的Eps，设置Eps，从而自适应的设置了MinPts和Eps，进而启用DBSCAN算法进行聚类。

本方法能自适应设置参数MinPts和Eps，sup_k能够反映数据集疏密分布情况，根据sup_k设置的MinPts，不会过大或者过小，根据S中不同密度区域的Eps设置的Eps，能克服数据集密度分布对DBSCAN算法的影响，从而保证聚类的效果。

进一步，所述sup_k计算步骤，包括：

输入数据集S，S包含若干数据对象：S＝{x₁,x₂,…,x_n-1,x_n}；

对于数据对象x_i,x_i∈S，若存在数据对象x_j,x_j∈S，x_i≠x_j的sup_k最近邻路径经历x_i，且sup_k满足S中最离群的数据对象存在最近邻路径到达，则当前sup_k为自然特征值：

其中s.t.x∈NN_k(y)表示对x和y的限定：x和y是属于彼此的自然最近邻。

有益效果：上述表达式为自然特征值的形式化定义，sup_k满足S中最离群的数据对象都有k最近邻路径到达时的最小的k值，使S大部分数据对象都拥有至少sup_k个自然最近邻。

进一步，采用自然邻居搜索算法计算sup_k，且自然邻居搜索算法采用kd树进行索引。

有益效果：当数据集中包含离群点时，sup_k的值会比较大，因此采用自然邻居搜索算法，以降低时间复杂度，从而减少计算量。

进一步，计算sup_k之前，还包括：移除噪声点。

有益效果：在计算sup_k时，先移除噪声点，从而消除噪音点对密度分布差异的影响，进而提升后续聚类的效果。

进一步，所述

计算步骤，包括：

若存在数据对象x_i,x_i∈S，且x_i的自然最近邻个数为sup_k，则x_i为自然特征对象，将自然特征对象组成为集合，即自然特征集

其中，|RNN(x_i)|表示x_i的自然最近邻集合中数据对象个数。

有益效果：

能对S中自然最近邻个数为sup_k的数据对象在S的整个区域中进行标识。

进一步，所述Eps计算步骤，包括：

根据

和自然最近邻域，计算自然特征集Eps均值

自然特征集Eps最大值

和/或自然特征集Eps最小值

其中，RNN(x_i)表示x_i的自然最近邻集合，d(x_i,x_j)表示x_i和x_j之间的距离。

有益效果：

表示整个

中数据对象sup_k自然邻域的平均半径；

表示S中密集区域数据对象sup_k自然邻域的最大半径；

表示S中稀疏区域数据对象sup_k自然邻域的最小半径，三种半径基本能克服数据集变密度分布对DBSCAN的影响。

进一步，d(x_i,x_j)采用欧式距离。

有益效果：欧式距离是在m维空间中两个点之间的真实距离，从而保证获得Eps的准确性。

进一步，所述聚类步骤，包括：

分别设置DBSCAN算法中MinPts＝sup_k和

MinPts＝sup_k和

和/或MinPts＝sup_k和

分别进行聚类；

分别返回聚类结果C＝{C₁,C₂,…,C_m}。

有益效果：

能够识别S中稀疏区域的类簇，

能够识别S中密集区域的类簇，也可以将二者进行结合识别不同密度的类簇；

S能获得比较好的聚类结果。

本发明的目的之二在于提供一种自适应密度聚类存储介质，能自适应设置参数，保证聚类的效果。

本发明提供基础方案二：一种自适应密度聚类存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现任一项上述自适应密度聚类方法的步骤。

基础方案二的有益效果：自适应密度聚类存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现任一项上述自适应密度聚类方法的步骤，能自适应设置参数，保证聚类的效果，便于自适应密度聚类方法的应用。

本发明的目的之三在于提供一种自适应密度聚类系统，能自适应设置参数，保证聚类的效果。

本发明提供基础方案三：一种自适应密度聚类系统，采用上述自适应密度聚类方法。

基础方案三的有益效果：本系统采用上述自适应密度聚类方法，能自适应设置参数，保证聚类的效果。

附图说明

图1为本发明一种自适应密度聚类方法实施例的流程示意图；

图2为本发明一种自适应密度聚类方法实施例中数据集分布示例1的分布图；

图3为本发明一种自适应密度聚类方法实施例中数据集分布示例2的分布图；

图4为本发明一种自适应密度聚类方法实施例中图2所示的数据集的自然最近邻数目分布柱状图；

图5为本发明一种自适应密度聚类方法实施例中图3所示的数据集的自然最近邻数目分布柱状图；

图6为本发明一种自适应密度聚类方法实施例中图2所示数据集的三种策略选择Eps值的分布情况示意图；

图7为本发明一种自适应密度聚类方法实施例中图3所示数据集的三种策略选择Eps值的分布情况示意图；

图8为本发明一种自适应密度聚类方法实施例中O_1数据集的sup_k＝5，Eps＝1.4142的聚类结果示意图；

图9为本发明一种自适应密度聚类方法实施例中O_1数据集的sup_k＝5，Eps＝2.5169的聚类结果示意图；

图10为本发明一种自适应密度聚类方法实施例中O_1数据集的sup_k＝5，Eps＝5的聚类结果示意图；

图11为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的sup_k＝6，Eps＝0.2327的聚类结果示意图；

图12为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的sup_k＝6，Eps＝0.3677的聚类结果示意图；

图13为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的sup_k＝6，Eps＝0.5764的聚类结果示意图；

图14为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的sup_k＝5，Eps＝0.1992的聚类结果示意图；

图15为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的sup_k＝5，Eps＝0.3893的聚类结果示意图；

图16为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的sup_k＝5，Eps＝0.6158的聚类结果示意图；

图17为本发明一种自适应密度聚类方法实施例中x4数据集的sup_k＝6，Eps＝0.1351的聚类结果示意图；

图18为本发明一种自适应密度聚类方法实施例中x4数据集的sup_k＝6，Eps＝0.2376的聚类结果示意图；

图19为本发明一种自适应密度聚类方法实施例中x4数据集的sup_k＝6，Eps＝0.5884的聚类结果示意图；

图20为本发明一种自适应密度聚类方法实施例中t4数据集的sup_k＝11，Eps＝4.2195的聚类结果示意图；

图21为本发明一种自适应密度聚类方法实施例t4数据集的sup_k＝11，Eps＝4.9240的聚类结果示意图；

图22为本发明一种自适应密度聚类方法实施例t4数据集的sup_k＝11，Eps＝13.8323的聚类结果示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

实施例基本如附图1所示：一种自适应密度聚类方法，本实施例中本方法应用于图像分割，包括如下内容：

sup_k计算步骤：计算数据集S的自然特征值sup_k；具体为：

输入数据集S，S包含若干数据对象：S＝{x₁,x₂,…,x_n-1,x_n}；

其中s.t.x∈NN_k(y)表示对x和y的限定：x和y是属于彼此的自然最近邻；自然最近邻：对于数据对象x_i,x_i∈S,若存在数据对象x_j,x_j∈S，x_i≠x_j的最近邻路径经历x_i，且当S中最离群的数据对象存在最近邻路径到达时，则称x_j为x_i的自然最近邻；从自然最近邻的定义可知，求解自然最近邻时，不需要指定自然最近邻个数或者自然最近邻的邻域半径，它是一种无尺度的最近邻概念。求解自然最近邻的终止条件是数据集中最离群的数据对象都有最近邻路径到达，其核心思想是设置计算的终止条件，整个计算过程是对给定数据集的一个自适应过程，当迭代计算收敛时，得到数据集中每个对象的自然最近邻。自然最近邻数目是一种量化的度量方法，能够反映数据集疏密分布情况。

在DBSCAN算法中，数据对象局部密度的定义：

ρ(x)＝|N_Eps(x)|

其中ρ是一个整数，表示数据对象x的局部密度；

|N_Eps(x)|表示数据对象x在Eps邻域内的邻居个数。下面给出数据集中核心对象的定义：

ρ(x)≥MinPts

由上述公式可知，在已知数据对象的局部密度时，数据集中的核心对象由参数MinPts决定，如果数据对象x的局部密度大于等于MinPts，则x为核心对象，对于DBSCAN算法，在不考虑绝对局部密度时(即不考虑参数Eps的值)，数据集中大部分数据对象都应该是核心对象，只有少部分是边缘对象和噪声，这决定了设置参数MinPts的值不能过大，也不能偏小。因此，在不考虑参数Eps值时，先确定参数MinPts的值，使大部分对象都拥有至少MinPts个邻居。为了确定参数MinPts的值，所以本方法采用自然最近邻概念，先计算自然特征值sup_k，后续根据sup_k来设置MinPts。

在计算sup_k时，采用自然邻居搜索算法，且自然邻居搜索算法采用kd树进行索引，自然邻居搜索算法，输入数据集S；输出自然特征值sup_k，数据对象自然最近邻数量，数据对象自然最近邻记录；算法的时间复杂度为O(nlogn+nsup_k)，且通过大量实验可知，自然特征值远小于数据集规模n(一般在1到30之内)，所以该算法的时间复杂度为O(nlogn)。以图2和图3所示的数据集分布示例1和示例2为例，经sup_k计算步骤，S的自然最近邻个数为sup_k的数据对象的分布，如图2所示，其中sup_k＝4，实心点的数据对象为自然最近邻个数为sup_k＝4的数据对象；图2所示的数据集的自然最近邻数目分布如图4所示；如图3所示，其中sup_k＝5，实心点的数据对象为自然最近邻个数为sup_k＝5的数据对象；图3所示的数据集的自然最近邻数目分布如图5所示。

计算步骤：根据sup_k，计算自然特征集

由图2和图3可以看出，自然邻居个数为sup_k的数据对象几乎遍布了数据集的每个区域，也就是说覆盖了数据集中的不同密度区域，因此为了便于标识，将满足这种特性的数据对象进行集合，因此进行

计算步骤，具体为：若存在数据对象x_i,x_i∈S，且x_i的自然最近邻个数为sup_k，则x_i为自然特征对象，将自然特征对象组成为集合，自然特征集

其中，|RNN(x_i)|表示x_i的自然最近邻集合中数据对象个数；时间复杂度为O(n)。

为了克服数据集变密度分布对DBSCAN算法的影响，因此进行Eps计算步骤。

Eps计算步骤：根据

中的数据对象，获取S中不同密度区域的Eps；由于

中的数据对象的分布覆盖了数据集中的不同密度区域，因此，能够利用

中的数据对象获取数据集中不同密度区域的Eps值，本实施例中给出选择Eps值的三种策略，具体为：

根据

和自然最近邻域，计算自然特征集Eps均值

自然特征集Eps最大值

和/或自然特征集Eps最小值

其中，d(x_i,x_j)表示x_i和x_j之间的距离，本实施例中采用欧式距离，欧式距离是在m维空间中两个点之间的真实距离，从而保证获得Eps的准确性；

时间复杂度为O(m log m),mn；

表示整个

中数据对象sup_k自然邻域的平均半径；

表示S中密集区域数据对象sup_k自然邻域的最大半径；

对于图2和图3中给出的自然特征集(实心点的数据对象)，图6给出了图2所示数据集的三种策略选择Eps值的分布情况：

和

图7给出了图3所示数据集的三种策略选择Eps值的分布情况：

和

由图6和图7可能得出，图6的

的距离分布小于图7的

的距离分布，即图6的S的密度分布差异小于图7的S的密度分布差异，因为密度分布差异会受到噪声点的影响，因此在计算sup_k时，可先移除噪声点。

聚类步骤：根据sup_k和S中不同密度区域的Eps，设置MinPts和Eps，启用DBSCAN算法进行聚类，具体为：分别设置DBSCAN算法中MinPts＝sup_k和

MinPts＝sup_k和

和/或MinPts＝sup_k和

分别进行聚类；

分别返回聚类结果C＝{C₁,C₂,…,C_m}。

具体地，在图像分割中，将原始图像的图像数据转为灰度值数据集，灰度值数据集为数据集S，每个像素点为数据对象，计算数据集S的自然特征值sup_k；根据sup_k，计算自然特征集

根据

中的数据对象，获取S中不同密度区域的Eps；根据sup_k和S中不同密度区域的Eps，设置MinPts和Eps，启用DBSCAN算法对S进行聚类，获取灰度的分割图像，然后对灰度的分割图像进行染色获得分割图像。

检测采用本方法进行聚类的效果，采用本地和公有云两种实验环境通过本方法对图像进行聚类获得分割图像，两种实验环境设置如表1所示。

表1：实验环境设置

本地实验环境用来进行有效性实验，采用MATLAB2019a实现。公有云实验环境用来进行性能实验，采用Python3.6实现。

用于有效性实验的数据集如表2所示，采用ARI[]和NMI[]作为聚类结果评价指标：

表2有效性实验数据集信息

用于性能实验的数据集如表3所示：

表3性能实验数据集信息

本方法有效性实验聚类结果，如表4所示：

表4有效性实验聚类结果

本方法有效性实验聚类ARI和NMI结果，如表5所示：

表5有效性实验聚类ARI和NMI结果

表6有效性实验聚类运行时间表

有效性实验的数据集有13个，如图8至图22所示，其中图8至图15所示的数据集带有类别标签，通过聚类评价指标ARI和NMI进行实验结果分析，如表5所示，图16至图22所示的数据集无类别标签，通过聚类结果可视化进行实验结果分析，如表4所示。

在表4中，给出了数据集名称，参数MinPts和Eps的取值，NC表示聚类结果的数目(噪声点也计算为一类)，从表4可以看出，通过本方法将MinPts＝sup_k和

或者MinPts＝sup_k和

再进行DBSCAN算法，能够识别出正确的聚类数目，除了数据集t4比实际类别数目多出一个类别。通过本方法将MinPts＝sup_k和

由于Eps值相对较小，MinPts值不变，DBSCAN算法会将数据集划分成更多的类簇，如x4和t4，或者将数据集中更多的数据对象划分为噪声点，如O_1、data_uc_cv_n和data_uc_n。

能够识别S中稀疏区域的类簇，

能够识别S中密集区域的类簇，也可以将二者进行结合识别不同密度的类簇；整体来看，

S能获得更好的聚类结果。参数具体选择可以根据实际应用情况进行设置。

本实施例还提供自适应密度聚类系统，使用上述自适应密度聚类方法。

上述自适应密度聚类方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。