CN112214655A

CN112214655A - 基于密度的多自适应阈值解决密度不均数据集的聚类方法

Info

Publication number: CN112214655A
Application number: CN202011070594.5A
Authority: CN
Inventors: 唐春华; 肖英杰; 闫化然; 曾祥堃
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-12

Abstract

本发明公开了一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，其具体步骤如下：(1)从簇类排序CO中确定每个簇类的分界点；(2)计算待判断集合JLS中局部峰值点LPP的局部峰值点跨度SLPP、簇类深度DC、簇类相关度RC；(3)确定分界点DP个数c；(4)识别各个簇类中的噪声点。本发明解决了传统的聚类方法中阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题，该方法简单易行，效率高。

Description

基于密度的多自适应阈值解决密度不均数据集的聚类方法

技术领域

本发明涉及一种数据挖掘领域，具体涉及到一种基于密度的多自适应阈值解决密度不均数据集的聚类方法。

背景技术

数据挖掘的重要方法之一是聚类，在聚类算法中使用最广泛的是基于密度的聚类算法，它可以检测具有任意形状的簇，但往往存在阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题。

发明内容

本发明的目的是为了克服上述现有技术的不足，提供了一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，针对传统的聚类方法的阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题，该方法简单易行，效率高。

本发明采用的技术方案为：一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，本发明相关定义如下：

定义eps邻域：在数据集D中，对于点p，p∈D，其eps邻域为数据集中与p的距离不大于eps的子集合，记为Neps(p)；

定义核心对象：核心对象p的eps领域内至少包含MinPts个样本；

定义密度可达：在集合D中，p为核心对象，若q∈N_eps(p)，q从p直接密度可达；

定义核心距离，记为CD：对于集合D，对象p∈D，使p成为核心对象的最小领域半径称为p的核心距离，

表示p的eps领域内距离p第Minpts远的点，

表示对象p和

之间的距离，核心距离定义如下：

定义可达距离，记为RD：对象p,o∈D，则o关于p的RD定义如下：

RD(p,o)＝max(CD(p),d(p,o)) (2)；

定义簇类排序，记为CO：令D为包含n个点的数据集，由OPTICS算法生成点p:{1,…,n}→D和相应的可达距离RD:{1,…,n}→R_≥0的顺序，CO由点的排序和可达距离组成；

包括以下步骤：

步骤一：从CO中确定每个簇类的分界点

定义局部峰值，记为LP：LP是指在CO中一定的连续范围内RD最大的值，连续范围取值为MinPts的1-6倍，LP所对应的点称为Local Peak Points(LPP)，LP所对应的序号记为Local Peak Order(LPO)，LP的集合记为LS＝{LS₁,...,LS_i,...,LS_k},LS_i＝(LPO_i,LP_i),k为集合LS中元素的个数；

定义分界点，记为DP：DP是指LS中恰好可以把CO分割成C_num份的点，其中C_num表示簇的个数，DPS是LS中分界点DP的集合；

定义局部峰值点跨度，记为SLPP：SLPP是LPP与CO的所有其他较大LPP之间的最小跨度；

以LP值的降序对LS中的元素进行排序，并遍历LS中的元素，则

SLPP_i＝min{|LP_i-LP_j|,j＝1,2,..,i-1} (3)；

当

LPP_i即为DP,并存储在集合DPS中，再从集合LS中删除LPP_i；

否则的话,将LPP_i存储在待判断集合JLS；

步骤二：计算JLS中LPP的SLPP、DC、RC

SLPP的计算：根据步骤二中所描述的方法计算；

定义簇类深度，记为DC：由LPP_i与LP大于LP_i的LPP_i最邻近的两个LPP所形成的左右两个簇，由LPP D所形成的两个簇，分别记为C^l＝{RD₁,...,RD_j,...,RD_l}和C^r＝{RD₁,...,RD_k,...,RD_r}，其中，RD_j和RD_k分别表示左右两个簇中第j和第k个可达距离，l和r分别表示左右两个簇元素的个数，则

定义簇类相关度，记为RC：RC是评价以LPP为分界点所形成两个聚类的相关程度的指标，LP_i与簇类的平均值之间的差值越大，RC越低；

LP,SLPP,DC and RC是判断LPP是否为DP的衡量标准；

对SLPP,DC和RC这三个评判值先标准化后再计算，标准化公式如下：

其中，R_i是每个标准的第i个值，R_max和R_min分别是每个标准的最大值和最小值，

是R_i标准化后所对应的值；

假设衡量LS中的LPP点是否为DP的指标为M,则

M_i＝LP_i×log(SLPP+DC+RC+1)^α (7)；

其中，α是控制SLPP,DC and RC影响度的参数，默认值为2；

将JLS中所有LPP的M值存储在MRes中，并对MRes进行降序排序；

步骤三：确定分界点DP个数c

对分界点集合DPS按照分界点DP在CO中的序号进行升序排序；

假设DPS中排序后的第一个和最后一个分界点的序号分别为O_s和O_e，若

并且

则c＝C_num-1；若

并且

则c＝C_num+1；若

和

有且只有一个为真，则c＝C_num；若分界点集合DPS的个数小于c，则将排序后的MRes中M值从大到小所对应的LPP依次添加到分界点集合DPS直到分界点集合DPS的个数等于c为止；

步骤四：噪声识别

为了增强方法对噪声的识别，引入噪声参数μ

定义噪声参数μ：μ是在簇类中进入噪声判定范围的比率，令μ为0.1意味着需要提取簇类后10％的点以查看它们是否为噪声，μ的默认值为0.2；

定义序邻域半径Oeps：CO中由DPS中的分界点所分割的各个CO子段，并对各个CO子段进行升序排序，则Oeps是各个升序排序后的CO子段内每个点后面紧接着点的最小数目的领域大小，最小数目OMinPts＝len(CluSet_i)×0.05,len(CluSet_i)是指簇类中第i个簇类的数目；

定义突变点：通过OMinPts计算每个点的Oeps，然后将结果存储到集合中。它需要从该集合中获取中值Meps，然后计算其与当前点的Oeps之比，如果某个点

则该点即为突变点，在该簇类中，突变点往后的点都记为噪声点；

附图说明

图1为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法在聚类过程中的流程图；

图2为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序可视化；

图3为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序BD段的可视化；

图4为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序BD段升序排序后的可视化；

图5为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法对五组人工数据的聚类效果；

图6为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法对两组真实数据的聚类效果；

图7为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法的运行时间。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

如附图1所示，一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，选取数据集DS3为例，本发明相关定义如下：

定义核心对象：核心对象p的eps领域内至少包含MinPts个样本；

表示p的eps领域内距离p第Minpts远的点，

表示对象p和

之间的距离，核心距离定义如下：

定义可达距离，记为RD：对象p,o∈D，则o关于p的RD定义如下：

RD(p,o)＝max(CD(p),d(p,o)) (2)；

包括以下步骤：

步骤一：从CO中确定每个簇类的分界点

定义局部峰值，记为LP：LP是指在CO中一定的连续范围内RD最大的值，如图2中点A-E及a-h所对应的RD，该连续范围取值为MinPts的1-6倍，LP所对应的点称为Local PeakPoints(LPP)，如图2中的点A-E及a-h,LP所对应的序号记为Local Peak Order(LPO)，LP的集合记为LS＝{LS₁,...,LS_i,...,LS_k},LS_i＝(LPO_i,LP_i),k为集合LS中元素的个数；

对于数据集DS3，连续范围的取值为MinPts的两倍；

定义分界点，记为DP：DP是指LS中恰好可以把CO分割成C_num份的点，其中C_num表示簇的个数，在数据集DS3中C_num＝8，DPS是LS中分界点DP的集合；

定义局部峰值点跨度，记为SLPP：SLPP是LPP与CO的所有其他较大LPP之间的最小跨度；如图2所示，A-E和a-g均为LPP，LPP B的SLPP是B和A之间的跨度，LPP C的SLPP是C和A，C和B之间的跨度的最小值，依此类推；

以LP值的降序对LS中的元素进行排序，并遍历LS中的元素，则

SLPP_i＝min{|LP_i-LP_j|,j＝1,2,..,i-1} (3)；

当

LPP_i即为DP,并存储在集合DPS中，再从集合LS中删除LPP_i；否则的话,将LPP_i存储在待判断集合JLS，在数据集DS3中，SLPP_i大于等于

的点有A-E五个点；

步骤二：计算JLS中LPP的SLPP、DC、RC

SLPP的计算：根据步骤二中的公式(3)计算；

定义簇类深度(DC)：由LPP_i与LP大于LP_i的LPP_i最邻近的两个LPP所形成的左右两个簇(如图2中的有由LPP D所形成的两个簇为C_D,B和C_D,C)分别记为C^l＝{RD₁,...,RD_j,...,RD_l}和C^r＝{RD₁,...,RD_k,...,RD_r}，其中，RD_j和RD_k分别表示左右两个簇中第j和第k个可达距离，l和r分别表示左右两个簇元素的个数，则

定义簇类相关度(RC)：RC是评价以LPP为分界点所形成两个聚类的相关程度的指标，LP_i与簇类的平均值之间的差值越大，RC越低；

LP,SLPP,DC and RC是判断LPP是否为DP的衡量标准；

是R_i标准化后所对应的值；

假设衡量LS中的LPP点是否为DP的指标为M,则

M_i＝LP_i×log(SLPP+DC+RC+1)^α (7)；

其中，α是控制SLPP,DC and RC影响度的参数，默认值为2；

将JLS中所有LPP的M值存储在MRes中，并对MRes进行降序排序；

步骤三：确定分界点DP个数c

对分界点集合DPS按照分界点DP在CO中的序号进行升序排序；

并且

则c＝C_num-1；若

并且

则c＝C_num+1；若

和

有且只有一个为真，则c＝C_num；

在数据集DS3中，c＝8；

若分界点集合DPS的个数小于c，则将排序后的MRes中M值从大到小所对应的LPP依次添加到分界点集合DPS直到分界点集合DPS的个数等于c为止，对于数据集DS3，最终得到的分界点有A、B、C、D、E、a、b、e八个点；

步骤五：噪声识别

为了增强方法对噪声的识别，引入噪声参数μ

定义序邻域半径Oeps：CO中由DPS中的分界点所分割的各个CO子段，并对各个CO子段进行升序排序，如图3和图4，则Oeps是各个升序排序后的CO子段内每个点后面紧接着点的最小数目的领域大小，最小数目OMinPts＝len(CluSet_i)×0.05,len(CluSet_i)是指簇类中第i个簇类的数目；

则该点即为突变点，在该簇类中，突变点往后的点都记为噪声点，如图3中的A点即为突变点，图3中被框起来的点即为噪声点。

为了验证所提算法的有效性与可行性，将本发明与并与传统的DBSCAN、LDBSCAN、DPC、OPTICS四个聚类方法通过5组人工数据集和2组真实数据集，进行比较，数据集信息如表2所示。

如表3和图5所示，对于DS1数据集，所有其他算法都可以成功识别聚类，但是LDBSCAN会将许多法线点误识别为噪声点。对于没有噪声的带标签的Gaussian500数据集，所有算法都可以成功识别聚类。但是，五分之三的算法在噪声识别方面存在较大偏差如表4所示，其中DBSCAN的错误率为17.3％，OPTICS为14.3％，LDBSCAN为11.9％。DPC的最高准确性为99.67％。尽管图5中的虚线显示了错误分类，但我们提出的算法仍可以实现99.13％的高精度。出现错误的原因是，当OPTICS计算RD时，同一簇中部分点的RD比邻近群集的点大。

至于DS3和DS5，它们的簇密度是不同的。DS3是密度不均匀的任意形状的数据集，而DS5是簇密度差异很大的数据集，最大密度比为1:20。两个数据集的测试结果表明，本发明在处理任意形状，密度不均匀的数据集方面具有明显的优势。尽管DBSCAN和OPTICS无法对这两个数据集进行聚类，并且DS5中的稀疏聚类甚至都被它们误认为是噪声。LDBSCAN可以为DS5执行良好的聚类，尽管稀疏聚类中的少量点被认为是噪声。但是，在DS3中，它不足以将两个具有相似密度的相邻簇聚为一类，而将具有不均匀密度的簇分为两类。对于DPC算法，尽管可以正确识别任意形状的聚类和稀疏聚类，但它无法很好地聚类细长的聚类和具有较小间距的数据集。但是，我们的算法可以在具有任意形状和不均匀密度的数据集上实现精细聚类。尽管在处理DS5时会发生一些错误，但它们在可接受的范围内。

对于具有任意形状的环形DS2数据集，除了LDBSCAN和DPC之外，其他算法都可以正确识别聚类和噪声。LDBSCAN不能将几个不同的群集聚为一个，并且其噪声识别也不足。对于DPC算法，其聚类效果对于小间距，细长和环形的聚类而言是不够的。

表1几种方法信息

*表示本方法中还有另外三个默认参数；

表2数据集信息

表3人工数据的测试结果

如表4和图6所示，对于类似iris和seeds的多维数据，由于它们的数据分布和数据之间的距离未知，DBSCAN和LDBSCAN难以准确设置参数。因此，只能根据过去的经验设置参数值，需要进行多次调整。OPTICS可以通过“可达性图”快速调整参数eps。本发明可以根据数据簇设置参数C_num。对于iris数据集的聚类，本发明的准确率最高，达到89.26％，而其他方法的准确率不到70％。除本发明之外，其他四种方法无法将非线性分离的iris中的两个簇准确地聚类。至于seeds数据集的聚类精度，本发明的准确率达到81.9％，而其他方法仅为60％。DBSCAN，LDBSCAN和OPTICS将种子中超过五分之一的点误识别为噪声点，而DPC导致40％以上的点被错误地聚类。

表4实际数据集和带标签数据集的测试结果

除了在聚类效果的优点以外，本发明在运行时间上也有很大的优势。从图7可以看出，随着数据量的增加，尤其是DPC，LDBSCAN，OPTICS和DPC的运行时间都急剧增加。对于DBSCAN和FOP-OPTICS，它们的运行时间稳定增长。DBSCAN的运行时间会因参数eps的变化而波动，对于相同的数据集，eps的值越大，消耗的时间就越多。本发明的计算时间与数据集的大小和k-NN值有关。数据集越大，计算时间越长；k-NN值越大，计算时间将越长。

本发明公开的是一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于密度的多自适应阈值解决密度不均数据集的聚类方法，

定义eps邻域：在数据集D中，对于点p，p∈D，其eps邻域为数据集中与p的距离不大于eps的子集合，记为N_eps(p)；

定义核心对象：核心对象p的eps领域内至少包含MinPts个样本；

表示p的eps领域内距离p第Minpts远的点，

表示对象p和

之间的距离，核心距离定义如下：

定义可达距离，记为RD：对象p，o∈D，则o关于p的RD定义如下：

RD(p，o)＝max(CD(p)，d(p，o)) (2)；

定义簇类排序，记为CO：令D为包含n个点的数据集，由OPTICS算法生成点p：{1，...，n}→D和相应的可达距离RD：{1，...，n}→R_≥0的顺序，CO由点的排序和可达距离组成；

其特征在于，所述基于密度的多自适应阈值解决密度不均数据集的聚类方法包括以下步骤：

步骤一：从CO中确定每个簇类的分界点

定义局部峰值，记为LP：LP是指在CO中一定的连续范围内RD最大的值，该连续范围取值为MinPts的1-6倍，LP所对应的点称为Local Peak Points(LPP)，LP所对应的序号记为Local Peak Order(LPO).LP的集合记为LS＝{LS₁，...，LS_i，...，LS_k}，LS_i＝(LPO_i，LP_i)，k为集合LS中元素的个数；

以LP值的降序对LS中的元素进行排序，并遍历LS中的元素，则

SLPP_i＝min{|LP_i-LP_j|，j＝1，2，..，i-1} (3)；

当

LPP_i即为DP，并存储在集合DPS中，再从集合LS中删除LPP_i；否则的话，将LPP_i存储在待判断集合JLS；

步骤二：计算JLS中LPP的SLPP、DC、RC

SLPP的计算：根据步骤二中所描述的方法计算；

定义簇类深度，记为DC：由LPP_i与LP大于LP_i的LPP_i最邻近的两个LPP所形成的左右两个簇分别记为C^l＝{RD₁，...，RD_j，...，RD_l}和C^r＝{RD₁，...，RD_k，...，RD_r}，其中，RD_j和RD_k分别表示左右两个簇中第j和第k个可达距离，l和r分别表示左右两个簇元素的个数，则