CN112214655A - 基于密度的多自适应阈值解决密度不均数据集的聚类方法 - Google Patents

基于密度的多自适应阈值解决密度不均数据集的聚类方法 Download PDF

Info

Publication number
CN112214655A
CN112214655A CN202011070594.5A CN202011070594A CN112214655A CN 112214655 A CN112214655 A CN 112214655A CN 202011070594 A CN202011070594 A CN 202011070594A CN 112214655 A CN112214655 A CN 112214655A
Authority
CN
China
Prior art keywords
point
points
cluster
lpp
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011070594.5A
Other languages
English (en)
Inventor
唐春华
肖英杰
闫化然
曾祥堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011070594.5A priority Critical patent/CN112214655A/zh
Publication of CN112214655A publication Critical patent/CN112214655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,其具体步骤如下:(1)从簇类排序CO中确定每个簇类的分界点;(2)计算待判断集合JLS中局部峰值点LPP的局部峰值点跨度SLPP、簇类深度DC、簇类相关度RC;(3)确定分界点DP个数c;(4)识别各个簇类中的噪声点。本发明解决了传统的聚类方法中阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题,该方法简单易行,效率高。

Description

基于密度的多自适应阈值解决密度不均数据集的聚类方法
技术领域
本发明涉及一种数据挖掘领域,具体涉及到一种基于密度的多自适应阈值解决密度不均数据集的聚类方法。
背景技术
数据挖掘的重要方法之一是聚类,在聚类算法中使用最广泛的是基于密度的聚类算法,它可以检测具有任意形状的簇,但往往存在阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题。
发明内容
本发明的目的是为了克服上述现有技术的不足,提供了一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,针对传统的聚类方法的阈值难以确定、时间复杂度高、由于单一阈值而不适用于密度分布不均的数据集、噪声识别差等问题,该方法简单易行,效率高。
本发明采用的技术方案为:一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,本发明相关定义如下:
定义eps邻域:在数据集D中,对于点p,p∈D,其eps邻域为数据集中与p的距离不大于eps的子集合,记为Neps(p);
定义核心对象:核心对象p的eps领域内至少包含MinPts个样本;
定义密度可达:在集合D中,p为核心对象,若q∈Neps(p),q从p直接密度可达;
定义核心距离,记为CD:对于集合D,对象p∈D,使p成为核心对象的最小领域半径称为p的核心距离,
Figure BDA0002714804760000011
表示p的eps领域内距离p第Minpts远的点,
Figure BDA0002714804760000012
表示对象p和
Figure BDA0002714804760000013
之间的距离,核心距离定义如下:
Figure BDA0002714804760000014
定义可达距离,记为RD:对象p,o∈D,则o关于p的RD定义如下:
RD(p,o)=max(CD(p),d(p,o)) (2);
定义簇类排序,记为CO:令D为包含n个点的数据集,由OPTICS算法生成点p:{1,…,n}→D和相应的可达距离RD:{1,…,n}→R≥0的顺序,CO由点的排序和可达距离组成;
包括以下步骤:
步骤一:从CO中确定每个簇类的分界点
定义局部峰值,记为LP:LP是指在CO中一定的连续范围内RD最大的值,连续范围取值为MinPts的1-6倍,LP所对应的点称为Local Peak Points(LPP),LP所对应的序号记为Local Peak Order(LPO),LP的集合记为LS={LS1,...,LSi,...,LSk},LSi=(LPOi,LPi),k为集合LS中元素的个数;
定义分界点,记为DP:DP是指LS中恰好可以把CO分割成Cnum份的点,其中Cnum表示簇的个数,DPS是LS中分界点DP的集合;
定义局部峰值点跨度,记为SLPP:SLPP是LPP与CO的所有其他较大LPP之间的最小跨度;
以LP值的降序对LS中的元素进行排序,并遍历LS中的元素,则
SLPPi=min{|LPi-LPj|,j=1,2,..,i-1} (3);
Figure BDA0002714804760000021
LPPi即为DP,并存储在集合DPS中,再从集合LS中删除LPPi
否则的话,将LPPi存储在待判断集合JLS;
步骤二:计算JLS中LPP的SLPP、DC、RC
SLPP的计算:根据步骤二中所描述的方法计算;
定义簇类深度,记为DC:由LPPi与LP大于LPi的LPPi最邻近的两个LPP所形成的左右两个簇,由LPP D所形成的两个簇,分别记为Cl={RD1,...,RDj,...,RDl}和Cr={RD1,...,RDk,...,RDr},其中,RDj和RDk分别表示左右两个簇中第j和第k个可达距离,l和r分别表示左右两个簇元素的个数,则
Figure BDA0002714804760000022
定义簇类相关度,记为RC:RC是评价以LPP为分界点所形成两个聚类的相关程度的指标,LPi与簇类的平均值之间的差值越大,RC越低;
Figure BDA0002714804760000031
LP,SLPP,DC and RC是判断LPP是否为DP的衡量标准;
对SLPP,DC和RC这三个评判值先标准化后再计算,标准化公式如下:
Figure BDA0002714804760000032
其中,Ri是每个标准的第i个值,Rmax和Rmin分别是每个标准的最大值和最小值,
Figure BDA0002714804760000033
是Ri标准化后所对应的值;
假设衡量LS中的LPP点是否为DP的指标为M,则
Mi=LPi×log(SLPP+DC+RC+1)α (7);
其中,α是控制SLPP,DC and RC影响度的参数,默认值为2;
将JLS中所有LPP的M值存储在MRes中,并对MRes进行降序排序;
步骤三:确定分界点DP个数c
对分界点集合DPS按照分界点DP在CO中的序号进行升序排序;
假设DPS中排序后的第一个和最后一个分界点的序号分别为Os和Oe,若
Figure BDA0002714804760000034
并且
Figure BDA0002714804760000035
则c=Cnum-1;若
Figure BDA0002714804760000036
并且
Figure BDA0002714804760000037
则c=Cnum+1;若
Figure BDA0002714804760000038
Figure BDA0002714804760000039
有且只有一个为真,则c=Cnum;若分界点集合DPS的个数小于c,则将排序后的MRes中M值从大到小所对应的LPP依次添加到分界点集合DPS直到分界点集合DPS的个数等于c为止;
步骤四:噪声识别
为了增强方法对噪声的识别,引入噪声参数μ
定义噪声参数μ:μ是在簇类中进入噪声判定范围的比率,令μ为0.1意味着需要提取簇类后10%的点以查看它们是否为噪声,μ的默认值为0.2;
定义序邻域半径Oeps:CO中由DPS中的分界点所分割的各个CO子段,并对各个CO子段进行升序排序,则Oeps是各个升序排序后的CO子段内每个点后面紧接着点的最小数目的领域大小,最小数目OMinPts=len(CluSeti)×0.05,len(CluSeti)是指簇类中第i个簇类的数目;
定义突变点:通过OMinPts计算每个点的Oeps,然后将结果存储到集合中。它需要从该集合中获取中值Meps,然后计算其与当前点的Oeps之比,如果某个点
Figure BDA0002714804760000041
则该点即为突变点,在该簇类中,突变点往后的点都记为噪声点;
附图说明
图1为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法在聚类过程中的流程图;
图2为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序可视化;
图3为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序BD段的可视化;
图4为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法中数据集DS3的簇类排序BD段升序排序后的可视化;
图5为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法对五组人工数据的聚类效果;
图6为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法对两组真实数据的聚类效果;
图7为本发明基于密度的多自适应阈值解决密度不均数据集的聚类方法和其他四种方法的运行时间。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
如附图1所示,一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,选取数据集DS3为例,本发明相关定义如下:
定义eps邻域:在数据集D中,对于点p,p∈D,其eps邻域为数据集中与p的距离不大于eps的子集合,记为Neps(p);
定义核心对象:核心对象p的eps领域内至少包含MinPts个样本;
定义密度可达:在集合D中,p为核心对象,若q∈Neps(p),q从p直接密度可达;
定义核心距离,记为CD:对于集合D,对象p∈D,使p成为核心对象的最小领域半径称为p的核心距离,
Figure BDA0002714804760000051
表示p的eps领域内距离p第Minpts远的点,
Figure BDA0002714804760000052
表示对象p和
Figure BDA0002714804760000053
之间的距离,核心距离定义如下:
Figure BDA0002714804760000054
定义可达距离,记为RD:对象p,o∈D,则o关于p的RD定义如下:
RD(p,o)=max(CD(p),d(p,o)) (2);
定义簇类排序,记为CO:令D为包含n个点的数据集,由OPTICS算法生成点p:{1,…,n}→D和相应的可达距离RD:{1,…,n}→R≥0的顺序,CO由点的排序和可达距离组成;
包括以下步骤:
步骤一:从CO中确定每个簇类的分界点
定义局部峰值,记为LP:LP是指在CO中一定的连续范围内RD最大的值,如图2中点A-E及a-h所对应的RD,该连续范围取值为MinPts的1-6倍,LP所对应的点称为Local PeakPoints(LPP),如图2中的点A-E及a-h,LP所对应的序号记为Local Peak Order(LPO),LP的集合记为LS={LS1,...,LSi,...,LSk},LSi=(LPOi,LPi),k为集合LS中元素的个数;
对于数据集DS3,连续范围的取值为MinPts的两倍;
定义分界点,记为DP:DP是指LS中恰好可以把CO分割成Cnum份的点,其中Cnum表示簇的个数,在数据集DS3中Cnum=8,DPS是LS中分界点DP的集合;
定义局部峰值点跨度,记为SLPP:SLPP是LPP与CO的所有其他较大LPP之间的最小跨度;如图2所示,A-E和a-g均为LPP,LPP B的SLPP是B和A之间的跨度,LPP C的SLPP是C和A,C和B之间的跨度的最小值,依此类推;
以LP值的降序对LS中的元素进行排序,并遍历LS中的元素,则
SLPPi=min{|LPi-LPj|,j=1,2,..,i-1} (3);
Figure BDA0002714804760000055
LPPi即为DP,并存储在集合DPS中,再从集合LS中删除LPPi;否则的话,将LPPi存储在待判断集合JLS,在数据集DS3中,SLPPi大于等于
Figure BDA0002714804760000061
的点有A-E五个点;
步骤二:计算JLS中LPP的SLPP、DC、RC
SLPP的计算:根据步骤二中的公式(3)计算;
定义簇类深度(DC):由LPPi与LP大于LPi的LPPi最邻近的两个LPP所形成的左右两个簇(如图2中的有由LPP D所形成的两个簇为CD,B和CD,C)分别记为Cl={RD1,...,RDj,...,RDl}和Cr={RD1,...,RDk,...,RDr},其中,RDj和RDk分别表示左右两个簇中第j和第k个可达距离,l和r分别表示左右两个簇元素的个数,则
Figure BDA0002714804760000062
定义簇类相关度(RC):RC是评价以LPP为分界点所形成两个聚类的相关程度的指标,LPi与簇类的平均值之间的差值越大,RC越低;
Figure BDA0002714804760000063
LP,SLPP,DC and RC是判断LPP是否为DP的衡量标准;
对SLPP,DC和RC这三个评判值先标准化后再计算,标准化公式如下:
Figure BDA0002714804760000064
其中,Ri是每个标准的第i个值,Rmax和Rmin分别是每个标准的最大值和最小值,
Figure BDA0002714804760000065
是Ri标准化后所对应的值;
假设衡量LS中的LPP点是否为DP的指标为M,则
Mi=LPi×log(SLPP+DC+RC+1)α (7);
其中,α是控制SLPP,DC and RC影响度的参数,默认值为2;
将JLS中所有LPP的M值存储在MRes中,并对MRes进行降序排序;
步骤三:确定分界点DP个数c
对分界点集合DPS按照分界点DP在CO中的序号进行升序排序;
假设DPS中排序后的第一个和最后一个分界点的序号分别为Os和Oe,若
Figure BDA0002714804760000071
并且
Figure BDA0002714804760000072
则c=Cnum-1;若
Figure BDA0002714804760000073
并且
Figure BDA0002714804760000074
则c=Cnum+1;若
Figure BDA0002714804760000075
Figure BDA0002714804760000076
有且只有一个为真,则c=Cnum
在数据集DS3中,c=8;
若分界点集合DPS的个数小于c,则将排序后的MRes中M值从大到小所对应的LPP依次添加到分界点集合DPS直到分界点集合DPS的个数等于c为止,对于数据集DS3,最终得到的分界点有A、B、C、D、E、a、b、e八个点;
步骤五:噪声识别
为了增强方法对噪声的识别,引入噪声参数μ
定义噪声参数μ:μ是在簇类中进入噪声判定范围的比率,令μ为0.1意味着需要提取簇类后10%的点以查看它们是否为噪声,μ的默认值为0.2;
定义序邻域半径Oeps:CO中由DPS中的分界点所分割的各个CO子段,并对各个CO子段进行升序排序,如图3和图4,则Oeps是各个升序排序后的CO子段内每个点后面紧接着点的最小数目的领域大小,最小数目OMinPts=len(CluSeti)×0.05,len(CluSeti)是指簇类中第i个簇类的数目;
定义突变点:通过OMinPts计算每个点的Oeps,然后将结果存储到集合中。它需要从该集合中获取中值Meps,然后计算其与当前点的Oeps之比,如果某个点
Figure BDA0002714804760000077
则该点即为突变点,在该簇类中,突变点往后的点都记为噪声点,如图3中的A点即为突变点,图3中被框起来的点即为噪声点。
为了验证所提算法的有效性与可行性,将本发明与并与传统的DBSCAN、LDBSCAN、DPC、OPTICS四个聚类方法通过5组人工数据集和2组真实数据集,进行比较,数据集信息如表2所示。
如表3和图5所示,对于DS1数据集,所有其他算法都可以成功识别聚类,但是LDBSCAN会将许多法线点误识别为噪声点。对于没有噪声的带标签的Gaussian500数据集,所有算法都可以成功识别聚类。但是,五分之三的算法在噪声识别方面存在较大偏差如表4所示,其中DBSCAN的错误率为17.3%,OPTICS为14.3%,LDBSCAN为11.9%。DPC的最高准确性为99.67%。尽管图5中的虚线显示了错误分类,但我们提出的算法仍可以实现99.13%的高精度。出现错误的原因是,当OPTICS计算RD时,同一簇中部分点的RD比邻近群集的点大。
至于DS3和DS5,它们的簇密度是不同的。DS3是密度不均匀的任意形状的数据集,而DS5是簇密度差异很大的数据集,最大密度比为1:20。两个数据集的测试结果表明,本发明在处理任意形状,密度不均匀的数据集方面具有明显的优势。尽管DBSCAN和OPTICS无法对这两个数据集进行聚类,并且DS5中的稀疏聚类甚至都被它们误认为是噪声。LDBSCAN可以为DS5执行良好的聚类,尽管稀疏聚类中的少量点被认为是噪声。但是,在DS3中,它不足以将两个具有相似密度的相邻簇聚为一类,而将具有不均匀密度的簇分为两类。对于DPC算法,尽管可以正确识别任意形状的聚类和稀疏聚类,但它无法很好地聚类细长的聚类和具有较小间距的数据集。但是,我们的算法可以在具有任意形状和不均匀密度的数据集上实现精细聚类。尽管在处理DS5时会发生一些错误,但它们在可接受的范围内。
对于具有任意形状的环形DS2数据集,除了LDBSCAN和DPC之外,其他算法都可以正确识别聚类和噪声。LDBSCAN不能将几个不同的群集聚为一个,并且其噪声识别也不足。对于DPC算法,其聚类效果对于小间距,细长和环形的聚类而言是不够的。
表1几种方法信息
Figure BDA0002714804760000081
*表示本方法中还有另外三个默认参数;
表2数据集信息
Figure BDA0002714804760000082
Figure BDA0002714804760000091
表3人工数据的测试结果
Figure BDA0002714804760000092
如表4和图6所示,对于类似iris和seeds的多维数据,由于它们的数据分布和数据之间的距离未知,DBSCAN和LDBSCAN难以准确设置参数。因此,只能根据过去的经验设置参数值,需要进行多次调整。OPTICS可以通过“可达性图”快速调整参数eps。本发明可以根据数据簇设置参数Cnum。对于iris数据集的聚类,本发明的准确率最高,达到89.26%,而其他方法的准确率不到70%。除本发明之外,其他四种方法无法将非线性分离的iris中的两个簇准确地聚类。至于seeds数据集的聚类精度,本发明的准确率达到81.9%,而其他方法仅为60%。DBSCAN,LDBSCAN和OPTICS将种子中超过五分之一的点误识别为噪声点,而DPC导致40%以上的点被错误地聚类。
表4实际数据集和带标签数据集的测试结果
Figure BDA0002714804760000101
除了在聚类效果的优点以外,本发明在运行时间上也有很大的优势。从图7可以看出,随着数据量的增加,尤其是DPC,LDBSCAN,OPTICS和DPC的运行时间都急剧增加。对于DBSCAN和FOP-OPTICS,它们的运行时间稳定增长。DBSCAN的运行时间会因参数eps的变化而波动,对于相同的数据集,eps的值越大,消耗的时间就越多。本发明的计算时间与数据集的大小和k-NN值有关。数据集越大,计算时间越长;k-NN值越大,计算时间将越长。
本发明公开的是一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (1)

1.一种基于密度的多自适应阈值解决密度不均数据集的聚类方法,
定义eps邻域:在数据集D中,对于点p,p∈D,其eps邻域为数据集中与p的距离不大于eps的子集合,记为Neps(p);
定义核心对象:核心对象p的eps领域内至少包含MinPts个样本;
定义密度可达:在集合D中,p为核心对象,若q∈Neps(p),q从p直接密度可达;
定义核心距离,记为CD:对于集合D,对象p∈D,使p成为核心对象的最小领域半径称为p的核心距离,
Figure FDA0002714804750000011
表示p的eps领域内距离p第Minpts远的点,
Figure FDA0002714804750000012
表示对象p和
Figure FDA0002714804750000013
之间的距离,核心距离定义如下:
Figure FDA0002714804750000014
定义可达距离,记为RD:对象p,o∈D,则o关于p的RD定义如下:
RD(p,o)=max(CD(p),d(p,o)) (2);
定义簇类排序,记为CO:令D为包含n个点的数据集,由OPTICS算法生成点p:{1,...,n}→D和相应的可达距离RD:{1,...,n}→R≥0的顺序,CO由点的排序和可达距离组成;
其特征在于,所述基于密度的多自适应阈值解决密度不均数据集的聚类方法包括以下步骤:
步骤一:从CO中确定每个簇类的分界点
定义局部峰值,记为LP:LP是指在CO中一定的连续范围内RD最大的值,该连续范围取值为MinPts的1-6倍,LP所对应的点称为Local Peak Points(LPP),LP所对应的序号记为Local Peak Order(LPO).LP的集合记为LS={LS1,...,LSi,...,LSk},LSi=(LPOi,LPi),k为集合LS中元素的个数;
定义分界点,记为DP:DP是指LS中恰好可以把CO分割成Cnum份的点,其中Cnum表示簇的个数,DPS是LS中分界点DP的集合;
定义局部峰值点跨度,记为SLPP:SLPP是LPP与CO的所有其他较大LPP之间的最小跨度;
以LP值的降序对LS中的元素进行排序,并遍历LS中的元素,则
SLPPi=min{|LPi-LPj|,j=1,2,..,i-1} (3);
Figure FDA0002714804750000021
LPPi即为DP,并存储在集合DPS中,再从集合LS中删除LPPi;否则的话,将LPPi存储在待判断集合JLS;
步骤二:计算JLS中LPP的SLPP、DC、RC
SLPP的计算:根据步骤二中所描述的方法计算;
定义簇类深度,记为DC:由LPPi与LP大于LPi的LPPi最邻近的两个LPP所形成的左右两个簇分别记为Cl={RD1,...,RDj,...,RDl}和Cr={RD1,...,RDk,...,RDr},其中,RDj和RDk分别表示左右两个簇中第j和第k个可达距离,l和r分别表示左右两个簇元素的个数,则
Figure FDA0002714804750000022
定义簇类相关度,记为RC:RC是评价以LPP为分界点所形成两个聚类的相关程度的指标,LPi与簇类的平均值之间的差值越大,RC越低;
Figure FDA0002714804750000023
LP,SLPP,DC和RC是判断LPP是否为DP的衡量标准;
对SLPP,DC和RC这三个评判值先标准化后再计算,标准化公式如下:
Figure FDA0002714804750000024
其中,Ri是每个标准的第i个值,Rmax和Rmin分别是每个标准的最大值和最小值,
Figure FDA0002714804750000025
是Ri标准化后所对应的值;
假设衡量LS中的LPP点是否为DP的指标为M,则
Mi=LPi×log(SLPP+DC+RC+1)α (7);
其中,α是控制SLPP,DC and RC影响度的参数,默认值为2;
将JLS中所有LPP的M值存储在MRes中,并对MRes进行降序排序;
步骤三:确定分界点DP个数c
对分界点集合DPS按照分界点DP在CO中的序号进行升序排序;
假设DPS中排序后的第一个和最后一个分界点的序号分别为Os和Oe,若
Figure FDA0002714804750000031
并且
Figure FDA0002714804750000032
则c=Cnum-1;
Figure FDA0002714804750000033
并且
Figure FDA0002714804750000034
则c=Cnum+1;
Figure FDA0002714804750000035
Figure FDA0002714804750000036
有且只有一个为真,则c=Cnum
若分界点集合DPS的个数小于c,则将排序后的MRes中M值从大到小所对应的LPP依次添加到分界点集合DPS直到分界点集合DPS的个数等于c为止;
步骤四:噪声识别
为了增强方法对噪声的识别,引入噪声参数μ
定义噪声参数μ:μ是在簇类中进入噪声判定范围的比率,令μ为0.1意味着需要提取簇类后10%的点以查看它们是否为噪声,μ的默认值为0.2;
定义序邻域半径Oeps:Oeps是CO中每个点后面紧接着点的最小数目的领域大小,最小数目OMinPts=len(CluSeti)×0.05,len(CluSeti)是指簇类中第i个簇类的数目;
定义突变点:通过OMinPts计算每个点的Oeps,然后将结果存储到集合中;它需要从该集合中获取中值Meps,然后计算其与当前点的Oeps之比,如果某个点
Figure FDA0002714804750000037
则该点即为突变点,在该簇类中,突变点往后的点都记为噪声点。
CN202011070594.5A 2020-10-09 2020-10-09 基于密度的多自适应阈值解决密度不均数据集的聚类方法 Pending CN112214655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011070594.5A CN112214655A (zh) 2020-10-09 2020-10-09 基于密度的多自适应阈值解决密度不均数据集的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011070594.5A CN112214655A (zh) 2020-10-09 2020-10-09 基于密度的多自适应阈值解决密度不均数据集的聚类方法

Publications (1)

Publication Number Publication Date
CN112214655A true CN112214655A (zh) 2021-01-12

Family

ID=74052847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011070594.5A Pending CN112214655A (zh) 2020-10-09 2020-10-09 基于密度的多自适应阈值解决密度不均数据集的聚类方法

Country Status (1)

Country Link
CN (1) CN112214655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033690A (zh) * 2022-05-31 2022-09-09 国网江苏省电力有限公司信息通信分公司 一种通信缺陷研判知识库构建方法、缺陷识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033690A (zh) * 2022-05-31 2022-09-09 国网江苏省电力有限公司信息通信分公司 一种通信缺陷研判知识库构建方法、缺陷识别方法及系统

Similar Documents

Publication Publication Date Title
Flach ROC analysis
AU2015224564B2 (en) Optimization of audio fingerprint search
CN108667684B (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN116166960B (zh) 用于神经网络训练的大数据特征清洗方法及系统
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN115393657B (zh) 基于图像处理的金属管材生产异常识别方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN111275132A (zh) 一种基于sa-pfcm++算法的目标分群方法
WO2024036709A1 (zh) 一种异常数据检测方法及装置
CN116610938B (zh) 曲线模式分段的半导体制造无监督异常检测方法及设备
CN113537321A (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN117764290B (zh) 一种水利工程施工用bim模型数据管理方法
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN112214655A (zh) 基于密度的多自适应阈值解决密度不均数据集的聚类方法
CN104992050A (zh) 基于统计信号处理的时间序列特性评价的预测模型选择方法
CN114417095A (zh) 一种数据集划分方法及装置
CN113515450A (zh) 一种环境异常检测方法和系统
CN107423319B (zh) 一种垃圾网页检测方法
CN115841491A (zh) 一种多孔金属材料的质量检测方法
CN112650818B (zh) 一种基于多维时序数据的聚类挖掘方法
CN111931861B (zh) 一种异质性数据集的异常检测方法及计算机可读存储介质
CN109063733A (zh) 一种基于双参数离群因子的离群点检测方法
CN111652733B (zh) 基于云计算和区块链的金融信息管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112