CN114117141A - 一种自适应密度聚类方法、存储介质及系统 - Google Patents

一种自适应密度聚类方法、存储介质及系统 Download PDF

Info

Publication number
CN114117141A
CN114117141A CN202111443495.1A CN202111443495A CN114117141A CN 114117141 A CN114117141 A CN 114117141A CN 202111443495 A CN202111443495 A CN 202111443495A CN 114117141 A CN114117141 A CN 114117141A
Authority
CN
China
Prior art keywords
sup
natural
eps
clustering
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111443495.1A
Other languages
English (en)
Inventor
卢建云
李腾
路亚
李士果
绍俊明
宁丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing College of Electronic Engineering
Original Assignee
Chongqing College of Electronic Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing College of Electronic Engineering filed Critical Chongqing College of Electronic Engineering
Priority to CN202111443495.1A priority Critical patent/CN114117141A/zh
Publication of CN114117141A publication Critical patent/CN114117141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Abstract

本发明涉及聚类分析技术领域,具体为一种自适应密度聚类方法、存储介质及系统其中方法包括:supk计算步骤:计算数据集S的自然特征值supk
Figure DDA0003384123630000011
计算步骤:根据supk,计算自然特征集
Figure DDA0003384123630000012
Eps计算步骤:根据
Figure DDA0003384123630000013
中的数据对象,获取S中不同密度区域的Eps;聚类步骤:根据supk和S中不同密度区域的Eps,设置MinPts和Eps,启用DBSCAN算法进行聚类。本方案能自适应设置参数MinPts和Eps,克服数据集密度分布对DBSCAN的影响,从而保证聚类的效果。

Description

一种自适应密度聚类方法、存储介质及系统
技术领域
本发明涉及聚类分析技术领域,具体为一种自适应密度聚类方法、存储介质及系统。
背景技术
随着通信技术的飞速发展,使得信息数据的增长数据突破了指数级别,从而造成数据过量和信息爆炸等现象,传统的数据信息处理技术,已经无法在海量的数据信息中提取有价值的信息,因此为了满足人们对数据信息处理的需求,数据挖掘在大数据时代应运而生,成为处理海量数据信息的重要技术。数据挖掘分为分类、估值、预测、相关性分组或关联规则和聚类。其中聚类是自动寻找并建立分组规则的方法,通过判断样本之间的相似性,把相似样本划分在一个簇中。
聚类是数据挖掘中常用的方法,聚类拥有大量的聚类算法,其中典型的聚类算法包括:基于划分的K-means算法、K-medoids算法和K-Nearest Neighborhood算法,基于层次的CURE算法和CHAMELEON算法,基于密度的DBSCAN算法和OPTICS算法,基于网格的CLIQUE算法。基于密度的算法相对于其他聚类算法拥有很多优点,例如:不需要固定数量的簇,可以发现任意形状的聚类,不易受到噪声点的干扰等,因此被广泛应用在各个领域的信息处理中。在基于密度的聚类算法中,DBSCAN算法是其中最为经典的算法之一,DBSCAN算法使用人工设定的两个重要的参数——领域半径值Eps和领域阈值MinPts,通过查找每个数据对象的Eps领域中数据对象的点数Pts,通过Pts≥MinPts来定义核心对象,再对每个核心对象的点的Eps领域内的核心对象进行查找,将处于该核心对象的Eps领域内的核心对象的点定义为直接密度可达,并将所有密度可达的核心对象归为一个簇,接着再以密度连接的概念将密度可达的所有密度可达的核心对象归为一个簇,最后对于核心对象密度直接可达的非核心对象,算法将其归类于该核心对象所在的簇当中。
DBSCAN算法的性能受到两个重要的参数的影响,对不同的数据集进行聚类时,需要人工进行设置,如果每次都采用固定的Eps和MinPts对于稀疏程度不同的数据集不具适应性,会导致密度小的区域同一聚类易被分割,或密度大的区域不同聚类易被合并,而人工设置时只是根据反复测试的结果或者经验进行设置,如果设置的Eps和MinPts不合适,也会严重影响DBSCAN算法的效果。
发明内容
本发明的目的之一在于提供一种自适应密度聚类方法,能自适应设置参数,保证聚类的效果。
本发明提供的基础方案一:一种自适应密度聚类方法,包括如下内容:
supk计算步骤:计算数据集S的自然特征值supk
Figure BDA0003384123610000021
计算步骤:根据supk,计算自然特征集
Figure BDA0003384123610000022
Eps计算步骤:根据
Figure BDA0003384123610000023
中的数据对象,获取S中不同密度区域的Eps;
聚类步骤:根据supk和S中不同密度区域的Eps,设置MinPts和Eps,启用DBSCAN算法进行聚类。
基础方案一的有益效果:对于Eps和MinPts的确定,本方法中计算数据集S的自然特征值supk,supk表示数据集S中所有数据对象的平均自然最近邻个数,其中自然最近邻的求解过程中,不需要指定自然最近邻个数或者自然最近邻的邻域半径,它是一种无尺度的最近邻概念,整个求解过程中只需要设置终止条件,因此整个计算过程是对给定的数据集的一个自适应过程,而自然最近邻个数是一种量化的度量方法,能够反映数据集疏密分布情况,数据集中大部分数据对象都拥有supk个自然最近邻,在不考虑噪声和局部绝对密度时,数据集中大部分数据对象都是核心对象,因此可以根据supk来设置MinPts。
自然最近邻个数为supk的数据对象基本能遍布S的每个区域,也就是说覆盖了S中的不同密度区域,因此为了便于标识,根据supk,计算自然特征集
Figure BDA0003384123610000024
将满足supk的数据对象组成集合
Figure BDA0003384123610000025
由于
Figure BDA0003384123610000026
中的数据对象的分布覆盖了S中的不同密度区域,因此根据
Figure BDA0003384123610000027
中的数据对象,获取S中不同密度区域的Eps,在根据S中不同密度区域的Eps,设置Eps,从而自适应的设置了MinPts和Eps,进而启用DBSCAN算法进行聚类。
本方法能自适应设置参数MinPts和Eps,supk能够反映数据集疏密分布情况,根据supk设置的MinPts,不会过大或者过小,根据S中不同密度区域的Eps设置的Eps,能克服数据集密度分布对DBSCAN算法的影响,从而保证聚类的效果。
进一步,所述supk计算步骤,包括:
输入数据集S,S包含若干数据对象:S={x1,x2,…,xn-1,xn};
对于数据对象xi,xi∈S,若存在数据对象xj,xj∈S,xi≠xj的supk最近邻路径经历xi,且supk满足S中最离群的数据对象存在最近邻路径到达,则当前supk为自然特征值:
Figure BDA0003384123610000031
其中s.t.x∈NNk(y)表示对x和y的限定:x和y是属于彼此的自然最近邻。
有益效果:上述表达式为自然特征值的形式化定义,supk满足S中最离群的数据对象都有k最近邻路径到达时的最小的k值,使S大部分数据对象都拥有至少supk个自然最近邻。
进一步,采用自然邻居搜索算法计算supk,且自然邻居搜索算法采用kd树进行索引。
有益效果:当数据集中包含离群点时,supk的值会比较大,因此采用自然邻居搜索算法,以降低时间复杂度,从而减少计算量。
进一步,计算supk之前,还包括:移除噪声点。
有益效果:在计算supk时,先移除噪声点,从而消除噪音点对密度分布差异的影响,进而提升后续聚类的效果。
进一步,所述
Figure BDA0003384123610000032
计算步骤,包括:
若存在数据对象xi,xi∈S,且xi的自然最近邻个数为supk,则xi为自然特征对象,将自然特征对象组成为集合,即自然特征集
Figure BDA0003384123610000033
Figure BDA0003384123610000034
其中,|RNN(xi)|表示xi的自然最近邻集合中数据对象个数。
有益效果:
Figure BDA0003384123610000035
能对S中自然最近邻个数为supk的数据对象在S的整个区域中进行标识。
进一步,所述Eps计算步骤,包括:
根据
Figure BDA0003384123610000036
和自然最近邻域,计算自然特征集Eps均值
Figure BDA0003384123610000037
自然特征集Eps最大值
Figure BDA0003384123610000038
和/或自然特征集Eps最小值
Figure BDA0003384123610000039
Figure BDA00033841236100000310
Figure BDA00033841236100000311
Figure BDA00033841236100000312
其中,RNN(xi)表示xi的自然最近邻集合,d(xi,xj)表示xi和xj之间的距离。
有益效果:
Figure BDA00033841236100000313
表示整个
Figure BDA00033841236100000314
中数据对象supk自然邻域的平均半径;
Figure BDA00033841236100000315
表示S中密集区域数据对象supk自然邻域的最大半径;
Figure BDA00033841236100000316
表示S中稀疏区域数据对象supk自然邻域的最小半径,三种半径基本能克服数据集变密度分布对DBSCAN的影响。
进一步,d(xi,xj)采用欧式距离。
有益效果:欧式距离是在m维空间中两个点之间的真实距离,从而保证获得Eps的准确性。
进一步,所述聚类步骤,包括:
分别设置DBSCAN算法中MinPts=supk
Figure BDA0003384123610000041
MinPts=supk
Figure BDA0003384123610000042
和/或MinPts=supk
Figure BDA0003384123610000043
分别进行聚类;
分别返回聚类结果C={C1,C2,…,Cm}。
有益效果:
Figure BDA0003384123610000044
能够识别S中稀疏区域的类簇,
Figure BDA0003384123610000045
能够识别S中密集区域的类簇,也可以将二者进行结合识别不同密度的类簇;
Figure BDA0003384123610000046
S能获得比较好的聚类结果。
本发明的目的之二在于提供一种自适应密度聚类存储介质,能自适应设置参数,保证聚类的效果。
本发明提供基础方案二:一种自适应密度聚类存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项上述自适应密度聚类方法的步骤。
基础方案二的有益效果:自适应密度聚类存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项上述自适应密度聚类方法的步骤,能自适应设置参数,保证聚类的效果,便于自适应密度聚类方法的应用。
本发明的目的之三在于提供一种自适应密度聚类系统,能自适应设置参数,保证聚类的效果。
本发明提供基础方案三:一种自适应密度聚类系统,采用上述自适应密度聚类方法。
基础方案三的有益效果:本系统采用上述自适应密度聚类方法,能自适应设置参数,保证聚类的效果。
附图说明
图1为本发明一种自适应密度聚类方法实施例的流程示意图;
图2为本发明一种自适应密度聚类方法实施例中数据集分布示例1的分布图;
图3为本发明一种自适应密度聚类方法实施例中数据集分布示例2的分布图;
图4为本发明一种自适应密度聚类方法实施例中图2所示的数据集的自然最近邻数目分布柱状图;
图5为本发明一种自适应密度聚类方法实施例中图3所示的数据集的自然最近邻数目分布柱状图;
图6为本发明一种自适应密度聚类方法实施例中图2所示数据集的三种策略选择Eps值的分布情况示意图;
图7为本发明一种自适应密度聚类方法实施例中图3所示数据集的三种策略选择Eps值的分布情况示意图;
图8为本发明一种自适应密度聚类方法实施例中O_1数据集的supk=5,Eps=1.4142的聚类结果示意图;
图9为本发明一种自适应密度聚类方法实施例中O_1数据集的supk=5,Eps=2.5169的聚类结果示意图;
图10为本发明一种自适应密度聚类方法实施例中O_1数据集的supk=5,Eps=5的聚类结果示意图;
图11为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的supk=6,Eps=0.2327的聚类结果示意图;
图12为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的supk=6,Eps=0.3677的聚类结果示意图;
图13为本发明一种自适应密度聚类方法实施例中data_uc_cv_n数据集的supk=6,Eps=0.5764的聚类结果示意图;
图14为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的supk=5,Eps=0.1992的聚类结果示意图;
图15为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的supk=5,Eps=0.3893的聚类结果示意图;
图16为本发明一种自适应密度聚类方法实施例中data_uc_n数据集的supk=5,Eps=0.6158的聚类结果示意图;
图17为本发明一种自适应密度聚类方法实施例中x4数据集的supk=6,Eps=0.1351的聚类结果示意图;
图18为本发明一种自适应密度聚类方法实施例中x4数据集的supk=6,Eps=0.2376的聚类结果示意图;
图19为本发明一种自适应密度聚类方法实施例中x4数据集的supk=6,Eps=0.5884的聚类结果示意图;
图20为本发明一种自适应密度聚类方法实施例中t4数据集的supk=11,Eps=4.2195的聚类结果示意图;
图21为本发明一种自适应密度聚类方法实施例t4数据集的supk=11,Eps=4.9240的聚类结果示意图;
图22为本发明一种自适应密度聚类方法实施例t4数据集的supk=11,Eps=13.8323的聚类结果示意图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
实施例基本如附图1所示:一种自适应密度聚类方法,本实施例中本方法应用于图像分割,包括如下内容:
supk计算步骤:计算数据集S的自然特征值supk;具体为:
输入数据集S,S包含若干数据对象:S={x1,x2,…,xn-1,xn};
对于数据对象xi,xi∈S,若存在数据对象xj,xj∈S,xi≠xj的supk最近邻路径经历xi,且supk满足S中最离群的数据对象存在最近邻路径到达,则当前supk为自然特征值:
Figure BDA0003384123610000061
其中s.t.x∈NNk(y)表示对x和y的限定:x和y是属于彼此的自然最近邻;自然最近邻:对于数据对象xi,xi∈S,若存在数据对象xj,xj∈S,xi≠xj的最近邻路径经历xi,且当S中最离群的数据对象存在最近邻路径到达时,则称xj为xi的自然最近邻;从自然最近邻的定义可知,求解自然最近邻时,不需要指定自然最近邻个数或者自然最近邻的邻域半径,它是一种无尺度的最近邻概念。求解自然最近邻的终止条件是数据集中最离群的数据对象都有最近邻路径到达,其核心思想是设置计算的终止条件,整个计算过程是对给定数据集的一个自适应过程,当迭代计算收敛时,得到数据集中每个对象的自然最近邻。自然最近邻数目是一种量化的度量方法,能够反映数据集疏密分布情况。
在DBSCAN算法中,数据对象局部密度的定义:
ρ(x)=|NEps(x)|
其中ρ是一个整数,表示数据对象x的局部密度;
|NEps(x)|表示数据对象x在Eps邻域内的邻居个数。下面给出数据集中核心对象的定义:
ρ(x)≥MinPts
由上述公式可知,在已知数据对象的局部密度时,数据集中的核心对象由参数MinPts决定,如果数据对象x的局部密度大于等于MinPts,则x为核心对象,对于DBSCAN算法,在不考虑绝对局部密度时(即不考虑参数Eps的值),数据集中大部分数据对象都应该是核心对象,只有少部分是边缘对象和噪声,这决定了设置参数MinPts的值不能过大,也不能偏小。因此,在不考虑参数Eps值时,先确定参数MinPts的值,使大部分对象都拥有至少MinPts个邻居。为了确定参数MinPts的值,所以本方法采用自然最近邻概念,先计算自然特征值supk,后续根据supk来设置MinPts。
在计算supk时,采用自然邻居搜索算法,且自然邻居搜索算法采用kd树进行索引,自然邻居搜索算法,输入数据集S;输出自然特征值supk,数据对象自然最近邻数量,数据对象自然最近邻记录;算法的时间复杂度为O(nlogn+nsupk),且通过大量实验可知,自然特征值远小于数据集规模n(一般在1到30之内),所以该算法的时间复杂度为O(nlogn)。以图2和图3所示的数据集分布示例1和示例2为例,经supk计算步骤,S的自然最近邻个数为supk的数据对象的分布,如图2所示,其中supk=4,实心点的数据对象为自然最近邻个数为supk=4的数据对象;图2所示的数据集的自然最近邻数目分布如图4所示;如图3所示,其中supk=5,实心点的数据对象为自然最近邻个数为supk=5的数据对象;图3所示的数据集的自然最近邻数目分布如图5所示。
Figure BDA0003384123610000071
计算步骤:根据supk,计算自然特征集
Figure BDA0003384123610000072
由图2和图3可以看出,自然邻居个数为supk的数据对象几乎遍布了数据集的每个区域,也就是说覆盖了数据集中的不同密度区域,因此为了便于标识,将满足这种特性的数据对象进行集合,因此进行
Figure BDA0003384123610000073
计算步骤,具体为:若存在数据对象xi,xi∈S,且xi的自然最近邻个数为supk,则xi为自然特征对象,将自然特征对象组成为集合,自然特征集
Figure BDA0003384123610000074
Figure BDA0003384123610000075
其中,|RNN(xi)|表示xi的自然最近邻集合中数据对象个数;时间复杂度为O(n)。
为了克服数据集变密度分布对DBSCAN算法的影响,因此进行Eps计算步骤。
Eps计算步骤:根据
Figure BDA0003384123610000081
中的数据对象,获取S中不同密度区域的Eps;由于
Figure BDA0003384123610000082
中的数据对象的分布覆盖了数据集中的不同密度区域,因此,能够利用
Figure BDA0003384123610000083
中的数据对象获取数据集中不同密度区域的Eps值,本实施例中给出选择Eps值的三种策略,具体为:
根据
Figure BDA0003384123610000084
和自然最近邻域,计算自然特征集Eps均值
Figure BDA0003384123610000085
自然特征集Eps最大值
Figure BDA0003384123610000086
和/或自然特征集Eps最小值
Figure BDA0003384123610000087
Figure BDA0003384123610000088
Figure BDA0003384123610000089
Figure BDA00033841236100000810
其中,d(xi,xj)表示xi和xj之间的距离,本实施例中采用欧式距离,欧式距离是在m维空间中两个点之间的真实距离,从而保证获得Eps的准确性;
时间复杂度为O(m log m),mn;
Figure BDA00033841236100000811
表示整个
Figure BDA00033841236100000812
中数据对象supk自然邻域的平均半径;
Figure BDA00033841236100000813
表示S中密集区域数据对象supk自然邻域的最大半径;
Figure BDA00033841236100000814
表示S中稀疏区域数据对象supk自然邻域的最小半径,三种半径基本能克服数据集变密度分布对DBSCAN的影响。
对于图2和图3中给出的自然特征集(实心点的数据对象),图6给出了图2所示数据集的三种策略选择Eps值的分布情况:
Figure BDA00033841236100000815
Figure BDA00033841236100000816
图7给出了图3所示数据集的三种策略选择Eps值的分布情况:
Figure BDA00033841236100000817
Figure BDA00033841236100000818
由图6和图7可能得出,图6的
Figure BDA00033841236100000819
的距离分布小于图7的
Figure BDA00033841236100000820
的距离分布,即图6的S的密度分布差异小于图7的S的密度分布差异,因为密度分布差异会受到噪声点的影响,因此在计算supk时,可先移除噪声点。
聚类步骤:根据supk和S中不同密度区域的Eps,设置MinPts和Eps,启用DBSCAN算法进行聚类,具体为:分别设置DBSCAN算法中MinPts=supk
Figure BDA00033841236100000821
MinPts=supk
Figure BDA00033841236100000822
和/或MinPts=supk
Figure BDA00033841236100000823
分别进行聚类;
分别返回聚类结果C={C1,C2,…,Cm}。
具体地,在图像分割中,将原始图像的图像数据转为灰度值数据集,灰度值数据集为数据集S,每个像素点为数据对象,计算数据集S的自然特征值supk;根据supk,计算自然特征集
Figure BDA0003384123610000091
根据
Figure BDA0003384123610000092
中的数据对象,获取S中不同密度区域的Eps;根据supk和S中不同密度区域的Eps,设置MinPts和Eps,启用DBSCAN算法对S进行聚类,获取灰度的分割图像,然后对灰度的分割图像进行染色获得分割图像。
检测采用本方法进行聚类的效果,采用本地和公有云两种实验环境通过本方法对图像进行聚类获得分割图像,两种实验环境设置如表1所示。
表1:实验环境设置
Figure BDA0003384123610000093
本地实验环境用来进行有效性实验,采用MATLAB2019a实现。公有云实验环境用来进行性能实验,采用Python3.6实现。
用于有效性实验的数据集如表2所示,采用ARI[]和NMI[]作为聚类结果评价指标:
表2有效性实验数据集信息
Figure BDA0003384123610000094
Figure BDA0003384123610000101
用于性能实验的数据集如表3所示:
表3性能实验数据集信息
Figure BDA0003384123610000102
本方法有效性实验聚类结果,如表4所示:
表4有效性实验聚类结果
Figure BDA0003384123610000103
Figure BDA0003384123610000111
本方法有效性实验聚类ARI和NMI结果,如表5所示:
表5有效性实验聚类ARI和NMI结果
Figure BDA0003384123610000112
Figure BDA0003384123610000121
表6有效性实验聚类运行时间表
Figure BDA0003384123610000122
有效性实验的数据集有13个,如图8至图22所示,其中图8至图15所示的数据集带有类别标签,通过聚类评价指标ARI和NMI进行实验结果分析,如表5所示,图16至图22所示的数据集无类别标签,通过聚类结果可视化进行实验结果分析,如表4所示。
在表4中,给出了数据集名称,参数MinPts和Eps的取值,NC表示聚类结果的数目(噪声点也计算为一类),从表4可以看出,通过本方法将MinPts=supk
Figure BDA0003384123610000123
或者MinPts=supk
Figure BDA0003384123610000124
再进行DBSCAN算法,能够识别出正确的聚类数目,除了数据集t4比实际类别数目多出一个类别。通过本方法将MinPts=supk
Figure BDA0003384123610000125
由于Eps值相对较小,MinPts值不变,DBSCAN算法会将数据集划分成更多的类簇,如x4和t4,或者将数据集中更多的数据对象划分为噪声点,如O_1、data_uc_cv_n和data_uc_n。
Figure BDA0003384123610000126
能够识别S中稀疏区域的类簇,
Figure BDA0003384123610000127
能够识别S中密集区域的类簇,也可以将二者进行结合识别不同密度的类簇;整体来看,
Figure BDA0003384123610000128
S能获得更好的聚类结果。参数具体选择可以根据实际应用情况进行设置。
本实施例还提供自适应密度聚类系统,使用上述自适应密度聚类方法。
上述自适应密度聚类方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种自适应密度聚类方法,其特征在于:包括如下内容:
supk计算步骤:计算数据集S的自然特征值supk
Figure FDA0003384123600000011
计算步骤:根据supk,计算自然特征集
Figure FDA0003384123600000012
Eps计算步骤:根据
Figure FDA0003384123600000013
中的数据对象,获取S中不同密度区域的Eps;
聚类步骤:根据supk和S中不同密度区域的Eps,设置MinPts和Eps,启用DBSCAN算法进行聚类。
2.根据权利要求1所述的自适应密度聚类方法,其特征在于:所述supk计算步骤,包括:
输入数据集S,S包含若干数据对象,S={x1,x2,…,xn-1,xn};
对于数据对象xi,xi∈S,若存在数据对象xj,xj∈S,xi≠xj的supk最近邻路径经历xi,且supk满足S中最离群的数据对象存在最近邻路径到达,则当前supk为自然特征值:
Figure FDA0003384123600000014
其中s.t.x∈NNk(y)表示对x和y的限定:x和y是属于彼此的自然最近邻。
3.根据权利要求2所述的自适应密度聚类方法,其特征在于:采用自然邻居搜索算法计算supk,且自然邻居搜索算法采用kd树进行索引。
4.根据权利要求3所述的自适应密度聚类方法,其特征在于:计算supk之前,还包括:移除噪声点。
5.根据权利要求1所述的自适应密度聚类方法,其特征在于:所述
Figure FDA0003384123600000015
计算步骤,包括:
若存在数据对象xi,xi∈S,且xi的自然最近邻个数为supk,则xi为自然特征对象,将自然特征对象组成为集合,即自然特征集
Figure FDA0003384123600000016
Figure FDA0003384123600000017
其中,|RNN(xi)|表示xi的自然最近邻集合中数据对象个数。
6.根据权利要求1所述的自适应密度聚类方法,其特征在于:所述Eps计算步骤,包括:
根据
Figure FDA0003384123600000018
和自然最近邻域,计算自然特征集Eps均值
Figure FDA0003384123600000019
自然特征集Eps最大值
Figure FDA0003384123600000021
和/或自然特征集Eps最小值
Figure FDA0003384123600000022
Figure FDA0003384123600000023
Figure FDA0003384123600000024
Figure FDA0003384123600000025
其中,RNN(xi)表示xi的自然最近邻集合,d(xi,xj)表示xi和xj之间的距离。
7.根据权利要求6所述的自适应密度聚类方法,其特征在于:d(xi,xj)采用欧式距离。
8.根据权利要求6所述的自适应密度聚类方法,其特征在于:所述聚类步骤,包括:
分别设置DBSCAN算法中MinPts=supk
Figure FDA0003384123600000026
MinPts=supk
Figure FDA0003384123600000027
和/或MinPts=supk
Figure FDA0003384123600000028
分别进行聚类;
分别返回聚类结果C={C1,C2,…,Cm}。
9.一种自适应密度聚类存储介质,所述存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述权利要求1-8任一项的自适应密度聚类方法的步骤。
10.一种自适应密度聚类系统,其特征在于:采用上述自适应密度聚类方法。
CN202111443495.1A 2021-11-30 2021-11-30 一种自适应密度聚类方法、存储介质及系统 Pending CN114117141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111443495.1A CN114117141A (zh) 2021-11-30 2021-11-30 一种自适应密度聚类方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111443495.1A CN114117141A (zh) 2021-11-30 2021-11-30 一种自适应密度聚类方法、存储介质及系统

Publications (1)

Publication Number Publication Date
CN114117141A true CN114117141A (zh) 2022-03-01

Family

ID=80368571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111443495.1A Pending CN114117141A (zh) 2021-11-30 2021-11-30 一种自适应密度聚类方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN114117141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370846A (zh) * 2023-12-07 2024-01-09 中国地震局地球物理研究所 一种基于微震事件的水力压裂三维裂缝网构建方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370846A (zh) * 2023-12-07 2024-01-09 中国地震局地球物理研究所 一种基于微震事件的水力压裂三维裂缝网构建方法及系统
CN117370846B (zh) * 2023-12-07 2024-02-09 中国地震局地球物理研究所 一种基于微震事件的水力压裂三维裂缝网构建方法及系统

Similar Documents

Publication Publication Date Title
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
Li et al. Fuzzy based affinity learning for spectral clustering
CN109871855B (zh) 一种自适应的深度多核学习方法
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
Kumar et al. Survey on techniques for plant leaf classification
Wang et al. A new hybrid feature selection based on multi-filter weights and multi-feature weights
WO2022257453A1 (zh) 释义分析模型训练方法、装置、终端设备及存储介质
CN111738319B (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN112257738A (zh) 机器学习模型的训练方法、装置和图像的分类方法、装置
Olugbara et al. Pixel intensity clustering algorithm for multilevel image segmentation
CN114238329A (zh) 向量相似度计算方法、装置、设备及存储介质
Mohammed et al. Feature reduction based on hybrid efficient weighted gene genetic algorithms with artificial neural network for machine learning problems in the big data
CN114117141A (zh) 一种自适应密度聚类方法、存储介质及系统
Liang et al. Figure-ground image segmentation using feature-based multi-objective genetic programming techniques
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
Xie et al. Imbalanced big data classification based on virtual reality in cloud computing
Wang et al. A leaf type recognition algorithm based on SVM optimized by improved grid search method
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
CN112926592B (zh) 一种基于改进Fast算法的商标检索方法及装置
Jose et al. Genus and species-level classification of wrasse fishes using multidomain features and extreme learning machine classifier
Yu et al. A classifier chain algorithm with k-means for multi-label classification on clouds
CN111382760A (zh) 图片类别的识别方法、装置及计算机可读存储介质
CN112884065A (zh) 一种基于支持向量机的深度学习模型鲁棒边界评估方法、装置和应用
Ding et al. Saliency detection via background prior and foreground seeds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination