CN109840558A - 基于密度峰值-核心融合的自适应聚类方法 - Google Patents

基于密度峰值-核心融合的自适应聚类方法 Download PDF

Info

Publication number
CN109840558A
CN109840558A CN201910071935.1A CN201910071935A CN109840558A CN 109840558 A CN109840558 A CN 109840558A CN 201910071935 A CN201910071935 A CN 201910071935A CN 109840558 A CN109840558 A CN 109840558A
Authority
CN
China
Prior art keywords
density
point
core
classes
data point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910071935.1A
Other languages
English (en)
Other versions
CN109840558B (zh
Inventor
邱雷
房芳
袁慎芳
任元强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910071935.1A priority Critical patent/CN109840558B/zh
Publication of CN109840558A publication Critical patent/CN109840558A/zh
Application granted granted Critical
Publication of CN109840558B publication Critical patent/CN109840558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出了一种基于密度峰值‑核心融合的自适应聚类方法,属于模式识别领域。该方法包括如下步骤:(1)首先进行基于密度峰值的密度近邻聚类:采用核密度‑k近邻的密度估计方法计算待聚类数据集中每个数据点的密度,并通过自适应阈值确定密度峰值点,将密度峰值点作为类中心进行密度近邻聚类得到初始聚类结果;(2)进行基于类内散度的核心融合操作:首先自适应的确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的聚类结果。本方法简单、准确、高效,能够对具有任意形状及密度分布的数据集进行自适应聚类。

Description

基于密度峰值-核心融合的自适应聚类方法
技术领域
本发明涉及一种基于密度峰值-核心融合的自适应聚类方法,属于模式识别领域。
背景技术
聚类方法是模式识别及机器学习领域一项重要的技术,被广泛应用于人脸识别、搜索工程、图像分区等领域。聚类是根据数据点之间的相似性将数据集划分成类或集群的过程,属于同一类中的数据点之间具有较大的相似性,而属于不同类的数据点应尽可能不相似。数据点间的相似性可用距离度量,最常见的距离有欧几里得距离。由于数据来源、性质及分布的多样性,以及自动化工业进程的需求,很多领域都要求聚类方法能够自动确定数据集中类的数目并处理具有任意形状和密度分布的数据集。
密度聚类方法能够对具有任意形状的数据集进行聚类,且无需设定类的数目。最常见的密度聚类方法为应用噪声的基于密度空间聚类方法(Density-based SpatialClustering of Applications withNoise,DBSCAN)。在DBSCAN中,需要定义截断距离及密度阈值,由密度阈值确定核心点后,按属于不同类的核心点之间距离超出截断距离的原则完成聚类。该方法具有密度聚类方法的两大优点,即能够对具有任意形状分布的数据集进行聚类且无需设定类的数目。但该方法不仅需要预先设定截断距离,还需要预先设定核心点的密度阈值。此外,DBSCAN聚类结果容易受密度估计结果及核心点密度阈值的影响。
2014年,Science期刊发表了一种基于密度峰值搜寻的聚类方法(Clustering byfast search and find of density peaks,CFSFDP)。这是一种不需要预先设定核心点密度阈值的密度聚类方法。该方法提出了类中心具有的两个密度峰值特征,即类中心的密度值局部极大,且类中心与密度更大的数据点之间的最小距离也局部极大。CFSFDP根据这两个特征在横纵坐标分别为密度和最小距离的决策图上人为确定类中心,完成聚类。CFSFDP方法虽然对具有任意形状分布的数据集进行自适应聚类,但该方法也存在一些缺点。首先,CFSFDP方法聚类效果容易受密度估计结果的影响。其次,CFSFDP方法中人为确定类中心的过程限制了其在自动化任务中的应用效果。最重要的一点,一个类中可能存在多个密度峰值点,CFSFDP方法会将该类中多个密度峰值点都当作类中心,一个含有多个密度峰值点的类会被错误分成多个类,故CFSFDP方法无法确保正确的聚类结果。
综上所述,虽然现有的一些聚类方法能够自适应的处理具有任意形状分布的数据集,但这些数据集的形状及密度大多呈现为简单分布,在处理复杂分布数据时聚类方法的精度及效率等性能仍亟待提高。
发明内容
针对具有任意形状及密度分布的数据集自适应聚类问题,本发明提出了一种基于密度峰值-核心融合的自适应聚类方法,方法简单、准确、高效,能够对具有任意形状及密度分布的数据集进行自适应聚类。
本发明为解决其技术问题采用如下技术方案:
一种基于密度峰值-核心融合的自适应聚类方法,包括如下两个步骤:
(1)基于密度峰值的密度近邻聚类:首先采用核密度-k近邻的密度估计方法计算每个数据点的密度,然后计算每个数据点与密度比自身大的数据点之间的最小距离,再通过基于密度及最小距离的自适应阈值确定密度峰值点,最后将密度峰值点作为初始类的中心,进行密度近邻聚类得到初始的聚类结果;
(2)基于类内散度的核心融合操作:首先采用基于密度近邻的核心判别方法自适应确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的聚类结果。
步骤(1)中所述的基于密度峰值的密度近邻聚类具体步骤如下:
(a)假设一个待聚类的数据集为X,X={x1,x2,…,xn},其中:x1为数据集中第一个数据点,x2为数据集中第二个数据点,xn为数据集中第n个数据点,n为数据集中数据点的数目,n为大于0的自然数,通过高斯核密度估计数据点xi的密度,记作ρi,下标i为数据点的次序,i=1,2,…,n,数据点xi的密度ρi具体计算公式如下:
其中,dij为数据点xi与xj之间的距离,dc为截断距离,dij的具体计算如下:
dij=||xi-xj||2
其中,xj为第j个数据点,||·||2为向量的2范数,基于k近邻的截断距离dc估计表达式如下:
其中,dk(xi)为数据点xi与距离xi最近的第k个数据点之间的距离,k为大于0且小于n的自然数,取值计算如下:
其中,表示小于的最大整数,d为数据点的维度,d为大于0的自然数;
(b)对于任意一个数据点xi,将密度比xi大且距离xi最近的数据点定义为xi的密度近邻点,将xi与其密度近邻点之间的距离记作xi的最小距离δi,对于密度最大的数据点,将该点与其他点的最大距离作为该点的最小距离δi,最小距离δi的计算公式如下:
其中,ρj为第j个数据点xj的密度,
(c)计算每个数据点xi的密度ρi与最小距离δi的乘积,将该乘积作为衡量数据点xi成为密度峰值点的概率指标γi,概率指标γi计算公式如下:
γi=ρi×δi
(d)计算乘积γi的阈值γmin,计算公式如下:
γmin=EX(ρi)×dc
其中,EX(ρi)为密度ρi的均值;
(e)将满足以下不等式的数据点选出作为密度峰值点,密度峰值点的数目为M,M为不为0的自然数;
γi>γmini>dc
(f)密度近邻聚类:将密度峰值点作为类中心,将剩余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中,得到初始的聚类结果,其中第t个初始类记作t=1,2,…,M。
步骤(2)中所述的基于类内散度的核心融合操作具体如下:
A.统计每个数据点xi成为其他数据点的密度近邻点的次数NTi,计算公式如下:
其中,x为任意自变量,i为数据点xi的下标并对应数据点xi的次序,对于数据点xj而言,为满足ρij且使得dij取得最小值时的xi的次序i;
B.对于任意一个初始类找出其中NTi=0的数据点,计算这些数据点的密度均值,初始类中密度大于该密度均值的数据点为的核心点,的核心点构成的核心类,记作具体定义如下:
其中,EX(ρj)为初始类中NTj=0的数据点的密度均值,NTj表示数据点xj成为其他数据点的密度近邻点的次数;
C.计算每个核心类与其他核心类之间的最小距离,记第t个核心类与第r个核心类之间的最小距离为ltr,计算公式如下:
D.确定每个核心类的近邻核心类,对于任意一个核心类若核心类的近邻核心类,则之间的最小距离ltr应满足以下不等式:
ltr≤dc
E.计算每个核心类的类内散度,计算公式如下:
为核心类的类内散度,nt为核心类中数据点的数目;
F.计算每个核心类与其近邻核心类融合后的类内散度,计算公式如下:
其中,为一个核心类,的一个近邻核心类,融合后的类内散度,nt为核心类中数据点的数目,nr为核心类中数据点的数目,nt和nr均为大于0的自然数;
G.若一个核心类与其近邻核心类融合后的类内散度满足以下不等式,则将这两个核心类对应的初始类融合;
其中,为核心类的类内散度,为核心类的类内散度;
H.融合所有应融合的初始类得到最终的聚类结果。
本发明的有益效果如下:
(1)本发明方法简单、准确、高效。
(2)本发明能够自动确定数据集含有的类数目。
(3)本发明能够处理具有任意形状和密度分布的数据集。
附图说明
图1实施例中二维实际医学工业数据集分布。
图2本发明方法的整体架构及流程图。
图3实施例中初始聚类结果。
图4实施例中核心点分布图。
图5实施例中最终的聚类结果图。
具体实施方式
下面将结合附图对本发明创造做进一步详细说明。
本实施例中以一个二维实际医学工业数据集为例来具体说明本发明方法的实施过程。二维实际医学工业数据集分布如图1所示。该数据集实际包含两个类,这两个类距离很近且分界线不明显;其次,类内分布复杂,图1中类2包含多个密度峰值点。二维实际医学工业数据集共包含240个数据点,故n=240,维数d=2。
本发明的整个方法流程如图2所示。
一、计算数据集中数据点间的距离,计算截断距离dc,计算每个数据点的密度ρi
二、找到每个数据点的密度近邻点,计算每个数据点的最小距离δi
三、计算每个数据点密度与最小距离的乘积γi及γi的阈值γmin
四、将γi大于γmin且δi大于dc的数据点选为密度峰值点;
五、将密度峰值点作为类中心,将其余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中,得到初始聚类结果,初始聚类结果如图3所示,初始类数目M=4;
六、统计每个数据点成为其他数据点的密度近邻点的次数NTi,计算每个初始类中NTi=0的数据点的密度均值,选出每个初始类中的核心点,二维实际医学工业数据集对应的核心点分布如图4所示,由每个初始类的核心点构成该初始类的核心类,。
七、对于任意一个核心类计算与其他任意一个核心类之间的最小距离ltr,若ltr小于截断距离dc,则判定核心类互为近邻核心类,找到每个核心类的近邻核心类。
八、计算每个核心类的类内散度
九、计算每个核心类与其近邻核心类融合后的类内散度,对于任意一个核心类 的任意一个近邻核心类为融合后的类内散度小于融合前两个核心类对应的类内散度之和,则将两个核心类对应的初始类融合。
十、融合所有应融合的初始类得到最终的聚类结果,最终的聚类结果如图5所示。
由图5可以看出,本发明能够对具有任意形状及密度分布的数据集进行准确、高效且自适应的聚类。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (3)

1.一种基于密度峰值-核心融合的自适应聚类方法,其特征在于,包括如下两个步骤:
(1)基于密度峰值的密度近邻聚类:首先采用核密度-k近邻的密度估计方法计算每个数据点的密度,然后计算每个数据点与密度比自身大的数据点之间的最小距离,再通过基于密度及最小距离的自适应阈值确定密度峰值点,最后将密度峰值点作为初始类的中心,进行密度近邻聚类得到初始的聚类结果;
(2)基于类内散度的核心融合操作:首先采用基于密度近邻的核心判别方法自适应确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的聚类结果。
2.根据权利要求1所述的基于密度峰值-核心融合的自适应聚类方法,其特征在于,步骤(1)中所述的基于密度峰值的密度近邻聚类具体步骤如下:
(a)假设一个待聚类的数据集为X,X={x1,x2,…,xn},其中:x1为数据集中第一个数据点,x2为数据集中第二个数据点,xn为数据集中第n个数据点,n为数据集中数据点的数目,n为大于0的自然数,通过高斯核密度估计数据点xi的密度,记作ρi,下标i为数据点的次序,i=1,2,…,n,数据点xi的密度ρi具体计算公式如下:
其中,dij为数据点xi与xj之间的距离,dc为截断距离,dij的具体计算如下:
dij=||xi-xj||2
其中,xj为第j个数据点,||·||2为向量的2范数,基于k近邻的截断距离dc估计表达式如下:
其中,dk(xi)为数据点xi与距离xi最近的第k个数据点之间的距离,k为大于0且小于n的自然数,取值计算如下:
其中,表示小于的最大整数,d为数据点的维度,d为大于0的自然数;
(b)对于任意一个数据点xi,将密度比xi大且距离xi最近的数据点定义为xi的密度近邻点,将xi与其密度近邻点之间的距离记作xi的最小距离δi,对于密度最大的数据点,将该点与其他点的最大距离作为该点的最小距离δi,最小距离δi的计算公式如下:
其中,ρj为第j个数据点xj的密度,
(c)计算每个数据点xi的密度ρi与最小距离δi的乘积,将该乘积作为衡量数据点xi成为密度峰值点的概率指标γi,概率指标γi计算公式如下:
γi=ρi×δi
(d)计算乘积γi的阈值γmin,计算公式如下:
γmin=EX(ρi)×dc
其中,EX(ρi)为密度ρi的均值;
(e)将满足以下不等式的数据点选出作为密度峰值点,密度峰值点的数目为M,M为不为0的自然数;
γi>γmini>dc
(f)密度近邻聚类:将密度峰值点作为类中心,将剩余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中,得到初始的聚类结果,其中第t个初始类记作t=1,2,…,M。
3.根据权利要求1所述的基于密度峰值-核心融合的自适应聚类方法,其特征在于,步骤(2)中所述的基于类内散度的核心融合操作具体如下:
A.统计每个数据点xi成为其他数据点的密度近邻点的次数NTi,计算公式如下:
其中,x为任意自变量,i为数据点xi的下标并对应数据点xi的次序,对于数据点xj而言,为满足ρij且使得dij取得最小值时的xi的次序i;
B.对于任意一个初始类找出其中NTi=0的数据点,计算这些数据点的密度均值,初始类中密度大于该密度均值的数据点为的核心点,的核心点构成的核心类,记作具体定义如下:
其中,EX(ρj)为初始类中NTj=0的数据点的密度均值,NTj表示数据点xj成为其他数据点的密度近邻点的次数;
C.计算每个核心类与其他核心类之间的最小距离,记第t个核心类与第r个核心类之间的最小距离为ltr,计算公式如下:
D.确定每个核心类的近邻核心类,对于任意一个核心类若核心类的近邻核心类,则之间的最小距离ltr应满足以下不等式:
ltr≤dc
E.计算每个核心类的类内散度,计算公式如下:
为核心类的类内散度,nt为核心类中数据点的数目;
F.计算每个核心类与其近邻核心类融合后的类内散度,计算公式如下:
其中,为一个核心类,的一个近邻核心类,融合后的类内散度,nt为核心类中数据点的数目,nr为核心类中数据点的数目,nt和nr均为大于0的自然数;
G.若一个核心类与其近邻核心类融合后的类内散度满足以下不等式,则将这两个核心类对应的初始类融合;
其中,为核心类的类内散度,为核心类的类内散度;
H.融合所有应融合的初始类得到最终的聚类结果。
CN201910071935.1A 2019-01-25 2019-01-25 基于密度峰值-核心融合的自适应聚类方法 Active CN109840558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071935.1A CN109840558B (zh) 2019-01-25 2019-01-25 基于密度峰值-核心融合的自适应聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071935.1A CN109840558B (zh) 2019-01-25 2019-01-25 基于密度峰值-核心融合的自适应聚类方法

Publications (2)

Publication Number Publication Date
CN109840558A true CN109840558A (zh) 2019-06-04
CN109840558B CN109840558B (zh) 2022-06-17

Family

ID=66884170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071935.1A Active CN109840558B (zh) 2019-01-25 2019-01-25 基于密度峰值-核心融合的自适应聚类方法

Country Status (1)

Country Link
CN (1) CN109840558B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348067A (zh) * 2019-06-18 2019-10-18 华南农业大学 一种气流表征物理参数提取方法及系统、介质、设备
CN110991514A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030174889A1 (en) * 2002-01-08 2003-09-18 Dorin Comaniciu Image segmentation using statistical clustering with saddle point detection
US20160070950A1 (en) * 2014-09-10 2016-03-10 Agency For Science, Technology And Research Method and system for automatically assigning class labels to objects
CN106339416A (zh) * 2016-08-15 2017-01-18 常熟理工学院 基于网格快速搜寻密度峰值的数据聚类方法
CN107016407A (zh) * 2017-03-07 2017-08-04 中国矿业大学 一种反馈式密度峰值聚类方法及系统
CN107491779A (zh) * 2017-06-27 2017-12-19 重庆邮电大学 一种基于密度峰值的网格聚类算法
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN107563450A (zh) * 2017-09-14 2018-01-09 深圳大学 聚类簇的获取方法及装置
CN108334704A (zh) * 2018-02-09 2018-07-27 南京航空航天大学 基于自适应密度峰值-混合概率建模的结构损伤监测方法
CN108647297A (zh) * 2018-05-08 2018-10-12 山东师范大学 一种共享近邻优化的密度峰值聚类中心选取方法和系统
CN108846346A (zh) * 2018-06-06 2018-11-20 浙江大学 基于密度峰值聚类算法的神经元峰电位在线分类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030174889A1 (en) * 2002-01-08 2003-09-18 Dorin Comaniciu Image segmentation using statistical clustering with saddle point detection
US20160070950A1 (en) * 2014-09-10 2016-03-10 Agency For Science, Technology And Research Method and system for automatically assigning class labels to objects
CN106339416A (zh) * 2016-08-15 2017-01-18 常熟理工学院 基于网格快速搜寻密度峰值的数据聚类方法
CN107016407A (zh) * 2017-03-07 2017-08-04 中国矿业大学 一种反馈式密度峰值聚类方法及系统
CN107491779A (zh) * 2017-06-27 2017-12-19 重庆邮电大学 一种基于密度峰值的网格聚类算法
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN107563450A (zh) * 2017-09-14 2018-01-09 深圳大学 聚类簇的获取方法及装置
CN108334704A (zh) * 2018-02-09 2018-07-27 南京航空航天大学 基于自适应密度峰值-混合概率建模的结构损伤监测方法
CN108647297A (zh) * 2018-05-08 2018-10-12 山东师范大学 一种共享近邻优化的密度峰值聚类中心选取方法和系统
CN108846346A (zh) * 2018-06-06 2018-11-20 浙江大学 基于密度峰值聚类算法的神经元峰电位在线分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RODRIGUEZ A ET AL: "Clustering by fast search and find of density peaks", 《SCIENCE》 *
吴浩同: "一种基于密度和层次的聚类算法的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348067A (zh) * 2019-06-18 2019-10-18 华南农业大学 一种气流表征物理参数提取方法及系统、介质、设备
CN110991514A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
CN110991514B (zh) * 2019-11-27 2024-05-17 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法
CN113780437B (zh) * 2021-09-15 2024-04-05 大连交通大学 一种dpc聚类算法的改进方法

Also Published As

Publication number Publication date
CN109840558B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110287942B (zh) 年龄估计模型的训练方法、年龄估计方法以及对应的装置
CN109840558A (zh) 基于密度峰值-核心融合的自适应聚类方法
CN101341513A (zh) 自动3-d对象检测
CN106373118A (zh) 可有效保留边界和局部特征的复杂曲面零件点云精简方法
US11074274B2 (en) Large scale social graph segmentation
CN105654483A (zh) 三维点云全自动配准方法
CN114926699B (zh) 一种室内三维点云语义分类方法、装置、介质及终端
CN109325510B (zh) 一种基于网格统计的图像特征点匹配方法
CN106599915A (zh) 一种车载激光点云分类方法
CN107679501B (zh) 一种基于标签自提纯的深度学习方法
CN103366375A (zh) 基于动态有向图的图像集配准方法
CN107679553A (zh) 基于密度峰值的聚类方法及装置
CN110458096A (zh) 一种基于深度学习的大规模商品识别方法
CN105808582A (zh) 基于分层策略的决策树并行生成方法和装置
CN110147837A (zh) 基于特征聚焦的任意方向密集目标检测方法、系统及设备
CN107451617B (zh) 一种图转导半监督分类方法
Alamri et al. Indexing moving objects in indoor cellular space
CN105590167A (zh) 电场多元运行数据分析方法及装置
CN111210454B (zh) 基于并行鸽群算法的Otsu图像分割方法
CN111858785B (zh) 地图离散型要素的匹配方法、装置、系统及存储介质
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
CN108614889B (zh) 基于混合高斯模型的移动对象连续k近邻查询方法及系统
CN110807286A (zh) 一种结构网格识别方法
CN114269006B (zh) 一种基于信息增益率的室内ap聚类选取方法和设备
CN110457155A (zh) 一种样本类别标签的修正方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant