CN109840558B - 基于密度峰值-核心融合的自适应聚类方法 - Google Patents
基于密度峰值-核心融合的自适应聚类方法 Download PDFInfo
- Publication number
- CN109840558B CN109840558B CN201910071935.1A CN201910071935A CN109840558B CN 109840558 B CN109840558 B CN 109840558B CN 201910071935 A CN201910071935 A CN 201910071935A CN 109840558 B CN109840558 B CN 109840558B
- Authority
- CN
- China
- Prior art keywords
- density
- class
- core
- image data
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000012850 discrimination method Methods 0.000 claims description 2
- 239000004745 nonwoven fabric Substances 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 16
- 238000003909 pattern recognition Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出了一种基于密度峰值‑核心融合的自适应聚类方法,属于模式识别领域。该方法包括如下步骤:(1)首先进行基于密度峰值的密度近邻聚类:采用核密度‑k近邻的密度估计方法计算待聚类数据集中每个数据点的密度,并通过自适应阈值确定密度峰值点,将密度峰值点作为类中心进行密度近邻聚类得到初始聚类结果;(2)进行基于类内散度的核心融合操作:首先自适应的确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的聚类结果。本方法简单、准确、高效,能够对具有任意形状及密度分布的数据集进行自适应聚类。
Description
技术领域
本发明涉及一种基于密度峰值-核心融合的自适应聚类方法,属于模式识别领域。
背景技术
聚类方法是模式识别及机器学习领域一项重要的技术,被广泛应用于人脸识别、搜索工程、图像分区等领域。聚类是根据数据点之间的相似性将数据集划分成类或集群的过程,属于同一类中的数据点之间具有较大的相似性,而属于不同类的数据点应尽可能不相似。数据点间的相似性可用距离度量,最常见的距离有欧几里得距离。由于数据来源、性质及分布的多样性,以及自动化工业进程的需求,很多领域都要求聚类方法能够自动确定数据集中类的数目并处理具有任意形状和密度分布的数据集。
密度聚类方法能够对具有任意形状的数据集进行聚类,且无需设定类的数目。最常见的密度聚类方法为应用噪声的基于密度空间聚类方法(Density-based SpatialClustering of Applications withNoise,DBSCAN)。在DBSCAN中,需要定义截断距离及密度阈值,由密度阈值确定核心点后,按属于不同类的核心点之间距离超出截断距离的原则完成聚类。该方法具有密度聚类方法的两大优点,即能够对具有任意形状分布的数据集进行聚类且无需设定类的数目。但该方法不仅需要预先设定截断距离,还需要预先设定核心点的密度阈值。此外,DBSCAN聚类结果容易受密度估计结果及核心点密度阈值的影响。
2014年,Science期刊发表了一种基于密度峰值搜寻的聚类方法(Clustering byfast search and find of density peaks,CFSFDP)。这是一种不需要预先设定核心点密度阈值的密度聚类方法。该方法提出了类中心具有的两个密度峰值特征,即类中心的密度值局部极大,且类中心与密度更大的数据点之间的最小距离也局部极大。CFSFDP根据这两个特征在横纵坐标分别为密度和最小距离的决策图上人为确定类中心,完成聚类。CFSFDP方法虽然对具有任意形状分布的数据集进行自适应聚类,但该方法也存在一些缺点。首先,CFSFDP方法聚类效果容易受密度估计结果的影响。其次,CFSFDP方法中人为确定类中心的过程限制了其在自动化任务中的应用效果。最重要的一点,一个类中可能存在多个密度峰值点,CFSFDP方法会将该类中多个密度峰值点都当作类中心,一个含有多个密度峰值点的类会被错误分成多个类,故CFSFDP方法无法确保正确的聚类结果。
综上所述,虽然现有的一些聚类方法能够自适应的处理具有任意形状分布的数据集,但这些数据集的形状及密度大多呈现为简单分布,在处理复杂分布数据时聚类方法的精度及效率等性能仍亟待提高。
发明内容
针对具有任意形状及密度分布的数据集自适应聚类问题,本发明提出了一种基于密度峰值-核心融合的自适应聚类方法,方法简单、准确、高效,能够对具有任意形状及密度分布的数据集进行自适应聚类。
本发明为解决其技术问题采用如下技术方案:
一种基于密度峰值-核心融合的自适应聚类方法,包括如下两个步骤:
(1)基于密度峰值的密度近邻聚类:首先采用核密度-k近邻的密度估计方法计算每个数据点的密度,然后计算每个数据点与密度比自身大的数据点之间的最小距离,再通过基于密度及最小距离的自适应阈值确定密度峰值点,最后将密度峰值点作为初始类的中心,进行密度近邻聚类得到初始的聚类结果;
(2)基于类内散度的核心融合操作:首先采用基于密度近邻的核心判别方法自适应确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的聚类结果。
步骤(1)中所述的基于密度峰值的密度近邻聚类具体步骤如下:
(a)假设一个待聚类的数据集为X,X={x1,x2,…,xn},其中:x1为数据集中第一个数据点,x2为数据集中第二个数据点,xn为数据集中第n个数据点,n为数据集中数据点的数目,n为大于0的自然数,通过高斯核密度估计数据点xi的密度,记作ρi,下标i为数据点的次序,i=1,2,…,n,数据点xi的密度ρi具体计算公式如下:
其中,dij为数据点xi与xj之间的距离,dc为截断距离,dij的具体计算如下:
dij=||xi-xj||2
其中,xj为第j个数据点,||·||2为向量的2范数,基于k近邻的截断距离dc估计表达式如下:
其中,dk(xi)为数据点xi与距离xi最近的第k个数据点之间的距离,k为大于0且小于n的自然数,取值计算如下:
(b)对于任意一个数据点xi,将密度比xi大且距离xi最近的数据点定义为xi的密度近邻点,将xi与其密度近邻点之间的距离记作xi的最小距离δi,对于密度最大的数据点,将该点与其他点的最大距离作为该点的最小距离δi,最小距离δi的计算公式如下:
其中,ρj为第j个数据点xj的密度,
(c)计算每个数据点xi的密度ρi与最小距离δi的乘积,将该乘积作为衡量数据点xi成为密度峰值点的概率指标γi,概率指标γi计算公式如下:
γi=ρi×δi
(d)计算乘积γi的阈值γmin,计算公式如下:
γmin=EX(ρi)×dc
其中,EX(ρi)为密度ρi的均值;
(e)将满足以下不等式的数据点选出作为密度峰值点,密度峰值点的数目为M,M为不为0的自然数;
γi>γmin&δi>dc
步骤(2)中所述的基于类内散度的核心融合操作具体如下:
A.统计每个数据点xi成为其他数据点的密度近邻点的次数NTi,计算公式如下:
ltr≤dc
E.计算每个核心类的类内散度,计算公式如下:
F.计算每个核心类与其近邻核心类融合后的类内散度,计算公式如下:
G.若一个核心类与其近邻核心类融合后的类内散度满足以下不等式,则将这两个核心类对应的初始类融合;
H.融合所有应融合的初始类得到最终的聚类结果。
本发明的有益效果如下:
(1)本发明方法简单、准确、高效。
(2)本发明能够自动确定数据集含有的类数目。
(3)本发明能够处理具有任意形状和密度分布的数据集。
附图说明
图1实施例中二维实际医学工业数据集分布。
图2本发明方法的整体架构及流程图。
图3实施例中初始聚类结果。
图4实施例中核心点分布图。
图5实施例中最终的聚类结果图。
具体实施方式
下面将结合附图对本发明创造做进一步详细说明。
本实施例中以一个二维实际医学工业数据集为例来具体说明本发明方法的实施过程。二维实际医学工业数据集分布如图1所示。该数据集实际包含两个类,这两个类距离很近且分界线不明显;其次,类内分布复杂,图1中类2包含多个密度峰值点。二维实际医学工业数据集共包含240个数据点,故n=240,维数d=2。
本发明的整个方法流程如图2所示。
一、计算数据集中数据点间的距离,计算截断距离dc,计算每个数据点的密度ρi;
二、找到每个数据点的密度近邻点,计算每个数据点的最小距离δi;
三、计算每个数据点密度与最小距离的乘积γi及γi的阈值γmin;
四、将γi大于γmin且δi大于dc的数据点选为密度峰值点;
五、将密度峰值点作为类中心,将其余不是密度峰值点的数据点分配到自身对应的密度近邻点所属类中,得到初始聚类结果,初始聚类结果如图3所示,初始类数目M=4;
六、统计每个数据点成为其他数据点的密度近邻点的次数NTi,计算每个初始类中NTi=0的数据点的密度均值,选出每个初始类中的核心点,二维实际医学工业数据集对应的核心点分布如图4所示,由每个初始类的核心点构成该初始类的核心类,。
十、融合所有应融合的初始类得到最终的聚类结果,最终的聚类结果如图5所示。
由图5可以看出,本发明能够对具有任意形状及密度分布的数据集进行准确、高效且自适应的聚类。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (2)
1.基于密度峰值-核心融合的自适应聚类方法,其特征在于,包括以下两个步骤:
(1)基于密度峰值的密度近邻聚类:首先采用核密度-k近邻的密度估计方法计算每个图像数据点的密度,然后计算每个图像数据点与密度比自身大的图像数据点之间的最小距离,再通过基于密度及最小距离的自适应阈值确定密度峰值点,最后将密度峰值点作为初始类的中心,进行密度近邻聚类得到初始的图像数据点聚类结果;
具体步骤如下:
(a)假设一个待聚类的图像数据集为X,X={x1,x2,…,xn},图像数据集中图像数据点的数目为n,n为大于0的自然数,一个图像数据点xi的维度为d,d为大于0的自然数,下标i为图像数据点的次序,i=1,2,…,n;通过高斯核密度估计图像数据点xi的密度,记作ρi,具体表达式如下:
其中,dij为图像数据点xi与xj之间的距离,dc为截断距离,dij的具体计算如下:
dij=||xi-xj||2
其中||·||2为向量的2范数,基于k近邻的截断距离dc估计表达式如下:
(b)对于任意一个图像数据点xi,将密度比xi大且距离xi最近的图像数据点定义为xi的密度近邻点,将xi与其密度近邻点之间的距离记作xi的最小距离δi,对于密度最大的图像数据点,将该点与其他点的最大距离作为该点的最小距离δi,最小距离δi的计算公式如下:
(c)计算每个图像数据点xi的密度ρi与最小距离δi的乘积,记作γi,计算公式如下:
γi=ρi×δi
(d)计算乘积γ的阈值γmin,计算公式如下:
γmin=EX(ρ)×dc
其中,EX(ρ)为密度ρ的均值;
(e)将满足以下不等式的图像数据点选出作为密度峰值点,密度峰值点的数目为M,M为不为0的自然数;
γi>γmin&δi>dc
(2)基于类内散度的核心融合操作:首先采用基于密度近邻的核心判别方法自适应确定每个初始类中的核心点,若两个初始类的核心点邻近且融合后能降低类内散度,则将这两个初始类进行融合,融合所有应融合的初始类得到最终的图像数据点聚类结果。
2.根据权利要求1所述的基于密度峰值-核心融合的自适应聚类方法,其特征在于,步骤(2)中所述的基于类内散度的核心融合操作具体如下:
A.统计每个图像数据点xi成为其他图像数据点的密度近邻点的次数NTi,计算公式如下:
ltr≤dc
E.计算每个核心类的类内散度,计算公式如下:
F.计算每个核心类与其近邻核心类融合后的类内散度,计算公式如下:
G.若一个核心类与其近邻核心类融合后的类内散度满足以下不等式,则将这两个核心类对应的初始类融合;
H.融合所有应融合的初始类得到最终的图像数据点聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910071935.1A CN109840558B (zh) | 2019-01-25 | 2019-01-25 | 基于密度峰值-核心融合的自适应聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910071935.1A CN109840558B (zh) | 2019-01-25 | 2019-01-25 | 基于密度峰值-核心融合的自适应聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109840558A CN109840558A (zh) | 2019-06-04 |
CN109840558B true CN109840558B (zh) | 2022-06-17 |
Family
ID=66884170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910071935.1A Active CN109840558B (zh) | 2019-01-25 | 2019-01-25 | 基于密度峰值-核心融合的自适应聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109840558B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348067B (zh) * | 2019-06-18 | 2020-11-13 | 华南农业大学 | 一种气流表征物理参数提取方法及系统、介质、设备 |
CN110807474A (zh) * | 2019-10-12 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 聚类方法及装置、存储介质、电子设备 |
CN110991514B (zh) * | 2019-11-27 | 2024-05-17 | 深圳市商汤科技有限公司 | 图像聚类方法及装置、电子设备和存储介质 |
CN113780437B (zh) * | 2021-09-15 | 2024-04-05 | 大连交通大学 | 一种dpc聚类算法的改进方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339416A (zh) * | 2016-08-15 | 2017-01-18 | 常熟理工学院 | 基于网格快速搜寻密度峰值的数据聚类方法 |
CN107016407A (zh) * | 2017-03-07 | 2017-08-04 | 中国矿业大学 | 一种反馈式密度峰值聚类方法及系统 |
CN107491779A (zh) * | 2017-06-27 | 2017-12-19 | 重庆邮电大学 | 一种基于密度峰值的网格聚类算法 |
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN107563450A (zh) * | 2017-09-14 | 2018-01-09 | 深圳大学 | 聚类簇的获取方法及装置 |
CN108334704A (zh) * | 2018-02-09 | 2018-07-27 | 南京航空航天大学 | 基于自适应密度峰值-混合概率建模的结构损伤监测方法 |
CN108647297A (zh) * | 2018-05-08 | 2018-10-12 | 山东师范大学 | 一种共享近邻优化的密度峰值聚类中心选取方法和系统 |
CN108846346A (zh) * | 2018-06-06 | 2018-11-20 | 浙江大学 | 基于密度峰值聚类算法的神经元峰电位在线分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260259B2 (en) * | 2002-01-08 | 2007-08-21 | Siemens Medical Solutions Usa, Inc. | Image segmentation using statistical clustering with saddle point detection |
SG10201507049XA (en) * | 2014-09-10 | 2016-04-28 | Agency Science Tech & Res | Method and system for automatically assigning class labels to objects |
-
2019
- 2019-01-25 CN CN201910071935.1A patent/CN109840558B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339416A (zh) * | 2016-08-15 | 2017-01-18 | 常熟理工学院 | 基于网格快速搜寻密度峰值的数据聚类方法 |
CN107016407A (zh) * | 2017-03-07 | 2017-08-04 | 中国矿业大学 | 一种反馈式密度峰值聚类方法及系统 |
CN107491779A (zh) * | 2017-06-27 | 2017-12-19 | 重庆邮电大学 | 一种基于密度峰值的网格聚类算法 |
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN107563450A (zh) * | 2017-09-14 | 2018-01-09 | 深圳大学 | 聚类簇的获取方法及装置 |
CN108334704A (zh) * | 2018-02-09 | 2018-07-27 | 南京航空航天大学 | 基于自适应密度峰值-混合概率建模的结构损伤监测方法 |
CN108647297A (zh) * | 2018-05-08 | 2018-10-12 | 山东师范大学 | 一种共享近邻优化的密度峰值聚类中心选取方法和系统 |
CN108846346A (zh) * | 2018-06-06 | 2018-11-20 | 浙江大学 | 基于密度峰值聚类算法的神经元峰电位在线分类方法 |
Non-Patent Citations (2)
Title |
---|
Clustering by fast search and find of density peaks;RODRIGUEZ A et al;《Science》;20141231;第1492-1496页 * |
一种基于密度和层次的聚类算法的研究;吴浩同;《中国优秀硕士学位论文全文数据库信息科技辑》;20180715;第1-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109840558A (zh) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840558B (zh) | 基于密度峰值-核心融合的自适应聚类方法 | |
Meesrikamolkul et al. | Shape-based clustering for time series data | |
CN104537673B (zh) | 基于多阈值和自适应模糊聚类的红外图像分割方法 | |
CN107203785A (zh) | 多路径高斯核模糊c均值聚类算法 | |
KR20110096236A (ko) | 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 | |
CN113515656B (zh) | 一种基于增量学习的多视角目标识别与检索方法、及装置 | |
WO2017201605A1 (en) | Large scale social graph segmentation | |
WO2022051908A1 (en) | Normalization in deep convolutional neural networks | |
Chebbout et al. | Comparative study of clustering based colour image segmentation techniques | |
CN116433690A (zh) | 一种基于灰狼与粒子群协同优化算法的Otsu阈值分割方法 | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
Tan | Improved minimax estimation of a multivariate normal mean under heteroscedasticity | |
Abdeyazdan | Data clustering based on hybrid K-harmonic means and modifier imperialist competitive algorithm | |
CN110781943A (zh) | 一种基于毗邻网格搜索的聚类方法 | |
CN106251004B (zh) | 基于改进空间距离划分的目标分群方法 | |
CN105160666B (zh) | 基于非平稳分析与条件随机场的sar图像变化检测方法 | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
CN113850811B (zh) | 基于多尺度聚类和掩码打分的三维点云实例分割方法 | |
CN114565861A (zh) | 基于概率统计微分同胚集匹配的机载下视目标图像定位方法 | |
CN102110173A (zh) | 一种改进亲和矩阵的多路谱聚类方法 | |
KR100895261B1 (ko) | 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 | |
Yan et al. | Density-based Clustering using Automatic Density Peak Detection. | |
Rahman et al. | Denclust: A density based seed selection approach for k-means | |
Alexiev et al. | Improved fuzzy clustering for identification of Takagi-Sugeno model | |
Pradeep et al. | Multi-density based incremental clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |