CN114638301A - 基于密度相似性的密度峰值聚类算法 - Google Patents

基于密度相似性的密度峰值聚类算法 Download PDF

Info

Publication number
CN114638301A
CN114638301A CN202210264661.XA CN202210264661A CN114638301A CN 114638301 A CN114638301 A CN 114638301A CN 202210264661 A CN202210264661 A CN 202210264661A CN 114638301 A CN114638301 A CN 114638301A
Authority
CN
China
Prior art keywords
density
clustering
similarity
points
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210264661.XA
Other languages
English (en)
Inventor
王言言
万静
田新雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210264661.XA priority Critical patent/CN114638301A/zh
Publication of CN114638301A publication Critical patent/CN114638301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明针对密度峰值聚类算法(DPC)不适用于流形数据集、聚类中心的选择需要人为干预且会在剩余点分配会出现多米诺效应的缺陷。提出了一种基于密度相似性的密度峰值聚类算法(DA‑DPC)。首先,引用密度相识度来代替欧式距离来适用处理流形数据集,可以消除dc对算法结果的影响;其次,根据密度聚类指数的特点和聚类的定义,设计了一种新的密度聚类指数(DCI),自动获取聚类中心,降低参数对聚类结果的影响;对于剩余点提出两种匹配策略,更好的达到聚类效果;实验表明,该算法在人工数据集和UCI真实数据集上比常用的几种聚类算法具有更好的聚类效果。

Description

基于密度相似性的密度峰值聚类算法
技术领域
本发明属于聚类分析技术领域,只要是为密度峰聚类算法进行改进优化。具体是一种基于密度相似性的密度峰值聚类算法,可应用于图像处理、医学诊断、数据挖掘等领域。
背景技术
聚类是无监督学习最重要的方法,是一种丰富的数据分析和解释的概念和算法框架。聚类的一般目标是最小化同一簇中实例之间的不相似性,最大化不同簇中的实例之间的不相似性。目前,聚类在数据挖掘、模式识别、图像分割、遗传病检测等方面得到了广泛的应用。
到目前为止,已经有很多种聚类算法被提出。根据对数据点的处理方式不同,可以分为基于层次的聚类算法、基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法等。
2014年Rodriguez和Laiozai在Science上提出的一种基于密度的聚类算法(clustering by fast search and find of density peaks,DPC),由于该算法具有原理简单、能够快速发现任意形状的簇、且无需迭代的优点,在近几年一直是热门研究课题。
k-means算法是基于划分聚类的经典算法,该算法实现简单,在凸形结构数据集上具有良好的聚类效果,但K-means算法的聚类结果严重依赖初始聚类中心的选择,需要人为的指定类簇的个数,对噪声点和离群点较敏感。DIANA(Divisive Analysis)是一种基于层次的聚类算法,它能够快速对数据集进行聚类,但是该算法需要人为指定簇数目,且已做的分裂操作不能撤销,类之间不能交换对象。DBSCAN(Density-Based Algorithm forDiscovering Clusters in Large Spatial Databases with Noise)是一种典型的基于密度的聚类算法,它可以对仸意形状数据迚行聚类,不需要预先指定类簇个数,但受核心对象邻域包含的最少样本数Minpts和邻域半径ε参数设置的影响较大且高维数据的聚类效果差。CLIQUE算法结合了基于网格和基于密度的聚类算法的特点,利用频繁模式和关联规则挖掘的先验性质,得到了稠密单元关于维度的单调性,进而通过识别稠密单元进行聚类。
密度峰值聚类算法(DPC)核心思想主要依据两个假设:1)聚类中心的密度要远高于围着聚类中心数据点的密度;2)聚类中心离比它密度高的数据点的距离相对较远。对于数据集中的任意数据对象i,都要计算数据点的局部密度ρi和相对距离δi。局部密度公式如下:
pi=∑jχ(dij-dc)
其中,
Figure BDA0003552171370000021
dij表示数据点xi和xj的距离。dc是唯一的输入参数,表示截断距离,定义为两数据点之间相似度按小到大排列后1-2%位置处的值。
数据点xi的δi是点到所有比其局部密度大的点距离的最小值其公式为:
Figure BDA0003552171370000022
对于密度大的点我们可以得到:
δi=maxjdij
DPC算法根据局部密度ρ和相对距离δ构造决策图,筛选出局部密度和相对距离都比较大的点标记为聚类中心,最后根据分配策略将剩余点分配给距离其最近的聚类中心。
DPC算法能发现非球形的簇且需要较少的参数,不需要预先指定类簇的个数,但是,DPC算法在很多方面也存在很多不足,包括以下三点:1.DPC对多数流形数据集效果不理想;2.参数dc的选取对聚类结果特别敏感;3.决策图的绘制方法有时会导致聚类中心不确定。
针对DPC算法截断距离需要人为操作和不能自动选取聚类中心的缺陷,本文提出一种基于密度相似性的密度峰值聚类算法(英文全称DA-DPC)。DA-DPC算法采用了k近邻思想和指数核函数,重新定义了局部密度,使样本的局部密度可以处理流形数据集,具有全局一致性;设计了DCI来自动识别聚类中心的数量;在对剩余点发配到距离最近的聚类中心的簇中,为了避免两个聚类被离群点所影响合成一个聚类,DA-DPC算法会先删除离群点,然后在通过广度优先搜索k个最近邻来分配非离群值,仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。具体实现步骤如下:
定义1(k-近邻)样本点Xi∈X的k-近邻为该点都其它样本点的距离中最近的的K个点。定义如下:
KNN(i)={j∈X|dij≤dk}
定义2(局部密度)为了更好的找到聚类中心结合k近邻和指数核函数重新定义了局部密度。假设任意点xi∈X,且R(i)={x1,x2....xk}是数据集中与点Xi相似度最高的K个集合,则局部密度定义如下:
Figure BDA0003552171370000023
定义3(密度相似度)与欧氏距离相比,密度敏感相似度更好地反映了流形数据集的特征,具有全局一致性。
Figure BDA0003552171370000024
聚类内相似度和聚类间相似度是聚类算法的两个主要评价因素。
Figure BDA0003552171370000031
通过计算数据点i到最艰难的聚类中所有点的平均距离来计算相似度。
Figure BDA0003552171370000032
其中,xp为聚类k中的实例数。
定义一个剪影系数:
Figure BDA0003552171370000033
最后,将所有数据点的平均si(i)定义为本次迭代的剪影系数:
Figure BDA0003552171370000034
在DA-DPC中,采用密度敏感相似度代替欧氏距离计算整体数据集之间的相似度。因此,构建DA-DPC的相似矩阵为:
S=[s1,s2,...sn]∈Rn×n
传统的DPC算法选取聚类中心根据局部密度和相对距离构造的决策图中手动选取局部密度和相对距离比较大的值,带有一些主观性,可能会造成聚类中心个数选择不准确的问题,会直接导致后来分配出现多米诺效应,影响最终聚类结果。
因此,我们采用DCI来确定聚类中心。首先,通过每个非中心点到聚类中心a(i)的平均距离计算聚类i的聚类内相似度。其次,i的簇间相似性是最接近簇的整体数据实例与簇中心b(i)的平均距离。我们只计算聚类中心来定义k个聚类的平均DCI。最后,得到最大的DCI对应最优分区即为聚类中心。
剩余点分配算法步骤如下:
参照所提出的两种策略,即策略1和策略2,则分配过程如下:DA-DPC首先找到离群点,然后从数据集X中删除离群点,并使用策略1尝试将离群点集中的点分配到相应的集群中。策略1分配的点组成了集群的核心。策略2使用分配离群点和策略1未分配中的剩余点。在应用两种分配策略后,仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。分配策略1的基础是广度优先搜索连通加权图上从聚类中心开始的点的K个最近邻,其中顶点为非离群点,边的权值为点之间的欧氏距离。在策略1的约束下,将点的K个最近邻分配到它们的簇中。为了得到最佳的集群,模糊加权资讯的方法是开发年分配策略2被采用,以便集群信息获得可以使用的策略,尽可能将异常值和分未赋值的策略1,它们是最可能得到的集群。策略2的关键方面是了解点i属于聚类c的概率,然后将点i分配给其最相似的个聚类c,并使其具有最大的聚类c。为了定义pi,我们首先定义点i和j之间的相似性,这意味着点i和j之间的距离越小,它们就越相似。从聚类中心开始,将剩余点分配到距离最近的聚类中心中去,为了避免两个聚类被离群点的影响合并成一个聚类,基于密度相似性的密度峰值聚类算法会先删除离群点,然后在通过广度优先搜索k个最近邻来分配非离群值;仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。
附图说明
图1为基于密度相似性的密度峰值聚类算法的流程图。
具体实施方式
为了阐明发明的目的,技术方案和优点,一下是详细说明。
定义1(k-近邻)样本点Xi∈X的k近邻为该点都其它样本点的距离中最近的的K个点。定义如下:
KNN(i)={j∈X|dij≤dk}
定义2(局部密度)为了更好的找到聚类中心结合k近邻和指数核函数重新定义了局部密度。假设任意点xi∈X,且R(i)={x1,x2....xk}是数据集中与点Xi相似度最高的K个集合,则局部密度定义如下:
Figure BDA0003552171370000041
定义3(密度相似度)与欧氏距离相比,密度敏感相似度更好地反映了流形数据集的特征,具有全局一致性。
Figure BDA0003552171370000042
聚类内相似度和聚类间相似度是聚类算法的两个主要评价因素。
Figure BDA0003552171370000043
通过计算数据点i到最艰难的聚类中所有点的平均距离来计算相似度。
Figure BDA0003552171370000044
其中,xp为聚类k中的实例数。
定义一个剪影系数:
Figure BDA0003552171370000051
最后,将所有数据点的平均si(i)定义为本次迭代的剪影系数:
Figure BDA0003552171370000052
在DA-DPC中,采用密度敏感相似度代替欧氏距离计算整体数据集之间的相似度。因此,构建DA-DPC的相似矩阵为:
S=[s1,s2,...sn]∈Rn×n
传统的DPC算法选取聚类中心根据局部密度和相对距离构造的决策图中手动选取局部密度和相对距离比较大的值,带有一些主观性,可能会造成聚类中心个数选择不准确的问题,会直接导致后来分配出现多米诺效应,影响最终聚类结果。
因此,我们采用DCI来确定聚类中心。首先,通过每个非中心点到聚类中心a(i)的平均距离计算聚类i的聚类内相似度。其次,i的簇间相似性是最接近簇的整体数据实例与簇中心b(i)的平均距离。我们只计算聚类中心来定义k个聚类的平均DCI。最后,得到最大的DCI对应最优分区即为聚类中心。
剩余点分配算法步骤如下:
参照所提出的两种策略,即策略1和策略2,则分配过程如下:DA-DPC首先找到离群点,然后从数据集X中删除离群点,并使用策略1尝试将离群点集中的点分配到相应的集群中。策略1分配的点组成了集群的核心。策略2使用分配离群点和策略1未分配中的剩余点。在应用两种分配策略后,仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。分配策略1的基础是广度优先搜索连通加权图上从聚类中心开始的点的K个最近邻,其中顶点为非离群点,边的权值为点之间的欧氏距离。在策略1的约束下,将点的K个最近邻分配到它们的簇中。为了得到最佳的集群,模糊加权资讯的方法是开发年分配策略2被采用,以便集群信息获得可以使用的策略,尽可能将异常值和分未赋值的策略1,它们是最可能得到的集群。策略2的关键方面是了解点i属于聚类c的概率,然后将点i分配给其最相似的个聚类c,并使其具有最大的聚类c。为了定义pi,我们首先定义点i和j之间的相似性,这意味着点i和j之间的距离越小,它们就越相似。从聚类中心开始,将剩余点分配到距离最近的聚类中心中去,为了避免两个聚类被离群点的影响合并成一个聚类,基于密度相似性的密度峰值聚类算法会先删除离群点,然后在通过广度优先搜索k个最近邻来分配非离群值;仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。
四种算法在UCI数据集上的聚类性能:
Figure BDA0003552171370000061
实验结果显示,本文的算法在UCI数据集上的性能优于其他常用三种。

Claims (4)

1.基于密度相似性的密度峰值聚类算法,其特征在于,包括以下步骤:
步骤1.对数据点的局部密度使用统一定义,根据k最近邻和指数核函数重新定义局部密度;
步骤2.聚类中心选取阶段:采用密度敏感相似度来代替欧式距离来处理流形数据集,根据密度聚类指数的特点和聚类的定义,设计了DCI来自动识别聚类中心的数量;
步骤3.重新定义了2种剩余点分配策略,从聚类中心开始,通过广度优先搜索点的K个最近邻来分配非离群值。
2.根据权利要求1所述的基于密度相相似性的密度峰值聚类算法,其特征在于,所述步骤1中,引入k近邻和指数核函数,这样使样本的局部密度反映了流形数据集的特征,具有全局一致性;在此基础上重新定义局部密度。
3.根据权利要求1所述的基于密度相相似性的密度峰值聚类算法,其特征在于,所述步骤2中,首先采用密度敏感相似度代替欧氏距离来度量数据实例间的相似度,其次,在k从2到n不等的情况下进行DPC迭代,自动获得不同的聚类结果;在此过程中,基于密度敏感相似度计算数据实例的局部密度和相对距离,然后,迭代计算每个聚类分区的DCI,得到聚类中心个数。
4.根据权利要求1所述的基于密度相似性的密度峰值聚类算法,其特征在于,所述步骤3中,从聚类中心开始,将剩余点分配到距离最近的聚类中心中去,为了避免两个聚类被离群点的影响合并成一个聚类,基于密度相似性的密度峰值聚类算法会先删除离群点,然后在通过广度优先搜索k个最近邻来分配非离群值;仍然会有一些点没有被分配,这些点是真正的噪声,它们将被分配到同一个聚类中,作为已经分配的最近的邻居。
CN202210264661.XA 2022-03-17 2022-03-17 基于密度相似性的密度峰值聚类算法 Pending CN114638301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210264661.XA CN114638301A (zh) 2022-03-17 2022-03-17 基于密度相似性的密度峰值聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210264661.XA CN114638301A (zh) 2022-03-17 2022-03-17 基于密度相似性的密度峰值聚类算法

Publications (1)

Publication Number Publication Date
CN114638301A true CN114638301A (zh) 2022-06-17

Family

ID=81948890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210264661.XA Pending CN114638301A (zh) 2022-03-17 2022-03-17 基于密度相似性的密度峰值聚类算法

Country Status (1)

Country Link
CN (1) CN114638301A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476165A (zh) * 2023-12-26 2024-01-30 贵州维康子帆药业股份有限公司 一种中成药药物药材智能管理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476165A (zh) * 2023-12-26 2024-01-30 贵州维康子帆药业股份有限公司 一种中成药药物药材智能管理方法及系统
CN117476165B (zh) * 2023-12-26 2024-03-12 贵州维康子帆药业股份有限公司 一种中成药药物药材智能管理方法及系统

Similar Documents

Publication Publication Date Title
Böhm et al. The k-nearest neighbour join: Turbo charging the kdd process
Chowdhury et al. An entropy-based initialization method of K-means clustering on the optimal number of clusters
WO2018086433A1 (zh) 一种医学图像分割方法
EP1062590B1 (en) A scalable system for clustering of large databases
Wu et al. Effective hierarchical clustering based on structural similarities in nearest neighbor graphs
US6449612B1 (en) Varying cluster number in a scalable clustering system for use with large databases
CN111626321B (zh) 一种图像数据的聚类方法及装置
CN102799614B (zh) 基于视觉词语空间共生性的图像检索方法
Zhou et al. A robust clustering algorithm based on the identification of core points and KNN kernel density estimation
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN113222027A (zh) 基于加权共享最近邻的自适应聚类中心密度峰值聚类算法
Fu et al. Unified low-rank tensor learning and spectral embedding for multi-view subspace clustering
CN115293290A (zh) 一种自动识别聚类数的层次聚类算法
CN115496138A (zh) 一种基于自然邻居的自适应密度峰值聚类方法
CN114638301A (zh) 基于密度相似性的密度峰值聚类算法
Zhang et al. Chameleon algorithm based on improved natural neighbor graph generating sub-clusters
CN113158817B (zh) 一种基于快速密度峰聚类的客观天气分型方法
Ding et al. Density peaks clustering algorithm based on improved similarity and allocation strategy
Wang et al. A three-way adaptive density peak clustering (3W-ADPC) method
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
CN110097636B (zh) 一种基于可视域分析的选址规划方法
Li et al. A novel fuzzy distance-based minimum spanning tree clustering algorithm for face detection
CN115273645B (zh) 一种室内面要素自动聚类的地图制图方法
KR100902938B1 (ko) 영역 필터링을 이용한 영역 기반 이미지 검색 방법
Li et al. Sparse learning based on clustering by fast search and find of density peaks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination