CN114611596A - 一种基于自适应的密度峰值聚类方法 - Google Patents

一种基于自适应的密度峰值聚类方法 Download PDF

Info

Publication number
CN114611596A
CN114611596A CN202210223360.2A CN202210223360A CN114611596A CN 114611596 A CN114611596 A CN 114611596A CN 202210223360 A CN202210223360 A CN 202210223360A CN 114611596 A CN114611596 A CN 114611596A
Authority
CN
China
Prior art keywords
clustering
density
point
algorithm
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210223360.2A
Other languages
English (en)
Inventor
田新雨
何云斌
杨晓秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210223360.2A priority Critical patent/CN114611596A/zh
Publication of CN114611596A publication Critical patent/CN114611596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自适应的密度峰值聚类方法,属于密度聚类的基本算法之一,本发明旨在解决传统的DPC聚类算法中存在的问题,传统的DPC算法对数据进行处理,计算局部密度和最小距离,通过局部密度和最小距离构造决策图,人工选取局部密度和最小距离都较大的点作为聚类中心点,导致聚类的准确度不高,因此针对密度峰值聚类算法不能自适应选取簇的数目,人工选取聚类中心等问题,引入了迪杰特斯拉算法和模糊C‑均值算法,对DPC聚类算法进行改进,从而改善了DPC聚类算法中存在的不足,提高了聚类的精确度,达到优化密度峰聚类算法效果的目的。

Description

一种基于自适应的密度峰值聚类方法
技术领域
本发明涉及计算机技术应用领域,具体是一种基于自适应的密度峰值聚类方法。
背景技术
聚类是研究分类问题的一种统计分析方法,其所要求划分的类是未知的。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它的簇中的对象相异。聚类被广泛应用于多个领域,如机器学习、模式识别、图像处理、信息检索等。针对不同的应用和数据特性已出现了千余种不同的聚类算法,但不同的聚类算法都有其特定的适用范围和不足。
传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中最著名的两个算法分别是k-means算法和FCM(Fuzzy C-Means)算法,基于层次的聚类算法中三个有名的算法分别是CURE(Clustering Using Representative)算法和CHAMELEON算法,基于密度的聚类算法中最为著名的是DBSCAN算法,基于网格的聚类算法的典型代表是STING算法和CLIQUE算法,较为有名的几个模型聚类方法是CLASSI和EM。
2014年,Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法[17],为聚类算法的设计提供了一种新的思路,引领了一新的聚类算法研究方向。该算法可以识别出任意形状的数据,能直观的找到簇的数量,也能非常容易地发现异常点,而且,其参数唯一、使用简单、具有非常好的鲁棒性。
但DPeak算法也有诸多不足之处,如1)复杂度高,不适用于复杂数据,2)不能自适应选择密度峰值、截断距离和簇的数目,3)计算局部密度时,若没有考虑到数据的局部结构会导致簇的丢失,假峰和无峰,4)高维数据适用性差等。
发明内容
鉴于此,本发明主要解决密度峰值聚类算法不能自适应选取簇的数目,人工选取聚类中心的问题。本发明主要使用了迪杰斯特拉算法自动化确定簇的数目以及模糊C-均值聚类算法自适应选取聚类中心。
为了达到上述目的,本发明的算法具体步骤如下:。
步骤一:确定样本数据集X,源点s以及距离矩阵matrix。
步骤二:根据欧氏距离矩阵matrix和源点s,使用迪杰斯特拉算法得到已找到最短路径的节点数组,从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。
步骤三:从最短路径数组中选取数组长度最长的一组最短路径,构成一个簇,簇的数目加一。
步骤四:使用样本数据点集删除最短路径节点数组中的数据点,从而获取剩余点。
步骤五:使用样本数据点集删除步骤三中已获取簇中的数据点,从而获取参与下次算法的数据点,返回到步骤二,获取下一个簇。经过多次迭代,获取最终簇的数目。
步骤六:使用DPC算法计算数据点i的局部密度ρi,其公式为:
Figure BDA0003534639010000021
步骤七:计算点i与其他密度更高的点之间的最小距离,其公式为:
Figure BDA0003534639010000022
对于密度最高的点,则可以取:
Figure BDA0003534639010000023
步骤八:DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心,然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。
步骤九:将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件,同时设置指数权重因子为2。
步骤十:初始化迭代次数t,令t=0。
步骤十一:根据初始化聚类中心集vi,算出μij,其公式为:
Figure BDA0003534639010000024
步骤十二:根据vi和μij,计算出目标函数J,其公式为:
Figure BDA0003534639010000025
步骤十三:根据μij,计算出新的vi,其公式为:
Figure BDA0003534639010000026
步骤十四:根据新的vi,代入公式:
Figure BDA0003534639010000027
计算出新的μij
步骤十五:根据新的vi和新的μij,代入公式:
Figure BDA0003534639010000031
计算出新的目标函数J。
步骤十六:判断J(t)-J(t+1)>0是否成立,若成立,则令t=t+1,并转到步骤十三,否则,终止运算。
步骤十七:经过多次迭代后,得到最终的聚类中心集V和隶属度矩阵U,由此划分数据集,得到聚类结果。
附图说明
图1为本发明基于自适应的密度峰值聚类方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于自适应的密度峰值聚类方法,其基本实现过程如下:
1.输入数据集
2.使用迪杰斯特拉算法自适应选取簇的数目。
根据已确定的欧氏距离矩阵matrix和源点s,使用迪杰斯特拉算法得到已找到最短路径的节点数组,从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。
从最短路径数组中选取数组长度最长的一组最短路径,构成一个簇,簇的数目加一。
使用样本数据点集删除最短路径节点数组中的数据点,从而获取剩余点。
使用样本数据点集删除已获取簇中的数据点,从而获取参与下次算法的数据点,返回到算法起始的地方,获取下一个簇。经过多次迭代,获取最终簇的数目。
3.使用DPC算法获取初始聚类中心。
计算数据点i的局部密度ρi,其公式为:
Figure BDA0003534639010000032
计算点i与其他密度更高的点之间的最小距离,其公式为:
Figure BDA0003534639010000041
对于密度最高的点,则可以取:
Figure BDA0003534639010000042
DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心,然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。
4.使用模糊C-均值聚类算法自适应获取聚类中心。
将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件,同时设置指数权重因子为2。
初始化迭代次数t,令t=0。
根据初始化聚类中心集vi,算出μij,其公式为:
Figure BDA0003534639010000043
根据vi和μij,计算出目标函数J,其公式为:
Figure BDA0003534639010000044
根据μij,计算出新的vi,其公式为:
Figure BDA0003534639010000045
根据新的vi,代入公式:
Figure BDA0003534639010000046
计算出新的μij
根据新的vi和新的μij,代入公式:
Figure BDA0003534639010000047
计算出新的目标函数J。
判断J(t)-J(t+1)>0是否成立,若成立,则令t=t+1,并转到步骤十三,否则,终止运算。
经过多次迭代后,得到最终的聚类中心集V和隶属度矩阵U,由此划分数据集,得到聚类结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于自适应的密度峰值聚类方法,主要包括以下步骤:
步骤一:首先通过DPC聚类算法计算数据点的局部密度。
步骤二:其次通过DPC聚类算法计算数据点与其他密度更高的点之间的最小距离。
步骤三:再通过局部密度和最小距离确定初始聚类中心。
步骤四:然后使用迪杰斯特拉算法自适应选取簇的数目。
步骤五:最后使用模糊C-均值聚类算法自适应确定最终的隶属度矩阵以及聚类中心点集。
2.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法,对于任意的数据点i,其局部密度ρi为:
Figure FDA0003534639000000011
3.根据权利要求2所述的局部密度,其中dij是数据点i和j的欧式距离,χ是指示函数,当x<0时,χ(x)=1,否则χ(x)=0;dc是截断距离,通常将所有点间的欧氏距离从小到大排序后,取前2%~5%大小的距离。
4.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法,计算点i与其他密度更高的点之间的最小距离,
Figure FDA0003534639000000012
对于密度最高的点,则可以取:
Figure FDA0003534639000000013
Figure FDA0003534639000000014
5.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法,DPC使用局部密度和最小距离两个变量构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
6.根据权利要求5所述的初始聚类中心,作为模糊C-均值聚类算法的输入条件,初步得到隶属度矩阵,其公式为:
Figure FDA0003534639000000015
7.根据权利要求6所述的隶属度矩阵和权利要求5所述的初始聚类中心,得到目标函数为:
Figure FDA0003534639000000016
8.根据权利要去6所述的隶属度矩阵,代入聚类中心点集的公式中,获取每一次迭代中所需要的聚类中心点,其公式为:
Figure FDA0003534639000000017
CN202210223360.2A 2022-03-07 2022-03-07 一种基于自适应的密度峰值聚类方法 Pending CN114611596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210223360.2A CN114611596A (zh) 2022-03-07 2022-03-07 一种基于自适应的密度峰值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210223360.2A CN114611596A (zh) 2022-03-07 2022-03-07 一种基于自适应的密度峰值聚类方法

Publications (1)

Publication Number Publication Date
CN114611596A true CN114611596A (zh) 2022-06-10

Family

ID=81861111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210223360.2A Pending CN114611596A (zh) 2022-03-07 2022-03-07 一种基于自适应的密度峰值聚类方法

Country Status (1)

Country Link
CN (1) CN114611596A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227538A (zh) * 2023-04-26 2023-06-06 国网山西省电力公司晋城供电公司 基于聚类和深度学习的小电流接地故障选线方法及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227538A (zh) * 2023-04-26 2023-06-06 国网山西省电力公司晋城供电公司 基于聚类和深度学习的小电流接地故障选线方法及设备

Similar Documents

Publication Publication Date Title
Verma et al. A comparative study of various clustering algorithms in data mining
CN108733976B (zh) 基于融合生物与拓扑特征的关键蛋白质识别方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN110266672B (zh) 基于信息熵和置信度下采样的网络入侵检测方法
CN113128618A (zh) 基于kd树和混沌蜉蝣优化算法的并行谱聚类方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
Nayini et al. A novel threshold-based clustering method to solve K-means weaknesses
CN114611596A (zh) 一种基于自适应的密度峰值聚类方法
CN108388769B (zh) 基于边驱动的标签传播算法的蛋白质功能模块识别方法
CN111860359B (zh) 一种基于改进随机森林算法的点云分类方法
Park et al. Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling
Suresh et al. Data clustering using multi-objective differential evolution algorithms
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN111126467A (zh) 一种基于多目标正余弦算法的遥感影像空谱聚类方法
CN114328922B (zh) 一种基于谱图理论的选择性文本聚类集成方法
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
CN112215297A (zh) 基于因子分析的生产制造数据分层聚类方法
Li NNGDPC: a kNNG-based density peaks clustering
Dubey et al. Effective K-means clustering algorithm for efficient data mining
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
Alnaji et al. A novel clustering algorithm using k-means (CUK)
Di Nuovo et al. An evolutionary fuzzy c-means approach for clustering of bio-informatics databases
Paul et al. A multi-objective genetic algorithm based fuzzy relational clustering for automatic microarray cancer data clustering
Qureshi et al. A New Clustering Algorithm Based on Non-Negative Matrix Factorization Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination