CN114611596A - 一种基于自适应的密度峰值聚类方法 - Google Patents
一种基于自适应的密度峰值聚类方法 Download PDFInfo
- Publication number
- CN114611596A CN114611596A CN202210223360.2A CN202210223360A CN114611596A CN 114611596 A CN114611596 A CN 114611596A CN 202210223360 A CN202210223360 A CN 202210223360A CN 114611596 A CN114611596 A CN 114611596A
- Authority
- CN
- China
- Prior art keywords
- clustering
- density
- point
- algorithm
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自适应的密度峰值聚类方法,属于密度聚类的基本算法之一,本发明旨在解决传统的DPC聚类算法中存在的问题,传统的DPC算法对数据进行处理,计算局部密度和最小距离,通过局部密度和最小距离构造决策图,人工选取局部密度和最小距离都较大的点作为聚类中心点,导致聚类的准确度不高,因此针对密度峰值聚类算法不能自适应选取簇的数目,人工选取聚类中心等问题,引入了迪杰特斯拉算法和模糊C‑均值算法,对DPC聚类算法进行改进,从而改善了DPC聚类算法中存在的不足,提高了聚类的精确度,达到优化密度峰聚类算法效果的目的。
Description
技术领域
本发明涉及计算机技术应用领域,具体是一种基于自适应的密度峰值聚类方法。
背景技术
聚类是研究分类问题的一种统计分析方法,其所要求划分的类是未知的。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它的簇中的对象相异。聚类被广泛应用于多个领域,如机器学习、模式识别、图像处理、信息检索等。针对不同的应用和数据特性已出现了千余种不同的聚类算法,但不同的聚类算法都有其特定的适用范围和不足。
传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中最著名的两个算法分别是k-means算法和FCM(Fuzzy C-Means)算法,基于层次的聚类算法中三个有名的算法分别是CURE(Clustering Using Representative)算法和CHAMELEON算法,基于密度的聚类算法中最为著名的是DBSCAN算法,基于网格的聚类算法的典型代表是STING算法和CLIQUE算法,较为有名的几个模型聚类方法是CLASSI和EM。
2014年,Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法[17],为聚类算法的设计提供了一种新的思路,引领了一新的聚类算法研究方向。该算法可以识别出任意形状的数据,能直观的找到簇的数量,也能非常容易地发现异常点,而且,其参数唯一、使用简单、具有非常好的鲁棒性。
但DPeak算法也有诸多不足之处,如1)复杂度高,不适用于复杂数据,2)不能自适应选择密度峰值、截断距离和簇的数目,3)计算局部密度时,若没有考虑到数据的局部结构会导致簇的丢失,假峰和无峰,4)高维数据适用性差等。
发明内容
鉴于此,本发明主要解决密度峰值聚类算法不能自适应选取簇的数目,人工选取聚类中心的问题。本发明主要使用了迪杰斯特拉算法自动化确定簇的数目以及模糊C-均值聚类算法自适应选取聚类中心。
为了达到上述目的,本发明的算法具体步骤如下:。
步骤一:确定样本数据集X,源点s以及距离矩阵matrix。
步骤二:根据欧氏距离矩阵matrix和源点s,使用迪杰斯特拉算法得到已找到最短路径的节点数组,从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。
步骤三:从最短路径数组中选取数组长度最长的一组最短路径,构成一个簇,簇的数目加一。
步骤四:使用样本数据点集删除最短路径节点数组中的数据点,从而获取剩余点。
步骤五:使用样本数据点集删除步骤三中已获取簇中的数据点,从而获取参与下次算法的数据点,返回到步骤二,获取下一个簇。经过多次迭代,获取最终簇的数目。
步骤八:DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心,然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。
步骤九:将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件,同时设置指数权重因子为2。
步骤十:初始化迭代次数t,令t=0。
步骤十六:判断J(t)-J(t+1)>0是否成立,若成立,则令t=t+1,并转到步骤十三,否则,终止运算。
步骤十七:经过多次迭代后,得到最终的聚类中心集V和隶属度矩阵U,由此划分数据集,得到聚类结果。
附图说明
图1为本发明基于自适应的密度峰值聚类方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于自适应的密度峰值聚类方法,其基本实现过程如下:
1.输入数据集
2.使用迪杰斯特拉算法自适应选取簇的数目。
根据已确定的欧氏距离矩阵matrix和源点s,使用迪杰斯特拉算法得到已找到最短路径的节点数组,从源点到已找到最短路径的节点的最短距离数组以及最短路径数组。
从最短路径数组中选取数组长度最长的一组最短路径,构成一个簇,簇的数目加一。
使用样本数据点集删除最短路径节点数组中的数据点,从而获取剩余点。
使用样本数据点集删除已获取簇中的数据点,从而获取参与下次算法的数据点,返回到算法起始的地方,获取下一个簇。经过多次迭代,获取最终簇的数目。
3.使用DPC算法获取初始聚类中心。
DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心,然后把剩下的点分配到比其密度大且离其最近的已分配的点的所在簇。
4.使用模糊C-均值聚类算法自适应获取聚类中心。
将DPC得到的初始化聚类中心和通过迪杰斯特拉算法得到的簇的数目作为模糊C-均值算法的输入条件,同时设置指数权重因子为2。
初始化迭代次数t,令t=0。
判断J(t)-J(t+1)>0是否成立,若成立,则令t=t+1,并转到步骤十三,否则,终止运算。
经过多次迭代后,得到最终的聚类中心集V和隶属度矩阵U,由此划分数据集,得到聚类结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于自适应的密度峰值聚类方法,主要包括以下步骤:
步骤一:首先通过DPC聚类算法计算数据点的局部密度。
步骤二:其次通过DPC聚类算法计算数据点与其他密度更高的点之间的最小距离。
步骤三:再通过局部密度和最小距离确定初始聚类中心。
步骤四:然后使用迪杰斯特拉算法自适应选取簇的数目。
步骤五:最后使用模糊C-均值聚类算法自适应确定最终的隶属度矩阵以及聚类中心点集。
3.根据权利要求2所述的局部密度,其中dij是数据点i和j的欧式距离,χ是指示函数,当x<0时,χ(x)=1,否则χ(x)=0;dc是截断距离,通常将所有点间的欧氏距离从小到大排序后,取前2%~5%大小的距离。
5.根据权利要求1所述的一种基于自适应簇数目的模糊密度峰值聚类算法,DPC使用局部密度和最小距离两个变量构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210223360.2A CN114611596A (zh) | 2022-03-07 | 2022-03-07 | 一种基于自适应的密度峰值聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210223360.2A CN114611596A (zh) | 2022-03-07 | 2022-03-07 | 一种基于自适应的密度峰值聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611596A true CN114611596A (zh) | 2022-06-10 |
Family
ID=81861111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210223360.2A Pending CN114611596A (zh) | 2022-03-07 | 2022-03-07 | 一种基于自适应的密度峰值聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611596A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227538A (zh) * | 2023-04-26 | 2023-06-06 | 国网山西省电力公司晋城供电公司 | 基于聚类和深度学习的小电流接地故障选线方法及设备 |
-
2022
- 2022-03-07 CN CN202210223360.2A patent/CN114611596A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227538A (zh) * | 2023-04-26 | 2023-06-06 | 国网山西省电力公司晋城供电公司 | 基于聚类和深度学习的小电流接地故障选线方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Verma et al. | A comparative study of various clustering algorithms in data mining | |
CN108733976B (zh) | 基于融合生物与拓扑特征的关键蛋白质识别方法 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN110266672B (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
CN113128618A (zh) | 基于kd树和混沌蜉蝣优化算法的并行谱聚类方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN114861760A (zh) | 一种基于密度峰值聚类算法的改进研究 | |
Nayini et al. | A novel threshold-based clustering method to solve K-means weaknesses | |
CN114611596A (zh) | 一种基于自适应的密度峰值聚类方法 | |
CN108388769B (zh) | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 | |
CN111860359B (zh) | 一种基于改进随机森林算法的点云分类方法 | |
Park et al. | Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling | |
Suresh et al. | Data clustering using multi-objective differential evolution algorithms | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN111126467A (zh) | 一种基于多目标正余弦算法的遥感影像空谱聚类方法 | |
CN114328922B (zh) | 一种基于谱图理论的选择性文本聚类集成方法 | |
Cai et al. | Fuzzy criteria in multi-objective feature selection for unsupervised learning | |
CN112215297A (zh) | 基于因子分析的生产制造数据分层聚类方法 | |
Li | NNGDPC: a kNNG-based density peaks clustering | |
Dubey et al. | Effective K-means clustering algorithm for efficient data mining | |
CN112308160A (zh) | 一种k—均值聚类人工智能优化算法 | |
Alnaji et al. | A novel clustering algorithm using k-means (CUK) | |
Di Nuovo et al. | An evolutionary fuzzy c-means approach for clustering of bio-informatics databases | |
Paul et al. | A multi-objective genetic algorithm based fuzzy relational clustering for automatic microarray cancer data clustering | |
Qureshi et al. | A New Clustering Algorithm Based on Non-Negative Matrix Factorization Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |