CN113378986A - 密度峰值聚类算法的聚类策略优化 - Google Patents

密度峰值聚类算法的聚类策略优化 Download PDF

Info

Publication number
CN113378986A
CN113378986A CN202110762011.3A CN202110762011A CN113378986A CN 113378986 A CN113378986 A CN 113378986A CN 202110762011 A CN202110762011 A CN 202110762011A CN 113378986 A CN113378986 A CN 113378986A
Authority
CN
China
Prior art keywords
points
clustering
point
noise
density peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110762011.3A
Other languages
English (en)
Inventor
纪耀立
万静
姜诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110762011.3A priority Critical patent/CN113378986A/zh
Publication of CN113378986A publication Critical patent/CN113378986A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

Description

密度峰值聚类算法的聚类策略优化
技术领域
本发明涉及聚类分析技术领域,主要是对密度峰值聚类算法的聚类策略优化。
背景技术
聚类分析是一种无监督的学习方法,其目的是按照特定的标准,将数据划分到不同的簇中,探索数据的隐含信息,作为一种数据分析方法,聚类分析被广泛的应用于数据分析,图像处理,生物信息学,模式识别,机器学习等领域,传统的聚类分析方法主要分为以下几大类:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等等,密度峰值聚类算法(Clustering by fast search and find of densitypeaks)是一种基于密度的聚类方法,于2014年由Alex Rodriguez和Alessandro在LaioScience上发表,该算法简洁且高效,可以快速搜索并发现任意形状数据集的密度峰值点,适用于大量数据的聚类,DPC算法首先需要计算数据集中每个点的局部密度ρ,然后找出每个点到局部密度比其大的最近点之间的欧氏距离δ;根据ρ和δ值画出决策图,并通过决策图选出初始聚类中心点;对于剩余的点,依次将其分配给密度比其大的最近点所在的簇类,DPC算法不需要事先指定簇类的数目,而是通过决策图选择聚类中心。
DPC算法虽然简洁高效,但在分配剩余点的时候存在以下缺陷:在将某个点A分配给局部密度比其大的最近点B所在的簇类时,若两个簇的距离较近,B点所在的簇类与与A点不属于同一个簇类,会导致该点的聚类结果发生错误,进而引发连锁反应,该点后面的点的聚类结果也会跟着出错。
发明内容
在针对上述提出的密度峰值聚类算法的缺陷,本文提出了一种新的聚类策略,对剩余点的分配过程进行优化,以避免出现相似的问题。具体步骤如下。
计算数据集中的每个样本点,到离其最近的第k个点之间的欧式距离,此距离记为该点的k-dist值,将数据集中所有样本点的k-dist值按照由小到大的顺序排序,取5%左右、k-dist值最大的样本点,标记为原始噪声点,k值的选取决定了将数据集中的哪些样本点标记为原始噪声点,在k=1、k=2、k=3时,数据集中选取的原始噪声点是不同的,因此k值的选取决定了原始噪声点在数据集中的位置,也决定了是否能适当的将不同的簇分开。
为了使簇与簇之间分离的更加彻底,以每个原始噪声点为中心,将离其最近的第n个点标记为新噪声点;同时将所有原始噪声点到离其最近的第n个点的欧氏距离保存起来,从中选取最小值,记作R,为了防止选取过多的噪声点,此处的n值应尽量小,一般为1或2。
通过决策图选取多个初始聚类中心,视为集合H。从集合H中任选一点作为初始聚类中心点A,从A点开始,以上方选取的R值为半径画圆,将圆内所有未被标记过的点(且该点不能是噪声点),标记为同一类,标记完成以后,从圆内选取离A点最近的点作为新的中心点,并同样以该点为中心,以R值为半径画圆,将圆内所有未被标记过的点标记为同一类,以此类推,利用广度优先搜索遍历算法的原理,遍历其它的点,当中心点范围内找不到未被标记过的点时,返回上一层,然后选取离上一层中心点第二近的点作为新的中心点,以R值为半径画圆,直到所有的点都找不到未被标记过的点(噪声点除外)为止,遍历结束。
以R值为半径能够最大程度的避免在遍历的过程中,从一个簇遍历到另一个簇中的点,选取原始噪声点时,一般选在簇与簇之间的临界处,以每个原始噪声点为中心,将离其最近的第n个点标记为新噪声点,能够保证簇与簇之间的欧式距离大于R值。
从集合H中逐个选取剩余的点作为初始聚类中心点,按照上述方法,再次进行遍历,直到集合H为空为止,在遍历的过程中遇到的已经被标记过的点,不能被再次标记。
在经过上述遍历过程以后,可能会出现零星未被标记到的点,因此将未被标记的点分配给离其最近的点所在的类,然后将新噪声点分配给离其最近的点所在的类,最后分配原始噪声点,至此,聚类过程结束。
本算法针对密度峰值聚类算法在分配剩余点时存在的由于一个点分配错误,引起连锁反应,进而导致剩余点分配错误的缺陷进行改进,大大提高了聚类结果的准确性。
附图说明
图1是DPC算法在Flame数据集上的聚类结果。
图2是本发明算法在Flame数据集上的聚类结果。
图3是DPC算法在Pathbased数据集上的聚类结果。
图4是本发明算法在Pathbased数据集上的聚类结果。
图5是DPC算法在Compound数据集上的聚类结果。
图6是本发明算法在Compound数据集上的聚类结果。
具体实施方式
本发明密度峰值聚类算法的聚类策略优化的具体实现步骤如下。
步骤一、输入二维数据集X={x1,x2,…,xn}。
步骤二、计算数据集中任意两点之间的欧式距离,将其保存至dist矩阵。
步骤三、输入k值,scale值,计算数据集中每个样本点的k-dist值,并选取比例为scale的样本点为原始噪声点,用列表tag标记数据集中的样本点所属的类,在tag列表中将原始噪声点标记为1。
步骤四、输入n值,将离原始噪声点最近的n个点标记为新噪声点,在tag列表中将新噪声点也标记为1。
步骤五、计算所有原始噪声点到离其最近的第n个点的欧氏距离,从中选取最小值保存到变量R中。
步骤六、根据式(1)(2)计算数据集中每个样本点的ρ和δ值。
Figure BDA0003149379590000031
其中dc为截断距离,dij为样本i与样本j之间的欧式距离。
Figure BDA0003149379590000032
其中ρ为样本点的局部密度,dij为样本i与j之间的欧式距离。
步骤七、根据ρ和δ构建决策图,并选出每个类簇中心组成的集合H。
步骤八、从集合H中逐个选取初始聚类中心,将以R为半径的圆内所有未被标记的点(切该点不能是噪声点),标记为同一类,以此类推,利用广度优先搜索遍历算法,对数据集中的点进行聚类,当中心点范围内找不到未被标记过的点时,返回上一层,然后选取离上一层中心点第二近的点作为新的中心点,将以R为半径的圆内所有未被标记的点(切该点不能是噪声点),标记为同一类,直到所有的点都找不到未被标记过的点(噪声点除外)为止,遍历结束。
步骤九、从集合H中逐个选取剩余的点作为初始聚类中心点,按照步骤八,再次进行遍历,直到集合H为空为止,在遍历的过程中遇到的已经被标记过的点,不能被再次标记。
步骤十、将未被标记的点分配给离其最近的点所在的类,然后将新噪声点分配给离其最近的点所在的类,最后分配原始噪声点。

Claims (4)

1.密度峰值聚类算法的聚类策略优化,包括以下步骤:
步骤1:找出位于簇与簇连接处的样本点,将其标记为噪声点,利用噪声点将簇与簇之间的欧式距离控制在R范围内;
步骤2:根据决策图选取聚类中心点,以每个聚类中心点为初始聚类中心,对每个簇分别进行聚类;
步骤3:分配剩余未被标记的点,将所有未分配的点分配给离其最近的点。
2.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法,其特征在于:所述步骤1中,计算每个样本点到离其最近的第k个样本点之间的欧氏距离,此欧氏距离记为该点的k-dist值,将所有样本点的k-dist值按由小到大的顺序排列,取5%左右k-dist值最大的样本点,将其标记为原始噪声点,为了使簇与簇之间分离的更加彻底,以每个原始噪声点为中心,将离该噪声点最近的n个噪声点标记为新噪声点,同时,将所有原始噪声点到离其最近的第n个点的欧氏距离保存起来,从中选取最小值,记作R。
3.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法,其特征在于:所述步骤2中,以每个聚类中心点为圆心,以R为半径画圆,将圆内所有未被标记过的点(该点不能是噪声点),标记为同一类,利用广度优先搜索遍历算法,逐层进行遍历。
4.根据权利要求1所述的密度峰值聚类算法的聚类策略优化方法,其特征在于:所述步骤3中,先将未被遍历到的点分配给离其最近的点所在的类,然后分配新噪声点,最后分配原始噪声点。
CN202110762011.3A 2021-07-06 2021-07-06 密度峰值聚类算法的聚类策略优化 Pending CN113378986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110762011.3A CN113378986A (zh) 2021-07-06 2021-07-06 密度峰值聚类算法的聚类策略优化

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110762011.3A CN113378986A (zh) 2021-07-06 2021-07-06 密度峰值聚类算法的聚类策略优化

Publications (1)

Publication Number Publication Date
CN113378986A true CN113378986A (zh) 2021-09-10

Family

ID=77581064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110762011.3A Pending CN113378986A (zh) 2021-07-06 2021-07-06 密度峰值聚类算法的聚类策略优化

Country Status (1)

Country Link
CN (1) CN113378986A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956087A (zh) * 2023-05-22 2023-10-27 成都工业职业技术学院 一种基于密度聚类的道岔摩擦电流智能计算方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956087A (zh) * 2023-05-22 2023-10-27 成都工业职业技术学院 一种基于密度聚类的道岔摩擦电流智能计算方法及系统
CN116956087B (zh) * 2023-05-22 2024-02-09 成都工业职业技术学院 一种基于密度聚类的道岔摩擦电流智能计算方法及系统

Similar Documents

Publication Publication Date Title
CN111191732B (zh) 一种基于全自动学习的目标检测方法
Masana et al. Metric learning for novelty and anomaly detection
CN109977994B (zh) 一种基于多示例主动学习的代表性图像选取方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN110781295B (zh) 一种多标记数据的特征选择方法及装置
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN108268526A (zh) 一种数据分类方法和装置
CN113344113B (zh) 一种基于改进k-means聚类的Yolov3锚框确定方法
CN113378986A (zh) 密度峰值聚类算法的聚类策略优化
Hruschka et al. Improving the efficiency of a clustering genetic algorithm
CN1388947A (zh) 字符识别系统
Bellazzi et al. The Gene Mover's Distance: Single-cell similarity via Optimal Transport
Krieger et al. Boosting the accuracy of protein secondary structure prediction through nearest neighbor search and method hybridization
CN113822310A (zh) 密度峰值聚类算法的聚类策略优化
CN111292807A (zh) 一种单细胞转录组数据中分析双细胞的方法
CN117349151A (zh) 一种基于聚类的测试用例优先级排序方法、装置及存储介质
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
Heo et al. Shortlist selection with residual-aware distance estimator for k-nearest neighbor search
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN111708853B (zh) 特征化密度峰聚类的出租车热点区域提取方法
CN114626451A (zh) 基于密度的数据预处理优化方法
CN113313213A (zh) 一种加速目标检测算法训练的数据集处理方法
CN115634848A (zh) 一种芯片分选路径的优化方法及优选系统
CN113516158A (zh) 基于Faster R-CNN的图模型构建方法
CN114091559A (zh) 数据填充方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination