CN114861760A - 一种基于密度峰值聚类算法的改进研究 - Google Patents

一种基于密度峰值聚类算法的改进研究 Download PDF

Info

Publication number
CN114861760A
CN114861760A CN202210355459.8A CN202210355459A CN114861760A CN 114861760 A CN114861760 A CN 114861760A CN 202210355459 A CN202210355459 A CN 202210355459A CN 114861760 A CN114861760 A CN 114861760A
Authority
CN
China
Prior art keywords
density
clustering
clustering algorithm
algorithm
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210355459.8A
Other languages
English (en)
Inventor
田新雨
杨晓秋
弋琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210355459.8A priority Critical patent/CN114861760A/zh
Publication of CN114861760A publication Critical patent/CN114861760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于密度峰值的聚类算法改进研究,属于聚类算法之一,聚类属于无监督分类,目的是将数据划分为不同簇。密度峰值聚类算法根据决策图确定聚类中心并检测非球形聚类,而无需指定聚类数。本发明旨在解决传统DPC聚类算法中存在的问题,传统的DPC算法对数据进行处理,计算局部密度和最小距离,通过局部密度和最小距离构造决策图,人工选取局部密度和最小距离都较大的点作为聚类中心点,导致聚类的准确度不高,因此针对密度峰值聚类算法不能自适应选取阈值,分配剩余点容易产生多米诺骨牌效应等问题,引入了DTW算法并且设计自适应阈值,对DPC聚类算法进行改进,从而改善了DPC聚类算法中存在的不足,提高了聚类的精确度。

Description

一种基于密度峰值聚类算法的改进研究
技术领域
本发明涉及计算机技术应用领域,具体是一种基于密度峰值聚类算法的改进研究。
背景技术
聚类分析是一种分析数据间关系的无监督方法,是数据挖掘的预处理步骤,聚类分析是将数据划分成群组的过程,研究如何在没有训练的条件下把一组数据对象或者物理对象分成若干类。使类内对象之间相似度高、类间对象之间相似度低。聚类分析在数据挖掘、基因识别、图像处理和文档检索等领域应用广泛。
传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中经典的两个算法分别是K-MEANS算法和K-MEDOIDS算法,基于层次的聚类算法中三个有名的算法分别是BRICH算法、CURE(Clustering Using Representative)算法和CHAMELEON算法,基于密度的经典聚类算法有DBSCAN算法、OPTICS算法和DENCLUE算法,基于网格的聚类算法的典型代表是STING算法和CLIQUE算法,较为有名的几个模型聚类方法是CLASSI和EM。
2014年,Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法,为聚类算法的设计提供了一种新的思路,引领了一新的聚类算法研究方向。该算法适用于任意形状的数据集和大规模的数据集,对初始聚类中心有很强的针对性,能直观的找到簇的数量,也能非常容易地发现异常点,而且,其参数唯一、使用简单、具有非常好的鲁棒性。其算法思想是:簇中心的局部密度要大于簇周围数据的局部密度,且与比其局部密度大的对象间的距离较远。
但DPeak算法也有诸多不足之处,如1)复杂度高,不适用于复杂数据,2)不能自适应选择密度峰值、阈值和簇的数目,3)计算局部密度时,若没有考虑到数据的局部结构会导致簇的丢失,假峰和无峰,4)高维数据适用性差等。
发明内容
鉴于此,本发明主要解决密度峰值聚类算法不能自适应选取阈值,避免分配剩余点产生多米诺骨牌效应,一旦某一个样本分配错误,会导致后续样本分配错误的问题。本发明主要使用了DTW算法对剩余点进行分配以及结合均值和与中心点非同一类区域对比率自适应获取阈值。
为了达到上述目的,本发明的算法具体步骤如下:。
步骤一:确定样本数据集X,令c点为中心点。
步骤二:通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P,其公式为:
Figure BDA0003581183680000021
其中d(c,ci)为两点之间的欧氏距离,σ为对比度调节因子,一般取[0.75,1.2]之间,对比度P取值范围在[0,1]之间,值越大,代表对比度越小,两者越相似,当值为1时,代表两点完全属于同一区域。
步骤三:计算局部区域对中心点c的累积对比度S,其公式为:
Figure BDA0003581183680000022
步骤四:计算与中心点属于同类区域的累积对比度A,其公式为:A(c)=S(c)·δ,当P(c,ci)=1,δ=1;当P(c,ci)=0,δ=0。
步骤五:计算与中心点非同一类区域对比率R,其公式为:R(c)=(S(c)-A(c))/S(c),R越大,越不是同一类。
步骤六:结合R和均值确定阈值dc,其公式为:dc=μc(1+k(R(c)-1)),R越大,R(c)-1越接近于0,表示阈值越接近于均值。
步骤七:使用DPC算法计算数据点i的局部密度ρi,其公式为:
Figure BDA0003581183680000023
步骤八:计算点i与其他密度更高的点之间的最小距离,其公式为:
Figure BDA0003581183680000024
对于密度最高的点,则可以取:
Figure BDA0003581183680000025
步骤九:DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
步骤十:将剩余的点与其他类密度较大值点分别分为两组,使用DTW算法测试两组之间的距离,找出其中距离最短的那条路径,从而将剩余点分配给密度比它高的最近样本。DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值,其公式为:
Figure BDA0003581183680000026
其中d(i,j)为两点之间的欧氏距离。
步骤十一:由此划分数据集,得到聚类结果。
附图说明
图1为本发明基于密度峰值的聚类算法的改进研究的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于密度峰值聚类算法的改进研究,其基本实现过程如下:
1.输入数据集
2.选取中心点,自适应获取阈值。
通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P。
计算局部区域对中心点c的累积对比度S。
计算与中心点非同一类区域对比率R。
结合R和均值确定阈值dc
3.使用DPC算法获取初始聚类中心。
计算数据点i的局部密度ρi,其公式为:
Figure BDA0003581183680000031
计算点i与其他密度更高的点之间的最小距离,其公式为:
Figure BDA0003581183680000032
对于密度最高的点,则可以取:
Figure BDA0003581183680000033
DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
4.使用DTW算法对剩余点进行分配。
将剩余的点与其他类密度较大值点分别分为两组,使用DTW算法测试两组之间的距离,找出其中距离最短的那条路径,从而将剩余点分配给密度比它高的最近样本。
DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值,其公式为:
Figure BDA0003581183680000041
其中d(i,j)为两点之间的欧氏距离。
划分数据集,得到聚类结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于密度峰值聚类算法的改进研究,主要包括以下步骤:
步骤一:首先计算数据集中心点的阈值dc
步骤二:通过DPC聚类算法计算数据点的局部密度ρi
步骤三:其次通过DPC聚类算法计算数据点与其他密度更高的点之间的最小距离δi
步骤四:再通过局部密度和最小距离确定聚类中心;
步骤五:最后使用动态时间规整(DTW)算法对剩余点进行分配。
2.根据权利要求1所述的一种基于密度峰值聚类算法的改进研究,对于数据集中心点c,结合均值和与中心点非同一类区域的对比率确定阈值,其阈值dc为:dc=μc(1+k(Rc-1))。
3.根据权利要求1所述的一种基于密度峰值聚类算法的改进研究,对于任意的数据点i,其局部密度ρi为:
Figure FDA0003581183670000011
其中dij是数据点i和j的欧式距离,χ是指示函数,当x<0时,χ(x)=1,否则χ(x)=0。
4.根据权利要求1所述的一种基于度峰值聚类算法的改进研究,计算点i与其他密度更高的点之间的最小距离,
Figure FDA0003581183670000012
对于密度最高的点,则可以取:
Figure FDA0003581183670000013
5.根据权利要求1所述的一种基于度峰值聚类算法的改进研究,DPC使用局部密度和最小距离两个变量构建ρ-δ决策图,将ρ和δ都较大的点选取聚类中心。
6.根据权利要求1所述的一种基于度峰值聚类算法的改进研究,将剩余点与其他类密度较大值点使用DTW算法进行相似性度量,将非密度峰值分配给密度比它高的最近样本。
CN202210355459.8A 2022-04-04 2022-04-04 一种基于密度峰值聚类算法的改进研究 Pending CN114861760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210355459.8A CN114861760A (zh) 2022-04-04 2022-04-04 一种基于密度峰值聚类算法的改进研究

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210355459.8A CN114861760A (zh) 2022-04-04 2022-04-04 一种基于密度峰值聚类算法的改进研究

Publications (1)

Publication Number Publication Date
CN114861760A true CN114861760A (zh) 2022-08-05

Family

ID=82629274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210355459.8A Pending CN114861760A (zh) 2022-04-04 2022-04-04 一种基于密度峰值聚类算法的改进研究

Country Status (1)

Country Link
CN (1) CN114861760A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129361A (zh) * 2023-03-24 2023-05-16 武汉中科通达高新技术股份有限公司 一种基于距离度量的人群聚集识别方法及装置
CN116959587A (zh) * 2023-09-19 2023-10-27 深圳赛威玛智能科技有限公司 病原微生物数据实时在线分析系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129361A (zh) * 2023-03-24 2023-05-16 武汉中科通达高新技术股份有限公司 一种基于距离度量的人群聚集识别方法及装置
CN116129361B (zh) * 2023-03-24 2023-08-08 武汉中科通达高新技术股份有限公司 一种基于距离度量的人群聚集识别方法及装置
CN116959587A (zh) * 2023-09-19 2023-10-27 深圳赛威玛智能科技有限公司 病原微生物数据实时在线分析系统
CN116959587B (zh) * 2023-09-19 2024-01-09 深圳赛威玛智能科技有限公司 病原微生物数据实时在线分析系统

Similar Documents

Publication Publication Date Title
CN111211994B (zh) 一种基于SOM与K-means融合算法的网络流量分类方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN109522926A (zh) 基于信息熵聚类的异常检测方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN110852388A (zh) 基于K-means改进的SMOTE算法
Möller-Levet et al. DNA microarray data clustering based on temporal variation: Fcv with tsd preclustering
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN107886130A (zh) 一种基于聚类和相似度加权的kNN快速分类方法
CN109492664B (zh) 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN113837247A (zh) 一种产品质量数据聚类方法
CN110097072B (zh) 一种基于二分模块度的模糊聚类评价方法
CN114611596A (zh) 一种基于自适应的密度峰值聚类方法
CN114626451A (zh) 基于密度的数据预处理优化方法
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
CN114492830A (zh) 基于个体歧视实例对生成的深度学习模型去偏方法及其装置
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN114169406A (zh) 基于对称不确定性联合条件熵的特征选择方法
Qi et al. I-cfsfdp: A robust and high accuracy clustering method based on cfsfdp
Banka et al. Feature selection and classification for gene expression data using evolutionary computation
Li NNGDPC: a kNNG-based density peaks clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination