CN111914930A - 一种基于自适应微簇融合的密度峰值聚类方法 - Google Patents

一种基于自适应微簇融合的密度峰值聚类方法 Download PDF

Info

Publication number
CN111914930A
CN111914930A CN202010753314.4A CN202010753314A CN111914930A CN 111914930 A CN111914930 A CN 111914930A CN 202010753314 A CN202010753314 A CN 202010753314A CN 111914930 A CN111914930 A CN 111914930A
Authority
CN
China
Prior art keywords
micro
density
distance
cluster fusion
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010753314.4A
Other languages
English (en)
Inventor
张菁
宋紫阳
刘传修
刘小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Engineering Science
Original Assignee
Shanghai University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Engineering Science filed Critical Shanghai University of Engineering Science
Priority to CN202010753314.4A priority Critical patent/CN111914930A/zh
Publication of CN111914930A publication Critical patent/CN111914930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于自适应微簇融合的密度峰值聚类方法,包括以下步骤:步骤S1:获取原始矩阵,若为高维数据则进行降维处理,转至步骤S2;步骤S2:计算距离矩阵,并计算采样点的局部密度和到邻近最大密度的距离;步骤S3:根据局部密度和到邻近最大密度的距离计算决策指标,并排序,从决策指标的序列中选择相应个数的采样点设置为聚类中心;步骤S4:分配除聚类中心外的剩余数据;步骤S5:计算微簇之间的微簇间密度差和微簇间距离;步骤S6:根据微簇间密度差和微簇间距离,计算微簇融合值,判断微簇融合值是否小于设定阈值,若是则进行微簇融合再输出聚类结果。与现有技术相比,本发明具有鲁棒性更好、提高算法的容错性等优点。

Description

一种基于自适应微簇融合的密度峰值聚类方法
技术领域
本发明涉及数据划分技术领域,尤其是涉及一种基于自适应微簇融合的密度峰值聚类方法。
背景技术
聚类也称为无监督分类,根据对象(物理或抽象)的相似性度量将对象分为子集或聚类,以使聚类中的对象具有高度相似性,而属于不同聚类的对象具有相似性。聚类分析在社会科学,心理学,生物学,统计学,模式识别和信息检索等领域具有重要作用,是解决其他问题的重要基础。聚类分析是数据挖掘和机器学习中一个具有挑战性的问题。近年来,随着聚类分析的发展,提出了一些新的聚类方法,如子空间聚类,集成聚类和深度嵌入聚类。这些算法的性能是不同的。经典的K均值聚类算法在具有凸球形结构的数据集上取得了很好的聚类结果。
现有技术中公开了一种基于密度和距离的新聚类算法(DPC算法),通过快速搜索进行聚类并找到密度峰,与传统的聚类算法相比,DPC算法具有很多优点,其中包括:
一、简单高效,无需迭代计算目标函数即可快速找到高密度峰点(聚类中心);
二、适用于大规模数据的聚类分析。
同时DPC算法也存在些许不足的地方,如:
一、对于同时含有稀疏簇和密集簇的数据,简单的局部密度定义无法有效地找到聚类中心;
二、聚合容错性能差,一个数据分配不当,严重影响聚类效果;
三、聚类中心需要手动选择,存在人为干扰聚类结果的因数。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自适应微簇融合的密度峰值聚类方法,适用于复杂数据集的聚类、提高算法的容错性以及自动确定聚类中心,以解决传统DPC算法聚类效果不足的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于自适应微簇融合的密度峰值聚类方法,具体包括以下步骤:
步骤S1:获取原始矩阵,判断所述原始矩阵是否为高维数据,若是则根据设置迭代次数进行降维处理,转至步骤S2,若否则直接转至步骤S2;
步骤S2:根据所述原始矩阵或降维后的原始矩阵,计算相应的距离矩阵,根据所述距离矩阵计算每个采样点的局部密度和到邻近最大密度的距离;
步骤S3:根据局部密度和到邻近最大密度的距离计算所述采样点的决策指标,并对决策指标进行排序,根据设定的聚类中心的数量从决策指标的序列中选择相应个数的采样点设置为聚类中心;
步骤S4:分配原始矩阵中除所述聚类中心外的剩余数据,并删除噪声数据和异常值;
步骤S5:完成初步聚类的原始矩阵计算原始矩阵中微簇之间的微簇间密度差和微簇间距离;
步骤S6:根据所述微簇间密度差和微簇间距离,计算微簇融合值,判断所述微簇融合值是否小于设定阈值,若是则进行微簇融合并输出聚类结果,若否则直接输出聚类结果。
所述局部密度的计算公式如下:
Figure BDA0002610710070000021
其中,ρi为局部密度,xi、xj和xv为采样点的坐标,k为比例系数。
进一步地,所述到邻近最大密度的距离的计算公式如下:
Figure BDA0002610710070000022
其中,δi为到邻近最大密度的距离,dij为采样点xi和xj之间的距离。
进一步地,所述决策指标的计算公式如下:
γi=ρii
其中,γi为采样点xi的决策指标。
所述步骤S3中决策指标的排序方式为降序排列。
所述微簇间密度差的计算公式如下:
Figure BDA0002610710070000031
其中,CD为微簇间密度差,A和B为微簇,αi为过程参数,计算公式如下:
Figure BDA0002610710070000032
其中,n为数据维度。
进一步地,所述微簇间距离的计算公式如下:
CB=min(d(ri,rj))
其中,CB为微簇间距离,ri和rj分别为A和B内的点,d(ri,rj)为ri和rj的距离。
进一步地,所述微簇融合值的计算公式如下:
MC(A,B)=CB·CD2
其中,MC(A,B)为微簇A和微簇B之间的微簇融合值。
进一步地,所述步骤S6中的设定阈值为所有采样点的微簇融合值的算术平均值的0.2倍。
所述步骤S1中通过非负分解算法对高维数据进行降维处理。
与现有技术相比,本发明具有以下有益效果:
本发明设定多个采样点来计算目标采样点的局部密度,使计算得到的局部密度具有更好的鲁棒性,同时通过微簇之间的微簇间密度差和微簇间距离,将微簇与其相近的微簇进行融合,解决了传统DPC算法聚类效果不足的问题,提高算法的容错性,适用于复杂数据集的聚类。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于自适应微簇融合的密度峰值聚类方法,具体包括以下步骤:
步骤S1:获取原始矩阵,判断原始矩阵是否为高维数据,若是则根据设置迭代次数进行降维处理,转至步骤S2,若否则直接转至步骤S2;
步骤S2:根据原始矩阵或降维后的原始矩阵,计算相应的距离矩阵,根据距离矩阵计算每个采样点的局部密度和到邻近最大密度的距离;
步骤S3:根据局部密度和到邻近最大密度的距离计算采样点的决策指标,并对决策指标进行排序,根据设定的聚类中心的数量从决策指标的序列中选择相应个数的采样点设置为聚类中心;
步骤S4:分配原始矩阵中除聚类中心外的剩余数据,并删除噪声数据和异常值;
步骤S5:完成初步聚类的原始矩阵计算原始矩阵中微簇之间的微簇间密度差和微簇间距离;
步骤S6:根据微簇间密度差和微簇间距离,计算微簇融合值,判断微簇融合值是否小于设定阈值,若是则进行微簇融合并输出聚类结果,若否则直接输出聚类结果。
局部密度的计算公式如下:
Figure BDA0002610710070000041
其中,ρi为局部密度,xi、xj和xv为采样点的坐标,k为比例系数。
到邻近最大密度的距离的计算公式如下:
Figure BDA0002610710070000042
其中,δi为到邻近最大密度的距离,dij为采样点xi和xj之间的距离。
决策指标的计算公式如下:
γi=ρii
其中,γi为采样点xi的决策指标。
步骤S3中决策指标的排序方式为降序排列。
微簇间密度差的计算公式如下:
Figure BDA0002610710070000051
其中,CD为微簇间密度差,A和B为微簇,αi为过程参数,计算公式如下:
Figure BDA0002610710070000052
其中,n为数据维度。
微簇间距离的计算公式如下:
CB=min(d(ri,rj))
其中,CB为微簇间距离,ri和rj分别为A和B内的点,d(ri,rj)为ri和rj的距离。
微簇融合值的计算公式如下:
MC(A,B)=CB·CD2
其中,MC(A,B)为微簇A和微簇B之间的微簇融合值。
步骤S6中的设定阈值为所有采样点的微簇融合值的算术平均值的0.2倍。
步骤S1中通过非负分解算法对高维数据进行降维处理。
实施例一
选取Spiral、Jain和R15三个数据集进行分析,将本发明所提的方法与传统的DPC算法、k-means、模糊加权K近邻密度峰值算法以及DBSCAN算法进行比较,评价指标包括AMI、ARI和FMI,以检查聚类的准确性,具体结果如表1所示:
表1聚类效果表
Figure BDA0002610710070000053
Figure BDA0002610710070000061
表1的结果表明,本发明在三个数据集上的聚类效果均高于其他4种聚类算法,且在Jain数据集上本发明的聚类效果要远优于其他算法,验证了本发明聚类结果的正确性和有效性。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,具体包括以下步骤:
步骤S1:获取原始矩阵,判断所述原始矩阵是否为高维数据,若是则根据设置迭代次数进行降维处理,转至步骤S2,若否则直接转至步骤S2;
步骤S2:根据所述原始矩阵或降维后的原始矩阵,计算相应的距离矩阵,根据所述距离矩阵计算每个采样点的局部密度和到邻近最大密度的距离;
步骤S3:根据局部密度和到邻近最大密度的距离计算所述采样点的决策指标,并对决策指标进行排序,根据设定的聚类中心的数量从决策指标的序列中选择相应个数的采样点设置为聚类中心;
步骤S4:分配原始矩阵中除所述聚类中心外的剩余数据,并删除噪声数据和异常值;
步骤S5:完成初步聚类的原始矩阵计算原始矩阵中微簇之间的微簇间密度差和微簇间距离;
步骤S6:根据所述微簇间密度差和微簇间距离,计算微簇融合值,判断所述微簇融合值是否小于设定阈值,若是则进行微簇融合并输出聚类结果,若否则直接输出聚类结果。
2.根据权利要求1所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述局部密度的计算公式如下:
Figure FDA0002610710060000011
其中,ρi为局部密度,xi、xj和xv为采样点的坐标,k为比例系数。
3.根据权利要求2所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述到邻近最大密度的距离的计算公式如下:
Figure FDA0002610710060000012
其中,δi为到邻近最大密度的距离,dij为采样点xi和xj之间的距离。
4.根据权利要求3所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述决策指标的计算公式如下:
γi=ρii
其中,γi为采样点xi的决策指标。
5.根据权利要求1所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述步骤S3中决策指标的排序方式为降序排列。
6.根据权利要求1所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述微簇间密度差的计算公式如下:
Figure FDA0002610710060000021
其中,CD为微簇间密度差,A和B为微簇,αi为过程参数,计算公式如下:
Figure FDA0002610710060000022
其中,n为数据维度。
7.根据权利要求6所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述微簇间距离的计算公式如下:
CB=min(d(ri,rj))
其中,CB为微簇间距离,ri和rj分别为A和B内的点,d(ri,rj)为ri和rj的距离。
8.根据权利要求7所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述微簇融合值的计算公式如下:
MC(A,B)=CB·CD2
其中,MC(A,B)为微簇A和微簇B之间的微簇融合值。
9.根据权利要求8所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述步骤S6中的设定阈值为所有采样点的微簇融合值的算术平均值的0.2倍。
10.根据权利要求1所述的一种基于自适应微簇融合的密度峰值聚类方法,其特征在于,所述步骤S1中通过非负分解算法对高维数据进行降维处理。
CN202010753314.4A 2020-07-30 2020-07-30 一种基于自适应微簇融合的密度峰值聚类方法 Pending CN111914930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753314.4A CN111914930A (zh) 2020-07-30 2020-07-30 一种基于自适应微簇融合的密度峰值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753314.4A CN111914930A (zh) 2020-07-30 2020-07-30 一种基于自适应微簇融合的密度峰值聚类方法

Publications (1)

Publication Number Publication Date
CN111914930A true CN111914930A (zh) 2020-11-10

Family

ID=73286880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753314.4A Pending CN111914930A (zh) 2020-07-30 2020-07-30 一种基于自适应微簇融合的密度峰值聚类方法

Country Status (1)

Country Link
CN (1) CN111914930A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112475904A (zh) * 2020-11-12 2021-03-12 安徽江机重型数控机床股份有限公司 一种基于热分析的数控铣镗床加工精度预测方法
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法
CN115112032A (zh) * 2022-06-06 2022-09-27 上海工程技术大学 一种球面栅极组件间距的测量方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112475904A (zh) * 2020-11-12 2021-03-12 安徽江机重型数控机床股份有限公司 一种基于热分析的数控铣镗床加工精度预测方法
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法
CN113780437B (zh) * 2021-09-15 2024-04-05 大连交通大学 一种dpc聚类算法的改进方法
CN115112032A (zh) * 2022-06-06 2022-09-27 上海工程技术大学 一种球面栅极组件间距的测量方法

Similar Documents

Publication Publication Date Title
Ibrahim et al. Cluster representation of the structural description of images for effective classification
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN109409400A (zh) 基于k近邻和多类合并密度峰值聚类方法、图像分割系统
CN109522926A (zh) 基于信息熵聚类的异常检测方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN110781295B (zh) 一种多标记数据的特征选择方法及装置
CN112732748B (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN107316053A (zh) 一种布料图像快速匹配检索方法
CN112905583A (zh) 一种高维大数据离群点检测方法
CN113569920B (zh) 基于自动编码的第二近邻异常检测方法
CN111723897A (zh) 一种基于粒子群算法的多模态特征选择方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN114004271A (zh) 一种基于树状基学习器的混合特征数据聚类方法及系统
Li et al. Rethinking the optimization of average precision: Only penalizing negative instances before positive ones is enough
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN113780437A (zh) 一种dpc聚类算法的改进方法
CN117668509A (zh) 一种基于最大相关最小冗余的交互特征选择方法
CN105975909B (zh) 一种基于分形维数的指纹分类方法及指纹三级分类方法
CN113033345A (zh) 基于公共特征子空间的v2v视频人脸识别方法
CN112270338A (zh) 一种电力负荷曲线聚类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110