CN110414583A

CN110414583A - 一种基于可拓关联函数的改进密度峰值聚类方法

Info

Publication number: CN110414583A
Application number: CN201910661779.4A
Authority: CN
Inventors: 赵燕伟; 朱芬; 徐晨; 桂方志; 任设东; 黄程侃
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-11-05

Abstract

一种基于可拓关联函数的改进密度峰值聚类方法，包括：引入平均差异度作为样本密度度量标准并获得相应的相对距离；绘制相应的决策图，选取密度和相对距离都较大的样本点作为簇心；基于k邻域思想提出雏形簇概念，将雏形簇内样本点标记为已分配点；分别建立样本集和雏形簇物元模式下的节域和经典域；计算经典域和节域下的可拓距及相应的位值；构建各属性的可拓关联函数及综合关联函数；依次遍历未分配点，获取其对各雏形簇的综合关联函数值，将其分配到最大综合关联函数值所对应的簇中，并标记为已分配点，直至不存在未分配点，完成聚类。本发明对任意形状的数据集能实现准确的簇心选取和精确的聚类，具有更高的聚类准确率和更稳定的聚类性能。

Description

一种基于可拓关联函数的改进密度峰值聚类方法

技术领域

本发明涉及一种基于可拓关联函数的改进密度峰值聚类方法。

背景技术

随着大数据技术以及可拓学的快速发展，如何融合可拓学分析和挖掘数据中隐藏的知识，成为一个企业是否具有竞争力的重要因素。聚类是数据分析的重要手段，在数据挖掘、图像处理等领域被广泛应用，密度峰值聚类是2014年提出的高效聚类算法，但其存在选取的簇心质量不佳、非簇心点分配不准确引起“多米诺骨牌效应”等问题，使得聚类效果不理想，准确率不高。因此需要提出一种基于可拓关联函数的密度峰值聚类方法，基于可拓关联函数充分考虑样本点间的相关性，对其隶属程度进行定量描述，从而实现精准聚类，具有更好的准确率。

发明内容

本发明为了克服现有密度峰值聚类方法中密度度量不准确及一步分配策略所引起的聚类准确率低的不足，提供一种基于可拓关联的改进密度峰值聚类方法，借助可拓关联函数对样本间相关性的准确描述，实现更好的聚类效果。

本发明解决其技术问题所采用的技术方案是：

S1：样本点密度和相对距离的获取：将样本数据归一化处理，利用经典距计算归一化后样本间间距集，根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ；根据公式(2)计算相对距离δ：

设样本集O＝{O₁,O₂,…,O_n}，其中O_i为m维向量(i＝1,2,…,n)，有如下定义：

其中d_c为截断误差，d_ij是样本i和j之间的欧式距离。

S2：绘制决策图，选取簇心：根据ρ和δ值，绘制样本点决策图，选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ。

S3：计算簇心的k距离及k距离邻域：由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)。

所述的k值过大会影响聚类正确率，过小会增加算法运行时间，一般取值为簇心个数的2～4倍。

S4：建立雏形簇：将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中，形成雏形簇，并将这些样本点标记已分配点；

S5:综合关联函数的建立：根据样本数据及S4中所述的雏形簇，构造该样本集所对应的各属性关联函数；

在步骤S5中，包括如下子步骤：

S51：样本集物元构建及节域获取：对样本集根据公式(4)建立物元模型；根据公式(5)计算样本集节域：

样本物元模型：样本O_i表示为

其中C为样本O_i的属性特征，V为样本O_i属性特征所对应的值。

其中<x_cj,y_cj>为该样本集O第j维属性值的取值范围。

S52：雏形簇物元构建及经典域的获取：根据公式(4)建立雏形簇物元模型，并在雏形簇物元模型的基础上，根据公式(6)获取雏形簇心簇各属性的经典域。

其中<x_i,j,y_i,j>为第i个簇心ζ_i的k距离邻域N(ζ_i)第j维属性的取值范围。

S53：计算任意样本的可拓距及位值：由所述的节域X和经典域X₀分别根据公式(7)计算出可拓距，同时根据公式(8)计算出位值

实轴上任意一点x与区间X₀＝<a,b>之距为：

设X₀＝<a,b>，X＝<c,d>,且则称

为点x关于区间X₀和X组成的区间套的位值。

S54：关联函数构建：由S53中所述的样本可拓距及位值，根据公式(9)建立各属性的关联函数。

称k(x)为点x关于区间X₀和X的关联函数。

S55:综合关联函数的构建：由S54中所述的各属性关联函数，根据公式(10)建立样本点的综合关联函数。

其中λ₁，λ₂,...,λ_m为样本集各属性的权重系数且满足v_i为对象O第i个属性对应的值。

S6:未分配点聚类:依次遍历未分配点，分别计算出其与各雏形簇的综合关联函数值，将其归属到关联度最大的簇内，并将其标记为已分配点，直至所有点完成分配，则聚类完成。

与现有技术相比，本发明的有益效果表现为：

1.采用平均差异度作为样本点的密度指标，将密度相同的样本点加以区分，使得更高质量的样本被选取为簇心的概率更大。2、在未分配点聚类中借助可拓关联函数引入分类的思想完成样本点精确的聚类；3、与其它算法基于多组算法进行对比，得到的结果科学合理，更适合任意形状的高维数据聚类，因此具有很广的应用前景。

附图说明

图1为本发明方法整体流程图图；

图2a～图2f为各算法在Aggregation数据集上聚类图，其中图2a是实际聚类结果图，图2b是本文算法聚类结果图，图2c是CFSFDP算法聚类结果图，图2d是IDPCA算法聚类结果图，图2e是DBSCAN算法聚类结果图，图2f是K-means聚类结果图；

图3a～图3f为各算法在Three cluster数据集上聚类图，其中图3a是实际聚类结果图，图3b是本文算法聚类结果图，图3c是CFSFDP算法聚类结果图，图3d是IDPCA算法聚类结果图，图3e是DBSCAN算法聚类结果图，图3f是K-means聚类结果图；

图4a～图4f为各算法在Jain数据集上聚类图，其中图4a是实际聚类结果图，图4b是本文算法聚类结果图，图4c是CFSFDP算法聚类结果图，图4d是IDPCA算法聚类结果图，图4e是DBSCAN算法聚类结果图，图4f是K-means聚类结果图；

图5a～图5f为各算法在Data1数据集上聚类图，其中图5a是实际聚类结果图，图5b是本文算法聚类结果图，图5c是CFSFDP算法聚类结果图，图5d是IDPCA算法聚类结果图，图5e是DBSCAN算法聚类结果图，图5f是K-means聚类结果图；

图6为五种算法聚类准确率对比图，其中，x轴坐标中0：样本真实分布；2：本文算法；4：CFSFDP算法；6：IDPCA算法；8：DBSCAN算法；10：K-means算法。

具体实施方式

下面结合附图和实施例例对本发明作进一步说明。

本实施例提供了基于基于可拓关联函数的密度峰值算法，包括以下步骤：

S1：将此方法与CFSFDP算法、IDPCA算法、DBSCAN算法和k-means算法进行对比。将样本数据归一化处理，利用经典距计算归一化后样本间间距集，根据公式(1)(2)计算各数据点平均差异度作为密度指标ρ；根据公式(2)计算相对距离δ：

其中d_c为截断误差，d_ij是样本i和j之间的欧式距离。

其中，本实例中采用的测试数据集来源于UCI数据库中用于测试聚类的Iris数据集和Wine数据集，各数据的特征如表1所示：

表1各数据集的基本特征

S2：决策图绘制，簇心选取：根据ρ和δ值，绘制样本点决策图，选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ。

S3：簇心的k距离及k距离邻域计算：由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)。

在步骤S5中，包括如下子步骤：

样本物元模型：样本O_i表示为

其中<x_cj,y_cj>为该样本集O第j维属性值的取值范围。

实轴上任意一点x与区间X₀＝<a,b>之距为：

设X₀＝<a,b>，X＝<c,d>,且则称

为点x关于区间X₀和X组成的区间套的位值。

称k(x)为点x关于区间X₀和X的关联函数。

S6:未分配点聚类:依次遍历未分配点，分别计算出其与各雏形簇的综合关联函数值，将其归属到关联度最大的簇内，并将其标记为已分配点，直至所有点完成分配，则聚类完成，得到聚类结果。

对本实例中所述的方法与其它对比方法分别针对四组可视化数据集：Aggregation、Jain、Three cluster和Data1进行聚类并展示，如图2，图3，图4，图5，图6所示。

针对所述聚类效果定量衡量算法的有效性，选取7组来自UCI数据库的实验数据集Iris，Wine，Seeds，Ionosphere，WDBC，waveform3和CMC数据集来测试，采用分类正确率指标进行衡量，各算法基于七个真实数据集聚类后的ACC评价指标值统计如表2所示：

表2七个数据集聚类后的ACC指标

所述正确率指标即被正确分到对应类别的样本个数与总样本个数比值。

所述实施例表明对任意形状，任意密度的数据集的聚类效果和聚类准确性均优于经典的CFSFDP算法、DBSCAN算法、K-means算法及改进的IDPCA算法。

本说明书实施例所述的内容仅仅是所提出的方法在UCI数据库中11组样本集下实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于可拓关联函数的密度峰值聚类方法，包括以下步骤：

其中d_c为截断误差，d_ij是样本i和j之间的欧式距离；

S2：绘制决策图，选取簇心：根据ρ和δ值，绘制样本点决策图，选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ；

S3：计算簇心的k距离及k距离邻域：由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)；

所述的k值过大会影响聚类正确率，过小会增加算法运行时间，一般取值为簇心个数的2～4倍；

在步骤S5中，包括如下子步骤：

样本物元模型：样本O_i表示为

其中C为样本O_i的属性特征，V为样本O_i属性特征所对应的值；

其中<x_cj,y_cj>为该样本集O第j维属性值的取值范围；

S52：雏形簇物元构建及经典域的获取：根据公式(4)建立雏形簇物元模型，并在雏形簇物元模型的基础上，根据公式(6)获取雏形簇心簇各属性的经典域；

其中<x_i,j,y_i,j>为第i个簇心ζ_i的k距离邻域N(ζ_i)第j维属性的取值范围；

实轴上任意一点x与区间X₀＝<a,b>之距为：

设X₀＝<a,b>，X＝<c,d>,且则称

为点x关于区间X₀和X组成的区间套的位值；

S54：关联函数构建：由S53中所述的样本可拓距及位值，根据公式(9)建立各属性的关联函数；

称k(x)为点x关于区间X₀和X的关联函数；

S55:综合关联函数的构建：由S54中所述的各属性关联函数，根据公式(10)建立样本点的综合关联函数；

其中λ₁，λ₂,...,λ_m为样本集各属性的权重系数且满足v_i为对象O第i个属性对应的值；