CN109409400A

CN109409400A - 基于k近邻和多类合并密度峰值聚类方法、图像分割系统

Info

Publication number: CN109409400A
Application number: CN201810986243.5A
Authority: CN
Inventors: 高淑萍; 何迪; 薛小娜; 彭弘铭; 赵�怡; 吴会会; 张剑湖; 王军宁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-03-01

Abstract

本发明属于用于阅读或识别印刷或书写字符或者用于识别图形技术领域，公开了一种基于K近邻和多类合并密度峰值聚类方法、图像分割系统，利用密度计算方式描述样本分布，采用新的评价指标获取聚类中心；设计迭代分配策略将剩余点准确归类；给出局部类合并方法防止将包含多个密度峰值点的类分裂。本发明通过密度度量方法来描述各数据点的分布情况，构建更符合人们想法的基于密度和距离的带偏好指标来评价聚类中心，并利用迭代分配策略将剩余点分配以提高聚类精度；在完成局部聚类后，多类合并策略来完成局部类合并操作。数值实验结果表明，在22个测试数据集及真实数据上均有良好的适用性。

Description

基于K近邻和多类合并密度峰值聚类方法、图像分割系统

技术领域

本发明属于用于阅读或识别印刷或书写字符或者用于识别图形技术领域，尤其涉及一种基于K近邻和多类合并密度峰值聚类方法、图像分割系统。

背景技术

目前，业内常用的现有技术是这样的：聚类可从无序数据中挖掘出潜在的有价值信息，其在图像分割、文档恢复及模式分类等诸多领域中有着广泛的应用前景。目前已有多种聚类方法，包括分割聚类、层次聚类、密度聚类及基于网格的聚类等。K-means是最简单且最受欢迎的分割聚类算法，具有操作简单、速度快等优点，但其非常依赖聚类数目及初始类中心；基于密度的DBSCAN算法也深受人们喜爱，其不仅可以识别出具有不规则形状的类，而且具有较强的抗噪能力，但其易受邻域半径ε和阈值_Minpts这两个预设参数的影响，微小的变化都会导致不同的结果。仿射传播聚类(Affinity Propagation，AP)算法，该算法简单有效，不需要预先指定聚类数目，但其所得聚类数目深受参数“preference”的影响。为了提高聚类质量及聚类效率，在Science期刊上发表了一种快速搜索与发现密度峰值的聚类算法DPC，其具有聚类速度快、可以有效识别类中心和噪声等优点；尽管该算法现已被运用于图像、工业、医学、社区发现等领域，但其仍存在以下局限：①对截断距离参数d_c很敏感，且未给出选取该参数的有效方法；②对于大小不同数据集，采用的密度计算方式不同，这无形中降低了算法的灵活性；③对剩余点的分配策略易产生误差传播现象；④当一个类中存在多个密度峰值时，DPC会将该类聚成多类。因此，有不少国内外研究者对DPC进行了优化改进；将DPC和FCM算法结合提出了FDP-FCM算法，解决了FCM算法中存在的对初始聚类中心敏感、聚类速度慢以及聚类数目难以确定的问题。将DPC和Chameleon算法相结合提出了E_CFSFDP算法，解决了DPC无法处理一个类中包含多个密度峰值点的问题。将密度比的概念引入DPC提出了R-CFSFDP算法，弥补了DPC难以处理密度变化比较大的数据的缺陷。利用信息熵理论提出了一种从原始数据集中自动提取d_c的方法，解决了DPC中d_c参数难以确定的问题。Fuzzy-CFSFDP算法，通过引入模糊规则来自动获取聚类中心，提高了聚类中心点选取和聚类结果的准确率。基于K近邻(K-nearest neighbors，KNN)思想分别提出了DPC-KNN和FKNN-DPC算法，不仅解决了DPC中的密度计算方式不统一问题，同时提高了聚类精度。ADPC-KNN算法，其使用KNN思想来计算每个点的全局参数d_c和局部密度，给出了一种自动选择初始聚类中心的新方法，提高了聚类质量。尽管这些方法获得的聚类结果比DPC的更理想，但其同时也带来了新问题，例如耗时增加、模型复杂、在真实数据集上性能不佳等。

综上所述，现有技术存在的问题是：密度峰值聚类算法在处理结构复杂、维数较高以及同类中存在多个密度峰值的数据集时，由于该方法采用的局部密度度量方式不统一，而且分配剩余点时易产生误差传播以及将包含多密度峰值的类聚成多类，以致该算法获得的聚类质量低，难以有效应用于实际问题中。

解决上述技术问题的难度和意义：如何设计统一的局部密度度量方式、简单高效的剩余点分配策略以及对包含多密度峰值点的类进行合并的策略，是提升密度峰值聚类方法的性能并将其有效应用于解决实际问题的关键和难点所在。因此通过对该算法进行有效完善来提升密度峰值方法的聚类质量和执行效率，并将其应用于实际问题中是具有显著意义的。

发明内容

针对现有技术存在的问题，本发明提供了一种基于K近邻和多类合并密度峰值聚类方法(KM-DPC)。

本发明是这样实现的，通过利用密度计算方式描述样本分布；采用新的评价指标获取聚类中心；结合K近邻思想设计迭代分配策略将剩余点准确归类；给出局部类合并方法防止将包含多个密度峰值点的类分裂。

基于K近邻和多类合并密度峰值聚类方法包括以下步骤：

输入：数据集X，相似性系数r

Step 1数据预处理：补全缺失值，标准化数据集；

Step 2计算数据点间的距离；利用公式计算每点的距离δ和密度ρ；

最小距离δ_i为：

对于密度最大的点x_i，其距离为δ_i＝max_k(d_ik)，局部密度ρ_i；

局部密度ρ_i由数据集的大小N、数据点间的距离d_ik及相似性系数r确定：

ρ_i＝∑_kψ(d_ik,r,N)

其中，ψ(d_ik,r,N)＝exp(-d_ik ²/(r*σ²)),σ＝N/100，r值越大，距x_i越近的点对其密度ρ_i的贡献权重越大；

Step 3计算γ值并对其进行降序排序；利用决策图选取聚类中心；

聚类中心评价指标γ_i，计算方式为：

其中，偏好系数p＝1.2，表明密度比距离信息略重要.γ_i值越大，点x_i成为聚类中心的可能性越大；

Step 4将剩余点都分配到距其最近的类中心；

Step 5分离出各局部类中的离群点；

离群点筛选公式如下：

其中，Outliers_m(m＝1,2,...,M)为从C_m中分离出的离群点；

Step 6利用迭代策略分配离群点：

a)若迭代结束；

b)依式(9)和式(10)分配剩余点；

c)若离群点个数未变，更新τ，转Step a)；

τ＝τ+0.05

Step 7利用局部类合并过程将局部类合并；

输出：样本类别标签labels。

采用所述基于K近邻和多类合并密度峰值聚类方法的新密度计算方法：对于任意数据点x_i，局部密度ρ_i由数据集的大小N、数据点间的距离d_ik及相似性系数r确定：

ρ_i＝∑_kψ(d_ik,r,N)

构建新的聚类中心评价指标γ_i，计算方式为：

其中，偏好系数p＝1.2，表明密度比距离信息略重要；γ_i值越大，点x_i成为聚类中心的可能性越大。

进一步，所述基于K近邻和多类合并密度峰值聚类方法的局部聚类包括：

离群点筛选阶段，将距聚类中心较近的点看作核心点，并将之分配至距其最近的类中心所属的局部类中，而将距类中心较远的点看作离群点；

迭代分类阶段，通过迭代策略将离群点分配到恰当的类。

进一步包括：

1)筛选离群点，在利用决策图选出聚类中心后，将剩余点分配到最近的类中，以得到M个局部类；因离群点通常具有较低密度且距类中心较远，将类中心点的邻域半径ε之外的点看做离群点，其中ε为各局部类中所有数据点到类中心点的距离平均值；在局部类C_m中，共含有|C_m|个数据点，类中任意数据点x_i与其类中心间的距离为邻域半径为离群点筛选公式如下：

其中，Outliers_m(m＝1,2,...,M)为从C_m中分离出的离群点；

2)迭代分类

对于每个离群点x_i∈Outliers_m，被分配到哪个局部类由它的K近邻分布信息来决定；x_i与KNN_i ^m间的距离之和与该点到KNN_i的距离之和的比值；

将x_i归入C_m；x_i对多个局部类均满足该判别条件，将x_i分配到使t_i,m最小的类中；

t_i,m≤τ；

对离群点分配后，修正τ迭代过程继续进行，

τ＝τ+0.05

直到所有的点被分配完毕。

进一步，所述基于K近邻和多类合并密度峰值聚类方法的多类合并以距离和密度作为合并条件，具体包括：

步骤一，计算M个类中心点间的平均距离

步骤二，将类间距离小于平均距离的类对C_m和C_n的距离d_cen(C_m,C_n)存入矩阵Q，并对Q矩阵按距离值作升序排序后得到新矩阵Q′；

步骤三，取出Q′矩阵的第一组值，即距离最近的两个类中心c1和c2；

步骤四，获取包含c1的类C₁中所有数据点的K近邻出现在包含c2的类C₂中的点集Set₁，同理获得Set₂；

步骤五，取Set₁和Set₂的中值作为预合并中心c；

步骤六，以最小类间距离的1/2为密度范围来计算c1、c2和c三个点的密度ρ₁、ρ₂和ρ_c；

步骤七，判断ρ_c是否大于等于1/4原始类中心密度之和，公式如下：

不满足则选择Q′中下一组值对应的两个类中心，并转步骤四；满足条件则标记两个局部类可合并；

步骤八，将标记为可合并的局部类进行合并。

本发明的另一目的在于提供一种应用所述基于K近邻和多类合并密度峰值聚类方法的图像分割系统。

本发明的另一目的在于提供一种应用所述基于K近邻和多类合并密度峰值聚类方法的文档恢复系统。

本发明的另一目的在于提供一种应用所述基于K近邻和多类合并密度峰值聚类方法的模式分类系统。

本发明的另一目的在于提供一种应用所述基于K近邻和多类合并密度峰值聚类方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：本发明给出了统一的密度度量方式、采用了基于K近邻和迭代思想的分配策略、设计了局部类合并步骤，显著改善了DPC在算法灵活度以及聚类质量方面的缺陷.仿真实验证明，本发明能够获得良好的聚类结果，尤其在处理结构复杂的数据集Jain、Compound、A1及维数较高的人脸数据集时，其聚类性能在ACC、AMI及ARI方面明显优于DPC、AP、DBSCAN、K-means；对于真实数据集，本发明的整体性能不仅优于上述四种聚类方法，而且与近期提出的FKNN-DPC相比也表现略优，进一步验证了本发明的可行性和有效性。

附图说明

图1是本发明实施例提供的基于K近邻和多类合并密度峰值聚类方法流程图。

图2是本发明实施例提供的DPC算法示意图；

图中：(a)原始数据集；(b)ρ和δ决策图；(c)γ数值决策图。

图3是本发明实施例提供的局部类合并过程示意图。

图4是本发明实施例提供的KM-DPC、AP及DPC对人脸数据聚类效果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于K近邻和多类合并的密度峰值聚类算法(KM-DPC)，利用定义的密度计算方式来描述样本分布，采用新的评价指标获取聚类中心；然后结合K近邻思想设计迭代分配策略将剩余点准确归类；给出一种局部类合并方法以防将包含多个密度峰值点的类分裂。仿真实验结果表明，KM-DPC在22个不同数据集上的性能明显优于DPC。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于K近邻和多类合并密度峰值聚类方法包括以下步骤：

S101：数据预处理，补全缺失值，标准化数据集；

S102：计算数据点间的距离；计算每点的距离和密度；

S103：计算新的指标值并对其进行降序排序；利用决策图选取聚类中心；

S104：将剩余点都分配到距其最近的类中心；

S105：分离出各局部类中的离群点；

S106：利用迭代策略分配离群点；

S107：利用局部类合并过程将局部类合并。

下面结合具体实施例对本发明的应用原理作进一步的描述。

1、DPC算法

设待聚类数据集为X＝{x₁,x₂,...,x_N}，其相应大小和维数分别为N和D，d_ik＝dist(x_i,x_k)为数据点x_i与x_k间的欧式距离，DPC的思想是通过利用每点的密度和距离信息将X划分为M个局部类C＝{C₁,C₂,...,C_M}。

DPC基于以下两点假设进行设计：1)聚类中心点被低密度点包围；2)聚类中心与其他具有较高密度点间的距离相对较远；因此，在聚类过程中，DPC需要计算每点的局部密度ρ和与其他具有较高密度点之间的距离δ，其定义如下：

定义1(局部密度)对于任意数据点x_i，其局部密度ρ_i由数据点间距离d_ik及截断距离d_c确定，即：

其中，可以采用Cut-off Kernel函数形式：

也可采用Gasssian Kernel函数形式：

ρ_i＝∑_kexp(-(d_ik/d_c)²) (3)

定义2(距离)对于任意数据点x_i，它与其他局部密度更高点之间的最小距离δ_i为：

其中，对于密度最大的点x_i，其距离为δ_i＝max_k(d_ik)；由于那些具有局部或全局密度最大的点，它的δ_i值远大于其最近邻的距离属性值，故将ρ和δ都很大的点作为聚类中心，亦称为密度峰值；

为了自适应地探测数据集中存在的最优聚类数目，DPC引入了一种启发式方法(决策图)，即将每点的ρ值和δ值于坐标平面内绘出，通过分析图来选取聚类中心；如图2(a)展示了包含四个类的原始数据集分布情况；图2(b)显示了由图2(a)中每点的ρ值与δ值所绘制的决策图；由于聚类中心具有较大密度且与其他较高密度点具有较远距离的属性，故用户可在决策图中选出ρ值和δ值都很大的点作为聚类中心，即图2(b)中右上角4个点；然而，对于稀疏分布的数据集，利用ρ和δ信息往往难以确定其密度峰值，此时DPC提供了新的指标γ＝ρ*δ来获取聚类中心，γ_i值越大，x_i成为聚类中心点的可能性越大；将降序排列的γ数值于坐标平面上绘出(如图2(c))，因聚类中心点具有较大的γ值，而剩余点具有的γ值较小且呈平滑趋势，二者间有明显的跳跃现象，故可使用一条平行于横轴的直线将其分开，使得直线上方的γ值所对应的点即为聚类中心；找出聚类中心后，将剩余点归入其具有较高密度的最近邻所属的类中；

2、KM-DPC算法

针对DPC对于不同数据集所采取的密度度量方式不一致问题，KM-DPC根据样本间的分布情况给出了统一的新局部密度度量方法，并基于密度信息比距离信息重要的想法建立类中心评价指标，以辅助人们更准确选取类中心点；针对DPC的分配策略易造成误差传播问题，KM-DPC将K近邻与迭代思想相结合来实现对剩余点的分配，以完成局部聚类工作；最后通过合并策略将局部类合并，以防像DPC一样将存在多个密度峰值的一个类聚成多类；下面详细描述KM-DPC在聚类过程中各阶段的实现过程。

2.1聚类中心

由样本间分布可知，与数据点x_i相似(距x_i较近)的点越多，该点的密度越大，在此给出新密度计算方法：对于任意数据点x_i，其局部密度ρ_i由数据集的大小N、数据点间的距离d_ik及相似性系数r确定，即：

ρ_i＝∑_kψ(d_ik,r,N) (5)

由式(4)和(5)可获得每个数据点的距离和密度属性值；对于大多数数据集而言，其密度属性与距离属性的重要程度略有不同，故构建新的聚类中心评价指标γ_i，其计算方式为：

其中，偏好系数p＝1.2，表明密度比距离信息略重要；γ_i值越大，点x_i成为聚类中心的可能性越大，故聚类中心的选取可利用决策图辅助，选取方法如图2(c)所示；

2.2局部聚类

局部聚类过程主要分为两个阶段：离群点筛选阶段，将距聚类中心较近的点看作核心点，并将之分配至距其最近的类中心所属的局部类中，而将距类中心较远的点看作离群点；迭代分类阶段，通过迭代策略将离群点分配到恰当的类；

1)筛选离群点

在利用决策图选出聚类中心后，将剩余点一一分配到距其最近的类中，以得到M个局部类；因离群点通常具有较低密度且距类中心较远，故可将类中心点的邻域半径ε之外的点看做离群点，其中ε为各局部类中所有数据点到类中心点的距离平均值；例如：在局部类C_m中，共含有|C_m|个数据点，类中任意数据点x_i与其类中心间的距离为则其邻域半径为离群点筛选公式如下：

其中，Outliers_m(m＝1,2,...,M)为从C_m中分离出的离群点；

2)迭代分类

对于每个离群点x_i∈Outliers_m，其被分配到哪个局部类由它的K近邻分布信息来决定；若x_i在局部类C_m中的K近邻KNN_i ^m的分布信息与点x_i在X中的K近邻KNN_i的分布信息越相似，即x_i的KNN_i中属于C_m的点越多，则该点被分配到C_m的可能性越大；其中相似度用t_i,m来刻画，即x_i与KNN_i ^m间的距离之和与该点到KNN_i的距离之和的比值；

由式(8)可知t_i,m≥1，且该值越小，x_i被分配到C_m的可能性越大；由于在分配点x_i时，其近邻可能仍未被分配，此时要使t_i,m→1是非常困难的，故需构造新的判别条件将之分配：若比值t_i,m在可接受范围τ(τ＝2)以内，或是在区域τ+0.5以内且x_i在C_m中的最近邻是KNN_i中某一个，即x_i满足式(9)或(10)，则将x_i归入C_m；若x_i对多个局部类均满足该判别条件，则将x_i分配到使t_i,m最小的类中；

t_i,m≤τ (9)

经(9)或(10)对离群点分配后，可能仍存在未分配点，此时可通过式(11)来修正τ以保证该迭代过程继续进行，直到所有的点被分配完毕；

τ＝τ+0.05 (11)

2.3多类合并

当一个类中存在多个密度峰值时，该类可能被聚成多类，以致聚类结果较差；为了避免该缺陷，本发明提出一种局部类合并策略，其以距离和密度作为合并条件，具体合并步骤及判断标准如下：

步骤2-3-1：计算M个类中心点间的平均距离

步骤2-3-2：将类间距离小于平均距离的类对C_m和C_n的距离d_cen(C_m,C_n)(即满足式(12))存入矩阵Q，并对Q矩阵按距离值作升序排序后得到新矩阵Q′；

步骤2-3-3：取出Q′矩阵的第一组值，即距离最近的两个类中心c1和c2；

步骤2-3-4：获取包含c1的类C₁中所有数据点的K近邻出现在包含c2的类C₂中的点集Set₁，同理获得Set₂；

步骤2-3-5：取Set₁和Set₂的中值作为预合并中心c；

步骤2-3-6：以最小类间距离的1/2为密度范围来计算c1、c2和c三个点的密度ρ₁、ρ₂和ρ_c；

步骤2-3-7：判断ρ_c是否大于等于1/4原始类中心密度之和，公式如下：

若不满足则选择Q′中下一组值对应的两个类中心，并转步骤4；满足条件则标记两个局部类可合并；

步骤2-3-8：将标记为可合并的局部类进行合并；

图3展示了局部类合并的过程，对于类中心间距离最小且满足式(12)的两个类C₁和C₂(类中心分别为c1和c2)，C₁中所有数据点的K近邻出现在C₂中的点集为Set₁(‘*’标记)，C₂中所有数据点的K近邻出现在C₁中的点集为Set₂(‘+’标记)，由合并策略可知预合并中心为Set₁和Set₂的均值点c，即左子图中黑实心‘o’标识的点；由于c1、c2和c三点的密度值ρ₁、ρ₂和ρ_c满足式(13)，故将这两个局部类合并，合并后如右子图所示；

2.4KM-DPC实现步骤

输入：数据集X，相似性系数r

步骤1：数据预处理：补全缺失值，标准化数据集；

步骤2：计算数据点间的距离；利用式(4)和式(5)计算每点的距离δ和密度ρ；

步骤3：利用式(6)计算γ值并对其进行降序排序；利用决策图选取聚类中心；

步骤4：将剩余点都分配到距其最近的类中心；

步骤5：依式(7)分离出各局部类中的离群点；

步骤6：利用迭代策略分配离群点：

a)；若迭代结束；

b)；依式(9)和式(10)分配剩余点；

c)；若离群点个数未变，依式(11)更新τ，转步骤a)；

步骤7：利用局部类合并过程将局部类合并；

输出：样本类别标签labels。

下面实验对本发明的应用效果做详细的描述。

1、实验结果与分析

为了验证KM-DPC算法的聚类性能，本发明从文献(Fuzzy clustering by fastsearch and find of density peak；Study on density peaks clustering based on k-nearest neighbors and principal component analysis；Robust clustering bydetecting density peaks and assigning points based on fuzzy weighted k-nearest neighbors；Adaptive density peak clustering based on K-nearestneighbors with aggregating strategy；[22]UCI machine learningrepository.http://archive.ics.uci.edu/ml.)中选取22个典型的常用于测试算法性能的数据集进行实验，并与DPC、AP、DBSCAN、K-means及FKNN-DPC的各项聚类指标值进行比较；所有实验均在Win7-Matlab 2015b环境下进行。评价聚类算法性能的常用指标：聚类精度(Clustering Accuracy，ACC)、校正互信息系数(Adjusted Mutual Information，AMI)、校正Rand系数(Adjusted Rand Index，ARI)。其中ACC与AMI的取值范围为[0,1]，ARI在[-1,1]上取值，它们的值越大，表明聚类效果越好。KM-DPC算法参数设置为：K近邻个数为3，相似性系数r在(0,4]内取值，其最优值通过网格搜索策略找出。

1.1合成数据集实验

本发明将测试KM-DPC在合成数据集上的性能，数据集基本信息如表1所示，其中数据集Spiral、Jain和Compound具有结构复杂、疏密度不一、类间样本不均衡以及有噪声干扰等特征，数据集A1、D31、S1、Aggregation和R15存在类间相连以及重叠等现象，而数据集Dim-set的各类间分布则较为明确。

表1合成数据集

对于密度算法来说，其密度估计准确与否对聚类中心选取及聚类质量有直接影响；面对具有不规则形状的数据集，KM-DPC通过调节相似性系数来描述其分布，并根据密度属性比距离属性更重要的原则来评价聚类中心，故由其估计的密度及获取的聚类中心更符合实际情况。为了合理分配剩余点，KM-DPC设计了新颖的策略，即将低密度稀疏区域内的点看作离群点，然后利用这些点在每类中的KNN分布与其真实KNN分布的相似程度来将其分配到最恰当的类。在每次迭代中，KM-DPC仅分配上次迭代所分配的那些点的KNN，从理论方面可看出该方法减轻了DPC中的误差传播。另外，为了防止同类数据被分裂，KM-DPC根据可合并类之间的距离以及边界点的密度特征对相连的局部类进行了合并。因此，从理论上来说，KM-DPC的性能优于DPC。

表2展示了KM-DPC与其他四种聚类算法对表1中的合成数据集进行聚类所获得的性能评价指标ACC、AMI和ARI值，其中粗体标记的数据为最优聚类结果；

表2 KM-DPC与其他四种聚类算法的ACC、AMI及ARI性能指标对比

由表2可知，KM-DPC、DPC和DBSCAN都能对Spiral准确聚类，而AP和K-means却不能；主要是因为Sprial呈非凸状，而AP选出的类中心点会吸引属于其他类中的点，以致其聚类结果较差；由于K-means是以迭代的方式将各点均分配到距其最近的类中心，它难以识别出非凸状的类或是大小差别较大的类，因此与其他聚类算法相比其适应性较差，以致难以获得理想的聚类结果；对于Jain，KM-DPC和DBSCAN均能获得最优的聚类结果，其次是DPC、AP和K-means；尽管DBSCAN能快速发现含噪空间中任意形状的类簇，但其参数难以设置，经多次调试后获得了上表结果；而DPC对剩余点进行分配时易产生误差传播，即一旦有一个数据点被错分，那么比该点密度小的点也会跟着被错分，故在Jain、Compound、R15、A1和D31上，其表现均差于获得最优结果的KM-DPC；对于Aggregation，KM-DPC和DPC的聚类结果优于其他算法，均错分相接类中的两个点。由于Dim-set中各类分布容易区分，故五种聚类算法在ACC、AMI和ARI这三项指标方面均达到了最优。

通过上述分析，可以得出：KM-DPC在合成数据集上的性能优于其他四种聚类算法；

1.2真实数据集实验

1.2.1UCI数据集

为了进一步测试KM-DPC的性能，从UCI数据库中选取12个真实数据集进行实验，其基本信息如表3所述。使用KM-DPC及其他五种聚类算法(FKNN-DPC、DPC、AP、DBSCAN、K-means)对表3显示的真实数据集进行聚类，所得的ACC、AMI及ARI结果见表4，其中粗体数据为最优结果，符号“-”表示无相应值，FKNN-DPC的实验数据来源于。

表3真实数据集

表4 KM-DPC与其他五种聚类算法在UCI数据集上的ACC、AMI和ARI指标值对比

由表4可知，KM-DPC在Iris数据集上的聚类结果优于DPC、AP、DBSCAN和K-means，而略差于FKNN-DPC。由于FKNN-DPC是利用每点的KNN来学习其被分配到各类的概率，其不仅考虑到了当前点的KNN，同时也考虑到这些K近邻点的KNN对当前点的贡献权重，故在边界点处理方面具有突出表现，例如其在Iris和Parkinsons上均达到了最优。但在处理含噪数据时，FKNN-DPC却极易将噪声错分，例如在含噪数据集Waveform(noise)上的表现略差于KM-DPC。而KM-DPC则是利用真实KNN分布信息将各点由近及远地分配到与其真实分布最接近的局部类，因Iris中第2，3类非线性可分(边界点呈交叉分布)，以致第3类中的6个点被错分到第2类，仅达到96％的正确率。但是当数据的维数和聚类数目增加以及含有噪声干扰时，KM-DPC的优势渐渐凸显。尽管DPC简单、快速，但其易产生误差传播，通过表4看出其性能均差于KM-DPC和FKNN-DPC。AP是将每个数据点都看作候选聚类中心并通过信息传递过程逐步识别类，但其在处理形状复杂、含噪声数据时性能不佳，当其对数据量和维数较大(如Waveform和Waveform(noise))的数据聚类时，时间复杂度较高，难以给出相应结果。由于数据集Iris、Parkinsons、Dermatology、Indians-diabetes、Waveform和Libras movement存在疏密度不一、类间有交叉以及重叠等特征，以致KM-DPC在ACC、AMI和ARI指标值上难以达到全优，但其性能仍优于DPC算法。而对于其他数据集，KM-DPC均表现最优，体现出其具有较强的适应性。

1.1.2人脸数据集

人脸数据集由40个类组成，每个类由10幅不同的图构成；由于不同类中的图像非常相似，一般算法对此难有较好的聚类效果，故本发明选用该数据集的前10个类(100幅图)来测试KM-DPC的性能。

表5显示了算法KM-DPC、DPC、AP、DBSCAN及K-means在人脸数据集上的聚类评价指标值；图4直观展示了KM-DPC、DPC与AP的聚类结果，其中同颜色的图为同一类，本发明使用红色粗框来标识错分的图，右下角以白色方块标记的图为聚类中心。

表5人脸数据集对比实验

图4(a)发现，KM-DPC可以有效地识别出该数据集中的10个类，其聚类精度高达98％，仅分错2幅图.由图4(b)和图4(c)可知AP也可取得较好聚类效果，仅错分4幅图，而DPC则在该数据集上表现略差。从表5的各性能评价指标值也能看出，KM-DPC在人脸数据集上的表现优于其他对比算法，AP稍次于其后，而DPC、DBSCAN和K-means远落后于前两者。

另外在实验过程中发现，类中心个数的选取会影响DPC的聚类效果，其在决策图中选取9个类中心时可获得较好的聚类效果，而选取10个类中心时会出现包含多个密度峰值的一个类被其分裂成多类的现象；图4(c)展示了DPC在d_c＝0.10、类中心个数取9时的聚类结果，其效果比文献(Clustering by fast search and find of density peaks)中取d_c＝0.07时获得的结果更优，再次验证了DPC对参数很敏感。

综上，本发明算法KM-DPC通过给出适用于任意数据的密度度量方式、基于K近邻和迭代思想的分配策略、局部类合并步骤来改善DPC在算法灵活度以及聚类质量方面的缺陷。仿真实验证明，对于合成数据集和人脸数据集，KM-DPC能够获得良好的聚类结果，尤其在处理结构复杂的数据集Jain、Compound、A1及维数较高的人脸数据集时，其聚类性能在ACC、AMI及ARI方面明显优于DPC、AP、DBSCAN、K-means；对于真实数据集，KM-DPC算法的整体性能不仅优于上述四种聚类算法，而且与近期提出的FKNN-DPC算法相比也表现略优，进一步验证了本发明算法的可行性和有效性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于K近邻和多类合并密度峰值聚类方法，其特征在于，所述基于K近邻和多类合并密度峰值聚类方法利用密度计算方式描述样本分布，采用新的评价指标获取聚类中心；结合K近邻思想设计迭代分配策略将剩余点准确归类；给出局部类合并方法防止将包含多个密度峰值点的类分裂。

2.如权利要求1所述的基于K近邻和多类合并密度峰值聚类方法，其特征在于，所述基于K近邻和多类合并密度峰值聚类方法包括以下步骤：

输入：数据集X，相似性系数r

步骤2-1 数据预处理：补全缺失值，标准化数据集；

步骤2-2 计算数据点间的距离；利用公式计算每点的距离δ和密度ρ；

最小距离δ_i为：

ρ_i＝∑_kψ(d_ik,r,N)

步骤2-3 计算γ值并对其进行降序排序；利用决策图选取聚类中心；

聚类中心评价指标γ_i，计算方式为：

步骤2-4 将剩余点都分配到距其最近的类中心；

步骤2-5 分离出各局部类中的离群点；

离群点筛选公式如下：

其中，Outliers_m(m＝1,2,...,M)为从C_m中分离出的离群点；

步骤2-6 利用迭代策略分配离群点：

a)若迭代结束；

b)依式(9)和式(10)分配剩余点；

c)若离群点个数未变，更新τ，τ＝τ+0.05转步骤a)；

步骤2-7 利用局部类合并过程将局部类合并；

输出：样本类别标签labels。

3.如权利要求1所述的基于K近邻和多类合并密度峰值聚类方法，其特征在于，所述基于K近邻和多类合并密度峰值聚类方法的新密度计算方法：对于任意数据点x_i，局部密度ρ_i由数据集的大小N、数据点间的距离d_ik及相似性系数r确定：

ρi＝∑_kψ(d_ik,r,N)

构建新的聚类中心评价指标γ_i，计算方式为：

4.如权利要求1所述的基于K近邻和多类合并密度峰值聚类方法，其特征在于，所述基于K近邻和多类合并密度峰值聚类方法的局部聚类包括：

迭代分类阶段，通过迭代策略将离群点分配到恰当的类。

5.如权利要求4所述的基于K近邻和多类合并密度峰值聚类方法，其特征在于，进一步包括：

其中，Outliers_m(m＝1,2,...,M)为从C_m中分离出的离群点；

2)迭代分类

t_i,m≤τ

对离群点分配后，修正τ迭代过程继续进行，

τ＝τ+0.05

直到所有的点被分配完毕。

6.如权利要求1所述的基于K近邻和多类合并密度峰值聚类方法，其特征在于，所述基于K近邻和多类合并密度峰值聚类方法的多类合并以距离和密度作为合并条件，具体包括：

步骤6-1 计算M个类中心点间的平均距离

步骤6-2 将类间距离小于平均距离的类对C_m和C_n的距离d_cen(C_m,C_n)存入矩阵Q，并对Q矩阵按距离值作升序排序后得到新矩阵Q′；

步骤6-3 取出Q′矩阵的第一组值，即距离最近的两个类中心c1和c2；

步骤6-4 获取包含c1的类C₁中所有数据点的K近邻出现在包含c2的类C₂中的点集Set₁，同理获得Set₂；

步骤6-5 取Set₁和Set₂的中值作为预合并中心c；

步骤6-6 以最小类间距离的1/2为密度范围来计算c1、c2和c三个点的密度ρ₁、ρ₂和ρ_c；

步骤6-7 判断ρ_c是否大于等于1/4原始类中心密度之和，公式如下：

不满足则选择Q′中下一组值对应的两个类中心，并转步骤6-4；满足条件则标记两个局部类可合并；

步骤6-8，将标记为可合并的局部类进行合并。

7.一种应用权利要求1～6任意一项所述基于K近邻和多类合并密度峰值聚类方法的图像分割系统。

8.一种应用权利要求1～6任意一项所述基于K近邻和多类合并密度峰值聚类方法的文档恢复系统。

9.一种应用权利要求1～6任意一项所述基于K近邻和多类合并密度峰值聚类方法的模式分类系统。

10.一种应用权利要求1～6任意一项所述基于K近邻和多类合并密度峰值聚类方法的信息数据处理终端。