CN107038454A

CN107038454A - 一种使用模糊近邻的鲁棒性密度峰值算法及系统

Info

Publication number: CN107038454A
Application number: CN201710137544.6A
Authority: CN
Inventors: 丁世飞; 杜明晶
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-08-11

Abstract

本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统，首先，使用模糊近邻函数求解出每个样本点的近邻隶属度，然后，使用改进过的局部密度计算公式，求解局部密度。再利用原始算法中的求解步骤找出聚类中心点，完成聚类。该方式充分考虑了模糊关系对算法的影响，具有较强的鲁棒性和泛化能力。

Description

一种使用模糊近邻的鲁棒性密度峰值算法及系统

技术领域

本发明涉及模式识别和机器学习领域，具体涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统。

背景技术

聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构，用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲，簇的分割具有簇内相似及簇间相异的特点。因此，数据数据被分解成许多群，这些群有相似的对象构成，同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。

传统的聚类大致被分为4类：划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊，如，划分聚类通常需要指定簇个数，且需要迭代；层次聚类同样很难找到最优的聚类个数；而传统的密度聚类算法参数调节困难；模型聚类通常需要对数据的分布情况进行假设。2014年，《Science》上发表了一篇全新的聚类方法，密度峰值聚类(DensityPeaks Clustering，DPC)。密度峰值聚类具有如下特点：无需指定簇个数；适用于任意形状的数据集；无需迭代，也不会陷入局部最优；只有一个参数，易于调节控制；无需对数据集的分布进行假设。算法简单，易于实现。由于以上特点，密度聚类算法也受到了越来越多的关注，并被应用于异常点检测、图像处理、文本处理等领域。密度峰值聚类算法给聚类问题的求解提供了新思路，能有效处理许多实际问题，其研究具有巨大的科研价值和应用潜力。

但是密度峰值聚类依然存在一些问题。例如，在同一邻域半径内，不同的近邻点分布应该产生不同的近邻隶属度，然而原始算法没有对此加以区分，难于处理不确定数据。

发明内容

为了解决上述问题，本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统。首先，使用模糊近邻函数求解出每个样本点的近邻隶属度，然后，使用改进过的局部密度计算公式，求解局部密度。再利用原始算法中的求解步骤找出聚类中心点，完成聚类。该方式充分考虑了模糊关系对算法的影响，具有较强的鲁棒性和泛化能力。

本发明是通过以下方案实现的：

本发明涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统，通过模糊最近邻方法，改进原始局部密度的求解方式，使整个聚类算法充分考虑数据的不确定因素。最后在求解出簇中心点，输出聚类结果。

本发明具体步骤如下：

步骤1，依据欧式距离公式计算相似度矩阵。

步骤2，使用模糊近邻方式重新定义近邻隶属度关系。

步骤3，根据相似度矩阵计算各个点的两个重要数值：ρ_i和δ_i。

步骤3.1：依据模糊近邻隶属度计算出该点的局部密度ρ_i，其计算公式如下：

步骤3.2：由如下公式计算每个点的δ_i值：

步骤4，绘制出决定图，选出其中ρ_i相对较高且δ_i非常高的点作为簇中心点。

步骤5，将每个数据点分配给离其最近的中心点所在的簇。

通过以上内容可知，本申请提供的是一种使用模糊近邻的鲁棒性密度峰值算法及系统，首先计算相似度矩阵，求解出模糊近邻方式，然后计算出局部密度计算方式求解ρ_i和δ_i。绘制出决定图选择聚类中心点，分配剩余数据点，得到聚类结果。本申请充分考虑了模糊近邻关系，并能够很好地处理不确定性的数据，具有较强的鲁棒性和泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种使用模糊近邻的鲁棒性密度峰值算法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例1

如图1所示，本实施例包括以下步骤：

输入：数据集χ＝{x₁，x₂，…，x_n}(x_i∈R^d)，参数d_c。

输出：划分好的数据类。

步骤1：计算相似矩阵。通过欧式距离求解各个数据点对间的距离，组成一个对称矩阵。

步骤2：计算模糊近邻的隶属度。通过公式(1)计算模糊近邻的隶属度。

步骤3：求解ρ_i和δ_i。依据模糊近邻隶属度以及公式(2)求解出各数据点的ρ_i。再依据ρ_i的结果以及公式(3)求解出各数据点的δ_i。

步骤4：绘制决定图，选择中心点。依据ρ_i和δ_i的结果绘制决定图，再依据决定图选择出中心点。

步骤5：分配各数据点返回结果。将剩余没有分配的各个数据点依据其与何中心点最近，将其分配给该中心点所在的簇。返回最终聚类结果。

Claims

1.一种使用模糊近邻的鲁棒性密度峰值算法及系统，首先计算数据相似度矩阵，利用模糊近邻隶属度，根据模糊近邻关系求解出ρ_i，在依据求解的ρ_i计算δ_i，最后绘制决定图，选择聚类中心点，分配所有数据点，得出聚类结果。

2.根据权利要求1所述的方法，其特征是，所述的数据集是一个n×d的矩阵，矩阵的每行表示一个数据点，每列表示一种属性，故这个矩阵包含n个数据点，每个数据点有d种属性，可以表示为χ＝{x₁,x₂,…,x_n}(x_i∈R^d)。

3.根据权利要求1所述的方法，其特征是，所述的相似度矩阵是依据欧式距离公式对每个数据点对求解出相应相似度矩阵D。

4.根据权利要求1所述的方法，其特征是，所述的相似度矩阵是依据相似度矩阵D，求解出每个点在一定半径内的模糊近邻隶属度。

5.根据权利要求1所述的方法，其特征是，所述的ρ_i和δ_i是密度峰值聚类的两个重要元素，其中ρ_i是该点的局部密度，δ_i是该点离其最近且局部密度比其高的数据点之间的距离。

6.根据权利要求1或5所述的方法，其特征是，所述的ρ_i和δ_i求解包括：

1：使用该点的前k个最近邻求解计算出该点的局部密度ρ_i：

2：计算每个点的δ_i值：

7.一种实现上述任一权利要求所述方法的系统，其特征在于：特征转换模块、最近邻模块和密度峰值聚类模块，其中特征转换模块将每个数据点进行初步预处理，然后将其进行主成分分析处理得到新的数据集；最近邻模块求解出新数据集相似度矩阵和每个数据点的近邻图；密度峰值聚类模块先求解出每个数据点的ρ_i和δ_i，然后绘制决定图选择聚类中心点，分配所有数据点，输出聚类结果。