CN107563260A

CN107563260A - 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统

Info

Publication number: CN107563260A
Application number: CN201610514546.8A
Authority: CN
Inventors: 丁世飞; 其他发明人请求不公开姓名
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09

Abstract

本发明提出一种基于主成分分析和最近邻图的密度峰值聚类方法及系统，首先，使用主成分分析对原始数据进行特征转化和特征提取，即对原始数据进行降维，然后，使用改进过的局部密度计算公式，即利用最近邻图取代原始方式，求解局部密度。再利用原始算法中的求解步骤找出聚类中心点，完成聚类。该方式充分考虑了高维数据以及数据中的局部结构对算法的影响，具有较强的鲁棒性和泛化能力。

Description

一种基于主成分分析和最近邻图的密度峰值聚类方法及系统

技术领域

本发明涉及模式识别和机器学习领域，具体涉及一种基于主成分分析和最近邻图的密度峰值聚类方法及系统。

背景技术

聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构，用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲，簇的分割具有簇内相似及簇间相异的特点。因此，数据数据被分解成许多群，这些群有相似的对象构成，同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。

传统的聚类大致被分为4类：划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊，如，划分聚类通常需要指定簇个数，且需要迭代；层次聚类同样很难找到最优的聚类个数；而传统的密度聚类算法参数调节困难；模型聚类通常需要对数据的分布情况进行假设。2014年，《Science》上发表了一篇全新的聚类方法，密度峰值聚类(DensityPeaks Clustering，DPC)。密度峰值聚类具有如下特点：无需指定簇个数；适用于任意形状的数据集；无需迭代，也不会陷入局部最优；只有一个参数，易于调节控制；无需对数据集的分布进行假设。算法简单，易于实现。由于以上特点，密度聚类算法也受到了越来越多的关注，并被应用于异常点检测、图像处理、文本处理等领域。密度峰值聚类算法给聚类问题的求解提供了新思路，能有效处理许多实际问题，其研究具有巨大的科研价值和应用潜力。

但是密度峰值聚类依然存在一些问题。首先，该算法没有考虑数据的局部结构问题，原始DPC算法并不能检测到所有簇；其次，该算法在高维数据上的表现很差，这是由于DPC算法过度的依赖于数据对间的距离，以及“维度灾难”。

发明内容

为了解决上述问题，本发明提出一种基于主成分分析和最近邻图的密度峰值聚类方法及系统。首先，使用主成分分析对原始数据进行特征转化和特征提取，即对原始数据进行降维，然后，使用改进过的局部密度计算公式，即利用最近邻图取代原始方式，求解局部密度。再利用原始算法中的求解步骤找出聚类中心点，完成聚类。该方式充分考虑了高维数据以及数据中的局部结构对算法的影响，具有较强的鲁棒性和泛化能力。

本发明是通过以下方案实现的：

本发明涉及一种基于主成分分析和最近邻图的密度峰值聚类方法，通过主成分分析提取原始数据的主要特征，作为数据的预处理阶段，应对“维度灾难”问题。通过最近邻图的思想，改进原始局部密度的求解方式，使整个聚类算法不仅考虑数据的全局结构而且还考虑数据的局部结构。最后在求解出簇中心点，输出聚类结果。

本发明具体步骤如下：

步骤1，使用主成分分析技术将输入数据集χ＝{x₁,x₂,…,x_n}(x_i∈R^d)转化为新的形式χ″＝{x″₁,x″₂,…,x″_n}(x″_i∈R^d″)，其中d″＜d。

步骤1.1：对原始数据集χ＝{x₁,x₂,…,x_n}进行预处理。使其所有特征值具有相同的均值与方差，新的数据集为χ′＝{x′₁,x′₂,…,x′_n}(x′_i∈R^d)。

步骤1.2：依据预处理的数据集计算协方差矩阵Σ：

步骤1.3：求解协方差矩阵Σ的特征值λ_i和特征向量u_i，经过转换的数据为：

x_rot,i＝U^Tx′_i。 (2)

其中U是由特征向量堆叠而成的矩阵：

步骤1.4：对数据进行降维，根据其主成分：

得到最终的降维数据，χ″＝{x″₁,x″₂,…,x″_n}(x″_i∈R^d″)。

步骤2，依据欧式距离公式计算相似度矩阵。

步骤3，根据相似度矩阵计算各个点的两个重要数值：ρ_i和δ_i。

步骤3.1：求解各个数据点的前k个最近邻，kNN(x_i)。

步骤3.2：使用该点的前k个最近邻求解计算出该点的局部密度ρ_i，其计算公式如下：

其中k是参数，由输入参数d_c与数据点个数n相乘取整得到。

步骤3.2：由如下公式计算每个点的δ_i值：

步骤4，绘制出决定图，选出其中ρ_i相对较高且δ_i非常高的点作为簇中心点。

步骤5，将每个数据点分配给离其最近的中心点所在的簇。

通过以上内容可知，本申请提供的是一种基于主成分分析和最近邻图的密度峰值聚类方法及系统，首先通过PCA预处理过程将原始数据降维，后计算相似度矩阵，然后使用由最近邻改进的局部密度计算方式求解ρ_i和δ_i。绘制出决定图选择聚类中心点，分配剩余数据点，得到聚类结果。本申请充分考虑了数据局部结构，并能够更好地处理高维数据，具有较强的鲁棒性和泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于主成分分析和最近邻图的密度峰值聚类的流程图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例1

如图1所示，本实施例包括以下步骤：

输入：数据集χ＝{x₁,x₂,…,x_n}(x_i∈R^d)，参数d_c。

输出：划分好的数据类。

步骤1：数据预处理。将原始数据转换为均值方差皆相等的数据集χ′＝{x′₁,x′₂,…,x′_n}(x′_i∈R^d)。

步骤2：计算协方差矩阵。依据公式(1)计算转换后数据的协方差矩阵Σ。

步骤3：求解协方差矩阵的特征向量和特征值。求解协方差矩阵Σ的特征值λ_i和特征向量u_i。并将特征向量堆积成矩阵的形式，用U表示。

步骤4：求解旋转后数据。依据公式(2)，计算旋转后的每个数据x_rot,i。

步骤5：求解降维后的数据。依据公式(4)，将旋转后的数据x_rot,i降维为最终的转换数据x″_i。

步骤6：计算相似矩阵。通过欧式距离求解各个数据点对间的距离，组成一个对称矩阵。

步骤7：求出数据的近邻图。由相似矩阵求解出个数据点的前k个最近邻。

步骤8：求解ρ_i和δ_i。依据k近邻关系以及公式(5)求解出各数据点的ρ_i。再依据ρ_i的结果以及公式(6)求解出各数据点的δ_i。

步骤9：绘制决定图，选择中心点。依据ρ_i和δ_i的结果绘制决定图，再依据决定图选择出中心点。

步骤10：分配各数据点返回结果。将剩余没有分配的各个数据点依据其与何中心点最近，将其分配给该中心点所在的簇。返回最终聚类结果。

Claims

1.一种基于主成分分析和最近邻图的密度峰值聚类方法及系统，其特征在于，利用主成分分析方法对原始数据进行特征转换，然后计算预处理过后的数据相似度矩阵，再依据相似度矩阵求解每个数据点的近邻图，由得到的近邻图计算ρ_i和δ_i，最后绘制决定图，选择聚类中心点，分配所有数据点，得出聚类结果。

2.根据权利要求1所述的方法，其特征是，所述的数据集是一个n×d的矩阵，矩阵的每行表示一个数据点，每列表示一种属性，故这个矩阵包含n个数据点，每个数据点有d种属性，可以表示为χ＝{x₁,x₂,…,x_n}(x_i∈R^d)。

3.根据权利要求1所述的方法，其特征是，所述的特征转换是指：以主成分分析为代表的数据降维方式，其需要将原始数据作初步的初始化，然后求解出协方差矩阵的特征值与特征向量，将原始数据降维。

4.根据权利要求1或3所述的方法，其特征是，所述的加权包括：

1：初步预处理。将所有的数据点都转化为均值为0，方差相等的数据：

χ′＝{x′₁,x′₂,…,x′_n}(x′_i∈R^d)。

2：计算协方差矩阵。计算初步预处理过后的数据的协方差矩阵Σ。

3：计算特征值和特征向量。求解协方差矩阵Σ的特征值λ_i和特征向量u_i。并将特征向量堆积成矩阵的形式，用U表示。

4：求解旋转后数据。将初步转化的数据点x_i′左乘矩阵U^T得到转换过的x_rot,i。

5：降维。保留90％的主成分，形成新的数据χ″＝{x″₁,x″₂,…,x″_n}(x″_i∈R^d″)。

5.根据权利要求1所述的方法，其特征是，所述的相似度矩阵是依据欧式距离公式对每个降维后的数据点对(x″_i,x″_j)求解出相应相似度矩阵D。

6.根据权利要求1所述的方法，其特征是，所述的相似度矩阵是依据相似度矩阵D，求解每个数据点的k个最近邻，保存为一个新的矩阵。

7.根据权利要求1所述的方法，其特征是，所述的ρ_i和δ_i是密度峰值聚类的两个重要元素，其中ρ_i是该点的局部密度，δ_i是该点离其最近且局部密度比其高的数据点之间的距离。

8.根据权利要求1或7所述的方法，其特征是，所述的ρ_i和δ_i求解包括：

1：使用该点的前k个最近邻求解计算出该点的局部密度ρ_i：

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mrow> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <munder> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>K</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

2：计算每个点的δ_i值：

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>></mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mo>&Exists;</mo> <mi>j</mi> <mi> </mi> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>></mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mi>max</mi> <mi>j</mi> </munder> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

9.一种实现上述任一权利要求所述方法的系统，其特征在于：特征转换模块、最近邻模块和密度峰值聚类模块，其中特征转换模块将每个数据点进行初步预处理，然后将其进行主成分分析处理得到新的数据集；最近邻模块求解出新数据集相似度矩阵和每个数据点的近邻图；密度峰值聚类模块先求解出每个数据点的ρ_i和δ_i，然后绘制决定图选择聚类中心点，分配所有数据点，输出聚类结果。