CN107563260A - 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统 - Google Patents

一种基于主成分分析和最近邻图的密度峰值聚类方法及系统 Download PDF

Info

Publication number
CN107563260A
CN107563260A CN201610514546.8A CN201610514546A CN107563260A CN 107563260 A CN107563260 A CN 107563260A CN 201610514546 A CN201610514546 A CN 201610514546A CN 107563260 A CN107563260 A CN 107563260A
Authority
CN
China
Prior art keywords
mrow
msub
data
matrix
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610514546.8A
Other languages
English (en)
Inventor
丁世飞
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201610514546.8A priority Critical patent/CN107563260A/zh
Publication of CN107563260A publication Critical patent/CN107563260A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提出一种基于主成分分析和最近邻图的密度峰值聚类方法及系统,首先,使用主成分分析对原始数据进行特征转化和特征提取,即对原始数据进行降维,然后,使用改进过的局部密度计算公式,即利用最近邻图取代原始方式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了高维数据以及数据中的局部结构对算法的影响,具有较强的鲁棒性和泛化能力。

Description

一种基于主成分分析和最近邻图的密度峰值聚类方法及系统
技术领域
本发明涉及模式识别和机器学习领域,具体涉及一种基于主成分分析和最近邻图的密度峰值聚类方法及系统。
背景技术
聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构,用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲,簇的分割具有簇内相似及簇间相异的特点。因此,数据数据被分解成许多群,这些群有相似的对象构成,同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。
传统的聚类大致被分为4类:划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊,如,划分聚类通常需要指定簇个数,且需要迭代;层次聚类同样很难找到最优的聚类个数;而传统的密度聚类算法参数调节困难;模型聚类通常需要对数据的分布情况进行假设。2014年,《Science》上发表了一篇全新的聚类方法,密度峰值聚类(DensityPeaks Clustering,DPC)。密度峰值聚类具有如下特点:无需指定簇个数;适用于任意形状的数据集;无需迭代,也不会陷入局部最优;只有一个参数,易于调节控制;无需对数据集的分布进行假设。算法简单,易于实现。由于以上特点,密度聚类算法也受到了越来越多的关注,并被应用于异常点检测、图像处理、文本处理等领域。密度峰值聚类算法给聚类问题的求解提供了新思路,能有效处理许多实际问题,其研究具有巨大的科研价值和应用潜力。
但是密度峰值聚类依然存在一些问题。首先,该算法没有考虑数据的局部结构问题,原始DPC算法并不能检测到所有簇;其次,该算法在高维数据上的表现很差,这是由于DPC算法过度的依赖于数据对间的距离,以及“维度灾难”。
发明内容
为了解决上述问题,本发明提出一种基于主成分分析和最近邻图的密度峰值聚类方法及系统。首先,使用主成分分析对原始数据进行特征转化和特征提取,即对原始数据进行降维,然后,使用改进过的局部密度计算公式,即利用最近邻图取代原始方式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了高维数据以及数据中的局部结构对算法的影响,具有较强的鲁棒性和泛化能力。
本发明是通过以下方案实现的:
本发明涉及一种基于主成分分析和最近邻图的密度峰值聚类方法,通过主成分分析提取原始数据的主要特征,作为数据的预处理阶段,应对“维度灾难”问题。通过最近邻图的思想,改进原始局部密度的求解方式,使整个聚类算法不仅考虑数据的全局结构而且还考虑数据的局部结构。最后在求解出簇中心点,输出聚类结果。
本发明具体步骤如下:
步骤1,使用主成分分析技术将输入数据集χ={x1,x2,…,xn}(xi∈Rd)转化为新的形式χ″={x″1,x″2,…,x″n}(x″i∈Rd″),其中d″<d。
步骤1.1:对原始数据集χ={x1,x2,…,xn}进行预处理。使其所有特征值具有相同的均值与方差,新的数据集为χ′={x′1,x′2,…,x′n}(x′i∈Rd)。
步骤1.2:依据预处理的数据集计算协方差矩阵Σ:
步骤1.3:求解协方差矩阵Σ的特征值λi和特征向量ui,经过转换的数据为:
xrot,i=UTx′i。 (2)
其中U是由特征向量堆叠而成的矩阵:
步骤1.4:对数据进行降维,根据其主成分:
得到最终的降维数据,χ″={x″1,x″2,…,x″n}(x″i∈Rd″)。
步骤2,依据欧式距离公式计算相似度矩阵。
步骤3,根据相似度矩阵计算各个点的两个重要数值:ρi和δi
步骤3.1:求解各个数据点的前k个最近邻,kNN(xi)。
步骤3.2:使用该点的前k个最近邻求解计算出该点的局部密度ρi,其计算公式如下:
其中k是参数,由输入参数dc与数据点个数n相乘取整得到。
步骤3.2:由如下公式计算每个点的δi值:
步骤4,绘制出决定图,选出其中ρi相对较高且δi非常高的点作为簇中心点。
步骤5,将每个数据点分配给离其最近的中心点所在的簇。
通过以上内容可知,本申请提供的是一种基于主成分分析和最近邻图的密度峰值聚类方法及系统,首先通过PCA预处理过程将原始数据降维,后计算相似度矩阵,然后使用由最近邻改进的局部密度计算方式求解ρi和δi。绘制出决定图选择聚类中心点,分配剩余数据点,得到聚类结果。本申请充分考虑了数据局部结构,并能够更好地处理高维数据,具有较强的鲁棒性和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于主成分分析和最近邻图的密度峰值聚类的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例1
如图1所示,本实施例包括以下步骤:
输入:数据集χ={x1,x2,…,xn}(xi∈Rd),参数dc
输出:划分好的数据类。
步骤1:数据预处理。将原始数据转换为均值方差皆相等的数据集χ′={x′1,x′2,…,x′n}(x′i∈Rd)。
步骤2:计算协方差矩阵。依据公式(1)计算转换后数据的协方差矩阵Σ。
步骤3:求解协方差矩阵的特征向量和特征值。求解协方差矩阵Σ的特征值λi和特征向量ui。并将特征向量堆积成矩阵的形式,用U表示。
步骤4:求解旋转后数据。依据公式(2),计算旋转后的每个数据xrot,i
步骤5:求解降维后的数据。依据公式(4),将旋转后的数据xrot,i降维为最终的转换数据x″i
步骤6:计算相似矩阵。通过欧式距离求解各个数据点对间的距离,组成一个对称矩阵。
步骤7:求出数据的近邻图。由相似矩阵求解出个数据点的前k个最近邻。
步骤8:求解ρi和δi。依据k近邻关系以及公式(5)求解出各数据点的ρi。再依据ρi的结果以及公式(6)求解出各数据点的δi
步骤9:绘制决定图,选择中心点。依据ρi和δi的结果绘制决定图,再依据决定图选择出中心点。
步骤10:分配各数据点返回结果。将剩余没有分配的各个数据点依据其与何中心点最近,将其分配给该中心点所在的簇。返回最终聚类结果。

Claims (9)

1.一种基于主成分分析和最近邻图的密度峰值聚类方法及系统,其特征在于,利用主成分分析方法对原始数据进行特征转换,然后计算预处理过后的数据相似度矩阵,再依据相似度矩阵求解每个数据点的近邻图,由得到的近邻图计算ρi和δi,最后绘制决定图,选择聚类中心点,分配所有数据点,得出聚类结果。
2.根据权利要求1所述的方法,其特征是,所述的数据集是一个n×d的矩阵,矩阵的每行表示一个数据点,每列表示一种属性,故这个矩阵包含n个数据点,每个数据点有d种属性,可以表示为χ={x1,x2,…,xn}(xi∈Rd)。
3.根据权利要求1所述的方法,其特征是,所述的特征转换是指:以主成分分析为代表的数据降维方式,其需要将原始数据作初步的初始化,然后求解出协方差矩阵的特征值与特征向量,将原始数据降维。
4.根据权利要求1或3所述的方法,其特征是,所述的加权包括:
1:初步预处理。将所有的数据点都转化为均值为0,方差相等的数据:
χ′={x′1,x′2,…,x′n}(x′i∈Rd)。
2:计算协方差矩阵。计算初步预处理过后的数据的协方差矩阵Σ。
3:计算特征值和特征向量。求解协方差矩阵Σ的特征值λi和特征向量ui。并将特征向量堆积成矩阵的形式,用U表示。
4:求解旋转后数据。将初步转化的数据点xi′左乘矩阵UT得到转换过的xrot,i
5:降维。保留90%的主成分,形成新的数据χ″={x″1,x″2,…,x″n}(x″i∈Rd″)。
5.根据权利要求1所述的方法,其特征是,所述的相似度矩阵是依据欧式距离公式对每个降维后的数据点对(x″i,x″j)求解出相应相似度矩阵D。
6.根据权利要求1所述的方法,其特征是,所述的相似度矩阵是依据相似度矩阵D,求解每个数据点的k个最近邻,保存为一个新的矩阵。
7.根据权利要求1所述的方法,其特征是,所述的ρi和δi是密度峰值聚类的两个重要元素,其中ρi是该点的局部密度,δi是该点离其最近且局部密度比其高的数据点之间的距离。
8.根据权利要求1或7所述的方法,其特征是,所述的ρi和δi求解包括:
1:使用该点的前k个最近邻求解计算出该点的局部密度ρi
<mrow> <msub> <mi>&amp;rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mrow> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>&amp;Element;</mo> <mi>K</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
2:计算每个点的δi值:
<mrow> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>&amp;rho;</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mo>&amp;Exists;</mo> <mi>j</mi> <mi> </mi> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <msub> <mi>&amp;rho;</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mi>max</mi> <mi>j</mi> </munder> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>
9.一种实现上述任一权利要求所述方法的系统,其特征在于:特征转换模块、最近邻模块和密度峰值聚类模块,其中特征转换模块将每个数据点进行初步预处理,然后将其进行主成分分析处理得到新的数据集;最近邻模块求解出新数据集相似度矩阵和每个数据点的近邻图;密度峰值聚类模块先求解出每个数据点的ρi和δi,然后绘制决定图选择聚类中心点,分配所有数据点,输出聚类结果。
CN201610514546.8A 2016-06-30 2016-06-30 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统 Pending CN107563260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610514546.8A CN107563260A (zh) 2016-06-30 2016-06-30 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610514546.8A CN107563260A (zh) 2016-06-30 2016-06-30 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统

Publications (1)

Publication Number Publication Date
CN107563260A true CN107563260A (zh) 2018-01-09

Family

ID=60970007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610514546.8A Pending CN107563260A (zh) 2016-06-30 2016-06-30 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统

Country Status (1)

Country Link
CN (1) CN107563260A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763305A (zh) * 2018-04-20 2018-11-06 平安科技(深圳)有限公司 数据特征提取的方法、装置、计算机设备和存储介质
CN108846346A (zh) * 2018-06-06 2018-11-20 浙江大学 基于密度峰值聚类算法的神经元峰电位在线分类方法
CN109993225A (zh) * 2019-03-29 2019-07-09 北京航空航天大学 一种基于无监督学习的空域复杂度分类方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763305A (zh) * 2018-04-20 2018-11-06 平安科技(深圳)有限公司 数据特征提取的方法、装置、计算机设备和存储介质
CN108846346A (zh) * 2018-06-06 2018-11-20 浙江大学 基于密度峰值聚类算法的神经元峰电位在线分类方法
CN109993225A (zh) * 2019-03-29 2019-07-09 北京航空航天大学 一种基于无监督学习的空域复杂度分类方法及装置
CN109993225B (zh) * 2019-03-29 2021-03-23 北京航空航天大学 一种基于无监督学习的空域复杂度分类方法及装置

Similar Documents

Publication Publication Date Title
Ji et al. A variance minimization criterion to active learning on graphs
CN110033021A (zh) 一种基于一维多路卷积神经网络的故障分类方法
Cai et al. Semi-supervised multi-view clustering based on orthonormality-constrained nonnegative matrix factorization
Zhang et al. Locally discriminative coclustering
CN107563260A (zh) 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统
CN105139031A (zh) 一种基于子空间聚类的数据处理方法
CN104966090A (zh) 实现面向图像理解的视觉单词生成和评价的系统及方法
CN106845519A (zh) 一种分布式实现的稀疏子空间聚类方法
Gu et al. An advanced deep learning approach for safety helmet wearing detection
Tu et al. Feature extraction using multitask superpixel auxiliary learning for hyperspectral classification
CN108376302A (zh) 基于ap聚类的elm复杂石化行业生产能力的预测模型
Wei et al. Multilevel MVU models with localized construction for monitoring processes with large scale data
CN112052344B (zh) 一种基于知识图谱与ScSIFT的融媒体信息获取方法
Chen et al. Fast flexible bipartite graph model for co-clustering
CN106446947A (zh) 基于随机子空间的高维数据软硬聚类集成方法
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Ebert et al. Semi-supervised learning on a budget: scaling up to large datasets
Liu et al. Credit evaluation with a data mining approach based on gradient boosting decision tree
Lahmar et al. A New Self Adaptive Fuzzy Unsupervised Clustering Ensemble Based On Spectral Clustering
Ling et al. Adaptive quantum clustering and its incremental training
Zhang et al. Multi-view unsupervised feature selection with dynamic sample space structure
Hu et al. A Novel clustering scheme based on density peaks and spectral analysis
Pei et al. A Rank-Constrained Clustering Algorithm with Adaptive Embedding
Su et al. Ensemble learning for question classification
Peng et al. Two-dimensional embedded fuzzy data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109