CN112183664A

CN112183664A - 一种新型密度聚类方法

Info

Publication number: CN112183664A
Application number: CN202011165194.2A
Authority: CN
Inventors: 梁少军
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-05
Anticipated expiration: 2040-10-27
Also published as: CN112183664B

Abstract

本发明公开了一种新型密度聚类方法，对飞行数据矩阵进行归一化处理和降维处理；计算距离矩阵；计算近邻向量；筛选核心点飞行数据、离群点飞行数据及待定点飞行数据；获得所有核心点飞行数据对应的聚类类标；获得所有待定点飞行数据的聚类类标；剔除飞行数据矩阵中离群点飞行数据，最终聚类结果。本发明可有效提高算法的效率。有效降低了计算开销。

Description

一种新型密度聚类方法

技术领域

本方法属于数据挖掘领域，具体涉及一种新型密度聚类方法。

背景技术

聚类分析是根据数据间的内在关系将数据分成不同簇的方法，在众多的聚类分析算法中，考虑噪声基于密度的空间聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)是一种具有噪声处理能力的划分式、互斥式、部分聚类算法。该算法通过把高密度点连成一片，进而生成各种簇，具有自动删除离群点，能处理任意形状和大小的数据，自主推定聚类簇个数，对噪声具有较强的鲁棒性等诸多有点，目前已广泛应用于多个领域，如光谱分析、遥感测绘、生物医学等多个领域。

传统的DBSCAN算法需要提前指定近邻个数Minpts和邻域半径ε两个变量。定义Ds(d_i)为距离数据d_i的ε邻域半径内数据的量，若Ds(d_i)≥Minpts，则d_i为核心点数据；若Ds(d_i)＜Minpts且d_i在至少一个核心数据的ε邻域内，则d_i为边界点数据；若d_i既非边界点又非核心点，则d_i为离群点数据；传统DBSCAN算法随机选择一个数据作为分析对象，若该数据是核心点数据，则查找该数据ε邻域半径内所有数据并将其放在一个簇中。之后将此数据ε邻域半径内其他数据分别作为分析对象重复以上过程。所有数据被处理完毕后，密度相连的核心点和边界点形成各个簇，离群数据被抛弃。

但是，传统的DBSCAN算法只能在算法结束后才能获取最终聚类结果，不能输出阶段性成果，不能获取模糊聚类结果，且计算开销较大。

发明内容

发明所要解决的技术问题是克服现有技术的缺陷，提供一种新型密度聚类方法，本发明基于传统DBSCAN算法思想，在深入分析数据分布规律基础上提出了新的密度聚类方法。该算法将各数据距其第Minpts+1个近邻的距离与邻域半径ε进行比对，进而将数据分为核心点、离群点和待定点三类。之后采用不同策略对各类数据分别处理：核心点可以直接做传统聚类分析以获取模糊聚类结果；离群点可以直接剔除，以减少计算开销；待定点可以在合理设计逻辑规则基础上基于前期算法运算结果和遍历查找操作判断聚类类标。算法遵循传统DBSCAN思想，但另辟蹊径，利用了数据分布规律及分组策略，达到了与传统DBSCAN算法相同聚类效果。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种新型密度聚类方法，包括以下步骤：

步骤1、对飞行数据矩阵X进行归一化处理和降维处理获得飞行数据矩阵

步骤2、根据飞行数据矩阵

计算距离矩阵D；

步骤3、根据距离矩阵D计算飞行数据矩阵

的Minpts近邻向量

步骤4、根据Minpts近邻向量

筛选核心点飞行数据、离群点飞行数据及待定点飞行数据，获得核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O；

步骤5，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

对核心点飞行数据矩阵

进行聚类，并获得所有核心点飞行数据对应的聚类类标；

步骤6、根据待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

判断待定点飞行数据的聚类类标；

步骤7、将飞行数据矩阵

中与离群点飞行数据索引集合O中对应飞行数据剔除，根据所有核心点飞行数据的聚类类标与所有待定点飞行数据的聚类类标绘制最终聚类结果。

如上所述的步骤1包括以下步骤：

将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化，使用PCA算法对飞行数据矩阵X进行降维，获得飞行数据矩阵

如上所述的步骤3包括以下步骤：

步骤3.1，将距离矩阵D中各行数据按照升序排序，得到排序后的距离矩阵

步骤3.2，从排序后的距离矩阵

中取出第Minpts+1列数据，记为数据向量

其中Minpts为近邻个数；

步骤3.3，将数据向量

按照升序排序，获得飞行数据矩阵

的Minpts近邻向量。

如上所述的步骤4包括以下步骤：

步骤4.1，设

表示Minpts近邻向量

中第f行数据，

若

则将

对应的飞行数据索引标记为核心点飞行数据；

若

则将

对应的飞行数据索引标记为待定点飞行数据；

若

则将

对应的飞行数据索引标记为离群点飞行数据，ε为邻域半径；

步骤4.2，按照步骤4.1遍历

中所有数据，即可得到核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O。

如上所述的步骤5包括以下步骤：

步骤5.1，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

用C_a表示核心点飞行数据矩阵

中核心点飞行数据的数量，用

表示核心点飞行数据矩阵

中第p行飞行数据；

步骤5.2，使用DBSCAN算法对核心点飞行数据矩阵

进行聚类分析，得到所有核心点飞行数据对应的聚类类标，用

表示核心点飞行数据矩阵

中第p行核心点飞行数据的聚类类标。

如上所述的步骤6包括以下步骤：

步骤6.1，按照待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

用U_a表示待定点飞行数据矩阵

中待定点飞行数据的数量，用

表示待定点飞行数据矩阵

中第t行待定点飞行数据，用

表示第t行待定点飞行数据的聚类类标；

步骤6.2，选定待定点飞行数据矩阵

中第t行待定点飞行数据

为当前处理数据，基于距离矩阵D，遍历核心点飞行数据矩阵

中所有核心点飞行数据，若第p行核心点飞行数据

满足下式：

则将核心点飞行数据

存入关键核心点飞行数据集合

直到所有核心点飞行数据遍历结束；

步骤6.3，若关键核心点飞行数据集合

为空，则将第t行待定点飞行数据

标记为离群点飞行数据；

若关键核心点飞行数据集合

中只有

一个核心点飞行数据，则第t行待定点飞行数据

的聚类类标

为第p行核心点飞行数据的聚类类标；

若关键核心点飞行数据集合

中有多个核心点飞行数据，且多个核心点飞行数据的聚类类标相同，则此多个核心点飞行数据的聚类类标为第t行待定点飞行数据

的聚类类标

若多个核心点的聚类类标不同，则第t行待定点飞行数据

的聚类类标

等于关键核心点飞行数据集合

中与第t行待定点飞行数据

距离最近的核心点飞行数据

的聚类类标

步骤6.4，选定待定点飞行数据矩阵

中未处理的下一个待定点飞行数据，重复步骤6.2至步骤6.3，判断待定点飞行数据的聚类类标，直到所有的待定点飞行数据的聚类类标全部判断完毕，即可得到所有待定点飞行数据的聚类类标。

本发明与现有技术相比，具有以下优点：

1、本发明算法首先通过数据分布规律筛选出了核心点、离群点及待定点，进而获取模糊聚类结果，但传统的DBSCAN算法需要算法运行结束才能给出各数据类别。某些模式识别、异常监测和故障诊断等算法只需要提供模糊的数据类别，因此本发明算法可有效提高这类算法的效率。

2、本发明算法首先筛选出了离群点数据，可以直接剔除以减少计算开销，之后只需要将重点放在判断待定点数据类别即可，具有一定的运算优势。

3、本发明算法提出了一套高效方法解决了核心点和待定点数据类标问题，该方法只需要计算一次两两数据之间的空间距离矩阵(此处计算开销最大，但各算法又不可避免)，后续算法只需要做遍历和查找运算即可，有效降低了计算开销。

附图说明

图1是本发明的流程图；

图2是无人机飞行数据示意图，其中维度为5维；

图3是经过步骤1处理后的无人机飞行数据，其中维度为2维；

图4为本发明算法聚类效果示意图，其中图4(a)为核心点聚类效果示意图，图4(b)为总体聚类效果示意图；

图5为传统DBSCAN算法总体聚类效果示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

实施例：

如图1所示，一种新型密度聚类方法，包括以下步骤：

步骤1，对飞行数据矩阵X进行归一化处理和降维处理获得飞行数据矩阵

步骤1.1，取无人机飞行数据矩阵作为待处理飞行数据矩阵X，待处理飞行数据矩阵中每一行的各个元素代表飞行子数据，同一行的各个飞行子数据构成一个飞行数据，每一列代表一个飞行数据维度，共m行n列(本实施例m＝500，n＝5)，如图2所示，图中每一条折线代表一个飞行数据。设定近邻个数Minpts(本实施例Minpts＝8)，邻域半径ε(本实施例ε＝0.1)。

步骤1.2，将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化，即将各维度的飞行子数据幅度缩放到[0,1]，并使用PCA算法降为2维，如图3所示，归一化并降维后的飞行数据矩阵用

表示，飞行数据矩阵

中每一行的各个元素代表飞行子数据(本实施例共m1＝500行)，同一行的各个飞行子数据代表一个飞行数据，每一列代表一个飞行数据维度(本实施例共n1＝2列，n1小于n)。

步骤2，用x_i和x_j表示飞行数据矩阵

中第i行和第j行飞行数据，按照下式计算x_i和x_j的空间距离D_i,j

D_i,j＝||x_i-x_j||₂

上式中，||·||₂表示取2范数运算。

按照以上方法计算飞行数据矩阵

中两两飞行数据之间的空间距离，最终得到m行m列距离矩阵D，距离矩阵D中第i行第j列元素代表了飞行数据矩阵

中对应第i行和第j行飞行数据的空间距离值。

步骤3，计算飞行数据矩阵

的Minpts近邻向量

共m行m列。

步骤3.2，从排序后的距离矩阵

中取出第Minpts+1列数据，用

表示，

为m行1列数据向量。

步骤3.3，将数据向量

按照升序排序，排序后的数据向量用

表示，

同样为m行1列的数据向量。

即为飞行数据矩阵

中所有飞行数据到其第Minpts+1个最近邻的升序排列距离向量，简称飞行数据矩阵

的Minpts近邻向量。

步骤4，根据Minpts近邻向量

步骤4.1，设

表示

中第f行数据，f∈{1,m}。

若

则将

对应的飞行数据索引标记为核心点飞行数据；

若

则将

对应的飞行数据索引标记为待定点飞行数据；

若

则将

对应的飞行数据索引标记为离群点飞行数据，ε为邻域半径。

步骤4.2，按照步骤4.1遍历

中所有数据，即可得到核心点飞行数据索引集合C，待定点飞行数据索引集合U，离群点飞行数据索引集合O。

步骤5，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

对核心点飞行数据矩阵

进行聚类，并获得所有核心点飞行数据对应的聚类类标；

步骤5.1，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

用C_a表示核心点飞行数据矩阵

中核心点飞行数据的数量，则核心点飞行数据矩阵

为C_a行2列矩阵(本实施例中降维后的列数n1为2)。用

表示核心点飞行数据矩阵

中第p行飞行数据，其中p∈{1,C_a}。

步骤5.2，使用DBSCAN算法对核心点飞行数据矩阵

进行聚类分析，此时设置邻域半径ε不变(本实施例ε＝0.1)，重新设置近邻个数Minpts＝1。对核心点飞行数据矩阵

聚类完成后将得到所有核心点飞行数据对应的聚类类标，如图4(a)所示。核心点飞行数据的聚类类标可以大致表征所有飞行数据的聚类情况，因此称为模糊聚类结果。用

表示核心点飞行数据矩阵

中第p行核心点飞行数据的聚类类标。

步骤6，根据待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

判断待定点飞行数据的聚类类标；

步骤6.1，按照待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

用U_a表示待定点飞行数据矩阵

中待定点飞行数据的数量，则待定点飞行数据矩阵

为U_a行2列矩阵(本实施例中降维后的列数n1＝2)。用

表示待定点飞行数据矩阵

中第t行待定点飞行数据，用

表示第t行待定点飞行数据的聚类类标，其中t∈{1,U_a}。

步骤6.2，选定待定点飞行数据矩阵

中第t行待定点飞行数据

为当前处理数据，基于距离矩阵D，遍历核心点飞行数据矩阵

中所有核心点飞行数据，若第p行核心点飞行数据

满足下式

则将核心点飞行数据

存入关键核心点飞行数据集合

直到C_a个核心点飞行数据遍历结束。

步骤6.3，若关键核心点飞行数据集合

为空，则将第t行待定点飞行数据

标记为离群点飞行数据；

若关键核心点飞行数据集合

中只有

一个核心点飞行数据，则第t行待定点飞行数据

的聚类类标

为第p行核心点飞行数据的聚类类标；

若关键核心点飞行数据集合

中有多个核心点飞行数据，且多个核心点飞行数据的聚类类标相同，则此多个核心点飞行数据的聚类类标就是第t行待定点飞行数据

的聚类类标

若多个核心点的聚类类标不同，则

上式表示从关键核心点飞行数据集合

中找出与第t行待定点飞行数据

距离最近的核心点飞行数据

则第t行待定点飞行数据

的聚类类标

等于关键核心点飞行数据集合

中与第t行待定点飞行数据

距离最近的核心点飞行数据

的聚类类标

步骤6.4，选定待定点飞行数据矩阵

中未处理的下一个待定点飞行数据，按照步骤6.2至步骤6.3相同的方式判断该待定点飞行数据的聚类类标，直到U_a个待定点飞行数据的聚类类标全部判断完毕，即可得到所有待定点飞行数据的聚类类标。

步骤7，将飞行数据矩阵

中与离群点飞行数据索引集合O中对应飞行数据剔除，根据步骤5.2中得到的所有核心点飞行数据的聚类类标与步骤6.4中得到的所有待定点飞行数据的聚类类标绘制最终聚类结果，如图4(b)所示。图5展示了传统DBSCAN算法总体聚类效果，对比图4(b)与图5可知，本发明算法聚类结果与传统算法相同。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种新型密度聚类方法，其特征在于，包括以下步骤：

步骤2、根据飞行数据矩阵

计算距离矩阵D；

步骤3、根据距离矩阵D计算飞行数据矩阵

的Minpts近邻向量

步骤4、根据Minpts近邻向量

步骤5，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

对核心点飞行数据矩阵

进行聚类，并获得所有核心点飞行数据对应的聚类类标；

步骤6、根据待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

判断待定点飞行数据的聚类类标；

步骤7、将飞行数据矩阵

2.根据权利要求1所述的一种新型密度聚类方法，其特征在于，所述的步骤1包括以下步骤：

3.根据权利要求1所述的一种新型密度聚类方法，其特征在于，所述的步骤3包括以下步骤：

步骤3.2，从排序后的距离矩阵

中取出第Minpts+1列数据，记为数据向量

其中Minpts为近邻个数；

步骤3.3，将数据向量

按照升序排序，获得飞行数据矩阵

的Minpts近邻向量。

4.根据权利要求1所述的一种新型密度聚类方法，其特征在于，所述的步骤4包括以下步骤：

步骤4.1，设

表示Minpts近邻向量

中第f行数据，

若

则将

对应的飞行数据索引标记为核心点飞行数据；

若

则将

对应的飞行数据索引标记为待定点飞行数据；

若

则将

步骤4.2，按照步骤4.1遍历

5.根据权利要求1所述的一种新型密度聚类方法，其特征在于，所述的步骤5包括以下步骤：

步骤5.1，按照核心点飞行数据索引集合C从飞行数据矩阵

中取出核心点飞行数据矩阵

用C_a表示核心点飞行数据矩阵

中核心点飞行数据的数量，用

表示核心点飞行数据矩阵

中第p行飞行数据；

步骤5.2，使用DBSCAN算法对核心点飞行数据矩阵

表示核心点飞行数据矩阵

中第p行核心点飞行数据的聚类类标。

6.根据权利要求5所述的一种新型密度聚类方法，其特征在于，所述的步骤6包括以下步骤：

步骤6.1，按照待定点飞行数据索引集合U从飞行数据矩阵

中取出待定点飞行数据矩阵

用U_a表示待定点飞行数据矩阵

中待定点飞行数据的数量，用

表示待定点飞行数据矩阵

中第t行待定点飞行数据，用

表示第t行待定点飞行数据的聚类类标；

步骤6.2，选定待定点飞行数据矩阵

中第t行待定点飞行数据

为当前处理数据，基于距离矩阵D，遍历核心点飞行数据矩阵

中所有核心点飞行数据，若第p行核心点飞行数据

满足下式：

则将核心点飞行数据

存入关键核心点飞行数据集合

直到所有核心点飞行数据遍历结束；

步骤6.3，若关键核心点飞行数据集合

为空，则将第t行待定点飞行数据

标记为离群点飞行数据；

若关键核心点飞行数据集合

中只有

一个核心点飞行数据，则第t行待定点飞行数据

的聚类类标

为第p行核心点飞行数据的聚类类标；

若关键核心点飞行数据集合

的聚类类标

若多个核心点的聚类类标不同，则第t行待定点飞行数据

的聚类类标

等于关键核心点飞行数据集合

中与第t行待定点飞行数据

距离最近的核心点飞行数据

的聚类类标

步骤6.4，选定待定点飞行数据矩阵