CN112183664A - 一种新型密度聚类方法 - Google Patents

一种新型密度聚类方法 Download PDF

Info

Publication number
CN112183664A
CN112183664A CN202011165194.2A CN202011165194A CN112183664A CN 112183664 A CN112183664 A CN 112183664A CN 202011165194 A CN202011165194 A CN 202011165194A CN 112183664 A CN112183664 A CN 112183664A
Authority
CN
China
Prior art keywords
flight data
matrix
core point
point
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011165194.2A
Other languages
English (en)
Other versions
CN112183664B (zh
Inventor
梁少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202011165194.2A priority Critical patent/CN112183664B/zh
Publication of CN112183664A publication Critical patent/CN112183664A/zh
Application granted granted Critical
Publication of CN112183664B publication Critical patent/CN112183664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新型密度聚类方法,对飞行数据矩阵进行归一化处理和降维处理;计算距离矩阵;计算近邻向量;筛选核心点飞行数据、离群点飞行数据及待定点飞行数据;获得所有核心点飞行数据对应的聚类类标;获得所有待定点飞行数据的聚类类标;剔除飞行数据矩阵中离群点飞行数据,最终聚类结果。本发明可有效提高算法的效率。有效降低了计算开销。

Description

一种新型密度聚类方法
技术领域
本方法属于数据挖掘领域,具体涉及一种新型密度聚类方法。
背景技术
聚类分析是根据数据间的内在关系将数据分成不同簇的方法,在众多的聚类分析算法中,考虑噪声基于密度的空间聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)是一种具有噪声处理能力的划分式、互斥式、部分聚类算法。该算法通过把高密度点连成一片,进而生成各种簇,具有自动删除离群点,能处理任意形状和大小的数据,自主推定聚类簇个数,对噪声具有较强的鲁棒性等诸多有点,目前已广泛应用于多个领域,如光谱分析、遥感测绘、生物医学等多个领域。
传统的DBSCAN算法需要提前指定近邻个数Minpts和邻域半径ε两个变量。定义Ds(di)为距离数据di的ε邻域半径内数据的量,若Ds(di)≥Minpts,则di为核心点数据;若Ds(di)<Minpts且di在至少一个核心数据的ε邻域内,则di为边界点数据;若di既非边界点又非核心点,则di为离群点数据;传统DBSCAN算法随机选择一个数据作为分析对象,若该数据是核心点数据,则查找该数据ε邻域半径内所有数据并将其放在一个簇中。之后将此数据ε邻域半径内其他数据分别作为分析对象重复以上过程。所有数据被处理完毕后,密度相连的核心点和边界点形成各个簇,离群数据被抛弃。
但是,传统的DBSCAN算法只能在算法结束后才能获取最终聚类结果,不能输出阶段性成果,不能获取模糊聚类结果,且计算开销较大。
发明内容
发明所要解决的技术问题是克服现有技术的缺陷,提供一种新型密度聚类方法,本发明基于传统DBSCAN算法思想,在深入分析数据分布规律基础上提出了新的密度聚类方法。该算法将各数据距其第Minpts+1个近邻的距离与邻域半径ε进行比对,进而将数据分为核心点、离群点和待定点三类。之后采用不同策略对各类数据分别处理:核心点可以直接做传统聚类分析以获取模糊聚类结果;离群点可以直接剔除,以减少计算开销;待定点可以在合理设计逻辑规则基础上基于前期算法运算结果和遍历查找操作判断聚类类标。算法遵循传统DBSCAN思想,但另辟蹊径,利用了数据分布规律及分组策略,达到了与传统DBSCAN算法相同聚类效果。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种新型密度聚类方法,包括以下步骤:
步骤1、对飞行数据矩阵X进行归一化处理和降维处理获得飞行数据矩阵
Figure BDA0002745551990000021
步骤2、根据飞行数据矩阵
Figure BDA0002745551990000022
计算距离矩阵D;
步骤3、根据距离矩阵D计算飞行数据矩阵
Figure BDA0002745551990000023
的Minpts近邻向量
Figure BDA0002745551990000024
步骤4、根据Minpts近邻向量
Figure BDA0002745551990000025
筛选核心点飞行数据、离群点飞行数据及待定点飞行数据,获得核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O;
步骤5,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure BDA0002745551990000031
中取出核心点飞行数据矩阵
Figure BDA0002745551990000032
对核心点飞行数据矩阵
Figure BDA0002745551990000033
进行聚类,并获得所有核心点飞行数据对应的聚类类标;
步骤6、根据待定点飞行数据索引集合U从飞行数据矩阵
Figure BDA0002745551990000034
中取出待定点飞行数据矩阵
Figure BDA0002745551990000035
判断待定点飞行数据的聚类类标;
步骤7、将飞行数据矩阵
Figure BDA0002745551990000036
中与离群点飞行数据索引集合O中对应飞行数据剔除,根据所有核心点飞行数据的聚类类标与所有待定点飞行数据的聚类类标绘制最终聚类结果。
如上所述的步骤1包括以下步骤:
将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化,使用PCA算法对飞行数据矩阵X进行降维,获得飞行数据矩阵
Figure BDA0002745551990000037
如上所述的步骤3包括以下步骤:
步骤3.1,将距离矩阵D中各行数据按照升序排序,得到排序后的距离矩阵
Figure BDA0002745551990000038
步骤3.2,从排序后的距离矩阵
Figure BDA0002745551990000039
中取出第Minpts+1列数据,记为数据向量
Figure BDA00027455519900000310
其中Minpts为近邻个数;
步骤3.3,将数据向量
Figure BDA00027455519900000311
按照升序排序,获得飞行数据矩阵
Figure BDA00027455519900000312
的Minpts近邻向量。
如上所述的步骤4包括以下步骤:
步骤4.1,设
Figure BDA00027455519900000313
表示Minpts近邻向量
Figure BDA00027455519900000314
中第f行数据,
Figure BDA0002745551990000041
则将
Figure BDA0002745551990000042
对应的飞行数据索引标记为核心点飞行数据;
Figure BDA0002745551990000043
则将
Figure BDA0002745551990000044
对应的飞行数据索引标记为待定点飞行数据;
Figure BDA0002745551990000045
则将
Figure BDA0002745551990000046
对应的飞行数据索引标记为离群点飞行数据,ε为邻域半径;
步骤4.2,按照步骤4.1遍历
Figure BDA0002745551990000047
中所有数据,即可得到核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O。
如上所述的步骤5包括以下步骤:
步骤5.1,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure BDA0002745551990000048
中取出核心点飞行数据矩阵
Figure BDA0002745551990000049
用Ca表示核心点飞行数据矩阵
Figure BDA00027455519900000410
中核心点飞行数据的数量,用
Figure BDA00027455519900000411
表示核心点飞行数据矩阵
Figure BDA00027455519900000412
中第p行飞行数据;
步骤5.2,使用DBSCAN算法对核心点飞行数据矩阵
Figure BDA00027455519900000413
进行聚类分析,得到所有核心点飞行数据对应的聚类类标,用
Figure BDA00027455519900000414
表示核心点飞行数据矩阵
Figure BDA00027455519900000415
中第p行核心点飞行数据的聚类类标。
如上所述的步骤6包括以下步骤:
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵
Figure BDA00027455519900000416
中取出待定点飞行数据矩阵
Figure BDA00027455519900000417
用Ua表示待定点飞行数据矩阵
Figure BDA00027455519900000418
中待定点飞行数据的数量,用
Figure BDA00027455519900000419
表示待定点飞行数据矩阵
Figure BDA00027455519900000420
中第t行待定点飞行数据,用
Figure BDA00027455519900000421
表示第t行待定点飞行数据的聚类类标;
步骤6.2,选定待定点飞行数据矩阵
Figure BDA00027455519900000422
中第t行待定点飞行数据
Figure BDA0002745551990000051
为当前处理数据,基于距离矩阵D,遍历核心点飞行数据矩阵
Figure BDA0002745551990000052
中所有核心点飞行数据,若第p行核心点飞行数据
Figure BDA0002745551990000053
满足下式:
Figure BDA0002745551990000054
则将核心点飞行数据
Figure BDA0002745551990000055
存入关键核心点飞行数据集合
Figure BDA0002745551990000056
直到所有核心点飞行数据遍历结束;
步骤6.3,若关键核心点飞行数据集合
Figure BDA0002745551990000057
为空,则将第t行待定点飞行数据
Figure BDA0002745551990000058
标记为离群点飞行数据;
若关键核心点飞行数据集合
Figure BDA0002745551990000059
中只有
Figure BDA00027455519900000510
一个核心点飞行数据,则第t行待定点飞行数据
Figure BDA00027455519900000511
的聚类类标
Figure BDA00027455519900000512
Figure BDA00027455519900000513
为第p行核心点飞行数据的聚类类标;
若关键核心点飞行数据集合
Figure BDA00027455519900000514
中有多个核心点飞行数据,且多个核心点飞行数据的聚类类标相同,则此多个核心点飞行数据的聚类类标为第t行待定点飞行数据
Figure BDA00027455519900000515
的聚类类标
Figure BDA00027455519900000516
若多个核心点的聚类类标不同,则第t行待定点飞行数据
Figure BDA00027455519900000517
的聚类类标
Figure BDA00027455519900000518
等于关键核心点飞行数据集合
Figure BDA00027455519900000519
中与第t行待定点飞行数据
Figure BDA00027455519900000520
距离最近的核心点飞行数据
Figure BDA00027455519900000521
的聚类类标
Figure BDA00027455519900000522
步骤6.4,选定待定点飞行数据矩阵
Figure BDA00027455519900000523
中未处理的下一个待定点飞行数据,重复步骤6.2至步骤6.3,判断待定点飞行数据的聚类类标,直到所有的待定点飞行数据的聚类类标全部判断完毕,即可得到所有待定点飞行数据的聚类类标。
本发明与现有技术相比,具有以下优点:
1、本发明算法首先通过数据分布规律筛选出了核心点、离群点及待定点,进而获取模糊聚类结果,但传统的DBSCAN算法需要算法运行结束才能给出各数据类别。某些模式识别、异常监测和故障诊断等算法只需要提供模糊的数据类别,因此本发明算法可有效提高这类算法的效率。
2、本发明算法首先筛选出了离群点数据,可以直接剔除以减少计算开销,之后只需要将重点放在判断待定点数据类别即可,具有一定的运算优势。
3、本发明算法提出了一套高效方法解决了核心点和待定点数据类标问题,该方法只需要计算一次两两数据之间的空间距离矩阵(此处计算开销最大,但各算法又不可避免),后续算法只需要做遍历和查找运算即可,有效降低了计算开销。
附图说明
图1是本发明的流程图;
图2是无人机飞行数据示意图,其中维度为5维;
图3是经过步骤1处理后的无人机飞行数据,其中维度为2维;
图4为本发明算法聚类效果示意图,其中图4(a)为核心点聚类效果示意图,图4(b)为总体聚类效果示意图;
图5为传统DBSCAN算法总体聚类效果示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
实施例:
如图1所示,一种新型密度聚类方法,包括以下步骤:
步骤1,对飞行数据矩阵X进行归一化处理和降维处理获得飞行数据矩阵
Figure BDA0002745551990000071
步骤1.1,取无人机飞行数据矩阵作为待处理飞行数据矩阵X,待处理飞行数据矩阵中每一行的各个元素代表飞行子数据,同一行的各个飞行子数据构成一个飞行数据,每一列代表一个飞行数据维度,共m行n列(本实施例m=500,n=5),如图2所示,图中每一条折线代表一个飞行数据。设定近邻个数Minpts(本实施例Minpts=8),邻域半径ε(本实施例ε=0.1)。
步骤1.2,将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化,即将各维度的飞行子数据幅度缩放到[0,1],并使用PCA算法降为2维,如图3所示,归一化并降维后的飞行数据矩阵用
Figure BDA0002745551990000072
表示,飞行数据矩阵
Figure BDA0002745551990000073
中每一行的各个元素代表飞行子数据(本实施例共m1=500行),同一行的各个飞行子数据代表一个飞行数据,每一列代表一个飞行数据维度(本实施例共n1=2列,n1小于n)。
步骤2,用xi和xj表示飞行数据矩阵
Figure BDA0002745551990000074
中第i行和第j行飞行数据,按照下式计算xi和xj的空间距离Di,j
Di,j=||xi-xj||2
上式中,||·||2表示取2范数运算。
按照以上方法计算飞行数据矩阵
Figure BDA0002745551990000075
中两两飞行数据之间的空间距离,最终得到m行m列距离矩阵D,距离矩阵D中第i行第j列元素代表了飞行数据矩阵
Figure BDA0002745551990000081
中对应第i行和第j行飞行数据的空间距离值。
步骤3,计算飞行数据矩阵
Figure BDA0002745551990000082
的Minpts近邻向量
Figure BDA0002745551990000083
步骤3.1,将距离矩阵D中各行数据按照升序排序,得到排序后的距离矩阵
Figure BDA0002745551990000084
共m行m列。
步骤3.2,从排序后的距离矩阵
Figure BDA0002745551990000085
中取出第Minpts+1列数据,用
Figure BDA0002745551990000086
表示,
Figure BDA0002745551990000087
为m行1列数据向量。
步骤3.3,将数据向量
Figure BDA0002745551990000088
按照升序排序,排序后的数据向量用
Figure BDA0002745551990000089
表示,
Figure BDA00027455519900000810
同样为m行1列的数据向量。
Figure BDA00027455519900000811
即为飞行数据矩阵
Figure BDA00027455519900000812
中所有飞行数据到其第Minpts+1个最近邻的升序排列距离向量,简称飞行数据矩阵
Figure BDA00027455519900000813
的Minpts近邻向量。
步骤4,根据Minpts近邻向量
Figure BDA00027455519900000814
筛选核心点飞行数据、离群点飞行数据及待定点飞行数据,获得核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O;
步骤4.1,设
Figure BDA00027455519900000815
表示
Figure BDA00027455519900000816
中第f行数据,f∈{1,m}。
Figure BDA00027455519900000817
则将
Figure BDA00027455519900000818
对应的飞行数据索引标记为核心点飞行数据;
Figure BDA00027455519900000819
则将
Figure BDA00027455519900000820
对应的飞行数据索引标记为待定点飞行数据;
Figure BDA00027455519900000821
则将
Figure BDA00027455519900000822
对应的飞行数据索引标记为离群点飞行数据,ε为邻域半径。
步骤4.2,按照步骤4.1遍历
Figure BDA00027455519900000823
中所有数据,即可得到核心点飞行数据索引集合C,待定点飞行数据索引集合U,离群点飞行数据索引集合O。
步骤5,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure BDA0002745551990000091
中取出核心点飞行数据矩阵
Figure BDA0002745551990000092
对核心点飞行数据矩阵
Figure BDA0002745551990000093
进行聚类,并获得所有核心点飞行数据对应的聚类类标;
步骤5.1,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure BDA0002745551990000094
中取出核心点飞行数据矩阵
Figure BDA0002745551990000095
用Ca表示核心点飞行数据矩阵
Figure BDA0002745551990000096
中核心点飞行数据的数量,则核心点飞行数据矩阵
Figure BDA0002745551990000097
为Ca行2列矩阵(本实施例中降维后的列数n1为2)。用
Figure BDA0002745551990000098
表示核心点飞行数据矩阵
Figure BDA0002745551990000099
中第p行飞行数据,其中p∈{1,Ca}。
步骤5.2,使用DBSCAN算法对核心点飞行数据矩阵
Figure BDA00027455519900000910
进行聚类分析,此时设置邻域半径ε不变(本实施例ε=0.1),重新设置近邻个数Minpts=1。对核心点飞行数据矩阵
Figure BDA00027455519900000911
聚类完成后将得到所有核心点飞行数据对应的聚类类标,如图4(a)所示。核心点飞行数据的聚类类标可以大致表征所有飞行数据的聚类情况,因此称为模糊聚类结果。用
Figure BDA00027455519900000912
表示核心点飞行数据矩阵
Figure BDA00027455519900000913
中第p行核心点飞行数据的聚类类标。
步骤6,根据待定点飞行数据索引集合U从飞行数据矩阵
Figure BDA00027455519900000914
中取出待定点飞行数据矩阵
Figure BDA00027455519900000915
判断待定点飞行数据的聚类类标;
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵
Figure BDA00027455519900000916
中取出待定点飞行数据矩阵
Figure BDA00027455519900000917
用Ua表示待定点飞行数据矩阵
Figure BDA00027455519900000918
中待定点飞行数据的数量,则待定点飞行数据矩阵
Figure BDA00027455519900000919
为Ua行2列矩阵(本实施例中降维后的列数n1=2)。用
Figure BDA00027455519900000920
表示待定点飞行数据矩阵
Figure BDA0002745551990000101
中第t行待定点飞行数据,用
Figure BDA0002745551990000102
表示第t行待定点飞行数据的聚类类标,其中t∈{1,Ua}。
步骤6.2,选定待定点飞行数据矩阵
Figure BDA0002745551990000103
中第t行待定点飞行数据
Figure BDA0002745551990000104
为当前处理数据,基于距离矩阵D,遍历核心点飞行数据矩阵
Figure BDA0002745551990000105
中所有核心点飞行数据,若第p行核心点飞行数据
Figure BDA0002745551990000106
满足下式
Figure BDA0002745551990000107
则将核心点飞行数据
Figure BDA0002745551990000108
存入关键核心点飞行数据集合
Figure BDA0002745551990000109
直到Ca个核心点飞行数据遍历结束。
步骤6.3,若关键核心点飞行数据集合
Figure BDA00027455519900001010
为空,则将第t行待定点飞行数据
Figure BDA00027455519900001011
标记为离群点飞行数据;
若关键核心点飞行数据集合
Figure BDA00027455519900001012
中只有
Figure BDA00027455519900001013
一个核心点飞行数据,则第t行待定点飞行数据
Figure BDA00027455519900001014
的聚类类标
Figure BDA00027455519900001015
Figure BDA00027455519900001016
为第p行核心点飞行数据的聚类类标;
若关键核心点飞行数据集合
Figure BDA00027455519900001017
中有多个核心点飞行数据,且多个核心点飞行数据的聚类类标相同,则此多个核心点飞行数据的聚类类标就是第t行待定点飞行数据
Figure BDA00027455519900001018
的聚类类标
Figure BDA00027455519900001019
若多个核心点的聚类类标不同,则
Figure BDA00027455519900001020
上式表示从关键核心点飞行数据集合
Figure BDA00027455519900001021
中找出与第t行待定点飞行数据
Figure BDA00027455519900001022
距离最近的核心点飞行数据
Figure BDA00027455519900001023
则第t行待定点飞行数据
Figure BDA00027455519900001024
的聚类类标
Figure BDA00027455519900001025
等于关键核心点飞行数据集合
Figure BDA00027455519900001026
中与第t行待定点飞行数据
Figure BDA0002745551990000111
距离最近的核心点飞行数据
Figure BDA0002745551990000112
的聚类类标
Figure BDA0002745551990000113
步骤6.4,选定待定点飞行数据矩阵
Figure BDA0002745551990000114
中未处理的下一个待定点飞行数据,按照步骤6.2至步骤6.3相同的方式判断该待定点飞行数据的聚类类标,直到Ua个待定点飞行数据的聚类类标全部判断完毕,即可得到所有待定点飞行数据的聚类类标。
步骤7,将飞行数据矩阵
Figure BDA0002745551990000115
中与离群点飞行数据索引集合O中对应飞行数据剔除,根据步骤5.2中得到的所有核心点飞行数据的聚类类标与步骤6.4中得到的所有待定点飞行数据的聚类类标绘制最终聚类结果,如图4(b)所示。图5展示了传统DBSCAN算法总体聚类效果,对比图4(b)与图5可知,本发明算法聚类结果与传统算法相同。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种新型密度聚类方法,其特征在于,包括以下步骤:
步骤1、对飞行数据矩阵X进行归一化处理和降维处理获得飞行数据矩阵
Figure FDA0002745551980000011
步骤2、根据飞行数据矩阵
Figure FDA0002745551980000012
计算距离矩阵D;
步骤3、根据距离矩阵D计算飞行数据矩阵
Figure FDA0002745551980000013
的Minpts近邻向量
Figure FDA0002745551980000014
步骤4、根据Minpts近邻向量
Figure FDA0002745551980000015
筛选核心点飞行数据、离群点飞行数据及待定点飞行数据,获得核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O;
步骤5,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure FDA0002745551980000016
中取出核心点飞行数据矩阵
Figure FDA0002745551980000018
对核心点飞行数据矩阵
Figure FDA0002745551980000017
进行聚类,并获得所有核心点飞行数据对应的聚类类标;
步骤6、根据待定点飞行数据索引集合U从飞行数据矩阵
Figure FDA0002745551980000019
中取出待定点飞行数据矩阵
Figure FDA00027455519800000110
判断待定点飞行数据的聚类类标;
步骤7、将飞行数据矩阵
Figure FDA00027455519800000111
中与离群点飞行数据索引集合O中对应飞行数据剔除,根据所有核心点飞行数据的聚类类标与所有待定点飞行数据的聚类类标绘制最终聚类结果。
2.根据权利要求1所述的一种新型密度聚类方法,其特征在于,所述的步骤1包括以下步骤:
将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化,使用PCA算法对飞行数据矩阵X进行降维,获得飞行数据矩阵
Figure FDA00027455519800000112
3.根据权利要求1所述的一种新型密度聚类方法,其特征在于,所述的步骤3包括以下步骤:
步骤3.1,将距离矩阵D中各行数据按照升序排序,得到排序后的距离矩阵
Figure FDA0002745551980000021
步骤3.2,从排序后的距离矩阵
Figure FDA0002745551980000024
中取出第Minpts+1列数据,记为数据向量
Figure FDA0002745551980000022
其中Minpts为近邻个数;
步骤3.3,将数据向量
Figure FDA0002745551980000023
按照升序排序,获得飞行数据矩阵
Figure FDA0002745551980000025
的Minpts近邻向量。
4.根据权利要求1所述的一种新型密度聚类方法,其特征在于,所述的步骤4包括以下步骤:
步骤4.1,设
Figure FDA0002745551980000026
表示Minpts近邻向量
Figure FDA0002745551980000027
中第f行数据,
Figure FDA0002745551980000028
则将
Figure FDA0002745551980000029
对应的飞行数据索引标记为核心点飞行数据;
Figure FDA00027455519800000210
则将
Figure FDA00027455519800000211
对应的飞行数据索引标记为待定点飞行数据;
Figure FDA00027455519800000212
则将
Figure FDA00027455519800000213
对应的飞行数据索引标记为离群点飞行数据,ε为邻域半径;
步骤4.2,按照步骤4.1遍历
Figure FDA00027455519800000214
中所有数据,即可得到核心点飞行数据索引集合C、待定点飞行数据索引集合U、以及离群点飞行数据索引集合O。
5.根据权利要求1所述的一种新型密度聚类方法,其特征在于,所述的步骤5包括以下步骤:
步骤5.1,按照核心点飞行数据索引集合C从飞行数据矩阵
Figure FDA00027455519800000215
中取出核心点飞行数据矩阵
Figure FDA0002745551980000032
用Ca表示核心点飞行数据矩阵
Figure FDA0002745551980000033
中核心点飞行数据的数量,用
Figure FDA0002745551980000034
表示核心点飞行数据矩阵
Figure FDA0002745551980000035
中第p行飞行数据;
步骤5.2,使用DBSCAN算法对核心点飞行数据矩阵
Figure FDA0002745551980000036
进行聚类分析,得到所有核心点飞行数据对应的聚类类标,用
Figure FDA0002745551980000037
表示核心点飞行数据矩阵
Figure FDA0002745551980000038
中第p行核心点飞行数据的聚类类标。
6.根据权利要求5所述的一种新型密度聚类方法,其特征在于,所述的步骤6包括以下步骤:
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵
Figure FDA0002745551980000039
中取出待定点飞行数据矩阵
Figure FDA00027455519800000313
用Ua表示待定点飞行数据矩阵
Figure FDA00027455519800000310
中待定点飞行数据的数量,用
Figure FDA00027455519800000312
表示待定点飞行数据矩阵
Figure FDA00027455519800000311
中第t行待定点飞行数据,用
Figure FDA00027455519800000314
表示第t行待定点飞行数据的聚类类标;
步骤6.2,选定待定点飞行数据矩阵
Figure FDA00027455519800000315
中第t行待定点飞行数据
Figure FDA00027455519800000317
为当前处理数据,基于距离矩阵D,遍历核心点飞行数据矩阵
Figure FDA00027455519800000316
中所有核心点飞行数据,若第p行核心点飞行数据
Figure FDA00027455519800000318
满足下式:
Figure FDA0002745551980000031
则将核心点飞行数据
Figure FDA00027455519800000319
存入关键核心点飞行数据集合
Figure FDA00027455519800000320
直到所有核心点飞行数据遍历结束;
步骤6.3,若关键核心点飞行数据集合
Figure FDA00027455519800000321
为空,则将第t行待定点飞行数据
Figure FDA00027455519800000322
标记为离群点飞行数据;
若关键核心点飞行数据集合
Figure FDA00027455519800000323
中只有
Figure FDA00027455519800000324
一个核心点飞行数据,则第t行待定点飞行数据
Figure FDA00027455519800000325
的聚类类标
Figure FDA00027455519800000326
Figure FDA00027455519800000327
为第p行核心点飞行数据的聚类类标;
若关键核心点飞行数据集合
Figure FDA0002745551980000041
中有多个核心点飞行数据,且多个核心点飞行数据的聚类类标相同,则此多个核心点飞行数据的聚类类标为第t行待定点飞行数据
Figure FDA0002745551980000042
的聚类类标
Figure FDA0002745551980000043
若多个核心点的聚类类标不同,则第t行待定点飞行数据
Figure FDA0002745551980000044
的聚类类标
Figure FDA0002745551980000046
等于关键核心点飞行数据集合
Figure FDA0002745551980000045
中与第t行待定点飞行数据
Figure FDA0002745551980000047
距离最近的核心点飞行数据
Figure FDA0002745551980000048
的聚类类标
Figure FDA0002745551980000049
步骤6.4,选定待定点飞行数据矩阵
Figure FDA00027455519800000410
中未处理的下一个待定点飞行数据,重复步骤6.2至步骤6.3,判断待定点飞行数据的聚类类标,直到所有的待定点飞行数据的聚类类标全部判断完毕,即可得到所有待定点飞行数据的聚类类标。
CN202011165194.2A 2020-10-27 2020-10-27 一种新型密度聚类方法 Active CN112183664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011165194.2A CN112183664B (zh) 2020-10-27 2020-10-27 一种新型密度聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011165194.2A CN112183664B (zh) 2020-10-27 2020-10-27 一种新型密度聚类方法

Publications (2)

Publication Number Publication Date
CN112183664A true CN112183664A (zh) 2021-01-05
CN112183664B CN112183664B (zh) 2022-11-29

Family

ID=73922273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011165194.2A Active CN112183664B (zh) 2020-10-27 2020-10-27 一种新型密度聚类方法

Country Status (1)

Country Link
CN (1) CN112183664B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251026A (zh) * 2016-08-16 2016-12-21 南京信息工程大学 基于pdbscan算法的雷电临近趋势预报方法
CN106709503A (zh) * 2016-11-23 2017-05-24 广西中烟工业有限责任公司 一种基于密度的大型空间数据聚类算法k‑dbscan
US20190146981A1 (en) * 2016-05-03 2019-05-16 Affinio Inc. Large scale social graph segmentation
US20190180358A1 (en) * 2017-12-11 2019-06-13 Accenture Global Solutions Limited Machine learning classification and prediction system
CN110942099A (zh) * 2019-11-29 2020-03-31 华侨大学 一种基于核心点保留的dbscan的异常数据识别检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190146981A1 (en) * 2016-05-03 2019-05-16 Affinio Inc. Large scale social graph segmentation
CN106251026A (zh) * 2016-08-16 2016-12-21 南京信息工程大学 基于pdbscan算法的雷电临近趋势预报方法
CN106709503A (zh) * 2016-11-23 2017-05-24 广西中烟工业有限责任公司 一种基于密度的大型空间数据聚类算法k‑dbscan
US20190180358A1 (en) * 2017-12-11 2019-06-13 Accenture Global Solutions Limited Machine learning classification and prediction system
CN110942099A (zh) * 2019-11-29 2020-03-31 华侨大学 一种基于核心点保留的dbscan的异常数据识别检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DINO IENCO等: "《Fuzzy extensions of the DBScan clustering algorithm》", 《INTERNATIONAL CONFERENCE ON INFORMATION PROCESSING AND MANAGEMENT OF UNCERTAINTY IN KNOWLEDGE-BASED SYSTEM》 *
徐仰彬 等: "《基于DBSCAN的簇共享对象的处理办法》", 《计算机技术与发展》 *

Also Published As

Publication number Publication date
CN112183664B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN109118500B (zh) 一种基于图像的三维激光扫描点云数据的分割方法
Ibrahim et al. Cluster representation of the structural description of images for effective classification
CN109191922B (zh) 一种大规模四维航迹动态预测方法及装置
US6751343B1 (en) Method for indexing and retrieving manufacturing-specific digital imagery based on image content
CN111680542A (zh) 基于多尺度特征提取和Pointnet神经网络的钢卷点云识别与分类方法
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
CN110493221B (zh) 一种基于聚簇轮廓的网络异常检测方法
CN113705641B (zh) 基于富上下文网络的高光谱图像分类方法
CN115586749B (zh) 基于机器视觉的工件加工轨迹控制方法及相关装置
Tao et al. RDEC: integrating regularization into deep embedded clustering for imbalanced datasets
Uhlemeyer et al. Towards unsupervised open world semantic segmentation
Wan et al. LFRNet: Localizing, focus, and refinement network for salient object detection of surface defects
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
Onim et al. LULC classification by semantic segmentation of satellite images using FastFCN
CN114359632A (zh) 一种基于改进PointNet++神经网络的点云目标分类方法
Ivanov et al. The recognition and classification of objects based on the modified distance metric
Xiu et al. Dynamic-scale graph convolutional network for semantic segmentation of 3d point cloud
CN113869418A (zh) 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN113128584A (zh) 一种多功能雷达脉冲序列的模式级无监督分选方法
CN112183664B (zh) 一种新型密度聚类方法
CN116486238B (zh) 联合点集表示与图分类的目标细粒度识别方法
Freitas et al. Community detection to invariant pattern clustering in images
CN112529025A (zh) 一种数据处理方法及装置
Mueller et al. Hierarchical graph-based discovery of non-primitive-shaped objects in unstructured environments
Hou et al. Fast 2d map matching based on area graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant