CN112183664A - 一种新型密度聚类方法 - Google Patents
一种新型密度聚类方法 Download PDFInfo
- Publication number
- CN112183664A CN112183664A CN202011165194.2A CN202011165194A CN112183664A CN 112183664 A CN112183664 A CN 112183664A CN 202011165194 A CN202011165194 A CN 202011165194A CN 112183664 A CN112183664 A CN 112183664A
- Authority
- CN
- China
- Prior art keywords
- flight data
- matrix
- core point
- point
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种新型密度聚类方法,对飞行数据矩阵进行归一化处理和降维处理;计算距离矩阵;计算近邻向量;筛选核心点飞行数据、离群点飞行数据及待定点飞行数据;获得所有核心点飞行数据对应的聚类类标;获得所有待定点飞行数据的聚类类标;剔除飞行数据矩阵中离群点飞行数据,最终聚类结果。本发明可有效提高算法的效率。有效降低了计算开销。
Description
技术领域
本方法属于数据挖掘领域,具体涉及一种新型密度聚类方法。
背景技术
聚类分析是根据数据间的内在关系将数据分成不同簇的方法,在众多的聚类分析算法中,考虑噪声基于密度的空间聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)是一种具有噪声处理能力的划分式、互斥式、部分聚类算法。该算法通过把高密度点连成一片,进而生成各种簇,具有自动删除离群点,能处理任意形状和大小的数据,自主推定聚类簇个数,对噪声具有较强的鲁棒性等诸多有点,目前已广泛应用于多个领域,如光谱分析、遥感测绘、生物医学等多个领域。
传统的DBSCAN算法需要提前指定近邻个数Minpts和邻域半径ε两个变量。定义Ds(di)为距离数据di的ε邻域半径内数据的量,若Ds(di)≥Minpts,则di为核心点数据;若Ds(di)<Minpts且di在至少一个核心数据的ε邻域内,则di为边界点数据;若di既非边界点又非核心点,则di为离群点数据;传统DBSCAN算法随机选择一个数据作为分析对象,若该数据是核心点数据,则查找该数据ε邻域半径内所有数据并将其放在一个簇中。之后将此数据ε邻域半径内其他数据分别作为分析对象重复以上过程。所有数据被处理完毕后,密度相连的核心点和边界点形成各个簇,离群数据被抛弃。
但是,传统的DBSCAN算法只能在算法结束后才能获取最终聚类结果,不能输出阶段性成果,不能获取模糊聚类结果,且计算开销较大。
发明内容
发明所要解决的技术问题是克服现有技术的缺陷,提供一种新型密度聚类方法,本发明基于传统DBSCAN算法思想,在深入分析数据分布规律基础上提出了新的密度聚类方法。该算法将各数据距其第Minpts+1个近邻的距离与邻域半径ε进行比对,进而将数据分为核心点、离群点和待定点三类。之后采用不同策略对各类数据分别处理:核心点可以直接做传统聚类分析以获取模糊聚类结果;离群点可以直接剔除,以减少计算开销;待定点可以在合理设计逻辑规则基础上基于前期算法运算结果和遍历查找操作判断聚类类标。算法遵循传统DBSCAN思想,但另辟蹊径,利用了数据分布规律及分组策略,达到了与传统DBSCAN算法相同聚类效果。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种新型密度聚类方法,包括以下步骤:
如上所述的步骤1包括以下步骤:
如上所述的步骤3包括以下步骤:
如上所述的步骤4包括以下步骤:
如上所述的步骤5包括以下步骤:
如上所述的步骤6包括以下步骤:
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵中取出待定点飞行数据矩阵用Ua表示待定点飞行数据矩阵中待定点飞行数据的数量,用表示待定点飞行数据矩阵中第t行待定点飞行数据,用表示第t行待定点飞行数据的聚类类标;
若多个核心点的聚类类标不同,则第t行待定点飞行数据的聚类类标等于关键核心点飞行数据集合中与第t行待定点飞行数据距离最近的核心点飞行数据的聚类类标步骤6.4,选定待定点飞行数据矩阵中未处理的下一个待定点飞行数据,重复步骤6.2至步骤6.3,判断待定点飞行数据的聚类类标,直到所有的待定点飞行数据的聚类类标全部判断完毕,即可得到所有待定点飞行数据的聚类类标。
本发明与现有技术相比,具有以下优点:
1、本发明算法首先通过数据分布规律筛选出了核心点、离群点及待定点,进而获取模糊聚类结果,但传统的DBSCAN算法需要算法运行结束才能给出各数据类别。某些模式识别、异常监测和故障诊断等算法只需要提供模糊的数据类别,因此本发明算法可有效提高这类算法的效率。
2、本发明算法首先筛选出了离群点数据,可以直接剔除以减少计算开销,之后只需要将重点放在判断待定点数据类别即可,具有一定的运算优势。
3、本发明算法提出了一套高效方法解决了核心点和待定点数据类标问题,该方法只需要计算一次两两数据之间的空间距离矩阵(此处计算开销最大,但各算法又不可避免),后续算法只需要做遍历和查找运算即可,有效降低了计算开销。
附图说明
图1是本发明的流程图;
图2是无人机飞行数据示意图,其中维度为5维;
图3是经过步骤1处理后的无人机飞行数据,其中维度为2维;
图4为本发明算法聚类效果示意图,其中图4(a)为核心点聚类效果示意图,图4(b)为总体聚类效果示意图;
图5为传统DBSCAN算法总体聚类效果示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
实施例:
如图1所示,一种新型密度聚类方法,包括以下步骤:
步骤1.1,取无人机飞行数据矩阵作为待处理飞行数据矩阵X,待处理飞行数据矩阵中每一行的各个元素代表飞行子数据,同一行的各个飞行子数据构成一个飞行数据,每一列代表一个飞行数据维度,共m行n列(本实施例m=500,n=5),如图2所示,图中每一条折线代表一个飞行数据。设定近邻个数Minpts(本实施例Minpts=8),邻域半径ε(本实施例ε=0.1)。
步骤1.2,将飞行数据矩阵X沿着各列对各维度的飞行子数据进行归一化,即将各维度的飞行子数据幅度缩放到[0,1],并使用PCA算法降为2维,如图3所示,归一化并降维后的飞行数据矩阵用表示,飞行数据矩阵中每一行的各个元素代表飞行子数据(本实施例共m1=500行),同一行的各个飞行子数据代表一个飞行数据,每一列代表一个飞行数据维度(本实施例共n1=2列,n1小于n)。
Di,j=||xi-xj||2
上式中,||·||2表示取2范数运算。
步骤3.3,将数据向量按照升序排序,排序后的数据向量用表示,同样为m行1列的数据向量。即为飞行数据矩阵中所有飞行数据到其第Minpts+1个最近邻的升序排列距离向量,简称飞行数据矩阵的Minpts近邻向量。
步骤5.1,按照核心点飞行数据索引集合C从飞行数据矩阵中取出核心点飞行数据矩阵用Ca表示核心点飞行数据矩阵中核心点飞行数据的数量,则核心点飞行数据矩阵为Ca行2列矩阵(本实施例中降维后的列数n1为2)。用表示核心点飞行数据矩阵中第p行飞行数据,其中p∈{1,Ca}。
步骤5.2,使用DBSCAN算法对核心点飞行数据矩阵进行聚类分析,此时设置邻域半径ε不变(本实施例ε=0.1),重新设置近邻个数Minpts=1。对核心点飞行数据矩阵聚类完成后将得到所有核心点飞行数据对应的聚类类标,如图4(a)所示。核心点飞行数据的聚类类标可以大致表征所有飞行数据的聚类情况,因此称为模糊聚类结果。用表示核心点飞行数据矩阵中第p行核心点飞行数据的聚类类标。
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵中取出待定点飞行数据矩阵用Ua表示待定点飞行数据矩阵中待定点飞行数据的数量,则待定点飞行数据矩阵为Ua行2列矩阵(本实施例中降维后的列数n1=2)。用表示待定点飞行数据矩阵中第t行待定点飞行数据,用表示第t行待定点飞行数据的聚类类标,其中t∈{1,Ua}。
若多个核心点的聚类类标不同,则
上式表示从关键核心点飞行数据集合中找出与第t行待定点飞行数据距离最近的核心点飞行数据则第t行待定点飞行数据的聚类类标等于关键核心点飞行数据集合中与第t行待定点飞行数据距离最近的核心点飞行数据的聚类类标
步骤6.4,选定待定点飞行数据矩阵中未处理的下一个待定点飞行数据,按照步骤6.2至步骤6.3相同的方式判断该待定点飞行数据的聚类类标,直到Ua个待定点飞行数据的聚类类标全部判断完毕,即可得到所有待定点飞行数据的聚类类标。
步骤7,将飞行数据矩阵中与离群点飞行数据索引集合O中对应飞行数据剔除,根据步骤5.2中得到的所有核心点飞行数据的聚类类标与步骤6.4中得到的所有待定点飞行数据的聚类类标绘制最终聚类结果,如图4(b)所示。图5展示了传统DBSCAN算法总体聚类效果,对比图4(b)与图5可知,本发明算法聚类结果与传统算法相同。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种新型密度聚类方法,其特征在于,包括以下步骤:
6.根据权利要求5所述的一种新型密度聚类方法,其特征在于,所述的步骤6包括以下步骤:
步骤6.1,按照待定点飞行数据索引集合U从飞行数据矩阵中取出待定点飞行数据矩阵用Ua表示待定点飞行数据矩阵中待定点飞行数据的数量,用表示待定点飞行数据矩阵中第t行待定点飞行数据,用表示第t行待定点飞行数据的聚类类标;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165194.2A CN112183664B (zh) | 2020-10-27 | 2020-10-27 | 一种新型密度聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165194.2A CN112183664B (zh) | 2020-10-27 | 2020-10-27 | 一种新型密度聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183664A true CN112183664A (zh) | 2021-01-05 |
CN112183664B CN112183664B (zh) | 2022-11-29 |
Family
ID=73922273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011165194.2A Active CN112183664B (zh) | 2020-10-27 | 2020-10-27 | 一种新型密度聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183664B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251026A (zh) * | 2016-08-16 | 2016-12-21 | 南京信息工程大学 | 基于pdbscan算法的雷电临近趋势预报方法 |
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
US20190146981A1 (en) * | 2016-05-03 | 2019-05-16 | Affinio Inc. | Large scale social graph segmentation |
US20190180358A1 (en) * | 2017-12-11 | 2019-06-13 | Accenture Global Solutions Limited | Machine learning classification and prediction system |
CN110942099A (zh) * | 2019-11-29 | 2020-03-31 | 华侨大学 | 一种基于核心点保留的dbscan的异常数据识别检测方法 |
-
2020
- 2020-10-27 CN CN202011165194.2A patent/CN112183664B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190146981A1 (en) * | 2016-05-03 | 2019-05-16 | Affinio Inc. | Large scale social graph segmentation |
CN106251026A (zh) * | 2016-08-16 | 2016-12-21 | 南京信息工程大学 | 基于pdbscan算法的雷电临近趋势预报方法 |
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
US20190180358A1 (en) * | 2017-12-11 | 2019-06-13 | Accenture Global Solutions Limited | Machine learning classification and prediction system |
CN110942099A (zh) * | 2019-11-29 | 2020-03-31 | 华侨大学 | 一种基于核心点保留的dbscan的异常数据识别检测方法 |
Non-Patent Citations (2)
Title |
---|
DINO IENCO等: "《Fuzzy extensions of the DBScan clustering algorithm》", 《INTERNATIONAL CONFERENCE ON INFORMATION PROCESSING AND MANAGEMENT OF UNCERTAINTY IN KNOWLEDGE-BASED SYSTEM》 * |
徐仰彬 等: "《基于DBSCAN的簇共享对象的处理办法》", 《计算机技术与发展》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112183664B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109118500B (zh) | 一种基于图像的三维激光扫描点云数据的分割方法 | |
Ibrahim et al. | Cluster representation of the structural description of images for effective classification | |
CN109191922B (zh) | 一种大规模四维航迹动态预测方法及装置 | |
US6751343B1 (en) | Method for indexing and retrieving manufacturing-specific digital imagery based on image content | |
CN111680542A (zh) | 基于多尺度特征提取和Pointnet神经网络的钢卷点云识别与分类方法 | |
CN109145964B (zh) | 一种实现图像颜色聚类的方法和系统 | |
CN110493221B (zh) | 一种基于聚簇轮廓的网络异常检测方法 | |
CN113705641B (zh) | 基于富上下文网络的高光谱图像分类方法 | |
CN115586749B (zh) | 基于机器视觉的工件加工轨迹控制方法及相关装置 | |
Tao et al. | RDEC: integrating regularization into deep embedded clustering for imbalanced datasets | |
Uhlemeyer et al. | Towards unsupervised open world semantic segmentation | |
Wan et al. | LFRNet: Localizing, focus, and refinement network for salient object detection of surface defects | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
Onim et al. | LULC classification by semantic segmentation of satellite images using FastFCN | |
CN114359632A (zh) | 一种基于改进PointNet++神经网络的点云目标分类方法 | |
Ivanov et al. | The recognition and classification of objects based on the modified distance metric | |
Xiu et al. | Dynamic-scale graph convolutional network for semantic segmentation of 3d point cloud | |
CN113869418A (zh) | 一种基于全局注意力关系网络的小样本船舶目标识别方法 | |
CN113128584A (zh) | 一种多功能雷达脉冲序列的模式级无监督分选方法 | |
CN112183664B (zh) | 一种新型密度聚类方法 | |
CN116486238B (zh) | 联合点集表示与图分类的目标细粒度识别方法 | |
Freitas et al. | Community detection to invariant pattern clustering in images | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
Mueller et al. | Hierarchical graph-based discovery of non-primitive-shaped objects in unstructured environments | |
Hou et al. | Fast 2d map matching based on area graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |