CN108090514B

CN108090514B - 基于两阶段密度聚类的红外图像识别方法

Info

Publication number: CN108090514B
Application number: CN201711443984.0A
Authority: CN
Inventors: 汪敏; 闵帆; 段昶; 张樱弋; 王帅; 肖伊曼
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-06-15
Anticipated expiration: 2037-12-27
Also published as: CN108090514A

Abstract

本发明属于图像处理技术领域，具体为基于两阶段密度聚类的红外图像识别方法，包括两个阶段：使用Two‑round‑means算法将原始数据集聚成

块，并形成

个代表点。使用改进CFDP算法对

块进行聚类。最终每一块中所有节点获得与代表点相同的类标签。本发明提供的方法，算法的时间复杂度和空间复杂度大大降低，有效的提高了算法的效率，使其能有效的对大规模数据集进行聚类；无需任何参数设置，在实际使用中更加简洁，方便，对各种类型的数据集有更好的适应性。

Description

基于两阶段密度聚类的红外图像识别方法

技术领域

本发明属于图像处理技术领域，具体为基于两阶段密度聚类的红外图像识别方法。

背景技术

通过远红外仪设备采集到大量图片处理为实验数据，利用TSD聚类算法对数据进行分析，判断结果。在分析过程中，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

聚类分析源于许多研究领域，包括数据挖掘、统计学、机器学习、模式识别等。作为数据挖掘中的一个重要功能，聚类分析能作为一个独立的工具来获得数据分布的情况，并且概括出每个族的特点，继而集中注意力对特定的某些簇做进一少的分析。此外，聚类分析也可以和其他数据挖掘算法联合使用，作为其他分析算法(比如关联规则、分类算法等)的预处理步骤。预处理后，相应算法在特定的结果簇上进行专门的分析处理。

聚类的用途是十分广泛的。在生物学中，聚类可以辅助动植物分类方面的研究以及通过对基因数据的聚类，找出功能相似的基因；在地理信息系统中，聚类可以找出具有相似用途的区域，辅助石油的勘探；在商业上，聚类可以帮助市场分析人事对消费者的消费记录进行分析，从而概括出每一类消费者的消费模式，实现消费群体的区分。

聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。

CFDP是基于密度的新聚类算法，2014年发表于science。可聚类非球形数据集，具有聚类速度快、实现简单等优点。

方法对象：需要聚类的数据集

方法目的：以数据集中的每一个实例的密度为模型基础，将待聚类的实例进行聚类

方法步骤：

步骤一：计算所有节点间的距离d_ij。

步骤二：取一个截断距离dc。

步骤三：通过公式(1)计算每一个节点i的密度ρ_i。

χ(x)为一种0-1函数。当x＜0时χ(x)＝1，否则χ(x)＝0

ρ_i的意义实际上是与节点i距离小于dc的节点的个数。

步骤四：对于每一个节点I，都找到所有比该节点i密度大的实例j，选取其中最小的距离d_ij，记为δ_i。

对于拥有最高密度的节点j，其δ_i为所有节点到节点i的最大距离。

步骤五：以ρ为横坐标，以δ为纵坐标，画二维图，在图上选取位于右上的节点作为类中心。

步骤六：将剩余点(非中心点)进行分配。

对于每一个剩余点，其所属的聚类是其最邻近(nearest)且密度(density)比其大的节点的聚类。

如果需要在实际应用中使用CFDP聚类算法，存在以下技术难题：

1.该算法时间，空间复杂度高，均为O(n²)，不适合在大数据集中使用。

2.算法自适应性不强，仅仅能适用于特殊的形状数据集。

3.算法的核心参数：密度阈值dc需要人工设置。而在实际中，针对不同大小，不同类型的数据集，设置最优的dc是一个难题。

另外还有K-Means聚类算法，事先确定常数k，常数k意味着最终的聚类类别数。首先随机选定初始点为中心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中。接着，重新计算每个类的中心，重复这样的过程，直到中心不再改变。最终就确定了每个样本所属的类别以及每个类的中心。

K-Means算法的流程：

初始化常数K，随机选取初始点为质心；

重复计算一下过程，直到类中心不再改变；

计算样本与每个类中心之间的相似度，将样本归类到最相似的类中；

重新计算类中心；

输出最终的类中心以及每个类。

该算法的缺点：

1.对非球状数据集的聚类性能不好，无法有效聚类任意形状的数据集。

2.由于每次都要计算所有的样本与每一个类中心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

发明内容

针对以上两种聚类算法存在的问题，本发明提出一种新的基于两阶段密度聚类的红外图像识别方法。

为达到上述技术目的，本发明的技术方案为：

基于两阶段密度聚类的红外图像识别方法，包括两个阶段：

第一阶段：使用Two-round-means算法将原始数据集聚成

块，并形成

个代表点。

第二阶段：使用改进CFDP算法对

块进行聚类。最终每一块中所有节点获得与代表点相同的类标签。

进一步的，该方法可以详细描述为以下四步：

第一步：使用Two-round-means算法将大数据集划分成

同时选择每一块的虚拟中心作为每一块的代表点，形成

个节点的约简后的数据集

将聚成的

块生成块信息表

第二步：计算核心参数:密度ρ_i，最小距离δ_i和权重γ_i；

1、计算ρ_i

ρ_i＝|b_i| (3)

b_i代表每一块个信息块，|b_i|则代表每个信息块中实例的个数。

当前代表点i的密度设置为当前块中所有节点的个数；

2、计算相邻密度间距离δ_i，上级m_i，据此构建聚类树；

相邻密度间距离δ_i为比点ρ_i密度高且最相近的距离；定义上级节点为密度比其大且距离其最近的节点；具体包括以下过程：

(1)对密度ρ进行排序；

(2)计算距离；

距离指的两个实例之间的欧式距离，或者叫样本间的“距离”(Distance)。

通常可以采用欧氏距离来进行计算。欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。

例如：二维平面上两点a(x1,y1),b(x2,y2)间的欧氏距离：

(3)对于约简后的数据集中任何一个节点x_i，在密度比其大的节点中找最近距离；

(4)搜索到的最近距离也就是节点x_i的相邻密度间距离δ_i；

(5)搜索到密度比其大，且距离其最近的这个节点就是其上级m_i；

3、计算权重参数γ_i

对约简后的数据集x中的每个节点，计算权重参数γ_i：

γ_i＝ρ_i×δ_i；

第三步：计算聚类中心点，并进行密度聚类；包括以下步骤：

(1)计算聚类中心

根据权重参数γ_i对节点进行排序，一次选择k个中心点；

(2)采用递归的方式进行密度聚类

对其他非中心点，用递归的方式，一次获得与其上级相同的类标签；

第四步：完成标记的分配，每一块中所有的节点将获得与代表点相同的类标签。

本发明提供的基于两阶段密度聚类的红外图像识别方法和传统的K-Means算法存在如下不同：

(1)聚类块数

传统K-Means算法仅仅将数据集聚成有限的r块，而本发明提供的是Two-round-means算法，将原始数据集聚成

块。

对一般的大数据集，

如此改进，主要基于如下考虑：

本发明提供的Two-round-means算法主要为了实现对原始大数据集的采样，实现数据量的约简。同时，为了保证后续聚类的效果，还需要保证采样能维持原始数据集的本地分布特性。

因此，本发明提供的Two-round-means算法将数据集聚成

块。

(2)迭代次数

传统K-Means算法需要不断迭代，直到算法收敛，也就是聚类中心不再改变。导致存在大规模的数据集上，K-Means算法的收敛速度比较慢的问题。

而本发明提供的Two-round-means算法只需要完成对数据的预处理，所以本发明提供Two-round-means算法仅仅迭代2次，大大降低了算法的运行时间，同样达到基本相同的效果。

(3)将每一块的虚拟中心作为每一块的代表点，形成新的约简后的数据集

(4)将聚成的

块生成块信息表

(5)计算核心参数:密度ρ_i，也是本发明提供算法与CFDP算法一大核心区别。CFDP算法使用公式(1)计算密度；本发明提供算法使用公式(3)计算密度。CFDP算法中计算ρ_i需要设置密度阈值dc，而实际中无法准确估计dc的最优设置。在公式(3)中，将当前代表点i的密度设置为当前块中所有节点的个数。如此可以更好地考虑数据集的本地分布特性。

本发明具有的技术效果有：

1.时间和空间复杂度大大降低。空间复杂度为O(mn)，时间复杂度为

算法的时间复杂度和空间复杂度大大降低，有效的提高了算法的效率。使其能有效的对大规模数据集进行聚类。

2.无需任何参数设置，在实际使用中更加简洁，方便。

3.对各种类型的数据集有更好的适应性。

附图说明

图1是本发明的流程示意图；

图2是本发明实施例的红外图像处理流程示意图；

图3是本发明实施例的100个点预聚类为10块示意图；

图4是本发明实施例生成的聚类树示意图；

图5是本发明实施例将数据聚成三类示意图；

图6是本发明实施例DLA数据集运行时间比较；

图7是本发明实施例Krvsk数据集运行时间比较；

图8是本发明实施例Magic数据集运行时间比较；

图9是本发明实施例Poker数据集运行时间比较。

具体实施方式

结合实施例和附图说明本发明的技术方案。

采用本发明提供的基于两阶段密度聚类的红外图像识别方法对红外图像进行识别处理，该基于两阶段密度聚类的红外图像识别方法流程如图1所述。

红外图像识别的流程如图2所示。红外摄像仪采集图像数据，然后进行图像数据预处理，获得二维数组，再采用本发明提供的两阶段密度聚类算法进行图像识别，完成图像识别后，采取相应的处理措施。

现在以红外摄像仪采集的原始数据集中有100个实例，通过两阶段聚类算法，最终将其聚成3类。

第一步：第一阶段预聚类，使用Two-round-means算法等预聚类算法对数据进行聚类。如图3所示，将100个点预聚类为10块。

第二步：第二阶段密度聚类。

计算核心参数ρ和δ，生成聚类树，如图4所示，最终利用密度聚类的方法将数据聚成三类，如图5所示。

本实施例的结果与CFDP算法分别取0.1，0.2，…,1.0进行对比测试。测试结果进行以下对比：

纯度的比较：

指标JC的比较：

指标FMI的比较：

指标RI的比较：

本实施例的结果与五种类型的聚类算法进行比较，包括基于划分的k-means聚类算法，基于密度的DBSCAN算法和CFDP算法，基于频谱的SMMC算法，基于最大间隔聚类LGMMC算法和平衡聚类的BCLS算法等五种经典聚类算法进行比较，比较结果如下：

纯度的比较：

JC的比较：

FMI的比较：

RI的比较：

图6-9为选取四个大的数据集进行实际算法的效率测试结果。最大的poker数据集包含10⁶个实例。图中结果表明本文算法比CFDP算法运行效率提高2-3阶。

以上比较结果表明，本发明提供的方法，算法的时间复杂度和空间复杂度大大降低，有效的提高了算法的效率，使其能有效的对大规模数据集进行聚类；无需任何参数设置，在实际使用中更加简洁，方便，对各种类型的数据集有更好的适应性。