CN108090514B - 基于两阶段密度聚类的红外图像识别方法 - Google Patents

基于两阶段密度聚类的红外图像识别方法 Download PDF

Info

Publication number
CN108090514B
CN108090514B CN201711443984.0A CN201711443984A CN108090514B CN 108090514 B CN108090514 B CN 108090514B CN 201711443984 A CN201711443984 A CN 201711443984A CN 108090514 B CN108090514 B CN 108090514B
Authority
CN
China
Prior art keywords
node
block
distance
clustering
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711443984.0A
Other languages
English (en)
Other versions
CN108090514A (zh
Inventor
汪敏
闵帆
段昶
张樱弋
王帅
肖伊曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN201711443984.0A priority Critical patent/CN108090514B/zh
Publication of CN108090514A publication Critical patent/CN108090514A/zh
Application granted granted Critical
Publication of CN108090514B publication Critical patent/CN108090514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,具体为基于两阶段密度聚类的红外图像识别方法,包括两个阶段:使用Two‑round‑means算法将原始数据集聚成
Figure DDA0001527129510000011
块,并形成
Figure DDA0001527129510000012
个代表点。使用改进CFDP算法对
Figure DDA0001527129510000013
块进行聚类。最终每一块中所有节点获得与代表点相同的类标签。本发明提供的方法,算法的时间复杂度和空间复杂度大大降低,有效的提高了算法的效率,使其能有效的对大规模数据集进行聚类;无需任何参数设置,在实际使用中更加简洁,方便,对各种类型的数据集有更好的适应性。

Description

基于两阶段密度聚类的红外图像识别方法
技术领域
本发明属于图像处理技术领域,具体为基于两阶段密度聚类的红外图像识别方法。
背景技术
通过远红外仪设备采集到大量图片处理为实验数据,利用TSD聚类算法对数据进行分析,判断结果。在分析过程中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学习、模式识别等。作为数据挖掘中的一个重要功能,聚类分析能作为一个独立的工具来获得数据分布的情况,并且概括出每个族的特点,继而集中注意力对特定的某些簇做进一少的分析。此外,聚类分析也可以和其他数据挖掘算法联合使用,作为其他分析算法(比如关联规则、分类算法等)的预处理步骤。预处理后,相应算法在特定的结果簇上进行专门的分析处理。
聚类的用途是十分广泛的。在生物学中,聚类可以辅助动植物分类方面的研究以及通过对基因数据的聚类,找出功能相似的基因;在地理信息系统中,聚类可以找出具有相似用途的区域,辅助石油的勘探;在商业上,聚类可以帮助市场分析人事对消费者的消费记录进行分析,从而概括出每一类消费者的消费模式,实现消费群体的区分。
聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。
CFDP是基于密度的新聚类算法,2014年发表于science。可聚类非球形数据集,具有聚类速度快、实现简单等优点。
方法对象:需要聚类的数据集
方法目的:以数据集中的每一个实例的密度为模型基础,将待聚类的实例进行聚类
方法步骤:
步骤一:计算所有节点间的距离dij
步骤二:取一个截断距离dc。
步骤三:通过公式(1)计算每一个节点i的密度ρi
Figure BDA0001527129490000021
χ(x)为一种0-1函数。当x<0时χ(x)=1,否则χ(x)=0
ρi的意义实际上是与节点i距离小于dc的节点的个数。
步骤四:对于每一个节点I,都找到所有比该节点i密度大的实例j,选取其中最小的距离dij,记为δi
Figure BDA0001527129490000022
对于拥有最高密度的节点j,其δi为所有节点到节点i的最大距离。
步骤五:以ρ为横坐标,以δ为纵坐标,画二维图,在图上选取位于右上的节点作为类中心。
步骤六:将剩余点(非中心点)进行分配。
对于每一个剩余点,其所属的聚类是其最邻近(nearest)且密度(density)比其大的节点的聚类。
如果需要在实际应用中使用CFDP聚类算法,存在以下技术难题:
1.该算法时间,空间复杂度高,均为O(n2),不适合在大数据集中使用。
2.算法自适应性不强,仅仅能适用于特殊的形状数据集。
3.算法的核心参数:密度阈值dc需要人工设置。而在实际中,针对不同大小,不同类型的数据集,设置最优的dc是一个难题。
另外还有K-Means聚类算法,事先确定常数k,常数k意味着最终的聚类类别数。首先随机选定初始点为中心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中。接着,重新计算每个类的中心,重复这样的过程,直到中心不再改变。最终就确定了每个样本所属的类别以及每个类的中心。
K-Means算法的流程:
初始化常数K,随机选取初始点为质心;
重复计算一下过程,直到类中心不再改变;
计算样本与每个类中心之间的相似度,将样本归类到最相似的类中;
重新计算类中心;
输出最终的类中心以及每个类。
该算法的缺点:
1.对非球状数据集的聚类性能不好,无法有效聚类任意形状的数据集。
2.由于每次都要计算所有的样本与每一个类中心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。
发明内容
针对以上两种聚类算法存在的问题,本发明提出一种新的基于两阶段密度聚类的红外图像识别方法。
为达到上述技术目的,本发明的技术方案为:
基于两阶段密度聚类的红外图像识别方法,包括两个阶段:
第一阶段:使用Two-round-means算法将原始数据集聚成
Figure BDA0001527129490000031
块,并形成
Figure BDA0001527129490000032
个代表点。
第二阶段:使用改进CFDP算法对
Figure BDA0001527129490000033
块进行聚类。最终每一块中所有节点获得与代表点相同的类标签。
进一步的,该方法可以详细描述为以下四步:
第一步:使用Two-round-means算法将大数据集划分成
Figure BDA0001527129490000034
同时选择每一块的虚拟中心作为每一块的代表点,形成
Figure BDA0001527129490000035
个节点的约简后的数据集
Figure BDA0001527129490000036
将聚成的
Figure BDA0001527129490000037
块生成块信息表
Figure BDA0001527129490000038
第二步:计算核心参数:密度ρi,最小距离δi和权重γi
1、计算ρi
ρi=|bi| (3)
bi代表每一块个信息块,|bi|则代表每个信息块中实例的个数。
当前代表点i的密度设置为当前块中所有节点的个数;
2、计算相邻密度间距离δi,上级mi,据此构建聚类树;
相邻密度间距离δi为比点ρi密度高且最相近的距离;定义上级节点为密度比其大且距离其最近的节点;具体包括以下过程:
(1)对密度ρ进行排序;
(2)计算距离;
距离指的两个实例之间的欧式距离,或者叫样本间的“距离”(Distance)。
通常可以采用欧氏距离来进行计算。欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
例如:二维平面上两点a(x1,y1),b(x2,y2)间的欧氏距离:
Figure BDA0001527129490000041
(3)对于约简后的数据集中任何一个节点xi,在密度比其大的节点中找最近距离;
(4)搜索到的最近距离也就是节点xi的相邻密度间距离δi
(5)搜索到密度比其大,且距离其最近的这个节点就是其上级mi
3、计算权重参数γi
对约简后的数据集x中的每个节点,计算权重参数γi
γi=ρi×δi
第三步:计算聚类中心点,并进行密度聚类;包括以下步骤:
(1)计算聚类中心
根据权重参数γi对节点进行排序,一次选择k个中心点;
(2)采用递归的方式进行密度聚类
对其他非中心点,用递归的方式,一次获得与其上级相同的类标签;
第四步:完成标记的分配,每一块中所有的节点将获得与代表点相同的类标签。
本发明提供的基于两阶段密度聚类的红外图像识别方法和传统的K-Means算法存在如下不同:
(1)聚类块数
传统K-Means算法仅仅将数据集聚成有限的r块,而本发明提供的是Two-round-means算法,将原始数据集聚成
Figure BDA0001527129490000042
块。
对一般的大数据集,
Figure BDA0001527129490000043
如此改进,主要基于如下考虑:
本发明提供的Two-round-means算法主要为了实现对原始大数据集的采样,实现数据量的约简。同时,为了保证后续聚类的效果,还需要保证采样能维持原始数据集的本地分布特性。
因此,本发明提供的Two-round-means算法将数据集聚成
Figure BDA0001527129490000044
块。
(2)迭代次数
传统K-Means算法需要不断迭代,直到算法收敛,也就是聚类中心不再改变。导致存在大规模的数据集上,K-Means算法的收敛速度比较慢的问题。
而本发明提供的Two-round-means算法只需要完成对数据的预处理,所以本发明提供Two-round-means算法仅仅迭代2次,大大降低了算法的运行时间,同样达到基本相同的效果。
(3)将每一块的虚拟中心作为每一块的代表点,形成新的约简后的数据集
Figure BDA0001527129490000051
(4)将聚成的
Figure BDA0001527129490000052
块生成块信息表
Figure BDA0001527129490000053
(5)计算核心参数:密度ρi,也是本发明提供算法与CFDP算法一大核心区别。CFDP算法使用公式(1)计算密度;本发明提供算法使用公式(3)计算密度。CFDP算法中计算ρi需要设置密度阈值dc,而实际中无法准确估计dc的最优设置。在公式(3)中,将当前代表点i的密度设置为当前块中所有节点的个数。如此可以更好地考虑数据集的本地分布特性。
本发明具有的技术效果有:
1.时间和空间复杂度大大降低。空间复杂度为O(mn),时间复杂度为
Figure BDA0001527129490000054
算法的时间复杂度和空间复杂度大大降低,有效的提高了算法的效率。使其能有效的对大规模数据集进行聚类。
2.无需任何参数设置,在实际使用中更加简洁,方便。
3.对各种类型的数据集有更好的适应性。
附图说明
图1是本发明的流程示意图;
图2是本发明实施例的红外图像处理流程示意图;
图3是本发明实施例的100个点预聚类为10块示意图;
图4是本发明实施例生成的聚类树示意图;
图5是本发明实施例将数据聚成三类示意图;
图6是本发明实施例DLA数据集运行时间比较;
图7是本发明实施例Krvsk数据集运行时间比较;
图8是本发明实施例Magic数据集运行时间比较;
图9是本发明实施例Poker数据集运行时间比较。
具体实施方式
结合实施例和附图说明本发明的技术方案。
采用本发明提供的基于两阶段密度聚类的红外图像识别方法对红外图像进行识别处理,该基于两阶段密度聚类的红外图像识别方法流程如图1所述。
红外图像识别的流程如图2所示。红外摄像仪采集图像数据,然后进行图像数据预处理,获得二维数组,再采用本发明提供的两阶段密度聚类算法进行图像识别,完成图像识别后,采取相应的处理措施。
现在以红外摄像仪采集的原始数据集中有100个实例,通过两阶段聚类算法,最终将其聚成3类。
第一步:第一阶段预聚类,使用Two-round-means算法等预聚类算法对数据进行聚类。如图3所示,将100个点预聚类为10块。
第二步:第二阶段密度聚类。
计算核心参数ρ和δ,生成聚类树,如图4所示,最终利用密度聚类的方法将数据聚成三类,如图5所示。
本实施例的结果与CFDP算法分别取0.1,0.2,…,1.0进行对比测试。测试结果进行以下对比:
纯度的比较:
Figure BDA0001527129490000061
指标JC的比较:
Figure BDA0001527129490000062
指标FMI的比较:
Figure BDA0001527129490000071
指标RI的比较:
Figure BDA0001527129490000072
本实施例的结果与五种类型的聚类算法进行比较,包括基于划分的k-means聚类算法,基于密度的DBSCAN算法和CFDP算法,基于频谱的SMMC算法,基于最大间隔聚类LGMMC算法和平衡聚类的BCLS算法等五种经典聚类算法进行比较,比较结果如下:
纯度的比较:
Figure BDA0001527129490000081
JC的比较:
Figure BDA0001527129490000082
FMI的比较:
Figure BDA0001527129490000091
RI的比较:
Figure BDA0001527129490000092
图6-9为选取四个大的数据集进行实际算法的效率测试结果。最大的poker数据集包含106个实例。图中结果表明本文算法比CFDP算法运行效率提高2-3阶。
以上比较结果表明,本发明提供的方法,算法的时间复杂度和空间复杂度大大降低,有效的提高了算法的效率,使其能有效的对大规模数据集进行聚类;无需任何参数设置,在实际使用中更加简洁,方便,对各种类型的数据集有更好的适应性。

Claims (1)

1.基于两阶段密度聚类的红外图像识别方法,其特征在于,包括两个阶段:
第一阶段:使用Two-round-means算法将原始数据集聚成
Figure FDA0003048574710000011
块,并形成
Figure FDA0003048574710000012
个代表点;
第二阶段:使用改进CFDP算法对
Figure FDA0003048574710000013
块进行聚类;最终每一块中所有节点获得与代表点相同的类标签;
进一步的分为以下四步:
第一步:使用Two-round-means算法将大数据集划分成
Figure FDA0003048574710000014
块;同时选择每一块的虚拟中心作为每一块的代表点,形成
Figure FDA0003048574710000015
个节点的约简后的数据集
Figure FDA0003048574710000016
将聚成的
Figure FDA0003048574710000017
块生成块信息表
Figure FDA0003048574710000018
第二步:计算核心参数:密度ρi,相邻密度间距离δi和权重γi
1、计算ρi
ρi=|bi| (3)
bi代表每一个信息块,|bi|则代表每个信息块中实例的个数;
当前代表点i的密度设置为当前块中所有节点的个数;
2、计算相邻密度间距离δi,上级节点mi,据此构建聚类树;
相邻密度间距离δi为比点ρi密度高且最相近的距离;定义上级节点mi为密度比其大且距离其最近的节点;具体包括以下过程:
(1)对密度ρ进行排序;
(2)计算距离;距离指的两个实例之间的欧式距离,或者叫样本间的“距离”;
(3)对于约简后的数据集中任何一个节点xi,在密度比其大的节点中找最近距离;
(4)搜索到的最近距离也就是节点xi的相邻密度间距离δi
(5)搜索到密度比其大,且距离其最近的这个节点就是其上级节点mi
3、计算权重参数γi
对约简后的数据集x中的每个节点,计算权重参数γi
γi=ρi×δi
第三步:计算聚类中心点,并进行密度聚类;包括以下步骤:
(1)计算聚类中心
根据权重参数γi对节点进行排序,一次选择k个中心点;
(2)采用递归的方式进行密度聚类
对其他非中心点,用递归的方式,一次获得与其上级相同的类标签;
第四步:完成标记的分配,每一块中所有的节点将获得与代表点相同的类标签。
CN201711443984.0A 2017-12-27 2017-12-27 基于两阶段密度聚类的红外图像识别方法 Active CN108090514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711443984.0A CN108090514B (zh) 2017-12-27 2017-12-27 基于两阶段密度聚类的红外图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711443984.0A CN108090514B (zh) 2017-12-27 2017-12-27 基于两阶段密度聚类的红外图像识别方法

Publications (2)

Publication Number Publication Date
CN108090514A CN108090514A (zh) 2018-05-29
CN108090514B true CN108090514B (zh) 2021-06-15

Family

ID=62179657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711443984.0A Active CN108090514B (zh) 2017-12-27 2017-12-27 基于两阶段密度聚类的红外图像识别方法

Country Status (1)

Country Link
CN (1) CN108090514B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991514B (zh) * 2019-11-27 2024-05-17 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7922920B2 (en) * 2007-02-27 2011-04-12 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Systems, methods, and apparatus of a low conductance silicon micro-leak for mass spectrometer inlet
CN102194133B (zh) * 2011-07-05 2013-07-31 北京航空航天大学 基于数据聚类的适应性图像sift特征匹配方法
CN105629198B (zh) * 2015-12-28 2018-04-17 西安电子科技大学 基于密度的快速搜索聚类算法的室内多目标追踪方法

Also Published As

Publication number Publication date
CN108090514A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
Fogel et al. Clustering-driven deep embedding with pairwise constraints
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
CN110188225B (zh) 一种基于排序学习和多元损失的图像检索方法
US7697764B2 (en) Similar pattern searching apparatus, method of similar pattern searching, program for similar pattern searching, and fractionation apparatus
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN111259933B (zh) 基于分布式并行决策树的高维特征数据分类方法及系统
JP2012088796A (ja) 画像領域分割装置、画像領域分割方法および画像領域分割プログラム
CN106228554A (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
Lin et al. Image retrieval system based on adaptive color histogram and texture features
Liu et al. A feature gene selection method based on ReliefF and PSO
CN109685122B (zh) 一种基于密度峰和引力影响的半监督游客画像数据聚类方法
CN109948534A (zh) 采用快速密度峰值聚类进行人脸识别的方法
CN111125396B (zh) 一种单模型多分支结构的图像检索方法
CN104361135A (zh) 一种图像检索方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN110619311A (zh) 一种基于eemd-ica-svm的数据分类方法
CN108090514B (zh) 基于两阶段密度聚类的红外图像识别方法
CN113313213B (zh) 一种加速目标检测算法训练的数据集处理方法
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
CN111507243B (zh) 一种基于格拉斯曼流形分析的人体行为识别方法
CN111079089B (zh) 一种基于区间划分的基站数据异常检测方法
CN110750672B (zh) 基于深度度量学习和结构分布学习损失的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant