CN117541944A - 一种多模态红外小目标检测方法 - Google Patents

一种多模态红外小目标检测方法 Download PDF

Info

Publication number
CN117541944A
CN117541944A CN202311465829.4A CN202311465829A CN117541944A CN 117541944 A CN117541944 A CN 117541944A CN 202311465829 A CN202311465829 A CN 202311465829A CN 117541944 A CN117541944 A CN 117541944A
Authority
CN
China
Prior art keywords
feature
image
fusion
features
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311465829.4A
Other languages
English (en)
Other versions
CN117541944B (zh
Inventor
燕雪峰
翁张莹
魏明强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202311465829.4A priority Critical patent/CN117541944B/zh
Publication of CN117541944A publication Critical patent/CN117541944A/zh
Application granted granted Critical
Publication of CN117541944B publication Critical patent/CN117541944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种多模态红外小目标检测方法,包括:获取同一场景下的红外图像和可见光图像,标注并划分集合,输入两个特征提取网络,得到红外特征和可见光图像特征,融合得到每层的对应浅层融合特征以及初步的融合特征,逐步融合初步融合特征以及对应层的浅层融合特征得到最终的融合图像,计算网络模型的损失函数,得到最终的跨模态多尺度感知网络模型,利用模型得到小目标检测结果。本发明通过利用红外图像和可见光图像挖掘跨模态信息以更好地检测红外小目标,在融合过程中加入相应的跨模态信息挖掘以及多尺度感知增强特征,在计算损失函数时使用标注和原始图像引导网络最后的检测结果能更精确地感知小目标位置。

Description

一种多模态红外小目标检测方法
技术领域
本发明属于红外小目标检测技术领域,具体涉及一种多模态红外小目标检测方法。
背景技术
在众多如侦察、安全监控和无人机航拍等应用领域中,检测和跟踪小目标是一项重要任务。可见光图像和红外图像是两种常用的模态,在多模态图像融合中起着关键作用。可见光图像具有高分辨率和丰富的颜色信息,红外图像在夜间或低照度条件下能够提供良好的热信息。结合这两种图像可以增强目标的检测性能,提高小目标检测和识别的准确性和鲁棒性。
但是两种图像模态具有不同的物理特性和成像原理,可见光图像受到光照强度、阴影和遮挡的影响,红外图像受到目标表面发热程度的影响。因此,两种图像模态之间存在视觉差异,使得目标在两种模态下的外观表现不一致,增加了目标检测的复杂性。
将可见光图像和红外图像的特征进行融合是实现准确的小目标检测的关键。然而,如何选择合适的特征表示和融合方法是一个具有挑战性的问题。由于两种模态的特征表示和分布差异较大,需要进行跨模态特征的匹配和融合,并保持目标特征的一致性和辨别性。
另外,小目标检测面临着目标尺寸小、目标与背景混合、低对比度和目标变化等挑战。这些问题在多模态图像中更加复杂,因为两种模态的特征可能无法明显突出小目标,增加了目标检测的困难。
综上所述,可见光图像和红外图像多模态检测红外小目标面临着视觉差异、多模态特征融合和小目标检测等技术难点。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种多模态红外小目标检测方法,结合图像处理、计算机视觉和机器学习等技术,设计有效的算法和模型来实现准确、鲁棒的小目标检测,以提升安全和无人机等领域中的目标感知和识别能力。
为实现上述技术目的,本发明采取的技术方案为:
一种多模态红外小目标检测方法,包括:
S1、获取红外相机和可见光相机拍摄的同一场景下的红外图像和可见光图像;
S2、分别对红外图像和可见光图像进行目标位置和形状标注,并划分训练集、测试集和验证集以用于跨模态多尺度感知网络模型的训练和验证,所述模型包括两个特征提取网络、跨模态信息感知模块、金字塔池化模块和特征聚合模块;
S3、将红外图像和可见光图像的训练集输入两个特征提取网络中,分为两个分支并行提取相对应特征,得到红外特征和可见光图像特征;
S4、利用跨模态信息感知模块将对应层的红外图像特征和可见光图像特征进行融合得到每层的对应浅层融合特征以及初步的融合特征;
S5、利用金字塔池化模块和特征聚合模块逐步融合初步融合特征以及对应层的浅层融合特征得到最终的融合图像;
S6、利用最终的融合图像和原始输入图像,计算网络模型的损失函数,结合测试集和验证集,得到最终的跨模态多尺度感知网络模型;
S7、待检测红外图像输入最终的跨模态多尺度感知网络模型,利用模型得到小目标检测结果。
为优化上述技术方案,采取的具体措施还包括:
上述的S3所述特征提取网络由一个公共层和三个残差块组成;公共层由一个卷积线性单元激活层组成;每个残差块由三个卷积层和一个跳跃连接的恒等映射卷积层组成。
第二个卷积层的核大小是3×3,其他卷积层的核大小是1×1;第一、第二个卷积层使用LRU作为激活函数,第三个卷积层和恒等映射卷积层的输出相加,然后经过泄漏整流线性单位的激活函数。
上述的S4所述跨模态信息感知模块进行跨模态信息感知的公式如下式所示:
F′=I′+V′
V′=Ms(Mc(V)×V)×(Mc(V)×V)
I′=Ms(Mc(I)×I)×(Mc(I)×I)
Mc(X)=σ(MLP(AvgPool(X))+MLP(MaxPool(X)))
Ms(X)=σ(f7×7([AvgPool(X);MaxPool(X)]))
其中,F’代表经过该模块输出得到的浅层融合特征;I′代表经过跨模态信息感知模块得到的红外图像特征、V′代表经过跨模态信息感知模块得到的可见光特征、Ms代表对特征使用空间注意力机制、Mc代表对特征使用通道注意力机制;
X代表输入的特征图,AvgPool和MaxPool分别代表平均池化和最大池化操作,MLP代表多层感知机,σ代表激活操作,f7×7代表卷积操作,F′代表每层输出的浅层融合特征图,I和V分别代表着红外图像和可见光图像分支对应层的特征;不断将每层经过卷积块后的I和V输出到跨模态信息感知模块,重复该过程,得到初步特征融合图Ff
上述的S5首先将初步融合特征输入到金字塔池化模块中,金字塔池化模块的第一和第四分支分别是全局平均池化层和身份映射层,第二和第三分支使用自适应平均池化来确保输出特征映射的大小分别为3x3和5x5。
上述的S5所述金字塔池化模块的公式如下式所示:
X′=AvgPool(X)+AdapPool(X)3*3+AdapPool(X)5*5+X;
其中AvgPool(X)、AdapPool(X)3*3、AdapPool(X)5*5分别表示第一金字塔池化层、第二金字塔池化层、第三金字塔池化层的输出特征;
X′表示经过金字塔池化模块后的输出特征图,即金字塔池化模块得到的融合特征;
X表示输入的特征图,即为S4得到的初步融合特征Ff
上述的S5将初步融合特征作为全局引导特征和距离最近的浅层融合特征相加后输入到特征聚合模块中,特征聚合模块的公式如下式所示:
F‘=Conv(U1(Conv(D1(f)))+U2(Conv(D2(f)))+U3(Conv(D3(f))))
其中,F‘为经过特征聚合模块得到的输出特征图;
f代表输入特征,其是融合特征X’与距离最近的浅层融合特征相加之和,D1、D2、D3分别代表下采样至原图像的1/8,1/4,1/2,Conv表示卷积操作,U1,U2,U3分别与D1、D2、D3对应,表示将特征上采样至原来大小;
将得到的输出特征图F‘与距离更远一层的浅层融合特征相乘得到作为下一个特征聚合模块的输入,重复将输出特征图和浅层融合特征相乘并输入到特征聚合模块中三次,以不断聚合浅层融合特征以得到最后的融合特征。
上述的S6所述损失函数如下式所示:
L=Lp+Lgrad+Liou
L代表总的损失函数,Lp表示总的像素损失,Lgrad代表总的梯度损失,Liou为中间融合特征与真值图的Iou损失;
因而:
其中,分别代表目标图与真值图之间、背景图与真值图之间的像素损失以及目标图与真值图之间、背景图与真值图之间的梯度损失;
Iir,Ivis分别代表网络输入的红外图像和可见光图像;Im为图像的真值图,即原始输入图像;If为最终的融合图像;H和W代表图像的长宽;||||1代表L1范数;表示梯度算子。
本发明具有以下有益效果:
本发明通过利用红外图像和可见光图像挖掘跨模态信息以更好地检测红外小目标,在融合过程中加入相应的跨模态信息挖掘以及多尺度感知增强特征,在计算损失函数时使用标注和原始图像引导网络最后的检测结果能更精确地感知小目标位置。
本发明结合不确定性估计进行了模型校准,简化的骨干网络在减少网络冗余的同时尽可能减少尺寸较小的目标在网络深层丢失的现象提高检测准确度;结合语义信息的多重注意力机制进一步增强特征帮助更好的定位目标形状,在形状分割上比其他方法更贴近真值图;采用迭代后馈的搜索方式能有效地减少目标的漏检率。
附图说明
图1为本发明实施例提供的一种多模态红外小目标检测方法的网络模型原理图;
图2为本发明实施例提供的残差块示意图;
图3为本发明实施例提供的通道空间注意力机制总体流程图;
图4为本发明实施例提供的通道注意力机制、空间注意力机制详细流程图;
图5为本发明实施例提供的一种多模态红外小目标检测方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
如图1-5所示,本发明的一种多模态红外小目标检测模型,包括以下步骤:
S1、获取红外相机和可见光相机拍摄的同一场景下的红外图像和可见光图像;
S2、分别对红外图像和可见光图像进行目标位置和形状标注,得到真值图,并划分训练集、测试集和验证集(7:2:1)以用于跨模态多尺度感知网络模型的训练和验证,所述模型包括两个特征提取网络、跨模态信息感知模块、金字塔池化模块和特征聚合模块;
S3、将红外图像和可见光图像的训练集输入两个特征提取网络中,分为两个分支并行提取相对应特征,得到红外特征和可见光图像特征;
S4、利用跨模态信息感知模块,挖掘红外和可见光图像特征并进行融合,得到相对应的初步融合特征;
S5、利用金字塔池化模块和特征聚合模块将初步融合特征和浅层融合特征进行再次聚合,得到最终的融合图像;
S6、利用原始标签和原始输入图像,计算网络模型的损失函数,结合测试集和验证集,得到最终的跨模态多尺度感知网络模型;
S7、待检测红外图像输入最终的跨模态多尺度感知网络模型,利用模型得到小目标检测结果。
实施例中,S1使用红外相机和可见光相机拍摄同一场景下的目标图像,分别获取同一场景下的红外图像和可见光图像;
S3将红外图像和可见光图像作为两个分支流,分别使用残差块进行特征提取,其中权重不共享;包括以下子步骤:
S301、将红外图像和可见光图像的训练集输入跨模态多尺度感知网络模型中,分为两个分支并行提取相对应特征,使用残差块作为网络的骨干部分。特征提取网络由一个公共层和三个残差块组成,可以增强提取到的信息。公共层由一个卷积线性单元激活层组成。每个残差块由三个卷积层和一个跳跃连接的恒等映射卷积层组成。除了第二个卷积层的核大小是3×3,所有卷积层的核大小都是1×1。前两个卷积层都使用LRU作为激活函数,而第三个卷积层和恒等映射卷积层的输出被相加,然后经过泄漏整流线性单位的激活函数。恒等映射卷积层的设计是为了解决残差块的输入和输出维度不一致的问题。两个特征提取网络使用相同的网络架构,但各自的参数是独立训练的。特征提取网络可以从原始图像中提取小目标特征特征和纹理细节特征。
S4将对应层的红外图像特征和可见光图像特征进行融合得到每层的对应浅层融合特征以及初步的融合特征;包括以下子步骤:
跨模态信息感知模块进行跨模态信息感知的公式如下式所示:
F′=I′+V′
V′=Ms(Mc(V)×V)×(Mc(V)×V)
I′=Ms(Mc(I)×I)×(Mc(I)×I)
Mc(X)=σ(MLP(AvgPool(X))+MLP(MaxPool(X)))
Ms(X)=σ(f7×7([AvgPool(X);MaxPool(X)]))
其中,F’代表经过该模块输出得到的浅层融合特征;I′代表经过跨模态信息感知模块得到的红外图像特征、V′代表经过跨模态信息感知模块得到的可见光特征、Ms代表对特征使用空间注意力机制、Mc代表对特征使用通道注意力机制,
X代表输入的特征图,AvgPool和MaxPool分别代表平均池化和最大池化操作,MLP代表多层感知机,σ代表激活操作,f7×7代表卷积操作,F′代表每层输出的浅层融合特征图,I和V分别代表着红外图像和可见光图像分支对应层的特征;不断将每层经过卷积块后的I和V输出到跨模态信息感知模块,重复该过程,得到初步特征融合图Ff
S5利用金字塔池化模块和特征聚合模块逐步融合初步融合特征以及对应层的浅层融合特征得到最终的融合图像;包括以下子步骤:
S501、首先将初步融合特征输入到金字塔池化模块中,金字塔池化模块的第一和第四分支分别是全局平均池化层和身份映射层,对于中间的两个分支,使用自适应平均池化来确保输出特征映射的大小分别为3x3和5x5。生成的指导信息将与不同层级的特征映射适当地集成在自顶向下的路径中,并且通过一系列上采样操作可以轻松地将高级语义信息传递到每个层级的特征映射中。通过为每个层级的特征提供全局信息,可以确保准确地定位小目标对象。其公式如下式所示:
X′表示经过金字塔模块后的输出特征图即得到的融合特征,其中该模块的输入X即是S4得到的初步融合特征F’,X是输入特征。
X′=AvgPool(X)+AdapPool(X)3*3+AdapPool(X)5*5+X
S502、将得到的初步融合特征作为全局引导特征和距离最近的浅层融合特征相加后输入到特征聚合模块中,有助于模型减少上采样的混叠效果,特别是当上采样率较大时。此外,它还允许每个空间位置在不同的尺度空间中查看上下文,进一步扩大整个网络的接收域。特征聚合模块的公式如下式所示:
F‘=Conv(U1(Conv(D1(f)))+U2(Conv(D2(f)))+U3(Conv(D3(f))))
其中,AvgPool(X)、AdapPool(X)3*3、AdapPool(X)5*5分别表示第一金字塔池化层、第二金字塔池化层、第三金字塔池化层的输出特征;
F‘为经过特征聚合模块得到的输出特征图;
其中,f代表着输入特征其是融合特征X’与距离最近的浅层融合特征相加之和,D1、D2、D3分别代表了下采样至原图像的1/8,1/4,1/2,Conv表示卷积操作卷积核大小为3*3,U1,U2,U3则分别对应着将特征上采样至原来大小。
将得到的输出特征图F‘与距离更远一层的浅层融合特征相乘得到作为下一个特征聚合模块的输入f,重复操作输出特征图和浅层融合特征相乘并输入到特征聚合模块中的过程三次以不断聚合浅层融合特征以得到最后的融合特征。
S6将标签中的目标掩码进行二值反转得到背景掩码再将二者分别与原始可见光图像和红外图像相乘,得到相应的目标图像,分别计算像素损失和边缘损失更好地检测红外小目标。包括以下子步骤:
网络模型的损失函数分为三部分,一部分是计算像素损失保证融合后图像的强度与原图一致,另一个是边缘损失,以更好地约束网络,第三部分是计算中间以及最后融合特征与真值图的IoU损失。
S601、首先是计算网络模型的像素损失,将图像的真值图记为Im,以及将其反转得到背景图(1-Im),将红外图像和可见光图像经过网络训练得到的融合图像记为If,其公式如下式所示:
其中,Iir,Ivis分别代表网络输入的红外图像和可见光图像,H和W代表图像的长宽,||||1代表L1范数。
S602、梯度损失的引入是为了加强对网络的约束,从而使融合后的图像具有更清晰的纹理,更锐利的边缘纹理最终得到边缘清晰的小目标检测图像,其公式如下式所示:
表示梯度算子,计算时中采用Sobel算子来计算图像的梯度。
S603、最后计算中间融合特征与真值图的Iou损失,与边缘损失和像素损失一起作为网络的损失函数,总的损失函数如下式所示:
其中,分别代表目标图与真值图之间、背景图与真值图之间的像素损失以及目标图与真值图之间、背景图与真值图之间的梯度损失。
可以将损失函数合并用如下公式表示:
L=Lp+Lgrad+Liou
L代表总的损失函数,Lp表示总的像素损失,Lgrad代表总的梯度损失。
S7包括以下子步骤:
S701、输入红外图像,利用模型得到小目标检测结果;
S702、输出相应的检测图像和评价指标:IoU,Pd,Fa等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种多模态红外小目标检测方法,其特征在于,包括:
S1、获取红外相机和可见光相机拍摄的同一场景下的红外图像和可见光图像;
S2、分别对红外图像和可见光图像进行目标位置和形状标注,并划分训练集、测试集和验证集以用于跨模态多尺度感知网络模型的训练和验证,所述模型包括两个特征提取网络、跨模态信息感知模块、金字塔池化模块和特征聚合模块;
S3、将红外图像和可见光图像的训练集输入两个特征提取网络中,分为两个分支并行提取相对应特征,得到红外特征和可见光图像特征;
S4、利用跨模态信息感知模块将对应层的红外图像特征和可见光图像特征进行融合得到每层的对应浅层融合特征以及初步的融合特征;
S5、利用金字塔池化模块和特征聚合模块逐步融合初步融合特征以及对应层的浅层融合特征得到最终的融合图像;
S6、利用最终的融合图像和原始输入图像,计算网络模型的损失函数,结合测试集和验证集,得到最终的跨模态多尺度感知网络模型;
S7、待检测红外图像输入最终的跨模态多尺度感知网络模型,利用模型得到小目标检测结果。
2.根据权利要求1所述的一种多模态红外小目标检测方法,其特征在于,S3所述特征提取网络由一个公共层和三个残差块组成;公共层由一个卷积线性单元激活层组成;每个残差块由三个卷积层和一个跳跃连接的恒等映射卷积层组成。
3.根据权利要求2所述的一种多模态红外小目标检测方法,其特征在于,第二个卷积层的核大小是3×3,其他卷积层的核大小是1×1;第一、第二个卷积层使用LRU作为激活函数,第三个卷积层和恒等映射卷积层的输出相加,然后经过泄漏整流线性单位的激活函数。
4.根据权利要求1所述的一种多模态红外小目标检测方法,其特征在于,S4所述跨模态信息感知模块进行跨模态信息感知的公式如下式所示:
F′=I′+V′
V′=Ms(Mc(V)×V)×(Mc(V)×V)
I′=Ms(Mc(I)×I)×(Mc(I)×I)
Mc(X)=σ(MLP(AvgPool(X))+MLP(MaxPool(X)))
Ms(X)=σ(f7×7([AvgPool(X);MaxPool(X)]))
其中,F’代表经过该模块输出得到的浅层融合特征,I′代表经过跨模态信息感知模块得到的红外图像特征、V′代表经过跨模态信息感知模块得到的可见光特征、Ms代表对特征使用空间注意力机制、Mc代表对特征使用通道注意力机制;
X代表输入的特征图,AvgPool和MaxPool分别代表平均池化和最大池化操作,MLP代表多层感知机,σ代表激活操作,f7×7代表卷积操作,F′代表每层输出的浅层融合特征图,I和V分别代表着红外图像和可见光图像分支对应层的特征;不断将每层经过卷积块后的I和V输出到跨模态信息感知模块,重复该过程,得到初步特征融合图Ff
5.根据权利要求1所述的一种多模态红外小目标检测方法,其特征在于,所述S5首先将初步融合特征输入到金字塔池化模块中,金字塔池化模块的第一和第四分支分别是全局平均池化层和身份映射层,第二和第三分支使用自适应平均池化来确保输出特征映射的大小分别为3x3和5x5。
6.根据权利要求5所述的一种多模态红外小目标检测方法,其特征在于,S5所述金字塔池化模块的公式如下式所示:
X′=AvgPool(X)+AdapPool(X)3*3+AdapPool(X)5*5+X;
其中AvgPool(X)、AdapPool(X)3*3、AdapPool(X)5*5分别表示第一金字塔池化层、第二金字塔池化层、第三金字塔池化层的输出特征;
X′表示经过金字塔池化模块后的输出特征图,即金字塔池化模块得到的融合特征;
X表示输入的特征图,即为S4得到的初步融合特征Ff
7.根据权利要求6所述的一种多模态红外小目标检测方法,其特征在于,所述S5将融合特征作为全局引导特征和距离最近的浅层融合特征相加后输入到特征聚合模块中,特征聚合模块的公式如下式所示:
F‘=Conv(U1(Conv(D1(f)))+U2(Conv(D2(f)))+U3(Conv(D3(f))))
其中,F‘为经过特征聚合模块得到的输出特征图;
f代表输入特征,其是融合特征X’与距离最近的浅层融合特征相加之和,D1、D2、D3分别代表下采样至原图像的1/8,1/4,1/2,Conv表示卷积操作,U1,U2,U3分别与D1、D2、D3对应,表示将特征上采样至原来大小;
将得到的输出特征图F‘与距离更远一层的浅层融合特征相乘得到作为下一个特征聚合模块的输入,重复将输出特征图和浅层融合特征相乘并输入到特征聚合模块中三次,以不断聚合浅层融合特征以得到最后的融合特征。
8.根据权利要求1所述的一种多模态红外小目标检测方法,其特征在于,S6所述损失函数如下式所示:
L=Lp+Lgrad+Liou
L代表总的损失函数,Lp表示总的像素损失,Lgrad代表总的梯度损失,Liou为中间融合特征与真值图的Iou损失;
因而:
其中,分别代表目标图与真值图之间、背景图与真值图之间的像素损失,以及目标图与真值图之间、背景图与真值图之间的梯度损失;
Iir,Ivis分别代表网络输入的红外图像和可见光图像;Im为图像的真值图,即原始输入图像;If为最终的融合图像;H和W代表图像的长宽;|| ||1代表L1范数;表示梯度算子。
CN202311465829.4A 2023-11-07 2023-11-07 一种多模态红外小目标检测方法 Active CN117541944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311465829.4A CN117541944B (zh) 2023-11-07 2023-11-07 一种多模态红外小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311465829.4A CN117541944B (zh) 2023-11-07 2023-11-07 一种多模态红外小目标检测方法

Publications (2)

Publication Number Publication Date
CN117541944A true CN117541944A (zh) 2024-02-09
CN117541944B CN117541944B (zh) 2024-06-11

Family

ID=89787291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311465829.4A Active CN117541944B (zh) 2023-11-07 2023-11-07 一种多模态红外小目标检测方法

Country Status (1)

Country Link
CN (1) CN117541944B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994822A (zh) * 2024-04-07 2024-05-07 南京信息工程大学 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174149A1 (en) * 2018-11-20 2021-06-10 Xidian University Feature fusion and dense connection-based method for infrared plane object detection
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法
CN115565035A (zh) * 2022-11-08 2023-01-03 长春理工大学 一种用于夜间目标增强的红外与可见光图像融合方法
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法
CN116258936A (zh) * 2023-04-10 2023-06-13 广东工业大学 一种基于多尺度特征的红外与可见光图像融合方法
CN116342953A (zh) * 2023-03-29 2023-06-27 福州大学 基于残差收缩注意力网络的双模态目标检测模型及方法
CN116630608A (zh) * 2023-05-29 2023-08-22 广东工业大学 一种用于复杂场景下的多模态目标检测方法
CN116778293A (zh) * 2023-08-24 2023-09-19 齐鲁工业大学(山东省科学院) 一种基于掩膜的图像融合方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174149A1 (en) * 2018-11-20 2021-06-10 Xidian University Feature fusion and dense connection-based method for infrared plane object detection
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法
CN115565035A (zh) * 2022-11-08 2023-01-03 长春理工大学 一种用于夜间目标增强的红外与可见光图像融合方法
CN116342953A (zh) * 2023-03-29 2023-06-27 福州大学 基于残差收缩注意力网络的双模态目标检测模型及方法
CN116258936A (zh) * 2023-04-10 2023-06-13 广东工业大学 一种基于多尺度特征的红外与可见光图像融合方法
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法
CN116630608A (zh) * 2023-05-29 2023-08-22 广东工业大学 一种用于复杂场景下的多模态目标检测方法
CN116778293A (zh) * 2023-08-24 2023-09-19 齐鲁工业大学(山东省科学院) 一种基于掩膜的图像融合方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
安浩南;赵明;潘胜达;林长青;: "基于伪模态转换的红外目标融合检测算法", 光子学报, no. 08, 9 June 2020 (2020-06-09) *
赵斌;王春平;付强;: "显著性背景感知的多尺度红外行人检测方法", 电子与信息学报, no. 10, 15 October 2020 (2020-10-15) *
魏文亮: "基于光照权重分配和注意力的红外与可见光图像融合深度学习模型", 《计算机应用》, 25 October 2023 (2023-10-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994822A (zh) * 2024-04-07 2024-05-07 南京信息工程大学 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法

Also Published As

Publication number Publication date
CN117541944B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
Basha et al. Multi-view scene flow estimation: A view centered variational approach
CN117541944B (zh) 一种多模态红外小目标检测方法
US10268929B2 (en) Method and device for generating binary descriptors in video frames
Chen et al. An improved edge detection algorithm for depth map inpainting
CN113159043B (zh) 基于语义信息的特征点匹配方法及系统
CN114255197B (zh) 一种红外与可见光图像自适应融合对齐方法及系统
US10229508B2 (en) Dynamic particle filter parameterization
Liu et al. Near-light photometric stereo using circularly placed point light sources
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
Wu et al. Single-shot face anti-spoofing for dual pixel camera
Gao et al. Local feature performance evaluation for structure-from-motion and multi-view stereo using simulated city-scale aerial imagery
Kim et al. Adversarial confidence estimation networks for robust stereo matching
Lati et al. Robust aerial image mosaicing algorithm based on fuzzy outliers rejection
Yan et al. Deep learning on image stitching with multi-viewpoint images: A survey
Tighkhorshid et al. Car depth estimation within a monocular image using a light CNN
Yang et al. Depth from water reflection
Ruf et al. Towards real-time change detection in videos based on existing 3D models
CN114972937A (zh) 一种基于深度学习的特征点检测与描述子生成方法
Duan et al. Joint disparity estimation and pseudo NIR generation from cross spectral image pairs
Lu New efficient vanishing point detection from a single road image based on intrinsic line orientation and color texture properties
Lőrincz et al. Single view distortion correction using semantic guidance
Ma et al. Pattern Recognition and Computer Vision: 4th Chinese Conference, PRCV 2021, Beijing, China, October 29–November 1, 2021, Proceedings, Part II
Xu et al. A two-stage progressive shadow removal network
Stadnik Corner localization and camera calibration from imaged lattices
Meng et al. Efficient confidence-based hierarchical stereo disparity upsampling for noisy inputs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant