CN116188944A - 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 - Google Patents

一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 Download PDF

Info

Publication number
CN116188944A
CN116188944A CN202310205449.0A CN202310205449A CN116188944A CN 116188944 A CN116188944 A CN 116188944A CN 202310205449 A CN202310205449 A CN 202310205449A CN 116188944 A CN116188944 A CN 116188944A
Authority
CN
China
Prior art keywords
layer
feature
fusion
swin
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310205449.0A
Other languages
English (en)
Inventor
李凌霄
黄丹
薛姬荣
高蕾
张馨月
周晓强
赵芫
青霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ordnance Science and Research Academy of China
Chongqing University of Technology
Original Assignee
Ordnance Science and Research Academy of China
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ordnance Science and Research Academy of China, Chongqing University of Technology filed Critical Ordnance Science and Research Academy of China
Priority to CN202310205449.0A priority Critical patent/CN116188944A/zh
Publication of CN116188944A publication Critical patent/CN116188944A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Photometry And Measurement Of Optical Pulse Characteristics (AREA)

Abstract

本发明涉及红外弱小目标检测技术领域,具体涉及一种基于Swin‑Transformer和多尺度特征融合的红外弱小目标检测方法,包括:在Unet网络中引入Swin‑Transformer模块来替代原有的卷积层进行特征提取,以构成目标检测模型;将待检测的红外图像输入经过训练的目标检测模型中:首先通过多个Swin‑Transformer模块逐层提取红外图像的特征信息,生成多个尺度的特征图;然后通过多个跨层特征融合模块从最高尺度的特征图开始,依次融合各个尺度的特征图,生成对应的多层融合特征图;最后将多层融合特征图输入分类器中进行归一化处理,并输出对应的目标预测结果。本发明能够保证检测模型在复杂背景、低信噪比等场景下的检测性能,并且能够降低检测模型随着网络加深而丢失红外弱小目标空间细节的风险。

Description

一种基于Swin-Transformer和多尺度特征融合的红外弱小目 标检测方法
技术领域
本发明涉及红外弱小目标检测技术领域,具体涉及一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法。
背景技术
红外目标的检测识别是依据红外成像系统中目标热辐射与背景热辐射之间的特性差异实现对探测目标进行判别与锁定的关键技术,因其具有不受光照条件影响的全天候工作、无源被动工作、抗干扰能力强、结构简单体积小便于搭载与隐蔽等显著特点,红外目标的检测识别技术目前已经被广泛应用到军事预警侦察、航空制导、远程飞行器探测、自动驾驶等各类军民技术领域。其中高检测率、低虚警率、具备快速响应条件的红外目标检测识别算法一直是很多国防军事领域的重要应用需求,因此具有十分重要的研究价值和应用前景。
然而,对于实际红外成像系统,当传感器距离待检测目标较远,并且在成像过程中存在散射、衍射、大气扰动等外在因素时,目标在像平面内往往呈现出尺度“小”、能量“弱”的成像特性,也就是说,目标在图像中仅占有极少量像素,且缺少明显的纹理、形状、颜色和结构特征。此外,在各类复杂应用场景(如海面、建筑物、连续云场景)进行红外弱小目标检测识别时,往往还面临被探测到的目标信噪比很低,存在大量背景中结构性噪声干扰现象等难以检测的情况。由此可见,红外弱小目标本身的成像特性和复杂多样的背景会给检测识别任务带来很大的挑战。因此,研究如何准确、快速、稳定地检测出红外弱小目标并进行快速匹配一直都是亟待解决的重要技术问题。
现有的红外弱小目标检测方法可分为基于物理模型的图像处理传统方法和基于深度学习的数据驱动方法两大类。其中基于单帧图像的目标检测方法因其低复杂度、高实时性和易于硬件实现等优点在传统方法中占主导地位,具体又包括基于目标特征、背景特征以及形态学分析等三种图像处理方式,分别考虑通过扩大目标与背景的对比度、抑制背景干扰和利用目标在图像中的形态学特征手段从而锁定目标位置区域,完成目标检测识别过程。然而现有方法往往只能获取红外弱小目标的局部空域特征,缺乏对目标和其它干扰背景之间的语义可辨性,从而导致该类方法在复杂背景、低信噪比等场景下的检测性能较差,即检测准确性和有效性不好。因此,如何设计一种能够提高红外弱小目标检测准确性和有效性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,能够保证检测模型在复杂背景、低信噪比等场景下的检测性能,并且能够降低检测模型随着网络加深而丢失红外弱小目标空间细节的风险,从而能够提高红外弱小目标检测的准确性和有效性,并为红外弱小目标检测提供一种新的思路。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,包括:
S1:在Unet网络中引入Swin-Transformer模块来替代原有的卷积层进行特征提取,以构成目标检测模型;
S2:获取待检测的红外图像;
S3:将待检测的红外图像输入经过训练的目标检测模型中,输出目标预测结果;
目标检测模型首先通过多个Swin-Transformer模块逐层提取红外图像的特征信息,生成多个尺度的特征图;然后通过多个跨层特征融合模块从最高尺度的特征图开始,依次融合各个尺度的特征图,生成对应的多层融合特征图;最后将多层融合特征图输入分类器中进行归一化处理,并输出对应的目标预测结果;
S4:将目标检测模型输出的目标预测结果作为待检测红外图像中弱小目标的检测结果。
优选的,目标检测模型包括依次首尾连接的多个Swin-Transformer模块,以及依次首尾连接的多个跨层特征融合模块;
相邻的两个Swin-Transformer模块中,前一Swin-Transformer模块的输出作为后一Swin-Transformer模块的输入;相邻的两个跨层特征融合模块中,前一跨层特征融合模块的输出作为后一跨层特征融合模块的输入;最后一个Swin-Transformer模块的输出作为第一个跨层特征融合模块的输入;
第一个跨层特征融合模块将最后两个Swin-Transformer模块的输出作为输入;
除第一个跨层特征融合模块之外的其他跨层特征融合模块均将前一跨层特征融合模块的输出和其对应Swin-Transformer模块的输出作为输入。
优选的,目标检测模型中,第一个Swin-Transformer模块之前设置有依次首尾连接的多个编码层;
相邻的两个编码层中,前一编码层的输出作为后一编码层的输入;第一个编码层的输入为目标检测模型输入的红外图像,最后一个编码层的输出作为第一个Swin-Transformer模块的输入;
与编码层对应的跨层特征融合模块,将前一跨层特征融合模块的输出和其对应编码层的输出作为输入;最后一个跨层特征融合模块的输出为作为分类器输入的多层融合特征图。
优选的,目标检测模型的输入端和输出端对应设置有输入卷积层和输出卷积层;
输入卷积层的输入为目标检测模型输入的红外图像,用于增加红外图像的通道数,并将增加了通道数的红外图像作为第一个编码层的输入;
输出卷积层的输入为最后一个编码层输出的多层融合特征图,用于恢复多层融合特征图的通道数和尺寸大小与输入的红外图像一致,并将其输出的多层融合特征图作为最终分类器的输入。
优选的,Swin-Transformer模块中,对输入尺寸大小为M×N,通道个数为C特征图I进行特征提取时,包括以下步骤:
1)对输入特征图I进行层规则化操作,在通道维度上对数据进行标准化处理,得到输出结果为ILN
公式描述为:
ILN=LN(I);
2)对层规则化处理后的特征图ILN计算基于多头注意力机制的特征权值,得到IAttention
公式描述为:
IAttention=MSA(ILN);
在多头注意力机制的计算中,分别引入了三个与输入特征图ILN尺寸大小一致的权值矩阵Q、K和V;
其中:Q=ILNPQ,K=ILNPK,V=ILNPV
式中:PQ、PK和PV分别为不同局部窗口下的共享权值矩阵,是可以进行学习的参数;
计算得到权值矩阵Q、K和V后,根据Transformer的注意力机制计算公式计算IAttention
公式描述为:
Figure BDA0004110736550000031
式中:d表示输入特征的尺寸;b表示可以学习的位置编码参数;
3)将原始输入特征图I与经过基于多头注意力机制计算得到的IAttention进行残差连接,得到中间特征F,作为下一层结构的输入;
公式描述为:
F=I+IAttention
4)对得到的中间特征F进行层规则化LN操作,然后将其用多层感知机进行调整,最后通过残差网络将调整后的结果与中间特征F进行连接,得到输出结果S;
公式描述为:
S=MLP(LN(F))+F;
5)将输出结果S进行图像块合并操作,并利用图像块拼接、层规则化和通道线性映射操作将其尺寸大小减小一半,变为
Figure BDA0004110736550000041
通道数增加一倍,变为2C,最终输出对应的特征图。
优选的,跨层特征融合模块的输入为两个特征图,其中相对高尺度的特征图为Y,相对低尺度的特征图为X;
跨层特征融合模块中,首先对Y进行上采样,并通过逐点卷积运算调整上采样后的Y特征通道数,生成第一特征图;然后通过逐点卷积运算调整X的特征通道数至与第一特征图一致,再利用Sigmoid激活函数进行归一化处理,生成第二特征图;再将第二特征图作为权值系数来与第一特征图进行乘法运算,生成第一融合图;最后将第一融合图与X相加,生成对应的融合特征图。
优选的,跨层特征融合模块生成融合特征图的公式描述如下:
Figure BDA0004110736550000042
/>
式中:Z表示生成的融合特征图;Y表示相对高尺度的特征图;X表示相对低尺度的特征图;PWConv表示逐点卷积运算操作;Sig表示Sigmoid激活函数操作;
Figure BDA0004110736550000043
表示对应相同通道的特征图进行逐点加法运算;/>
Figure BDA0004110736550000044
表示对应相同通道的特征图进行逐点乘法运算;Up表示图像上采样操作。
优选的,在目标检测模型的样本数据训练阶段进行切片辅助数据增强操作:首先将样本数据集中的每个原始样本图像切分成重叠的图像块;然后通过固定图像块的长宽比来调整切分得到的各图像块的尺寸,使其等比例放缩到与原来样本数据的尺寸大小一致,从而得到新的增强样本图像;最后将新的增强样本图像加入到样本数据集中参与目标检测模型的训练和参数优化。
优选的,在目标检测模型进行推理时进行切片辅助推理操作:首先利用切片分割方法将红外图像进行分块处理,得到若干待检测图像块;然后在固定长宽比的情况下调整每个待检测图像块的大小,使其尺寸等比例放缩到与原图的尺寸大小一致;再将各待检测图像块分别输入到训练好的目标检测模型中进行目标检测,得到目标在多个不同位置上的预测输出结果;最后对所有预测输出结果进行后处理,利用NMS非极大值抑制策略过滤重叠位置上的预测输出结果,在相同位置上只保留可能性最大的预测结果。
优选的,训练目标检测模型时的目标损失函数如下:
Figure BDA0004110736550000051
式中:T表示目标损失函数;(i,j)表示对应红外图像中的任意坐标位置;p表示最终网络模型最终输出的预测结果;y表示对应红外图像的标签;pi,j表示在图像中位置为(i,j)处的目标检测模型输出的预测值,其大小在(0,1)的范围内;yi,j表示在图像中位置为(i,j)处的真实归一化后的灰度值,表示对应位置处红外图像的标签结果。
本发明中基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法与现有技术相比,具有如下有益效果:
本发明在Unet网络中引入Swin-Transformer模块替代原有的卷积层进行特征提取,并且通过多个Swin-Transformer模块逐层提取红外图像的特征信息生成多个尺度的特征图。一方面,本发明通过Swin-Transformer模块在更大的感受野下充分挖掘目标的潜在特征信息并提取目标的各尺度特征信息,能够满足对目标和其它干扰背景之间的语义可辨性,进而能够保证检测模型在复杂背景、低信噪比等场景下的检测性能;另一方面,本发明通过多个Swin-Transformer模块构成了更深的网络,能够提供更好的语义特征和对场景上下文的理解,有助于更好的解决目标和背景干扰所引发的歧义问题,能够适应红外弱小目标缺乏语义特征以及随着网络层数加深目标特征易丢失的特点,从而能够提高红外弱小目标检测的准确性。
本发明在通过多个Swin-Transformer模块提取多个尺度的特征图的基础上,为了更好地将红外弱小目标的局部空间信息与全局语义信息进行融合,通过自底向上的多个跨层特征融合模块作为目标检测模型的解码器,用于将各尺度下获取的浅层局部信息和深层语义信息进行重新融合,进而能够从复杂背景中保留红外弱小目标特征,降低了检测模型随着网络加深而丢失红外弱小目标空间细节的风险,从而能够提高红外弱小目标检测的有效性,并为红外弱小目标检测提供一种新的思路。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法的逻辑框图;
图2为目标检测模型(UST-Net)的网络结构图;
图3为跨层特征融合模块(AFM)的网络结构图;
图4为数据增强的原理过程图;
图5为辅助推理的原理过程图;
图6为SIRST数据集中的一些典型图像场景;
图7为各种方法的检测结果对比:图7(a)为原始的红外图像,图7(b)为MPCM的检测结果,图7(c)为NIPPS的检测结果,图7(d)为TBC-Net的检测结果,图7(e)为ALC-Net的检测结果,图7(f)为目标检测模型(UST-Net)的检测结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例公开了一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法。如图1所示,基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,包括:
S1:在Unet网络中引入Swin-Transformer模块来替代原有的卷积层进行特征提取,以构成目标检测模型(后续也称为UST-Net);
S2:获取待检测的红外图像;
S3:将待检测的红外图像输入经过训练的目标检测模型中,输出目标预测结果;
结合图2所示,目标检测模型首先通过多个Swin-Transformer模块逐层提取红外图像的特征信息,生成多个尺度的特征图;然后通过多个跨层特征融合模块(后续也称为AFM)从最高尺度的特征图开始,依次融合各个尺度的特征图,生成对应的多层融合特征图;最后将多层融合特征图输入分类器中进行归一化处理,并输出对应的目标预测结果;
S4:将目标检测模型输出的目标预测结果作为待检测红外图像中弱小目标的检测结果。
本发明在Unet网络中引入Swin-Transformer模块替代原有的卷积层进行特征提取,并且通过多个Swin-Transformer模块逐层提取红外图像的特征信息生成多个尺度的特征图。一方面,本发明通过Swin-Transformer模块在更大的感受野下充分挖掘目标的潜在特征信息并提取目标的各尺度特征信息,能够满足对目标和其它干扰背景之间的语义可辨性,进而能够保证检测模型在复杂背景、低信噪比等场景下的检测性能;另一方面,本发明通过多个Swin-Transformer模块构成了更深的网络,能够提供更好的语义特征和对场景上下文的理解,有助于更好的解决目标和背景干扰所引发的歧义问题,能够适应红外弱小目标缺乏语义特征以及随着网络层数加深目标特征易丢失的特点,从而能够提高红外弱小目标检测的准确性。
本发明在通过多个Swin-Transformer模块提取多个尺度的特征图的基础上,为了更好地将红外弱小目标的局部空间信息与全局语义信息进行融合,通过自底向上的多个跨层特征融合模块作为目标检测模型的解码器,用于将各尺度下获取的浅层局部信息和深层语义信息进行重新融合,进而能够从复杂背景中保留红外弱小目标特征,降低了检测模型随着网络加深而丢失红外弱小目标空间细节的风险,从而能够提高红外弱小目标检测的有效性,并为红外弱小目标检测提供一种新的思路。
结合图2所示,目标检测模型包括依次首尾连接的多个Swin-Transformer模块,以及依次首尾连接的多个跨层特征融合模块;
本实施例中,在每个解码层中内嵌一个跨层特征融合模块。
相邻的两个Swin-Transformer模块中,前一Swin-Transformer模块的输出作为后一Swin-Transformer模块的输入;相邻的两个跨层特征融合模块中,前一跨层特征融合模块的输出作为后一跨层特征融合模块的输入;最后一个Swin-Transformer模块的输出作为第一个跨层特征融合模块的输入;
第一个跨层特征融合模块将最后两个Swin-Transformer模块的输出作为输入;
除第一个跨层特征融合模块之外的其他跨层特征融合模块均将前一跨层特征融合模块的输出和其对应Swin-Transformer模块的输出作为输入。
本实施例中,跨层特征融合模块的数量比Swin-Transformer模块的数量少一个,且第一个跨层特征融合模块与倒数第二个Swin-Transformer模块对应、第二个跨层特征融合模块与倒数第三个Swin-Transformer模块对应、第三个跨层特征融合模块与倒数第四个Swin-Transformer模块对应,以此类推。
本发明中,Swin-Transformer模块和跨层特征融合模块的结构设计,使得多个跨层特征融合模块能够将各尺度下获取的浅层局部信息和深层语义信息进行重新融合,进而能够从复杂背景中保留红外弱小目标特征,降低了检测模型随着网络加深而丢失红外弱小目标空间细节的风险,从而能够进一步提高红外弱小目标检测的有效性。
具体的,目标检测模型中,第一个Swin-Transformer模块之前设置有依次首尾连接的多个编码层;
相邻的两个编码层中,前一编码层的输出作为后一编码层的输入;第一个编码层的输入为目标检测模型输入的红外图像,最后一个编码层的输出作为第一个Swin-Transformer模块的输入;
与编码层对应的跨层特征融合模块,将前一跨层特征融合模块的输出和其对应编码层的输出作为输入;最后一个跨层特征融合模块的输出为作为分类器输入的多层融合特征图。
本发明中,在第一个Swin-Transformer模块之前设置多个编码层,通过编码层的卷积层来提取红外图像的低层特征图,而卷积层具有计算速度快、效率高的特点,并且能够保证低层特征图的提取效果,从而能够提高目标检测模型整体的检测效率。
具体的,目标检测模型的输入端和输出端对应设置有输入卷积层和输出卷积层;
输入卷积层的输入为目标检测模型输入的红外图像,用于增加红外图像的通道数,并将增加了通道数的红外图像作为第一个编码层的输入;
输出卷积层的输入为最后一个编码层输出的多层融合特征图,用于恢复多层融合特征图的通道数和尺寸大小与输入的红外图像一致,并将其输出的多层融合特征图作为最终分类器的输入。
具体实施过程中,Swin-Transformer模块中,对输入尺寸大小为M×N,通道个数为C特征图I进行特征提取时,包括以下步骤:
1)对输入特征图I进行层规则化(Layer Norm,LN)操作,在通道维度上对数据进行标准化处理,得到输出结果为ILN
公式描述为:
ILN=LN(I);
2)对层规则化处理后的特征图ILN计算基于多头注意力机制(Multi-head Self-Attention,MSA)的特征权值,得到IAttention
公式描述为:
IAttention=MSA(ILN);
在多头注意力机制MSA的计算中,分别引入了三个与输入特征图ILN尺寸大小一致的权值矩阵Q、K和V;
其中:Q=ILNPQ,K=ILNPK,V=ILNPV
式中:PQ、PK和PV分别为不同局部窗口下的共享权值矩阵,是可以进行学习的参数;
计算得到权值矩阵Q、K和V后,根据Transformer的注意力机制计算公式计算IAttention
公式描述为:
Figure BDA0004110736550000091
式中:d表示输入特征的尺寸;b表示可以学习的位置编码参数;
3)将原始输入特征图I与经过基于多头注意力机制计算得到的IAttention进行残差连接,得到中间特征F,作为下一层结构的输入;
公式描述为:
F=I+IAttention
4)对得到的中间特征F进行层规则化LN操作,然后将其用多层感知机(MLP,MultilayerPerceptron)进行调整,最后通过残差网络将调整后的结果与中间特征F进行连接,得到输出结果S;
公式描述为:
S=MLP(LN(F))+F;
5)将输出结果S进行图像块合并操作,并利用图像块拼接、层规则化和通道线性映射操作将其尺寸大小减小一半,变为
Figure BDA0004110736550000101
通道数增加一倍,变为2C,最终输出对应的特征图。
本发明的Swin-Transformer模块能够在更大的感受野下充分挖掘目标的潜在特征信息并提取目标的各尺度特征信息,能够满足对目标和其它干扰背景之间的语义可辨性,从而能够提高检测模型在复杂背景、低信噪比等场景下的检测性能。
结合图3所示,跨层特征融合模块的输入为两个特征图,其中相对高尺度的特征图为Y,相对低尺度的特征图为X;
跨层特征融合模块中,首先对Y进行上采样,并通过逐点卷积运算调整上采样后的Y特征通道数,生成第一特征图;然后通过逐点卷积运算调整X的特征通道数至与第一特征图一致,再利用Sigmoid激活函数进行归一化处理,生成第二特征图;再将第二特征图作为权值系数来与第一特征图进行乘法运算,生成第一融合图;最后将第一融合图与X相加,生成对应的融合特征图。
跨层特征融合模块生成融合特征图的公式描述如下:
Figure BDA0004110736550000102
式中:Z表示生成的融合特征图;Y表示相对高尺度的特征图;X表示相对低尺度的特征图;PWConv表示逐点卷积运算操作;Sig表示Sigmoid激活函数操作;
Figure BDA0004110736550000103
表示对应相同通道的特征图进行逐点加法运算;/>
Figure BDA0004110736550000104
表示对应相同通道的特征图进行逐点乘法运算;Up表示图像上采样操作。
本发明通过自底向上的多个跨层特征融合模块作为目标检测模型的解码器,用于将各尺度下获取的浅层局部信息和深层语义信息进行重新融合,进而能够从复杂背景中保留红外弱小目标特征,降低了检测模型随着网络加深而丢失红外弱小目标空间细节的风险,从而能够进一步提高红外弱小目标检测的有效性。
结合图4所示,在目标检测模型的样本数据训练阶段进行切片辅助数据增强操作:首先将样本数据集中的每个原始样本图像切分成重叠的图像块;然后通过固定图像块的长宽比来调整切分得到的各图像块的尺寸,使其等比例放缩到与原来样本数据的尺寸大小一致,从而得到新的增强样本图像;最后将新的增强样本图像加入到样本数据集中参与目标检测模型的训练和参数优化。
本发明在目标检测模型的样本数据训练阶段对样本数据集进行切片辅助数据增强,使得能够增加样本数据集的样本容量,提升样本数据的性能,有利于训练得到性能更好的目标检测模型。
结合图5所示,在目标检测模型进行推理时进行切片辅助推理操作:首先利用切片分割方法将红外图像进行分块处理,得到若干待检测图像块;然后在固定长宽比的情况下调整每个待检测图像块的大小,使其尺寸等比例放缩到与原图的尺寸大小一致;再将各待检测图像块分别输入到训练好的目标检测模型中进行目标检测,得到目标在多个不同位置上的预测输出结果;最后对所有预测输出结果进行后处理,利用NMS非极大值抑制策略过滤重叠位置上的预测输出结果,在相同位置上只保留可能性最大的预测结果。
本发明在目标检测模型进行推理时对网络模型进行切片辅助推理,使得能够提升目标检测的最终效果,有利于得到性能更好的目标检测模型。
具体实施过程中,为了在目标检测模型进行优化时能够更好地处理红外弱小目标与背景之间的类不平衡问题,本专利申请基于Soft-IoU指标构造损失函数来处理这类高度不平衡的分割任务,Soft-IoU对应的计算公式为:
Figure BDA0004110736550000111
在训练时希望Soft-IoU的值越大越好,为了使优化形式统一,本专利申请中训练目标检测模型时的目标损失函数如下:
Figure BDA0004110736550000112
式中:T表示目标损失函数;(i,j)表示对应红外图像中的任意坐标位置;p表示最终网络模型最终输出的预测结果;y表示对应红外图像的标签;pi,j表示在图像中位置为(i,j)处的目标检测模型输出的预测值,其大小在(0,1)的范围内,其值越大,代表网络模型认为该点处为目标的概率越大;yi,j表示在图像中位置为(i,j)处的真实归一化后的灰度值,表示对应位置处红外图像的标签结果。
本发明通过上述的目标损失函数,能够在目标检测模型进行优化时能够更好地处理红外弱小目标与背景之间的类不平衡问题,进而能够更好的训练目标检测模型,有利于训练得到性能更好的目标检测模型。
为了更好的说明本专利申请技术方案的优势,本实施例中公开了如下实验。
1、实验设计
为了对本专利申请提出的红外弱小目标检测模型(UST-Net)的性能进行评估,我们将该模型在公共SIRST数据集(来自DAI Y,WU Y,ZHOU F,et al.Attentional localcontrast networks for infrared small target detection)上进行测试,并把测试结果与其它典型的红外弱小目标检测方法进行对比。SIRST数据集包含来自数百个真实世界的427个代表性图像和480个不同场景的实例,如图6所示,可以看到许多红外小目标非常暗淡并且被掩埋在杂波严重的复杂背景中。此外,该数据集中只有35%的目标包含图像中最亮的像素。因此,纯粹基于目标显着性假设或仅对原始图像进行简单阈值处理的方法可能导致检测效果不佳。
本实验提出的方法其对应的试验环境为ubuntu20.04,GPU型号为NVIDIA GeForceGTX3080Ti 12G。模型训练时采用Adam优化器进行训练,初始学习率设置为5e-4,Batchsize大小设置为16,训练轮次Epoch的值设置为50,为了方便进行对照,训练图像尺寸统一固定为512×512分辨率大小。
在数据增强方面除了利用了前面提到的切片辅助技术外,本实验还用到了翻转变换、对比度调整、宽高畸变和添加高斯噪声等手段提升训练样本的泛化性。由于本实验采用的是基于目标分割的方式来预测红外弱小目标的所在位置,因此为了更加客观真实地评价该网络模型性能,本实验选用图像分割评价中常用的交并比(IoU)以及归一化IoU(nIoU)这两个指标进行算法评价,其各自的计算表达式分别为:
Figure BDA0004110736550000121
Figure BDA0004110736550000122
上述公式中:N为训练样本的数量,TP代表被模型正确预测出来的目标,T代表样本中真实的目标,P代表由模型预测出来全部目标。利用上述IoU和nIoU指标对UST-Net模型进行评价,可以分别反映出尺寸较大和尺寸较小的红外弱小目标各自的分割效果。
2、目标检测效果
为了具体验证UST-Net的实际效果,本实验将该方法与其它四类红外弱小目标检测分割方法进行对比,然后分别计算各自的IoU和nIoU结果。其中这四类方法分别包括两类非深度学习方法MPCM(来自WEI Y,YOU X,LI H.Multiscale patch-based contrastmeasure for smallinfrared target detection)和NIPPS(来自DAI Y,WU Y,SONG Y,etal.Non-negative infraredpatch-image model:Robust target-background separationvia partial sum minimization of singularvalues)方法,以及两类深度学习方法TBC-Net(来自ZHAO M,CHENG L,YANG X,et al.TBC-Net:A real-time detector for infraredsmall target detection using semantic Constraint)和ALC-Net(来自DAI Y,WU Y,ZHOU F,et al.Attentional local contrast networks for infrared smalltargetdetection),对应的目标检测分割结果如图7所示。
在图7中我们分别选取了5组不同的实际红外场景进行了试验测试,可以看到对于一般的非深度学习方法,如MPCM和NIPPS,检测结果中存在明显的误检或漏检现象;对于像TBC-Net和ALC-Net这样的深度学习训练网络,虽然最后得到的检测结果没有明显的误检和漏检情况,但目标的检测分割结果仍然不够精细,由于在目标检测分割时受图像噪声或背景高光的干扰,目标在分割图上某些局部位置存在破碎或不完整的情况。而本专利申请提出的UST-Net,从结果中可以看出,它可以更加完整地反映出红外弱小目标的整体弥散特性,检测分割的结果更加完整连续。
3、指标性能分析
为了进一步定量化评价本专利申请提出的方法跟其它相关方法的性能差异,对图7中各算法对应的目标检测结果分别计算IoU和nIoU指标,同时比较分析各算法的处理帧率FPS,最后将5组场景下得到的各项指标取平均值,最终的试验分析结果如下表1所示。
表1不同方法的测试性能比较
Figure BDA0004110736550000131
结合表1可知,相比于其它四种红外弱小目标检测方法,本专利申请提出的UST-Net在IoU和nIoU这两项指标上的提升是非常大的。
具体来说,UST-Net对比MPCM、NIPPS、TBC-Net以及ALC-Net而言,分别将IoU指标提升了123.7%(从0.334到0.747)、75.8%(从0.425到0.747)、11.2%(从0.672到0.747)和3.2%(从0.724到0.747),将nIoU指标分别提升了89.4%(从0.397到0.752)、31.2%(从0.573到0.752)、6.2%(从0.708到0.752)以及2.2%(从0.736到0.752)。虽然UST-Net在算法速度上不及其它两个深度学习方法,但其帧率仍然能够达到60-70fps,快于另外两个非深度学习方法,可以满足对红外探测序列的实时目标检测识别过程,由此可以证明该方法在各项性能上的优越性。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,包括:
S1:在Unet网络中引入Swin-Transformer模块来替代原有的卷积层进行特征提取,以构成目标检测模型;
S2:获取待检测的红外图像;
S3:将待检测的红外图像输入经过训练的目标检测模型中,输出目标预测结果;
目标检测模型首先通过多个Swin-Transformer模块逐层提取红外图像的特征信息,生成多个尺度的特征图;然后通过多个跨层特征融合模块从最高尺度的特征图开始,依次融合各个尺度的特征图,生成对应的多层融合特征图;最后将多层融合特征图输入分类器中进行归一化处理,并输出对应的目标预测结果;
S4:将目标检测模型输出的目标预测结果作为待检测红外图像中弱小目标的检测结果。
2.如权利要求1所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于:目标检测模型包括依次首尾连接的多个Swin-Transformer模块,以及依次首尾连接的多个跨层特征融合模块;
相邻的两个Swin-Transformer模块中,前一Swin-Transformer模块的输出作为后一Swin-Transformer模块的输入;相邻的两个跨层特征融合模块中,前一跨层特征融合模块的输出作为后一跨层特征融合模块的输入;最后一个Swin-Transformer模块的输出作为第一个跨层特征融合模块的输入;
第一个跨层特征融合模块将最后两个Swin-Transformer模块的输出作为输入;
除第一个跨层特征融合模块之外的其他跨层特征融合模块均将前一跨层特征融合模块的输出和其对应Swin-Transformer模块的输出作为输入。
3.如权利要求2所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于:目标检测模型中,第一个Swin-Transformer模块之前设置有依次首尾连接的多个编码层;
相邻的两个编码层中,前一编码层的输出作为后一编码层的输入;第一个编码层的输入为目标检测模型输入的红外图像,最后一个编码层的输出作为第一个Swin-Transformer模块的输入;
与编码层对应的跨层特征融合模块,将前一跨层特征融合模块的输出和其对应编码层的输出作为输入;最后一个跨层特征融合模块的输出为作为分类器输入的多层融合特征图。
4.如权利要求3所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于:目标检测模型的输入端和输出端对应设置有输入卷积层和输出卷积层;
输入卷积层的输入为目标检测模型输入的红外图像,用于增加红外图像的通道数,并将增加了通道数的红外图像作为第一个编码层的输入;
输出卷积层的输入为最后一个编码层输出的多层融合特征图,用于恢复多层融合特征图的通道数和尺寸大小与输入的红外图像一致,并将其输出的多层融合特征图作为最终分类器的输入。
5.如权利要求2所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,Swin-Transformer模块中,对输入尺寸大小为M×N,通道个数为C特征图I进行特征提取时,包括以下步骤:
1)对输入特征图I进行层规则化操作,在通道维度上对数据进行标准化处理,得到输出结果为ILN
公式描述为:
ILN=LN(I);
2)对层规则化处理后的特征图ILN计算基于多头注意力机制的特征权值,得到IAttention
公式描述为:
IAttention=MSA(ILN);
在多头注意力机制的计算中,分别引入了三个与输入特征图ILN尺寸大小一致的权值矩阵Q、K和V;
其中:Q=ILNPQ,K=ILNPK,V=ILNPV
式中:PQ、PK和PV分别为不同局部窗口下的共享权值矩阵,是可以进行学习的参数;
计算得到权值矩阵Q、K和V后,根据Transformer的注意力机制计算公式计算IAttention
公式描述为:
Figure FDA0004110736540000021
式中:d表示输入特征的尺寸;b表示可以学习的位置编码参数;
3)将原始输入特征图I与经过基于多头注意力机制计算得到的IAttention进行残差连接,得到中间特征F,作为下一层结构的输入;
公式描述为:
F=I+IAttention
4)对得到的中间特征F进行层规则化LN操作,然后将其用多层感知机进行调整,最后通过残差网络将调整后的结果与中间特征F进行连接,得到输出结果S;
公式描述为:
S=MLP(LN(F))+F;
5)将输出结果S进行图像块合并操作,并利用图像块拼接、层规则化和通道线性映射操作将其尺寸大小减小一半,变为
Figure FDA0004110736540000031
通道数增加一倍,变为2C,最终输出对应的特征图。
6.如权利要求2所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于:跨层特征融合模块的输入为两个特征图,其中相对高尺度的特征图为Y,相对低尺度的特征图为X;
跨层特征融合模块中,首先对Y进行上采样,并通过逐点卷积运算调整上采样后的Y特征通道数,生成第一特征图;然后通过逐点卷积运算调整X的特征通道数至与第一特征图一致,再利用Sigmoid激活函数进行归一化处理,生成第二特征图;再将第二特征图作为权值系数来与第一特征图进行乘法运算,生成第一融合图;最后将第一融合图与X相加,生成对应的融合特征图。
7.如权利要求6所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,跨层特征融合模块生成融合特征图的公式描述如下:
Figure FDA0004110736540000032
式中:Z表示生成的融合特征图;Y表示相对高尺度的特征图;X表示相对低尺度的特征图;PWConv表示逐点卷积运算操作;Sig表示Sigmoid激活函数操作;
Figure FDA0004110736540000033
表示对应相同通道的特征图进行逐点加法运算;/>
Figure FDA0004110736540000034
表示对应相同通道的特征图进行逐点乘法运算;Up表示图像上采样操作。
8.如权利要求1所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,在目标检测模型的样本数据训练阶段进行切片辅助数据增强操作:首先将样本数据集中的每个原始样本图像切分成重叠的图像块;然后通过固定图像块的长宽比来调整切分得到的各图像块的尺寸,使其等比例放缩到与原来样本数据的尺寸大小一致,从而得到新的增强样本图像;最后将新的增强样本图像加入到样本数据集中参与目标检测模型的训练和参数优化。
9.如权利要求1所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,在目标检测模型进行推理时进行切片辅助推理操作:首先利用切片分割方法将红外图像进行分块处理,得到若干待检测图像块;然后在固定长宽比的情况下调整每个待检测图像块的大小,使其尺寸等比例放缩到与原图的尺寸大小一致;再将各待检测图像块分别输入到训练好的目标检测模型中进行目标检测,得到目标在多个不同位置上的预测输出结果;最后对所有预测输出结果进行后处理,利用NMS非极大值抑制策略过滤重叠位置上的预测输出结果,在相同位置上只保留可能性最大的预测结果。
10.如权利要求1所述的基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法,其特征在于,训练目标检测模型时的目标损失函数如下:
Figure FDA0004110736540000041
式中:T表示目标损失函数;(i,j)表示对应红外图像中的任意坐标位置;p表示最终网络模型最终输出的预测结果;y表示对应红外图像的标签;pi,j表示在图像中位置为(i,j)处的目标检测模型输出的预测值,其大小在(0,1)的范围内;yi,j表示在图像中位置为(i,j)处的真实归一化后的灰度值,表示对应位置处红外图像的标签结果。
CN202310205449.0A 2023-03-06 2023-03-06 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 Pending CN116188944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310205449.0A CN116188944A (zh) 2023-03-06 2023-03-06 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310205449.0A CN116188944A (zh) 2023-03-06 2023-03-06 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法

Publications (1)

Publication Number Publication Date
CN116188944A true CN116188944A (zh) 2023-05-30

Family

ID=86442252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310205449.0A Pending CN116188944A (zh) 2023-03-06 2023-03-06 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法

Country Status (1)

Country Link
CN (1) CN116188944A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253154A (zh) * 2023-11-01 2023-12-19 华南农业大学 一种基于深度学习的集装箱弱小序列号目标检测识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253154A (zh) * 2023-11-01 2023-12-19 华南农业大学 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN117253154B (zh) * 2023-11-01 2024-02-13 华南农业大学 一种基于深度学习的集装箱弱小序列号目标检测识别方法

Similar Documents

Publication Publication Date Title
Fu et al. An anchor-free method based on feature balancing and refinement network for multiscale ship detection in SAR images
CN107341488B (zh) 一种sar图像目标检测识别一体化方法
CN111666854B (zh) 融合统计显著性的高分辨率sar影像车辆目标检测方法
Qi et al. FTC-Net: Fusion of transformer and CNN features for infrared small target detection
CN113536963B (zh) 基于轻量化yolo网络的sar图像飞机目标检测方法
Zhao et al. SAR ship detection based on end-to-end morphological feature pyramid network
Gao et al. Improved YOLOv4 based on attention mechanism for ship detection in SAR images
Shaodan et al. A ship target location and mask generation algorithms base on Mask RCNN
CN114821358A (zh) 光学遥感图像海上舰船目标提取与识别方法
CN116188944A (zh) 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN116958782A (zh) 一种红外与可见光特征融合的弱小目标检测方法及装置
CN115019201A (zh) 一种基于特征精细化深度网络的弱小目标检测方法
Mathias et al. Deep Neural Network Driven Automated Underwater Object Detection.
Dai et al. GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar
Zhao et al. Multitask learning for sar ship detection with gaussian-mask joint segmentation
Shi et al. Obstacle type recognition in visual images via dilated convolutional neural network for unmanned surface vehicles
Zou et al. Sonar Image Target Detection for Underwater Communication System Based on Deep Neural Network.
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN116434074A (zh) 基于邻支互补显著性和多先验稀疏表征的目标识别方法
Zhao et al. Deep learning-based laser and infrared composite imaging for armor target identification and segmentation in complex battlefield environments
CN112800932B (zh) 海上背景下显著船舶目标的检测方法及电子设备
Lin et al. Synthetic aperture radar image aircraft detection based on target spatial imaging characteristics
Sivapriya et al. ViT-DexiNet: a vision transformer-based edge detection operator for small object detection in SAR images
Wang et al. Sonar objective detection based on dilated separable densely connected CNNs and quantum-behaved PSO algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination