CN116863305A

CN116863305A - 基于时空特征融合网络的红外弱小目标检测方法

Info

Publication number: CN116863305A
Application number: CN202310864360.5A
Authority: CN
Inventors: 孙裕鑫; 冀中
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-10

Abstract

本发明涉及红外弱小目标检测技术领域，为充分挖掘红外图像序列中的时空特性，在时间和空间两个维度上实现注意力引导机制。本发明主要应用于设计制造场合。本发明采取的技术方案是，基于时空特征融合网络的红外弱小目标检测方法，时空特征融合红外弱小目标检测网络模型STNet，以相邻帧红外图像为输入，送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征，最终送入时序引导的Transformer结构完成时空特征融合，并最终生成检测结果的预测，其中，由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。本发明主要应用于红外弱小目标检测场合。

Description

基于时空特征融合网络的红外弱小目标检测方法

技术领域

本发明涉及面向红外弱小目标检测的深度学习目标检测方法，可应用于远程红外预警、反无人机、海岸监视等多种任务，适应于机载、舰载、弹载、地面等不同平台。具体涉及基于时空特征融合网络的红外弱小目标检测方法。

背景技术

红外探测设备在应用过程中，由于被探测目标相距探测设备距离相对较远，受限于光学系统的口径和传播路径中的大气衰减，红外探测器接收到目标的红外辐射信号相对较弱。目标在红外探测器的成像画面中通常仅占几个到十几个像素，缺乏可用于识别的纹理信息。同时，不同于可见光相机可同时采集目标红绿蓝三个谱段的光谱信息，常规的红外探测器仅能对特定的单一红外谱段成像，缺乏多光谱特性。所以，红外探测设备需要识别的是信噪比低、特征少、面积小的红外弱小目标。在现有的红外图像单帧处理过程中，受限于目标的特征信息有限，不可避免要面临虚警和漏警问题。然而，在红外探测设备的应用过程中，熟练的设备操作人员在面对红外探测设备的监控画面中，却能够精准有效从红外图像中识别出感兴趣的目标。这是由于经过长期的经验积累，操作人员能够依照目标的运动轨迹、形状变化和亮度变化来辨别真实目标和假目标。由此可见，如何高效的运用目标的时空特征，成为了解决红外弱小目标识别问题的关键。伴随着深度神经网络技术的发展，尤其是以LSTM、Transformer等网络结构的出现，为解决序列信号的高效处理提供了可能。Transformer结构起源于自然语言处理领域，后拓展到视觉处理任务中。Transformer结构以其引入的自注意力机制，突破了RNN网络不能并行化计算的限制，可产生更具解释性的网络结构，成为了解决序列问题的全新解决思路。自注意力机制解决的是在序列特征输入神经网络后，如何依靠自身网络的学习积累建立当前向量与后续向量的联系，并使得模型快速收敛达到预期效果，为此自注意模型引入检索矩阵Q、键值矩阵K和数值矩阵V，如图1所示，每个输入的特征向量由三个独立的MLP网络计算得到Q、K、V三个向量，并计算经注意力计算后的特征输出。Transformer网络沿用了编码器-解码器的设计思路，在编码器和解码器中堆叠了多个自注意力结构，将特征作为编码器的输入，最终输出预测结果。在现有的视觉处理任务应用中，Transformer网络更多的是将整帧图像图像划分为若干个图像块，将图像块和对应位置的编码信息送入编解码网络结构中，生成对目标的位置和类型预测，这种方式是将单帧图像作为一个序列，缺乏了在以单帧图像组成的图像时序上的理解和学习，这势必会影响以目标轨迹、形状变化、能量变化为识别依据的红外弱小目标识别问题的解决。此外，现有的Transformer网络结构主要采用通用的卷积神经网络结构提取目标的视觉特征，未针对红外弱小目标识别问题设计特定的模型样式，使之更加符合红外弱小目标的目标特性，这同样会影响识别网络的性能。

发明内容

为克服现有技术的不足，充分挖掘红外图像序列中的时空特性，在时间和空间两个维度上实现注意力引导机制，本发明旨在提出空间注意力单元(SAU)和时序引导的Transformer两种网络结构，利用SAU构成的特征提取主干网络和时序引导的Transformer结构，构成端到端的时空特征融合红外弱小目标检测网络(STNet)。为此，本发明采取的技术方案是，基于时空特征融合网络的红外弱小目标检测方法，时空特征融合红外弱小目标检测网络模型STNet，以相邻帧红外图像为输入，送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征，最终送入时序引导的Transformer结构完成时空特征融合，并最终生成检测结果的预测，其中，由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。

其中，SAU增加可形变卷积层，可形变卷积核在运算的过程中增加了可变化的位置偏移量，卷积运算的感受野因此能够具备尺度变换、旋转能力。

SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征，卷积核大小均设定为3×3，膨胀卷积的膨胀率分别设定为2和4；经卷积运算后的特征图合并为统一的张量，为保持特征的维度不变，利用一个卷积核大小为1×1的卷积进行降维，使之与输入维度保持一致；同时，SAU添加直连通路，在直连通路中，将SAU输入的特征图与1×1卷积运算后的特征相加，以此来缓解模型深度增加带来的梯度消失问题，为了满足通道数要求，当SAU的输入与输出通道数不一致时，在直连通路上添加1×1卷积。

选用ResNet-18网络为原始构型形成ResNet-SAU-18模型，，ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1，其中，SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层，将输出的7×7×512维度特征展开，以49×512维度特征作为视觉特征，相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构，得到对应的视觉特征Ft-1和Ft。

Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V，利用公式(1)得到自注意力之后的特征：

其中，为了约束特征的数值大小，引入了特征维度数d_k，将Q与K T的乘积结果除以利用图像序列的空间特征f_s作为K矩阵和V矩阵的输入，而时间特征f_t作为Q矩阵的输入，则改造后的自注意力机制表示为：

采用的时序引导的Transformer编码器和解码器层数设定为3，解码器的输出特征作为MLP的输入，得到目标类型和位置的预测，每个MLP网络实现对位置框的预测，在STNet中，Transformer编码器后连接20个MLP网络，单个MLP的层数设定为3，中间隐层个数分别为512、256、128。

STNet模型的训练过程过程如下：

步骤1：从红外图像序列中选取图像帧It和其前一帧It-1，两帧图像送入由SAU组成的主干网络，主干网络结构以ResNet-18为基础架构，将ResNet-18中的部分卷积层替换为SAU单元，形成ResNet-SAU-18模型，It和It-1以224×224分辨率输入ResNet-SAU-18模型，将输出49×512维度特征展开作为两帧图像的视觉特征Ft和Ft-1；

步骤2：计算时序特征f_t和空间特征f_s，其中，ft＝Ft-Ft-1，f_s＝F_t+F_code，F_code为位置编码；

步骤3：将f_t和f_s送入时序引导的Transformer结构，空间特征fs作为编码器的键值矩阵K和内容矩阵V的输入，而时序特征f_t作为编码器和解码器中检索矩阵Q的输入，得到目标检测结果的预测Y_p＝[y_p1,y_p2,...,y_p20]T；

步骤4：利用匈牙利算法完成预测结果Y_p和真实值Y_gt的匹配，形成配对后预测结果Y_p′＝[y_p1,y_p2,...,y_pn]T；

步骤5：利用Y_gt和Y_p′计算损失函数为类别损失，为预测结果中类别与真实类别的交叉熵损失值，/>为预测框损失，由预测框的水平中心点x、垂直中心点y、框的宽度w、框的高度h与真实值中对应的框的参数计算L1范数得来；

步骤6：根据损失函数计算值计算梯度，更新模型参数。

STNet模型的目标预测过程如下：步骤1：将需要检测图像帧I’_t和其前一帧I’_t-1输入STNet，若当前帧为第一帧，则I’_t-1＝I’_t，得到20个MLP网络的预测结果；

步骤2：判断20个预测结果中，当类别对应的概率P_label＝i大于设定阈值θ，则将该MLP网络的预测框结果输出，认定该检测框为第i类目标的位置。

本发明的特点及有益效果是：

本发明采用空间注意力单元(SAU)和时序引导的Transformer结构，实现了针对红外弱小目标检测的时空特征融合网络框架(STNet)，其优势主要体现在：(1)新颖性：充分考虑了红外弱小目标的时空特性，首次提出了可应用于红外弱小目标空间视觉特征提取的空间注意力单元(SAU)结构，结合时序引导的Transformer结构，构建了时空特征融合的红外弱小目标检测网络(STNet)。(2)有效性：通过主观和客观实验证明了，与目前的某些红外弱小目标检测算法相比较，本发明设计的时空特征融合的红外弱小目标检测网络模型在性能上相对有所提高，因此更适用于红外弱小目标检测问题中。(3)实用性：简单可行，本发明解决的红外弱小目标检测问题，在红外预警、威胁感知、海岸监视、反无人机作战等领域具有广泛的应用。

附图说明：

图1是自注意力机制示意图。

图2是时空特征融合红外弱小目标检测网络模型结构示意图。

图3是不同形态卷积运算对比。

图4是空间注意力单元结构示意图。

图5是ResNet-SAU-18网络结构示意图。

图6是时序引导的Transformer结构示意图。

具体实施方式

红外弱小目标红外辐射能量上会高于背景，如何设计网络结构使其能够关注到局部的对比度差异，是空间注意力单元所要解决的问题。为此，引入了膨胀卷积和可形变卷积两种卷积层。区别于传统卷积，膨胀卷积在计算卷积运算的过程中，增加了膨胀系数，如图3-(b)所示，卷积核根据膨胀系数与前一层特征图数据按一定间隔进行卷积运算，这样在不增加计算的情况下，增大了卷积层的感受野，与此同时，通过控制不同的膨胀系数，可充分计算目标中心点与周围像素之间的对比度差异，这也更加符合红外弱小目标的数据分布特点。此外，为了应对红外弱小目标形状不规则变化的可能性，SAU增加了可形变卷积层，如图3-(c)所示，可形变卷积核在运算的过程中增加了可变化的位置偏移量，卷积运算的感受野因此能够具备尺度变换、旋转等能力，可以更好的适应形状不规则物体的特征提取。具体而言，如图4所示，SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征，卷积核大小均设定为3×3，膨胀卷积的膨胀率分别设定为2和4。经卷积运算后的特征图合并为统一的张量，为保持特征的维度不变，利用一个卷积核大小为1×1的卷积进行降维，使之与输入维度保持一致。同时，SAU继承了ResNet中的“残差”思想，添加了直连通路。在直连通路中，将SAU输入的特征图与1×1卷积运算后的特征相加，以此来缓解模型深度增加带来的梯度消失问题，为了满足通道数要求，当SAU的输入与输出通道数不一致时，在直连通路上添加1×1卷积。在主干网络方面，SAU适用于VGG、GoogleNet、ResNet等各类主流卷积神经网络，可利用SAU实现对卷积层的原位替代，为了平衡检测性能和检测速度，本发明选用ResNet-18网络为原始构型形成ResNet-SAU-18模型。如图5所示，ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1，其中，图5中的S为卷积步长，P为填充个数，C为通道数。SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层，将输出的7×7×512维度特征展开，以49×512维度特征作为视觉特征，相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构，得到对应的视觉特征Ft-1和Ft。红外图像在经过ResNet-SAU-18主干网络后可充分提取弱小目标的空间结构信息，为挖掘序列图像的时间相关性，提升目标的检测能力，采用时序引导的Transformer结构，融合序列图像相邻帧的空间结构信息，得到最终的目标识别结果的预测。现有的Transformer结构通过自注意机制实现对序列信息的关注点生成，Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V，利用公式(1)得到自注意力之后的特征。

其中，为了约束特征的数值大小，引入了特征维度数d_k，将Q与K T的乘积结果除以为结合红外图像序列中相邻帧的目标轨迹、能量变化等时间特性，改变了Transformer结构中由同一特征分别得到Q、K、V三个矩阵的架构，如图3所示，利用图像序列的空间特征f_s作为K矩阵和V矩阵的输入，而时间特征f_t作为Q矩阵的输入，以此达到在时序特征f_t的检索引导下，使得网络更加关注空间特征f_s的重点区域，则改造后的自注意力机制表示为：

为了降低模型复杂度，本发明采用的时序引导的Transformer编码器和解码器层数设定为3，最终，解码器的输出特征作为MLP的输入，得到目标类型和位置的预测，每个MLP网络实现对位置框的预测，在STNet中，Transformer编码器后连接20个MLP网络，即对一张图片可实现最大20个位置框的预测。单个MLP的层数设定为3，中间隐层个数分别为512、256、128。

在整体的检测框架上，本发明采用如图2所示的时空特征融合红外弱小目标检测网络模型(STNet)，以相邻帧红外图像为输入，送入由空间注意力单元(SAU)组成的主干网络提取视觉特征，最终送入时序引导的Transformer结构完成时空特征融合，并最终生成检测结果的预测。

STNet模型的训练过程过程如下：

步骤1：从红外图像序列中选取图像帧It和其前一帧It-1，两帧图像送入由SAU组成的主干网络。主干网络结构以ResNet-18为基础架构，将ResNet-18中的部分卷积层替换为SAU单元，形成ResNet-SAU-18模型，如图5所示，It和It-1以224×224分辨率输入ResNet-SAU-18模型，将输出49×512维度特征展开作为两帧图像的视觉特征Ft和Ft-1。

步骤2：计算时序特征f_t和空间特征f_s，其中，ft＝Ft-Ft-1，f_s＝F_t+F_code，F_code为位置编码。

步骤3：将f_t和f_s送入本发明提出的时序引导的Transformer结构，如图6所示，空间特征fs作为编码器的键值矩阵K和内容矩阵V的输入，而时序特征f_t作为编码器和解码器中检索矩阵Q的输入，得到目标检测结果的预测Y_p＝[y_p1,y_p2,...,y_p20]T。

步骤4：利用匈牙利算法完成预测结果Y_p和真实值Y_gt的匹配，形成配对后预测结果Y_p′＝[y_p1,y_p2,...,y_pn]T。

步骤5：利用Y_gt和Y_p′计算损失函数为类别损失，为预测结果中类别与真实类别的交叉熵损失值，/>为预测框损失，由预测框的水平中心点x、垂直中心点y、框的宽度w、框的高度h与真实值中对应的框的参数计算L1范数得来。步骤6：根据损失函数计算值/>计算梯度，更新模型参数。

STNet模型的目标预测过程如下：步骤1：将需要检测图像帧I’_t和其前一帧I’_t-1输入STNet，若当前帧为第一帧，则I’_t-1＝I’_t，得到20个MLP网络的预测结果。

步骤2：判断20个预测结果中，当类别对应的概率P_label＝i大于设定阈值θ，则将该MLP网络的预测框结果输出，认定该检测框为第i类目标的位置

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于时空特征融合网络的红外弱小目标检测方法，其特征是，时空特征融合红外弱小目标检测网络模型STNet，以相邻帧红外图像为输入，送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征，最终送入时序引导的Transformer结构完成时空特征融合，并最终生成检测结果的预测，其中，由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。

2.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，其中，SAU增加可形变卷积层，可形变卷积核在运算的过程中增加了可变化的位置偏移量，卷积运算的感受野因此能够具备尺度变换、旋转能力。

3.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征，卷积核大小均设定为3×3，膨胀卷积的膨胀率分别设定为2和4；经卷积运算后的特征图合并为统一的张量，为保持特征的维度不变，利用一个卷积核大小为1×1的卷积进行降维，使之与输入维度保持一致；同时，SAU添加直连通路，在直连通路中，将SAU输入的特征图与1×1卷积运算后的特征相加，以此来缓解模型深度增加带来的梯度消失问题，为了满足通道数要求，当SAU的输入与输出通道数不一致时，在直连通路上添加1×1卷积。

4.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，选用ResNet-18网络为原始构型形成ResNet-SAU-18模型，ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1，其中，SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层，将输出的7×7×512维度特征展开，以49×512维度特征作为视觉特征，相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构，得到对应的视觉特征Ft-1和Ft。

5.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V，利用公式(1)得到自注意力之后的特征：

6.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，STNet模型的训练过程过程如下：

步骤4：利用匈牙利算法完成预测结果Y_p和真实值Y_gt的匹配，形成配对后预测结果

Y_p′＝[y_p1,y_p2,...,y_pn]T；

步骤6：根据损失函数计算值计算梯度，更新模型参数。

7.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法，其特征是，STNet模型的目标预测过程如下：步骤1：将需要检测图像帧I’_t和其前一帧I’_t-1输入STNet，若当前帧为第一帧，则I’_t-1＝I’_t，得到20个MLP网络的预测结果；