CN116071676A

CN116071676A - 一种基于注意力导向金字塔融合的红外小目标检测方法

Info

Publication number: CN116071676A
Application number: CN202211539561.XA
Authority: CN
Inventors: 陈志华; 张国栋; 李然; 梁磊; 王子涵
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-05-05

Abstract

本发明属于图像处理与计算机视觉领域，特别涉及一种基于注意力导向金字塔融合的红外小目标检测方法。所述方法包括：获取红外图像数据集，对红外图像进行预处理；构建基于编码器‑解码器的神经网络；构建多尺度融合模块，融合编码器输出层的不同尺度特征图；构建上下文金字塔模块，连接编码器与解码器；构建注意力机制模块，增强目标信息，抑制背景信息，建立编码器各层与解码器各层之间的信息关联；利用训练集与损失函数迭代训练网络，保存最优模型；利用测试集检验模型性能，输出模型红外小目标检测结果图像。本发明能很好地消除背景杂波的干扰，充分发挥浅层特征检测小目标的优势，在复杂的真实的红外小目标检测场景中，具有良好的检测性能。

Description

一种基于注意力导向金字塔融合的红外小目标检测方法

技术领域

本发明属于图像处理与计算机视觉领域，特别涉及一种基于注意力导向金字塔融合的红外小目标检测方法。

背景技术

红外小目标检测是一项重要的计算机视觉任务，在医学诊断、海上监视、空中预警及工业检测等都有着实际的应用。红外成像可以在没有照明或穿透的情况下提供清晰的图像，减少雾、烟和其它大气条件的干扰。但由于红外成像距离较远，目标所辐射的能量逐渐衰减，在红外图像中通常只占几个像素，且缺乏质地与形状特征，因此红外小目标的检测是一个重要且具有挑战性的任务。

目前红外小目标的检测方法可以分为基于先验的传统方法与基于深度学习的模型驱动方法。其中，基于先验的传统方法往往通过滤波、局部对比、显著性检测和低秩稀疏恢复的方式，抑制背景增强目标，使目标与背景分离完成检测任务。这些方法容易受背景中的杂波和噪声的影响，产生大量的目标漏检或误报问题。另外，传统方法的性能严重依赖手工参数的输入，在一些简单的任务场景中表现良好，但当背景变得复杂时效果不佳，鲁棒性差。基于先验的传统方法由于不涉及任何的特征学习，因此难以处理各种真实的场景。近年来，随着深度学习的快速发展以及计算机性能的提升，出现了一些基于深度神经网络的红外小目标检测方法。这些方法以数据驱动的方式学习可训练的特征，通过海量的数据和深度神经网络强大的模型拟合能力，更好地抑制背景信息的干扰并增强目标信息，足以实现相比于传统方法更好的检测性能。但是，基于深度学习方法的检测性能还并未达到最佳，与实际应用具有一定的差距，且在训练过程中，还可能会出现过拟合的风险降低性能。

发明内容

针对红外小目标的低信噪比、小尺度的本质特性，本发明提出一种基于注意力导向金字塔融合的红外小目标检测方法，解决现有方法不足，提升目标检测性能，具体包括以下步骤：

步骤1、获取红外图像训练与测试数据集，对数据集进行预处理：裁剪红外图像尺寸为统一大小，并对图像像素进行归一化；

步骤2、构建一种基于编码器-解码器结构的神经网络，将预处理后的红外图像输入到神经网络中；

步骤3、神经网络编码器各层的输出图像输入到多尺度融合模块，丰富目标信息；多尺度融合模块的输出图像与相同层级解码器的输出图像拼接，经过注意力机制模块，放大关键信息；

步骤4、神经网络编码器的输出图像进入上下文金字塔模块，关联图像上下文信息，输出图像进入解码器；

步骤5、将检测图像与真实标签图像的差异作为损失函数，迭代训练优化网络参数，待损失稳定后，将检测图像输入训练好的神经网络，解码器的输出图像为最终检测结果。

本发明提出的基于注意力导向金字塔融合的红外小目标检测方法，采用编码器-解码器的网络结构，融合不同层级之间的特征信息，充分利用浅层特征图丰富的小目标语义信息，提升检测性能。注意力机制模块抑制背景信息的同时增强目标信息，上下文金字塔模块建立特征的局部及全局关联获得更准确的上下文导向。本发明提出的方法在红外小目标检测任务的复杂场景中，拥有更好的检测性能。

附图说明

图1为本发明提出的基于注意力导向金字塔融合的红外小目标检测方法的整体流程图；

图2为本发明提出的基于注意力导向金字塔融合的红外小目标检测方法的整体架构图；

图3为本发明的方法测试例中的检测结果图；

图4为本发明的方法测试例中的检测结果3维效果图；

具体实施方式

下面将结合附图与实施例，更加清楚地说明本发明的技术方案，以下所描述的具体实施例仅用于解释本发明的实施过程，并非涵盖所有实施例，本领域普通技术人员在没有其他创新性工作所获得的实施例，都属于本发明保护的范围。

本发明提出的一种基于注意力导向金字塔融合的红外小目标检测方法，参照图1，具体步骤如下：

步骤1、获取红外图像训练与测试数据集，对数据集进行预处理：裁剪红外图像尺寸为统一大小、图像像素归一化；

步骤4、神经网络编码器的输出图像进入上下文金字塔模块，关联图像上下文信息，输出图像再输入到解码器；

本发明提供一种具体的实施例，在本实施例中采用包含1000张具有不同目标形状与大小的真实红外图像数据集，数据集背景复杂，包含天空、山地、建筑物、海洋等。图像尺寸大小为512×512，整个数据集按5:2:3的比例被分成训练集、验证集与测试集。训练集用于训练网络，验证集在训练的过程中验证网络性能，保存最优网络模型，测试集则用于对比本发明方法与其它现有方法的性能。

训练阶段，输入的红外图像尺寸大小一致，以4张图片为一组的方式共同训练，网络训练不断迭代，直到损失函数维持稳定则停止训练。在训练过程中，每迭代10次则进行一次性能验证保存模型，在检测过程中输入测试图像，检验方法性能，保存实验结果，即为图4所示。

参照图2，红外图像首先进入网络的编码器结构部分，编码器由5层下采样层组成，每经过一层下采样层图像的通道维度扩大2倍，分辨率降低2倍，提取抽象目标语义信息，在经过最后一层下采样后产生编码器输出特征图。

由编码器产生的输出特征图进入上下文金字塔模块，该模块具有上下双分支结构分别关注语义的局部关联和全局关联，局部关联是指将输入特征图X_in划分为n×n个小块，大小为w×h，计算像素之间的关联性信息，将输出的特征映射集中到一起，形成新的局部关联特征映射X_out1；全局关联映射是指将输入特征图X_in经过平均池化提取块内特征，通过非局部关联分析块之间的上下文信息，整合通道维度权重获得更准确的上下文导向，输出全局关联特征映射X_out2，局部关联与全局关联的计算可表示为：

X_out1＝NonLock(X_in)

其中，NonLock()表示常见的非局部网络，

表示包含3×3的卷积、批归一化和ReLU激活函数的卷积块，

表示包含3×3的卷积、批归一化和Sigmoid激活函数的卷积块，Avg表示平均池化。

局部关联特征映射X_out1与全局关联特征映射X_out2元素相乘后与输入特征图X_in相加作为单一尺度层的输出，不同尺度层的区别在于局部关联划分n×n个小块的大小，可表示为：

其中，

表示按元素相乘。

通过上下文金字塔模块提升网络关注上下文信息的能力，建立像素之间的关联信息，更好地保留在检测红外小目标过程中的有效信息，使得网络更加准确地提取关键目标信息。

编码器产生的堆叠通道维度的特征图，在经过上下文金字塔模块后特征图的通道数与分辨率大小不会改变。编码器输出的包含丰富语义信息的特征图随后进入解码器中。解码器由5层上采样层组成，每经过一层上采样层图像的通道维度降低2倍，分辨率扩大2倍。在经过最后一层上采样后，分辨率还原到原始图像大小，产生输出图像。

在相同层级的编码器与解码器之间，编码器每个下采样层产生的输出图像除了进入下一层的下采样层外，还会参与到不同层级之间的特征融合。在本发明中，将第2层、第3层输出的特征图与第4层输出的特征图输入融合特征模块1，第2层输出的特征图与第3层输出的特征图输入融合特征模块2，第2层单独输入融合特征模块3。以融合特征模块1的计算过程为例，编码器中5层下采样层的中间3层输出[X₂,X₃,X₄]，以浅层输出向深层输出融合的方式，将全局语义信息从低级阶段逐步引入到高级阶段；[X₂,X₃,X₄]通过3×3的卷积映射到X₄通道维度，[X₂,X₃,X₄]经过上采样扩展与X₄相同的分辨率，拼接[X₂,X₃,X₄]；为提取不同层次的全局上下文信息，拼接后的特征图通过具有不同膨胀率(1，2和4)的空洞卷积，产生融合特征图输出，此过程可以表示为：

其中，F_i表示第i层的融合特征输出，X_i表示编码器下采样层的输出，f^3×3表示3×3的卷积，Cat表示拼接操作，

表示膨胀率为2^i-k的空洞卷积，

表示按元素相乘。。

每个融合特征模块产生的融合特征具有丰富的语义信息，保留了更多的小目标语义信息，协助网络提升检测性能。融合模块的输出特征进入注意力机制模块，放大目标信息，抑制背景信息，同时消除融合特征过程中产生的语义冲突，避免冲突信息的干扰。

注意力机制模块由两个并行分支构成，第一个分支包含两个卷积块，每一个卷积块由卷积层、批归一化层和激活函数层组成；第二个分支包含三个卷积块，在第一个与第二个卷积块之间包含一个池化层；两个分支的计算过程可表示为：

其中，X₁表示第一个分支输入特征，X₂表示第二个分支输入特征，

表示包含3×3的卷积、批归一化和ReLU激活函数的卷积块，

表示包含3×3的卷积、批归一化和Sigmoid激活函数的卷积块，

示包含1×1的卷积、批归一化和ReLU激活函数的卷积块，Avg表示平均池化。

两条分支的输出与输入特征元素相乘，得到注意机制模块的输出，可以表示为：

其中，F_in表示注意力机制模块的输入特征，

表示元素相乘，F_out表示注意力机制模块的输出特征。

解码器的上采样层之间通过注意力机制模块，在提取特征图关键信息的同时，融合解码器输出特征信息，增强网络的信息提取能力，提升鲁棒性。

在整个网络的训练过程中，将检测图像与真实标签图像的差异作为损失函数，迭代训练优化网络参数，待损失稳定后，将检测图像输入到训练好的神经网络，解码器的输出图像为最终检测结果。该损失可表示为：

L_total＝L₂+λL_softmax

其中，L₂表示L2损失，L_softmax表示交叉熵损失，λ表示权重参数取值为10。

测试阶段，将测试样本图像输入到网络中，经过编码器抽象语义信息，解码器还原图像维度，配合网络中各模块的相互作用，得到最终的检测结果。

图3为本实施例检测效果展示图，图3中a、c为原始输入的红外图像，b、d为经过红外小目标检测网络检测后的输出图像，从图3可以看出，本发明所提出的注意力导向金字塔融合的红外小目标检测方法能够准确地检测目标，且保留完整边缘轮廓。

图4为本实施例3维检测效果展示图，图4中a、c为原始输入图像的3维展示，b、d维经过红外小目标检测网络检测后的输出图像的3维展示，从图4中可以看出，本发明所提出的方法能够在复杂杂波背景中更好地提取小目标的关键信息，减少背景噪声的干扰。

以上所述的实施例仅为本发明的一个实施例，不是本文发明所有实施例范围的限制，对于本领域的普通技术人员，可以理解在不脱离本发明的工作原理及创新的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，该方法包括以下步骤：

步骤3、神经网络编码器各层的输出图像进入多尺度融合模块，丰富目标信息；多尺度融合模块的输出图像与相同层级解码器的输出图像拼接，经过注意力机制模块，放大关键信息；

步骤4、神经网络编码器的输出图像进入上下文金字塔模块，关联图像上下文信息，产生的输出图像进入解码器；

步骤5、将检测图像与真实标签图像的差异作为损失函数，迭代训练优化网络参数，待损失稳定后，将测试数据集中的图像输入到训练好的神经网络，解码器的输出图像为最终检测结果。

2.根据权利要求1所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，红外图像在编码器-解码器结构的神经网络中经过5层下采样层产生编码器输出图像，放大特征图通道维度倍数，缩小图像分辨率，提取抽象目标语义信息；堆叠通道维度图像进入包含5层上采样层的解码器还原图像维度，产生的单通道图像作为神经网络的输出，完成检测任务。

3.根据权力要求1所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，编码器中5层下采样层的中间3层输出[X₂,X₃,X₄]，以浅层输出向深层输出融合的方式，将全局语义信息从低级阶段逐步引入到高级阶段；[X₂,X₃,X₄]通过3×3的卷积映射到X₄通道维度，[X₂,X₃,X₄]经过上采样扩展分辨率与X₄相同，拼接[X₂,X₃,X₄]；为提取不同层次的全局上下文信息，拼接特征图通过具有不同膨胀率(1，2和4)的空洞卷积，产生融合特征图输出，此过程可以表示为：

其中，F_i表示第i层的融合特征输出，X_i表示编码器上采样层的输出，f^3×3表示3×3的卷积，Cat表示拼接操作，

表示膨胀率为2^i-k的空洞卷积，

表示按元素相乘。

4.根据权利要求1所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，注意力机制模块由两个并行分支构成，第一个分支包含两个卷积块，每一个卷积块由卷积层、批归一化层和激活函数层组成；第二个分支包含三个卷积块，在第一个与第二个卷积块之间包含一个池化层；两个分支的计算过程可表示为：

表示包含3×3的卷积、批归一化和ReLU激活函数的卷积块，

表示包含3×3的卷积、批归一化和Sigmoid激活函数的卷积块，

示包含1×1的卷积、批归一化和ReLU激活函数的卷积块，Avg表示平均池化；

两条分支的输出与输入特征元素相乘，得到注意机制模块输出，可以表示为：

其中，F_in表示注意力机制模块输入特征，

表示元素相乘，F_out表示注意力机制模块输出特征。

5.根据权力要求1所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，上下文金字塔模块将输入特征经过1×1卷积降维后，并行经过多个不同尺度层处理，建立金字塔结构，拼接层级输出结果经过1×1的卷积作为上下文金字塔模块的输出。

6.根据权利要求5所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，不同尺度层建立上下双分支结构分别关注语义的局部关联和全局关联，局部关联是指将输入特征图X_in划分为n×n个小块，大小为w×h，计算像素之间的关联性信息，将输出的特征映射集中到一起，形成新的局部关联特征映射X_out1；全局关联映射是指将输入特征图X_in经过平均池化提取块内特征，通过非局部关联分析块之间的上下文信息，整合通道维度权重获得更准确的上下文导向，输出全局关联特征映射X_out2，局部关联与全局关联的计算可表示为：

X_out1＝NonLock(X_in)

其中，NonLock()表示常见的非局部网络，

表示包含3×3的卷积、批归一化和ReLU激活函数的卷积块，

表示包含3×3的卷积、批归一化和Sigmoid激活函数的卷积块，Avg表示平均池化；

其中，

表示按元素相乘。

7.根据权利要求1所述的一种基于注意力导向金字塔融合的红外小目标检测方法，其特征在于，损失函数通过计算检测图像与真实标签图像的差异，可表示为：

L_total＝L₂+λL_softmax