CN116824317A

CN116824317A - 一种基于多尺度特征自适应融合的水上红外目标检测方法

Info

Publication number: CN116824317A
Application number: CN202310544364.5A
Authority: CN
Inventors: 张卫东; 张文波; 郭东生; 吴迪; 黄梦醒; 张永辉; 沈重; 王咸鹏
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-29

Abstract

本发明提供了一种基于多尺度特征自适应融合的水上红外目标检测方法，该方法包括：对输入的水上红外图像进行自适应缩放，统一输入图像尺寸。使用特征提取网络得到多尺度特征信息。然后，通过双向跳跃连接特征融合模块对多尺度特征信息进行初步的特征融合。初步融合后的特征再经过多尺度特征自适应融合模块输出最终的特征信息，其中，所述多尺度特征自适应融合模块通过高效频率通道注意力模块来自适应调整不同尺度特征层之间的融合比例。最后，预测层对特征信息进行预测，得到多个预测框，使用非极大值抑制方法来确定目标框、目标类别和置信度，从而检测到目标。本发明能够适应复杂多变的水上场景，提升水上红外目标检测的准确性和抗干扰能力。

Description

一种基于多尺度特征自适应融合的水上红外目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于多尺度特征自适应融合的水上红外目标检测方法。

背景技术

水上无人系统是无人艇和无人机上不可缺少的关键技术，是未来执行水上监控、水上救援、水上运输、空海协同等任务的主要手段，在民用和军事领域内具有重要的应用意义。水上红外目标检测技术是水上无人系统的主要研究内容之一，是在低照度和黑暗情况下实现水上环境感知的核心技术。水上无人系统可利用水上红外目标检测技术在低照度环境下实现自主探测、自主决策、自主避障等功能。

由于水上环境相比较陆上场景更加复杂，水上红外目标检测经常受到大雾、海浪以及日光反射的影响，环境干扰因素较多，提高了目标检测难度。并且，红外目标缺少颜色和纹理信息，特征信息弱，使得水上红外目标检测变得非常地艰难。

针对上述的水上红外目标检测难点，传统的水上红外目标检测算法中通常是根据目标本身灰度值和邻域背景信息等相关图像信息来设计特征进行检测识别，这些特征不论采用局部特征还是全局特征，都是人工设计的特征模型。根据不同应用的场景预先设置特征策略，复杂的水上红外场景一旦超出预置的条件，已有的传统算法就很难适用，检测能力较难提高。随着深度学习的快速发展，卷积神经网络模型突破了人工设计特征的局限，且表现出优秀的性能。它通过数据集训练可以自主设计特征，更好地适应水上红外目标检测，提升目标检测的鲁棒性。由于水上红外目标图像的特殊性，多为小目标并且缺乏纹理信息，通常的基于深度学习的红外目标检测方法采用简单的特征融合来增强特征，虽然提升了检测效果，但是对于复杂水上环境适应性较差，检测稳定性较低，抗干扰能力弱，导致水上红外目标检测效果差，易检错目标。

发明内容

有鉴于此，本发明的目的在于提出一种基于多尺度特征自适应融合的水上红外目标检测方法，以解决复杂水上环境目标检测效果差的问题。

基于上述目的，本发明提供了一种基于多尺度特征自适应融合的水上红外目标检测方法，包括以下步骤：

S1、对输入的水上红外图像进行预处理；

S2、将预处理后的图像通过特征提取网络得到四种不同层次的多尺度深度特征图；

S3、将四种不同层次的多尺度深度特征图通过双向跳跃连接特征融合，输出初步融合后的四种不同尺度的特征信息；

S4、将初步融合后的四种不同尺度的特征信息经过多尺度特征自适应融合，输出最终的特征信息，包括通过高效频率通道注意力模块获得不同尺寸特征图中不同通道的注意力权重，将注意力权重与相应的不同尺寸特征图的不同通道信息进行自适应加权，自适应调整不同特征层之间的融合比例，输出三种尺度特征信息；

S5、将三种尺度特征信息输入预测层，预测出多个预测框，通过非极大值抑制方法从多个预测框中确定最终的目标框、目标类别和置信度，获得目标检测结果。

优选地，预处理包括对输入的水上红外图像进行自适应缩放，统一输入图像尺寸为640×640×3大小。

优选地，步骤S2中，特征提取网络为CSP-Darknet53特征提取网络，包括CBS模块、C3模块和SPPF模块，其中CBS模块为卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成，C3模块是由3个CBS卷积模块构成的残差结构，SPPF模块先通过CBS卷积模块，然后通过3个5×5的最大池化层来抽取不同尺度特征，再通过通道合并实现多尺度特征融合。

优选地，步骤S2具体包括以下子步骤：

S21、640×640×3的水上红外图像输入特征提取网络后，经过两个CBS模块和一个C3模块可以得到160×160×128的特征图P₁；

S22、经过一个CBS模块和一个C3模块得到80×80×256的特征图P₂，之后经过一个CBS模块和一个C3模块得到40×40×512的特征图P₃，再之后经过一个CBS模块、一个C3模块和SPPF模块后得到20×20×1024的特征图P₄。

优选地，步骤S3进一步包括：

S31、通过双向跳跃连接特征融合，将输入的P₁、P₂、P₃、P₄特征图，通过自顶向下和横向跳跃结合方式将深层特征向浅层特征融合输出B₁、B₂、B₃、B₄特征，具体融合过程包括：

B₁＝Conv(P₁)

B₁是由P₁横向跳跃连接过来的，式中，Conv为卷积操作；

B₄是由P₄和B₃特征信息融合而成的，式中，Upsample为上采样运算操作，ω_i为每条路径上的权重，由反向传播得到，ε为防止数值不稳定设置的学习率，参数设置为0.0001，B₃是由P₃和B₂特征信息根据相同的融合方式得到的，B₂是由P₂和B₁特征信息根据相同的融合方式得到的；

S32、对B₁、B₂、B₃、B₄特征进行自低向上和横向跳跃连接的特征融合，输出初步融合后的四种不同尺度的特征信息F₁、F₂、F₃、F₄特征，具体融合过程包括：

F₁是由B₁、F₂和横向跳跃连接的P₁特征信息融合而成的，式中，Downsample为下采样运算操作，ω′_i为每条路径上的权重，由反向传播得到。根据相同的融合方式，F₂是由P₂、B₂和F₃特征信息融合而成的，F₃是由P₃、B₃和F₄特征信息融合而成的。

F₄是由P₄和B₄特征信息融合而成的。

优选地，步骤S4进一步包括以下子步骤：

S41、多尺度特征自适应融合模块对特征提取网络输出的多尺度F₁、F₂、F₃、F₄特征图，通过尺度变化把多尺度特征图都统一到相同的尺度和通道数，第一次按照F₁的尺度进行调整，得到相同尺度的特征图为X₁、X₂、X₃和X₄，然后经过通道拼接统一特征图为X，

X＝Cat([X₁,X₂,X₃,X₄])

其中，Cat(·)表示对所有特征图进行通道拼接操作；

S42、不同尺度变换来的特征图X_i通过高效频率通道注意力模块获取不同特征图中不同通道注意力权重E_i，

E_i＝EFCA(X_i)，i＝1,2,3,4

其中，EFCA(·)代表利用高效频率通道注意力模块EFCA，来获取不同特征图不同通道的注意力。E_i为特征X_i的通道注意力权重值；

S43、对整个多尺度通道注意力进行通道拼接，得到新的权重E，

其中，表示通道拼接操作，E_i为每个多尺度通道注意力权重；

S44、采用归一化指数函数Softmax重新自适应分配通道注意力E，从而得到多尺度特征自适应加权的通道注意力权重att_i，

其中，Softmax(·)表示Softmax函数，用于获取不同尺度特征图中通道重新标定权重att_i；

S45、将通道注意力权重向量att_i与不同尺度特征图X_i的通道信息进行自适应加权，通过并行组合输出多尺度特征图Y₁，

其中，表示特征加权的乘法运算符号。通道拼接操作能在不破坏原始特征信息的前提下，完整地保持特征信息；

S46、多尺度特征自适应融合模块依次按照F₁、F₂、F₃尺度，重复S41-S45的步骤输出3种尺度特征信息Y₁、Y₂、Y₃。

优选地，步骤S42具体包括：

S421：EFCA对输入特征图X进行尺寸压缩，经离散余弦变换操作得到一个特征向量s＝(s₁,s₂,…,s_c)，作为一维卷积操作的输入，其中，s＝(s₁,s₂,…,s_c)的计算方式为：

其中，i∈{0,1,…,H-1}和j∈{0,1,…,W-1}表示DCT的分量下标，每一块采用不同的频率分量，为DCT的基本函数，

S422：通过核为k的一维卷积对通道与其相邻k-1个通道信息进行信息交互，再经过Sigmoid函数得到权重向量E＝(E₁,E₂,…,E_c)，

E＝σ(C1D_k(s))

其中，σ为Sigmoid函数，卷积核k＝5。

优选地，步骤S2中，特征提取网络需要在使用前进行训练，训练选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集，将数据集随机分为训练集、验证集和测试集，所占数据量分别为80％、10％和10％。

优选地，在网络训练前，根据不同的目标检测数据集，自动设定初始锚框的大小，训练参数设置batchsize为16，测试时batchsize为1，epoch为500，初始化学习率为0.01，学习率动量为0.937。

本发明的有益效果：本发明适用于水上无人系统对红外目标检测场景，通过本发明提供的水上红外目标检测方法，有效解决了在复杂水上环境中水上红外目标检测效果差，抗干扰能力弱的问题。通过本发明提供的结合高效频率通道注意力的多尺度特征自适应融合模块，突显红外特征中重要的目标信息，增强水上红外特征信息，抑制水上复杂环境干扰等其他无关信息，提升水上红外目标检测的准确性和抗干扰能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的目标检测方法整体流程示意图；

图2是本发明实施例的目标检测方法网络结构总图；

图3是本发明实施例的目标检测方法网络详细结构图；

图4是本发明实施例的多尺度特征自适应融合模块结构图；

图5是本发明实施例的高效频率通道注意力模块结构图；

图6是本发明实施例的检测结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1和图2所示，本说明书实施例提供了一种基于多尺度特征自适应融合的水上红外目标检测方法，包括以下步骤：

S1、对输入的水上红外图像进行预处理，具体来说，是对输入的水上红外图像进行自适应缩放，统一将输入图像尺寸。

具体实施时，步骤S1中输入的水上红外图像是由水上无人系统采用红外摄像机采集的，对采集的水上红外图像进行自适应缩放，统一将输入图像尺寸变换为640×640×3大小。

S2、将预处理后的图像通过特征提取网络得到四种不同层次的多尺度深度特征图，四种尺度的特征信息分别主要包含弱小、小、中、大不同尺度的目标特征信息。

具体实施时，步骤S2中输入图像通过CSP-Darknet53特征提取网络提取不同层次的多尺度深度特征图。所述的特征提取网络CSP-Darknet53主要由CBS模块、C3模块和SPPF模块组成，如附图3所示。其中，CBS模块是一个基本的卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成。C3模块是由3个CBS卷积模块构成的残差结构。先按照通道数将特征图拆除两部分，一部分进行卷积，另一部分进行残差构建，最后进行通道合并。该模块可以缓解梯度消失的问题，增强网络泛化能力。SPPF模块先通过CBS卷积模块，然后通过3个5×5的最大池化层来抽取不同尺度特征，再通过通道合并实现多尺度特征融合，提高特征提取网络的尺度不变性。

具体实施时，步骤S2中4种不同层次的多尺度深度特征图为原输入图像4倍、8倍、16倍的、32倍下采样操作得到的4种尺度为160×160、80×80、40×40、20×20的P₁、P₂、P₃、P₄特征图。

在本实施例中，步骤S2的具体过程包括：

S21：640×640×3的水上红外图像输入特征提取网络后，经过两个CBS模块和一个C3模块可以得到160×160×128的特征图P₁。

S22：再经过一个CBS模块和一个C3模块得到80×80×256的特征图P₂，接着经过一个CBS模块和一个C3模块得到40×40×512的特征图P₃，最后经过一个CBS模块、一个C3模块和SPPF模块后得到20×20×1024的特征图P₄。

S3、将四种不同层次的多尺度深度特征图通过双向跳跃连接特征融合，输出初步融合后的四种不同尺度的特征信息，丰富了红外特征信息，增强对红外弱小目标的检测能力。

具体实施时，步骤S3包括：

S31、双向跳跃连接特征融合模块主要是将不同层级的特征信息进行融合，使网络不断调整权重以学习不同输入特征的重要性，如图3所示。通过双向跳跃连接特征融合，将输入的P₁、P₂、P₃、P₄特征图，通过自顶向下和横向跳跃结合方式将深层特征向浅层特征融合输出B₁、B₂、B₃、B₄特征，具体融合过程包括：

B₁＝Conv(P₁)

B₁是由P₁横向跳跃连接过来的，式中，Conv为卷积操作；

F₄是由P₄和B₄特征信息融合而成的。

具体实施时，步骤S4包括：在水上复杂环境下，为更好地突出水上红外弱小目标的特征信息，弱化复杂背景干扰信息，结合高效频率通道注意力模块(Efficient FrequencyChannel Attention，EFCA)和多尺度特征信息融合，设计了一种多尺度特征自适应融合模块(Multi-scale feature adaptive fusion，MFAF)，通过注意力模块来自适应加权多尺度特征信息进行融合，如图4所示。具体如下：

X＝Cat([X₁,X₂,X₃,X₄])

其中，Cat(·)表示对所有特征图进行通道拼接操作；

E_i＝EFCA(X_i)，i＝1,2,3,4

此方法不仅考虑到多尺度特征信息，同时能够有选择地处理关键的特征信息，对目标关键区域投入更多的注意力权重，以获取更多待检目标的细节信息，也相对弱化水上复杂环境干扰信息。

在本实施例中，步骤S42中所述高效频率通道注意力模块的具体实施过程包括：

本实例采用高效频率通道注意力模块EFCA作为核心注意力模块，根据学到的通道注意力权重对特征图进行加权处理，赋予与目标相关性较低的特征信息较低的权重，反之则赋予较高的权重，突显特征中重要的目标信息，抑制水上复杂环境干扰等其他无关信息。如图5所示，EFCA注意力模块使用离散余弦变换引入更多的频率分量来充分的利用特征信息，并且适当跨通道交互能够显著的降低模型参数。

步骤1：EFCA对输入特征图X进行尺寸压缩，经离散余弦变换(Discrete CosineTransform，DCT)操作得到一个特征向量s＝(s₁,s₂,…,s_c)，作为一维卷积操作的输入。其中，s＝(s₁,s₂,…,s_c)的计算方式如下：

步骤2：通过核为k的一维卷积对通道与其相邻k-1个通道信息进行信息交互，再经过Sigmoid函数得到权重向量E＝(E₁,E₂,…,E_c)

E＝σ(C1D_k(s))

其中，σ为Sigmoid函数，卷积核k＝5。

上述实施例中S1为输入待检测图像，S2为目标深度特征提取过程，S3和S4为多尺度特征信息融合，S5对三种尺度的特征图进行预测，输出最终检测目标。在实际的水上红外目标检测过程中，需要提前对网络模型进行训练，从而更好地完成整个目标检测过程。

本实施例选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集。将数据集随机分为训练集、验证集和测试集，所占数据量分别为80％、10％和10％。

本实施例训练过程中由于水上红外图像数据集数量有限，采用随机缩放、随机裁剪、随机排布的数据增强方式，丰富水上红外图像数据集，提升了红外目标检测的效果。在网络训练前，本实施例根据不同的目标检测数据集，自动设定初始锚框的大小。本实施例训练参数设置batchsize为16，测试时batchsize为1，epoch为500，初始化学习率为0.01，学习率动量为0.937。

本实施例在测试集上进行水上目标测试，测试结果如图6所示，左侧为YOLOv5算法识别结果，右侧为本实例识别结果。对比YOLOv5算法，本实例在不同背景、不同天气以及不同大小目标下，均能够有效检测到水上红外目标，并且精准度较高。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，包括以下步骤：

S1、对输入的水上红外图像进行预处理；

S5、将三种尺度特征信息输入预测层，预测出多个预测框通过非极大值抑制方法从多个预测框中确定最终的目标框、目标类别和置信度，获得目标检测结果。

2.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，所述预处理包括对输入的水上红外图像进行自适应缩放，统一输入图像尺寸为640×640×3大小。

3.根据权利要求2所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S2中，特征提取网络为CSP-Darknet53特征提取网络，包括CBS模块、C3模块和SPPF模块，其中CBS模块为卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成，C3模块是由3个CBS卷积模块构成的残差结构，SPPF模块先通过CBS卷积模块，然后通过3个5×5的最大池化层来抽取不同尺度特征，再通过通道合并实现多尺度特征融合。

4.根据权利要求3所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S2具体包括以下子步骤：

5.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S3进一步包括：

B₁＝Conv(P₁)

B₁是由P₁横向跳跃连接过来的，式中，Conv为卷积操作；

F₄是由P₄和B₄特征信息融合而成的。

6.根据权利要求5所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S4进一步包括以下子步骤：

X＝Cat([X₁,X₂,X₃,X₄])

其中，Cat(·)表示对所有特征图进行通道拼接操作；

E_i＝EFCA(X_i)，i＝1,2,3,4

7.根据权利要求6所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S42具体包括：

E＝σ(C1D_k(s))

其中，σ为Sigmoid函数，卷积核k＝5。

8.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，步骤S2中，特征提取网络需要在使用前进行训练，训练选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集，将数据集随机分为训练集、验证集和测试集，所占数据量分别为80％、10％和10％。

9.根据权利要求8所述的基于多尺度特征自适应融合的水上红外目标检测方法，其特征在于，在网络训练前，根据不同的目标检测数据集，自动设定初始锚框的大小，训练参数设置batchsize为16，测试时batchsize为1，epoch为500，初始化学习率为0.01，学习率动量为0.937。