CN115546502A

CN115546502A - 一种基于YOLOv4多尺度特征融合的红外小目标检测方法

Info

Publication number: CN115546502A
Application number: CN202211262382.6A
Authority: CN
Inventors: 任获荣; 黄雪影; 赵毅
Original assignee: Xi'an Radium Photoelectric Technology Co ltd
Current assignee: Xi'an Radium Photoelectric Technology Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-30

Abstract

本发明公开了一种基于YOLOv4多尺度特征融合的红外小目标检测方法，改善传统红外小目标检测方法在把不同背景下鲁棒性差、特征耦合以及特征易缺失的问题。该发明含有，1、获取红外小目标检测图像进行预处理；2、提取图像的全局特征，对目标区域进行扩张卷积后的特征嵌入全局分支中；3、使用滑动窗口对原始图像进行采样并进行下采样降低原始图像分辨率，得到对抗网络模型输入训练好的生成对抗网络模型；4、将主干网络输出的局部增强的特征、获取的全局特征和上下文特征，通过学习不同的权值相互融合；5、融合后的模块输入空间自注意机制；6、计算损失函数得到最终检测结果。该技术能够适应在不同环境下红外小目标检测的需求。

Description

一种基于YOLOv4多尺度特征融合的红外小目标检测方法

技术领域

本发明涉及图像处理技术与模式识别技术领域，特别是涉及一种基于YOLOv4多尺度特征融合的红外小目标检测方法。

背景技术

红外成像能力在没有照明的情况下，可以穿透障碍物，提供比较清晰的图像，因此，红外小目标检测在预警系统、遥感以及目标跟踪等领域有着不可替代的作用。但是，一方面，小目标缺乏与其区别的外观信息、形状和纹理特征，锁定小物体的位置就会产生更多的不确定性。另一方面，在复杂背景下，由于噪声、湿度、距离等各种因素影响下，目前的方法还有很大的虚警率甚至漏检。因此，目前红外小目标检测还存在很大的困难与挑战。

传统方法假设背景是静态的或者相邻帧中目标图像一致，利用背景与红外小目标之间的差异进行检测，这样很容易因为对比度不明显造成特征缺失，导致漏检以及“假阳性”的检测结果。同时外界条件造成的背景图像的动态变化影响最终检测结果，因此传统方法对于多样性的变化没有很好的鲁棒性。

近年来，随着卷积神经网络在深度学习中的快速发展，一些基于卷积神经网络的红外小目标检测方法取得了巨大的进展。卷积神经网络能够以端到端的方式学习红外小目标图像的深度语义特征，因此目标检测网络应用于很多领域。相关工作有：杨其利等人提出了一种基于全卷积网络的红外弱小目标检测算法，构建了基于递归卷积层的全卷积网络，增强了复杂环境下目标和背景之间的对比度(见参考文献：杨其利,周炳红,郑伟,等.基于全卷积网络的红外弱小目标检测算法[J].红外技术,2021,43(4):349-356)；蔡云泽针对远距离红外目标检测中算法漏检率和虚警率高等问题，设计了双通道特征提取模块，通过特征增强丰富了目标特征(见参考文献：蔡云泽,张彦军.基于双通道特征增强集成注意力网络的红外弱小目标检测方法[J].空天防御,2021,4(4):14-22)；汪龙鑫等人使用条件对抗生成网络以及YOLOv3-tiny检测器构建了红外小目标检测与跟踪系统，优化了红外图像背景复杂、信杂比低、目标尺寸小等问题(见参考文献：汪龙鑫,曾丹,朱晓强.空基红外小目标检测与跟踪系统[J].工业控制计算机,2022,35(5):39-41)。

发明内容

本发明针对传统红外小目标检测方法在把不同背景下鲁棒性差、特征耦合以及特征易缺失的问题，提供一种检测结果的准确性高、不同场景下较高鲁棒性好的基于YOLOv4多尺度特征融合的红外小目标检测方法。

本发明的技术解决方案是，提供一种具有以下步骤的基于YOLOv4多尺度特征融合的红外小目标检测方法：含有以下步骤，

步骤1、获取红外小目标检测图像，对图像进行预处理，调整为统一尺寸；

步骤2、提取图像的全局特征，对目标区域进行扩张卷积，将扩张卷积获取的特征嵌入全局分支中，学习目标区域的上下文信息；

步骤3、使用滑动窗口对原始图像进行采样，将采样后的图像块序列进行下采样降低原始图像分辨率，得到的低分辨率图像用于训练生成对抗网络模型，将滑动窗口采样的图像块序列输入训练好的生成对抗网络模型，获取局部特征增强的图像；

步骤4、将步骤3得到的图像输入YOLOv4的主干网络，将主干网络输出的局部增强的特征、步骤2中获取的全局特征和上下文特征，通过学习不同的权值相互融合；

步骤5、融合后的模块输入空间自注意机制，增强红外小目标在空间结构中的依赖响应；

步骤6、计算损失函数，通过YOLOv4的头部网络对红外小目标位置回归，得到最终的检测结果。

优选地，所述步骤1中输入待检测图像，采用Opencv中的resize()函数，将尺寸调整到同一大小。

优选地，所述步骤2中获取输入图像的全局特征信息包括以下步骤：

步骤2.1、将待检测图像输入卷积神经网络进行特征提取，抽象出目标对象的全局特征表示；

步骤2.2、引入扩张卷积，学习上下文信息，增强全局特征提取的表示能力；

步骤2.3、将上下文信息嵌入全局分支当中，获取更加完整的特征信息与先验表示。

优选地，所述步骤3中构建生成对抗网络模型，获取局部特征增强的高分辨率图像，包括以下步骤：

步骤3.1、设置滑动窗口的尺寸大小为16×16，滑动步数为12；

步骤3.2、采用双三次插值方法对滑动窗口图像序列进行下采样得到低分辨率图像；

步骤3.3、将得到的水平方向和垂直方向都缩放为原来一半的图像输入生成器，鉴别器为正常图像序列，引入随机噪声，通过生成器与鉴别器的对抗学习，计算损失函数，训练生成对抗网络模型；

步骤3.4、将滑动窗口采样的图像块序列输入训练好的生成对抗网络模型，获取局部特征增强的高分辨率图像。

优选地，所述步骤4中融合全局特征与局部增强特征包括以下步骤：将得到的高分辨率图像输入YOLOv4的主干网络，通过CSPDarknet53输出的不同尺度的特征，输出的不同尺度特征与步骤2中获得的全局特征设置不同的权重，卷积后将不同尺度的特征进行融合相加。

优选地，所述步骤5将融合后的模块输入空间自注意机制，包括以下步骤：步骤5.1、设置特征融合模块的输出特征图为[C×H×W]，H、W和C分别表示特征映射的高度、宽度和通道；

步骤5.2、将其输入三个1×1卷积中，生成三个特征映射F1、F2和F3；

步骤5.3、通过重构F1、F2和F3，衡量特征图不同位置之间的影响，首先对F1的转置以及F2进行矩阵乘法；然后通过Softmax归一化函数得到F4；

步骤5.4、最后，对F3和F4进行矩阵乘法运算，得到最终的输出[C×H×W]。

优选地，所述所述步骤6中，定义总体损失函数：

Loss＝L_GAN+L_Class+L_Box

其中，L_GAN、L_Class、L_Box分别为生成对抗网络模型损失函数、分类损失函数和边界框回归损失函，

分类损失函数具体定义如下：

其中，

和

分别表示第i格第j个边界框中对象所属类别c的预测概率和真实概率；

边界框回归损失函数具体定义如下：

其中，IOU表示预测边界框和真值边界框的并集的交集，w^gt、h^gt分别是边界框的真值宽度和高度，w和h分别为预测的包围框宽度和高度，ρ²(b,b^gt)表示预测边界框和真值边界框中心点之间的欧氏距离，c表示预测边界框和真值边界框的最小对角线距离，根据目标对象的真类和模型预测类，可以将样本数据分为真阳性(TP)、假阳性(FP)、真阴性TN)和假阴性(FN)四类，最后通过查全率、查准率和F₁来评判网络结构的检测准确率，具体公式如下：

其中F表示预测为目标中真实目标的比例，R表示被成功预测的比例，F₁表示红外小目标检测网络的精度。

与现有技术相比，本发明基于YOLOv4多尺度特征融合的红外小目标检测方法具有以下优点：

1、现有特征融合技术主要只应用一种卷积神经网络或在同一步骤将通过不同的处理方法获取多个特征，然后将多特征的信息进行简单融合，并没有仔细考虑特征融合过程中的耦合性以及不同特征对最后检测结构的影响程度，本发明充分考虑了全局特征、上下文信息以及增强的局部特征，分别提取不同尺度的特征，然后再根据不同特征对检测结果的影响对不同的特征学习不同的权重，不仅避免了在同一步骤特征间的影响，而且通过调节权重可以有效提高检测结果的准确性。

2、首先，将全局特征的提取、上下文特征以及局部特征的增强这三部分设计成预处理的过程，通过不同的网络结构以及方法提取多尺度特征，减少了在同一步骤处理过程中的特征耦合以及特征缺失问题；然后，通过赋予局部增强特征、全局特征和上下文信息不同的学习权重，对不同尺度特征对最后检测结果的准确性进行精确化，提高在不同环境下该方法的鲁棒性；最后引入空间自注意机制，获取小目标在空间中的相对依赖关系，输出最后的检测结果。

与现有的红外小目标检测技术相比更全面、更可靠，能够适应在不同环境下红外小目标检测的需求。

附图说明

图1是本发明的工作流程示意图；

图2是本发明的模块框架图；

图3是本发明的局部特征增强模块示意图；

图4是本发明的特征融合模块示意图；

图5是本发明的空间自注意机制模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面结合附图和具体实施方式对本发明基于YOLOv4多尺度特征融合的红外小目标检测方法作进一步说明：如图1所示，本实施例中分为图像初始化模块、模型初始化模块、特征增强模块、全局情景学习模块、特征融合模块、空间自注意机制模块、分类模块七个部分，前四个模块主要为特征融合模块提供前提条件，后两个模块通过增强位置响应设计多任务损失函数对红外小目标位置进行回归与分类。具体包括如下步骤：

S1.获取红外小目标检测图像，对图像进行预处理，调整为统一尺寸。

S1中，对原始图像进行预处理，具体为采用Opencv中的resize()函数，可以输出尺寸相同的图像，可以减少图像尺寸对网络性能以及结构的影响。

cv.resize(src,dsize,dst＝None,f_x＝None,f_y＝None,interpolation＝None)

其中，src表示原始输入图像，dsize表示输出图像的尺寸，dst表示输出图像，f_x表示沿水平轴缩放的比例因子，f_y表示沿垂直轴缩放的比例因子，interpolation表示插值方法。

S2.提取图像的全局特征，进一步对目标区域进行扩张卷积，将扩张卷积获取的特征嵌入全局分支中，从而学习到目标区域的上下文信息。

S2主要包括以下几个步骤：

S21.将待检测图像输入1×1卷积神经网络进行特征提取，抽象出目标对象的全局特征表示。

S22.为了学习上下文信息，引入3×3的扩张卷积，将输入图像进行不同扩张率的卷积操作，空洞率分别设置为2、4、8，有效地扩大图像的感受野。

S23.将情景学习的特征嵌入全局分支当中，输入到3×3的卷积层，经过ELU激活函数后，缓解了梯度消失问题，而且用Batch Normalization(批标准化)对特征进行归一化操作，提取出更加完整的特征信息与先验表示。

其中，x＞0部分缓解了梯度消失问题，x≤0部分能够对输入变化或噪声更具有鲁棒性。

S3.使用滑动窗口对原始图像进行采样，将采样后的图像块序列进行下采样降低原始图像分辨率，得到的低分辨率图像用于训练生成对抗网络模型，将滑动窗口采样的图像块序列输入训练好的生成对抗网络模型，获取局部特征增强的图像。

S3主要包括以下几个步骤：

S31.滑动窗口的尺寸大小设置为16×16，滑动步数设置为12。

S32.采用双三次插值方法对滑动窗口图像序列进行下采样得到低分辨率图像，不仅增加了对像素的平滑处理，而且引用了周围十六个像素点可以提供更为准确的信息。训练样本图像A的尺寸大小为M×N，缩放K倍后为图像B，尺寸大小为m×n，K＝M/m，利用BiCubic(双三次插值)函数求出像素点的权重W(x)：

其中，x表示邻近像素点到图像B中的距离，a取-0.5。

由于图像B的位置和上述像素点的权重有关，因此可求出图像B在点(i,j)处的值：

S33.搭建的生成对抗网络模型由2个上采样分步卷积层构成的生成器和3个卷积层构建的鉴别器组成，为了更接近真实情况考虑对输入图片加入随机噪声。将S32中得到的水平方向和垂直方向都缩放为原来的一半的图像输入生成器，鉴别器为正常图像序列，通过生成器与鉴别器的对抗学习，计算对抗网络模型的损失函数：

其中，G表示生成器，D表示鉴别器，E(*)表示分布函数的期望值，P_data(x)代表着真实样本的分布，P_noise(z)是定义在低维的噪声分布。生成对抗网络的结构如图3所示。

S34.将滑动窗口采样的图像块序列输入训练好的生成对抗网络模型，获得局部特征增强的图像块序列。

S4.将S34得到的图像输入YOLOv4的主干网络，包括CSPDarknet53、Mish激活函数、Dropblock，将主干网络输出的局部增强的特征、S2获取的全局特征以及上下文特征，通过学习不同的权值相互融合。

在S4特征融合的过程中，把待融合特征分为两个通道的三个尺度的特征，一部分是通过S2的全局特征和上下文特征，另一部分是S3增强后的图片输入YOLOv4的主干网络得到的局部增强特征。将特征分为两个通道进行单独处理，不仅能够减少不同尺度特征间的耦合影响，还能在很大程度上充分发挥不同网络的特点，获取信息更完整的单尺度特征。

S4中将经CSPDarknet53输出的不同尺度的特征与S2获得的全局特征输入3×3的卷积模块，同时根据不同特征的感受野对输出结果的贡献设置不同的可学习的权重记为W1、W2、W3，构建特征融合模块。通过设计不同的权重，可以衡量不同尺度特征对最后检测结果的影响程度，特征融合模块的网络结构如图4所示。

S5.将融合后的模块输入空间自注意机制，增强红外小目标在空间结构中的依赖响应，空间自注意机制模块的网络结构如图5所示。

红外小目标由于场景跨度大、成像距离远，红外小目标往往只占很少的像素，在小目标位置回归以及分类的过程中有很大的不确定性。在空间自注意机制中，通过重构不同尺度的特征映射，可以考虑到在不同空间中的位置关系的影响，增强红外小目标的回归位置条件。

S5主要包括以下几个步骤：

S51.设置特征融合模块的输出特征图为[C×H×W]，其中，H、W和C分别表示特征映射的高度、宽度和通道。

S52.将其输入三个1×1卷积中，生成三个特征映射F1、F2和F3，其中F1、F2、F3∈[C×H×W]。

S53.通过重构F1、F2和F3，衡量特征图不同位置之间的影响。首先对F1的转置∈(H×W)×C以及F2∈C×(H×W)进行矩阵乘法；然后通过Softmax归一化函数得到F4∈(H×W)×(H×W)。

S54.最后，对F3∈[C×H×W]和F4进行矩阵乘法运算，得到最终的输出[C×H×W]。

S6.计算损失函数，通过YOLOv4的头部网络对红外小目标位置回归，得到最终的检测结果。

整个网络上设计中主要考虑三部分的任务损失函数，即：S3中的生成对抗网络损失函数、S6中的分类损失函数与边界框回归损失函数。S6中，定义一种基于YOLOv4多尺度特征融合的红外小目标检测方法的总体损失函数：Loss＝L_GAN+L_Class+L_Box

其中，L_GAN、L_Class、L_Box分别为生成对抗网络模型损失函数、分类损失函数和边界框回归损失函数。

分类损失函数具体定义如下：

其中，

和

分别表示第i格第j个边界框中对象所属类别c的预测概率和真实概率。

边界框回归损失函数具体定义如下：

其中，IOU表示预测边界框和真值边界框的并集的交集，w^gt、h^gt分别是边界框的真值宽度和高度，w和h分别为预测的包围框宽度和高度，ρ²(b,b^gt)表示预测边界框和真值边界框中心点之间的欧氏距离，c表示预测边界框和真值边界框的最小对角线距离。

根据目标对象的真类和模型预测类，可以将样本数据分为真阳性(TP)、假阳性(FP)、真阴性TN)和假阴性(FN)四类，最后通过查全率、查准率和F₁来评判网络结构的检测准确率。具体公式如下：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：含有以下步骤，

2.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述步骤1中输入待检测图像，采用Opencv中的resize()函数，将尺寸调整到同一大小。

3.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述步骤2中获取输入图像的全局特征信息包括以下步骤：

4.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述步骤3中构建生成对抗网络模型，获取局部特征增强的高分辨率图像，包括以下步骤：

步骤3.1、设置滑动窗口的尺寸大小为16×16，滑动步数为12；

5.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述步骤4中融合全局特征与局部增强特征包括以下步骤：将得到的高分辨率图像输入YOLOv4的主干网络，通过CSPDarknet53输出的不同尺度的特征，输出的不同尺度特征与步骤2中获得的全局特征设置不同的权重，卷积后将不同尺度的特征进行融合相加。

6.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述步骤5将融合后的模块输入空间自注意机制，包括以下步骤：步骤5.1、设置特征融合模块的输出特征图为[C×H×W]，H、W和C分别表示特征映射的高度、宽度和通道；

步骤5.3、通过重构F1、F2和F3，衡量特征图不同位置之间的影响，首先对F1的转置以及F2进行矩阵乘法；然后通过Softmax归一化函数操作得到F4；

7.根据权利要求1所述的基于YOLOv4多尺度特征融合的红外小目标检测方法，其特征在于：所述所述步骤6中，定义总体损失函数：

Loss＝L_GAN+L_Class+L_Box

分类损失函数具体定义如下：

其中，

和

边界框回归损失函数具体定义如下：