CN112101434B

CN112101434B - 基于改进YOLO v3的红外图像弱小目标检测方法

Info

Publication number: CN112101434B
Application number: CN202010926384.5A
Authority: CN
Inventors: 李永军; 李莎莎; 李鹏飞; 杜浩浩; 陈竞; 陈立家; 张东明; 秦勉
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-09-09
Anticipated expiration: 2040-09-04
Also published as: CN112101434A

Abstract

本发明提供了基于改进YOLO v3的红外图像弱小目标检测方法，首先利用在轻量级特征提取网络中使用深度可分离卷积改进YOLOv3残差模块中的标准卷积操作，然后在轻量级特征提取网络每一个残差模块中引入通道自注意力机制，然后在轻量级特征提取网络每一个残差模块中引入空间自注意力机制，最后在轻量级特征提取网络中使用H‑swish激活函数加速网络训练，进而构建基于改进YOLO v3的红外图像弱小目标检测模型，搭建轻量级特征提取网络；本发明在网络模型设计过程中，使用了深度可分离卷积代替YOLO v3的标准卷积操作，通过多尺度提取特征图获得不同的感受野并降低参数，使得本发明具有网络参数大大减少、计算速度快的优点。

Description

基于改进YOLO v3的红外图像弱小目标检测方法

技术领域

本发明涉及图像目标技术检测领域，尤其涉及基于改进YOLO v3的红外图像弱小目标检测方法。

背景技术

红外成像是基于目标对红外光的反射和目标自身的热辐射进行成像，受光照强度条件的影响很小，不但在白天可以很好工作，也可以实现夜间目标检测。但是红外图像对比度较低、纹理特征弱、干扰大，检测目标在强噪声和相似背景的影响下，成为弱小目标，一般的目标识别算法很难适用。深度学习的出现，使得红外图像弱小目标检测有了突破性进展。尤其是基于回归的YOLO v3目标检测算法只需要对图片作一次卷积操作，然后直接在原始图像上通过回归的方法预测出目标的分类、位置和置信度，速度快、精度较高，获得了广泛应用。

西安电子科技大学拥有的在其专利技术申请“一种红外目标检测方法”(专利申请号：2018109063127，公开号：CN110826554A)中公开了一种基于迭代量化-局部敏感哈希的多尺度的红外目标检测方法。该方法引入局部敏感哈希和迭代量化编码方法，通过压缩图像的不同窗口滑动、连续数据二进制编码、候选框和目标框汉明距离计算实现目标位置确定。由于该专利使用粗精结合筛选以及汉明距离对候选框和目标模板库相似度计算，速度得到了一定的提升，但是由于是人工设计特征描述算子、提取图像特征，检测精度不是特别高。

李慕锴、张涛和崔文楠在论文“基于YOLO v3的红外行人小目标检测技术研究”(红外技术2020年42卷2期第176页到181页)中提出了一种基于YOLO v3的红外行人小目标检测方法。该方法，以YOLO v3网络为基础，学习了SENet(Squeeze-and-Excitation Networks)对特征进行权重重标定的思路，将SE block引入到YOLO v3网络中替换该网络的中的inception或者residual层。这种方法在红外行人小目标检测精度上取得了一定的效果，但是SENet仅显示建模特征通道间的相互依赖关系，对空间信息获取不足。

发明内容

本发明的目的在于提供基于改进YOLO v3的红外图像弱小目标检测方法，能够在网络模型每一个残差模块的空间和通道两个维度引入注意机制，使得本发明在执行卷积操作时能够更加关注图像中的目标信息，特别是小目标和遮挡目标的图像特征信息。

为了实现上述目的，本发明采用以下技术方案：

基于改进YOLO v3的红外图像弱小目标检测方法，其特征在于，包括以下步骤：

步骤1：构建基于改进YOLO v3的红外图像弱小目标检测模型，搭建轻量级特征提取网络；

步骤2：定义损失函数Loss，具体的：

用边界框的重叠程度和两个边界框的中心距离，以及预测框的长宽比和真实框的长宽比即CIou(Complete-IoU)作为边界框的损失函数Loss_CIoU，结合物体类别预测误差损失Loss_obj和预测置信度损失Loss_conf，则训练回归的损失函数Loss为：

其中，Loss表示训练回归的损失函数，

表示两个边界框中心的距离损失，α表示权重函数，ν表示预测框的长宽比和真实框的长宽比的相似性，c表示两个边界框所组成的最小矩形的对角线距离，ρ²(b,b^gt)表示两个边界框中心点的距离；

表示第i个网格中第j个边界框中是否存在目标，若存在目标，则

的值为1，计算两个边界框的中心坐标之间的差值；若不存在目标，则

的值为0，不计算损失；γ_noobj表示单元格中没有目标的置信度同样进行了加权操作，但会有较低的预测置信度做惩罚，本发明中γ_noobj取值0.5；S²表示输入图像被分割的网格数，B表示每个网格生成的包围框数，c_i表示预测的置信度，c′_i表示真实的置信度，p_i(c)表示是在网格i内目标属于c的真实概率，p′_i(c)表示在网格i内目标属于c的预测概率；

步骤3：选取红外图像组建红外图像数据集，对该数据集里的红外图像进行预处理，选取70％红外图像作为训练数据集，30％红外图像作为测试数据集；

步骤4：将红外图像训练数据集输入步骤1所述的基于改进YOLO v3的红外图像弱小目标检测模型，并利用步骤2所述的损失函数训练步骤1所述的基于改进YOLO v3的红外图像弱小目标检测模型；

步骤5：将红外图像测试数据集输入步骤4中训练好的基于改进YOLO v3的红外图像弱小目标检测模型，输出红外图像测试数据集目标预测边界框；

步骤6：对于输出的多个目标预测边界框，以GIou和边界框中心点距离的值作为筛选候选框的阈值，并使用高斯模型降低周围边界框的置信度，进行非极大值抑制，输出目标框，如下式所示:

这里b_i表示每个类别的预测边界框，S_i表示当前框的得分，M是具有最大分数的边界框,N_t表示筛选两个重叠框的阈值，这里取0.3,

表示两个边界框中心的距离损失，c表示两个边界框所组成的最小矩形的对角线距离，ρ²(b,b^gt)表示两个边界框中心点的距离。

所述的步骤1包括以下步骤：

步骤1.1：在轻量级特征提取网络中使用深度可分离卷积改进YOLOv3残差模块中的标准卷积操作；

步骤1.2：在轻量级特征提取网络每一个残差模块中引入通道自注意力机制；

步骤1.3：在轻量级特征提取网络每一个残差模块中引入空间自注意力机制；

步骤1.4：在轻量级特征提取网络中使用H-swish激活函数加速网络训练。

所述的步骤5包括以下步骤：

步骤5.1：将红外图像测试数据集中的红外图像通过纵横比、缩放操作，将红外图像大小统一设置为416×416×3，然后输入步骤4中训练好的基于改进YOLO v3的红外图像弱小目标检测模型；

步骤5.2：步骤5.1中输入的红外图像经过32个卷积核大小为1×1，步长为2的卷积层，得到对应的第一个下采样的特征图，大小为208×208×32；

步骤5.3：步骤5.2中下采样的特征图经过第一个步长为1的残差模块，得到大小为208×208×16的输出特征图；

步骤5.4：步骤5.3中输出特征图经过多个残差模块进行图像特征的提取，得到不同大小的特征图；

步骤5.5：最后使用1×1的卷积层，通过对步骤5.4中所述的不同大小的特征图进行物体类别、位置和置信度的预测，输出多个目标预测边界框。

所述步骤1.2包括以下步骤：

步骤1.2.1：待处理图片输入到特征提取网络残差模块中，分别经过卷积核大小为1×1和3×3的卷积层，输出特征图F；

步骤1.2.2：在特征图F上引入通道自注意力机制，利用特征之间的通道相关性，生成通道自注意力特征图M_c(F)，如下式所示：

M_c(F)＝δ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，M_c(F)表示通道自注意力特征图，δ表示激活函数，MLP是共享网络的多层感知机制，AvgPool(F)表示平均池化操作，MaxPool(F)表示最大池化操作。

所述步骤1.3包括以下步骤：

步骤1.3.1：步骤1.2.2中所述特征图F生成的通道自注意力特征图M_c(F)与特征图F执行加权操作得到加权特征图F1；

步骤1.3.2：对加权特征图F1使用平均池化操作AvgPool(F1)和最大池化操作MaxPool(F1)，生成两个2D的特征图

和

步骤1.3.3：对两个2D的特征图

和

通过卷积核大小为7×7的卷积层生成空间注意力特征图M_s(F1)，对需要强调或者抑制的地方进行编码，具体计算如下式所示：

其中M_s(F1)表示空间自注意力特征图，δ为激活函数，f^7×7代表卷积核大小7×7的卷积操作。

本发明的有益效果：

第一，由于本发明在网络模型设计过程中，使用了深度可分离卷积代替YOLO v3的标准卷积操作，通过多尺度提取特征图获得不同的感受野并降低参数，使得本发明具有网络参数大大减少、计算速度快的优点；

第二，由于本发明在网络模型每一个残差模块的空间和通道两个维度引入注意机制，使得本发明在执行卷积操作时能够更加关注图像中的目标信息，特别是小目标和遮挡目标的图像特征信息的优点；

第三，由于在模型训练过程中重新定义了YOLO v3的边界框预测标准，用GIou更加准确的表示两个边界框的重叠程度，结合GIou和两个边界框的中心距离，CIoU把anchor的长宽比和目标框的长宽比用比例系数进行衡量，使得本发明具有在训练过程中有着更快更准确的回归，也使得检测算法对于图像中的小目标检测具备更加友好的优点。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明所述基于改进YOLO v3的红外图像弱小目标检测模型的结构示意图；

图3为本发明所述红外图像(a1、b1、c1)以及对应的视觉图像(a、b、c)目标检测结果的示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所述的基于改进YOLO v3的红外图像弱小目标检测方法，包括以下步骤：

步骤1：构建基于改进YOLO v3的红外图像弱小目标检测模型，搭建轻量级特征提取网络；包括以下步骤：

上述操作可实现空间相关性和通道相关性同时进行映射；

步骤1.2：在轻量级特征提取网络每一个残差模块中引入通道自注意力机制；具体的，包括以下步骤：

M_c(F)＝δ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，M_c(F)表示通道自注意力特征图，δ表示激活函数，MLP是共享网络的多层感知机制，AvgPool(F)表示平均池化操作，MaxPool(F)表示最大池化操作；

步骤1.3：在轻量级特征提取网络每一个残差模块中引入空间自注意力机制；具体的，包括以下步骤：

和

步骤1.3.3：对两个2D的特征图

和

其中M_s(F1)表示空间自注意力特征图，δ为激活函数，f^7×7代表卷积核大小7×7的卷积操作；

步骤1.4：在轻量级特征提取网络中使用激活函数H-swish加快网络计算速度，具体计算如下所示：

步骤2：定义损失函数Loss，具体的：

其中，Loss表示训练回归的损失函数，

步骤5：将红外图像测试数据集输入步骤4中训练好的基于改进YOLO v3的红外图像弱小目标检测模型，输出红外图像测试数据集目标预测边界框；具体的，包括以下步骤：

步骤5.5：最后使用1×1的卷积层，通过对步骤5.4中所述的不同大小的特征图进行物体类别、位置和置信度的预测，输出多个目标预测边界框；

下面结合附图1对本发明的实现步骤做详细的描述。

步骤1.构建基于改进YOLO v3的红外图像弱小目标检测模型，搭建轻量级特征提取网络取代YOLO v3特征提取网络。

YOLO v3特征提取网络结构如表1所示，主要包括2个卷积层和8个残差模块，每个卷积层或残差模块输出的通道数用c表示，n表示卷积核的大小，s表示池化层步长，其他层的步长为；利用YOLO v3特征提取网络进行红外图像的特征提取主要包括以下步骤：

1)：输入的红外图像首先经过纵横比、缩放等操作，将红外图像大小统一设置为416×416×3；

2)；经过卷积核32个、大小为1×1、步长为2的卷积层得到第一个下采样的特征图，第一个下采样的特征图的大小为208×208×32；

3)：第一个下采样的特征图经过第一个步长为1的残差模块，得到输出大小为208×208×16的特征图；

4)大小为208×208×16的特征图经过一系列的残差模块进行图像特征的提取，得到不同大小的特征图，特征图的大小如表1所示；

5)：最后使用1×1的卷积层，对不同大小的特征图进行物体类别、位置和大小的预测。

表1：YOLO v3特征提取网络结构

步骤1：构建基于改进YOLO v3的红外图像弱小目标检测模型，以得到轻量级特征提取网络取代YOLO v3特征提取网络，具体的，包括以下步骤：

步骤1.1：使用深度可分离卷积改进YOLO v3特征提取网络残差模块中的标准卷积操作，以实现对空间和通道两个维度相关性同时进行映射，具体的，采用以下方法：

首先在通道相关性上使用1×1卷积将输入的特征图映射到维度比原来更小的空间上，即对所有通道做线性组合，然后再使用3×3卷积计算上一层输出的特征图，深度可分离卷积将YOLO v3特征提取网络中的标准卷积分解为两步卷积操作，大大的减少了卷积层的计算量，提高了卷积层的运算速度；

步骤1.2：在步骤1.1中利用深度可分离卷积改进的YOLO v3特征提取网络的每一个残差模块中引入空间自注意力机制，具体包括以下步骤：

步骤1.2.1：将红外图像输入到利用深度可分离卷积改进的YOLO v3特征提取网络残差模块中，分别经过卷积核大小为1×1和3×3的卷积层，输出特征图F；

步骤1.2.2：在特征图F上引入通道自注意力机制，利用特征之间的通道关系，生成通道注意力特征图M_c(F)，如下式所示：

M_c(F)＝δ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，M_c(F)表示通道注意力特征图，δ表示激活函数，MLP是共享网络的多层感知机制,AvgPool(F)表示平均池化操作，MaxPool(F)表示最大池化操作；

步骤1.3：在步骤1.1中利用深度可分离卷积改进的YOLO v3特征提取网络的每一个残差模块中引入通道自注意力机制，具体包括以下步骤：

步骤1.3.1：将步骤1.2.1中的通道注意力特征图M_c(F)与特征图F执行加权的操作得到加权特征图F1；

步骤1.3.2：对步骤1.3.1中所述的加权特征图F1使用平均池化操作AvgPool(F1)和最大池化操作MaxPool(F1)，生成两个2D的特征图

和

步骤1.3.3：通过卷积核大小为7×7的卷积层生成空间注意力特征图M_s(F1)，对需要强调或者抑制的地方进行编码，具体计算如下式所示：

其中，M_s(F1)表示空间注意力特征图，δ为激活函数，f^7×7代表卷积核大小为7×7的卷积操作；

步骤1.4：定义激活函数，具体的：

为了克服YOLO v3特征提取网络的swish激活函数计算量较大的问题，加快网络计算速度，本发明采用H-swish函数作为激活函数，如下式所示：

其中，relu6(x)＝min(max(0,x),6)，min表示取最小值，max表示取swish激活函数最大值，H-swish函数是非单调的，有助于在不同数据集之间实现更好的性能；

其中，Loss表示训练回归的损失函数，

进一步的，本发明中用改进的GIou(Generalized Intersection over Union广义交并比)代替YOLO v3的IoU作为边界框的度量标准，如下式所示：

其中，C是两个框包含的最大矩形的面积，而A和B代表任何两个边界框的面积，GIOU更加准确的表示两个边界框的重叠程度；

步骤3：选取多个红外图像组建红外图像数据集，对该红外图像数据集里的红外图像进行预处理，选取70％的红外图像作为训练数据集，30％的红外图像作为测试数据集；

步骤4：将红外图像训练数据集输入步骤1所述的基于改进YOLO v3的红外图像弱小目标检测模型，利用步骤3所述的训练数据集训练该基于改进YOLO v3的红外图像弱小目标检测模型；训练模型具体参数设置为：GIou损失3.54、分类损失37.4、IoU阈值0.225、初始学习率0.00579、动量momentum 0.937、权重衰减0.000484、批次大小8、旋转角度增加训练样本1.98；

步骤5：将红外图像测试数据集输入步骤4中训练好的基于改进YOLO v3的红外图像弱小目标检测模型，输出红外图像测试数据集目标预测边界框；基于改进YOLO v3的红外图像弱小目标检测模型主要包括特征提取和网络模型预测结果两部分，如图2所示，在特征提取网络中，Conv表示标准2D卷积操作，Residual block表示特征提取网络中的残差模块，包括1×1的2D卷积，3×3的可分离卷积，激活函数以及自注意力机制；

具体的，包括以下步骤：

步骤5.2：步骤5.1中输入的红外图像经过32个卷积核大小为1×1，步长为2的卷积层，分别得到对应的第一个下采样的特征图，大小为208×208×32；

步骤6：对于步骤5输出的多个目标预测边界框，以GIou和边界框中心点距离的值作为筛选候选框的阈值，并使用高斯模型降低周围边界框的置信度，进行非极大值抑制，输出目标框，如下式所示:

这里b_i表示每个类别的预测边界框，S_i表示当前框的得分，M是具有最大分数的边界框,N_t表示筛选两个重叠框的阈值，这里一般取0.3,c表示两个边界框所组成的最小矩形的对角线距离，ρ²(b,b^gt)表示两个边界框中心点的距离；该式使用高斯惩罚函数来降低周围边界框的置信度，而不删除它，提高了模型的检测准确度，同时也在一定的程度上解决了物体的遮挡问题；图3给出了一组本发明的红外图像(a1、b1、c1)以及对应的视觉图像(a、b、c)目标检测结果的示例图，可以看出本发明无论是可见光图像还是红外图像检测精度都比较高，特别是图b和b(1)遮挡目标以及图c的远距离小目标都能正确检测。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于改进YOLO v3的红外图像弱小目标检测方法，其特征在于，包括以下步骤：

步骤1：构建基于改进YOLO v3的红外图像弱小目标检测模型，搭建轻量级特征提取网络；所述的步骤1包括以下步骤：

步骤1.4：在轻量级特征提取网络中使用H-swish激活函数加速网络训练；

步骤2：定义损失函数Loss，具体的：

用边界框的重叠程度和两个边界框的中心距离，以及预测框的长宽比和真实框的长宽比即CIou即Complete-IoU作为边界框的损失函数Loss_CIoU，结合物体类别预测误差损失Loss_obj和预测置信度损失Loss_conf，则训练回归的损失函数Loss为：

其中，Loss表示训练回归的损失函数，

的值为0，不计算损失；γ_noobj表示单元格中没有目标的置信度同样进行了加权操作，但会有较低的预测置信度做惩罚，γ_noobj取值0.5；S²表示输入图像被分割的网格数，B表示每个网格生成的包围框数，c_i表示预测的置信度，c_i'表示真实的置信度，p_i(c)表示是在网格i内目标属于c的真实概率，p′_i(c)表示在网格i内目标属于c的预测概率，用改进的GIou代替YOLO v3的IoU作为边界框的度量标准，如下式所示：

2.根据权利要求1所述的基于改进YOLO v3的红外图像弱小目标检测方法，其特征在于：所述的步骤5包括以下步骤：

3.根据权利要求1所述的基于改进YOLO v3的红外图像弱小目标检测方法，其特征在于：所述步骤1.2包括以下步骤：

M_c(F)＝δ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

4.根据权利要求3所述的基于改进YOLO v3的红外图像弱小目标检测方法，其特征在于：所述步骤1.3包括以下步骤：

和

步骤1.3.3：对两个2D的特征图

和