CN112949633B

CN112949633B - 一种基于改进YOLOv3的红外目标检测方法

Info

Publication number: CN112949633B
Application number: CN202110245968.0A
Authority: CN
Inventors: 秦鹏; 唐川明; 刘云峰; 张建林; 徐智勇
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-10-21
Anticipated expiration: 2041-03-05
Also published as: CN112949633A

Abstract

本发明公开了一种基于改进YOLOv3的红外目标检测方法，主要用于增强对红外目标的检测能力。该方法包括：制作红外数据集；改进的数据增强方式；引入EfficientNet‑B2骨干网络代替原来YOLOv3的DarkNet53，减小模型参数；引入改进后的RFB模块，增大模型感受野，提升对大中尺寸目标的检测能力；引入可变形卷积与动态ReLU激活函数，构建CBD，DBD，D3BD三种结构，增强模型的对不规则几何形状目标的特征提取和特征表达能力，增加模型容量；使用CIoU损失函数作为边界框损失函数，加快模型的收敛速度，提升预测框的准确度；本发明提高了红外目标的检测精确度，可以在复杂背景环境下对红外目标进行快速、准确的检测识别。

Description

一种基于改进YOLOv3的红外目标检测方法

技术领域

本发明属于红外目标检测技术领域，具体涉及一种基于改进YOLOv3的红外目标检测方法。

背景技术

目标检测(Object Detection)作为图像理解中的重要一环，其任务是找出图像中所感兴趣的目标，确定其所处的位置和类别，由于各类物体有不同的外观、形状、姿态，加上成像时光照、遮挡等因素干扰，目标检测一直是计算机视觉领域的研究热点。近年来，深度学习发展迅猛，尤其是深度卷积网络在计算机视觉领域不断实现新的突破，相关技术已经在诸多领域广泛应用。

基于深度学习的目标检测算法目前大致分为两阶段和单阶段两大类。其中两阶段：从R-CNN到Faster R-CNN一直采用的思路是proposal+分类(proposal提供位置信息，分类提供类别信息)，精度较高，但由于两阶段算法在proposal耗费时间过多，运行速度达不到实时效果。单阶段算法YOLO提供了另一种更为直接的思路：直接在输出层回归预测框的位置和目标所属的类别，加快了网络运行的速度，通过多层特征融合提升了对目标检测能力。

由于可见光成像在光源不足，或者遭遇恶劣天气环境时会严重影响目标检测的性能。而红外成像是通过被动接受目标自身的红外辐射进行成像，在夜晚、雨天、大雾等气候条件下均可正常工作，具有全天候工作的能力，在军事、探测、火灾求援、行车辅助、安防监控等领域有着广泛的应用。传统的红外目标检测算法鲁棒性不佳，容易产生错检漏捡。目前基于深度学习的红外目标检测算法较少，直接使用可见光的深度学习目标检测算法对红外目标进行检测，效果不佳。因此需要一种专门针对红外目标的深度学习检测算法。

发明内容

本发明的目的是针对现有的红外目标检测技术存在精度低，速度慢的问题，发明一种基于改进YOLOv3的红外目标检测方法，该方法模型参数小，具有较强的特征提取和边界框预测能力，有效解决了红外目标识别中由于目标轮廓模糊、纹理细节特征少带来的错检漏检，提高了红外目标检测的准确度。

本发明采用的技术方案如下：一种基于改进YOLOv3的红外目标检测方法，包括如下步骤：

步骤1：使用红外摄像头获取包含目标的红外图像，并使用标注工具对图片中的目标进行数据标注得到红外数据集，目标包括车辆、行人；

步骤2：对红外数据集进行数据增强；

步骤3：构建网络模型，使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络，减小模型参数，通过将分辨率低但具有更强语义信息的高层特征图进行上采样，与具有更多位置信息的高分辩低层特征进行融合，生成用于检测不同尺度目标的三个不同尺度的特征层。引入改进后的RFB模块，增大模型感受野，提升对大中尺寸目标的检测能力。引入可变形卷积与动态ReLU激活函数，构建CBD，DBD，D3BD三种结构，增强模型的对不规则几何形状目标的特征提取和特征表达能力，增加模型容量。使用CIoU损失函数作为边界框损失函数，加快模型的收敛速度，提升预测框的准确度。

步骤4：使用改进后的网络对已标注的红外数据集进行训练直至网络收敛，保存模型与权重文件。使用最佳训练模型对数据集进行测试，并获取测试集的测试结果。

进一步地，所述步骤1中红外数据集制作的具体包括以下2个步骤：

步骤1.1：将获取的红外图像统一裁剪缩放成416×416尺寸的图片；

步骤1.2：使用标注工具将目标的左上角和右下角横纵坐标位置，目标所属的类别进行标注，删除难以辨认的图像。按照8：2的比例把红外数据集划分训练集和测试集，将标注结果保存为json格式。

进一步地，所述步骤2中数据增强的具体包括以下2个步骤：

步骤2.1：采用Mosaic数据增强，每次在416×416空白图像中随机初始化一个点，使用初始化的横纵坐标将空白图像分为四个区域，随机读取四张图片，并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像，形成一张新的图片，并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移等。

步骤2.2：为了模拟红外图像的复杂背景，将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合。最终得到的训练图像P的计算公式如下，其中λ为0.1至0.3之间的一个随机数。

P＝(1-λ)×P1+λ×P2,λ∈[0.1,0.3]

进一步地，所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体包括以下2个步骤：

步骤3.1：使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络，EfficientNet-B2会对输入的416×416图像进行五次下采样。取EfficientNet-B2的13×13，26×26，52×52三种不同尺度的特征层作为后续的特征融合层。

步骤3.2：其中13×13大小的特征图会在卷积、上采样后和26×26大小的特征图进行融合，26×26大小的特征图会在卷积、上采样后和52×52大小的特征图进行融合，形成对大中小三种不同尺度目标的特征预测层。

进一步地，所述步骤3中使用RFB模块作为增大模型感受野的具体过程如下：

步骤3.3：使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维，形成五路分支，其中一路分支作为shortcut连接保存。为了模拟人类视觉的感受野机制，其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积，另一分支使用MaxPool后进行1×1的通道降维，将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征，再与保留的shortcut分支进行像素相加得到输出特征图。实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积，降低模型的参数量。

进一步地，所述步骤3中使用可变形卷积的具体过程如下：

步骤3.4：对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26，52×52大小的特征图进行可变形卷积操作。可变形卷积对传统的矩形卷积区域施加x，y方向上的偏移，即将输入特征的像数值索引与每一个像数偏移量相加，并将其位置限制在特征图尺寸范围内，达到对不规则区域进行卷积的目的。

步骤3.5：不同区域的像数对于神经元的敏感度不同，在步骤3.4的基础上增加一组权重通道，其经过sigmoid层映射到[0,1]内得到对应的偏移值权重。

进一步地，所述步骤3中使用动态ReLU激活函数的具体过程如下：

步骤3.6：使用可以自适应调节ReLU的正负激活率的动态ReLU(DY-ReLU)作为激活函数，其公式如下：

其中K表示函数的个数，x_c为输入x的第c个通道值，y_c为输出值。该公式的含义为通过不同输入的x，综合其各个维度的上下文信息来自适应调整线性系数

的值，改变正负激活率，能在带来少量额外计算的情况下，显著地提高网络的表达能力。

进一步地，所述步骤3中构建CBD，DBD，D3BD结构的具体过程如下：

步骤3.7：根据可变形卷积和动态ReLU函数构建三种不同模型结构，其中CBD由普通卷积(Conv)，BN层，动态ReLU函数(DY-ReLU)组成；DBD由可变形卷积，BN层，动态ReLU函数组成；D3BD由3个可变形卷积，BN层，动态ReLU函数组成。

进一步地，所述步骤3中CIoU计算过程如下：

步骤3.8：

其中υ表示预测框A与目标框B之间的长宽比相似性，α为υ的权重系数。ω^gt，h^gt，ω，h分别表示目标框的宽、高和预测框的宽、高。b表示预测框A的中心点，b^gt表示目标框B的中心点，p²(b,b^gt)表示预测框A与目标框B之间的中心距离的平方，r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度。IoU的计算公式如下：

进一步的，所述步骤4中具体包括以下3个步骤：

步骤4.1：在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数，使用SGD优化器，学习率为0.001进行训练。

步骤4.2：在训练20轮之后，解冻EfficientNet-B2骨干网络的模型参数，使用SGD优化器，学习率为0.0001训练直至网络收敛。

步骤4.3：使用步骤4.2中得到的最佳模型权重对测试集进行结果测试。

本发明与现有技术相比的优点在于：

(1)本发明引入了轻量的EfficientNet作为骨干网络，降低了网络模型参数量，提升训练速度；

(2)本发明引入了改进的RFB模块，提升了网络模型的感受野；

(3)本发明通过结合可变形卷积和动态ReLU激活函数，构建了DBD和CBD结构，提升模型特征编码的灵活性，增加网络模型容量。

附图说明

图1为本发明一种基于改进YOLOv3的红外目标检测方法的整体结构流程图；

图2为本发明一种基于改进YOLOv3的红外目标检测方法所述的数据增强方法示意图；

图3为本发明一种基于改进YOLOv3的红外目标检测方法所采用的EfficientNet中MBConv模块示意图；

图4为本发明一种基于改进YOLOv3的红外目标检测方法所采用的改进后RFB模块示意图；

图5为本发明一种基于改进YOLOv3的红外目标检测方法所采用的可变形卷积模块示意图；

图6为本发明一种基于改进YOLOv3的红外目标检测方法所采用的动态ReLU模块示意图；

图7为本发明一种基于改进YOLOv3的红外目标检测方法所采用的CBD，DBD，D3BD结构示意图；

图8为本发明一种基于改进YOLOv3的红外目标检测方法整体网络模型的示意图；

图9为本发明一种基于改进YOLOv3的红外目标检测方法检测效果图。

具体实施方式

为了更清楚的说明本发明的目的、技术方案和优点，下面结合附图与具体实施方式对本发明作进一步详细描述：

如图1所示，本发明提供了一种基于改进YOLOv3的红外目标检测方法，包括：

步骤1：使用红外摄像头获取包含车辆、行人等目标的红外图像，并使用标注工具对图片中的车辆、行人等目标进行数据标注得到红外数据集；

步骤2：对红外数据集进行数据增强；

进一步地，所述步骤2中数据增强如图2所示，具体包括以下2个步骤：

P＝(1-λ)×P1+λ×P2,λ∈[0.1,0.3]

步骤3.1：使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络，EfficientNet-B2会对输入的416×416图像进行五次下采样。EfficientNet-B2的组成模块MBConv的结构示意图如图3所示。取EfficientNet-B2的13×13，26×26，52×52三种不同尺度的特征层作为后续的特征融合层。

进一步地，所述步骤3中，改进后的RFB结构示意图如图4所示，使用RFB模块作为增大模型感受野的具体过程如下：

进一步地，所述步骤3中可变形卷积模块示意图如图5所示，使用可变形卷积的具体过程如下：

进一步地，所述步骤3中动态ReLU激活函数模块示意图如图6所示，使用动态ReLU激活函数的具体过程如下：

进一步地，所述步骤3中构建CBD，DBD，D3BD结构示意图如图7所示，构建的具体过程如下：

进一步地，所述步骤3中CIoU计算过程如下：

步骤3.8：

在实际测试的过程中，由于可变形卷积的叠加导致计算量偏大，使得网络运行速度较慢，为了平衡模型检测的速度和精度，所以只是用了CBD和DBD两种架构。最后构建好的一种基于改进YOLOv3的红外目标检测方法网络结构如图8所示。

进一步地，所述步骤4中具体包括以下3个步骤：

步骤4.3：使用步骤4.2中得到的最佳模型权重对测试集进行结果测试，验证的结果示意图如图9所示。在相同硬件条件下对本方法和其他目标检测算法在红外数据集上进行对比测试，测试结果如表1所示：

表1本发明方法与其他目标检测算法对红外目标检测性能对比

从表1可以看出，本发明模型的mAP结果在原始YOLOv3的基础上提升了9.9个百分点，运行的速度只下降一帧。比当前最先进的目标检测算法EfficientDet中的D0算法和D1算法的检测精确度都高，充分说明了该改进算法的有效性。本发明模型具备自主学习能力且检测率高，是解决复杂环境下红外成像目标检测的有效途径。

以上显示和描述了本发明的主要特征、基本原理以及本发明的优点。本行业技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会根据实际情况有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于改进YOLOv3的红外目标检测方法，其特征在于，包括如下步骤：

步骤1：使用红外摄像头获取包含目标的红外图像，并使用标注工具对图片中的目标进行数据标注，目标包括车辆、行人；

步骤2：对红外数据集进行数据增强；

步骤3：构建网络模型，使用EfficientNet-B2骨干网络替换YOLOv3原始的DarkNet53骨干网络，减小模型参数，通过将分辨率低但具有更强语义信息的高层特征图进行上采样，与具有更多位置信息的高分辩低层特征进行融合，生成用于检测不同尺度目标的三个不同尺度的特征层；引入改进后的RFB模块，增大模型感受野，提升对大中尺寸目标的检测能力；引入可变形卷积与动态ReLU激活函数，构建CBD，DBD，D3BD三种结构，增强模型的对不规则几何形状目标的特征提取和特征表达能力，增加模型容量，使用CIoU损失函数作为边界框损失函数，加快模型的收敛速度，提升预测框的准确度；

所述步骤3中使用改进后的RFB模块作为增大模型感受野的具体过程如下：

步骤3.3：使用1×1的卷积核对步骤3.1得到13×13大小特征图进行特征图通道数降维，形成五路分支，其中一路分支作为shortcut连接保存，为了模拟人类视觉的感受野机制，其中的三路分支分别使用1×1卷积、3×3卷积、5×5卷积和对应的空洞率分别为1、3、5的空洞卷积，另一分支使用MaxPool后进行1×1的通道降维，将上述的四路分支得到的特征图级联之后使用1×1卷积融合不同通道的特征，再与保留的shortcut分支进行像素相加得到输出特征图，实际运算的过程中使用两个3×3的卷积代替原始的5×5卷积，降低模型的参数量；

所述步骤3中构建CBD，DBD，D3BD结构的具体过程如下：

步骤3.7：根据可变形卷积和动态ReLU函数构建三种不同模型结构，其中CBD由普通卷积(Conv)，BN层，动态ReLU函数(DY-ReLU)组成；DBD由可变形卷积，BN层，动态ReLU函数组成；D3BD由3个可变形卷积，BN层，动态ReLU函数组成；

步骤4：使用改进后的网络对已标注的红外数据集进行训练直至网络收敛，保存模型与权重文件，使用最佳训练模型对数据集进行测试，并获取测试集的测试结果。

2.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤1中数据集制作的具体过程如下：

步骤1.2：使用标注工具将目标的左上角和右下角横纵坐标位置，目标所属的类别进行标注，删除难以辨认的图像，按照8：2的比例把数据集划分训练集和测试集，将标注结果保存为json格式。

3.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤2中数据增强的具体过程如下：

步骤2.1：采用Mosaic数据增强，每次在416×416空白图像中随机初始化一个点，使用初始化的横纵坐标将空白图像分为四个区域，随机读取四张图片，并对其进行镜像翻转、尺度缩放后按照左上、右上、左下、右下的顺序写入空白图像，形成一张新的图片，并将读取的四张图像所对应的标签进行相应的旋转、缩放、平移；

步骤2.2：为了模拟红外图像的复杂背景，将步骤2.1中经Mosaic数据增强所得到的图像P1与随机读取的一张的红外图像P2向进行像数值随机比例的叠加融合，最终得到的训练图像P的计算公式如下：

P＝(1-λ)×P1+λ×P2,λ∈[0.1,0.3]

其中λ为0.1至0.3之间的一个随机数。

4.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤3中使用EfficientNet-B2作为特征提取骨干网络的具体过程如下：

步骤3.1：使用EfficientNet-B2代替YOLOv3的DarkNet53作为骨干网络，EfficientNet-B2会对输入的416×416图像进行五次下采样，取EfficientNet-B2的13×13，26×26，52×52三种不同尺度的特征层作为后续的特征融合层；

5.根据权利要求4所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤3中使用可变形卷积和动态ReLU函数具体过程如下：

步骤3.4：对步骤3.3中所得到的13×13大小特征图与步骤3.1中得到的26×26，52×52大小的特征图进行可变形卷积操作，可变形卷积对传统的矩形卷积区域施加x，y方向上的偏移，即将输入特征的像数值索引与每一个像数偏移量相加，并将其位置限制在特征图尺寸范围内，达到对不规则区域进行卷积的目的；

步骤3.5：不同区域的像数对于神经元的敏感度不同，在步骤3.4的基础上增加一组权重通道，其经过sigmoid层映射到[0,1]内得到对应的偏移值权重；

其中K表示函数的个数，x_c为输入x的第c个通道值，y_c为输出值，该公式的含义为通过不同输入的x，综合其各个维度的上下文信息来自适应调整线性系数

6.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤3中CIoU计算过程如下：

步骤3.8：

其中υ表示预测框A与目标框B之间的长宽比相似性，α为υ的权重系数，ω^gt，h^gt，ω，h分别表示目标框的宽、高和预测框的宽、高，b表示预测框A的中心点，b^gt表示目标框B的中心点，p²(b,b^gt)表示预测框A与目标框B之间的中心距离的平方，r表示可以把预测框A和目标框B包含在内的最小封闭区域的对角线长度，IoU的计算公式如下：

7.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：所述步骤4中具体过程如下：

步骤4.1：在网络训练的前20轮冻结EfficientNet-B2骨干网络的模型参数，使用SGD优化器，学习率为0.001进行训练；

步骤4.2：在训练20轮之后，解冻EfficientNet-B2骨干网络的模型参数，使用SGD优化器，学习率为0.0001训练直至网络收敛；