CN113705423B

CN113705423B - 基于改进YOLOv3算法的红外车辆快速检测方法

Info

Publication number: CN113705423B
Application number: CN202110980114.7A
Authority: CN
Inventors: 张文博; 徐一铭; 张永权; 王鹏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-05-17
Anticipated expiration: 2041-08-25
Also published as: CN113705423A

Abstract

本发明公开了一种基于改进YOLOv3算法的红外车辆快速检测方法。主要解决现有技术对红外车辆检测准确率低和实时性差的问题。其方案是：采集交通道路上的车辆视频进行预处理，得到红外车辆图像数据集；通过对现有YOLOv3算法中的主干特征提取网络和预测网络进行改进，得到新的网络模型ConvDarknet19‑YOLOv3；将红外车辆图像数据集中划分出的训练集输入到该模型中，采用小批次随机梯度下降法对其训练，得到训练好的红外车辆检测模型；用红外热成像设备实时采集交通道路上的红外车辆视频，按帧送入已经训练好的模型中，得到车辆的实时位置和置信度。本发明检测准确率高，检测速度快，可用于自动驾驶和智能交通管理。

Description

基于改进YOLOv3算法的红外车辆快速检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种红外车辆检测方法，可用于自动驾驶和智能交通管理。

背景技术

红外目标检测技术是指从红外图像中自动提取出目标的位置信息。鉴于红外热成像的优势，红外目标检测技术可应用于交通道路上的车辆检测场景中，并可适应黑夜、强光和极端天气的情况，因此，该技术的突破对自动驾驶和智能交通等领域具有重要理论意义和实用价值。

传统的红外车辆检测方法通常首先采用梯度方向直方图等方法提取目标的特征，然后利用正负样本训练支持向量机等分类器对目标特征进行分类。这种方法检测速度慢，无法满足时性的要求，且存在应用场景受限，鲁棒性差，泛化能力弱的问题。

近年来，随着人工智能技术的快速发展，基于卷积神经网络的红外车辆检测方法得到了广泛应用。它可通过卷积神经网络自动对图像进行特征抽象和特征提取，具有较高的检测准确率与较强的鲁棒性。

目前，基于卷积神经网络的红外车辆检测方法主要包括两类，一类是两步检测算法，该类算法检测准确率高，但检测速度慢，一般无法满足实时性的需求，代表算法有R-CNN，Fast R-CNN，Faster R-CNN，另一类是单步检测算法，其检测速度虽相较于两步检测算法有所提高，但检测准确率较低，在红外车辆检测场景中还是难以满足实时性的需要，代表算法有YOLO和SSD。

由于红外图像为单通道图像，红外车辆的特征提取较为困难，上述传统红外车辆检测方法和基于卷积神经网络的红外车辆检测方法均因为速度慢和精度低，无法满足实时性的要求。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于改进YOLOv3算法的红外车辆快速检测方法，以在保证检测准确率的前提下，显著提高检测速度，满足对车辆进行实时性检测的需要。

本发明的技术思路是：通过对YOLOv3主干特征提取网络进行改进提高检测速度，即将YOLOv2算法的主干特征提取网络Darknet19修改为新的主干特征提取网络ConvDarknet19，并将ConvDarknet19替换YOLOv3算法原来的主干特征提取网络Darknet53作为新的主干特征提取网络，简化主干特征提取网络的结构，大幅度提高了检测速度；通过对YOLOv3算法的预测网络进行改进提高检测准确率，即将YOLOv3算法输出3个特征尺度的预测网络修改为输出4个特征尺度的新的预测网络，有利于检测不同尺度的车辆目标，提高了检测准确率。

根据上述思路，本发明的实现方案包括如下：

(1)采集交通道路上的车辆视频进行帧提取和图像预处理，得到红外车辆图像数据集，将该数据集按照7:3的比例划分为训练数据集和测试数据集；

(2)对现有YOLOv3算法进行改进，得到新的网络模型ConvDarknet19-YOLOv3：

(2a)对YOLOv3算法主干特征提取网络进行改进，即舍弃YOLOv3算法中的主干特征提取网络Darknet53，将YOLOv2算法中的主干特征提取网络Darknet19修改为新的主干特征提取网络ConvDarknet19，即将Darknet19的5个最大池化层，全部修改为卷积核大小为1×1，步长为2的卷积层，并用ConvDarknet19替换YOLOv3算法中的主干特征提取网络Darknet53，得到包括18个卷积块和5个下采样层组成的新主干特征提取网络；

(2b)对现有YOLOv3算法的预测网络进行改进，即将YOLOv3算法输出3个特征尺度的预测网络修改为输出4个特征尺度的新的预测网络：

(2c)将新的主干特征提取网络与新的预测网络连接，构成新的网络模型ConvDarknet19-YOLOv3；

(3)将训练数据集送入到新的网络模型ConvDarknet19-YOLOv3中，采用小批次随机梯度下降算法进行训练，得到训练好的红外车辆检测模型；

(4)将红外热成像设备实时采集的交通道路上的红外车辆视频按帧送入到已经训练好的模型，得到车辆的实时位置信息和置信度。

本发明与现有技术相比具有如下优点：

1.本发明由于将YOLOv2算法的主干特征提取网络Darknet19修改为新的主干特征提取网络ConvDarknet19，并将ConvDarknet19替换YOLOv3算法原来的主干特征提取网络Darknet53作为新的主干特征提取网络，精简了网络结构，大幅度降低了计算量，使得本发明具有很高的检测速度，具有明显的实时性优势；

2.本发明由于在预测网络部分新增一个有利于提取浅层特征的特征尺度，将原YOLOv3的3个特征尺度扩展为4个特征尺度，保证了车辆检测准确率；

测试结果表明，本发明与其他基于卷积神经网络的车辆检测方法相比，能在保证较高检测准确率的前提下，显著提高检测速度。

附图说明

图1是本发明实现流程图；

图2是本发明中构建的ConvDarknet19-YOLOv3网络结构图；

图3是本发明在实际场景下的检测示意图。

具体实施方式

下面结合附图和具体实例，对本发明的技术方案和效果进行详细说明。

参照图1，本发明的实现步骤包括如下：

步骤1，构建红外车辆数据集。

(1.1)采集交通道路上的红外车辆视频进行帧提取和图像预处理，并对所得到的红外图像的车辆目标的位置信息进行标注，制作成红外车辆图像数据集，该数据集共有10000张分辨率为416×416的红外图像；

(1.2)将红外车辆图像数据集按照7:3的比例划分为训练数据集和测试数据集，即从数据集中随机选取7000张红外图像组成训练集，剩余3000张红外图像组成测试集。

步骤2，构建新的主干特征提取网络。

本步骤构建新的主干特征提取网络是基于对现有YOLOv3算法的主干特征提取网络进行改进。所述YOLOv3算法中的网络模型包括一个主干特征提取网络和一个预测网络，本步骤仅对其主干特征提取网络进行改进，具体实现如下：

(2.1)舍弃YOLOv3算法中的主干特征提取网络Darknet53，对现有YOLOv2算法中的主干特征提取网络Darknet19进行修改，用以替换YOLOv3算法中的主干特征提取网络Darknet53。得到新的主干特征提取网络ConvDarknet19：

(2.2.1)对现有YOLOv2算法中的主干特征提取网络Darknet19进行修改：所述现有YOLOv2算法中的主干特征提取网络Darknet19，包含18个卷积块和5个最大池化层，本步骤仅将其中的5个最大池化层修改为5个卷积层，即用卷积的方法取代最大池化的方法实现下采样过程，其中每个卷积块和每个卷积层结构如下：

第1个卷积块：包含一个卷积核个数为32，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第2个卷积块：包含一个卷积核个数为64，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第3个卷积块和第5个卷积块：均包含一个卷积核个数为128，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第4个卷积块：包含一个卷积核个数为64，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第6个卷积块和第8个卷积块：均包含一个卷积核个数为256，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第7个卷积块：包含一个卷积核个数为128，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第9个卷积块、第11个卷积块、第13个卷积块：均包含一个卷积核个数为512，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第10个卷积块和第12个卷积块：均包含一个卷积核个数为256，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第14个卷积块、第16个卷积块、第18个卷积块：均包含一个卷积核个数为1024，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第15个卷积块和第17个卷积块：均包含一个卷积核个数为512，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

第1个下采样层：包含一个卷积核个数为32，卷积核大小为1×1，步长为2的卷积层；

第2个下采样层：包含一个卷积核个数为64，卷积核大小为1×1，步长为2的卷积层；

第3个下采样层：包含一个卷积核个数为128，卷积核大小为1×1，步长为2的卷积层；

第4个下采样层：包含一个卷积核个数为256，卷积核大小为1×1，步长为2的卷积层；

第5个下采样层：包含一个卷积核个数为512，卷积核大小为1×1，步长为2的卷积层；

(2.2.2)将上述18个卷积块和5个下采样层进行连接，得到如下结构的新的主干特征提取网络ConvDarknet19：

第1个卷积块->第1个下采样层->第2个卷积块->第2个下采样层->第3个卷积块->第4个卷积块->第5个卷积块->第3个下采样层->第6个卷积块->第7个卷积块->第8个卷积块->第4个下采样层->第9个卷积块->第10个卷积块->第11个卷积块->第12个卷积块->第13个卷积块->第5个下采样层->第14个卷积块->第15个卷积块->第16个卷积块->第17个卷积块->第18个卷积块；

(2.2.3)用ConvDarknet19替换YOLOv3算法中的主干特征提取网络Darknet53；

步骤3，构建新的预测网络。

本步骤构建新的预测网络是基于对现有YOLOv3算法的预测网络进行改进。YOLOv3原有的预测网络采用3个不同特征尺度对目标进行检测，对红外车辆小目标检测能力偏弱，本步骤将YOLOv3算法输出3个特征尺度的预测网络修改为输出4个特征尺度的新的预测网络，每个特征尺度构建如下：

(3.1)构建如下结构和参数的24个卷积块和4个卷积层：

设置第一组3个卷积块a1、卷积块a3、卷积块a5，其均包含一个卷积核个数为512，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第二组3个卷积块a2、卷积块a4、卷积块a6，其均包含一个卷积核个数为1024，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第三组3个卷积块b1、卷积块b3、卷积块b5，其均包含一个卷积核个数为256，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第四组3个卷积块b2、卷积块b4、卷积块b6：其均包含一个卷积核个数为512，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第五组3个卷积块c1、卷积块c3、卷积块c5：其均包含一个卷积核个数为128，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第六组3个卷积块c2、卷积块c4、卷积块c6：其均包含一个卷积核个数为256，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第七组3个卷积块d1、卷积块d3、卷积块d5：其均包含一个卷积核个数为64，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置第八组3个卷积块d2、卷积块d4、卷积块d6：其均包含一个卷积核个数为128，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

设置4个卷积层y1、卷积层y2、卷积层y3、卷积层y4，每个卷积层的卷积核个数为18，卷积核大小为1×1，步长为1；

(3.2)根据(3.1)构建新的预测网络中的4个特征尺度：

将第一组和第二组的6个卷积块a1、a2、a3、a4、a5、a6与第1个卷积层y1进行级联，组成第1个特征尺度，其输出的张量大小为13×13×3×(4+1)；

将第三组和第四组的6个卷积块b1、b2、b3、b4、b5、b6与第2个卷积层y2进行级联，组成第2个特征尺度，其输出的张量大小为26×26×3×(4+1)；

将第五组和第六组的6个卷积块c1、c2、c3、c4、c5、c6与第3个卷积层y3进行级联，组成第3个特征尺度，其输出的张量大小为52×52×3×(4+1)；

将第七组和第八组的6个卷积块d1、d2、d3、d4、d5、d6与第4个卷积层y4进行级联，组成第4个特征尺度，其输出的张量大小为104×104×3×(4+1)。

步骤5，构建新的网络模型ConvDarknet19-YOLOv3

参照图2，将新的主干特征提取网络与新的预测网络按如下结构关系连接，构成新的网络模型ConvDarknet19-YOLOv3：

将新的主干特征提取网络ConvDarknet19中的第18个卷积块与新的预测网络的第1个特征尺度连接；

将新的主干特征提取网络ConvDarknet19中的第13个卷积块与新的预测网络的第2个特征尺度连接；

将新的主干特征提取网络ConvDarknet19中的第8个卷积块与新的预测网络的第3个特征尺度连接；

将新的主干特征提取网络ConvDarknet19中的第5个卷积块与新的预测网络的第4个特征尺度连接。

步骤6，对新的网络模型ConvDarknet19-YOLOv3进行训练。

(6.1)设置损失函数：损失函数沿用现有YOLOv3算法的损失函数；

(6.2)设置训练参数：训练轮数为300，一次训练所选取的图片数量设置为16，学习率设置为0.001，置信度阈值和IOU忽略阈值均设置为0.5；

(6.3)将训练集中的7000张红外图像按每次16张输入到模型ConvDarknet19-YOLOv3中，每次输出得到目标边界框相对于标注框的偏移值(tx，ty，tw，th)和目标置信度p，其中tx是目标边界框相对于标注框在x方向的偏移值，ty是目标边界框相对于标注框在y方向的偏移值，tw是目标边界框相对于标注框宽的偏移值，th是目标边界框相对于标注框高的偏移值；

(6.4)将偏移值(tx，ty，tw，th)通过以下坐标偏移公式，计算得到预测框的位置和宽高：

bw＝pw*e^tw

bh＝ph*e^th

其中，bx，by为预测框的位置，cx，cy为标注框的位置，bw，bh为预测框的宽和高，pw，ph为标注框的宽和高；

(6.5)将预测框的位置、宽高和目标的置信度(bx，by，bw，bh，p)与标注框的位置、宽高和目标的置信度代入损失函数中计算损失值，并使用小批次随机梯度下降算法更新其权重；

(6.6)重复(6.3)-(6.5)，直到损失值趋于稳定不再下降时，停止训练，得到训练好的红外车辆检测模型。

步骤7，利用训练好的模型进行红外车辆检测。

用红外热成像设备实时采集交通道路上的红外车辆视频，并将其按帧送入到已经训练好的红外车辆检测模型，得到车辆的实时位置信息和置信度。

本发明的效果通过以下仿真实验和实测数据进一步说明：

一、仿真、实测环境

本发明仿真和实测使用Windows 10操作系统，使用一块NVIDIA GeForce GTX1060GPU加速，使用的深度学习框架为pytorch 1.8.1。

二、仿真内容

仿真1：使用与本发明相同的训练集和参数训练其他3种基于卷积神经网络的目标检测模型，得到各自训练好的红外车辆检测模型；

将3000张测试集图像按每次1张送入至已经训练好的本发明模型中进行测试，得到本发明红外车辆检测的IOU阈值为0.5的平均精度和速度；

使用与本发明相同的测试集，测试得到其他3种方法的红外车辆检测的IOU阈值为0.5的平均精度和速度；

将本发明方法与现有的基于卷积神经网络的其他3种方法进行仿真实验对比，对比结果如表1所示：

表1

表1中，Faster R-CNN属于基于卷积神经网络的两步检测算法，该算法将检测过程分为两步，第一步对目标生成候选区域，第二步对生成的候选区域进行分类和回归，该算法检测准确率较高，但检测速度很慢。

YOLOv2和YOLOv3属于基于卷积神经网络的单步检测算法，其将候选框的生成和分类回归统一为一个回归过程，采用一个端到端的网络模型进行目标定位和分类，这两种算法的检测准确率较低，但检测速度较快。

YOLOv3是这三种算法中综合检测准确率与检测速度最优的算法。

将本发明与YOLOv3对比发现，本发明对红外车辆检测的IOU阈值为0.5的平均精度为83.8％，YOLOv3对红外车辆目标检测的平均精度为82.1％，本发明方法在检测准确率上相对于YOLOv3有所提高，保证了较高的检测准确率；本方法每秒能检测37张图像，相比于YOLOv3的每秒17张图像大幅度提高了检测速度，具有明显的实时性优势。

三、实测内容

用红外热成像设备实时采集交通道路上的红外车辆视频，并将其按帧送入到本发明已经训练好的红外车辆检测模型，得到车辆的实时位置信息和置信度，如图3所示。

图3中大矩形框表示包围出红外图像中车辆的预测框，大矩形框左上方的小矩形框显示车辆目标的置信度。

Claims

1.一种基于改进YOLOv3算法的红外车辆快速检测方法，其特征在于，包括：.

(2a)对YOLOv3算法主干特征提取网络进行改进，即舍弃YOLOv3算法中的主干特征提取网络Darknet53，将YOLOv2算法中的主干特征提取网络Darknet19修改为新的主干特征提取网络ConvDarknet19，即将Darknet19的5个最大池化层，全部修改为卷积核大小为1×1，步长为2的卷积层，并用ConvDarknet19替换YOLOv3算法中的主干特征提取网络Darknet53，得到包括18个卷积块和5个下采样层组成的新主干特征提取网络；结构如下：

(2b)对现有YOLOv3算法的预测网络进行改进，即将YOLOv3算法输出3个特征尺度的预测网络修改为输出4个特征尺度的新的预测网络；

2.根据权利要求书1所述的方法，其特征在于，18个卷积块和5个下采样层的结构和参数如下：

第5个下采样层：包含一个卷积核个数为512，卷积核大小为1×1，步长为2的卷积层。

3.根据权利要求书1所述的方法，其特征在于，(2b)构成新的预测网络中的4个特征尺度结构如下：

特征尺度1，由6个卷积块a1、a2、a3、a4、a5、a6和1个卷积层y1级联组成；

特征尺度2，由6个卷积块b1、b2、b3、b4、b5、b6和1个卷积层y2级联组成；

特征尺度3，由6个卷积块c1、c2、c3、c4、c5、c6和1个卷积层y3级联组成；

特征尺度4，由6个卷积块d1、d2、d3、d4、d5、d6和1个卷积层y4级联组成。

4.根据权利要求书3所述的方法，其特征在于，4个特征尺度中的各卷积块和卷积层的结构和参数如下：

所述卷积块a1、卷积块a3、卷积块a5：包含一个卷积核个数为512，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块a2、卷积块a4、卷积块a6：包含一个卷积核个数为1024，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块b1、卷积块b3、卷积块b5：包含一个卷积核个数为256，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块b2、卷积块b4、卷积块b6：包含一个卷积核个数为512，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块c1、卷积块c3、卷积块c5：包含一个卷积核个数为128，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块c2、卷积块c4、卷积块c6：包含一个卷积核个数为256，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块d1、卷积块d3、卷积块d5：包含一个卷积核个数为64，卷积核大小为1×1，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积块d2、卷积块d4、卷积块d6：包含一个卷积核个数为128，卷积核大小为3×3，步长为1的卷积层，一个批量归一化层，一个ReLU激活函数层；

所述卷积层y1、卷积层y2、卷积层y3、卷积层y4，其卷积核个数均为18，卷积核大小为1×1，步长为1。

5.根据权利要求书1所述的方法，其特征在于，(2c)中将新的主干特征提取网络与新的预测网络连接，构成新的网络模型ConvDarknet19-YOLOv3，结构关系如下：

新的主干特征提取网络的第18个卷积块与新的预测网络的特征尺度1连接；

新的主干特征提取网络的第13个卷积块与新的预测网络的特征尺度2连接；

新的主干特征提取网络的第8个卷积块与新的预测网络的特征尺度3连接；

新的主干特征提取网络的第5个卷积块与新的预测网络的特征尺度4连接。

6.根据权利要求书1所述的方法，其特征在于(3)中将训练数据集送入到新的网络模型ConvDarknet19-YOLOv3中，采用小批次随机梯度下降算法进行训练，实现如下：

(3a)设置训练参数：训练轮数为300，一次训练所选取的图片数量设置为16，学习率设置为0.001，置信度阈值和IOU忽略阈值均设置为0.5；损失函数沿用现有YOLOv3算法的损失函数；

(3b)将训练集中的图片按批次输入到ConvDarknet19-YOLOv3中，输出得到目标边界框相对于标注框的偏移值(tx，ty，tw，th)和目标置信度p，其中tx是目标边界框相对于标注框在x方向的偏移值，ty是目标边界框相对于标注框在y方向的偏移值，tw是目标边界框相对于标注框宽的偏移值，th是目标边界框相对于标注框高的偏移值；

(3c)将偏移值(tx，ty，tw，th)通过以下坐标偏移公式，计算得到预测框的位置和宽高：

bw＝pw*e^tw

bh＝ph*e^th

(3d)将预测框的位置、宽高和目标的置信度(bx，by，bw，bh，p)与标注框的位置、宽高和目标的置信度代入损失函数中计算损失值，并使用小批次随机梯度下降算法更新其权重；

(3e)重复(3b)-(3d)，直到损失值趋于稳定不再下降时，停止训练，得到训练好的红外车辆检测模型。