CN116824543A

CN116824543A - 一种基于od-yolo的自动驾驶目标检测方法

Info

Publication number: CN116824543A
Application number: CN202310699120.4A
Authority: CN
Inventors: 刘娜; 周惠; 朱均超; 张宝峰; 刘斌; 李志伟; 杨雷
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-29

Abstract

一种基于OD‑YOLO的自动驾驶目标检测方法，包含下载公开KITTI自动驾驶数据集，选取其中的2D目标检测数据集，并将其分为训练数据集和验证数据集，对数据集内所有图像进行分辨率调整；采用全维动态卷积、解耦头结构以及精确边界框回归损失改进YOLOv5算法，构建OD‑YOLO自动驾驶目标检测网络；使用训练数据集中的图像对OD‑YOLO自动驾驶目标检测网络模型进行训练，并利用验证数据集中的图像对其进行验证，最终得到进行目标检测的目的；本发明能够在不显著增加参数量的情况下，大大提高特征提取能力，加快模型收敛速度，从而使得目标检测网络取得了更佳的性能。

Description

一种基于OD-YOLO的自动驾驶目标检测方法

【技术领域】

本发明属于自动驾驶目标检测领域，尤其涉及一种基于OD-YOLO(OminDimensional Dynamic Convolution-You Only Look Once，全维动态卷积和YOLO)的自动驾驶目标检测方法。

【背景技术】

随着汽车保有量增加引起的交通问题日益凸显，自动驾驶作为解决传统汽车行业发展问题的重要技术，得到了国家和企业越来越多的重视和研究。环境感知技术是实现自动驾驶的第一个环节，同时也是实现完全自动驾驶技术中的至关重要的环节，而目标检测作为环境感知的重要部分，具有较大的研究意义。目标检测作为自动驾驶领域的核心技术之一，是自动驾驶感知环境的重要途径，影响着车辆的控制决策。

目前，在自动驾驶应用领域，基于计算机视觉的目标检测算法大体可以分为两类：基于候选区域提议的两步检测方法和基于边框回归的单步检测方法，由于基于候选区域的方法分为两个步骤：候选框提取和目标分类。需要更多的网络参数，导致计算量大速度慢，因此基于回归的方法应运而生。

尽管当前的目标检测算法提升了检测效率，然而在自动驾驶场景中，需要被探测的目标大小尺度繁多，道路背景变化极大，又有光线强弱和模糊遮挡等因素干扰。所以面向自动驾驶场景的目标检测算法仍然极具挑战性，在精确性以及实时性方面仍有上升空间。因此，设计能够抵抗各种困难干扰的目标检测算法，使其更加准确的进行物体探测与识别，对自动驾驶意义重大。

【发明内容】

本发明的目的在于提供一种基于OD-YOLO的自动驾驶目标检测方法，它能够克服现有技术的不足，是一种简单易行且容易实现的自动驾驶目标检测方法。

本发明的技术方案：一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于它包括以下步骤:

(1)下载公开KITTI自动驾驶数据集，选取其中的2D目标检测数据集，将其分为训练数据集和验证数据集，并对公开KITTI自动驾驶数据集中2D目标检测数据集所有图像进行分辨率调整；

所述步骤(1)中的训练数据集和验证数据集是对公开KITTI自动驾驶数据集中的2D目标检测数据集按照4:1比例划分，其中，所述训练数据集由KITTI自动驾驶数据集中2D目标检测数据集的80％的数据构成，将用于训练OD-YOLO自动驾驶目标检测网络模型；所述验证数据集是由KITTI自动驾驶数据集中2D目标检测数据集的20％的数据构成，将用于验证OD-YOLO自动驾驶目标检测网络模型，并将验证结果作为模型性能指标。

所述步骤(1)中图像分辨率调整具体是指将自动驾驶数据集中2D目标检测数据集所有图像调整为640×640固定分辨率。

(2)采用全维动态卷积、解耦头结构以及精确边界框回归损失改进YOLOv5算法，构建OD-YOLO自动驾驶目标检测网络；

所述步骤2中的OD-YOLO自动驾驶目标检测网络由输入模块、CSPDarknet(CrossStage Partial Darknet)主干网络模块、Neck网络模块和DecoupledHead解耦头部模块四部分构成，其中，所述输入模块的输入端采集自动驾驶场景的图片信号，将其进行随机裁剪、随机缩放、随机翻转这些数据增强操作后输出给CSPDarknet主干网络模块，经过CSPDarknet主干网络模块对其进行特征提取，并将提取到的特征信息传入Neck网络模块中进行特征金字塔池化和特征融合处理，此时特征融合后的特征图传入DecoupledHead解耦头部模块进行目标检测，最后输出检测结果图片信号。

所述步骤2中OD-YOLO自动驾驶目标检测网络的具体构建方法包括以下阶段：

第一阶段：利用输入模块采集自动驾驶场景的图片信号，进行随机裁剪、随机缩放、随机翻转后，将经过数据增强操作后的数据输出给CSPDarknet主干网络模块；

第二阶段：在OD-YOLO自动驾驶目标检测网络的CSPDarknet主干网络模块中执行全维动态卷积操作，该过程是对主干网络中基本卷积特征提取能力进行优化；

所述第二阶段具体是指：

假设第二阶段全维动态卷积的输入为x，引入三个新的关注点α_si、α_ci、α_fi，并分别沿着该卷积的卷积核W_i的核空间维度、输入通道维度和输出通道维度进行乘法计算，如公式(1)所示：

y＝(α_w1 eα_f1 eα_c1 eα_s1 e W₁+K+α_wi eα_fi eα_ci eα_si e W_i)＊x (1)

式中，α_wi∈R表示卷积核W_i的关注标量，α_si∈R^k×k、α_ci∈R^cin和表示三个新引入的关注点，其中，α_si在k×k个空间位置为每个滤波器的卷积参数分配不同的注意标量，α_ci为每个卷积滤波器的输入通道赋予不同的注意标量，α_fi为卷积滤波器输出通道分配不同注意标量，e表示沿着卷积核W_i的核空间的不同维度的乘法运算，＊表示乘法运算，y表示全维动态卷积的输出；由公式(1)可以看出，全维动态卷积相当于引入了一种多维注意力机制，α_wi将注意力标量分配给整个卷积核；

所述CSPDarknet主干网络模块输出三个不同尺寸的特征图，分别记作：特征图C1、特征图C2和特征图C3。

所述第二阶段中CSPDarknet主干网络模块输出的特征图C1、特征图C2和特征图C3的通道大小分别为256、512、1024。

第三阶段：在Neck网络模块对第二阶段提取到的特征图进行处理，并在DecoupledHead解耦头部模块将分类、回归任务进行单独解耦；

所述第三阶段的具体实现过程为：将第二阶段得到的特征图C1、特征图C2和特征图C3输入到Neck网络模块中，进行特征金字塔池化、特征融合处理，进而得到三个加强过的有效特征图，即有效特征图C1’、有效特征图C2’和有效特征图C3’，这三个加强过的有效特征图分别通过分类分支进行分类信息的预测和回归分支进行检测框信息和置信度信息的预测，也就是说将分类、回归两个任务分开执行；分类分支采用全连接层结构，回归分支采用卷积层结构。

第四阶段：对第三阶段分类分支预测的分类信息以及回归分支预测的检测框信息和置信度信息进行边界框回归损失计算。

所述第四阶段中的边界框回归损失计算的方法具体是由以下内容构成：

引入EIOU(Efficient Intersection overUnion)损失函数，如公式(2)所示，所述EIOU损失函数包含重叠损失L_IOU、中心距离损失L_dic、宽高损失L_asp三个部分，宽高损失L_asp能够使目标框与锚框的宽度和高度之差最小；

公式(2)中，c_ω和c_h分别是覆盖目标框与锚框的最小外接框的宽度和高度，p(b,b^gt)是预测框与真实框中心点距离，p(ω,ω^gt)为预测框与真实框横向差值，p(h,h^gt)为预测框与真实框纵向差值，IOU＝|A∩B|/|A∪B|，其中，A代表锚框，B代表目标框；

考虑到预测目标边界框回归的过程中存在训练样本不平衡的问题，即在一张图像中，回归误差小的高质量锚框数量远少于回归误差大的低质量锚框数量，然而，质量较差的锚框会产生过大的梯度，影响训练过程，因此，直接使用EIOU损失函数效果并不好，所以从梯度的角度出发，把高质量锚框和低质量锚框分开，引入精确边界框分类损失(Focal EIOULoss)，如公式(3)所示:

L_Focal-EIOU＝IOU^γL_EIOU (3)

其中，γ是用来控制曲线弧度的超参。

(3)使用步骤(1)得到的训练数据集中的图像对OD-YOLO自动驾驶目标检测网络模型进行训练；

所述步骤(3)中对自动驾驶目标检测网络模型进行训练具体是指：将训练数据集中的图像分辨率全部调整为640×640固定分辨率，设初始学习率为0.01，随着迭代次数的增加，学习率变小；为提高训练速度，将训练批量大小设置为64，为防止过拟合现象，训练次数设为300个epoch进行训练，最后得到训练好的OD-YOLO自动驾驶目标检测网络模型；

(4)使用步骤(1)得到的验证数据集中的图像对步骤(3)得到的训练好的OD-YOLO自动驾驶目标检测网络模型进行验证；

所述步骤(4)中对自动驾驶目标检测网络模型进行验证具体是指：将步骤(3)中训练好的模型加载到YOLOv5s网络中进行验证，为提高验证速度，将验证批量大小设置为32，IOU交并比(Intersection over Union)设为0.6进行验证。

(5)将自动驾驶过程中采集到的自动驾驶场景下的图像作为输入，在步骤(3)得到的训练好的OD-YOLO自动驾驶目标检测网络模型中进行目标检测，以便能够准确的识别出图片中物体的种类，完成目标检测任务。

本发明的工作原理：将自动驾驶场景下的图像输入至训练好的OD-YOLO检测模型中，在主干特征提取网络经过全维动态卷积进行特征提取，将提取到的三个有效特征图传入加强特征提取网络，三个有效特征图会结合不同尺度特征信息进行特征融合并用于继续提取特征，获得三个加强过的有效特征图。此时的特征图可以看作特征点的集合，每个特征点都有通道数个特征，传入解耦检测头进行检测，实现目标的精确边界框回归损失回归与精确边界框分类损失分类，最后输出特征图片。

本发明的优越性：基于OD-YOLO的自动驾驶目标检测方法通过从多维度学习卷积核四种类型的注意来捕获特征信息，同时考虑了分类任务和回归任务进行解耦，单独预测，大大提高了特征提取效果和模型收敛速度，使目标检测网络检测精度提升了7.0％。

【附图说明】

图1是本发明所涉一种基于OD-YOLO的自动驾驶目标检测方法的原理结构示意图。

图2是本发明所涉一种基于OD-YOLO的自动驾驶目标检测方法中全维动态卷积ODConv的结构图。

图3是本发明所涉一种基于OD-YOLO的自动驾驶目标检测方法中DecoupledHead解耦头部模块的结构示意图。

图4是本发明所涉一种基于OD-YOLO的自动驾驶目标检测方法的流程示意图。

图5是本发明所涉一种基于OD-YOLO的自动驾驶目标检测方法的实施例中的应用效果图。

【具体实施方式】

实施例：一种基于OD-YOLO的自动驾驶目标检测方法，如图1所示，其特征在于它包括以下步骤:

(1)下载公开KITTI自动驾驶数据集，选取其中的2D目标检测数据集，将其分为训练数据集和验证数据集，其中，所述训练数据集由KITTI自动驾驶数据集中2D目标检测数据集的80％的数据构成，将用于训练OD-YOLO自动驾驶目标检测网络模型；所述验证数据集是由KITTI自动驾驶数据集中2D目标检测数据集的20％的数据构成，将用于验证OD-YOLO自动驾驶目标检测网络模型，并将验证结果作为模型性能指标；并对公开KITTI自动驾驶数据集中2D目标检测数据集所有图像调整为640×640固定分辨率；

该网络由输入模块、CSPDarknet主干网络模块、Neck网络模块和DecoupledHead解耦头部模块四部分构成，如图4所示，其中，所述输入模块的输入端采集自动驾驶场景的图片信号，将其进行随机裁剪、随机缩放、随机翻转这些数据增强操作后输出给CSPDarknet主干网络模块，经过CSPDarknet主干网络模块对其进行特征提取，并将提取到的特征信息传入Neck网络模块中进行特征金字塔池化和特征融合处理，此时特征融合后的特征图传入DecoupledHead解耦头部模块进行目标检测，最后输出检测结果图片信号。

其中，OD-YOLO自动驾驶目标检测网络的具体构建方法包括以下阶段：

如图2所示，假设第二阶段全维动态卷积的输入为x，引入三个新的关注点α_si、α_ci、α_fi，并分别沿着该卷积的卷积核W_i的核空间维度、输入通道维度和输出通道维度进行乘法计算，如公式(1)所示：

CSPDarknet主干网络模块输出三个不同尺寸的特征图，分别记作：特征图C1、特征图C2和特征图C3，通道大小分别为256、512、1024。

第三阶段：在Neck网络模块对第二阶段提取到的特征图进行处理，并在DecoupledHead解耦头部模块将分类、回归任务进行单独解耦，如图3所示，具体是指：

将第二阶段得到的特征图C1、特征图C2和特征图C3输入到Neck网络模块中，进行特征金字塔池化、特征融合处理，进而得到三个加强过的有效特征图，即有效特征图C1’、有效特征图C2’和有效特征图C3’，这三个加强过的有效特征图分别通过分类分支进行分类信息的预测和回归分支进行检测框信息和置信度信息的预测，也就是说将分类、回归两个任务分开执行；分类分支采用全连接层结构，回归分支采用卷积层结构，如图2所示。

第四阶段：对第三阶段分类分支预测的分类信息以及回归分支预测的检测框信息和置信度信息进行边界框回归损失计算：

引入EIOU损失函数，如公式(2)所示，所述EIOU损失函数包含重叠损失L_IOU、中心距离损失L_dic、宽高损失L_asp三个部分，宽高损失L_asp能够使目标框与锚框的宽度和高度之差最小；

考虑到预测目标边界框回归的过程中存在训练样本不平衡的问题，即在一张图像中，回归误差小的高质量锚框数量远少于回归误差大的低质量锚框数量，然而，质量较差的锚框会产生过大的梯度，影响训练过程，因此，直接使用EIOU损失函数效果并不好，所以从梯度的角度出发，把高质量锚框和低质量锚框分开，引入精确边界框分类损失，如公式(3)所示:

L_Focal-EIOU＝IOU^γL_EIOU (3)

其中，γ是用来控制曲线弧度的超参。

(3)使用步骤(1)得到的训练数据集中的图像对OD-YOLO自动驾驶目标检测网络模型进行训练：将训练数据集中的图像分辨率全部调整为640×640固定分辨率，设初始学习率为0.01，随着迭代次数的增加，学习率变小；为提高训练速度，将训练批量大小设置为64，为防止过拟合现象，训练次数设为300个epoch进行训练，最后得到训练好的OD-YOLO自动驾驶目标检测网络模型；

(4)使用步骤(1)得到的验证数据集中的图像对步骤(3)得到的训练好的OD-YOLO自动驾驶目标检测网络模型进行验证：将步骤(3)中训练好的模型加载到YOLOv5s网络中进行验证，为提高验证速度，将验证批量大小设置为32，IOU交并比设为0.6进行验证；

下面结合附图与具体实施方式对本发明作进一步详细描述。

如图1所示的实施例中，本发明提供一种基于YOLOv5改进的自动驾驶场景目标检测方法及应用，其操作流程为:

步骤1：数据输入和预处理

采用KITTI自动驾驶数据集中的2D目标检测数据集来训练模型，该数据集共包含9个自动驾驶场景中检测的类别，分别为“汽车”、“货车”、“卡车”、“行人”、“坐着的人”、“有轨电车”、“自行车”、“杂类”、“不关心的类”。它由7481张市区、乡村和高速公路等场景采集的真实图像数据组成，每张图像中最多达15辆车和30个行人。

将KITTI自动驾驶数据集中的2D目标检测数据集按照4:1划分训练数据集与验证数据集，将所有数据集图像的分辨率调整到640×640固定分辨率。

步骤2：模型的构建

该模型网络结构如图4所示，由输入端、主干网络CSPDarknet、Neck网络模块和解耦头部模块DecoupledHead四部分构成。输入模块输入图片，CSPDarknet主干网络用于提取图片的特征，该网络主要由全维动态卷积提取图片特征，全维动态卷积结构如图2所示，输出三个不同尺寸的特征图:C1、C2、C3。通道大小分别为256，512，1024。Neck网络模块将主干网络CSPDarknet和解耦头部模块DecoupledHead连接起来，输入为主干网络输出的三个特征图C1、C2、C3，用于对特征图上采样处理并进行特征融合，输出三个加强过的不同尺寸特征图C1’、C2’、C3’。如图3所示，解耦头部模块DecoupledHead用于物体检测，将分类任务和回归任务进行单独解耦，引入精确边界框回归损失与分类损失，实现目标的分类和回归。

步骤3：训练模型

采用迁移学习方法来训练模型，将原YOLOv5s预训练模型加载到OD-YOLO网络中进行训练，为防止出现过拟合现象，训练迭代次数设为300次；为使目标函数在合适时间内收敛到局部最小值，初始学习率设置为0.01，并随着迭代次数的增加，学习率变小；优化策略选用SGD随机梯度下降优化算法。保存训练权重，加载验证样本，以便于后续对模型进行验证。

步骤4:验证、应用模型

实验的评价标准采用平均精度(AP：Average Precision)和平均精度均值(mAP：Mean Average Precision)来评估，由于KITTI数据集目标种类较多，我们选取汽车和行人的平均精度以及所有种类目标的平均精度均值作为指标。AP值是由精确率(Precision)和召回率(Recall)形成的PR曲线和横纵坐标组成的面积计算得到的，Precision与Recall的计算方式如下所示：

其中TP是正类判定为正类、FP是负类判定为正类、FN是正类判定为负类、TN是负类判定为负类。mAP值则表示所有类别AP的平均值，其计算方式如下：

其中，k表示总类别数目，AP_i表示第i类的AP值。

实验环境:搭建以PyTorch1.8.0、torchvision＝0.9.1、CUDA10.1为深度学习框架的Python编译环境，使用的编程语言和软件分别为Python和pycharm。

实验设备:Ubuntu22.04系统、CPU处理器Intel Xeon Gold 5120@2.2Hz；显卡为NVIDIA Tesla V100。采用消融实验测试全维动态卷积(ODConv)和解耦检测头(DecoupledHead)以及精确边界框回归损失对检测结果的影响，并与多个网络进行对比实验。由于KITTI数据集目标种类较多，选取汽车、卡车、有轨电车、行人这些类别的平均精度以及所有种类目标的平均精度均值作为指标。实验结果如表1、表2所示。

表1OD-YOLO主要成分在KITTI上的消融研究

表2OD-YOLO与其他网络检测效果对比

由表1得：只引入全维动态卷积结构时，Pederstrian类的平均检测精度提升最为显著，其他类别精度变化不大，甚至Car类AP值有所下降，但考虑到整体精度，性能还是有提高的；将常规检测头调整为解耦检测头后，各类别平均检测精度提升较为明显，Tram类的AP达到了99.1％，较YOLOv5提高了5.6％；方案D是包含所有改进部分的建议方法，引入的精确边界框回归损失最小化目标与锚框的宽高差异，使得被检测目标各类别AP及mAP显著提高，表明了所提方法能更准确的识别复杂场景下的各类目标，提高自动驾驶场景中目标检测的精确性。

表2显示了OD-YOLO与多个网络在KITTI数据集上的对比实验。从表中可以看出，与其他网络模型对比，OD-YOLO的检测效果最好，目标检测精度较高。从表3的最后两列可看出，相比于普通卷积和常规检测头YOLOv5，本文提出的OD-YOLO网络，mAP提升了7.0％，车和行人的mAP分别为97.3％和82.6％，进一步验证了OD-YOLO模型检测效果明显提升。

最后，将自动驾驶场景下的图像输入至训练好的检测模型中对各类目标进行检测。示例效果图如图5，结果表明，无论图像中目标是否被遮挡、截断，本发明的检测方法都能准确的识别出图片中物体的种类，精准地完成目标检测任务，验证了基于OD-YOLO的自动驾驶目标检测方法进行目标检测的有效性。

Claims

1.一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于它包括以下步骤:

2.根据权利要求1所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述步骤(1)中的训练数据集和验证数据集是对公开KITTI自动驾驶数据集中的2D目标检测数据集按照4:1比例划分，其中，所述训练数据集由KITTI自动驾驶数据集中2D目标检测数据集的80％的数据构成，将用于训练OD-YOLO自动驾驶目标检测网络模型；所述验证数据集是由KITTI自动驾驶数据集中2D目标检测数据集的20％的数据构成，将用于验证OD-YOLO自动驾驶目标检测网络模型，并将验证结果作为模型性能指标。

3.根据权利要求1所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述步骤(1)中图像分辨率调整具体是指将自动驾驶数据集中2D目标检测数据集所有图像调整为640×640固定分辨率。

4.根据权利要求1所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述步骤(2)中的OD-YOLO自动驾驶目标检测网络由输入模块、CSPDarknet主干网络模块、Neck网络模块和DecoupledHead解耦头部模块四部分构成，其中，所述输入模块的输入端采集自动驾驶场景的图片信号，将其进行随机裁剪、随机缩放、随机翻转这些数据增强操作后输出给CSPDarknet主干网络模块，经过CSPDarknet主干网络模块对其进行特征提取，并将提取到的特征信息传入Neck网络模块中进行特征金字塔池化和特征融合处理，此时特征融合后的特征图传入DecoupledHead解耦头部模块进行目标检测，最后输出检测结果图片信号。

5.根据权利要求1所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述步骤(2)中OD-YOLO自动驾驶目标检测网络的具体构建方法由以下阶段构成：

6.根据权利要求5所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述第二阶段具体是指：

y＝(α_w1eα_f1eα_c1eα_s1eW₁+K+α_wieα_fieα_cieα_sieW_i)＊x (1)

7.根据权利要求6所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述所述第二阶段中CSPDarknet主干网络模块输出的特征图C1、特征图C2和特征图C3的通道大小分别为256、512、1024。

8.根据权利要求5所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述第三阶段的具体实现过程为：将第二阶段得到的特征图C1、特征图C2和特征图C3输入到Neck网络模块中，进行特征金字塔池化、特征融合处理，进而得到三个加强过的有效特征图，即有效特征图C1’、有效特征图C2’和有效特征图C3’，这三个加强过的有效特征图分别通过分类分支进行分类信息的预测和回归分支进行检测框信息和置信度信息的预测，也就是说将分类、回归两个任务分开执行；分类分支采用全连接层结构，回归分支采用卷积层结构。

9.根据权利要求5所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述第四阶段中的边界框回归损失计算的方法具体是由以下内容构成：

L_Focal-EIOU＝IOU^γL_EIOU (3)

其中，γ是用来控制曲线弧度的超参。

10.根据权利要求1所述一种基于OD-YOLO的自动驾驶目标检测方法，其特征在于所述步骤(4)中对自动驾驶目标检测网络模型进行验证具体是指：将步骤(3)中训练好的模型加载到YOLOv5s网络中进行验证，为提高验证速度，将验证批量大小设置为32，IOU交并比设为0.6进行验证。