CN117173653A

CN117173653A - 一种基于改进yolop的自动驾驶全景感知方法

Info

Publication number: CN117173653A
Application number: CN202310412374.3A
Authority: CN
Inventors: 钱俊宏; 吕佑龙; 左丽玲
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-12-05

Abstract

本发明公开了一种基于改进YOLOP的自动驾驶全景感知方法，搭建主干网络；搭建颈部网络；构建坐标注意力机制，将其连接在主干网络和颈部网络之间；搭建车道线分割头部分网络；设计损失函数；使用BDD100K数据集训练模型，搭建训练环境并训练模型；进行反复的对比实验，在相同的实验环境下与主流的算法进行对比，检验本发明的有效性。本发明提出的基于改进YOLOP的自动驾驶全景感知方法具有检测准确度高、计算量小等优点，在光线条件较差的夜晚，天气状况不好等复杂的情况下，取得了良好的检测结果。

Description

一种基于改进YOLOP的自动驾驶全景感知方法

技术领域

本发明涉及一种智能汽车自动驾驶领域，尤其涉及到一种基于YOLOP改进的自动驾驶全景感知方法。

背景技术

随着计算机技术与汽车工业的发展，自动驾驶技术逐渐成为当前研究的热点，自动驾驶系统可分为三个模块，分别为感知模块，决策规划模块，控制执行模块。感知模块作为自动驾驶系统的第一步，可以从相机拍摄的图像中提取视觉信息，帮助后续的决策系统控制车辆的动作，因此自动驾驶车辆需要对周围环境进行全景感知，包括障碍物的检测，帮助车辆避开障碍物，同时需要检测车道线和可行驶区域，然后向决策系统提供包括：障碍物的位置，道路是否可行驶，车道线的位置信息等，这是规划车辆行驶路线的关键。

对于一个全景感知方法，精度和时效性是两个关键要求，即自动驾驶车辆能否及时做出准确的决策以确保安全。然而对于实际的自动驾驶系统尤其是ADAS，计算资源往往是有限的，在实际的场景中，受到环境的光照，天气等因素影响，障碍物和车道线会变得难以识别，并且在实际的情况下车道线易受到磨损造成车道线不完整，这对车道线和可行驶区域的检测带来巨大挑战。因此提出一种在复杂场景下具有高精度的实时自动驾驶全景感知算法具有现实意义。

发明内容

本发明的目的是针对问题的难点，以及现有技术上存在的不足，提供可实现实时、准确、稳定的自动驾驶全景感知深度学习网络模型。基于YOLOP深度学习方法，结合车辆在行驶过程中的图像特点，设计YOLOP的改进算法，通过引入坐标注意力机制深入挖掘特征图空间信息，以此应对光线，遮挡等因素造成车道线难以检测的难点。

一种基于改进YOLOP的自动驾驶全景感知方法，包括以下步骤：

步骤S1：搭建网络中用于提取不同尺度的特征图的主干网络部分(Backbone)；

步骤S2：搭建网络中用于融合不同尺度特征图特征的颈部网络部分(Neck)；

步骤S3：构建坐标注意力机制来深入挖掘特征图空间信息；

步骤S4：搭建网络中的检测头(DetectionHead)和分割头(SegmentationHead)部分网络；

步骤S5：设计损失函数；

步骤S6：准备BDD100K数据集，搭建训练环境并训练模型；

步骤S7：进行反复的对比实验，检验有效性。

步骤S1中使用三层CSPDarkNet网络来提取不同尺度的特征图的主干网络部分。

优选的是，本发明步骤S2中使用SimSPPF模块融合特征金字塔网络(FeaturePyramid Network，FPN)，来扩大感受野并融合不同尺度的特征图的颈部网络部分。

优选的是，本发明步骤S3中添加坐标注意力机制在主干网络和颈部网络之间，坐标注意力机制(Coordinate Attention)给主干网络提取的特征图加入一个权重，通过赋予不同的权重抽出关键的信息，让模型对关键的信息进行学习。

优选的是，本发明步骤S4中的检测头部分由路径聚合网络(Path-AggregationNetwork,PAN)和FPN组成，路径聚合网络自下而上传输定位特征，FPN自上而下传输语义特征，将两个网络融合起来，并利用路径聚合网络中的多尺度融合特征图进行检测；分割头部分由特征金字塔网络的输出作为输入，输入的特征图大小为(W/8,H/8,256)，经过三次上采样后将输出特征恢复到(W,H,2)的大小，代表了输入图像中车道线和背景的每个像素概率。

优选的是，本发明步骤S5中使用的损失函数分为三种，在执行不同的任务中使用不同的损失函数，包括用于障碍物检测任务中的损失函数L_det，用于车道线分割任务中的损失函数L_ll-seg，以及用于可行驶区域分割的损失函数L_da-seg。

优选的是，本发明步骤S6中使用Bdd100K数据集训练模型，模型训练超参数设置为：批处理大小(batchsize)＝16，训练次数(epoch)＝240，学习率(learningrate)＝0.001，优化器选择Adam进行训练。

优选的是，本发明步骤S7中使用训练好的模型进行反复的对比实验，制定模型评价指标，在相同的实验环境下与主流方法进行对比，检验有效性。

本发明基于YOLOP目标检测算法结合坐标注意力机制，构建了一个自动驾驶全景感知模型，此模型具有较高的检测精度，并具有很强的鲁棒性，在复杂的场景下例如光线不佳的夜晚，天气不好的情况下仍然具有良好的表现。

附图说明

图1为本发明的网络模型结构图。

图2为检测效果对比图

具体实施方式

为了使本发明更加简单易懂，选择一下实施例结合附图进行详细说明。

如图1和图2所示，本发明实施例包括以下步骤：

步骤S1：搭建自动驾驶全景感知模型的主干网络部分(Backbone)用于提取不同尺度的特征图。使用的主干网络为CSPDarkNet，主干网络的第一层为Focus模块输入通道数为3，输出通道数为32，该模块的作用是实现无信息丢失的降采样，紧接着是一个卷积层，输入通道数为32，输出通道数为64，卷积核大小为3×3，步长为2。接着是三层CSPDarkNet网络，每一层CSPDarkNet由一个BottleneckCSP层和个卷积层组成，使用LeakyReLU作为激活函数。第一层CSPDarkNet网络的输入通道数均为64，输出通道数为128。第二层CSPDarkNet网络的输入通道数为128，输出通道数为256。第三层CSPDarkNet网络的输入通道数为256，输出通道数为512。

步骤S2：搭建自动驾驶全景感知模型的颈部结构(Neck)用于融合不同尺度特征图的特征。颈部网络的作用是融合不同尺度特征图，针对车道线检测的任务难点，对颈部网络进行改进，提高模型的检测能力，具体步骤为：

步骤S2.1：删除原算法中的SPP模块，SPP模块是由三个最大池化模块进行并行计算，三个最大池化的池化核大小分别为5×5，9×9，13×13，最后将计算结果拼接后输出。

步骤S2.2：搭建SimSPPF模块，该模块的结构为搭建三个池化核为5×5的最大池化并依次连接，再将每个最大池化的输出拼接到一起作为输出。与SPP模块三个最大池化结构不同，SimSPPF模块的结构是由三个最大池化串联起来，并将每个最大池化的输出分别连接到输出上，三个最大池化模块的每个池化核的大小均为5×5，激活函数由SiLU换成ReLU，与SPP相比SimSPPF模块具有更快的速率，更好的融合表现。

步骤S2.3：搭建三层特征金字塔网络(Feature Pyramid Network，FPN)，每一层的通道数分别为512，256，128，并进行两次上采样，以此融合不同尺度的特征图。

步骤S3：构建坐标注意力机制来深入挖掘特征图空间信息。在主干网络第一层和第二层的末尾分别加入坐标注意力机制，并将坐标注意力的输出拼接到颈部网络的上采样层当中。坐标注意力机制使用了两个全局平均池化模块，全局平均池化的作用是对空间信息进行全局编码，使用两个全局平均池化分别沿水平方向和垂直方向对特征图进行编码，生成两个具有方向感知能力的特征图，这样可以捕获一个空间方向上的长期依赖关系，并在另一个方向上保持精确的位置信息，有助于网络更准确地定位感兴趣的对象。接着将两个特征图连接并使用1×1的卷积得到位置信息的特征映射，随后再通过两个1×1的卷积生成两个注意力权重，最后通过乘法将两个注意力权重相乘得到最终的输出。将注意力机制的输出拼接到网络颈部(Neck)的两个上采样层之后。

步骤S4：搭建检测头和分割头部分网络，具体步骤如下：

步骤S4.1：搭建检测头部分网络，检测头部分由路径聚合网络PAN和特征金字塔网络FPN组成，PAN自下而上传输定位特征，FPN自上而下传输语义特征，将两个网络融合起来，并利用PAN中的多尺度融合特征图进行检测，之后特征图当中的像素点上分别生成不同尺度的锚框，检测头预测目标的位置和尺寸，以及相应的类别概率和置信度预测。

步骤S4.2：分割头部分将特征金字塔网络FPN的输出作为输入，输入的特征图大小为(W/8,H/8,256)，经过三次上采样操作后，将输出特征映射恢复到(W,H,2)的大小，它表示输入图像当中每一个像素属于的车道线和背景的概率。

步骤S5：设计损失函数步骤如下：

步骤S5.1：设计障碍物检测损失函数L_det，该损失函数是分类损失L_class，目标损失L_obj和边界框损失L_box的加权和，计算方法如公式(1)所示：

L_det＝α₁L_class+α₂L_obj+α₃L_box (1)

式中，L_class和L_obj是focal loss，L_box是预测边框和真实边框的重叠率和相似度的误差，α₁、α₂、α₃分别为分类损失，目标损失和边界框损失的权重参数，在本实施例当中三个参数均设置为1，可以根据实际情况调整其数值。

步骤S5.2：设计车道线分割损失函数L_ll-seg，车道线损失函数由交叉熵损失L_ce以及交并比损失L_IoU相加得到，如公式(2)所示：

L_ll-seg＝L_ce+L_IoU (2)

交叉熵损失L_ce用来减小像素与目标之间的分类误差，计算方法如公式(3)所示。

式中，p(x_i)是指真实的结果，q(x_i)是指模型预测的结果，i代表第i个样本。

交并比损失L_IoU的计算方法如公式(3)所示：

式中，TP是指属于车道线的像素点被预测为车道线的数量，FP是指属于背景的像素点被预测为车道线的数量，FN是指属于背景的像素点被预测为背景的数量。

步骤S5.3：设计可行驶区域损失函数L_da-seg，可行驶区域损失是交叉熵损失，如公式(5)所示：

L_da-seg＝L_ce (5)

步骤S6：准备BDD100K数据集，搭建训练环境并训练模型。模型训练时设置超参数批处理大小(batchsize)＝16，训练次数(epoch)＝240，初始学习率(learningrate)＝0.001，权重衰减系数(WeightDecay)＝0.0005，优化器选择Adam进行训练。

步骤S7：进行反复的对比实验，实验步骤如下：

步骤S7.1：评价模型的指标包括召回率的(Recall)，准确率(Accuracy)，精确率(Precision)，交并比损失(Intersection over Union,IoU),召回率的定义为模型将正类样本预测为正类的概率，计算方法如公式(6)所示，准确率定义为模型正确预测的类别数占总类别数的比例，计算方式如公式(7)所示，精确率定义为模型正确预测的正样本占全部预测为正的比例，计算方式如公式(8)所示，交并比定义为预测结果和真实的交集与并集的比值，计算方法如公式(9)所示，

在上述公式中，TP′表示的是实际为正例且预测也为正例的样本数，FP′表示的是实际为负例且预测为正例的样本数，FN′表示的是实际为正例且预测为负例的样本数，TN表示的是实际为负例且预测也为负例的样本数。

步骤S7.2：检验本发明在障碍物检任务上的表现，并与当前主流的算法进行比较，数据如表1所示，从表1中可以发现本发明在障碍物检测方面比主流方法表现更好。

表1本发明在障碍物检测任务上的数据表现

步骤S7.3：检验本发明在车道线检测任务上的表现，并与当前主流的算法进行比较，数据如表2所示，从表2中可以发现本发明在车道线检测方面比主流方法表现更好。

表2本发明在车道线检测任务上的数据表现

步骤S7.4：检验本发明在可行驶区域分割任务上的表现，并与当前主流的算法进行比较，数据如表3所示，从表3中可以发现本发明在可行驶区域分割方面比主流方法表现更好。

表3本发明在可行驶区域分割任务上的数据表现以上内容是结合了具体实施例详细描述了本发明的基本原理、主要特点和优势。

Claims

1.一种基于改进YOLOP的自动驾驶全景感知方法，其特征在于，包括以下步骤：

步骤S1：搭建网络中用于提取不同尺度的特征图的主干网络部分；

步骤S2：搭建网络中用于融合不同尺度特征图特征的颈部网络部分；

步骤S3：构建坐标注意力机制来深入挖掘特征图空间信息；

步骤S4：搭建网络中的检测头和分割头部分网络；

步骤S5：设计损失函数；

步骤S6：准备BDD100K数据集，搭建训练环境并训练模型；

步骤S7：进行反复的对比实验，检验有效性。

2.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S1中使用三层CSPDarkNet网络来提取不同尺度的特征图的主干网络部分。

3.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S2中使用SimSPPF模块融合特征金字塔网络，来扩大感受野并融合不同尺度的特征图的颈部网络部分。

4.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S3中添加坐标注意力机制在主干网络和颈部网络之间，坐标注意力机制给主干网络提取的特征图加入一个权重，通过赋予不同的权重抽出关键的信息，让模型对关键的信息进行学习。

5.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S4中的检测头部分由路径聚合网络和特征金字塔网络组成，路径聚合网络自下而上传输定位特征，特征金字塔网络自上而下传输语义特征，将两个网络融合起来，并利用路径聚合网络中的多尺度融合特征图进行检测；分割头部分由特征金字塔网络的输出作为输入，输入的特征图大小为(W/8,H/8,256)，经过三次上采样后将输出特征恢复到(W,H,2)的大小，代表了输入图像中车道线和背景的每个像素概率。

6.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S5中使用的损失函数分为三种，在执行不同的任务中使用不同的损失函数，包括用于障碍物检测任务中的损失函数L_det，用于车道线分割任务中的损失函数L_ll-seg，以及用于可行驶区域分割的损失函数L_da-seg。

7.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S6中使用Bdd100K数据集训练模型，模型训练超参数设置为：批处理大小＝16，训练次数＝240，学习率＝0.001，优化器选择Adam进行训练。

8.根据权利要求1所述一种基于YOLOP改进的自动驾驶全景感知方法，其特征在于，所述步骤S7中使用训练好的模型进行反复的对比实验，制定模型评价指标，在相同的实验环境下与主流方法进行对比，检验有效性。