CN115294550A

CN115294550A - 一种基于多任务学习的自动驾驶汽车道路场景理解方法

Info

Publication number: CN115294550A
Application number: CN202210938072.5A
Authority: CN
Inventors: 王靖瑶; 肖宝平; 郭景华
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-04

Abstract

一种基于多任务学习的自动驾驶汽车道路场景理解方法，涉及汽车智能化与自动驾驶。1：设计自动驾驶汽车道路场景理解多任务模型YOLO‑ODL的共享编码器；2：设计自动驾驶汽车道路场景理解多任务模型YOLO‑ODL的目标检测解码器；3：采用语义分割方法设计多任务模型YOLO‑ODL可行驶区域解码器和车道线解码器；4：设计多任务损失函数，定义总损失为3个任务的损失加权和；5：采用TensorRT对多任务模型加速部署，降低模型的计算复杂度；6：建立道路场景理解数据集，通过数据集完成多任务学习模型的训练和评价。实现交通目标、可行驶区域和车道线的联合检测，节省计算资源、降低过拟合风险和提高网络灵活性。

Description

一种基于多任务学习的自动驾驶汽车道路场景理解方法

技术领域

本发明属于汽车智能化与自动驾驶领域，特别是涉及一种基于多任务学习的自动驾驶汽车道路场景理解方法。

背景技术

自动驾驶汽车的组成从功能可以分为环境感知、决策规划和车辆控制三个模块。环境感知是实现自动驾驶基础且关键的一环，是其他关键技术的基础，它的性能将决定自动驾驶汽车能否适应复杂多变的交通环境。视觉感知将在自动驾驶汽车的发展中发挥关键的作用，而且视觉传感器有着技术成熟、价格便宜、检测全面等优点。

有效地检测各种环境中的感知对象将显著提高自动驾驶汽车的安全性，但是道路场景、光照、天气等因素严重限制检测的性能。随着大数据、计算能力和算法的发展，深度学习准确性一直在快速提升，在自动驾驶领域取得巨大突破，使得检测难题有望得到解决。文献1(Tian Z,Shen C,Chen H,et al.FCOS:Fully convolutional one-stage objectdetection[C].Proceedings of the IEEE International Conference on ComputerVision(ICCV).2019:9627-9636.)利用逐像素预测的方式来预测目标边界框，并增加Center-ness分支来抑制低质量的目标边界框。文献2(Teichmann M,Weber M,Zoellner M,et al.MultiNet:Real-time joint semantic reasoning for autonomous driving[C].Proceedings of the IEEE Intelligent Vehicles Symposium(IV).2018:1013-1020.)设计一种联合分类、检测和语义分割网络。

虽然深度学习已经取得显著进步，但是在实际部署应用程序时，运行时间变得非常重要。

发明内容

本发明的目的是针对现有技术中存在的冗余计算、速度慢和精度低等问题，提供基于硬参数共享的多任务模型，实现目标、可行驶区域和车道线的联合高效检测的一种基于多任务学习的自动驾驶汽车道路场景理解方法。基于硬参数共享的多任务模型YOLO-ODL，实现目标、可行驶区域和车道线的联合高效检测，并提供模型的加速部署应用，从而为决策规划和执行控制提供稳定可靠的条件。

本发明的技术方案是：搭建基于硬参数共享的多任务模型YOLO-ODL，通过共享交通目标、可行驶区域和车道线三个任务的神经网络参数实现目标、可行驶区域和车道线的联合高效检测，采用TensorRT神经网络加速方法来提高模型的部署性能，在保证模型精度的前提下，大幅度提高模型推理速度。本发明包括以下步骤：

步骤1：设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的共享编码器。

步骤2：设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的目标检测解码器。

步骤3：采用语义分割的方法设计多任务模型YOLO-ODL的可行驶区域解码器和车道线解码器。

步骤4：将多个任务的损失联系起来，设计多任务损失函数，定义总损失为3个任务的损失加权和。

步骤5：采用TensorRT对多任务模型进行加速部署，降低模型的计算复杂度。

步骤6：建立道路场景理解数据集，通过数据集完成多任务学习模型的训练和评价。

在步骤1中，所述设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的共享编码器的具体步骤包括：

第一步：采用YOLOv5s目标检测模型中的Backbone和FPN结构，Backbone提取场景中的共有图像特征，FPN融合不同尺度的图像特征。

第二步：生成W/4×H/4×128、W/8×H/8×64、W/16×H/16×128三种尺度的特征图。

在步骤2中，所述设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的目标检测解码器的具体步骤包括：

第一步：采用YOLOv5s目标检测模型中PANet和Detection Head结构，PANet进一步融合不同尺度特征，Detection Head采用卷积核大小为1×1，步长为1的卷积层来调整通道数。

第二步：加入浅层高分辨率特征160×96来替换初始的深层低分率特征20×12，最终生成160×96×18、80×48×18、40×24×18三种尺度的特征图。

第三步：每个网格负责3个先验框，总共有61440个预测输出，而每个预测输出包括4个与预测框位置相关的参数、1个置信度参数及1个车辆类别参数，所以输出特征图有3×6＝18个通道。

在步骤3中，所述采用语义分割的方法设计多任务模型YOLO-ODL的可行驶区域解码器和车道线解码器的具体步骤包括：

第一步:可行驶区域解码器和车道线解码器由2个CSPUp层、CBS层和Sigmoid层组成。

第二步：将W/4×H/4×128低分辨率特征图变换回W×H×2高分辨率特征图，2个通道对应分类个数，并进一步提取图像特征，从而生成更密集的特征图，最终通过Sigmoid层生成可行驶区域和车道线分割的语义概率输出。

第三步：分别对三个Encoder端的输出进行后处理，并在原图上绘制后处理结果。

在步骤4中，所述将多个任务的损失联系起来，设计多任务损失函数，定义总损失为3个任务的损失加权和的具体步骤包括：

第一步：定义总损失为3个任务的损失加权和，以使3个任务的损失尺度更接近。

第二步：引入同方差不确定性来平衡多个任务，在每个任务的损失中加入可学习的噪声参数，使多任务网络在训练期间能自动调整权重参数。

在步骤5中，所述采用TensorRT对多任务模型进行加速部署的具体步骤包括：

第一步:采用FP16量化来加速部署多任务模型,将较高精度的数据压缩到较低精度的数据，从而提高模型的吞吐量，同时降低模型的存储体积和内存消耗。

第二步：对网络模型的结构进行优化，保证模型精度的前提下，大幅度提高模型推理速度。

在步骤6中，所述建立道路场景理解数据集，通过数据集完成多任务学习模型的训练和评价的具体步骤包括：

第一步：采集道路目标、可行驶区域和车道线的数据集，设置训练集、验证集和测试集的比列关系。

第二步：采用查全率(Recall)、平均精度均值(mean Average Precision,mAP)来评价目标检测性能。由MIoU来衡量可行驶区域检测性能，采用像素Accuracy和IoU来衡量车道线检测性能。

第三步：初始学习率设为0.001，权重衰减为0.0005，动量为0.937，采用Adam优化器进行优化训练。

本发明的效果和益处是：本发明提出一种基于多任务学习的自动驾驶汽车道路场景理解方法，实现交通目标、可行驶区域和车道线的联合检测，有效节省计算资源、降低过拟合风险和提高网络灵活性。

附图说明

图1为本发明的多任务学习模型结构图。

图2数据增强结构图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

考虑到硬参数共享的多任务模型结构简单、运行效率高、降低过拟合风险等优点，搭建基于硬参数共享的多任务模型YOLO-ODL，实现交通目标、可行驶区域和车道线的联合高效检测。YOLO-ODL模型结构如图1所示，模型采用Encoder-Decoder方案，由一个共享编码器(Shared Encoder)和三个特定任务的解码器组成，三个解码器分别为检测解码器(Detection Encoder)、可行驶区域解码器(Drivable Area Encoder)和车道线解码器(Lane Line Encoder)。与使用单个任务模型相比，YOLO-ODL多任务模型共享资源，避免图像特征的冗余计算，有效提高模型效率。

步骤1：设计多任务模型YOLO-ODL的共享编码器(Shared Encoder)。

步骤1.1：采用YOLOv5s目标检测模型中的Backbone和FPN结构，Backbone提取场景中的共有图像特征，FPN融合不同尺度的图像特征。

步骤1.2：生成W/4×H/4×128、W/8×H/8×64、W/16×H/16×128三种尺度的特征图。

步骤2：设计多任务模型YOLO-ODL的目标检测解码器(Detection Encoder)。

步骤2.1：采用YOLOv5s目标检测模型中PANet和Detection Head结构，PANet进一步融合不同尺度特征，Detection Head采用卷积核大小为1×1，步长为1的卷积层来调整通道数。

步骤2.2：加入浅层高分辨率特征160×96来替换初始的深层低分率特征20×12，最终生成160×96×18、80×48×18、40×24×18三种尺度的特征图。

步骤2.3：每个网格负责3个先验框，总共有61440个预测输出，而每个预测输出包括4个与预测框位置相关的参数、1个置信度参数及1个车辆类别参数，所以输出特征图有3×6＝18个通道。

步骤3：采用语义分割的方法设计多任务模型YOLO-ODL的可行驶区域解码器(Drivable Area Encoder)和车道线解码器(Lane Line Encoder)。

步骤3.1:可行驶区域解码器(Drivable Area Encoder)和车道线解码器(LaneLine Encoder)由2个CSPUp层、CBS层和Sigmoid层组成。

步骤3.2：将W/4×H/4×128低分辨率特征图变换回W×H×2高分辨率特征图，2个通道对应分类个数，并进一步提取图像特征，从而生成更密集的特征图，最终通过Sigmoid层生成可行驶区域和车道线分割的语义概率输出。

步骤3.3分别对三个Encoder端的输出进行后处理，并在原图上绘制后处理结果。

步骤4：将目标检测、可行驶区域检测和车道线检测等多个任务的损失联系起来，设计多任务损失函数，定义总损失为3个任务的损失加权和。

步骤4.1：定义L_total总损失为3个任务的损失加权和，以使3个任务的损失尺度更接近。

L_total＝α_boxL_box+α_objL_obj+α_clsL_cls+α_drivableL_drivable+α_laneL_lane (1)

式中，α_box、α_obj和α_cls是目标检测任务的3个损失权重；α_drivable是可行驶区域检测任务的损失权重；α_lane是可车道线检测任务的损失权重；边界框预测属于回归问题，L_box采用CIOU损失函数，其他任务属于分类问题，采用BCE损失函数。

步骤4.2：引入同方差不确定性来平衡多个任务，在每个任务的损失中加入可学习的噪声参数，使多任务网络在训练期间能自动调整权重参数。

步骤4.2.1：定义f(x；θ)为模型的输出，模型的输入为x，神经网络的参数为θ，数据集的标签为y。对于回归问题，定义满足高斯分布的似然函数为如下形式：

p(y|f(x；θ))＝N(f(x；θ),σ²) (2)

式中，σ代表可学习的噪声参数；N代表高斯分布。

步骤4.2.2：在最大似然推理过程中，希望最大化模型的对数似然，因此在回归问题中的对数似然函数如下：

步骤4.2.3：假设模型通过Softmax函数计算输出概率，因此在分类问题中的似然函数如下：

步骤4.2.4：分类问题的对数似然函数表示如下：

式中，c代表正确分类的类别；c′代表所有类别。

步骤4.2.5：假设多任务模型由回归和分类两个任务组成，输出标签为y₁和y₂，联合损失L(θ_sh,θ₁,θ₂,σ₁,σ₂)可以根据前面的计算公式得到，公式化简流程如下：

式中，θ_sh代表共享的神经网络参数；θ₁和θ₂代表特定任务的神经网络参数；L₁(θ_sh,θ₁)＝‖y₁-f(x；θ_sh,θ₁)‖²为回归任务的输出f(x；θ_sh,θ₁)与y₁之间的欧式距离；L₂(θ_sh,θ₂)＝-log Softmax(y₂；f(x；θ_sh,θ₂))为分类任务中的交叉熵损失；公式右边的两个log项理解为正则项，可以防止σ过大而引起训练严重失衡。

步骤4.2.6：为避免产生负的损失值。采用的多任务损失权重平衡公式如式(7)所示，并且加入原始的损失权重α。

式中，Y＝{box,obj,cls,drivable,lane}包括目标检测的3个子任务、可行驶区域检测任务和车道线检测任务。

步骤5.1:采用FP16量化来加速部署多任务模型,将较高精度的数据压缩到较低精度的数据，从而提高模型的吞吐量，同时降低模型的存储体积和内存消耗。

步骤5.2：对网络模型的结构进行优化，保证模型精度的前提下，大幅度提高模型推理速度：

步骤5.2.1：消除无用的操作和不被使用的输出层，以避免不必要的计算。

步骤5.2.2：将网络转换为更简单的形式表示，以提高运行效率，例如将卷积、偏置和激活函数融合成一层。

步骤5.2.3：使用相同的源张量和相似的参数进行聚合操作或水平层融合，从而产生更大的层，进一步提高模型性能。

步骤5.2.4：将网络的各层输出定向到正确的目的地来合并concat层，从而减少网络的操作次数。

步骤6.1：采集道路目标、可行驶区域和车道线的数据集，共有10万张图像，分辨率为1280×720，其中训练集7万张图像，验证集1万张图像，测试集2万张图像。

步骤6.2：采用查全率(Recall)、平均精度均值(mean Average Precision,mAP)来评价目标检测性能。由MIoU来衡量可行驶区域检测性能，采用像素Accuracy和IoU来衡量车道线检测性能。

步骤6.3：初始学习率设为0.001，权重衰减为0.0005，动量为0.937，采用Adam优化器进行优化训练。将模型的输入大小调整为640×384，以加快模型的速度，同时对输入图像进行归一化处理。

步骤6.4：为避免过拟合和提高模型的泛化能力，对数据集中的数据进行增强，如图2所示，采用的数据增强包括旋转、缩放、平移、颜色空间加强和左右翻转。

步骤6.5：将三个解码器进行联合训练，并与公开的各种模型进行对比，完成测试与实验评估。

以上内容是结合优选技术方案对本发明所做的进一步详细说明，不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说，在不脱离本发明的构思的前提下，还可以做出简单的推演及替换，都应当视为本发明的保护范围。

Claims

1.一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于包括以下步骤：

步骤1：设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的共享编码器；

步骤2：设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的目标检测解码器；

步骤3：采用语义分割的方法设计多任务模型YOLO-ODL的可行驶区域解码器和车道线解码器；

步骤4：将多个任务的损失联系起来，设计多任务损失函数，定义总损失为3个任务的损失加权和；

步骤5：采用TensorRT对多任务模型进行加速部署，降低模型的计算复杂度；

2.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤1中，所述设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的共享编码器的具体步骤包括：

第一步：采用YOLOv5s目标检测模型中的Backbone和FPN结构，Backbone提取场景中的共有图像特征，FPN融合不同尺度的图像特征；

3.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤2中，所述设计自动驾驶汽车道路场景理解多任务模型YOLO-ODL的目标检测解码器的具体步骤包括：

第一步：采用YOLOv5s目标检测模型中PANet和Detection Head结构，PANet进一步融合不同尺度特征，Detection Head采用卷积核大小为1×1，步长为1的卷积层来调整通道数；

第二步：加入浅层高分辨率特征160×96来替换初始的深层低分率特征20×12，最终生成160×96×18、80×48×18、40×24×18三种尺度的特征图；

4.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤3中，所述采用语义分割的方法设计多任务模型YOLO-ODL的可行驶区域解码器和车道线解码器的具体步骤包括：

第一步:可行驶区域解码器和车道线解码器由2个CSPUp层、CBS层和Sigmoid层组成；

第二步：将W/4×H/4×128低分辨率特征图变换回W×H×2高分辨率特征图，2个通道对应分类个数，并进一步提取图像特征，从而生成更密集的特征图，最终通过Sigmoid层生成可行驶区域和车道线分割的语义概率输出；

5.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤4中，所述将多个任务的损失联系起来，设计多任务损失函数，定义总损失为3个任务的损失加权和的具体步骤包括：

第一步：定义总损失为3个任务的损失加权和，以使3个任务的损失尺度更接近；

6.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤5中，所述采用TensorRT对多任务模型进行加速部署的具体步骤包括：

第一步:采用FP16量化来加速部署多任务模型,将较高精度的数据压缩到较低精度的数据，从而提高模型的吞吐量，同时降低模型的存储体积和内存消耗；

7.如权利要求1所述一种基于多任务学习的自动驾驶汽车道路场景理解方法，其特征在于在步骤6中，所述建立道路场景理解数据集，通过数据集完成多任务学习模型的训练和评价的具体步骤包括：

第一步：采集道路目标、可行驶区域和车道线的数据集，设置训练集、验证集和测试集的比列关系；

第二步：采用查全率、平均精度均值来评价目标检测性能；由MIoU来衡量可行驶区域检测性能，采用像素Accuracy和IoU来衡量车道线检测性能；