CN111738037B

CN111738037B - 一种自动驾驶方法及其系统、车辆

Info

Publication number: CN111738037B
Application number: CN201910228952.1A
Authority: CN
Inventors: 裴锋; 王丹; 温俊杰; 王玉龙; 闫春香; 陈林昱
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2024-03-08
Anticipated expiration: 2039-03-25
Also published as: CN111738037A

Abstract

本发明涉及一种自动驾驶方法及其系统、车辆，所述方法包括如下步骤：获取车辆前方图像序列和车辆速度序列；预先训练的卷积神经网络对所述前方图像序列进行处理，得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理，得到每一帧的编码特征向量并输出；预先训练的长短期记忆网络依序对每一帧的编码特征向量和处理其前一帧的编码特征向量得到的状态向量进行处理，得到与当前帧的编码特征向量对应的驾驶指令；控制车辆的执行机构执行所述驾驶指令。所述系统为实现所述方法的载体，所述车辆包括所述系统。实施本发明能够提高车辆拟人自动驾驶的准确性与实时性。

Description

一种自动驾驶方法及其系统、车辆

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种自动驾驶方法及其系统、车辆。

背景技术

在传统的自动驾驶中，都是采用基于规则系统的模块化方法，一般分为感知、融合、决策和控制几大模块。其优点是各模块的任务明确，系统出现问题时可进行快速排查，系统的可靠性较高。然而，这种方案依赖于各个模块的精细设计，而人为设计的系统往往覆盖不了驾驶的各种场景，因此其处理复杂路况的能力有限。并且这种方案的感知模块往往需要大量的标注数据进行模块化的深度神经网络训练，由此需要耗费大量人力物力进行数据标注。而通过采用端到端深度神经网络模仿驾驶行为的方案是当前自动驾驶领域中最可靠有效的方法，通过直接输入原始图像数据获取车辆控制信号，不需要对各个模块进行复杂精细的设计，训练数据可以直接通过车载摄像头和车载CAN中获取到。

其中，端到端深度神经网络模仿驾驶行为的现有方案如下：

现有方法一提出了一种基于卷积神经网络CNN的端到端自动驾驶系统，通过输入一帧图像直接预测出控制信息方向盘转角，实现输入到输出的直接映射。然而该端到端自动驾驶系统只预测车辆的横向控制信息方向盘转角。但现有方法一只适用于简单场景的车道保持功能，在避障、红路灯等复杂场景，该系统具有一定的局限性，无法理解驾驶场景。

现有方法二提出了一种基于卷积神经网络CNN与长短时记忆循环神经网络LSTM相结合的CNN-LSTM的端到端自动驾驶系统，并增加了语义分割辅助任务，通过输入图像序列预测出车辆横纵向的动作概率。然而现有方法二并没有通过输入图像直接预测控制信息方向盘转角与车速，而是预测左转、右转、直行、缓慢或停下的动作概率。在自动驾驶中该系统需额外增加车辆控制子系统。

现有方法三提出了一种基于卷积神经网络CNN与长短时记忆循环神经网络LSTM相结合的CNN-LSTM的端到端自动驾驶系统，将图像和车速同时输入网络，同时预测方向盘转角和车速。虽然现有方法三与现有方法一相比增加了车速的预测，但现有方法三只能实现简单的车道保持功能，不能应对较复杂的驾驶环境。

综上，现有端到端深度神经网络模仿驾驶行为的技术尚未成熟，有待进一步改进。

发明内容

本发明的目的在于提出一种自动驾驶方法及其系统、车辆，以提高LSTM网络图像序列输入与自动驾驶实车测试的实时性、自动驾驶复杂场景中的沿车道线行驶与避障能力、以及车辆控制方向盘转角与车速预测的准确度。

为了实现本发明目的，根据本发明第一方面，本发明实施例提供一种自动驾驶方法，所述方法包括如下步骤：

获取车辆前方图像序列和车辆速度序列；

预先训练的卷积神经网络对所述前方图像序列进行处理，得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理，得到每一帧的编码特征向量并输出；

预先训练的长短期记忆网络依序对每一帧的编码特征向量和处理其前一帧的编码特征向量得到的状态向量进行处理，得到与当前帧的编码特征向量对应的驾驶指令；

控制车辆的执行机构执行所述驾驶指令。

优选地，所述衔接处理具体为将每一帧图像特征向量和与其具有相同时间戳的车辆速度低维特征进行衔接得到对应的编码特征向量。

优选地，所述方法还包括：

预先训练的语义分割网络接收所述多帧图像特征向量序列；所述语义分割网络包括卷积层和池化层；

所述多帧图像特征向量序列中的每一帧图像特征向量依次通过所述卷积层和所述池化层进行下采样后得到一特征映射，并对所述特征映射进行上采样得到对应的像素级语义理解图像；

根据所述像素级语义分割图像确定车辆前方的可行驶区域。

优选地，所述方法还包括：

预先训练的目标检测网络接收所述多帧图像特征向量序列；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小；

所述多帧图像特征向量序列中的每一帧图像特征向量依次通过所述多个卷积层进行目标检测并输出目标在相应帧图像中的坐标信息。

优选地，所述长短期记忆网络、语义分割网络和目标检测网络的预先训练采用联合训练；

所述联合训练包括：

使用权重将所述长短期记忆网络、语义分割网络和目标检测网络在训练过程中联合起来，即L＝αL0+βL1+γL2；

其中，L0为长短期记忆网络损失函数，

其中，L1为语义分割网络损失函数，

其中，L2为目标检测网络损失函数，

其中，α、β、γ分别为联合训练中L0、L1、L2的权重，α+β+γ＝1；N为先验框正样本数量，x为指示参数，c为类别置信度预测值，l为位置预测值，g为地面实况位置值。

优选地，所述驾驶指令包括方向盘转角和车速。

根据本发明第一方面，本发明实施例提供一种自动驾驶系统，所述系统包括：

信息获取单元，用于获取车辆前方图像序列和车辆速度序列；所述车辆前方图像序列包括按序排列的多帧图像，所述车辆速度序列包括多个速度信息，且所述多帧图像和所述多个速度信息一一对应；

卷积神经网络，用于对所述前方图像序列进行处理，得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理并输出；其中，所述衔接处理包括每一帧图像特征向量和与其具有相同时间戳的车辆速度低维特征进行衔接得到一编码特征向量；

长短期记忆网络，用于依序对每一编码特征向量进行处理得到状态向量和驾驶指令，具体包括根据当前编码特征向量和处理前一编码特征向量得到的前一状态向量确定当前状态向量和驾驶指令；

控制单元，用于控制车辆的执行机构执行所述驾驶指令。

优选地，所述系统还包括：

语义分割网络，用于依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行下采样后得到一特征映射，并对所述特征映射进行上采样得到对应的像素级语义理解图像；所述语义分割网络包括卷积层和池化层。

优选地，所述系统还包括：

目标检测网络，用于依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行目标检测并输出目标在相应帧图像中的坐标信息；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小。

根据本发明第三方面，本发明实施例提供一种车辆，包括第二方面实施例所述的自动驾驶系统。

以上技术方案具有以下有益效果：

(1)针对LSTM网络结构要求图像序列输入与自动驾驶实车测试要求实时性问题，本发明实施例方法上对传统的LSTM网络结构在模型推理阶段进行了改进，提出了基于状态传递LSTM，改进后基于状态传递LSTM结构仅接收经过CNN网络编码的特征向量以及上一帧LSTM网络处理后传递的状态向量；不需要处理连续一个序列完整帧的CNN特征向量进行序列处理输出预测。基于状态传递LSTM结构不仅保留了LSTM网络对连续时空状态的预测能力，还大大减少了模型推理过程中由于重复计算而造成的时间和内存消耗，使端到端自动驾驶系统达到了实时预测，图像序列输入的模型计算推理时间降到单帧图像输入模型的推理时间。

(2)同时建立自动驾驶场景语义理解与显著性目标区域关注的注意力机制的两种辅助任务，与端到端自动驾驶的车辆控制主任务(基于状态传递LSTM)一起进行多任务联合训练，充分利用端到端自动驾驶系统的学习能力，使端到端自动驾驶深度神经网络不仅能理解驾驶场景，还能集中注意力关注显著性目标区域，最终能够更加准确地预测出车辆控制信息方向盘转角与车速，提高模型在自动驾驶复杂场景中沿车道线行驶与避障的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中一种自动驾驶方法流程图。

图2为本发明实施例一中CNN-LSTM网络结构示意图。

图3为现有方法三在推理阶段的LSTM结构示意图。

图4为本发明实施例一中在推理阶段基于状态向量传递的LSTM结构示意图。

图5为本发明实施例一中CNN1网络结构示意图。

图6为本发明实施例一中CNN-LSTM2网络结构示意图。

图7为本发明实施例一中多个网络结构可视化效果比较示意图。

图8为本发明实施例二中一种自动驾驶系统结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记为功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

如图1所示，本发明实施例一提供一种自动驾驶方法，所述方法包括如下步骤：

步骤S1、获取车辆前方图像序列和车辆速度序列；

具体而言，本实施例中车辆前摄像头连续采集多帧车辆前方图像形成一图像序列，该图像序列经时间戳的对齐与预处理后得到所述车辆前方图像序列，作为卷积神经网络的输入，本实施例中在数据增强和数据平衡两个方面对数据进行预处理。在数据增强上，首先对图像进行归一化处理，以一定的概率调整图像的饱和度、对比度和亮度，采用高斯噪声或椒盐噪声对图像噪声进行增强。根据负样本生成方法(M.Bojarski,D.Del Testa,D.Dworakowski,B.Firner,B.Flepp,P.Goyal,L.D.Jackel,M.Monfort,U.Muller,J.Zhang,et al.End to end learning for self-driving cars.arXiv preprint arXiv:1604.07316,2016.)，本实施例中采用左右摄像头采集的图像生成一批模型所需的负样本，并根据数学公式计算纠偏的方向盘转角。在数据平衡上，本实施例中会根据方向盘转角的分布图，以某种概率随机丢弃一部分零值附近的方向盘转角对应的图像，并随机对图像与方向盘进行水平翻转。通过这种数据预处理方式，增加了样本的丰富性与平衡性，提高了端到端自动驾驶网络的鲁棒性与泛化能力，最终提高了模型的预测准确度。

步骤S2、预先训练的卷积神经网络(CNN)对所述前方图像序列进行处理得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理并输出；其中，所述衔接处理包括每一帧图像特征向量和与其具有相同时间戳的车辆速度低维特征进行衔接得到一编码特征向量；

具体而言，本实施例中采用卷积神经网络提取图像特征，由于用于提取图像特征的卷积神经网络具有一定通用性，本实施例中优选不限于使用了其他学者在Imagenet数据集上训练过的Resnet50网络的卷积层进行迁移学习，卷积神经网络的最后一个卷积层的大小是1x1x2048的维度。

其中，所述将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接指的是根据时间戳将每一帧图像特征向量与该帧时间戳相同的车辆速度的低维特征融合，作为长短期记忆网络的输入。

步骤S3、预先训练的长短期记忆网络依序对每一编码特征向量进行处理得到状态向量和驾驶指令，具体包括根据当前编码特征向量和处理前一编码特征向量得到的前一状态向量确定当前状态向量和驾驶指令。

具体而言，所述车辆前方图像序列的输入长度为16帧，其经过所述卷积神经网络的特征提取后成为一个16帧的图像特征向量(feature maps)序列。对于传统的LSTM，其在推理阶段，需要同时输入并计算16帧的feature maps，因此会消耗大量的时间和计算资源。本实施例改进了传统LSTM在推理阶段这些缺点，本实施例在推理时仅需要输入当前帧的feature map以及上一帧经LSTM处理后传递的状态向量，而无需对16帧序列的featuremaps进行计算。本实施例提出的基于状态向量传递的LSTM网络，不仅保留了传统LSTM网络对连续时空状态的预测能力，还大大减少了模型推理过程中由于重复计算而造成的时间和内存消耗，使端到端自动驾驶系统的单次预测时间从300ms(3fps)提升至100ms(10fps)，达到实时预测的效果。同时，为了防止LSTM出现梯度爆炸，训练过程中的梯度修剪值设置为10。

其中，所述卷积神经网络和所述长短期记忆网络结构构成本实施例中的CNN-LSTM网络结构，其结构如图2所示。

步骤S4、根据所述驾驶指令控制车辆的执行机构执行相应指令，所述驾驶指令包括方向盘转角和车速。

具体而言，对人类驾驶而言纵向速度控制和横向方向盘转角控制其实是个时序问题，上一帧的转角与速度往往会影响下一帧的转角与速度的预测，而LSTM恰好能解决时序问题。本实施例通过采用CNN-LSTM网络模型进行有监督深度学习，能够基于车辆前方摄像头所采集的图像序列数据和对应的车速进行决策，输出方向盘转角指令和车速指令。其中，所述现有方法三也提出了一种基于卷积神经网络CNN与长短时记忆循环神经网络LSTM相结合的CNN-LSTM的端到端自动驾驶系统，其将图像和车速同时输入CNN-LSTM网络进行预测得到方向盘转角和车速。需说明的是，本实施例方法与现有方法三的LSTM网络结构不同，如图3所示为现有方法三在推理阶段的LSTM结构，如图4为本实施例在推理阶段基于状态向量传递的LSTM结构，两者不同体现在现有方法三在前向预测过程中反复循环计算图像的特征比较消耗时间与内存，而本实施例方法的LSTM网络结构在推理时仅需要输入当前帧的feature map以及上一帧经LSTM处理后传递的状态向量，而无需对16帧序列的featuremaps进行计算，提高了实时预测的效果。

其中，所述车辆前方图像序列包括按序排列的多帧图像，所述车辆速度序列包括多个速度信息，且所述多帧图像和所述多个速度信息基于时间戳一一对应。

优选地，所述方法还包括步骤S5，具体如下S51-S53所示：

S51、预先训练的语义分割网络接收所述多帧图像特征向量序列；所述语义分割网络包括卷积层和池化层；

S52、所述多帧图像特征向量序列中的每一帧图像特征向量依次通过所述卷积层和所述池化层进行下采样后得到一特征映射，并对所述特征映射进行上采样得到对应的像素级语义理解图像；

S53、根据所述像素级语义分割图像理解驾驶场景中车辆前方的可行驶区域、车辆、以及行人等语义信息。

具体而言，本实施例中所述语义分割网络的输入是所述卷积神经网络的最后一个卷积层。本实施例中借鉴了deeplab-v3+方法并进行简化，简化后的语义分割网络为由1x1和3x3的卷积层与上采样层以编码解码的形式堆积而成。本实施例中首先通过卷积层和池化层对输入图像进行下采样(downsample)得到较低分辨率的特征映射，然后对这些特征映射进行上采样(upsample)得到一个全分辨率分割图，也就是驾驶场景中的像素级语义理解图像。

优选地，所述方法还包括步骤S6，具体如下S61-S63所示：

S61、预先训练的目标检测网络接收所述多帧图像特征向量序列；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小；

S62、所述多帧图像特征向量序列中的每一帧图像特征向量依次通过所述多个卷积层进行目标检测并输出目标在相应帧图像中的坐标信息。

S63、根据所述目标检测，引入注意力机制，重点关注驾驶场景中动态目标信息区域(车辆、行人等)与静态目标信息区域(车道线、交通灯等)。

具体而言，本实施例中所述目标检测网络的输入是所述卷积神经网络的最后一个卷积层。本实施例中借鉴了SSD(single shot multibox detector)方法并进行简化，简化后的目标检测网络是由1x1和3x3的卷积层以多尺度的形式堆积而成。其中，所述目标检测网络的卷积层大小逐层减小以用于对目标进行多尺度检测，即对于一个大小为m×n、p通道的特征层使用3*3的卷积核进行预测；对于输入的每一帧图像而言，图像的每个位置都会产生一个值，该值即为目标在图像中坐标信息，也就是驾驶场景中检测目标的定位框坐标信息。

对于步骤S5和S6而言，通常人类在驾驶过程中眼睛会关注到场景中某些重要信息然后就迅速做出驾驶行为动作。而端到端深度学习自动驾驶就是在模仿人类驾驶行为。采用监督学习的方法，输入图像，以驾驶行为如方向盘转角与速度为标签，进行反向传播。通过这种方式，系统模型往往很难学到图像中某些重要特征与驾驶行为的映射关系，重点关注对驾驶行为有影响的特征信息。因此增加辅助任务语义分割与目标检测进行多任务训练变得至关重要，通过多任务学习方式不仅能理解驾驶场景，还能集中注意力关注显著性目标区域，最终能让模型输出更为准确的驾驶行为决策。其中，所述语义分割网络能够通过语义分割能够理解驾驶场景中车辆行人、交通灯以及可行驶区域等语义信息，而所述目标检测网络则是通过注意力机制，重点关注并检测出驾驶场景中的关键性动态目标区域(车辆、行人等)与静止目标(车道线、交通灯等)区域。。

所述联合训练包括：

本实施例中，L0为长短期记忆网络损失函数，优选但不限于采用的是回归方法中的均方误差(MSE)；

即：

本实施例中，L1为语义分割网络损失函数，优选但不限于采用分类方法中的多分类交叉熵(cross_entropy)；

即：

本实施例中，L2为目标检测网络损失函数，L2由定位损失(loc)与置信损失(conf)加权之和构成，其中置信损失采用的是分类的log loss，定位损失采用的回归smooth L1。

即：

其中，α、β、γ分别为联合训练中L0、L1、L2的权重，α+β+γ＝1；N为先验框正样本数量，x为0～1间的指示参数，c为类别置信度预测值，l为位置预测值，g为地面实况位置值(ground truth)。

在训练过程中，初始学习率设置为1e-4，随着训练的步数增加，当损失函数值降到一个平稳水平，学习率会以0.5倍的大小衰减。本实施例中前期训练采用Adam(adaptivemoment estimation，自适应矩估计)算法优化器加快模型的收敛性，后期训练采用SGD(随机梯度下降)算法优化器进行优化到全局最优值。

具体而言，本实施例同时建立自动驾驶场景语义理解(语义分割网络)与显著性目标区域关注的注意力机制(目标检测网络)的两种辅助任务，与端到端自动驾驶的车辆控制主任务(状态传递LSTM网络)进行多任务联合训练，提高了端到端自动驾驶系统在车辆控制信息方向盘转角与车速预测的准确度，最终提高了该系统在自动驾驶复杂场景中沿车道线行驶与避障的能力。

下面对本实施例所述方法的实验验证过程进行详细说明。

在实验过程中，对于主任务，发明人最初设计了三种网络结构，即本实施例所述的图2网络结构以及图5和图6所示的网络结构。为了便于描述，本实施例中用CNN1表示图5所示网络结构，CNN-LSTM2表示图6所示网络结构，CNN-LSTM3表示图2所示网络结构。其中，CNN-LSTM2和CNN-LSTM3都是CNN-LSTM网络，不同的是CNN网络与LSTM网络的衔接方式。

实验数据包括GTAV数据和实车数据。

GTAV数据：在自动驾驶模拟仿真平台Grand Theft Auto V(GTAV)上采集了30个小时，下采样后约50多万张图像。本实施例实验过程中采集部分道路的数据，包含了白天和夜晚，有晴天、阴天、雨天、下雪四种天气状况，其中白天和晴天的占比较高。本实施例实验过程中以每秒30帧的帧率同时采集中间摄像头、左右两边前视摄像头的图像，同时也会记录车辆信息如方向盘转角、速度、油门和刹车。

实车数据：为了验证在GTAV上表现较好的模型在真实车辆上的效果，本实施例实验过程中构建了GAC(广汽研发中心)自己的数据集，对广州市各区域的主干道路采集了30多个小时，以每秒10帧下采样后约60万张图像，与GTAV上的场景类似，包含了白天与夜晚，晴天与雨天，其中白天和晴天的占比较高。采集中间摄像头、左右两边的前视摄像头的图像，同时记录车辆信息如方向盘转角、速度、油门和刹车。

本实施例实验过程中从数据增强和数据平衡两个方面对数据进行预处理。在数据增强上，首先对图像进行归一化处理，以一定的概率调整图像的饱和度、对比度和亮度，采用高斯噪声或椒盐噪声对图像噪声进行增强。根据现有文献提到的负样本生成方法，本实施例实验过程中采用左右摄像头采集的图像生成一批模型所需的负样本，并根据数学公式计算纠偏的方向盘转角。在数据平衡上，本实施例实验过程中会根据方向盘转角的分布图，以某种概率随机丢弃一部分零值附近的方向盘转角对应的图像，并随机对图像与方向盘进行水平翻转。通过这种数据预处理方式，增加了样本的丰富性与平衡性，提高了端到端自动驾驶网络的鲁棒性与泛化能力，最终提高了模型的预测准确度。

本实施例实验过程分别在GTAV与实车数据上首先对CNN、CNN-LSTM做对比，并对CNN-LSTM的不同衔接方式做对比实验，然后对状态传递LSTM与传统LSTM做对比实验，对加辅助任务与不加辅助任务做对比实验，从网络结构、预测时间以及辅助任务这三个方面进行了研究，并做了可视化，最后在公开数据集Udacity上，横向对比当前效果最好的网络模型与已公开的文献结果做比较，验证当前的端到端自动驾驶模型的改善效果。

在端到端自动驾驶模型训练中，本实施例实验过程中将下采样后的图像调整到224x224的大小，CNN网络采用的是深度残差网络Resnet50，迁移了在ILSVRC2012图像分类上预训练的Resnet50模型，LSTM网络采用两层结构，隐藏层的大小为256，图像的序列长度设置为16。本实施例实验过程中采用回归的方式来预测方向盘转角与速度。在评价模型好坏方面，本实施例实验过程中主要采用离线与在线测试；在离线测试上，本实施例实验过程中计算测试集中样本的方向盘转角与速度预测值与标签值之间的平均绝对误差MAE，MAE值越小，说明模型的预测值越接近真实值，模型的拟合能力更好。在线测试方面，本实施例实验过程中主要以在仿真平台GTAV和现实道路上测试的干扰次数为评价基准。在GAC实车数据训练中，本实施例实验过程中会迁移在GTAV上表现效果最好模型中的CNN共享特征层。在辅助任务目标检测和语义分割中，本实施例实验过程中采用deeplabv3+的方法进行语义分割任务，采用SSD方法进行目标检测任务，这两个辅助任务与主任务只共享CNN特征层。这三个任务的损失函数的权重比例为1:0.5:0.5。

CNN与CNN-LSTM网络结构对比如下：本实施例的端到端自动驾驶网络模型对横向方向盘转角与纵向速度控制进行同时预测。网络结构1是单独一张图像与低维速度输入CNN网络同时预测方向盘转角与速度；网络结构2是输入图像与低维速度序列，其中方向盘依然是单帧图像预测，而速度则是通过LSTM序列形式预测；网络结构3是输入图像与低维速度序列，方向盘转角与速度都是由LSTM序列形式预测。从表1可以看出，网络结构2与网络结构1相比在速度的预测上更加准确，MAE值更小，而在方向盘转角的预测上MAE值比较接近，这说明LSTM的加入有助于纵向速度的预测。无论在GTAV还是在实车数据上，网络结构3中模型预测的方向盘转角与速度的MAE值都比网络结构2低，进一步说明横向方向盘转角的预测也是依赖于时序特征，方向盘转角与速度的前后时序关系都比较重要，将图像的空间特征与时序特征相结合，能更加准确地预测出方向盘转角与速度。

状态传递LSTM与传统LSTM的对比如下：由于当前LSTM输入图像的序列长度为16，反复循环计算图像的特征比较消耗时间与内存，本实施例实验过程中选择效果最好的网络结构CNN-LSTM3，对CNN-LSTM3中LSTM结构进行改进，基于状态传递，对CNN-状态传递LSTM与CNN-传统LSTM做了对比实验，发现无论是方向盘转角还是速度的预测上，在GTAV和实车数据上的MAE值都基本比较接近，但是前向预测由原来的300ms减少到100ms了，这说明状态传递LSTM网络结构的改进不仅没有影响模型的预测效果，学到了图像的时序特征，反而大大地减少了模型的前向预测时间，尤其在实车测试时提高了车辆的控制响应时间，能以更高的速度行驶。

表1：网络结构对比

表2：LSTM对比

辅助多任务的对比如下：从辅助多任务语义分割与目标检测方面对端到端深度学习自动驾驶模型分别在GTAV和实车上采集的数据上做了实验，主要让模型学会对场景进行理解，集中注意力重点关注对当前控制决策起到重要作用的关键信息，比如若理解当前场景，检测出前方车辆则模型可能会以较大的方向盘转角绕开，或以较低的速度缓慢停下；若在前方有可行驶区域则模型会较好地沿可行驶区域内的车道线行驶。本实施例实验过程中选择效果好且预测时间快的CNN-状态传递LSTM3网络，对加辅助多任务的方式做了四个对比实验，从表3可看出无论在GTAV数据还是在实车数据上，在方向盘转角与速度的预测上，后面三种加了辅助多任务的MAE值比不加辅助任务的值要低，而在加辅助任务方面，单独加语义分割的辅助任务会比单独加目标检测的辅助任务的MAE值要稍微低一点，这说明辅助任务对模型训练有积极影响，而且学会理解场景会比关注关键信息区域更影响最终决策。而同时加语义分割与目标检测的辅助多任务时的MAE值是最低的，这进一步说明了以辅助多任务语义分割与目标检测的多任务会让模型既学会对场景进行理解又学会关注重要信息，最终端到端自动驾驶模型会做出更加正确的决策。

为进一步验证上述表格3中效果最好模型的网络结构，即CNN-状态传递LSTM3+语义分割+目标检测的有效性，本实施例在公开数据集Udacity进行了模型训练与测试，与现有已公开的PilotNet网络结构以及现有的CNN-LSTM网络结构进行对比。由于公开的端到端自动驾驶基准网络一般只预测方向盘转角，因此本实施例只对预测的方向盘转角做横向对比。从表4可看出，本实施例实验过程中的模型在Udacity上的测试结果具有优势，这说明CNN-LSTM网络结构与辅助任务的综合影响力较大，在一定程度上可反映出CNN-LSTM+辅助任务这种网络架构模式的有效性。

表3：辅助多任务对比

表4：在Udacity上的对比结果

本实施例实验过程中对比了各个网络在预测时对图像关注区域的可视化结果，如图7所示。从可视化结果可以看出，各网络均能对原始图像中对决策控制有较大影响的元素(如车道线、车辆等)有不同程度的关注。在图7的左列图像中，可以看出，CNN网络虽然关注到了车道线这样的关键元素，但也关注到了对驾驶控制无关的元素。相较于CNN网络，CNN-LSTM3网络对车道线的关注更集中一些，但仍不如CNN-LSTM3+语义分割+目标检测网络。对于右列图像，CNN网络完全把驾驶中的应该关注的车道线信息忽略，转而关注道路上的路牌以及道路尽头的天空。而CNN-LSTM3网络虽然能关注到车道线信息，但是对其它车道上的车道线也有重点关注，这对车道保持会有不利的影响。对比之下，CNN-LSTM3+语义分割+目标检测模型不仅可以关注到车道线信息，而且能区分其它车道线和当前车道线的重要程度。同时，从图像上可以看出，各网络的预测值和实际值之间的接近程度也是与其关注区域的正确性相关的。

如图8所示，本发明实施例二提供一种自动驾驶系统，所述系统包括：

信息获取单元1，用于获取车辆前方图像序列和车辆速度序列；所述车辆前方图像序列包括按序排列的多帧图像，所述车辆速度序列包括多个速度信息，且所述多帧图像和所述多个速度信息一一对应；

卷积神经网络2，用于对所述前方图像序列进行处理，得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理并输出；其中，所述衔接处理包括每一帧图像特征向量和与其具有相同时间戳的车辆速度低维特征进行衔接得到一编码特征向量；

长短期记忆网络3，用于依序对每一编码特征向量进行处理得到状态向量和驾驶指令，具体包括根据当前编码特征向量和处理前一编码特征向量得到的前一状态向量确定当前状态向量和驾驶指令；

控制单元4，用于控制车辆的执行机构执行所述驾驶指令。

优选地，所述系统还包括：

语义分割网络5，用于依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行下采样后得到一特征映射，并对所述特征映射进行上采样得到对应的全分辨率分割图；所述语义分割网络包括卷积层和池化层。

优选地，所述系统还包括：

目标检测网络6，用于依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行目标检测并输出目标在相应帧图像中的坐标信息；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小。

优选地，所述信息获取单元包括与图像获取单元和速度获取单元，所述图像获取单元用于获取车辆前方图像序列，所述速度获取单元用于获取车辆速度序列。

对于实施例二公开的系统而言，由于其与实施例一公开的方法相对应，相关之处参见方法部分说明即可，此处不再赘述。

本发明实施例三提供一种车辆，包括如实施例二所述的自动驾驶系统。

通过以上实施例的描述可知：(1)针对LSTM网络结构要求图像序列输入与自动驾驶实车测试要求实时性问题，本发明实施例方法上对传统的LSTM网络结构在模型推理阶段进行了改进，提出了基于状态传递LSTM，改进后基于状态传递LSTM结构仅接收经过CNN网络编码的特征向量以及上一帧LSTM网络处理后传递的状态向量；不需要处理连续一个序列完整帧的CNN特征向量进行序列处理输出预测。基于状态传递LSTM结构不仅保留了LSTM网络对连续时空状态的预测能力，还大大减少了模型推理过程中由于重复计算而造成的时间和内存消耗，使端到端自动驾驶系统达到了实时预测，图像序列输入的模型计算推理时间降到单帧图像输入模型的推理时间。(2)同时建立自动驾驶场景语义理解与显著性目标区域关注的注意力机制的两种辅助任务，与端到端自动驾驶的车辆控制主任务(基于状态传递LSTM)一起进行多任务联合训练，充分利用端到端自动驾驶系统的学习能力，使端到端自动驾驶深度神经网络不仅能理解驾驶场景，还能集中注意力关注显著性目标区域，最终能够更加准确地预测出车辆控制信息方向盘转角与车速，提高模型在自动驾驶复杂场景中沿车道线行驶与避障的能力。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本发明实施例中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本发明披露的各实施例。

Claims

1.一种自动驾驶方法，其特征在于，所述方法包括如下步骤：

获取车辆前方图像序列和车辆速度序列；

利用预先训练的卷积神经网络对所述前方图像序列进行处理，得到多帧图像特征向量序列，并将所述多帧图像特征向量序列和所述车辆速度序列的低维特征进行衔接处理，得到每一帧的编码特征向量并输出；

利用预先训练的长短期记忆网络依序对每一帧的编码特征向量和处理其前一帧的编码特征向量得到的状态向量进行处理，得到与当前帧的编码特征向量对应的驾驶指令；

控制车辆的执行机构执行所述驾驶指令；

其中，所述长短期记忆网络与语义分割网络和目标检测网络进行联合训练，所述长短期记忆网络为主任务，所述语义分割网络和所述目标检测网络为辅助任务，在联合训练过程中，所述卷积神经网络输出的多帧图像特征向量序列输入所述长短期记忆网络、语义分割网络以及目标检测网络进行处理。

2.如权利要求1所述自动驾驶方法，其特征在于，所述衔接处理具体为将每一帧图像特征向量和与其具有相同时间戳的车辆速度低维特征进行衔接得到对应的编码特征向量。

3.如权利要求1所述自动驾驶方法，其特征在于，所述方法包括：

在联合训练中，语义分割网络接收所述多帧图像特征向量序列；所述语义分割网络包括卷积层和池化层；

根据所述像素级语义分割图像确定车辆前方的可行驶区域。

4.如权利要求3所述自动驾驶方法，其特征在于，所述方法包括：

在联合训练中，目标检测网络接收所述多帧图像特征向量序列；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小；

5.如权利要求4所述自动驾驶方法，其特征在于，所述联合训练包括：

其中，L0为长短期记忆网络损失函数，

其中，L1为语义分割网络损失函数，

其中，L2为目标检测网络损失函数，

6.如权利要求5所述自动驾驶方法，其特征在于，所述驾驶指令包括方向盘转角和车速。

7.一种自动驾驶系统，其特征在于，所述系统包括：

控制单元，用于控制车辆的执行机构执行所述驾驶指令；

8.如权利要求7所述的自动驾驶系统，其特征在于，所述语义分割网络，用于在联合训练中依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行下采样后得到一特征映射，并对所述特征映射进行上采样得到对应的像素级语义理解图像；所述语义分割网络包括卷积层和池化层。

9.如权利要求8所述的自动驾驶系统，其特征在于，所述目标检测网络，用于在联合训练中依序对所述多帧图像特征向量序列中的每一帧图像特征向量进行目标检测并输出目标在相应帧图像中的坐标信息；所述目标检测网络包括多个卷积层，所述多个卷积层大小逐层减小。

10.一种车辆，其特征在于，包括权利要求7至9任一项所述的自动驾驶系统。