CN112034829A

CN112034829A - 一种端到端自动驾驶方法及其系统、车辆

Info

Publication number: CN112034829A
Application number: CN201910404261.2A
Authority: CN
Inventors: 闫春香; 王玉龙; 裴锋; 王丹; 温俊杰; 尹苍穹
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-12-04
Anticipated expiration: 2039-05-15
Also published as: CN112034829B

Abstract

本发明涉及一种端到端自动驾驶方法及其系统、车辆，所述方法包括如下步骤：获取当前车辆前方图像以及方向盘转角序列，所述方向盘转角序列包括多帧历史车辆前方图像对应的多个方向盘转角值；提取所述车辆前方图像的图像特征，对所述方向盘转角序列进行编码得到方向盘转角特征；将所述图像特征和所述方向盘转角特征进行衔接处理得到多维特征；利用预先训练的深度学习模型对所述多维特征进行处理得到驾驶指令；控制车辆的执行机构执行所述驾驶指令。所述系统用于实现所述方法，所述车辆包括所述系统。相对于传统CNN+LSTM系统，本发明实施例在数据处理及训练和预测时更加简单便捷。

Description

一种端到端自动驾驶方法及其系统、车辆

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种端到端自动驾驶方法及其系统、车辆。

背景技术

在传统的自动驾驶中，都是采用基于规则系统的模块化方法，一般分为感知、融合、决策和控制几大模块。其优点是各模块的任务明确，系统出现问题时可进行快速排查，系统的可靠性较高。然而，这种方案依赖于各个模块的精细设计，而人为设计的系统往往覆盖不了驾驶的各种场景，因此其处理复杂路况的能力有限。并且这种方案的感知模块往往需要大量的标注数据进行模块化的深度神经网络训练，由此需要耗费大量人力物力进行数据标注。而通过采用端到端深度神经网络模仿驾驶行为的方案是当前自动驾驶领域中最可靠有效的方法，通过直接输入原始图像数据获取车辆控制信号，不需要对各个模块进行复杂精细的设计，训练数据可以直接通过车载摄像头和车载CAN中获取到。

目前基于规则信息的自动驾驶需要大量的人工标注及大量的人为规则，而只用卷积神经网络(CNN)，车辆行驶有偶然的驶出车道，若引入递归神经网络(LSTM)改善，则其在数据处理和应用上都比较复杂。

发明内容

本发明的目的在于提出一种基于方向盘转向角序列的端到端自动驾驶方法及其系统、车辆，将历史帧的方向盘转向角信息作为神经网络模型的输入，以改善车辆行驶的稳定效果。

为了实现本发明目的，根据本发明第一方面，本发明实施例提供一种端到端自动驾驶方法，所述方法包括如下步骤：

获取当前车辆前方图像以及方向盘转角序列，所述方向盘转角序列包括多帧历史车辆前方图像对应的多个方向盘转角值；

提取所述车辆前方图像的图像特征，对所述方向盘转角序列进行编码得到方向盘转角特征；

将所述图像特征和所述方向盘转角特征进行衔接处理得到多维特征；

利用预先训练的深度学习模型对所述多维特征进行处理得到驾驶指令；

控制车辆的执行机构执行所述驾驶指令。

优选地，所述提取所述车辆前方图像的图像特征包括：

对所述车辆前方图像进行归一化处理得到归一化图像；

使用预先训练的卷积神经网络对所述归一化图像进行卷积处理；

使用第一全连接层对卷积处理结果进行全连接变换得到其图像特征。

优选地，所述对所述方向盘转角序列进行编码得到方向盘转角特征包括：

将所述方向盘转角序列的多个方向盘转角值采用独热编码(one-hot)形式表示，进而衔接起来构成一维数组；

使用第二全连接层对所述一维数组进行全连接变换得到其方向盘转角特征。

优选地，所述深度学习模型的预先训练采用如下损失函数：

其中，

为深度学习模型的输出结果，θ_t表示当前t时刻预测的方向盘转角，θ_lt表示当前t时刻的方向盘转角真值，S_t表示当前t时刻预测的速度，S_l(t+5)表示t时刻向后5帧图像对应的速度真值，

和

分别代表方向盘转角损失函数和速度损失函数，

表示车辆前方图像中非车道道路面积占整个背景画面比重。

优选地，所述

和

均采用均方误差损失函数，所述均方误差损失函数如下公式所示：

其中，y_k为深度学习模型训练时样本数据组(batch)中第k个数据真值，其对应于θ_lt和S_l(t+5)；y_k′为预测的值，其对应于θ_t和S_t。

优选地，其中，

其中，w和h分别表示图像宽和高，

表示车辆前方图像中车道道路面积所占比重，σ(i，j)表示在车辆前方图像的二值图中非0的值，i和j分别表示图像中的像素点的横纵坐标值。

优选地，所述车辆前方图像包括左侧前方图像、正前方图像和右侧前方图像。

优选地，所述驾驶指令包括方向盘转角和车速。

根据本发明第二方面，本发明实施例提供一种端到端自动驾驶系统，其用于实现所述端到端自动驾驶方法，所述系统包括：

信息获取单元，用于获取当前车辆前方图像以及方向盘转角序列，所述方向盘转角序列包括多帧历史车辆前方图像对应的多个方向盘转角值；

图像特征提取单元，用于提取所述车辆前方图像的图像特征；

方向盘转角特征提取单元，用于对所述方向盘转角序列进行编码得到方向盘转角特征；

多维特征衔接单元，用于将所述图像特征和所述方向盘转角特征进行衔接处理得到多维特征；

预先训练的深度学习模型，用于对所述多维特征进行处理得到驾驶指令；

控制单元，用于控制车辆的执行机构执行所述驾驶指令。

根据本发明第三方面，本发明实施例提供一种车辆，包括所述端到端自动驾驶系统。

本发明实施例具有如下有益效果：

本发明实施例提出一种端到端自动驾驶方法及其系统、车辆，该方法在传统图像特征提取网络和深度学习网络的基础上，增加了三个连接层，以当前车辆前方图像以及历史多帧车辆前方图像对应的方向盘转向角序列作为深度学习网络的输入，第一全连接层将特征提取网络提取的图像特征进行全连接变换后输出至第三全连接层，第二全连接层将对方向盘转向角序列进行编码得到的一维数组进行全连接变换得到方向盘转向角特征并输出至第三全连接层，第三全连接层对图像特征和方向盘转向角特征进行衔接得到多维特征；该多维特征进一步输入至深度学习网络进行预测得到方向盘转向角和速度。此外，本发明实施例还对深度学习网络的训练损失函数进行了改进。相对于传统CNN+LSTM系统，本发明实施例仅增加了若干全连接层进行多维特征的提取，而节省了LSTM网络结构，但可以达到与CNN+LSTM系统相同的预测效果，在数据处理及训练和预测时更加简单便捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的一种端到端自动驾驶方法流程图。

图2为本发明实施例一的步骤S1-S3的原理图。

图3为本发明实施例一的实验过程中GTAV的场景鸟瞰图。

图4为本发明实施例一的实验过程中多个方法在训练上的loss值对比分析示意图。

图5为本发明实施例一的实验过程中车辆传感器位置装置图示。

图6为本发明实施例一的实验过程中实车测试效果图。

图7为本发明实施例二的一种端到端自动驾驶系统结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记为功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

如图1所示，本发明实施例提供一种端到端自动驾驶方法，所述方法包括如下步骤：

步骤S1、获取当前车辆前方图像以及方向盘转角序列，所述方向盘转角序列包括多帧历史车辆前方图像对应的多个方向盘转角值；

步骤S2、提取所述车辆前方图像的图像特征，对所述方向盘转角序列进行编码得到方向盘转角特征；

步骤S3、将所述图像特征和所述方向盘转角特征进行衔接处理得到多维特征；具体而言，所述图像特征为高维特征，所述方向盘转角特征为低维特征。

步骤S4、利用预先训练的深度学习模型对所述多维特征进行处理得到驾驶指令；其中，本实施例的深度学习模型为深度学习神经网络，在应用该模型前，采用大量样本数据进行训练，输入包括车辆前方图像和历史方向盘转角值的多维特征，采用回归方法进行预测输出对应的方向盘角度值与速度。

步骤S5、控制车辆的执行机构执行所述驾驶指令。

具体而言，所述驾驶指令包括方向盘转角值和速度；

在本实施例中，所述多帧历史车辆前方图像对应的多个方向盘转角值指的是步骤S1获取的多帧历史车辆前方图像经所述步骤S4处理得到的多个方向盘转角值，本实施例方法对步骤S4预测得到的方向盘转角值进行保存，以便于后续进行预测驾驶指令。

其中，历史车辆前方图像的帧数优选但不限于是5帧，对应的，有5个历史方向盘转角值。如果帧数过多，当前的执行信息将过于依赖过去的信息，如果帧数较少，将对当前的行为无法起到约束作用。

优选地，如图2所示，所述提取所述车辆前方图像的图像特征包括：

对所述车辆前方图像进行归一化处理得到归一化图像；具体而言，车辆前方图像进行归一化处理为将车辆前方图像缩放到尺寸224x224，按照image/127.5-1方法归一化。使用预先训练的卷积神经网络对所述归一化图像进行卷积处理，本实施例中卷积神经网络采用Resnet50；

使用第一全连接层FCi对卷积处理结果进行全连接变换得到其图像特征，输出1024个神经元。

其中，所述对所述方向盘转角序列进行编码得到方向盘转角特征包括：

首先，将所述方向盘转角序列的多个方向盘转角值采用独热编码(one-hot)形式表示，进而衔接起来构成一维数组；具体而言，本实施例中将方向盘转角归一为(-1，1)之间的浮点数，速度归一为(0-1)之间；第二全连接层FCs中的方向盘转角用独热编码(one-hot)表示，独热编码大小为200，例如，将5个编码值形成数组大小为5的一维数组。

然后，使用第二全连接层FCs对所述一维数组进行全连接变换得到其方向盘转角特征，输出256个神经元。

最终，所述第一全连接层FCi和所述第二全连接层FCs的输出在第三全连接层衔接成1280个神经元，进一步地，本实施例在输出层之间加入三层全连接层，输出的神经元参数分别为512、256、50，最后采用回归方法预测转向角的值和速度的值。

优选地，在深度学习模型的损失函数上，本实施例方法除了纵横向控制方向角损失函数和速度损失函数，还附加一个驶出道路的损失函数。

具体地，本实施例中所述深度学习模型的预先训练采用如下损失函数：

其中，

和

分别代表方向盘转角损失函数和速度损失函数，

表示车辆前方图像中非车道道路面积占整个背景画面比重。

其中，所述

和

其中，

其中，w和h分别表示图像宽和高，

具体而言，当

值越小时说明车辆已偏离当前车道，反支，

值较大是说明车辆在正常车道行驶。

参阅图2，在图2中Road_loss表示车辆偏离路面的损失，当前车辆所在的道路面积占车辆前方图像的比重。具体做法是求出当前车辆所在的车道线，两条车道线的延伸区域必然构成封闭区域，用二值掩模图来表示，如图2浅色区域表示当前车辆所在车道的区域面积，求出所形成的面积占整个车辆前方图像的比重。当车辆冲出路面时，车道面积和背景图的重叠率几乎为0。

优选地，所述车辆前方图像包括左侧前方图像、正前方图像和右侧前方图像。其中，可以在车辆前方装置三个摄像头，分别是左、中、右摄像头，分别获取左侧前方图像、正前方图像和右侧前方图像，每个摄像头数据是离散独立的，其中左侧前方图像和右侧前方图像为优选，至少包括正前方场景图片数据。

优选地，所述驾驶指令包括方向盘转角和车速。

具体而言，传统深度学习中递归神经网络(例如LSTM)引入了时间序列概念，结合卷积神经网络(CNN)能有效解决上述车辆行驶稳定性问题，但是LSTM在数据处理和应用上都比较复杂，且消耗较多计算资源。针对该问题，本发明实施例方法在传统图像特征提取网络和深度学习网络的基础上，以当前车辆前方图像以及历史多帧车辆前方图像对应的方向盘转向角序列作为深度学习网络的输入，第一全连接层FCi将特征提取网络提取的图像特征进行全连接变换后输出至第三全连接层，第二全连接层FCs将对方向盘转向角序列进行编码得到的一维数组进行全连接变换得到方向盘转向角特征并输出至第三全连接层，第三全连接层对图像特征和方向盘转向角特征进行衔接得到多维特征；该多维特征进一步输入至深度学习网络进行预测得到方向盘转向角和速度。此外，本发明实施例还对深度学习网络的训练损失函数进行了改进，增加了驶出道路的损失函数，提升车辆行驶的连续性及平滑性，使得自动驾驶过程中车辆能够沿着车道行驶，防止车辆行驶偏离车道。

相对于传统CNN+LSTM系统，本发明实施例仅增加了若干全连接层进行多维特征的提取，而节省了LSTM网络结构，但可以达到与CNN+LSTM系统相同的预测效果，在数据处理及训练和预测时更加简单便捷，克服了LSTM在数据处理和应用上都比较复杂的技术缺陷。

下面本实施例一所述方法的实验过程进行说明，在GTAV虚拟环境下对本实施例方法进行验证，得到有效验证后，继而在实车上进行论证，实验结果均证明了方法的可行性及有效性。

1)模拟器虚拟验证；

GTAV的数据来源主要是前方摄像头，截屏GTAV的画面，分辨率为640X480，通过TCP-IP socket发送出来存储到服务器，同时发送的还有相应的转角及速度、油门、刹车等，实际应用中使用转角和速度数值作为label，其他作为参考。GTAV虚拟环境设置内置AI正常驾驶模式来采集数据，遵守交通规则的行车模式，设定速度在0-60KM/时，随机投放若干其他干扰车辆。GTAV的场景鸟瞰图见图3(a)，约2000KM的路线，分为城市公路和高速公路数据，所采集过的道路见图3(b)、(c)红色及蓝色笔迹所示的路线，没有笔迹部分作为测试路线；包含交叉口、匝道、桥梁、隧道等丰富的场景，共采集约100万张图片，其中随机选取约70万张图片作为训练集，另外约30万张数据作为测试集。具体视频画面场景见图3(d)和(e)。

本实施例中所采用的图片分辨率是将640X480的尺寸缩放到224乘224，采用Adam[24]优化器，设置学习率为10^-4，一次的样本数据集(batch)大小为64，将转角和速度loss按照2∶1的比例配置，最后和附加的路面损失函数进行相加作为最终loss。训练30个epoch后，损失函数在验证集上取得最优。速度在本实施例中并未作为输入，在测试中发现，速度的信息可以根据图像信息学习得到，根据前方车辆在图像中的远近(大小)来学习得出当前的大致速度。

在GTAV环境下选择一段未经采集的路线，约30千米的里程进行测试，分别用常规端到端和本实施例所提方法进行对比测试。以下几个实验：基础CNN模型方法、历史5帧转角作为输入的方法和CNN+LSTM[3]三种方法。便于描述，将本实施例所提的基于序列方向盘转角输入的方法用S_seq5来命名。图4分析对比几个方法的在训练上的loss值，曲线图的横坐标是训练步数，纵坐标为其对应的损失值。

从loss图上看，基于序列方向角输入的方式(b)的loss比单纯CNN(a)下降速度快，且能有一个较低的值，其效果和图4的(c)CNN+LSTM的方式相近。

根据测试时车辆偏离车道，需要人工干预的次数进行统计，见表1的测试结果。和基础模型相比，本实施例方法在30KM的测试路段上将人工干预次数由原来的6次降低到3次左右，并同步测试CNN结合LSTM的方案，其人工干预次数为2次左右。由此本实施例方法逼近CNN+LSTM网络模型效果，在数据处理及训练和预测时，本实施例方法更加简单，便捷。

表1-测试结果对比

本实施例所提出的方法可以结合其他方法使用，比如辅助任务。

2)实车验证；

本实施例所提方案经过虚拟环境验证后，并将该方案应用到现实中。从虚拟到现实，由于数据存在差异，采取了真实场景和虚拟场景联合训练方式，冻结虚拟场景下验证过的resnet50模型部分权重，解冻模型最后一个block层，添加实车采集的数据，对模型进行微调。

采用某公司量产的电动汽车进行实车改造，车辆传感器位置装置如图3所示。车辆安装有左中右三个摄像头、一个激光雷达和一个毫米波雷达，本实施例的方法主要是基于视觉的端到端的方案，激光雷达和毫米波雷达的融合输出仅用来做紧急制动，遇到突发状况时根据雷达监测到的信息及时停止。前方三个摄像头均采用60度广角，其中左右摄像头相对中间摄像头位置平移45cm,实车的其中方向盘转角范围理论为+/-780度，实际驾驶操作中方向盘的转角为+/-450度。左右摄像头的数据label偏置根据下方公式得出，θ_f表示待矫正的角度，θ_r表示中间摄像头对应的方向盘的转角，d_y表示为侧方摄像头基于中间摄像头的物理位置，s表示为当前的速度，t_r表示恢复时间。

根据实际安装位置，以及在采集中的速度大都为匀速，得出偏置角度为6度，即左边方向盘加6度，右边方向盘减6度。采集的数据主要以广州市为主，其中包含各种条件下的场景数据，如晴天、雨天、白天、傍晚、结构化道路，非结构化道路等，共约200万张数据，剔除掉部分不合格图片，筛选120万作为数据集。由于大部分驾驶场景为直线行驶，故方向盘转角值大多分布在0值附近，为了保证数据的均衡，对0值附近的数据进行剔除。经过以上处理，最终符合条件的有约90万张图片。

类似GTAV虚拟测试时处理，将转角和速度均归一化。在整个驾驶系统中可随时切换人工驾驶模式，以便在自动驾驶测试中遇到车辆偏离车道等状况，可人工接管。系统(包含模型预测的输出)的延迟时约为125ms。

在广州生物岛进行实车测试，该岛环形一周约7KM，本方案在不同的光照及天气(除去极端天气)下可以达到3次左右的人工干预，在晴天正常光照下，干预次数基本和CNN+LSTM方案相当，2次人工干预甚至不需人工干预，而仅仅采用resnet50基础模型测试时，很难做到无人工干预。

由于训练数据有广州生物岛的数据，无论哪种方法在该路段的测试效果都比较理想，难以区分方法的优劣，因此选取完全未参与训练的广州大学城一段路进行离线测试。图6是转角的离散测试结果，其中蓝色的线是模型预测的转角值，橙色的线是车辆行驶实际转角值。可以看出cnn+S_seq5的方法在离线上优于CNN的效果，和CNN+LSTM的方法效果接近。图6中的(d)，(e)分别是实车测试时车外视角和车内视角效果图。

如图2所示，本发明实施例二提供一种端到端自动驾驶系统，其用于实现实施例一所述端到端自动驾驶方法，所述系统包括：

信息获取单元1，用于获取当前车辆前方图像以及方向盘转角序列，所述方向盘转角序列包括多帧历史车辆前方图像对应的多个方向盘转角值；

图像特征提取单元2，用于提取所述车辆前方图像的图像特征；

方向盘转角特征提取单元3，用于对所述方向盘转角序列进行编码得到方向盘转角特征；

多维特征衔接单元4，用于将所述图像特征和所述方向盘转角特征进行衔接处理得到多维特征；

预先训练的深度学习模型5，用于对所述多维特征进行处理得到驾驶指令；

控制单元6，用于控制车辆的执行机构执行所述驾驶指令。

需说明的是，本实施例二所述系统与实施例一所述方法对应，其用于实现实施例一所述方法，实施例一所述方法的内容为实施例二所述系统的具体实施方法，因此，关于实施例二未详述的部分可以参阅实施例一所述方法部分得到，此处不再赘述。

本发明实施例三提供一种车辆，包括所述端到端自动驾驶系统。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本发明实施例中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本发明披露的各实施例。