CN115629608A

CN115629608A - 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

Info

Publication number: CN115629608A
Application number: CN202211316067.7A
Authority: CN
Inventors: 陈国浠; 张亚; 张辉
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-20
Anticipated expiration: 2042-10-26
Also published as: CN115629608B

Abstract

本发明公开了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法，首先定义上层的离散控制器对应车辆底层的控制信号；设置超参数，搭建基于编码器‑解码器框架的深度预测网络和双深度Q网络；再对受控车辆进行深度强化学习训练，设计奖励函数，迭代更新网络的权重，直到受控车辆获得的奖励值达到预设水平或训练轮数到达预设值；对收集到的历史数据进行预处理，根据时延情况确定数据和标签，将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集，在训练集上进行训练，直到在验证集上的损失函数值不再下降；最后将训练好的深度预测网络和双深度Q网络部署到受控车辆中，实现车辆的自动驾驶控制。

Description

基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

技术领域

本发明属于智能交通控制技术领域，主要涉及了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法。

背景技术

自动驾驶根据自动化程度被分为五个等级，近年来，自动驾驶领域取得了一定的进展，但离第五级的全自动驾驶仍有一定的差距。目前，自动驾驶的研究仍以分场景为主，针对不同的场景会有不同的算法设计，其中，高速公路上的跟车、变道和超车是一个重要的研究场景。

在高速公路上行驶的车辆需要兼顾安全和效率，目前，已经由研究将深度强化学习技术运用到自动驾驶车辆的控制中。但是，作为深度强化学习的核心问题，奖励值如何设置成为了该研究的主要问题之一，过多的鼓励加速会训练出激进的车辆，它会为了得到更高的速度奖励而忽视碰撞的风险，而过多的惩罚碰撞会让车辆保守，不愿意提高速度，车辆的通行效率较低。同时，考虑到自动驾驶问题的特殊性，建立从上层的决策动作到底层的物理控制也是限制深度强化学习在自动驾驶中的应用的主要因素。

在自动驾驶的场景中，车辆对周围环境的感知来源于自身的传感器以及与周围车辆的交互，因此，数据传输的时延是一个客观存在的，不可忽视的问题。由于在高速公路上车辆的速度一般较快，因此时延的影响也较大，如果不对时延进行补偿，那么深度强化学习算法针对滞后的状态信号做出的决策可能也是滞后的，这降低了算法的安全性和可靠性。对受控车辆前方车辆的轨迹进行预测来补偿时延是一种直观的解决方案，这种方案最大的问题在于，车辆的轨迹不仅与自身的历史轨迹有关，还与周围车辆的轨迹有关，相同的历史轨迹可能由于不同的周围环境而出现不同的未来轨迹，如何刻画周围环境的交互给车辆轨迹预测带来的影响也就该方案的重要研究难点之一。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法，首先定义上层的离散控制器对应车辆底层的控制信号；设置超参数，搭建基于编码器-解码器框架的深度预测网络和双深度Q网络，对各个网络权重进行初始化；再对受控车辆进行深度强化学习训练，设计奖励函数，迭代更新网络的权重，直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值；对收集到的历史数据进行预处理，根据时延情况确定数据和标签，将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集，在训练集上进行训练，直到在验证集上的损失函数值不再下降；最后将训练好的深度预测网络和双深度Q网络部署到受控车辆中，通过深度预测网络对受控车辆前方车辆的位置和速度进行预测，将预测信息连同受控车辆的速度和位置信息展开成列向量，作为双深度Q网络的输入，得到当前时刻动作价值最高的动作，再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号，实现车辆的自动驾驶控制。为了实现上述目的，本发明采取的技术方案是：基于深度预测网络和深度强化学习的自动驾驶车辆控制方法，包括以下步骤：

S1：定义上层的离散控制器对应车辆底层的控制信号，所述上层的离散控制器至少包括左变道、保持、右变道、加速、减速五个动作指令，将上层的离散动作映射成底层的物理控制信号，底层的物理控制信号由比例控制器得到；

S2：设置超参数，搭建基于编码器-解码器框架的深度预测网络和双深度Q网络，对各个网络的权重进行初始化；

S3：对受控车辆进行深度强化学习训练，设计奖励函数，受控车辆与环境交互，得到奖励值，迭代更新网络的权重，直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值，终止训练；

S4：对收集到的历史数据进行预处理，根据时延情况确定数据和标签，将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集，在训练集上进行训练，直到在验证集上的损失函数值不再下降，终止训练；

S5：将训练好的深度预测网络和双深度Q网络部署到受控车辆中，通过深度预测网络对受控车辆前方车辆的位置和速度进行预测，将预测信息连同受控车辆的速度和位置信息展开成列向量，作为双深度Q网络的输入，得到当前时刻动作价值最高的动作，再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号，实现车辆的自动驾驶控制。

作为本发明的一种改进，所述步骤S1中，定义车辆的运动学模型为：

β＝tan^-1(1/2tanδ),

其中，(x,y)是车辆在Frenet坐标系下的坐标；v是车辆的前进速度；ψ是航向角；β是重心处的滑移角；a是加速度命令；δ是前轮转向命令；

a和δ由比例控制器得到，加速度控制量a的具体表达式为：

a＝K_p(v_r-v),

其中，v_r是期望速度；v是当前速度；

当指令为加速时，给定速度参考值v_r大于当前的速度值，K_p是控制器增益；

前轮转向命令δ的具体表达式为：

ψ_r＝ψ_L+Δψ_r,

v_lat,r＝-K_p,latΔ_lat,

其中，ψ_L是车道朝向；v_lat,r是横向速度指令；Δψ_r是受控车辆对应所需的航向变化；K_p,lat和K_p,ψ是控制器增益；；由上层的强化学习控制器的动作映射得到，

当指令为变道时，车道中心线的横向位置Δ_lat会对应指令要求进行改变；

所述期望速度v_r和车辆相对于车道中心线的横向位置Δ_lat均由上层的强化学习控制器的动作映射得到。

作为本发明的一种改进，所述步骤S2中，搭建的编码器-解码器框架的深度预测网络中，编码器由卷积长短期记忆网络convlstm模块堆叠形成，编码器的输入是受控车辆前方所有待预测车辆的历史轨迹；解码器由通道注意力机制和全连接层组成；双深度Q网络中，主网络和目标网络均由两层全连接层构成，它的输入是当前状态，由受控车辆及其前方最近的车辆的位置和速度组成，输出是受控车辆的上层离散化动作。

作为本发明的另一种改进，所述步骤S2中，假设受控车辆前方所有待预测车辆的数目为m，m是深度强化学习需要调整的超参数，收集前方车辆的位置和速度信息，即收集

作为前方第i辆车的观测信息,其中

和

表示前方第i辆车在t时刻的纵向坐标和横向坐标，

和

分别表示前方第i辆车在t时刻的纵向速度和横向速度。

作为本发明的另一种改进，所述步骤S3中采用双深度Q网络进行深度强化学习的训练，设置奖励函数为：

其中，k是速度系数；v_max和v_min分别是受控车辆速度的最大值和最小值；

代表了归一化的切向速度，以此作为对于受控车辆沿车道保持高速行驶的奖励。

作为本发明的又一种改进，所述步骤S4中，将前方车辆的道路信息转化为C×H×W的图数据，其中，H是图数据的高，代表了车道数；W是图数据的长，由把车道按l米一格进行离散化得到

l是前方其他车辆的平均速度，L是在观测序列和预测过程中前方车辆距离受控车辆的最远可能距离；

如果观测周期为δ秒，用于预测的历史观测序列长度为s，时延为d秒，则L＝X+(δs+d)*v_m，X是受控车辆视野的最大距离，v_m是前方其他车辆的最大速度；C是特征长度；如果在该离散化格子中没有车辆，则数值上全为0，如果存在车辆，则由

的归一化向量表示，其中L_y表示车道宽度，

是第i辆车t时刻在该网格中的相对位置，

和

分别是车辆横向速度和纵向速度的最大值，

是第i辆车t时刻的相对速度值。

作为本发明的又一种改进，所述步骤S4中的损失函数为加权均方误差函数，具体表达式为：

其中,

是以图数据描述的前方车辆轨迹的预测值，即深度预测网络以X_i为输入的输出值，Q∈W×W是权重矩阵，b是批训练量的大小。

作为本发明的更进一步改进，所述步骤S5深度预测网络中，受控车辆的图数据中，纵向运动相对速度的特征量

的预测值

大于0.4的网格被认为存在车辆，并根据其相对位置和相对速度特征，转化为一般的位置和速度信息；用

表示根据深度预测网络得到的第i辆车t时刻相对位置的预测值，则第i辆车t时刻位置的预测值为

用

表示根据深度预测网络得到的第i辆车t时刻相对速度的预测值，则第i辆车t时刻速度的预测值为

与现有技术相比，本发明具有的有益效果：

(1)本发明将历史车辆的轨迹转化为图数据，可以表征车辆之间的交互对车辆轨迹预测的影响，同时，预测网络的输出是前方所有待预测车辆的轨迹，减少了整体模型参数，节省了训练和计算成本，与单独的为每辆车配备预测网络相比，降低了计算成本，提高了车辆横向运动的预测精度。

(2)本发明在编码器-解码器框架的预测网络中引入了通道注意力机制，增强了模型对轨迹预测中影响较大的特征的关注，提高了预测精度。

(3)本发明采用深度强化学习算法作为车辆的控制器，采用了深度预测网络得到了当前时刻状态的预测值，补偿了时延，降低了时延带来的不利影响。

附图说明

图1是本发明基于深度预测网络和深度强化学习的自动驾驶车辆控制方法的步骤流程图；

图2是本发明基于深度预测网络和深度强化学习的自动驾驶车辆控制方法的算法结构框图；

图3是单独为每辆车配备长短期记忆网络时车辆横向运动的训练曲线图；

图4是本发明实施例2中提出的深度预测网络有无通道注意力机制的训练曲线对比图；

图5是本发明提出的用深度预测网络补偿时延之后受控车辆的表现示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

基于深度预测网络和深度强化学习的自动驾驶车辆控制方法，如图1所示，包括以下步骤：

步骤S1：定义上层的离散控制器对应车辆底层的控制信号；

定义上层的离散控制器对应车辆底层的控制信号，上层深度强化学习离散控制器定义了左变道、保持、右变道、加速、减速等五个动作指令，这五个指令分别映射到底层控制器，体现为参考值，首先考虑车辆的运动学模型为：

·x＝v cos(ψ+β), (1)

β＝tan^-1(1/2tanδ), (5)

其中，(x,y)是车辆在Frenet坐标系下的坐标，v是车辆的前进速度，ψ是航向角，β是重心处的滑移角，a是加速度命令，δ是前轮转向命令，a和δ由比例控制器得到，加速度控制量a的具体表达式为：

a＝K_p(v_r-v), (6)

其中，v_r是期望速度，由上层的强化学习控制器的动作映射得到，v是当前速度，当指令为加速时，给定速度参考值v_r大于当前的速度值，K_p是控制器增益；

前轮转向命令δ的具体表达式为：

ψ_r＝ψ_L+Δψ_r, (9)

v_lat,r＝-K_p,latΔ_lat, (11)

其中，ψ是当前受控车辆的航向，ψ_L是车道朝向,v_lat,r是横向速度指令，Δψ_r是受控车辆对应所需的航向变化,K_p,lat和K_p,ψ是控制器增益，需要根据实际情况调参得到，Δ_lat是车辆相对于车道中心线的横向位置，由上层的强化学习控制器的动作映射得到，当指令为变道时，车道中心线的横向位置Δ_lat会对应指令要求进行改变。

S2：设置超参数，搭建基于编码器-解码器框架的深度预测网络和双深度Q网络，采用He初始化方法对各个网络的权重进行初始化；

如图2所示，搭建编码器-解码器框架的深度预测网络，编码器部分由卷积长短期记忆网络convlstm模块堆叠形成，编码器的输入是受控车辆前方所有待预测车辆的历史轨迹，convlstm模块能够有效提取车辆之间的交互，作为车辆的空间信息参与对车辆未来轨迹的预测；

解码器由通道注意力机制和全连接层组成，引入通道注意力机制为不同通道的特征赋予注意力权重，使解码器将注意力集中到更重要的通道特征中，再通过全连接层聚合特征，得到对受控车辆前方所有车辆当前位置的预测值；

搭建双深度Q网络，主网络和目标网络均由两层全连接层构成，它的输入是当前状态，由受控车辆及其前方最近的m辆车的位置和速度组成，即S_t＝(S_e,S_i),

表示受控车辆的位置和速度信息，其中

和

表示受控车辆在t时刻的纵向坐标和横向坐标，

和

分别表示受控车辆在t时刻的纵向速度和横向速度；

表示受控车辆前方最近的m辆车的位置和速度信息，其中

和

表示前方第i辆车在t时刻的纵向坐标和横向坐标，

和

分别表示前方第i辆车在t时刻的纵向速度和横向速度，如果视野范围内不足m辆车，则用零补充。输出是受控车辆的上层离散化动作。

采用双深度Q网络进行深度强化学习的训练，设置奖励函数为：

其中，k是速度系数，k越大说明越鼓励受控车辆保持高速行驶，v_max和v_min分别是受控车辆速度的最大值和最小值，因此

采用基于图数据的深度预测网络来补偿时延的影响，深度预测网络采用convlstm作为特征提取器，因此要把输入数据转化为图数据，然后才能进行训练，具体包括以下两个步骤：

步骤4.1：收集前方车辆的位置和速度信息作为观测数据，即收集

作为前方第i辆车的观测信息；收集受控车辆前方m辆最靠近的车的观测数据，m是深度强化学习需要调整的超参数；

首先将受控车辆前方一定范围内的道路信息转化为C×H×W的图数据，其中，H是图数据的高，它代表了车道数；W是图数据的长，由把车道按l米一格进行离散化得到

l是前方其他车辆的平均速度，L是在观测序列和预测过程中前方车辆距离受控车辆的最远可能距离，它与时延大小、观测周期和观测序列长度均有关，如果观测周期为δ秒，用于预测的历史观测序列长度为s，时延为d秒，则L＝X+(δs+d)*v_m，X是受控车辆视野的最大距离，v_m是前方其他车辆的最大速度；C是特征长度，考虑到使用了车辆的位置和速度信息，因此C＝4；如果在该离散化格子中没有车辆，则数值上全为0，如果存在车辆，则由

的归一化向量表示，其中L_y表示车道宽度，因此

是第i辆车t时刻在该网格中的相对位置，

和

分别是车辆横向速度和纵向速度的最大值，因此

是第i辆车t时刻的相对速度值；

步骤4.2：将历史记录数据全部转化为图数据之后，根据历史观测序列长度为s和时延时间d制备网络的输入数据X_i和输出标签Y_i，并按照7：3切分训练集和验证集，选择损失函数为加权均方误差函数，具体表达式为：

其中,

是以图数据描述的前方车辆轨迹的预测值，即深度预测网络以X_i为输入的输出值，Q∈W×W是权重矩阵，b是批训练量的大小

将训练好的深度预测网络和双深度Q网络部署到受控车辆中，由于存在时延，因此受控车辆无法得到前方其他车辆当前时刻的位置和速度信息，需要用深度预测网络对当前时刻前方车辆的位置和速度信息进行预测：

首先，将采集到的最靠近受控车辆的前方m辆车的最新的s个观测值转化为图数据输入到训练好的深度预测网络中，得到同样用图数据描述的，前方m辆车当前位置和速度的预测值；在图数据中，纵向运动相对速度的特征量

的预测值

用

将还原得到的预测信息连同受控车辆的速度和位置信息展开成列向量，作为深度Q网络的输入，得到当前时刻动作价值最高的动作，再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号，受控车辆能够在存在时延的情况下完成正常的变道和超车等动作，完成自动驾驶的控制。

实施例2

本实施例采用highway_env环境中，高速公路的跟车、变道和超车场景进行仿真验证。假设车辆的观测和控制频率均为1赫兹，车辆对自我状态的观测是实时的，但是对前方车辆的观测依赖交互，存在1秒的时延。前方其他车辆的平均速度是20m/s，最大速度是23m/s，受控车辆的视野是前方180米

本发明的目标是根据前方车辆的历史轨迹预测前方其他车辆1秒之后的位置和速度，补偿时延带来的影响，并将前方其他车辆位置和速度的预测值连同受控车辆实时的位置和速度信息作为深度强化学习的输入状态，用深度Q网络计算得到当前状态下最优的上层离散动作，将这个动作映射成底层的物理控制信号，实现受控车辆的变道和超车。

步骤S1:定义上层的离散控制器对应车辆底层的控制信号

根据式(1)-(11)，将上层的离散动作映射成底层的物理控制信号，上层的离散控制动作给出了目标值，而底层的物理控制信号由比例控制器得到，控制器参数设置如下：K_p＝1.87,K_p,lat＝1.67和K_p,ψ＝5。

考虑到要完成超车等一系列动作，因此受控车辆的最大速度设定为30m/s，最低速度为20m/s，速度的设定值在此区间内分为三档，当离散化动作给出加速的指令时，速度的设定值提升一档，直到最大值，当给出减速的指令时，速度的设定为降低一档，直到最小值。

步骤S2：超参数设置及数据初始化

考虑观测频率为1赫兹，时延为1秒，选择预测的历史序列长度为s＝5，因此需要构造的图数据的宽度为

设置场景为4车道，因此图数据的高为4。

对深度预测网络的超参数进行设置，编码器的输入数据格式为batch×5×4×4×16，共包含2层convlstm模块，通道数分别是64与128，解码器由通道注意力机制和一层全连接层组成，通道注意力机制采用全局平均池化方法，所有的激活函数均采用Relu函数，模型权重的初始值采用He初始化方法。模型的优化方法选择随机梯度下降，学习率为0.001，并基于验证集的损失函数变化情况以衰减因子为0.5进行自适应衰减，批训练量为3，训练次数为500轮，早停条件是在20轮的训练中，验证集的损失函数值都不再下降。

对双深度Q网络的超参数进行设置，动作价值网络采用两层全连接结构，神经元个数分别是128和256，激活函数采用Relu函数，折扣因子γ＝0.8，学习率为0.001，目标网络更新频率为50步，总学习时间步为10⁶，批训练量为32，缓冲区大小为15000。

最终，用highway_env环境中的高速公路情景来仿真车辆的控制情况。

所有网络的初始化权重均为均值为0，标准差为0.1的正态分布，偏置的初始化值为0.01。

步骤S3：深度强化学习训练

对受控车辆进行深度强化学习的训练，按照式(12)设置奖励值，选择速度奖励权重k＝0.4，根据训练结果调整超参数m，最后确定超参数m＝9。

步骤S4：对收集到的历史数据进行预处理，根据时延情况确定数据和标签，将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集，在训练集上进行训练，直到在验证集上的损失函数值不再下降，终止训练。

收集历史数据，包括受控车辆及其前方m辆车的位置和速度信息，将其转化为4×4×16的图数据，作为深度预测网络的训练数据。按照式(13)设置损失函数，其中，Q是16×16的权重矩阵，选择为：

考虑到训练结束的标志包括达到预设的训练轮数或者触发早停条件，在训练结束之后，保持并固定深度预测网络模型，用于补偿时延的影响。图3是单独为每辆车配备长短期记忆网络时车辆横向运动的训练曲线，图4是本发明提出的深度预测网络有无通道注意力机制的训练曲线对比。图4与图3对比可以看到，单独为每辆车配备长短期记忆网络的话，横向运动的训练曲线会出现验证集的损失函数值远远大于训练集的情况，这是因为单个长短期记忆网络无法捕捉车辆之间的交互，无法表述车辆交互对车辆轨迹的影响，而这种影响主要体现在横向运动(变道)上。本发明提出的基于图数据的预测方法包含了卷积层，能够提炼空间信息，刻画车辆之间的交互对车辆轨迹的影响，因此训练集和验证集的损失函数值相近，同时，图4说明引入通道注意力机制后，验证集上的损失函数值更小，预测精度有所提高。

步骤S5:将训练好的深度预测网络和双深度Q网络部署到受控车辆中，假设其余车辆均遵循智能驾驶员模型，在highway_env环境中的高速公路场景进行仿真。受控车辆根据5个历史的观测值预测当前时刻前方车辆的速度和位置，补偿1秒时延带来的影响，将预测值与自身实时的速度和位置信息聚合，作为当前受控车辆的状态，由深度Q网络得到对应动作价值最高的上层离散动作，再将其映射成底层的物理控制信号。图5展示了受控车辆(黑色，已在图中标注)在存在1秒时延的情况下，能够判断其他车辆(白色)的实时位置，并完成变道、超车等一系列动作。

综上，本发明一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法，考虑到在实际应用中，受控车辆对前方其他车辆的位置和速度的观测可能存在时延，为受控车辆训练深度预测网络，用历史时刻的前方车辆的轨迹估计当前时刻前方车辆的位置和速度，从而补偿时延带来的影响。本发明将受控车辆前方车辆的历史轨迹转化为图数据，从convlstm模块提取车辆与车辆之间的交互信息，刻画交互给车辆预测带来的影响，引入通道注意力机制提高车辆轨迹的预测精度，并将预测网络的输出作为控制器的输入，降低时延的不利影响。同时，将底层的车辆控制映射成上层的离散动作，用双深度Q网络对受控车辆进行控制，使车辆能够准确完成变道、超车等动作，实现自动驾驶的控制。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。