CN113741464A

CN113741464A - 一种基于时空数据强化学习的自动驾驶速度控制框架

Info

Publication number: CN113741464A
Application number: CN202111043124.4A
Authority: CN
Inventors: 许志; 刘顺程; 夏宇阳; 陈旭; 刁宇鹏; 苏涵; 郑凯; 曾凯
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113741464B

Abstract

本发明公开了一种基于时空数据强化学习的自动驾驶速度控制框架，主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。该控制框架包括离线训练：利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习；在线模拟：使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现，本发明综合考虑了交通安全性，驾驶员舒适度和交通效率，使用了长短期记忆神经网络(LSTM)，能够让自动驾驶汽车在进行速度决策时不只是考虑当前时刻的环境数据，可以同时考虑多个历史时刻的环境数据，让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。

Description

一种基于时空数据强化学习的自动驾驶速度控制框架

技术领域

本发明属于自动驾驶技术领域，具体地说，是涉及一种基于时空数据强化学习的自动驾驶速度控制框架。

背景技术

随着城市化的快速发展，许多城市都在遭受不同程度的交通拥堵。经过调查发现，大部分的交通拥堵属于“幽灵”式堵车，导致人们出行时间严重延长、燃料浪费以及空气污染等。而这种“幽灵”式堵车经常发生高密度交通中，没有任何交通事故或者道路施工等明显迹象，其根本原因是驾驶员恶劣的驾驶行为(如急刹车、急加速)所产生的连锁效应在车流中传递，导致交通严重的延误甚至堵车。

对于自动驾驶车辆的单车道速度控制，可以分为基于模仿的控制框架与基于跟车行驶的控制框架。其中，基于模仿的控制框架主要使用机器学习的方法进行轨迹预测，搭建一个机器学习的框架对人类的驾驶行为进行学习，通过学习周围环境特征与周围车辆的行为对每一时刻的变速行为进行控制。这一类方法主要使用循环神经网络(RNN)来学习车辆运动行为，通过学习前一段时间内当前车辆与周围车辆的交互特征来决定下一时刻的变速行为。其改进方法可以使用长短期记忆神经网络(LSTM)来提升车辆在复杂情况下的表现，更好地预测自动驾驶车辆的未来轨迹。但是循环神经网络(RNN)与长短期记忆神经网络(LSTM)对于不同时刻的车辆轨迹数据都是共享权重的，然而，不同时刻或者不同周围车辆对当前车辆行为的影响是不同的。例如，当前车辆可能更关注周围车辆前一时刻的状态，或者在一些突发情况下，当前车辆应该更关注某一车辆突然的速度变化，从而更好的对当前时刻的变速行为进行控制。所以，对于不同时刻不同周围车辆的状态应该分配不同权重，于是带有注意力机制 (Attention)的长短期记忆神经网络模型出现。但是基于模仿的速度控制模型存在着一个重要的限制，因为人类不可避免的会产生一些不合理的驾驶行为，一份比较差的学习数据将会严重影响自动驾驶车辆的稳定性与安全性。对于基于跟车行驶的速度框架，传统方法是使用基于模型预测控制的自适应巡航控制框架(MPC-ACC)来决定车辆的速度，利用周围环境的特征计算出最合理的跟车距离与跟车速度，这种方法在比较简单的环境中能够有较好的表现，但是对于现实生活中的复杂场景来说，该模型存在明显的局限性，该模型难以考虑到所有的环境特征，通过数学公式来计算车辆某一时刻的行为难以适用于复杂的交通环境。于是，有人提出使用深度强化学习的方法来控制车辆某一时刻的行为，最具有代表性的有深度确定性策略梯度算法(DDPG)，设计一个综合考虑交通效率，交通安全与驾驶员舒适性的奖励机制，将现实数据输入模型，由强化学习智能体(RL agent)来对车辆速度行为进行探索，通过模型的反馈结果来对智能体的行为进行指导与改进，输出奖励值最高的变速决策。

发明内容

本发明的目的在于提供一种基于时空数据强化学习的自动驾驶速度控制框架，主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于时空数据强化学习的自动驾驶速度控制框架，包括：

离线训练：利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习；

在线模拟：使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现；

所述离线训练包括：

演员网络：由两个网络组成，当前演员网络和目标演员网络，采用长短期记忆神经网络和注意力机制网络结构，计算相邻两辆车之间的相对速度与相对距离的权重；

评委网络：由两个网络组成，当前评委网络和目标评委网络，两个网络均包括一个输入层、一个隐藏层和一个输出层，输入层输入当前环境状态和演员网络输出的加速度，经隐藏层计算后，输出层输出当前速度控制模型的好坏程度评价函数Q值；

交互环境：根据车辆当前状态计算得出车辆的下一时刻状态并计算奖励值。

进一步地，在本发明中，所述演员网络的输入部分为一个存储车辆历史时空数据的矩阵：

矩阵中的每一个元素由两个部分组成，分别为相对速度和相对距离：

其中，λ为选取的时间步数，m为选取的前车数量，t为当前时刻。

进一步地，在本发明中，所述相对速度与相对距离的权重计算公式如下：

其中，W_i为神经网络中的参数，tanh和softmax为神经网络层的激活函数， A为自动驾驶车辆，C为普通车辆，m指车辆总数，r指速度，V是相对速度， T表示时间，该公式展示的是对于相对速度的注意力权重计算，相对距离的计算公式相同；然后将得到的t-2时刻到t时刻的注意力权重矩阵weight矩阵输入到LSTM网络中，得到当前车辆的加速度a_t。

进一步地，在本发明中，所述隐藏层的激活函数为relu函数，Q值的计算公式如下：

Q＝tanh(W₀，relu(W₁，S_t，a_t))

其中，W为神经网络参数、st指在该时间步下车辆的状态；

根据得到的Q值，对网络的训练公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中y_i表示离线训练的当前网络的Q值，r_i表示在当前状态下采取某个动作的奖励值，L表示更新演员网络的损失函数；N表示样本数，

表示当前环境状态下的策略函数，θ表示网络参数，

表示根据当前环境状态和演员网络输出的动作值计算出来的Q值，使用贝尔曼方程来更新，γ为贝尔曼方程中的折扣因子；

和

表示离线训练的目标网络中的策略函数和Q函数，主要为了避免损失函数的发散。

进一步地，在本发明中，所述车辆的下一时刻状态的计算公式如下：

两个公式分别计算下一状态当前车辆的速度和纬度坐标；Δt表示两个时间步之间的时间间隔。

进一步地，在本发明中，所述奖励值的的计算公式如下：

r_t＝W₁*F(x_t)+W₂*G(y_t)+W₃*H(z_t)

其中x_t，y_t，z_t分别表示交通安全性、驾驶员舒适度以及交通效率，W₁， W₂，W₃表示权重。

与现有技术相比，本发明具有以下有益效果：

(1)采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现，本发明综合考虑了交通安全性，驾驶员舒适度和交通效率，使用了长短期记忆神经网络(LSTM)，能够让自动驾驶汽车在进行速度决策时不只是考虑前一时刻的环境数据，可以同时考虑多个历史时刻的环境数据，让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。对于输入的环境数据，本发明使用(Attention)机制对不同的车辆数据分配不同的权重，作用是能区分前方不同车辆对当前车辆的影响，因为真实场景中，离当前车辆越近影响越大，所以对前方不同车辆提取出来的特征赋予不同的权重。

(2)本发明中整个网络模型采用了深度确定性策略梯度算法(DDPG)的架构，通过智能体(agent)的不断探索，以及环境的奖励值反馈来学习最好的速度决策行为，让自动驾驶汽车能够拥有比人类决策数据更合理地决策行为，能够有效地缓解由驾驶员恶劣的驾驶行为所导致的“幽灵”式堵车。

(3)本发明在保持让自动驾驶车辆本身安全、舒适、有效率地行驶的同时，能有效地缓解或阻断由前方车辆恶劣驾驶所导致的连锁效应，从而在根本上解决了幽灵堵车。

附图说明

图1为本发明的基于强化学习的速度决策网络框架。

图2为本发明的强化学习中的策略网络的详细结构。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1、2所示，本发明公开的一种基于时空数据强化学习的自动驾驶速度控制框架，方案整体基于长短期记忆神经网络(LSTM)和注意力机制(Attention) 的深度确定性策略梯度算法(DDPG)框架，用于对自动驾驶车辆的速度控制。该框架主要包括一个离线训练部分与在线模拟部分，离线训练部分主要通过现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习，在线模拟部分则使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。

对于离线训练部分，与深度确定性策略梯度算法(DDPG)结构相同，由演员网络(actor)、评委网络(critic)和环境(environment)三部分组成。

演员网络的输入是一个存储车辆历史时空数据的矩阵：

矩阵中的每一个元素由两个部分组成，分别为相对速度和相对距离。

时空数据矩阵的行数为选取的时间步数λ，矩阵的列数为选取的前车数量 m。本发明选取的λ和m的值都为3，当前时刻为t，输入数据包含了从t-2时刻到t时刻的信息，每一时刻包含相邻两辆车之间的相对速度与相对距离。

在演员网络(actor)中，我们采用了长短期记忆神经网络(LSTM)和注意力机制(Attention)作为演员网络(actor)的网络结构，因为我们需要考虑到不同时刻不同车辆对当前车辆变速决策的影响，我们采用了注意力机制(Attention) 来处理输入的时空数据，对相对速度与相对距离分别计算权重，计算公式如下：

其中，W_i为神经网络中的参数，tanh和softmax为神经网络层的激活函数，该公式展示的是对于相对速度的注意力权重计算，相对距离的计算公式相同。然后将得到的t-2时刻到t时刻的weight矩阵输入到LSTM网络中，得到当前车辆的加速度a_t。

评委网络(critic)总共分为三层，输入层、一个隐藏层和一个输出层，输入数据为当前环境状态和演员网络(actor)输出的加速度a_t，输出数据为网络的 Q值，其中隐藏层的激活函数为relu函数，即线性修正单元。计算公式如下：

Q＝tanh(W₀，relu(W₁，s_t，a_t))

对于神经网络的训练部分，一个强化学习网络的核心部分在于为智能体找到一个离线的策略，在某个特定的环境状态下该策略输出的动作能够最大化奖励值。训练的计算公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

表示当前环境状态下的策略函数，θ表示网络参数，

表示根据当前环境状态和演员网络(actor)输出的动作值计算出来的Q值，使用贝尔曼方程(Bellman)来更新，γ为贝尔曼方程(Bellman)中的折扣因子。

和

表示目标网络中的策略函数和Q函数，主要为了避免损失函数的发散。

在环境部分，本方案提供当前状态s_t和选取的动作值a_t输入到环境中，由环境来计算得出下一时刻的状态。计算公式如下：

这两个公式分别计算下一状态当前车辆的速度和纬度坐标Δt表示两个时间步之间的时间间隔，在本发明中为0.1s，其他车辆下一时刻的状态由环境直接提供，不需要计算。除了更新当前车辆的状态，环境还需要计算奖励值(reward)。本发明中奖励值综合考虑了交通安全性、驾驶员舒适度以及交通效率，让当前车辆能够在前车突然的变速行为后有良好的应对。奖励值(reward)的计算公式如下：

r_t＝W₁*F(x_t)+W₂*G(y_t)+W₃*H(z_t)

将本发明的速度决策输入到道路模拟环境中，采用四个指标来比较本发明与其他框架的表现，分别是受影响道路长度，道路回复时间，平均延迟指数，速度波动指数。每个指标的值越小，表示这个方法在面对幽灵堵车问题时能够有更好的表现。下面的表格给出本发明与其他框架的模拟结果。

由表格可以看出，本发明每个指标都做到了比其他框架更好的效果，所以本发明能够更好地减轻车辆急剧变速行为的影响。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，包括：

所述离线训练包括：

2.根据权利要求1所述的一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，所述演员网络的输入部分为一个存储车辆历史时空数据的矩阵：

3.根据权利要求2所述的一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，所述相对速度与相对距离的权重计算公式如下：

其中，W_i为神经网络中的参数，tanh和softmax为神经网络层的激活函数，A为自动驾驶车辆，C为普通车辆，m指车辆总数，r指速度，V是相对速度，τ表示时间，该公式展示的是对于相对速度的注意力权重计算，相对距离的计算公式相同；然后将得到的t-2时刻到t时刻的注意力权重矩阵weight矩阵输入到LSTM网络中，得到当前车辆的加速度a_t。

4.根据权利要求3所述的一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，所述隐藏层的激活函数为relu函数，Q值的计算公式如下：

Q＝tanh(W₀，relu(W₁，s_t，a_t))

其中，W为神经网络参数、st指在该时间步下车辆的状态；

根据得到的Q值，对网络的训练公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

表示当前环境状态下的策略函数，θ表示网络参数，

和

5.根据权利要求4所述的一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，所述车辆的下一时刻状态的计算公式如下：

6.根据权利要求5所述的一种基于时空数据强化学习的自动驾驶速度控制框架，其特征在于，所述奖励值的的计算公式如下：

r_t＝W₁*F(x_t)+W₂*G(y_t)+W₃*H(z_t)

其中x_t，y_t，z_t分别表示交通安全性、驾驶员舒适度以及交通效率，W₁，W₂，W₃表示权重。