CN109733415A

CN109733415A - 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Info

Publication number: CN109733415A
Application number: CN201910014636.4A
Authority: CN
Inventors: 王雪松; 朱美新; 孙平
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-05-10
Anticipated expiration: 2039-01-08
Also published as: CN109733415B

Abstract

本发明涉及一种基于深度强化学习的拟人化自动驾驶跟驰模型，应用于自动驾驶跟驰控制领域。基于上海自然驾驶实验数据，将选取的快速路跟驰数据集分为训练数据和验证数据。使用深度确定性策略梯度(DDPG)深度强化学习方法，通过构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互，选取评价指标，设置奖励函数，选择神经网络结构，设置神经网络更新策略及超参数，设置探索策略，构建深度强化学习的拟人化跟驰模型。通过训练并测试模型，进一步优化模型。本发明模型在轨迹复现和泛化能力方面超越了传统跟驰模型和近期数据驱动跟驰模型，在模仿人类跟驰行为方面具有更高的优越性。

Description

一种基于深度强化学习的拟人化自动驾驶跟驰模型

技术领域

本发明涉及自动驾驶领域，特别涉及一种基于深度强化学习的拟人化自动驾驶跟驰模型。

背景技术

跟驰模型是后车根据前车运动状态调整自身运动状态的数学描述，其是通行能力估算、车辆前向避撞和自适应巡航系统的理论基础，亦是微观交通仿真软件的核心模型。跟驰模型以分析各车辆间跟驰的方式来理解单车道交通流特性，起到联系微观驾驶行为与宏观交通流的作用。

在自动驾驶与人类驾驶共存的情况下，自动驾驶车辆作出类似于人类驾驶员 (简称拟人化)的跟驰控制决策既提高乘客的舒适度与信任度，也方便其他交通参与者更好地理解和预测自动驾驶车辆的行为，以实现自动驾驶与人类驾驶之间的安全交互。然而传统跟驰模型在应用于自动跟驰控制时存在诸多局限性，如精度有限，泛化能力差及缺乏自适应更新能力。

深度强化学习(Deep Reinforcement Learning,DRL)以被广泛应用于工业制造、仿真模拟、机器人控制、优化与调度和游戏博弈等领域，其基本思想是通过最大化智能体从环境中获得的累计奖赏值，以学习到完成目标的最优策略。DRL 方法更加侧重于学习解决问题的策略，因此其泛化能力更强，可解决传统跟驰模型在应用于自动驾驶跟驰控制时的缺陷。基于海量实际驾驶行为数据，训练深度强化学习跟驰模型，将为自动驾驶车辆跟驰控制提供参考。

发明内容

本发明的目的在于克服技术不足，公开一种基于DRL的拟人化跟驰模型。基于上海自然驾驶实验数据，将选取的快速路跟驰数据集分为训练数据和验证数据。通过构建仿真环境以使RL智能体通过一系列状态、行动和奖励值与环境交互，选取评价指标，设置奖励函数，选择神经网络结构，设置神经网络跟新策略、超参数及探索策略，构建DRL的拟人化跟驰模型。通过训练并测试模型，进一步优化模型。从而适应自动驾驶场景，更好的模仿人类跟驰行为。

本发明的模型在轨迹复现和泛化能力方面超越了传统跟驰模型和近期数据驱动跟驰模型，在模仿人类跟驰行为方面具有更高的优越性。

本发明所采用的技术方案是：

一种基于深度强化学习的拟人化自动驾驶跟驰模型，步骤如下：

步骤1：采集手动驾驶阶段的数据，作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段，从中随机选择一部分作为为训练数据，剩余部分作为验证数据。

步骤2：使用深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)深度强化学习方法，构建拟人化跟驰模型。

步骤2.1：构建仿真环境以使强化学习(Reinforcement Learning，RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入，后车速度、相对距离和相对速度用经验数据初始化，由RL智能体计算加速度，根据强化学习定义的状态更新规则迭代生成后车的未来状态，将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数，计算奖励值和模拟误差，当仿真车辆跟随事件在其最大时间步骤终止时，状态用经验数据集重新初始化。

步骤2.2：选取评价指标，设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标，采用间距和速度差异作为奖励函数的DDPG模型。S_n-1(t)和V_n(t)表示时间步t时的仿真环境中的模拟间距和速度，和表示时间步t时的实际数据集中观察到的间距和速度。公式如下：

步骤2.3：选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络)，演员和评论家网络有三层：输入层，输出层和包含30个神经元的隐层。在时间步长t内，演员网络将一个状态 s_t＝(v_n(t),△v_n-1,n(t),△S_n-1,n(t))作为输入，并输出一个连续动作：后车加速度a_n(t)。评论家网络采用状态s_t和动作a_t作为输入，并输出状态动作价值Q(s_t,a_t)。其中， S_n-1,n(t)和v_n(t)是时间步长t时的仿真环境中的模拟间距和速度。

步骤2.4：设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数，并采用自适应学习算法Adams。演员网络参数更新如下：演员输出的加速度被传递给评论网络，计算梯度传递给演员网络，并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1 所示。

步骤2.5：设置探索策略。采用Omstein-Uhlenbeck过程(产生以零为中心的时间相关值，从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程，形成探索策略。Omstein-Uhlenbeck过程产生以零为中心的时间相关值，从而在物理环境中进行良好的探索。

步骤3：训练模型。基于一个驾驶员的训练数据集对模型进行训练，保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟，事件间切换时根据经验数据对状态进行初始化，一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练，并且选择产生最小训练和测试误差综合的模型作为最终模型。

步骤4：测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证，其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集，对模型重复验证，驾驶员间验证误差用来评价模型的泛化能力。

本发明的优点是：

1.采用大样本中国驾驶员实际跟驰数据，相较于采用国外数据或小规模试验道路数据，更加符合中国驾驶员跟驰行为的描述。

2.利用深度强化学习构建模型，合理改善了传统跟驰模型应用于自动跟驰控制时的局限性，更加适应自动驾驶场景，更好的模仿人类跟驰行为。

附图说明

图1为动作及评判网络结构图

图2为本发明的流程图

图3车辆跟随期间最小TTC的累积分布

图4(a)NGSIM经验数据和(b)DDPG模型跟车头时距分布

图5(a)NGSIM经验数据和(b)DDPG模型跟驰Jerk分布

具体实施方式

基于上海自然驾驶实验数据，选取快速路跟驰数据集分为训练数据和验证数据。通过构建仿真环境以使RL智能体通过一系列状态、行动和奖励值与环境交互，选取评价指标，设置奖励函数，选择神经网络结构，设置神经网络跟新策略、超参数及探索策略，构建DRL的拟人化跟驰模型。通过训练并测试模型，进一步优化模型。所发明的模型在模仿人类跟驰行为方面具有更高优越性。

下面结合附图和具体实施例对本发明进行详细说明,步骤如下：

步骤2：使用深度确定性策略梯度(DDPG)深度强化学习方法，构建拟人化跟驰模型。

步骤2.1：构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入，后车速度、相对距离和相对速度用经验数据初始化，由RL智能体计算加速度，根据强化学习定义的状态更新规则迭代生成后车的未来状态，将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数，计算奖励值和模拟误差，当仿真车辆跟随事件在其最大时间步骤终止时，状态用经验数据集重新初始化。

实施例

通过比较经验NGSIM数据和DDPG模型模拟得到的跟驰行为，测试该模型能够安全、高效、舒适的跟随前车。

所用数据是从美国加利福尼亚州洛杉矶美国高速公路101(好莱坞高速公路) 的南行方向获取。依据上述步骤1至步骤4。

驾驶安全性方面，NGSIM经验数据和DDPG模型模拟得到最小碰撞时间的累积分布，由DDPG模型产生的跟驰行为比在NGSIM数据中观察到的驾驶员行为更安全。如图3所示。

驾驶效率方面，DDPG模型有能力保持高效且安全的跟驰车头时距。如图4所示。

驾驶舒适性方面，图5表明DDPG模型产生的加速度波动更低，DDPG模型可以比NGSIM数据中的人类驾驶员以更舒适的方式控制车辆速度。图5如下。

基于以上，DDPG模型证明了其安全、高效和舒适驾驶的能力。

Claims

1.一种基于深度强化学习的拟人化自动驾驶跟驰模型，其特征在于，步骤如下：

步骤2.3：选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络)，演员和评论家网络有三层：输入层，输出层和包含30个神经元的隐层。在时间步长t内，演员网络将一个状态s_t＝(v_n(t),△v_n-1,n(t),△S_n-1,n(t))作为输入，并输出一个连续动作：后车加速度a_n(t)。评论家网络采用状态s_t和动作a_t作为输入，并输出状态动作价值Q(s_t,a_t)。其中，S_n-1,n(t)和v_n(t)是时间步长t时的仿真环境中的模拟间距和速度。

步骤2.4：设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数，并采用自适应学习算法Adams。演员网络参数更新如下：演员输出的加速度被传递给评论网络，计算梯度传递给演员网络，并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1所示。