CN114997048A

CN114997048A - 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Info

Publication number: CN114997048A
Application number: CN202210584570.4A
Authority: CN
Inventors: 黄志球; 华高洋; 王金永; 谢健
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-02

Abstract

本发明公开了一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼，将任务中的无人驾驶车辆控制描述为无模型的马尔科夫决策过程；基于TD3算法，实现对输入的自动驾驶车辆状态及其传感器信息进行计算，输出具体动作，实时控制车辆行动；使用奥恩斯坦‑乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声，并基于路径追踪方法对奥恩斯坦‑乌伦贝克过程噪声进行加权修正。本发明结合了路径追踪方法对TD3算法探索策略中的动作噪声进行了加权修正，使得无人驾驶车辆的探索偏向于正确的方向，且降低了经验回放池中低效样本的比例，最终使得算法更快收敛，并且策略具有更好的表现性。

Description

基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法

技术领域

本发明属于深度强化学习和自动驾驶领域，具体涉及一种基于改进TD3算法的自动驾驶车辆车道保持方法。

背景技术

自动驾驶汽车是一种具有自主驾驶能力的户外轮式移动机器人，大多数自动驾驶汽车采用模块化系统，其核心功能可以概括为：感知、规划、决策和车辆控制。模块化系统的优点是将具有挑战性的自动驾驶任务分解成一组更简单的问题，但这种模块化设计使系统容易出现错误传播。近年来，端到端的结构开始作为模块化方法的替代方案出现。在端到端驾驶中，车辆控制动作是根据传感器输入直接计算输出的，与传统的模块化方法相比，该方法具有思想简单、环境信息感知充分等优点。它可以综合环境信息和自动驾驶车辆信息，实现类似于人类驾驶的行为。深度强化学习(DRL)是深度学习(DL)和强化学习(RL)相结合的一种主要实现端到端驱动的方法，其中RL是解决人工智能问题的一种非常常见的框架，而DL不仅可以为RL带来端到端优化的便利，也使RL不再局限于低维空间，极大地扩展了RL的应用范围。在实际应用中，根据无人驾驶车辆是否能够通过与环境交互获得的数据预定义环境动态模型，将RL分为基于模型的RL和无模型的RL。基于模型的RL将根据环境的动态模型来学习最优策略。如果模型能够准确预测环境的动态变化，那么在输入一个状态和一个动作时，就不需要与环境进行实时交互，可以直接预测新的状态和行动奖励，从而大大提高数据的利用率。然而，当问题具有复杂的状态空间和动作空间时，准确估计环境动态模型是一个很大的挑战，使用不准确的模型进行学习容易导致复合误差。无模型RL是指无人驾驶车辆实时地与环境进行交互和探索，直接从所获得的经验数据中学习，最终达到累积收益最大化或其他特定目标。

本发明主要研究自动驾驶中的车道保持任务，这是自动驾驶汽车完成其他复杂任务的前提，如果做得不好，可能会出现碰撞等安全问题。在过去的几年里，许多学者对这个问题进行了深入的研究。他们使用的主要算法是深度确定性策略梯度算法(DDPG)，从他们的实验结果来看,DDPG确实可以指导无人驾驶车辆完成车道保持任务，但当我们进一步复现他们的实验时,发现存在如下问题：

(1)DDPG算法的收敛性很大程度上取决于超参数的设置，不好的超参数容易导致算法不收敛，且算法最终的表现性不佳，具体表现为由DPPG算法指导的无人驾驶车辆在进行车道保持任务时，左摇右摆，就像酒驾一样，尽管完成了任务，但是却有很大的安全隐患。

(2)DDPG是一种确定性策略算法，每次只输出一个确定的单一动作，但无模型算法的本质决定了它需要通过探索环境来学习最优策略。因此，我们通常采用直接在输出动作中加入随机噪声的方法来帮助无人驾驶车辆探索。常用的噪声有高斯噪声和OU噪声，这些噪声都是基于算法输出的动作形成的。在训练初始阶段，算法中的网络结构不完善，输出的动作不可靠，噪声的初始权重又大，在这种情况下，无人驾驶车辆会做很多无效的探索，这大大降低了训练效率。

发明内容

发明目的：本发明提出提出一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，改善了无人驾驶车辆与环境交互过程中获得的训练样本的质量，提升了算法的表现性能；使自动驾驶车辆的探索趋向于正确的方向。

技术方案：本发明提供了一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，包括以下步骤：

(1)对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼，并结合深度强化学习算法，将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决策过程；

(2)基于双延迟深度确定性策略梯度算法，实现对输入的自动驾驶车辆状态及其传感器信息进行计算，输出具体动作，实时控制车辆行动；

(3)在双延迟深度确定性策略梯度算法训练阶段，为充分探索状态空间，使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声，并基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正，实现减少自动驾驶车辆在训练过程中的无效勘探；

(4)在TORCS仿真平台上进行大量实验，自动驾驶车辆由探索策略改进的双延迟深度确定性策略梯度算法指导，通过与环境进行交互收集大量训练数据，并利用这些数据进行学习，对算法进行更新，最终收敛至最优策略。

进一步地，所述步骤(2)实现过程如下：

TD3算法中有六个网络，分别是Actor网络，Critic1网络_1，Cirtic2网络_2，Actor目标网络，Critic目标网络_1以及Critic2目标网络_2；其中， Actor网络是策略网络，它接收[自动驾驶车辆的状态]作为输入，输出[对车辆的控制动作]；Critic网络是评价网络，以[车辆状态，Actor网络生成的动作] 作为输入，输出[Actor网络生成的动作的价值]，用来对Actor网络进行评估。

进一步地，步骤(3)所述路径追踪方法为：

对于自动驾驶中的车道保持任务，TD3算法接收无人驾驶车辆状态作为输入，输出转向、加速和制动三个动作；在算法训练阶段，为了充分探索状态空间，使用OU过程为TD3算法输出的动作添加噪声，自动驾驶车辆的探索策略表示为：

a_t＝μ(s_t|θ)+N_t

其中，μ(s_t|θ)为TD3算法输出的策略动作，是一个三维向量：[steer,accel,brake]，N_t为OU过程产生的噪声，也是一个三维向量：[steer_noise, accel_noise,brake_noise]；

基于路径追踪方法对OU过程产生的动作噪声进行加权修正，在考虑车辆速度的同时，最小化车辆方向和道路轴线之间的角度

并缩短车辆质心和道路中心线之间的距离trackPos，由路径追踪方法给出的转向控制动作为：

其中，η₁，η₂，η₃是比例系数。

进一步地，步骤(3)所述基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正过程如下：

对OU过程产生的转向噪声进行加权修正，以减少无人驾驶车辆的无效勘探：

steer_noise＝(1-ε)*steer_noise_OU+ε*steer_action_PT，

其中，ε的初始值为0.5，并且在训练过程中逐渐减小，当训练步数达到 100000步时，减小为0；对转向噪声进行加权修正后，无人驾驶车辆执行的转向动作为：

steer＝original_steer+steer_noise

其中，original_steer为Actor网络输出的原始转向动作。

进一步地，所述步骤(4)包括以下步骤：

1)首先初始化Actor网络π_θ，Critic网络_1

Critic网络_2

Actor 目标网络

Critic目标网络_1

Critic目标网络_2

以及初始化经验回放池D；开始进行第k轮仿真(1≤k≤M)，其中M是设置的最大仿真轮数；

2)初始化状态s_t；

3)开始第k轮仿真中的第t个时间步(1≤t≤T)，其中T是设置的一轮仿真的最大时间步数；

4)将自动驾驶车辆状态输入Actor网络和路径追踪算法，得到TD3算法输出的原始动作original_a_t和路径追踪算法输出的转向动作steering_action_PT；

5)将动作original_a_t输入OU过程，输出OU噪声N_t；

6)将steering_action_PT和N_t相结合生成加权修正的噪声N_t'；

7)生成最终执行的动作a_t＝μ_θ(s_t)+N_t'；

8)执行该动作a_t，得到奖励r_t，并进入下一状态s_t'；

9)将元组(s_t,a_t,r_t,s_t')存入经验回放池D；

10)如果经验回放池D中有足够多的数据，则采样N条数据(s,a,r,s')；

11)用Actor目标网络生成状态s'下的动作：

其中

是Actor目标网络输出的动作，ε～Normal(0,σ)是为了提高算法鲁棒性，添加到

上的基于正态分布的噪声，σ是正态分布的协方差，而clip(ε,-C,C)是用于对噪声进行裁剪，经过clip函数裁剪后的噪声范围在(-C,C)之间；

12)计算更新目标：

其中γ是折扣因子，

是Critic目标网络生成的动作价值；

13)更新Critic网络的参数：

14)每两个时间步使用梯度上升法更新一次Actor网络的参数：

同时更新三个目标网络的参数： θ^-←τθ+(1-τ)θ,

其中τ是滑动平滑更新的参数；

15)一个时间步结束，返回步骤(3)进行下一个时间步；

16)一轮仿真结束，返回步骤(1)进行下一轮仿真，直至仿真轮数k到达设置的上限M结束。

有益效果：与现有技术相比，本发明的有益效果：本发明提出的改进的TD3 算法降低了算法对超参数的敏感程度，使算法训练过程更加稳定，且算法表现性更佳；使无人驾驶车辆训练过程中的探索偏向于正确的方向，不仅提高了训练效率，还改善了无人驾驶车辆与环境交互过程中获得的训练样本的质量，从而进一步提升了算法的表现性能；使自动驾驶车辆的探索趋向于正确的方向。

附图说明

图1为本发明中提出的探索策略改进的TD3算法框架示意图；

图2为TD3算法示意图；

图3为传统路径追踪方法示意图；

图4为动作噪声加权修正示意图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明提出一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，具体包括以下步骤：

步骤1：对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼，并结合深度强化学习算法，将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决策过程。

步骤2：基于双延迟深度确定性策略梯度算法(TD3)，实现对输入的自动驾驶车辆状态及其传感器信息进行计算，输出具体动作，实时控制车辆行动。

TD3算法中有六个网络，分别是Actor网络，Critic1网络_1，Cirtic2网络_2，Actor目标网络，Critic目标网络_1以及Critic2目标网络_2，如图2 所示。其中，Actor网络是策略网络，它接收[自动驾驶车辆的状态]作为输入，输出[对车辆的控制动作]；Critic网络是评价网络，以[车辆状态，Actor网络生成的动作]作为输入，输出[Actor网络生成的动作的价值]，用来对Actor网络进行评估，特别地，使用两个Critic网络可以有效避免对动作价值的高估；而三个Target网络则是为了联合输出算法的更新目标。Actor网络参数每两步更新一次，这种方法减小了动作价值函数的方差。

步骤3：在双延迟深度确定性策略梯度算法训练阶段，为充分探索状态空间，使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声，并基于路径追踪方法对奥恩斯坦-乌伦贝克过程(OU过程)噪声进行加权修正，实现减少自动驾驶车辆在训练过程中的无效勘探。

对于自动驾驶中的车道保持任务，TD3算法接收无人驾驶车辆状态作为输入，输出转向、加速和制动三个动作。在算法训练阶段，为了充分探索状态空间，使用OU过程为TD3算法输出的动作添加噪声，自动驾驶车辆的探索策略可以表示为：

a_t＝μ(s_t|θ)+N_t

其中，μ(s_t|θ)为TD3算法输出的策略动作，是一个三维向量：[steer,accel,brake]，N_t为OU过程产生的噪声，也是一个三维向量：[steer_noise, accel_noise,brake_noise]。

但是噪声的权重初始值较大，且随机性强，使得无人驾驶车辆在训练初期常常做出一些不合理的行为，本发明基于路径追踪方法对OU过程产生的动作噪声进行加权修正，实现减少自动驾驶车辆在训练过程中的无效勘探：路径追踪方法如图3所示，其目标是在考虑车辆速度的同时，最小化车辆方向和道路轴线之间的角度

其中，η₁，η₂，η₃是比例系数，确定方式为：假设车辆处于道路边缘，速度方向垂直于道路轴线，且车速为100km/h，在这种极限工况下，转向控制动作的大小为0.3，并且η₁*trackPos和

的值相等。

如图4所示，加权修正的噪声利用路径追踪方法产生的转向动作，对OU过程产生的转向噪声进行加权修正(加速噪声和制动噪声不变)，以减少无人驾驶车辆的无效勘探：

steer_noise＝(1-ε)*steer_noise_OU+ε*steer_action_PT

其中，ε的初始值为0.5，并且在训练过程中逐渐减小，当训练步数达到 100000步时，减小为0。对转向噪声进行加权修正后，无人驾驶车辆执行的转向动作为：

steer＝original_steer+steer_noise

其中，original_steer为Actor网络输出的原始转向动作。

步骤4：在TORCS仿真平台上进行大量实验，自动驾驶车辆由探索策略改进的双延迟深度确定性策略梯度算法指导，通过与环境进行交互收集大量训练数据，并利用这些数据进行学习，对算法进行更新，最终收敛至最优策略。

如图1所示为探索策略改进的TD3算法(Exploration StrategyImproved TD3) 的基本框架，算法流程及具体实现步骤描述如下：

首先初始化Actor网络π_θ，Critic网络_1

Critic网络_2

Actor 目标网络

Critic目标网络_1

Critic目标网络_2

以及初始化经验回放池D。

步骤(1)：开始进行第k轮仿真(1≤k≤M)，其中M是设置的最大仿真轮数；

步骤(2)：初始化状态s_t；

步骤(3)：开始第k轮仿真中的第t个时间步(1≤t≤T)，其中T是设置的一轮仿真的最大时间步数；

步骤(4)：将自动驾驶车辆状态输入Actor网络和路径追踪算法，得到TD3 算法输出的原始动作original_a_t和路径追踪算法输出的转向动作 steering_action_PT；

步骤(5)：将动作original_a_t输入OU过程，输出OU噪声N_t；

步骤(6)：将steering_action_PT和N_t相结合生成加权修正的噪声N_t'；

步骤(7)：生成最终执行的动作a_t＝μ_θ(s_t)+N_t'；

步骤(8)：执行该动作a_t，得到奖励r_t，并进入下一状态s_t'；

步骤(9)：将元组(s_t,a_t,r_t,s_t')存入经验回放池D；

步骤(10)：如果经验回放池D中有足够多的数据，则采样N条数据(s,a,r,s')；

步骤(11)：用Actor目标网络生成状态s'下的动作：

ε～Normal(0,σ)；其中

步骤(12)：计算更新目标：

其中γ是折扣因子，

是Critic目标网络生成的动作价值；

步骤(13)：更新Critic网络的参数：

步骤(14)：每两个时间步使用梯度上升法更新一次Actor网络的参数：

同时更新三个目标网络的参数： θ^-←τθ+(1-τ)θ,

其中τ是滑动平滑更新的参数；

步骤(15)：一个时间步结束，返回步骤(3)进行下一个时间步；

步骤(16)：一轮仿真结束，返回步骤(1)进行下一轮仿真，直至仿真轮数k到达设置的上限M结束。

本发明为了解决DDPG算法对超参数敏感，导致最终训练得到的策略表现性不佳的问题，将DDPG算法改进为双延迟确定性策略梯度算法。TD3采用了 Double Q-learning的价值网络结构，通过选择一对价值网络之间的最小值来限制高估，并通过延迟更新策略网络以减少每次更新的误差来进一步提高算法性能。为了解决无人驾驶车辆在训练初期进行大量无效探索，导致训练效率低下的问题，我们提出探索策略改进的TD3算法，在该算法中，我们结合传统的路径跟踪方法对探索策略中的动作噪声进行加权修正，使无人驾驶车辆的探索趋向于正确的方向。

Claims

1.一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，其特征在于，所述步骤(2)实现过程如下：

TD3算法中有六个网络，分别是Actor网络，Critic1网络_1，Cirtic2网络_2，Actor目标网络，Critic目标网络_1以及Critic2目标网络_2；其中，Actor网络是策略网络，它接收[自动驾驶车辆的状态]作为输入，输出[对车辆的控制动作]；Critic网络是评价网络，以[车辆状态，Actor网络生成的动作]作为输入，输出[Actor网络生成的动作的价值]，用来对Actor网络进行评估。

3.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，其特征在于，步骤(3)所述路径追踪方法为：

a_t＝μ(s_t|θ)+N_t

其中，μ(s_t|θ)为TD3算法输出的策略动作，是一个三维向量：[steer,accel,brake]，N_t为OU过程产生的噪声，也是一个三维向量：[steer_noise,accel_noise,brake_noise]；