CN113276852A

CN113276852A - 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Info

Publication number: CN113276852A
Application number: CN202110375328.1A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 余峰; 陈雄辉; 罗凡明; 张云天; 管聪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-08-20
Anticipated expiration: 2041-04-08
Also published as: CN113276852B

Abstract

本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法，包括：(1)创建无人车仿真道路环境；设置环境车行驶策略和行人的运动模型，设计奖励函数以及碰撞检测条件；(2)利用深度神经网络近似状态值函数、动作值函数以及策略，并初始化网络参数；(3)获得无人车初始状态，使其与环境交互，收集数据，并存储到缓冲池；(4)对状态值函数网络、动作值函数网络以及策略网络进行更新；(5)对目标值函数网络进行更新，直到策略网络将近收敛；(6)将状态值网络优化目标中熵项系数置零，继续训练直到策略网络完全收敛；(7)对于训练好的策略模型，根据网络输出的动作概率分布，选择概率值最大的动作给无人车执行。

Description

一种基于最大熵强化学习框架的无人驾驶车道保持方法

技术领域

本发明涉及一种基于最大熵强化学习框架的无人驾驶车道保持方法，基于最大熵强化学习算法的思想，实现了在各类复杂多变路况下，对无人车进行自主车道保持，属于无人车深度强化学习技术领域。

背景技术

无人车包括环境感知、规划决策和车辆控制三个模块，其中规划决策阶段依据环境感知阶段采集的信息决定当前条件下应该采取的行动(包括跟驰、换道的选择，多车交互情况下的决策等)，其内部决策算法的优劣决定着智能汽车的“驾驶水平”，因此又被称为智能汽车的“驾驶脑”。现有的决策系统采用的是基于逻辑规则的算法，能解决简单场景下的车辆行为决策，比如高速公路上的车辆跟驰。但这种算法往往过于保守，侧重安全而牺牲了效率。并且考虑到实际交通环境的复杂性，比如交织区、无信号交叉口等，面对交通环境中诸多交通参与者，如何在保证安全的前提下实现提高效率的行为决策，成为进一步实现完全自动驾驶的症结所在。

近年来深度强化学习技术取得了极大的进步，深度强化学习不同于传统的监督学习或者非监督学习，以试错的方式与环境进行交互，获取最大的累积奖赏，是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域，智能交通、电商推荐系统等领域都取得了较广泛的应用。

在现有的强化学习方法中，SAC是一种基于最大熵强化学习框架的免模型方法。在最大熵强化学习框架下，无人车更加倾向于随机策略，探索效率得到很大的提高，因此SAC有效解决了以往强化学习算法采样效率低和对超参敏感等问题。然而基于SAC的无人车决策，在模型推理阶段，由于使用的随机性策略，导致无人车在相同的状态下每次决策都有可能不一样，这使得模型的鲁棒性变差。

发明内容

发明目的：为了解决基于SAC的无人车决策中模型不够稳定的问题，本发明提供一种基于最大熵强化学习框架的无人驾驶车道保持方法。本发明在SAC算法的基础上做了些改进，对于训练阶段，在目标状态值网络将近收敛时去掉优化目标中的熵项以减小探索，鼓励利用已经学到的策略；对于使用阶段，根据策略网络输出的动作概率分布，选择概率值最大的动作给无人车执行。本发明在利用SAC加快模型训练时间的同时，又能保证无人车在环境中具有可靠稳定的性能。

技术方案：一种基于最大熵强化学习框架的无人驾驶车道保持方法，搭建无人车环境模拟器，在训练初始阶段基于最大熵强化学习框架使用SAC算法训练无人车控制策略模型，在训练后期，去除目标状态值网络优化目标中的熵项以减小探索，鼓励利用已经学到的策略；在推理阶段，对于训练好的策略模型，基于贪心算法使用确定性的策略。具体地，包括以下步骤：

步骤1，创建无人车模拟环境，包含环境车、行人以及各类交通设施；定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长；设置无人车的起始点、目标点以及给定的规划路径；设置环境车行驶策略和行人的运动模型；设置无人车分别与环境车、行人和路障的碰撞条件等。

步骤2，初始化状态值函数网络V_ψ(s_t)、目标状态值函数网络

两个动作值函数网络

策略网络π_φ(a_t|s_t)以及重放缓冲池D。

步骤3，在无人车模拟环境中，获得无人车观测到的初始状态s₀；

步骤4，对于每个时间步，基于无人车当前观测到的状态s_t从策略网络π_φ(a_t|s_t)中采样获得动作a_t，无人车在环境中执行动作a_t，然后基于奖励机制获得奖励值r(s_t，a_t)，并获得无人车在环境中的当前状态s_t+1。

步骤5，将样本{(s_t，a_t，r(s_t，a_t)，s_t+1)}加入缓冲池D。

步骤6，重复步骤4到步骤5直到缓冲池D填满。

步骤7，从缓冲池D采样N个样本(即小批量样本)，基于梯度下降依次对状态值函数网络V_ψ(s_t)做如下更新：

其中，

λ_V是状态值函数网络的更新步长。

对两个动作值函数网络

做如下更新：

其中，

λ_Q是状态值函数网络的更新步长，γ是折扣系数，值越大表示短期回报的权重越大。

对策略网络

做如下更新：

其中，

其中f_φ(ε_t；s_t)输出均值和方差，ε_t是输入的噪声向量(从一个固定分布采样，比如球形高斯分布)，λ_π是策略网络的更新步长。

然后更新目标状态值函数网络

τ是目标状态值函数网络参数的更新步长，ψ是状态值函数网络V_ψ(s_t)的参数。

最后从缓冲区D中删除这N个样本。

步骤8，对于每个小批量样本，重复执行步骤7直到缓冲区为空或者剩余样本数不足N。

步骤9，重复执行步骤3到步骤8直到目标状态值函数网络

将近收敛(可用目标函数梯度值小于某个数值ε判定，如ε＝0.1)。

步骤10：去除公式(2)中的动作熵项，即梯度计算公式变为：

重复执行步骤3到步骤8直到达到最大迭代轮数或者目标状态值函数网络

完全收敛。

步骤11：使用训练好的策略网络π_φ(a_t|s_t)对无人车做决策。对于当前观测到的状态s_t，选取策略网络π_φ(a_t|s_t)输出值最大的那个动作a_t＝argmaxπ_φ(·|s_t)，对无人车执行动作a_t，与环境交互。

与现有技术相比，本发明具有的益处有：

1、本发明使用了深度强化学习算法对无人车进行决策，相比传统基于规则的决策方式更加智能和高效，泛化性更强。

2、本发明基于最大熵的强化学习框架，相比传统强化学习，极大加速了无人车决策模型的训练速度和收敛率。

3、本发明基于改进的SAC算法，能有效提高无人车决策模型鲁棒性和稳定性。

附图说明

图1为本发明的整体框架图；

图2为本发明的使用阶段框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明基于最大熵强化学习算法的思想，实现了在各类复杂多变路况下，对无人车进行自主车道保持，文后是整体训练算法伪代码。

首先，强化学习可以用一个马尔科夫决策过程(MDP)表述，它是由四元组<S，A，p，r>所定义。其中，S表示状态空间，A表示动作空间，p表示未知的状态转移概率：S×S×A→[0，1]，表示从当前状态和动作转移到下一个状态的概率，r表示在当前状态s_t下执行动作a_t收到的环境回报值。可以用ρ_π(s_t)和ρ_π(s_t，a_t)分别表示状态以及状态动作对在遵循策略π(a_t|s_t)下生成轨迹的分布。

下面对基于最大熵的强化学习做简单介绍。标准的强化学习最大化累积期望回报

而最大熵的强化学习在目标函数中增加了在策略ρ_π(s_t)下的期望熵这一项来激励agent对随机动作的采样，从而提高探索几率，这在复杂任务下往往很有效，它的通用公式为：

温度系数α决定了熵这一项相对_xeward的重要性。该目标函数相比标准的强化学习具有许多概念和实践优势。首先，它鼓励策略进行更广泛的探索，同时放弃显然毫无希望的途径。其次，该策略可以捕获接近最佳行为的多种模式。

基于上述知识点以及发明内容中的步骤，下面对本发明的具体实施细节做详细介绍。

如图1-2所示，基于最大熵强化学习框架的无人驾驶车道保持方法，包括如下步骤：

步骤一：搭建无人车模拟环境，包括环境车、行人以及交通设施。定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长；设置无人车的起始点、目标点以及给定的规划路径；设置环境车行驶策略和行人的运动模型；设置无人车分别与环境车、行人和路障的碰撞条件等。

步骤二：初始化状态值函数网络V_ψ(s_t)、目标状态值函数网络

两个动作值函数网络

策略网络π_φ(a_t|s_t)以及重放缓冲池D。网络结构可以设置为简单的MLP，激活函数采用Leaky ReLU，重放缓冲池的大小至少保证100条轨迹的样本数量，以保证值函数网络的稳定更新和收敛。

步骤三：在模拟器中，获得无人车观测到的初始状态s₀。在该步骤中，可以使用并行的方法加快采样效率，初始状态的选择应尽可能随机，从而可以对复杂任务的轨迹进行有效采样；

步骤四：对于每个时间步，基于无人车当前观测到的状态s_t从策略网络π_φ(a_t|s_t)中采样获得动作a_t，无人车在环境中执行动作a_t，然后基于奖励机制获得奖励值r(s_t，a_t)，并获得无人车在环境中的当前状态s_t+1。与DQN和DDPG不同是的，这里从策略网络π_φ(a_t|s_t)采样到的动作不是基于贪心算法，而是与生成动作的概率分布有关，概率越大的动作被采样到的可能性越大；

步骤五：将样本{(s_t，a_t，r(s_t，a_t)，s_t+1)}加入缓冲池D。需要注意的是，如果s_t+1是终止状态，表示当前的轨迹已经结束，无人车应该重新选择起始状态开始下一段轨迹；

步骤六：重复步骤四到步骤五直到缓冲池D填满；

步骤七：将缓冲区D中的样本随机打乱，然后从缓冲区D采样N个样本，基于梯度下降依次对状态值函数网络V_ψ(s_t)做如下更新：

其中，

的计算公式见公式(2)。

对两个动作值函数网络

做如下更新：

其中，

的计算公式见公式(4)。

对策略网络

做如下更新：

其中，

的计算公式见公式(6)。

然后更新目标状态值函数网络

最后从缓冲区D中删除这N个样本。

步骤八：对于每个小批量样本，重复执行步骤七直到缓冲区为空或者剩余样本数不足N；

步骤九：重复执行步骤三到步骤八直到目标状态值函数网络

步骤十：去除公式(2)中的动作熵项，即梯度计算公式变为：

重复执行步骤三到步骤八直到达到最大迭代轮数或者目标状态值函数网络

完全收敛。

步骤十一：使用训练好的策略网络π_φ(a_t|s_t)对无人车做决策。对于当前观测到的状态s_t，选取策略网络π_φ(a_t|s_t)输出值最大的那个动作a_t＝argmaxπ_φ(·|s_t)，对无人车执行动作a_t，与环境交互。

Claims

1.一种基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，包括以下步骤：

(1)创建无人车模拟环境；

(2)无人车与环境交互，收集样本数据并存储到缓冲池；

(3)使用随机策略从缓冲池中采样，对状态值函数网络、动作值函数网络以及策略网络进行更新；

(4)使用软更新的方法对目标状态值函数网络进行更新；

(5)重复执行步骤(2)到步骤(4)，直到策略网络将近收敛；

(6)将状态值网络优化目标中熵项系数置零，继续训练直到策略网络完全收敛；

(7)在使用阶段，对于训练好的策略模型，根据网络输出的动作概率分布，选择概率值最大的动作给无人车执行。

2.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，所述无人车模拟环境包含环境车、行人以及各类交通设施；创建无人车模拟环境包括定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长；设置无人车的起始点、目标点以及给定的规划路径；设置环境车行驶策略和行人的运动模型；设置无人车分别与环境车、行人和路障的碰撞条件。

3.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，所述步骤(2)中，收集样本数据并存储到缓冲池，包括：

(21)初始化状态值函数网络V_ψ(s_t)、目标状态值函数网络

两个动作值函数网络

策略网络π_φ(a_t|s_t)以及重放缓冲池D；

(22)在无人车模拟环境中，获得无人车观测到的初始状态s₀；

(23)对于每个时间步，基于无人车当前观测到的状态s_t从策略网络π_φ(a_t|s_t)中采样获得动作a_t，无人车在环境中执行动作a_t，然后基于奖励机制获得奖励值r(s_t，a_t)，并获得无人车在环境中的当前状态s_t+1；

(24)将样本{(s_t，a_t，r(s_t，a_t)，s_t+1)}加入缓冲池D；

(25)重复步骤(23)到步骤(24)直到缓冲池D填满。

4.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，更新状态值函数网络：从缓冲池D采样N个样本，基于梯度下降对状态值函数网络V_ψ(s_t)做如下更新：

其中，

λ_V是状态值函数网络的更新步长；

对两个动作值函数网络

做如下更新：

其中，

λ_Q是状态值函数网络的更新步长，γ是折扣系数，值越大表示短期回报的权重越大；

对策略网络

做如下更新：

其中，

其中f_φ(ε_t；s_t)输出均值和方差，ε_t是输入的噪声向量，λ_π是策略网络的更新步长；

对目标状态值函数网络

进行更新：

τ是目标状态值函数网络参数的更新步长。

5.根据权利要求4所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，更新完状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络以后，从缓冲区D中删除这N个样本；对于每个小批量样本，重复执行更新状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络直到缓冲区为空或者剩余样本数不足N。

6.根据权利要求5所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，重复执行步骤(2)到步骤(4)直到目标状态值函数网络

将近收敛，是否将近收敛用目标函数梯度值小于某个数值ε判定，ε＝0.1。

7.根据权利要求6所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，所述步骤(6)中去掉目标状态值网络

的优化目标的熵项，即梯度计算公式变为：

重复执行步骤(2)到步骤(4)直到达到最大迭代轮数或者目标状态值函数网络

完全收敛。

8.根据权利要求7所述的基于最大熵强化学习框架的无人驾驶车道保持方法，其特征在于，使用训练好的策略网络π_φ(a_t|s_t)对无人车做决策；对于当前观测到的状态s_t，选取策略网络π_φ(a_t|s_t)输出值最大的那个动作a_t＝argmaxπ_φ(·|s_t)，对无人车执行动作a_t，与环境交互。