CN115542915B

CN115542915B - 一种基于近似安全动作的自动驾驶强化学习方法

Info

Publication number: CN115542915B
Application number: CN202211222692.5A
Authority: CN
Inventors: 王雪松; 张佳志; 程玉虎; 赵忠祥
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-10-31
Anticipated expiration: 2042-10-08
Also published as: CN115542915A

Abstract

本发明公开了一种基于近似安全动作的自动驾驶强化学习方法，首先，鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；然后，智能车执行近似安全动作，收集经验样本并存入经验池；最后，利用精确惩罚优化方法对策略进行优化，使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

Description

一种基于近似安全动作的自动驾驶强化学习方法

技术领域

本发明涉及一种约束强化学习方法，具体涉及一种自动驾驶强化学习方法。

背景技术

强化学习通过试错的方法可以有效解决序列决策问题，已经在国际象棋、智能推荐和雅塔丽游戏上展示出了超人类的表现。然而，安全性限制了标准强化学习在现实世界中的应用，例如：在自动驾驶中，如果不考虑安全性，那么智能车为了尽可能快地到达终点，有可能会采取危险动作对周围的人或其它车辆造成损害。尽管可以通过巧妙地设计奖励函数来避免这种损害，但这种方法依赖于复杂的人为设计，并且不具备普适性，难以扩展。

约束强化学习将安全性作为一种条件约束，并在一个可行域内优化策略，已成为安全强化学习的一种主要形式。约束马尔可夫决策过程(CMDP)作为约束强化学习的一个标准框架，它将代价函数与奖励函数独立开，避免了单个奖励函数中的安全性设计问题。拉格朗日方法是解决CMDP最流行的方法，它通过原对偶优化同时更新策略和拉格朗日乘子，使得策略在最大化长期奖励的同时考虑安全性约束。但这种方法的性能依赖于对初始拉格朗日乘子和对偶梯度更新过程中学习率的选择，通常难以选择到一组合适的超参数。内点策略优化(IPO)和精确惩罚优化(EPO)在此基础上对这种方法进行了改进，通过引入对数障碍函数和线性整流函数作为惩罚项，仅需调节一个超参数即可以有效求解约束优化问题。然而，这些方法只能保证策略在收敛后满足安全性约束，并不能保证策略在训练过程中的安全性。自动驾驶对于安全性极为敏感，即使是在训练过程中，一旦智能车采取危险动作即可能带来灾难性的后果，因此这类方法并不适用于自动驾驶。

自动驾驶中，除了需要满足策略在部署时的安全性，还需要满足策略在训练过程中的安全性，这个问题被定义为安全探索。现有的安全探索方法需要知道部分先验知识，这些先验知识可能是离线数据也可能是某些模型信息。借助于这些先验知识，安全探索方法可以在训练过程中实现很少的约束违反，甚至实现零约束违反。例如，一些基于模型的安全探索方法通过李雅普诺夫函数或控制障碍函数来引导策略在一个安全集中进行优化，进而实现安全探索。基于安全Q函数的强化学习方法(SQRL)则通过离线数据预训练一个安全评论家，利用安全评论家来拒绝执行不安全的动作。恢复强化学习方法(ReRL)通过离线数据预训练得到一个安全的回退策略，在当前策略输出不安全动作时，通过执行回退策略来保证安全性。SQRL和ReRL需要依赖于一个准确的安全评论家，并且在策略部署时也需要安全评论家的介入来保证安全性。基于优势干预的强化学习方法(SAILR)通过构造新马尔可夫决策过程(MDP)的方式，可以在无干预介入的情况下保证策略部署时的安全性，但在训练过程中它仍然需要一个先验的安全策略。注意到，当先验知识不再可用时，这些方法往往表现出很差的效果。在实际的自动驾驶中，通常难以获取这样的先验知识，因此这类方法的应用场景存在一定的限制。

另一方面，自动驾驶中收集经验样本具有较高的风险性。因此，安全强化学习除了实现安全探索外，还需要提高样本利用率。约束策略优化(CPO)在信任域策略优化(TRPO)的基础上考虑了安全性，通过约束优化方法使得策略在每一步更新过程中都稳定地满足安全性约束。基于投影的约束策略优化(PCPO)将策略改进和约束满足分为两个步骤：首先通过TRPO改进策略，然后将其投影回一个可行的安全约束集。策略空间中的一阶约束优化(FOCOP)通过最小化与最优策略间KL散度的方式更新当前策略，实现起来较为简单。然而，由于上述基于CPO的方法均是同策略方法，因此样本利用率低，并不适用于难以收集经验样本的自动驾驶。

发明内容

发明目的：针对上述现有技术，提出一种基于近似安全动作的自动驾驶强化学习方法，属于不需要先验知识的异策略安全强化学习方法，可以同时保证策略在部署时和训练过程中的安全性。

技术方案：一种基于近似安全动作的自动驾驶强化学习方法，首先，在智能车采用当前策略探索过程中，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；其次，智能车执行近似安全动作，并收集经验样本存入经验池；然后，根据经验池中的经验样本，利用精确惩罚优化方法对当前策略进行优化，得到优化后的策略；最后，将优化后的策略作为当前策略；

所述方法包括如下具体步骤：

步骤1：建立策略网络、价值网络和安全指示器，并初始化网络参数；

步骤2：建立目标网络，并初始化网络参数；

步骤3：用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作；

步骤4：智能车执行近似安全动作，收集经验样本；

步骤5：更新价值网络参数；

步骤6：更新安全指示器参数；

步骤7：更新策略网络参数；

步骤8：更新目标网络参数；

步骤9：重复步骤3至步骤8直到获得最优策略。

进一步的，所述步骤1中，建立策略网络π_θ，建立安全指示器C_ω，建立2个相互独立的价值网络Q_v1和Q_v2，其中：θ、ω和v₁、v₂分别表示策略网络、安全指示器和2个价值网络的参数；所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构，其中：策略网络的输入维度为状态维度，输出维度为动作维度；价值网络和安全指示器的输入维度为状态维度和动作维度的和，输出维度为1；网络参数的初始化方式为随机初始化。

进一步的，所述步骤2中，分别建立策略网络、安全指示器和两个价值网络对应的目标网络和/>其中：/>和/>分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数；目标网络结构与所对应的原网络结构一致，目标网络的参数的初始化方法为：将所对应的原网络的参数(ν₁,ν₂,ω,θ)直接赋值给目标网络的参数/>

进一步的，所述步骤3中，首先策略网络根据当前状态s输出当前动作π_θ(s)，然后安全指示器对π_θ(s)进行安全修正得到近似安全动作，具体修正方式如下：

首先，计算

然后，计算a＝π_θ(s)-α·λ^*g_ω(s)；

其中，λ^*表示拉格朗日最优乘子，(·)⁺表示线性整流操作，δ表示安全阈值，表示安全指示器C_ω在a'处的导数，a表示安全修正后得到的近似安全动作，a'表示求导处的动作，α表示安全修正系数，▽_a'表示在a'处进行求导。

进一步的，所述步骤4中，首先，智能车在当前状态s下执行近似安全动作a之后，根据状态转移概率进入到下一状态s'，并获得奖励r和代价c；然后，将经验样本{s,a,r,c,s'}存入经验池/>最后，将s'作为新的当前状态s。

进一步的，所述步骤5中，利用经验池中的经验样本对两个价值网络的参数v₁和v₂进行更新，更新方法为通过梯度下降最小化如下的损失函数：

其中，表示期望符号，Q^target表示价值网络更新过程中的时序差分目标，，γ表示折扣因子，/>表示更新价值网络的参数时采样的下一动作，ε表示采样噪声，/>表示均值为0、方差为σ的正态分布，clip表示裁剪操作，ζ表示裁剪的范围；

利用梯度下降法对参数v₁和v₂进行更新，参数v₁和v₂的调整量为：

其中，η_r表示参数v₁和v₂的学习率，表示对参数v₁进行求导，/>表示对参数v₂进行求导。

进一步的，所述步骤6中，利用经验池中的经验样本对安全指示器的参数ω进行更新，更新方法为通过梯度下降最小化如下的损失函数：

其中，表示安全指示器对应的目标网络在/>处的输出，/>是策略网络对应的目标网络在s'处的输出，C_ω(s,a)表示安全指示器在(s,a)的输出；

参数ω的调整量为：

Δω＝-η_c▽_ωJ_c(ω)

其中，η_c表示参数ω的学习率，▽_ω表示对参数ω进行求导。

进一步的，所述步骤7中，用经验池中的经验样本对策略网络参数θ进行更新，更新方法为精确惩罚优化，目标函数如下：

其中，Q_ν(s,π_θ(s))可以表示或/>处的输出，κ表示精确惩罚系数；

精确惩罚优化过程中，参数θ的调整量为：

Δθ＝η_π▽_θJ_π(θ)

其中，η_π表示参数θ的学习率，▽_θ表示对策略网络的参数θ进行求导。

进一步的，所述步骤8中，更新目标网络的参数时采用如下的更新方式：

首先，分别计算：和/>

然后，将上述计算的结果分别赋值给：和/>

其中，表示目标网络更新率。

进一步的，所述步骤9中，重复步骤3至步骤8，不断更新各网络以及安全指示器的参数，并将最终更新得到的策略网络作为最优策略用于智能车的部署。

有益效果：本发明针对自动驾驶中的安全探索问题，提出一种基于近似安全动作的自动驾驶强化学习方法。本发明的主要优势：(1)这是一个异策略无模型且不需要任何先验知识的安全强化学习方法。(2)该方法可以同时保证策略在训练过程中和部署时的安全性。(3)该方法提供了一个可调节的安全修正系数，可用于做出探索性与安全性之间的权衡。(4)该方法在自动驾驶中，在保证安全探索的同时，能实现较少的约束违反以及较高的成功率。

附图说明

图1为基于近似安全动作的自动驾驶强化学习方法的结构图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

一种基于近似安全动作的自动驾驶强化学习方法，首先，在智能车采用当前策略探索过程中，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；其次，智能车执行近似安全动作，并收集经验样本存入经验池；然后，根据经验池中的经验样本，利用精确惩罚优化方法对当前策略进行优化，得到优化后的策略；最后，将优化后的策略作为当前策略。

包括如下具体步骤：

步骤1，建立策略网络、价值网络和安全指示器，并初始化网络参数。

建立策略网络π_θ，建立2个价值网络和/>和/>分别表示价值网络1和价值网络2，它们相互独立，建立安全指示器C_ω，其中：θ、v₁、v₂和ω分别表示策略网络、价值网络1、价值网络2和安全指示器的参数；所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构，其中：策略网络的输入维度为状态维度，输出维度为动作维度；价值网络和安全指示器的输入维度为状态维度和动作维度的和，输出维度为1；网络参数的初始化方式为随机初始化。

步骤2，建立目标网络，并初始化网络参数。

分别建立策略网络、价值网络1、价值网络2和安全指示器对应的目标网络和/>其中：/>和/>分别表示策略网络、价值网络1、价值网络2和安全指示器对应的目标网络的参数；目标网络结构与所对应的原网络结构一致，目标网络的参数的初始化方法为：将所对应的原网络的参数(ν₁,ν₂,ω,θ)直接赋值给目标网络的参数

步骤3，用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作。

首先策略网络根据当前状态s输出当前动作π_θ(s)，然后安全指示器对π_θ(s)进行安全修正得到近似安全动作，具体修正方式如下：

首先，计算

然后，计算a＝π_θ(s)-α·λ^*g_ω(s)；

步骤4，智能车执行近似安全动作，收集经验样本。

首先，智能车在当前状态s下执行近似安全动作a之后，根据状态转移概率进入到下一状态s'，并获得奖励r和代价c；然后，将经验样本{s,a,r,c,s'}存入经验池/>最后，将s'作为新的当前状态s。

步骤5，更新价值网络参数。

利用经验池中的经验样本对价值网络的参数v₁和v₂进行更新，具体更新方法：首先，从经验池中随机采样256个经验样本作为小批次/>然后，通过梯度下降最小化如下的损失函数：

其中，表示小批次中的经验样本数，这里/>

其中，η_r表示该梯度下降过程中的学习率，这里η_r＝0.0003，表示对价值网络1的参数v₁进行求导，/>表示对价值网络2的参数v₂进行求导。

步骤6，更新安全指示器参数。

利用经验池中的经验样本对安全指示器的参数ω进行更新，更新方法为通过梯度下降最小化如下的损失函数：

参数ω的调整量为：

Δω＝-η_c▽_ωJ_c(ω)

其中，η_c表示参数ω的学习率，这里η_c＝0.0003，▽_ω表示对参数ω进行求导。

步骤7，更新策略网络参数。

用经验池中的经验样本对策略网络参数θ进行更新，更新方法为精确惩罚优化，目标函数如下：

其中，κ表示精确惩罚系数，这里κ＝0.5；

精确惩罚优化过程中的参数更新量为：

Δθ＝η_π▽_θJ_π(θ)

其中，η_π表示参数θ的学习率，这里η_π＝0.0003，▽_θ表示对策略网络的参数θ进行求导。

步骤8，更新目标网络参数。

首先，分别计算：和/>

然后，将上述计算的结果分别赋值给：和/>

其中，表示目标网络更新率，这里/>

步骤9：重复步骤3至步骤8，不断更新各网络以及安全指示器的参数，跟新次数不少于1×10⁶次，并将最终更新得到的策略网络作为最优策略用于智能车的部署。

本发明方法属于一种不需要先验知识的异策略安全强化学习方法，该方法可以同时保证策略在部署时和训练过程中的安全性。具体的，鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；然后，智能车执行近似安全动作，收集经验样本并存入经验池；最后，利用精确惩罚优化方法对策略进行优化，使得优化后的策略可以保证部署时的安全性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于近似安全动作的自动驾驶强化学习方法，其特征在于：首先，在智能车采用当前策略探索过程中，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；其次，智能车执行近似安全动作，并收集经验样本存入经验池；然后，根据经验池中的经验样本，利用精确惩罚优化方法对当前策略进行优化，得到优化后的策略；最后，将优化后的策略作为当前策略；

所述方法包括如下具体步骤：

步骤2：建立目标网络，并初始化网络参数；

步骤4：智能车执行近似安全动作，收集经验样本；

步骤5：更新价值网络参数；

步骤6：更新安全指示器参数；

步骤7：更新策略网络参数；

步骤8：更新目标网络参数；

步骤9：重复步骤3至步骤8直到获得最优策略；

所述步骤1中，建立策略网络π_θ，建立安全指示器C_ω，建立2个相互独立的价值网络Q_v1和Q_v2，其中：θ、ω和v₁、v₂分别表示策略网络、安全指示器和2个价值网络的参数；所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构，其中：策略网络的输入维度为状态维度，输出维度为动作维度；价值网络和安全指示器的输入维度为状态维度和动作维度的和，输出维度为1；网络参数的初始化方式为随机初始化；

所述步骤2中，分别建立策略网络、安全指示器和两个价值网络对应的目标网络C_ω和/>其中：/>和/>分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数；目标网络结构与所对应的原网络结构一致，目标网络的参数的初始化方法为：将所对应的原网络的参数(ν₁,ν₂,ω,θ)直接赋值给目标网络的参数/>

所述步骤3中，首先策略网络根据当前状态s输出当前动作π_θ(s)，然后安全指示器对π_θ(s)进行安全修正得到近似安全动作，具体修正方式如下：

首先，计算

然后，计算a＝π_θ(s)-α·λ^*g_ω(s)；

其中，λ^*表示拉格朗日最优乘子，(·)⁺表示线性整流操作，δ表示安全阈值，表示安全指示器C_ω在a'处的导数，a表示安全修正后得到的近似安全动作，a'表示求导处的动作，α表示安全修正系数，/>表示在a'处进行求导；

所述步骤4中，首先，智能车在当前状态s下执行近似安全动作a之后，根据状态转移概率进入到下一状态s'，并获得奖励r和代价c；然后，将经验样本{s,a,r,c,s'}存入经验池/>最后，将s'作为新的当前状态s；

所述步骤5中，利用经验池中的经验样本对两个价值网络的参数v₁和v₂进行更新，更新方法为通过梯度下降最小化如下的损失函数：

其中，表示期望符号，Q^target表示价值网络更新过程中的时序差分目标，γ表示折扣因子，/>表示更新价值网络的参数时采样的下一动作，ε表示采样噪声，/>表示均值为0、方差为σ的正态分布，clip表示裁剪操作，ζ表示裁剪的范围；

其中，η_r表示参数v₁和v₂的学习率，表示对参数v₁进行求导，/>表示对参数v₂进行求导；

所述步骤6中，利用经验池中的经验样本对安全指示器的参数ω进行更新，更新方法为通过梯度下降最小化如下的损失函数：

参数ω的调整量为：

其中，η_c表示参数ω的学习率，表示对参数ω进行求导；

所述步骤7中，用经验池中的经验样本对策略网络参数θ进行更新，更新方法为精确惩罚优化，目标函数如下：

其中，Q_ν(s,π_θ(s))可以表示Q_ν1(s,π_θ(s))或Q_ν2(s,π_θ(s))处的输出，κ表示精确惩罚系数；

精确惩罚优化过程中，参数θ的调整量为：

其中，η_π表示参数θ的学习率，表示对策略网络的参数θ进行求导；

所述步骤8中，更新目标网络的参数时采用如下的更新方式：

首先，分别计算：

然后，将上述计算的结果分别赋值给：和/>

其中，表示目标网络更新率。

2.根据权利要求1所述一种基于近似安全动作的自动驾驶强化学习方法，其特征在于：所述步骤9中，重复步骤3至步骤8，不断更新各网络以及安全指示器的参数，并将最终更新得到的策略网络作为最优策略用于智能车的部署。