CN116476825B

CN116476825B - 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Info

Publication number: CN116476825B
Application number: CN202310565136.6A
Authority: CN
Inventors: 程一帆; 褚洪庆; 高炳钊; 洪金龙; 汪衡; 陈虹
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2024-02-27
Anticipated expiration: 2043-05-19
Also published as: CN116476825A

Abstract

本发明涉及一种基于安全可信强化学习的自动驾驶车道保持控制方法，应用了基于表演者‑评论家的强化学习(Reinforcement Learning,RL)算法和模型预测控制(Model Predictive Control,MPC)方法。考虑到自动驾驶决策控制系统对自主车辆运动规划的安全性和高性能的迫切需求，以及强化学习等学习型控制方法无法时刻保障安全动作的制约，训练了基于SAC算法的智能体，以实现车道保持场景下车辆的高性能连续运动，并减少动作幅度和避免在外侧车道上行驶，最终实现学习算法的收敛。同时，为确保作出安全可信的动作，建立了有关车道保持的安全约束，结合定义在预测时域的安全过滤器实现了安全动作的保障。与现有技术相比，本发明具有安全可信性强、可行性高等优点。

Description

一种基于安全可信强化学习的自动驾驶车道保持控制方法

技术领域

本发明涉及自动驾驶技术和人工智能领域，尤其是涉及一种基于安全可信强化学习的自动驾驶车道保持控制方法。

背景技术

随着自动驾驶技术的深入研究，车道保持系统可评估决策和运动规划的能力和性能，以提供更安全的出行方式，该系统在所需动作平稳的情况下，通常仍需通过驾驶员警告和主动干预来提高安全性。在此过程中，需要控制系统做出关键决策并采取相应的动作，以同时响应安全性、驾乘舒适性等多目标。解决该问题的难点在于：需要在考虑各类因素(如本车和周车的状态，交通流量等)的情况下，生成安全合理的操作。

目前针对车道保持系统的优化方法有两种：1)基于模型的优化方法。其根据动态模型、目标函数和优化求解方法来生成决策动作，例如动态规划、MPC、线性二次调节器等。然而，这些方法依赖于设计复杂交互场景的模型，优化难度很大。2)基于数据的优化方法，一般是利用深度强化学习算法在与环境交互方面的优势，来辅助车道保持系统，但是随机动作探索后得出的动作往往无法保证满足安全要求，这阻碍了其在自动驾驶等安全关键系统中的大规模应用。

发明内容

本发明的目的是为了提供一种基于安全可信强化学习的自动驾驶车道保持控制方法，提高自动驾驶车辆行驶的安全性。

本发明的目的可以通过以下技术方案来实现：

一种基于安全可信强化学习的自动驾驶车道保持控制方法，包括以下步骤：

S1、获取道路轨迹和车辆运行状态数据；

S2、构建基于SAC(Soft Actor Critic)算法的车道保持强化学习模型，以道路轨迹和车辆运行状态数据作为输入，在奖励函数中引导智能体完成解决车道保持任务，训练智能体，得到使得奖励函数收敛的策略神经网络，输出动作，并作为安全过滤器的参考输入；

S3、构建基于模型预测控制的安全过滤器，结合数据驱动和模型驱动的优化方法，建立基于动作和安全约束的优化问题并进行求解，生成经过安全过滤后的车道保持动作；

S4、建立车辆运动学模型，以安全过滤器的输出作为车辆运动学模型的安全控制输入，同时，根据车辆运动学模型的输出更新车辆运动状态并返回步骤S2，持续更新安全控制输入，实现车道保持控制。

进一步的，所述SAC算法的目标是最大化累积的预期累积奖励，同时，鼓励策略选择更加随机。

进一步的，所述SAC算法的训练目标中包括动作熵项，目标函数为：

其中，r(s_t，a_t)是通过在状态s_t中采取行动a_t而获得的奖励，α是控制熵项的相对重要性的加权因子，X被假设为随机策略，其概率密度函数是p，H(X)是策略分布的熵，π表示控制策略。

进一步的，所述SAC算法的状态值函数和动作值函数为：

V_soft(s_t)＝E_π[Q_soft(s_t，a_t)-αlogπ(a_t|s_t)]

其中，γ是折扣因子，E表示期望。

进一步的，根据SAC算法的状态值函数和动作值函数，Soft策略评估最终收敛到Soft策略函数，通过智能体在Soft策略评估和Soft策略提升之间迭代地交替，使得策略收敛到满足SAC训练目标的最优策略。

进一步的，所述车道保持强化学习模型包括表示价值函数的两个Q_soft神经网络和两个与之对应的目标Q_soft神经网络，其对应参数分别为ω₁和ω₂，Q_soft神经网络的第一层具有4个单元，第二层具有256个隐藏单元，第三层的输出作为状态-动作的评估值；还包括表示策略函数的π_θ神经网络，参数为θ，其第一层具有3个单元，第二层有256个隐藏单元，第三层输出动作分布的均值和标准差。

进一步的，所述车道保持强化学习模型中，状态-动作价值网络的损失函数为：

其中，r_t是策略在过去收集的奖励，Q_w、V_w表示目标Q_soft神经网络的状态值函数和动作值函数。

进一步的，所述车道保持强化学习模型中，策略网络的损失函数通过重新参数化连续动作空间中SAC算法的高斯分布均值和标准差得到：

其中，ε_i～N是噪声随机变量，f_θ(ε_t；s_t)表示从高斯分布采样的动作。

进一步的，所述安全过滤器中优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u_0|k和SAC算法输入u_RL(k)之间的差值，通过对车道保持问题的分析，将安全任务定义为在内侧车道上行驶，即如果车辆驶离内侧车道并朝向外侧车道移动，则可能存在危险风险，将优化问题表示为：

|d|≤d_max

其中，x₁＝X、x₂＝Y、x₃＝ψ是状态信号，分别表示X轴上的状态位置、Y轴上的位置和偏航角；u_0|k＝δ是控制信号，表示转向角；质心侧偏角β与控制信号之间的关系由车辆运动学模型确定；u_RL是已训练好的强化学习模型中策略网络输出的动作；V为车辆的速度；l_f、l_r分别表示车辆重心与前、后轴的距离；安全条件设置为：|d|≤d_max，d为车辆距内侧车道中心线的距离，d_max是预设的使车辆保持在内侧车道上的最大值。

进一步的，所述车辆运动学模型使用简化的自行车运动学模型构建：

其中，车辆重心在绝对坐标系中的位置由X和Y表示，l_f和l_r表示车辆重心分别到前、后轴的距离，V为车辆速度，解耦成纵向分量和横向分量表示为V_x和V_y，表示车辆在其惯性坐标系下的速度，ψ为车辆的横摆角；

则车辆运动学模型的五个状态变量分别是X、Y、V_x、V_y、ψ，两个控制输入变量是油门开度α和方向盘转向角δ，β表示车辆质心处的侧偏角，其与方向盘转向角δ的关系为：

自动驾驶车辆的车道保持重点主要在于车辆的横向运动，以使其能够跟踪车道中心线，因此，假设车辆的速度V保持恒定，车辆的动力学模型被简化为：

其中，状态变量是X、Y、ψ，控制输入变量是δ。

与现有技术相比，本发明具有以下有益效果：

本发明在自动驾驶车道保持控制系统中采用安全可信强化学习训练智能体连续动作，并引入预测过滤器进行安全验证，提高了控制系统动作的安全性，确保了数据驱动方法在自动驾驶领域应用的安全可信性。其中，安全可信强化学习方法是基于SAC算法和车道保持任务的奖励函数进行训练的，改善了车辆在连续动作下的整体性能；安全过滤框架是基于预测过滤方法求解带安全约束的优化问题，有效保证了车道保持任务中的安全性。

附图说明

图1为本发明的方法流程示意图；

图2为一种实施例中的车辆的简化运动学模型；

图3为一种实施例中的车道保持场景赛道环境图；

图4为一种实施例中连续动作空间下训练得的奖励曲线和平滑奖励曲线；

图5为一种实施例中强化学习和本发明方法的轨迹仿真结果；

图6为一种实施例中实例中控制信号的对比图；

图7为一种实施例中实例中安全约束的对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

为了确保自动驾驶车道保持控制系统可作出安全可信的动作，解决强化学习动作通过随机探索而得故无法保证安全的问题，本发明提出一种安全可信强化学习的自动驾驶车道保持控制方法，主要包括基于Soft Actor Critic(SAC)算法的车道保持智能体和基于模型预测控制的安全过滤框架。基于SAC算法的车道保持智能体通过在奖励函数中引导智能体完成解决车道保持任务，最终获得使奖励收敛的策略神经网络，并改善车辆在连续动作下的整体性能。基于模型预测控制的安全过滤框架结合了数据驱动和模型驱动的优化方法，通过带安全约束的优化问题求解，有效地保证了车道保持任务中的安全性。最终，简化了车辆动力学模型并在赛道仿真环境下验证，其仿真结果中包括运行轨迹、控制信号和是否违反安全约束的行为，验证了该安全可信控制框架在自动驾驶车辆车道保持过程中的有效性。

具体的，本实施例提供一种基于安全可信强化学习的自动驾驶车道保持控制方法，如图1所示，其控制过程可以描述为：利用已训练收敛的RL策略(本实施例训练的是策略神经网络)，生成动作u_k ^RL作为安全可信控制框架的参考。安全可信控制框架中的预测安全过滤器被优化以减少基于学习的动作信号的误差，同时还将考虑来自车辆动力学模型的状态x_k和安全约束g(x_k，u_k)。具体包括以下步骤：

S1、获取道路轨迹和车辆运行状态数据。

S2、构建基于SAC算法的车道保持强化学习模型，以道路轨迹和车辆运行状态数据作为输入，在奖励函数中引导智能体完成解决车道保持任务，训练智能体，得到使得奖励函数收敛的策略神经网络，输出动作，并作为安全过滤器的参考输入。

马尔可夫决策过程是强化学习中用于描述环境的常用框架，它由五元组组成，包括当前状态S_t、动作A_t、奖励R_t、状态转换和下一状态S_t+1，智能体通过与环境的交互来积累经验数据。在当前状态S_t中，智能体根据其策略π执行动作A_t，并且状态从S_t转换到S_t+1，其中奖励R_t向智能体提供反馈。基于经验数据，智能体优化其策略，以得到最大化的累积奖励。

在滚动时域控制框架下，智能体采用当前优化动作序列的第一项作为控制信号，环境发生状态转移，从而形成闭环控制。

Soft Actor Critic算法属于最大熵RL，其目的是最大化累积的预期累积奖励，同时还鼓励策略更加随机。为了实现这一点，动作熵项被添加到训练目标中，这鼓励智能体探索在当前状态下选择不太频繁被选择到的动作，因此Soft Actor Critic算法的目标函数可以改写如下：

根据Soft贝尔曼方程，最大熵RL的状态值函数和动作值函数如下：

V_soft(s_t)＝E_π[Q_soft(s_t，a_t)-αlogπ(a_t|s_t)] (4)

其中，γ是折扣因子，E表示期望。

根据等式(3)(4)，Soft策略评估最终可以收敛到Soft策略函数。因此，通过智能体在Soft策略评估和Soft策略提升之间迭代地交替，策略可收敛到满足最大熵RL目标的最优策略。

为了实现SoftActor Critic算法，利用表示价值函数的两个Q_soft神经网络和两个目标Q_soft神经网络(其参数为ω₁和ω₂)，其第一层具有4个单元，第二层中具有256个隐藏单元，第三层中输出作为状态-动作的评估值。此外，还包括表示策略函数的π_θ神经网络，参数为θ，其第一层有3个单元，第二层有256个隐藏单元，第三层输出动作分布的均值和标准差。对于状态-动作价值网络的损失函数定义如下：

其中，r_t是策略在过去收集的奖励，Q_w、V_w表示目标Q_soft神经网络的状态值函数和动作值函数。为了提高训练稳定性，使用两个目标网络Q_ω-神经网络，与两个Q神经网络相对应。

对于策略网络的损失函数，需要重新参数化连续动作空间中Soft Actor Critic算法的高斯分布均值和标准差。考虑高斯分布的一般形式，重写策略网络的损失函数如下：

S3、构建基于模型预测控制的安全过滤器，结合数据驱动和模型驱动的优化方法，建立基于动作和安全约束的优化问题并进行求解，生成经过安全过滤后的车道保持动作。

本实施例设计了模型预测安全过滤器来解决采用RL策略安全可信性不足的问题。

该优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u_0|k和SAC算法输入u_RL(k)之间的差值，通过对车道保持问题的分析，可将安全任务定义为在内侧车道上行驶，即如果车辆驶离内侧车道并朝向外侧车道移动，则可能存在危险风险，将优化问题表示为：

车道保持系统中安全可信控制框架(该框架的算法如表1所示)的实施过程为：在每次运行开始时初始化环境和本车状态，在优化的每个步骤中，RL策略通过将当前状态馈送到经过良好训练的策略神经网络以生成动作。随后，RL动作和安全约束被输入到优化求解器中，生成经过安全过滤后的车道保持动作。最后，将来自过滤器的安全控制信号应用于环境以更新本车状态。

具体的，如表1所示，首先初始化算法的最大迭代轮数，并将训练好的SAC策略神经网络和安全约束作为输入，然后在赛道的动态环境下初始化并获得车辆的初始状态，对于每个环境步，进行以下环节：从训练好的SAC策略神经网络中采样输出RL动作，将RL动作和安全约束作为求解器的输入，利用求解器进行数值求解，安全过滤器将输出安全的MPC动作，车辆执行安全的MPC动作，并在动态环境中转移到下一个状态，循环上述环节。

表1

另外，值得注意的是，优化问题中的控制命令u_RL是连续值信号，并且每0.1秒更新一次，而在每个时间步长计算命令所需的RL中的计算时间大约为0.001秒，优化问题的预测范围为2秒，最大迭代限制为1000，可接受的偏差为0.01。

如图2所示，使用简化的自行车运动学模型，其足以清楚地描述学习控制框架所需的运动学机理及安全指标表达，该模型可以表示为：

其中，车辆重心在绝对坐标系中的位置由X和Y表示，l_f和l_r表示车辆重心分别到前、后轴的距离，V为车辆速度，解耦成纵向分量和横向分量表示为V_x和V_y，表示车辆在其惯性坐标系下的速度，ψ为车辆的横摆角。

由于自动驾驶车辆的车道保持系统重点主要在于车辆的横向运动，以使其能够跟踪车道中心线，因此，假设车辆的速度保持恒定，车辆的动力学模型可以简化如下：

其中，车辆V的速度是恒定的，状态变量是X、Y、ψ，控制输入变量是δ。

如图3所示，本实施例提供了一个在双赛道场景中车道保持的案例，并在安全可信控制框架的基础上定义了车辆的安全运动域。

在Soft Actor Critic算法的训练过程中，车道保持赛道环境被定义为一个由弯道和直道组成的闭环赛道，当时间步数达到200步或本车驶离道路时，一次训练循环结束。在每一次训练循环的开始，本车的初始位置将会随机分配，用于训练的奖励函数考虑了轨迹跟随、动作幅度减少和避免在外部道路上驾驶，其公式如下：

其中，d是距内部轨道的中心线的距离，u_RL是动作，N_offroad表示车辆驶离道路，a、b、c分别是三项的加权因子。

Soft Actor Critic策略在50000个训练步骤之后实现收敛，其在收敛阶段期间奖励的波动主要是由于驾驶场景的不确定性，算法在连续动作空间下训练得的奖励曲线和平滑奖励曲线如图4所示。

在仿真验证过程中，进行了100次单圈测试，即使RL智能体在训练期间已经收敛，但仍有3次因车辆驶离道路而导致的测试失败，8次因在外侧赛道行驶导致违反安全约束，这是由于智能体动作采样是基于分布采样而导致的。而安全可信控制框架在优化过程中考虑了安全约束，将永远不会导致驶离道路或在外侧赛道行驶，实现了100％的安全率。示例轨迹在图5中示出，其中点虚线表示单纯RL轨迹，划线虚线表示安全可信控制框架轨迹。可以看出，两个控制器都准确且平滑地操纵车辆。然而，在时间步50、75、100处，RL智能体在外车道上驾驶，违反了安全约束，而安全可信控制器仍然遵守安全约束。

图6和图7展示了在上述同一测试中使用两种控制器的控制信号和安全约束，其中控制信号-转向角曲线如图6所示，距内侧车道中心线的距离如图7所示。值得注意的是，安全可信控制框架能生成更平滑的控制信号，并且当违反安全约束时(在时间步50、75和100)，能相应地调整控制信号。总体来说，在安全可信控制框架下到内测赛道中心线的距离总是在安全约束范围内(安全约束由虚线展示)，而单纯RL控制器可能超过安全约束。因此，上述轨迹、控制信号和安全约束的结果曲线可以证明此安全可信控制框架的有效性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，包括以下步骤：

S1、获取道路轨迹和车辆运行状态数据；

S2、构建基于SAC算法的车道保持强化学习模型，以道路轨迹和车辆运行状态数据作为输入，在奖励函数中引导智能体完成解决车道保持任务，训练智能体，得到使得奖励函数收敛的策略神经网络，输出动作，并作为安全过滤器的参考输入；

S3、构建基于模型预测控制的安全过滤器，结合数据驱动和模型驱动的优化方法，建立基于动作和安全约束的优化问题并进行求解，生成经过过滤后的车道保持安全动作；

S4、建立车辆运动学模型，以安全过滤器的输出作为车辆运动学模型的安全控制输入，同时，根据车辆运动学模型的输出更新车辆运动状态并返回步骤S2，持续更新安全控制输入，实现车道保持控制；

所述安全过滤器中优化问题的目标函数旨在最小化作为预测时域N中第一元素的输入序列u0_|k和SAC算法输入uRL(k)之间的差值，通过对车道保持问题的分析，将安全任务定义为在内侧车道上行驶，即如果车辆驶离内侧车道并朝向外侧车道移动，则可能存在危险风险，将优化问题表示为：

|d|≤d_max

2.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述SAC算法的目标是最大化累积的预期累积奖励，同时，鼓励策略选择更加随机。

3.根据权利要求2所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述SAC算法的训练目标中包括动作熵项，目标函数为：

4.根据权利要求3所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述SAC算法的状态值函数和动作值函数为：

V_soft(s_t)＝E_π[Q_soft(s_t,a_t)-αlogπ(a_t，s_t)]

其中，γ是折扣因子，E表示期望。

5.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，根据SAC算法的状态值函数和动作值函数，Soft策略评估最终收敛到Soft策略函数，通过智能体在Soft策略评估和Soft策略提升之间迭代地交替，使得策略收敛到满足SAC训练目标的最优策略。

6.根据权利要求4所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述车道保持强化学习模型包括表示价值函数的两个Q_soft神经网络和两个与之对应的目标Q_soft神经网络，其对应参数分别为ω₁和ω₂，Q_soft神经网络的第一层具有4个单元，第二层具有256个隐藏单元，第三层的输出作为状态-动作的评估值；还包括表示策略函数的π_θ神经网络，参数为θ，其第一层具有3个单元，第二层有256个隐藏单元，第三层输出动作分布的均值和标准差。

7.根据权利要求6所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述车道保持强化学习模型中，状态-动作价值网络的损失函数为：

8.根据权利要求7所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述车道保持强化学习模型中，策略网络的损失函数通过重新参数化连续动作空间中SAC算法的高斯分布均值和标准差得到：

其中，ε_i～N是噪声随机变量，fθ(ε_t；s_t)表示从高斯分布采样的动作。

9.根据权利要求1所述的一种基于安全可信强化学习的自动驾驶车道保持控制方法，其特征在于，所述车辆运动学模型使用简化的自行车运动学模型构建：

其中，状态变量是X、Y、ψ，控制输入变量是δ。