CN114355897A

CN114355897A - 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法

Info

Publication number: CN114355897A
Application number: CN202111536096.XA
Authority: CN
Inventors: 陆志杰; 张长柱; 张皓; 王祝萍; 黄超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-15
Anticipated expiration: 2041-12-15
Also published as: CN114355897B

Abstract

本发明涉及一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，包括以下步骤：根据规划层给出的轨迹和车辆运动学模型，使用模型预测控制算法得到控制策略一(控制策略包括对油门、刹车和方向盘的控制)；同时根据规划层给出的轨迹，使用深度强化学习中的演员网络得到控制策略二；根据当前的车辆状态和环境状态信息，使用深度强化学习中的评论家网络对两种控制策略进行评估，并选择能够获得更高价值的控制策略进行实际的输出，实现车辆的路径跟踪控制。与现有技术相比，本发明将基于模型的经典方法和基于学习的新兴方法融合，具有灵活性强、稳健性好、控制性能更优等特点。

Description

一种基于模型和强化学习混合切换的车辆路径跟踪控制方法

技术领域

本发明涉及自动驾驶车辆控制领域，特别涉及一种基于模型和强化学习混合切换的车辆路径跟踪控制方法。

背景技术

车辆控制策略的研究是无人驾驶领域的核心问题之一，是保障车辆安全、平稳、舒适地运行的关键因素。无人驾驶车辆控制指的是车辆运动控制模块根据规划的行驶轨迹和速度以及当前的位置、姿态和速度，计算出对油门、刹车、方向盘等车辆执行器的控制命令。经典的车辆控制算法为基于车辆运动学和动力学模型的模型预测控制算法，该类方法发展较为成熟，且有较深厚的理论背景。而该类控制方法会遇到车辆运动学、动力学模型复杂、难以准确建模等问题，通过模糊方法等来逼近真实模型仍有一定差距，当模型复杂度提升时，该类方法在优化求解过程中的计算量也会显著增加，消耗较多CPU计算资源并导致实时性降低。因此该类方法难以适应现实中复杂多变的环境，缺乏一定的智能性和自适应性。

为了应对复杂驾驶场景下的无人驾驶车辆控制，需要智能算法通过数据驱动的方式不断进行学习和优化，并在仿真和真实场景下完成测试和验证。随着人工智能领域研究的不断突破，基于深度强化学习的控制方法逐渐进入了大家的视野，这是一种典型的由经验驱动、自主学习的算法，并已在决策、规划和控制领域取得了一定的成果。该类方法无需任何手动标记的数据，只需智能体和环境进行不断地交互，从交互获得的驾驶经验中进行学习。而该类方法也存在一定的局限性，例如可解释性差、探索效率较低、训练收敛不稳定等。因此，如何结合模型预测控制和深度强化学习两类算法的优势，设计出一种灵活性强、稳健性好、性能更优的车辆控制算法是一个值得研究的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于模型和强化学习混合切换的车辆路径跟踪控制方法。

本发明的目的可以通过以下技术方案来实现：基于模型和强化学习混合切换的车辆路径跟踪控制方法，包括以下步骤：

S1：依据参考轨迹和车辆动力学模型，使用模型预测控制方法得到控制策略一。

首先，对车辆进行横向动力学建模，该类模型旨在建立高阶变量之间的联系，以更好地描述车辆转弯的非线性特性。

建模过程中，选取误差变量作为状态量，即

其中e_y为车辆重心到参考轨迹的横向偏差，

为横向偏差的导数，e_ψ为车辆相对于参考轨迹的航向角偏差，

为航向角偏差的导数。具体车辆模型如下所示：

其中，C_αf和C_αr分别为车辆前轮和后轮的侧偏刚度，m为车辆的质量，V_x为车辆纵向速度(一般假设为恒定值)，l_f和l_r分别为车辆前轮和后轮到重心的距离，I_z为车辆转动惯量，δ为前轮转角，即控制输入。

获得车辆横向动力学模型后，即可通过经典的模型预测控制方法进行控制策略的优化求解，我们建立如下形式的凸优化问题：

subject to(1)x_k+1＝A_dx_k+B_du_k

(2)

(3)

(4)Δumax_min

其中，N为预测的时间步数，Q_N、Q和R均为权重参数矩阵，条件(1)为离散化后的车辆横向动力学模型，其中A_d为离散化后的状态矩阵，B_d为离散化后的控制矩阵，条件(2)为对状态变量的约束，条件(3)为对控制输入的约束，条件(4)为对控制输入变化量的约束。通过求解以上的凸优化问题，即可得到控制策略一。

S2：依据参考轨迹和车辆状态信息，使用深度强化学习中的演员网络得到控制策略二。

进行演员网络的构建，采用4层神经网络的结构，第一层输入为车辆的状态信息，包括横向偏差、航向角偏差、车速、雷达传感信息等共29维输入，两个隐层节点数分别为300和600，最后输出是3维，即方向盘、油门和刹车，得到控制策略二。由于在模型预测控制中只考虑了车辆横向动力学，得到的控制策略只包含对方向盘的控制，因此在后续进行策略评估时，控制策略一默认使用演员网络给出的对油门和刹车的控制。

S3：依据车辆状态信息和环境信息，使用深度强化学习中的评论家网络对两种控制策略进行评估。

进行评论家网络的构建，采用5层神经网络的结构，第一层输入为车辆的状态信息，第二层分为两个部分：①对车辆状态信息的编码(节点数为300)；②控制策略的融入(节点数为3，即方向盘、油门和刹车)，第三层和第四层均为隐层，节点数均为600，最后输出层为对当前行驶状态下车辆控制策略的评价分数，分数越高则能达到更好的路径跟踪效果。因此，在实时的车辆驾驶控制中，选择控制策略一和控制策略二中能够获得更高评价分数的控制策略进行实际的输出，以取得更优的控制效果。

S4：设计合理的训练策略，使得演员网络和评论家网络能够收敛。

在给出具体训练步骤前，需先设计深度强化学习中的奖励函数r，以用于构建训练样本标签存储在回放经验池中，演员网络会在训练过程中朝着给出奖励最大化的策略进行梯度的学习。

具体算法训练步骤包括：

41)随机初始化演员网络μ(s|θ^μ)和评论家网络Q(s，a|θ^Q)，其中θ^μ表示演员网络中的参数，θ^Q表示评论家网络中的参数。

42)初始化目标演员网络μ′和评论家网络Q′参数，即θ^μ←θ^μ，θ^Q←θ^Q。

43)初始化回放经验池R。

44)训练过程需要M个连续驾驶片段，首先获取当前的车辆观测状态s₁：

441)在一个连续驾驶片段中的每一个时刻，根据当前的演员网络和探索噪声选取下一步采取的控制策略二μ(s_t|θ^μ)+N_t，其中N_t表示为根据动量关系选择的随机探索噪声。

442)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二进行评价选择价值更高的策略a_t进行实际的输出，记录获得的奖励r_t并观测得到下一时刻的状态s_t+1，随后将(s_t，_at，r_t，s_t+1)四元组存储于回放经验池中。

443)在回放经验池中随机采样N条经验信息(s_i，a_i，r_i，s_i+1)，并根据强化学习理论中的价值公式构建训练目标：y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ)|θ^Q)。

444)通过最小化损失函数，来更新评论家网络参数：

445)通过评论家网络导出的策略梯度来更新演员网络参数：

446)更新目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ′

经过上述步骤进行对演员网络和评论家网络的训练并收敛之后，演员网络能够给出在设计的奖励函数下最优的控制策略，评论家网络能够给出对不同控制策略的准确评价，在模型预测给出的控制策略一和演员网络给出的控制策略二中选择更优的控制策略进行实际的输出，以达到更好地控制效果。

附图说明

图1为本发明的方法流程示意图；

图2为车辆控制整体框架示意图；

图3为实施例奖励函数训练曲线；

图4为实施例横向偏差训练曲线；

图5为实施例平均速度训练曲线；

图6为实施例测试过程横向偏差曲线；

图7为实施例测试过程方向盘控制量曲线；

具体实施方式

以下结合附图，对本发明做进一步说明。

如图1所示，一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，包括以下步骤：

S1、依据参考轨迹和车辆动力学模型，使用模型预测控制方法得到控制策略一。

S2、依据参考轨迹和车辆状态信息，使用深度强化学习中的演员网络得到控制策略二。

S3、依据车辆状态信息和环境信息，使用深度强化学习中的评论家网络对两种控制策略进行评估。

S4、设计合理的训练策略，使得演员网络和评论家网络能够收敛。

上述的步骤S1具体包括以下步骤：

首先，选取误差变量作为状态量对车辆进行横向动力学建模，状态量为

其中e_y为车辆重心到参考轨迹的横向偏差，

为航向角偏差的导数。具体车辆模型如下所示：

其中，C_αf和C_ar分别为车辆前轮和后轮的侧偏刚度，均设定为40000N/rad，m为车辆的质量，设定为1150kg，V_x为车辆纵向速度(一般假设为恒定值)，设定为20m/s，l_f和l_r分别为车辆前轮和后轮到重心的距离，分别设定为1.22m和1.42m，I_z为车辆转动惯量，设定为2873kg/m²，δ为前轮转角，即控制输入。

建立车辆横向动力学模型后，通过经典的模型预测控制方法进行控制策略的优化求解。通过设计合理的凸函数形式代价函数，选取合适的预测时间步数N、权重参数矩阵Q_N、Q和R，并限制求解的约束范围，建立如下形式的凸优化问题：

subject to(1)x_k+1＝A_dx_k+B_du_k

(2)

(3)

(4)Δumax_min

其中，条件(1)为离散化后的车辆横向动力学模型，条件(2)为对状态变量的约束，条件(3)为对控制输入的约束，条件(4)为对控制输入变化量的约束。通过求解以上的凸优化问题，即可得到控制策略一。

上述步骤S2具体为：搭建四层的演员网络，第一层输入为车辆的状态信息，包括航向角偏差、雷达传感信息、横向偏差、速度、车轮转速和发动机转速共29维输入，详细说明如下表所示：

表1状态信息

经过输入层后，两个隐层节点数分别为300和600，隐层均采用全连接结构，最后输出是3维，即方向盘、油门和刹车，得到控制策略二，其中方向盘输出选择tanh函数，即

该函数能够将输出平缓地映射在(-1，1)区间内，符合方向盘输出的特点。油门和刹车输出均选择sigmoid函数，即

该函数能够将输出平缓地映射在(0，1)区间内，符合方向盘输出的特点。

上述步骤S3具体为：搭建五层的评论家网络，第一层输入为车辆的状态信息，第二层分为两个部分：①对车辆状态信息的编码(节点数为300)；②控制策略的融入(节点数为3，即方向盘、油门和刹车)，第三层和第四层均为隐层，节点数均为600，最后输出层为对当前行驶状态下车辆控制策略的评价分数，分数越高则能达到更好的路径跟踪效果。

上述的步骤S4具体包括以下步骤：

设计深度强化学习中的奖励函数r，以用于构建训练样本标签存储在回放经验池中，具体的奖励函数形式为：r＝V_x*(k₁ cosψ-k₂|e_y|-k₃|sinψ|-k₄|u|-k₅|Δu|)，其中k₁，k₂，k₃，k₄，k₅分别为权重参数，该奖励函数设计的目的在于使得纵向速度更大，同时要减小与参考轨迹的横向偏差和侧偏速度，此外通过引入控制量约束能够使得控制量更平缓，也能达到节约能量的效果。

41)随机初始化演员网络μ(s|θ^μ′)和评论家网络Q(s，a|θ^Q)，其中θ^μ表示演员网络中的参数，θ^Q表示评论家网络中的参数。

42)初始化目标演员网络μ′和评论家网络Q′参数，即θ^μ′←θ^μ，θ^Q′←θ^Q。

43)初始化回放经验池R。

442)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二进行评价选择价值更高的策略a_t进行实际的输出，记录获得的奖励r_t并观测得到下一时刻的状态s_t+1，随后将(s_t，a_t，r_t，s_t+1)四元组存储于回放经验池中。

443)在回放经验池中随机采样N条经验信息(s_i，a_i，r_i，s_i+1)，并根据强化学习理论中的价值公式构建训练目标：y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)。

444)通过最小化损失函数，来更新评论家网络参数：

445)通过评论家网络导出的策略梯度来更新演员网络参数：

446)更新目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ′

具体的控制框图如图2所示，给定参考的路径和行驶环境感知信息，分别传递给演员网络和模型预测控制，并得到相应的下一步控制策略输出，随后传递给评论家网络进行评价，根据评价分数在控制策略一和控制策略二中进行切换，并得到最终的控制策略。随后，将该控制策略在被控对象上进行实际的输出，并获取到车辆下一时刻在行驶环境中的状态信息，形成闭环。

本实施例在TORCS车辆模拟器中进行了训练和验证。图3为奖励函数训练曲线，由图可知仅通过30个片段的训练学习，智能体就能够达到一个较高的奖励函数水平，掌握基本的驾驶策略。图4为横向偏差训练曲线，为每一个片段中所有时间步记录的横向偏差的平均值，可以看到经过200个片段的训练后，车辆的平均横向偏差能够稳定在0.15m以下，同时平均速度是高于25m/s的，在高速驾驶的情况下能够实现精准的路径跟踪控制。图6为测试过程横向偏差曲线，每个时间步为0.2s，图中表示的约为1min内的车辆运行横向偏差，在直线运行时的横向偏差是非常小的，在弯道运行时会有一定的偏差，与弯道的曲率和过弯的速度有关，根据曲线显示最大的横向偏差不会超过0.5m。图7为测试过程方向盘控制量曲线，通过设计合理的奖励函数，根据曲线显示控制量的输出相对平缓，能够保证驾驶的舒适性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，该方法包括下列步骤：

步骤1，依据参考轨迹和车辆动力学模型，使用模型预测控制方法得到控制策略一；

步骤2，依据参考轨迹和车辆状态信息，使用深度强化学习中的演员网络得到控制策略二；

步骤3，依据车辆状态信息和环境信息，使用深度强化学习中的评论家网络对步骤1、步骤2两种控制策略进行评估，并选择能够获得更高价值的控制策略进行实际的输出；

步骤4，设计合理的训练策略，使得演员网络和评论家网络能够收敛。

2.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，步骤3中，结合了模型预测控制和深度强化学习两类不同的控制方法，根据不同的场景能够选择更优的控制策略进行实际的输出。

3.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，步骤1中，模型预测控制方法：

首先对车辆进行横向跟踪动力学建模；具体地，选取误差变量作为状态量进行建模，即

其中e_y为车辆重心到参考轨迹的横向偏差，

为航向角偏差的导数；具体车辆模型如下所示：

其中，C_αf和C_αr分别为车辆前轮和后轮的侧偏刚度，m为车辆的质量，V_x为车辆纵向速度(一般假设为恒定值)，l_f和l_r分别为车辆前轮和后轮到重心的距离，I_z为车辆转动惯量，δ为前轮转角，即控制输入；

然后，通过凸优化方法进行控制策略的优化求解，具体的问题形式如下：

subject to(1)x_k+1＝A_dx_k+B_du_k

(2)

(3)

(4)Δumax_min

其中，N为预测的时间步数，Q_N、Q和R均为权重参数矩阵，条件(1)为离散化后的车辆横向动力学模型，条件(2)为对状态变量的约束，条件(3)为对控制输入的约束，条件(4)为对控制输入变化量的约束；通过求解以上的凸优化问题，即可得到控制策略一。

4.根据权利要求2所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，步骤2中，深度强化学习方法：

由演员网络给出控制策略，随后由评论家网络对当前状态下的控制策略进行评价；通过设计合理的奖励函数和训练策略、并经过大量样本的训练后，演员网络能够给出获得更高价值的控制策略，评论家网络能够给出对策略的准确评价。

5.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，所述演员网络，采用4层神经网络的结构，能够依据参考轨迹和车辆状态信息给出相应的控制策略；具体地，演员网络第一层输入为车辆的状态信息，包括航向角偏差、雷达传感信息、横向偏差、速度、车轮转速和发动机转速共29维，两个隐层节点数分别为300和600，最后输出是3维，即方向盘、油门和刹车，得到控制策略二。

6.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，所述评论家网络，采用5层神经网络的结构，能够依据车辆状态信息和环境信息对控制策略进行评估；具体地，评论家第一层输入为车辆的状态信息，第二层分为两个部分：①对车辆状态信息的编码(节点数为300)；②控制策略的融入(节点数为3，即方向盘、油门和刹车)，第三层和第四层均为隐层，节点数均为600，最后输出层为对当前行驶状态下车辆控制策略的评价分数，分数越高则能达到更好的路径跟踪效果。

7.根据权利要求4所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，所述奖励函数，构建深度强化学习训练的数据标签，并和状态、动作组成经验元组存储在回放经验池中；演员网络会在训练过程中朝着给出奖励最大化的策略进行梯度的学习；具体的奖励函数形式为：

r＝V_x*(k₁ cos e_ψ-k₂|e_y|-k₃|sin e_ψ|-k₄|u|-k₅|Δu|)，

其中k₁，k₂，k₃，k₄，k₅分别为权重参数，该奖励函数设计的目的在于使得纵向速度更大，同时要减小与参考轨迹的横向偏差和侧偏速度，此外通过引入控制量约束能够使得控制量更平缓，也能达到节约能量的效果。

8.根据权利要求1所述的一种基于模型和强化学习混合切换的车辆路径跟踪控制方法，其特征在于，所述训练策略，具体算法训练步骤为：

1)随机初始化演员网络μ(s|θ^μ)和评论家网络Q(s，a|θ^Q)，其中s表示状态，θ^μ表示演员网络中的参数，θ^Q表示评论家网络中的参数；

2)初始化目标演员网络μ′和评论家网络Q′参数，即θ^μ′←θ^μ，θ^Q′←θ^Q；

3)初始化回放经验池R；

4)训练过程需要M个连续驾驶片段，首先获取当前的车辆观测状态s₁：

41)在一个连续驾驶片段中的每一个时刻，根据当前的演员网络和探索噪声选取下一步采取的控制策略二μ(s_t|θ^μ)+N_t，其中N_t表示为根据动量关系选择的随机探索噪声；

42)由评论家网络分别对模型预测控制方法给出的控制策略一和演员网络给出的控制策略二，进行评价选择价值更高的策略a_t为实际的输出，记录获得的奖励r_t并观测得到下一时刻的状态s_t+1，随后将(s_t，a_t，r_t，s_t+1)四元组存储于回放经验池中；

43)在回放经验池中随机采样N条经验信息(s_i，a_i，r_i，s_i+1)，并根据强化学习理论中的价值公式构建训练目标：y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)；

44)通过最小化损失函数，来更新评论家网络参数：

45)通过评论家网络导出的策略梯度来更新演员网络参数：

46)更新目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′,θ^μ′←τθ^μ+(1-τ)θ^μ′。