CN117360544A

CN117360544A - 一种基于drl-mpc的自动驾驶车辆横向控制方法

Info

Publication number: CN117360544A
Application number: CN202311517431.0A
Authority: CN
Inventors: 陈振斌; 赖佳琴; 李培新; 葛承强; 张天虎; 祖琨阔
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-01-09
Anticipated expiration: 2043-11-14
Also published as: CN117360544B

Abstract

本发明提供了一种基于DRL‑MPC的自动驾驶车辆横向控制方法，包括获取位置状态信息，前方道路状态和障碍物信息；建立世界坐标系并建立车辆动力学模型；基于深度强化学习算法对预测模型控制中的预测模型进行学习，根据道路信息、车辆状态信息以及系统稳定性生成对应的预测模型输出，用于后续最优控制量计算；并将计算得到最优的行驶轨迹控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。本发明提出的自动驾驶车辆横向控制方法通过及时调整模型预测控制中的预测模型，使得车辆实现精准跟踪轨迹，并能实现精准避撞。

Description

一种基于DRL-MPC的自动驾驶车辆横向控制方法

技术领域

本发明涉及自动化驾驶技术领域，特别涉及一种基于DRL-MPC的自动驾驶车辆横向控制方法。

背景技术

随着我国经济的迅速发展，车辆保有量迅速增加，道路交通事故频发。目前处于研究热门的自动驾驶技术，可以降低由司机失误导致的交通事故的发生率，在高度自动化驾驶的范围内，车辆动态跟踪的自动控制是一个重要的课题，其要求是车辆在安全行驶的情况下按尽可能理想地要求行驶。模型预测控制(MPC)由于其广泛的适用性和良好的控制效果，被广泛应用于工业界及自动驾驶控制中。它利用被控系统的内部模型来预测其未来行为，并确定最优控制行为以达到预期结果。该控制器的工作原理是根据系统的当前状态不断更新其预测，并使用优化算法来计算最佳控制动作，同时满足系统的任何约束条件。MPC在控制过程中，其内部的预测模型η[*]对MPC的控制性能有着决定性的作用。预测模型通过预测未来的控制序列来实现模型预测控制，但其极易受到外部干扰因素影响，因此传统的预测模型如ARIMA模型，BP神经网络模型等无法满足实际控制需求，且算法复杂度较高。并且当自动驾驶车辆行驶过程中出现紧急情况时，需要紧急避撞时，由于外部环境的复杂性，干扰因素增加，其控制复杂度比正常行驶情况下要高得多。而强化学习具备与外部环境的交互学习能力，使得基于深度强化学习的MPC预测模型具备更加精确的预测效果，并具备实时反映外部客观环境的能力。

发明内容

具体的，本发明提出一种基于DRL-MPC的自动驾驶车辆横向控制方法，所述基于DRL-MPC的自动驾驶车辆横向控制方法包括以下步骤：

步骤1，获得自动驾驶车辆的环境信息和自动驾驶车辆的位置状态信息；

步骤2，建立世界坐标系，将环境信息及车辆位置转化为坐标信息，并建立车辆转角控制模型；

步骤3，根据车辆转角控制模型获取状态方程，并构建非线性模型预测控制问题获取预测模型；

步骤4，根据前向欧拉法离散状态方程可得到初始预测模型，通过最优求解得到初始最优控制序列，将最优控制序列代入车辆转角控制模型，得到最新的状态量；

步骤5，基于初始最优控制序列、车辆新的行驶轨迹以及车辆跟踪误差构建深度强化学习预测模型预测控制器，通过深度强化学习算法建立预测模型，并进行优化训练得到最佳预测模型，通过最优求解得到最优控制序列；

步骤6，对生成的预测模型进行反馈校正调整后，再次进行滚动优化求解出控制最优值，计算得到最佳转角控制量，及下一系列位置信息；

步骤7，接收到行驶轨迹，将转角信号和位置信息通过指令生成器生成对应的执行指令，从而控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。

更近一步地，在步骤2中，还包括以下步骤：

步骤21，将位置状态信息，前方道路状态和障碍物信息转化为坐标信息，包括车辆坐标[X,Y,phi]、障碍物坐标[X_O,Y_O]，车辆到障碍物的距离d，并根据避撞要求计算出期望轨迹[X_ref,Y_ref,phi_ref]，其中phi为横摆角，phi_ref为参考横摆角；

步骤22，建立所述车辆转角控制模型，所述车辆转角控制模型为：

其中，m是整车质量；a、b分别是质心到前、后轴的距离；是质心横摆角；/>是质心横摆角速度；/>是质心横摆角加速度；/>和/>分别是车辆纵向速度和侧向速度；/>和/>分别是纵向加速度和侧向加速度；I_z是车辆绕z轴的转动惯量；δ_f是前轮的转角；C_cf和C_cr分别是前、后轮的侧偏刚度；C_lf和C_lr分别是前、后轮的纵向刚度；s_f和s_r分别是前、后轮的滑移率；X和Y分别是车辆的在惯性坐标系下的横向和纵向位移。

更近一步地，在步骤3中，状态量为转角控制量为u＝δ_f；输出量为η＝[x,y,phi]^T，状态量ξ的状态方程可以表达为/>A和B为系统的系数矩阵；

构建非线性模型预测控制问题：

u_min(t+i)≤u(t+i|t)≤u_max(t+i)

Δu_min(t+i)≤Δu(t+i|t)≤Δu_max(t+i)

η(t+i|t)为当前t时刻的预测模型：

η(t+i|t)＝[x(t+i|t),y(t+i|t),phi(t+i|t)]^T

其中，N_p为预测时域，N_c为控制时域，η_ref表示当前t时刻预测时域内的参考轨迹，ρ表示权重系数，ε表示松弛因子，矩阵Q是跟踪偏差的权重矩阵；矩阵R是控制增量幅的权重矩阵，J_ob,i为危险度目标函数，u为控制量，Δu为控制增量，u_min、u_max分别为控制量的最大值和最小值，Δu_min、Δu_max为控制增量的最大值和最小值，i＝1:1:Np。

更近一步地，在步骤4中，根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为：

…

其中，和/>为离散后系统的系数矩阵，/>为当前时刻k离散后的控制量，u_k为当前时刻k的状态量；

则得到初始预测模型η(t+i|t＝1)，i＝1:1:N_p；

通过最优求解得到初始最优控制序列将最优控制序列代入车辆转角控制模型，得到最新的状态量/>

是最新的质心横摆角，/>是最新的质心横摆角速度，/>和/>分别是最新的车辆纵向速度和侧向速度，X₁和Y₁分别是最新的车辆的在惯性坐标系下的横向和纵向位移。

更近一步地，在步骤5中，还包括以下步骤：

步骤51，深度强化学习预测模型预测控制器定义为深度强化学习的agent，深度强化学习环境的状态包括车辆质心侧偏角β(t)、横摆角phi(t)、前轮转角

状态空间表示为本阶段模型预测控制中的预测模型定义为动作，动作空间表示为a(t)＝[x(t+1),y(t+1),phi(t+1)；…；x(t+),y(t+N_p),phi(t+N_p)]；

步骤52，并对基于深度强化学习的预测模型进行训练。

更近一步地，在步骤52中，还包括以下步骤：

步骤521，初始化部分车辆行驶信息组成的环境状态s(t)和预测模型组成的动作空间a(t)的维度，定义考虑控制器跟踪效果和稳定性的奖励函数并定义终止条件；

步骤522，初始化策略网络，用当前策略生成估计数据；

步骤523，采集经验数据，通过使用当前策略网络来选择预测模型；

步骤524，通过将经验数据输入到价值网络中，并计算s(t+1)的价值函数，评估预测模型的优劣情况；

步骤525，通过计算近端比率裁剪损失最大化策略函数的期望回报来实现；

步骤526，重复训练直到达到预设的训练轮数或累积奖励达到最大值。

更近一步地，在步骤521中，所述奖励函数可以表示为：

其中，参数e₁表示控制器的预测输出与参考值之间的误差；λ₁表示控制器的误差调整值；参数e₂表示控制器的预测输出与参考值之间的误差；λ₂表示控制器的误差调整值；k_safe为与障碍物之间的安全距离系数，k_safe的范围为[-1,0]。

更近一步地，在步骤6中，通过反馈校正将做出如下的调整：

η_m1(t+j)＝η_m(t+j)+θ_t+j×[η(t)-η_m(t)]

其中，η_m为基于深度强化学习算法生成的预测模型，η_m1为反馈调整后的预测模型，参数θ_t+j表示反馈校正参数，j＝0:1:N_p，[η(t)-η_m(t)]为t时刻预测模型与参考轨迹之间的误差；

对预测模型进行调整后，再次进行滚动优化求解出控制最优值，计算得到最佳转角控制量u，及下一系列位置信息。

本发明达到的有益效果是：

本发明提出的自动驾驶车辆横向控制方法可获得准确的车辆及环境信息；

本发明提出的自动驾驶车辆横向控制方法对采取到的自动驾驶车辆周围环境获得道路信息，结合高精度导航地图提取车道相关信息，建立坐标系，获得准确的车辆、起终点、障碍物及车道坐标信息。

本发明提出的自动驾驶车辆横向控制方法采用了基于深度强化学习的模型预测控制算法进行自动驾驶车辆横向控制。根据车辆行驶状态、道路信息以及控制系统的稳定性，能够自动生成预测模型，并使用深度强化学习策略参数进行模型反馈调整得到最佳预测模型。

本发明提出的自动驾驶车辆横向控制方法通过及时调整模型预测控制中的预测模型，可以提高控制精度和抗干扰性，通过对预测模型的优化求解，获得最优的转向角度，使得车辆实现精准跟踪轨迹，并能实现精准避撞。

附图说明

图1为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法的框架示意图；

图2为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法的流程示意图；

图3为本发明实施例提供的一种基于DRL-MPC的自动驾驶车辆横向控制方法中简化自行车模型的示意图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明，本发明包括但不仅限于下述实施例。

如附图1所示，本发明提出了一种基于DRL-MPC(深度强化学习模型预测控制)的自动驾驶车辆横向控制方法，该方法包括以下步骤：

通过信号采集系统根据车载传感器组件获取的测量数据以及车载GPS信息提供的车辆位置，从而获得自动驾驶车辆的位置状态信息。并通过车载双目摄像头及激光雷达对自动驾驶车辆前方驾驶环境进行检测，获得环境信息，包括前方道路状态和障碍物信息。

具体还包括以下步骤：

步骤21，通过采集到的环境信息以及车辆位置，建立世界坐标系，将环境信息及车辆位置转化为坐标信息，包括车辆坐标[X,Y,phi]、障碍物坐标[X_O,Y_O]，车辆到障碍物的距离d，并根据避撞要求计算出期望轨迹p[X_ref,Y_ref,phi_ref]，其中phi为横摆角，phi_ref为参考横摆角。

步骤22，由于车辆系统本身较复杂，要建立精准的模型难度系数高，所有建模前需要进行一些合理的假设。经过假设，可根据自行车动力学模型结合轮胎模型建立车辆转角控制模型如下：

在此模型中，状态量为转角控制量为u＝δ_f；输出量为η＝[x,y,phi]^T。

根据车辆转角控制模型可知，状态量其状态方程可以表达为/>u为转向角控制量，A和B为系统的系数矩阵。

假设采样步长为T_s，预测步长为N_p，控制步长为N_c，构建非线性模型预测控制问题：

u_min(t+i)≤u(t+i|t)≤u_max(t+i)

Δu_min(t+i)≤Δu(t+i|t)≤Δu_max(t+i)

η(t+i|t)为当前t时刻的预测模型：

η(t+i|t)＝[x(t+i|t),y(t+i|t),phi(t+i|t)]^T

根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为：

…

则得到初始预测模型η(t+i|t＝1)，i＝1:1:N_p，通过最优求解得到初始最优控制序列将最优控制序列代入车辆转角控制模型，得到最新的状态量

构建深度强化学习预测模型预测控制器具体步骤如下：

步骤51，深度强化学习预测模型预测控制器定义为深度强化学习的agent，部分车辆行驶信息组成深度强化学习环境的状态，包括车辆质心侧偏角β(t)、横摆角phi(t)、前轮转角状态空间表示为/> 本阶段模型预测控制中的预测模型定义为动作，动作空间表示为a(t)＝[x(t+1),y(t+1),phi(t+1)；…；x(t+),y(t+N_p),phi(t+N_p)]。

步骤52，对构建的深度强化学习预测模型进行训练；

训练过程可以通过以下步骤进行描述：

步骤521，环境初始化，初始化部分车辆行驶信息组成的环境状态s(t)和预测模型组成的动作空间a(t)的维度，定义考虑控制器跟踪效果和稳定性的奖励函数并定义终止条件。

奖励函数可以表示为：

其中，参数e₁表示控制器的预测输出与参考值之间的误差；λ₁表示控制器的误差调整值；参数e₂表示控制器的预测输出与参考值之间的误差；λ₂表示控制器的误差调整值；k_safe为与障碍物之间的安全距离系数，k_safe的范围为[-1,0]。误差越小、越安全，奖励值越接近1，误差越大、越不安全，奖励值越接近0。说明通过奖励值，可以反映出实际控制系统的控制性能。

终止条件定义为累积奖励值达到1500，或累积训练次数超出10000次。

步骤522，策略网络初始化，用当前策略π(θ)生成估计数据(s,a,r,s′)。

步骤523，采集经验数据，通过使用当前策略网络来选择预测模型，并观察环境返回的奖励和下一车辆行驶参数来实现。

步骤524，计算优势估计，通过将经验数据输入到价值网络中，并计算s(t+1)的价值函数，评估预测模型的优劣情况。

步骤525，优化策略函数，通过计算近端比率裁剪损失最大化策略函数的期望回报来实现。具体来说，使用梯度上升算法来更新策略网络的参数，以使策略函数朝着最优方向移动。

步骤526，重复执行步骤524至步骤526，直到达到预设的训练轮数10000或累积奖励达到最大值1500。

步骤527，评估训练结果，使用训练好的策略网络来学习最优预测模型，将该预测模型应用于模型预测控制中，进行车辆轨迹跟踪，并判断每个预测模型下的该控制器跟踪效果的表现。

步骤6，对生成的预测模型进行反馈校正调整后，再次进行滚动优化求解出控制最优值，计算得到最佳转角控制量u，及下一系列位置信息；

在接受到基于深度强化学习算法生成的预测模型之后，通过反馈校正将做出如下的调整：

η_m1(t+j)＝η_m(t+j)+θ_t+j×[η9t)-η_m(t)]

其中当参数θ_t+j较小时，反馈校正调整量θ_t+j×(η(t)-η_m(t))较小，DRL-MPC调整过程较为稳定，但想得到最优值需要更多时间；当θ_k+j较大时，反馈校正调整量θ_t+j×(η(t)-η_m(t))较大，可较快调整完成，但过程较不稳定；当θ_t+j＝0时，则控制器不作调整。通过这个步骤可以保证预测模型的准确度，使得预测值和实际值相接近。

步骤7，接收到转角控制量u和下一系列位置信息后，将转角信号和位置信息通过指令生成器生成对应的执行指令，从而控制自动驾驶车辆按照期望轨迹和期望车速行驶或者进行紧急制动。具体原理如下：

指令生成器可以将转角控制量u生成对应的执行指令，发送给自动驾驶车辆。

自动驾驶车辆接收到执行信号后，执行相应的转向操作，使车辆按照期望轨迹和期望车速行驶，实现轨迹跟踪控制。然后通过车载传感器组件实时获取相关的测量数据，并将数据进行状态估计。循环往复，最终实现自动驾驶车辆的横向控制。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据实施例和附图公开内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变换或更改的设计，都落入本发明保护的范围。

Claims

1.一种基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，所述基于DRL-MPC的自动驾驶车辆横向控制方法包括以下步骤：

2.根据权利要求1所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤2中，还包括以下步骤：

3.根据权利要求2所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤3中，状态量为转角控制量为u＝δ_f；输出量为η＝[x,y,phi]^T，状态量ξ的状态方程可以表达为/>A和B为系统的系数矩阵；

构建非线性模型预测控制问题：

u_min(t+i)≤u(t+i|t)≤u_max(t+i)

Δu_min(t+i)≤Δu(t+i|t)≤Δu_max(t+i)

η(t+i|t)为当前t时刻的预测模型：

η(t+i|t)＝[x(t+i|t),y(t+i|t),phi(t+i|t)]^T

4.据权利要求3所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤4中，根据前向欧拉法离散状态方程可得到离散后的状态方程可以表示为此时预测方程为：

…

则得到初始预测模型η(t+i|t＝1)，i＝1:1:N_p；

5.据权利要求4所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤5中，还包括以下步骤：

步骤52，并对基于深度强化学习的预测模型进行训练。

6.据权利要求5所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤52中，还包括以下步骤：

步骤522，初始化策略网络，用当前策略生成估计数据；

7.据权利要求6所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤521中，所述奖励函数可以表示为：

8.据权利要求6所述基于DRL-MPC的自动驾驶车辆横向控制方法，其特征在于，在步骤6中，通过反馈校正将做出如下的调整：

η_m1(t+j)＝η_m(t+j)+θ_t+j×[η(t)-η_m(t)]