CN114779641A

CN114779641A - 基于新航向误差定义的环境自适应mpc路径追踪控制方法

Info

Publication number: CN114779641A
Application number: CN202210455014.7A
Authority: CN
Inventors: 林歆悠; 唐云亮; 叶卓明; 徐心淏; 李亚龙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-22

Abstract

本发明提供了一种基于新航向误差定义的环境自适应MPC路径追踪控制方法，该方法基于新的航向误差定义建立车辆状态空间模型并构建模型预测控制MPC路径追踪控制策略，并利用强化学习算法DQN优化模型预测控制MPC的预测时域和控制时域；实现减小追踪误差，提升路径追踪精度。

Description

基于新航向误差定义的环境自适应MPC路径追踪控制方法

技术领域

本发明涉及智能驾驶路径追踪控制技术领域，特别是一种基于新航向误差定义的环境自适应MPC路径追踪控制方法。

背景技术

随着定位系统，识别系统和控制系统的发展，智能汽车以及成为了未来汽车发展的主要趋势。轨迹追踪作为智能汽车的核心技术之一，其目标是保证在不同的行驶环境下车辆能够稳定准确地沿着目标路径行驶。

MPC因在处理多输入多输出系统和非线性系统方面具有独特优势，是被广泛使用的一种路径追踪控制方法。它通过预测未来一段时间内的车辆状态来求解出前轮转角，以实现在预测时间内的追踪误差最小。车辆的航向控制实际上应该是控制车辆的实际车速方向与目标路径点的切向方向保持一致，但传统的MPC路径追踪方法的航向误差定义是控制车辆的纵轴方向与目标路径点的切向方向保持一致，这将导致MPC算法在求解前轮转角时难以保证横向误差和航向误差同时收敛到一个较小值。

发明内容

有鉴于此，本发明的目的在于提供一种基于新航向误差定义的环境自适应MPC路径追踪控制方法，实现减小追踪误差，提升路径追踪精度。

为实现上述目的，本发明采用如下技术方案：基于新航向误差定义的环境自适应MPC路径追踪控制方法，该方法基于新的航向误差定义建立车辆状态空间模型并构建模型预测控制MPC路径追踪控制策略，并利用强化学习算法DQN优化模型预测控制MPC的预测时域和控制时域；

包括以下步骤：

步骤1：建立基于模型预测控制MPC算法的路径追踪控制策略，具体包括以下几个子步骤；

步骤2：利用强化学习优化得到预测时域和控制时域与曲率半径和车速的映射关系；

步骤3：训练的智能体根据不同的状态值选择相应的动作输出，然后利用步骤1中路径追踪控制策略计算出前轮转角作用于车轮，控制车辆运动。

在一较佳的实施例中，步骤1.1：基于新航向误差定义建立车辆状态空间模型：

式中

y＝[Y θ]^T，B＝[2c_f/m 0 2c_fl_f/Iz 0]^T，

x为车辆的状态矩阵，u是控制量，即前轮转角δ，y是输出矩阵；A，B，C是系数矩阵；c_f和c_r是车辆前后轮的侧偏刚度，l_f和l_r分别是前轴和后轴到质心的距离，v_x和v_y分别是车辆纵向和横向的速度，θ是车辆的航向角且满足

是车辆横摆角，β是车辆的质心侧偏角，

是车辆横摆角速度，Y是大地坐标系下的车辆横向位置，m是车辆质量，I_z是车辆转动惯量；

步骤1.2：利用前向欧拉法将公式(1.1)的连续状态空间模型离散化：

式中A_k＝I_m+TA，B_k＝TB，C_k＝[C 0_p×q]，q＝m+n，m为控制量个数，n是状态量个数，p是输出量个数，T是采样时间；

步骤1.3：将公式(1.2)中的离散状态空间改写成：

式中

Δu(k)＝u(k)-u(k-1)；

步骤1.4：设置系统的预测时域为N_p，控制时域为N_c，预测时域内的状态序列由以下形式表示：

ξ_n(k+1)＝A_nξ_n(k)+B_nΔu(k)

步骤1.5、预测时域内的输出序列表示为:

步骤1.6：结合上述的状态序列和输出序列，得到一组新的状态空间矩阵：

式中ξ₀(k)＝ξ_n(k)，ΔU₀(k)＝[Δu(k) Δu(k+1)···Δu(k+N_c-1)]^T

步骤1.7：建立目标函数：

式中：

Δu_k(k)＝u(k)-u(k-1)；

目标函数的第一项由两个量组成，全局坐标系下的横向位置误差和航向角误差；第二项则是控制量的增量，即汽车前轮转角的增量；QQ，RR是权重矩阵；对系统的状态量、控制量以及质心侧偏角进行约束：

y_min≤y(k)≤y_max，θ_min≤θ(k)≤θ_max，Δu_min≤Δu(k)≤Δu_max，|β(k)|＜0.02μg

式中μ是路面附着系数，g是重力加速度；

步骤1.8：将价值函数(1.7)改写成一个标准的二次规划问题：

式中，ΔU(k)＝[Δu(k)，Δu(k+1)，...，Δu(k+N_c-1)]，

步骤1.9：在每一个优化周期内，优化目标为minJ，得到控制时域内的控制变量的增量：

ΔU(k)＝[Δu(k),Δu(k+1),...Δu(k+N_c-1)] (1.9)

步骤1.10：选取控制序列(1.9)的第一个元素作为实际的控制变量作用于车辆；最终的目标转角u(k)为：

u(k)＝u(k-1)+Δu(k) (1.10)。

在一较佳的实施例中，所述步骤2具体包括以下几个子步骤：

步骤2.1：基于步骤1所述的路径追踪控制策略建立Simulink仿真模型；

步骤2.2：构建不同曲率半径和车速驾驶场景作为Simulink仿真模型的参考输入，参考路径的数学模型表达为以下形式：

其中X是全局坐标系下的横坐标，L是设置的直线路径长度；

步骤2.3：回报函数定义为某一时间步长ΔT内横向位置误差与航向位置误差加权平方和的负数，表示为：

式中a、b是权重系数，e₁(t)是横向位置误差，e₂(t)是航向误差；

步骤2.4：以纵向车速v_x和道路曲率半径R为状态值，reward为回报函数，预测时域N_p和控制时域N_c作为动作输出，训练DQN智能体来优化N_p和N_c。

在一较佳的实施例中，所述步骤3具体包括以下几个子步骤：

步骤3.1：获取车辆状态信息和上层路径规划信息；

步骤3.2：根据预瞄距离计算出预瞄点的位置信息；其中预瞄距离是一个与车速相关的变量，满足关系L_d＝kv_x+d；

式中L_d是预瞄距离，k是预瞄距离系数，v_x是纵向车速，d是初始预瞄距离；

步骤3.3：计算出预瞄距离内规划路径的最小曲率半径R_min；

步骤3.4：强化学习智能体根据状态值选择相应的动作输出；

步骤3.5：将步骤3.1中获得的车辆状态信息、规划路径信息和步骤3.4中获得的N_p和N_c代入路径追踪控制策略，求解出前轮转向角，控制车辆运动。

与现有技术相比，本发明具有以下有益效果：

解决了传统航向误差定义下横向位置误差和航向误差难以同时收敛到一个较小值的问题，提升了路径追踪精度。此外，该方法还能够根据道路情况和车速信息实时调整模型预测控制算法的预测时域和控制时域，进而提升智能车辆对不同驾驶场景的环境自适应性。相较于传统航向误差定义下的MPC路径追踪控制方法，该方法在转向过程中具有更高的路径追踪精度；相较于固定预测时域和控制时域的路径追踪控制方法。

附图说明

图1为本发明优选实施例使用的简化的车辆模型示意图；

图2为统航向角与实际航向角的示意图；

图3为本发明优选实施例的优化预测时域和控制时域的流程图；

图4为本发明优选实施例的智能驾驶路径追踪控制方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

基于新航向误差定义的环境自适应MPC路径追踪控制方法，该方法基于新的航向误差定义建立车辆状态空间模型并构建模型预测控制MPC路径追踪控制策略，并利用强化学习算法DQN优化模型预测控制MPC的预测时域和控制时域；参考图1至4，包括以下步骤：

步骤1：建立基于模型预测控制MPC算法的路径追踪控制策略，步骤包括：

步骤1.1：结合图1所示的单轨模型和图2所示的实际航向定义建立车辆状态空间模型：

其中

y＝[Y θ]^T，B＝[2c_f/m 0 2c_fl_f/Iz 0]^T，

x为车辆的状态矩阵，u是控制量，即前轮转角δ，y是输出矩阵。A，B，C是系数矩阵。c_f和c_r是车辆前后轮的侧偏刚度，l_f和l_r分别是前轴和后轴到质心的距离，v_x和v_y分别是车辆纵向和横向的速度，θ是车辆的航向角且满足

是车辆横摆角，β是车辆的质心侧偏角，

是车辆横摆角速度，Y是大地坐标系下的车辆横向位置，m是车辆质量，I_z是车辆转动惯量。

步骤1.2：使用前向欧拉离散法将连续状态空间模型离散化：

其中A_k＝I_m+TA，B_k＝TB，C_k＝[C 0_p×q]，q＝m+n，m为控制量个数，n是状态量个数，p是输出量个数，T是采样时间。

步骤1.3：将步骤1.2中的状态空间模型改写成：

其中

Δu(k)＝u(k)-u(k-1)，C_n＝[C_k0]。

步骤1.4：设置系统的预测时域为N_p，控制时域为N_c，那么预测时域内的状态序列可由以下形式表示：

ξ_n(k+1)＝A_nξ_n(k)+B_nΔu(k)

步骤1.5：预测时域内的输出序列可以表示为:

步骤1.6：结合步骤1.5中的状态序列和输出序列，得到一组新的状态空间矩阵：

其中ξ₀(k)＝ξ_n(k)ΔU₀(k)＝[Δu(k)Δu(k+1)···Δu(k+N_c-1)]^T

步骤1.7：建立目标函数：

其中

Δu_k(k)＝u(k)-u(k-1)；

步骤1.8：目标函数的第一项由两个量组成，大地坐标系下的横向位置和横摆角，这一项主要反映汽车轨迹追踪的精度问题；第二项则是控制量的增量，即汽车前轮转角的增量，该项反映了车辆路径追踪时的平稳性。QQ，RR是权重矩阵。同时，考虑实际车辆特性，还需要对系统的状态量和控制量进行一定的约束：

其中μ是路面附着系数，g是重力加速度。

步骤1.9：将价值函数改写成一个标准的二次规划问题：

其中ΔU＝[Δu(k),Δu(k+1),…,Δu(k+N_c-1)]，

步骤1.10：在每一个优化周期内，优化目标为minJ，得到控制时域内的控制变量的增量序列：

ΔU＝[Δu(k),Δu(k+1),…,Δu(k+N_c-1)]

步骤1.11：取步骤1.10中增量序列的第一个元素作为实际的控制变量作用于车辆。最终的目标转角u(k)为：u(k)＝u(k-1)+Δu(k)。

步骤2：利用强化学习建立预测时域和控制时域与车速和道路曲率半径之间的映射关系，以实现预测时域和控制时域的自适应调整，具体步骤包括：

步骤2.1：基于步骤1所述的路径追踪控制策略建立Simulink模型。另外，为了保证仿真结果的可靠性，路径追踪控制策略的对象采用具有高精度的Carsim车辆模型；

步骤2.2：根据国家公路设计规范JTG D20-2017，构建不同曲率半径和车速驾驶场景(见表1)作为Simulink仿真模型的参考输入。参考路径的数学模型可表达为以下形式：

其中X是全局坐标系下的横坐标，L是设置的直线路径长度；

回报函数定义为某一时间步长ΔT内横向位置误差与航向位置误差加权平方和的负数，表示为：

其中a、b是权重系数，e₁(t)是横向位置误差，e₂(t)是航向误差；

骤2.3：以实际纵向车速V_x和道路曲率半径R为状态值，预测时域和控制时域作为动作输出，训练DQN智能体来优化预测时域和控制时域。

步骤3：智能体根据不同的状态值(V_x,R)选择相应的动作输出(N_p,N_c)，然后利用步骤1中所述的路径追踪控制策略计算出前轮转角作用于车轮，控制车辆运动。步骤包括：

步骤3.1：获取车辆状态信息和上层路径规划信息；

步骤3.2：根据预瞄距离计算出预瞄点的位置信息。其中预瞄距离是一个与车速相关的变量，满足关系L_d＝kv+d；

步骤3.3：计算出预瞄距离内规划路径的最小曲率半径R_min；

步骤3.4：强化学习智能体根据状态量(v_x,R_min)选择相应的动作输出(N_p,N_c)；

步骤3.5：将车辆状态信息、规划路径信息和步骤3.4中获得的N_p和N_c代入路径追踪控制策略，求解出前轮转向角，控制车辆运动。

表1国家公路设计规范JTG D20-2017圆曲线最小半径

Claims

1.基于新航向误差定义的环境自适应MPC路径追踪控制方法，其特征在于，该方法基于新的航向误差定义建立车辆状态空间模型并构建模型预测控制MPC路径追踪控制策略，并利用强化学习算法DQN优化模型预测控制MPC的预测时域和控制时域；

包括以下步骤：

2.根据权利要求1所述的基于新航向误差定义的环境自适应MPC路径追踪控制方法，其特征在于，

步骤1.1：基于新航向误差定义建立车辆状态空间模型：

式中

y＝[Y θ]^T，B＝[2c_f/m 0 2c_fl_f/Iz 0]^T，

是车辆横摆角，β是车辆的质心侧偏角，

步骤1.3：将公式(1.2)中的离散状态空间改写成：

式中

C_n＝[C_k 0]，Δu(k)＝u(k)-u(k-1)；

步骤1.5、预测时域内的输出序列表示为:

式中ξ₀(k)＝ξ_n(k)，ΔU₀(k)＝[Δu(k) Δu(k+1) ··· Δu(k+N_c-1)]^T

步骤1.7：建立目标函数：

式中：

Δu_k(k)＝u(k)-u(k-1)；

式中μ是路面附着系数，g是重力加速度；

步骤1.8：将价值函数(1.7)改写成一个标准的二次规划问题：

式中，ΔU(k)＝[Δu(k),Δu(k+1),…,Δu(k+N_c-1)]，

ΔU(k)＝[Δu(k),Δu(k+1),...Δu(k+N_c-1)] (1.9)

u(k)＝u(k-1)+Δu(k) (1.10)。

3.根据权利要求1所述的基于新航向误差定义的环境自适应MPC路径追踪控制方法，其特征在于，所述步骤2具体包括以下几个子步骤：

其中X是全局坐标系下的横坐标，L是设置的直线路径长度；

4.根据权利要求1所述的基于新航向误差定义的环境自适应MPC路径追踪控制方法，其特征在于，所述步骤3具体包括以下几个子步骤：

步骤3.1：获取车辆状态信息和上层路径规划信息；

步骤3.3：计算出预瞄距离内规划路径的最小曲率半径R_min；

步骤3.4：强化学习智能体根据状态值选择相应的动作输出；