CN114995426A

CN114995426A - 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备

Info

Publication number: CN114995426A
Application number: CN202210627864.0A
Authority: CN
Inventors: 蔡英凤; 曹秀辰; 李祎承; 廉玉波; 钟益林; 孙晓强; 陈龙; 何友国
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-02

Abstract

本发明公开了一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备，在基于神经网络的动力学模型中，使用全连接前馈神经网络设计了神经网络模型，模型有两层隐藏层，每层有64个神经元，使用ReLU激活函数，模型的输入为当前时刻的车辆状态与控制指令，输出为下一时刻的车辆状态，该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程。基于神经网络动力学模型设计的ILQR控制器内包含迭代线性二次型调节器的控制算法，通过最小化成本函数求得最优控制指令，实现对参考轨迹的跟踪。本发明相比于端到端的控制，所提出的方案可解释性更强，在保证轨迹跟踪精度的同时，兼顾了横向和纵向稳定性。

Description

一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备

技术领域

本发明涉及无人驾驶车辆控制技术领域，更具体地说，是涉及一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备。

背景技术

无人驾驶技术可以显著提升交通效率、降低交通事故发生率并提高能源使用效率，已成为近年来汽车行业的研究热点。随着无人驾驶技术的快速发展，其在众多领域的应用场景变得越来越广泛。无人小巴车、无人公交车、无人运输卡车等基本实现了特定场景的试运行，且在特定道路和园区等场景实现了初步的商业化落地。无人驾驶技术主要包括感知、决策、控制三个部分，而轨迹跟踪控制可以实现车辆从当前位置稳定、快速地到达目标位置，是无人驾驶技术中尤为重要的一环。

当前，无人驾驶车辆轨迹跟踪控制方法可以分为基于模型的控制方法和无模型的控制方法。基于模型的控制方法被成功地用于控制复杂动态系统。在无模型控制方法中，代理必须从大量样本中为每个任务学习新的策略。传统无人驾驶车辆轨迹跟踪控制器的设计依赖于使用系统的动态模型来计算当前任务的控制律。与无模型的控制方法相比，由于模型的不精确性及外界干扰的不确定性，基于模型的控制方法通常在渐近性能上略有不足。在高度动态的环境中运行的真实车辆上采集样本可能是极其危险的，并且对这类动态系统来说，使用无模型的控制方法所产生的效果通常无法达到预期。在实际的动态系统上，基于模型的控制方法需要具备一定的专业知识，以及无人驾驶车辆中执行器、轮胎力、侧滑等复杂动力学的建模。这些约束在一定程度上限制了基于模型的控制方法在真实车辆系统上的应用。

发明内容

为了解决现有技术中的不足，本发明提出了一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法及系统。本发明利用多层神经网络来学习无人驾驶车辆的动力学模型，将该模型用于迭代线性二次型调节器控制算法的设计并推导出控制律，实现无人驾驶车辆的轨迹跟踪控制任务。本发明主要包括基于神经网络的动力学模型的建立，迭代线性二次型调节器的控制算法的设计，轨迹跟踪控制器的建立和性能评估三个部分。

在基于神经网络的动力学模型的建立中，使用全连接前馈神经网络设计了神经网络模型，模型有两层隐藏层，每层有64个神经元，选择使用ReLU激活函数，模型的输入为当前时刻的车辆状态与控制指令，输出为下一时刻的车辆状态，该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程。本发明通过车载设备来收集驾驶行为的数据，即利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时，以完成数据的采集。

基于所训练的神经网络动力学模型设计ILQR控制器，所述ILQR控制器内包含了迭代线性二次型调节器的控制算法，通过最小化迭代线性二次型调节器控制算法中的成本函数求得最优控制指令，以实现对参考轨迹的跟踪。

进一步，所述神经网络动力学模型具体如下：

设n维实向量

表示在离散时刻t的系统状态，m维实向量

表示在离散时刻t的系统控制指令，系统动态可以由下式给出：

x_t+1＝f(x_t,u_t) (1)

车辆系统状态

由

给出，其中v_t是在时刻t的线速度，

是在时刻t的转向角速度，控制指令

由

给出，其中p_t是油门踏板输入，b_t是制动输入，

是在时刻t的指令转向角速度。现在给出车辆的动态方程f如下式：

进一步，所述迭代线性二次型调节器的控制算法具体如下：

针对设计的神经网络动力学模型这一非线性离散动态系统：

x_t+1＝f(x_t,u_t) (3)

其中，

是系统状态，

是在时刻t的控制输入。

将非线性环境和成本函数通过泰勒展开局部线性化，之后通过LQR的向后传递过程解出在线性化环境和成本下的最优解，ILQR算法分为线性化、LQR的反向传递和前向传递三部分；

在线性化部分，将ILQR中非线性动态展开成一阶，成本展开成二阶，

其中，

为在状态

时生成的最优控制序列，则下一个状态为

为对应于状态x_t及控制u_t的函数的导数，c(x_t,u_t)为在状态x_t及控制输入u_t下的成本函数。

将上式(4)进行重排列：

将

作为新的状态，

作为新的控制输入，则下一个状态为

Q(δx_t,δu_t)为在状态δx_t及控制输入δu_t下的成本函数。从而得到：

其中，

二次部分的系数矩阵

(其中，

代表平均划分矩阵C_t的左上角部分，

代表矩阵C_t的右上角部分，

代表矩阵C_t的左下角部分，

代表矩阵C_t的右下角部分)，线性部分的系数矩阵

(其中，

代表平均划分矩阵c_t的上半部分，

代表矩阵c_t的下半部分)。这样就将ILQR问题转化为常规的LQR问题；

在LQR的反向传递中，本发明通过最小化成本函数Q(δx_t,δu_t)求得最优控制。在时刻t时，通过计算成本函数Q(δx_t,δu_t)的一阶导数为零时的δu_t来得到在此时刻的最优控制。即令

可得到时刻t的最优控制

将式(8)展开并用矩阵K_t及k_t来表示，于是可以得到：

δu_t＝K_tδx_t+k_t (10)

将式(10)带入式(6)的成本函数Q(δx_t,δu_t)中，将新得到的成本函数记为V(δx_t)：

将式(11)展开可以得到：

对展开式进行适当简化，将其看作形如

的二次项与一次项的和，其中，矩阵V_t及v_t分别为：

其中，系数矩阵

表示矩阵C_t的下半部分。

在时刻t-1时，有式(14)成立：

则从时刻t到时刻t-1所产生的成本函数为：

再由

可得：

则成本函数Q(δx_t-1,δu_t-1)表示为：

其中，t-1时刻二次部分的系数矩阵

(其中，

代表矩阵Q_t-1的左上角部分，

代表矩阵Q_t-1的右上角部分，

代表矩阵Q_t-1的左下角部分，

代表矩阵Q_t-1的右下角部分)，线性部分的系数矩阵

(其中，

代表矩阵q_t-1的上半部分，

代表矩阵q_t-1的下半部分)。在时刻t-1时，通过计算成本函数Q(δx_t-1,δu_t-1)的一阶导数为零时的δu_t-1来得到在此时刻的最优控制。即令

可以得到时刻t-1的最优控制：

δu_t-1＝K_t-1δx_t-1+k_t-1 (19)

其中

将式(20)带入式(17)中，对展开式进行简化处理可以得到：

其中，系数矩阵

表示矩阵Q_t-1的下半部分。

在LQR的前向传递中，该过程要和真实的非线性系统进行交互，得到新的真实轨迹；

其中，

为在状态

时生成的最优控制序列，则下一个状态为

参数α可以通过回溯行搜索进行调整。将时刻N的状态

相结合从而得到新的轨迹。

进一步，所述轨迹跟踪控制器具体如下：

设

表示轴距为L的车辆在离散时刻i的状态，其中{x_i,y_i,θ_i}是姿态，x_i和y_i分别表示世界坐标系下车辆的纵向和横向坐标，θ_i是车辆的航向角，φ_i是转向角，v_i是速度，

是离散时刻i的转向角变化率，控制命令由

给出，其中p_i是油门踏板输入，b_i是制动输入，

是离散时刻i的指令转向角变化率，用π表示状态转移函数f：

s_i+1＝π(s_i,u_i) (23)

由车辆在典型状态s_i下的自行车模型，车辆的动态方程π(即状态转移函数f)可由以下公式定义：

x_i+1＝x_i+v_i cos(θ_i)Δt

y_i+1＝y_i+v_i sin(θ_i)Δt

给出一组具有速度的M个有序姿态，对它们进行三次样条插值，得到参考轨迹，对于每个状态s_i，将相对于该参考轨迹的误差状态ψ_i定义为一个9元元组

是在状态s_i的车辆与参考轨迹的垂向距离，

是车辆相对于参考轨迹的航向误差，

是对应于参考轨迹上最近点的速度误差(

这里v_p是参考轨迹上最近点的速度)，v_i，

和φ_i来自于状态s_i，将误差状态ψ_i用于迭代线性二次型调节器的状态，从而对参考轨迹的所有误差进行编码，给定在离散时刻i 的误差状态ψ_i和控制u_i，用γ表示状态转移函数f，下一时刻的误差状态ψ_i+1如下式：

ψ_i+1＝γ(ψ_i,u_i) (25)

γ可以由以下公式定义：

在误差状态ψ_i下执行u_i的成本l(ψ_i,u_i)如下：

其中，A和B是对角权重矩阵，A的最后3个对角线元素为零，使(14)中的误差项趋近于零，对于状态ψ，其最终成本l_f(ψ)如下所示：

l_f(ψ)＝ψ^TAψ (28)

将具有给定参考轨迹的车辆轨迹跟踪问题定义为去找到范围为N的最优控制序列{u₀,u₁,…,u_N-2}，从而最小化以下成本：

加上如下的约束：

上述控制系统可集成在车载控制设备内，实现无人驾驶车辆的实时轨迹跟踪。

本发明的有益效果：

1、本发明提出了通过车载设备来收集驾驶行为数据的方法，即利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时，来完成数据的采集。所得数据作为车辆动力学模型的输入。由于数据直接来自于人类驾驶的实车数据，相较于驾驶模拟器所得的数据精度更高，种类更多，而且将驾驶员的驾驶风格也考虑在内。

2、本发明提出基于全连接前馈神经网络来设计车辆的神经网络动力学模型，模型有两层隐藏层，与深度神经网络相比不仅提高了计算效率，而且可以准确识别车辆运行过程中各种复杂的动力学行为，并可以学习未建模的车辆动态响应。

3、本发明通过将所设计的神经网络动力学模型与迭代线性二次型调节器控制算法相结合，相比于端到端的控制算法，所提出的算法可解释性更强，并且在不同的路况及行驶工况下可以实现参考轨迹的跟踪控制，在保证轨迹跟踪精度的同时，兼顾了横向和纵向稳定性，为无人驾驶车辆开发高性能的运动控制器奠定良好的基础。

附图说明

图1为本发明实施例基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法的流程图；

图2为车辆动力学数据采集模块；

图3为车辆的自行车模型和参考轨迹的误差状态图；

图4为用于评估轨迹跟踪性能的圆形参考轨迹；

图5为用于评估轨迹跟踪性能的椭圆形参考轨迹；

图6为用于评估轨迹跟踪性能的蛇形参考轨迹；

图7为用于评估轨迹跟踪性能的“8”形参考轨迹；

图8为用于评估轨迹跟踪性能的混合参考轨迹。

具体实施方式

下面结合附图对本发明作进一步说明。

需要说明的是，本发明所有涉及的分割或划分，如矩阵的分割/划分等，都是平均分割或划分。

图1为基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法的流程图，包括模型训练学习和利用基于神经网络动力学模型的ILQR控制器实现轨迹跟踪，总体过程如下：

模型训练学习：通过利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时的方式收集车辆的数据。基于全连接前馈神经网络设计车辆动力学模型，并利用所建立的模型和车辆数据对模型进行训练。

利用基于神经网络动力学模型的ILQR控制器实现轨迹跟踪：通过训练神经网络来学习车辆的动力学方程，并设计ILQR控制器，通过最小化成本函数求得最优控制，以达到对参考轨迹的跟踪。

具体实施过程如下：

步骤1：建立基于神经网络的动力学模型

设n维实向量

表示在离散时刻t的系统状态，m维实向量

表示在离散时刻t的系统控制指令。系统动态可以由下式给出：

x_t+1＝f(x_t,u_t) (31)

车辆系统状态

由

给出，其中v_t是在时刻t的线速度，

是在时刻t的转向角速度。控制指令

由

给出，其中p_t是油门踏板输入，b_t是制动输入，

图2为车辆动力学数据采集模块。本发明通过利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时的方式来收集车辆的数据 (x_t+1,x_t,u_t)。通过观察训练过程中的训练损失和验证损失，利用试验和误差来确定驾驶时间。根据车辆的硬件规格确定数据采样频率为30Hz。

x_t，u_t被用作神经网络的输入，x_t+1被用作神经网络的输出，该神经网络通过最小化预测的输出状态

和观测的输出状态x_t+1之间的均方误差来学习动态方程f。在将数据提供给神经网络的输入层之前，先对数据进行白化处理，以降低输入数据特征之间的冗余性。本发明的模型架构采用具有两个隐藏层的全连接神经网络。其中，每个隐藏层有64个神经元，每个神经元均使用了ReLU激活函数。

步骤2：设计迭代线性二次型调节器(ILQR)的控制算法

考虑一个非线性离散动态系统：

x_t+1＝f(x_t,u_t) (33)

其中，

是系统状态，

是在时刻t的控制输入。

迭代线性二次型调节器(ILQR)控制算法可以处理非线性环境和成本，即ILQR 控制算法将非线性环境和成本函数通过泰勒展开局部线性化，之后通过LQR的向后传递过程解出在线性化环境和成本下的最优解。ILQR算法可以分为线性化、LQR的反向传递和前向传递三部分。

在线性化部分，将ILQR中非线性动态展开成一阶，成本展开成二阶。

其中，

为在状态

时生成的最优控制序列，则下一个状态为

将式(34)进行简单的重排列：

将

作为新的状态，

作为新的控制输入，则下一个状态为

其中，

二次部分的系数矩阵

(其中，

代表平均划分矩阵C_t的左上角部分，

代表矩阵C_t的右上角部分，

代表矩阵C_t的左下角部分，

代表矩阵C_t的右下角部分)，线性部分的系数矩阵

(其中，

代表平均划分矩阵c_t的上半部分，

代表矩阵c_t的下半部分)。这样就将ILQR问题转化为常规的LQR问题了。

可得到时刻t的最优控制

将式(38)展开并用矩阵K_t及参数k_t来表示，于是可以得到：

δu_t＝K_tδx_t+k_t (40)

将式(40)带入式(36)的成本函数Q(δx_t,δu_t)中，将新得到的成本函数记为V(δx_t)：

将式(41)展开可以得到：

对式(42)进行适当简化，将其看作形如

的二次项与一次项的和，其中，矩阵V_t及参数v_t分别为：

其中，系数矩阵

表示矩阵C_t的下半部分。

在时刻t-1时，有式(44)成立：

则从时刻t到时刻t-1所产生的成本函数为：

再由

可得：

则成本函数Q(δx_t-1,δu_t-1)表示为：

其中，t-1时刻二次部分的系数矩阵

(其中，

代表矩阵Q_t-1的左上角部分，

代表矩阵Q_t-1的右上角部分，

代表矩阵Q_t-1的左下角部分，

代表矩阵Q_t-1的右下角部分)，线性部分的系数矩阵

(其中，

代表矩阵q_t-1的上半部分，

可以得到时刻t-1的最优控制：

δu_t-1＝K_t-1δx_t-1+k_t-1 (49)

其中

将式(50)代入式(47)中，对展开式进行简化处理可以得到：

其中，系数矩阵

表示矩阵Q_t-1的下半部分。

在LQR的前向传递中，要注意该过程要和真实的非线性系统进行交互，得到新的真实轨迹。

其中，

为在状态

时生成的最优控制序列，则下一个状态为

参数α可以通过回溯行搜索进行调整。

将时刻N的状态

与

相结合从而得到新的轨迹。其中，利用CLIP函数限制一个向量的上下界，即给定一个范围[min，max]，如果向量中的值不在这个范围内时，会被设定为这个范围的边界。u_min为所有控制输入的下边界，u_max为所有控制输入的上边界。

步骤3：建立轨迹跟踪控制器并对其性能进行评估

这一部分首先介绍了轨迹跟踪控制器的开发。设

表示轴距为L 的车辆在离散时刻i的状态，其中{x_i,y_i,θ_i}是姿态，x_i和y_i分别表示世界坐标系下车辆的纵向和横向坐标，θ_i是车辆的航向角，φ_i是转向角，v_i是速度，

是离散时刻i的转向角变化率。控制命令由

给出，其中p_i是油门踏板输入，b_i是制动输入，

是离散时刻i的指令转向角变化率。用π表示状态转移函数f：

s_i+1＝π(s_i,u_i) (53)

x_i+1＝x_i+v_i cos(θ_i)Δt

y_i+1＝y_i+v_i sin(θ_i)Δt

给出一组具有速度的M个有序姿态，对它们进行三次样条插值，得到参考轨迹。

图3为车辆在典型状态s_i下的自行车模型和参考轨迹的误差状态图。对于每个状态s_i，将相对于该参考轨迹的误差状态ψ_i定义为一个9元元组

如图3所示，

是在状态s_i的车辆与参考轨迹的垂向距离，

是车辆相对于参考轨迹的航向误差，

是对应于参考轨迹上最近点的速度误差 (

这里v_p是参考轨迹上最近点的速度)，v_i，

和φ_i来自于状态s_i。本发明将误差状态ψ_i用于迭代线性二次型调节器(ILQR)状态，从而对参考轨迹的所有误差进行编码。给定在离散时刻i的误差状态ψ_i和控制u_i，用γ表示状态转移函数f，下一时刻的误差状态ψ_i+1如下式：

ψ_i+1＝γ(ψ_i,u_i) (55)

γ可以由以下公式定义：

在误差状态ψ_i下执行u_i的成本l(ψ_i,u_i)如下：

其中，A和B是对角权重矩阵，A的最后3个对角线元素为零，因为本发明只关注使(56)中的误差项趋近于零。对于状态ψ_i，其最终成本l_f(ψ_i)如下所示：

现在可以将具有给定参考轨迹的车辆轨迹跟踪问题定义为去找到范围为N的最优控制序列{u₀,u₁,…,u_N-2}，从而最小化以下成本：

加上如下的约束：

公式(59)和(60)便可以将轨迹跟踪问题变换为步骤2中定义的常规ILQR问题。

本发明通过利用平均交叉跟踪误差、最大交叉跟踪误差、平均速度误差和最大速度四个指标对轨迹跟踪算法的性能进行了评估。本发明在五种类型的参考轨迹上计算了上述指标，即圆形轨迹(如图4所示)、椭圆形轨迹(如图5所示)、蛇形轨迹(如图6 所示)、“8”形轨迹(如图7所示)和组合轨迹(如图8所示)。

表1列出了在各种参考轨迹上的误差结果。考虑到车载设备的精度，在各个参考轨迹上的平均交叉跟踪误差及最大交叉跟踪误差都是可以接受的。最大速度较高的原因是在起始时车辆速度为零，而参考轨迹中的初始点的速度为1m/s-2m/s。

表1：各种参考轨迹的误差结果

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备，其特征在于，包括：

S1、建立基于神经网络的动力学模型；使用全连接前馈网络设计神经网络模型，模型有两层隐藏层，每层有64个神经元，每个神经元使用ReLU激活函数，模型的输入为当前时刻的车辆状态与控制指令，输出为下一时刻的车辆状态，该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程；

S2、设计迭代线性二次型调节器的控制算法；

S3、根据S2的控制算法建立轨迹跟踪控制器。

2.根据权利要求1所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法，其特征在于，所述S1的具体实现包括：

设

表示状态，

x_t+1＝f(x_t,u_t) (1)

车辆系统状态

由

给出，其中v_t是在时刻t的线速度，

是在时刻t的转向角速度，控制指令

由

给出，其中p_t是油门踏板输入，b_t是制动输入，

是在时刻t的指令转向角速度，得出车辆的动态方程f如下式：

其中，x_t，u_t作为神经网络模型的输入，x_t+1作为神经网络模型的输出，该神经网络通过最小化预测的输出状态

和观测的输出状态x_t+1之间的均方误差来学习动态方程f。

3.根据权利要求1所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法，其特征在于，所述神经网络模型的训练方法：通过利用搭载惯性测量单元(IMU)的实车在公路和非公路环境中人工驾驶一小时的方式收集车辆的数据，通过观察训练过程中的训练损失和验证损失，利用试验和误差来确定驾驶时间；

其中，在将数据提供给神经网络的输入层之前，先对数据进行白化处理，以降低输入数据特征之间的冗余性。

4.根据权利要求2所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法，其特征在于，所述S2的具体实现包括：

针对非线性离散动态系统：

x_t+1＝f(x_t,u_t) (3)

其中，

是系统状态，

是在时刻t的控制指令；

迭代线性二次型调节器(ILQR)控制算法分为线性化、LQR的反向传递和前向传递三部分：

其中，

为在状态

时生成的最优控制序列，则下一个状态为

为对应于状态x_t及控制u_t的函数的导数，c(x_t,u_t)为在状态x_t及控制输入u_t下的成本函数；

将上式(4)进行重排列：

将

作为新的状态，

作为新的控制输入，则下一个状态为

Q(δx_t,δu_t)为在状态δx_t及控制输入δu_t下的成本函数，从而得到：

其中，

二次部分的系数矩阵

其中，

代表矩阵C_t的左上角部分，

代表矩阵C_t的右上角部分，

代表矩阵C_t的左下角部分，

代表矩阵C_t的右下角部分，线性部分的系数矩阵

其中，

代表矩阵c_t的上半部分，

代表矩阵c_t的下半部分；

在LQR的反向传递部分，通过最小化成本函数Q(δx_t,δu_t)求得最优控制，在时刻t时，通过计算成本函数Q(δx_t,δu_t)的一阶导数为零时的δu_t来得到在此时刻的最优控制；即令

可得到时刻t的最优控制

将式(8)展开并用矩阵K_t及k_t来表示，于是可以得到：

δu_t＝K_tδx_t+k_t (10)

将式(11)展开可以得到：

对展开式进行适当简化，将其看作形如

的二次项与一次项的和，其中，矩阵V_t及v_t分别为：

其中，系数矩阵

表示矩阵C_t的下半部分；

在时刻t-1时，有式(14)成立：

则从时刻t到时刻t-1所产生的成本函数为：

再由

可得：

则成本函数Q(δx_t-1,δu_t-1)表示为：

其中，t-1时刻二次部分的系数矩阵

其中，

代表矩阵Q_t-1的左上角部分，

代表矩阵Q_t-1的右上角部分，

代表矩阵Q_t-1的左下角部分，

代表矩阵Q_t-1的右下角部分，线性部分的系数矩阵

(其中，

代表矩阵q_t-1的上半部分，

代表矩阵q_t-1的下半部分)，在时刻t-1时，通过计算成本函数Q(δx_t-1,δu_t-1)的一阶导数为零时的δu_t-1来得到在此时刻的最优控制，即令

可以得到时刻t-1的最优控制：

δu_t-1＝K_t-1δx_t-1+k_t-1 (19)

其中

将式(20)带入式(17)中，对展开式进行简化处理可以得到：

其中，系数矩阵

表示矩阵Q_t-1的下半部分；

在LQR的前向传递部分，该过程要和真实的非线性系统进行交互，得到新的真实轨迹，

其中，

为在状态

时生成的最优控制序列，则下一个状态为

参数α可以通过回溯行搜索进行调整，将时刻N的状态

与

相结合从而得到新的轨迹。

5.根据权利要求4所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法，其特征在于，所述S3的具体实现包括：

设

是离散时刻i的转向角变化率，控制命令由

给出，其中p_i是油门踏板输入，b_i是制动输入，

是离散时刻i的指令转向角变化率，用π表示状态转移函数f：

s_i+1＝π(s_i,u_i) (23)

x_i+1＝x_i+v_icos(θ_i)Δt

y_i+1＝y_i+v_isin(θ_i)Δt

假设一组具有速度的M个有序姿态，对它们进行三次样条插值，得到参考轨迹；

对于每个状态s_i，将相对于该参考轨迹的误差状态ψ_i定义为一个9元元组

是在状态s_i的车辆与参考轨迹的垂向距离，

是车辆相对于参考轨迹的航向误差，

是对应于参考轨迹上最近点的速度误差(

这里v_p是参考轨迹上最近点的速度)，v_i，

和φ_i来自于状态s_i，将误差状态ψ_i用于迭代线性二次型调节器(ILQR)的状态，从而对参考轨迹的所有误差进行编码，给定在离散时刻i的误差状态ψ_i和控制u_i，用γ表示状态转移函数f，下一时刻的误差状态ψ_i+1如下式：

ψ_i+1＝γ(ψ_i,u_i) (25)

γ可以由以下公式定义：

在误差状态ψ_i下执行u_i的成本l(ψ_i,u_i)如下：

其中，A和B是对角权重矩阵，A的最后3个对角线元素为零，使式(26)中的误差项趋近于零，对于状态ψ_i，其最终成本l_f(ψ_i)如下所示：

将具有给定参考轨迹的车辆轨迹跟踪问题定义为找到范围为N的最优控制序列{u₀,u₁,…,u_N-2}，从而最小化以下成本：

设计如下的约束：

6.一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统，其特征在于，包括：神经网络动力学模型部分、迭代线性二次型调节器部分以及轨迹跟踪控制器部分；

所述神经网络动力学模型部分，使用全连接前馈神经网络设计神经网络动力学模型，模型有两层隐藏层，每层有64个神经元，每个神经元使用ReLU激活函数，模型的输入为当前时刻的车辆状态与控制指令，输出为下一时刻的车辆状态，该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程；

基于神经网络动力学模型设计迭代线性二次型调节器以及轨迹跟踪控制器，由轨迹跟踪控制器最小化迭代线性二次型调节器的成本函数求得最优控制指令，实现对参考轨迹的跟踪。

7.根据权利要求6所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统，其特征在于，所述神经网络动力学模型具体如下：

设n维实向量

表示状态，m维实向量

x_t+1＝f(x_t,u_t) (31)

车辆系统状态

由

给出，其中v_t是在时刻t的线速度，

是在时刻t的转向角速度，控制指令

由

给出，其中p_t是油门踏板输入，b_t是制动输入，

是在时刻t的指令转向角速度，现在给出车辆的动态方程f如下式：

8.根据权利要求7所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统，其特征在于，所述迭代线性二次型调节器的控制算法具体如下：

针对设计的神经网络动力学模型这一非线性离散动态系统：

x_t+1＝f(x_t,u_t) (33)

其中，

是系统状态，

是在时刻t的控制输入；

其中，

为在状态

时生成的最优控制序列，则下一个状态为

将式(34)进行重排列：

将

作为新的状态，

作为新的控制输入，则下一个状态为

其中，

二次部分的系数矩阵

(其中，

代表矩阵C_t的左上角部分，

代表矩阵C_t的右上角部分，

代表矩阵C_t的左下角部分，

代表矩阵C_t的右下角部分)，线性部分的系数矩阵

其中，

代表矩阵c_t的上半部分，

代表矩阵c_t的下半部分，这样就将ILQR问题转化为常规的LQR问题；

在LQR的反向传递中，通过最小化成本函数Q(δx_t,δu_t)求得最优控制，在时刻t时，通过计算成本函数Q(δx_t,δu_t)的一阶导数为零时的δu_t来得到在此时刻的最优控制，即令：

可得到时刻t的最优控制

将式(38)展开并用矩阵K_t及k_t来表示，于是可以得到：

δu_t＝K_tδx_t+k_t (40)

将式(41)展开可以得到：

对式(42)进行适当简化，将其看作形如

的二次项与一次项的和，其中，矩阵V_t及v_t分别为：

其中，系数矩阵

表示矩阵C_t的下半部分；

在时刻t-1时，有式(44)成立：

则从时刻t到时刻t-1所产生的成本函数为：

再由

可得：

则成本函数Q(δx_t-1,δu_t-1)表示为：

其中，t-1时刻二次部分的系数矩阵

其中，

代表矩阵Q_t-1的左上角部分，

代表矩阵Q_t-1的右上角部分，

代表矩阵Q_t-1的左下角部分，

代表矩阵Q_t-1的右下角部分，线性部分的系数矩阵

其中，

代表矩阵q_t-1的上半部分，

代表矩阵q_t-1的下半部分，在时刻t-1时，通过计算成本函数Q(γx_t-1,δu_t-1)的一阶导数为零时的δu_t-1来得到在此时刻的最优控制，即令

可以得到时刻t-1的最优控制：

δu_t-1＝K_t-1δx_t-1+k_t-1 (49)

其中

将式(50)代入式(47)中，对展开式进行简化处理可以得到：

其中，系数矩阵

表示矩阵Q_t-1的下半部分；

其中，

为在状态

时生成的最优控制序列，则下一个状态为

参数α可以通过回溯行搜索进行调整，将时刻N的状态

与

相结合从而得到新的轨迹。

9.根据权利要求8所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统，其特征在于，所述轨迹跟踪控制器的建立具体如下：

设

是离散时刻i的转向角变化率，控制命令由

给出，其中p_i是油门踏板输入，b_i是制动输入，

是离散时刻i的指令转向角变化率，用π表示状态转移函数f：

s_i+1＝π(s_i,u_i) (53)

x_i+1＝x_i+v_icos(θ_i)Δt

y_i+1＝y_i+v_isin(θ_i)Δt

是在状态s_i的车辆与参考轨迹的垂向距离，

是车辆相对于参考轨迹的航向误差，

是对应于参考轨迹上最近点的速度误差(

这里v_p是参考轨迹上最近点的速度)，v_i，

和φ_i来自于状态s_i，将误差状态ψ_i用于迭代线性二次型调节器的状态，从而对参考轨迹的所有误差进行编码，给定在离散时刻i的误差状态ψ_i和控制u_i，用γ表示状态转移函数f，下一时刻的误差状态ψ_i+1如下式：

ψ_i+1＝γ(ψ_i,u_i) (55)

γ可以由以下公式定义：

在误差状态ψ_i下执行u_i的成本l(ψ_i,u_i)如下：

其中，A和B是对角权重矩阵，A的最后3个对角线元素为零，使(56)中的误差项趋近于零，对于状态ψ_i，其最终成本l_f(ψ_i)如下所示：

加上如下的约束：

10.一种车载控制设备，其特征在于，所述车载控制设备内包含权利要求6-9任一项所述的基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统。