CN118025223A

CN118025223A - 基于长短时记忆网络的无人驾驶汽车学习型预测控制方法

Info

Publication number: CN118025223A
Application number: CN202410055698.0A
Authority: CN
Inventors: 钟爱平; 张浪文; 冯太合; 沈浩林; 王中旭; 程小时; 辛文涛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-05-14
Anticipated expiration: 2044-01-15
Also published as: CN118025223B

Abstract

本发明涉及控制技术领域，为基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，包括：结合帕采卡轮胎模型建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型；基于长短时记忆网络对非线性车辆动力学模型进行训练，得到优化的非线性车辆动力学模型；使用模型预测控制MPC方法作为优化的车辆动力学模型控制策略，利用模型预测控制MPC方法的最优化问题进行滚动优化；使用梯度下降法求解在线最优控制的最优化问题输出最优控制序列，将最优控制序列中的第一个元素作为下一时刻的自动驾驶汽车的实际控制输入量。本发明通过准确的模型建立和优化控制策略可以减少事故的风险，并使车辆能够适应不同路况和驾驶需求，可以提升自动驾驶汽车的安全性能。

Description

基于长短时记忆网络的无人驾驶汽车学习型预测控制方法

技术领域

本发明属于控制技术领域，具体涉及基于长短时记忆网络的无人驾驶汽车学习型预测控制方法。

背景技术

随着硬件计算能力的提升和控制方法的更新，自动驾驶汽车(AV)技术正在蓬勃发展。然而在实际应用中，也有出现自动驾驶汽车事故，甚至危及生命的现象。安全问题也始终是学术界和制造商的首要考虑因素。因此，首先应该实现在复杂的环境中进行合理的路径规划；其次便是基于车辆模型的路径跟踪问题。然而，对于如何建立车辆模型，以及设计合理的控制器实现路径跟踪，仍然是当前自动驾驶汽车技术下的难题。

深度学习作为一种典型的自动特征提取方法，近年来越来越受到人们的关注，通常，当使用包含复杂特征的大数据进行建模时，深度学习的性能优于浅层学习方法。而车辆动力学模型是复杂的非线性系统，深度学习在处理该系统时其提取特征的优势将更为明显。

模型预测控制(MPC)被广泛认为是一种高性能且实用的控制技术。这种基于模型的控制策略使用系统响应的预测来建立适当的控制响应，在各个领域中都被广泛应用。在硬件的算力满足要求的条件下，模型预测控制具有杰出且强大的控制能力，适用于高精度的路径跟踪问题。但实际问题中，MPC往往会受到计算能力的限制，因此，采取适当的方式减轻计算需求可以保证在算力较低的情况下使用这种高效的算法，符合生产商要求的目标。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，通过准确的模型建立和优化控制策略可以减少事故的风险，并使车辆能够适应不同路况和驾驶需求，可以提升自动驾驶汽车的安全性能。

本发明可以通过采取如下技术方案达到：

基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，所述方法包括：

1、基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，包括以下步骤：

S1、结合帕采卡轮胎模型的线性化纵向力和侧向力的公式，建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型；

S2、将车辆的历史输入数据、历史状态数据作为训练集，基于长短时记忆网络对非线性车辆动力学模型进行训练，得到优化的非线性车辆动力学模型；

S3、使用模型预测控制MPC方法作为优化的车辆动力学模型控制策略，设定最优化问题；使用含自适应学习参数的梯度下降法求解最优化问题，输出控制时域内的最优控制序列，将最优控制序列中的第一个控制信号作为下一时刻的自动驾驶汽车的实际控制输入。

具体地，所述结合帕采卡轮胎模型的线性化纵向力和侧向力的公式，建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型，包括：

基于阿克曼驾驶汽车模型应用牛顿第二定律到纵向、横向和偏航自由度，建立车辆动力学模型；

对帕采卡轮胎模型中纵向力和横向力的公式进行简化，将车辆动力学模型在局部固定车体坐标系中的运动转化为惯性坐标系的运动，建立轮胎模型；

根据车辆动力学模型和轮胎模型建立非线性车辆动力学模型。

具体地，所述车辆动力学模型表示为：

其中，Iz指的是偏航惯性，m是车辆重量，δ_f是前轮转向角度，l_f、l_r为质心到前轴、后轴的距离，是车辆纵向速度,/>是车辆横向速度，/>是车辆纵向加速度，/>是车辆横向加速度，v_cf、v_cr为前轮纵向速度、后轮纵向速度，v_cf、v_cr为前轮横向速度、后轮横向速度，/>为偏航角速率，/>为偏航角加速度，F_lf、F_lr为前轮纵向力、后轮纵向力，F_cf、F_cr为前轮横向力、后轮横向力；

所述轮胎模型表示为：

其中，分别代表惯性坐标系下的车辆纵向加速度和车辆横向加速度，/>是局部固定车体坐标系中的车辆纵向速度,/>是局部固定车体坐标系中的车辆横向速度，/>为偏航角。

具体地，所述非线性车辆动力学模型表示如下：

z(t+1)＝f_ture(z(t),u(t))；u(t)＝δ_f；

其中，z(t+1)就是当t+1时刻的车辆系统预测状态，z(t)为t时刻的车辆系统状态，u(t)为t时刻的控制输入，δ_f是前轮转向角度，是局部固定车体坐标系中的车辆纵向速度,是局部固定车体坐标系中的车辆横向速度，/>为偏航角，/>为偏航角速率，X,Y分别代表局部固定车体坐标系中的车辆纵向速度和车辆横向速度。

具体地，所述将车辆的历史输入数据、历史状态数据作为训练集，基于长短时记忆网络对非线性车辆动力学模型进行训练，得到优化的非线性车辆动力学模型，包括：基于非线性车辆动力学模型提供车辆行驶中的物理基础和约束条件，将历史输入数据、历史状态数据代入LSTM网络进行拟合得到优化的非线性车辆动力学模型，优化的非线性车辆动力学模型可以用于预测车辆的预测状态。

具体地，所述优化的非线性车辆动力学模型表示为：

其中，z(t)为t时刻的车辆系统状态、u(t)为t时刻的控制输入，为t+1时刻的预测状态向量，f(z(t),u(t))为LSTM网络所建立的映射。

具体地，所述步骤S3包括：

S31、设定最优化问题，输入参考轨迹，设置初始迭代次数p＝0，设置优化终止条件阈值J_set；

S32、基于参考轨迹通过优化的车辆动力学模型在线计算最优化问题，如果目标代价函数的值J＞J_set,令p＝p+1，进入步骤S33；否则令p＝0，进入步骤S35；

S33、通过优化的车辆动力学模型的输出预测状态根据预测状态计算雅比矩阵，通过梯度下降法GD更新控制输入；

S34、令学习速率η随着迭代自适应更新，返回步骤S32；

S35、输出最优控制输入序列，将最优控制序列中的第一个元素作为自动驾驶汽车的实际控制输入。

具体地，所述最优化问题表示为：

其中，J(t)称为目标代价函数，是预测时域T_P下的预测状态，R^T(t)是参考轨迹状态，由路径规划的方法得出；U^T(t)是控制时域T_c下的最优控制输入，ΔU^T(t)是控制输入增量，||表示向量里面的元素取绝对值；Δu(t)＝u(t+1)-u(t)，表示u(t)的变化量；ΔU(t)＝U(t+1)-U(t)表示U(t)的变化量，a和b是/>和U(t)的权重系数，u_min和u_max，z_min和z_max分别是控制输入和系统状态的上下界。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过结合Pacejka轮胎模型简化系统，建立了基于阿克曼(Ackerman)驾驶汽车模型的非线性车辆动力学模型，该模型将车辆动力学系统的重要参数包含在内，并用数学公式建立起联系，精确的建模成为了控制精度的保障。

2、本发明通过引入LSTM网络进行建模，将深度学习技术应用于轨迹跟踪问题。LSTM网络具有良好的序列建模能力和记忆能力，能够对动态和时序数据进行有效建模。通过使用LSTM网络，自动驾驶汽车能够更好地捕捉到轨迹跟踪问题中的时间依赖性和序列性质，提高了轨迹跟踪系统的性能和鲁棒性。

3、本发明通过应用MPC进行模型求解，利用了模型预测控制的优势能够在实时反馈和最优控制之间实现平衡，通过迭代求解优化问题，并考虑系统模型和约束条件，生成最优的控制输入序列。同时通过自适应学习参数和梯度下降法GD算法，使迭代过程的计算量减轻。使自动驾驶汽车能够以高效且可靠的方式进行轨迹跟踪，并适应复杂的道路和环境条件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例的基于数据驱动的模型预测控制优化自动驾驶汽车轨迹跟踪问题的流程图；

图2为本发明实施例的车辆动力学模型示意图；

图3为本发明实施例的展开的LSTM网络的结构图；

图4为本发明实施例的LSTM单元的结构图；

图5为本发明实施例的采用梯度下降法GD求解模型预测控制的最优化问题的流程图。

具体实施方式

下面将结合附图和实施例，对本发明技术方案做进一步详细描述，显然所描述的实施例是本发明一部分实施例，而不是全部的实施例，本发明的实施方式并不限于此。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明的整体思路是利用基于长短时记忆网络的无人驾驶汽车学习型预测控制方法来解决非线性车辆动力学建模和预测控制的问题。相比现有技术，本发明的建立的将阿克曼驾驶汽车模型与Pacejka轮胎模型相结合建立的非线性车辆动力学模型使得算法具有更广阔的实用性，并将LSTM，梯度下降法GD与MPC相结合，采用了LSTM网络来对非线性车辆动力学进行预测，结合最优化问题设计了滚动优化控制方法，并结合梯度下降法GD优化运算，相比于现有技术减轻了MPC计算要求的同时实现了更准确的预测和控制效果。

如图1所示，本发明所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，包括以下步骤：

S1、结合帕采卡(Pacejka)轮胎模型的线性化纵向力和侧向力，建立基于阿克曼(Ackerman)驾驶汽车模型的非线性车辆动力学模型。

具体的，基于阿克曼驾驶汽车模型进行动力学分析，并结合Pacejka轮胎模型进行简化，建立非线性车辆动力学模型，本发明将路径跟踪问题分为了车辆模型和轮胎模型。阿克曼(Ackerman)转向车辆的自行车模型是一种简单而有效的车辆模型，在车辆稳定性控制方面得到了广泛应用。阿克曼驾驶汽车模型是自动驾驶领域中最经典且常用的建模模型之一，具有无需考虑汽车的尺寸和型号等因素的优点，在此基础上建立的自动驾驶控制方法具有通用性。为了使用该模型，需要考虑以下几个简化假设：(1)同一轴上的多个车轮集中在位于前轴或后轴中心位置处；(2)车身重量均匀分布在每个车轮上；(3)忽略悬架运动、滑移现象和空气动力学体。

基于阿克曼驾驶汽车模型应用牛顿第二定律到纵向、横向和偏航自由度，建立车辆动力学模型，车辆动力学模型表示为：

其中，Iz指的是偏航惯性，m是车辆重量，δ_f是前轮转向角度，l_f、l_r为质心到前轴、后轴的距离，是车辆纵向速度(在xoy平面上),/>是车辆横向速度(在xoy平面上)，/>是车辆纵向加速度，/>是车辆横向加速度，v_cf、v_cr为前轮纵向速度、后轮纵向速度，v_cf、v_cr为前轮横向速度、后轮横向速度，/>为偏航角速率，/>为偏航角加速度，F_lf、F_lr为前轮纵向力、后轮纵向力，F_cf、F_cr为前轮横向力、后轮横向力；如图2所示，为本发明实施例的车辆动力学模型示意图，其中XOY表示惯性坐标系，xoy表示局部主体固定坐标系。

除了气动力和重力的影响之外，车辆上的其他力来自于轮胎，选择一个接近实际情况的轮胎模型非常重要。为了解决轮胎上的横向力和纵向力，本发明采用了一种名为帕采卡(Pacejka)轮胎模型的半经验非线性模型，Pacejka轮胎模型可以在保证实际应用的前提下出色地处理非线性且复杂的轮胎动力学问题。将阿克曼驾驶汽车模型与Pacejka轮胎模型相结合，使本发明所提出的算法可应用于不同设计需求下的自动驾驶汽车场景，更具普适性。当轮胎的曲线角和滑移率很小时，对帕采卡轮胎模型中纵向力和横向力的公式进行简化，轮胎模型中纵向力和横向力的线性化简公式如下所示：

其中，F_lf/F_lr为前/后轮纵向力，F_cf/F_cr为前/后轮横向力，C_lf，C_lr分别表示前轮，后轮的纵向刚度；C_cf，C_cr表示前轮，后轮的横向刚度；s_f，s_r表示前轮，后轮的滑移率；α_f，α_r表示前轮和后轮的侧偏角。

将车辆动力学模型在局部固定车体坐标系中的运动转化为惯性坐标系的运动，建立轮胎模型，轮胎模型表示为：

车辆模型和轮胎模型建立完成，根据车辆模型和轮胎模型建立非线性车辆动力学模型，所建立的非线性车辆动力学模型有助于实现“高精度控制”。根据上述建立的车辆模型和轮胎模型，而δ_f是前轮转向角度被用作控制变量u，u＝δ_f，而显然上述建立的数学模型是非线性的。

综合上述状态，车辆的六状态空间变量向量z可以表示为：

其中，是局部固定车体坐标系中的车辆纵向速度,/>是局部固定车体坐标系中的车辆横向速度，/>为偏航角，/>为偏航角速率，X,Y分别代表惯性坐标系中的车辆纵向速度和车辆横向速度。

由此可将非线性车辆动力学模型表示如下：

z(t+1)＝f_ture(z(t),u(t))，u(t)＝δ_f

其中，z(t+1)就是当t+1时刻的车辆系统预测状态，z(t)为t时刻的车辆系统状态，即t时刻的车辆的六状态空间变量，u(t)为t时刻的控制输入，δ_f是前轮转向角度。

通过对车辆的动力学进行建模分析，根据车辆动力学模型和轮胎模型建立非线性车辆动力学模型，使模型满足实际行驶过程中的动力学约束，保证后续预测和控制器的实施精度。

S2、将车辆的历史输入数据、历史状态数据作为训练集，基于长短时记忆网络(LSTM)对非线性车辆动力学模型进行训练，得到优化的非线性车辆动力学模型。优化的非线性车辆动力学模型用于预测未来车辆的状态和行为。

长短时记忆网络(LSTM)与递归神经网络(RNN)整体上的结构类似，然而，在标准RNN模型中，由于网络难以捕获长期依赖关系，经常出现梯度现象消失的问题；这是因为乘法梯度会随着层数呈指数衰减。因此，在较长时间间隔内存储的信息在短期记忆中是非常有限的。LSTM则是在RNN的基础上，对隐状态的计算做了适当的调整，并另外加入了细胞状态数C来作为记忆单元以关联时间跨度更长远的信息。LSTM网络具有序列建模和记忆能力，能够更好地理解和预测车辆的运动轨迹，使得自动驾驶汽车具有“对复杂环境的适应能力”。它使用三个门控单元(遗忘门、输入门和输出门)来保护和控制记忆单元状态，这样信息将被存储和记忆很长一段时间由于这些原因，LSTM网络在建模过程中会表现得更好，在这些过程中，长时间序列开始的输入对序列结束的输出的预测至关重要。非线性车辆动力学模型可以提供车辆行驶中的物理基础和约束条件，而LSTM网络可以在这个基础上，通过历史输入、输出进行学习并用于预测未来车辆的状态和行为。通过使用LSTM网络，可以更好地处理驾驶任务中的时间序列数据，并结合非线性车辆动力学模型，使得无人驾驶汽车能够更准确地预测和控制其行驶状态和路径。

LSTM网络可分为展开的LSTM网络结构，如图3所示，为本发明实施例的展开的LSTM网络的结构图，LSTM网络包括多个LSTM单元，使用m∈R^(n+m)×T表示输入序列的矩阵，使用表示网络输出序列的矩阵，传递给展开序列中下一个LSTM单元，每个LSTM单元的输出是隐藏状态，并且隐藏状态的向量是用h表示的。预测期结束时的网络输出/>取决于所有内部状态h(1),…,h(T)，其中内部状态的数量T(即LSTM单元的数量)对应于时间序列输入样本的长度。通过LSTM网络通过从k＝1到k＝T迭代计算以下方程式，计算得到从输入序列m计算到输出序列/>的映射:

h(t)＝o(t)tanh(c(t))

其中，σ(·)是sigmoid函数，tanh(·)是双曲正切函数，它们都是激活函数。h(t)是内部状态，是具有权重矩阵ω_y和偏置向量b_y的重复LSTM模块的输出。此外，c(t)是细胞状态，其存储要传递给网络单元的信息，其中/>和b_c分别表示细胞状态激活函数中的输入和隐藏状态向量的权重矩阵和偏置向量，在每个LSTM单元中进行的一系列交互的非线性函数，表示为/>在LSTM网络中，重复模块的内部结构执行了上述的迭代计算。

如图4所示，为本发明实施例的LSTM单元的结构图，LSTM单元包括输入门、遗忘门和输出门，LSTM单元的输入门、遗忘门和输出门的输出分别用i(t)，f(t)，o(t)表示；相应地，分别是输入向量m和隐藏状态向量h在输入门、遗忘门和输出门中的权重矩阵，b_i，b_f，b_o分别表示三个门中的偏置向量。这些门控单元和细胞状态通过一系列的非线性函数、权重矩阵和偏置项进行交互，从而实现LSTM单元的运算和学习过程。

具体地，基于非线性车辆动力学模型提供车辆行驶中的物理基础和约束条件，将历史输入、历史输出代入LSTM网络进行拟合得到优化的非线性车辆动力学模型，优化的非线性车辆动力学模型可以用于预测车辆的预测状态。通过使用LSTM网络，可以更好地处理驾驶任务中的时间序列数据，并结合非线性车辆动力学模型，使得无人驾驶汽车能够更准确地预测和控制其行驶状态和路径。

车辆历史输入包括车辆过去多个时刻的加速、刹车、转向等操纵输入数据，历史输出包括指车辆的历史状态，如位置、位姿、速度等。LSTM网络具有记忆单元和门控机制，可以有效地捕捉序列数据中的长期依赖关系，可以利用车辆的历史输入数据、输出数据作为LSTM网络的训练数据来学习车辆的动态行为以预测车辆的未来行动状态与位姿，也就是LSTM网络可以作为一种建模方法来进行建立优化的非线性车辆动力学模型。

车辆历史输入U_pass(t)表示为：

U_pass(t)＝[u(t-1),u(t-2),…,u(t-l)]，

其中，u(t)、u(t-1)分别为t、t-1时刻的控制输入，l为数据总量。

车辆历史状态Z_pass(t)表示为：

Z_pass(t)＝[z(t),z(t-1),…,z(t-l)]。

其中，z(t),z(t-1)分别为t、t-1时刻的车辆历史状态，l为数据总量。

优化的非线性车辆动力学模型可表示为：

其中，z(t)为t时刻的车辆系统状态、u(t)为t时刻的控制输入，为t+1时刻的预测状态向量，f(z(t),u(t))是长短时记忆网络LSTM网络所建立的映射。

基于长短时记忆网络(LSTM)所建立的无人驾驶汽车学习型模型，通过学习过去的驾驶数据，能够更精确地建立模型，并更符合实际驾驶情况。相比传统的理想情况建模方法，这种精确的建模能够减少模型预测控制MPC在考虑鲁棒性时的限制。在节约输入控制能源的同时，提升系统控制的准确性，降低系统因为模型偏差而导致路径偏离或与障碍物刮碰的风险。这种精确的建模帮助无人驾驶汽车更好地适应实际驾驶环境，减少事故的发生可能性。本发明通过将深度学习的LSTM网络应用于轨迹跟踪问题，使自动驾驶汽车能够更好地学习和适应复杂的道路和环境条件。

具体的，在利用LSTM建立模型之后，使用模型预测控制(MPC)作为车辆动力学模型控制策略，设定最优化问题，进行滚动最优控制，将采用模型预测控制(MPC)对其进行求解。模型预测控制(MPC)是一种以模型为基础的控制策略，广泛应用于动态系统的控制和优化。MPC的基本原理可以分为三个步骤：建立预测模型、滚动优化、反馈校正。其中，预测模型已经利用LSTM建立。模型预测控制通过在每个控制周期内对车辆系统进行多步预测，并根据预测值求解最优化问题(优化)，从而得到预测时域内使得目标函数最小的输入序列，最终只采用输入序列的第一个输入作为下一时刻的输入值(滚动)，这体现了MPC滚动优化的思想。

具体地，如图5所示，步骤S3具体包括：

S31、设定最优化问题，输入参考轨迹R(t)，设置初始迭代次数p＝0，设置优化终止条件阈值J_set。

给定预测时域T_P和控制时域T_c，在模型预测控制MPC方法的最优化问题可以表示为：

其中，J(t)称为目标代价函数，是预测时域T_P下的预测状态，R^T(t)是参考轨迹状态，由路径规划的方法得出；U^T(t)是控制时域T_c下的最优控制输入，ΔU^T(t)是控制输入增量，||表示向量里面的元素取绝对值；Δu(t)＝u(t+1)-u(t)，表示u(t)的变化量；ΔU(t)＝U(t+1)-U(t)

表示U(t)的变化量，a、b分别是和U(t)的权重系数，u_min、u_max分别是控制输入的上下界，z_min、z_max分别是系统状态的上下界。其中：

R^T(t)＝[r(t+1),r(t+2),…,r(t+T_p)]；

U^T(t)＝[u(t),u(t+1),…,u(t+T_c-1)]；

ΔU^T(t)＝[Δu(t),Δu(t+1),…,Δu(t+T_c-1)]。

可以看到，目标代价函数的最小化将同时保证参考轨迹状态和实际状态的误差最小化且控制输入增量最小化，并可以根据实际汽车的不同模型设定权重系数a、b的数值相对大小以决定优先保证误差最小或控制输入增量最小。目标代价函数中最小化误差的设计体现了MPC反馈矫正的思想。在S1中可知，前轮转向角度被用作控制变量，控制输入增量即为前轮转向角度的变化量。

自动驾驶汽车在制作的过程中可根据产品参数以及精度要求的不同，为目标代价函数设置不同的优化终止条件阈值，当目标代价函数低于阈值时，说明此时的误差和控制输入增量满足了所设定的要求。阈值越低，所对应的控制精度越高。但若阈值过低，可能将出现无限迭代仍然无解的现象，此时应适当调整阈值，或对路径规划算法进行改进。

本实施例中的参考轨迹已经由路径规划算法给出，即路径规划算法通过考虑交通状况、障碍物、道路规则等因素来计算出安全且高效的移动路径，得出参考轨迹。

模型预测控制MPC方法基于LSTM网络进行预测，即使进入了新的环境，与环境相关的车辆参数和约束，由环境决定的路径规划及速度等约束条件条件发生了变化，该方法也能通过实时的学习，对不同路况下的车辆行为进行学习和预测。这使得MPC方法能够适应各种路况，如高速公路、城市道路等，并根据驾驶需求做出相应的控制决策。它可以根据驾驶任务的要求，在不同的驾驶环境中灵活地做出适应性的调整和决策。模型预测控制MPC方法充分考虑了约束条件，如车辆的运动范围、速度限制、碰撞避免等。通过在优化过程中考虑这些约束条件，MPC方法可以帮助车辆避免危险驾驶行为，并减少事故发生的风险。它可以根据实时路况和车辆状态做出相应的调整，从而提供更安全的驾驶控制。

S33、通过优化的车辆动力学模型的输出预测状态根据预测状态计算雅比矩阵，通过梯度下降法GD更新控制输入。

使用含自适应学习参数的梯度下降法(GD)求解最优化问题，具体包括：根据优化的车辆动力学模型的输出车辆预测状态计算雅比矩阵，令学习速率η随着迭代自适应更新，计算迭代p次数的控制输入增量；通过迭代p次数的最优控制输入和迭代p次数的控制输入增量更新控制输入。

使用含自适应学习参数的梯度下降法可以减少迭代次数，并提出自适应学习策略进一步优化，以获取最优控制策略。具体地，通过迭代p次数的最优控制输入和迭代p次数的控制输入增量更新控制输入，更新后的控制输入U_p+1(t)可以表示为：

U_p+1(t)＝U_p(t)+ΔU_p(t)；

其中，U_p(t)是迭代p次数的最优控制输入，ΔU_p(t)是迭代p次数的控制输入增量，η是学习速率，p是迭代次数。

根据目标代价函数J(t)推导计算迭代p次数的控制输入增量，将目标代价函数J(t)代入可得：

代入推导可得ΔU_p(t)：

可以发现，处理优化问题的关键是计算预测模型输出的导数，即雅可比矩阵根据优化的车辆动力学模型的输出车辆预测状态计算雅比矩阵，根据雅比矩阵计算得到计算迭代p次数的控制输入增量。

由于LSTM网络中使用的激活函数为连续可导的s型函数和双曲正切函数，因此计算优化的车辆动力学模型的雅可比矩阵是可行的。此外，可采用数值微分作为替代方法，确保雅可比矩阵中的每个元素都是可用的。

S34、令学习速率η随着迭代自适应更新，返回步骤S32；

为了进一步加快收敛速度，令学习速率η随着迭代自适应更新，可得：

其中，α为每次迭代的衰减率，p为迭代次数。

S35、输出最优控制输入序列，将最优控制序列中的第一个元素作为自动驾驶汽车的实际控制输入，最优控制输入序列U(t)：

U^T(t)＝[u(t),u(t+1),…,u(t+T_c-1)]，

将最优控制序列中的第一个元素u(t)作为控制信号应用于系统中，以确保系统的输出能够准确地跟踪不同模式下的参考轨迹。

利用MPC控制器结合当前自动驾驶汽车系统的测量数值和预测模型，可以预测未来一段时域内的系统输出。通过解决满足目标函数和各种约束的优化问题，可以获取控制时域内的一系列最优控制序列，该时段比预测时域时间短。然后，将所得最优控制序列中的第一个元素作为自动驾驶汽车的实际控制量，随后在下一时刻重复上述过程。此处选取最优控制序列的第一个元素即为模型预测控制的滚动优化的思想，通过这种滚动方式，可以持续控制被控对象，实现对系统的持续控制。

本发明提供了基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，利用MPC控制器结合当前自动驾驶汽车系统的测量数值和预测模型，可以预测未来一段时域内的系统输出。通过解决满足目标函数和各种约束的优化问题，可以获取控制时域内的一系列最优控制序列，该时段比预测时域时间短。然后，将所得最优控制序列中的第一个元素作为自动驾驶汽车的实际控制量，随后在下一时刻重复上述过程。此处选取最优控制序列的第一个元素即为模型预测控制的滚动优化，通过这种滚动优化，可以持续控制被控对象，实现对系统的持续控制。准确的模型建立和优化控制策略可以减少事故的风险，并使车辆能够适应不同路况和驾驶需求。通过精确的路径跟踪和高效的控制，可以提升自动驾驶汽车的安全性能。

针对不同的车辆动力学模型，本发明具有开放性和可扩展性，可适用于不同类型的自动驾驶汽车和不同的道路场景。通过调整车辆模型和轮胎模型的参数，以及优化控制参数，可以根据实际需求进行定制化和扩展。这种开放性和可扩展性使得本发明具备广泛适应性，并能够满足不同自动驾驶汽车的需求。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述结合帕采卡轮胎模型的线性化纵向力和侧向力的公式，建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型，包括：

3.根据权利要求2所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述车辆动力学模型表示为：

其中，I_z指的是偏航惯性，m是车辆重量，δ_f是前轮转向角度，l_f、l_r为质心到前轴、后轴的距离，是车辆纵向速度,/>是车辆横向速度，/>是车辆纵向加速度，/>是车辆横向加速度，v_cf、v_cr为前轮纵向速度、后轮纵向速度，v_cf、v_cr为前轮横向速度、后轮横向速度，/>为偏航角速率，/>为偏航角加速度，F_lf、F_lr为前轮纵向力、后轮纵向力，F_cf、F_cr为前轮横向力、后轮横向力；

所述轮胎模型表示为：

4.根据权利要求3所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述非线性车辆动力学模型表示如下：

z(t+1)＝f_ture(z(t),u(t))；u(t)＝δ_f；

其中，z(t+1)就是当t+1时刻的车辆系统预测状态，z(t)为t时刻的车辆系统状态，u(t)为t时刻的控制输入，δ_f是前轮转向角度。

5.根据权利要求4所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述将车辆的历史输入数据、历史状态数据作为训练集，基于长短时记忆网络对非线性车辆动力学模型进行训练，得到优化的非线性车辆动力学模型，包括：基于非线性车辆动力学模型提供车辆行驶中的物理基础和约束条件，将历史输入数据、历史状态数据代入LSTM网络进行拟合得到优化的非线性车辆动力学模型。

6.根据权利要求5所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述优化的非线性车辆动力学模型表示为：

其中，z(t)为t时刻的车辆系统状态、u(t)为t时刻的控制输入，为t+1时刻的预测状态向量，f(.)为LSTM网络所建立的映射。

7.根据权利要求6所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述步骤S3包括：

S34、令学习速率η随着迭代自适应更新，返回步骤S32；

8.根据权利要求7所述的基于长短时记忆网络的无人驾驶汽车学习型预测控制方法，其特征在于，所述最优化问题表示为：