CN114995426A - 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备 - Google Patents

一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备 Download PDF

Info

Publication number
CN114995426A
CN114995426A CN202210627864.0A CN202210627864A CN114995426A CN 114995426 A CN114995426 A CN 114995426A CN 202210627864 A CN202210627864 A CN 202210627864A CN 114995426 A CN114995426 A CN 114995426A
Authority
CN
China
Prior art keywords
state
vehicle
neural network
control
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210627864.0A
Other languages
English (en)
Inventor
蔡英凤
曹秀辰
李祎承
廉玉波
钟益林
孙晓强
陈龙
何友国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210627864.0A priority Critical patent/CN114995426A/zh
Publication of CN114995426A publication Critical patent/CN114995426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备,在基于神经网络的动力学模型中,使用全连接前馈神经网络设计了神经网络模型,模型有两层隐藏层,每层有64个神经元,使用ReLU激活函数,模型的输入为当前时刻的车辆状态与控制指令,输出为下一时刻的车辆状态,该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程。基于神经网络动力学模型设计的ILQR控制器内包含迭代线性二次型调节器的控制算法,通过最小化成本函数求得最优控制指令,实现对参考轨迹的跟踪。本发明相比于端到端的控制,所提出的方案可解释性更强,在保证轨迹跟踪精度的同时,兼顾了横向和纵向稳定性。

Description

一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制 方法、系统及车载控制设备
技术领域
本发明涉及无人驾驶车辆控制技术领域,更具体地说,是涉及一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备。
背景技术
无人驾驶技术可以显著提升交通效率、降低交通事故发生率并提高能源使用效率,已成为近年来汽车行业的研究热点。随着无人驾驶技术的快速发展,其在众多领域的应用场景变得越来越广泛。无人小巴车、无人公交车、无人运输卡车等基本实现了特定场景的试运行,且在特定道路和园区等场景实现了初步的商业化落地。无人驾驶技术主要包括感知、决策、控制三个部分,而轨迹跟踪控制可以实现车辆从当前位置稳定、快速地到达目标位置,是无人驾驶技术中尤为重要的一环。
当前,无人驾驶车辆轨迹跟踪控制方法可以分为基于模型的控制方法和无模型的控制方法。基于模型的控制方法被成功地用于控制复杂动态系统。在无模型控制方法中,代理必须从大量样本中为每个任务学习新的策略。传统无人驾驶车辆轨迹跟踪控制器的设计依赖于使用系统的动态模型来计算当前任务的控制律。与无模型的控制方法相比,由于模型的不精确性及外界干扰的不确定性,基于模型的控制方法通常在渐近性能上略有不足。在高度动态的环境中运行的真实车辆上采集样本可能是极其危险的,并且对这类动态系统来说,使用无模型的控制方法所产生的效果通常无法达到预期。在实际的动态系统上,基于模型的控制方法需要具备一定的专业知识,以及无人驾驶车辆中执行器、轮胎力、侧滑等复杂动力学的建模。这些约束在一定程度上限制了基于模型的控制方法在真实车辆系统上的应用。
发明内容
为了解决现有技术中的不足,本发明提出了一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法及系统。本发明利用多层神经网络来学习无人驾驶车辆的动力学模型,将该模型用于迭代线性二次型调节器控制算法的设计并推导出控制律,实现无人驾驶车辆的轨迹跟踪控制任务。本发明主要包括基于神经网络的动力学模型的建立,迭代线性二次型调节器的控制算法的设计,轨迹跟踪控制器的建立和性能评估三个部分。
在基于神经网络的动力学模型的建立中,使用全连接前馈神经网络设计了神经网络模型,模型有两层隐藏层,每层有64个神经元,选择使用ReLU激活函数,模型的输入为当前时刻的车辆状态与控制指令,输出为下一时刻的车辆状态,该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程。本发明通过车载设备来收集驾驶行为的数据,即利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时,以完成数据的采集。
基于所训练的神经网络动力学模型设计ILQR控制器,所述ILQR控制器内包含了迭代线性二次型调节器的控制算法,通过最小化迭代线性二次型调节器控制算法中的成本函数求得最优控制指令,以实现对参考轨迹的跟踪。
进一步,所述神经网络动力学模型具体如下:
设n维实向量
Figure RE-GDA0003760141570000021
表示在离散时刻t的系统状态,m维实向量
Figure RE-GDA0003760141570000022
表示在离散时刻t的系统控制指令,系统动态可以由下式给出:
xt+1=f(xt,ut) (1)
车辆系统状态
Figure RE-GDA0003760141570000023
Figure RE-GDA0003760141570000024
给出,其中vt是在时刻t的线速度,
Figure RE-GDA0003760141570000025
是在时刻t的转向角速度,控制指令
Figure RE-GDA0003760141570000026
Figure RE-GDA0003760141570000027
给出,其中pt是油门踏板输入,bt是制动输入,
Figure RE-GDA0003760141570000028
是在时刻t的指令转向角速度。现在给出车辆的动态方程f如下式:
Figure RE-GDA0003760141570000029
进一步,所述迭代线性二次型调节器的控制算法具体如下:
针对设计的神经网络动力学模型这一非线性离散动态系统:
xt+1=f(xt,ut) (3)
其中,
Figure RE-GDA00037601415700000210
是系统状态,
Figure RE-GDA00037601415700000211
是在时刻t的控制输入。
将非线性环境和成本函数通过泰勒展开局部线性化,之后通过LQR的向后传递过程解出在线性化环境和成本下的最优解,ILQR算法分为线性化、LQR的反向传递和前向传递三部分;
在线性化部分,将ILQR中非线性动态展开成一阶,成本展开成二阶,
Figure RE-GDA0003760141570000031
Figure RE-GDA0003760141570000032
其中,
Figure RE-GDA0003760141570000033
为在状态
Figure RE-GDA0003760141570000034
时生成的最优控制序列,则下一个状态为
Figure RE-GDA0003760141570000035
Figure RE-GDA0003760141570000036
为对应于状态xt及控制ut的函数的导数,c(xt,ut)为在状态xt及控制输入ut下的成本函数。
将上式(4)进行重排列:
Figure RE-GDA0003760141570000037
Figure RE-GDA0003760141570000038
Figure RE-GDA0003760141570000039
作为新的状态,
Figure RE-GDA00037601415700000310
作为新的控制输入,则下一个状态为
Figure RE-GDA00037601415700000311
Q(δxt,δut)为在状态δxt及控制输入δut下的成本函数。从而得到:
Figure RE-GDA00037601415700000312
Figure RE-GDA00037601415700000313
其中,
Figure RE-GDA00037601415700000314
Figure RE-GDA00037601415700000315
二次部分的系数矩阵
Figure RE-GDA00037601415700000316
(其中,
Figure RE-GDA00037601415700000317
代表平均划分矩阵Ct的左上角部分,
Figure RE-GDA00037601415700000318
代表矩阵Ct的右上角部分,
Figure RE-GDA00037601415700000319
代表矩阵Ct的左下角部分,
Figure RE-GDA00037601415700000320
代表矩阵Ct的右下角部分),线性部分的系数矩阵
Figure RE-GDA00037601415700000321
(其中,
Figure RE-GDA00037601415700000322
代表平均划分矩阵ct的上半部分,
Figure RE-GDA00037601415700000323
代表矩阵ct的下半部分)。这样就将ILQR问题转化为常规的LQR问题;
在LQR的反向传递中,本发明通过最小化成本函数Q(δxt,δut)求得最优控制。在时刻t时,通过计算成本函数Q(δxt,δut)的一阶导数为零时的δut来得到在此时刻的最优控制。即令
Figure RE-GDA0003760141570000041
可得到时刻t的最优控制
Figure RE-GDA0003760141570000042
将式(8)展开并用矩阵Kt及kt来表示,于是可以得到:
Figure RE-GDA0003760141570000043
δut=Ktδxt+kt (10)
将式(10)带入式(6)的成本函数Q(δxt,δut)中,将新得到的成本函数记为V(δxt):
Figure RE-GDA0003760141570000044
将式(11)展开可以得到:
Figure RE-GDA0003760141570000045
对展开式进行适当简化,将其看作形如
Figure RE-GDA0003760141570000046
的二次项与一次项的和,其中,矩阵Vt及vt分别为:
Figure RE-GDA0003760141570000047
Figure RE-GDA0003760141570000048
其中,系数矩阵
Figure RE-GDA0003760141570000049
表示矩阵Ct的下半部分。
在时刻t-1时,有式(14)成立:
Figure RE-GDA00037601415700000410
则从时刻t到时刻t-1所产生的成本函数为:
Figure RE-GDA00037601415700000411
再由
Figure RE-GDA00037601415700000412
可得:
Figure RE-GDA0003760141570000051
则成本函数Q(δxt-1,δut-1)表示为:
Figure RE-GDA0003760141570000052
其中,t-1时刻二次部分的系数矩阵
Figure RE-GDA0003760141570000053
(其中,
Figure RE-GDA0003760141570000054
代表矩阵Qt-1的左上角部分,
Figure RE-GDA0003760141570000055
代表矩阵Qt-1的右上角部分,
Figure RE-GDA0003760141570000056
代表矩阵Qt-1的左下角部分,
Figure RE-GDA0003760141570000057
代表矩阵Qt-1的右下角部分),线性部分的系数矩阵
Figure RE-GDA0003760141570000058
(其中,
Figure RE-GDA0003760141570000059
代表矩阵qt-1的上半部分,
Figure RE-GDA00037601415700000510
代表矩阵qt-1的下半部分)。在时刻t-1时,通过计算成本函数Q(δxt-1,δut-1)的一阶导数为零时的δut-1来得到在此时刻的最优控制。即令
Figure RE-GDA00037601415700000511
可以得到时刻t-1的最优控制:
δut-1=Kt-1δxt-1+kt-1 (19)
其中
Figure RE-GDA00037601415700000512
将式(20)带入式(17)中,对展开式进行简化处理可以得到:
Figure RE-GDA00037601415700000513
Figure RE-GDA00037601415700000514
其中,系数矩阵
Figure RE-GDA00037601415700000515
表示矩阵Qt-1的下半部分。
在LQR的前向传递中,该过程要和真实的非线性系统进行交互,得到新的真实轨迹;
Figure RE-GDA00037601415700000516
其中,
Figure RE-GDA00037601415700000517
为在状态
Figure RE-GDA00037601415700000518
时生成的最优控制序列,则下一个状态为
Figure RE-GDA00037601415700000519
参数α可以通过回溯行搜索进行调整。将时刻N的状态
Figure RE-GDA00037601415700000520
相结合从而得到新的轨迹。
进一步,所述轨迹跟踪控制器具体如下:
Figure RE-GDA0003760141570000061
表示轴距为L的车辆在离散时刻i的状态,其中{xi,yii}是姿态,xi和yi分别表示世界坐标系下车辆的纵向和横向坐标,θi是车辆的航向角,φi是转向角,vi是速度,
Figure RE-GDA0003760141570000062
是离散时刻i的转向角变化率,控制命令由
Figure RE-GDA0003760141570000063
给出,其中pi是油门踏板输入,bi是制动输入,
Figure RE-GDA0003760141570000064
是离散时刻i的指令转向角变化率,用π表示状态转移函数f:
si+1=π(si,ui) (23)
由车辆在典型状态si下的自行车模型,车辆的动态方程π(即状态转移函数f)可由以下公式定义:
xi+1=xi+vi cos(θi)Δt
yi+1=yi+vi sin(θi)Δt
Figure RE-GDA0003760141570000065
Figure RE-GDA0003760141570000066
Figure RE-GDA0003760141570000067
给出一组具有速度的M个有序姿态,对它们进行三次样条插值,得到参考轨迹,对于每个状态si,将相对于该参考轨迹的误差状态ψi定义为一个9元元组
Figure RE-GDA0003760141570000068
是在状态si的车辆与参考轨迹的垂向距离,
Figure RE-GDA0003760141570000069
是车辆相对于参考轨迹的航向误差,
Figure RE-GDA00037601415700000610
是对应于参考轨迹上最近点的速度误差(
Figure RE-GDA00037601415700000611
这里vp是参考轨迹上最近点的速度),vi
Figure RE-GDA00037601415700000612
和φi来自于状态si,将误差状态ψi用于迭代线性二次型调节器的状态,从而对参考轨迹的所有误差进行编码,给定在离散时刻i 的误差状态ψi和控制ui,用γ表示状态转移函数f,下一时刻的误差状态ψi+1如下式:
ψi+1=γ(ψi,ui) (25)
γ可以由以下公式定义:
Figure RE-GDA0003760141570000071
Figure RE-GDA0003760141570000072
Figure RE-GDA0003760141570000073
Figure RE-GDA0003760141570000074
Figure RE-GDA0003760141570000075
Figure RE-GDA0003760141570000076
Figure RE-GDA0003760141570000077
Figure RE-GDA0003760141570000078
在误差状态ψi下执行ui的成本l(ψi,ui)如下:
Figure RE-GDA0003760141570000079
其中,A和B是对角权重矩阵,A的最后3个对角线元素为零,使(14)中的误差项趋近于零,对于状态ψ,其最终成本lf(ψ)如下所示:
lf(ψ)=ψTAψ (28)
将具有给定参考轨迹的车辆轨迹跟踪问题定义为去找到范围为N的最优控制序列{u0,u1,…,uN-2},从而最小化以下成本:
Figure RE-GDA00037601415700000710
加上如下的约束:
Figure RE-GDA00037601415700000711
上述控制系统可集成在车载控制设备内,实现无人驾驶车辆的实时轨迹跟踪。
本发明的有益效果:
1、本发明提出了通过车载设备来收集驾驶行为数据的方法,即利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时,来完成数据的采集。所得数据作为车辆动力学模型的输入。由于数据直接来自于人类驾驶的实车数据,相较于驾驶模拟器所得的数据精度更高,种类更多,而且将驾驶员的驾驶风格也考虑在内。
2、本发明提出基于全连接前馈神经网络来设计车辆的神经网络动力学模型,模型有两层隐藏层,与深度神经网络相比不仅提高了计算效率,而且可以准确识别车辆运行过程中各种复杂的动力学行为,并可以学习未建模的车辆动态响应。
3、本发明通过将所设计的神经网络动力学模型与迭代线性二次型调节器控制算法相结合,相比于端到端的控制算法,所提出的算法可解释性更强,并且在不同的路况及行驶工况下可以实现参考轨迹的跟踪控制,在保证轨迹跟踪精度的同时,兼顾了横向和纵向稳定性,为无人驾驶车辆开发高性能的运动控制器奠定良好的基础。
附图说明
图1为本发明实施例基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法的流程图;
图2为车辆动力学数据采集模块;
图3为车辆的自行车模型和参考轨迹的误差状态图;
图4为用于评估轨迹跟踪性能的圆形参考轨迹;
图5为用于评估轨迹跟踪性能的椭圆形参考轨迹;
图6为用于评估轨迹跟踪性能的蛇形参考轨迹;
图7为用于评估轨迹跟踪性能的“8”形参考轨迹;
图8为用于评估轨迹跟踪性能的混合参考轨迹。
具体实施方式
下面结合附图对本发明作进一步说明。
需要说明的是,本发明所有涉及的分割或划分,如矩阵的分割/划分等,都是平均分割或划分。
图1为基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法的流程图,包括模型训练学习和利用基于神经网络动力学模型的ILQR控制器实现轨迹跟踪,总体过程如下:
模型训练学习:通过利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时的方式收集车辆的数据。基于全连接前馈神经网络设计车辆动力学模型,并利用所建立的模型和车辆数据对模型进行训练。
利用基于神经网络动力学模型的ILQR控制器实现轨迹跟踪:通过训练神经网络来学习车辆的动力学方程,并设计ILQR控制器,通过最小化成本函数求得最优控制,以达到对参考轨迹的跟踪。
具体实施过程如下:
步骤1:建立基于神经网络的动力学模型
设n维实向量
Figure RE-GDA0003760141570000091
表示在离散时刻t的系统状态,m维实向量
Figure RE-GDA0003760141570000092
表示在离散时刻t的系统控制指令。系统动态可以由下式给出:
xt+1=f(xt,ut) (31)
车辆系统状态
Figure RE-GDA0003760141570000093
Figure RE-GDA0003760141570000094
给出,其中vt是在时刻t的线速度,
Figure RE-GDA0003760141570000095
是在时刻t的转向角速度。控制指令
Figure RE-GDA0003760141570000096
Figure RE-GDA0003760141570000097
给出,其中pt是油门踏板输入,bt是制动输入,
Figure RE-GDA0003760141570000098
是在时刻t的指令转向角速度。现在给出车辆的动态方程f如下式:
Figure RE-GDA0003760141570000099
图2为车辆动力学数据采集模块。本发明通过利用搭载有惯性测量单元(IMU)等车载设备的实车在公路和非公路环境中人工驾驶一小时的方式来收集车辆的数据 (xt+1,xt,ut)。通过观察训练过程中的训练损失和验证损失,利用试验和误差来确定驾驶时间。根据车辆的硬件规格确定数据采样频率为30Hz。
xt,ut被用作神经网络的输入,xt+1被用作神经网络的输出,该神经网络通过最小化预测的输出状态
Figure RE-GDA00037601415700000910
和观测的输出状态xt+1之间的均方误差来学习动态方程f。在将数据提供给神经网络的输入层之前,先对数据进行白化处理,以降低输入数据特征之间的冗余性。本发明的模型架构采用具有两个隐藏层的全连接神经网络。其中,每个隐藏层有64个神经元,每个神经元均使用了ReLU激活函数。
步骤2:设计迭代线性二次型调节器(ILQR)的控制算法
考虑一个非线性离散动态系统:
xt+1=f(xt,ut) (33)
其中,
Figure RE-GDA00037601415700000911
是系统状态,
Figure RE-GDA00037601415700000912
是在时刻t的控制输入。
迭代线性二次型调节器(ILQR)控制算法可以处理非线性环境和成本,即ILQR 控制算法将非线性环境和成本函数通过泰勒展开局部线性化,之后通过LQR的向后传递过程解出在线性化环境和成本下的最优解。ILQR算法可以分为线性化、LQR的反向传递和前向传递三部分。
在线性化部分,将ILQR中非线性动态展开成一阶,成本展开成二阶。
Figure RE-GDA0003760141570000101
Figure RE-GDA0003760141570000102
其中,
Figure RE-GDA0003760141570000103
为在状态
Figure RE-GDA0003760141570000104
时生成的最优控制序列,则下一个状态为
Figure RE-GDA0003760141570000105
Figure RE-GDA0003760141570000106
为对应于状态xt及控制ut的函数的导数,c(xt,ut)为在状态xt及控制输入ut下的成本函数。
将式(34)进行简单的重排列:
Figure RE-GDA0003760141570000107
Figure RE-GDA0003760141570000108
Figure RE-GDA0003760141570000109
作为新的状态,
Figure RE-GDA00037601415700001010
作为新的控制输入,则下一个状态为
Figure RE-GDA00037601415700001011
Q(δxt,δut)为在状态δxt及控制输入δut下的成本函数。从而得到:
Figure RE-GDA00037601415700001012
Figure RE-GDA00037601415700001013
其中,
Figure RE-GDA00037601415700001014
Figure RE-GDA00037601415700001015
二次部分的系数矩阵
Figure RE-GDA00037601415700001016
(其中,
Figure RE-GDA00037601415700001017
代表平均划分矩阵Ct的左上角部分,
Figure RE-GDA00037601415700001018
代表矩阵Ct的右上角部分,
Figure RE-GDA00037601415700001019
代表矩阵Ct的左下角部分,
Figure RE-GDA00037601415700001020
代表矩阵Ct的右下角部分),线性部分的系数矩阵
Figure RE-GDA00037601415700001021
(其中,
Figure RE-GDA00037601415700001022
代表平均划分矩阵ct的上半部分,
Figure RE-GDA00037601415700001023
代表矩阵ct的下半部分)。这样就将ILQR问题转化为常规的LQR问题了。
在LQR的反向传递中,本发明通过最小化成本函数Q(δxt,δut)求得最优控制。在时刻t时,通过计算成本函数Q(δxt,δut)的一阶导数为零时的δut来得到在此时刻的最优控制。即令
Figure RE-GDA0003760141570000111
可得到时刻t的最优控制
Figure RE-GDA0003760141570000112
将式(38)展开并用矩阵Kt及参数kt来表示,于是可以得到:
Figure RE-GDA0003760141570000113
Figure RE-GDA0003760141570000114
δut=Ktδxt+kt (40)
将式(40)带入式(36)的成本函数Q(δxt,δut)中,将新得到的成本函数记为V(δxt):
Figure RE-GDA0003760141570000115
将式(41)展开可以得到:
Figure RE-GDA0003760141570000116
对式(42)进行适当简化,将其看作形如
Figure RE-GDA0003760141570000117
的二次项与一次项的和,其中,矩阵Vt及参数vt分别为:
Figure RE-GDA0003760141570000118
Figure RE-GDA0003760141570000119
其中,系数矩阵
Figure RE-GDA00037601415700001110
表示矩阵Ct的下半部分。
在时刻t-1时,有式(44)成立:
Figure RE-GDA00037601415700001111
则从时刻t到时刻t-1所产生的成本函数为:
Figure RE-GDA0003760141570000121
再由
Figure RE-GDA0003760141570000122
可得:
Figure RE-GDA0003760141570000123
则成本函数Q(δxt-1,δut-1)表示为:
Figure RE-GDA0003760141570000124
其中,t-1时刻二次部分的系数矩阵
Figure RE-GDA0003760141570000125
(其中,
Figure RE-GDA0003760141570000126
代表矩阵Qt-1的左上角部分,
Figure RE-GDA0003760141570000127
代表矩阵Qt-1的右上角部分,
Figure RE-GDA0003760141570000128
代表矩阵Qt-1的左下角部分,
Figure RE-GDA0003760141570000129
代表矩阵Qt-1的右下角部分),线性部分的系数矩阵
Figure RE-GDA00037601415700001210
(其中,
Figure RE-GDA00037601415700001211
代表矩阵qt-1的上半部分,
Figure RE-GDA00037601415700001212
代表矩阵qt-1的下半部分)。在时刻t-1时,通过计算成本函数Q(δxt-1,δut-1)的一阶导数为零时的δut-1来得到在此时刻的最优控制。即令
Figure RE-GDA00037601415700001213
可以得到时刻t-1的最优控制:
δut-1=Kt-1δxt-1+kt-1 (49)
其中
Figure RE-GDA00037601415700001214
将式(50)代入式(47)中,对展开式进行简化处理可以得到:
Figure RE-GDA00037601415700001215
Figure RE-GDA00037601415700001216
其中,系数矩阵
Figure RE-GDA00037601415700001217
表示矩阵Qt-1的下半部分。
在LQR的前向传递中,要注意该过程要和真实的非线性系统进行交互,得到新的真实轨迹。
Figure RE-GDA00037601415700001218
其中,
Figure RE-GDA0003760141570000131
为在状态
Figure RE-GDA0003760141570000132
时生成的最优控制序列,则下一个状态为
Figure RE-GDA0003760141570000133
参数α可以通过回溯行搜索进行调整。
将时刻N的状态
Figure RE-GDA0003760141570000134
Figure RE-GDA0003760141570000135
相结合从而得到新的轨迹。其中,利用CLIP函数限制一个向量的上下界,即给定一个范围[min,max],如果向量中的值不在这个范围内时,会被设定为这个范围的边界。umin为所有控制输入的下边界,umax为所有控制输入的上边界。
步骤3:建立轨迹跟踪控制器并对其性能进行评估
这一部分首先介绍了轨迹跟踪控制器的开发。设
Figure RE-GDA0003760141570000136
表示轴距为L 的车辆在离散时刻i的状态,其中{xi,yii}是姿态,xi和yi分别表示世界坐标系下车辆的纵向和横向坐标,θi是车辆的航向角,φi是转向角,vi是速度,
Figure RE-GDA0003760141570000137
是离散时刻i的转向角变化率。控制命令由
Figure RE-GDA0003760141570000138
给出,其中pi是油门踏板输入,bi是制动输入,
Figure RE-GDA0003760141570000139
是离散时刻i的指令转向角变化率。用π表示状态转移函数f:
si+1=π(si,ui) (53)
由车辆在典型状态si下的自行车模型,车辆的动态方程π(即状态转移函数f)可由以下公式定义:
xi+1=xi+vi cos(θi)Δt
yi+1=yi+vi sin(θi)Δt
Figure RE-GDA00037601415700001310
Figure RE-GDA00037601415700001311
Figure RE-GDA00037601415700001312
给出一组具有速度的M个有序姿态,对它们进行三次样条插值,得到参考轨迹。
图3为车辆在典型状态si下的自行车模型和参考轨迹的误差状态图。对于每个状态si,将相对于该参考轨迹的误差状态ψi定义为一个9元元组
Figure RE-GDA00037601415700001313
如图3所示,
Figure RE-GDA00037601415700001314
是在状态si的车辆与参考轨迹的垂向距离,
Figure RE-GDA0003760141570000141
是车辆相对于参考轨迹的航向误差,
Figure RE-GDA0003760141570000142
是对应于参考轨迹上最近点的速度误差 (
Figure RE-GDA0003760141570000143
这里vp是参考轨迹上最近点的速度),vi
Figure RE-GDA0003760141570000144
和φi来自于状态si。本发明将误差状态ψi用于迭代线性二次型调节器(ILQR)状态,从而对参考轨迹的所有误差进行编码。给定在离散时刻i的误差状态ψi和控制ui,用γ表示状态转移函数f,下一时刻的误差状态ψi+1如下式:
ψi+1=γ(ψi,ui) (55)
γ可以由以下公式定义:
Figure RE-GDA0003760141570000145
Figure RE-GDA0003760141570000146
Figure RE-GDA0003760141570000147
Figure RE-GDA0003760141570000148
Figure RE-GDA0003760141570000149
Figure RE-GDA00037601415700001410
Figure RE-GDA00037601415700001411
Figure RE-GDA00037601415700001412
在误差状态ψi下执行ui的成本l(ψi,ui)如下:
Figure RE-GDA00037601415700001413
其中,A和B是对角权重矩阵,A的最后3个对角线元素为零,因为本发明只关注使(56)中的误差项趋近于零。对于状态ψi,其最终成本lfi)如下所示:
Figure RE-GDA00037601415700001414
现在可以将具有给定参考轨迹的车辆轨迹跟踪问题定义为去找到范围为N的最优控制序列{u0,u1,…,uN-2},从而最小化以下成本:
Figure RE-GDA00037601415700001415
加上如下的约束:
Figure RE-GDA0003760141570000151
公式(59)和(60)便可以将轨迹跟踪问题变换为步骤2中定义的常规ILQR问题。
本发明通过利用平均交叉跟踪误差、最大交叉跟踪误差、平均速度误差和最大速度四个指标对轨迹跟踪算法的性能进行了评估。本发明在五种类型的参考轨迹上计算了上述指标,即圆形轨迹(如图4所示)、椭圆形轨迹(如图5所示)、蛇形轨迹(如图6 所示)、“8”形轨迹(如图7所示)和组合轨迹(如图8所示)。
表1列出了在各种参考轨迹上的误差结果。考虑到车载设备的精度,在各个参考轨迹上的平均交叉跟踪误差及最大交叉跟踪误差都是可以接受的。最大速度较高的原因是在起始时车辆速度为零,而参考轨迹中的初始点的速度为1m/s-2m/s。
表1:各种参考轨迹的误差结果
Figure RE-GDA0003760141570000152
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备,其特征在于,包括:
S1、建立基于神经网络的动力学模型;使用全连接前馈网络设计神经网络模型,模型有两层隐藏层,每层有64个神经元,每个神经元使用ReLU激活函数,模型的输入为当前时刻的车辆状态与控制指令,输出为下一时刻的车辆状态,该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程;
S2、设计迭代线性二次型调节器的控制算法;
S3、根据S2的控制算法建立轨迹跟踪控制器。
2.根据权利要求1所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法,其特征在于,所述S1的具体实现包括:
Figure RE-FDA0003760141560000011
表示状态,
Figure RE-FDA0003760141560000012
表示在离散时刻t的系统控制指令,系统动态可以由下式给出:
xt+1=f(xt,ut) (1)
车辆系统状态
Figure RE-FDA0003760141560000013
Figure RE-FDA0003760141560000014
给出,其中vt是在时刻t的线速度,
Figure RE-FDA0003760141560000015
是在时刻t的转向角速度,控制指令
Figure RE-FDA0003760141560000016
Figure RE-FDA0003760141560000017
给出,其中pt是油门踏板输入,bt是制动输入,
Figure RE-FDA0003760141560000018
是在时刻t的指令转向角速度,得出车辆的动态方程f如下式:
Figure RE-FDA0003760141560000019
其中,xt,ut作为神经网络模型的输入,xt+1作为神经网络模型的输出,该神经网络通过最小化预测的输出状态
Figure RE-FDA00037601415600000110
和观测的输出状态xt+1之间的均方误差来学习动态方程f。
3.根据权利要求1所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法,其特征在于,所述神经网络模型的训练方法:通过利用搭载惯性测量单元(IMU)的实车在公路和非公路环境中人工驾驶一小时的方式收集车辆的数据,通过观察训练过程中的训练损失和验证损失,利用试验和误差来确定驾驶时间;
其中,在将数据提供给神经网络的输入层之前,先对数据进行白化处理,以降低输入数据特征之间的冗余性。
4.根据权利要求2所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法,其特征在于,所述S2的具体实现包括:
针对非线性离散动态系统:
xt+1=f(xt,ut) (3)
其中,
Figure RE-FDA0003760141560000021
是系统状态,
Figure RE-FDA0003760141560000022
是在时刻t的控制指令;
迭代线性二次型调节器(ILQR)控制算法分为线性化、LQR的反向传递和前向传递三部分:
在线性化部分,将ILQR中非线性动态展开成一阶,成本展开成二阶,
Figure RE-FDA0003760141560000023
Figure RE-FDA0003760141560000024
其中,
Figure RE-FDA0003760141560000025
为在状态
Figure RE-FDA0003760141560000026
时生成的最优控制序列,则下一个状态为
Figure RE-FDA0003760141560000027
Figure RE-FDA0003760141560000028
为对应于状态xt及控制ut的函数的导数,c(xt,ut)为在状态xt及控制输入ut下的成本函数;
将上式(4)进行重排列:
Figure RE-FDA0003760141560000029
Figure RE-FDA00037601415600000210
Figure RE-FDA00037601415600000211
作为新的状态,
Figure RE-FDA00037601415600000212
作为新的控制输入,则下一个状态为
Figure RE-FDA00037601415600000213
Q(δxt,δut)为在状态δxt及控制输入δut下的成本函数,从而得到:
Figure RE-FDA00037601415600000214
Figure RE-FDA00037601415600000215
其中,
Figure RE-FDA00037601415600000216
Figure RE-FDA0003760141560000031
二次部分的系数矩阵
Figure RE-FDA0003760141560000032
其中,
Figure RE-FDA0003760141560000033
代表矩阵Ct的左上角部分,
Figure RE-FDA0003760141560000034
代表矩阵Ct的右上角部分,
Figure RE-FDA0003760141560000035
代表矩阵Ct的左下角部分,
Figure RE-FDA0003760141560000036
代表矩阵Ct的右下角部分,线性部分的系数矩阵
Figure RE-FDA0003760141560000037
其中,
Figure RE-FDA0003760141560000038
代表矩阵ct的上半部分,
Figure RE-FDA0003760141560000039
代表矩阵ct的下半部分;
在LQR的反向传递部分,通过最小化成本函数Q(δxt,δut)求得最优控制,在时刻t时,通过计算成本函数Q(δxt,δut)的一阶导数为零时的δut来得到在此时刻的最优控制;即令
Figure RE-FDA00037601415600000310
可得到时刻t的最优控制
Figure RE-FDA00037601415600000311
将式(8)展开并用矩阵Kt及kt来表示,于是可以得到:
Figure RE-FDA00037601415600000312
δut=Ktδxt+kt (10)
将式(10)带入式(6)的成本函数Q(δxt,δut)中,将新得到的成本函数记为V(δxt):
Figure RE-FDA00037601415600000313
将式(11)展开可以得到:
Figure RE-FDA00037601415600000314
对展开式进行适当简化,将其看作形如
Figure RE-FDA00037601415600000315
的二次项与一次项的和,其中,矩阵Vt及vt分别为:
Figure RE-FDA00037601415600000316
Figure RE-FDA00037601415600000317
其中,系数矩阵
Figure RE-FDA0003760141560000041
表示矩阵Ct的下半部分;
在时刻t-1时,有式(14)成立:
Figure RE-FDA0003760141560000042
则从时刻t到时刻t-1所产生的成本函数为:
Figure RE-FDA0003760141560000043
再由
Figure RE-FDA0003760141560000044
可得:
Figure RE-FDA0003760141560000045
则成本函数Q(δxt-1,δut-1)表示为:
Figure RE-FDA0003760141560000046
其中,t-1时刻二次部分的系数矩阵
Figure RE-FDA0003760141560000047
其中,
Figure RE-FDA0003760141560000048
代表矩阵Qt-1的左上角部分,
Figure RE-FDA0003760141560000049
代表矩阵Qt-1的右上角部分,
Figure RE-FDA00037601415600000410
代表矩阵Qt-1的左下角部分,
Figure RE-FDA00037601415600000411
代表矩阵Qt-1的右下角部分,线性部分的系数矩阵
Figure RE-FDA00037601415600000412
(其中,
Figure RE-FDA00037601415600000413
代表矩阵qt-1的上半部分,
Figure RE-FDA00037601415600000414
代表矩阵qt-1的下半部分),在时刻t-1时,通过计算成本函数Q(δxt-1,δut-1)的一阶导数为零时的δut-1来得到在此时刻的最优控制,即令
Figure RE-FDA00037601415600000415
可以得到时刻t-1的最优控制:
δut-1=Kt-1δxt-1+kt-1 (19)
其中
Figure RE-FDA00037601415600000416
将式(20)带入式(17)中,对展开式进行简化处理可以得到:
Figure RE-FDA00037601415600000417
Figure RE-FDA00037601415600000418
其中,系数矩阵
Figure RE-FDA00037601415600000419
表示矩阵Qt-1的下半部分;
在LQR的前向传递部分,该过程要和真实的非线性系统进行交互,得到新的真实轨迹,
Figure RE-FDA0003760141560000051
其中,
Figure RE-FDA0003760141560000052
为在状态
Figure RE-FDA0003760141560000053
时生成的最优控制序列,则下一个状态为
Figure RE-FDA0003760141560000054
参数α可以通过回溯行搜索进行调整,将时刻N的状态
Figure RE-FDA0003760141560000055
Figure RE-FDA0003760141560000056
相结合从而得到新的轨迹。
5.根据权利要求4所述一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法,其特征在于,所述S3的具体实现包括:
Figure RE-FDA0003760141560000057
表示轴距为L的车辆在离散时刻i的状态,其中{xi,yii}是姿态,xi和yi分别表示世界坐标系下车辆的纵向和横向坐标,θi是车辆的航向角,φi是转向角,vi是速度,
Figure RE-FDA0003760141560000058
是离散时刻i的转向角变化率,控制命令由
Figure RE-FDA0003760141560000059
给出,其中pi是油门踏板输入,bi是制动输入,
Figure RE-FDA00037601415600000510
是离散时刻i的指令转向角变化率,用π表示状态转移函数f:
si+1=π(si,ui) (23)
由车辆在典型状态si下的自行车模型,车辆的动态方程π(即状态转移函数f)可由以下公式定义:
xi+1=xi+vicos(θi)Δt
yi+1=yi+visin(θi)Δt
Figure RE-FDA00037601415600000511
Figure RE-FDA00037601415600000512
Figure RE-FDA00037601415600000513
假设一组具有速度的M个有序姿态,对它们进行三次样条插值,得到参考轨迹;
对于每个状态si,将相对于该参考轨迹的误差状态ψi定义为一个9元元组
Figure RE-FDA0003760141560000061
Figure RE-FDA0003760141560000062
是在状态si的车辆与参考轨迹的垂向距离,
Figure RE-FDA0003760141560000063
是车辆相对于参考轨迹的航向误差,
Figure RE-FDA0003760141560000064
是对应于参考轨迹上最近点的速度误差(
Figure RE-FDA0003760141560000065
这里vp是参考轨迹上最近点的速度),vi
Figure RE-FDA0003760141560000066
和φi来自于状态si,将误差状态ψi用于迭代线性二次型调节器(ILQR)的状态,从而对参考轨迹的所有误差进行编码,给定在离散时刻i的误差状态ψi和控制ui,用γ表示状态转移函数f,下一时刻的误差状态ψi+1如下式:
ψi+1=γ(ψi,ui) (25)
γ可以由以下公式定义:
Figure RE-FDA0003760141560000067
Figure RE-FDA0003760141560000068
Figure RE-FDA0003760141560000069
Figure RE-FDA00037601415600000610
Figure RE-FDA00037601415600000611
Figure RE-FDA00037601415600000612
Figure RE-FDA00037601415600000613
Figure RE-FDA00037601415600000614
在误差状态ψi下执行ui的成本l(ψi,ui)如下:
Figure RE-FDA00037601415600000615
其中,A和B是对角权重矩阵,A的最后3个对角线元素为零,使式(26)中的误差项趋近于零,对于状态ψi,其最终成本lfi)如下所示:
Figure RE-FDA00037601415600000616
将具有给定参考轨迹的车辆轨迹跟踪问题定义为找到范围为N的最优控制序列{u0,u1,…,uN-2},从而最小化以下成本:
Figure RE-FDA0003760141560000071
设计如下的约束:
Figure RE-FDA0003760141560000072
6.一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统,其特征在于,包括:神经网络动力学模型部分、迭代线性二次型调节器部分以及轨迹跟踪控制器部分;
所述神经网络动力学模型部分,使用全连接前馈神经网络设计神经网络动力学模型,模型有两层隐藏层,每层有64个神经元,每个神经元使用ReLU激活函数,模型的输入为当前时刻的车辆状态与控制指令,输出为下一时刻的车辆状态,该神经网络通过最小化预测的输出状态和观测的输出状态之间的均方误差来学习动态方程;
基于神经网络动力学模型设计迭代线性二次型调节器以及轨迹跟踪控制器,由轨迹跟踪控制器最小化迭代线性二次型调节器的成本函数求得最优控制指令,实现对参考轨迹的跟踪。
7.根据权利要求6所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统,其特征在于,所述神经网络动力学模型具体如下:
设n维实向量
Figure RE-FDA0003760141560000073
表示状态,m维实向量
Figure RE-FDA0003760141560000074
表示在离散时刻t的系统控制指令,系统动态可以由下式给出:
xt+1=f(xt,ut) (31)
车辆系统状态
Figure RE-FDA0003760141560000075
Figure RE-FDA0003760141560000076
给出,其中vt是在时刻t的线速度,
Figure RE-FDA0003760141560000077
是在时刻t的转向角速度,控制指令
Figure RE-FDA0003760141560000078
Figure RE-FDA0003760141560000079
给出,其中pt是油门踏板输入,bt是制动输入,
Figure RE-FDA00037601415600000710
是在时刻t的指令转向角速度,现在给出车辆的动态方程f如下式:
Figure RE-FDA00037601415600000711
8.根据权利要求7所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统,其特征在于,所述迭代线性二次型调节器的控制算法具体如下:
针对设计的神经网络动力学模型这一非线性离散动态系统:
xt+1=f(xt,ut) (33)
其中,
Figure RE-FDA0003760141560000081
是系统状态,
Figure RE-FDA0003760141560000082
是在时刻t的控制输入;
将非线性环境和成本函数通过泰勒展开局部线性化,之后通过LQR的向后传递过程解出在线性化环境和成本下的最优解,ILQR算法分为线性化、LQR的反向传递和前向传递三部分;
在线性化部分,将ILQR中非线性动态展开成一阶,成本展开成二阶,
Figure RE-FDA0003760141560000083
Figure RE-FDA0003760141560000084
其中,
Figure RE-FDA0003760141560000085
为在状态
Figure RE-FDA0003760141560000086
时生成的最优控制序列,则下一个状态为
Figure RE-FDA0003760141560000087
Figure RE-FDA0003760141560000088
为对应于状态xt及控制ut的函数的导数,c(xt,ut)为在状态xt及控制输入ut下的成本函数;
将式(34)进行重排列:
Figure RE-FDA0003760141560000089
Figure RE-FDA00037601415600000810
Figure RE-FDA00037601415600000811
作为新的状态,
Figure RE-FDA00037601415600000812
作为新的控制输入,则下一个状态为
Figure RE-FDA00037601415600000813
Q(δxt,δut)为在状态δxt及控制输入δut下的成本函数,从而得到:
Figure RE-FDA00037601415600000814
Figure RE-FDA00037601415600000815
其中,
Figure RE-FDA00037601415600000816
Figure RE-FDA00037601415600000817
二次部分的系数矩阵
Figure RE-FDA0003760141560000091
(其中,
Figure RE-FDA0003760141560000092
代表矩阵Ct的左上角部分,
Figure RE-FDA0003760141560000093
代表矩阵Ct的右上角部分,
Figure RE-FDA0003760141560000094
代表矩阵Ct的左下角部分,
Figure RE-FDA0003760141560000095
代表矩阵Ct的右下角部分),线性部分的系数矩阵
Figure RE-FDA0003760141560000096
其中,
Figure RE-FDA0003760141560000097
代表矩阵ct的上半部分,
Figure RE-FDA0003760141560000098
代表矩阵ct的下半部分,这样就将ILQR问题转化为常规的LQR问题;
在LQR的反向传递中,通过最小化成本函数Q(δxt,δut)求得最优控制,在时刻t时,通过计算成本函数Q(δxt,δut)的一阶导数为零时的δut来得到在此时刻的最优控制,即令:
Figure RE-FDA0003760141560000099
可得到时刻t的最优控制
Figure RE-FDA00037601415600000910
将式(38)展开并用矩阵Kt及kt来表示,于是可以得到:
Figure RE-FDA00037601415600000911
Figure RE-FDA00037601415600000912
δut=Ktδxt+kt (40)
将式(40)带入式(36)的成本函数Q(δxt,δut)中,将新得到的成本函数记为V(δxt):
Figure RE-FDA00037601415600000913
将式(41)展开可以得到:
Figure RE-FDA00037601415600000914
对式(42)进行适当简化,将其看作形如
Figure RE-FDA00037601415600000915
的二次项与一次项的和,其中,矩阵Vt及vt分别为:
Figure RE-FDA00037601415600000916
Figure RE-FDA00037601415600000917
其中,系数矩阵
Figure RE-FDA0003760141560000101
表示矩阵Ct的下半部分;
在时刻t-1时,有式(44)成立:
Figure RE-FDA0003760141560000102
则从时刻t到时刻t-1所产生的成本函数为:
Figure RE-FDA0003760141560000103
再由
Figure RE-FDA0003760141560000104
可得:
Figure RE-FDA0003760141560000105
则成本函数Q(δxt-1,δut-1)表示为:
Figure RE-FDA0003760141560000106
其中,t-1时刻二次部分的系数矩阵
Figure RE-FDA0003760141560000107
其中,
Figure RE-FDA0003760141560000108
代表矩阵Qt-1的左上角部分,
Figure RE-FDA0003760141560000109
代表矩阵Qt-1的右上角部分,
Figure RE-FDA00037601415600001010
代表矩阵Qt-1的左下角部分,
Figure RE-FDA00037601415600001011
代表矩阵Qt-1的右下角部分,线性部分的系数矩阵
Figure RE-FDA00037601415600001012
其中,
Figure RE-FDA00037601415600001013
代表矩阵qt-1的上半部分,
Figure RE-FDA00037601415600001014
代表矩阵qt-1的下半部分,在时刻t-1时,通过计算成本函数Q(γxt-1,δut-1)的一阶导数为零时的δut-1来得到在此时刻的最优控制,即令
Figure RE-FDA00037601415600001015
可以得到时刻t-1的最优控制:
δut-1=Kt-1δxt-1+kt-1 (49)
其中
Figure RE-FDA00037601415600001016
将式(50)代入式(47)中,对展开式进行简化处理可以得到:
Figure RE-FDA00037601415600001017
Figure RE-FDA00037601415600001018
其中,系数矩阵
Figure RE-FDA00037601415600001019
表示矩阵Qt-1的下半部分;
在LQR的前向传递中,该过程要和真实的非线性系统进行交互,得到新的真实轨迹;
Figure RE-FDA0003760141560000111
其中,
Figure RE-FDA0003760141560000112
为在状态
Figure RE-FDA0003760141560000113
时生成的最优控制序列,则下一个状态为
Figure RE-FDA0003760141560000114
参数α可以通过回溯行搜索进行调整,将时刻N的状态
Figure RE-FDA0003760141560000115
Figure RE-FDA0003760141560000116
相结合从而得到新的轨迹。
9.根据权利要求8所述的一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统,其特征在于,所述轨迹跟踪控制器的建立具体如下:
Figure RE-FDA0003760141560000117
表示轴距为L的车辆在离散时刻i的状态,其中{xi,yii}是姿态,xi和yi分别表示世界坐标系下车辆的纵向和横向坐标,θi是车辆的航向角,φi是转向角,vi是速度,
Figure RE-FDA0003760141560000118
是离散时刻i的转向角变化率,控制命令由
Figure RE-FDA0003760141560000119
给出,其中pi是油门踏板输入,bi是制动输入,
Figure RE-FDA00037601415600001110
是离散时刻i的指令转向角变化率,用π表示状态转移函数f:
si+1=π(si,ui) (53)
由车辆在典型状态si下的自行车模型,车辆的动态方程π(即状态转移函数f)可由以下公式定义:
xi+1=xi+vicos(θi)Δt
yi+1=yi+visin(θi)Δt
Figure RE-FDA00037601415600001111
Figure RE-FDA00037601415600001112
Figure RE-FDA00037601415600001113
给出一组具有速度的M个有序姿态,对它们进行三次样条插值,得到参考轨迹,对于每个状态si,将相对于该参考轨迹的误差状态ψi定义为一个9元元组
Figure RE-FDA0003760141560000121
Figure RE-FDA0003760141560000122
是在状态si的车辆与参考轨迹的垂向距离,
Figure RE-FDA0003760141560000123
是车辆相对于参考轨迹的航向误差,
Figure RE-FDA0003760141560000124
是对应于参考轨迹上最近点的速度误差(
Figure RE-FDA0003760141560000125
这里vp是参考轨迹上最近点的速度),vi
Figure RE-FDA0003760141560000126
和φi来自于状态si,将误差状态ψi用于迭代线性二次型调节器的状态,从而对参考轨迹的所有误差进行编码,给定在离散时刻i的误差状态ψi和控制ui,用γ表示状态转移函数f,下一时刻的误差状态ψi+1如下式:
ψi+1=γ(ψi,ui) (55)
γ可以由以下公式定义:
Figure RE-FDA0003760141560000127
Figure RE-FDA0003760141560000128
Figure RE-FDA0003760141560000129
Figure RE-FDA00037601415600001210
Figure RE-FDA00037601415600001211
Figure RE-FDA00037601415600001212
Figure RE-FDA00037601415600001213
Figure RE-FDA00037601415600001214
在误差状态ψi下执行ui的成本l(ψi,ui)如下:
Figure RE-FDA00037601415600001215
其中,A和B是对角权重矩阵,A的最后3个对角线元素为零,使(56)中的误差项趋近于零,对于状态ψi,其最终成本lfi)如下所示:
Figure RE-FDA00037601415600001216
将具有给定参考轨迹的车辆轨迹跟踪问题定义为去找到范围为N的最优控制序列{u0,u1,…,uN-2},从而最小化以下成本:
Figure RE-FDA0003760141560000131
加上如下的约束:
Figure RE-FDA0003760141560000132
10.一种车载控制设备,其特征在于,所述车载控制设备内包含权利要求6-9任一项所述的基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制系统。
CN202210627864.0A 2022-06-06 2022-06-06 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备 Pending CN114995426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210627864.0A CN114995426A (zh) 2022-06-06 2022-06-06 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210627864.0A CN114995426A (zh) 2022-06-06 2022-06-06 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备

Publications (1)

Publication Number Publication Date
CN114995426A true CN114995426A (zh) 2022-09-02

Family

ID=83031702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210627864.0A Pending CN114995426A (zh) 2022-06-06 2022-06-06 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备

Country Status (1)

Country Link
CN (1) CN114995426A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115657689A (zh) * 2022-12-26 2023-01-31 安徽大学 一种基于轨迹预测的自主水下航行器目标跟踪控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115657689A (zh) * 2022-12-26 2023-01-31 安徽大学 一种基于轨迹预测的自主水下航行器目标跟踪控制方法

Similar Documents

Publication Publication Date Title
CN111845774B (zh) 一种基于横纵向协调的自动驾驶汽车动态轨迹规划及跟踪方法
CN111258323B (zh) 一种智能车辆轨迹规划与跟踪的联合控制方法
Gao et al. Robust lateral trajectory following control of unmanned vehicle based on model predictive control
CN110568760A (zh) 适用于换道及车道保持的参数化学习决策控制系统及方法
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN108717268A (zh) 基于最优控制与安全距离的自动驾驶最速操纵控制系统及其控制方法
Huang et al. Human-machine cooperative trajectory planning and tracking for safe automated driving
CN113467470B (zh) 一种无人自主小车的轨迹跟踪控制方法
Na et al. Experimental evaluation of a game-theoretic human driver steering control model
CN114942642A (zh) 一种无人驾驶汽车轨迹规划方法
Farag Complex-track following in real-time using model-based predictive control
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
Khalifa et al. Vehicles platooning in urban environment: Consensus-based longitudinal control with limited communications capabilities
CN114995426A (zh) 一种基于神经网络动力学模型的无人驾驶车辆轨迹跟踪控制方法、系统及车载控制设备
Filip Trajectory tracking for autonomous vehicles
CN113184040B (zh) 一种基于驾驶人转向意图的无人车线控转向控制方法及系统
CN114779641A (zh) 基于新航向误差定义的环境自适应mpc路径追踪控制方法
Pagot et al. Fast Planning and Tracking of Complex Autonomous Parking Maneuvers With Optimal Control and Pseudo-Neural Networks
Fehér et al. Proving ground test of a ddpg-based vehicle trajectory planner
CN111857112B (zh) 一种汽车局部路径规划方法及电子设备
Kovacs et al. Integrated path planning and lateral-longitudinal control for autonomous electric vehicles
Huang et al. A data-based lane-keeping steering control for autonomous vehicles: A human-in-the-loop approach
CN112596516B (zh) 基于Dubins曲线的多车队形切换方法
CN114291112A (zh) 一种应用于自动驾驶汽车的决策规划协同增强方法
Baumgart et al. Hybrid Optimal Traffic Control: Combining Model-Based and Data-Driven Approaches.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination