CN116560241A

CN116560241A - 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置

Info

Publication number: CN116560241A
Application number: CN202310838056.3A
Authority: CN
Inventors: 段京良; 陈良发; 闫昊琪; 刘征宇; 高路路; 马飞
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-08-08
Anticipated expiration: 2043-07-10
Also published as: CN116560241B

Abstract

本申请提出一种面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置，涉及自动驾驶技术领域，该方法包括：获取铰接车的自车状态和第一预测时域内的第一参考轨迹，将铰接车的自车状态和第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态，根据各预测时刻的自车状态和第一参考轨迹构建参数化策略网络的目标函数进行迭代训练得到最优参数化策略网络，获取铰接车的待预测自车状态、预设的第二预测时域和第二预测时域内的第二参考轨迹，将待预测自车状态和第二参考轨迹输入最优参数化策略网络生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。本申请具有计算效率高、精度高、省内存的优点。

Description

面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置

技术领域

本申请涉及自动驾驶技术领域，尤其涉及面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置。

背景技术

铰接车的自动驾驶对于减少生产安全事故、降低运营成本、缓解工人负担和提高生产效率等方面有着巨大的潜力。其中，运动控制是自动驾驶的核心技术之一，人工智能技术的发展促进了预测型运动控制方法的广泛应用。

现有的预测型运动控制方法存在两点缺陷：一方面：控制器需要基于预测模型及约束条件，不断迭代求解每一采样周期的最优控制序列。当车载计算资源不足或者约束过多导致求解复杂度增加时，在线求解的速度难以满足车载控制器的控制实时性要求。另一方面，一些方法通过离线建立状态量到最优控制律之间的映射关系，在线应用时，根据当前的状态查表获取相应控制律。但是随着状态规模的增加，查表的计算时间以及所需状态存储空间也会显著增加。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种面向铰接车的显式循环模型预测控制轨迹跟踪方法，解决了现有铰接车预测型轨迹跟踪控制问题在线求解效率低、预测时域短的技术问题，通过将在线优化问题转化为循环策略参数的离线求解，能够根据控制器的实际算力实时调整在线应用时循环策略的循环次数，从而实现铰接车预测型轨迹跟踪控制问题的高实时在线计算，具有计算效率高、精度高、省内存的优点。

本申请的第二个目的在于提出一种面向铰接车的显式循环模型预测控制轨迹跟踪装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种面向铰接车的显式循环模型预测控制轨迹跟踪方法，包括：获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。

可选地，在本申请的一个实施例中，将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态，包括：

将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络得到初始预测时刻的自车控制动作，将铰接车的自车状态和初始预测时刻的自车控制动作输入铰接车的离散时间运动学方程，得到下一预测时刻的自车状态，并逐步求解得到第一预测时域内各预测时刻的自车状态。

可选地，在本申请的一个实施例中，铰接车的离散时间运动学方程表示为：

其中，为铰接车t+1预测时刻的自车状态，A为状态矩阵，/>为铰接车t预测时刻的自车状态，B为输入矩阵，/>为铰接车t预测时刻的自车控制动作。

可选地，在本申请的一个实施例中，根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，包括：

根据第一预测时域内的第一参考轨迹得到第一预测时域内各预测时刻的参考轨迹点信息；

根据第一预测时域内各预测时刻的自车状态和对应预测时刻的参考轨迹点信息的差值构建多个效用函数，并将多个效用函数的离散时间积分作为参数化策略网络的目标函数。

可选地，在本申请的一个实施例中，根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络，包括：

根据目标函数，构建参数化策略网络的损失函数；

根据损失函数求解策略梯度，并以梯度下降的方式更新参数化策略网络的参数，不断迭代，直至参数化策略网络的参数收敛，得到最优参数化策略网络。

可选地，在本申请的一个实施例中，参数化策略网络的目标函数表示为：

其中，为参数化策略网络的目标函数，/>为初始预测时刻的自车状态，/>为第一预测时域内的参考轨迹点信息，/>为第一预测时域的最大预测步数，/>为参数化网络参数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第/>预测时刻的参数化策略网络；

参数化策略网络的损失函数，表示为：

其中，为参数化策略网络的损失函数，/>表示对参数化策略网络的目标函数求数学期望，/>为第一预测时域的最大预测步数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第预测时刻的参数化策略网络。

可选地，在本申请的一个实施例中，自车控制动作包括铰接车前车体的纵向加速度和前后车体铰接角角速度，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车，包括：

将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，循环计算得到初始预测时刻的自车控制动作序列，初始预测时刻的自车控制动作序列包括初始预测时刻的自车控制动作；

根据待预测自车状态和初始预测时刻的自车控制动作得到铰接车第二预测时刻的自车状态，根据第二预测时刻的自车状态和对应预测时刻的参考轨迹点信息通过最优参数化策略网络循环计算，得到第二预测时刻的自车控制动作序列，其中，第二预测时刻的自车控制动作序列包括更新后的初始预测时刻的自车控制动作和第二预测时刻的自车控制动作；

循环迭代计算第二预测时域内各预测时刻的自车控制动作序列，直至循环计算时间大于铰接车控制系统给定的控制计算时间或者循环计算次数等于第二预测时域的最大预测步数时，输出当前预测时刻的上一预测时刻的自车控制动作序列中第一个控制量作为铰接车的自车控制动作。

为达上述目的，本申请第二方面实施例提出了一种面向铰接车的显式循环模型预测控制轨迹跟踪装置，包括：

获取模块，用于获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；

初始化模块，用于获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；

前向求解模块，用于将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；

训练模块，用于根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；

生成模块，用于获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的面向铰接车的显式循环模型预测控制轨迹跟踪方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种面向铰接车的显式循环模型预测控制轨迹跟踪方法。

本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法、装置、计算机设备和非临时性计算机可读存储介质，解决了现有铰接车预测型轨迹跟踪控制问题在线求解效率低、预测时域短的技术问题，通过将在线优化问题转化为循环策略参数的离线求解，能够根据控制器的实际算力实时调整在线应用时循环策略的循环次数，从而实现铰接车预测型轨迹跟踪控制问题的高实时在线计算，具有计算效率高、精度高、省内存的优点。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种面向铰接车的显式循环模型预测控制轨迹跟踪方法的流程图；

图2为本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法的另一个流程图；

图3为本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法的最优参数化策略网络自适应获取最大预测步数的示意图；

图4为本申请实施例二所提供的一种面向铰接车的显式循环模型预测控制轨迹跟踪装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置。

图1为本申请实施例一所提供的一种面向铰接车的显式循环模型预测控制轨迹跟踪方法的流程示意图。

如图1所示，该面向铰接车的显式循环模型预测控制轨迹跟踪方法包括以下步骤：

步骤101，获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；

步骤102，获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；

步骤103，将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；

步骤104，根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；

步骤105，获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。

本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法，通过获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。由此，能够解决现有铰接车预测型轨迹跟踪控制问题在线求解效率低、预测时域短的技术问题，通过将在线优化问题转化为循环策略参数的离线求解，能够根据控制器的实际算力实时调整在线应用时循环策略的循环次数，从而实现铰接车预测型轨迹跟踪控制问题的高实时在线计算，具有计算效率高、精度高、省内存的优点。

本申请在给定参考轨迹点的情况下，通过将铰接车的轨迹跟踪控制构建为有限时域、无约束的预测型最优控制问题。采用一种具有高实时在线计算能力的显式循环模型预测控制算法，通过利用循环函数近似不同预测步数下控制问题的最优解，并根据轨迹跟踪控制问题的目标函数设计离线训练循环策略的损失函数，将在线优化问题转化为循环策略参数的离线求解。在线应用时循环策略的循环次数可根据控制器的实际算力实时调整，从而实现铰接车预测型轨迹跟踪控制问题的高实时在线计算。本申请具有计算效率高（循环函数直接近似最优控制量）、精度高（保留被控对象模型的非线性特性）、省内存（不存储大量状态到控制量的映射关系）的优点，突破了现有的铰接车预测型轨迹跟踪控制问题在线求解效率低、预测时域短的瓶颈。

进一步地，在本申请实施例中，将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态，包括：

进一步地，在本申请实施例中，铰接车的离散时间运动学方程表示为：

进一步地，在本申请实施例中，根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，包括：

进一步地，在本申请实施例中，根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络，包括：

根据目标函数，构建参数化策略网络的损失函数；

进一步地，在本申请实施例中，参数化策略网络的目标函数表示为：

参数化策略网络的损失函数，表示为：

进一步地，在本申请实施例中，自车控制动作包括铰接车前车体的纵向加速度和前后车体铰接角角速度，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车，包括：

本申请实施例中，根据第二预测时刻的自车状态和第二预测时刻的自车控制动作得到铰接车第三预测时刻的自车状态，根据第三预测时刻的自车状态和对应预测时刻的参考轨迹点信息通过最优参数化策略网络循环计算，得到第三预测时刻的自车控制动作序列，其中，第三预测时刻的自车控制动作序列包括再次更新后的初始预测时刻的自车控制动作、更新后的第二预测时刻的自车控制动作和第三预测时刻的自车控制动作；循环迭代计算第二预测时域内各预测时刻的自车控制动作序列，直至循环计算时间大于铰接车控制系统给定的控制计算时间或者循环计算次数等于第二预测时域的最大预测步数时，输出当前预测时刻的上一预测时刻的自车控制动作序列中第一个控制量作为铰接车的自车控制动作，其中，所述当前预测时刻的上一预测时刻的自车控制动作序列中第一个控制量为经过数次更新的初始预测时刻的自车控制动作。

本申请利用循环函数根据算力资源动态变化自适应近似不同预测时域的最优控制量，求解效率高；本申请构建最优控制问题时保留了被控对象模型的非线性特性，控制精度高；本申请通过设计离线训练循环策略的损失函数，将在线优化问题转化为循环策略参数的离线求解，不需要存储大量的状态到控制量映射关系，可节省内存资源。

下面详细介绍本申请的面向铰接车的显式循环模型预测控制轨迹跟踪方法。

在假设已经得到大地坐标系下的参考轨迹点以及参考量的情况下，以自车位置为原点建立自车坐标系，基于铰接车离散时间运动学方程以及当前策略输出的动作获取预测时域内各时刻自车状态量；预测轨迹由若干连续的车辆轨迹点组成，其中车辆轨迹点可以包括车辆位置，即自车直角坐标系下铰接车前车体重心点的坐标，车辆朝向和车辆速度等；策略可以是给定的初始化策略网络，也可以是上一次训练得到的策略网络，动作可以是铰接车铰接角角速度以及前车体加速度；利用得到的自车状态量与参考轨迹上对应时刻参考点的差值构建效用函数，以铰接车初始时刻至终端时刻的有限时域内的效用函数的离散时间积分作为目标函数。效用函数用于表达铰接车对参考轨迹的跟踪性能，包括自车相对轨迹距离、航向角误差、速度误差和铰接角大小。利用铰接车预测时域内各预测轨迹点以及对应参考轨迹点信息作为参数化策略网络输入；以铰接车的离散运动学方程作为运动约束，以控制分量幅值约束为控制约束；以参数化最优策略作为参数化策略网络的输出。

对参数化策略网络进行迭代求解，每次迭代过程中，首先从初始时刻至终端时刻前向求解各时刻的自车状态，然后利用求解得到的状态以及环境信息（即参考轨迹以及其他路况信息）作为模型输入构建目标函数并求解策略梯度，并以梯度下降的方式更新参数化策略的参数，不断重复上述迭代过程直至参数化策略的参数收敛，得到最优参数化策略。最优参数化策略在线应用中，控制器根据自车当前状态以及环境信息利用循环函数直接近似最优控制策略，循环函数计算过程中可以根据计算资源调整预测步数，若计算未超时则继续循环计算并保存中间结果，直到时间结束后将最终结果进行输出，从而自适应地得到满足实时性要求的最大循环策略，使得循环次数可由控制器的实际算力决定，计算资源越多，循环次数越多。

在一些实施例中，参数化策略网络表示为：

式（1）中，为参数化策略网络的目标函数，定义为初始时刻/>至终端时刻/>的预测时域/>内效用函数/>的离散时间积分，/>、/>和/>分别为预测时域/>内任意时刻/>的自车状态、环境状态（即参考轨迹以及其他路况信息）和自车动作，/>，将初始时刻和终端时刻的自车状态分别定义为初始状态和终端状态；/>为循环/>次的控制策略，用于根据/>时刻的自车状态/>得到该时刻对应的自车动作/>，/>为参数化策略网络中待优化的参数，/>为预测时域内的最大预测步数。

式（2）为构建的参数化策略网络的约束，即时刻的自车状态/>需要满足铰接车的离散时间运动学方程/>的运动约束，其中/>为状态矩阵，/>为输入矩阵；此外，系统的控制输入/>需要满足控制分量的幅值约束，/>表示各控制分量，/>表示第j个控制量的约束幅值下界，/>第j个控制量的约束幅值上界。

式（3）为循环函数的数学描述；其中为隐藏状态，初始隐藏状态/>为0；/>为循环函数的最终输出；/>为时刻/>到/>的环境信息（即参考轨迹以及其他路况信息）;/>和/>为循环层函数，/>、/>为对应函数参数；/>的输入包括初始状态/>，本次输入的环境信息为上一时刻循环的隐藏状态为/>；/>的输入为下一时刻的隐藏状态/>。

本申请利用循环函数循环次数等于预测步数的特性，可以通过不同循环次数的循环函数对相应预测步数控制问题的最优解进行近似。利用循环函数近似不同预测步数控制问题的最优解除了可以提高在线计算效率，还可以实现算力自适应的功能。循环函数在线应用中，若计算未超时则继续循环计算并保存中间结果，直到时间结束后将最终结果进行输出，从而自适应地得到满足实时性要求的最大循环策略，使得循环次数可由控制器的实际算力决定，计算资源越多，循环次数越多。

进一步地，针对结构化道路场景轨迹跟踪问题，本实施例构建的参数化策略网络中，设时刻的自车状态/>包含/>时刻铰接车在大地坐标系下的横纵向位置/>、纵向速度、航向角/>和铰接角/>，即/>，并设环境状态/>中含有自车状态各参数的参考值分别为/>；设时刻/>的自车动作/>包含/>时刻铰接车前车体的纵向加速度/>和前后车体铰接角角速度/>；设效用函数/>为状态跟踪误差/>和动作的二次型加权求和，即/>,其中分别为状态效用矩阵和动作效用矩阵，数学形式上均为对角正定矩阵，状态跟踪误差。

如图2所示，对参数化策略网络进行迭代求解，具体包括以下步骤：

2-1）目标函数参数化

首先，利用模型预测控制问题的可分解性，将固定预测步数的模型预测控制问题分解为不同预测步数的子问题：

式（4）中，表示参数化策略网络第j时刻的目标函数，表示第j+1时刻的效用函数，其中，/>，/>为铰接车第时刻自车状态，/>为预测时域内的参考轨迹点信息，/>为预测时域内的最大预测步数，/>为第/>时刻环境信息（对于跟踪任务，包含参考轨迹信息），/>表示0时刻，输入自车状态量以及N步参考轨迹点信息得到的控制量，/>表示/>时刻，输入自车状态量以及/>步参考轨迹点信息得到的控制量，/>的上标表示预测步数为/>,1表示为控制序列的第1个控制量。目标函数/>与状态量/>、预测步数/>、环境信息/>有关。

利用显式循环模型预测控制算法可以离线计算出令目标函数最小的最优控制序列并建立状态信息和环境信息（包含期望轨迹信息）与控制序列中第1个控制量之间的关系，最优控制序列表示为：

式（5）中，表示控制序列的第一个控制量，/>表示控制序列的第N个控制量，/>的上标表示预测步数为/>，/>表示该控制序列为最优控制序列。

设循环函数表示为，用于近似控制输入/>。其中，/>为函数参数，/>为循环函数的循环次数，即第/>次循环的输出/>用于近似预测/>步的最优解/>。利用最优性条件更新参数，获得最优参数/>，使得对于所有的初始状态/>和环境信息/>有：

式（6）中，为循环c次得到的循环函数，/>为循环函数循环c次得到的近似控制输入，/>为时刻1到c的参考轨迹信息。

利用替换式（4）中/>，将目标函数参数化后得到：

式（7）中，为参数化策略网络的目标函数，/>为初始预测时刻的自车状态，/>为第一预测时域内的参考轨迹点信息，/>为第一预测时域的最大预测步数，/>为参数化网络参数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第/>预测时刻的参数化策略网络。

2-2）给定合适的学习率，误差上限/>，初始参数为/>。

2-3）循环指示变量，每次循环前随机采样获得自车的初始状态/>环境信息/>。

2-4）前向求解过程：待求解变量为车辆状态，以采样获取的0时刻的初始状态/>作为前向求解过程的初值，以铰接车的离散时间运动学方程/>作为预测模型，逐步沿时间范围/>到/>求解各时刻自车状态/>，以此为后向求解过程提供初值。

2-5）后向求解过程: 由于不同的初始状态和期望轨迹/>之间彼此独立，因此可以通过直接最小化/>的方式（即最优性条件）对参数/>进行更新，使得任意初始状态和期望轨迹的目标函数同时达到最优。为了离线建立从状态信息和参考轨迹信息到最优解的映射关系，需要遍历整个状态空间，并通过目标函数在全状态空间上取期望的方式，设计损失函数。最后，通过随机梯度下降法更新参数，使得损失函数最小，从而求解出最优策略。设最大预测步数为N，损失函数的表达式为：

（8）

式（8）中，为参数化策略网络的损失函数，/>表示对参数化策略网络的目标函数求数学期望，/>为第一预测时域的最大预测步数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第/>预测时刻的参数化策略网络。

利用求解得到的状态以及环境信息构建损失函数并求解损失函数的梯度，策略函数参数的更新公式为：

式（9）中，为对损失函数求解梯度，/>为参数化策略网络的目标函数，/>为函数参数。

式（10）中，为第i时刻的效用函数/>为铰接车第/>时刻自车状态，/>为第i时刻控制策略，/>为函数参数。

2-6）策略更新：对于批量计算的策略梯度求平均后，对策略参数实施梯度下降。第次迭代中循环函数的更新规则为：

式（11）中，为第/>次更新迭代得到的网络参数，/>为学习率，/>为对损失函数求解梯度，/>为第/>次更新迭代得到的网络参数。

2-7）如果，则表明策略还未收敛，返回步骤2-3）继续求解；反之则表明在误差范围内策略已收敛，输出即为最优参数化策略。

图3为本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法的最优参数化策略网络自适应获取最大预测步数的示意图。

如图3所示，利用循环函数的特性，通过将铰接车自车状态以及环境信息输入至策略网络，循环函数根据计算资源不断循环迭代求解计算得到铰接车的最优控制策略。其中，不同循环次数的循环函数对相应预测步数控制问题的最优解进行近似，循环次数等于预测步数。

如图4所示，该面向铰接车的显式循环模型预测控制轨迹跟踪装置，包括：

获取模块10，用于获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；

初始化模块20，用于获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；

前向求解模块30，用于将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；

训练模块40，用于根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；

生成模块50，用于获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。

本申请实施例的面向铰接车的显式循环模型预测控制轨迹跟踪装置，包括获取模块，用于获取铰接车的自车状态和预设的第一预测时域，并获取第一预测时域内的第一参考轨迹，其中，自车状态包括车辆位置、车辆速度、航向角和铰接角；初始化模块，用于获取循环神经网络作为参数化策略网络，并对参数化策略网络进行初始化；前向求解模块，用于将铰接车的自车状态和第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；训练模块，用于根据第一预测时域内各预测时刻的自车状态和第一预测时域内的第一参考轨迹构建参数化策略网络的目标函数，并根据目标函数对参数化策略网络进行迭代训练，得到最优参数化策略网络；生成模块，用于获取铰接车的待预测自车状态和预设的第二预测时域，并获取第二预测时域内的第二参考轨迹，将待预测自车状态和第二预测时域内的第二参考轨迹输入最优参数化策略网络，生成铰接车的自车控制动作，并根据自车控制动作控制铰接车。由此，能够解决现有铰接车预测型轨迹跟踪控制问题在线求解效率低、预测时域短的技术问题，通过将在线优化问题转化为循环策略参数的离线求解，能够根据控制器的实际算力实时调整在线应用时循环策略的循环次数，从而实现铰接车预测型轨迹跟踪控制问题的高实时在线计算，具有计算效率高、精度高、省内存的优点。

为了实现上述实施例，本申请还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的面向铰接车的显式循环模型预测控制轨迹跟踪方法。

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的面向铰接车的显式循环模型预测控制轨迹跟踪方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向铰接车的显式循环模型预测控制轨迹跟踪方法，其特征在于，包括以下步骤：

获取铰接车的自车状态和预设的第一预测时域，并获取所述第一预测时域内的第一参考轨迹，其中，所述自车状态包括车辆位置、车辆速度、航向角和铰接角；

获取循环神经网络作为参数化策略网络，并对所述参数化策略网络进行初始化；

将所述铰接车的自车状态和所述第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；

根据所述第一预测时域内各预测时刻的自车状态和所述第一预测时域内的第一参考轨迹构建所述参数化策略网络的目标函数，并根据所述目标函数对所述参数化策略网络进行迭代训练，得到最优参数化策略网络；

获取所述铰接车的待预测自车状态和预设的第二预测时域，并获取所述第二预测时域内的第二参考轨迹，将所述待预测自车状态和所述第二预测时域内的第二参考轨迹输入所述最优参数化策略网络，生成所述铰接车的自车控制动作，并根据所述自车控制动作控制所述铰接车。

2.如权利要求1所述的方法，其特征在于，所述将所述铰接车的自车状态和所述第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态，包括：

将所述铰接车的自车状态和所述第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络得到初始预测时刻的自车控制动作，将所述铰接车的自车状态和所述初始预测时刻的自车控制动作输入铰接车的离散时间运动学方程，得到下一预测时刻的自车状态，并逐步求解得到所述第一预测时域内各预测时刻的自车状态。

3.如权利要求2所述的方法，其特征在于，所述铰接车的离散时间运动学方程表示为：

4.如权利要求1所述的方法，其特征在于，所述根据所述第一预测时域内各预测时刻的自车状态和所述第一预测时域内的第一参考轨迹构建所述参数化策略网络的目标函数，包括：

根据所述第一预测时域内的第一参考轨迹得到第一预测时域内各预测时刻的参考轨迹点信息；

根据所述第一预测时域内各预测时刻的自车状态和对应预测时刻的参考轨迹点信息的差值构建多个效用函数，并将所述多个效用函数的离散时间积分作为所述参数化策略网络的目标函数。

5.如权利要求4所述的方法，其特征在于，所述根据所述目标函数对所述参数化策略网络进行迭代训练，得到最优参数化策略网络，包括：

根据所述目标函数，构建所述参数化策略网络的损失函数；

根据所述损失函数求解策略梯度，并以梯度下降的方式更新所述参数化策略网络的参数，不断迭代，直至参数化策略网络的参数收敛，得到最优参数化策略网络。

6.如权利要求5所述的方法，其特征在于，所述参数化策略网络的目标函数表示为：

其中，为参数化策略网络的目标函数，/>为初始预测时刻的自车状态，为第一预测时域内的参考轨迹点信息，/>为第一预测时域的最大预测步数，/>为参数化网络参数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第/>预测时刻的参数化策略网络；

所述参数化策略网络的损失函数，表示为：

其中，为参数化策略网络的损失函数，/>表示对参数化策略网络的目标函数求数学期望，/>为第一预测时域的最大预测步数，/>为效用函数，/>为第i预测时刻的自车状态，/>为第i预测时刻的参考轨迹点信息，/>表示第/>预测时刻的参数化策略网络。

7.如权利要求1所述的方法，其特征在于，所述自车控制动作包括铰接车前车体的纵向加速度和前后车体铰接角角速度，所述将所述待预测自车状态和所述第二预测时域内的第二参考轨迹输入所述最优参数化策略网络，生成所述铰接车的自车控制动作，并根据所述自车控制动作控制所述铰接车，包括：

将所述待预测自车状态和所述第二预测时域内的第二参考轨迹输入所述最优参数化策略网络，循环计算得到初始预测时刻的自车控制动作序列，所述初始预测时刻的自车控制动作序列包括初始预测时刻的自车控制动作；

根据所述待预测自车状态和所述初始预测时刻的自车控制动作得到铰接车第二预测时刻的自车状态，根据所述第二预测时刻的自车状态和对应预测时刻的参考轨迹点信息通过所述最优参数化策略网络循环计算，得到第二预测时刻的自车控制动作序列，其中，所述第二预测时刻的自车控制动作序列包括更新后的初始预测时刻的自车控制动作和第二预测时刻的自车控制动作；

循环迭代计算第二预测时域内各预测时刻的自车控制动作序列，直至循环计算时间大于铰接车控制系统给定的控制计算时间或者循环计算次数等于第二预测时域的最大预测步数时，输出当前预测时刻的上一预测时刻的自车控制动作序列中第一个控制量作为所述铰接车的自车控制动作。

8.一种面向铰接车的显式循环模型预测控制轨迹跟踪装置，其特征在于，包括：

获取模块，用于获取铰接车的自车状态和预设的第一预测时域，并获取所述第一预测时域内的第一参考轨迹，其中，所述自车状态包括车辆位置、车辆速度、航向角和铰接角；

初始化模块，用于获取循环神经网络作为参数化策略网络，并对所述参数化策略网络进行初始化；

前向求解模块，用于将所述铰接车的自车状态和所述第一预测时域内的第一参考轨迹输入初始化后的参数化策略网络进行前向求解，得到第一预测时域内各预测时刻的自车状态；

训练模块，用于根据所述第一预测时域内各预测时刻的自车状态和所述第一预测时域内的第一参考轨迹构建所述参数化策略网络的目标函数，并根据所述目标函数对所述参数化策略网络进行迭代训练，得到最优参数化策略网络；

生成模块，用于获取所述铰接车的待预测自车状态和预设的第二预测时域，并获取所述第二预测时域内的第二参考轨迹，将所述待预测自车状态和所述第二预测时域内的第二参考轨迹输入所述最优参数化策略网络，生成所述铰接车的自车控制动作，并根据所述自车控制动作控制所述铰接车。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。