CN117581166A

CN117581166A - 基于借助高斯假设密度滤波器的不确定性传播的随机非线性预测控制器及方法

Info

Publication number: CN117581166A
Application number: CN202280046026.2A
Authority: CN
Inventors: R·奎因; K·贝恩拓普
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-07-01
Filing date: 2022-02-18
Publication date: 2024-02-20
Also published as: US20230022510A1; US11932262B2; JP2024520874A; EP4363936A1; WO2023276268A1

Abstract

随机非线性模型预测控制(SNMPC)允许直接考虑动态和/或系统环境的不确定性，例如通过包括概率机会约束。然而，SNMPC需要近似计算通过非线性系统动态传播的状态变量的概率分布。本发明提出使用高斯假设密度滤波器(ADF)通过非线性系统动态进行状态变量的均值和协方差信息的高精度传播，从而产生具有改进的控制性能的易处理SNMPC方法。此外，在约束最优控制问题(OCP)公式中对协方差矩阵变量使用矩阵因式分解保证了在任何优化算法的每次迭代中协方差矩阵的全轨迹的正定性。最后，描述了定制的基于邻接的序列二次规划(SQP)算法，其显著降低了计算成本，并且允许实时可行地实施所提出的基于ADF的SNMPC方法，以在不确定性下控制非线性动态系统。

Description

基于借助高斯假设密度滤波器的不确定性传播的随机非线性预测控制器及方法

技术领域

本发明总体上涉及预测控制，更具体地，涉及在存在不确定性的情况下用于非线性动态系统的随机预测控制的预测状态变量的均值和协方差信息的高精度传播的方法和设备。

背景技术

非线性模型预测控制(NMPC)已日趋成熟，并显示出处理相对复杂的约束过程的能力。预测控制器(诸如NMPC)在许多应用中可以用于控制由一组非线性微分方程(即，常微分方程(ODE)或微分代数方程(DAE)系统)描述的复杂动态系统。这种系统包括生产线、车辆、卫星、发动机、机器人、发电机和其它(半)自动控制机器。尽管NMPC由于反馈而表现出固有的鲁棒性，但是这样的控制器不直接考虑不确定性，因此在存在模型不确定性和/或外部干扰的情况下不能保证满足安全关键约束。一种另选方法是鲁棒的NMPC，其依赖于在存在有界不确定性和/或有界干扰的最坏情况场景下的控制策略的优化。然而，由于最坏情况场景发生的概率极小，鲁棒的NMPC可能导致控制性能保守。

随机NMPC(SNMPC)旨在通过将不确定性的概率描述直接结合到最优控制问题(OCP)公式中来降低鲁棒NMPC的保守性。它要求以特定概率满足约束，即，通过将允许指定的但非零的约束违反概率的所谓的机会约束公式化。另外，在机械可行区域的边界附近实现闭环操作的高性能的情况下，随机NMPC是有利的。在一般情况下，机会约束难以计算，并且通常需要近似公式，例如，基于关于通过非线性系统动态传播的状态变量的概率分布的近似计算。

采样技术使用不确定性的随机实现的有限集来表征随机系统动态，这由于不确定性传播经常需要大量样本而可能导致相当大的计算成本。基于场景的方法利用概率分布的适当表示，但是确定场景数量的任务导致鲁棒性和计算效率之间的折衷。高斯混合近似可以用于描述状态的转移概率分布，但是权重的适配通常在计算方面代价高。另一种方法依赖于多项式混沌(PC)的使用，其利用正交多项式基函数的扩展代替隐式映射，但是对于时变不确定性，基于PC的随机NMPC需要许多扩展项。

另选地，协方差矩阵变量的传播可以用于近似概率机会约束，例如，使用基于泰勒级数近似的非线性系统动态的显式线性化。然而，所得的基于线性化的协方差传播对于非线性系统动态可能不够准确。另外，后一种方法不允许状态变量的均值的准确传播，对于非线性系统动态，该均值可以不同于标称值(即，对应于零不确定性和/或零干扰的值)。因此，在不确定性下的非线性动态系统的随机预测控制中，需要均值和协方差信息的直接易处理但准确的传播来将概率机会约束公式化。

直接最优控制方法依赖于连续时间微分方程的离散化，其基于控制范围的离散化和预测范围上的控制动作的对应参数化。此外，对于随机预测控制应用，基于预测范围上的控制反馈的参数化，传播非线性系统动态的不确定性的离散时间或离散方程组可以包括在直接OCP公式中。所得到的大规模非线性优化问题或非线性规划(NLP)可以由任何非线性优化求解器来求解。然而，在非线性系统的预测控制的实时应用的情况下，该非线性优化问题需要在严格的定时约束下以及在具有有限计算能力和有限可用存储器的嵌入式硬件上求解。

用于由非线性微分方程描述的系统的随机预测控制需要在每个控制时间步长求解非线性随机最优控制问题。代替精确地求解每个问题，可以进行序列二次规划(SQP)方法的一次实时迭代，以便从一个时间点到下一个时间点更新解猜测。这样的牛顿型SQP算法在算法的每次迭代中需要非线性约束和目标函数的线性化。这种线性化可能代价高，特别是对于描述非线性系统动态的不确定性传播的方程组，并且当使用显式积分方法时，它需要雅可比评估，并且在隐式积分方法离散非线性微分方程的情况下，可能另外需要矩阵因式分解、矩阵-矩阵乘法和/或迭代过程来求解非线性方程组。

因此，需要增加通过非线性系统动态传播状态变量的均值和协方差信息的准确性，以便改进所得SNMPC控制器的闭环性能，并且需要减少不确定情况下非线性动态系统的随机预测控制的实时应用中数值优化算法的计算成本。

发明内容

一些实施方式的目的是提供一种用于通过基于描述系统的动态模型的非线性微分方程的离散化和非线性系统动态的不确定性的离散时间传播来求解包括概率机会约束的不等式约束的非线性动态优化问题而在不确定性下控制系统的系统和方法。每个概率机会约束均旨在确保违反对应不等式约束的概率低于某个概率阈值。

本发明的一些实施方式使用基于概率机会约束的收紧每个不等式约束的公式，其中每个不等式约束具有取决于回退系数值、约束雅可比矩阵以及在特定时间步长下的预测状态值的一阶和/或高阶矩积分的项。在本发明的一些实施方式中，一阶和/或高阶矩积分包括作为平均值的第一矩积分和作为协方差的第二矩积分。可以使用基于近似线性化的协方差传播针对控制范围中的每个时间步长下的状态值有效地计算协方差矩阵。基于线性化的协方差方程可能导致状态变量的均值和协方差信息通过非线性系统动态的不准确传播。因此，在本发明的一些实施方式中，高斯假设密度滤波器(ADF)用于通过非线性系统动态进行状态变量的均值和协方差信息的高精度传播。状态变量的均值和协方差信息的更准确传播可以使得改进不确定性下非线性动态系统的随机预测控制的性能。

根据本发明的一些实施方式，可以提供一种预测控制器，用于在系统状态和控制变量受到约束的不确定性条件下控制所述系统。该预测控制器可以包括：至少一个处理器；以及存储有指令的存储器，所述至少一个处理器执行所述指令时致使所述预测控制器：在所述预测控制器的每个控制步骤处，求解不等式约束的非线性动态优化问题，该不等式约束的非线性动态优化问题包括表示不确定性的概率机会约束，以产生控制信号，其中所述预测控制器基于概率机会约束并且使用基于高斯假设密度滤波(ADF)的离散时间近似传播方程来求解直接最优控制结构化非线性规划(NLP)，以根据时变建模不确定性和/或外部干扰中的一者或多者的概率分布的一阶和/或高阶矩积分，在预测范围内进行从一个时间步长到下一个时间步长的状态概率分布的一阶和/或高阶矩积分的近似预测，直到满足终止条件；以及使用所述控制信号控制所述系统的操作。

本发明的一些实施方式基于以下认识：如果概率机会约束中的约束函数是线性的或轻微非线性的，则在给定控制范围中的每个时间步长下的预测状态值的协方差矩阵的情况下，每个不等式约束的基于线性化的收紧可以是精确的或足够准确的。本发明的一些实施方式基于以下认识：如果概率机会约束中的约束函数是高度非线性的，则基于线性化的收紧可能是不准确的，但是另选地，ADF可以用于直接计算非线性地取决于状态和/或控制输入变量的每个约束函数的高精度均值和协方差信息。

例如，已知无迹卡尔曼滤波(UKF)比用于非线性系统动态的均值和协方差信息的基于线性化的传播(例如，使用扩展卡尔曼滤波(EKF))更准确。本发明的一些实施方式基于以下认识：UKF是更一般的线性回归卡尔曼滤波(LRKF)族的特殊情况，LRKF是甚至更一般的高斯假设密度滤波器(ADF)族的一部分。本发明的一些实施方式基于如下认识：ADF使用基于一个和/或多个高阶矩积分的近似匹配的统计线性化，而不是基于泰勒级数近似(例如，在EKF中)的显式线性化。因此，EKF是基于显式线性化来处理非线性的一阶方法，而基于统计线性化的ADF族可以通过非线性系统动态在状态变量的均值和协方差信息的传播中实现二阶或更高阶的精度。

本发明的一些实施方式基于以下认识：当通过易处理的非线性规划(NLP)近似随机最优控制问题(SOCP)时，对于在不确定性下的非线性动态系统的随机预测控制中的性能和安全约束满足而言，状态均值和协方差预测的准确性是重要的。例如，作为一致性的概念，即，(预测矩阵P过度近似真实状态协方差)对于随机预测控制器的保守性可能是重要的，尤其是当考虑安全关键约束时。本发明的一些实施方式基于如下认识：在存在模型不确定性和/或存在外部干扰的情况下，偏差或不一致的预测(即，状态协方差的欠近似)可能导致预测控制器违反安全关键约束。

在本发明的一些实施方式中，将ADF应用于连续时间系统动态，以便获得用于状态变量的均值和协方差信息的传播的连续时间方程。可以基于时间离散化和最优控制参数化(例如，使用直接单次拍摄、多次拍摄、直接搭配或伪光谱方法)来求解所得的连续时间OCP，以便得出可以用数值优化算法求解的易处理的非线性优化问题。

在本发明的一些实施方式中，将ADF应用于离散时间或离散化系统动态，以便获得用于状态变量的均值和协方差信息的传播的离散时间方程。一些实施方式基于这样的认识：离散时间协方差传播方程可以降低计算成本并且在每个控制时间步长下保持协方差矩阵的正定性。一些实施方式可以在协方差传播中包括非线性边界，以确保协方差矩阵是在每个时间步长下预测状态值的精确协方差的高估(即，导致一致的预测)，使得每个概率机会约束确保违反概率低于某个阈值。

本发明的一些实施方式基于以下认识：在预测状态值的均值和协方差不确定性信息的前向传播中应当考虑反馈控制动作。一些实施方式使用仿射反馈增益的时不变或时变序列来预稳定非线性系统动态，从而产生直接考虑反馈控制动作对未来不确定性和/或干扰的影响的状态均值和协方差传播方程。例如，用于参考稳态处的线性化系统动态的无限范围线性二次调节器和输入值可以用于预稳定随机非线性OCP公式中的系统动态。

使用概率机会约束的近似公式，基于每个不等式约束的个体收紧，可以使用基于最优性和可行性条件的连续线性化的牛顿型优化算法来解决所得的不等式约束非线性动态优化问题。这种牛顿型优化算法的实施例包括内部点法(IPM)和序列二次规划(SQP)。本发明的一些实施方式基于以下认识：SQP算法基于目标函数的线性二次近似和离散化系统动态和离散时间协方差传播方程的基于线性化的近似以及每个不等式约束和每个收紧的概率机会约束的基于线性化的近似，在SQP优化算法的每次迭代中求解随机非线性OCP的二次规划(QP)近似。

当系统的原始动态模型由一组连续时间微分方程描述时，本发明的一些实施方式使用显式或隐式数值积分方法(例如，显式或隐式Runge-Kutta方法)将系统动态离散化，以构建离散时间或离散化的基于ADF的状态均值和协方差传播方程。一些实施方式基于以下认识：在牛顿型优化算法的每次迭代中，状态均值和协方差传播方程的线性化需要对非线性系统动态的一阶和/或高阶导数进行评估，这在动态是高度维度的和/或计算复杂的情况下(例如，在动态涉及冗长的非线性表达式的情况下和/或在动态由一组刚性或隐含地定义的微分方程描述的情况下)可能形成代价高的步骤。

在本发明的一些实施方式中，随机OCP公式中的优化变量包括控制范围的每个时间步长中的状态变量的协方差矩阵的矩阵因式分解的因子，例如，使用状态协方差矩阵的正向或反向Cholesky因式分解。本发明的一些实施方式基于这样的认识：基于ADF的状态均值和协方差传播方程可以根据Cholesky因子来重构，例如直接使用Cholesky因式分解算子，使得优化变量中只需要包括Cholesky因子而不包括状态协方差矩阵。另外，本发明的一些实施方式基于以下认识：可以从Cholesky因子的对应轨迹计算状态协方差矩阵的轨迹，并因此保证状态协方差矩阵在任何优化算法的每个控制时间步长和每次迭代下总是正定的。

本发明的一些实施方式基于以下认识：仅针对正定矩阵定义(正向或反向)Cholesky因式分解，使得可能需要在基于ADF的协方差传播方程中添加小的正则化项，以便确保在各处定义Cholesky因式分解算子。Cholesky因式分解算子的一阶和高阶导数可以通过算法微分技术的前向或后向模式来计算。

另外，本发明的一些实施方式是基于以下认识：用于随机非线性预测控制的精确的基于导数的优化算法的解的计算复杂度和存储器要求比不直接考虑不确定性的NMPC的标称实现大得多。更具体地，为了求解标称NMPC中的块结构QP近似，存储器要求渐近地缩放为其中表示控制范围的长度并且表示控制范围中的每个时间步长下的状态和控制变量的数量。此外，计算复杂度渐近地缩放，如当求解标称NMPC中的块结构QP时。本发明的一些实施方式基于以下认识：用于SNMPC的基于精确导数的优化算法的存储器要求和计算复杂度分别由于每个时间步长下的预测状态值的Cholesky矩阵因式分解中的协方差矩阵或因子以及对应的状态均值和协方差传播方程而渐近地缩放。

本发明的一些实施方式提出了用于基于ADF的SNMPC的不精确的基于导数的优化算法，对于该算法，存储器要求和计算复杂度分别渐近地缩放和渐近地缩放。本发明的一些实施方式基于不精确的SQP优化算法，其允许从每个QP子问题中数值消除状态协方差矩阵的Cholesky因子，同时保持块结构问题稀疏性，导致存储器要求和计算复杂度的显著降低。此外，不精确SQP算法中的每个QP子问题仅包括控制范围上的平均状态和控制变量，而Cholesky因子和协方差矩阵可以在单独的传播过程中显式地更新。

本发明的一些实施方式基于这样的认识：基于不精确导数的优化算法收敛于随机非线性OCP的解，该随机非线性OCP的解关于系统动态、协方差传播方程、不等式约束和概率机会约束是可行的，但是由于不精确导数计算，该解可能是次优的。相反，本发明的一些实施方式基于不精确的基于导数的优化算法，具有基于邻接的梯度计算以校正不精确导数的使用，其收敛于既可行又局部最优的随机非线性OCP的解。注意，协方差传播方程的邻接计算需要评估系统动态的一阶和/或高阶导数，但是对应于单个梯度而不是完整的雅可比矩阵。在一些实施方式中，可以使用算法或自动微分的邻接模式的一次扫描来有效地进行后一邻接梯度计算。

在本发明的一些实施方式中，所提出的用于SNMPC的不精确优化算法(可能具有基于邻接的梯度计算)由三个主要计算步骤组成。第一步骤准备线性二次目标函数，计算矢量和雅可比矩阵以准备线性化的等式和不等式约束，其评估基于邻接的梯度计算，并且在给定预测的平均状态和控制值的当前轨迹以及协方差矩阵和/或Cholesky因子的当前值的情况下，从目标和约束函数中的每一个中在数值上消除协方差矩阵和/或Cholesky因子。第二步骤包括所得块结构QP子问题的解，其中一个或多个收紧不等式约束近似每个概率机会约束。第三和最终步骤包括预测状态和控制值的轨迹的牛顿型更新以及拉格朗日乘数的对应更新的扩展和控制范围上协方差矩阵和/或Cholesky因子的轨迹的更新。

本发明的一些实施方式基于以下认识：例如由于高度非线性的基于ADF的状态均值和协方差传播方程，可能需要全局化技术来改进基于导数的优化算法的收敛行为以解决随机OCP问题。这种全局化技术的一个实施例包括线搜索方法，用于计算原始和/或双重优化变量的牛顿型更新中的步长，以便确保可以对于基于导数的优化算法的每次迭代(例如使用SQP优化方法)，可以满足取决于最优性和可行性条件的评价函数的充分减小的条件。在本发明的一些实施方式中，用于原始和/或双重优化变量的牛顿型更新的后一个基于行搜索的步长选择可以是用于SNMPC控制器的优化算法中的第三步骤的一部分。

本发明的一些实施方式基于以下认识：除了协方差矩阵和/或Cholesky因子之外，还可以基于压缩过程在每次迭代中在数值上消除随机最优控制问题中的平均状态变量，该压缩过程使用离散时间系统动态来将预测范围中每个阶段的状态变量定义为预测范围中所有先前阶段的初始状态值和控制变量的函数。该完整或部分压缩过程导致更小但通常更密集的优化问题，具有更少或没有等式约束以及相同量的不等式约束和概率机会约束，这根据OCP中的剩余优化变量来描述。本发明的一些实施方式基于这样的认识：相同的不精确的基于导数的优化算法可以与这样的压缩过程结合使用。更具体地，平均状态变量的数值消除将另外在第一步骤中进行，密集QP解将在第二步骤中进行，而压缩状态变量的扩展将另外在用于SNMPC的不精确优化算法的第三步骤中进行。

本发明的一些实施方式使用实时迭代方法，用于通过在随机预测控制器中的每个控制时间步长下进行所提出的基于精确或不精确导数的优化算法的一次迭代来求解非线性随机OCP。这意味着，在每个控制时间步长下，仅需要对非线性随机优化问题的块结构局部(凸)QP近似进行一个准备、求解和扩展步骤。QP准备包括施行离散非线性系统动态的非线性方程的线性化、非线性不等式约束的线性化、协方差矩阵和/或Cholesky因子的压缩或消除以及邻接梯度计算的可选评估。基于该准备，求解所得到的块结构QP，随后是用于更新所有原始优化变量和拉格朗日乘数值的扩展步骤，以便产生用于在随机非线性预测控制器的每个步骤处控制系统的控制解。

将参考附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制，而是通常将重点放在示出当前公开的实施方式的原理上。

附图说明

[图1A]

图1A是根据一些实施方式的具有不确定性的系统的预测控制器和反馈环的框图；

[图1B]

图1B是根据一些实施方式的具有不确定性的系统的随机预测控制器和反馈环的框图；

[图1C]

图1C是根据本发明的一些实施方式的反馈系统以及使用CPU处理器和存储器实施的控制器的框图。

[图2A]

图2A示出了根据本发明的实施方式的使用用于非线性系统动态的高斯假设密度滤波器(ADF)从一个时间步长到下一个时间步长的状态概率分布的预测的示意图；

[图2B]

图2B示出了根据本发明的一些实施方式的状态概率分布的预测的示意图，该预测包括影响非线性系统动态的时变不确定性和/或干扰；

[图2C]

图2C是根据本发明的一些实施方式的基于非线性系统动态的显式线性化的状态均值和协方差信息的离散时间或离散传播的框图；

[图2D]

图2D是根据本发明的一些实施方式的基于非线性系统动态的统计线性化的状态均值和协方差信息的离散时间或离散传播的框图。

[图3A]

图3A是根据一些实施方式的随机非线性模型预测控制(SNMPC)方法的框图，该方法用于在不确定性下实施用于受控系统的随机预测控制器；

[图3B]

图3B是根据一些实施方式的基于离散时间系统动态和概率机会约束来求解直接最优控制结构化非线性规划(NLP)的SNMPC方法的框图；

[图3C]

图3C是根据一些实施方式的基于状态均值和协方差的基于显式线性化的传播方程来求解直接最优控制结构化NLP的SNMPC方法的框图；

[图3D]

图3D是根据一些实施方式的基于状态均值和协方差的以统计线性化为基础的传播方程来求解直接最优控制结构化NLP的SNMPC方法的框图。

[图4A]

图4A是根据一些实施方式的随机预测控制器中的概率机会约束的近似的框图；

[图4B]

图4B示出了随机预测控制器中的概率机会约束的公式和近似背后的思想的图示。

[图5A]

图5A是示出根据一些实施方式的连续时间中的非线性系统动态的状态均值和协方差传播的框图；

[图5B]

图5B是示出根据一些实施方式的在离散时间中非线性系统动态的状态均值和协方差传播的框图；

[图5C]

图5C是示出根据一些实施方式的离散时间中的预稳定非线性系统动态的基于显式线性化的状态均值和协方差传播的框图；

[图5D]

图5D是示出根据一些实施方式的离散时间中的预稳定非线性系统动态的基于统计线性化的状态均值和协方差传播的框图；

[图5E]

图5E是根据本发明的一些实施方式的由于状态反馈控制动作而作为概率机会约束的控制边界的公式和近似的框图。

[图6A]

图6A是在随机预测控制器中的每个时间步长下求解约束非线性最优控制问题的基于迭代导数的优化过程的框图；

[图6B]

图6B示出了需要由随机预测控制器求解的最优控制结构化NLP的紧凑公式；

[图6C]

图6C是根据本发明的一些实施方式的随机预测控制器中的最优控制结构化NLP的精确的基于雅可比矩阵的局部二次规划(QP)近似的框图。

[图7A]

图7A是根据一些实施方式的给定预测时间范围内的当前平均状态和控制值的状态均值和协方差矩阵值的显式和顺序计算的框图；

[图7B]

图7B是根据本发明的一些实施方式的用于随机预测控制器的有效实施的迭代非精确SQP优化算法的框图，该算法不需要评估非线性等式约束函数的一个或多个一阶和/或高阶导数。

[图8A]

图8A是根据一些实施方式的用于实现基于邻接的不精确SQP优化算法的雅可比矩阵近似和对应的基于邻接的梯度校正、压缩约束评估和拉格朗日乘数扩展步骤的框图；

[图8B]

图8B是用于基于以邻接为基础的梯度校正来改善收敛特性的随机预测控制器的有效实施的迭代非精确SQP优化算法的框图；

[图8C]

图8C是根据本发明的一些实施方式的用于实施随机非线性模型预测控制的基于邻接的不精确SQP优化算法的实时变体的算法描述；

[图8D]

图8D示出了根据本发明的一些实施方式的用于期望步长选择的搜索过程的实施例，该搜索过程使得对于随机预测控制器中的实时基于邻接的SQP优化算法的步长值满足充分减小条件；

[图9A]

图9A是在前向递归中利用约束雅可比矩阵的块结构化稀疏性来计算基于邻接的SQP优化算法中的状态协方差矩阵的Cholesky因子的更新序列的框图；

[图9B]

图9B是在前向递归中利用约束雅可比矩阵的块结构化稀疏性来计算基于邻接的SQP优化算法中的压缩不等式约束值的框图；

[图9C]

图9C是在前向递归中利用约束雅可比矩阵的块结构化稀疏性来计算基于邻接的SQP优化算法中的压缩等式约束值的框图；

[图9D]

图9D是在反向递归中利用约束雅可比矩阵的块结构化稀疏性来计算基于邻接的SQP优化算法中的更新的拉格朗日乘数值的框图；

[图10A]

图10A是包括采用一些实施方式的原理的随机预测控制器的车辆的示意图；

[图10B]

图10B是根据一些实施方式的采用一些实施方式的原理的随机预测控制器与车辆1001的控制器之间的交互的示意图；以及

[图10C]

图10C是采用本发明的一些实施方式的原理的用于不确定性下的受控车辆的运动规划和/或随机预测控制方法的示意图。

[图10D]

图10D是采用本发明的一些实施方式的原理的用于不确定性下的受控车辆的运动规划和/或随机预测控制方法的示意图。

具体实施方式

下面参考附图描述本发明的各种实施方式。应当注意，附图未按比例绘制，并且在所有附图中，类似结构或功能的元件由相似的附图标记表示。还应注意，附图仅旨在便于描述本发明的具体实施方式。它们不旨在作为对本发明的穷尽描述或作为对本发明范围的限制。此外，结合本发明的特定实施方式所描述的方面不一定限于该实施方式，并且可以在本发明的任何其它实施方式中实践。

以下描述仅提供实施例性实施方式，并且不旨在限制本公开的范围、适用性或配置。相反，实施例性实施方式的以下描述将向本领域技术人员提供用于实施一个或多个实施例性实施方式的使能描述。在不脱离所附权利要求中阐述的所公开的主题的精神和范围的情况下，可以构想对元件的功能和布置进行的各种改变。

本发明的一些实施方式提供了系统和方法，用于控制具有不确定性的系统或使用随机预测控制器的系统的操作。随机预测控制器的实施例是基于受控系统的模型和不确定性的模型来确定控制输入的随机模型预测控制(SMPC)。

图1A示出了根据一些实施方式的具有不确定性125的实施例系统120，该实施例系统120经由状态估计器131连接到预测控制器110。在一些实施中，预测控制器是根据系统的动态模型140编程的模型预测控制器(MPC)。该模型可以是这样的一组等式，这组等式将系统120的状态和输出103随时间的变化表示为当前和先前输入111以及先前输出103的函数。模型可以包括表示系统的物理和操作限制的约束142。在操作期间，控制器接收指示系统的期望行为的命令101。该命令可以是例如运动命令。响应于接收到命令101，控制器生成控制信号111，该控制信号111用作具有不确定性125的真实系统120的输入。响应于该输入，系统120更新系统120的输出103。基于系统的输出103的测量，状态估计器131更新系统120的估计状态121。系统的该估计状态121向控制器110提供状态反馈。在一些情况下，输出103的测量可以由布置在真实系统120中的传感器(未示出)或真实系统120的致动器/电路提供。此外，不确定性125可以是可观察/可测量的物理量(信号)，其包括：由布置在真实系统120上或真实系统120周围的一个或多个位置处的温度、压力或气流或它们的一个或多个组合所指示的外部干扰；作用在系统120上的电流、力或扭矩；任何未建模的动态或物理量中的任何不确定性，诸如不确定的摩擦系数、主体质量或不确定的系数；以及由布置在真实系统120上/中的传感器或其它传感器测量的参数。

如本文所提及的，系统120可以是由某些操纵输入信号111(输入)控制并返回一些受控输出信号103(输出)的任何机器或装置，其中操纵输入信号111可能与诸如电压、压力、力、扭矩之类的物理量相关联，受控输出信号103可能与诸如电流、流量、速度、指示系统的状态从先前状态到当前状态的转变的位置之类的物理量相关联。输出值部分地与系统的先前输出值相关，并且部分地与先前和当前输入值相关。在系统的状态中编码对先前输入和先前输出的依赖性。系统的操作(例如，系统的部件的运动)可以包括在应用某些输入值之后由系统生成的输出值序列。

不确定性125可以是任何时变不确定性，其包括作用在系统120上的任何外部干扰、力或扭矩；任何未建模的动态或物理量中的任何不确定性，诸如不确定的摩擦系数、主体质量或不确定的系数；以及描述真实系统120的物理行为的动态模型方程中的参数。MPC控制器的大多数实施使用简化的动态模型140，使得真实系统中的大量物理行为保持未建模以便降低控制器的计算复杂度，或者因为一些物理行为太复杂因此难以或不可能建模。注意，作为状态和参数估计器131的一部分，可以在线或离线估计或学习时不变的不确定性。

系统140的动态模型可以包括一组可以为时不变的或时变的数学方程和可以为线性或非线性的方程，以描述系统输出如何作为当前和先前输入以及先前输出的函数随时间变化。系统的状态是通常随时间变化的任何信息集合，例如当前和先前输入和输出的适当子集，该信息集合与系统的动态模型和未来输入一起可以唯一地(但近似地)定义系统的未来运动。真实系统120可以受到物理限制和规范约束142，该物理限制和规格约束限制允许系统的输出、输入以及可能状态操作的范围。

控制器110可以以硬件或作为在处理器(例如，微处理器)中执行的软件程序来实施，该控制器以固定或可变控制周期采样间隔接收系统121的估计状态和期望运动命令101，并且使用该信息确定用于操作系统的输入(例如，控制信号111)。

状态估计器131和不确定性估计器132(在图1B中)可以在硬件中或作为在处理器中执行的软件程序来实施，其与控制器110相同或不同，以固定或可变的控制周期采样间隔接收系统103的输出并且使用新的和先前的输出测量来确定系统120的估计状态121。

图1B示出了根据一些实施方式的具有不确定性125的实施例系统120，该实施例系统120经由状态估计器131和不确定性估计器132连接到随机预测控制器150。在一些实施中，随机预测控制器150是根据真实系统120的动态模型140和不确定性编程的随机模型预测控制器(SMPC)。动态模型141包括不确定性模型141以对不确定性125及其与系统120的行为的关系进行建模。不确定性模型包括不确定性与描述系统的动态行为的动态模型方程之间的线性和/或非线性关系的模型。此外，不确定性模型包括动态模型中的每个时变不确定性的概率分布的模型。

在本发明的一些实施方式中，用于随机预测控制器150的动态模型140可以包括一个或多个概率机会约束143。系统的任何物理限制和规范约束可以被公式化为一个或多个概率机会约束143，其旨在强制使违反对应约束的概率低于某个概率阈值。

在本发明的一些实施方式中，不确定性估计器132提供不确定性122的估计，例如，由随机预测控制器150使用的动态模型140中的一个或多个时变不确定性的概率分布的一阶和/或高阶矩的估计。在本发明的一些实施方式中，状态估计器131和不确定性估计器132一起在单个状态和不确定性参数估计器部件130中实施，该不确定性参数估计器部件130以固定或可变的控制周期采样间隔接收系统103的输出，并且使用新的和先前的输出测量来确定系统120和不确定性125的估计状态121和估计不确定性122以及可能的一个或多个附加估计参数值。

图1C示出了根据一些实施方式的随机预测控制器150的框图，随机预测控制器150在给定估计不确定性122的情况下致动系统，使得系统和输出103的估计状态121遵循命令101。随机预测控制器150可以包括输入接口151、输出接口152、计算机，例如，该计算机呈连接到存储器165的单个中央处理单元(CPU)或多个CPU处理器160的形式，存储器165用于存储动态模型140、不确定性模型141、对具有不确定性125的真实系统120的操作的约束142和概率机会约束143。处理器160配置为经由输入接口151获取/接受估计状态121和命令101，并且经由输出接口152将控制信号111发送到真实系统120。处理器160可以是单核微处理器、多核处理器、计算集群、多个连接的处理器的网络或任何数量的其它配置。存储器165可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器系统。

图2A示出了使用用于非线性系统动态x_k+1＝f(x_k)222的高斯假设密度滤波器从一个时间步长到下一个时间步长221的状态概率分布的预测的示意图。该示意图示出了时间步长t_k200下状态变量的概率密度函数(PDF)，该概率密度函数表示关于状态变量x_k201的概率p202。本发明的一些实施方式基于近似高斯概率分布206(例如，使用高斯假设密度滤波器(ADF)方法)对时间步长t_k下关于状态变量x_k的真实PDF 205的近似。更具体地，在本发明的一些实施方式中，对于给定先前状态值x_0:k-1＝[x₀,x₁,…,x_k-1]的轨迹的状态变量x_k，条件PDF p(x_k|x_0:k-1)204可以由具有均值和状态协方差Cov[x_k]208的高斯PDF分布来近似203。在本发明的一些实施方式中，可以由具有近似均值s_k和近似状态协方差矩阵P_k的高斯PDF分布来近似用于不确定性下的非线性动态系统的条件随机预测控制，即，/>

在本发明的一些实施方式中，从一个时间步长到下一个时间步长220，使用时间步长t_k 200下状态变量x_k的PDF的高斯近似来计算下一个时间步长210下的状态概率分布的近似预测(例如，使用非线性系统动态222的ADF)，从而产生时间步长t_k+1210下状态变量x_k+1的条件PDF的高斯近似p(x_k+1|x_0:k)213。在本发明的一些实施方式中，给定高斯PDF近似206，可以计算预测的高斯分布216，以在给定先前状态值x_0:k＝[x₀,x₁,…,x_k]的轨迹的情况下，针对下一时间步长t_k+1下关于状态变量x_k+1211的概率212近似真实条件PDF 215。更具体地，在本发明的一些实施方式中，关于给定先前状态值x_0:k的轨迹的预测状态变量x_k+1的条件PDF p(x_k+1|x_0:k)214可以由具有均值/>和状态协方差Cov[x_k+1]218的高斯PDF分布来近似213。在本发明的一些实施方式中，可以由具有近似均值s_k+1和近似状态协方差矩阵P_k+1的高斯PDF分布来近似关于预测状态变量x_k+1的条件PDF，即，/>

在本发明的一些实施方式中，高斯假设密度滤波器可以使用时间步长t_k200下高斯PDF近似的近似状态均值s_k和协方差P_k，并使用非线性系统动态222来预测220下一时间步长t_k+1210下高斯PDF近似/>的近似状态均值s_k+1和协方差P_k+1。本发明的一些实施方式基于以下认识：作为一致性的概念，即，/>(预测状态协方差矩阵P过度近似真实状态协方差Cov[x])对于在不确定性下的受控系统的随机预测控制器的保守性可能是重要的和/或所期望的，尤其是当考虑安全关键约束时。本发明的一些实施方式基于如下认识：在存在模型不确定性和/或存在外部干扰的情况下，偏差或不一致的预测(即，状态协方差的欠近似)可能导致预测控制器违反安全关键约束。

图2B示出了使用用于非线性系统动态x_k+1＝f(x_k,w_k)223的高斯假设密度滤波器从一个时间步长到下一个时间步长221的状态概率分布的预测的示意图，非线性系统动态x_k+1＝f(x_k,w_k)223包括一个或多个(时变)建模不确定性和/或外部干扰。在本发明的一些实施方式中，在时间步长t_k230下，不确定性或干扰变量w_k231的真实PDF可以由高斯分布235近似，即，在本发明的一些实施方式中，干扰变量w_k 231的高斯PDF 235的均值可以是零/>或非零237，这取决于建模不确定性的性质和/或受控系统中的外部干扰。本发明的一些实施方式基于以下认识：用于近似关于干扰变量w_k 231的、PDF234的高斯分布235的协方差238的过度近似(即，/>)可以使得保守性增强，并且潜在地使得不确定性下的受控系统的随机预测控制器的的性能得到总体改进，尤其是当考虑安全关键约束时。

图2B中的示意图示出，在本发明的一些实施方式中，从一个时间步长到下一个时间步长225，可以使用时间步长t_k200下关于状态变量x_k的PDF的高斯近似和时间步长t_k230下关于干扰变量w_k的(近似)高斯/>来计算下一个时间步长t_k+1210下的状态概率分布的近似预测(例如，使用具有建模不确定性和/或外部干扰223的非线性系统动态的ADF)从而产生时间步长t_k+1210下关于状态变量x_k+1的条件PDF的高斯近似在本发明的一些实施方式中，给定关于状态变量x_k的高斯PDF近似206和给定关于干扰变量w_k的高斯PDF近似235，可以在给定先前状态值x_0:k＝[x₀,x₁,…,x_k]的轨迹和给定干扰值w_0:k＝[w₀,w₁,…,w_k]的轨迹的情况下，计算预测的高斯PDF分布216以近似下一时间步长t_k+1下状态变量x_k+1的真实条件PDF 215。更具体地，在本发明的一些实施方式中，可以由具有近似均值s_k+1和近似状态协方差矩阵P_k+1的高斯PDF分布来近似关于预测状态变量x_k+1的条件PDF，即，/>

本发明的一些实施例基于以下认识：时间步长t_k下状态协方差的过度近似和干扰协方差的过度近似/>可能导致下一时间步长t_k+1下预测状态协方差的过度近似，即/>并且这可能使得在不确定性下的随机预测控制器的保守性增强并且潜在地使性能得到总体改进，尤其是当考虑安全关键约束时。

图2C示出了在给定了初始状态估计和对应的不确定性240，并且给定了关于受控系统中的(时变)不确定性和/或干扰的PDF分布的高斯近似，使用离散时间或离散化非线性系统动态的基于显式线性化的传播方程的情况下，状态均值和协方差信息的离散时间或离散化传播的框图。在本发明的一些实施方式中，离散时间或离散化非线性系统动态可以表示为x_k+1＝f(x_k,u_k,w_k)，其中x_k,u_k和w_k分别表示时间步长t_k下的状态变量、控制输入和干扰变量，并且表示下一时间步长t_k+1下的状态变量x_k+1。在本发明的一些实施方式中，受控系统的动态模型可以由一组连续时间微分方程组成，例如显式和/或隐式常微分方程(ODE)或显式和/或隐式微分代数方程(DAE)。在本发明的一些实施方式中，受控系统的动态模型可以包括使用数值积分方法(例如，使用线性多步骤方法、显式或隐式Runge-Kutta方法、后向微分公式或有限元方法)对该组连续时间微分方程进行离散化。

图2C中的框图示出了状态均值和协方差信息的基于线性化的传播的一个或多个步骤，这些步骤例如包括第一传播步骤245、随后的传播步骤250和可能的一个或多个附加传播步骤255。根据本发明的一些实施方式，传播过程基于初始状态估计和初始状态不确定性，该初始状态不确定性可以由状态协方差/>和/或其Cholesky因子表示，使得/>或者/>(使用正向或反向Cholesky因式分解)。给定初始状态估计和不确定性240，并且给定建模不确定性和/或(时变)干扰并且给定基于微分的约束雅可比矩阵242，基于显式线性化的传播方程可以计算下一个时间步长245下状态均值和协方差信息(s₁和/>)的近似值如下：

/>

并且约束雅可比矩阵242定义如下：

其中矩阵K表示预稳定非线性系统动态的反馈增益矩阵，并且chol(·)表示正向或反向Cholesky因式分解。本发明的一些实施方式基于以下认识：可以使用小的正则化参数值δ>0来确保可以在任何地方定义Cholesky因式分解算子，即，确保正半定矩阵变得正定，并且确保可以对Cholesky因式分解算子进行微分以评估用于本发明的一些实施方式中的随机预测控制器的实施的一阶和/或高阶导数。

类似地，给定一个时间步长245下的状态均值s₁和协方差信息并且给定建模不确定性和/或(时变)干扰/>并且给定基于微分的约束雅可比矩阵252，基于显式线性化的传播方程可以计算下一个时间步长250下状态均值和协方差信息(s₂和/>)的近似值如下：

其中约束雅可比矩阵252定义如下：

最后，根据本发明的一些实施方式，可以使用离散时间或离散非线性系统动态的基于显式线性化的传播方程，在状态均值和协方差信息的离散时间或离散传播中进行一个或多个附加步骤255。

图2D示出了在给定初始状态估计和对应的不确定性260，并且给定关于受控系统中的(时变)不确定性和/或干扰的PDF分布的高斯近似，使用离散时间或离散化非线性系统动态的基于统计线性化的传播方程的情况下，状态均值和协方差信息的离散时间或离散化传播的框图。本发明的一些实施例基于如下认识：ADF使用基于一个和/或多个高阶矩积分的近似匹配的统计线性化，而不是如图2C所示的基于泰勒级数近似(例如，在EKF中)的显式线性化。例如，在本发明的一些实施方式中，可以在ADF中使用数值积分或容积规则来近似一阶和/或二阶矩积分

/>

其中，给定了关于变量v＝(x,w)的PDF的高斯近似变量v＝(x，w)表示状态x和干扰变量w的级联，并且函数F(v)＝f(x,u,w)表示离散时间或离散化非线性系统动态。在本发明的一些实施方式中，ADF型矩匹配用于计算均值和协方差P_k+1≈Cov[x_k+1]的近似值，从而产生条件PDF的高斯近似值

其中表示下一时间步长k+1下关于预测状态变量x_k+1的标准法线或高斯分布。

本发明的一些实施方式基于以下认识：对于非线性系统动态，与基于显式线性化的均值和协方差信息传播相比，无迹卡尔曼滤波(UKF)可用于计算更精确的均值和协方差信息传播(例如使用扩展卡尔曼滤波(EKF))。本发明的一些实施方式基于以下认识：UKF是更一般的线性回归卡尔曼滤波(LRKF)族的特殊情况，LRKF是甚至更一般的高斯假设密度滤波器(ADF)族的一部分，其可以在不确定性下用于受控系统的随机预测控制器的实施。本发明的一些实施方式基于如下认识：ADF使用基于一个和/或多个高阶矩积分的近似匹配的统计线性化，而不是基于泰勒级数近似(例如，在EKF中)的显式线性化。因此，EKF是基于显式线性化来处理非线性的一阶方法，而基于统计线性化的ADF族可以通过非线性系统动态在状态变量的均值和协方差信息的离散时间或离散化传播中实现二阶或更高阶的精度。

本发明的一些实施方式基于以下认识：对于某些类别的问题，可以分析地进行基于一个和/或多个高阶矩积分的匹配的统计线性化，这进一步提高了均值和协方差信息的传播的准确性，因此进一步提高了在不确定性下受控系统的随机预测控制器的性能。

图2D中的框图示出了使用ADF的情况下，状态均值和协方差信息的基于统计线性化的传播的一个或多个步骤的实施例，例如这些步骤包括第一传播步骤265、随后的传播步骤270并且潜在地包括一个或多个附加传播步骤275。根据本发明的一些实施方式，传播过程基于初始状态估计和初始状态不确定性260，该初始状态不确定性260可以由状态协方差/>和/或其Cholesky因子/>表示，使得/>或者/>(使用正向或反向Cholesky因式分解)。给定初始状态估计和不确定性260，并且给定建模不确定性和/或(时变)干扰/>(对于/>基于Cholesky因式分解，/> 或/>)，并且给定一组一个或多个积分点和对应权重基于统计线性化的传播方程可以计算下一个时间步长265下状态均值s₁和协方差信息/>的近似值如下

/>

其中，函数φ(s_k,u_k,w_k)＝f(s_k,u_k+Ks_k,w_k)表示在每个积分点处评估以计算状态值/>的预稳定非线性系统动态，矩阵K表示反馈增益矩阵并且chol(·)表示正向或反向Cholesky因式分解。本发明的一些实施方式基于以下认识：每个积分点的计算的状态值/>以及相应的权重值/>可以用于计算状态均值和协方差信息的近似值，即，/>和P₁≈Cov[x₁]。在本发明的一些实施方式中，针对中心积分点i＝1和给定参数值γ和β，/>计算为/>并且/>对应于剩余积分点/>

类似地，给定一个时间步长265下的状态均值s₁和协方差信息并且在，并且给定建模不确定性和/或(时变)干扰/>对于该干扰，基于Cholesky因式分解，有/>或/>并且给定一组一个或多个积分点和对应的权重/>基于统计线性化的传播方程可以计算下一个时间步长270下状态均值s₂和协方差信息/>的近似值如下，

最后，根据本发明的一些实施方式，可以在状态均值和协方差信息的离散时间或离散化传播中进行一个或多个附加步骤275，对于在不确定性下的受控系统的离散时间或离散化非线性系统动态使用基于统计线性化的传播方程。在本发明的一些实施方式中，可以在基于统计线性化的传播方程的一个或多个步骤中使用一组不同的积分点和权重。

在本发明的一些实施方式中，可以基于一组积分点Ξ＝[ξ⁽¹⁾,ξ⁽²⁾,…,ξ⁽²ⁿ⁾]和权重Ω＝[ω⁽¹⁾,ω⁽²⁾,…,ω⁽²ⁿ⁾]，根据球形立方体(SC)规则来选择积分点、权重和参数值，以近似一阶和/或二阶矩积分，如下：

其中，n_x和n_w分别表示受控系统中状态变量和干扰变量的数量，并且表示n×n单位矩阵，1_2n表示2n个元素的列矢量，其等于1。SC规则不包括中心积分点，即，γ＝1并且β＝0，使得对于每个积分点/>有/>

在本发明的一些实施方式中，可以基于一组积分点Ξ＝[ξ⁽¹⁾,ξ⁽²⁾,…,ξ⁽²ⁿ⁺¹⁾]和权重Ω＝[ω⁽¹⁾,ω⁽²⁾,…,ω⁽²ⁿ⁺¹⁾]，根据UKF中使用的无迹变换(UT)来选择积分点、权重和参数值，以近似一阶和/或二阶矩积分，如下：/>

其中，参数λ＝γ²(n+k)-n是基于参数值k定义的，并且表示n×n单位矩阵，0_n表示n个元素的列矢量，其等于零，并且1_2n表示等于2n个的元素的列矢量，其等于1。UT规则确实包括中心积分点，对于此，ξ⁽¹⁾＝0_n和/> 在本发明的一些实施方式中，可以选择参数值，例如，/>κ＝0，使得λ＝γ²(n+k)-n＝3-n。

图3A示出了根据本发明的一些实施方式的随机非线性模型预测控制(SNMPC)的系统和方法的框图，该系统和方法用于在给定系统121的当前状态估计、给定估计的不确定性122和控制命令101的情况下，实施随机预测控制器150，该随机预测控制器150计算控制信号111。具体地，SNMPC通过在每个控制时间步长下求解约束优化问题350来计算控制解，例如，解矢量365，该解矢量365包括系统360的预测时间范围内的未来最优或近似最优的控制输入序列。该优化问题350中的目标函数、等式和不等式约束的数据345取决于动态模型和系统约束340、系统121的当前状态估计、估计的不确定性122和控制命令101。

本发明的实施方式使用直接最优控制方法来将连续时间SNMPC问题公式化为不等式约束非线性动态优化问题。本发明的一些实施方式使用基于导数的优化算法来使用基于牛顿型方法的迭代过程以及优化问题的可行性和最优性条件的连续线性化精确地或近似地求解不等式约束优化问题350。这种牛顿型优化算法的实施例包括内部点法(IPM)和序列二次规划(SQP)。本发明的一些实施方式基于以下认识：不等式约束优化问题350具有最优控制结构化非线性规划(NLP)的形式，使得利用基于导数的优化算法的实施之结构可以用于在每个控制时间步长下计算解矢量365。

在本发明的一些实施方式中，不等式约束优化问题350的解使用可以从存储器读取的、来自先前控制时间步长310的、预测时间范围内的精确或近似控制输入、状态均值和/或协方差值作为解猜测，以便减少在当前控制时间步长下求解不等式约束优化问题350的计算工作量。在本发明的一些实施方式中，从先前控制时间步长310下的解信息计算解猜测的这个概念被称为优化算法的温启动或热启动，并且它可以减少SNMPC控制器所需的计算工作量。以类似的方式，对应的解矢量365可以用于更新和存储关于下一个控制时间步长360的精确或近似控制输入、状态均值和/或协方差值序列。在本发明的一些实施方式中，在给定来自先前控制时间步长310的预测时间范围内的控制输入、状态均值和/或协方差值的情况下，可以使用时移过程，以便计算当前控制时间步长下的不等式约束优化问题350的更准确的解猜测。

图3B示出了SNMPC控制器的框图，该SNMPC控制器在给定系统121的当前状态估计、估计的不确定性122和控制命令101的情况下，求解约束最优控制结构化非线性规划(OCP-NLP)350，以便计算每个控制时间步长的控制信号111。在本发明的一些实施方式中，约束优化问题350直接优化时不变或时变控制策略函数k(·)，该控制策略函数可以实施为用于不确定性下的受控系统的状态反馈或输出反馈预测控制器。在本发明的一些实施方式中，约束OCP-NLP 350包括状态变量x＝[x₀,x₁,…,x_N]，其中可以基于当前状态估计来定义初始状态值，并且可以基于非线性等式约束352中的非线性系统动态f(·)来预测未来状态值，这取决于控制策略函数κ(·)和预测时间范围内的时变不确定性和/或干扰w_k。/>

在本发明的一些实施方式中，约束OCP-NLP 350的目标函数可以对应于线性和/或非线性最小二乘阶段和/或终端成本项总和的期望值的最小化。在本发明的一些实施方式中，目标函数351可以对应于在预测时间范围内的控制输入、状态均值和/或协方差值的平滑线性或非线性函数的期望值或最坏情况值的最小化或最大化。

在本发明的一些实施例中，约束OCP-NLP 350可以包括一个或多个确定性不等式约束0≥g_j(·)354，j＝1,2,…,n_c，此确定性不等式约束由在预测时间范围k＝0,1,…,N内的控制输入、状态均值和/或协方差值的平滑线性和/或非线性函数g_j(·)定义。本发明的一些实施方式基于以下认识：一个或多个确定性不等式约束354可以是凸的或非凸的，这可能影响在每个控制时间步长下求解约束优化问题350所需的计算工作量。在本发明的一些实施方式中，约束OCP-NLP 350可以包括一个或多个概率机会约束∈_j≥Pr(h_j(·)>0)，j＝1,2,…,n_h355，此概率机会约束由预测时间范围k＝0,1,…,N内的控制输入、状态均值和/或协方差值的平滑线性和/或非线性函数h_j(·)定义。本发明的一些实施方式基于以下认识：每个概率机会约束旨在确保违反对应不等式约束的概率低于某个概率阈值，即，∈_j≥Pr(h_j(·)>0)355。

图3C示出了SNMPC控制器的框图，该SNMPC控制器在给定系统121的当前状态估计、估计的不确定性122和控制命令101的情况下，使用如图2C中所示的基于显式线性化的状态均值和协方差传播方程，来求解约束最优控制结构化非线性规划问题(OCP-NLP)370，以便计算每个控制时间步长的控制信号111。OCP-NLP 370包括预测时间范围内的平均状态变量s＝[s₀,s₁,…,s_N]、状态协方差矩阵变量的Cholesky因子和控制输入变量u＝[u₀,u₁,…,u_N-1]，作为约束优化问题350中的变量，需要在每个控制时间步长下求解OCP-NLP 370：

其中，OCP-NLP 370包括线性二次或非线性目标函数371，例如，基于线性和/或非线性最小二乘阶段和/或终端成本项的总和的期望值的最小化。本发明的一些实施方式基于初始平均状态值约束/>中的当前状态估计121、初始状态协方差约束/>中的当前估计状态不确定性，使得初始状态协方差读取为/>本发明的一些实施方式基于产生线性和/或非线性等式约束372以计算预测时间范围内的未来平均状态值s₁,…,s_N的系统的动态模型，并且基于通过系统动态产生线性和/或非线性协方差传播方程373的不确定性传播的基于显式线性化的近似。在本发明的一些实施方式中，协方差传播方程373包括Cholesky因式分解算子，以便计算未来状态协方差矩阵/>的Cholesky因子，使得/>

在本发明的一些实施方式中，约束优化问题370可以包括对控制输入、状态均值和协方差变量的组合的约束，从而产生由预测时间范围k＝0,1,…,N内的平滑线性和/或非线性函数g_j(·)定义的一个或多个线性和/或非线性确定性不等式约束374。另外，受约束OCP-NLP 350可以包括一个或多个概率机会约束∈_j≥Pr(h_j(·)>0)，j＝1,2,…,n_h355，此概率机会约束由预测时间范围k＝0,1,…,N内的控制输入、状态均值和/或协方差值的平滑线性和/或非线性函数h_j(·)定义。在本发明的一些实施方式中，后一概率机会约束可以通过如下约束收紧重构来近似：

其中，基于概率阈值∈_j>0来计算回退系数值c_j>0，矩阵是约束雅可比矩阵，该矩阵基于状态协方差矩阵变量/>的Cholesky因子，并且在预测时间范围k＝0,1,…,N内产生附加的线性和/或非线性收紧不等式约束375。

在本发明的一些实施方式中，非线性等式约束372

s_k+1＝f(s_k,u_k+Ks_k,0)

施行系统动态的离散时间近似的表示，该系统动态可以由一组连续时间微分或一组连续时间微分代数方程定义。这种系统动态的离散时间近似表示的实施例包括数值模拟技术，例如线性多步骤方法、显式或隐式Runge-Kutta方法、后向微分公式或有限元方法。当系统的原始动态模型由一组连续时间微分方程描述时，本发明的一些实施方式使用显式或隐式数值积分方法372将系统动态离散化，并且显式线性化需要对应的雅可比评估来构建离散时间或离散化协方差传播方程373。

图3D示出了SNMPC控制器的框图，该SNMPC控制器在给定系统121的当前状态估计、估计的不确定性122和控制命令101的情况下，使用如图2D中所示的基于统计线性化的状态均值和协方差传播方程(例如，使用基于UKF、LRKF或ADF的滤波)，来求解约束最优控制结构化非线性规划问题(OCP-NLP)380，以便计算每个控制时间步长下的控制信号111。OCP-NLP380包括预测时间范围内的平均状态变量s＝[s₀,s₁,…,s_N]、状态协方差矩阵变量的Cholesky因子和控制输入变量u＝[u₀,u₁,…,u_N-1]，作为约束优化问题350中的变量，需要在每个控制时间步长下求解OCP-NLP 380：

/>

该OCP-NLP 380包括线性二次或非线性目标函数381，例如，基于线性和/或非线性最小二乘阶段和/或终端成本项的总和的期望值的最小化。本发明的一些实施方式基于初始平均状态值约束/>中的当前状态估计121、初始状态协方差约束/>中的当前估计状态不确定性，使得初始状态协方差读取为

在本发明的一些实施方式中，使用基于ADF的过滤技术(例如，基于球形立方体(SC)规则或LRKF族中的无迹变换(UT))，来如下计算每个积分点处的状态值/>其中，/>并使用相应的权重/>

其中，Y_k+1,i表示预测时间范围k＝0,1,…,N-1内的每个积分点的矩阵Y_k+1的列，并且函数φ(·)表示在不确定性下的受控系统的预稳定动态模型。基于统计线性化的状态均值和协方差传播方程产生线性和/或非线性等式约束382以计算预测时间范围内的未来均值状态值s₁,…,s_N，并且它们产生线性和/或非线性协方差传播方程383，线性和/或非线性协方差传播方程383包括Cholesky因式分解算子以便计算未来状态协方差矩阵/>的Cholesky因子。

在本发明的一些实施方式中，约束优化问题380可以包括对控制输入、状态均值和协方差变量的组合的约束，从而产生一个或多个线性和/或非线性确定性不等式约束384，线性和/或非线性确定性不等式约束384由预测时间范围k＝0,1,…,N内的平滑线性和/或非线性函数g_j(·)定义。另外，受约束OCP-NLP 350可以包括一个或多个概率机会约束∈_j≥Pr(h_j(·)>0)，j＝1,2,…,n_h355，该概率机会约束由在预测时间范围k＝0,1,…,N内的控制输入、状态均值和/或协方差值的平滑线性和/或非线性函数h_j(·)定义。在本发明的一些实施方式中，后一概率机会约束可以通过如下约束收紧重构来近似：

/>

其中，基于概率阈值∈_j>0计算回退系数值c_j>0，矩阵是约束雅可比矩阵，其基于状态协方差矩阵变量/>的Cholesky因子，并且在预测时间范围/>内产生附加的线性和/或非线性收紧不等式约束385。

使用概率机会约束355的近似公式375或385，基于每个不等式约束的个体收紧，可以使用基于最优性和可行性条件的连续线性化的牛顿型优化算法来解决所得的不等式约束非线性动态优化问题。这种牛顿型优化算法的实施例包括内部点法(IPM)和序列二次规划(SQP)。本发明的一些实施方式基于以下认识：SQP算法基于目标函数的线性二次近似和离散化系统动态和离散时间协方差传播方程的基于线性化的近似以及每个不等式约束和每个收紧的概率机会约束的基于线性化的近似，在SQP优化算法的每次迭代中求解随机非线性OCP的二次规划(QP)近似。

在本发明的一些实施方式中，目标函数351、371或381中的阶段和/或最终成本可以由任何线性、线性二次和/或非线性平滑函数定义，包括凸函数和/或非凸函数。随机最优控制问题的目标函数351、371或381可以包括与预测时间范围的每个时间点相对应的成本项。在一些实施方式中，目标函数包括在预测时间范围的每个时间点，系统的某个输出函数与一系列参考输出值的偏差的(非线性)最小二乘类型惩罚，从而产生随机预测控制器150中的成本函数的参考跟踪类型公式。

图4A示出了这样的框图，其将对一个或多个状态和/或控制输入变量的一个或多个确定性不等式约束401公式化为概率机会约束405，并通过收紧随机预测控制器的约束OCP公式中的对应约束边界410来对概率机会约束405进行近似406。概率性机会约束旨在确保违反不等式约束h_i(x_k,u_k)≤0的概率低于某个概率阈值∈_i，即，Pr(h_i(x_k,u_k)>0)<∈_i。等效地，概率机会约束旨在确保满足不等式约束h_i(x_k,u_k)≤0的概率高于某个概率阈值1-∈_i，即，Pr(h_i(x_k,u_k)≤0)≥1-∈_i。

在本发明的一些实施方式中，使用约束收紧过程410实施对一个或多个概率机会约束的公式的近似406，该约束收紧过程410基于约束雅可比矩阵/> 和取决于概率阈值∈_i的回退系数值α_i420、一个或多个时变建模不确定性和/或外部干扰的概率分布的一阶和/或高阶矩积分以及状态概率分布的一阶和/或高阶矩积分。在本发明的一些实施方式中，一阶和/或高阶矩积分包括作为平均状态值的第一矩积分和作为状态协方差矩阵P_k≈Cov[x_k]＝cov(x_k,x_k)415的第二矩积分。可以使用分别如图2C或图2D中所示的基于显式或统计线性化的协方差传播方程来计算状态协方差矩阵/>可以使用符号微分或使用算法微分(AD)工具来有效地评估约束雅可比矩阵C_k,i。

在本发明的一些实施方式中，可以使用Canelli-Chebyshev不等式(即，)来计算每个收紧不等式约束411中的回退系数值α_i420，Canelli-Chebyshev不等式无论基础概率分布如何都成立，但是它可能导致相对保守的约束边界收紧。本发明的一些实施方式基于较不保守的近似，假设是正态分布的状态轨迹，使得回退系数值可以被选择为/>其中erf^-1(·)表示逆高斯误差函数。

在本发明的一些实施方式中，可以基于状态概率分布的第一、第二和第四矩积分，使用多变量皮尔逊VII概率分布的累积密度函数来计算每个收紧不等式约束411中的回退系数值α_i420。本发明的一些实施方式基于以下认识：对于对称状态概率分布，第三矩积分和所有奇矩积分为零。

图4B示出了约束函数值430随时间435的轨迹451的采样集合，每个轨迹对应于不同的不确定性实现，并且其示出了约束边界450以便示出概率机会约束405。概率性机会约束旨在确保违反不等式约束445的概率低于某个概率阈值∈_i，即，Pr(h_i(x_k,u_k)>0)<∈_i。等效地，概率机会约束旨在确保满足不等式约束440的概率高于1-∈_i，即，Pr(h_i(x_k,u_k)≤0)≥1-∈_i。

采样技术使用不确定性的随机实现的有限集来表征随机系统动态，由于不确定性传播经常需要大量样本，该采样技术可能导致相当大的计算成本。基于场景的方法利用概率分布的适当表示，但是确定场景数量的任务导致鲁棒性和计算效率之间的折衷。因此，本发明的一些实施方式基于以下认识：需要不确定性的直接但近似的传播来计算表示满足不等式约束h_i(x_k,u_k)≤0所需轨迹的特定百分比的下限460和/或上限465，以便对随机预测控制器中的概率机会约束(近似地)公式化。在图4B中，455表示根据本发明的实施方式的违反不等式约束的轨迹，并且由于在随机预测控制器150中针对不确定性下的受控系统使用概率机会约束，这种情况的概率应当低于某个概率阈值∈_i。

图5A示出了在给定时变建模不确定性和/或外部干扰w(t)505的情况下，针对连续时间非线性系统动态500的集合的状态均值和协方差传播的框图。在本发明的一些实施方式中，时变建模不确定性和/或外部干扰被建模为连续时间中的随机变量w(t)～N(0,∑_c)的正态分布集合。连续时间状态均值和协方差传播方程基于连续时间高斯假设密度滤波(ADF)510。例如，在给定连续时间约束雅可比矩阵和/>的情况下，使用基于显式线性化的扩展卡尔曼滤波(EKF)的连续时间状态均值和协方差传播方程可以读取为

另选地，在本发明的一些实施方式中，连续时间状态均值和协方差传播方程基于连续时间无迹卡尔曼滤波(UKF)和/或连续时间线性回归卡尔曼滤波(LRKF)。

直接最优控制方法使用数值积分方法来将连续时间状态均值和协方差传播方程510离散化，这产生状态均值和状态协方差矩阵的连续时间预测轨迹的数值近似。然而，即使初始状态协方差矩阵是正定的(即)，系列数值模拟的状态协方差矩阵也不一定保持状态协方差矩阵的正定性(/>)。后者可能潜在地导致关于随机预测控制器的基于导数的优化算法中的数值问题。本发明的一些实施方式基于以下认识：可以通过替代地使用状态协方差矩阵的Cholesky因子的传播方程(例如，使用正向或反向Cholesky因式分解算子)来避免一个或多个预测的状态协方差矩阵缺乏正定性。

图5B示出了用于说明在给定时变建模不确定性和/或外部干扰w_k525的情况下，离散时间非线性系统动态520的集合x_k+1＝f(x_k,u_k,w_k)的状态均值和协方差传播的框图。在本发明的一些实施方式中，时变建模不确定性和/或外部干扰被建模为离散时间中的随机变量w_k～N(0,∑)的正态分布集合。离散时间状态均值和协方差传播方程基于离散时间高斯假设密度滤波(ADF)530。例如，在本发明的一些实施方式中，离散时间状态均值和协方差传播方程使用如图2C中所示的基于显式线性化的扩展卡尔曼滤波(EKF)。在本发明的一些实施方式中，离散时间状态均值和协方差传播方程使用如图2D中所示的基于统计线性化的无迹卡尔曼滤波(UKF)和/或线性回归卡尔曼滤波(LRKF)。与连续时间状态均值和协方差传播方程510不同，本发明的一些实施方式基于离散时间状态均值和协方差传播方程530不需要使用数值积分方法的认识，并且基于认识到：只要初始状态协方差矩阵是正定的，即这些方程自动保持状态协方差矩阵的正定性/>

图5C示出了框图，该框图用于说明非线性系统动态的预稳定以便将反馈控制动作作为随机预测控制器的基于显式线性化的状态均值和协方差传播的一部分加以考虑。一些实施方式基于反馈控制动作的参数化，以便在给定离散时间动态520和时变干扰525的情况下将预稳定非线性系统动态560公式化。

在本发明的一些实施方式中，使用线性二次调节器来定义时不变仿射反馈增益u_k＝Kx_k 555，以便将预稳定非线性系统动态560公式化：x_k+1＝f(x_k，u_k+Kx_k，w_k)

其中，由于预稳定控制器增益K，总体控制动作是前馈-反馈形式u_k+Kx_k。例如，参考稳态和输入值(x^ref,u^ref)可以用于定义参考约束雅可比矩阵A_r541和B_r542，

参考约束雅可比矩阵A_r 541和B_r 542结合无限范围性能指标545

来定义时不变仿射反馈增益u_k＝Kx_k555。本发明的一些实施方式求解离散时间代数Riccati方程(DARE)550，以计算时不变仿射反馈增益556如下：

其中和/>表示无限范围性能指标545中的加权矩阵。基于预稳定的非线性系统动态560，类似于图2C并且根据本发明的一些实施方式，离散时间状态均值和协方差传播方程570可以读取为

其中，表示chol(·)正向或反向Cholesky因式分解算子，并且给定了用于预稳定非线性系统动态的离散时间约束雅可比矩阵575，离散时间约束雅可比矩阵575可以读取为

在给定先前时间步长k下的状态均值s_k和控制输入值u_k以及给定当前时间步长下的初始状态估计的情况下，离散时间状态均值传播方程571定义时间步长k+1下的状态均值s_k+1。类似地，在给定先前时间步长k下的状态协方差矩阵/>的Cholesky因子、状态均值s_k和控制输入值u_k以及给定当前时间步长下的初始状态不确定性的情况下，离散时间状态协方差传播方程573定义时间步长k+1下的状态协方差矩阵/>的Cholesky因子。在本发明的一些实施方式中，基于相同的线性二次调节器设计公式，替代地使用参考值/>的时变轨迹来定义反馈控制法则的时变轨迹，例如，可以使用仿射反馈增益的轨迹。

图5D示出了框图，该框图用于说明非线性系统动态的预稳定以便将反馈控制动作作为随机预测控制器的基于统计线性化的状态均值和协方差传播的一部分加以考虑。基于预稳定的非线性系统动态560，类似于图2D中所示的状态均值和协方差传播并且根据本发明的一些实施方式，离散时间状态均值和协方差传播方程580可以读取为

其基于积分点的集合其中/>并使用对应的权重/>来评估状态值/>

其中，Y_k+1,i表示预测时间范围k＝0,1,…,N-1内的每个积分点的矩阵Y_k+1的第i列，并且函数φ(x_k,u_k,w_k)＝f(x_k,u_k+K x_k,w_k)表示在不确定性下的受控系统的预稳定动态模型560。

给定先前时间步长k下的状态均值s_k和控制输入值u_k以及给定当前时间步长下的初始状态估计572，基于用于统计积分的积分点集合中的每个积分点i的状态值/>的评估，离散时间状态均值传播方程581定义时间步长k+1下的状态均值s_k+1。类似地，给定先前时间步长k下的状态协方差矩阵/>的Cholesky因子、状态均值s_k和控制输入值u_k以及给定当前时间步长下的初始状态不确定性/>基于用于统计积分的积分点/> 集合中的每个积分点i的第i列矩阵列Y_k+1,i586的评估，离散时间状态协方差传播方程583定义时间步长k+1下的状态协方差矩阵的Cholesky因子。

图5E示出了这样的框图，其将用于前馈-反馈形式u_k+Kx_k的一个或多个控制动作的一个或多个确定性不等式约束590公式化为概率机会约束591，并通过收紧随机预测控制器的约束OCP公式中的对应约束边界595来对概率机会约束591进行近似406。在本发明的一些实施方式中，使用产生一个或多个确定性不等式约束596的约束收紧过程595，实施对一个或多个概率机会约束的公式的近似406，可以如下读取一个或多个确定性不等式约束596：

该一个或多个确定性不等式约束596基于状态协方差矩阵P_k＝cov(x_k,x_k)415、仿射反馈增益矩阵K592和回退系数值α_i420，回退系数值α_i420取决于概率阈值∈_i、不确定性的概率分布和预测状态轨迹的所得近似概率分布。给定初始状态协方差矩阵可以使用离散时间状态均值和协方差传播方程来计算状态协方差矩阵P_k，例如，针对预稳定的非线性系统动态560，使用分别如图5C或图5D中所示的显式线性化570或统计线性化580。

注意，图5C、图5D和图5E中的反馈控制动作是一个控制步骤处，在动态优化问题中，预测时间范围内的未来反馈控制动作的预测，因此这些反馈控制动作不应与图1A中的系统121的估计状态到预测控制器110的真实反馈混淆。

图6A示出了迭代的基于导数的优化过程的框图，该迭代的基于导数的优化过程用于经由使用连续的基于局部线性化的凸近似605，在随机预测控制器中，在每个控制时间步长下求解约束的最优控制结构化的非线性规划(NLP)350。使用NLP的解猜测601来构建该局部凸近似，并且使用约束NLP的局部(凸)近似的解610来更新预测时间范围内的控制输入、状态均值和协方差值的当前序列615，从而在算法过程的每次迭代时更新约束NLP的当前解猜测601。优化过程的每次迭代均检查是否已经找到约束NLP的解和/或是否已经达到最大迭代次数607。如果满足终止条件607，则已经找到控制解365，否则评估620约束雅可比矩阵(其近似)，以便在优化算法的下一次迭代中构建基于局部线性化的近似605。来自先前控制时间步长的控制输入、状态均值和协方差值310可以用于在随机预测控制器的每个时间步长下形成约束NLP的初始解猜测601和线性化点。

基于非线性目标和约束函数345并且使用当前解猜测601作为线性化点(包括在预测时间范围内的控制输入、状态均值和协方差值的轨迹)，在算法过程的每次迭代时构建对NLP 605的局部(凸)近似。为此，需要计算或近似620约束雅可比矩阵，以便形成复杂非线性系统动态的离散化系统、状态均值和协方差传播方程和/或非线性不等式约束的线性化。在局部近似的解形成NLP的足够准确解607的情况下，则获得最优控制解365。当替代地达到最大迭代次数607时，可以获得次优和/或不可行的解365。在尚未找到NLP的足够准确的解并且尚未达到最大迭代次数607的情况下，则使用对局部近似的解610来更新在预测时间范围615内的控制输入、状态均值和协方差值的轨迹并且更新对NLP的解猜测601。

可以使用不同类型的优化算法来经由使用连续局部近似605，在每个控制时间步长求解不等式约束的、最优控制结构化的非线性规划(NLP)350。一些实施方式基于序列二次规划(SQP)，其中在每次迭代中构建并求解(凸)二次规划(QP)作为对初始NLP的局部近似。本发明的一些实施方式基于以下认识：求解凸QP的计算成本通常可以远小于求解初始NLP 350所需的计算成本。相反，一些实施方式基于内部点(IP)方法，其中每个局部近似是NLP的最优性的一阶必要条件的线性化，在该一阶必要条件的线性化中，对应于不等式约束的互补性条件通常基于松弛过程而得到平滑。在一些实施方式中，使用障碍函数来迭代地实施不等式约束，并且每次迭代构建并求解对障碍重构问题的局部近似。

当在每次迭代中构建605并求解610局部子问题时，基于导数的优化算法可以针对约束雅可比矩阵和Hessian矩阵使用不同的牛顿型近似技术。一些实施方式基于通过计算精确约束雅可比矩阵620的一些或所有约束函数的精确线性化。一些实施方式替代地使用准牛顿类型更新公式来经由低秩更新技术迭代地更新对约束雅可比矩阵的近似。类似地，对于NLP的拉格朗日Hessian矩阵，也可以使用不同的牛顿型近似技术。一些实施方式基于在构建对NLP的每个局部近似时对拉格朗日的精确Hessian矩阵的评估。一些实施方式替代地使用准牛顿型更新公式来经由对称低秩更新技术迭代地更新对Hessian矩阵的近似。在NLP的目标函数包括(非线性)最小二乘类型成本项的情况下，一些实施方式替代地基于高斯-牛顿型Hessian近似。

图6B示出了更紧凑的NLP公式630，该NLP公式等同于625最优控制结构化优化问题350、370或380

s.t.0＝F(y,z),

0＝E(y,z),

0≥I(y,z),

其需要在随机预测控制器中的每个控制时间步长下求解。紧凑NLP公式630将预测时间范围内的平均状态和控制变量称为y635，并且将状态协方差矩阵变量的Cholesky因子称为z636

例如，根据本发明的一些实施方式，基于如图3D中所示的用于随机预测控制器的OCP-NLP公式380，可以分别在等式约束0＝F(y,z)632和0＝E(y,z)633中定义离散时间非线性系统动态以及离散时间状态均值和协方差传播方程

其中函数F(·)637表示离散时间状态均值传播方程的级联，并且函数E(·)638表示离散时间状态协方差传播方程的级联。

本发明的一些实施方式基于以下认识：每个状态协方差矩阵均表示对称矩阵，使得可以定义矢量化形式并且其中nx表示状态变量的数量，其可以替代地用于定义z636以降低随机预测控制器的计算复杂度和存储器要求。另外，紧凑NLP公式630可以包括一个或多个线性和/或非线性不等式约束634(包括确定性和/或近似概率机会约束)以及线性二次或非线性目标函数631。在本发明的一些实施方式中，目标函数定义为最小二乘函数/>其中线性或非线性函数L(y)例如可以指系统的某个输出函数与预测时间范围内的每个时间点处的一系列参考输出值的偏差。在本发明的一些实施方式中，目标函数是可以取决于控制输入、状态均值和协方差变量中的一者或多者的线性或非线性函数ψ(y,z)，例如以便在根据本发明的实施方式的随机预测控制器的每个控制时间步长下进行性能度量的约束优化，该性能度量可以直接或间接地取决于预测的状态不确定性。

图6C示出了精确的基于雅可比的二次规划(QP)640的框图，根据一些实施方式,基于雅可比的二次规划(QP)640基于用于实施随机预测控制器的序列二次规划(SQP)，形成最优控制结构化NLP 630的局部(凸)近似605。QP子问题中的线性等式约束642对应于基于完整约束雅可比矩阵652的评估的离散时间系统动态632的线性化和状态协方差传播方程633的线性化。此外，初始NLP公式中的不等式约束634需要局部线性化643，对于该局部线性化643，需要针对每个非线性不等式约束评估精确的雅可比矩阵653。

最优控制结构QP 640中的线性二次目标641局部近似非线性目标631。如前所述，Hessian矩阵Hⁱ 651可以基于拉格朗日的Hessian的精确评估，或者针对预测时间范围的每个间隔使用准牛顿类型更新公式或高斯牛顿Hessian近似。在本发明的一些实施方式中，高斯-牛顿Hessian近似可以如下用于非线性最小二乘目标函数631：

其中，NLP 630的拉格朗日定义如下：

并且矢量gⁱ因此被如下定义为非线性最小二乘目标函数631的梯度：

其中yⁱ和zⁱ分别表示在SQP优化算法的第i次迭代中，预测时间范围内的平均状态和控制变量以及状态协方差矩阵变量的当前值。在本发明的一些实施方式中，目标函数631另外取决于z636中的状态协方差矩阵变量的一个或多个元素，使得Hessian和梯度评估可以取决于yⁱ和zⁱ两者。

本发明的一些实施方式基于以下认识：Hessian矩阵651、等式约束雅可比矩阵652和不等式约束雅可比矩阵653由于约束的NLP 380的等式约束382-383中的可分离目标函数381、级独立不等式约束384-385以及在预测时间范围内的后续级处的状态和协方差矩阵变量之间的级耦合而表现出块结构化稀疏性。因此，在本发明的一些实施方式中，利用优化算法的块稀疏结构可以用于在用于实施随机预测控制器的SQP优化算法中求解610最优控制结构化NLP 630的每个局部(凸)QP近似640。利用QP优化算法的块稀疏结构的实施例包括原始、双或原始双有效集方法、内部点方法、投影梯度方法、前向-后向分割方法或交替方向乘数方法(ADMM)。

在本发明的一些实施方式中，一个或多个非线性不等式约束634中的一个或多个可以由一个或多个非线性但凸不等式约束局部近似，从而产生需要在随机预测控制器的序列凸规划(SCP)实施中求解610的局部凸规划(CP)近似605。例如，在一些实施方式中，一个或多个概率机会约束可以由凸二阶锥约束和/或凸二次不等式约束来局部近似。每个凸锥约束均施行：一个或多个控制输入、状态均值和/或状态协方差矩阵变量的线性组合被限制在凸锥的内部。凸锥的实施例可以包括正像限、正半定矩阵集合和/或二阶锥。本发明的一些实施方式基于以下认识：最优控制结构化约束的NLP 350的局部凸规划近似605可以是线性规划(LP)、二次规划(QP)、二次约束二次规划(QCQP)、二阶锥规划(SOCP)或半定规划(SDP)，并且这些问题类别中的每一者均可以通过利用凸优化算法的结构来解决。

本发明的一些实施方式基于以下认识：在牛顿型SQP优化算法的每次迭代中，状态协方差传播方程633的线性化可能需要对非线性系统动态的一阶和/或高阶导数进行评估，这在动态维度高的情况下、在动态涉及冗长的非线性表达式的情况下或者在动态由一组刚性或隐式定义的微分方程描述的情况下形成计算代价高的步骤。因此，本发明的一些实施方式基于非精确SQP优化算法中的雅可比矩阵近似技术，其避免了对652中的完整约束雅可比矩阵和/或/>的评估，因此避免了对需要在随机预测控制器的每个控制时间步长下求解的约束NLP 630的等式约束632中的非线性系统动态的一阶和/或高阶导数的评估。

图7A示出了运算预测时间范围700内的状态均值和协方差矩阵的轨迹的框图，该运算如根据本发明的一些实施方式的图5C或图5D中所示，并且在给定预测时间范围701内y635中的当前平均状态和控制值的情况下，使用基于离散时间ADF的传播方程。由平均状态值702和状态协方差矩阵703的Cholesky因子的计算组成过程700，该过程700需要对预测时间范围k＝0,1,…,N-1内的每个积分点的中间值/>和Y_k+1,i 705进行评估，并且函数φ(s_k,u_k,w_k)＝f(s_k,u_k+Ks_k,w_k)表示在不确定性下的受控系统的预稳定动态模型706。可以给出或估计121-122初始平均状态值/>和初始状态协方差矩阵/>及其Cholesky因子/>使得可以在给定预测时间范围k＝0,1,…,N-1内的每个积分点/>的中间值/>和Y_k+1,i 705的情况下评估每个平均状态值s₁,s₂,…,s_N 702和每个Cholesky因子/>然后，可以将预测时间范围710内的状态协方差矩阵评估为/>

图7B示出了根据本发明的一些实施方式的用于随机预测控制器的有效实施的不精确SQP优化算法的框图。基于导数的迭代优化过程避免了对652中完整约束雅可比矩阵和/或/>的评估，因此避免了对需要在随机预测控制器的每个控制时间步长下求解的约束NLP 630的等式约束632-633中的非线性系统动态f(·)的一阶和/或高阶导数的评估。更具体地，本发明的一些实施方式在去除用于Cholesky因子的偏差变量Δzⁱ725之后，求解针对平均状态和控制值序列yⁱ以及状态协方差矩阵序列zⁱ的Cholesky因子的非线性OCP 720的局部(凸)QP近似，如下：

/>

其仅包括关于平均状态和控制值的偏差变量Δyⁱ作为优化变量

因此显著降低了随机预测控制器中实施不精确SQP优化算法的计算复杂度和存储器要求。

与精确的基于雅可比的局部(凸)QP近似640不同，图7B中的非线性OCP的不精确的局部(凸)QP近似720包括用于状态协方差矩阵的Cholesky因子的固定更新序列Δzⁱ(例如，在本发明的一些实施方式中，的近似线性-二次目标函数721、等式约束722中的非线性系统动态的近似线性化和非线性不等式约束723的近似线性化。对于不精确SQP优化算法的第i次迭代中的局部(凸)QP解，等式和不等式约束的最优拉格朗日乘数值分别表示为/>和/>

本发明的一些实施方式基于以下认识：线性二次目标函数721可以等效于精确的基于雅可比的局部(凸)QP近似640的目标函数641，例如，如果目标函数不直接取决于z 636中的状态协方差矩阵变量的Cholesky因子。在其它实施方式中，线性二次目标函数721是对状态协方差矩阵的Cholesky因子的固定更新序列Δzⁱ的不精确近似。

NLP 601的解猜测用于构建和求解局部QP近似720，以便将预测时间范围730内的当前一系列的控制输入、状态均值和协方差值的更新为yⁱ⁺¹＝yⁱ+αⁱΔyⁱ731和zⁱ⁺¹＝zⁱ+αⁱΔzⁱ732，其中Δyⁱ表示局部(凸)QP近似720的原始优化变量的解，并且Δzⁱ表示对状态协方差矩阵的Cholesky因子的固定更新序列。例如，在本发明的一些实施方式中，可以使用协方差传播方程0＝E(y,z)633的近似不精确线性化将更新计算为另选地，在本发明的一些实施方式中，可以使用预测时间范围内的平均状态值的显式和序列评估以及状态协方差矩阵值的Cholesky因子来直接评估更新值，例如，如图2C或图2D中所述。在本发明的一些实施方式中，可以使用全局化策略来确保牛顿型优化算法的收敛，例如使用更新yⁱ⁺¹＝yⁱ+αⁱΔyⁱ731和zⁱ⁺¹＝zⁱ+αⁱΔzⁱ732，其中可以基于线搜索过程结合用于约束优化的特定评价函数来选择步长值αⁱ∈(0,1]。本发明的其它实施方式使用信任区域方法来确保牛顿型优化算法在随机预测控制器中的收敛。

优化过程的每次迭代均检查是否已经找到约束NLP的解和/或是否已经达到最大迭代次数607。如果满足终止条件607，则已经找到(近似)最优和/或可行的控制解365，否则该过程需要评估(近似)约束雅可比矩阵和Hessian近似Hⁱ740以及(近似)目标梯度/>和近似约束函数矢量/>和/>以便在不精确SQP优化算法的下一次迭代中构建局部(凸)QP近似720。来自先前控制时间步长310的控制输入、状态均值和协方差值可以用于形成约束非线性最优控制问题601的初始解猜测和线性化点。

本发明的一些实施方式基于以下认识：图7B中的不精确SQP优化算法可以避免对652中完整约束雅可比矩阵和/或/>的评估，因此避免了对等式约束632-633中的非线性系统动态f(·)的一个或多个一阶和/或高阶导数的评估与存储。此外，一些实施方式基于以下认识：局部(凸)QP近似720仅包括平均状态和控制偏差变量作为原始优化变量Δy，这与基于精确雅可比的QP近似640不同，使得显著降低了实施基于图7B中的不精确SQP优化算法的随机预测控制器的计算复杂度和存储器要求。

更具体地，如果N表示预测时间范围中的间隔的数量，n_x表示状态变量的数量并且n_u表示控制输入变量的数量，则由于每个状态协方差矩阵的Cholesky因子的稀疏性结构使得和/>利用优化算法的块结构化稀疏性渐近地需要可用的存储器和/>计算来求解精确的基于雅可比矩阵的SQP优化算法中的QP子问题640。相反，根据本发明的一些实施方式，利用优化算法的块结构化稀疏性仅渐近地需要O(N(n_x+n_u)²)可用的存储器和O(N(n_x+n_u)³)计算来在每个控制时间步长求解一个或多个不精确的基于雅可比矩阵的局部QP近似720以实施随机预测控制器。

图8A示出了约束雅可比矩阵801的特定近似的框图，该特定近似允许对状态协方差矩阵的Cholesky因子的更新轨迹Δzⁱ进行计算有效的数值消除，从而产生约束非线性OCP 805的局部(凸)QP近似中的基于邻接的梯度校正806以及不等式约束和等式约束/>的压缩评估。另外，在分别给定等式和不等式约束的拉格朗日乘数值/>和/>的情况下，可以使用扩展步骤来计算协方差传播等式约束810的拉格朗日乘数值/>更具体地，约束雅可比近似802可以完全避免对652中的导数/>的评估：

使得可以以相对小的计算成本从局部(凸)QP近似中数值消除对状态协方差矩阵的Cholesky因子的更新，同时保持优化问题的块结构化稀疏性。例如，在本发明的一些实施方式中，状态协方差矩阵的Cholesky因子的更新(如)可以在数值上被消除。

本发明的一些实施方式基于以下认识：约束雅可比矩阵近似802可以附加地允许该方法避免对625中完整约束雅可比矩阵和/或/>的高成本评估，但是它替代地需要前向方向导数/>的一个或多个相对成本低廉的评估和/或后向/邻接方向导数的一个或多个相对成本低廉的评估，其中d表示关于每个方向导数的具有种子值的列矢量。另外，本发明的一些实施方式基于约束雅可比矩阵/>是可逆的认识，因此前向方向导数/>和/或后向/邻接方向导数/>的相对成本低廉的评估可以另外由随机预测控制器中的基于不精确导数的优化算法使用。在本发明的一些实施方式中，可以使用数值微分、符号微分或算法微分(AD)技术有效地计算方向导数。

本发明的一些实施方式基于以下认识：局部(凸)QP近似中的梯度矢量需要包括基于邻接的梯度校正，以便能够确保所得SQP优化算法收敛于约束NLP 350的可行且最优的解。该梯度校正取决于NLP的局部QP近似中的等式和/或不等式约束的约束雅可比矩阵的近似质量，即，

其中，gⁱ是如641中的目标梯度矢量，并且是基于后向/邻接方向导数评估的校正梯度矢量806。本发明的一些实施方式基于以下认识：例如通过使用算法微分(AD)的后向或邻接模式，与完整的雅可比矩阵评估/>相比，邻接导数矢量评估计算起来成本低廉地多。

基于约束雅可比近似802，对状态协方差矩阵的Cholesky因子的更新(如)可以被有效地在数值上消除，从而产生不等式约束的压缩评估，该压缩评估读取为

类似地，基于对状态协方差矩阵725的Cholesky因子的更新 725，等式约束/>的压缩评估被读取为

在对所得局部(凸)QP近似求解之后，可以将状态协方差矩阵值的Cholesky因子序列更新为zⁱ⁺¹＝zⁱ+αⁱΔzⁱ732并使用通过使用以下扩展步骤811，可以基于可以直接从局部(凸)QP解获得的等式约束的拉格朗日乘数值/>和不等式约束的拉格朗日乘数值/>来计算协方差传播约束的拉格朗日乘数值/>

其用于在不精确SQP优化算法的下一次迭代中局部QP子问题的基于邻接的梯度校正。

图8B示出了根据本发明的一些实施方式的用于使用基于邻接的梯度校正来改进收敛特性的随机预测控制器的有效实施的不精确SQP优化算法的框图。基于导数的迭代优化过程避免了对625中完整约束雅可比矩阵和/或/>的评估和存储，而是依赖于对每次SQP迭代的一个或多个前向和/或后向方向导数评估的评估，这对于有效地计算和存储而言成本相当低廉。例如，本发明的一些实施方式依赖于前向方向导数的评估来计算对状态协方差矩阵的Cholesky因子的更新/>Δzⁱ可以用于基于前向方向导数来计算/>和另外，本发明的一些实施方式依赖于后向/邻接方向导数/>和用于计算校正的梯度矢量/>的后向/邻接方向导数/>的评估，其中，d是可以基于剩余约束的后向/邻接方向导数来计算的列矢量(即，)，用于计算拉格朗日乘数值/>的扩展步骤。

更具体地，本发明的一些实施方式针对平均状态和控制输入值的给定序列yⁱ和状态协方差矩阵值的Cholesky因子的给定序列zⁱ求解非线性OCP 820的局部(凸)QP近似如下：

其仅包括平均状态和控制值的偏差变量Δyⁱ作为优化变量

因此，显著降低了用于实施随机预测控制器中基于邻接的不精确SQP优化算法的计算复杂度和存储器要求。

与图7B中的非精确SQP优化算法不同，图8B中的非线性OCP的基于邻接的非精确QP近似820包括线性二次目标函数821中的基于邻接的梯度校正分别在局部(凸)QP近似的线性化等式约束822和线性化不等式约束823中的等式约束/>的压缩评估和不等式约束/>的压缩评估。对于基于邻接的不精确SQP优化算法的第i次迭代中的局部QP解，等式和不等式约束的最优拉格朗日乘数值分别表示/>为826和/>

使用NLP 601的解猜测来构建和求解局部QP近似820，以便将预测时间范围830内的控制输入、状态均值和协方差值的当前序列更新为yⁱ⁺¹＝yⁱ+αⁱΔyⁱ731和zⁱ⁺¹＝zⁱ+αⁱΔzⁱ732，其中Δyⁱ表示局部(凸)QP近似820的原始优化变量的解，并且表示使用协方差传播方程0＝E(y,z)633的近似不精确线性化来对状态协方差矩阵的Cholesky因子更新的序列。在本发明的一些实施方式中，可以基于线搜索过程结合特定评价函数来选择步长值αⁱ∈(0,1]，以确保约束优化算法的进展和收敛。在本发明的一些实施方式中，优化算法使用来自第i次SQP迭代中的局部QP解的最优拉格朗日乘数值，基于更新值/>和/>来分别将等式和不等式约束的拉格朗日乘数值更新为λⁱ⁺¹＝λⁱ+αⁱΔλⁱ 831、μⁱ⁺¹＝μⁱ+αⁱΔμⁱ832和κⁱ⁺¹＝κⁱ+αⁱΔκⁱ833。另选地，在本发明的一些实施方式中，优化算法将等式和不等式约束的拉格朗日乘数值更新为/> 和

优化过程的每次迭代均检查是否已经找到约束NLP的解和/或是否已经达到最大迭代次数607。如果满足终止条件607，则已经找到(近似)最优和/或可行的控制解365，否则该过程需要评估(近似)约束雅可比矩阵和Hessian近似Hⁱ840以及835中的(近似)目标梯度/>和近似约束函数矢量/>和/>以便为随机预测控制器中的不精确SQP优化算法的下一次迭代构建局部(凸)QP近似820。

类似于图7B，图8B的基于邻接的SQP优化算法使得显著降低实施随机预测控制器的计算复杂度和存储器要求。更具体地，如果N表示预测时间范围中的间隔数量，n_x表示状态变量的数量并且n_u表示控制输入变量的数量，则由于每个状态协方差矩阵的Cholesky因子的稀疏性结构而使得和/>利用凸优化算法的块结构化稀疏性渐近地需要/>可用的存储器和/>计算来求解精确的基于雅可比的SQP优化算法中的凸QP子问题640。相反，利用凸优化算法的块结构化稀疏性仅渐近地需要O(N(n_x+n_u)²)可用的存储器和O(N(n_x+n_u)³)计算来在每个控制时间步长求解一个或多个不精确的基于雅可比矩阵的局部凸QP近似820以实施随机预测控制器。

图8C示出了根据本发明的一些实施方式的用于实施随机非线性模型预测控制器840的基于邻接的不精确SQP优化算法的实时变体的算法描述。基于解猜测(yⁱ,zⁱ,λⁱ,μⁱ,κⁱ)和仿射反馈增益矩阵K841，实时的基于邻接的SQP优化算法840在随机预测控制器的每个控制时间步长下计算约束NLP 350的更新的解猜测(yⁱ⁺¹,zⁱ⁺¹,λⁱ⁺¹,μⁱ⁺¹,κⁱ⁺¹)856。图8C中的算法过程描述了实时优化算法，因为该实时优化算法进行有限次数的迭代以从一个控制时间步长到下一个控制时间步长更新NLP解猜测，从而使得在不确定性125下对控制系统120快速反馈，同时遵守对嵌入式微处理器上的在线计算的严格定时约束，并且允许优化算法840实时收敛于约束的NLP的(近似)可行和/或最优控制解。在本发明的一些实施方式中，在每个控制时间步长下仅执行一次实时SQP迭代840以实施随机预测控制器。

实时SQP优化算法840包括用于局部(凸)QP近似845的准备步骤、随后的允许控制动作快速反馈到实际过程855的块稀疏QP求解850以及用于消除的原始和双重优化变量853的扩展步骤，该扩展步骤用于更新所有原始和双重优化变量860。准备步骤可以计算块对角线Hessian近似Hⁱ846，其中每个块均对应于预测时间范围(即，k＝0,…,N)中的间隔和基于邻接的梯度校正806。此外，准备步骤可以评估块稀疏雅可比矩阵和/>以及局部(凸)QP近似820中的等式约束/>的压缩评估和不等式约束的压缩评估。本发明的一些实施方式使用AD的前向和/或邻接模式来在QP子问题845的准备中有效地评估矩阵和矢量846-848。

在准备局部(凸)QP子问题845之后并且在接收到当前状态估计和状态不确定性之后，通过求解块结构QP来进行求解步骤850，以便获得Δyⁱ、/>和/>然后在扩展步骤853中计算/>和/>在本发明的一些实施方式中，基于原始更新值Δyⁱ、Δzⁱ并且基于双重更新值/>和实时SQP优化算法840包括搜索步长选择870，以计算αⁱ∈(0,1]，使得评价函数的充分减小条件成立871，例如

其中m(·)表示约束非线性OCP的评价函数，并且给定参数值ρ>0和η∈(0,1)。基于步长选择870，优化算法可以在更新步骤860中更新原始优化变量yⁱ⁺¹＝yⁱ+αⁱΔyⁱ731和zⁱ⁺¹＝zⁱ+αⁱΔzⁱ732以及双优化变量λⁱ⁺¹＝λⁱ+αⁱΔλⁱ 831、μⁱ⁺¹＝μⁱ+αⁱΔμⁱ832和833。基于控制输入、状态均值和协方差值的更新轨迹，实时SNMPC控制器向过程855提供控制反馈动作最后，在本发明的一些实施方式中，可以使用移位过程来计算在下一时间步长857下约束非线性OCP的期望解猜测，以便改进优化算法的收敛特性，并因此改进随机预测控制器的整体性能。

图8D示出了根据本发明的一些实施方式的用于步长选择870的搜索过程的实施例，以计算步长值αⁱ∈(0,1]895，使得满足885随机预测控制器中的实时基于邻接的SQP优化算法840的充分减小条件。本发明的一些实施方式基于为约束非线性OCP 881定义的评价函数，例如，

其基于相对大的惩罚参数值ρ>0和相对小的可行性容差值∈≥0，对应于将关于目标函数631的最优性以及关于等式约束632-633的可行性和关于不等式约束634的可行性加以考虑的约束NLP 630的精确l₁惩罚函数。本发明的一些实施方式基于以下认识：l₁评价函数881不可微分，但存在方向导数，这足以满足步长选择过程870的要求。

基于评价函数881并且给定Δyⁱ、Δzⁱ880中的控制输入、状态均值和协方差值的轨迹的搜索方向，步长选择过程可以将步长值的猜测初始化为αⁱ←1。然后，步长选择过程870的每次迭代均检查是否满足充分减小条件885，例如，

其中m(·)表示约束非线性OCP 881的评价函数，并且给定了对应的参数值ρ>0和η∈(0,1)。如果满足充分减小条件886，则找到期望步长值αⁱ∈(0,1]895。如果在本发明的一些实施方式中，不满足充分减小条件886，则步长选择过程870可以更新对步长值的当前猜测，例如，使用(/>并且β∈(0,1))890，使得在步长选择过程870的每次迭代中减小αⁱ的值，直到满足充分减小条件886并且已经找到895期望的步长值αⁱ∈(0,1]。基于对步长值的新猜测，需要评估评价函数881以计算新值891，以便检查是否满足充分减小条件885，并且直到找到期望的步长值895。本发明的一些实施方式基于以下认识：满足充分减小条件886的最大步长值αⁱ∈(0,1]可以使得随机预测控制器中的优化算法840的收敛特性最佳。

图9A示出了约束雅可比矩阵的块结构化稀疏性的数值利用900的框图

由于协方差传播方程E(y,z)＝0 902中的级结构耦合，该数值利用900是为了计算用于SNMPC控制器的基于邻接的非精确SQP优化算法的局部(凸)QP近似820中的状态协方差矩阵的Cholesky因子903的更新值序列可逆约束雅可比矩阵的块双对角线稀疏性结构可以直接用于基于以下前向递归公式905计算状态协方差矩阵的Cholesky因子的更新值725

其使用初始值来递归地计算更新值/>的序列。

图9B示出了约束雅可比矩阵910的块结构化稀疏性的数值利用的框图

该数值利用是为了在用于SNMPC控制器的基于邻接的不精确SQP优化算法的局部QP近似820中使用状态协方差矩阵的Cholesky因子的更新值Δzⁱ725序列来计算不等式约束值的压缩评估。约束雅可比矩阵/>的块对角线稀疏性结构和可逆约束雅可比矩阵/>的块双对角线稀疏性结构可以直接用于基于以下前向递归公式915有效地计算不等式约束值807的压缩评估

其使用初始值和/>递归地计算压缩不等式约束值/> 的序列和更新值/>的序列，以便在823中计算每个压缩不等式约束值/>

图9C示出了约束雅可比矩阵920的块结构化稀疏性的数值利用的框图

由于平均状态传播方程F(y,z)＝0922中的级结构耦合，该数值利用是为了在用于SNMPC控制器的基于邻接的不精确SQP优化算法的局部QP近似820中使用状态协方差矩阵的Cholesky因子的更新值Δzⁱ725序列来计算等式约束值的压缩评估。约束雅可比矩阵/>的下块对角线稀疏性结构和可逆约束雅可比矩阵/>的块双对角线稀疏性结构可以直接用于基于以下前向递归公式925有效地计算等式约束值808的压缩评估

其使用初始值和/>递归地计算更新值/> 的序列和压缩等式约束值/>的序列，以便在822中计算每个压缩等式约束值/>

图9D示出了约束雅可比矩阵930的块结构化稀疏性的数值利用的框图

/>

该数值利用是为了在SNMPC控制器的基于邻接的不精确SQP优化算法的扩展步骤810中计算状态协方差传播方程的拉格朗日乘数值。约束雅可比矩阵/>的块对角线稀疏性结构、约束雅可比矩阵/>的上块对角线稀疏性结构和可逆约束雅可比矩阵/>的块双对角线稀疏性结构可以直接用于基于以下后向递归公式935计算拉格朗日乘数的更新值

其使用中间值和中间值/> 并且使用初始值/>以便递归地计算更新的拉格朗日乘数值的序列，从而在用于SNMPC控制器的基于邻接的不精确SQP优化算法的扩展步骤853中计算每个更新的值/>

图10A示出了车辆1001的示意图，车辆1001包括采用一些实施方式的原理的随机预测控制器1002。如本文所用，车辆1001可以是任何类型的轮式车辆，诸如客车、公共汽车或漫游车。此外，车辆1001可以是自主或半自主车辆。例如，一些实施方式控制车辆1001的运动。运动的实施例包括由车辆1001的转向系统1003控制的车辆的横向运动。在一个实施方式中，转向系统1003由控制器1002控制。附加地或另选地，转向系统1003可以由车辆1001的驾驶员控制。

车辆1001还可以包括引擎1006，该引擎可以由控制器1002或车辆1001的其它部件控制。车辆1001还可以包括一个或多个传感器1004以感测周围环境。传感器1004的实施例包括测距仪、雷达、激光雷达和摄像头。车辆1001还可以包括一个或多个传感器1005以感测其当前运动量和内部状态。传感器1005的实施例包括全球定位系统(GPS)、加速度计、惯性测量单元、陀螺仪、轴旋转传感器、扭矩传感器、偏转传感器、压力传感器和流量传感器。传感器1005向控制器1002提供信息。在本发明的一些实施方式中，传感器用于估计车辆的当前状态，该当前状态例如包括以下量中的一个或多个：车辆的位置、纵向和横向速度、偏航角和偏航率、车辆的一个或多个车轮处的角速度或滑移角以及其它相关量。根据本发明的一些实施方式，预测控制器1002计算控制输入，该控制输入例如包括以下量中的一个或多个：方向盘角度或转向速率、车辆的一个或多个车轮处的角速度或扭矩以及其它相关量。车辆1001可以配备有借助有线或无线通信信道实现控制器1002的通信能力的收发器1007。

图10B示出了根据一些实施方式的随机预测控制器1002与车辆1001的控制器1020之间的交互的示意图。例如，在一些实施方式中，车辆1001的控制器1020是控制车辆1001的旋转和加速的转向装置1025和制动/油门控制器1030。在这种情况下，随机预测控制器1002向控制器1025和1030输出控制输入以控制车辆的状态。控制器1020还可以包括高级控制器，例如车道保持辅助控制器1035，该车道保持辅助控制器进一步处理随机预测控制器1002的控制输入。在这两种情况下，控制器1020使用随机预测控制器1002的输出来控制车辆的至少一个致动器(诸如车辆的方向盘和/或制动器)，以便控制车辆的运动。

图10C示出了自主或半自主受控车辆1050的示意图，可以通过使用本发明的实施方式来计算动态可行且通常最佳的轨迹1055。所生成的轨迹旨在将车辆保持在特定道路边界1052内，并且旨在避开其它不受控车辆，即，受控车辆1050的障碍物1051。在一些实施方式中，每个障碍物1051均可以由约束最优控制问题的时间或空间公式中的一个或多个不等式约束表示。例如，基于配置为实施随机模型预测控制器的实施方式，自主或半自主受控车辆1050可以实时做出决策，例如，经过左侧或右侧的另一车辆，或者替代地保持在道路1052的当前车道内的另一车辆后面。本发明的实施方式基于SNMPC控制器，该SNMPC控制器直接考虑关于车辆1050的当前状态和预测状态的不确定性、关于车辆模型中的参数的不确定性以及关于环境的当前和预测状态的不确定性(例如，包括在距自主或半自主受控车辆1050的当前位置一定距离内的障碍物1051)。

图10D示出了由SNMPC控制器控制的车辆1065的示意图，该SNMPC控制器旨在通过使用本发明的实施方式在上道路边界1060和下道路边界1061内跟踪车道急剧变换操纵的动态可行和最佳轨迹1070。图10D示出了：第一时间点时车辆位置1065，包括由SNMPC控制器1071传播所预测的状态轨迹的不确定性；第二时间点时车辆位置1066和传播对应的预测状态不确定性1072；以及第三时间点时车辆位置1067和传播对应的预测状态不确定性1073。根据本发明的一些实施方式，使用具有概率机会约束的随机预测控制器允许受控车辆违反道路边界约束1060和/或1061的概率低于某个概率阈值。更具体地，例如，图10D示出了第二时间点时预测状态轨迹1072的随机管达到1075上道路边界约束1060，其示出了随机预测控制器的行为，随机预测控制器的行为旨在满足不确定性下的受控系统的确定性约束和概率机会约束两者。

系统及其环境的不确定性的实施例可以包括与车辆的轮胎和路面之间的摩擦行为相关的任何时变参数，例如，可以在控制车辆时离线和/或在线学习或估计的Pacejka轮胎力模型中的参数。根据本发明的实施方式，估计参数值以及估计不确定性可以定义为随机非线性模型预测控制器的直接最优控制问题公式中的时变和不确定干扰变量。

本发明的上述实施方式可以以多种方式中的任何一种来实施。例如，可以使用硬件、软件或其组合来实施这些实施方式。当以软件实施时，软件代码可以在无论是在单个计算机中提供还是分布在多个计算机中的任何合适的处理器或处理器集合上执行。此类处理器可以实施为集成电路，在集成电路组件中有一个或多个处理器。然而，处理器可以使用任何合适设计的电路来实施。

而且，本发明的实施方式可以体现为一种方法，已经提供了该方法的实施例。作为方法的一部分进行的动作可以以任何合适的方式排序。因此，可以构建以不同于所示的顺序进行动作的实施方式，这样的实施方式可以包括同时进行一些动作，即使这些动作在所示实施方式中示出为顺序的动作。

在权利要求中使用诸如“第一”、“第二”之类的顺序术语来修改权利要求元素本身并不意味着一个权利要求元素相对于另一权利要求元素的任何优先级、优先权或优先序或执行方法的动作的时间顺序，而是仅用作将具有特定名称的一个权利要求元素与具有相同名称(但使用顺序术语)的另一元素区分开以区分权利要求元素的标签。

Claims

1.一种预测控制器，所述预测控制器用于在系统的状态和控制变量受到约束的不确定性下控制所述系统，所述预测控制器包括：

至少一个处理器；以及

其上存储有指令的存储器，所述指令在由所述至少一个处理器执行时使得所述预测控制器：

在所述预测控制器的每个控制步骤处，求解包括表示不确定性的概率机会约束在内的不等式约束的非线性动态优化问题，以产生控制信号，其中，所述预测控制器基于概率机会约束并且使用基于高斯假设密度滤波ADF的离散时间近似传播方程来求解直接最优控制结构化非线性规划NLP，以根据时变建模不确定性和/或外部干扰中的一者或多者的概率分布的一阶和/或高阶矩积分，在预测范围内执行从一个时间步长到下一个时间步长的状态概率分布的一阶和/或高阶矩积分的近似预测，直到满足终止条件；以及

使用所述控制信号控制所述系统的操作。

2.根据权利要求1所述的预测控制器，其中，对所述系统的状态变量和控制变量的约束包括一个或多个不等式约束，并且其中，基于一个或多个不等式约束的收紧来近似所述概率机会约束，以确保违反每个对应的不等式约束的概率低于概率阈值，所述一个或多个不等式约束具有取决于回退系数值、约束雅可比矩阵以及针对所述预测范围内的每个时间步长下的预测状态变量的一阶和/或高阶矩积分的项。

3.根据权利要求2所述的预测控制器，其中，所述一阶和/或高阶矩积分包括作为均值的第一矩积分和作为协方差的第二矩积分。

4.根据权利要求2所述的预测控制器，其中，所述回退系数值是使用Canelli-Chebyshev不等式来计算的，所述Canelli-Chebyshev不等式无论基础状态概率分布如何都成立。

5.根据权利要求2所述的预测控制器，其中，假设近似正态分布的状态轨迹，使用逆高斯误差函数计算所述回退系数值。

6.根据权利要求2所述的预测控制器，其中，基于所述状态概率分布的第一矩积分、第二矩积分和第四矩积分，使用多变量皮尔逊VII概率分布的累积密度函数来计算所述回退系数值。

7.根据权利要求3所述的预测控制器，其中，针对所述预测范围内的每个时间步长的平均状态值和状态协方差矩阵的传播是在给定初始状态估计和不确定性、给定所述时变建模不确定性和/或外部扰动中的一者或多者的均值和协方差以及给定要针对所述预测范围进行优化的控制输入变量的当前值的情况下，通过基于高斯假设密度滤波ADF评估非线性状态均值和协方差传播方程来执行的。

8.根据权利要求7所述的预测控制器，其中，在给定要针对所述预测范围进行优化的所述控制输入变量的当前值的情况下，高斯假设密度滤波器是扩展卡尔曼滤波器EKF，所述扩展卡尔曼滤波器基于对状态动态方程和对应的雅可比矩阵的评估，使用非线性系统动态的显式线性化。

9.根据权利要求7所述的预测控制器，其中，在给定要针对所述预测范围进行优化的所述控制输入变量的当前值的情况下，高斯假设密度滤波器是线性回归卡尔曼滤波器LRKF，所述线性回归卡尔曼滤波器基于在一个或多个积分点处对状态动态方程的评估，使用所述状态概率分布的统计线性化。

10.根据权利要求9所述的预测控制器，其中，根据球形立方体规则或无先导变换来选择一组积分点。

11.根据权利要求7所述的预测控制器，其中，非线性协方差传播方程是为所述状态协方差矩阵的Cholesky因式分解而定义的，以便在每个控制时间步长保持所述状态协方差矩阵的正定性。

12.根据权利要求11所述的预测控制器，其中，在所述非线性协方差传播方程中使用正则化项，以确保在每个控制时间步长都存在所述状态协方差矩阵的Cholesky因式分解。

13.根据权利要求7所述的预测控制器，其中，针对非线性系统动态的预稳定系统执行针对所述预测范围内的每个时间步长的平均状态值和所述状态协方差矩阵的传播，以考虑所针对述预测范围内的所述预测状态变量的不确定性的前向传播中的未来反馈控制动作。

14.根据权利要求13所述的预测控制器，其中，所述非线性系统动态的预稳定系统使用仿射反馈增益的时不变序列或时变序列。

15.根据权利要求13所述的预测控制器，其中，所述不等式约束的非线性动态优化问题包括针对所述预测范围内的后续反馈控制动作的一个或多个不等式约束的一个或多个概率机会约束，以确保所述非线性系统动态的预稳定系统的可行性。

16.根据权利要求1所述的预测控制器，其中，所述控制器通过使用序列二次规划SQP优化算法来计算所述直接最优控制结构化非线性规划NLP的(近似)最优解，所述SQP优化算法求解保持块结构化稀疏性的二次规划QP子问题，以在所述SQP优化算法的每次迭代时计算对状态均值和协方差变量的值以及对所述控制变量的值的更新，直到满足终止条件。

17.根据权利要求16所述的预测控制器，其中，所述SQP优化算法基于对所述NLP的目标函数和/或约束函数的一阶导数和/或高阶导数中的一个或多个导数的不精确评估，从而产生能够以相当低的计算成本求解的QP子问题。

18.根据权利要求17所述的预测控制器，其中，不精确SQP优化算法的每次迭代都会对状态协方差矩阵的Cholesky因子的偏差变量进行数值消除，从而产生更小的QP子问题，所述更小的QP子问题保持块结构化稀疏性并且能够用相当低的计算成本求解。

19.根据权利要求18所述的预测控制器，其中，所述不精确SQP优化算法的每次迭代都使用一个或多个基于邻接的梯度计算作为对所述NLP的目标函数和/或约束函数的一阶导数和/或高阶导数中的一个或多个导数的不精确评估的校正。

20.根据权利要求18所述的预测控制器，其中，所述不精确SQP优化算法的每次迭代都使用基于所述QP子问题的原始解和对偶解的扩展步骤在所述预测范围中的每个时间步长计算对状态协方差矩阵的Cholesky因子的偏差变量的更新和对状态协方差传播方程的拉格朗日乘数值的更新。

21.根据权利要求16所述的预测控制器，其中，对所述状态均值和协方差变量的值以及对所述控制变量的值的更新需要基于全局化的步长选择，所述基于全局化的步长选择能够基于行搜索过程，使用评价函数来确保所述SQP优化算法的每次迭代都有充分进展，以计算所述直接最优控制结构化NLP的(近似)最优解。

22.根据权利要求16所述的预测控制器，其中，平均状态变量和控制变量的优化在作为所述预测范围中的所有先前时间步长下的平均状态变量和控制变量的初始值的函数的压缩例程中在数值上消除所述预测范围中的每个时间步长下的所述平均状态变量，使得在求解压缩QP子问题之后，平均状态变量的值能够通过从初始状态值开始并且使用所述预测范围中的每个时间步长下的更新控制值模拟线性化系统动态来更新。

23.根据权利要求1所述的预测控制器，其中，所述预测控制器从在先前控制步骤处在所述预测范围内的状态均值和协方差矩阵值以及控制输入值的最优或次优序列开始，仅使用基于导数的优化算法的一次或预定次数的迭代来求解每个控制步骤处的不等式约束非线性动态优化问题。

24.根据权利要求23所述的预测控制器，其中，所述基于导数的优化算法是使用目标函数和/或约束函数的一阶和/或高阶导数中的一个或多个导数的不精确评估的基于邻接的SQP优化方法，所述基于邻接的SQP优化方法在每个控制步骤处仅求解一个或预定数量的块结构QP子问题，以在所述预测范围内更新状态均值和协方差矩阵值以及控制输入值的最优或次优序列。

25.根据权利要求1所述的预测控制器，其中，受控系统配置为向车辆的控制器输出控制输入。

26.根据权利要求25所述的预测控制器，其中，所述车辆的状态包括所述车辆的位置、取向、速度、角速度、滑移比和滑移角值中的一者或组合，其中，所述控制输入包括加速度、制动扭矩、转向角和转向率值中的一者或组合，并且其中，所述不确定性包括时变干扰，所述时变干扰包括所述车辆的模型中的质量值、惯性值或两者的不确定性、所述车辆的转向模型中的不确定性、指示所述车辆的轮胎与路面之间的摩擦的一个或多个参数值中的不确定性中的一者或组合。