CN117716302A

CN117716302A - 用于校准反馈控制器的系统和方法

Info

Publication number: CN117716302A
Application number: CN202280051925.1A
Authority: CN
Inventors: M·门纳; K·贝恩拓普; S·迪卡拉诺
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-08-02
Filing date: 2022-05-19
Publication date: 2024-03-15
Also published as: EP4381353A1; US11977374B2; US20230038215A1

Abstract

公开了一种用于控制执行任务的机器的操作的系统。该系统向机器提交控制输入序列并接收反馈信号。该系统还在各个控制步通过基于反馈控制器的控制参数集合中的控制参数的当前值应用将系统的当前状态的当前测量变换为用于控制机器的当前控制输入的控制策略，基于包括当前测量的反馈信号来确定当前控制输入。此外，该系统可使用预测控制参数的值的预测模型和更新预测值的测量模型迭代地更新由控制参数定义的反馈控制器的状态，以根据性能目标生成说明测量序列的控制参数的当前值。

Description

用于校准反馈控制器的系统和方法

技术领域

本公开总体上涉及控制系统，更具体地，涉及用于校准反馈控制器的系统和方法。

背景技术

目前，存在可在非结构化和不确定环境中操作的各种动力机器(dynamicmachine)。实际上，为了在非结构化和不确定环境中操作，这些动力机器本质上更复杂。因为动力机器本质上复杂并且在越来越非结构化或不确定的环境中操作，所以对动力机器的自动化设计和校准过程的需求变得更重要。特别是，诸如自主车辆或机器人的许多动力机器的控制包括常常冲突的各种规范，因此需要相当大的手动校准努力。此外，通常在生产阶段进行校准，并且因为动力机器的操作条件在其寿命内变化，所以后期常常难以调节与动力机器关联的控制器。

存在一些目前可用的方法，其旨在将控制器校准自动化并使控制器适应动力机器的操作和运行条件。然而，这些可用方法聚焦于向人类专家学习或经由试错搜索的重复性学习任务。因此，这些可用方法可能仅适合于适宜重复性学习的应用。例如，这些可用方法可用在机器人中以操纵对象。然而，这些可用方法在本质上更连续的控制应用(例如自主驾驶)中无法提供控制器校准。此外，试错搜索常常不适合安全关键机器。另外，有人类示范者的要求限制了自动化量。

因此，需要一种可按高效且可行的方式自动地校准控制器的系统。

发明内容

一些实施方式的目的是实时迭代地校准控制器并使用校准的控制器来控制机器的操作。机器的示例可包括载具(例如，自主车辆)、机器人组件、马达、电梯门、HVAC(加热通风和空调)系统等。机器的操作的示例可包括(但不限于)根据特定轨迹操作载具、根据特定参数操作HVAC系统、根据特定任务操作机器人臂以及打开/关闭电梯门。控制器的示例可包括PID(比例积分微分)控制器、最优控制器、神经网络控制器等。以下，“控制器”和“反馈控制器”可互换使用以表示相同的意思。

为了校准反馈控制器，一些实施方式使用卡尔曼(Kalman)滤波器。但是卡尔曼滤波器通常用于估计定义机器的状态的状态变量，其中状态可以是诸如位置、速度等的物理量。为此，一些实施方式的目的是与机器的状态变量相比变换或调整卡尔曼滤波器以用于估计用于控制机器的反馈控制器的控制参数。尽管状态变量定义所控制的机器的状态，控制参数用于计算控制命令。控制参数的示例是反馈控制器的增益(例如PID控制器中的增益)和/或机器的物理结构的参数(类似机器人臂的质量或车辆轮胎与道路的摩擦)。值得注意的是，控制参数不应与定义由反馈控制器执行的控制律或控制策略的输入和输出的控制变量(例如控制致动器的电压值)混淆。换言之，基于控制参数所定义的控制律将输入控制变量映射到输出控制变量。该映射可以是分析的或基于优化问题的解。

在许多控制应用中，控制参数预先已知并且固定，即，在控制期间保持恒定。例如，机器人臂的质量可测量或从机器人的规格知道，可限制或选择轮胎摩擦，可在实验室调节控制器的增益。然而，预先固定控制参数对于一些应用会是次优的，对于一些其它应用甚至是不切实际的，相反其需要以具有不确定性的控制参数来控制机器。

一些实施方式基于这样的认识：跟踪卡尔曼滤波器所提供的状态变量的原理可被扩展或调整以用于跟踪控制参数。实际上，尽管控制不是机器，而是过程，但认识到控制可被当作具有由控制参数定义的虚拟状态的虚拟机。根据这种直觉，如果在预测阶段期间卡尔曼滤波器所使用的预测模型可预测可根据测量模型说明机器的状态的测量的控制参数，则卡尔曼滤波器可迭代地跟踪控制参数。

值得注意的是，由于预测模型和测量模型由卡尔曼滤波器的设计者提供，这种灵活性允许针对不同类型的控制目标调整卡尔曼滤波器。例如，在一些实施方式中，预测模型是预测控制参数在过程噪声的方差内不会改变的常数或恒等模型。实际上，对于具有固定控制参数的许多控制应用，这种预测是常见的。另外地或另选地，一些实施方式定义了可基于其与其它参数的预定关系来预测至少一些参数的预测模型。例如，一些实施方式可基于车辆的当前速度预测轮胎摩擦的变化。在卡尔曼滤波器的这种配置中，过程噪声控制控制参数随时间变化有多快。

在任何情况下，这种预测模型将跟踪控制参数的主要工作放在测量模型上，并且增加了灵活性以基于控制目标变化测量模型的更新。值得注意的是，这种灵活性允许变化测量模型以用于控制不同机器，但也允许在同一机器的控制期间针对不同时刻或不同状态变化测量模型。

为此，在各种实施方式中，测量模型使用性能目标，性能目标评估在线控制闭环机器的操作的性能，然后用于调整控制参数以改进相对于性能目标测量的闭环机器操作。值得注意的是，性能目标具有高度灵活的结构并且可不同于最优控制器的目标。这是有益的，因为最优控制成本函数具有由于其实时应用而受到限制的结构，例如，成本函数常常需要是可微的和凸的，使得它适合数值优化。此外，性能目标可根据相同的最优控制目标在不同的控制时间改变。此外，最优控制目标或其它控制参数可根据相同的性能目标在不同的时间或作为机器状态的函数改变。

以这种方式，卡尔曼滤波器的优点扩展至控制参数的递归估计。这些优点包括卡尔曼滤波器(i)在机器操作期间在线调整参数、(ii)由于基于滤波器的设计而对噪声鲁棒、(iii)维持闭环操作的安全保证、(iv)计算上高效、(v)由于递归实现而所需的数据存储减少、以及(vi)易于实现，因此对工业应用有吸引力。

一些实施方式基于这样的认识：在许多应用中，需要彼此依赖地集体调节多个控制参数。例如，需要集体地调节PID控制器的增益，以便获得期望的性能并确保安全操作；需要集体地调节最优控制的成本函数的权重，因为它们定义了多个潜在冲突的目标之间的权衡；需要集体地调节用于H_∞控制器或动态输出反馈控制器的滤波器系数，以确保性能和稳定性要求。

通常，校准相互依赖的参数是更具挑战性的问题，因为这种相互依赖性增加了另一要考虑的变量。因此，有多个相互依赖的参数要校准可能增加校准复杂度。然而，一些实施方式基于这样的认识：可通过调节对不同参数的更新设置不同权重的卡尔曼增益来自然地统计上调节校准的控制参数的这种相互依赖性。

一些实施方式基于这样的认识：反馈控制器中使用的控制参数取决于机器的状态。一些实施方式使用基函数的线性组合来解决这种状态依赖性，基函数是机器状态的函数。实际上，卡尔曼滤波器可被实现为调节基函数的系数，然后用于生成控制参数。另外地或另选地，一些实施方式与基函数组合使用状态相关区域。在各个区域中，作为基函数的线性组合计算控制参数。卡尔曼滤波器可调节各个区域中的基函数的系数以及决定哪组基函数用于计算控制参数的区域。

在不同实施方式中，所控制的机器具有线性或非线性动力学特性以及具有不同界限的控制参数的不同不确定性。一些实施方式通过选择卡尔曼滤波器的不同类型的实现和/或过程和/或测量噪声的不同方差来解决这些变化。

例如，一个实施方式使用扩展卡尔曼滤波器(EKF)来计算卡尔曼增益。EKF数值上计算性能目标相对于控制参数的梯度。EKF对于性能目标相对于机器状态可微的问题是有用的，因为梯度使用两个梯度来计算：(i)性能目标相对于机器状态的梯度以及(ii)动力机器的状态相对于控制参数的梯度。性能目标相对于机器状态的梯度由设计者计算。机器状态相对于控制参数的梯度使用反馈控制器的结构和定义机器的动力学特性的模型来计算。

另外地或另选地，一个实施方式使用无迹卡尔曼滤波器(UKF)来计算卡尔曼增益。UKF使用性能目标的函数评估来估计性能目标相对于控制参数的梯度。在这种情况下，UKF可计算西格玛(sigma)点(控制参数的实现)。然后与控制参数的联合概率分布组合使用所有西格玛点的性能目标的评估来估计梯度。UKF对于可微和不可微的性能目标是有用的，因为它使用函数评估来估计梯度。

一些实施方式基于这样的理解：反馈控制器的控制参数的在线迭代更新可改进控制质量，但代价是额外的挑战。例如，在机器的操作期间控制参数的在线更新可引入控制的不连续性。然而，一些实施方式基于这样的认识：可通过强制控制命令满足对机器操作的约束来应对这种不连续性。这些约束可通过检查控制参数以满足所建立的控制理论性质来建立。

另外地或另选地，一些实施方式基于这样的认识：控制参数的在线更新会使机器的操作不稳定。例如，当控制律或控制策略由控制参数的微分方程(ODE)表示时，控制参数的变化可能破坏ODE的平衡稳定性。为了解决不同实施方式的卡尔曼滤波器潜在引入的这种新问题，一些实施方式执行安全检查，例如以卡尔曼滤波器所生成的控制参数的值对控制策略的稳定性检查。此外，仅当满足稳定性检查时才可更新控制策略中的控制参数。

例如，当对于控制参数更新的控制策略存在李雅普诺夫(Lyapunov)函数时，满足稳定性检查。李雅普诺夫函数的存在可按许多方式检查。例如，一些实施方式求解旨在寻找李雅普诺夫函数和/或证明其存在的优化问题。另外地或另选地，一个实施方式检查更新的控制参数对于状态和输入的整个历史是否产生状态相对于性能目标的递减成本。另外地或另选地，另一实施方式检查更新的控制参数是否保持机器与其原点的接近度。认识到参数更新的控制策略的预测范围结束时关联的成本由定义例如终端成本的正定矩阵的最大特征值与最小特征值之比界定，保持与原点的接近度。

此外，一些实施方式基于这样的认识：当卡尔曼滤波器所生成的控制参数未能满足安全检查时，反馈控制器的控制参数不应以卡尔曼滤波器的输出来更新，但卡尔曼滤波器本身不应重启，而是应该以新生成的控制参数继续其迭代，即使卡尔曼滤波器的控制参数将不同于反馈控制器的控制参数。当在一些接下来的后续迭代期间卡尔曼滤波器的控制参数将满足安全检查时，卡尔曼滤波器的安全控制参数将更新反馈控制器的旧控制参数。以这种方式，实施方式在存在控制参数的在线更新的情况下确保控制的稳定性。

因此，一个实施方式公开了一种用于控制执行任务的机器的操作的系统。该系统包括收发器，收发器被配置为向机器提交控制输入序列并接收包括对应测量序列的反馈信号，其中，各个测量指示由对应控制输入导致的机器状态。该系统还包括反馈控制器，反馈控制器被配置为在各个控制步通过应用基于反馈控制器的控制参数集合中的控制参数的当前值将机器的当前状态的当前测量变换为用于控制机器的当前控制输入的控制策略，基于包括当前测量的反馈信号来确定当前控制输入。此外，该系统包括卡尔曼滤波器，卡尔曼滤波器被配置为使用预测经受过程噪声的控制参数的值的预测模型和基于经受测量噪声的测量序列更新控制参数的预测值的测量模型，迭代地更新由控制参数定义的反馈控制器的状态，以根据性能目标生成说明测量序列的控制参数的当前值。

因此，另一实施方式公开了一种用于控制执行任务的机器的操作的方法。该方法包括以下步骤：向机器提交控制输入序列；接收包括对应测量序列的反馈信号，其中，各个测量指示由对应控制输入导致的机器状态；在各个控制步通过应用基于反馈控制器的控制参数集合中的控制参数的当前值将机器的当前状态的当前测量变换为用于控制机器的当前控制输入的控制策略，基于包括当前测量的反馈信号来确定当前控制输入；以及使用预测经受过程噪声的控制参数的值的预测模型和基于经受测量噪声的测量序列更新控制参数的预测值的测量模型，迭代地更新由控制参数定义的反馈控制器的状态，以根据性能目标生成说明测量序列的控制参数的当前值。

因此，另一实施方式公开了一种具体实现有程序的非暂时性计算机可读存储介质，该程序可由处理器执行以用于执行一种用于控制执行任务的机器的操作的方法。该方法包括以下步骤：向机器提交控制输入序列；接收包括对应测量序列的反馈信号，其中，各个测量指示由对应控制输入导致的机器状态；在各个控制步通过应用基于反馈控制器的控制参数集合中的控制参数的当前值将机器的当前状态的当前测量变换为用于控制机器的当前控制输入的控制策略，基于包括当前测量的反馈信号来确定当前控制输入；以及使用预测经受过程噪声的控制参数的值的预测模型和基于经受测量噪声的测量序列更新控制参数的预测值的测量模型，迭代地更新由控制参数定义的反馈控制器的状态，以根据性能目标生成说明测量序列的控制参数的当前值。

附图说明

[图1]图1例示了根据本公开的一些实施方式的卡尔曼滤波器的原理的概览。

[图2A]图2A例示了根据本公开的一些实施方式的用于控制动力机器的操作的控制系统的框图。

[图2B]图2B例示了根据本公开的一些实施方式的用于生成控制参数的卡尔曼滤波器。

[图2C]图2C例示了根据本公开的一些实施方式的表示一个特定控制参数的高斯分布。

[图2D]图2D例示了根据本公开的一些实施方式的具有不同方差的高斯分布。

[图2E]图2E例示了根据本公开的一些实施方式的机器状态随时间的演变。

[图2F]图2F例示了根据本公开的一些实施方式的更新控制参数的预测值的示意图。

[图3]图3例示了根据本公开的一些实施方式的用于校准多个相互依赖的控制参数的卡尔曼滤波器的框图。

[图4A]图4A例示了根据本公开的一些实施方式的由卡尔曼滤波器执行的方法。

[图4B]图4B例示了根据本公开的一些其它实施方式的由卡尔曼滤波器执行的方法。

[图5]图5例示了根据本公开的一些实施方式的用于校准状态相关控制参数的方法。

[图6A]图6A例示了根据本公开的一些实施方式的用于控制机器的操作的系统的框图。

[图6B]图6B例示了根据本公开的一些实施方式的由安全检查模块执行的安全检查方法。

[图6C]图6C例示了根据本公开的一些其它实施方式的机器状态的演变。

[图7]图7例示了根据本公开的一些实施方式的卡尔曼滤波器所使用的性能目标列表。

[图8A]图8A例示了根据本公开的一些实施方式的系统中使用的反馈控制器列表。

[图8B]图8B例示了示出根据本公开的一些实施方式的用于控制机器的反馈控制器的框图。

[图9]图9例示了根据本公开的一些实施方式的用于控制电动马达的系统的示意图。

[图10]图10例示了根据本公开的一些实施方式的用于控制车辆的系统的示意图。

具体实施方式

在以下描述中，为了说明，阐述了众多具体细节以便提供本公开的彻底理解。然而，对于本领域技术人员而言将显而易见的是，本公开可在没有这些具体细节的情况下实践。在其它情况下，设备和方法仅以框图形式示出，以避免使本公开模糊。

如本说明书和权利要求中使用的，术语“例如”和“诸如”以及动词“包括”、“具有”、“包含”及其其它动词形式在结合一个或更多个组件或其它项目的列表使用时各自应被解释为开放式，意味着列表不应被视为排除其它附加组件或项目。术语“基于”意指至少部分地基于。此外，将理解，本文所采用的措辞和术语是为了描述目的，不应被视为限制。此描述内利用的任何标题仅是为了方便，不具有法律或限制作用。

图1例示了根据本公开的一些实施方式的卡尔曼滤波器的原理的概览。卡尔曼滤波器100是使用在一段时间内观测到的包含统计噪声和其它不准确的一系列测量来生成未知变量的估计的过程(或方法)。实际上，这些生成的未知变量的估计可比使用单个测量生成的未知变量的估计更准确。卡尔曼滤波器100通过估计未知变量上的联合概率分布来生成未知变量的估计。

在示例性场景中，卡尔曼滤波器100所使用的一系列测量可以是与动力机器的状态变量关联的测量102。因此，在此示例性场景中，卡尔曼滤波器100可用于生成动力机器的状态估计104。如本文所使用的，状态变量可以是数学上描述动力机器的“状态”的变量。动力机器的状态充分描述动力机器以在没有影响动力机器的任何外力的情况下确定其未来行为(例如，运动)。例如，状态估计104可以是诸如速度、位置等的物理量的估计。实际上，在诸如导航引导和载具(特别是飞行器、航天器和动态定位的船舶)的控制的应用中需要这些状态估计104。

卡尔曼滤波器100是两步过程，其包括预测步骤和更新步骤。在预测步骤中，卡尔曼滤波器100使用预测模型来预测当前状态以及其受过程噪声控制的不确定性。例如，预测模型可被人为设计为使得预测模型在预测当前状态的同时经受过程噪声(例如，假设108)以用于降低状态中的不确定性。实际上，预测的当前状态可由当前状态上的联合概率分布表示。在一些示例实施方式中，预测模型可使用动力机器的模型106来预测当前状态。如本文所使用的，动力机器的模型106可以是将动力机器的状态与(i)动力机器的先前状态和(ii)动力机器的控制输入联系起来的数学表达。模型106的示例如下。

x_k+1＝f(x_k,u_k)+w_k，

其中x_k是包括动力机器的所有状态的向量或标量，u_k是包括动力机器的所有控制输入的向量或标量，f是动力机器的非线性函数模型，w_k说明动力机器与模型106之间的不匹配。

在更新步骤中，一旦观测到下一测量的结果(必然有一定量的误差，包括随机噪声)，就根据经受测量噪声的测量模型来更新预测状态。测量噪声可控制测量中的误差。测量噪声也可包括在假设108中。测量模型可被设计为使得测量模型旨在使预测与测量一致。例如，测量模型可使用加权平均来更新当前状态上的联合概率分布，其中给予确定性越高的估计以越大的权重。

卡尔曼滤波器100的输出可以是给定关于噪声(例如，过程噪声和测量噪声)的假设108和动力机器的模型106，使所接收的状态测量102的可能性最大化的状态估计104。例如，关于噪声的假设108可包括旨在减少状态和测量中的不准确性的数学噪声模型。卡尔曼滤波器100是递归过程，其可仅使用当前测量和先前计算的状态及其不确定性矩阵实时运行；不需要额外的过去信息。

一些实施方式基于这样的认识：用于估计动力机器的状态的卡尔曼滤波器100所提供的原理可被扩展或调整以用于估计虚拟机的虚拟状态。换言之，估计动力机器的状态的卡尔曼滤波器100可被扩展为估计虚拟机的虚拟状态的卡尔曼滤波器110。值得注意的是，因为预测模型和测量模型由卡尔曼滤波器100的设计者提供，所以这种灵活性允许将卡尔曼滤波器100调整或扩展为卡尔曼滤波器110。

在许多控制应用中，定义控制器的状态的控制参数可预先已知并且固定，即，在动力机器的控制期间保持恒定。控制参数的示例包括控制器的增益(例如，PID控制器中的增益)和/或动力机器的物理结构的参数(类似机器人臂的质量或车辆的轮胎与道路的摩擦)。例如，机器人臂的质量可测量或者可从机器人的规格知道，可限制或选择轮胎摩擦，可在实验室调节控制器的增益。然而，预先固定控制参数对于一些应用会是次优的，对于一些其它应用甚至是不切实际的，相反其需要以具有不确定性的控制参数控制机器。

为此，一些实施方式的目标是将卡尔曼100扩展或调整为估计定义控制器的状态的控制参数112的卡尔曼滤波器110。在这些实施方式中，虚拟状态是由控制参数定义的状态，并且虚拟机是控制器。为了将卡尔曼滤波器100扩展为卡尔曼滤波器110，在预测步骤中，经受过程噪声的预测模型可被调整为使用控制参数112的转移模型116来预测控制参数。卡尔曼滤波器110中的过程噪声可控制控制参数随时间变化有多快，而非控制状态中的不准确性。因此，可设计假设118。此外，转移模型116也可人为设计。

在更新步骤中，经受测量噪声的测量模型可被调整为基于性能目标114来评估预测的控制参数在动力机器的控制中的性能。此外，测量模型可被调整为基于评估来更新预测的控制参数。值得注意的是，性能目标114具有高度灵活的结构，并且可不同于控制器的目标。

由此，卡尔曼滤波器110可在存在相对于性能目标114的误差的情况下基于控制参数变化有多快的假设118来估计控制参数112。实际上，卡尔曼滤波器110的输出是给定(i)假设118和(ii)转移模型116，使所接收的性能目标114的可能性最大化的控制参数估计112。例如，使用卡尔曼滤波器110的原理的控制系统如图2A的详细描述中所说明的。

图2A例示了根据本公开的一些实施方式的用于控制动力机器202的操作的控制系统200的框图。一些实施方式基于这样的认识：控制系统200的目标是在工程过程中控制动力机器202。为此，控制系统200可操作上联接到动力机器202。以下，“控制系统”和“系统”可互换使用以意指相同的意思。以下，“动力机器”和“机器”可互换使用以意指相同的意思。机器202的示例可包括载具(例如，自主车辆)、机器人组件、马达、电梯门、HVAC(加热通风和空调)系统等。例如，载具可以是自驾驶汽车、飞行器、航天器、动态定位的船舶等。机器202的操作的示例可包括(但不限于)根据特定轨迹操作载具、根据特定参数操作HVAC系统、根据特定任务操作机器人臂以及打开/关闭电梯门。

系统200可包括至少一个处理器204、收发器206和总线208。另外，系统200可包括存储器。存储器可被具体实现为存储介质，例如RAM(随机存取存储器)、ROM(只读存储器)、硬盘或其任何组合。例如，存储器可存储可由至少一个处理器204执行的指令。至少一个处理器204可被具体实现为单核处理器、多核处理器、计算集群或任何数量的其它配置。至少一个处理器204可经由总线208操作上连接到存储器和/或收发器206。根据实施方式，至少一个处理器204可被配置成反馈控制器210和/或卡尔曼滤波器212。因此，反馈控制器210和卡尔曼滤波器212可被具体实现于单核处理器、多核处理器、计算集群或任何数量的其它配置内。另选地，反馈控制器210可被具体实现于系统200之外并且可与系统200通信。在这种配置中，系统200可操作上联接到反馈控制器210，反馈控制器210继而可联接到机器202。例如，反馈控制器210可以是(但不限于)PID(比例积分微分)控制器、最优控制器、神经网络控制器等。

根据实施方式，反馈控制器210可被配置为确定控制机器202的控制输入序列。例如，控制输入可能与诸如电压、压力、力、转矩等的物理量关联。在示例实施方式中，反馈控制器210可确定控制输入序列，使得控制输入序列改变机器202的状态，以便执行特定任务(例如，跟踪参考)。一旦确定控制输入序列，收发器206就可被配置为提交控制输入序列作为输入信号214。结果，机器202的状态可根据输入信号214改变以执行特定任务。例如，收发器206可以是RF(射频)收发器等。

此外，机器202的状态可使用安装在机器202中的一个或更多个传感器来测量。一个或更多个传感器可向收发器206发送反馈信号216。收发器206可接收反馈信号216。在示例实施方式中，反馈信号216可包括分别与控制输入序列对应的测量序列。例如，测量序列可以是机器202根据控制输入序列输出的状态的测量。因此，测量序列中的各个测量可指示由对应控制输入导致的机器202的状态。测量序列中的各个测量可能与诸如电流、流量、速度、位置等的物理量关联。这样，系统200可迭代地提交控制输入序列并接收反馈信号。在示例实施方式中，为了确定当前迭代中的控制输入序列，系统200使用包括指示机器202的当前状态的测量序列的反馈信号216。

为了确定当前迭代中的控制输入序列，反馈控制器210可被配置为在各个控制步基于包括机器的当前状态的当前测量的反馈信号216来确定用于控制机器202的当前控制输入。根据实施方式，为了确定当前控制输入，反馈控制器210可被配置为应用控制策略。如本文所使用的，控制策略可以是将机器202的所有状态或子集映射到控制输入的数学方程组。该映射可以是分析的或基于优化问题的解。响应于应用控制策略，可基于反馈控制器210的控制参数集合中的控制参数的当前值将当前状态的当前测量变换为当前控制输入。如本文所使用的，控制参数可以是(i)反馈控制器210的增益和/或(ii)机器202的物理结构的参数。例如，当反馈控制器210对应于PID控制器时，则控制参数集合包括PID控制器的比例增益、积分增益和微分增益。例如，机器202的物理结构的参数可包括机器人臂的质量或车辆的轮胎与道路的摩擦。值得注意的是，控制参数不应与作为控制策略的输出的控制输入混淆。根据实施方式，控制参数的当前值可由卡尔曼滤波器212生成。例如，生成控制参数的卡尔曼滤波器212如图2B的详细描述中所说明。

图2B例示了根据本公开的一些实施方式的用于生成控制参数的卡尔曼滤波器212。结合图2A来说明图2B。根据实施方式，卡尔曼滤波器212可被配置为迭代地更新反馈控制器210的状态。根据实施方式，反馈控制器210的状态由控制参数定义。为此，卡尔曼滤波器212的目标是迭代地生成控制参数。在示例实施方式中，卡尔曼滤波器212可使用预测模型218和测量模型220迭代地生成控制参数。例如，预测模型218和测量模型220可人为设计。

为了在当前迭代中(例如，在时间步k)生成控制参数，预测模型218可被配置为使用控制参数的先验知识218a来预测控制参数的值。例如，控制参数的先验知识218a可在先前迭代(例如，在时间步k-1)生成。控制参数的先验知识218a可以是先前迭代的控制参数上的联合概率分布(或高斯分布)。先前迭代的控制参数上的联合概率分布可由在先前迭代计算的均值θ_k-1|k-1和方差(或协方差)P_k-1|k-1定义。例如，先前迭代的联合概率分布可基于在上一个迭代中(例如，在时间步k-2)生成的联合概率分布和/或反馈控制器210的模型(例如，转移模型116)来生成。

根据实施方式，在当前迭代中预测的控制参数的值也可以是联合概率分布218b(或高斯分布218b)。例如，当预测模型218被配置为预测多个控制参数时，预测模型218的输出可以是联合概率分布218b。另选地，当预测模型218被配置为预测单个控制参数时，预测模型218的输出可以是高斯分布218b。例如，联合概率分布218a可由在当前迭代中计算的均值θ_k|k-1和方差(或协方差)P_k|k-1定义。例如，在预测单个控制参数的同时，预测模型218所输出的高斯分布如图2C所示。

图2C例示了根据本公开的一些实施方式的表示一个特定控制参数的高斯分布224。结合图2B来说明图2C。高斯分布224可由预测模型218预测。例如，高斯分布224可对应于高斯分布218b。高斯分布224可由均值226(例如，均值θ_k|k-1)和方差228(例如，方差P_k|k-1)定义，其中均值226定义高斯分布224的中心位置，方差228定义高斯分布224的展开(或宽度)的测量。

返回参照图2B，根据实施方式，预测模型218可经受过程噪声。如本文所使用的，过程噪声可以是定义控制参数随时间变化有多快的假设(例如，假设118)。过程噪声可在由过程噪声定义的方差内控制控制参数随时间变化有多快。过程噪声可人为设计。例如，当预测模型218经受过程噪声时，则预测模型218可针对一个特定控制参数输出多个高斯分布，其中多个高斯分布可具有限定在过程噪声的方差内的不同方差。例如，预测模型218针对一个特定控制参数输出的多个高斯分布如图2D所示。

图2D例示了根据本公开的一些实施方式的具有不同方差的高斯分布230、232和234。结合图2B来说明图2D。高斯分布230、232和234可由预测模型218预测。这些高斯分布230、232和234中的每一个可具有彼此不同的方差，但是高斯分布230、232和234的均值236可恒定。(i)方差较小并且(ii)均值236在其它高斯分布当中具有最高概率的高斯分布可以是控制参数的正确预测。例如，高斯分布230可表示控制参数的正确预测。

返回参照图2B，这样，经受过程噪声的预测模型218可被配置为预测作为联合概率分布218b(或高斯分布218b)输出的控制参数的值。一旦在当前迭代中预测模型218输出联合概率分布218b，测量模型220就可被配置为基于测量序列220a更新控制参数的预测值，以生成控制参数的当前值。在示例实施方式中，测量序列220a可以是收发器206接收的测量序列。例如，测量模型220所使用的测量序列220a如图2E所示。

图2E例示了根据本公开的一些实施方式的机器202的状态随时间的演变238。结合图2A和图2B来说明图2E。例如，机器202的状态的演变238可从安装在机器202中的一个或更多个传感器获得。例如，如果当前时间为t₀，则测量模型220可使用N个状态测量240来更新控制参数的预测值。N个状态测量240可对应于测量序列220a。N个状态测量240可包括从与过去时间t_-N关联的测量开始并以与当前时间t₀关联的测量/>结束的测量。这里，在图2E中，考虑仅针对一个状态使用N个状态测量240的测量模型220。然而，当机器202与超过一个状态关联时，则测量模型220可使用在同一时间帧内所有状态的N个测量。

返回参照图2B，一些实施方式基于这样的认识：由于传感器中的缺陷、其它噪声(例如，随机噪声)等，从一个或更多个传感器获得的测量序列220a可能不准确。为此，测量模型220可能经受测量噪声。如本文所使用的，测量噪声是可用于减少由于传感器中的缺陷、其它噪声等而导致的测量220a中的不准确性的噪声模型。例如，测量噪声可人为设计。

在示例实施方式中，经受测量噪声的测量模型220可被配置为基于测量序列220a来更新控制参数的预测值。为了更新预测值，测量模型220可被配置为计算测量序列220a与机器202的模型(例如，模型106)之间的模型不匹配。此外，测量模型220可被配置为使用预测的控制值、机器202的模型和所计算的模型不匹配来对机器202的演变(例如，状态的测量)进行仿真。例如，仿真演变(即，状态的测量)可类似于测量序列220a。此外，测量模型220可被配置为根据性能目标220b来评估机器202的仿真演变，以生成控制参数的当前值。由于基于可类似于测量序列220a的仿真演变的评估来生成控制参数的当前值，所以控制参数的当前值可说明测量序列220a。例如，在图2F中图示了更新控制参数的预测值的测量模型220。

图2F例示了根据本公开的一些实施方式的更新控制参数的预测值的示意图242。结合图2B来说明图2F。示意图242包括预测的高斯分布244、控制参数246(或控制参数的值)和更新的高斯分布248。例如，预测的高斯分布244可以是由均值θ_k|k-1和方差P_k|k-1定义的高斯分布218b。例如，控制参数246可以是可用于相对于性能目标220b控制机器202以便实现特定轨迹的控制参数。此外，控制参数246可源自预测的高斯分布244，其测量以该预测的高斯分布244接近零概率。为此，测量模型220可更新预测的高斯分布244，使得预测的高斯分布244移动以更接近更新的高斯分布248。换言之，测量模型220可将与预测的高斯分布244关联的均值和方差更新为与更新的高斯分布248对应的均值(例如，均值θ_k|k)和方差(例如，方差P_k|k)。

返回参照图2B，这样，测量模型220可基于测量序列220a更新控制参数的预测值，以根据性能目标220b生成控制参数的当前值。在示例实施方式中，性能目标220b可不同于用于确定控制输入的反馈控制器210的控制策略。这是有益的，因为控制策略具有由于其实时应用而受到限制的结构，例如，成本函数常常需要是可微的和凸的，使得成本函数可适合数值优化。然而，性能目标220b可根据同一控制策略在不同的控制时间改变。

根据实施方式，测量模型220可输出所生成的控制参数的当前值作为联合概率分布220d(或高斯分布220d)，其定义量220c，例如均值θ_k|k和方差P_k|k。卡尔曼滤波器212可在下一迭代222中(例如，在时间步k+1)重复该过程以生成控制参数。

这样，卡尔曼滤波器212可迭代地生成控制参数，其可用于迭代地更新反馈控制器210的状态。反馈控制器210的更新的状态可继而用于确定用于控制机器202的操作的控制输入。由于卡尔曼滤波器212使用控制参数的联合概率分布(例如，先验知识218a)迭代地生成控制参数，而非使用整个数据历史重新计算控制参数，因此卡尔曼滤波器212可高效地生成用于控制机器202的操作的控制参数。此外，要存储在系统200的存储器中的数据也可减少，因为系统200可能仅需要存储控制参数的先验知识，而非整个数据历史。因此，对系统200的存储器要求可减少。

一些实施方式基于这样的认识：当控制参数中的一个或更多个控制参数取决于相同控制参数中的另一控制参数时，卡尔曼滤波器212应该集体地校准控制参数。例如，在PID控制器中，增益应该被集体地校准，因为PID控制器的增益相互依赖。

通常，校准这些相互依赖的控制参数可能具有挑战性，因为相互依赖性可能在校准的同时增加额外变量。在这种情况下，卡尔曼滤波器212可如图3的详细描述中所说明那样配置。

图3例示了根据本公开的一些实施方式的用于校准多个相互依赖的控制参数的卡尔曼滤波器212的框图。结合图2B来说明图3。根据实施方式，当控制参数对应于多个相互依赖的控制参数时，卡尔曼滤波器212可被配置为调节卡尔曼增益300以用于校准控制参数。例如，如果控制参数包括取决于相同控制参数中的其它控制参数的一个或更多个控制参数，则控制参数可被称为多个相互依赖的控制参数。如本文所使用的，“调节卡尔曼增益300”可指示对控制参数设置不同的权重。为了校准多个相互依赖的控制参数，卡尔曼滤波器212可调节卡尔曼增益300，使得取决于其它控制参数的一个或更多个控制参数可相对于其它控制参数被设置更多的权重。此外，卡尔曼滤波器212可被配置为使用测量模型220同时更新控制参数，以用于输出校准的相互依赖的控制参数302。例如，卡尔曼滤波器212可如图4A和/或图4B的详细描述中所说明那样计算卡尔曼增益300。

图4A例示了根据本公开的一些实施方式的由卡尔曼滤波器212执行的方法400a。结合图2B来说明图4A。当卡尔曼滤波器212对应于无迹卡尔曼滤波器(UKF)时，卡尔曼滤波器212可执行方法400a。在步骤402，卡尔曼滤波器212可被配置为使用控制参数上的联合概率分布402a和预设权重集合402b来计算西格玛点。例如，联合概率分布402a可以是由均值θ_k-1和方差P_k-1|k-1定义的控制参数的先验知识218a。预设权重集合402b可以是由卡尔曼滤波器212的设计者选择的权重w^c,i和w^a,i。例如，西格玛点可数学上使用方程(1)计算。

其中记号L是控制参数的数量，记号A_i是矩阵A的第i列。矩阵A可使用乔莱斯基(Cholesky)分解从方差P_k-1|k-1＝AA^T计算。在示例实施方式中，这些计算的西格玛点可以是控制参数的实现。另外，在步骤402，卡尔曼滤波器212可计算西格玛点的均值。例如，西格玛点的均值可数学上使用方程(2)计算。

在步骤404，卡尔曼滤波器212可使用预测模型218来预测控制参数的均值和方差。例如，控制参数的均值和方差可数学上分别使用方程(3a)和(3b)来预测。

θ_k|k-1＝θ_k-1 方程(3a)

其中记号C_θ是过程噪声的方差矩阵。

在步骤406，卡尔曼滤波器212可针对所计算的西格玛点对机器(例如，机器202)的演变进行仿真。为了对机器的演变进行仿真，在步骤408，卡尔曼滤波器212可使用测量序列408a和机器的模型408b来计算模型不匹配。例如，测量序列408a可对应于测量220a。例如，机器的模型408b可以是模型106(在图1中说明)。例如，模型不匹配可数学上使用方程(4)来计算。

此外，在步骤406，卡尔曼滤波器212可使用所计算的模型不匹配和机器的模型408针对所计算的西格玛点对机器的演变进行仿真。例如，机器的演变可以是如果以所计算的西格玛点所定义的控制参数来控制机器将导致的机器的假设演变。例如，机器的演变可数学上使用方程(6)来仿真。

其中记号是由控制参数θⁱ定义的控制策略(或控制律)，记号w_k是模型不匹配，记号/>表示在时间t_-N的机器状态，记号/>表示用于实现由西格玛点定义的控制参数的假设状态演变。

在步骤410，卡尔曼滤波器212可相对于性能目标410a评估各个西格玛点的仿真演变。例如，性能目标410a可以是性能目标220b。例如，相对于性能目标410a评估各个西格玛点可数学上使用方程(7)来执行。

其中函数“h”可以是性能目标410a。

在步骤410，卡尔曼滤波器212可进一步计算评估结果的加权均值。例如，评估结果的加权均值可数学上使用方程(8)来计算。

此外，在步骤410，卡尔曼滤波器212可使用评估结果和评估结果的加权均值来计算卡尔曼增益。例如，卡尔曼增益可数学上使用方程(9)来计算。

其中记号记号/> 记号C_v是测量噪声。在一些实施方式中，可通过修改预设权重参数w^c,i来调节卡尔曼增益K_k。

在步骤412，卡尔曼滤波器212可使用评估结果和卡尔曼增益来更新控制参数的联合概率分布。例如，在步骤412，卡尔曼滤波器212可更新在步骤404预测的控制参数的联合概率分布的均值和方差。例如，均值和方差数学上分别使用方程(10a)和(10b)来更新。

θ_k＝θ_k-1+K_k(y_k-h(θ_k|k-1)) 方程(10a)

此外，卡尔曼滤波器212可输出由均值θ_k和方差P_k|k定义的更新的联合概率分布作为用于控制机器的控制参数。

图4B例示了根据本公开的一些其它实施方式的由卡尔曼滤波器212执行的方法400b。结合图2B来说明图4B。当卡尔曼滤波器212对应于扩展卡尔曼滤波器(EKF)时，卡尔曼滤波器212可执行方法400b。在步骤414，卡尔曼滤波器212可使用控制参数的联合概率分布414a来预测控制参数的均值和方差。例如，联合概率分布414a可以是由均值θ_k-1和方差P_k-1|k-1定义的控制参数的先验知识218a。根据实施方式，卡尔曼滤波器212的预测模型218可被配置为使用联合概率分布414a来预测控制参数的均值和方差。例如，当卡尔曼滤波器212对应于EKF时，预测模型218可被设计(或声明)为使得预测模型218预测在由过程噪声定义的方差内保持固定(或恒定)的控制参数的均值和方差。换言之，当卡尔曼滤波器212对应于EKF时，预测模型218可被设计为使得预测模型218预测相对于由联合概率分布414a表示的控制参数不改变的控制参数。在这种情况下，预测模型218可以是恒等模型。例如，恒等模型可以是恒等矩阵。例如，控制参数的预测的均值和预测的方差可分别如方程(11a)和(11b)中。

θ_k|k-1＝θ_k-1 方程(11a)

P_k|k-1＝P_k-1|k-1+C_θ 方程(11b)

其中记号C_θ是过程噪声的方差矩阵。

在步骤416，卡尔曼滤波器212可针对预测的均值对机器(例如，机器202)的演变进行仿真。为了对机器的演变进行仿真，在步骤418，卡尔曼滤波器212可使用测量序列418a和机器的模型418b来计算模型不匹配。例如，测量序列418a可对应于测量220a。例如，机器的模型418b可以是模型106(在图1中说明)。例如，模型不匹配可数学上计算为：

此外，在步骤416，卡尔曼滤波器212可使用所计算的模型不匹配和机器的模型418b针对预测的均值对机器的演变进行仿真。例如，机器的演变可以是如果以由预测的均值定义的控制参数控制机器将导致的机器的假设演变。例如，机器的演变可数学上使用方程(12)来仿真。

其中记号是由控制参数θ_k|k-1定义的控制策略，记号w_k是模型不匹配，记号表示在时间t_-N的机器状态，记号/>表示控制参数θ_k|k-1的假设状态演变。

在步骤420，卡尔曼滤波器212可相对于性能目标420a评估预测的均值的仿真演变。例如，性能目标420a可以是性能目标220b。例如，相对于性能目标420a评估预测的均值可数学上使用方程(13)来执行。

在步骤422，卡尔曼滤波器212可计算性能目标420a相对于预测的均值的梯度。在示例实施方式中，梯度可定义应该如何相对于性能目标420a调整控制参数以优化闭环机器的性能。例如，性能目标420a相对于预测的均值的梯度可数学上使用方程(14)来计算。

在步骤422，卡尔曼滤波器212可进一步使用所计算的性能目标420a的梯度来计算卡尔曼增益。例如，卡尔曼增益可数学上使用方程(15)来计算。

其中记号C_v是卡尔曼滤波器212的测量噪声。

在步骤424，卡尔曼滤波器212可使用卡尔曼增益、评估结果和性能目标420a的梯度来更新控制参数的联合概率分布。例如，在步骤424，卡尔曼滤波器212可更新在步骤414预测的控制参数的联合概率分布的均值和方差。例如，均值和方差可数学上分别使用方程(16a)和(16b)来更新。

P_k|k＝(I-K_kH_k)P_k|k-1方程(16b)。

图5例示了根据本公开的一些实施方式的用于校准状态相关控制参数的方法500。结合图2A和图2B来说明图5。一些实施方式基于这样的认识：反馈控制器212的控制参数集合可包括取决于机器202的状态的至少一些控制参数。例如，车辆轮胎的摩擦可取决于车辆的速度。以下，“取决于机器的状态的至少一些控制参数”和“状态相关控制参数”可互换使用以意指相同的意思。如果控制参数集合包括状态相关控制参数，则控制参数的校准可能具有挑战性，因为这些状态相关控制参数可能相对于机器的状态连续变化。在这些实施方式中，卡尔曼滤波器212可执行用于校准状态相关控制参数的方法500。

在步骤502，卡尔曼滤波器212可获得状态相关控制参数相对于机器202的状态的代数关系。在示例实施方式中，状态相关控制参数的代数关系可作为状态相关控制参数与基函数的线性组合来获得。例如，基函数可以是机器202的状态的函数。基函数可由一个或多个状态相关区域定义。例如，状态相关控制参数与基函数的线性组合如方程(17)所示。

其中记号Θ表示反馈控制器210的状态相关控制参数，记号φ(x)是作为机器202的状态(x)的函数的基函数，表示c(x)≤ψ定义第一状态相关区域，记号表示第一状态相关区域的状态相关控制参数，记号/>表示第二区域的状态相关控制参数。记号ψ表示分离第一状态相关区域与第二状态相关区域的边界。换言之，/>和/>是基函数的系数。

在步骤504，卡尔曼滤波器212可基于与机器202的状态的代数关系在由过程噪声定义的方差内预测状态相关控制参数。例如，卡尔曼滤波器212的预测模型218可被设计(或声明)为使得预测模型218基于与机器202的状态的代数关系在由过程噪声定义的方差内预测状态相关控制参数。例如，当状态相关控制参数的代数关系对应于状态相关控制参数与基函数的线性组合时，预测模型218可被配置为检查基函数是否由超过一个状态相关区域定义。如果基函数未由超过一个状态相关区域定义，则预测模型218可被配置为预测基函数的系数。

如果基函数由超过一个状态相关区域定义，则预测模型218可被配置为检查分离状态相关区域的边界ψ是固定的还是变化的。如果边界ψ是固定的，则预测模型218可被配置为在由过程噪声定义的方差内预测基函数的系数和/>如果边界v是变化的，则预测模型218可被配置为在由过程噪声定义的方差内预测基函数的系数/>和/>以及边界ψ。

在方框506，卡尔曼滤波器212可基于与机器202的状态的代数关系来更新状态相关控制参数以用于校准状态相关控制参数。例如，卡尔曼滤波器212的测量模型220可基于与机器202的状态的代数关系来更新状态相关控制参数。例如，如果基函数未由超过一个状态相关区域定义，则测量模型220可被配置为更新基函数的系数(例如，预测的系数)。例如，如果(i)基函数由超过一个状态相关区域定义并且(ii)边界ψ是固定的，则测量模型220可被配置为更新基函数的系数(例如，预测的系数)和/>以用于校准状态相关控制参数Θ。例如，如果(i)基函数由超过一个状态相关区域定义并且(ii)边界ψ是变化的，则测量模型220可被配置为更新基函数的系数/>和/>以及边界ψ以用于校准状态相关控制参数Θ。

图6A例示了根据本公开的一些其它实施方式的用于控制机器202的操作的系统200的框图。结合图2A和图2B来说明图6A。一些实施方式基于这样的认识：控制参数的在线更新可能使机器202的操作不稳定。例如，当控制律或控制策略由具有控制参数的微分方程(例如，常微分方程(ODE))表示时，控制参数的改变(更新)可能破坏微分方程的平衡稳定性。为此，系统200还可包括安全检查模块600。例如，安全检查模块600可具体实现于至少一个处理器204内。另选地，安全检查模块600可以是存储在存储器中的可由至少一个处理器204执行的软件模块。根据实施方式，安全检查模块600可被配置为使用卡尔曼滤波器212所生成的控制参数的值来执行安全检查方法，以确保机器202的安全操作。例如，由安全检查模块600执行的安全检查方法如图6B的详细描述中所说明的。

图6B例示了根据本公开的一些实施方式的由安全检查模块600执行的安全检查方法。结合图6A来说明图6B。在步骤602，安全检查模块600可获得卡尔曼滤波器212所生成的控制参数的值(例如，当前值)。

在步骤604，安全检查模块600可根据控制策略检查卡尔曼滤波器212所生成的控制参数的值是否满足安全检查。换言之，当反馈控制器210根据以卡尔曼滤波器212所生成的控制参数更新的控制策略控制机器202时，安全检查模块600可检查卡尔曼滤波器212的控制参数的值是否提供机器202的稳定控制。为了检查卡尔曼滤波器212所生成的控制参数是否满足安全检查，安全检查模块600可使用先前状态、测量序列(例如，测量序列220a)和/或机器202的模型(例如，模型106)。

例如，当对于以卡尔曼滤波器212所生成的控制参数更新的控制策略存在李雅普诺夫函数时，满足安全检查。在一些实施方式中，可通过求解旨在寻找李雅普诺夫函数的优化问题来证明李雅普诺夫函数的存在。在一个实施方式中，当在利用以卡尔曼滤波器212所生成的控制参数更新的反馈控制器210控制机器202的同时，对于整个状态历史和测量序列实现机器202的状态相对于性能目标的递减成本时，满足安全检查。在另一实施方式中，当在利用以卡尔曼滤波器212所生成的控制参数更新的反馈控制器210控制机器202的同时，实现机器202的状态与原点的接近度(或有界性)时，满足安全检查。在另一实施方式中，当实现机器202的状态的递减成本和机器202的状态与原点的接近度的组合时，满足安全检查。因此，安全检查可包括机器202的状态的递减成本和机器202的状态的接近度之一或组合。例如，执行安全检查的安全检查模块600如图6C的详细描述中所说明的。

图6C例示了根据本公开的一些其它实施方式的机器202的状态的演变。结合图6A来说明图6C。如图6C所示，机器202的状态604a可在原点周围的半径内开始。在机器202演变之后，状态604a来到原点周围的半径/>内。在此示例中，半径/>使用定义函数的正定矩阵P的最大特征值σ_max和最小特征值σ_min确定。特别是，如果则保证机器202的状态604a保持有界/>

返回参照图6B，当卡尔曼滤波器212所生成的控制参数的值不满足安全检查时，在步骤608，安全检查模块600可保持反馈控制器210的控制参数。换言之，当安全检查失败时，安全检查模块600可不以卡尔曼滤波器212所生成的控制参数更新反馈控制器210的控制参数。此外，卡尔曼滤波器212可被配置为迭代地生成控制参数的新值，直至满足安全检查。值得注意的是，即使卡尔曼滤波器212所生成的控制参数不满足安全检查，卡尔曼滤波器212也不应重启。

当卡尔曼滤波器212所生成的控制参数的值满足安全检查时，在步骤606，安全检查模块600可用卡尔曼滤波器212所生成的控制参数更新反馈控制器210的控制参数。这样，在反馈控制器210的控制参数的在线更新的同时，安全检查模块600可确保控制的稳定性。

返回参照图6A，一旦反馈控制器210的控制参数被更新，反馈控制器210可被配置为通过应用以卡尔曼滤波器212所生成的控制参数更新的控制策略来确定用于控制机器202的操作的控制输入。

一些实施方式基于这样的理解：反馈控制器210的控制参数的在线更新可改进控制质量，但代价是额外的挑战。例如，在机器202的操作期间控制参数的在线更新可引入控制的不连续性。一些实施方式基于这样的认识：可通过强制控制命令满足对机器202的操作的约束来应对控制的不连续性。为此，反馈控制器210可被配置为使用满足对机器202的操作的约束的控制命令来确定控制输入(例如，当前控制输入)。换言之，反馈控制器210可被配置为确定经受对机器202的操作的约束的控制输入，从而应对控制的不连续性。例如，当控制参数(例如，当前控制参数)满足控制理论性质时，控制命令满足对机器202的操作的约束。例如，控制理论性质可由设计者指定。

图7例示了根据本公开的一些实施方式的卡尔曼滤波器212所使用的性能目标列表。结合图2B来说明图7。性能目标220b可包括：

成本函数700，定义机器的状态与机器的目标状态的偏差，y_k＝x_ref，h(θ_k)＝x_k；

成本函数702，定义控制输入与参考控制输入的偏差，y_k＝u_ref，h(θ_k)＝u_k；

成本函数704，c₁，对于超过特定操作范围的状态，y_k＝0，

成本函数706，c₂，对于超过特定操作范围的控制输入，y_k＝0，

成本函数708，c₃，惩罚一个或更多个状态的振荡，例如，y_k＝0，h(θ_k)＝c₃·#3秒内的符号变化(x_k)；

成本函数710，c₄，惩罚一个或更多个控制输入的振荡，例如，y_k＝0，h(θ_k)＝c₄·#3秒内的符号变化(u_k)；

成本函数712，c₅，如果参考/目标状态过冲特定值，例如，y_k＝0，

成本函数714，c₆，如果控制输入在特定时间内超过特定操作区域，例如，y_k＝0，

成本函数716，如果状态在时间步之间变化，例如，y_k＝0，h(θ_k)＝||x_k+1-x_k||₂；

成本函数718，如果控制输入在时间步之间变化，例如，y_k＝0，h(θ_k)＝||u_k+1-u_k||₂；

成本函数720，c₇，如果状态在时间步之间变化快于特定值，例如，y_k＝0，

成本函数722，c₈，如果控制输入在时间步之间变化快于特定值，例如，y_k＝0，

另外地或另选地，性能目标200b可包括特定控制参数(而非状态或控制输入)的成本函数，例如，y_k＝θ_nom，h(θ_k)＝θ_k，其中θ_nom定义任何或所有控制参数的标称值。

在一些实施方式中，测量模型220可被配置为基于机器的状态和机器周围的环境的状态之一或组合从性能目标列表当中选择一个。例如，根据机器的状态和/或用于控制机器的控制参数，测量模型220可从性能目标列表识别与性能目标列表中的其它成本函数相比使控制性能严重下降的成本函数。此外，测量模型220可选择所识别的成本函数作为性能目标220a。例如，如果成本函数700与性能目标列表中的其它成本函数相比使控制性能严重下降，则测量模型220可选择成本函数700作为性能目标200a。此外，测量模型220可通过在生成控制参数的同时优化(例如，最小化)成本函数700来更新控制参数。

一些实施方式基于这样的认识：当控制参数不依赖于机器的状态时，则控制参数的不确定性的界限可预定。以下，“控制参数不取决于机器的状态”和“状态无关控制参数”可互换使用以意指相同的意思。在这些实施方式中，卡尔曼滤波器212可基于该界限选择性能目标、测量噪声或过程噪声之一或组合。此外，一些可能的状态相关控制参数和状态无关控制参数如图8A所示。

图8A例示了根据本公开的一些实施方式的系统200中使用的反馈控制器列表。结合图2A来说明图8A。对于PID控制器800，卡尔曼滤波器212可估计包括比例增益k_P、积分增益k_I和微分增益k_D的控制参数。例如，PID控制器800的控制参数为

对于最优控制器802，卡尔曼滤波器212可估计包括成本函数的权重θ的控制参数。例如，最优控制器802为

使得

x₀＝x(0)

其中约束c(x_k,u_k)≤0并且机器初始状态为x(0)。最优控制成本函数的示例为

其中控制参数为

其中函数vec将矩阵Q和R向量化。

对于状态反馈控制器804，卡尔曼滤波器212可估计包括增益的控制参数，

u_k＝Kx_k，

其中控制参数为

θ＝vec(K)。

对于包括观测者动态的动态输出反馈控制器806，

其中是观测者的状态估计，C是将机器的状态映射到所测量的输出的输出矩阵，卡尔曼滤波器212可估计包括反馈增益K和观测者增益(也称为龙伯格(Luenberger)增益)L的控制参数，

对于滑动模式控制器808，例如，具有控制律

u_k＝K(r,x_k)-ρ·sign(r^Tx_k)，

其中s_k＝r^Tx_k是滑动表面，K(r,x_k)是取决于机器并且确保机器沿着表面s_k＝r^Tx_k滑动的控制律。这里，控制参数为

对于基于神经网络的控制器810，例如，具有控制律

u_k＝σ_y(W_yσ_x(W_xx_k))，

其中σ_y和σ_x是一些激活函数，卡尔曼滤波器212所估计的控制参数包括神经网络的权重，

对于H_∞控制器812，卡尔曼滤波器212可估计用于确定性能和鲁棒性之间的权衡的前补偿器和后补偿器的滤波器系数。例如，H_∞控制器812示出于图8B中。

图8B例示了示出根据本公开的一些实施方式的用于控制机器202的反馈控制器210的框图。在示例实施方式中，反馈控制器210可包括H_∞控制器812、前补偿器812b和后补偿器812a。在频域中，前补偿器812a和后补偿器812b为

其中整数n_pre,nom、n_pre,denom、n_post,nom、n_post,denom定义前补偿器812a和后补偿器812b的顺序。卡尔曼滤波器212所估计的控制参数812c为

这里，H_∞控制器812可通过使机器202的频率响应中的最大幅度最小化来计算。

图9例示了根据本公开的一些实施方式的用于控制电动马达900的系统200的示意图。在此示例中，系统200的反馈控制器可以是控制电动马达900的PID控制器。系统200可从安装在电动马达900处的传感器902接收位置或速度信号904(例如，反馈信号216)。此外，系统200可接收期望的位置或速度信号906(例如，控制命令)以计算误差信号908。此外，系统200可校准比例增益k_P、积分增益k_I和微分增益k_D。此外，系统200可通过应用控制策略使用误差信号908来确定控制输入910。例如，控制策略可以是三个分量(例如，通过将误差与校准的比例增益k_P相乘而获得的比例分量912a、通过对误差进行积分并将积分的误差与校准的积分增益k_I相乘而获得的积分分量912b以及通过对误差关于时间求导并将导数与校准的微分增益k_D相乘而获得的微分分量912c)的总和。此外，系统200可将所确定的控制输入910提交给电动马达以用于控制电动马达900。

图10例示了根据本公开的一些实施方式的用于控制车辆1000的系统200的示意图。在此示例中，系统200可控制车辆1000，使得车辆1000保持在车道1002的中间。系统200可从传感器1004接收位置和/或速度信号。系统200可进一步校准与控制策略关联的一个或更多个控制参数。例如，控制参数可以是车辆1000的轮胎与道路的摩擦。此外，系统200可通过应用以校准的一个或更多个控制参数更新的控制策略来确定控制输入。例如，系统200可确定控制输入，使得控制输入使车辆1000保持在车道1002的中间。例如，所确定的控制输入可以是转向角1006，其使车辆1000在会聚到车道1002的中间的车辆轨迹1008中前进。

以上描述仅提供示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以上描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的可行描述。在不脱离所附权利要求中阐述的公开的主题的精神和范围的情况下，可以想到可对元件的功能和布置进行各种改变。

在以上描述中给出具体细节以提供实施方式的彻底理解。然而，本领域普通技术人员可理解，实施方式可在没有这些具体细节的情况下实践。例如，所公开的主题中的系统、过程和其它元件可作为组件以框图形式示出，以免在不必要的细节方面使实施方式模糊。在其它情况下，熟知过程、结构和技术可在没有不必要的细节的情况下示出，以避免使实施方式模糊。此外，各种附图中的相似标号和指代指示相似的元件。

另外，各个实施方式可作为过程描述，其被描绘为流程图、数据流程图、结构图或框图。尽管流程图可将操作描述为顺序过程，但许多操作可并行或同时执行。另外，操作次序可重新布置。过程在其操作完成时可终止，但是可具有未讨论或附图中未包括的附加步骤。此外，并非任何具体描述的过程中的所有操作可出现在所有实施方式中。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，函数的终止可对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时，执行所需任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行所需任务。

本文中概述的各种方法或处理可被编码为可在采用各种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，这种软件可使用多种合适的编程语言和/或编程或脚本工具中的任一种来编写，并且也可被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，在各种实施方式中，程序模块的功能可根据需要组合或分布。

本公开的实施方式可被具体实现为一种方法，已提供其示例。作为该方法的一部分执行的动作可按照任何合适的方式排序。因此，可构造以与所示不同的次序执行动作的实施方式，其可包括同时执行一些动作，尽管在例示性实施方式中作为顺序动作示出。尽管参考特定优选实施方式描述了本公开，但是将理解，在本公开的精神和范围内可进行各种其它调整和修改。因此，所附权利要求的方面涵盖落在本公开的真实精神和范围内的所有这些变化和修改。

Claims

1.一种用于控制用于执行任务的机器的操作的系统，该系统包括：

收发器，该收发器被配置为向所述机器提交控制输入序列并且接收包括对应测量序列的反馈信号，其中，各个测量指示由对应控制输入导致的所述机器的状态；

反馈控制器，该反馈控制器被配置为在各个控制步通过基于该反馈控制器的控制参数集合中的控制参数的当前值应用将所述机器的当前状态的当前测量变换为用于控制所述机器的当前控制输入的控制策略，基于包括所述当前测量的所述反馈信号来确定所述当前控制输入；以及

卡尔曼滤波器，该卡尔曼滤波器被配置为使用用于预测经受过程噪声的所述控制参数的值的预测模型和用于基于经受测量噪声的所述测量序列更新所述控制参数的预测值的测量模型迭代地更新由所述控制参数定义的所述反馈控制器的状态，以根据性能目标生成与所述测量序列关联的所述控制参数的所述当前值。

2.根据权利要求1所述的系统，其中，所述卡尔曼滤波器还被配置为调节卡尔曼增益以用于校准多个相互依赖的控制参数。

3.根据权利要求1所述的系统，其中，所述预测模型是被配置为预测所述控制参数在由所述过程噪声定义的方差内保持固定的恒等模型。

4.根据权利要求1所述的系统，其中，所述预测模型被配置为基于与所述机器的所述状态的代数关系在由所述过程噪声定义的方差内预测至少一些控制参数。

5.根据权利要求1所述的系统，其中，用于更新所述控制参数的所述性能目标不同于所述反馈控制器的所述控制策略。

6.根据权利要求1所述的系统，其中，所述性能目标包括定义所述机器的所述状态与所述机器的参考状态的偏差的成本函数，并且其中，所述测量模型被配置为通过优化所述成本函数来更新所述控制参数。

7.根据权利要求1所述的系统，其中，所述测量模型还被配置为基于所述机器的所述状态和所述机器周围的环境的状态之一或组合来从不同的性能目标当中选择一个。

8.根据权利要求1所述的系统，其中，所述性能目标包括(i)定义所述状态与参考状态的偏差的成本函数、(ii)超过最优操作区域的所述状态的成本函数、(iii)在参考状态过冲特定值的情况下的成本函数、(iv)所述状态的振荡的成本函数以及(v)在所述状态在时间步之间改变的情况下的成本函数之一或组合。

9.根据权利要求1所述的系统，其中，所述控制参数包括(i)所述反馈控制器的一个或多个增益、(ii)所述机器的一个或多个结构参数、(iii)所述反馈控制器所使用的一个或多个滤波器的一个或多个系数、或者(iv)神经网络控制器的一个或多个权重之一或组合。

10.根据权利要求1所述的系统，其中，为了生成所述控制参数，所述卡尔曼滤波器被配置为更新一个或多个状态相关区域中的基函数的系数。

11.根据权利要求1所述的系统，其中，为了生成所述控制参数，所述卡尔曼滤波器被配置为更新多个状态相关区域中的基函数的系数以及分离所述多个状态相关区域的边界。

12.根据权利要求1所述的系统，其中，所述卡尔曼滤波器是被配置为通过计算所述性能目标的梯度来计算卡尔曼增益的扩展卡尔曼滤波器EKF。

13.根据权利要求1所述的系统，其中，所述卡尔曼滤波器是被配置为通过相对于所述性能目标评估所述控制参数来计算卡尔曼增益的无迹卡尔曼滤波器UKF。

14.根据权利要求1所述的系统，其中，所述控制参数中的至少一个的不确定性是有界的，并且其中，所述卡尔曼滤波器还被配置为基于所述不确定性的界限来选择所述过程噪声、所述测量噪声或所述性能目标之一或组合。

15.根据权利要求1所述的系统，其中，所述反馈控制器被配置为确定经受对所述机器的所述操作的约束的所述当前控制输入，从而应对控制的不连续性。

16.根据权利要求1所述的系统，该系统还包括安全检查模块，该安全检查模块被配置为：

根据所述控制策略执行与所述卡尔曼滤波器所生成的所述控制参数的值是否满足安全检查关联的检查；以及

当满足所述安全检查时，以所述卡尔曼滤波器所生成的所述控制参数更新所述反馈控制器的所述控制参数。

17.根据权利要求16所述的系统，其中，当所述卡尔曼滤波器所生成的所述控制参数的值不满足所述安全检查时，所述卡尔曼滤波器还被配置为迭代地生成所述控制参数的新值，直至满足所述安全检查。

18.根据权利要求16所述的系统，其中，所述安全检查包括所述状态与原点的有界性和所述状态的递减成本之一或组合。

19.一种用于控制用于执行任务的机器的操作的方法，该方法包括以下步骤：

向所述机器提交控制输入序列；

接收包括对应测量序列的反馈信号，其中，各个测量指示由对应控制输入导致的所述机器的状态；

在各个控制步通过基于反馈控制器的控制参数集合中的控制参数的当前值应用将所述机器的当前状态的当前测量变换为用于控制所述机器的当前控制输入的控制策略，基于包括所述当前测量的所述反馈信号来确定所述当前控制输入；以及

使用预测经受过程噪声的所述控制参数的值的预测模型和基于经受测量噪声的所述测量序列更新所述控制参数的预测值的测量模型迭代地更新由所述控制参数定义的所述反馈控制器的状态，以根据性能目标生成说明所述测量序列的所述控制参数的所述当前值。

20.一种非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质上具体实现有程序，所述程序能够由处理器执行以用于执行用于控制执行任务的机器的操作的方法，该方法包括以下步骤：

向所述机器提交控制输入序列；