CN114761966A

CN114761966A - 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法

Info

Publication number: CN114761966A
Application number: CN202080084431.4A
Authority: CN
Inventors: D·贾; P·科拉力克; A·拉格胡娜汉; M·本诺斯曼; D·罗梅雷斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-12-12
Filing date: 2020-12-04
Publication date: 2022-07-15
Also published as: WO2021117845A1; US20210178600A1; JP2023504220A; JP7367233B2; EP3924884A1; EP3924884B1

Abstract

提供了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器。控制器包括执行以下步骤：使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合，来学习系统的随机预测模型；估计相关联的平均预测和不确定性；在当前时间步骤使用控制输入时，使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合；确定具有最坏情况偏差的系统状态；确定稳健性约束的梯度；使用非线性规划来提供并求解稳健策略优化问题，以获得系统轨迹并且同时稳定局部策略；根据求解的优化问题更新控制数据；以及经由接口输出更新后的控制数据。

Description

用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法

技术领域

本发明总体上涉及用于同时优化以轨迹为中心的强化学习的局部策略和控制轨迹的系统及方法。

背景技术

强化学习(RL)是处理顺序决策问题的学习框架，其中“智能体(agent)”或决策者通过与(未知)环境交互来学习优化长期奖励的策略。在每个步骤，RL智能体获得关于其动作表现的评估反馈(称为奖励或成本)，使其改进(最大化或最小化)后续动作的表现。

一般来说，任意非线性系统的全局学习和优化在计算和算法二者上可以极具挑战性。然而，许多系统需要执行的许多任务是以轨迹为中心的，因此，局部学习和优化可以是在数据上非常高效的。由于控制器的时变特性，以轨迹为中心的控制对于非线性系统可以具有挑战性。由于模型不正确或观察或致动中的噪声，对于实际系统而言，在运行期间偏离计划轨迹是很常见的。机器学习方法允许学习然后预测受控轨迹演变中的不确定性。从控制的角度来看，期望的是设计局部状态依赖策略，该状态依赖策略可以使用学习到的不确定性模型来使受控轨迹稳定。大多数技术不能使用系统模型中存在的不确定性知识来稳定所需的控制轨迹。

还期望的是同时设计轨迹和相应的稳定策略。这自然将在控制轨迹的最优性与其稳定性之间进行折衷。直观地说，在这种设置下，策略优化算法将避免可能更难控制的状态空间的区域，因此可以利用模型中的不确定性来设计稳健最优的以轨迹为中心的控制器。大多数当前技术分别执行这两个步骤(轨迹设计和控制器合成)，因此无法利用模型不确定性的这种知识。

鉴于上述事实和挑战，需要更好的策略优化方法，这些方法可以使用物理系统的不确定统计模型，并利用这些模型的结构实现系统在宽范围任务中的稳健性能。

发明内容

最近的研究使这些算法在如计算机游戏的各个领域中取得了显著成功。在以轨迹为中心的RL中，目标是优化能够从系统的初始状态开始成功地执行任务并将系统引导到期望的最终状态的策略。以轨迹为中心的方法具有它们能够更快地学习的优势，因为这些方法学习局部预测模型，并使用它们在系统的局部邻域中优化策略。

强化学习算法可以大致分为两类——基于模型的方法和无模型的方法。基于模型的强化学习(MBRL)技术通常被认为是数据高效的，因为它们针对系统学习与任务无关的预测模型。然后使用经过学习的模型以使用随机控制方法合成系统的策略。然而，这些方法通常很难训练，因此导致性能低下的策略。通过这类算法获得低性能有几个原因，其中关键挑战之一是由于在学习过程期间收集的数据中存在噪声，因此在学习过程期间估计的系统的预测模型本质上是随机的。结果，错误的模型能够将优化算法驱动到状态空间中系统不稳定的部分，然后学习过程可能发散。MBRL的另一个挑战性的方面是，估计出的模型在状态空间的不同区域中可能具有不同程度的不确定性，因此，随后的策略优化步骤应该利用经过学习的统计模型的这种结构来实现最优性能。大多数策略优化技术在策略优化期间要么忽略要么无法并入此信息。

MBRL的优点是在学习期间估计的预测模型与任务无关，因此它们能够用于多个任务，并且从而在跨多个任务的学习方面更有效。因此，MBRL允许重用经过学习的模型来计算不同任务的策略。结果，MBRL具有针对许多物理系统学习有效的策略的潜能，在这些物理系统中，为了优化策略而收集大量数据可能非常昂贵。

根据本发明的一些实施方式，使用物理系统的不确定统计模型来执行策略优化以利用这些模型的结构来实现这些系统在广泛任务范围中的稳健性能。此外，一些实施方式提供了能够通过有效地执行计算和相关的学习算法来处置任意非线性系统的控制器和方法。由于许多系统需要执行的许多任务是以轨迹为中心的，因此本发明的一些实施方式能够提供数据非常高效的局部学习和优化，从而提高计算机(计算机性能)。

本公开的一些实施方式基于以下认识：提供计算机实现的学习方法用于优化控制系统的控制策略。这种系统的一些示例可以是包括以下的系统：如HVAC系统的机械系统、工厂自动化系统、机器人系统和高性能感应电机等。在这种情况下，该方法可以包括：接收正按照特定任务策略而操作的系统的状态；将控制策略初始化为用于执行任务的初始策略(例如，系统和任务的已知部分模型)；使用当前控制策略收集可以包括当前状态、动作和下一个状态的元组的数据；估计系统的统计预测模型；估计在任何状态、控制对下的预测以及与预测相关联的不确定性；估计系统需要被稳定至的标称系统状态周围的局部集合；计算可以用于优化局部稳定策略的参数的稳健性约束的梯度；计算系统动力学的梯度；通过使用稳健性约束的梯度求解非线性优化程序以最小化轨迹成本和局部稳定策略，来确定以轨迹为中心的控制策略。

一些实施方式提供了在学习期间估计的统计模型的不确定性的情况下为系统执行以轨迹为中心的任务的方法和系统。用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器可以包括：接口，其被配置为接收包括由传感器测量到的系统状态、控制数据和状态转移的元组的数据；存储器，其存储处理器可执行程序，该处理器可执行程序包括用于响应于经由接口接收到的系统任务命令而生成在期望的时间范围的标称状态和控制轨迹(开环轨迹)作为时间步骤的函数的随机预测学习模型、包括机器学习方法算法和初始随机控制策略的控制策略、用于沿标称轨迹调节偏差的局部策略；至少一个处理器，其被配置为：使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合，来学习系统的随机预测模型；估计与随机预测模型相关联的平均预测和不确定性；将以轨迹为中心的控制器合成问题公式化，以将标称轨迹与前馈控制和稳定时不变反馈控制一起同时进行计算；在当前时间步骤使用控制输入时，使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合；在系统的偏差的局部集合中确定与标称系统状态具有最坏情况偏差的系统状态；通过计算在具有最坏情况偏差的系统状态下的稳健性约束的一阶导数来确定稳健性约束的梯度；通过在满足状态和输入约束的同时使状态控制轨迹的成本最小化，来确定将系统状态调节到标称轨迹的最优系统状态轨迹、前馈控制输入和局部时不变反馈策略；使用非线性规划提供并求解稳健策略优化问题；根据求解的优化问题更新控制数据；以及经由接口输出更新后的控制数据。

此外，本发明的另一实施方式可以提供一种用于通过优化控制策略来控制系统的计算机实现方法(控制系统)。计算机实现的方法是为了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略而提供的。该方法可以包括以下步骤：使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合，来学习系统的随机预测模型；估计与随机预测模型相关联的平均预测和不确定性；将轨迹为中心的控制器合成问题公式化，以将标称轨迹与前馈控制和稳定时不变反馈控制一起同时进行计算；在当前时间步骤使用控制输入时，使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合；在系统的偏差的局部集合中确定与标称系统状态具有最坏情况偏差的系统状态；通过计算在具有最坏情况偏差的系统状态下的稳健性约束的一阶导数，来确定稳健性约束的梯度；通过在满足状态和输入约束的同时使状态控制轨迹的成本最小化，来确定将系统状态调节到标称轨迹的最优系统状态轨迹、前馈控制输入和局部时不变反馈策略；使用非线性规划提供并求解稳健策略优化问题；根据求解的优化问题更新控制数据；以及经由接口输出更新后的控制数据。

该系统可以包括：接口，其被配置为经由传感器接收系统的状态和任务命令；存储器，其存储计算机可执行程序，该计算机可执行程序包括初始化器、策略收集器、估计器、智能体和策略更新程序、估计系统的随机预测模型的程序、计算稳健性约束及其梯度的程序、求解非线性优化问题以获得最优轨迹和稳定策略的程序；以及处理器，其与存储器连接，被配置为将控制策略初始化为用于执行任务的初始猜测(例如，系统和任务的已知部分模型)；使用当前控制策略收集可以包括当前状态、动作和下一个状态的元组的数据；估计系统的统计预测模型；估计在任何状态、控制对下的预测以及与预测相关联的不确定性；估计系统需要被稳定至的标称系统状态周围的局部集合；计算能够用于优化局部稳定策略的参数的稳健性约束的梯度；计算系统动力学的梯度；通过使用稳健性约束的梯度求解非线性优化程序以最小化轨迹成本和局部稳定策略，来确定以轨迹为中心的控制策略。

将参照附图进一步解释当前公开的实施方式。所示附图不一定按比例绘制，而是重点通常放在例示当前公开的实施方式的原理上。

附图说明

[图1A]

图1A是例示根据本发明的实施方式的用于基于拟牛顿(newton)信任区域策略优化来控制机械系统(装置，例如，机器人)的控制系统(控制器)的图；

[图1B]

图1B是例示了根据本发明的实施方式的使用控制器(控制系统)的数据处理流程的图；

[图2]

图2是例示了根据本公开的实施方式的强化学习的一般构思的图；

[图3]

图3是例示了根据本发明的实施方式的基于所提出的稳健的以轨迹为中心的控制器优化的系统示例的图；

[图4]

图4是例示了根据本公开的实施方式的基于模型的强化学习的构思的图；

[图5A]

图5A是例示了根据本公开的实施方式的使用高斯(Gaussian)过程估计随机输入-输出关系和使用置信区间可以估计的不确定性集合的图；

[图5B]

图5B是例示了根据本公开的实施方式的使用高斯过程估计随机输入-输出关系和使用置信区间可以估计的不确定性集合的图；

[图6A]

图6A是例示了根据本公开的实施方式的使用随机过程的系统的动力学演进的构思的图；

[图6B]

图6B是例示了根据本公开的实施方式的在以轨迹为中心的控制器设计期间使用稳定策略来稳定受控轨迹的构思的图；

[图7]

图7是例示了根据本公开的实施方式的用于求解以轨迹为中心的控制器所使用的非线性优化程序的求解中所涉及的不同步骤的流程图；

[图8]

图8是例示了根据本公开的实施方式的估计用于以轨迹为中心的控制器合成的稳健性约束的梯度的不同步骤的流程图；

[图9]

图9是例示了根据本公开的实施方式的设计控制器的稳定行为的示例的图；

[图10A]

图10A是例示了根据本公开的实施方式的在优化过程期间获得的控制轨迹和稳定策略的示例的图；

[图10B]

图10B是例示了根据本公开的实施方式的在优化过程期间获得的控制轨迹和稳定策略的示例的图；

[图10C]

图10C是例示了根据本公开的实施方式的在优化过程期间获得的控制轨迹和稳定策略的示例的图；

[图11]

图11是例示了根据本公开的实施方式的受控系统在注入系统的各种水平的扰动下的统计行为的示例的图；

[图12]

图12是例示了球-梁(ball-and-beam)系统的示例的图；

[图13]

图13是例示了根据本公开的实施方式的在开环控制上使用所提出的以轨迹为中心的控制器的球-梁系统的性能比较示例的图。

具体实施方式

以下描述仅提供示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将为本领域技术人员提供用于实现一个或更多个示例性实施方式的充分描述。在不脱离如所附权利要求书中提出的所公开的主题的精神和范围的情况下，可以想到在元件的功能和布置上可以进行的各种变型。

在以下描述中给出了具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员可以理解，可以在没有这些具体细节的情况下实践实施方式。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件，以免在不必要的细节上模糊实施方式。在其它情况下，可以在没有非必要细节的情况下示出已知的过程、结构和技术，以避免使实施方式模糊。此外，在各个附图中相似的附图标记和标志指代相似元件。

另外，各个实施方式可以被描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，操作顺序可以重新安排。当过程的操作完成时，过程可以终止，但是可以具有未讨论或未包含在图中的附加步骤。此外，并非在任何特定描述的过程中的所有操作可以在所有实施方式中发生。过程可以对应于方法、函数、处理、子例程、子程序等。当过程对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分地手动地或自动地实现。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要的任务。

图1A示出了根据本发明的一些实施方式的控制系统(控制器)100的框图。系统100可以包括与键盘111和定点装置/介质112可连接的具有输入/输出(I/O)接口的人机接口(HMI)110、3D传感器116、处理器120、存储要使用存储器140和处理器120执行的算法的储存装置130、与包括局域网和互联网网络(未示出)的网络190可连接的网络接口控制器150(NIC)、连接至显示装置165的显示接口160、与成像装置175可连接的成像接口170。NIC可以包括收发器(未示出)以执行用于接收命令和状态测量数据的无线通信。具有I/O接口的HMI110可以包括模拟/数字和数字/模拟转换器。具有I/O接口的HMI 110还可以包括无线通信接口，该无线通信接口可以经由能够构建多个3D点云的无线互联网连接或无线局域网络与其它3D点云显示系统或其它计算机进行通信。系统100可以包括电源(未示出)。电源可以是经由I/O接口110从外部电源(未示出)可充电的电池。依据应用，电源可以位于系统100的外部。

系统100可以经由连接到NIC 150的网络190接收包括语音数据的电子文本/成像文档195。储存装置130包括算法模块131和机器人控制算法132，算法模块131包括模型不确定性估计器、稳健约束梯度估计器和作为程序代码数据存储在储存器130中的非线性优化程序求解器。模型学习、稳健约束梯度估计器和非线性程序优化器的算法131可以存储到计算机可读记录介质(未示出)中，使得处理器120可以通过从介质加载算法来执行模型131-132和多模型编码器-解码器200的算法。此外，定点装置/介质112可以包括读取并执行计算机可读记录介质上存储的程序的模块。

图1B是例示了根据本发明的实施方式的使用控制器(控制系统)100的数据处理流程的图。本公开的一些实施方式基于以下认识：用于机器103的控制器100可以被设计为实现特定命令或任务101。控制器100是向实现控制信号的机器103发送控制信号的计算机软件，并且由观察器164观察机器的状态。本公开的一些实施方式基于以下认识：基于模型的强化学习算法105可以用于使用从机器获得的操作数据104来学习控制器100的最优策略。对于特定任务或命令，用基于机器的当前状态确定控制信号的初始策略来初始化控制器。可以由观察器来观察机器的状态。然后在机器上实施该控制信号并观察机器的状态转换。当前状态、控制信号和下一个状态的这种元组是学习算法计算用于执行命令或任务的新策略所使用的数据。然后重复这个过程，直到策略收敛到稳定策略(即，在收集更多数据时不会改变的策略)。

图2是例示根据本发明的实施方式的基于所提出的以轨迹为中心的RL的稳健优化的控制系统示例的图。在下文中，控制系统被描述为应用于机器人系统200的示例，然而应当注意，根据本发明的控制系统和计算机实现的方法不限于机器人系统。根据本发明的一些系统或计算机实现的方法可以引入包括机械系统(如，HVAC系统)、工厂自动化系统、机器人系统和高性能感应电机等的系统。

图2中的机器人系统200可以包括装配有用于状态测量的传感器的机器人操纵器和用于存储数据并控制操纵臂的计算机仪表系统。操纵臂可以包括若干个刚性连杆217、215、213和关节218、216、214。使用接收从外部提供给系统的命令或任务的机器人控制系统来控制操纵臂。命令或任务的示例可以是使用操纵器抓取物体212或使用由夹具212夹持的物体211执行组装操作。机器人控制系统向操纵器发送控制信号270。控制信号270可以是要在操纵器的每个关节218、216、214施加的扭矩和打开/闭合夹具212。使用传感器来测量机器人系统的状态。这些传感器可以包括在机器人218、216、214的关节处的编码器、可以观察机器人的环境的相机210和可以附接到夹具212的卡爪的一些触觉传感器219。来自传感器的状态测量结果被发送到数据输入/输出单元220，该数据输入/输出单元220存储从传感器接收到的数据。本公开的一些实施方式利用针对期望任务的初始控制策略来初始化机器人控制系统。在机器人系统上实现若干阶段的控制策略，并且在数据输入/输出系统220中收集来自传感器的状态测量数据。然后，该数据由包含计算机程序230的软件使用以用于更新机器人系统的当前策略。用于更新策略的程序包含可以是高斯(Gaussian)过程的模型更新系统240。然后由240更新后的模型被传送给控制器更新系统250，该控制器更新系统250可以是稳健的以轨迹为中心的策略优化器。控制器更新系统250然后将更新后的策略发送给机器人控制系统260。重复该过程直到达到机器人控制的最优策略。

图3是例示了根据本公开的实施方式的强化学习的一般构思的图。强化学习(RL)是处理顺序决策问题的学习框架，其中“智能体”230或决策者通过与(未知)环境310交互来学习优化长期奖励(或成本)的策略。在每个步骤中，RL智能体获得关于其动作340的性能的评估反馈(称为奖励或成本)350以及对环境的观察，使得其改进(最大化或最小化)后续动作的性能。系统的策略被定义为将系统的当前状态作为输入然后生成作为输出的动作的函数。最优策略是针对系统的每个状态生成最优输出的策略，其中最优性是对于给定任务相对于预期奖励(或成本)来测量的。

强化学习算法分为两大类：无模型和基于模型。顾名思义，无模型RL算法不使用系统的状态转移概率来学习策略。在这些类型的算法中，系统的策略被参数化为函数逼近器。然后直接通过使用于执行期望任务的预期奖励最大化或估计与任务相关的价值函数来优化策略参数。这些算法通常样本效率很低，也就是说，它们需要大量的训练数据来优化系统的策略。此外，使用这些系统进行学习是依赖于任务的，因为执行优化是为了使特定任务的预期奖励最大化。

在不同类型的RL算法中，MBRL算法被认为数据效率更高。在基于模型的RL算法中，初始(可能是随机的)控制策略用于从系统收集状态转移数据。然后使用此状态转移数据来学习系统的前向预测模型。注意到，重要的是预测模型的学习独立于任何任务，因此也独立于任何奖励结构。一旦获得了对系统前向动力学的良好估计，系统的动力学模型就被用来合成可以执行期望任务的控制器。可以使用受控轨迹或状态相关的完整策略来执行可以执行任务。受控轨迹是可以从已知的初始条件开始以实现执行任务的期望状态的在系统上实施的一系列控制输入。注意，这样的控制器不是状态相关的，而是时间索引的。状态相关的完整策略可以独立于系统的初始状态，因此可以从系统的任何初始状态开始用来执行期望的任务。

图4是例示了根据本发明的实施方式的基于模型的强化学习的构思的图。MBRL方法由步骤410组成，步骤S410首先随机地初始化控制器或者使用需要被控制的系统的部分已知模型来计算。在没有系统模型的任何知识的情况下，可以随机地初始化控制器。在步骤420中，控制器运行以收集状态转移数据，即，(x_k,u_k,x_k+1)的元组。控制器可以以情节方式运行，其中系统首先被初始化为初始状态x_init，然后控制器运行′T′时间步骤并收集状态转移数据。该情景可以重复“n”次，直到收集到足够的数据。在下一步骤430中，该数据用于通过使可以由以下表达式--||x_k+1-f(x_k,u_k)||₂给出的损失函数最小化，来学习系统的预测模型。该函数′f′可以由机器学习算法(如，高斯(Gaussian)过程或神经网络)来表示。然后将430中经过学习的模型与成本函数460一起传送给下一步骤440，成本函数460计算系统执行期望任务的策略或控制器。成本函数c(x_k,u_k)包含关于系统需要执行的期望任务的信息，作为状态和输入的函数。然后在步骤450中测试所获得的策略的收敛性，并且如果尚未满足收敛标准，则重复整个过程。

本发明的一些实施方式的目的是使用收集的状态转移数据来估计系统的统计模型。针对此步骤可以使用若干种机器学习方法，包括Gaussian过程或随机神经网络。Gaussian过程是完全由均值和协方差函数指定的随机过程。

图5A和图5B是例示了根据本公开的实施方式的使用高斯过程估计随机输入-输出关系和使用置信区间可以估计的不确定性集合的图。

可以使用过程f(x)的均值函数m(x)和协议差函数k(x,x′)如下算术地表示Gaussian过程：

m(x)＝E[f(x)]

k(x,x′)＝E[(f(x)-m(x))(f(x′)-m(x′))]

并且Gaussian过程写成如下：

f(x)～N(m(x),k(x,x′)).

请注意，这里x是Gaussian过程的输入，并且对于估计的特定情况，系统动力学是状态-动作对(x_k,u_k)。协方差函数k(x,x′)也称为核函数。有效的协方差函数有若干种选择。一些最常见的选择是径向基函数(RBF)核、Matern(马特)核、平方指数(SE)核等。作为随机过程，Gaussian过程是随机变量的集合，这些随机变量的任何有限集合是多元Gaussian。在从训练数据集511D＝{X,Y}完成学习过程之后，在测试数据点512处的预测x^*由Gaussian分布给出(这可以使用多元Gaussian分布的特性来示出)。在数学上，它由以下关系表示。

p(f(x^*)|D,x^*)＝N(μ(x^*),Σ(x^*))

其中，μ(x^*)和Σ(x^*)表示在测试数据点处x^*Gaussian分布的均值和方差。学习过程估计项K,k_**和k_*。一旦估计了这些项，使用以上方程中表示的封闭形式等式获得在新测试数据点的预测。结果，在学习过程期间，针对当前状态-动作对与下一个状态转移之间的期望的输入-输出关系学习概率关系515。

本发明的一些实施方式基于以下认识：对于任意非线性系统，合成系统的完全状态相关策略在计算上和数值上都是非常具有挑战性的任务。这需要对系统的全局模型的可靠估计，并且也是要解决的挑战性问题。另一方面，计算局部受控轨迹是更容易的问题，但它可能具有较差的性能，因为它非常易于受到初始条件的影响并且是时间索引的。此外，如果存在不正确的、不确定的模型，则性能可能降低。因此，为了用以轨迹为中心的控制器实现良好的性能，本发明提出了使用能够在有界不确定性的情况下确保高性能的稳定控制器。

本发明的一些实施方式的目的是使用系统的经过学习的模型f然后为系统设计稳健的以轨迹为中心的控制器。以轨迹为中心的控制器由在使得对于系统执行期望任务的成本最小化的同时联合优化的开环状态和控制(x_k,u_k)以及局部稳定策略π_θ组成。这种联合优化是作为非线性程序的实例来执行的，下面先用轨迹介绍的简单介绍来说明。

考虑离散时间动态系统，

x_k+1＝f(x_k,u_k)

其中

分别是微分状态和控制。函数f:

管控微分状态的演变。请注意，可以通过使用显式Euler(欧拉)积分方案

从连续时间系统

中获得离散时间公式，其中Δt是积分的时间步长。

在典型应用中，状态和控制被限制在集合

和

中，即x_k∈X,u_k∈U。我们使用[K]来表示索引集合{0,1,…,K}。轨迹优化问题是在一定数量的时间步骤[T-1]上操纵控制u_k，使得所得到的轨迹{x_k}_k∈[T]使成本函数c(x_k,u_k).最小化。更正式地说，轨迹优化问题旨在解决以下优化问题。

使得，x_k+1＝f(x_k,u_k)

对于k∈[T]，x_k∈X,u_k∈U。

本公开的一些实施方式基于以下认识：以上约束轨迹优化问题是非线性优化程序(或NLP)。因此，一些实施方式的目的是使用内点法求解非线性轨迹优化程序。

在下面的文本中，我们使用以下简写符号

我们将标称轨迹表示为X≡x₀,x₁,x₂,x₃,…,x_T-1,x_T，U≡u₀,u₁,u₂,u₃,...,u_T-1。系统所遵循的实际轨迹表示为

我们将本地策略表示为π_θ，其中π是策略并且θ表示策略的参数。轨迹成本有时也表示为J＝∑_k∈[T}c(x_k,u_k)。

MBRL技术的样本效率使其成为学习物理系统的最优控制器的非常有吸引力的选项。本发明的一些实施方式基于以下认识：MBRL算法的性能极易受建模错误的影响。系统预测模型中的任何错误都非常迅速地复杂化，并且可以将控制器驱动到模型高度不确定的区域，因此很难控制。这可以使整个学习过程发散，从而失败。

本发明的一些实施方式基于以下认识：如果轨迹与被优化以局部稳定轨迹的策略同时求解，则能够约束优化器以避免系统的状态空间的不确定区域。这种联合优化迫使优化寻找容易稳定也最优的轨迹。因此，它允许我们在学习过程期间估计的不确定模型的情况下在最优性和稳健性之间进行折衷。这得到对MBRL算法的更好、更稳定的学习。

本发明的一些实施方式基于以下认识：许多轨迹稳定技术计算随时间变化的控制器。这使得受控系统的实时控制更加困难。一般来说，RL算法计算状态相关策略作为输出，因为它更容易实现。主要原因在于系统是非线性的，因此即使在系统状态中有很小的扰动，系统动态也改变。时间相关跟踪控制器不是状态相关的，因此在计划轨迹的扰动场景中表现不佳。因此，本发明提出计算时间无关反馈策略，以在标称轨迹附近局部地进行轨迹稳定。

图6A是例示可以由Gaussian过程表示的系统的随机动力学的演进610的图。假设系统处于初始状态613x_k和输入611u_k，系统动力学由随机函数612f(m(x),k(x,x′))表示(注意，这里x表示模型的输入，即对(x_k,u_k))。

考虑以下情况：系统动力学f是随机的(即，它由均值和协方差函数定义)，并且仅使用f的均值分量来设计控制器。考虑系统在任何步骤′k′与状态轨迹X的偏差并将其表示为

我们引入了调节局部轨迹偏差δx_k的局部(时不变)策略π_θ，因此，最终控制器表示为

在此控制下系统的闭环动力学由以下给出：

主要目标是找到可以在

内局部稳定开环轨迹X的时不变反馈策略π_θ，其中R_k定义了偏差δx_k的不确定性集合。可以通过使用对角正定矩阵S_k将椭球拟合到不确定性估计使得

来近似不确定性区域R_k。实现此的一般优化问题被提出为：

其中，

表示模型的均值函数。注意，在上式中，当与之前介绍的经典轨迹优化问题相比，我们引入了对应于策略π_θ的附加优化参数。

本公开的一些实施方式基于以下认识：系统的随机模型可以用于估计系统在运行时间期间从标称轨迹可能移动的系统状态的集合。不确定性集合的这种估计给予我们系统在运行时间期间需要被稳定的状态的集合。稳定控制器的目标是将该集合中的所有状态推回原始标称轨迹。只要这是真的，系统就能够遵循原始的标称轨迹，并且因此可以在执行期望任务时实现期望的最优性能。

一些实施方式的目的是在模型学习过程期间使用随机机器学习算法(如Gaussian过程回归或随机神经网络)来估计不确定性区域R^k。如以前所说明的，Gaussian过程可以用于将系统的随机动力学模型作为概率函数来学习。

本发明的一些实施方式使用该概率关系来使用在测试数据点处的预测Gaussian分布来估计置信区间。置信水平α∈(0,1)是用户选择的输入，其控制不确定性集合的大小。对于最坏情况的控制器设计，该值通常选择接近1。

图5A和图5B表明在测试点x^*512通过Gaussian过程回归获得的平均预测值由y(x^*)513和置信区间514表示。经过学习的Gaussian过程回归提供在任何点的平均预测估计515以及在相同测试点的置信区间516。由于在任何点的预期力分布由Gaussian分布给出，因此在520中示出了在x^*处的预测状态分布。预测状态521(过程510中的513)的均值为y(x^*)，并且置信区间为522(如过程510中的514所示)。

此外，图6A是例示使用随机过程的系统的动力学演进的构思的图，并且图6B是例示了根据本公开的实施方式的在以轨迹为中心的控制器设计期间使用稳定策略来稳定受控轨迹的构思的图。

本发明的一些实施方式使用通过机器学习方法估计的这种不确定区域630以与轨迹650同时计算稳定策略。稳定策略的功能是使系统保持接近由轨迹给出的标称系统状态。

稳健轨迹优化问题是使轨迹成本最小化，同时沿着轨迹在每一步满足稳健性约束。局部稳定控制器的目的620是沿着轨迹650在每一步将具有最坏情况偏差的状态640推到轨迹周围的ε-容差球620。在数学上，我们将该问题表达如下：

使得，对于k∈[T]，x_k+1＝f(x_k,u_k)

对于k∈[T]，x_k∈X,u_k∈U

我们将上式中的最后一项定义为轨迹优化问题的稳健性约束。这个约束有几个特点值得一提。以上约束作用于沿标称轨迹在每个点的轨迹，并确保局部稳定策略π_θ将集合R^k中系统状态的最坏情况偏差推向标称轨迹。此外，这允许用户通过允许选择超参数∈_k来遵循标称轨迹的紧密程度。该超参数也可以是时间索引的。

图7是例示了根据本公开的实施方式的在求解以轨迹为中心的控制器中使用的非线性优化程序的求解中所涉及的不同步骤的流程图。非线性优化程序求解器710接受已知的(经过学习的或完全已知的)系统动力学720、系统730的状态和输入集合、稳健性约束740和期望的任务或目标函数750作为输入。非线性优化程序求解器所提供的输出为最优状态输入轨迹({x_k}_k∈[T],{u_k}_k∈[T])以及稳定策略π_θ。

本发明的一些实施方式基于以下认识：稳健性约束导致在主轨迹优化问题内部的子优化问题。这需要估计在稳定策略π_θ的作用下产生最大偏差的集合R^k中的项δx_k。然后，当这样的点产生的偏差小于超参数∈_k时，满足稳健性约束。针对任意非线性动力学f的稳健性约束寻找优化问题的解非常具有挑战性。然而，可以通过围绕状态控制对(x_k,u_k)对系统的动力学进行线性化来简化问题，并且可以使用线性动力学以在稳健性约束内部找到优化问题的局部解。

可以通过使用非线性动力学模型f的Taylor(泰勒)级数展开获得线性化动力学模型的稳健性约束，因此稳健性约束项(称其为d_max)在下面可以简化为以下项。

其中，

和

是模型

的均值函数的线性化模型。

当前公开的某些实施方式基于以下认识：对优化问题的稳健性约束可能需要对超参数∈_k进行广泛调整以得到可行解(即，对于所有k∈[T]满足约束的解)。在一些情况下，甚至可能无法保证可行解。规避这种可能情形的可能解决方案是通过添加到目标函数将硬稳健性约束转为软约束，从而在每次违反约束时对其进行惩罚。在最简单的设置中，稳健性项d_max,k可以仅移动到目标函数并在优化期间被最小化。这放松了对稳健性的约束，同时保证了优化问题的可行性。

本发明的一些实施方式可以使用稳健性约束作为软约束并将其移动到目标函数来求解以下优化问题。

使得，对于k∈[T]，x_k+1＝f(x_k,u_k)

对于k∈[T]，x_k∈X,u_k∈U

本公开的一些实施方式基于以下认识：为了能够解决具有稳健性约束(作为硬约束或软约束)的非线性轨迹优化，需要计算稳健性约束的梯度。然而，由于约束中的最大函数是不可微的，因此稳健性约束是不可微的。但是，可以使用Dankin定理获得稳健性项的一阶梯度。这种实现对于轨迹优化问题的求解至关重要。因此，某些实施方式的目的是使用Danskin定理估计稳健性约束的梯度。

更正式地说，设

为非空、闭集，并且设

为非空、开集。假设函数g:Ω×K→R在Ω×K上是连续的，以及

存在并且在Ω×K上是连续的。通过以下定义函数h:Ω→R∪{∞}：

以及

M(x)≡{y∈K|h(x)＝g(x,y)}。

设x∈Ω为给定向量。假设x的邻域

存在，使得对所有x′∈N(x)，M(x′)是非空的且集合∪_x′∈N(x)M(x′)是有界的。然后根据Danskin定理，以下两个陈述是有效的。

该函数h在x是有向可微的，以及

如果M(x)简化为单元素，比方说M(x)＝{y(x)}，则h在x是Gaeaux可微的，并且

Dankin定理允许我们通过首先计算最大函数的参数，然后评估最大函数该点处的梯度，来找到稳健性约束的梯度。

因此，为了找到稳健约束的梯度，有必要将其解释为在δx_k中的优化问题，这将在接下来介绍。本公开的一些实施方式基于以下认识：以一般形式寻找稳健性约束的梯度的求解可能非常有挑战性。通过使用稳定策略的线性参数化来获得对稳健性约束的简化，这允许通过分析计算稳健性约束中最大函数的参数。这对于计算要求非常有益，它可以在没有任何迭代优化过程的情况下通过分析获得。

在数学上，我们将稳定策略表示为时不变常数矩阵W，使得π_θ(δx_k)＝W·δx_k。然后下面的实现引导我们估计在稳健性约束中最大函数的参数。

反馈策略的线性参数化的稳健性约束项d_max,k在参数δx_k中是二次的。在数学上，它写为以下：

使得，

其中，M_k(x_k,u_k,W)≡A(x_k,u_k)+B(x_k,u_k)·W。

最坏情况偏差项d_max,k的所得到的形式允许我们将其通过分析计算为矩阵Q的最大特征值λ_max，其中矩阵

最坏偏差δx_max被获得为最大特征值的对应特征向量。

然后可以使用Dankin定理获得稳健性约束d_max,k的梯度作为在δx_max的项的梯度。更明确地说，使用任意向量的符号z，并使用

稳健性约束项d_max对任意向量z的梯度可以计算为

这为我们提供了稳健性约束项以时间步长“k”的梯度。一些实施方式的目的是对于全部k∈[T]，计算稳健性约束项的梯度。

图8是例示了根据本公开的实施方式的估计用于以轨迹为中心的控制器合成的稳健性约束的梯度的不同步骤的流程图。围绕标称状态、动作对(x_k,u_k)的不确定区域的估计通过模块810来计算，然后在步骤820中使用该标称状态、动作对(x_k,u_k)来计算在不确定区域中具有最坏情况偏差的状态。然后在步骤830中，该最坏情况偏差状态被另一实施方式用于计算稳健性约束的梯度。然后在步骤840中将梯度信息传送给非线性优化程序求解器。

然后可以使用稳健性约束的梯度以及系统的动力学梯度来求解稳健性策略优化问题，以获得最优解。本发明的一些实施方式使用轨迹的成本函数、系统的动力学、使用系统的不确定区域的稳健性约束和动力学的梯度信息、以及稳健性约束，来求解稳健非线性优化程序，以同时合成开环轨迹X＝x₁,x₂,…,x_T,U＝u₁,u₂,…,u_T-1和局部稳定策略π_θ(δx_k)＝W·δx_k。

使用非线性系统执行模拟测试，以测试并验证所提出的稳健的以目标为中心的控制器的益处。具体而言，通过这种优化获得的反馈控制器在有界不确定性面前能够稳定开环轨迹？使用欠驱动钟摆系统来研究这个问题。目的是证明在稳定最优轨迹中解的有效性，并将经由优化获得的反馈增益与时变LQR解进行比较。钟摆的动力学被建模为

连续时间模型被离散化为

目标状态为x_g＝[π,0]，并且初始状态为x₀＝[0,0]。

图9示出了在未知动力学的情况下所提出的控制器在倒立钟摆系统上的有效性的说明性示例。由于系统动力学不正确，因此开环控制器920不能达到目标，但是稳定控制器910可以使用时不变增益来稳定整个轨迹。图10A示出了前馈(开环)控制轨迹。图10B示出了时不变反馈矩阵π_θ＝W的增益(请注意，存在两个增益，一个用于钟摆的角位置θ，然后另一个用于角速度

)。图10C示出了通过使用线性化动力学A(k)和B(k)，在轨迹的每个点处求解LQR问题而获得的时变LQR增益。图11示出了针对同一系统提出的控制器在注入系统的若干不同干扰的情况下的统计行为。正如所见，控制器总是趋于0。

在具有未知动力学的真实球-梁系统上测试所提出的稳健的以轨迹为中心的控制器。球-梁系统是由于执行器中存在干摩擦和延迟而具有非线性的低维非线性系统。用4个状态变量

对球-梁系统进行建模，其中x是球的位置，

是球的速度，θ是梁的角位置，

是梁的角速度。球的加速度由以下非线性等式给出：

其中，m_ball是球的质量，I_ball是球的转动惯量，r_ball是球的半径，b₁是球在梁上的粘性摩擦系数，b₂是球在梁上的干摩擦系数。使用系统的不准确模型来设计开环轨迹以及稳健的以轨迹为中心的控制器。即使模型不正确，所提出的稳健控制器也比开环控制器实现更好的性能。

图12示出了由可以在梁1120上移动的球1150组成的球-梁系统。球的初始位置是固定的1110。任务是将球移动到期望位置并保持在那里。由编码器1130和编码器轴1140测量梁的倾角。图13示出了与开环控制器相比，所提出的以轨迹为中心的控制器的典型行为示例，图13示出了所提出的控制器的平均稳定误差1210趋向于零。然而，开环控制器以非零稳态误差1220很差地执行。

可以以多种方式中的任何一种来实现本公开的上述实施方式。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，软件代码能够在任何合适的处理器或处理器集上执行，无论是设置在单台计算机中还是分布在多台计算机当中。这种处理器可以实现为集成电路，在集成电路组件中具有一个或更多个处理器。但是，可以使用任何适当格式的电路来实现处理器。

此外，本文概述的各种方法或过程可以被编码为在一个或更多个处理器上可执行的软件，该一个或更多个处理器采用多种操作系统或平台中的任何一种。附加地，这样的软件可以使用大量合适的编程语言和/或编程或脚本工具中的任何一种来编写，并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，程序模块的功能可以在各种实施方式中根据需要组合或分布。

另外，本公开的实施方式可以体现为一种方法，已经提供了该方法的示例。作为该方法的一部分执行的动作可以以任何合适的方式排序。因此，可以构造这样的实施方式，其中以与所示出的次序不同的次序来执行动作，可以包括同时执行一些动作，即使这些动作在示例性实施方式中被示为顺序动作。此外，在权利要求中使用诸如“第一”、“第二”之类的序数术语来修饰权利要求要素，本身并不意味着一个权利要求要素相对于另一权利要求要素的任何优先权、优先级或次序，或者执行方法动作的时间次序，而仅用作标签以将具有一定名称的一个权利要求要素与具有相同名称(除了使用序数词之外)的另一要素区分开，以区分权利要求要素。

尽管已经参照某些优选实施方式描述了本公开，但是应当理解，可以在本公开的精神和范围内进行各种其它的适配和修改。因此，所附权利要求的方面涵盖所有落入本公开的真实精神和范围内的所有这种变型和修改。

Claims

1.一种用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器，该控制器包括：

接口，该接口被配置为接收包括由传感器测量到的系统状态、控制数据和状态转移的元组的数据；

存储器，该存储器存储处理器能执行程序，该处理器能执行程序包括用于响应于经由所述接口接收到的系统的任务命令而生成在期望的时间范围的标称状态和控制轨迹作为时间步骤的函数的随机预测学习模型、包括机器学习方法算法和初始随机控制策略的控制策略、用于沿标称轨迹调节偏差的局部策略；

至少一个处理器，所述至少一个处理器被配置为：

使用在使用所述初始随机控制策略执行的试错实验期间收集的数据的集合，来学习所述系统的随机预测模型；

估计与所述随机预测模型相关联的平均预测和不确定性；

将以轨迹为中心的控制器合成问题公式化，以同时计算标称轨迹与前馈控制以及稳定时不变反馈控制；

在当前时间步骤使用控制输入时，使用经过学习的随机系统模型确定所述系统与标称系统状态的偏差的局部集合；

在系统的偏差的局部集合中确定与所述标称系统状态具有最坏情况偏差的系统状态；

通过计算在所述具有最坏情况偏差的系统状态下的所述稳健性约束的一阶导数来确定所述稳健性约束的梯度；

通过在满足状态和输入约束的同时使状态控制轨迹的成本最小化，来确定将所述系统状态调节到所述标称轨迹的最优系统状态轨迹、前馈控制输入和局部时不变反馈策略；

使用非线性规划求解稳健策略优化；

根据求解的优化问题更新所述控制数据；以及

经由所述接口输出更新后的控制数据。

2.根据权利要求1所述的控制器，其中，所述系统是离散时间动态系统。

3.根据权利要求1所述的控制器，其中，由时间相关前馈控制和稳定所述时间相关前馈控制的局部时不变反馈控制，来合成以轨迹为中心的控制策略。

4.根据权利要求3所述的控制器，其中，用于离散时间动态系统的以轨迹为中心的控制策略的合成被公式化为具有非线性约束的非线性优化程序。

5.根据权利要求4所述的控制器，其中，所述非线性约束是用于局部时不变反馈策略的系统动态和稳定约束。

6.根据权利要求1所述的控制器，其中，所述时不变局部策略被配置为满足所述稳健性约束，所述稳健性约束将在当前时间步骤处于最坏情况偏差状态的所述系统的当前状态在下一时间步骤推入在所述轨迹周围的容错范围内。

7.根据权利要求1所述的控制器，其中，沿着所述标称轨迹的局部不确定性集合是通过用于学习所述系统的前向动力学模型的随机函数逼近器获得的。

8.根据权利要求1所述的控制器，其中，所述系统在已知集合中沿标称轨迹的每个状态处的最坏情况偏差状态是通过求解优化问题而获得的。

9.根据权利要求1所述的控制器，其中，使用在所述最坏情况偏差状态处的所述稳健性约束的梯度，求解具有附加稳健性约束的公式化非线性程序，以获得所述前馈控制以及附加的时间恒定反馈控制器。

10.根据权利要求1所述的控制器，其中，所述传感器中的至少一个经由所述接口执行无线通信。

11.根据权利要求1所述的控制器，其中，所述传感器中的至少一个是提供包括深度图像的运动图片的三维3D相机。

12.根据权利要求1所述的控制器，其中，所述传感器被布置在所述系统和预定外围位置中。

13.根据权利要求12所述的控制器，其中，所述预定外围位置中的至少一个由视角确定，使得所述3D相机捕捉所述系统的移动范围。

14.根据权利要求1所述的控制器，其中，所述以轨迹为中心的控制器合成问题是非线性程序。

15.根据权利要求1所述的控制器，其中，所述局部策略为时不变反馈策略或局部稳定控制器。

16.根据权利要求1所述的控制器，其中，所述控制轨迹是开环轨迹。

17.一种用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的计算机实现方法，该方法包括以下步骤：

使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合，来学习所述系统的随机预测模型；

估计与所述随机预测模型相关联的平均预测和不确定性；

将轨迹为中心的控制器合成问题公式化，以同时计算标称轨迹与前馈控制以及稳定时不变反馈控制；

通过计算在所述具有最坏情况偏差的系统状态下的所述稳健性约束的一阶导数，来确定所述稳健性约束的梯度；

使用非线性规划提供并求解稳健策略优化问题；

根据求解的优化问题更新控制数据；以及

经由接口输出更新后的控制数据。

18.根据权利要求17所述的方法，其中，所述系统是离散时间动态系统。

19.根据权利要求17所述的方法，其中，由时间相关前馈控制和稳定所述时间相关前馈控制的局部时不变反馈控制来合成以轨迹为中心的控制策略。

20.根据权利要求3所述的方法，其中，用于所述离散时间动态系统的所述以轨迹为中心的控制策略的合成被公式化为具有非线性约束的非线性优化程序。