CN114193443A

CN114193443A - 用于控制机器人设备的设备和方法

Info

Publication number: CN114193443A
Application number: CN202111086090.7A
Authority: CN
Inventors: F·奥图
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-17
Filing date: 2021-09-16
Publication date: 2022-03-18
Also published as: DE102020211648A1; US20220080586A1

Abstract

本发明公开了用于控制机器人设备的设备和方法，其中该方法（400）具有：由机器人设备使用机器人控制模型执行动作序列（402）；使用所执行的动作序列确定更新后的策略（404）；将更新后的策略投影到投影后的策略上，使得对于投影后的策略的多个状态中的每个状态：根据投影后的策略和更新后的策略之间的相似度度量的相似度值得到最大化，并且根据投影后的策略和初始策略之间的相似度度量的相似度值大于预定义阈值（406）；适配机器人控制模型以实现投影后的策略（408）；以及使用经过适配的机器人控制模型来控制机器人设备（410）。

Description

用于控制机器人设备的设备和方法

技术领域

各种实施例一般地涉及用于控制机器人设备的设备和方法。

背景技术

可以使用机器人控制模型来控制机器人设备。为此，可以借助于诸如强化学习（也称为增强学习，英语：Reinforcement Learning）的机器学习来训练机器人控制模型。在此，所述机器人控制模型可以借助于针对目标的策略为机器人设备的当前状态选择要通过所述机器人设备执行的动作。看上去针对多个状态中相应状态的策略映射为多个动作中的一个动作。可以在机器人控制模型的训练期间和/或在经过训练的机器人控制模型的推理期间更新该策略。在此，初始策略和更新后的策略之间的相似度在预定义区域（例如置信区域）内可能是期望的和/或必要的。

在Schulman等人的“Trust Region Policy Optimization（置信域策略优化）”，ICML，Proceedings of Machine Learning Research，37，2015中描述了一种置信区域策略优化（TRPO），其中策略更新在以下条件下进行，即更新后的策略位于置信区域内。在该文献中，所述条件是使用平均KL散度对初始策略和更新后的策略之间的Kullback-Leibler(KL)散度进行启发式近似。

然而，在强化学习中必须考虑探索-利用妥协（也称为探索-利用困境）。

在Abdolmaleki等人的“Model-based relative entropy stochastic search（基于模型的相对熵随机搜索）”, Advances in Neural Information Processing Systems,2015中，描述了如果在更新策略时不考虑更新后的策略的熵，则这可能由于增强利用而导致过早的策略收敛。在置信区域内更新策略时，可以将所述策略的熵作为附加条件考虑在内。

Akrour等人的“Projections for Approximate Policy Iteration Algorithms（近似策略迭代算法的预测）”，ICLR，2019建立在Schulman等人描述的TRPO方法和Abdolmaleki等人描述的策略熵的附加条件的基础上，其中将经过更新的条件约束策略投影到无条件约束策略中。

然而，在TRPO中使用的条件以及因此该条件的投影是基于关于所有状态的平均KL散度。因此，投影后的策略的各个状态可能违反置信区域的条件（例如，位于所述置信区域之外）。因此可能需要的是，提供一种能够在更新策略时确保每个状态的置信区域的方法。

此外，所描述的置信区域策略优化和策略的投影限于平均KL散度。因此，使用其他数学方法将策略投影到置信区域中可能会有所帮助和/或有必要，例如数学上更合适的方法（例如需要较少计算技术耗费的数学方法，例如能够以封闭形式求解的数学方法）。

此外，能够有利的和/或对于机器人控制模型的端到端训练来说必要的是，提供一种用于将策略投影到置信区域中的方法，借助于该方法将策略投影作为一个或多个可微分层实现在神经网络中。

在Amos和Kolter的“OptNet: Differentiable Optimization as a Layer inNeural Networks（OptNet：作为神经网络中的层的可微分优化）”，34^th InternationalConference on Machine Learning，2017中描述了一种方法，其可以将优化问题作为可微分层集成到神经网络(OptNet)中。

发明内容

具有独立权利要求1（第一示例）和14（第十八示例）特征的方法和设备可以训练机器人控制模型，使得在更新机器人控制模型的策略时对于所述机器人控制模型的每个状态都确保置信区域（例如相应的置信区域）。

因此，用于控制机器人设备的设备和方法能够更有效地（例如更快地，例如以更高的准确度，例如以改进的探索和利用比率）训练所述机器人控制模型。

机器人控制模型可以是基于机器学习的模型。所述机器人控制模型例如可以具有强化学习算法。根据各种实施例，所述机器人控制模型的至少一部分可以借助于神经网络来实现。

机器人设备可以是任何类型的由计算机控制的设备，例如机器人（例如制造机器人、维修机器人、家用机器人、医疗机器人等）、车辆（例如自主车辆）、家用电器、生产机器、个人助理、访问控制系统等。

通过对于所述机器人控制模型的每个状态都确保置信区域的方式投影所述机器人控制模型的更新后的策略，可以控制（例如改进，例如优化）例如强化学习中的探索-利用妥协。

使用所执行的动作序列确定更新后的策略可以具有：通过将奖励函数分别应用于所导致的状态，为所执行的动作序列中的每个所执行的动作确定相应的奖励；以及使用初始策略和所确定的奖励来确定所述更新后的策略，使得期望的奖励得到最大化。本段中描述的特征结合第一示例形成第二示例。

将更新后的策略投影到投影后的策略上可以具有：将所述更新后的策略投影到所述投影后的策略上，使得对于投影后的策略的多个状态中的每个状态：根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值得到最大化，根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于预定义阈值，以及所述投影后的策略的熵大于或等于预定义熵阈值。本段中所描述的特征结合第一示例或第二示例形成第三示例。

可以表现为，多个状态策略中每个状态的熵大于或等于预定义熵阈值的条件导致在对策略更新时例如不仅协方差，而且所述投影后的策略的多元正态分布的期望值都得到改变。

所述初始策略可以具有多个动作的初始多元正态分布。所述更新后的策略可以具有多个动作的更新后的多元正态分布。所述投影后的策略可以具有多个动作的投影后的多元正态分布。将更新后的策略投影到投影后的策略上可以具有：将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值。本段中描述的特征结合第一示例至第三示例中的一个或多个形成第四示例。

将更新后的策略投影到投影后的策略上可以具有：将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值；以及投影后的多元正态分布的熵大于或等于预定义熵阈值。本段中所描述的特征结合第三示例和第四示例形成第五示例。

将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值，可以具有：使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于马氏距离和Frobenius范数确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第六示例。

将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值，可以具有：使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于Wasserstein距离确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第七示例。

使用根据第六示例的马氏距离和Frobenius范数或根据第七示例的Wasserstein距离具有以下效果：可以以数学上封闭的形式确定更新后的策略的投影。例如，可以将以这种方式确定的投影后的策略集成为神经网络中的一个层（或多个层）。

将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值，可以具有：使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于数值优化器确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第八示例。

所述数值优化器可以使用Kullback-Leibler散度来确定投影后的多元正态分布。本段中所描述的特征结合第八示例形成第九示例。

投影后的多元正态分布的确定可以采用拉格朗日乘数方法。本段中所描述的特征结合第六至第九示例中的一个或多个形成第十示例。

所述机器人控制模型可以是神经网络。本段中所描述的特征结合第一示例至第十示例中的一个或多个形成第十一示例。

将更新后的策略投影到投影后的策略上可以作为神经网络中的一个或多个层（例如可微分层）来实现。本段中所描述的特征结合第十一示例形成第十二示例。

将策略投影到状态自己的置信区域中作为一个或多个可微分层集成到神经网络中具有以下效果：可以使用策略投影端到端地训练所述神经网络，其中在训练期间对每个状态都确保置信区域的条件。

适配所述机器人控制模型以实现投影后的策略可以具有借助于梯度方法适配所述机器人控制模型。本段中所描述的特征结合第一示例至第十二示例中的一个或多个形成第十三示例。

使用经过适配的机器人控制模型来控制所述机器人设备可以具有：由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作；借助于回归，使用所执行的一个或多个动作来更新策略。本段中所描述的特征结合第一示例至第十三示例中的一个或多个形成第十四示例。

使用经过适配的机器人控制模型来控制所述机器人设备可以具有：由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作；使用所执行的一个或多个动作来更新策略，使得预期奖励和根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值之差得到最大化。本段中所描述的特征结合第一示例至第十三示例中的一个或多个形成第十五示例。

一种用于控制机器人设备的方法可以具有：由所述机器人设备使用机器人控制模型执行动作序列，其中执行所述动作序列中的每个动作具有：使用初始策略借助于所述机器人控制模型为所述机器人设备的多个状态中的当前状态确定动作，由所述机器人设备执行所确定的动作，并且确定由所执行的动作导致的所述机器人设备的状态；使用所执行的行动序列确定更新后的策略；确定投影后的策略，使得针对所述投影后的策略的预期奖励与根据所述投影后的策略的多个状态中的每个状态和所述更新后的策略之间的相似度度量的相似度值之差得到最大化；适配所述机器人控制模型以实现所述投影后的策略；以及使用经过适配的机器人控制模型来控制所述机器人设备。具有本段中所描述特征的方法形成第十六示例。

一种用于控制机器人设备的方法可以具有：由所述机器人设备使用机器人控制模型执行动作序列，其中执行所述动作序列中的每个动作具有：使用初始策略借助于所述机器人控制模型为所述机器人设备的多个状态中的当前状态确定动作，由所述机器人设备执行所确定的动作，并且确定由所执行的动作导致的所述机器人设备的状态；使用所执行的行动序列确定更新后的策略；确定投影后的策略，使得针对所述投影后的策略的预期奖励与根据所述投影后的策略的多个状态中的每个状态和所述更新后的策略之间的相似度度量的相似度值之差得到最大化；以及使用投影后的策略借助于所述机器人控制模型来控制所述机器人设备。具有本段中描述的特征的方法形成第十七示例。

计算机程序产品可以存储程序指令，如果执行所述程序指令，则所述程序指令执行根据第一示例至第十七示例中的一个或多个的方法。具有本段中所描述特征的计算机程序产品形成第十九示例。

非易失性存储介质可以存储程序指令，如果执行所述程序指令，则所述程序指令执行第一示例至第十七示例中的一个或多个的方法。具有本段中描述的特征的非易失性存储介质形成第二十示例。

非易失性存储介质可以存储程序指令，如果执行所述程序指令，则所述程序指令执行第一示例至第十七示例中的一个或多个的方法。具有本段中描述的特征的非易失性存储介质形成第二十一示例。

附图说明

本发明的实施例在附图中示出并且在下面的描述中得到更详细的解释。

其中：

图1示出了根据各种实施方式的示例性机器人设备布置；

图2示出了根据各种实施方式的用于确定策略的说明性流程图；

图3示出了示出根据各种实施方式使用数值优化器来确定投影后的策略的图表；

图4示出了根据各种实施方式的用于控制机器人设备的方法；

图5示出了根据各种实施方式的用于控制机器人设备的方法。

具体实施方式

在一种实施方式中，“计算机”可以理解为任何类型的逻辑实现实体，其可以是硬件、软件、固件或其组合。因此在一种实施方式中，“计算机”可以是硬连线逻辑电路或可编程逻辑电路，例如可编程处理器，例如微处理器（例如，CISC（大型指令集处理器）或RISC（精简指令集处理器））。“计算机”可以具有一个或多个处理器。“计算机”也可以是由处理器实现或执行的软件，例如任何类型的计算机程序，例如使用诸如Java的虚拟机代码的计算机程序。与一种替代实施方式一致，可以将以下更详细地描述的相应功能的任何其他类型的实现理解为“计算机”。

可以使用基于强化学习的机器人控制模型来控制机器人设备。为了在更新机器人控制模型的策略时确保改进的探索和利用（例如最佳）妥协，可能需要在置信区域内更新策略。各种实施例涉及用于控制机器人设备的设备和方法，它们能够训练机器人控制模型，使得针对机器人设备的每个状态的更新后的策略都位于所述置信区域内。可以表现为在更新机器人控制模型的策略时考虑和确保机器人设备的每个状态的置信区域。

图1示出了机器人设备布置100。机器人设备布置100可以具有机器人设备101。为了说明，在图1中示出并且在下面示例性描述的机器人设备101代表示例性的机器人设备并且例如可以具有用于对工件进行移动、安装或加工的机器人臂形式的工业机器人。提示：所述机器人设备可以是任何类型的计算机控制设备，例如机器人（例如制造机器人、维修机器人、家用机器人、医疗机器人等）、车辆（例如自主车辆）、家用电器、生产机器、个人助理、访问控制系统等。

机器人设备101具有机器人肢体102、103、104和承载机器人肢体102、103、104的基座（或通常是支架）105。术语“机器人肢体”涉及机器人设备101的可运动部分，所述可运动部分的致动使得能够与环境进行物理交互，例如以便执行任务，例如执行动作。

为了进行控制，机器人设备布置100包含控制设备106，所述控制设备被设置为根据控制程序实现与环境的交互。机器人肢体102、103、104的最后一个元件104（从基座105看过去）也称为末端效应器104并且可以包含一个或多个工具，如焊炬、夹持工具、涂漆设备等。

其他机器人肢体102、103（更靠近基座105）可以形成定位设备，使得机器人臂（或关节臂）与末端效应器104一起设置，其中末端效应器104设置在所述机器人臂的末端处。机器人臂是一种机械臂，其可以满足与人类手臂类似的功能（可能所述机器人臂的末端带有工具）。

机器人设备101可以包含将机器人肢体102、103、104彼此连接并与基座105连接的连接元件107、108、109。连接元件107、108、109可以具有一个或多个关节，每个关节可以为所属的机器人肢体提供相对于彼此的旋转运动和/或平移运动（即，位移）。机器人肢体102、103、104的运动可以借助于由控制设备106控制的调节机构启动。

术语“调节机构”可以理解为适合于响应于受到驱动而影响机械装置的组件。所述调节机构可以将控制设备106所输出的指令（所谓的激活）转换为机械运动。诸如机电换能器的调节机构可以被设置为响应于其操控将电能转换为机械能。

术语“控制设备”（也称为“控制装置”）可以理解为任何类型的逻辑实现单元，其可以包含例如能够执行存储在存储介质中的软件、固件或其组合的电路和/或处理器，并且可以发布指令，例如向本示例中的调节机构。所述控制设备可以例如通过程序代码（例如软件）来设置用于控制系统的运行，该系统在本示例中是机器人。

在本示例中，控制设备106包含计算机110和存储代码和数据的存储器111，计算机110基于这些代码和数据来控制机器人设备101。根据各种实施方式，控制设备106基于存储在存储器111中的机器人控制模型112来控制机器人设备101。

根据各种实施方式，机器人设备布置100可以具有一个或多个传感器113。一个或多个传感器113可以被设置为提供表征所述机器人设备的状态的传感器数据。例如，一个或多个传感器113可以具有诸如相机（例如标准相机、数码相机、红外相机、立体相机等）的成像传感器、雷达传感器、LIDAR传感器、位置传感器、速度传感器、超声传感器、加速度传感器、压力传感器等。

机器人设备101可以处于多种状态中的状态

。根据各种实施方式，机器人设备101可以在任何时间点处于多个状态中的当前状态。可以使用由一个或多个传感器113提供的传感器数据来确定多个状态中的相应状态。

机器人设备101可以被设置为执行多个动作。例如，可以在控制设备106的程序代码中预定义多个动作中的动作。多个动作中的一个或多个动作可以具有例如一个或多个机器人肢体102、103、104的机械运动。多个动作中的一个或多个动作可以具有例如末端效应器的动作（例如抓握，例如松开等）。根据各种实施方式，在机器人设备101的当前状态

下执行的动作

可以导致机器人设备101的多个状态中的导致的状态。

机器人控制模型112可以是基于强化学习的模型。例如，机器人控制模型112可以实现强化学习算法。

机器人控制模型112可以被设置用于为多个状态中的一个状态确定多个动作中的一个动作。例如，机器人控制模型112可以响应于多个状态中一个状态的输入而输出多个动作中的一个动作。可以表现为，机器人控制模型112从多个状态中的一个状态映射到多个动作中的一个动作。多个状态中的状态可以形成状态空间。多个动作的动作可以形成动作空间。可以表现为，机器人控制模型112从状态空间映射到动作空间。

根据各种实施方式，机器人控制模型112可以具有策略（英语：policy）

。例如，机器人控制模型112可以在任何时间点遵循策略。可以将相应的策略分配给目标和/或任务。例如，相应的策略可以是用于实现目标或完成任务的策略。根据各种实施方式，策略可以响应于多个状态中的一个状态的输入而输出多个动作中的一个动作。可以表现为，由机器人控制模型112使用的策略从状态空间映射到动作空间。

可以向多个状态中的每个状态分配多个动作的相应概率分布（例如正态分布）。根据各种实施方式，策略可以具有或可以是多元正态分布（也称为多维正态分布和/或多元高斯分布）。多元正态分布可以由期望值向量和协方差矩阵定义。策略的多元正态分布的期望值向量可以具有多个状态中每个状态的期望值。策略的多元正态分布的协方差矩阵（在此也称为协方差）可以取决于多个状态（例如，是多个状态的函数）。

根据各种实施方式，控制设备106可以被设置为控制机器人设备101，使得机器人设备101执行和/或实施针对机器人设备101的当前状态由机器人控制模型112使用当前策略确定的动作。

控制设备106可以被设置用于为由所执行的动作导致的机器人设备101的状态确定奖励（英语：reward）

。根据各种实施方式，控制设备106可以使用奖励函数来确定导致的状态的奖励。例如，用于执行奖励函数的算法可以存储在存储器111中。例如，机器人控制模型112可以被设置为执行所述奖励函数。例如，可以将为导致的状态确定的奖励分配给结合机器人设备101的初始状态执行的动作。

根据各种实施方式，机器人设备101可以使用机器人控制模型112来执行动作序列。控制设备106可以被设置为使用初始策略

确定所述动作序列中的每个动作。控制设备106可以被设置用于为所执行的动作序列中的每个所执行的动作确定相应的奖励。

控制设备106（例如控制设备106的计算机110）可以被设置为使用所执行的动作序列来确定更新后的策略

。控制设备106可以被设置为确定更新后的策略

，使得方程式（1）中给出的预期奖励增加（例如，最大化）：

（1）,

其中

是使用所述策略为了实现目标或完成任务而遍历的状态

和动作

的轨迹，其中γ是折扣因子（英语：discount factor），以及其中

和

。

策略

可以由机器人控制模型112的参数

定义，例如可以通过

对

参数化。

根据各种实施方式，可以使用方程式（2）来确定更新后的策略

：

（2）,

其中

是初始策略（例如之前使用的策略），以及

其中

是收益函数。可以例如通过

来确定所述收益函数，其中

是动作价值函数（英语：action value function），而

是价值函数（英语：value function）。

根据各种实施方式，可以使用按照重要性的随机采样（英语：importancesampling，重要性采样）来确定更新后的策略

。

根据各种实施方式，更新后的策略

可以服从关于初始策略

的一个或多个条件（例如边界条件，例如次要条件）。例如，条件可以是更新后的策略

在关于初始策略

的置信区域（英语：Trust Region）内（例如，机器人控制模型112可以实现基于置信区域的强化学习）。例如，条件可以是多个状态中每个状态

的根据更新后的策略

与初始策略

之间的相似度度量的相似度值大于预定义阈值。例如，如果更新后的策略

与初始策略

之间的距离d小于或等于预定义阈值

，则多个状态中每个状态

的根据待使用的策略与初始策略

之间的相似度度量的相似度值可能大于预定义阈值。根据各种实施方式，可以将相应的预定义阈值

分配给多个状态中的每个状态。例如，关于方程式（2）的条件（受制于）是，多个状态中每个状态

的根据更新后的策略

和初始策略

之间的相似度度量的相似度值大于预定义阈值

，该条件根据方程式（3）描述为：

（3）。

可以表现为，限制状态空间中的每个点（例如状态）的更新后的策略。表现为，在置信区域内更新策略的效果是策略以不过大的步长接近最优策略（例如以不过大的步长收敛）。可以表现为，所使用的策略的变化程度是有限的。

根据各种实施方式，条件可以是多个状态中每个状态

的更新后的策略

的熵

大于或等于预定义的熵阈值

。例如，关于方程式（2）的条件可以根据方程式（4）描述为：

（4）。

使用根据方程式（3）和可选地进一步根据方程式（4）的与更新后的策略

相关的条件使得能够控制机器人控制模型112的强化学习的探索（也称为Exploration）和利用（也称为Exploitation）。

根据各种实施方式，可以借助于方程式（5）来定义使用根据方程式（3）和（4）的条件的方程式（2）：

（5）。

参考图2，机器人控制模型112可以使用初始策略

确定（在202中）动作序列中的每个动作。如本文所述，控制设备106可以根据方程式（2）确定（在204中）更新后的策略

，其中更新后的策略

可以受方程式（3）中定义的条件的限制且可选地还受方程式（4）中定义的条件的限制。可以表现为，更新后的策略

可以是受限制的更新后的策略

。更新后的策略

对于多个状态中的每个状态都是可以受限制的（例如，服从根据方程式（3）的条件）。可以表现为，更新后的策略

是状态独特的受限制的更新后的策略

。例如，多个状态中的每个状态可以具有各自的预定义阈值

，使得预定义阈值

可以是预定义阈值向量。

控制设备106可以被设置为确定（在206中）投影后的策略

。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

的多个状态中的每个状态，增加（例如，最大化）根据投影后的策略

和更新后的策略

之间的相似度度量的相似度值。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

的多个状态中的每个状态，增加（例如最大化）根据投影后的策略

和更新后的策略

之间的相似度度量的相似度值，并且对于投影后的策略

的多个状态中的每个状态，根据投影后的策略

和初始策略

之间的相似度度量的相似度值大于预定义阈值

。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

和更新后的策略

之间的相似度度量的相似度值，并且对于投影后的策略

的多个状态中的每个状态，根据投影后的策略

和初始策略

之间的相似度度量的相似度值大于预定义阈值

，并且对于投影后的策略

的多个状态中的每个状态，多个状态中每个状态

的更新后的策略

的熵

大于或等于预定义熵阈值

。

根据各种实施方式，可以借助于分配的多元正态分布来描述相应的策略。例如，初始策略

可以具有多个动作的初始多元正态分布。初始多元正态分布可以描述为：

，其中

是初始期望值向量，而

是初始多元正态分布的初始协方差。例如，更新后的策略

可以具有多个动作的更新后的多元正态分布。更新后的多元正态分布可以描述为：

，其中

是更新后的多元正态分布的更新后的期望值向量，而

是更新后的多元正态分布的更新后的协方差。初始期望值向量、初始协方差、更新后的期望值向量和/或更新后的协方差可以是多个状态的函数。例如，投影后的策略

可以具有多个动作的投影后的多元正态分布。投影后的多元正态分布可以描述为：

，其中

是投影后的多元正态分布的投影后的期望值向量，而

是投影后的多元正态分布的投影后的协方差。投影后的期望值向量可以取决于初始期望值向量、更新后的期望值向量、初始协方差、更新后的协方差、预定义阈值和/或多个状态。投影后的协方差可以取决于初始期望值向量、更新后的期望值向量、初始协方差、更新后的协方差、预定义阈值、多个状态和/或预定义熵阈值。

控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

的多个状态中的每个状态，增加（例如，最大化）根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

的多个状态中的每个状态，增加（例如最大化）根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值，并且对于投影后的策略

的多个状态中的每个状态，根据投影后的多元正态分布和初始多元正态分布之间的相似度度量的相似度值大于预定义阈值

。控制设备106可以被设置为将更新后的策略

投影到投影后的策略

上，使得对于投影后的策略

的多个状态中的每个状态，增加（例如最大化）根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值，对于投影后的策略

，并且对于投影后的多元正态分布的多个状态中的每个状态，多个状态中每个状态

的更新后的多元正态分布的熵

大于或等于预定义熵阈值

。

如本文所描述的，可以使用距离d来描述根据相似度度量的相似度值。根据各种实施方式，根据投影后的策略

的投影后的多元正态分布与更新后的策略

的更新后的多元正态分布之间的相似度度量的相似度值可以具有投影后的策略

的投影后的多元正态分布与更新后的多元正态分布之间的距离d。根据各种实施方式，根据投影后的策略

的投影后的多元正态分布与初始策略

的初始多元正态分布之间的相似度度量的相似度值可以具有投影后的策略

的投影后的多元正态分布与初始策略

的初始多元正态分布之间的距离d。根据各种实施方式，可以根据方程式（6）至（8）来描述用于确定投影后的策略

的优化问题：

根据各种实施方式，可以将更新后的策略

投影到投影后的策略

上，使得投影后的策略是不受限制的投影后的策略

。可以表现为，通过满足这些条件（例如，参见方程式（6））的方式来确定投影后的策略

。表现为，将更新后的策略

投影到投影后的策略

上，使得投影后的多元正态分布尽可能接近更新后的多元正态分布（例如，投影后的多元正态分布和更新后的多元正态分布之间的距离是最小的）并且投影后的多元正态分布（以及因此投影后的策略

）满足这些条件。

投影后的多元正态分布可以借助于投影后的期望值向量

和投影后的协方差

来描述。将更新后的策略

投影到投影后的策略

上可以具有确定投影后的期望值向量

和投影后的协方差

。

可以表现为，在本文描述的一个或多个条件下将更新后的多元正态分布投影到投影后的多元正态分布上。可以表现为，将更新后的多元正态分布投影到投影后的多元正态分布上，使得对于多个状态中的每个状态都满足本文描述的一个或多个条件。

下面描述了用于确定投影后的期望值向量

和投影后的协方差

的三种示例性投影方法：

（I）使用马氏距离和Frobenius范数的第一种投影方法；

（II）使用Wasserstein距离的第二种投影方法；和

（III）使用数值优化器的第三种投影方法。

（I）第一种投影方法

根据各种实施方式，可以使用根据方程式（9）的关于投影后的期望值向量

和投影后的协方差

的马氏距离和Frobenius范数来描述优化问题的方程式（6）：

（9）。

根据各种实施方式，期望值向量和协方差可以彼此独立。例如，可以独立地观察期望值向量和协方差。例如，对于根据方程式（10）的期望值向量的预定义阈值

和根据方程式（11）的协方差的预定义阈值

，可以考虑根据方程式（7）的条件：

可以表现为，观察根据关于期望值向量的相似度度量的相似度值和根据关于协方差的相似度度量的相似度值。根据各种实施方式，可以使用拉格朗日乘数方法来求解根据方程式（9）至（11）描述的优化问题。例如，可以根据方程式（12）的拉格朗日函数

来描述方程式（9）至（11）的拉格朗日对偶性：

（12）,

其中

和

是拉格朗日乘数。

通过求解方程式（12）得到根据方程式（13）的投影后的期望值向量和根据方程式（14）的投影后的协方差：

（13）

（14）,

其中可以根据方程式（15）确定

和根据方程式（16）确定

。

（15）

（16）。

（II）第二种投影方法

根据各种实施方式，可以使用根据方程式（17）的关于投影后的期望值向量

和投影后的协方差

的Wasserstein距离（例如缩放的Wasserstein距离）来描述优化问题的方程式（6）：

（17）,

其中tr是矩阵的迹。

Wasserstein距离对于两个正态分布包含这两个正态分布的期望值的欧几里德距离。乘以初始协方差

并缩放Wasserstein距离导致Mahalanobis距离（为此例如参见方程式（17））。

如本文所述，可以彼此独立地观察期望值向量和协方差。例如，对于根据方程式（18）的期望值向量的预定义阈值

和根据方程式（19）的协方差的预定义阈值

，可以考虑根据方程式（7）的条件：

其中

是单位矩阵（也称为信息矩阵）。

根据各种实施方式，可以使用拉格朗日乘数方法来求解根据方程式（17）至（19）描述的优化问题。关于投影后的期望值向量

的解，参考方程式（13）和方程式（15）。

根据各种实施方式，可以求解关于投影后的协方差的根的优化问题。例如，可以根据方程式（20）的拉格朗日函数

来描述方程式（17）和（19）的拉格朗日对偶。

（20）

通过求解方程式（20）得到根据方程式（21）的投影后的协方差：

（21）

其中可以根据方程式（22）确定

。

（22）

由此，可以以封闭形式求解第一种投影方法和第二种投影方法（可以以封闭形式确定投影后的多元正态分布）。

（III）第三种投影方法

根据各种实施方式，可以借助于数值优化器来求解根据方程式（6）至（8）的优化问题。

图3示出了显示根据各种实施方式使用数值优化器302来确定投影后的策略

的方案。例如，控制设备106（例如，控制设备106的计算机110）可以被设置为实现数值优化器302。

可以借助于正则参数

（也称为自然参数）和累积量生成函数

来描述多元正态分布。

数值优化器302可以被设置为针对正则参数

和累积量生成函数

求解根据方程式（6）至（8）的优化问题，其方式是数值优化器302针对正则参数

和累积量生成函数

确定第一优化拉格朗日乘数

和第二优化拉格朗日乘数

。例如，数值优化器302可以使用KL散度确定第一优化拉格朗日乘数

和第二优化拉格朗日乘数

。

根据各种实施方式，控制设备106可以根据

为更新的协方差

304确定更新的累积量生成函数

306。例如，对于更新的期望值向量

308和更新的累积量生成函数

306，控制设备106可以根据

确定更新的正则参数

310。

数值优化器302可以被设置为使用更新的累积量生成函数

306和更新的正则参数

310来确定第一优化拉格朗日乘数

和第二优化拉格朗日乘数

。数值优化器302可以被设置为使用更新的累积量生成函数

306、更新的正则参数310、第一拉格朗日乘数

312和第二拉格朗日乘数

314来确定第一优化拉格朗日乘数

316和第二优化拉格朗日乘数

318。例如，第一拉格朗日乘数

312和/或第二拉格朗日乘数

314可以被预定义（例如，设置）。例如，数值优化器302可以被设置为确定第一拉格朗日乘数

312和/或第二拉格朗日乘数

314。

可以使用初始协方差

（例如，基于

）来确定初始累积量生成函数

。可以使用初始累积量生成函数和初始期望值向量（例如，基于

）来确定初始正则参数

。

可以根据方程式（23）确定投影后的正则参数

320：

（23）。

投影后的累积量生成函数

322可以根据方程式（24）确定：

（24）。

可以使用投影后的累积量生成函数

322（例如，基于

）来确定投影后的协方差

324。可以使用投影后的正则参数

320和投影后的累积量生成函数

322（例如，基于

）来确定投影后的期望值向量

。

提示：更新后的策略

也可以借助于不同于本文描述的三种示例性投影方法的方式投影到投影后的策略

上。

根据各种实施方式，投影后的策略是优化策略，并且借助于投影后的策略，可以确定机器人设备101的状态和机器人设备101执行和/或实施的动作的最优序列（例如顺序）并由机器人设备101执行。

根据各种实施方式，机器人控制模型112可以具有或者是神经网络。将更新后的策略

投影到投影后的策略

上可以作为神经网络中的一个或多个层来实现。例如，将更新后的策略

投影到投影后的策略

上可以作为神经网络中的一个或多个可微分层来实现。根据各种实施方式，所述一个或多个层可以被设置为，如果不满足更新后的策略

的条件之一，则执行本文描述的投影。

根据各种实施方式，控制设备106可以被设置为适配（例如，适应）机器人控制模型112以实现投影后的策略

。

根据各种实施方式，机器人控制模型112可以具有神经网络并且机器人控制模型112的适配可以是神经网络的训练。例如，可以使用梯度方法（例如，策略梯度方法）来训练神经网络。根据各种实施方式，可以使用投影后的策略

和初始策略

来确定一个或多个梯度。可以表现为，使用投影后的策略

来适配神经网络是迭代地训练神经网络。根据各种实施方式，可以执行多次迭代。例如，本文描述的用于适配机器人控制模型112的方法可以执行多次。

例如，可以借助于梯度方法使用所确定的一个或多个梯度来适配（例如训练）机器人控制模型112的神经网络。

可以以封闭形式求解第一种投影方法和第二种投影方法。在这里，可以直接确定一个或多个梯度。对于第三种投影方法，可以使用Amos和Kolter描述的OptNet方法来确定一个或多个梯度。在此，神经网络的层可以求解以下拉格朗日对偶：

根据各种实施方式，可以借助于推导对应的Karush-Kuhn-Tucker（KKT）条件来确定（例如计算）一个或多个梯度。

可以例如借助于方程式（25）来描述固定的KKT条件：

（25）,

其中

是第一KKT乘数，并且

是第二KKT乘数。

KKT的互补松弛度（英语：complementary slackness）可以例如借助于方程式（26）描述为：

（26）。

根据各种实施方式，可以通过推导Karush-Kuhn-Tucker（KKT）条件来确定一个或多个梯度。根据各种实施方式，神经网络的一个或多个层可以设置为：如果不满足本文描述的针对更新后的策略

的条件之一（例如根据方程式（3）的条件，例如根据方程式（4）的条件），则执行投影。例如，可以为以下状况确定一个或多个梯度：

-满足根据方程式（3）的条件和根据方程式（4）的条件。可以表现为，在这种情况下将更新后的策略用于梯度方法。例如，不需要借助于神经网络的一个或多个层来投影策略和/或计算梯度，

-满足根据方程式（3）的条件，并且不满足根据方程式（4）的条件，

-不满足根据方程式（3）的条件，并且满足根据方程式（4）的条件，

-不满足根据方程式（3）的条件和根据方程式（4）的条件。

根据各种实施方式，如果不满足这些条件中的至少一个，则神经网络的一个或多个层可以如本文所描述的那样对策略进行投影。根据各种实施方式，如果不满足这些条件中的至少一个并且如果使用第三种投影方法，则神经网络的一个或多个层可以确定一个或多个梯度。

可以表现为，三种投影方法之一作为神经网络中的一个或多个可微分层来实现，使得可以端到端地训练神经网络，使得在训练期间针对多个状态中的每个状态确保（例如，满足）一个或多个条件（例如置信区域的条件）。

根据各种实施方式，控制设备106可以被设置为使用经过适配的机器人控制模型112来控制机器人设备101。

控制设备106可以被设置为确定机器人设备101的当前状态。控制设备106可以被设置为使用投影后的策略借助于经过适配的机器人控制模型112来确定针对当前状态要执行的动作。要执行的动作可以是例如多个动作中具有最高概率的动作（例如分配给当前状态的期望值的动作），该动作由投影后的多元正态分布描述。控制设备106可以被设置为与要执行的动作相对应地控制机器人设备101，使得机器人设备101执行和/或实施所述动作。根据各种实施方式，机器人设备101可以使用经过适配的机器人控制模型112来执行一个或多个动作。

根据各种实施方式，控制设备106可以使用所执行的一个或多个动作来更新策略。这里，如本文所述，可以确定更新后的策略并且使用更新后的策略来确定投影后的策略。根据各种实施方式，例如当推理机器人控制模型112（例如神经网络）时，可以求解根据方程式（27）的优化问题。

（27）

在此，可以使用所执行的一个或多个动作借助于回归（例如，具有一个或多个回归步骤）来适配机器人控制模型112。

根据各种实施方式，可以根据方程式（28）中给出的目标函数来确定投影后的策略。在此可以这样来确定投影后的策略，即增加（例如最大化）预期奖励（参见方程式（2））与根据投影后的策略和更新后的策略之间的相似度度量的相似度值之差。例如，可以通过投影后的策略和更新后的策略之间的距离

来确定根据投影后的策略和更新后的策略之间的相似度度量的相似度值。例如，可以使用本文描述的三种投影方法来确定投影后的策略和更新后的策略之间的距离。

（28）。

图4示出了根据各种实施方式的用于控制机器人设备的方法400。

方法400可以具有由机器人设备使用机器人控制模型来执行动作序列（在402中）。执行动作序列中的每个动作可以具有：借助于机器人控制模型使用初始策略来为机器人设备的多个状态中的当前状态确定动作，由机器人设备执行所确定的动作，以及确定所执行的动作导致的机器人设备的状态。根据各种实施方式，机器人控制模型可以是基于强化学习的模型（例如，基于强化学习的神经网络）。

方法400可以具有使用所执行的动作序列来确定更新后的策略（在404中）。

方法400可以具有将更新后的策略投影到投影后的策略上（在406中）。更新后的策略可以以如下方式投影到投影后的策略上，即对于投影后的策略的多个状态中的每个状态，增加（例如最大化）根据投影后的策略和更新后的策略之间的相似度度量的相似度值，并且对于投影后的策略的多个状态中的每个状态，根据投影后的策略与初始策略之间的相似度度量的相似度值大于预定义阈值。更新后的策略可以以如下方式投影到投影后的策略上，即对于投影后的策略的多个状态中的每个状态，增加（例如最大化）根据投影后的策略和更新后的策略之间的相似度度量的相似度值，对于投影后的策略的多个状态中的每个状态，根据投影后的策略与初始策略之间的相似度度量的相似度值大于预定义阈值，并且对于投影后的策略的多个状态中的每个状态，投影后的策略的熵大于或等于预定义熵阈值。

方法400可以具有适配机器人控制模型以实现投影后的策略（在408中）。

方法400可以具有使用经过适配的机器人控制模型来控制机器人设备（在410中）。

图5示出了根据各种实施方式的用于控制机器人设备的方法500。

方法500可以具有由机器人设备使用机器人控制模型来执行动作序列（在502中）。执行动作序列中的每个动作可以具有：借助于机器人控制模型使用初始策略来为机器人设备的多个状态中的当前状态确定动作，由机器人设备执行所确定的动作，以及确定所执行的动作导致的机器人设备的状态。根据各种实施方式，机器人控制模型可以是基于强化学习的模型（例如，基于强化学习的神经网络）。

方法500可以具有使用所执行的动作序列来确定更新后的策略（在504中）。

方法500可以具有确定投影后的策略，使得增加（例如，最大化）针对投影后的策略预期的奖励和根据投影后的策略的多个状态中的每个状态与更新后的策略之间的相似度度量的相似度值之差（在506中）。

方法500可以具有使用投影后的策略借助于机器人控制模型来控制机器人设备（在508中）。

根据各种实施方式，方法500可以具有适配机器人控制模型以实现投影后的策略并使用经过适配的机器人控制模型来控制机器人设备。

Claims

1.用于控制机器人设备的方法，具有：

·由所述机器人设备使用机器人控制模型执行动作序列，其中执行所述动作序列中的每个动作具有：

o借助于所述机器人控制模型使用初始策略为所述机器人设备的多个状态中的当前状态确定动作，

o由所述机器人设备执行所确定的动作，以及

o确定由所执行的动作导致的所述机器人设备的状态；

•使用所执行的动作序列确定更新后的战略；

•将所述更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：

o根据所述投影后的策略和所述更新后的策略之间的相似度度量的相似度值得到最大化，并且

o根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于预定义阈值；

•适配所述机器人控制模型以实现所述投影后的策略；以及

•使用经过适配的机器人控制模型来控制所述机器人设备。

2.根据权利要求1所述的方法，

其中将更新后的策略投影到投影后的策略上具有：

•将所述更新后的策略投影到所述投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态：

o根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值得到最大化，

o根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于所述预定义阈值，以及

o所述投影后的策略的熵大于或等于预定义熵阈值。

3.根据权利要求1或2任一项所述的方法，

其中所述初始策略具有所述多个动作的初始多元正态分布；

其中所述更新后的策略具有所述多个动作的更新后的多元正态分布；

其中所述投影后的策略具有所述多个动作的投影后的多元正态分布；

其中将更新后的策略投影到投影后的策略上具有：

o根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且

o根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值。

4.根据权利要求2和3所述的方法，

其中将更新后的策略投影到投影后的策略上具有：

o根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值；以及

o所述投影后的多元正态分布的熵大于或等于所述预定义熵阈值。

5.根据权利要求3或4任一项所述的方法，

其中将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态，根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值，具有：

•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于马氏距离和Frobenius范数来确定所述投影后的多元正态分布。

6.根据权利要求3或4任一项所述的方法，

其中将更新后的策略投影到投影后的策略上，使得对于所述投影后的策略的多个状态中的每个状态，根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化，并且根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于预定义阈值，具有：

•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于Wasserstein距离来确定所述投影后的多元正态分布。

7.根据权利要求3或4任一项所述的方法，

•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于数值优化器来确定所述投影后的多元正态分布。

8.根据权利要求7所述的方法，

其中所述数值优化器使用Kullback-Leibler散度确定所述投影后的多元正态分布。

9.根据权利要求5至8中任一项所述的方法，

其中确定所述投影后的多元正态分布具有拉格朗日乘数方法。

10.根据权利要求1至10中任一项所述的方法，

其中所述机器人控制模型为神经网络；和

其中将所述更新后的策略投影到所述投影后的策略上作为神经网络中的一个或多个层来实现。

11.根据权利要求1至10中任一项所述的方法，

其中适配机器人控制模型以实现投影后的策略具有借助于梯度方法适配所述机器人控制模型。

12.根据权利要求1至11中任一项所述的方法，

其中使用经过适配的机器人控制模型来控制所述机器人设备具有：

•由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作；

•借助于回归使用所执行的一个或多个动作来更新所述策略。

13.根据权利要求1至11中任一项所述的方法，

•使用所执行的一个或多个动作来更新所述策略，使得预期奖励和根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值之差得到最大化。

14.一种设置为执行根据权利要求1至13中任一项所述的方法的设备。

15.非易失性存储介质，存储有程序指令，如果执行所述程序指令，则所述程序指令执行根据权利要求1至13中任一项所述的方法。