CN113671942A

CN113671942A - 用于控制机器人的设备和方法

Info

Publication number: CN113671942A
Application number: CN202110471494.1A
Authority: CN
Inventors: J·G·沃尔克; F·施密特; H·V·胡夫
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-04-30
Filing date: 2021-04-29
Publication date: 2021-11-19
Also published as: EP3904973A1; US20210341904A1; US11934176B2

Abstract

本公开涉及控制机器人的设备和方法。所述方法包括：接收要达到的目标配置的指示；通过价值迭代确定粗略尺度价值映射，其中使用转移概率模型确定转移概率；以及对于粗略尺度状态序列中的每个，从初始粗略尺度状态开始并且直到达到目标配置或者已经达到最大数量的精细尺度状态为止，从粗略尺度价值映射确定精细尺度子目标；由致动器执行精细尺度控制动作，以及获得传感器数据以确定所达到的精细尺度状态，从当前精细尺度状态开始，并且直到达到所确定的精细尺度子目标，转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度为止；以及从精细尺度状态序列中的最后一个确定粗略尺度状态序列中的下一个。

Description

用于控制机器人的设备和方法

技术领域

本公开涉及用于控制机器人的设备和方法。

背景技术

强化学习（RL）是一种机器学习范式，其允许机器学习执行与任务规范相关的期望行为，例如，其控制在机器人导航场景中达到目标位置所采取的动作。利用强化学习来学习生成这些行为的策略与利用有监督学习来学习策略的不同之处在于构成和获得训练数据的方式：尽管在有监督学习中，提供的训练数据由策略的匹配输入对（例如，如感觉读数之类的观察）和期望的输出（要采取的动作）组成，但是在强化学习的情况下，不提供固定的训练数据。策略是从通过机器与其环境的交互所收集的经验数据而学习的，由此向机器提供反馈（奖励）信号，该（奖励）信号对在特定上下文（状态）中采取的动作进行评分/评估。

在提供的奖励信号非常稀疏的情况下，RL算法的数据效率低。因此，利用经训练的控制策略来满足某个质量准则的训练可能花费非常长的时间。

Tamar等人的出版物“Value Iteration Networks”（2017年3月20日）将价值迭代网络（VIN）描述为完全可微的规划模块，它学习价值迭代规划算法的近似。在连续控制任务中，他们将连续环境的离散、粗略网格表示上的高层VIN规划与经由引导策略搜索训练的低层连续控制策略分层地组合。低层策略接收由VIN规划器生成的价值函数（映射）的本地摘录作为附加输入。

Jendele等人在“Learning Functionally Decomposed Hierarchies forContinuous Navigation Tasks”（2019年9月25日）中描述的HiDe算法，将价值传播网络（VProp）、VIN的改进与强化学习分层地组合，用于解决连续状态和动作空间机器人导航任务。高层Vprop规划器为低层强化学习生成子目标。VProp规划器接收环境的2D鸟瞰视图图像（粗略的离散映射表示）作为输入，并计算价值映射作为输出。智能体（agent）的当前2D定位落入离散单元之一中。通过在价值映射中选取具有最高价值的相邻单元来选择对于低层（RL）策略的下一个目标单元。通过从目标网格单元定位减去当前2D定位，生成目标向量。该目标向量在作为输入被提供给低层连续控制RL策略之前由“接口层策略”细化，该低层连续控制RL策略附加地接收内部智能体状态作为输入，并计算应用于智能体的致动器的连续动作。经由强化学习对整个分层三级规划/策略进行端到端训练。

然而，端到端强化学习——包括学习价值迭代过程本身——需要大量的训练努力，并且特别是大量的训练数据。

鉴于以上所述，用于控制机器人的更加数据高效的方法是合期望的。

发明内容

具有权利要求1和4的特征的方法和设备允许通过利用较少的观察数据进行训练来控制机器人，因为对于高层规划器仅需要学习转移概率模型（例如，使用有监督学习），这与经由强化学习利用低层连续控制策略端到端地学习价值迭代过程本身（如在以上提到的HiDe方法中）相反，强化学习是更困难的学习任务（因为转移和奖励函数也必须隐式学习）。

独立权利要求的方法在计算上也比学习价值迭代模型（诸如HiDe）的方法更高效，因为不必经由连续控制策略通过规划器反向传播梯度来更新（循环）规划器。

在下文中，给出了示例性实施例。

示例1是一种用于控制机器人的方法，包括：接收要从机器人的初始配置（状态）达到的目标配置（状态）的指示；通过价值迭代来确定粗略尺度价值映射，其中使用转移概率模型来确定转移概率，所述转移概率模型将粗略尺度状态和粗略尺度动作映射到粗略尺度状态的转移概率；以及对于机器人的粗略尺度状态序列中的每个粗略尺度状态，从根据机器人的初始配置（状态）确定的初始粗略尺度状态开始，并且直到机器人达到目标配置（状态）或者已经达到最大数量的精细尺度状态为止，从粗略尺度价值映射确定精细尺度子目标；由机器人的致动器执行用以达到所确定的精细尺度子目标的精细尺度控制动作，以及获得传感器数据，以确定作为对于机器人的所得到精细尺度状态序列中的每个精细尺度状态执行精细尺度控制动作的结果而达到的精细尺度状态，从机器人的当前精细尺度状态开始，并且直到机器人达到所确定的精细尺度子目标，机器人转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度为止；以及从精细尺度状态序列的最后一个精细尺度状态确定粗略尺度状态序列的下一个粗略尺度状态。

示例2是示例1的方法，其中转移概率模型是可通过有监督学习训练的模型。

示例3是示例1或2的方法，其中转移概率模型是神经网络。

使用可通过有监督学习训练的模型、诸如用于确定转移概率的神经网络，允许在高层（即，粗略尺度）上的价值迭代规划的使用，并且因此允许机器人控制的数据高效训练。

示例4是被配置为执行示例1至示例3中任一个的方法的机器人控制器。

示例5是用于训练根据示例4的机器人控制器的方法。

示例6是用于训练示例5的机器人控制器的方法，包括使用有监督学习来训练转移概率模型。

如上面所提到的，使用有监督学习来学习针对价值迭代的转移概率模型比进行学习以经由强化学习利用低层控制策略端到端地近似执行价值迭代算法（隐式地包括学习转移动力学）更加数据高效。

示例7是用于训练示例6的机器人控制器的方法，包括通过使转移概率模型的概率最大化来训练转移概率模型，以预测由为达到子目标而执行的精细尺度动作所达到的粗略尺度状态。

以该方式训练转移概率模型允许训练高层规划器，同时针对低层策略执行强化学习，即，通过执行训练展开（rollout）来收集数据以更新策略，从而学习低层控制策略。

示例8是用于训练示例5至7中任一个的机器人控制器的方法，包括经由强化学习来训练精细尺度控制策略，所述强化学习确定为达到子目标的精细尺度控制动作。

因此，可以使用选择（诸如Q学习、深度Q学习（DQN）、信赖域策略优化（TRPO）、近端策略优化（PPO）、深度确定性策略梯度（DDPG）、双延迟DDPG（TD3）、（异步）优势演员评价者（A2C/A3C））的强化学习方法来训练低层控制。

示例9是包括指令的计算机程序，所述指令当由计算机执行时，使得计算机执行根据示例1至3或5至8中任一个的方法。

示例10是包括指令的计算机可读介质，所述指令当被计算机执行时，使得计算机执行根据示例1至3或5至8中任一个的方法。

附图说明

在附图中，相似的附图标记贯穿于不同视图通常指代相同的部分。附图不一定按比例，重点通常放在说明本发明的原理上。在以下描述中，参考以下附图描述了各个方面，其中：

图1示出了根据实施例的控制场景；

图2示出了用于预测高层状态的神经网络；

图3示出了图示根据实施例的用于控制机器人的方法的流程图。

下面的详细描述参考了随附附图，所述随附附图通过图示的方式示出了本发明可以在其中实践的本公开的具体细节和方面。在不脱离本发明的范围的情况下，可以利用其他方面，并且可以进行结构、逻辑和电气改变。本公开的各个方面不一定相互排斥，因为本公开的一些方面可以与本公开的一个或多个其他方面相组合以形成新的方面。

具体实施方式

在下文中，将更详细地描述各种示例。

图1示出了控制场景。

机器人100位于环境101中。机器人100具有起始定位102，并且应该达到目标定位103。环境101包含机器人100应该避开的障碍物104。例如，它们不可以被机器人100通过（例如，它们是墙、树或岩石）或者应该被避开，因为机器人将损坏或伤害它们（例如，行人）。

机器人100具有控制器105（其也可以远离机器人100，即，机器人100可以通过远程控制来控制）。在图1的示例性场景中，目标是控制器105控制机器人100针对环境101从起始定位102导航到目标定位103。例如，机器人100是自主车辆，但是它也可以是具有腿或履带或其他种类推进系统的机器人（诸如深海或火星巡视器）。

更进一步地，实施例不限于机器人应当在定位102、103之间移动（作为整体）的场景，而是也可以用于控制其末端执行器应当在定位102、103之间移动（不撞击障碍物104）的机器人臂等。

理想地，控制器105已经学习了控制策略，该控制策略允许它对于控制器105之前没有遇到过的特定场景中的任意场景（即，环境、起始和目标位置）成功控制机器人101（从起始定位102到目标定位103而不撞击障碍物104）。

因此，各种实施例涉及通过与环境101交互来学习用于特定（分配）（一个或多个）任务的控制策略。在训练中，（在特定环境101中的）场景可以被模拟，但是它在部署中将典型地是现实的。

强化学习（RL）是用于学习控制策略的技术。RL算法迭代地更新例如由神经网络表示的参数策略

的参数

，该参数策略将状态s（例如，（预处理的）传感器信号）映射到动作a（控制信号）。在训练期间，策略在展开中与（可能模拟的）环境101偶然地交互。在环境101中的（模拟训练）展开期间，根据当前控制策略，控制器105在每个离散时间步中根据当前状态s执动作作a，这导致下一个离散时间步中的新的状态s'。更进一步地，接收到奖励r，其用于更新策略。一旦达到目标状态，累积（潜在折算）的奖励超过阈值，或者达到最大时间步数量、即时间范围T，（训练）展开就结束。在训练期间，奖励相关的目标函数（例如，在展开期间接收到的奖励的折算总和）通过更新策略的参数而最大化。一旦策略满足关于目标函数的特定质量准则，已经执行了最大数量的策略更新，或者已经在（模拟）环境中采取了最大数量的步，训练就结束。

在提供的奖励信号非常稀疏的情况下，RL算法的数据效率低：例如，指示任务完成的二进制奖励仅在交互情节（episode）结束时被提供。因此，利用策略满足某个质量准则的训练可能花费非常久的时间，需要（模拟）环境和/或策略更新中的许多交互步，否则就会失败。

假设关于（模拟的）环境的一些先验知识（例如，在机器人/车辆导航任务的情况下地图的可用性），可以使用引导强化学习的规划算法的组合以便提高数据效率。

根据各种实施例，控制器105对环境101的粗略离散（映射）表示使用高层规划，以对于经由在环境101的连续状态和动作空间中起作用的强化学习来训练的低层控制器设置（相对）子目标（目标向量）。环境的粗略离散表示例如是网格106（如在图1中以虚线示出），其中网格106的每个瓦片是环境的粗略表示中的一个状态。高层也称为粗略尺度。低层学习在实际上“连续的”（例如，直到计算或数字表示准确度）尺度——即更精细得多的表示——上操作。低层也称为精细尺度。例如，对于自主驾驶场景，网格106的瓦片是10米×10米，而低尺度具有厘米、毫米或甚至在此以下的准确度。

替代于试图经由强化学习来解决端到端学习高层规划器和低层策略的困难学习问题，将规划器和策略参数的学习相应地拆分成两个（相关的）问题：规划器参数（表示在高层（即，粗略尺度）状态之间的转移概率）是经由有监督学习来推断的，这是比强化学习更简单的学习问题，并且策略参数是经由强化学习来学习的。与上述HiDe方法不同，使用精确价值迭代规划算法，而不是学习近似（VIN/VProp）。为此，在给定所选取的邻近目标粗略尺度状态和当前的低层强化学习策略的情况下，训练并使用在粗略的离散高层状态之间转移的转移概率模型。该转移概率模型反映了低层强化学习智能体的当前能力。它是从强化学习情节期间收集的数据学习的。不同类型的转移概率模型原则上是可能的。具体地，根据各种实施例，通过有监督学习来训练参数模型（神经网络）（其参数是规划器的参数），该有监督学习与本地智能体观察特征一起工作，并且从而跨不同的环境布局推广。

在下文中，可以更详细地描述实施例。

任务

考虑共享相同状态空间

和动作空间

的马尔可夫决策过程（MDP）

的分布。可以对特定的MDP，

进行采样。起始状态

和目标状态

是从MDP特定状态空间

采样的。（目标相关）奖励函数具有如下形式：

，其中

是某种距离度量，使得仅在目标（即，目的）已经达到（其中

是一个小的数字，例如，标注尺寸以避免距离必须精确变为零）的情况下存在为1的奖励。

是MDP特定的转移动力学，它对作为动作a的结果给出的从状态s到下一个状态s'的转移进行建模。

是折算因子，并且T是时间范围（从起始状态102达到目标状态103的最大步数）。

目标

目标是使对于具有统一采样的起始和目标状态的随机采样的MDP m的预期（对于任务完成）中的奖励最大化：

。

分层状态和动作空间

连续的低层状态空间

被拆分成：描述智能体（例如，机器人101）在其环境（例如，智能体定位）中的外部部分

、以及描述智能体内部状态（例如，机器人101的关节角度）的内部部分

，其中

标示笛卡尔乘积。满射映射

将连续的低层状态空间

变换为有限的高层状态空间

。另一个映射

将高层状态变换回到参考外部低层状态

。高层动作空间由有限数量的时间上扩展的选项

组成（可以看到其对应于子目标）。在高层状态z中采取选项o的理想/预期结果（下一个高层状态）被标示为

。

低层强化学习

智能体基于其外部状态感知局部特征观察

。例如，机器人101具有观察机器人附近——例如在其附近存在障碍物104——的传感器。特别地，对于每个粗略尺度（即，高层）状态z（机器人在粗略网格上的定位），可以存在特征观察

，其可以例如包括机器人101周围的粗略网格106的一部分中的每个瓦片的信息（例如，在机器人位于其中心的粗略网格106的3×3区段中）。这可以例如包括关于在相应的粗略网格瓦片中障碍物的存在、瓦片的类型（例如，崎岖的地形，平坦的地形）的信息。特征观察还可以包括诸如机器人101的速度和定向的粗略尺度状态的其他信息。

选项相关的低层策略标示

，其中

是从当前外部状态到子目标的选项相关的目标向量：

。

初始集合标示

；在每个地方可以选择任何选项。

终止函数标示

。

用于低层强化学习策略的选项相关（子目标）奖励函数标示

，其中当选择选项o时，

是智能体状态。

低层强化学习策略

是使用来自重复的选项激活和终止的范围T的训练情节内出现的子情节来训练的。因此，选项o的执行具有可变的最大时间范围

，它取决于选项被激活的时间步长

。

高层（价值迭代）规划

价值迭代迭代地细化状态价值函数V或状态-动作价值函数Q的估计。令V_k为第k次迭代的状态价值函数，并且令Q_k为第k次迭代的状态-动作价值函数Q。这些可以被递归地定义。价值迭代以任意函数（其可以看做是初始猜测）V₀开始。价值迭代使用以下等式来取得针对k+1的函数

表示在给定动作a的情况下，从当前状态s达到下一个状态s'的转移动力学。

当考虑与低层策略

的展开的状态s相对应的高层状态

时，可以观察到高层状态遵循取决于低层策略

的转移动力学

。从数据学习到具有参数

的参数模型

，其足够好地对这些转移动力学进行建模。为了跨分布

内的MDP进行推广，所述模型是关于对应于高层状态的特征观察来学习的：

。

高层规划器运行价值迭代，以获得价值映射

。隐式地定义用于低层强化学习的子目标的选项由策略在选项

之上贪婪地进行选择。

重温目标

因此，目标中的奖励最大化是相对于低层强化学习策略

的参数和高层（价值迭代）规划器

（的所学习的高层转移动力学模型）的参数：

。

组件

根据各种实施例，控制器105应用分层规划引导的RL控制策略，该分层规划引导的RL控制策略包括经由强化学习训练的高层（粗略尺度）价值迭代规划器和低层（精细尺度）策略。

高层价值迭代规划器在粗略的状态空间抽象（高层状态空间）中执行价值迭代规划。低层强化学习的子目标通过基于生成的（高层）价值映射选择高层动作（选项）来生成。高层规划维护粗略尺度状态空间的转移概率模型。该模型可以具有如下特定架构。

图2示出了用于预测高层状态的神经网络200。

神经网络200实现分类器，该分类器通过选择作为输入201提供的（固定量的）相邻高层状态、当前高层状态（就当前高层状态的特征观察而言）和所选选项（从其中导出低层强化学习的子目标）中的一个来预测下一高层状态。神经网络200包括多个隐藏层202，其后是softmax层203。分类器的softmax概率204被用作到所有可能的相邻高层状态的转移概率204，并被用于确定神经网络的输出205。

低层的RL模块包括与环境交互的控制策略，并且因实现高层规划设置的子目标而被奖励。它可以通过选择——例如Q学习、深度Q学习（DQN）、信赖域策略优化（TRPO）、近端策略优化（PPO）、深度确定性策略梯度（DDPG）、双延迟DDPG（TD3）、（异步）优势演员评价者（A2C/A3C）等——的强化学习算法来训练。

训练

在若干次训练迭代内训练分层策略，直到达到训练迭代的最大数量或者它满足关于目标函数的预定义质量准则。在每次迭代中：

I.通过在多个情节内与（一个或多个）（模拟）环境进行交互来收集数据。在每个情节中：

a.提供/采样特定（模拟）环境以及智能体的起始状态和期望目标状态；

b.给定环境的粗略表示、期望的智能体目标状态和当前转移概率模型，运行价值迭代规划器，该规划器为高层状态生成价值映射；

c.从起始状态开始，并从高层规划器提供初始子目标高层状态，该初始子目标高层状态是基于初始智能体状态和作为相邻高层状态之一的价值映射来确定的，智能体与（模拟）环境交互，直到达到目标状态或达到最大交互步数（时间范围）。在每个交互步中：

i.智能体接收一些观察（潜在的预处理感觉信息）；

ii.基于观察、智能体的内部状态和当前子目标，低层RL策略计算控制信号（动作）；

iii.控制信号（动作）被施加到智能体的致动器；

iv.因此，智能体/环境处于新的状态，并且对于该转移的奖励是由（子目标相关的）低层奖励函数提供的；

v.低层转移<状态、动作、新的状态、奖励>被存储在低层转移缓冲区中。如果没有在vi中完成，则高层转移<高层状态（特征观察）、选项（高层动作）、新的高层状态（特征观察）>被存储在高层转移缓冲区中；

vi.如果达到子目标高层状态或者智能体转移到错误的高层状态，则高层规划器基于当前高层状态和作为相邻高层状态之一的价值映射来提供新的子目标高层状态。如果没有在v中完成，则高层转移<高层状态（特征观察）、选项（高层动作）、新的高层状态（特征观察）>被存储在高层转移缓冲区中；

如果达到最大交互步数（时间范围），并且高层转移尚未存储在v中，则高层转移<高层状态（特征观察）、选项（高层动作）、新的高层状态（特征观察）>被存储在高层转移缓冲区中；

II.使用选择的强化学习算法，使用低层转移缓冲区中的数据更新低层强化学习策略；

III.使用高层转移缓冲区中的数据更新转移概率模型参数。在图2的特定神经网络架构的情况下，网络参数由优化器迭代更新，该优化器在给定高层状态（特征观察）和选项（高层动作）作为网络输入的情况下，最大化实际的新的高层状态的预测概率。

部署

一旦分层策略被训练，控制器105就在部署期间执行以下各项：

I.提供/采样特定（模拟）环境以及智能体的起始状态和期望目标状态；

II.给定环境的粗略表示、期望的智能体目标状态和当前转移概率模型，运行价值迭代规划器，该价值迭代规划器为高层状态生成价值映射；

III.从起始状态开始，并从高层规划器提供初始子目标高层状态，该初始子目标高层状态是基于初始智能体状态和作为相邻高层状态之一的价值映射来确定的，智能体与（模拟）环境交互，直到达到目标状态或达到最大交互步数（时间范围）。在每个交互步中：

a.智能体接收一些观察（潜在的预处理感觉信息）；

b.基于观察、智能体的内部状态和当前子目标，低层RL策略计算控制信号（动作）；

c.控制信号（动作）被施加到智能体的致动器；

d.这样重复进行，直到智能体/环境处于新的高层状态；

e.如果达到了子目标高层状态或者智能体已经转移到错误的高层状态，则高层规划器基于当前高层状态和作为相邻高层状态之一的价值映射来提供新的子目标高层状态。

总之，根据各种实施例，如图3中图示的，提供了一种用于控制机器人的方法。

图3示出了图示用于控制机器人的方法的流程图300。

在301中，接收要从机器人的初始配置达到的目标配置的指示。

在302中，通过价值迭代来确定粗略尺度价值映射，其中使用将粗略尺度状态和粗略尺度动作映射到粗略尺度状态的转移概率的转移概率模型来确定转移概率。

在303中，对于机器人的粗略尺度状态序列中的每个粗略尺度状态，从根据机器人的初始配置确定的初始粗略尺度状态开始，并且直到机器人达到目标配置或者已经达到最大数量的精细尺度状态为止，在304中从粗略尺度价值映射确定精细尺度子目标。精细尺度子目标可以对应于粗略尺度动作，例如可以是针对要达到的粗略尺度动作的粗略尺度状态的参考精细尺度状态（例如，粗略尺度状态在精细尺度坐标中的中心）。

在305中，通过机器人的致动器，执行用以达到所确定的精细尺度子目标的精细尺度控制动作，以及获得传感器数据以确定作为对于机器人的所得到的精细尺度状态序列中的每个精细尺度状态执行精细尺度控制动作的结果而达到的精细尺度状态，从机器人的当前精细尺度状态（例如，当前粗略尺度状态的初始精细尺度状态）开始，并且直到机器人达到所确定的精细尺度子目标，机器人转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度。

在306中，从确定精细尺度状态序列的最后一个精细尺度状态来确定粗略尺度状态序列的下一个粗略尺度状态。

根据各种实施例，换句话说，机器人控制被拆分成（至少）两个层级，其中较低层执行由（精细尺度）控制策略（经由强化学习——诸如Q学习、深度Q学习（DQN）、信赖域策略优化（TRPO）、近端策略优化（PPO）、深度确定性策略梯度（DDPG）、双延迟DDPG（TD3）、（异步）优势演员评价者（A2C/A3C）——来训练）给出的精细尺度控制，并且较高层级——也称为规划器——执行价值迭代。价值迭代可以被视为贝尔曼方程的迭代应用，以生成价值映射。价值迭代的转移概率由转移概率模型给出，根据各种实施例，该转移概率模型可通过例如由神经网络表示的有监督学习来训练。在上面的示例中由

标示的神经网络的参数（例如，权重）可以被视为规划器的参数。

例如，使用所学习的（分层）控制策略，基于潜在的预处理感觉输入来确定控制信号。高层规划器基于所提供的粗略环境表示（例如，映射）生成（子目标）目标。给定这些目标和潜在的预处理感觉输入，根据低层控制策略操作的低层控制模块计算控制信号（用于执行低层控制动作）。

在车辆（例如，汽车）或移动机器人的情况下，用于高层规划器的粗略环境表示例如是分片式的映射（指示障碍物），使得产生有限数量的单元，其是潜在的子目标。目标向量（即，子目标）例如是在所选取单元的中心定位和当前车辆定位之间的差异。根据低层控制策略操作的低层控制模块接收该目标向量连同当前潜在预处理感觉读数。

在机器人任务的情况下，高层规划者可以接收任务的某种符号表示（例如，需要履行的已知子任务：安装螺丝，移动对象……）作为粗略的环境表示。然后，它生成规划，该规划对作为针对低层策略的目标（即，子目标）的这些子任务（或者可能是某些对象的定位偏移向量）进行排序。

图3的方法以及用于训练机器人控制器执行该方法的方法可以由包括一个或多个数据处理单元的一个或多个计算机来执行。术语“数据处理单元”可以理解为允许处理数据或信号的任何类型的实体。例如，可以根据由数据处理单元执行的至少一个（即，一个或多于一个）特定功能来处理数据或信号。数据处理单元可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、微控制器、中央处理单元（CPU）、图形处理单元（GPU）、数字信号处理器（DSP）、可编程门阵列（FPGA）集成电路或其任何组合，或者由它形成。实现相应功能的任何其他方式（将在下面更详细地描述）也可以被理解为数据处理单元或逻辑电路。应当理解，可以由数据处理单元通过由数据处理单元执行的一个或多个特定功能来执行（例如，实现）执本文详细描述的一个或多个方法步骤。

术语“机器人”可以理解为指代任何物理系统（具有其移动被控制的机械部件），诸如计算机控制的机器、车辆、家用电器、电动工具、制造机器、个人助理或访问控制系统。

传感器数据（即，观察数据）可以是来自几乎任何类型的传感器的数据，所述传感器例如是视频、雷达、LiDAR（光检测和测距）、超声波、运动、热成像相机等。

尽管本文已经示出和描述了特定的实施例，但是本领域的普通技术人员应当领会，在不脱离本发明的范围的情况下，可以利用多种替代和/或等同的实现方式来代替示出和描述的特定实施例。本申请旨在覆盖本文讨论的特定实施例的任何适应或变化。因此，旨在使本发明仅由权利要求及其等同物来限定。

Claims

1.一种用于控制机器人（100）的方法，包括：

接收要从机器人（100）的初始配置（102）达到的目标配置（103）的指示；

通过价值迭代来确定粗略尺度价值映射，其中使用转移概率模型（200）来确定转移概率，所述转移概率模型（200）将粗略尺度状态和粗略尺度动作映射到粗略尺度状态的转移概率；和

对于机器人（100）的粗略尺度状态序列中的每个粗略尺度状态，从根据机器人（100）的初始配置（102）确定的初始粗略尺度状态开始，并且直到机器人（100）达到目标配置（103）或者已经达到最大数量的精细尺度状态为止，从粗略尺度价值映射确定精细尺度子目标；

由机器人（100）的致动器执行用以达到所确定的精细尺度子目标的精细尺度控制动作，以及获得传感器数据以确定作为对于机器人（100）的所得到的精细尺度状态序列中的每个精细尺度状态执行精细尺度控制动作的结果而达到的精细尺度状态，从机器人（100）的当前精细尺度状态开始，并且直到机器人（100）达到所确定的精细尺度子目标，机器人（100）转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度为止；

从精细尺度状态序列的最后一个精细尺度状态确定粗略尺度状态序列的下一个粗略尺度状态。

2.根据权利要求1所述的方法，其中转移概率模型（200）是可通过有监督学习训练的模型。

3.根据权利要求1或2所述的方法，其中所述转移概率模型（200）是神经网络。

4.一种机器人控制器（105），被配置为执行权利要求1至3中任一项的方法。

5.根据权利要求4所述的一种用于训练机器人控制器（105）的方法，包括使用有监督学习来训练转移概率模型（200），并且包括经由强化学习来训练精细尺度控制策略，所述强化学习确定为达到子目标的精细尺度控制动作。

6.根据权利要求5所述的用于训练机器人控制器（105）的方法，包括通过最大化转移概率模型（200）的概率来训练转移概率模型（200），以预测通过为达到子目标而执行的精细尺度动作所达到的粗略尺度状态。

7.一种包括指令的计算机程序，所述指令当由计算机执行时，使得计算机执行根据权利要求1至3或5至6中任一项的方法。

8.一种包括指令的计算机可读介质，所述指令当由计算机执行时，使得计算机执行根据权利要求1至3或5至6中任一项的方法。