CN116079747A

CN116079747A - 机器人跨具身控制方法、系统、计算机设备和存储介质

Info

Publication number: CN116079747A
Application number: CN202310316416.3A
Authority: CN
Inventors: 张伟楠; 余琛; 赖行; 田政
Original assignee: Shanghai Digital Brain Technology Research Institute Co ltd
Current assignee: Shanghai Digital Brain Technology Research Institute Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-05-09

Abstract

本发明提供了一种机器人跨具身控制方法，包括：获取所述机器人的历史轨迹序列，所述历史轨迹序列包括所述机器人的具身信息；其中，所述机器人的控制过程被建模为具身可知的马尔可夫决策过程；对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；对所述第二叠加数据进行解码，得到预测数据；基于所述预测数据控制所述机器人执行动作。通过生成式预训练自注意力模型以及历史轨迹序列，并基于具身可知的马尔可夫决策过程，实现对机器人的控制，并能够实现跨具身控制。

Description

机器人跨具身控制方法、系统、计算机设备和存储介质

技术领域

本申请涉及机器人技术领域，特别是涉及一种机器人跨具身控制方法、系统、计算机设备和存储介质。

背景技术

深度强化学习（Reinforcement Learning）为机器人控制器提供了一个通用框架。不同于传统的机器人控制技术需要对机器人运动学进行精确的运动学和动力学运动分析，深度强化学习可以让机器人在尽量少的人工设计和干预的情形下自主学习复杂的控制策略。但目前为止，大部分强化学习算法都只针对一个固定的机器人具身进行训练。强化学习训练完成的控制器，便只能应用于一个机器人，一旦机器人的硬件特性发生改变，其控制器往往需要从头开始训练。近年来，一些基于强化学习方法尝试为不同具身（例如不同形状）的机器人设计通用控制器，例如使用模块化网络架构、基于机器人条件的策略、基于图神经网络的方法。但部分方法目前仅在仿真环境中进行验证，未在真实机器人上验证可行。一个通用的机器人控制器在现实中有着非常重要的应用场景（例如：在机器人行业、军工产业中实现机器人设计的快速迭代等等），但由于机器人形态与控制方法之间复杂的关系，设计一个跨具身的机器人控制器目前还是一个有挑战性的问题。

发明内容

本发明实施例提供了一种机器人跨具身控制方法、系统、计算机设备和存储介质，以至少解决相关技术中未在真实机器人上验证可行的跨具身的机器人控制问题。

根据本发明的一个实施例，提供了一种机器人跨具身控制方法法，包括：一种机器人控制方法，其特征在于，所述方法包括：获取所述机器人的历史轨迹序列，所述历史轨迹序列包括所述机器人的具身信息；其中，所述机器人的控制过程被建模为具身可知的马尔可夫决策过程；对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；对所述第二叠加数据进行解码，得到预测数据；基于所述预测数据控制所述机器人执行动作。

根据本发明的另一个实施例，提供了机器人跨具身控制系统，包括：获取模块，用于获取所述机器人的历史轨迹序列，所述历史轨迹序列包括所述机器人的具身信息；其中，所述机器人的控制过程被建模为具身可知的马尔可夫决策过程；编码叠加模块，用于对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；预测模块，用于将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；解码模块，用于对所述第二叠加数据进行解码，得到预测数据；控制模块，用于基于所述预测数据控制所述机器人执行动作。

根据本发明的又一个实施例，还提供了一种计算机设备，包括存储器和处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条程序指令或代码，所述至少一条程序指令或代码由所述处理器加载并执行，以使所述计算机设备实现以上所述的机器人控制方法。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现以上所述的机器人控制方法的步骤。

本发明案提供了一种新的机器人控制方法，在机器人通用控制器中创新性地引入了完整的序列模型Transformer（即使用Transformer编码器对所述历史轨迹序列先后进行编码以及使用Transformer解码器对所述第二叠加数据进行解码），使得本发明中的一个模型与算法能够同时支持不同机器人具身的控制场景。

本发明提出将跨具身机器人控制任务抽象为序列决策问题，并且首次通过序列化的智能体决策过程验证了跨具身控制，即所述机器人的控制过程被建模为具身可知的马尔可夫决策过程，将历史轨迹表示为包含具身信息的序列。

本发明同过序列化的智能体决策，充分考虑了机器人轨迹中的历史数据，有效缩短了仿真机器人与真实机器人之间的差距，让仿真中训练出来的控制器能够更方便地部署到真实的应用场景之中。另外，由于每一次决策都考虑了历史的控制轨迹，机器人控制的鲁棒性得到了有效的增强。

本发明通过机器人的部分形态进行机器人具身信息的编码，可以确保仿真环境中训练出来的控制器能够在真实环境中的机器人实现。

此外，本申请使用自注意力模型网络结构性，其除了能减小现实与仿真差距，还能提高真机在运动过程中的鲁棒性。一是因为本发明中的动作预测是基于一段历史数据生成，具有较好的抗干扰性；二是自注意力模型网络参数较多，容量较大，可以在训练过程中拟合丰富的不同类型的数据，从而降低控制器在真实机器人上遇到未知的状态的概率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本申请实施例提供的应用场景示意图；

图2是本发明实施例的方案的用于终端的硬件结构框图；

图3为本申请实施例提供的本申请的方法的流程示意图；

图4为一个实施例中计算机设备的示意性结构框图。

具体实施方式

本申请实施例提供了一种机器人跨具身控制方法、系统、计算机设备和存储介质，可至少实现机器人的跨具身控制。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了方便理解本申请实施例提供的技术方案，本申请先对现有技术进行如下说明：

在强化学习中，机器人控制问题可以被建模为一个马尔可夫决策过程（MarkovDecision Process）。马尔可夫决策过程可以由一个四元组表示：

。

是状态空间的集合：例如在足式机器人的控制中，状态通常包括机器人的姿态与各个电机的编码器信息；

是动作空间的集合，可以是机器人的各个电机关节需要运动的角度。

表示状态s经过动作a转换到状态s’后收到的即时奖励，例如对于机器人跟踪给定速度的奖励。

则表示在t时刻s状态下的动作a导致t+1时刻进入状态s’的概率。在机器人控制中，我们一般认为状态和行动空间是连续的。策略函数

是从状态空间

到动作空间

的映射。

马尔可夫决策过程的目标是为决策者找到一个好的“策略”：选择一个策略

，使奖励的累积函数最大化，通常是在T步内的预期总和

:

由于训练强化学习算法通常需要智能体与环境进行数百万次的交互，想在现实世界中直接训练出一个策略十分困难。因此，大部分工作都基于模拟到现实（Sim-to-real）的方法：现在仿真环境中训练出一个控制器，再将训练好的控制器部署于真实环境中。域随机化（domain randomization）是最常用的模拟到现实的转移技术之一。在训练过程中对模拟器的动力学进行随机化，以开发能够适应仿真和现实世界之间差异的控制器。在这项工作中我们也采取了域随机化的方法，将在仿真中训练的控制器转移到现实世界中的机器人。

域随机化可以使训练出来的控制器对拥有不同参数的机器人都适用，但是还没有人验证域随机化可以训练出一个适用于不同机器人具身的控制策略。

硬件条件策略[Chen, T., Murali, A., & Gupta, A. (2018). Hardwareconditioned policies for multi-robot transfer learning. Advances in NeuralInformation Processing Systems, 31.]曾经被用于控制不同具身的机器人。机器人在执行策略的时候会基于一个描述机器人硬件特性的向量，将机器人硬件信息考虑在内，以便在具有不同运动学和动力学的机器人上使用一个统一的网络。其主要思想是为每个机器人硬件构建一个矢量表示

，它可以指导策略网络根据硬件特性做出决策。因此，训练策略网络应该在环境中学习动作，以状态

和

为条件。在硬件条件策略框架中，有几个包含机器人硬件的因素：机器人运动学（自由度、运动学结构，如相对关节位置和方向，以及连杆长度）、机器人动力学（关节阻尼、摩擦力、电机和连杆质量），以及其他方面，如几何形状、执行器设计等。值得注意的是，对于任何新设计的机器人来说，机器人运动学通常都是可知的，例如通过通用机器人描述格式（Universal Robot Description Format-URDF）。然而，动力学通常是不可知的，即使提供也可能是不准确的或随时间变化的。

硬件条件策略提供两种编码

的方式：显性的与隐性的，其中显性编码与我们的方法更为相近。在显性编码中，该方法直接使用运动学结构作为策略函数的输入。虽然机器人的动力学模型是不可知的，但是有些环境和任务可能并不严重依赖机器人的动力学，在这些情况下，显式编码可能比隐式编码更简单、更实用。该方法主要用于机械臂的控制上。假设机械臂有n个旋转的关节

，我们需要知道关节

与

之间的相对姿态

。相对姿态

由相对位置和相对旋转组成，相对位置可以由一个三维的相对位置平移向量表示，

，相对旋转可以由一个三维的欧拉角表示，

。因此，每个关节的相对位置可以由一个六维的向量表示，

，其中

代表串联。当我们有了每个关节的相对位置

，一个机械臂的硬件便可以表示为

。改方法仍基于传统的强化学习算法，例如深度确定性策略梯度算法（Deep Deterministic PolicyGradient，DDPG），进行训练。不同的是，他们在状态中加入了机器人的硬件表示

，即

。

共享模块化策略（Shared Modular Policies）[Devin, C., Gupta, A.,Darrell, T., Abbeel, P., & Levine, S. (2017, May). Learning modular neuralnetwork policies for multi-task and multi-robot transfer. In 2017 IEEEinternational conference on robotics and automation (ICRA) (pp. 2169-2176).IEEE.）也是一种设计通用控制器的方法，尽管其未在真实机器人上实现过。共享模块化策略将一个全局控制策略表达为一组相同的模块化神经网络。每个模块只负责控制其相应的执行器，并只从其本地传感器接收信息。此外，消息在模块会之间传递，包括在两个相隔较远的模块之间传播信息。该方法在仿真环境中验证了一个单一的全局策略可以成功地为几个具有不同骨骼结构的二维机器人产生运动行为，如独脚跳、四足动物、双足动物，并泛化到训练中未见过的变体。

上述的机器人通用控制策略虽然能在一定程度上在不同的智能体间共用策略，但这些方法均存在未在足式机器人上进行验证、现实与仿真差距过大、难以运用于真实机器人等缺点。

未在足式机器人上进行验证：为足式机器人设计通用控制器相比较其他机器人更具有挑战性，因为足式机器人的欠驱动性让其控制器十分依赖于机器人的动力学模型，而不只是运动学模型。因此，设计一个能用适用于不同足式机器人的控制器需要对机器人的形态与控制间复杂的关系进行建模，目前还没有跨具身的机器人控制器能够成功验证与真实的足式机器人上。

现实与仿真差距过大：虽然许多强化学习方法通过域随机化等方法已经能缩小现实与仿真之间的差距，从而讲仿真器中训练出来的模型部署到真实的机器人上；但是几乎所有的跨具身控制器目前还基于在线的强化学习，并且每一步的动作只考虑这一步的状态，而没有考虑历史状态。当训练好的策略部署到真实环境的时候，真实环境中的扰动很容易会让智能体遇到一个训练过程中没有遇到过的状态，从而让机器人不断偏离状态的分布，导致控制的不稳定。

难以运用于真实机器人：目前应用于足式机器人的跨具身控制器之所以未在真机上验证，不仅是因为现实与仿真差距过大，而且也是因为这些工作均未考虑方法的可部署性。例如，一些方法展示了在仿真中对不同肢体数量的机器人进行控制，但这在真实世界中是很难实现的，因为制造不同形态的机器人会花费相当的时间。

综上所述，我们需要设计一种全新的网络架构、方法框架，才能实现在真实机器人中的跨具身控制。

本申请提供的机器人控制方法，可以全部在服务器一侧执行，也可以全部在客户端一侧执行，还可以由服务器和客户端共同执行。在机器人控制方法由服务器和客户端共同执行时，可以应用于如图1所示的应用环境中。其中，客户端101与服务器102通过网络进行通信。

示例性地，服务端可以执行：对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；对所述第二叠加数据进行解码，得到预测数据；并将预测数据发送至客户端；

客户端可以执行：获取所述机器人的历史轨迹序列并上传服务端；并基于所述预测数据控制所述机器人执行动作。

其中，客户端可以是机器人等智能体，但不限于是各种计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中所提供的方法实施例可以单独在移动终端、计算机终端或者类似的运算装置等客户端中执行。以运行在智能体上为例，图2是本发明实施例的一种智能体的硬件结构框图。如图2所示，智能体可以包括一个或多个（图2中仅示出一个）处理器（处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器，其中，上述智能体还可以包括用于通信功能的传输设备以及输入输出设备。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述智能体的结构造成限定。例如，移智能体还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的数据恢复方法对应的计算机程序，处理器通过运行存储在存储器内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

为了进一步理解本申请的方法，下面将结合方法流程图对方案进行进一步说明:

如图3所示，提供了机器人跨具身控制方法一个流程示意图，包括：

步骤S301：获取所述机器人的历史轨迹序列，所述历史轨迹序列包括所述机器人的具身信息；其中，所述机器人的控制过程被建模为具身可知的马尔可夫决策过程；本发明将跨具身的机器人通用控制器建模为了一种马尔可夫决策过程的变种，叫做具身可知的马尔可夫决策过程，表示为：

。这个马尔可夫决策过程元组包括机器人具身

，状态

，动作

，依赖于具身的转移函数

，还有奖励函数

。我们使用

来表示机器人具身，并且用

来分别表示t时刻的机器人状态、动作、奖励。对于每一个回合，我们会从一个概率分布

中采样出一个机器人具身

。给定一个策略

，智能体就可以通过与环境的交互来生成一条轨迹，包含具身、状态序列、动作序列、奖励序列：

，T是回合的长度。与普通的马尔可夫决策过程相同，该具身可知的马尔可夫决策过程的目标是去最大化不同具身的总预期回报：

在此，我们将贴现因子设为1，因为我们认为智能体决策的每一步都同等重要。

步骤S302：对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；

步骤S303：将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；

步骤S304：对所述第二叠加数据进行解码，得到预测数据；

步骤S305：基于所述预测数据控制所述机器人执行动作。

具体地，使用具身可知自注意力模型进行真实机器人的控制时，模型的输入包括长度为H的历史信息。在每个时间戳进行控制时，我们将最后的H的时间点的数据按照序列的轨迹表示方式进行排序，形成一个长度为H的轨迹

。我们让每个元素（具身，状态，或动作）经过一个多层感知器，每个元素便会从原始数据被映射到一个嵌入层。每个元素经过了多层感知器后，会被再加上位置编码信息，形成一个标记。在这之后，我们会将包含位置编码信息的每三个元素（具身，状态，和动作）叠加在一起，输入到一个生成式预训练自注意力模型之中。生成式预训练自注意力模型会通过自回归，基于输入的H个叠加的（具身，状态，和动作）元素，预测下一个叠加的（具身，状态，和动作）元素。我们将预测结果中的动作通过一个解码器，作为这一时刻我们的模型预测的动作。因为这个预测出来的动作是基于最初的长度为H的轨迹，共包含了最后的H的时间点的数据，这有效地让控制器能不收某一个时间点所遇到的噪声信号的影响。当控制器从仿真环境迁移到真机时，控制器会遇到许多仿真环境里没有遇到过的噪声。自注意力模型的工作原理可以减少预测出来的动作受到某一个时间点上的噪声的影响，从而很好地减小了现实与仿真之间表现的差异。

作为一种可选地实施例，所述获取所述机器人的历史轨迹序列，包括：

获取所述机器人当前时间点T的具身信息和所述机器人的初始状态信息；所述初始状态信息为当前时间点T的前H个时间点的所述机器人的所有状态信息和动作信息；

根据所述机器人当前时间点的具身信息和所述机器人的初始状态信息生成历史轨迹；

将所述历史轨迹按照序列表示方式进行排序，得到一个长度为H的历史轨迹序列

，其中，e表示所述机器人的具身信息，s表示所述机器人在相应时间点的状态信息，a示所述机器人在相应时间点的动作信息。

作为一种可选地实施例，所述对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据，包括：

将所述历史轨迹序列输入多层感知器，将所述历史轨迹序列中每个时间点的具身信息、状态信息和动作信息分别映射到嵌入层，并分别加上位置编码信息；

将每个时间点的包含位置编码信息的的具身信息、状态信息和动作信息叠加在一起，形成第一编码信息。

进一步地，在此对本申请的轨迹表示进行说明：为了将跨具身的机器人控制问题抽象为一个序列模型，我们需要对控制轨迹有一个合理的表示方式。我们希望我们的轨迹表示方式能够让自注意力模型自动学习到机器人具身与动作之间的关系，并且在实际应用中该自注意力模型能够基于机器人具身输出相对应的动作。因此，我们将编码了机器人具身信息的向量（例如机器人的腿长与躯干长度组成的向量）作为自注意力模型的输入的一部分。我们使用以下的轨迹表示方式来进行训练和生成：

值得注意的是，理论上轨迹表示中的具身编码

可以随着时间变化，但由于在真实环境中机器人在一个回合里改变具身较为困难，我们暂时假设机器人的具身在一个回合里不变，也就是

在一个轨迹中并不会随着t进行变化。

作为一种可选地实施例，预先对所述生成式预训练自注意力模型进行训练包括：

采样机器人具身信息，组合得到多种机器人；

对于多种机器人，针对每种机器人分别收集多条运动轨迹，构成每种机器人的专家示范数据；

组合多个专家示范数据，形成专家示范数据集；

根据所述专家示范数据集训练所述生成式预训练自注意力模型。

具体地，训练过程中包括：对于有M个采样的具身的机器人，对于第i个具身，我们会提前准备一个专家示范数据集

，包含离线轨迹

。我们将所有专家示范数据整合起来，每次采样H个时间戳的样本输入到自注意力模型之中。我们将样本数据按上面介绍的轨迹表示方式进行排序，即形成了一个长度为H的轨迹

。我们让每个元素（具身，状态，或动作）经过一个多层感知器，每个元素便会从原始数据被映射到一个嵌入层。每个元素经过了多层感知器后，会被再加上位置编码信息，形成一个标记（token）。在这之后，我们再将包含位置编码信息的每三个元素（具身，状态，和动作）叠加在一起，输入到一个生成式预训练自注意力模型（Generative Pre-trained Transformer，GPT）之中。生成式预训练自注意力模型会通过自回归，基于输入的H个叠加的（具身，状态，和动作）元素，预测下一个叠加的（具身，状态，和动作）元素。我们将预测结果中的动作通过一个解码器，作为这一时刻我们的模型预测的动作。

验证过程：训练完成之后，在验证阶段，我们使用机器人目前的具身表示向量

和机器人的初始状态进行生成初始的轨迹。对于时间t，我们将最后的H个时间点的轨迹数据编码，传入自注意力模型，获得该时间戳上我们需要的动作a。

其中，作为一种可选地实施例，所述根据所述专家示范数据集训练所述生成式预训练自注意力模型，包括：

从所述专家示范数据集中每次采样H个时间戳的样本数据；

对所述样本数据按照序列表示方式进行排序，形成一个长度为H的样本轨迹

；其中，e表示所述机器人的具身信息，s表示状态信息；a表示动作信息；

对所述具身信息、所述状态信息、所述动作信息分别进行编码并加入位置编码；

将每个时间戳上的包含位置编码的具身信息、状态信息和动作信息进行叠加，并将叠加后的数据输入所述生成式预训练自注意力模型，预测下一个时间戳的叠加信息，并解码后得到预测信息；

基于所述预测信息、和与所述专家示范数据集中下一个时间戳的实际信息以及预设损失函数更新所述生成式预训练自注意力模型。

其中，作为一种可选地实施例，所述针对每种机器人分别收集多条运动轨迹，构成每种机器人的专家示范数据包括：

基于具身可知的马尔可夫决策过程获取运动策略；

基于所述运动策略生成所述机器人的轨迹；

对于每种机器人，收集多条轨迹，形成对应每种机器人的专家示范数据；其中，每条轨迹包含多个时间戳，每个时间戳对应一组样本数据。

其中，作为一种可选地实施例，所述基于具身可知的马尔可夫决策过程获取运动策略，包括：

将机器人的交互建模为具身可知的马尔可夫决策过程，表示为：

；其中，所述具身可知的马尔可夫决策过程的元组包括机器人具身信息

，状态信息

，动作信息

，依赖于具身的转移函数

，以及奖励函数

；

使用

来表示机器人具身，并且用

来分别表示t时刻的机器人状态信息、动作信息以及奖励；

对于每一个回合，采样出一个机器人具身

；

给定一个策略

，机器人通过与环境的交互来生成一条轨迹

，包含具身信息

、状态信息、动作信息、奖励信息：

，T是回合的长度；

将去最大化不同具身的总预期回报作为所述具身可知的马尔可夫决策过程的目标；

基于近端策略优化算法和域随机化技术训练所述具身可知的马尔可夫决策过程，以获得运动策略。

下面，我们介绍本发明如何应用于一个形态可变的四足机器人中：

我们以一个四足机器人Mini Cheetah为例。我们将其原本固定的前小腿、后小腿更改为一个可变长度的结构，并且用一个3D打印件来加成原本躯干的长度。我们示例如何使用本发明来训练一个适用于不同形状的机器人的通用控制器，即实现对不同形状机器人（跨具身）的控制。

在一个四足机器人控制问题中，智能体的状态包括机器人惯性传感器的数据与各个电机的编码器数据，具体包括机器人躯干的线性速度、角速度、三维的重力向量、关节的位置与速度、与上一个时间戳执行的动作。奖励函数包括八项，分别是线速度跟踪惩罚、角速度跟踪惩罚、线速度惩罚、角速度惩罚、关节动作惩罚、关节力矩惩罚、动作频率惩罚、碰撞惩罚、足部在空中的时间的奖励。我们将具体的计算方法描述与表1与表2之中。

表1 符号定义

表2 奖赏项定义。其中

.

智能体的动作是发送给电机的期望位置。一个PD控制器会将位置命令转换为给电机的扭矩命令。而代表机器人具身的向量

在我们这个示例中，是一个三维向量，其三个数值分别表示前小腿长度、后小腿长度和躯干长度。我们采样了部分机器人具身

：前小腿的长度采样为0.2、0.25和0.3米，后小腿的长度采样同样为0.2、0.25和0.3米，躯干长度为0.2、0.3和0.4米。我们使用近端策略优化算法（Proximal Policy Optimization，PPO）来分别训练这27（

）种机器人，训练过程中使用域随机化的技术。对于每种机器人，我们收集1000条轨迹，每一条轨迹包含1000个时间戳；这些机器人轨迹组合起来，构成了我们训练具身可知的自注意力模型的专家示范数据。训练完成的具身可知自注意力模型即可实现对不同具身的机器人的控制，而且不仅限于训练数据中的机器人具身。

具身可知自注意力模型可以实现机器人的通用控制器的设计，这对于机器人制造行业有非常重要的。例如，如果使用传统控制算法，每次机器人的硬件设计发生改变之后，公司需要花费许多的人力来重新设计机器人的控制器，极大地延长了机器人的开发时间成本；而是用一个通用的机器人控制器可以帮助机器人设计制造企业快速迭代，同时降低机器人的设计制造门槛与成本。

除了跨具身的四足机器人的控制之外，具身可知自注意力模型还可用于其它机器人的通用控制器的设计。

本发明提出将跨具身机器人控制任务抽象为序列决策问题，并且首次通过序列化的智能体决策过程在真实的四足机器人上成功验证了跨具身控制。本发明将一个具身可知自注意力模型与具体的四足机器人场景相结合，通过设置针对四足机器人的具体的状态、动作、具身表示的设定，在四足机器人上成功验证了一个通用控制器的设计。

预测出来的动作是基于最初的长度为H的历史轨迹，共包含了最后的H的时间点的数据，这有效地让控制器能不收某一个时间点所遇到的噪声信号的影响。当控制器从仿真环境迁移到真机时，控制器会遇到许多仿真环境里没有遇到过的噪声。自注意力模型的工作原理可以减少预测出来的动作受到某一个时间点上的噪声的影响，从而很好地减小了现实与仿真之间表现的差异。

上述我们详细介绍了我们的具身可知自注意力模型与一个具体的四足机器人控制问题相结合的方式。在这一个应用之中，我们的硬件表示向量e包含了选三个维度的机器人具身信息：前小腿长度、后小腿长度与躯干长度。在自注意力模型的训练过程中，模型会自动寻找机器人具身参数与机器人应该执行的最佳动作之间的关系。硬件表示向量e的表示方式十分直观，在使用时只需要将目前的机器人形状参数告诉控制器便可实现跨具身控制（对于初始状态，没有历史数据，即将历史轨迹序列中的动作信息和状态信息都设置为0），不需要任何额外的对于机器人动力学或者运动学的描述，使用十分方便。

另外，由于自注意力模型网络结构的特性，其除了能减小现实与仿真差距，还能提高真机在运动过程中的鲁棒性。一是因为本发明中的动作预测是基于一段历史数据生成，具有较好的抗干扰性；而是自注意力模型网络参数较多，容量较大，可以在训练过程中拟合丰富的不同类型的数据，从而降低控制器在真实机器人上遇到未知的状态的概率。

此外，代表机器人具身信息的向量表示e可以根据实际情况进行设计。例如真实部署环境的机器人若只有前腿大腿与后大腿可以改变长度，那么具身的表示e可以是一个二维的向量，其数值分别表示前大腿的长度与后大腿的长度。对专家示范数据的收集可以使用任意现成的强化学习算法，包括深度确定性策略梯度算法等。本发明中训练时的损失函数可以根据实际情况用其他算法中的损失函数替代，如MADDPG、MAAC等。

下面提供了不同方法在仿真环境中的跨具身四足机器人控制上的表现：

平均分数为各个方法在80个不同具身的机器人上得到的总奖赏值的平均。我们同时将各种方法训练出来的机器人在噪声环境中进行评测（第二列），通过对环境动力学参数的随机化来评价不同方法的鲁棒性。我们将本发明与其她三种方法进行对比，包括具身可知行为克隆、自注意力模型与单一的近端策略优化算法。我们同时测试了本发明的变种，包括将历史数据窗口长度H设置为1、使用机器人种类较少的专家示范数据集（LD）进行训练，与使用机器人种类较少但规模较大的专家示范数据集（LD-5k与LD-10k）进行训练。上表可见，本申请的机器人控制方法相对于具身可知行为克隆、自注意力模型与单一的近端策略优化算法具有明显优势。本发明的变种也表现出比较好的效果。

本发明的实施例还提供了一种机器人控制系统，所述系统包括：

获取模块，用于获取所述机器人的历史轨迹序列，所述历史轨迹序列包括所述机器人的具身信息；其中，所述机器人的控制过程被建模为具身可知的马尔可夫决策过程；

编码叠加模块，用于对所述历史轨迹序列先后进行编码和叠加，得到第一叠加数据；

预测模块，用于将所述第一叠加数据输入生成式预训练自注意力模型，所述生成式预训练自注意力模型通过自回归预测得到第二叠加数据；

解码模块，用于对所述第二叠加数据进行解码，得到预测数据；

控制模块，用于基于所述预测数据控制所述机器人执行动作。

关于机器人控制系统的具体限定可参见上文中对于机器人控制方法的限定，在此不再赘述。上述机器人控制系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明的实施例还提供了一种计算机设备，包括存储器和处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条程序指令或代码，所述至少一条程序指令或代码由所述处理器加载并执行，以使所述计算机设备实现以上所述的机器人控制方法。

本申请实施例提供的计算机设备，可以是服务器，也可以是客户端：如图4所示，为本申请实施例提供的计算机设备的结构示意图。

处理器1701、存储器1702、总线1705、接口1704，处理器1701与存储器1702、接口1704相连，总线1705分别连接处理器1701、存储器1702以及接口1704，接口1704用于接收或者发送数据，处理器1701是单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。存储器1702可以为随机存取存储器(randomaccess memory，RAM) ，也可以为非易失性存储器(non-volatile memory) ，例如至少一个硬盘存储器。存储器1702用于存储计算机执行指令。具体的，计算机执行指令中可以包括程序1703。

本实施例中，该处理器1701调用程序1703时，可以使图4中的管理服务器执行机器人跨具身控制的操作，具体此处不再赘述。

应理解，本申请上述实施例提供的处理器，可以是中央处理单元(centralprocessing unit，CPU) ，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路 (application-specific integrated circuit ，ASIC) 、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的计算机设备中的处理器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还需要说明的是，当计算机设备包括处理器(或处理单元)与存储器时，本申请中的处理器可以是与存储器集成在一起的，也可以是处理器与存储器通过接口连接，可以根据实际应用场景调整，并不作限定。

本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机设备（客户端或服务器）实现上述方法中所涉及的控制器的功能，例如处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，芯片系统还包括存储器，存储器，用于保存必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

在另一种可能的设计中，当该芯片系统为用户设备或接入网等内的芯片时，芯片包括：处理单元和通信单元，处理单元例如可以是处理器，通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该客户端或管理服务器等内的芯片执行机器人控制方法的步骤。可选地，存储单元为芯片内的存储单元，如寄存器、缓存等，存储单元还可以是客户端或管理服务器等内的位于芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例中与客户端或管理服务器的控制器执行的方法流程。对应的，该计算机可以为上述计算机设备（客户端或服务器）。

应理解，本申请以上实施例中的提及的控制器或处理器，可以是中央处理单元(central processing unit，CPU) ，还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等中的一种或多种的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的计算机设备（客户端或服务器）或芯片系统等中的处理器或控制器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还应理解，本申请实施例中以上实施例中的计算机设备（客户端或服务器）等中提及的存储器或可读存储介质等，可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM ，PROM) 、可擦除可编程只读存储器(erasable PROM， EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM) ，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM， SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM) 和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

本领域普通技术人员可以理解实现上述实施例的全部或部分由计算机设备（客户端或服务器）或者处理器执行的步骤可以通过硬件或程序来指令相关的硬件完成。程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，随机接入存储器等。具体地，例如：上述处理单元或处理器可以是中央处理器，通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。上述的这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

当使用软件实现时，上述实施例描述的方法步骤可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别

类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。

取决于语境，如在此所使用的词语“如果”或“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。