CN114186662A

CN114186662A - 训练机器动物的运动控制器的方法

Info

Publication number: CN114186662A
Application number: CN202010961867.9A
Authority: CN
Inventors: 罗应升; 吴信福; 陈佩君; 陈维超
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2022-03-15
Also published as: US11474484B2; US20220083012A1

Abstract

本发明公开了一种训练机器动物的运动控制器的方法包括：取得参考动物的运动数据、环境参数及干扰参数，以策略网络依据运动数据产生多个基元分布及第一基元权重，从运动数据中选择参考动物的当前状态、设置参考动物的适应状态，以策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重，其中适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态，以及以判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络。

Description

训练机器动物的运动控制器的方法

技术领域

本发明涉及控制领域，特别是一种让控制虚拟动物运动的控制器适用于控制实体机器动物的方法。

背景技术

控制机器四足动物自然地运动仍相当具有挑战性。传统方法需要在机器人领域知识及复杂的参数调整方面有丰富的经验。由于实验期间不断掉落会永久损坏硬体设备，并使整个控制系统不稳定。因此，在物理模拟器中训练似乎是最合理的方法，因为这种方式快速、安全且便宜。

最近，深度强化学习(Deep Reinforcement Learning，DRL)显示出在解决运动问题方面的巨大进步。与需要事先掌握真实物理动力学知识的基于模型的方法学习技能相比，深度强化学习可以通过反复试验来学习各种技能，从而减少了人类参与的需求。用于开发模拟角色控制器的许多优化技术都采用了深度强化学习。

然而，就虚拟机器四足动物而言，藉由深度强化学习得到的行为看起来仍不如通过人工设计得到的行为更为自然。挑战的部分源于为自然运动指定奖励函数的困难，特别是在缺乏可用于实现自然模拟运动的生物力学模型和目标的情况下。另一方面，在合成或模拟层面时，让虚拟机器四足动物进行真实运动而训练的策略通常无法顺利转移到真实世界中。

发明内容

有鉴于此，本发明提出一种训练机器动物的运动控制器的方法，借此让控制虚拟动物运动的控制器可适用于现实世界的机器动物。

依据本发明一实施例提出的一种训练机器动物的运动控制器的方法，包括：取得参考动物的运动数据、环境参数及干扰参数；以策略网络依据运动数据产生多个基元分布及第一基元权重；从运动数据中选择参考动物的当前状态、设置参考动物的适应状态；以策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重，其中适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态；以及以判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络。

综上所述，本发明提出的训练机器动物的运动控制器的方法，通过在训练过程中加入对于致动器模型、机械限制、传感器干扰、环境变化、推理引擎(inference engine)延迟及微控制器延迟各自适用的扩增参数，借此训练出具有强健性(roubustness)的控制器，此控制器不仅适用于角色动画中的虚拟动物，也能够直接整合实体的机器动物，采用高级指令控制实体机器动物运动。

上述关于本发明所公开内容的说明及以下实施方式的说明用以示范与解释本发明的精神与原理，并且提供本发明的权利要求更进一步的解释。

附图说明

图1是机器动物的示意图；

图2是本发明一实施例的训练机器动物的运动控制器的方法的流程图；

图3是图1的步骤S1后的细部流程图；以及

图4是扩增高度图的策略网络的示意图。

其中，附图标记：

J1～J20 关节

S1～S6、S11～S13 步骤

H 高度图

具体实施方式

以下在实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施，且根据本说明书所揭露的内容、权利要求及说明书附图，任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点，但非以任何观点限制本发明的范畴。

本发明提出一种训练机器动物的运动控制器的方法。整体而言，对于一个基于控制参数控制虚拟动物运动的控制器，本发明在训练此控制器的基础上扩增(augment)训练过程中的输入参数及输出参数，借此获得一个可直接应用于实体的四足机器动物的强健(robust)的控制器，此控制器亦可以在虚拟世界中被应用。

图1是机器动物的示意图。机器动物包括多个关节，如图1所示。图1绘示的四足机器动物具有20个关节，每个关节可配置马达。应用本发明所训练出的控制器用于在每个马达提供一旋转动量，使该处的马达产生扭力，进而驱动机器动物运动。

图2绘示本发明一实施例的流程图，包含步骤S1～S5。步骤S1是“取得参考动物的运动数据、环境参数及干扰参数”。参考动物是虚拟动物的真实版本，例如为狗。运动数据包含参考动物在一段时间(例如为10秒)的多个状态信息，每个状态信息包含下列量测数据：位置、速度、旋转量及角速度，除了旋转量以4维的四元数(quaternions)表示，其余三者以三维向量表示。

在本发明一实施例中，步骤S1所取得的运动数据包含当前状态及历史状态。且在“取得当前状态”的运动数据之后，更包括将当前状态储存至输入伫列的步骤。换言之，本发明一实施例系维护一个输入伫列，其储存参考动物在一段时间内的所有状态信息。借此，在训练时，除了可取得参考动物的当前信息，也能够一并取得参考动物在一段时间前的状态信息。

图3是步骤S1的一实施例的细部流程图。在图3中，步骤S1之后更包括步骤S11～S13。

步骤S11是“取得参考动物的环境参数及干扰参数”。步骤S12是“取得参考动物的当前状态并储存在输入伫列”。步骤S13是“从输入伫列取得参考动物的历史状态”。

详言之，步骤S11～S13考量推理引擎(inference engine)及微控制器(microcontroller)的延迟。在本发明又一实施例中，除了以输入伫列(queue)储存先前的参考动物的状态信息，也储存PD控制器的历史信息。在训练期间，策略网络会根据给定的推理延迟接收从输入伫列查询到的历史状态，PD控制器也会根据给定的PD延迟时间从输入伫列接收延迟后的控制信息。举例来说，将推理延迟和PD延迟分别设置为15毫秒和2毫秒，并且将策略网络的控制频率从30赫兹(Hertz，Hz)增加到200赫兹，借此以实现更好的系统稳定性和敏捷性。因此，步骤S1中可接收到当前状态、15毫秒前的历史状态，2毫秒前的PD控制参数，以及环境参数与干扰参数。上述的运动数据的当前状态及历史状态亦可扩及到环境参数及干扰参数的当前及历史信息，本发明对此不予限制。

在本发明一实施例中，环境参数包含参考动物在特定环境下的速度及方向等信息。例如考虑一个参考动物走直线的场景，因为环境中的直线道路具有坑洞，因此参考动物在第t秒的时候，前进方向从12点钟方向更改为9点钟方向，前进速度由每秒2米更改完每秒1.5米，上述范例中的数字即为环境参数的示例，然而该些数字以及参考动物的闪避坑洞的范例动作并非用于限制本发明。实务上，为了使机器动物或虚拟动物能够适应各种场景，可提高环境参数的训练样本数量。

在本发明一实施例中，“取得运动数据”的一种实施方式是在真实世界的动物身体上设置多个传感器，借此收集运动数据。步骤S11的另一种实施方式是通过物理引擎模拟得到运动数据。对于步骤S11取得运动数据的方式，本发明并不特别限制。

在本发明另一实施例中，环境参数包含参考动物所处环境的高度图(heightmap)。鉴于真实环境与模拟环境的差异，本发明通过此环境参数考虑地形变化的特殊情状。一般而言，对于参考动物的参考运动是在平坦地形上取样。本发明考量不规则的环境因素，而使用高度图输入来扩增策略网络(policy netwotrk)。针对丘陵环境，高度图是围绕角色的2维均匀网格上进行采样，且高度图的大小为32*32，针对楼梯环境，高度图在机器动物的着陆点以一维形式进行采样，且高度图的大小为100。上述考虑的楼梯环境为单一方向，若楼梯为任意形式，则高度图亦可为2维形式。本发明对于各种场景所应采用的高度图形式并不特别限制。

图4是扩增高度图的策略网络的示意图。本发明使用16个8x8过滤器(filter)、32个4×4过滤器以及32个4×4过滤器的三个卷积层(convolution layer)处理高度图，然后通过具有64个单位的完全连接层(fully connected layer)将特征图展开，后续连接具有1024及512个单位的完全连接层处理输出状态。激励函数则使用整流线性单位函数(Rectified Linear Unit，ReLU)激励所有隐藏层。

为了加快训练的速度，本发明一实施例采用渐进式训练机制(progressivelearning mechanism)，或称为暖启动策略(warm-start strategy)，其中策略网络以训练好的模型针对无高度图的平坦地面的环境初始化，然后再加入高度图进一步训练。

在本发明又一实施例中，环境参数包含设置多种摩擦系数的地面。

在本发明一实施例中，干扰参数包含施加于比例微分控制器的高斯噪声(Gaussian noise)，其为施加在输入端的扩增参数。详言之，机器动物的每一关节具有马达及比例微分(propontional-derivative，PD)控制器。机器动物的致动器模型是通过PD控制器的位置控制来驱动的。实务上，随着电流的增加，转矩增益(torque)可能达到饱和。这是因为线性的“转矩-电流”关系仅适用于理想马达。为了消除致动器模型在虚拟动物及机器动物之间的差异，本发明将高斯噪声乘以PD控制器输出的转矩，借此模拟马达动力改变带来的影响。通过上述扩增的干扰参数，即使改变了运动强度，机器动物仍然可能实现与虚拟动物足够接近的动作。

在另一实施例中，干扰参数包含施加于一个关节的外力大小、施力方向及持续时间，举例来说，针对机器动物的背部关节J3的干扰参数为50～100牛顿(N)、9点钟方向、持续0.5秒，这些范例数值可随机产生，或人工指定，本发明对此不予限制。在真实世界中，机器动物的状态是通过传感器量测而得。考虑机器动物的关节的机械限制，以及传感器的噪声影响，因此有必要将“现实”传感器的输入扩增到本发明所训练的控制器中。一个受过良好训练的机器动物的强健性可通过模拟此机器动物应对环境中的外力干扰产生的恢复行为来衡量。

请参考图2。步骤S2是“策略网络依据运动数据产生多个基元分布及第一基元权重”。在步骤S2中，本发明一实施例采用如下文件中述及的策略网络，“Xue Bin Peng,Michael Chang,Grace Zhang,Pieter Abbeel,and Sergey Levine.2019.MCP:LearningComposable Hierarchical Control with Multiplicative Compositional Policies.InNeurIPS”。

上述文件中的策略网络包含两个模块：基元网络(primitive network)及门控网络(gating network)。基元网络用以依据运动数据产生基元分布，门控网络用于依据参考动物的当前状态及目标状态产生多个第一基元权重。在一实施例中，当前状态及参考状态是指定特定时间点的运动数据。

基元分布(primitive distribution)，或称为基元影响力(primitiveinfluence)，其为动作的基本单位。多个基元分布与其对应的第一基元权重采用乘法形式组合而形成的高斯分布可使机器动物呈现如目标状态或当前状态的动作。

步骤S3是“从运动数据中选择参考动物的当前状态、设置参考动物的适应状态”。详言之，在运动数据包含的时间范围中，指定特定时点的运动数据作为当前状态。适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态。举例来说，参考动物因为要闪躲环境中的掉落物体，因此在前进速度上产生了变化。所述的适应状态例如是反映上述速度变化的序列。

步骤S4是“策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重”。详言之，步骤S2是使用策略网络中的门控网络产生第一基元权重。而本步骤S4同样是使用策略网络中的门控网络产生第二基元权重，其差别在于：在步骤S4中，用于训练门控网络的参数更包含基于环境参数而得到的适应状态。

步骤S5是“判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络”。在本发明一实施例中，采用生成对抗网络(Generative Adversarial Network)架构中的判别器(Discriminator)比对第一及第二基元权重是否相同。在本发明另一实施例中，可采用L1距离或L2距离以及一最大距离阈值作为判别器。若第一及第二基元权重的相似度在一指定范围之内，则保留当前产生的第二基元权重。否则，回到步骤S4再次由策略网络中的门控网络产生另一种第二基元权重。

在执行步骤S1～S5的流程之后训练完成的策略网络已可作为控制机器动物运动的控制器。在本发明一实施例中，在步骤S5之后更包括步骤S6，步骤S6是“依据基元分布及第二基元权重产生动作分布，动作分布包括每个关节的输出动量”。步骤S6实际通过训练完成的控制器发出让机器动物执行指定动作的命令。

综上所述，本发明提出的训练机器动物的运动控制器的方法，通过在训练过程中加入对于致动器模型、机械限制、传感器干扰、环境变化、推理引擎(inference engine)延迟及微控制器延迟各自适用的扩增参数，借此训练出具有强健性(roubustness)的控制器，此控制器不仅适用于角色动画中的虚拟动物，也能够直接整合实体的机器动物，采用高级指令控制实体机器动物运动。在训练一个控制虚拟动物基于控制参数运动的控制器的过程中，本发明通过扩增(augment)用于训练的输入或输出参数，而实现让用于控制虚拟动物运动的控制器也能用于控制实体机器动物运动。

Claims

1.一种训练机器动物的运动控制器的方法，适用于具有多个关节的该机器动物，其特征在于，所述训练机器动物的运动控制器的方法包括：

取得一参考动物的一运动数据、一环境参数及一干扰参数；

以一策略网络依据该运动数据产生多个基元分布及一第一基元权重；

从该运动数据中选择该参考动物的一当前状态、设置该参考动物的一适应状态；

以该策略网络至少依据该当前状态、该适应状态、该些基元分布产生一第二基元权重，其中该适应状态处于该当前状态的该参考动物响应于该环境参数及该干扰参数后通过的状态；以及

以该判别器依据该第一基元权重及该第二基元权重通过的比对结果训练该策略网络。

2.如权利要求1所述的训练机器动物的运动控制器的方法，其特征在于，每一该些关节具有一马达及一比例微分控制器，且该干扰参数包含施加于该比例微分控制器的高斯噪声。

3.如权利要求1所述的训练机器动物的运动控制器的方法，其特征在于，该干扰参数包含施加于该些关节其中一者的一外力及一施力方向。

4.如权利要求1所述的训练机器动物的运动控制器的方法，其特征在于，该环境参数包含一高度图。

5.如权利要求1所述的训练机器动物的运动控制器的方法，其特征在于，在以该判别器依据该第一基元权重及该第二基元权重通过的比对结果训练该策略网络之后，更包括：依据该些基元分布及该第二基元权重产生一动作分布，该动作分布包括该些关节的输出动量。

6.如权利要求1所述的训练机器动物的运动控制器的方法，其特征在于，该运动数据包含该当前状态及一历史状态，该历史状态被储存在一输入伫列；且在取得该参考动物的该运动数据、该环境参数及该干扰参数之后，更包括：

储存该当前状态至该输入伫列。