CN114186662A - 训练机器动物的运动控制器的方法 - Google Patents

训练机器动物的运动控制器的方法 Download PDF

Info

Publication number
CN114186662A
CN114186662A CN202010961867.9A CN202010961867A CN114186662A CN 114186662 A CN114186662 A CN 114186662A CN 202010961867 A CN202010961867 A CN 202010961867A CN 114186662 A CN114186662 A CN 114186662A
Authority
CN
China
Prior art keywords
primitive
animal
training
motion data
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010961867.9A
Other languages
English (en)
Inventor
罗应升
吴信福
陈佩君
陈维超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Pudong Technology Corp
Inventec Corp
Original Assignee
Inventec Pudong Technology Corp
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Pudong Technology Corp, Inventec Corp filed Critical Inventec Pudong Technology Corp
Priority to CN202010961867.9A priority Critical patent/CN114186662A/zh
Priority to US17/132,101 priority patent/US11474484B2/en
Publication of CN114186662A publication Critical patent/CN114186662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Fuzzy Systems (AREA)
  • Manipulator (AREA)
  • Toys (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种训练机器动物的运动控制器的方法包括:取得参考动物的运动数据、环境参数及干扰参数,以策略网络依据运动数据产生多个基元分布及第一基元权重,从运动数据中选择参考动物的当前状态、设置参考动物的适应状态,以策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重,其中适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态,以及以判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络。

Description

训练机器动物的运动控制器的方法
技术领域
本发明涉及控制领域,特别是一种让控制虚拟动物运动的控制器适用于控制实体机器动物的方法。
背景技术
控制机器四足动物自然地运动仍相当具有挑战性。传统方法需要在机器人领域知识及复杂的参数调整方面有丰富的经验。由于实验期间不断掉落会永久损坏硬体设备,并使整个控制系统不稳定。因此,在物理模拟器中训练似乎是最合理的方法,因为这种方式快速、安全且便宜。
最近,深度强化学习(Deep Reinforcement Learning,DRL)显示出在解决运动问题方面的巨大进步。与需要事先掌握真实物理动力学知识的基于模型的方法学习技能相比,深度强化学习可以通过反复试验来学习各种技能,从而减少了人类参与的需求。用于开发模拟角色控制器的许多优化技术都采用了深度强化学习。
然而,就虚拟机器四足动物而言,藉由深度强化学习得到的行为看起来仍不如通过人工设计得到的行为更为自然。挑战的部分源于为自然运动指定奖励函数的困难,特别是在缺乏可用于实现自然模拟运动的生物力学模型和目标的情况下。另一方面,在合成或模拟层面时,让虚拟机器四足动物进行真实运动而训练的策略通常无法顺利转移到真实世界中。
发明内容
有鉴于此,本发明提出一种训练机器动物的运动控制器的方法,借此让控制虚拟动物运动的控制器可适用于现实世界的机器动物。
依据本发明一实施例提出的一种训练机器动物的运动控制器的方法,包括:取得参考动物的运动数据、环境参数及干扰参数;以策略网络依据运动数据产生多个基元分布及第一基元权重;从运动数据中选择参考动物的当前状态、设置参考动物的适应状态;以策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重,其中适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态;以及以判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络。
综上所述,本发明提出的训练机器动物的运动控制器的方法,通过在训练过程中加入对于致动器模型、机械限制、传感器干扰、环境变化、推理引擎(inference engine)延迟及微控制器延迟各自适用的扩增参数,借此训练出具有强健性(roubustness)的控制器,此控制器不仅适用于角色动画中的虚拟动物,也能够直接整合实体的机器动物,采用高级指令控制实体机器动物运动。
上述关于本发明所公开内容的说明及以下实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的权利要求更进一步的解释。
附图说明
图1是机器动物的示意图;
图2是本发明一实施例的训练机器动物的运动控制器的方法的流程图;
图3是图1的步骤S1后的细部流程图;以及
图4是扩增高度图的策略网络的示意图。
其中,附图标记:
J1~J20 关节
S1~S6、S11~S13 步骤
H 高度图
具体实施方式
以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施,且根据本说明书所揭露的内容、权利要求及说明书附图,任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点,但非以任何观点限制本发明的范畴。
本发明提出一种训练机器动物的运动控制器的方法。整体而言,对于一个基于控制参数控制虚拟动物运动的控制器,本发明在训练此控制器的基础上扩增(augment)训练过程中的输入参数及输出参数,借此获得一个可直接应用于实体的四足机器动物的强健(robust)的控制器,此控制器亦可以在虚拟世界中被应用。
图1是机器动物的示意图。机器动物包括多个关节,如图1所示。图1绘示的四足机器动物具有20个关节,每个关节可配置马达。应用本发明所训练出的控制器用于在每个马达提供一旋转动量,使该处的马达产生扭力,进而驱动机器动物运动。
图2绘示本发明一实施例的流程图,包含步骤S1~S5。步骤S1是“取得参考动物的运动数据、环境参数及干扰参数”。参考动物是虚拟动物的真实版本,例如为狗。运动数据包含参考动物在一段时间(例如为10秒)的多个状态信息,每个状态信息包含下列量测数据:位置、速度、旋转量及角速度,除了旋转量以4维的四元数(quaternions)表示,其余三者以三维向量表示。
在本发明一实施例中,步骤S1所取得的运动数据包含当前状态及历史状态。且在“取得当前状态”的运动数据之后,更包括将当前状态储存至输入伫列的步骤。换言之,本发明一实施例系维护一个输入伫列,其储存参考动物在一段时间内的所有状态信息。借此,在训练时,除了可取得参考动物的当前信息,也能够一并取得参考动物在一段时间前的状态信息。
图3是步骤S1的一实施例的细部流程图。在图3中,步骤S1之后更包括步骤S11~S13。
步骤S11是“取得参考动物的环境参数及干扰参数”。步骤S12是“取得参考动物的当前状态并储存在输入伫列”。步骤S13是“从输入伫列取得参考动物的历史状态”。
详言之,步骤S11~S13考量推理引擎(inference engine)及微控制器(microcontroller)的延迟。在本发明又一实施例中,除了以输入伫列(queue)储存先前的参考动物的状态信息,也储存PD控制器的历史信息。在训练期间,策略网络会根据给定的推理延迟接收从输入伫列查询到的历史状态,PD控制器也会根据给定的PD延迟时间从输入伫列接收延迟后的控制信息。举例来说,将推理延迟和PD延迟分别设置为15毫秒和2毫秒,并且将策略网络的控制频率从30赫兹(Hertz,Hz)增加到200赫兹,借此以实现更好的系统稳定性和敏捷性。因此,步骤S1中可接收到当前状态、15毫秒前的历史状态,2毫秒前的PD控制参数,以及环境参数与干扰参数。上述的运动数据的当前状态及历史状态亦可扩及到环境参数及干扰参数的当前及历史信息,本发明对此不予限制。
在本发明一实施例中,环境参数包含参考动物在特定环境下的速度及方向等信息。例如考虑一个参考动物走直线的场景,因为环境中的直线道路具有坑洞,因此参考动物在第t秒的时候,前进方向从12点钟方向更改为9点钟方向,前进速度由每秒2米更改完每秒1.5米,上述范例中的数字即为环境参数的示例,然而该些数字以及参考动物的闪避坑洞的范例动作并非用于限制本发明。实务上,为了使机器动物或虚拟动物能够适应各种场景,可提高环境参数的训练样本数量。
在本发明一实施例中,“取得运动数据”的一种实施方式是在真实世界的动物身体上设置多个传感器,借此收集运动数据。步骤S11的另一种实施方式是通过物理引擎模拟得到运动数据。对于步骤S11取得运动数据的方式,本发明并不特别限制。
在本发明另一实施例中,环境参数包含参考动物所处环境的高度图(heightmap)。鉴于真实环境与模拟环境的差异,本发明通过此环境参数考虑地形变化的特殊情状。一般而言,对于参考动物的参考运动是在平坦地形上取样。本发明考量不规则的环境因素,而使用高度图输入来扩增策略网络(policy netwotrk)。针对丘陵环境,高度图是围绕角色的2维均匀网格上进行采样,且高度图的大小为32*32,针对楼梯环境,高度图在机器动物的着陆点以一维形式进行采样,且高度图的大小为100。上述考虑的楼梯环境为单一方向,若楼梯为任意形式,则高度图亦可为2维形式。本发明对于各种场景所应采用的高度图形式并不特别限制。
图4是扩增高度图的策略网络的示意图。本发明使用16个8x8过滤器(filter)、32个4×4过滤器以及32个4×4过滤器的三个卷积层(convolution layer)处理高度图,然后通过具有64个单位的完全连接层(fully connected layer)将特征图展开,后续连接具有1024及512个单位的完全连接层处理输出状态。激励函数则使用整流线性单位函数(Rectified Linear Unit,ReLU)激励所有隐藏层。
为了加快训练的速度,本发明一实施例采用渐进式训练机制(progressivelearning mechanism),或称为暖启动策略(warm-start strategy),其中策略网络以训练好的模型针对无高度图的平坦地面的环境初始化,然后再加入高度图进一步训练。
在本发明又一实施例中,环境参数包含设置多种摩擦系数的地面。
在本发明一实施例中,干扰参数包含施加于比例微分控制器的高斯噪声(Gaussian noise),其为施加在输入端的扩增参数。详言之,机器动物的每一关节具有马达及比例微分(propontional-derivative,PD)控制器。机器动物的致动器模型是通过PD控制器的位置控制来驱动的。实务上,随着电流的增加,转矩增益(torque)可能达到饱和。这是因为线性的“转矩-电流”关系仅适用于理想马达。为了消除致动器模型在虚拟动物及机器动物之间的差异,本发明将高斯噪声乘以PD控制器输出的转矩,借此模拟马达动力改变带来的影响。通过上述扩增的干扰参数,即使改变了运动强度,机器动物仍然可能实现与虚拟动物足够接近的动作。
在另一实施例中,干扰参数包含施加于一个关节的外力大小、施力方向及持续时间,举例来说,针对机器动物的背部关节J3的干扰参数为50~100牛顿(N)、9点钟方向、持续0.5秒,这些范例数值可随机产生,或人工指定,本发明对此不予限制。在真实世界中,机器动物的状态是通过传感器量测而得。考虑机器动物的关节的机械限制,以及传感器的噪声影响,因此有必要将“现实”传感器的输入扩增到本发明所训练的控制器中。一个受过良好训练的机器动物的强健性可通过模拟此机器动物应对环境中的外力干扰产生的恢复行为来衡量。
请参考图2。步骤S2是“策略网络依据运动数据产生多个基元分布及第一基元权重”。在步骤S2中,本发明一实施例采用如下文件中述及的策略网络,“Xue Bin Peng,Michael Chang,Grace Zhang,Pieter Abbeel,and Sergey Levine.2019.MCP:LearningComposable Hierarchical Control with Multiplicative Compositional Policies.InNeurIPS”。
上述文件中的策略网络包含两个模块:基元网络(primitive network)及门控网络(gating network)。基元网络用以依据运动数据产生基元分布,门控网络用于依据参考动物的当前状态及目标状态产生多个第一基元权重。在一实施例中,当前状态及参考状态是指定特定时间点的运动数据。
基元分布(primitive distribution),或称为基元影响力(primitiveinfluence),其为动作的基本单位。多个基元分布与其对应的第一基元权重采用乘法形式组合而形成的高斯分布可使机器动物呈现如目标状态或当前状态的动作。
步骤S3是“从运动数据中选择参考动物的当前状态、设置参考动物的适应状态”。详言之,在运动数据包含的时间范围中,指定特定时点的运动数据作为当前状态。适应状态处于当前状态的参考动物响应于环境参数及干扰参数后通过的状态。举例来说,参考动物因为要闪躲环境中的掉落物体,因此在前进速度上产生了变化。所述的适应状态例如是反映上述速度变化的序列。
步骤S4是“策略网络至少依据当前状态、适应状态、基元分布产生第二基元权重”。详言之,步骤S2是使用策略网络中的门控网络产生第一基元权重。而本步骤S4同样是使用策略网络中的门控网络产生第二基元权重,其差别在于:在步骤S4中,用于训练门控网络的参数更包含基于环境参数而得到的适应状态。
步骤S5是“判别器依据第一基元权重及第二基元权重通过的比对结果训练策略网络”。在本发明一实施例中,采用生成对抗网络(Generative Adversarial Network)架构中的判别器(Discriminator)比对第一及第二基元权重是否相同。在本发明另一实施例中,可采用L1距离或L2距离以及一最大距离阈值作为判别器。若第一及第二基元权重的相似度在一指定范围之内,则保留当前产生的第二基元权重。否则,回到步骤S4再次由策略网络中的门控网络产生另一种第二基元权重。
在执行步骤S1~S5的流程之后训练完成的策略网络已可作为控制机器动物运动的控制器。在本发明一实施例中,在步骤S5之后更包括步骤S6,步骤S6是“依据基元分布及第二基元权重产生动作分布,动作分布包括每个关节的输出动量”。步骤S6实际通过训练完成的控制器发出让机器动物执行指定动作的命令。
综上所述,本发明提出的训练机器动物的运动控制器的方法,通过在训练过程中加入对于致动器模型、机械限制、传感器干扰、环境变化、推理引擎(inference engine)延迟及微控制器延迟各自适用的扩增参数,借此训练出具有强健性(roubustness)的控制器,此控制器不仅适用于角色动画中的虚拟动物,也能够直接整合实体的机器动物,采用高级指令控制实体机器动物运动。在训练一个控制虚拟动物基于控制参数运动的控制器的过程中,本发明通过扩增(augment)用于训练的输入或输出参数,而实现让用于控制虚拟动物运动的控制器也能用于控制实体机器动物运动。

Claims (6)

1.一种训练机器动物的运动控制器的方法,适用于具有多个关节的该机器动物,其特征在于,所述训练机器动物的运动控制器的方法包括:
取得一参考动物的一运动数据、一环境参数及一干扰参数;
以一策略网络依据该运动数据产生多个基元分布及一第一基元权重;
从该运动数据中选择该参考动物的一当前状态、设置该参考动物的一适应状态;
以该策略网络至少依据该当前状态、该适应状态、该些基元分布产生一第二基元权重,其中该适应状态处于该当前状态的该参考动物响应于该环境参数及该干扰参数后通过的状态;以及
以该判别器依据该第一基元权重及该第二基元权重通过的比对结果训练该策略网络。
2.如权利要求1所述的训练机器动物的运动控制器的方法,其特征在于,每一该些关节具有一马达及一比例微分控制器,且该干扰参数包含施加于该比例微分控制器的高斯噪声。
3.如权利要求1所述的训练机器动物的运动控制器的方法,其特征在于,该干扰参数包含施加于该些关节其中一者的一外力及一施力方向。
4.如权利要求1所述的训练机器动物的运动控制器的方法,其特征在于,该环境参数包含一高度图。
5.如权利要求1所述的训练机器动物的运动控制器的方法,其特征在于,在以该判别器依据该第一基元权重及该第二基元权重通过的比对结果训练该策略网络之后,更包括:依据该些基元分布及该第二基元权重产生一动作分布,该动作分布包括该些关节的输出动量。
6.如权利要求1所述的训练机器动物的运动控制器的方法,其特征在于,该运动数据包含该当前状态及一历史状态,该历史状态被储存在一输入伫列;且在取得该参考动物的该运动数据、该环境参数及该干扰参数之后,更包括:
储存该当前状态至该输入伫列。
CN202010961867.9A 2020-09-14 2020-09-14 训练机器动物的运动控制器的方法 Pending CN114186662A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010961867.9A CN114186662A (zh) 2020-09-14 2020-09-14 训练机器动物的运动控制器的方法
US17/132,101 US11474484B2 (en) 2020-09-14 2020-12-23 Method for training virtual animal to move based on control parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010961867.9A CN114186662A (zh) 2020-09-14 2020-09-14 训练机器动物的运动控制器的方法

Publications (1)

Publication Number Publication Date
CN114186662A true CN114186662A (zh) 2022-03-15

Family

ID=80539011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010961867.9A Pending CN114186662A (zh) 2020-09-14 2020-09-14 训练机器动物的运动控制器的方法

Country Status (2)

Country Link
US (1) US11474484B2 (zh)
CN (1) CN114186662A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220051106A1 (en) * 2020-08-12 2022-02-17 Inventec (Pudong) Technology Corporation Method for training virtual animal to move based on control parameters
US11992945B2 (en) * 2020-11-10 2024-05-28 Google Llc System and methods for training robot policies in the real world

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9030491B1 (en) * 2012-04-18 2015-05-12 The United States Of America As Represented By The Secretary Of The Navy System and method for displaying data from multiple devices on a single user interface

Also Published As

Publication number Publication date
US11474484B2 (en) 2022-10-18
US20220083012A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
Peng et al. Learning locomotion skills using deeprl: Does the choice of action space matter?
Muelling et al. Learning table tennis with a mixture of motor primitives
Kober et al. Imitation and reinforcement learning
Englert et al. Model-based imitation learning by probabilistic trajectory matching
Bellegarda et al. Robust high-speed running for quadruped robots via deep reinforcement learning
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN114186662A (zh) 训练机器动物的运动控制器的方法
Browning et al. Übersim: a multi-robot simulator for robot soccer
Cichosz et al. Imitation learning of car driving skills with decision trees and random forests
Laird An exploration into computer games and computer generated forces
Taylor et al. Learning bipedal robot locomotion from human movement
Matsuzaki et al. Learning crowd-aware robot navigation from challenging environments via distributed deep reinforcement learning
Bellegarda et al. An online training method for augmenting mpc with deep reinforcement learning
Vogt et al. Learning two-person interaction models for responsive synthetic humanoids
Bassani et al. Learning to play soccer by reinforcement and applying sim-to-real to compete in the real world
TWI739604B (zh) 訓練機器動物的運動控制器的方法
Bassani et al. A framework for studying reinforcement learning and sim-to-real in robot soccer
Jiang et al. Motion sequence learning for robot walking based on pose optimization
CN114987511A (zh) 模拟人类驾驶行为以训练基于神经网络的运动控制器的方法
Floyd et al. Creation of devs models using imitation learning
Miller et al. Reinforcement learning for legged robots: Motion imitation from model-based optimal control
TWI811156B (zh) 機器人的運動步態的過渡方法
Marques et al. Fc portugal 3d simulation team: Architecture, low-level skills and team behaviour optimized for the new robocup 3d simulator
Bellegarda et al. Combining benefits from trajectory optimization and deep reinforcement learning
Wang et al. Resilient navigation among dynamic agents with hierarchical reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination