CN112684794B - 基于元强化学习的足式机器人运动控制方法、装置及介质 - Google Patents

基于元强化学习的足式机器人运动控制方法、装置及介质 Download PDF

Info

Publication number
CN112684794B
CN112684794B CN202011417756.8A CN202011417756A CN112684794B CN 112684794 B CN112684794 B CN 112684794B CN 202011417756 A CN202011417756 A CN 202011417756A CN 112684794 B CN112684794 B CN 112684794B
Authority
CN
China
Prior art keywords
robot
motion
environment
strategy
motion control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011417756.8A
Other languages
English (en)
Other versions
CN112684794A (zh
Inventor
傅汇乔
张文祺
李鹏
叶发萍
江微杰
赵锴
朱晓
王韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202011417756.8A priority Critical patent/CN112684794B/zh
Publication of CN112684794A publication Critical patent/CN112684794A/zh
Application granted granted Critical
Publication of CN112684794B publication Critical patent/CN112684794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

本发明公开了一种基于元强化学习的足式机器人运动控制方法,包括:构建机器人运动仿真环境;根据元强化学习算法生成运动规划策略以及运动控制策略;根据所述运动规划策略得到所述机器人的目标运动轨迹;根据所述运动控制策略,控制所述机器人在仿真环境中从起始状态沿着所述目标运动轨迹运动到目标状态。根据本公开实施例提供的足式机器人运动控制方法,可以在高维连续状态空间中为机器人生成运动控制策略,机器人可以结合图像、激光雷达等外部传感信息进行路径规划,而且该策略可以适应多变的环境,提高了机器人控制策略的适用性。

Description

基于元强化学习的足式机器人运动控制方法、装置及介质
技术领域
本发明涉及智能机器人技术领域,特别涉及一种基于元强化学习的足式机器人运动控制方法、装置及介质。
背景技术
足式机器人拥有多个离散落脚点以及冗余的自由度,相对于轮式或履带式机器人来说更适用于非结构环境。足式机器人的运动一般分为规划和控制两个部分,对于规划部分可用传统的A*算法、广度优先搜索算法等图搜索算法,在整个状态空间中寻找最短路径,也可将运动规划建模为约束优化问题进行求解。对于控制部分可采用现代控制理论、最优控制、模型预测控制等方法控制各机构跟随期望轨迹。
但传统的规划控制方法很难在连续状态动作空间中进行求解,导致机器人很难结合图像、激光雷达等外部传感信息进行运动规划,而且现有技术中的控制方法往往仅适用于特定环境。
发明内容
本公开实施例提供了一种基于元强化学习的足式机器人运动控制方法、装置及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本公开实施例提供了一种基于元强化学习的足式机器人运动控制方法,包括:
构建机器人运动仿真环境;
根据元强化学习算法生成运动规划策略以及运动控制策略;
根据运动规划策略得到机器人的目标运动轨迹;
根据运动控制策略,控制机器人在仿真环境中从起始状态沿着目标运动轨迹运动到目标状态。
在一个实施例中,构建机器人运动仿真环境,包括:
在仿真环境中构建机器人的整体物理模型以及外部环境模型;
通过ROS通信机制获取机器人的状态参数以及外部环境深度图。
在一个实施例中,根据元强化学习算法生成运动规划策略以及运动控制策略之前,还包括:
构建机器人的动力学模型;
根据动力学模型以及优化求解方法,判断机器人能否从当前状态转移到目标状态。
在一个实施例中,根据元强化学习算法生成运动规划策略以及运动控制策略,包括:
根据PPO强化学习算法以及MAML元学习算法构建运动规划算法框架以及运动控制算法框架;
根据运动规划算法框架、机器人状态参数以及环境奖惩信息训练运动规划策略;
根据运动控制算法框架、机器人状态参数以及环境奖惩信息训练运动控制策略。
在一个实施例中,根据运动规划算法框架、机器人状态参数以及环境奖惩信息训练运动规划策略,包括:
将机器人当前状态参数、目标状态参数、外部环境深度图输入运动规划算法框架,并输出机器人下一时刻的状态参数;
根据输出的状态参数以及目标状态参数,建立环境奖惩机制;
结合环境奖惩信息训练运动规划策略。
在一个实施例中,根据运动控制算法框架、机器人状态参数以及环境奖惩信息训练运动控制策略,包括:
将机器人当前状态参数、目标状态参数、历史动作参数输入运动控制算法框架,并输出机器人下一时刻的各关节转角量;
根据输出的各关节转角量以及目标状态参数,建立环境奖惩机制;
结合环境奖惩信息训练运动控制策略。
在一个实施例中,根据运动规划策略得到机器人的目标运动轨迹,包括:
初始化仿真环境,并设定机器人的初始状态以及目标状态;
更新新环境中的运动规划策略;
根据设定的初始状态以及目标状态,利用更新后的运动规划策略得到机器人的目标运动轨迹。
第二方面,本公开实施例提供了一种基于元强化学习的足式机器人运动控制装置,包括:
构建模块,用于构建机器人运动仿真环境;
策略生成模块,用于根据元强化学习算法生成运动规划策略以及运动控制策略;
轨迹规划模块,用于根据运动规划策略得到机器人的目标运动轨迹;
运动控制模块,用于根据运动控制策略,控制机器人在仿真环境中从起始状态沿着目标运动轨迹运动到目标状态。
在一个实施例中,构建模块,包括:
构建单元,用于在仿真环境中构建机器人的整体物理模型以及外部环境模型;
获取单元,用于通过ROS通信机制获取机器人的状态参数以及外部环境深度图。
第三方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种基于元强化学习的足式机器人运动控制方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例采用元强化学习算法,以环境深度信息以及机器人自身状态量作为输入,可以在高维连续状态空间中为机器人生成运动控制策略。同时为了解决传统强化学习算法所生成策略仅适用于特定环境的问题,引入元学习算法训练生成更好的网络初始化参数,使得强化学习策略在新的环境中只进行少量的策略梯度更新便可收敛。在非结构环境中,首先利用外部传感信息进行建图与定位,然后设定机器人起始状态与目标状态,利用元强化学习算法可以直接生成四足机器人运动轨迹,并控制机器人跟随目标轨迹到达指定位置。提高了机器人控制策略的适用性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于元强化学习的足式机器人运动控制方法的流程示意图;
图2是根据一示例性实施例示出的一种基于元强化学习的足式机器人运动控制方法的流程示意图;
图3是根据一示例性实施例示出的一种足式机器人仿真模型的示意图;
图4是根据一示例性实施例示出的一种基于元强化学习的足式机器人运动控制装置的结构示意图;
图5是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
下面将结合附图1-附图3,对本申请实施例提供的基于元强化学习的足式机器人运动控制方法进行详细介绍。
参见图1,该方法具体包括以下步骤。
S101构建机器人运动仿真环境。
在一个实施例中,构建机器人运动仿真环境,包括在仿真环境中构建机器人的整体物理模型以及外部环境模型,然后通过ROS通信机制获取机器人的状态参数以及外部环境深度图。图3是根据一示例性实施例示出的一种足式机器人仿真模型的示意图,如图3所示,本公开实施例在仿真环境中搭建了一个四足机器人。
具体地,首先加载模型,利用launch文件启动ROS节点,加载四足机器人urdf模型文件与外部非结构环境的world文件,提前设置好各个文件中的模型参数,其中四足机器人每条腿3个主动旋转自由度,共12个可驱动旋转自由度。
然后利用ROS消息机制下发四足机器人各关节目标转角,通过ros_control插件完成对机器人各关节的位置环PID控制。
通过ROS消息机制获取四足机器人当前状态参数,包括质心坐标、质心速度、机身旋转角度以及机身旋转角速度等,同时利用深度相机采集四足机器人外部环境的深度图,深度图尺寸为100×100,采集范围为4m。
根据该步骤,可以构建机器人的仿真环境,并获取仿真环境中机器人的状态参数以及外部环境深度图。
S102根据元强化学习算法生成运动规划策略以及运动控制策略。
在一个实施例中,构建完仿真环境后,可以利用元强化学习算法生成运动规划策略以及运动控制策略,其中,运动规划策略主要是为了用来规划机器人的行驶轨迹,运动控制策略主要是为了控制机器人跟随规划好的行驶轨迹运动。
在一个实施例中,在步骤S102之前,还包括构建机器人的简化动力学模型,将轨迹规划问题建模为约束优化问题,根据动力学模型以及优化求解方法,判断机器人能否从当前状态转移到目标状态。
具体地,首先构建轨迹优化目标函数,将最小化能量消耗作为优化目标,对于四足机器人来说也即是最小化作用于机器人的外部力在连续时间上的积分,即:
Figure BDA0002820749290000051
然后构建简化的四足机器人动力学模型以便于优化求解,因此对四足机器人模型作以下三点假设:(1)将四足机器人整体看作刚体,与环境接触时不会发生形变;(2)由关节转动产生的动量忽略不计;(3)将整个机器人的转动惯量等同于机身转动惯量。在三条假设的基础上,利用牛顿欧拉方程,建立四足机器人动力学模型,即:
Figure BDA0002820749290000061
Figure BDA0002820749290000062
其中,m表示机器人质量,ni表示机器人腿的数量,g是重力加速度,
Figure BDA0002820749290000063
Figure BDA0002820749290000064
分别是机器人质心的线加速度和角加速度向量,fi(t)是各足端点受力向量,pi(t)是机器人各足端坐标,
Figure BDA0002820749290000065
是机器人的联合转动惯量。
然后构建优化约束项,轨迹优化的约束项包含以下9点:(1)定义初始状态约束项Φ0;(2)定义目标状态约束项ΦT;(3)定义动力学约束项
Figure BDA0002820749290000066
(4)定义运动学约束项
Figure BDA0002820749290000067
(5)处于接触相的足端与地面不能产生相对位移
Figure BDA0002820749290000068
(6)处于接触相的足端高度与当前位置地面高度一致:
Figure BDA0002820749290000069
(7)处于接触相的足端只能受到推力,不能受到拉力:
Figure BDA00028207492900000610
(8)处于接触相的足端所受合力位于摩擦锥以内:
Figure BDA00028207492900000611
(9)处于摆动项的足端受力为0:
Figure BDA00028207492900000612
然后,利用梯形配置法将优化目标以及约束项中的连续积分离散化,即:
Figure BDA00028207492900000613
最后,利用开源优化求解器CasADi求解建立的约束优化问题,若问题有解,则机器人从初始状态到目标状态可达,反之不可达。根据该步骤,可以确定机器人能否从初始状态到目标状态。
进一步地,根据PPO强化学习算法以及MAML元学习算法构建运动规划算法框架以及运动控制算法框架。
具体地,首先初始化训练任务,初始化四足机器人训练任务的采样策略。对于运动规划部分,其任务为规划足端以及质心运动轨迹,使得机器人从不同的起始状态运动到目标状态,其采样策略为在环境范围内随机选取机器人初始位资以及目标位姿。对于运动控制部分,任务为跟随不同的足端以及质心运动轨迹,其采样策略为随机选取一段规划部分所规划的运动轨迹作为跟随目标。
然后初始化算法,初始化算法参数包括元学习内循环学习率α、元强化学习外循环学习率β、神经网络初始化参数θ、训练任务采样个数、每个任务采样的轨迹数等。
然后更新元强化学习梯度内循环,采样一批任务
Figure BDA0002820749290000071
对于每一个任务
Figure BDA0002820749290000072
利用fθ采样得到K个轨迹序列
Figure BDA0002820749290000073
利用该轨迹序列计算损失函数的梯度
Figure BDA0002820749290000074
其中损失函数的计算方式根据深度强化学习算法PPO中的损失函数计算方式可得,即:
Figure BDA0002820749290000075
其中:
Figure BDA0002820749290000076
∈是可调超参数,一般取0.2,A是优势函数。对损失函数求梯度,利用网络参数θ可求得内循环网络参数:
Figure BDA0002820749290000077
然后更新元强化学习梯度外循环,利用内循环步骤所得的网络参数θi′,对每一个任务
Figure BDA0002820749290000078
利用
Figure BDA0002820749290000079
采样得到K个轨迹序列
Figure BDA00028207492900000710
利用该轨迹序列计算公式(1)所示损失函数的梯度,更新网络参数θ:
Figure BDA00028207492900000711
进一步地,根据运动规划算法框架、机器人状态参数以及环境奖惩信息训练运动规划策略,将机器人当前状态参数、目标状态参数、外部环境深度图输入运动规划算法框架,并输出机器人下一时刻的状态参数,根据输出的状态参数以及目标状态参数,建立环境奖惩机制,结合环境奖惩信息训练运动规划策略。
具体地,初始化规划部分元强化学习算法参数,初始化仿真环境,并设定机器人初始状态。规划算法输入包括100×100单通道周围环境深度图Mt、机器人当前状态Φt、机器人目标状态ΦT。将所有参数归一化处理后输入规划算法。规划算法输出为机器人下一时刻状态Φt+1
然后设定环境奖惩机制,(1)若网络输出的机器人下一状态使得机器人落足点更靠近目标状态的落足点,则给予奖励,反之给予惩罚;(2)若网络输出的机器人下一状态使得机器人航向角偏离目标状态,则给予惩罚;(3)机器人每迈一步给予一定惩罚;(4)利用上述建立动力学模型步骤求解机器人能否从当前状态到达算法输出的下一状态,若不能到达,则给予惩罚,并终止当前回合;(5)若机器人到达目标状态范围以内则终止当前回合,给予奖励。
然后根据环境奖惩信息进行运动规划算法训练,使得在给定机器人当前状态与目标状态的前提下,元强化学习算法能够输出最优运动轨迹序列。
进一步地,根据运动控制算法框架、机器人状态参数以及环境奖惩信息训练运动控制策略。将机器人当前状态参数、目标状态参数、历史动作参数输入运动控制算法框架,并输出机器人下一时刻的各关节转角量,根据输出的各关节转角量以及目标状态参数,建立环境奖惩机制,结合环境奖惩信息训练运动控制策略。
具体地,首先初始化控制部分元强化学习算法参数,初始化仿真环境,并设定机器人初始状态。控制算法输入包括机器人当前状态Φt与运动规划策略训练步骤中得出的下一时刻状态Φt+1的差值、机器人质心运动速度与角速度、机器人关节角度与角速度以及上一时刻关节目标角度,将所有参数归一化处理后输入规划算法,控制算法输出为机器人下一时刻关节目标转角qt+1
然后建立环境奖惩机制,其中,(1)奖励机器人当前状态Φt与运动规划策略训练步骤中得出的下一时刻状态Φt+1差值的负绝对值-|Φt+1t|;(2)惩罚关节转动速度过大;(3)惩罚机器人航向角偏离目标状态;(4)惩罚接触相与地面产生位移。
然后根据环境奖惩信息进行运动控制算法训练,使得在给定机器人运动轨迹序列的前提下,元强化学习算法能够输出最优控制策略,使得机器人能够跟随目标轨迹运动。
根据该步骤,可以得到训练好的运动规划策略以及运动控制策略。
S103根据运动规划策略得到机器人的目标运动轨迹。
在一个实施例中,得到运动规划策略以及运动控制策略之后,可以根据得到的规划策略和控制策略控制机器人沿着目标轨迹运动。
首先,初始化一个新的仿真环境,并设定机器人初始状态Φ0与目标状态ΦT,利用ROS消息机制将机器人复位到目标状态。
利用元强化学习梯度更新内循环分别在新的仿真环境中训练更新规划与控制算法,使之快速收敛,在当前环境下后续测试过程中算法网络参数固定不变。解决了现有技术中的控制策略只适用特定环境的问题。
进一步地,在给定机器人初始状态与目标状态的前提下,利用元学习规划算法,生成机器人目标运动轨迹序列,运动规划算法在更新目标状态后重新输出新的目标运动轨迹序列。
S104根据运动控制策略,控制机器人在仿真环境中从起始状态沿着目标运动轨迹运动到目标状态。
具体地,在给定机器人目标运动轨迹序列的前提下,利用元学习控制算法,控制机器人关节运动以跟随给定的目标运动轨迹,在一种可能的实现方式中,控制算法输出控制指令的频率为100Hz。
为了便于理解本申请实施例提供的基于元强化学习的足式机器人运动控制方法,下面结合附图2进行说明。如图2所示,该方法包括:
首先,搭建仿真环境,在Gazebo仿真环境中构建四足机器人整体物理模型以及外部环境模型,并通过ROS通信机制进行指令下发与模型状态信息采集。
进一步地,构建元强化学习算法,基于PPO强化学习算法与MAML元学习算法构建规划与控制策略生成算法框架。
进一步地,构建机器人动力学模型,将轨迹规划问题建模为约束优化问题,并利用优化求解器判断四足机器人能否从当前状态转移到目标状态。
进一步地,生成运动规划策略,基于建立的算法框架,将四足机器人的运动规划建模为有限马尔可夫决策过程,以环境深度信息、四足机器人当前状态信息以及目标状态信息作为算法状态输入,四足机器人未来时刻状态量作为动作输出,结合环境奖励信息训练得到规划策略。
进一步地,生成运动控制策略,基于建立的算法框架,将四足机器人的运动控制建模为有限马尔可夫决策过程,以四足机器人当前状态信息、目标状态信息以及历史动作信息作为算法状态输入,四足机器人未来时刻的各关节转角量作为动作输出,结合环境奖励信息训练得到控制策略。
最后,进行策略融合,在新的非结构环境中给定四足机器人目标状态,通过训练得到的算法进行少量的梯度更新使得算法收敛,然后利用训练生成的规划策略为四足机器人规划目标运动轨迹,利用训练生成的控制策略驱动四足机器人各关节运动以跟随目标轨迹。最终四足机器人能够在仿真环境中从起始状态运动到目标状态。
根据本公开实施例提供的足式机器人运动控制方法,采用元强化学习算法,以环境深度信息以及机器人自身状态量作为输入,可以在高维连续状态空间中为机器人生成运动控制策略。同时为了解决传统强化学习算法所生成策略仅适用于特定环境的问题,引入元学习算法训练生成更好的网络初始化参数,使得强化学习策略在新的环境中只进行少量的策略梯度更新便可收敛,提高了机器人控制策略的适用性。
本公开实施例还提供一种基于元强化学习的足式机器人运动控制装置,该装置用于执行上述实施例的基于元强化学习的足式机器人运动控制方法,如图4所示,该装置包括:
构建模块401,用于构建机器人运动仿真环境;
策略生成模块402,用于根据元强化学习算法生成运动规划策略以及运动控制策略;
轨迹规划模块403,用于根据运动规划策略得到机器人的目标运动轨迹;
运动控制模块404,用于根据运动控制策略,控制机器人在仿真环境中从起始状态沿着目标运动轨迹运动到目标状态。
在一个实施例中,构建模块401,包括:
构建单元,用于在仿真环境中构建机器人的整体物理模型以及外部环境模型;
获取单元,用于通过ROS通信机制获取机器人的状态参数以及外部环境深度图。
需要说明的是,上述实施例提供的基于元强化学习的足式机器人运动控制装置在执行基于元强化学习的足式机器人运动控制方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于元强化学习的足式机器人运动控制装置与基于元强化学习的足式机器人运动控制方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供一种与前述实施例所提供的基于元强化学习的足式机器人运动控制方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘500,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的基于元强化学习的足式机器人运动控制方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于元强化学习的足式机器人运动控制方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于元强化学习的足式机器人运动控制方法,其特征在于,包括:
构建机器人运动仿真环境,在仿真环境中构建所述机器人的整体物理模型以及外部环境模型;
构建所述机器人的动力学模型,根据所述动力学模型以及优化求解方法,判断所述机器人能否从当前状态转移到目标状态;所述动力学模型包括:
Figure FDA0003856587230000011
Figure FDA0003856587230000012
其中,m表示机器人质量,ni表示机器人腿的数量,g是重力加速度,
Figure FDA0003856587230000013
Figure FDA0003856587230000014
分别是机器人质心的线加速度和角加速度向量,fi(t)是各足端点受力向量,pi(t)是机器人各足端坐标,
Figure FDA0003856587230000015
是机器人的联合转动惯量;
根据元强化学习算法生成运动规划策略以及运动控制策略,包括:根据PPO强化学习算法以及MAML元学习算法构建运动规划算法框架以及运动控制算法框架;根据所述运动规划算法框架、机器人状态参数以及环境奖惩信息训练所述运动规划策略;根据所述运动控制算法框架、机器人状态参数以及环境奖惩信息训练所述运动控制策略;
根据所述运动规划策略得到所述机器人的目标运动轨迹,包括:初始化仿真环境,并设定所述机器人的初始状态以及目标状态;更新新环境中的运动规划策略,根据设定的初始状态以及目标状态,利用更新后的运动规划策略得到所述机器人的目标运动轨迹;
根据所述运动控制策略,控制所述机器人在仿真环境中从起始状态沿着所述目标运动轨迹运动到目标状态。
2.根据权利要求1所述的方法,其特征在于,构建机器人运动仿真环境,包括:
通过ROS通信机制获取所述机器人的状态参数以及外部环境深度图。
3.根据权利要求1所述的方法,其特征在于,根据所述运动规划算法框架、机器人状态参数以及环境奖惩信息训练所述运动规划策略,包括:
将所述机器人当前状态参数、目标状态参数、外部环境深度图输入所述运动规划算法框架,并输出所述机器人下一时刻的状态参数;
根据输出的状态参数以及目标状态参数,建立环境奖惩机制;
结合环境奖惩信息训练所述运动规划策略。
4.根据权利要求1所述的方法,其特征在于,根据所述运动控制算法框架、机器人状态参数以及环境奖惩信息训练所述运动控制策略,包括:
将所述机器人当前状态参数、目标状态参数、历史动作参数输入所述运动控制算法框架,并输出所述机器人下一时刻的各关节转角量;
根据输出的各关节转角量以及目标状态参数,建立环境奖惩机制;
结合环境奖惩信息训练所述运动控制策略。
5.一种基于元强化学习的足式机器人运动控制装置,其特征在于,包括:
构建模块,用于构建机器人运动仿真环境,在仿真环境中构建所述机器人的整体物理模型以及外部环境模型;
动力学模型构建模块,用于构建所述机器人的动力学模型,根据所述动力学模型以及优化求解方法,判断所述机器人能否从当前状态转移到目标状态;所述动力学模型包括:
Figure FDA0003856587230000021
Figure FDA0003856587230000022
其中,m表示机器人质量,ni表示机器人腿的数量,g是重力加速度,
Figure FDA0003856587230000023
Figure FDA0003856587230000024
分别是机器人质心的线加速度和角加速度向量,fi(t)是各足端点受力向量,pi(t)是机器人各足端坐标,
Figure FDA0003856587230000025
是机器人的联合转动惯量;
策略生成模块,用于根据元强化学习算法生成运动规划策略以及运动控制策略,包括:根据PPO强化学习算法以及MAML元学习算法构建运动规划算法框架以及运动控制算法框架;根据所述运动规划算法框架、机器人状态参数以及环境奖惩信息训练所述运动规划策略;根据所述运动控制算法框架、机器人状态参数以及环境奖惩信息训练所述运动控制策略;
轨迹规划模块,用于根据所述运动规划策略得到所述机器人的目标运动轨迹,包括:初始化仿真环境,并设定所述机器人的初始状态以及目标状态;更新新环境中的运动规划策略,根据设定的初始状态以及目标状态,利用更新后的运动规划策略得到所述机器人的目标运动轨迹;
运动控制模块,用于根据所述运动控制策略,控制所述机器人在仿真环境中从起始状态沿着所述目标运动轨迹运动到目标状态。
6.根据权利要求5所述的装置,其特征在于,所述构建模块,包括:
获取单元,用于通过ROS通信机制获取所述机器人的状态参数以及外部环境深度图。
7.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至4任一项所述的一种基于元强化学习的足式机器人运动控制方法。
CN202011417756.8A 2020-12-07 2020-12-07 基于元强化学习的足式机器人运动控制方法、装置及介质 Active CN112684794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417756.8A CN112684794B (zh) 2020-12-07 2020-12-07 基于元强化学习的足式机器人运动控制方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417756.8A CN112684794B (zh) 2020-12-07 2020-12-07 基于元强化学习的足式机器人运动控制方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112684794A CN112684794A (zh) 2021-04-20
CN112684794B true CN112684794B (zh) 2022-12-20

Family

ID=75447459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417756.8A Active CN112684794B (zh) 2020-12-07 2020-12-07 基于元强化学习的足式机器人运动控制方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112684794B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962073A (zh) * 2021-05-18 2022-01-21 追觅创新科技(苏州)有限公司 智能机器人的步态控制方法及装置、存储介质、电子装置
CN113485325B (zh) * 2021-06-16 2024-09-20 重庆工程职业技术学院 煤矿井下水泵房巡检机器人slam建图、自主导航方法
CN113515135B (zh) * 2021-06-30 2024-02-20 北京百度网讯科技有限公司 多足机器人的控制方法、装置、电子设备及存储介质
CN113674324B (zh) * 2021-08-27 2024-10-18 常州唯实智能物联创新中心有限公司 基于元学习的类级别6d位姿追踪方法、系统及装置
CN114460841B (zh) * 2021-12-15 2024-10-15 浙江大学杭州国际科创中心 一种足式机器人多步态控制器生成方法及计算机可读储存介质
CN114563954B (zh) * 2022-02-28 2024-10-29 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN114571463B (zh) * 2022-03-28 2023-10-20 达闼机器人股份有限公司 动作检测方法、装置、可读存储介质及电子设备
CN114895697B (zh) * 2022-05-27 2024-04-30 西北工业大学 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN115220342B (zh) * 2022-07-06 2024-09-20 复旦大学 一种基于动力学搜索的足式机器人移动控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN109901572B (zh) * 2018-12-13 2022-06-28 华为技术有限公司 自动驾驶方法、训练方法及相关装置
CN110315544B (zh) * 2019-06-24 2022-10-14 南京邮电大学 一种基于视频图像演示的机器人操作学习方法
CN110764415B (zh) * 2019-10-31 2022-04-15 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于元强化学习的机器人运动控制研究;郝通;《中国优秀硕士学位论文全文数据库•信息科技辑》;20200515;正文第17-33页 *

Also Published As

Publication number Publication date
CN112684794A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112684794B (zh) 基于元强化学习的足式机器人运动控制方法、装置及介质
Chatzilygeroudis et al. Reset-free trial-and-error learning for robot damage recovery
Sun et al. Motion planning for mobile robots—Focusing on deep reinforcement learning: A systematic review
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
CN109483530B (zh) 一种基于深度强化学习的足式机器人运动控制方法及系统
Christensen et al. A distributed and morphology-independent strategy for adaptive locomotion in self-reconfigurable modular robots
Wu et al. Neurally controlled steering for collision-free behavior of a snake robot
Peters et al. Robot learning
Hafner et al. Towards general and autonomous learning of core skills: A case study in locomotion
CN114326722B (zh) 六足机器人自适应步态规划方法、系统、装置及介质
CN113524177B (zh) 一种足式机器人的控制方法
Mastrogeorgiou et al. Slope handling for quadruped robots using deep reinforcement learning and toe trajectory planning
Raff et al. Generating Families of Optimally Actuated Gaits from a Legged System's Energetically Conservative Dynamics
Khandate et al. R× R: Rapid eXploration for Reinforcement learning via sampling-based reset distributions and imitation pre-training
Abdolmaleki et al. Omnidirectional walking with a compliant inverted pendulum model
Abdolmaleki et al. Contextual policy search for linear and nonlinear generalization of a humanoid walking controller
Tao et al. A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot
Chen et al. Deep Reinforcement Learning Based Co-Optimization of Morphology and Gait for Small-Scale Legged Robot
Torres et al. Control of a bipedal walking using partial feedback linearization and gaussian process regression-based of the step-to-step map
Yang et al. 3D solid robot animation design based on ADAMS
Phiri et al. Enhanced robot learning using fuzzy q-learning & context-aware middleware
Fallooh et al. Modifiedment the Performance of Q-learning Algorithm Based on Parameters Setting for Optimal Path Planning
Zhang et al. A Review on Robot Manipulation Methods in Human-Robot Interactions
CN113485321B (zh) 一种基于球形模块化自重构机器人的越障方法
Chatzilygeroudis Micro-data reinforcement learning for adaptive robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210420

Assignee: Zhejiang smart video security Innovation Center Co.,Ltd.

Assignor: Institute of Information Technology, Zhejiang Peking University

Contract record no.: X2022330000930

Denomination of invention: Motion control method, device and medium of foot robot based on meta reinforcement learning

Granted publication date: 20221220

License type: Common License

Record date: 20221229