CN109483530A - 一种基于深度强化学习的足式机器人运动控制方法及系统 - Google Patents
一种基于深度强化学习的足式机器人运动控制方法及系统 Download PDFInfo
- Publication number
- CN109483530A CN109483530A CN201811216658.0A CN201811216658A CN109483530A CN 109483530 A CN109483530 A CN 109483530A CN 201811216658 A CN201811216658 A CN 201811216658A CN 109483530 A CN109483530 A CN 109483530A
- Authority
- CN
- China
- Prior art keywords
- network
- model
- robot
- legged type
- type robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于深度强化学习的足式机器人运动控制方法及系统,其中,该方法包括:构建足式机器人3D模型;设计奖惩函数;构建动作网络和目标动作网络,并完成网络初始化;用动作网络生成控制量,得到下一时刻机器人的状态,计算奖惩值;随机选取一定数量的样本,计算目标评价网络的状态‑动作值,并根据Bellman方程更新评价网络的输出;利用评价网络对动作网络的权值进行更新;利用评价网络和动作网络权值更新目标评价网络和目标动作网络;重复上述步骤,直至网络收敛;根据动作网络,得到机器人运动的控制指令。本发明使得足式机器人实现在未知环境下的高效平稳移动。
Description
技术领域
本发明属于足式机器人运动控制技术领域,尤其涉及一种基于深度强化学习的足式机器人运动控制方法及系统。
背景技术
足式机器人具有多关节、强非线性、多种运动模式的特点,同时,地外星体非结构化环境下地表材质、刚度、地形等信息缺失或不精确,都给足式机器人的运动控制,特别是兼顾快速性和稳定性的高性能运动控制,带来了巨大的挑战。经典的基于模型的运动控制方法对模型精度依赖强,设计过程复杂,难以处理高维对象,并且不能充分发挥机器人的移动能力,特别是对模型不确定性和环境未知性的适应能力非常有限,难以应对地外天体表面的未知非结构化环境。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于深度强化学习的足式机器人运动控制方法及系统,实现足式机器人的运动控制,在不需要对象动力学模型和环境模型,并且不需要有标注的训练样本的前提下,让机器人主动在环境中进行探索,根据环境给予的反馈对自身行为进行评估,根据评估结果不断改善自身运动控制策略,最终从大量的失败中积累经验,逐步学习得到适用于当前训练环境的最优运动策略,实现在未知环境下的高效平稳移动。
本发明目的通过以下技术方案予以实现:根据本发明的一个方面,提供了一种基于深度强化学习的足式机器人运动控制方法,所述方法包括如下步骤:(1)在Webots仿真环境中构建足式机器人3D模型;其中,足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下部;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接;(2)初始化足式机器人3D模型的状态,预设t时刻即时奖励函数R(s(t),a(t))以及累积奖励函数Q(s(t),a(t)),其中,s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型的在t时刻的膝关节和髋关节的期望角度;(3)构建动作网络及目标动作网络;构建评价网络及目标评价网络;(4)在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中;(5)重复步骤4,直到搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;(6)利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新;(7)以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);(8)以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到步骤7中新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);(9)根据步骤7中的得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1);根据步骤8中得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1);(10)重复步骤(4)-(9),直至动作网络、目标动作网络、评价网络和目标评价网络收敛;(11)根据足式机器人3D模型的状态,利用步骤10中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(2)中,初始化足式机器人3D模型的状态为预设足式机器人3D模型的质心位置、质心速度、姿态、角速度、膝关节和髋关节的初始角度。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(2)中,即时奖励函数为R(s(t),a(t))=w1×前进速度(t)-w2×姿态偏差(t)-w3×位置偏差(t),其中,w1、w2和w3均为常数。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(2)中,累积奖励函数为:其中,γ为常数。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(6)中,即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新的公式为:Q(s(t),a(t))=R(t+1)+γQ'(s(t+1),a(t+1))。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(9)中,权值θc t(t+1)为:θc t(t+1)=θc(t+1)τ+θc t(t)(1-τ),其中,τ为常数。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(9)中,权值θa t(t+1)为:θa t(t+1)=θa(t+1)τ+θa t(t)(1-τ),其中,τ为常数。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(3)中,动作网络及目标动作网络的输入均为步骤2中的机器人3D模型的状态s(t),动作网络的输出为膝关节和髋关节的期望角度a(t),目标动作网络的输出值为a’(t);动作网络的权值为θa(t),目标动作网络的权值为θa t(t)。
上述基于深度强化学习的足式机器人运动控制方法中,在步骤(3)中,评价网络及目标评价网络的输入均为步骤2中的机器人3D模型的状态s(t)和膝关节和髋关节的期望角度a(t),评价网络的输出为累积奖励函数Q(s(t),a(t));目标评价网络的输出为累积奖励函数Q'(s(t),a(t));评价网络的权值为θc(t),目标评价网络的权值为θc t(t)。
根据本发明的另一方面,还提供了一种基于深度强化学习的足式机器人运动控制系统,包括:第一模块,用于在Webots仿真环境中构建足式机器人3D模型;其中,足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下部;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接;第二模块,用于初始化足式机器人3D模型的状态,预设t时刻即时奖励函数R(s(t),a(t))以及累积奖励函数Q(s(t),a(t)),其中,s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型的在t时刻的膝关节和髋关节的期望角度;第三模块,用于构建动作网络及目标动作网络;构建评价网络及目标评价网络;第四模块,用于在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中;第五模块,用于通过第四模块搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;第六模块,用于利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新;第七模块,用于以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);第八模块,用于以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);第九模块,用于得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1);得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1);第十模块,用于将动作网络、目标动作网络、评价网络和目标评价网络收敛;第十一模块,用于根据足式机器人3D模型的状态,利用步骤10中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
本发明与现有技术相比具有如下有益效果:
(1)本发明基于深度确定性策略梯度法,首次实现了足式机器人在未知环境下的平稳快速移动。该方法突破了现有控制方法对对象动力学模型和环境模型的依赖,极大地降低了现有控制器设计中参数调试的工作量,并且能够同时对多种运动模式同步进行运动控制策略的学习和训练,不需要分别设计。更重要的是,由于机器人是在主动地环境探索过程中不断地学习得到最优的运动策略,所以当机器人结构或设计参数改变时,或者地表接触条件变化时,只需要进行短暂的训练,这一智能运动控制方法即可适用于相似对象和相似环境。
(2)本发明所提出的深度确定性策略梯度法,在连续运动空间下,依靠深度神经网络实现策略函数和值函数的建模,通过合理的算法设计和充分的学习训练,能够在连续动作空间中得到最优的控制策略。这一过程是通过机器人自主探索和学习实现的,不需要人为干预,并且前期大量的学习训练可以在Webots机器人仿真软件中实现。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的基于深度强化学习的足式机器人运动控制方法的流程图;
图2是本发明实施例提供的足式机器人的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是本发明实施例提供的基于深度强化学习的足式机器人运动控制方法的流程图。如图1所示,该方法包括如下步骤:
(1)在Webots仿真环境中构建足式机器人3D模型,设置环境变量,包括机器人密度、重量、引力系数、地表摩擦力、关节电机参数、控制周期等。足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下方且分别位于左前、左后、右前和右后;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接。
(2)初始化足式机器人3D模型的状态(预设质心位置、质心速度、姿态、角速度、膝关节和髋关节的初始角度),设置t时刻即时奖励函数
R(s(t),a(t))=w1×前进速度(t)-w2×姿态偏差(t)-w3×位置偏差(t)
以及累积奖励函数(状态-动作值函数)
其中s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型的在t时刻的膝关节和髋关节的期望角度,R(s(t),a(t))为奖励函数,w1、w2和w3均为常数,Q(s(t),a(t))为累积奖励函数,γ为常数。
(3)构建动作网络及目标动作网络,动作网络及目标动作网络的输入均为步骤(2)中的机器人3D模型的状态s(t),动作网络的输出为膝关节和髋关节的期望角度a(t),目标动作网络的输出值为a’(t);动作网络的权值为θa(t),目标动作网络的权值为θa t(t);
构建评价网络及目标评价网络,评价网络及目标评价网络的输入均为步骤(2)中的机器人3D模型的状态s(t)和膝关节和髋关节的期望角度a(t),评价网络的输出为累积奖励函数Q(s(t),a(t));目标评价网络的输出为累积奖励函数Q'(s(t),a(t));评价网络的权值为θc(t),目标评价网络的权值为θc t(t);
以步骤(2)中的机器人3D模型的状态s(t)作为输入,膝关节和髋关节的期望角度a(t)作为输出,初始化深度神经网络,包括动作网络及目标动作网络;以机器人3D模型的状态s(t)和膝关节和髋关节的期望角度a(t)为输入,累积奖励函数Q(s(t),a(t))为输出,初始化深度神经网络,包括评价网络及目标评价网络;
(4)在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中。
(5)不断重复步骤(4),直到搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;
(6)利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新
Q(s(t),a(t))=R(t+1)+γQ'(s(t+1),a(t+1))
(7)以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);
(8)以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到步骤(7)中新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);
(9)根据步骤(7)中的得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1):θc t(t+1)=θc(t+1)τ+θc t(t)(1-τ);
根据步骤(8)中得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1):θa t(t+1)=θa(t+1)τ+θa t(t)(1-τ);其中,τ为常数。
通过上述过程,完成目标动作网络和目标评价网络的一次训练。
(10)重复步骤(4)-(9),直至所有的网络(动作网络、目标动作网络、评价网络和目标评价网络)收敛
(11)根据足式机器人3D模型的状态,利用步骤(10)中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
即可实时地根据机器人运动状态得到控制指令,该控制指令能够实现累积奖励Q的最大化。
以四足机器人足式运动为例,说明本发明的实施过程。
首先在Webots仿真环境下,建立足式机器人3D模型。设定机器人本体坐标系(图2):机器人重心位置为原点,z轴为垂直向上方向,x轴在水平面内指向机器人侧面,y轴在水平面内指向机器人前进方向。设定全局坐标系(图2):水平面上起点为全局坐标系原点,z轴垂直向上,y轴指向北极。俯视机器人,以本体坐标系原点位置为中心,将机器人的四个腿分别命令为左前、右前、左后、右后。每条腿有两个自由度,分别是髋关节h沿X轴转动和膝关节k沿X轴转动。因此,在足式运动下,选取足式机器人3D模型的控制量为:
a=[θhfr θkfr θhfl θkfl θhbr θkbr θhbl θkbl]
其中θ为关节角度,下标h表示髋关节,k表示膝关节,f和b分别为前、后,l和r分别为左、右。
选取机器人的状态量为:
s=[px py pz vx vy vz θroll θpitch θyaw wx wy wz]
其中,px和vx分别为全局坐标系下机器人沿x方向位置和速度,θroll θpitch θyaw分别为机器人本体的滚动角(沿本体y轴旋转)、俯仰角(沿本体x轴旋转)和侧滑角(沿本体z轴旋转)。
设置即时奖惩函数为:
R(s(t),a(t))=1000vy(t)-50(|θpitch(t)|+|θroll(t)|+|θyaw(t)|)-
100(|px(t)-px d(t)|+|py(t)-py d(t)|+|pz(t)-pz d(t)|)
选取步骤2状态动作值函数中的γ=0.95。
依据步骤3,以s作为网络输入,a为网络输出,建立并初始化动作网络和评价网络,网络含有5个隐层,每个隐层包含500个神经元,神经元的激活函数为ReLU函数:
φ(a)=max(0,a)
依据步骤4,从Webots中获取足式机器人3D模型的状态s(t),输入动作网络,得到a(t),机器人各关节在t+1时刻到达a(t)给出的期望角度,读取当前状态s(t+1),并计算即时奖励R(s(t),a(t))。将s(t),a(t),R(s(t),a(t)),s(t+1)存储于变量replay中。
不断重复步骤4,当replay中样本数量大于1000时,随机选取200个样本,根据步骤5,计算目标动作网络和目标评价网络的输出。并利用目标评价网络的输出,依据步骤6,对累积奖励函数Q的值Q(s(t),a(t))进行更新。
至此,即可用样本{[s(t),a(t)][Q(s(t),a(t))]}对评价网络进行训练。
根据步骤8,更新动作网络的权值θa(t+1)。再根据步骤9,利用动作网络和评价网络,更新目标动作网络和目标评价网络的权值。
至此,一次训练过程完毕。不断重复步骤4-9,在经过约20000次迭代后,网络收敛。
本实施例还提供了一种基于深度强化学习的足式机器人运动控制系统,该系统包括:第一模块,用于在Webots仿真环境中构建足式机器人3D模型;其中,足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下部;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接;第二模块,用于初始化足式机器人3D模型的状态,预设t时刻即时奖励函数R(s(t),a(t))以及累积奖励函数Q(s(t),a(t)),其中,s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型的在t时刻的膝关节和髋关节的期望角度;第三模块,用于构建动作网络及目标动作网络;构建评价网络及目标评价网络;第四模块,用于在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中;第五模块,用于通过第四模块搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;第六模块,用于利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新;第七模块,用于以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);第八模块,用于以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);第九模块,用于得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1);得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1);第十模块,用于将动作网络、目标动作网络、评价网络和目标评价网络收敛;第十一模块,用于根据足式机器人3D模型的状态,利用步骤10中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
本实施例针对足式机器人这样一种新型移动机构和全新的复合运动模式,基于深度确定性策略梯度法,首次实现了足式机器人在未知环境下的平稳快速移动,得到了一种全新高效的复合移动方式。该方法突破了现有控制方法对对象动力学模型和环境模型的依赖,极大地降低了现有控制器设计中参数调试的工作量,并且能够同时对多种运动模式同步进行运动控制策略的学习和训练,不需要分别设计。更重要的是,由于机器人是在主动地环境探索过程中不断地学习得到最优的运动策略,所以当机器人结构或设计参数改变时,或者地表接触条件变化时,只需要进行短暂的训练,这一智能运动控制方法即可适用于相似对象和相似环境。
本实施例所提出的深度确定性策略梯度法,在连续运动空间下,依靠深度神经网络实现策略函数和值函数的建模,通过合理的算法设计和充分的学习训练,能够在连续动作空间中得到最优的控制策略。这一过程是通过机器人自主探索和学习实现的,不需要人为干预,并且前期大量的学习训练可以在Webots机器人仿真软件中实现。
以上所述的实施例只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种基于深度强化学习的足式机器人运动控制方法,其特征在于,所述方法包括如下步骤:
(1)在Webots仿真环境中构建足式机器人3D模型;其中,足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下部;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接;
(2)初始化足式机器人3D模型的状态,预设t时刻即时奖励函数R(s(t),a(t))以及累积奖励函数Q(s(t),a(t)),其中,s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型在t时刻的膝关节和髋关节的期望角度;
(3)构建动作网络及目标动作网络;构建评价网络及目标评价网络;
(4)在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中;
(5)重复步骤4,直到搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;
(6)利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新;
(7)以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);
(8)以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到步骤7中新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);
(9)根据步骤7中的得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1);
根据步骤8中得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1);
(10)重复步骤(4)-(9),直至动作网络、目标动作网络、评价网络和目标评价网络收敛;
(11)根据足式机器人3D模型的状态,利用步骤10中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
2.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(2)中,初始化足式机器人3D模型的状态为预设足式机器人3D模型的质心位置、质心速度、姿态、角速度、膝关节和髋关节的初始角度。
3.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(2)中,即时奖励函数为R(s(t),a(t))=w1×前进速度(t)-w2×姿态偏差(t)-w3×位置偏差(t),其中,w1、w2和w3均为常数。
4.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(2)中,累积奖励函数为:其中,γ为常数。
5.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(6)中,即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新的公式为:Q(s(t),a(t))=R(t+1)+γQ'(s(t+1),a(t+1))。
6.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(9)中,权值θc t(t+1)为:θc t(t+1)=θc(t+1)τ+θc t(t)(1-τ),其中,τ为常数。
7.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(9)中,权值θa t(t+1)为:θa t(t+1)=θa(t+1)τ+θa t(t)(1-τ),其中,τ为常数。
8.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(3)中,动作网络及目标动作网络的输入均为步骤2中的机器人3D模型的状态s(t),动作网络的输出为膝关节和髋关节的期望角度a(t),目标动作网络的输出值为a’(t);动作网络的权值为θa(t),目标动作网络的权值为θa t(t)。
9.根据权利要求1所述的基于深度强化学习的足式机器人运动控制方法,其特征在于:在步骤(3)中,评价网络及目标评价网络的输入均为步骤2中的机器人3D模型的状态s(t)和膝关节和髋关节的期望角度a(t),评价网络的输出为累积奖励函数Q(s(t),a(t));目标评价网络的输出为累积奖励函数Q'(s(t),a(t));评价网络的权值为θc(t),目标评价网络的权值为θc t(t)。
10.一种基于深度强化学习的足式机器人运动控制系统,其特征在于包括:
第一模块,用于在Webots仿真环境中构建足式机器人3D模型;其中,足式机器人3D模型包括本体和四个腿,其中,四个腿分别与本体相连接,四个腿均位于本体下部;每个腿包括小腿、膝关节、大腿和髋关节;其中,小腿通过膝关节与大腿相连接,大腿通过髋关节与本体相连接;
第二模块,用于初始化足式机器人3D模型的状态,预设t时刻即时奖励函数R(s(t),a(t))以及累积奖励函数Q(s(t),a(t)),其中,s(t)为机器人在t时刻的机器人3D模型的状态,a(t)为机器人3D模型的在t时刻的膝关节和髋关节的期望角度;
第三模块,用于构建动作网络及目标动作网络;构建评价网络及目标评价网络;
第四模块,用于在t时刻机器人3D模型的状态s(t)下,通过动作网络生成膝关节和髋关节的期望角度a(t),在t+1时刻使得机器人3D模型的膝关节和髋关节运动至期望角度a(t),此时读取机器人的状态信息s(t+1),计算t+1时刻机器人3D模型运动的即时奖励函数R(t+1),将[s(t),a(t),s(t+1),R(t+1)]作为一个样本存储在replay变量中;
第五模块,用于通过第四模块搜集了多个样本后,从replay变量中随机选取一定数量的样本,利用目标动作网络生成s(t+1)对应的a’(t+1),以此为输入,再利用目标评价网络得到累积奖励函数Q的值Q'(s(t+1),a'(t+1));其中,a’(t+1)为t+1时刻的目标动作网络的输出值;
第六模块,用于利用replay变量中存储的即时奖励函数R(t+1)对累积奖励函数Q的值Q(s(t),a(t))进行更新;
第七模块,用于以[s(t),a(t)]为输入,Q(s(t),a(t))为输出,构建训练样本,对评价网络进行训练,得到新的评价网络权值θc(t+1);
第八模块,用于以机器人3D模型的状态s(t)为输入,并根据动作网络得到膝关节和髋关节的期望角度a(t),根据s(t)和a(t)得到新的评价网络的输出即累积奖励函数Q(s(t),a(t)),并进一步计算Q(s(t),a(t))关于a(t)的梯度,基于此梯度对动作网络进行训练,得到新的动作网络权值θa(t+1);
第九模块,用于得到的新的评价网络的权值θc(t+1)更新目标评价网络的权值θc t(t+1);得到的新的动作网络的权值θa(t+1)更新目标动作网络的权值θa t(t+1);
第十模块,用于将动作网络、目标动作网络、评价网络和目标评价网络收敛;
第十一模块,用于根据足式机器人3D模型的状态,利用步骤10中收敛的动作网络得到足式机器人3D模型的膝关节和髋关节的期望角度,实现足式机器人3D模型的运动控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216658.0A CN109483530B (zh) | 2018-10-18 | 2018-10-18 | 一种基于深度强化学习的足式机器人运动控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216658.0A CN109483530B (zh) | 2018-10-18 | 2018-10-18 | 一种基于深度强化学习的足式机器人运动控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109483530A true CN109483530A (zh) | 2019-03-19 |
CN109483530B CN109483530B (zh) | 2020-11-20 |
Family
ID=65692093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811216658.0A Active CN109483530B (zh) | 2018-10-18 | 2018-10-18 | 一种基于深度强化学习的足式机器人运动控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109483530B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110195660A (zh) * | 2019-06-19 | 2019-09-03 | 南京航空航天大学 | 基于深度q学习的航空发动机控制装置 |
CN110370295A (zh) * | 2019-07-02 | 2019-10-25 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110764415A (zh) * | 2019-10-31 | 2020-02-07 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
CN110764416A (zh) * | 2019-11-11 | 2020-02-07 | 河海大学 | 基于深度q网络的仿人机器人步态优化控制方法 |
CN110861084A (zh) * | 2019-11-18 | 2020-03-06 | 东南大学 | 一种基于深度强化学习的四足机器人跌倒自复位控制方法 |
CN111547039A (zh) * | 2020-05-13 | 2020-08-18 | 北京理工大学 | 基于深度强化学习的混合动力车辆油门控制方法及系统 |
CN111597224A (zh) * | 2020-04-17 | 2020-08-28 | 北京百度网讯科技有限公司 | 结构化信息的生成方法、装置、电子设备和存储介质 |
CN111687846A (zh) * | 2020-06-24 | 2020-09-22 | 山东大学 | 一种四足机器人分布式高实时性控制系统及方法 |
CN112684794A (zh) * | 2020-12-07 | 2021-04-20 | 杭州未名信科科技有限公司 | 基于元强化学习的足式机器人运动控制方法、装置及介质 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN113128283A (zh) * | 2019-12-31 | 2021-07-16 | 沸腾时刻智能科技(深圳)有限公司 | 评估方法、模型构建方法、教学机、教学系统及电子设备 |
CN113134834A (zh) * | 2021-03-31 | 2021-07-20 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
CN116824971A (zh) * | 2023-05-30 | 2023-09-29 | 深圳市宏泰智能创意电子科技有限公司 | 仿真爬行机器人及其控制方法 |
CN116911176A (zh) * | 2023-07-08 | 2023-10-20 | 哈尔滨理工大学 | 一种基于轮式移动机器人速度和振动状态的地形可通过性预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719480A (en) * | 1992-10-27 | 1998-02-17 | Minister Of National Defence Of Her Majesty's Canadian Government | Parametric control device |
CN101320251A (zh) * | 2008-07-15 | 2008-12-10 | 华南理工大学 | 基于确定学习理论的机器人行走控制方法 |
CN107450555A (zh) * | 2017-08-30 | 2017-12-08 | 唐开强 | 一种基于深度强化学习的六足机器人实时步态规划方法 |
CN108536011A (zh) * | 2018-03-19 | 2018-09-14 | 中山大学 | 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
-
2018
- 2018-10-18 CN CN201811216658.0A patent/CN109483530B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719480A (en) * | 1992-10-27 | 1998-02-17 | Minister Of National Defence Of Her Majesty's Canadian Government | Parametric control device |
CN101320251A (zh) * | 2008-07-15 | 2008-12-10 | 华南理工大学 | 基于确定学习理论的机器人行走控制方法 |
CN107450555A (zh) * | 2017-08-30 | 2017-12-08 | 唐开强 | 一种基于深度强化学习的六足机器人实时步态规划方法 |
CN108536011A (zh) * | 2018-03-19 | 2018-09-14 | 中山大学 | 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
Non-Patent Citations (1)
Title |
---|
薛天: "深度强化学习原理及其在机器人运动控制中的运用", 《通讯世界》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110195660B (zh) * | 2019-06-19 | 2020-04-21 | 南京航空航天大学 | 基于深度q学习的航空发动机控制装置 |
CN110195660A (zh) * | 2019-06-19 | 2019-09-03 | 南京航空航天大学 | 基于深度q学习的航空发动机控制装置 |
CN110370295A (zh) * | 2019-07-02 | 2019-10-25 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110370295B (zh) * | 2019-07-02 | 2020-12-18 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110764415A (zh) * | 2019-10-31 | 2020-02-07 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
CN110764415B (zh) * | 2019-10-31 | 2022-04-15 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
CN110764416A (zh) * | 2019-11-11 | 2020-02-07 | 河海大学 | 基于深度q网络的仿人机器人步态优化控制方法 |
CN110861084A (zh) * | 2019-11-18 | 2020-03-06 | 东南大学 | 一种基于深度强化学习的四足机器人跌倒自复位控制方法 |
CN110861084B (zh) * | 2019-11-18 | 2022-04-05 | 东南大学 | 一种基于深度强化学习的四足机器人跌倒自复位控制方法 |
CN113128283A (zh) * | 2019-12-31 | 2021-07-16 | 沸腾时刻智能科技(深圳)有限公司 | 评估方法、模型构建方法、教学机、教学系统及电子设备 |
CN111597224A (zh) * | 2020-04-17 | 2020-08-28 | 北京百度网讯科技有限公司 | 结构化信息的生成方法、装置、电子设备和存储介质 |
CN111597224B (zh) * | 2020-04-17 | 2023-09-15 | 北京百度网讯科技有限公司 | 结构化信息的生成方法、装置、电子设备和存储介质 |
CN111547039A (zh) * | 2020-05-13 | 2020-08-18 | 北京理工大学 | 基于深度强化学习的混合动力车辆油门控制方法及系统 |
CN111547039B (zh) * | 2020-05-13 | 2021-03-23 | 北京理工大学 | 基于深度强化学习的混合动力车辆油门控制方法及系统 |
CN111687846B (zh) * | 2020-06-24 | 2021-09-24 | 山东大学 | 一种四足机器人分布式高实时性控制系统及方法 |
CN111687846A (zh) * | 2020-06-24 | 2020-09-22 | 山东大学 | 一种四足机器人分布式高实时性控制系统及方法 |
CN112684794A (zh) * | 2020-12-07 | 2021-04-20 | 杭州未名信科科技有限公司 | 基于元强化学习的足式机器人运动控制方法、装置及介质 |
CN112684794B (zh) * | 2020-12-07 | 2022-12-20 | 杭州未名信科科技有限公司 | 基于元强化学习的足式机器人运动控制方法、装置及介质 |
CN113031528B (zh) * | 2021-02-25 | 2022-03-15 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113134834A (zh) * | 2021-03-31 | 2021-07-20 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
CN113134834B (zh) * | 2021-03-31 | 2022-06-03 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN116824971A (zh) * | 2023-05-30 | 2023-09-29 | 深圳市宏泰智能创意电子科技有限公司 | 仿真爬行机器人及其控制方法 |
CN116824971B (zh) * | 2023-05-30 | 2024-03-29 | 深圳市宏泰智能创意电子科技有限公司 | 仿真爬行机器人及其控制方法 |
CN116911176A (zh) * | 2023-07-08 | 2023-10-20 | 哈尔滨理工大学 | 一种基于轮式移动机器人速度和振动状态的地形可通过性预测方法 |
CN116911176B (zh) * | 2023-07-08 | 2024-04-30 | 哈尔滨理工大学 | 一种基于轮式移动机器人速度和振动状态的地形可通过性预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109483530B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109483530A (zh) | 一种基于深度强化学习的足式机器人运动控制方法及系统 | |
Hu et al. | Chainqueen: A real-time differentiable physical simulator for soft robotics | |
CN108115681B (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
Costa et al. | Simtwo realistic simulator: A tool for the development and validation of robot software | |
Zagal et al. | UCHILSIM: A dynamically and visually realistic simulator for the RoboCup four legged league | |
CN113821045B (zh) | 一种腿足机器人强化学习动作生成系统 | |
Yang et al. | Learning flexible and reusable locomotion primitives for a microrobot | |
Hu et al. | Learning a faster locomotion gait for a quadruped robot with model-free deep reinforcement learning | |
Leng et al. | M-A3C: a mean-asynchronous advantage actor-critic reinforcement learning method for real-time gait planning of biped robot | |
Tang et al. | Humanmimic: Learning natural locomotion and transitions for humanoid robot via wasserstein adversarial imitation | |
Cherubini et al. | Policy gradient learning for a humanoid soccer robot | |
Shen et al. | A deep reinforcement learning environment for particle robot navigation and object manipulation | |
Jaiswal et al. | Using TRPO to control quadruped gait behaviors | |
Vonásek et al. | A light-weight robot simulator for modular robotics | |
Belter et al. | Evolving feasible gaits for a hexapod robot by reducing the space of possible solutions | |
Jiang et al. | Motion sequence learning for robot walking based on pose optimization | |
Yin et al. | The vector control scheme for amphibious spherical robots based on reinforcement learning | |
Xu et al. | A humanoid robot path planning method based on virtual force-directed particle swarm optimisation | |
Moore et al. | Evolution of an amphibious robot with passive joints | |
Shafii et al. | Two humanoid simulators: Comparison and synthesis | |
Lima et al. | Realistic behaviour simulation of a humanoid robot | |
Berseth | Scalable deep reinforcement learning for physics-based motion control | |
Jiang et al. | Sim-to-real: Quadruped robot control with deep reinforcement learning and parallel training | |
Colin et al. | Whole-body dynamic telelocomotion: A step-to-step dynamics approach to human walking reference generation | |
Iocchi et al. | Learning humanoid soccer actions interleaving simulated and real data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |