CN111360834B - 一种基于深度强化学习的仿人机器人运动控制方法及系统 - Google Patents

一种基于深度强化学习的仿人机器人运动控制方法及系统 Download PDF

Info

Publication number
CN111360834B
CN111360834B CN202010217670.4A CN202010217670A CN111360834B CN 111360834 B CN111360834 B CN 111360834B CN 202010217670 A CN202010217670 A CN 202010217670A CN 111360834 B CN111360834 B CN 111360834B
Authority
CN
China
Prior art keywords
control
reinforcement learning
experience
joint
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010217670.4A
Other languages
English (en)
Other versions
CN111360834A (zh
Inventor
任炬
许人文
张尧学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010217670.4A priority Critical patent/CN111360834B/zh
Publication of CN111360834A publication Critical patent/CN111360834A/zh
Application granted granted Critical
Publication of CN111360834B publication Critical patent/CN111360834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1633Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种基于深度强化学习的仿人机器人运动控制方法及系统,方法包括:S1.仿真控制:获取仿人机器人的当前状态,根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;S2.PD控制:通过PD控制器,以所述目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据所述控制力矩控制关节动作。本发明具有控制稳定性好、可靠性好等优点。

Description

一种基于深度强化学习的仿人机器人运动控制方法及系统
技术领域
本发明涉及仿人机器人运动控制技术领域,尤其涉及一种基于深度强化学习的仿人机器人运动控制方法及系统。
背景技术
仿人机器人具有巨大的应用潜力,可以部署在轮式机器人使用受限环境中,例如有障碍物地形,狭窄和高起的表面(例如楼梯)。但是,与轮式或履带式机器人相比,仿人机器人本质上是不稳定,而且由于其有限的支撑区域,较高的质心和有限的执行器功能,需要主动控制才能达到平衡。因此,仿人机器人的应用场景范围主要受到仿人机器人保持平衡的限制,以及应对干扰和不确定性的能力的限制。
经典的控制方法提出了各种各样的运动算法,但是这些算法缺乏通用性,而且是基于简化模型进行训练,抗干扰能力差。近年来,强化学习算法应用于仿人机器人运动控制,但仍存在面临调参困难,训练缓慢等问题,难以稳定、可靠地实现仿人机器人的运动控制。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种控制稳定性好、可靠性好的基于深度强化学习的仿人机器人运动控制方法及系统。
为解决上述技术问题,本发明提出的技术方案为:一种基于深度强化学习的仿人机器人运动控制方法,包括:
S1.仿真控制:获取仿人机器人的当前状态,根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;
S2.PD控制:通过PD控制器,以所述目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据所述控制力矩控制关节动作。
进一步地,所述深度强化学习模型包括第一经验回放池和第二经验回放池;
所述第一经验回放池用于存储深度强化学习模型新产生的经验;
所述第二经验回放池用于存储深度强化学习模型新产生的经验和从所述第一经验回放池中剔除的旧经验;
所述深度强化学习模型按照预设的第一概率从所述第一经验回放池中抽取经验,以预设的第二概率从所述第二经验回放池中抽取经验,对神经网络进行训练。
进一步地,所述深度强化学习模型的奖励函数为多个奖励子项之和;所述奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。
进一步地,所述奖励子项还包括:地面接触状态奖励和功耗奖励。
进一步地,所述仿真控制的控制频率小于所述PD控制的控制频率。
一种基于深度强化学习的仿人机器人运动控制系统,包括仿真控制模块和PD控制模块;
所述仿真控制模块用于获取仿人机器人的当前状态,根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;
所述PD控制模块用于以所述目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据所述控制力矩控制关节动作。
进一步地,所述深度强化学习模型包括第一经验回放池和第二经验回放池;
所述第一经验回放池用于存储深度强化学习模型新产生的经验;
所述第二经验回放池用于存储深度强化学习模型新产生的经验和从所述第一经验回放池中剔除的旧经验;
所述深度强化学习模型按照预设的第一概率从所述第一经验回放池中抽取经验,以预设的第二概率从所述第二经验回放池中抽取经验,对神经网络进行训练。
进一步地,所述深度强化学习模型的奖励函数为多个奖励子项之和;所述奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。
进一步地,所述奖励子项还包括:地面接触状态奖励和功耗奖励。
进一步地,所述仿真控制的控制频率小于所述PD控制的控制频率。
与现有技术相比,本发明的优点在于:
1、本发明通过深度强化学习模型来确定仿人机器人关节的目标角度,再通过PD控制器来具体控制仿人机器人执行关节动作,可以有效提高仿人机器人运动控制中稳定性和可靠性。
2、本发明的深度强化学习模型采用两个经验回放池存储深度强化学习模型的经验,并按照一定比率从两个经验回放池中读取经验来对深度强化学习模型进行训练,可以有效提高深度强化学习模型的学习速度,提高深度强化学习模型的训练效率。
附图说明
图1为本发明的具体实施例的流程示意图。
图2为本发明的具体实施例仿真实验中仿人机器人结构模型示意图。
图3为本发明的具体实施例中深度确定性策略梯度网络的训练过程流程示意图。
图4为本发明的具体实施例中PD控制器控制机器人行走流程示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例的基于深度强化学习的仿人机器人运动控制方法,包括:S1.仿真控制:获取仿人机器人的当前状态,根据当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;S2.PD控制:通过PD控制器,以目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据控制力矩控制关节动作。
在本实施例中,以一个具体的仿人机器人模型为例进行说明,如图2所示,并选择行走作为仿人机器人运动方式。设仿人机器人模型是由头部,躯干,两条胳膊,两条腿组成,并基于真实人体测量数据进行构建。该模型包含十二个刚体,包含:头部,躯干和左、右大臂,左、右小臂和左、右大腿,左、右小腿和左、右脚。此外,该模型有以下十个关节:左、右髋关节、左、右膝关节,左、右踝关节,左、右肩关节,左、右肘关节。其中,髋关节和踝关节可以沿x轴(内侧-外侧)和y轴(前后)旋转,肩关节和肘关节可以沿x轴(左右)和z轴(上下)旋转。在模拟环境中添加了两个无摩擦的墙,以约束仿人机器人在矢状面上移动,因此脚踝的x轴旋转提供了大部分移动。脚踝的y轴旋转保持不变,这样当侧倾时,脚可以与地面进行稳固接触。膝关节被约束为仅绕x轴旋转,从而使系统具有总共14个自由度。根据人类的重量和高度,从人体测量表中计算出身体部分的质量和长度比例,同时将身体的形状和转动惯量简化为均匀的胶囊体形状,以加快模拟速度。设仿人机器人模型的高度设定为1.8米,重量为75公斤。模拟惯性测量单元(IMU)传感器连接到躯干中心,以测量其速度和加速度。力传感器建立在左、右脚底,用于检测地面接触力,所有关节角度和关节速度都可以从仿真环境中直接读取。需要说明的是,仿人机器人模型的结构、关节也可以是其它形态,运动类型也可以为其它运动,如手臂运动等。
在本实施例中,深度强化学习模型包括第一经验回放池和第二经验回放池;第一经验回放池用于存储深度强化学习模型新产生的经验;第二经验回放池用于存储深度强化学习模型新产生的经验和从第一经验回放池中剔除的旧经验;深度强化学习模型按照预设的第一概率从第一经验回放池中抽取经验,以预设的第二概率从第二经验回放池中抽取经验,对神经网络进行训练。深度强化学习模型的奖励函数为多个奖励子项之和;奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。奖励子项优选还包括:地面接触状态奖励和功耗奖励。需要说明的是,当仿人机器人的运动形态不同,奖励函数相应变化,增加或删减奖励子项。
在本实施例中,调节上体姿态奖励rpose如式(1)所示:
Figure BDA0002425003010000031
ωtorsoPitch为上身躯干俯仰角,
Figure BDA0002425003010000032
为上身躯干俯仰奖励,ωpelvisPitch为下身盆骨俯仰角,
Figure BDA0002425003010000041
为下身盆骨俯仰奖励,ωtorsoRoll为上身躯干倾斜角,
Figure BDA0002425003010000042
为上身躯干倾斜奖励,ωPitchRoll为下身盆骨倾斜角,
Figure BDA0002425003010000043
为下身盆骨倾斜奖励;在本实施例中,上体姿态由躯干和骨盆的俯仰和侧倾角度表示,并以骨盆和躯干的俯仰-侧倾角度的所需方向为0,即上身直立时的方向。
调节质量中心位置奖励rCoM_pos如式(2)所示:
Figure BDA0002425003010000044
ωxyCoM为质量中心的水平位置,
Figure BDA0002425003010000045
为水平位置的奖励,ωzCoM为质量中心的垂直位置,
Figure BDA0002425003010000046
为垂直位置的奖励;在本实施例中,质量中心位置的奖励项分解为水平和垂直分量。对于水平质量中心的位置,目标位置是支持多边形的中心,以提供最大的干扰补偿。对于垂直质量中心的位置,机器人应直立并保持一定高度。
调节质量中心速度奖励
Figure BDA0002425003010000047
如式(3)所示:
Figure BDA0002425003010000048
式(3)中各参数的定义与上文相同。在本实施例中,质量中心速度类似于质量中心位置,质量中心速度的奖励被分解为两个分量:水平和垂直平面中的速度。质量中心速度在世界坐标系中表示。以最小化垂直运动作为目标,因此所需的垂直质量中心速度为0,而水平质量中心速度的所需速度是从捕获点得出的。并设捕获点仅在机器人与地面接触且没有打滑时才有效。
调节地面接触力奖励rGRF如式(4)所示:
Figure BDA0002425003010000049
ωFleft为左脚的接触力矩,
Figure BDA00024250030100000410
为左脚接触力矩奖励,ωFright为右脚的接触力矩,
Figure BDA00024250030100000411
为右脚接触力矩奖励;在本实施例中,接触力必须均匀分布在两个脚之间,以保持稳定的稳健平衡。137kg的总质量每英尺产生671.3N的力。
地面接触状态奖励rcontact如式(5)所示:
Figure BDA00024250030100000412
k为预设的第一常数,l为预设的第二常数;第一常数和第二常数均为负数,且第一常数大于第二常数。优选k=-2,l=-10。在本实施例中,当机器人站立时,只有脚与地面接触,因此当双脚与地面或除脚与地面接触以外的身体部位失去接触时,将受到惩罚。
功耗奖励rcontact如式(6)所示:
Figure BDA0002425003010000051
ωpower为是预设的权重,j为关节的驱动器编号,J为关节的驱动器总数,τj为编号为j的驱动器的关节扭矩,qj为编号为j的驱动器的关节角速度。
在本实施例中,上身躯干俯仰奖励
Figure BDA0002425003010000052
下身盆骨俯仰奖励
Figure BDA0002425003010000053
上身躯干倾斜奖励
Figure BDA0002425003010000054
下身盆骨倾斜奖励
Figure BDA0002425003010000055
水平位置的奖励
Figure BDA0002425003010000056
垂直位置的奖励
Figure BDA0002425003010000057
左脚接触力矩奖励
Figure BDA0002425003010000058
右脚接触力矩奖励
Figure BDA0002425003010000059
的具体计算方法如式(7)所示:
ri=exp(-αi(xtarget-x)2)    (7)
式(7)中,ri为计算得到的奖励值,xtarget为奖励期望值,αi为预设的归一化因子,x为奖励参数。
则深度强化学习模型的奖励函数如式(8)所示:
r=rpose+rCoM_pos+rCoM_vel+rGRF+rcontact+rpower                              (8)
式(8)中各参数的定义与上文相同。
在本实施例中,深度强化学习模型采用深度确定性策略梯度网络,包括动作网络和评价网络,而动作网络和评价网络都具有两个隐藏层。第一层有400个神经元,第二层有300个神经元。动作网络的输出通过ReLU激活函数。深度确定性策略梯度网络在训练过程中,将训练经验存入经验回放池,本实施例中设置有第一经验回放池和第二经验回放池共2个经验回放池,可以存放70,000个经验,当存储20,000个经验时便开始训练。Actor和Critic的学习率分别设置为10-8和2×10-8。奖励折扣γ设置为0.99,训练批次为100个样本。深度确定性策略梯度网络根据前一步的速度、躯干俯仰角度、步长和ZMP(零力矩点)位置来决定下一个摆动脚的距离和速度。
在本实施例中,深度确定性策略梯度网络的动作网络输入参数为仿人机器人的当前状态,即各关节的当前角度作为状态特征,输出为各关节的目标角度。深度确定性策略梯度网络的评价网络的输入参数除了状态特征外,还将动作参数作为输入,动作参数的值会跳过第一隐藏层,直接转发到第二隐藏层。深度确定性策略梯度网络的网络输入由连续的状态特征组成,这些状态特征通过截止频率为10Hz的Butterworth滤波器进行滤波,而离散状态特征则保持不变。
在本实施例中,如图3所示,深度确定性策略梯度网络的训练过程为:1、初始化神经网络参数,初始化经验回放池;2、根据当前的状态st,深度确定性策略梯度网络计算得到在当前状态下的动作at,计算针对该动作at的奖励函数rt,更新网络,在仿人机器人执行完动作at后,进入到下一个状态st+1,并将状态转换过程[st,at,rt,st+1]存入第一经验回放池和第二经验回放池。第一经验回放池按照标准FIFO(先入先出)方式存放经验,因此,经验样本在第一经验回放池中的分布将大致对应于当前的策略。第二经验回放池不仅会存储深度确定性策略梯度网络在状态转换过程中产生的新的经验[st,at,rt,st+1],同时,当第一经验回放池存满后,第一经验回放池被抛弃的经验也会存入到第二经验回放池中,在第二经验回放池在存满后,按照与新的经验样本距离差大小来覆盖旧经验,其中距离差的计算方式可表示为式(9)所示:
Figure BDA0002425003010000061
式(9)中,ioverwrite为将被覆盖的旧经验,i为第二经验回放池中旧的经验样本,D为第二经验回放池中的经验样本集合,j为第二经验回放池中新的经验样本,d为状态动作空间的维度,DN为状态动作空间的总维度,id为i样本的第d维度,jd为j样本的第d维度,Cd为预设的与尺寸相关的缩放常数,优选
Figure BDA0002425003010000062
C为预设的常数,取决于数据库的大小和分布的属性。
在本实施例中,在通过第一经验回放池和第二经验回放池中存储的经验样本对神经网络进行训练时,在概率β从第一经验回放池中均匀随机抽取经验样本,以概率1-β从第一经验回放池中均匀随机抽取经验样本,对神经网络进行训练。
在本实施例中,具体控制仿人机器人的关节执行下一步动作,即执行目标角度时,采用PD控制:即通过PD控制器,以目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据控制力矩控制关节动作。PD控制器用作低电平控制器,PD控制器因为具有弹簧阻尼特性,类似于系统的生物力学,可以很好的控制仿人机器人执行目标角度。PD控制器的输入是深度确定性策略梯度网络所计算得到的目标角度,输出是关节驱动装置的扭矩,并且,PD控制器以关节的实际角度和关节驱动装置的力矩为反馈,并对反馈信号进行滤波,滤波截止频率优选为50Hz,滤波方式优选为Butterworth滤波。
在本实施例中,PD控制器的控制过程如式(10)所示:
u=Kp(qtarget-qmeasured)-Kdq'mearsured                                (10)
式(10)中,u为PD控制器的输出,即PD控制器控制关节驱动器的动作步长,Kp和Kd分别是预设的PD增益,qtarget为关节的目标角度,qmeasured为测量得到的关节的当前角度,q'mearsured为测量得到的关节的当前速度。
如针对仿人机器人在行走过程中,当抬起的脚接触地面时,仿人机器人开始围绕踝关节旋转,此时,髋关节需要根据踝关节移动,以使躯干保持笔直,并提供动力将躯干向前推动。此时,PD控制器的输出是髋关节的目标角速度,目的是保持躯干直立而不会产生过冲,因为过冲会导致躯干来回摆动并危及稳定性。理想情况下,躯干稍微向前倾斜以保持动力和平稳的自然步态。为此,本实施例通过PD控制器的残余误差来使躯干略微偏离Z轴。
在躯干俯仰相对于z轴保持不变的情况下,臀部的水平速度将与躯干中心的水平速度相同,即有vt=vp
Figure BDA0002425003010000071
其中vt和vp分别是躯干质心和髋关节的线速度,ω是围绕髋关节的大腿的角速度,
Figure BDA0002425003010000072
是围绕脚踝的角速度,围绕脚踝的角速度可以直接测量,满足下式:
Figure BDA0002425003010000073
α是腿部与Z轴方向的夹角,L是腿的长度。PD控制器对此进行控制的控制方程式可表示为:
Figure BDA0002425003010000074
其中,K为控制增益,Φ为躯干俯仰角,如果躯干俯仰角Φ大于目标值Φ0,即Φ>Φ0,则
Figure BDA0002425003010000075
因此,俯仰角减小,反之亦然。控制增益K为
Figure BDA0002425003010000076
当选择目标俯仰接近零时,Φ0=0.02。
在本实施例中,如图4所示,针对仿人机器人行走运动时脚踝动作的特点,在脚离开地面的阶段,在深度确定性策略梯度网络确定脚踝关节的目标角度后,通过被动控制的方式来对脚踝关节进行控制。通过这种策略,其优点在于:(1)可以使脚与地面的接触更平滑;(2)保持倒立摆的动力特性;(3)当脚与地面接触时,需要最小的力来驱动身体围绕踝部;(4)减少了系统中的总噪声。进一步优选,将脚踝的阻尼系数设置为1,此阻尼量有助于吸收地面接触产生的影响,而不会妨碍挥杆动作。
具体地,在脚离开地面阶段,脚踝上将施加扭矩以推动身体向前移动。扭矩由当前的步行速度决定。目标是将仿人机器人的动量保持在一定范围内。如果给出了所需的步行速度,则有Δv=v0-vdesire,其中,Δv为所需速度,v0为当前速度,vdesire为目标速度。如果躯干俯仰保持恒定,则躯干的角速度为零,ωtorso=0。臀部的速度Δvhip等于躯干中心的速度Δvcenter,Δvcenter=Δvhip。如果脚趾离开阶段时间短,则在脚趾抬起期间,在运动过程中位于身体后方的腿的髋关节角度保持大致相同,可以忽略后脚的动量。为了使躯干角速度ωtorso=0,扭矩hip必须作用在运动过程中位于身体后方的腿的髋关节上:
Figure BDA0002425003010000077
其中,τhip为作用在髋关节上的扭矩,Jtorso为躯干的惯性力矩,Δt为单位时间,
Figure BDA0002425003010000078
为单位时间内围绕脚踝转动的角速度。对于在运动过程中位于身体前方的腿的踝关节,有
Figure BDA0002425003010000079
τ为作用在踝关节上的扭矩,τc为由阻尼器引起的扭矩,τhip为作用在髋关节上的扭矩,Δt为单位时间,Jleg为运动过程中位于身体前方的腿围绕前踝关节的转动惯量,
Figure BDA0002425003010000081
为单位时间围绕脚踝转动的角速度,
Figure BDA0002425003010000082
Figure BDA0002425003010000083
l为腿的长度,ml为腿的质量,β'为两腿之间的夹角,c为踝关节的阻尼系数。
本实施例通过上述的控制策略,可以有效的保证仿人机器人运动控制的稳定性和可靠性。需要说明的是,虽然在本实施例中只以仿人机器人的行走形态为例对运动控制进行说明,但本发明的技术方案并不只限定于对仿人机器人的行走运动控制。
在本实施例中,仿真控制的控制频率小于PD控制的控制频率。针对仿人机器人的行走运动形态,优选仿真控制的频率为小于等于50Hz,进一步优选为小于等于25Hz;PD控制的控制频率大于等于300Hz,进一步优选为大于等于500Hz。也就是说,通过深度确定性策略梯度网络的仿真控制,可以给出较大粒度的关节控制目标,再通过细粒度的PD控制,来具体控制关节实现上述控制目标。
本实施例的基于深度强化学习的仿人机器人运动控制系统,包括仿真控制模块和PD控制模块;仿真控制模块用于获取仿人机器人的当前状态,根据当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;PD控制模块用于以目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据控制力矩控制关节动作。本实施例的基于深度强化学习的仿人机器人运动控制系统用于实现上述运动控制方法。
在本实施例中,深度强化学习模型包括第一经验回放池和第二经验回放池;第一经验回放池用于存储深度强化学习模型新产生的经验;第二经验回放池用于存储深度强化学习模型新产生的经验和从第一经验回放池中剔除的旧经验;深度强化学习模型按照预设的第一概率从第一经验回放池中抽取经验,以预设的第二概率从第二经验回放池中抽取经验,对神经网络进行训练。
在本实施例中,深度强化学习模型的奖励函数为多个奖励子项之和;奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。奖励子项还包括:地面接触状态奖励和功耗奖励。仿真控制的控制频率小于PD控制的控制频率。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (8)

1.一种基于深度强化学习的仿人机器人运动控制方法,其特征在于:
S1.仿真控制:获取仿人机器人的当前状态,根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;
S2.PD控制:通过PD控制器,以所述目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据所述控制力矩控制关节动作;
所述深度强化学习模型包括第一经验回放池和第二经验回放池;
所述第一经验回放池用于存储深度强化学习模型新产生的经验;
所述第二经验回放池用于存储深度强化学习模型新产生的经验和从所述第一经验回放池中剔除的旧经验;
所述深度强化学习模型按照预设的第一概率从所述第一经验回放池中抽取经验,以预设的第二概率从所述第二经验回放池中抽取经验,对神经网络进行训练。
2.根据权利要求1所述的基于深度强化学习的仿人机器人运动控制方法,其特征在于:所述深度强化学习模型的奖励函数为多个奖励子项之和;所述奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。
3.根据权利要求2所述的基于深度强化学习的仿人机器人运动控制方法,其特征在于:所述奖励子项还包括:地面接触状态奖励和功耗奖励。
4.根据权利要求1至3任一项所述的基于深度强化学习的仿人机器人运动控制方法,其特征在于:所述仿真控制的控制频率小于所述PD控制的控制频率。
5.一种基于深度强化学习的仿人机器人运动控制系统,其特征在于:包括仿真控制模块和PD控制模块;
所述仿真控制模块用于获取仿人机器人的当前状态,根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度;
所述PD控制模块用于以所述目标角度作为控制目标,以关节的实际角度和关节力矩为反馈,确定关节的控制力矩,并根据所述控制力矩控制关节动作;
所述深度强化学习模型包括第一经验回放池和第二经验回放池;
所述第一经验回放池用于存储深度强化学习模型新产生的经验;
所述第二经验回放池用于存储深度强化学习模型新产生的经验和从所述第一经验回放池中剔除的旧经验;
所述深度强化学习模型按照预设的第一概率从所述第一经验回放池中抽取经验,以预设的第二概率从所述第二经验回放池中抽取经验,对神经网络进行训练。
6.根据权利要求5所述的基于深度强化学习的仿人机器人运动控制系统,其特征在于:所述深度强化学习模型的奖励函数为多个奖励子项之和;所述奖励子项包括:调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。
7.根据权利要求6所述的基于深度强化学习的仿人机器人运动控制系统,其特征在于:所述奖励子项还包括:地面接触状态奖励和功耗奖励。
8.根据权利要求5至7任一项所述的基于深度强化学习的仿人机器人运动控制系统,其特征在于:所述仿真控制的控制频率小于所述PD控制的控制频率。
CN202010217670.4A 2020-03-25 2020-03-25 一种基于深度强化学习的仿人机器人运动控制方法及系统 Active CN111360834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010217670.4A CN111360834B (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的仿人机器人运动控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010217670.4A CN111360834B (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的仿人机器人运动控制方法及系统

Publications (2)

Publication Number Publication Date
CN111360834A CN111360834A (zh) 2020-07-03
CN111360834B true CN111360834B (zh) 2023-04-07

Family

ID=71200748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010217670.4A Active CN111360834B (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的仿人机器人运动控制方法及系统

Country Status (1)

Country Link
CN (1) CN111360834B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112060075B (zh) * 2020-07-21 2022-01-04 深圳先进技术研究院 步态生成网络的训练方法、训练设备以及存储介质
CN112631277B (zh) * 2020-12-08 2022-01-18 中山大学 一种四足机器人站姿转换的平衡控制方法及系统
CN112847371B (zh) * 2021-01-11 2023-02-24 常州工程职业技术学院 一种仿人机器人动态跨越连续障碍物的运动规划方法
CN114851184B (zh) * 2021-01-20 2023-05-09 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法
CN113081582B (zh) * 2021-03-18 2022-06-28 上海交通大学 一种机器人辅助站立轨迹生成方法
CN113031639B (zh) * 2021-03-22 2024-03-12 深圳市优必选科技股份有限公司 机器人步长处理方法、装置、机器人控制设备及存储介质
CN113050645B (zh) * 2021-03-22 2022-04-01 华中科技大学 一种双足机器人的弹簧负载倒立摆模型及步态规划方法
CN113821045B (zh) * 2021-08-12 2023-07-07 浙江大学 一种腿足机器人强化学习动作生成系统
CN114800493B8 (zh) * 2022-04-06 2023-11-14 无锡瑞吉德机械有限公司 基于强化学习的钻孔力矩稳定性控制系统及方法
CN116442240B (zh) * 2023-05-26 2023-11-14 中山大学 一种基于高通滤波解耦的机器人零力控制方法及装置
CN117555339B (zh) * 2024-01-11 2024-04-26 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101772974B1 (ko) * 2010-12-21 2017-09-12 삼성전자주식회사 휴머노이드 로봇의 인간 유사 동작 생성 방법
CN103019096B (zh) * 2012-11-23 2015-09-16 北京理工大学 一种基于加速度优化的仿人机器人逆动力学控制器
CN103279039A (zh) * 2013-05-17 2013-09-04 安徽工业大学 一种机器人神经网络式计算力矩控制器训练平台及训练方法
CN108052004B (zh) * 2017-12-06 2020-11-10 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108549237B (zh) * 2018-05-16 2020-04-28 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN109648564B (zh) * 2019-01-15 2021-07-06 西安科技大学 一种基于递阶结构mpc的多自由度柔性关节机械臂系统的控制方法

Also Published As

Publication number Publication date
CN111360834A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111360834B (zh) 一种基于深度强化学习的仿人机器人运动控制方法及系统
CN103257652B (zh) 步行机器人及其控制方法
JP4836592B2 (ja) ロボット装置及びその制御方法
Park et al. ZMP trajectory generation for reduced trunk motions of biped robots
US20070145930A1 (en) Robot controller
CN103153356A (zh) 用于人体外骨骼的人机界面
JP6682341B2 (ja) 歩行制御方法、歩行制御プログラム及び2足歩行ロボット
CN107598897A (zh) 一种基于人体示教的仿人机器人步态规划的方法
CN108338791A (zh) 失稳运动数据的检测装置及检测方法
CN106983589A (zh) 一种基于干扰观测器的主动型膝上假肢终端滑模控制方法
CN112060075B (zh) 步态生成网络的训练方法、训练设备以及存储介质
CN113348129A (zh) 陀螺稳定腿式机器人
CN112987769B (zh) 四足机器人在变刚度地形稳定过渡的腿部主动调节方法
Kim et al. Stabilization of a three-dimensional limit cycle walking model through step-to-step ankle control
CN116619382A (zh) 机器人运动控制方法、系统及电子设备
CN104656440A (zh) 仿人机器人步态生成方法
Liu et al. Bipedal walking with push recovery balance control involves posture correction
CN208591046U (zh) 失稳运动数据的检测装置
Fleischer et al. Online calibration of the EMG to force relationship
Lee et al. Estimation of unmeasured golf swing of arm based on the swing dynamics
Sahoo et al. A novel supervisory control scheme to tackle variations in step length for walking with powered ankle prosthesis
WO2022099423A1 (en) System and method for determining the maximum running speed of a runner and uses thereof
Witt Paper 4: A Feasibility Study on Powered Lower-Limb Prostheses
Fukuoka et al. Integration of multi sensors for adaptive walking of a quadruped robot
JPH1185209A (ja) 人体の動きのシミュレーション方法およびその方法を用いたアニメーション生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant