CN114047697B - 一种基于深度强化学习的四足机器人平衡倒立摆控制方法 - Google Patents

一种基于深度强化学习的四足机器人平衡倒立摆控制方法 Download PDF

Info

Publication number
CN114047697B
CN114047697B CN202111307449.9A CN202111307449A CN114047697B CN 114047697 B CN114047697 B CN 114047697B CN 202111307449 A CN202111307449 A CN 202111307449A CN 114047697 B CN114047697 B CN 114047697B
Authority
CN
China
Prior art keywords
inverted pendulum
foot robot
robot
network
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111307449.9A
Other languages
English (en)
Other versions
CN114047697A (zh
Inventor
吴上玉
雷贤卿
李伟
李明
李道玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN202111307449.9A priority Critical patent/CN114047697B/zh
Publication of CN114047697A publication Critical patent/CN114047697A/zh
Application granted granted Critical
Publication of CN114047697B publication Critical patent/CN114047697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Automation & Control Theory (AREA)
  • Geometry (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于深度强化学习的四足机器人平衡倒立摆控制方法,首先搭建具有神经网络训练能力的四足机器人平衡倒立摆虚拟仿真环境;对深度确定性策略梯度(DDPG)算法中的演员‑评论家网络进行设计;根据四足机器人逆运动学及深度强化学习奖励规则,设计了分层奖励函数;演员‑评论家网络获取回放经验池中的数据进行训练,输出优化的四足机器人动作控制参数到仿真环境中,执行控制操作;对深度强化学习网络迭代训练,最终得到优化的四足机器人平衡倒立摆控制网络。本发明采用改进的DDPG算法,缓解了因奖励稀疏带来的算法收敛速度缓慢问题,在仿真环境中对所述深度强化学习网络进行训练学习,增强了四足机器人的平衡控制能力及稳定性。

Description

一种基于深度强化学习的四足机器人平衡倒立摆控制方法
技术领域
本发明属于四足机器人稳定控制技术领域,特别是涉及基于深度强化学习的四足机器人平衡倒立摆控制方法。
背景技术
根据仿生学原理制造的四足机器人在复杂地形侦察、野外物资运输等方面有巨大潜力,成为机器人研究的热点。在四足机器人的所有研究领域中,稳定性是四足机器人在实际环境中应对复杂地形和抗扰动能力的关键因素,如果没有稳定的状态,机器人就不能在各种地形中行走或完成特定的复杂任务。
现有的四足机器人平衡控制方法多数是基于模型的控制,然而实际中很难获得四足机器人系统的精确的数学模型,这样就会因模型的误差给四足机器人的平衡控制带来性能的极限。另外,传统的控制方法如PID控制、LQR控制对模型参数较为敏感,且参数较多,难以实现整定,往往需要人工进行大量的参数调整工作,从而加大了控制的难度。
发明内容
本发明的目的是为了解决现有四足机器人平衡控制中,难以获得四足机器人系统的精确的数学模型,以及控制参数较多,难以实现整定的问题,提供一种基于深度强化学习的四足机器人平衡倒立摆的控制方法,采用改进的DDPG算法实现四足机器人自动平衡倒立摆,以此来增强四足机器人的稳定性和算法的鲁棒性。
为了实现上述目的,本发明所采用的技术方案是:一种基于深度强化学习的四足机器人平衡倒立摆控制方法,根据所获取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到设定的平衡要求,如果未达到平衡要求,则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练,直至达到平衡要求;其中的迭代训练方法如下:
(1)结合四足机器人逆运动学设计分层奖励函数,
第1层奖励:R 1=-Ld≥0.05;
第2层奖励:R 2=R 1+3,0<d<0.05;
其中,L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值,d为四足机器人几何中心与四足机器人原始几何中心的距离;
将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中;
(2)构建演员-评论家网络,通过获取回放经验池中的奖励数据和状态数据进行控制策略函数和评价函数的拟合,经演员网络输出优化后的四足机器人动作控制参数,具体为:设计演员网络拟合控制策略函数,输出四足机器人平衡倒立摆系统动作控制参数;设计评论家网络拟合评价函数,输出四足机器人平衡倒立摆系统的动作控制参数评价Q值;演员网络和评论家网络之间通过策略梯度更新动作控制参数,直至得到优化后的四足机器人动作控制参数;
(3)将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中,执行控制操作,并重新判断系统是否达到设定的平衡要求,如果未达到平衡要求,则按照步骤(1)和(2)继续进行迭代训练,直至最后四足机器人平衡倒立摆系统达到平衡要求,获得优化的四足机器人平衡倒立摆深度强化学习控制网络。
所述四足机器人平衡倒立摆系统为建立在仿真软件中的背部连接有倒立摆竖杆的四足机器人模型,倒立摆竖杆通过被动枢轴关节与四足机器人模型的背部连接。
四足机器人平衡倒立摆系统的状态为Sx为四足机器人向前或向后的位移,v为四足机器人移动的速度,c为倒立摆竖杆与垂直方向的夹角,w为倒立摆竖杆的角速度。
在所述步骤(2)中,将四足机器人平衡倒立摆系统的状态数据输入到演员网络,采用全连接层神经网络进行训练,输出2个位置控制动作参数,运用仿真软件中的逆运动学模块,根据所输出的2个位置控制动作参数,自动计算出四足机器人腿部12个关节所需的关节变量,从而控制四足机器人运动。
进一步的,在演员网络输出所述的2个位置控制动作参数后,再加入均值回归噪声N进行探索,得到的控制策略a t为:;其中,u为策略函数,S t为系统的当前状态,/>为策略函数内参数。
更进一步的,向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的2个位移控制动作参数,采用全连接层神经网络输出评价值,评价值的更新公式为:
其中,y j为目标评价值;/>、/>分别为当前和目标评价函数;/>、/>分别为当前和目标策略函数;/>是策略函数和评价函数的内参数;/>为折扣因子;n为迭代次数;/>为当前奖励,通过最小化损失函数H更新评价值;S jS j+1分别是两个连续时点下的状态;a j是当前的控制策略,a j=uS tθ u)。
再进一步的,在演员网络和评论家网络之间通过策略梯度更新动作控制参数时,策略梯度更新公式为:
其中,为评价梯度;/>为动作梯度;n为迭代次数;S为系统状态;a为状态S下输出的动作;/>策略函数和评价函数的内参数。
本发明的有益效果是:本发明可以在搭建的四足机器人平衡倒立摆系统中通过对深度强化学习网络进行训练学习,从而获得有效的四足机器人平衡控制策略,再部署到真实的四足机器人上进行平衡控制,具有高效灵活的特点,增强了四足机器人的平衡控制能力和复杂地形的适应能力。
附图说明
图1为本发明所述基于深度强化学习的四足机器人平衡倒立摆控制方法流程图。
图2为四足机器人平衡倒立摆系统的仿真模型示意图。
图中标记:1、四足机器人模型,2、髋关节,3、肘关节,4、腕关节、5、倒立摆竖杆,6、被动枢轴关节,7、大腿,8、小腿。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明,但并不作为对发明做任何限制的依据。
实施例1:如图1所示,本发明所述基于深度强化学习的四足机器人平衡倒立摆控制方法包括如下步骤:
步骤一,在V-REP仿真软件中搭建四足机器人平衡倒立摆系统的仿真模型,如图2所示。四足机器人模型1主要由一个身体和连接在身体上的四条腿组成,每条腿有三个关节,包括可以髋关节2、肘关节3和腕关节4,其中髋关节2可以外展和内收,肘关节3和腕关节4可以屈曲和伸展。每条腿包括两部分:大腿7和小腿8,大腿7通过用于侧移的髋关节2和用于前后移动的肘关节3连接到身体,小腿8通过用于前后移动的腕关节4与大腿7连接。四足机器人模型1的背部与倒立摆竖杆5通过一个被动枢轴关节6相连接。我们的目标是通过控制四足机器人的前后移动,来防止倒立摆竖杆5倒下。
本实施例中四足机器人模型和倒立摆竖杆的机械参数如下表:
步骤二,在每次训练开始时,在V-REP仿真软件中运用重置模块将四足机器人平衡倒立摆系统中的各个关节值恢复到初始关节参数。
对深度强化学习网络的输入和输出进行定义,四足机器人平衡倒立摆系统的输入和输出分别为状态和动作,进一步的,将四足机器人向前和向后移动定义为四足机器人平衡倒立摆系统的动作,记为,/>为四足机器人的位置增量,本实施例中规定位置增量为[-0.001m,0.001m];四足机器人平衡倒立摆系统的状态为S,/>x为四足机器人向前或向后的位移,v为四足机器人移动的速度,c为倒立摆竖杆与垂直方向的夹角,w为倒立摆竖杆的角速度。
步骤三,获取四足机器人平衡倒立摆系统的状态数据,并判断是否达到所设定的平衡要求。本实施例中规定如果连续100个训练回合,倒立摆竖杆与垂直方向的夹角都在±12°之间,则认为已经达到平衡要求。如果达到平衡要求,则认为系统已经获得了较好的平衡控制策略,结束训练。如果没有达到平衡要求,则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练。
步骤四,在进行迭代训练时,按照以下方法进行:
(1)结合四足机器人逆运动学设计分层奖励函数,可有效缓解传统DDPG算法存在的奖励稀疏问题。
倒立摆竖杆与垂直方向的夹角的绝对值为,四足机器人几何中心与四足机器人原始几何中心的距离为 />,则:
其中, 为倒立摆竖杆与垂直方向的夹角, />为四足机器人的几何中心坐标, />为四足机器人几何中心原始坐标。
因此,分层奖励函数设置如下:
第1层奖励:R 1=-Ld≥0.05;
第2层奖励:R 2=R 1+3,0<d<0.05;
本实例中第1层奖励以倒立摆竖杆与垂直方向夹角的绝对值的相反数作为角度奖励。第2层奖励为控制精度奖励函数,当距离0<d<0.05时,给当前奖励加3,以提高平衡控制精度。第1层奖励为训练前期奖励,当距离d稳定在0.05m以内时,以第2层奖励作为后期的奖励。此处是结合四足机器人逆运动学设计的分层奖励函数,进行算法的奖励反馈,可基于低层奖励函数提高算法的收敛速度,基于高层奖励函数提高四足机器人的平衡控制精度。此方法的优点为可以缓解传统的DDPG算法存在的奖励稀疏问题。
进一步的,将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中。
(2)构建演员-评论家网络进行策略函数和评价函数的拟合,本实例采用Keras+Pytorch的框架设计算法网络,通过获取回放经验池中的奖励数据和状态数据进行训练。具体为:设计演员网络拟合控制策略函数,输出四足机器人平衡倒立摆系统动作控制参数;设计评论家网络拟合评价函数,输出四足机器人平衡倒立摆系统的动作控制参数评价Q值。
进一步的,将四足机器人平衡倒立摆系统的4维状态数据输入到演员网络,采用全连接层神经网络进行训练,输出2个位置控制动作参数,运用V-REP仿真软件中的逆运动学模块,根据输出的2个位置控制动作参数,自动计算出四足机器人腿部12个关节所需的关节变量,从而控制四足机器人运动。
再进一步的,在演员网络输出所述的2个位置控制动作参数后,再加入均值回归噪声N进行探索,得到的控制策略a t为:;其中,u为策略函数,S t为系统的当前状态,/>为策略函数内参数。即状态为S时,相同策略的动作a是唯一确定的。
更进一步的,向评论家网络输入四足机器人平衡倒立摆系统的4维状态数据和所述的2个位置控制动作参数,采用全连接层神经网络输出1维的评价值。评价值的更新公式为:
其中,y j为目标评价值;/>、/>分别为当前和目标评价函数;/>、/>分别为当前和目标策略函数;本实施例中策略网络和评价网络的学习率均设置为10-4,/>是策略函数和评价函数的内参数;/>为折扣因子,/>,本实施例中/>=0.99;n为迭代次数;/>为当前奖励,通过最小化损失函数H更新评价值;S jS j+1分别是两个连续时点下的状态;a j是当前的控制策略,a j=uS tθ u)。
再进一步的,演员网络和评论家网络之间通过策略梯度更新动作控制参数,直至演员网络输出优化后的四足机器人动作控制参数。策略梯度更新公式为:
其中,为评价梯度;/>为动作梯度;n为迭代次数;S为系统状态;a为状态S下输出的动作;/>是策略函数和评价函数的内参数。
(3)优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中,执行控制操作,并重新判断系统是否达到设定的平衡要求,如果未达到平衡要求,则按照步骤(1)和(2)继续进行迭代训练,经过大量的迭代训练后,DDPG算法将逐渐收敛,最后四足机器人平衡倒立摆系统达到平衡要求,获得优化的四足机器人平衡倒立摆深度强化学习控制网络。
进一步地,研究人员可根据不同的四足机器人平衡倒立摆系统模型参数来调整网络参数,以获得更好的控制策略。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,所属领域的普通技术人员应当理解,参照上述实施例可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换均在申请待批的权利要求保护范围之内。

Claims (3)

1.一种基于深度强化学习的四足机器人平衡倒立摆控制方法,其特征在于:根据所获取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到设定的平衡要求,如果未达到平衡要求,则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练,直至达到平衡要求;其中的迭代训练方法如下:
(1)结合四足机器人逆运动学设计分层奖励函数,
第1层奖励:R 1=-Ld≥0.05;
第2层奖励:R 2=R 1+3,0<d<0.05;
其中,L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值,d为四足机器人几何中心与四足机器人原始几何中心的距离;
将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中;
(2)构建演员-评论家网络,通过获取回放经验池中的奖励数据和状态数据进行控制策略函数和评价函数的拟合,经演员网络输出优化后的四足机器人动作控制参数,具体为:设计演员网络拟合控制策略函数,输出四足机器人平衡倒立摆系统动作控制参数;设计评论家网络拟合评价函数,输出四足机器人平衡倒立摆系统的动作控制参数评价Q值;演员网络和评论家网络之间通过策略梯度更新动作控制参数,直至得到优化后的四足机器人动作控制参数;
(3)将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中,执行控制操作,并重新判断系统是否达到设定的平衡要求,如果未达到平衡要求,则按照步骤(1)和(2)继续进行迭代训练,直至最后四足机器人平衡倒立摆系统达到平衡要求,获得优化的四足机器人平衡倒立摆深度强化学习控制网络;
在所述步骤(2)中,将四足机器人平衡倒立摆系统的状态数据输入到演员网络,采用全连接层神经网络进行训练,输出2个位置控制动作参数,运用仿真软件中的逆运动学模块,根据所输出的2个位置控制动作参数,自动计算出四足机器人腿部12个关节所需的关节变量,从而控制四足机器人运动;
在演员网络输出所述的2个位置控制动作参数后,再加入均值回归噪声N进行探索,得到的控制策略a t为:;其中,u为策略函数,S t为系统的当前状态,/>为策略函数内参数;
向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的2个位移控制动作参数,采用全连接层神经网络输出评价值,评价值的更新公式为:
其中,y j为目标评价值;/>、/>分别为当前和目标评价函数;/>、/>分别为当前和目标策略函数;/>是策略函数和评价函数的内参数;/>为折扣因子;n为迭代次数;/>为当前奖励,通过最小化损失函数H更新评价值;S jS j+1分别是两个连续时点下的状态;a j是当前的控制策略,a j=uS tθ u);
在演员网络和评论家网络之间通过策略梯度更新动作控制参数时,策略梯度更新公式为:
其中,为评价梯度;/>为动作梯度;n为迭代次数;S为系统状态;a为状态S下输出的动作;/>策略函数和评价函数的内参数。
2.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法,其特征在于:所述四足机器人平衡倒立摆系统为建立在仿真软件中的背部连接有倒立摆竖杆的四足机器人模型,倒立摆竖杆通过被动枢轴关节与四足机器人模型的背部连接。
3.根据权利要求2所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法,其特征在于:四足机器人平衡倒立摆系统的状态为Sx为四足机器人向前或向后的位移,v为四足机器人移动的速度,c为倒立摆竖杆与垂直方向的夹角,w为倒立摆竖杆的角速度。
CN202111307449.9A 2021-11-05 2021-11-05 一种基于深度强化学习的四足机器人平衡倒立摆控制方法 Active CN114047697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111307449.9A CN114047697B (zh) 2021-11-05 2021-11-05 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111307449.9A CN114047697B (zh) 2021-11-05 2021-11-05 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

Publications (2)

Publication Number Publication Date
CN114047697A CN114047697A (zh) 2022-02-15
CN114047697B true CN114047697B (zh) 2023-08-25

Family

ID=80207673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111307449.9A Active CN114047697B (zh) 2021-11-05 2021-11-05 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

Country Status (1)

Country Link
CN (1) CN114047697B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115475036A (zh) * 2022-08-31 2022-12-16 上海电机学院 用于智能假肢肩关节的自适应控制方法、设备及存储介质
CN117313826B (zh) * 2023-11-30 2024-02-23 安徽大学 一种基于强化学习的任意角度倒立摆模型训练方法
CN118012077A (zh) * 2024-04-08 2024-05-10 山东大学 基于强化学习动作模仿的四足机器人运动控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度确定性策略梯度算法的双轮机器人平衡控制研究;刘胜祥;林群煦;杨智才;吴月玉;翟玉江;;机械工程师(第03期);全文 *

Also Published As

Publication number Publication date
CN114047697A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN114047697B (zh) 一种基于深度强化学习的四足机器人平衡倒立摆控制方法
CN109483530B (zh) 一种基于深度强化学习的足式机器人运动控制方法及系统
CN108572553B (zh) 一种四足机器人的运动闭环控制方法
CN111913490A (zh) 基于落足调整的四足机器人动步态稳定控制方法及系统
CN106886155B (zh) 一种基于pso-pd神经网络的四足机器人运动轨迹控制方法
CN110764416A (zh) 基于深度q网络的仿人机器人步态优化控制方法
CN109760761B (zh) 一种基于生物仿生原理和直觉的四足机器人运动控制方法
CN111506063B (zh) 一种基于分层强化学习框架的移动机器人无图导航方法
CN111546349A (zh) 一种仿人机器人步态规划的深度强化学习新方法
CN112060075B (zh) 步态生成网络的训练方法、训练设备以及存储介质
CN114995479A (zh) 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法
CN113093779B (zh) 基于深度强化学习的机器人运动控制方法及系统
Liu et al. Adaptive walking control of biped robots using online trajectory generation method based on neural oscillators
CN110737195A (zh) 基于速度控制的双足机器人行走落脚点规划方法及装置
CN111730595A (zh) 一种斜坡条件下双足机器人步态稳定控制方法
CN112749515A (zh) 融合生物启发和深度强化学习的损伤机器人步态自学习
CN105182754B (zh) 仿生机器人运动控制神经网络的构建方法
Liu et al. Modeling and control of robotic manipulators based on artificial neural networks: a review
CN114326722B (zh) 六足机器人自适应步态规划方法、系统、装置及介质
CN116203945A (zh) 一种基于特权知识蒸馏的四足机器人运动规划方法
CN110744552A (zh) 一种基于奇异摄动理论的柔性机械臂运动控制方法
Hasan et al. Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities
CN114397810B (zh) 基于自适应虚拟模型控制的四足机器人运动控制方法
CN116125815A (zh) 小天体柔性着陆器智能协同控制方法
CN114393579B (zh) 一种基于自适应模糊虚拟模型的机器人控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant