CN113568422A - 基于模型预测控制优化强化学习的四足机器人控制方法 - Google Patents

基于模型预测控制优化强化学习的四足机器人控制方法 Download PDF

Info

Publication number
CN113568422A
CN113568422A CN202110748595.9A CN202110748595A CN113568422A CN 113568422 A CN113568422 A CN 113568422A CN 202110748595 A CN202110748595 A CN 202110748595A CN 113568422 A CN113568422 A CN 113568422A
Authority
CN
China
Prior art keywords
model
reinforcement learning
control
physical prototype
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110748595.9A
Other languages
English (en)
Other versions
CN113568422B (zh
Inventor
陈先益
江浩
彭侠夫
李兆路
张文梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110748595.9A priority Critical patent/CN113568422B/zh
Publication of CN113568422A publication Critical patent/CN113568422A/zh
Application granted granted Critical
Publication of CN113568422B publication Critical patent/CN113568422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0891Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for land vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及机器人智能控制领域,特别涉及基于模型预测控制优化强化学习的四足机器人控制方法,包括:根据物理样机的物理参数建立动力学模型,并将动力学模型转化为状态空间方程;根据状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;建立强化学习模型,强化学习模型与环境、模型预测控制同时交互训练物理样机。通过基于模型预测控制优化强化学习降低训练过程中产生的无意义数据,通过模型引导训练降低对算力的需求,能直接部署于物理样机训练减少训练过程解决了基于价值和策略的算法对数据和算力要求高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需进行长时间训练的问题。

Description

基于模型预测控制优化强化学习的四足机器人控制方法
技术领域
本发明涉及机器人智能控制领域,特别涉及基于模型预测控制优化强化学习的四足机器人控制方法。
背景技术
常见的四足机器人具有十二自由度且结构复杂,四足机器人由于其非结构地形上表现优于轮式,因此工作环境常常处于无法预知的情况,传统控制算法难以调整使其适应。因此,强化学习被用于四足机器人的控制策略,其自学习能力能够降低开发难度与成本的同时提高其适应性,控制四足机器人的强化学习多为无模型的基于价值和策略的算法,其对数据和算力要求极高,往往需要昂贵的计算机设备进行预训练才能够初步达到四足机器人的控制效果,在部署到物理样机后还需要进行长时间的训练。
CN107020636A的专利《一种基于策略梯度的机器人学习控制方法》,公布日为2017.08.08,公开了一种一种适合机器人学习控制的策略梯度方法,涉及到机器人学习控制技术,包括数据采集模块,获取机器人运行过程中的信息数据;价值函数近似模块,以观测的状态信息和从环境获得的及时奖励为输入,获取价值函数的近似估计模型;策略梯度优化模块,将机器人学习控制策略参数化,通过对参数进行调整,优化,使机器人达到理想的运行状态。动作执行模块,将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高了机器人的智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。
然而,由于该控制方法基于价值和策略的算法,其对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练。
发明内容
为解决现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题。
本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法,包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
进一步的,在一个优选实施例中,所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度,其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。
进一步的,在一个优选实施例中,所述动力学模型根据所述连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
进一步的,在一个优选实施例中,将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
进一步的,在一个优选实施例中,设置单步计算MPC的预测步数,采用第一步作为实际控制,根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
进一步的,在一个优选实施例中,强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
进一步的,在一个优选实施例中,建立强化学习模型,奖励模型以跟踪误差建立,
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励,
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练以调整强化学习策略。
进一步的,在一个优选实施例中,根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重来调整强化学习策略。
本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置,包括:
动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述所述的基于模型预测控制优化强化学习的四足机器人控制方法。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法流程图;
图2为本发明提供的强化学习过程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中物理样机指的是机器人物理样机,以下各实施例中,以四组机器人为例。
下面给出具体实施例:
参考图1,基于模型预测控制优化强化学习的四足机器人控制方法,包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
在步骤根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程中:
物理参数包括质量、质心位置、转动惯量、各臀关节与机身连接处的位置,状态指的是机身角度θ=[θx θy θz]T、位置P=[Px Py Pz]T、角速度
Figure BDA0003145166560000061
速度
Figure BDA0003145166560000062
角加速度
Figure BDA0003145166560000063
和位置加速度
Figure BDA0003145166560000064
其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。动力学模型根据连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
其中,各状态均以机身质点为原点,前进方向为x轴正向,支撑向上为z轴正向,根据右手定则确认y轴正向建立世界坐标系。离散连续步态的时间间隔为Δt的状态如:
Figure BDA0003145166560000065
根据牛顿公式的变换式可得位置加速度
Figure BDA0003145166560000066
其中,N为足底与环境接触数量,在四足机器人控制中N=4;m为机身质量;g为基于世界坐标系下的重力加速度;fi为触地腿与机身连接处的总虚拟力,在四足机器人中则为f1、f2、f3、f4
根据欧拉公式的变换式可得角加速度:
Figure BDA0003145166560000067
fi=[fxi fyi fzi]T,其中,IG为世界坐标系下机身的转动惯量;C为每条腿与机身连接位置到世界坐标系的变换矩阵;
整理则可得到单步的状态空间方程:
Figure BDA0003145166560000071
其中,
Figure BDA0003145166560000072
Figure BDA0003145166560000073
为机身与腿连接处到世界坐标系的距离,i=1,2,3,4;Δt为单步之间的时间差。
最终的虚拟控制力F通过雅克比矩阵J分配到关节力矩τ,f为四足机器人机身与腿连接处的力,求解的虚拟控制力F力由支撑腿选择矩阵S决定,在trot步态其虚拟力同一时间仅一对腿输出力,其力及输出力矩为:F=S·f,S=[I O I O]or[O I O I],τ=JTF。
在步骤根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上中;
将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
根据上位机算力设置单步计算MPC的预测步数h,采用第一步作为实际控制,根据最优控制虚拟力F和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
具体的,依据单步离散方程可得到h步优化的模型预测控制:X=Axk+Bf+G,
其中,
Figure BDA0003145166560000081
fk=[f1 f2 f3 f4]T
其优化指标为f,轨迹误差和控制力的权重系数分别为L、K,其优化函数为:
Figure BDA0003145166560000082
约束为:cminS≤f≤cmaxS,其中,cmin为最小虚拟控制力,cmax为最大虚拟控制力,由物理样机实验获得;H=2(BTLB+K),R=2BT[Axk+E·e+g-Xref],
Figure BDA0003145166560000083
将其部署至物理样机,设定一段轨迹及轨迹中的机身状态,调整L、K参数使得四足机器人能够在一定偏差范围内跟踪轨迹并保持稳定,E为最终决策后规划与实际间的误差系数,在该阶段调为零。
参考图2,较优的,强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
具体的,建立强化学习模型,奖励模型以跟踪误差建立;
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励;
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练、并根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重以调整强化学习策略。
在强化学习中状态s=xk,下一步状态s′=xk+1,动作a=f;模型预测控制根据轨迹任务获得优化策略下的动作πMPC(s)=aMPC,并根据贪婪法在强化学习最大动作状态值获得强化学习策略下的动作πRL(s)=aRL,将模型预测控制策略和强化学习策略加权求和后输入具有上下界的函数以映射输出策略模型,将策略模型的值作为一次函数自变量用于调整上下界幅度和值大小生成新策略:
Figure BDA0003145166560000091
状态模型P(s,a)=s′为物理样机在环境中传感器的数据,将传感器数据与给定机身参数误差R(s,a,s′)作为奖励模型打分标准,将获得的下一状态s′、奖励r与当前状态s和动作a存入数据集中,强化学习策略采用神经网络以随机抽取数据训练,强化学习则按顺序更新Q值:
Q(s,a)=Q(s,a)+α[r+γmaxQ(s′,a)-Q(s,a)]。
其中,α为强化学习学习率,γ为强化学习折扣率,根据每次学习的步数变化,每次学习的步数越多则越大。
奖励函数定义随着误差的减小而奖励逐渐增大,误差减小到一定程度时给予正向奖励,奖励函数定义为:
Figure BDA0003145166560000092
其中,U为定值,用于调节正向奖励误差范围,
Figure BDA0003145166560000093
为各误差权重,根据实际情况可更改不同参数的权重,在舍弃部分参数控制的情况下提高另一部分控制的精度。
强化学习计算的下一状态
Figure BDA0003145166560000094
与规划轨迹中下一状态
Figure BDA0003145166560000095
求误差e用于返回MPC中优化,调整E参数保证最初的训练中机器人的能够快速调整姿态,避免失稳获得无意义数据。在训练过程中随着时间的进行降低ξ(ξ≥0),增加
Figure BDA0003145166560000101
最终决策完全由强化学习执行。最终计算的力矩可通过底层PID调节实现连续力矩控制。
本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置,包括:动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述所述的基于模型预测控制优化强化学习的四足机器人控制方法。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
尽管本文中较多的使用了诸如物理样机、动力学模型、模型预测控制、强化学习模型等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
2.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度,其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。
3.根据权利要求2所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:所述动力学模型根据所述连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
4.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
5.根据权利要求4所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:设置单步计算MPC的预测步数,采用第一步作为实际控制,根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
6.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
7.根据权利要求6所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:
建立强化学习模型,奖励模型以跟踪误差建立,
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励,
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练以调整强化学习策略。
8.根据权利要求7所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重来调整强化学习策略。
9.基于模型预测控制优化强化学习的四足机器人控制装置,其特征在于:包括:
动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-8任一项所述的基于模型预测控制优化强化学习的四足机器人控制方法。
CN202110748595.9A 2021-07-02 2021-07-02 基于模型预测控制优化强化学习的四足机器人控制方法 Active CN113568422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748595.9A CN113568422B (zh) 2021-07-02 2021-07-02 基于模型预测控制优化强化学习的四足机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748595.9A CN113568422B (zh) 2021-07-02 2021-07-02 基于模型预测控制优化强化学习的四足机器人控制方法

Publications (2)

Publication Number Publication Date
CN113568422A true CN113568422A (zh) 2021-10-29
CN113568422B CN113568422B (zh) 2024-01-23

Family

ID=78163462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748595.9A Active CN113568422B (zh) 2021-07-02 2021-07-02 基于模型预测控制优化强化学习的四足机器人控制方法

Country Status (1)

Country Link
CN (1) CN113568422B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928189A (zh) * 2019-12-10 2020-03-27 中山大学 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111401458A (zh) * 2020-03-23 2020-07-10 清华大学 一种基于深度强化学习的多模型目标状态预测方法及系统
CN111624992A (zh) * 2020-04-28 2020-09-04 北京科技大学 一种基于神经网络的搬运机器人的路径跟踪控制方法
US20210165375A1 (en) * 2019-12-03 2021-06-03 Baidu Usa Llc Inverse reinforcement learning with model predictive control
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210165375A1 (en) * 2019-12-03 2021-06-03 Baidu Usa Llc Inverse reinforcement learning with model predictive control
CN112906882A (zh) * 2019-12-03 2021-06-04 百度(美国)有限责任公司 利用模型预测控制的逆向强化学习
CN110928189A (zh) * 2019-12-10 2020-03-27 中山大学 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111401458A (zh) * 2020-03-23 2020-07-10 清华大学 一种基于深度强化学习的多模型目标状态预测方法及系统
CN111624992A (zh) * 2020-04-28 2020-09-04 北京科技大学 一种基于神经网络的搬运机器人的路径跟踪控制方法
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ANUSHA NAGABANDI;GREGORY KAHN;: "利用神经网络动力学实现基于模型的强化学习", 机器人产业, no. 01 *
CURTIS C. JOHNSON: "Using First Principles for Deep Learning and Model-Based Control of Soft Robots", 《ORIGINAL RESEARCH》 *
N. HIROSE: "MPC policy learning using DNN for human following control without collision", 《ADVANCED ROBOTICS》 *
RUNNAN ZOU: "DQL energy management: An online-updated algorithm and its application in fix-line hybrid electric vehicle", 《ENERGY》 *
陈先益: "The Marked-line Recognition Based on Network Topology Diagram Points Clustering", 《2019 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE》 *
陶亚凡: "基于强化学习的足式机器人控制方法研宄", 《中国优秀硕博士论文全文数据库》 *
陶亚凡: "基于强化学习的足式机器人控制方法研究", 《中国优秀硕博士论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN113568422B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
WO2022252863A1 (zh) 轮腿式机器人的控制方法、装置、轮腿式机器人及设备
US20210162589A1 (en) Systems and methods for learning agile locomotion for multiped robots
Chen et al. A trot and flying trot control method for quadruped robot based on optimal foot force distribution
CN113568422A (zh) 基于模型预测控制优化强化学习的四足机器人控制方法
Kim et al. Computationally-robust and efficient prioritized whole-body controller with contact constraints
CN108508906B (zh) 户外环境下的多足机器人双边触觉遥操作系统及控制方法
CN112051735A (zh) 仿人机器人步行控制方法
CN108897220B (zh) 一种自适应稳定平衡控制方法和系统以及双足仿人机器人
Omran et al. Optimal task space control design of a Stewart manipulator for aircraft stall recovery
CN114995479A (zh) 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法
CN106019950A (zh) 一种手机卫星自适应姿态控制方法
Rone et al. Controller design, analysis, and experimental validation of a robotic serpentine tail to maneuver and stabilize a quadrupedal robot
CN115128960A (zh) 一种基于深度强化学习双足机器人运动控制方法及系统
Elibol et al. Power usage reduction of humanoid standing process using q-learning
Ketelaar et al. Controller design for a bipedal walking robot using variable stiffness actuators
Palmer et al. Intelligent control of high-speed turning in a quadruped
CN117215204B (zh) 基于强化学习的机器人步态训练方法及系统
Lim et al. Control design to achieve dynamic walking on a bipedal robot with compliance
CN114397810A (zh) 基于自适应虚拟模型控制的四足机器人运动控制方法
CN116442227A (zh) 液压驱动移动作业机器人的末端接触力控制方法及系统
CN116237943A (zh) 一种结合地形约束的四足机器人控制方法
CN115857354A (zh) 一种四足机器人优化足底力分配和轨迹跟踪的方法
Herdt Model predictive control of a humanoid robot
Xie et al. Gait optimization and energy-based stability for biped locomotion using large-scale programming
Palmer et al. Force redistribution in a quadruped running trot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant