CN113568422A - 基于模型预测控制优化强化学习的四足机器人控制方法 - Google Patents
基于模型预测控制优化强化学习的四足机器人控制方法 Download PDFInfo
- Publication number
- CN113568422A CN113568422A CN202110748595.9A CN202110748595A CN113568422A CN 113568422 A CN113568422 A CN 113568422A CN 202110748595 A CN202110748595 A CN 202110748595A CN 113568422 A CN113568422 A CN 113568422A
- Authority
- CN
- China
- Prior art keywords
- model
- reinforcement learning
- control
- physical prototype
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 18
- 238000011217 control strategy Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000001133 acceleration Effects 0.000 claims description 7
- 230000005021 gait Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 33
- 230000008569 process Effects 0.000 abstract description 12
- 210000002414 leg Anatomy 0.000 description 8
- 230000009466 transformation Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000004394 hip joint Anatomy 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0891—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for land vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及机器人智能控制领域,特别涉及基于模型预测控制优化强化学习的四足机器人控制方法,包括:根据物理样机的物理参数建立动力学模型,并将动力学模型转化为状态空间方程;根据状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;建立强化学习模型,强化学习模型与环境、模型预测控制同时交互训练物理样机。通过基于模型预测控制优化强化学习降低训练过程中产生的无意义数据,通过模型引导训练降低对算力的需求,能直接部署于物理样机训练减少训练过程解决了基于价值和策略的算法对数据和算力要求高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需进行长时间训练的问题。
Description
技术领域
本发明涉及机器人智能控制领域,特别涉及基于模型预测控制优化强化学习的四足机器人控制方法。
背景技术
常见的四足机器人具有十二自由度且结构复杂,四足机器人由于其非结构地形上表现优于轮式,因此工作环境常常处于无法预知的情况,传统控制算法难以调整使其适应。因此,强化学习被用于四足机器人的控制策略,其自学习能力能够降低开发难度与成本的同时提高其适应性,控制四足机器人的强化学习多为无模型的基于价值和策略的算法,其对数据和算力要求极高,往往需要昂贵的计算机设备进行预训练才能够初步达到四足机器人的控制效果,在部署到物理样机后还需要进行长时间的训练。
CN107020636A的专利《一种基于策略梯度的机器人学习控制方法》,公布日为2017.08.08,公开了一种一种适合机器人学习控制的策略梯度方法,涉及到机器人学习控制技术,包括数据采集模块,获取机器人运行过程中的信息数据;价值函数近似模块,以观测的状态信息和从环境获得的及时奖励为输入,获取价值函数的近似估计模型;策略梯度优化模块,将机器人学习控制策略参数化,通过对参数进行调整,优化,使机器人达到理想的运行状态。动作执行模块,将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高了机器人的智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。
然而,由于该控制方法基于价值和策略的算法,其对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练。
发明内容
为解决现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题。
本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法,包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
进一步的,在一个优选实施例中,所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度,其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。
进一步的,在一个优选实施例中,所述动力学模型根据所述连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
进一步的,在一个优选实施例中,将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
进一步的,在一个优选实施例中,设置单步计算MPC的预测步数,采用第一步作为实际控制,根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
进一步的,在一个优选实施例中,强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
进一步的,在一个优选实施例中,建立强化学习模型,奖励模型以跟踪误差建立,
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励,
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练以调整强化学习策略。
进一步的,在一个优选实施例中,根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重来调整强化学习策略。
本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置,包括:
动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述所述的基于模型预测控制优化强化学习的四足机器人控制方法。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法流程图;
图2为本发明提供的强化学习过程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中物理样机指的是机器人物理样机,以下各实施例中,以四组机器人为例。
下面给出具体实施例:
参考图1,基于模型预测控制优化强化学习的四足机器人控制方法,包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
在步骤根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程中:
物理参数包括质量、质心位置、转动惯量、各臀关节与机身连接处的位置,状态指的是机身角度θ=[θx θy θz]T、位置P=[Px Py Pz]T、角速度速度角加速度和位置加速度其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。动力学模型根据连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
根据牛顿公式的变换式可得位置加速度其中,N为足底与环境接触数量,在四足机器人控制中N=4;m为机身质量;g为基于世界坐标系下的重力加速度;fi为触地腿与机身连接处的总虚拟力,在四足机器人中则为f1、f2、f3、f4。
最终的虚拟控制力F通过雅克比矩阵J分配到关节力矩τ,f为四足机器人机身与腿连接处的力,求解的虚拟控制力F力由支撑腿选择矩阵S决定,在trot步态其虚拟力同一时间仅一对腿输出力,其力及输出力矩为:F=S·f,S=[I O I O]or[O I O I],τ=JTF。
在步骤根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上中;
将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
根据上位机算力设置单步计算MPC的预测步数h,采用第一步作为实际控制,根据最优控制虚拟力F和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
具体的,依据单步离散方程可得到h步优化的模型预测控制:X=Axk+Bf+G,
其优化指标为f,轨迹误差和控制力的权重系数分别为L、K,其优化函数为:约束为:cminS≤f≤cmaxS,其中,cmin为最小虚拟控制力,cmax为最大虚拟控制力,由物理样机实验获得;H=2(BTLB+K),R=2BT[Axk+E·e+g-Xref],
将其部署至物理样机,设定一段轨迹及轨迹中的机身状态,调整L、K参数使得四足机器人能够在一定偏差范围内跟踪轨迹并保持稳定,E为最终决策后规划与实际间的误差系数,在该阶段调为零。
参考图2,较优的,强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
具体的,建立强化学习模型,奖励模型以跟踪误差建立;
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励;
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练、并根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重以调整强化学习策略。
在强化学习中状态s=xk,下一步状态s′=xk+1,动作a=f;模型预测控制根据轨迹任务获得优化策略下的动作πMPC(s)=aMPC,并根据贪婪法在强化学习最大动作状态值获得强化学习策略下的动作πRL(s)=aRL,将模型预测控制策略和强化学习策略加权求和后输入具有上下界的函数以映射输出策略模型,将策略模型的值作为一次函数自变量用于调整上下界幅度和值大小生成新策略:
状态模型P(s,a)=s′为物理样机在环境中传感器的数据,将传感器数据与给定机身参数误差R(s,a,s′)作为奖励模型打分标准,将获得的下一状态s′、奖励r与当前状态s和动作a存入数据集中,强化学习策略采用神经网络以随机抽取数据训练,强化学习则按顺序更新Q值:
Q(s,a)=Q(s,a)+α[r+γmaxQ(s′,a)-Q(s,a)]。
其中,α为强化学习学习率,γ为强化学习折扣率,根据每次学习的步数变化,每次学习的步数越多则越大。
奖励函数定义随着误差的减小而奖励逐渐增大,误差减小到一定程度时给予正向奖励,奖励函数定义为:
强化学习计算的下一状态与规划轨迹中下一状态求误差e用于返回MPC中优化,调整E参数保证最初的训练中机器人的能够快速调整姿态,避免失稳获得无意义数据。在训练过程中随着时间的进行降低ξ(ξ≥0),增加最终决策完全由强化学习执行。最终计算的力矩可通过底层PID调节实现连续力矩控制。
本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置,包括:动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述所述的基于模型预测控制优化强化学习的四足机器人控制方法。
与现有技术相比,通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据,并通过模型引导训练降低对算力的需求,能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高,需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果,在部署到物理样机后还需要进行长时间的训练的问题,从而使强化学习能够更快速的训练到符合四足机器人的控制策略,降低对数据的依赖。
尽管本文中较多的使用了诸如物理样机、动力学模型、模型预测控制、强化学习模型等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:包括以下步骤:
根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
2.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度,其中,机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵,控制策略为十二个控制电机的力矩。
3.根据权利要求2所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:所述动力学模型根据所述连接矩阵,并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。
4.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:将状态空间方程离散化,得到离散化后第k步物理样机的单步状态方程,并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。
5.根据权利要求4所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:设置单步计算MPC的预测步数,采用第一步作为实际控制,根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩,并部署到物理样机上,根据机身轨迹任务,调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。
6.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:强化学习模型与环境、模型预测控制同时交互训练所述物理样机,并通过强化学习以调整强化学习策略。
7.根据权利要求6所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:
建立强化学习模型,奖励模型以跟踪误差建立,
将当前状态分别输入模型预测控制和强化学习控制获得结果,将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型,将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励,
将上述获得的状态、动作、预测的下一状态、奖励收集为数据集,通过强化学习随机抽取数据集中的数据进行训练以调整强化学习策略。
8.根据权利要求7所述的基于模型预测控制优化强化学习的四足机器人控制方法,其特征在于:根据学习效果逐渐降低模型预测控制策略的权重,提高强化学习策略的权重来调整强化学习策略。
9.基于模型预测控制优化强化学习的四足机器人控制装置,其特征在于:包括:
动力学模型模块:用于根据物理样机的物理参数建立动力学模型,并将所述动力学模型转化为状态空间方程;
模型预测控制模块:用于根据所述状态空间方程优化模型预测控制,并将优化后的模型预测控制部署到物理样机上;
强化学习模型模块:用于建立强化学习模型,所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-8任一项所述的基于模型预测控制优化强化学习的四足机器人控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748595.9A CN113568422B (zh) | 2021-07-02 | 2021-07-02 | 基于模型预测控制优化强化学习的四足机器人控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748595.9A CN113568422B (zh) | 2021-07-02 | 2021-07-02 | 基于模型预测控制优化强化学习的四足机器人控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568422A true CN113568422A (zh) | 2021-10-29 |
CN113568422B CN113568422B (zh) | 2024-01-23 |
Family
ID=78163462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110748595.9A Active CN113568422B (zh) | 2021-07-02 | 2021-07-02 | 基于模型预测控制优化强化学习的四足机器人控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568422B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114563954A (zh) * | 2022-02-28 | 2022-05-31 | 山东大学 | 一种基于强化学习和位置增量的四足机器人运动控制方法 |
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110928189A (zh) * | 2019-12-10 | 2020-03-27 | 中山大学 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111624992A (zh) * | 2020-04-28 | 2020-09-04 | 北京科技大学 | 一种基于神经网络的搬运机器人的路径跟踪控制方法 |
US20210165375A1 (en) * | 2019-12-03 | 2021-06-03 | Baidu Usa Llc | Inverse reinforcement learning with model predictive control |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
-
2021
- 2021-07-02 CN CN202110748595.9A patent/CN113568422B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210165375A1 (en) * | 2019-12-03 | 2021-06-03 | Baidu Usa Llc | Inverse reinforcement learning with model predictive control |
CN112906882A (zh) * | 2019-12-03 | 2021-06-04 | 百度(美国)有限责任公司 | 利用模型预测控制的逆向强化学习 |
CN110928189A (zh) * | 2019-12-10 | 2020-03-27 | 中山大学 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111624992A (zh) * | 2020-04-28 | 2020-09-04 | 北京科技大学 | 一种基于神经网络的搬运机器人的路径跟踪控制方法 |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
Non-Patent Citations (7)
Title |
---|
ANUSHA NAGABANDI;GREGORY KAHN;: "利用神经网络动力学实现基于模型的强化学习", 机器人产业, no. 01 * |
CURTIS C. JOHNSON: "Using First Principles for Deep Learning and Model-Based Control of Soft Robots", 《ORIGINAL RESEARCH》 * |
N. HIROSE: "MPC policy learning using DNN for human following control without collision", 《ADVANCED ROBOTICS》 * |
RUNNAN ZOU: "DQL energy management: An online-updated algorithm and its application in fix-line hybrid electric vehicle", 《ENERGY》 * |
陈先益: "The Marked-line Recognition Based on Network Topology Diagram Points Clustering", 《2019 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE》 * |
陶亚凡: "基于强化学习的足式机器人控制方法研宄", 《中国优秀硕博士论文全文数据库》 * |
陶亚凡: "基于强化学习的足式机器人控制方法研究", 《中国优秀硕博士论文全文数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114563954A (zh) * | 2022-02-28 | 2022-05-31 | 山东大学 | 一种基于强化学习和位置增量的四足机器人运动控制方法 |
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113568422B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022252863A1 (zh) | 轮腿式机器人的控制方法、装置、轮腿式机器人及设备 | |
US20210162589A1 (en) | Systems and methods for learning agile locomotion for multiped robots | |
Chen et al. | A trot and flying trot control method for quadruped robot based on optimal foot force distribution | |
CN113568422A (zh) | 基于模型预测控制优化强化学习的四足机器人控制方法 | |
Kim et al. | Computationally-robust and efficient prioritized whole-body controller with contact constraints | |
CN108508906B (zh) | 户外环境下的多足机器人双边触觉遥操作系统及控制方法 | |
CN112051735A (zh) | 仿人机器人步行控制方法 | |
CN108897220B (zh) | 一种自适应稳定平衡控制方法和系统以及双足仿人机器人 | |
Omran et al. | Optimal task space control design of a Stewart manipulator for aircraft stall recovery | |
CN114995479A (zh) | 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法 | |
CN106019950A (zh) | 一种手机卫星自适应姿态控制方法 | |
Rone et al. | Controller design, analysis, and experimental validation of a robotic serpentine tail to maneuver and stabilize a quadrupedal robot | |
CN115128960A (zh) | 一种基于深度强化学习双足机器人运动控制方法及系统 | |
Elibol et al. | Power usage reduction of humanoid standing process using q-learning | |
Ketelaar et al. | Controller design for a bipedal walking robot using variable stiffness actuators | |
Palmer et al. | Intelligent control of high-speed turning in a quadruped | |
CN117215204B (zh) | 基于强化学习的机器人步态训练方法及系统 | |
Lim et al. | Control design to achieve dynamic walking on a bipedal robot with compliance | |
CN114397810A (zh) | 基于自适应虚拟模型控制的四足机器人运动控制方法 | |
CN116442227A (zh) | 液压驱动移动作业机器人的末端接触力控制方法及系统 | |
CN116237943A (zh) | 一种结合地形约束的四足机器人控制方法 | |
CN115857354A (zh) | 一种四足机器人优化足底力分配和轨迹跟踪的方法 | |
Herdt | Model predictive control of a humanoid robot | |
Xie et al. | Gait optimization and energy-based stability for biped locomotion using large-scale programming | |
Palmer et al. | Force redistribution in a quadruped running trot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |