CN113568422A

CN113568422A - 基于模型预测控制优化强化学习的四足机器人控制方法

Info

Publication number: CN113568422A
Application number: CN202110748595.9A
Authority: CN
Inventors: 陈先益; 江浩; 彭侠夫; 李兆路; 张文梁
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-29
Anticipated expiration: 2041-07-02
Also published as: CN113568422B

Abstract

本发明涉及机器人智能控制领域，特别涉及基于模型预测控制优化强化学习的四足机器人控制方法，包括：根据物理样机的物理参数建立动力学模型，并将动力学模型转化为状态空间方程；根据状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上；建立强化学习模型，强化学习模型与环境、模型预测控制同时交互训练物理样机。通过基于模型预测控制优化强化学习降低训练过程中产生的无意义数据，通过模型引导训练降低对算力的需求，能直接部署于物理样机训练减少训练过程解决了基于价值和策略的算法对数据和算力要求高，需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果，在部署到物理样机后还需进行长时间训练的问题。

Description

基于模型预测控制优化强化学习的四足机器人控制方法

技术领域

本发明涉及机器人智能控制领域，特别涉及基于模型预测控制优化强化学习的四足机器人控制方法。

背景技术

常见的四足机器人具有十二自由度且结构复杂，四足机器人由于其非结构地形上表现优于轮式，因此工作环境常常处于无法预知的情况，传统控制算法难以调整使其适应。因此，强化学习被用于四足机器人的控制策略，其自学习能力能够降低开发难度与成本的同时提高其适应性，控制四足机器人的强化学习多为无模型的基于价值和策略的算法，其对数据和算力要求极高，往往需要昂贵的计算机设备进行预训练才能够初步达到四足机器人的控制效果，在部署到物理样机后还需要进行长时间的训练。

CN107020636A的专利《一种基于策略梯度的机器人学习控制方法》，公布日为2017.08.08，公开了一种一种适合机器人学习控制的策略梯度方法，涉及到机器人学习控制技术，包括数据采集模块，获取机器人运行过程中的信息数据；价值函数近似模块，以观测的状态信息和从环境获得的及时奖励为输入，获取价值函数的近似估计模型；策略梯度优化模块，将机器人学习控制策略参数化，通过对参数进行调整，优化，使机器人达到理想的运行状态。动作执行模块，将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人，尤其是多自由度机器人，具备学习复杂动作、求解随机性策略的能力，从而提高了机器人的智能性，降低了学习过程中的危险性，缩短了机器人学习时间，简化了控制器设计难度。

然而，由于该控制方法基于价值和策略的算法，其对数据和算力要求极高，需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果，在部署到物理样机后还需要进行长时间的训练。

发明内容

为解决现有技术中基于价值和策略的算法对数据和算力要求极高，需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果，在部署到物理样机后还需要进行长时间的训练的问题。

本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法，包括以下步骤：

根据物理样机的物理参数建立动力学模型，并将所述动力学模型转化为状态空间方程；

根据所述状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上；

建立强化学习模型，所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。

进一步的，在一个优选实施例中，所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度，其中，机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵，控制策略为十二个控制电机的力矩。

进一步的，在一个优选实施例中，所述动力学模型根据所述连接矩阵，并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。

进一步的，在一个优选实施例中，将状态空间方程离散化，得到离散化后第k步物理样机的单步状态方程，并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。

进一步的，在一个优选实施例中，设置单步计算MPC的预测步数，采用第一步作为实际控制，根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩，并部署到物理样机上，根据机身轨迹任务，调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。

进一步的，在一个优选实施例中，强化学习模型与环境、模型预测控制同时交互训练所述物理样机，并通过强化学习以调整强化学习策略。

进一步的，在一个优选实施例中，建立强化学习模型，奖励模型以跟踪误差建立，

将当前状态分别输入模型预测控制和强化学习控制获得结果，将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型，将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励，

将上述获得的状态、动作、预测的下一状态、奖励收集为数据集，通过强化学习随机抽取数据集中的数据进行训练以调整强化学习策略。

进一步的，在一个优选实施例中，根据学习效果逐渐降低模型预测控制策略的权重，提高强化学习策略的权重来调整强化学习策略。

本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置，包括：

动力学模型模块：用于根据物理样机的物理参数建立动力学模型，并将所述动力学模型转化为状态空间方程；

模型预测控制模块：用于根据所述状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上；

强化学习模型模块：用于建立强化学习模型，所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如上述所述的基于模型预测控制优化强化学习的四足机器人控制方法。

与现有技术相比，通过基于模型预测控制来优化强化学习的四足机器人控制方法降低强化学习训练过程中产生的无意义数据，并通过模型引导训练降低对算力的需求，能够使直接部署于物理样机训练减少训练过程解决了现有技术中基于价值和策略的算法对数据和算力要求极高，需要昂贵的计算机设备进行预训练才能够初步达到机器人的控制效果，在部署到物理样机后还需要进行长时间的训练的问题，从而使强化学习能够更快速的训练到符合四足机器人的控制策略，降低对数据的依赖。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的基于模型预测控制优化强化学习的四足机器人控制方法流程图；

图2为本发明提供的强化学习过程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中物理样机指的是机器人物理样机，以下各实施例中，以四组机器人为例。

下面给出具体实施例：

参考图1，基于模型预测控制优化强化学习的四足机器人控制方法，包括以下步骤：

根据物理样机的物理参数建立动力学模型，并将所述动力学模型转化为状态空间方程；根据所述状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上；建立强化学习模型，所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。

在步骤根据物理样机的物理参数建立动力学模型，并将所述动力学模型转化为状态空间方程中：

物理参数包括质量、质心位置、转动惯量、各臀关节与机身连接处的位置，状态指的是机身角度θ＝[θ_x θ_y θ_z]^T、位置P＝[P_x P_y P_z]^T、角速度

速度

角加速度

和位置加速度

其中，机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵，控制策略为十二个控制电机的力矩。动力学模型根据连接矩阵，并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。

其中，各状态均以机身质点为原点，前进方向为x轴正向，支撑向上为z轴正向，根据右手定则确认y轴正向建立世界坐标系。离散连续步态的时间间隔为Δt的状态如：

根据牛顿公式的变换式可得位置加速度

其中，N为足底与环境接触数量，在四足机器人控制中N＝4；m为机身质量；g为基于世界坐标系下的重力加速度；f_i为触地腿与机身连接处的总虚拟力，在四足机器人中则为f₁、f₂、f₃、f₄。

根据欧拉公式的变换式可得角加速度：

f_i＝[f_xi f_yi f_zi]^T，其中，I_G为世界坐标系下机身的转动惯量；C为每条腿与机身连接位置到世界坐标系的变换矩阵；

整理则可得到单步的状态空间方程：

其中，

为机身与腿连接处到世界坐标系的距离，i＝1,2,3,4；Δt为单步之间的时间差。

最终的虚拟控制力F通过雅克比矩阵J分配到关节力矩τ，f为四足机器人机身与腿连接处的力，求解的虚拟控制力F力由支撑腿选择矩阵S决定，在trot步态其虚拟力同一时间仅一对腿输出力，其力及输出力矩为：F＝S·f，S＝[I O I O]or[O I O I]，τ＝J^TF。

在步骤根据所述状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上中；

将状态空间方程离散化，得到离散化后第k步物理样机的单步状态方程，并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。

根据上位机算力设置单步计算MPC的预测步数h，采用第一步作为实际控制，根据最优控制虚拟力F和运动学雅克比矩阵得到腿部各个关节力矩，并部署到物理样机上，根据机身轨迹任务，调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。

具体的，依据单步离散方程可得到h步优化的模型预测控制：X＝Ax_k+Bf+G，

其中，

f_k＝[f₁ f₂ f₃ f₄]^T，

其优化指标为f，轨迹误差和控制力的权重系数分别为L、K，其优化函数为：

约束为：c_minS≤f≤c_maxS，其中，c_min为最小虚拟控制力，c_max为最大虚拟控制力，由物理样机实验获得；H＝2(B^TLB+K)，R＝2B^T[Ax_k+E·e+g-X^ref]，

将其部署至物理样机，设定一段轨迹及轨迹中的机身状态，调整L、K参数使得四足机器人能够在一定偏差范围内跟踪轨迹并保持稳定，E为最终决策后规划与实际间的误差系数，在该阶段调为零。

参考图2，较优的，强化学习模型与环境、模型预测控制同时交互训练所述物理样机，并通过强化学习以调整强化学习策略。

具体的,建立强化学习模型，奖励模型以跟踪误差建立；

将当前状态分别输入模型预测控制和强化学习控制获得结果，将获得的结果加权求和后输入具有上下界的函数以映射输出策略模型，将所述策略模型的动作输入强化学习和环境交互获得预测的下一状态和奖励；

将上述获得的状态、动作、预测的下一状态、奖励收集为数据集，通过强化学习随机抽取数据集中的数据进行训练、并根据学习效果逐渐降低模型预测控制策略的权重，提高强化学习策略的权重以调整强化学习策略。

在强化学习中状态s＝x_k，下一步状态s′＝x_k+1，动作a＝f；模型预测控制根据轨迹任务获得优化策略下的动作π_MPC(s)＝a_MPC，并根据贪婪法在强化学习最大动作状态值获得强化学习策略下的动作π_RL(s)＝a_RL，将模型预测控制策略和强化学习策略加权求和后输入具有上下界的函数以映射输出策略模型，将策略模型的值作为一次函数自变量用于调整上下界幅度和值大小生成新策略：

状态模型P(s,a)＝s′为物理样机在环境中传感器的数据，将传感器数据与给定机身参数误差R(s,a,s′)作为奖励模型打分标准，将获得的下一状态s′、奖励r与当前状态s和动作a存入数据集中，强化学习策略采用神经网络以随机抽取数据训练，强化学习则按顺序更新Q值：

Q(s,a)＝Q(s,a)+α[r+γmaxQ(s′,a)-Q(s,a)]。

其中，α为强化学习学习率，γ为强化学习折扣率，根据每次学习的步数变化，每次学习的步数越多则越大。

奖励函数定义随着误差的减小而奖励逐渐增大，误差减小到一定程度时给予正向奖励，奖励函数定义为：

其中，U为定值，用于调节正向奖励误差范围，

为各误差权重，根据实际情况可更改不同参数的权重，在舍弃部分参数控制的情况下提高另一部分控制的精度。

强化学习计算的下一状态

与规划轨迹中下一状态

求误差e用于返回MPC中优化，调整E参数保证最初的训练中机器人的能够快速调整姿态，避免失稳获得无意义数据。在训练过程中随着时间的进行降低ξ(ξ≥0)，增加

最终决策完全由强化学习执行。最终计算的力矩可通过底层PID调节实现连续力矩控制。

本发明还提供基于模型预测控制优化强化学习的四足机器人控制装置，包括：动力学模型模块：用于根据物理样机的物理参数建立动力学模型，并将所述动力学模型转化为状态空间方程；模型预测控制模块：用于根据所述状态空间方程优化模型预测控制，并将优化后的模型预测控制部署到物理样机上；强化学习模型模块：用于建立强化学习模型，所述强化学习模型与环境、模型预测控制同时交互训练所述物理样机。

尽管本文中较多的使用了诸如物理样机、动力学模型、模型预测控制、强化学习模型等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：所述状态空间方程中的状态为机身角度、位置、角速度、速度、角加速度和位置加速度，其中，机身角度、位置、角速度、速度根据步态时序设置动作输出连接矩阵，控制策略为十二个控制电机的力矩。

3.根据权利要求2所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：所述动力学模型根据所述连接矩阵，并通过牛顿公式的变换式、欧拉公式的变换式整理转化为状态空间方程。

4.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：将状态空间方程离散化，得到离散化后第k步物理样机的单步状态方程，并将k步离散化后的单步状态方程叠加获得模型预测控制的多步状态方程以用于优化模型预测控制。

5.根据权利要求4所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：设置单步计算MPC的预测步数，采用第一步作为实际控制，根据控制虚拟力和运动学雅克比矩阵得到腿部各个关节力矩，并部署到物理样机上，根据机身轨迹任务，调整所述物理样机使所述物理样机能够在一定偏航和稳定裕度内完成任务。

6.根据权利要求1所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：强化学习模型与环境、模型预测控制同时交互训练所述物理样机，并通过强化学习以调整强化学习策略。

7.根据权利要求6所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：

建立强化学习模型，奖励模型以跟踪误差建立，

8.根据权利要求7所述的基于模型预测控制优化强化学习的四足机器人控制方法，其特征在于：根据学习效果逐渐降低模型预测控制策略的权重，提高强化学习策略的权重来调整强化学习策略。

9.基于模型预测控制优化强化学习的四足机器人控制装置，其特征在于：包括：

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如权利要求1-8任一项所述的基于模型预测控制优化强化学习的四足机器人控制方法。