CN112757295A

CN112757295A - 一种基于强化学习的双足机器人重心控制方法与仿真系统

Info

Publication number: CN112757295A
Application number: CN202011584724.7A
Authority: CN
Inventors: 张帆
Original assignee: Wuhan Yuantu Information Technology Co ltd
Current assignee: Wuhan Yuantu Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-05-07
Anticipated expiration: 2040-12-28
Also published as: CN112757295B

Abstract

本发明公开一种基于强化学习的双足机器人重心控制方法及系统、设备、存储介质，所述方法包括：机器人三维组件构建步骤，基于基本立方体组件构建机器人三维模型，并设定各部分的自由度；机器人重力系统构建步骤，标定基本立方体组件的参数及初始状态下机器人重心，构建机器人重力系统；机器人惯量系统构建步骤，构建基于腿部各关节的转动惯量模型；机器人重心控制步骤，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；机器人模拟仿真步骤，基于强化学习框架实现双足机器人的重心及稳态行走控制仿真。本发明可实现机器人高效、即时的重心控制，适应多变的路面环境。

Description

一种基于强化学习的双足机器人重心控制方法与仿真系统

技术领域

本发明属于属于机器人、人工智能领域，尤其涉及一种基于强化学习的双足机器人重心控制方法与仿真系统。

背景技术

近年来，机械制造技术及人工智能技术的提升，机器人的需求与应用领域得到了极大的拓展，各类工业机器人、扫地机器人、服务机器人等，在各行业中均得到了成功的应用。在服务机器人领域，双足式的高仿真机器人一直是最难、最重点的研究方向，一个很重要的原因在于双足机器人在动态运行中，需要高效、即时的重心控制，以保证迅速、平稳的移动。

然而受当前机械制造水平、制造成本、算法性能等综合的影响，目前尚未有性能良好的双足机器人能够实现全地形的无辅助行走。采用高效、精确的重心控制方法，是双足机器人动态控制最为核心的部分，传统的重心控制算法通常通过各类模型来实现，效果较差且无法实时适应多变的路面环境。

发明内容

有鉴于此，本发明提出了一种基于强化学习的双足机器人重心控制方法及系统，用于解决双足机器人重心效果不佳且无法实时适应多变的路面环境的问题。

本发明第一方面，公开一种基于强化学习的双足机器人重心控制方法，所述方法包括：

机器人三维组件构建步骤，基于基本立方体组件构建机器人三维模型，并设定各部分的自由度；

机器人重力系统构建步骤，标定基本立方体组件的参数及初始状态下机器人重心，构建机器人重力系统；

机器人惯量系统构建步骤，考虑双足机器人在运动时，每个组件的形态变化，计算机器人两个腿部的惯量；

机器人重心控制步骤，根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；

机器人模拟仿真步骤，基于强化学习框架实现双足机器人的重心及稳态行走控制仿真。

优选的，所述机器人三维组件构建步骤具体包括：

构建基本立方体组件，包括2个型号的立方体，记为大号立方体和小号立方体；

通过1个大号立方体构建双足机器人头部立方体模型；

通过4个小号立方体，组合成双足机器人的1个手臂模型，两手臂总共由8个小号立方体构成，同时省去手掌部分建模；

通过2个大号立方体，并联在一起构成双足机器人胸部立方体模型；

通过1个大号立方体，构建双足机器人腹部立方体模型；

通过6个小立方体，组成双足机器人单条腿部立方体模型，双腿总共由12个小号立方体构成，同时省去脚踝以下部分建模；

设定头部立方体模型有前后转动、左右转动2个自由度；

设定胸部立方体模型有前后转动、左右转动2个自由度；

设定腹部立方体模型有前后转动、左右转动、绕垂直轴向转动3个自由度；

设定手部立方体在肩部有前后转动、左右转动2个自由度；肘部具有1个自由度；

设定腿部立方体模型在髋关节部分有前后转动、左右转动2个自由度；膝关节有前后转动1个自由度。

优选的，机器人重力系统构建步骤中，所述标定基本立方体组件的参数具体为：标定大号立方体和小号立方体的密度质量、体积、质量；

初始状态下机器人重心具体为：各组件紧连、平铺、垂直状态下，重心位于机器人中轴线上的腹部区域。

优选的，机器人惯量系统构建步骤中，计算机器人两个腿部的惯量具体包括：

腿部有2个可转动关节，分别为髋关节和膝关节；

设两条腿的髋关节的2个自由度方向与水平面夹角为θ₁和θ₂、θ₃和θ₄，两个膝关节的1个自由度方向与水平面夹角为α₁和α₂，双足机器人行走稳态速度为v。

膝关节转动过程中，要转动3个小立方体，根据髋关节的转动角度计算惯量的方向；

髋关节在转动过程中，根据膝关节的角度确定腿部的重心位置和惯量方向。

优选的，机器人重心控制步骤具体包括：根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，机器人重心位置(X、Y、Z)与各参数之间的初始模型为：

X＝f_x(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Y＝f_y(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Z＝f_z(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

其中，θ₁和θ₂、θ₃和θ₄分别为两条腿的髋关节的2个自由度方向与水平面夹角，α₁和α₂为两个膝关节的1个自由度方向与水平面夹角，v为机器人当前步行速度，h_l为左手臂关节当前惯量，h_r为右手臂关节当前惯量，l_l为左腿关节当前惯量，l_r为右腿关节当前惯量；

将头部立方体作为1号立方体，在机器人行走的过程中，以1号立方体相对于地面的高度值z的三维变化情况来标定机器人是否处于正常行走状态，进行重心控制。

优选的，所述机器人模拟仿真步骤具体包括：

基于强化学习框架PARL构建适用于双足机器人重心和稳态控制的强化学习模型；

以θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r为训练参数，输入所述强化学习模型进行训练；

将1号立方体相对于地面的高度值z短时恒定状态标定为强化学习框架中的正向激励，将z值大幅变化标定为负向激励，同时引入手臂摆动来平衡行走过程中的重心和惯量；

进行双足机器人的重心和稳态控制三维仿真，在仿真训练过程中，若负向激励发生，则回退至上一时段的稳定状态，通过迭代训练实现双足机器人稳态行走。

本发明第二方面，公开一种基于强化学习的双足机器人重心控制系统，所述系统包括：

机器人三维组件构建模块，用于基于基本立方体组件构建机器人三维模型，并设定各部分的自由度；

机器人重力系统构建模块，用于标定基本立方体组件的参数及初始状态下机器人重心，构建机器人重力系统；

机器人惯量系统构建模块，用于考虑双足机器人在运动时，每个组件的形态变化，计算机器人两个腿部的惯量；

机器人重心控制模块，用于根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；所述重心控制策略包括以机器人头部相对于地面的高度z值的三维变化情况来标定机器人是否处于正常行走状态，进行重心控制；

机器人模拟仿真模块，用于基于强化学习框架实现双足机器人的重心及稳态行走控制仿真。

本发明相对于现有技术具有以下有益效果：

1)本发明以基本立方体组件构建机器人三维模型，并配以重力系统、惯性系统进行重心控制策略设置，相比传统的方法，本发明确定了机器人重心相关的11个参数，不仅能够全方位描述机器人的运动状态，也能够简化训练过程与拟合难度，同时，以机器人头部相对于地面的高度值的三维变化情况来标定机器人是否处于正常行走状态，以此1个参数实现状态标定，能够大幅提升计算效率，实现“零延时”响应判断，为机器人连续、稳定的行走奠定基础；

2)本发明基于强化学习框架实现双足机器人的重心及稳态行走控制训练和仿真，实现高效、即时的重心控制，可实时适应多变的路面环境，保证迅速、平稳的移动。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于强化学习的双足机器人重心控制方法流程示意图；

图2为本发明基于强化学习的双足机器人重心控制系统结构示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明实施例中，使用Solidworks软件构建双足机器人三维组件模型，使用CoppeliaSim软件实现模型的仿真，深度学习平台选用Tensorflow，强化学习框架选用PARL，所构建的双足机器人组件中，大立方体边长设为单位20cm，重量设为单位8kg，小立方体边长设为单位10cm，重量设为单位1kg，步行速度设为0.1m/秒，重力加速度设为10N/kg。

请参阅图1，本发明提出一种基于强化学习的双足机器人重心控制方法，所述方法包括：

S1、机器人三维组件构建步骤，基于基本立方体组件构建机器人三维模型，并设定各部分的自由度；所述机器人三维组件构建步骤具体包括：

通过1个大号立方体构建双足机器人头部立方体模型；

通过1个大号立方体，构建双足机器人腹部立方体模型；

设定头部立方体模型有前后转动、左右转动2个自由度；

设定胸部立方体模型有前后转动、左右转动2个自由度；

S2、机器人重力系统构建步骤，标定基本立方体组件的参数及初始状态下机器人重心，构建机器人重力系统；

具体的，标定大号立方体和小号立方体的密度质量、体积、质量；：

将所有立方体设置为同等密度质量的实体；

标定大立方体的体积为小立方体体积的8倍，也即1个大立方体由8个小立方体构成；将小立方体的质量设为单位1，则大立方体的质量为8；

所有立方体的质心标定在立方体的中心位置；

为便于运算，将重力加速度的值标定为10；

由于机器人模型采用左右对称设计，因此初始状态(各组件紧连、平铺、垂直)下，重心位于中轴线上的腹部区域。

S3、机器人惯量系统构建步骤，考虑双足机器人在运动时，每个组件的形态变化，计算机器人两个腿部的惯量；

具体的，腿部有2个可转动关节，分别为髋关节和膝关节；

S4、机器人重心控制步骤，根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；

具体的，将组成机器人模型的所有立方体编号，每个立方体具有属性(x_i,y_i,z_i,v_i,m_i)，其中i为立方体编号，x_i、y_i、z_i表示对应立方体在三维空间中的具体位置，v_i表示在机器人匀速行进过程中，对应立方体相对于路面的速度，m_i表示对应立方体的质量；

根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，机器人重心位置(X、Y、Z)与各参数之间的初始模型为：

X＝f_x(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Y＝f_y(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Z＝f_z(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

本发明确定了机器人重心相关的11个参数，不仅能够全方位描述机器人的运动状态，也能够简化训练过程与拟合难度，同时，以机器人头部相对于地面的高度值的三维变化情况来标定机器人是否处于正常行走状态，以此1个参数实现状态标定，能够大幅提升计算效率。

S5、机器人模拟仿真步骤，基于强化学习框架实现双足机器人的重心及稳态行走控制仿真。

将头部模型立方体作为1号立方体，在机器人行走的过程中，通过1号立方体相对于地面的高度值z短时恒定状态标定为强化学习框架中的正向激励，将z值大幅变化标定为负向激励，同时引入手臂摆动来平衡行走过程中的重心和惯量；

请参阅图2，与上述方法实施例相对应，本发明还提出一种基于强化学习的双足机器人重心控制系统，所述系统包括：

机器人三维组件构建模块10，用于基于基本立方体组件构建机器人三维模型，包括头部、胸部、腹部、手臂和腿部，并设定各部分的自由度；

机器人重力系统构建模块20，用于标定基本立方体组件的参数及初始状态下机器人重心，通过统一标定数值的方式构建机器人重力系统；

机器人惯量系统构建模块30，用于考虑双足机器人在运动时，每个组件的形态变化，构建基于腿部各关节的转动惯量模型，主要包括髋关节的2个转动自由度和膝关节的1个转动自由度；

机器人重心控制模块，用于根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；所述重心控制策略包括以机器人头部相对于地面的高度的三维变化情况来标定机器人是否处于正常行走状态，进行重心控制；

如图2所示，与所述方法实施例相对应，本发明提出一种基于强化学习的双足机器人重心控制系统，其包括如下功能模块：

机器人三维组件构建模块10，用于基于基本立方体组件构建机器人三维模型，并设定各部分的自由度；

具体的，机器人三维组件构建模块10用于构建双足机器人的身体各部分，包括头部、胸部、腹部、手臂和腿部。首先需要构建基础组件，本实施例采用标准大小、标准重量的立方体，通过组合构建机器人身体的各部位；用Solidworks构建边长单位、重量单位均为1的小立方体，由8个小立方体组成1个边长为2个单位，重量为8个单位的大立方体；然后，通过1个大号立方体构建双足机器人头部模型，每4个小号立方体，组合成双足机器人的1条手臂模型，2个大号立方体，并联在一起构成双足机器人胸部模型，1个大号立方体，构建双足机器人腹部模型，6个小立方体，组成双足机器人单条腿部模型；最后，需要标定各组件的自由度，其中，头部立方体模型可以前后、左右转动，有2个自由度，胸部立方体模型可以前后、左右转动，有2个自由度，腹部立方体模型可以前后转动、左右转动、绕垂直轴向转动，共3个自由度，手部立方体在肩部具有前后、左右转动，有2个自由度；肘部具有1个自由度，腿部立方体模型在髋关节部分可以前后转动、左右转动，共2个自由度；膝关节可以前后转动，有1个自由度。

机器人重力系统构建模块20，用于标定基本立方体组件的参数及初始状态下机器人重心，构建机器人重力系统；

具体的，机器人重力系统构建模块20用于构建机器人重力系统，并通过统一标定数值的方式，优化后续强化学习速度。首先，将所有立方体在仿真系统中，设置为同等密度质量的实体；然后标定大立方体的体积为小立方体体积的8倍，也即1个大立方体由8个小立方体构成；接着，将小立方体的质量设为1kg，则大立方体的质量为8kg，将小立方体的边长设置为10cm，则大立方体的边长为20cm；所有立方体的质量标定在立方体的中心位置；为便于仿真运算，将重力加速度的值标定为10N/kg；同时，由于机器人模型采用左右对称设计，因此初始状态(各组件紧连、平铺、垂直)下，重心位于中轴线上的腹部区域。

机器人惯量系统构建模块30，用于考虑双足机器人在运动时，每个组件的形态变化，计算机器人两个腿部的惯量；

具体的，此模块用于构建基于腿部各关节的转动惯量模型，主要包括髋关节的2个转动自由度和膝关节的1个转动自由度。首先，在本发明构建的仿真双足机器人模型中，腿部有2个可转动关节，分别为髋关节和膝关节，在运动过程中，通过公式J＝∫r² dm来计算惯量，其中对于单条腿，J为惯量值，r为转动半径，m为刚体质量；接着，由于每条腿由6个小立方体构成，膝关节转动过程中，仅需要转动3个小立方体，但需要考虑髋关节的转动角度，以计算惯量的方向；最后，重复以上步骤，惯量系统在计算过程中，由于单个立方体的重量和大小一定，因此影响惯量大小的可变因素即为髋关节和膝关节的转动角度，设两条腿的髋关节的2个自由度方向与水平面夹角为θ₁和θ₂、θ₃和θ₄，两个膝关节的1个自由度方向与水平面夹角为α₁和α₂，双足机器人行走稳态速度为v。

机器人重心控制模块40，根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人的重心及稳态行走的重心控制策略，进行重心控制相关参数标定和设置；具体的，机器人重心控制模块40用于重心控制原理设置和参数设定，为后续步骤的强化学习的模拟仿真训练奠定基础。首先，将组成机器人模型的所有立方体编号，每个立方体具有属性(x_i,y_i,z_i,v_i,m_i)，其中i为立方体编号，x_i、y_i、z_i表示对应立方体在三维空间中的具体位置，由此也可以推算出重心位置，v_i表示在机器人匀速行进过程中，对应立方体相对于路面的速度，m_i表示对应立方体的质量；本实施例中对于小立方体，m_i＝1kg，对于大立方体，m_i＝8kg；

X＝f_x(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Y＝f_y(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Z＝f_z(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

接着，需要标明1号立方体(头部模型立方体)，在机器人正常仿真行走的过程中，头部模型相对于地面的高度值z不发生变化或小幅震动，因此可通过观察z值变化情况，来标定机器人是否处于正常行走状态，如当摔倒过程中，z值将大幅缩小；进而，将z值短时恒定状态标定为强化学习框架中的正向激励，将z值大幅变化标定为负向激励，同时引入手臂摆动来平衡行走过程中的重心和惯量；至此，则完成了机器人重心控制的原理设置和参数标定。

机器人模拟仿真模块50，用于基于强化学习框架实现双足机器人的重心及稳态行走控制仿真。

具体的，机器人模拟仿真模块50用于构建强化学习模型，实现双足机器人重心和稳定步态的模拟仿真控制。首先，选用开源的强化学习框架PARL，构建适用于本发明双足机器人重心和稳态控制的强化学习引擎；然后，以θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r为训练参数训练所述强化学习模型；同时，通过z值的变化率的判断，实现正向激励和逆向激励的标定；接着，在仿真训练过程中，若负向激励发生，则回退至上一时段的稳定状态，具体回退时间可以自定义的方式由操作员设定；最终，通过迭代训练，将实现本发明所构建的双足机器人的重心和稳态控制仿真。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法，包括机器人三维组件构建步骤、机器人重力系统构建步骤、机器人惯量系统构建步骤、机器人重心控制步骤、机器人模拟仿真步骤。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明方法实施例所述的全部步骤或部分步骤。例如包括机器人三维组件构建步骤、机器人重力系统构建步骤、机器人惯量系统构建步骤、机器人重心控制步骤、机器人模拟仿真步骤。所述存储介质包括：U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要说明的是，以上方法实施例中步骤顺序不限定执行顺序的先后，以上所描述的系统实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。另外，未在本实施例中详尽描述的技术细节，可参见本发明其它实施例。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的双足机器人重心控制方法，其特征在于，所述方法包括：

机器人惯量系统构建步骤，考虑双足机器人在运动时每个组件的形态变化，构建机器人各关节的惯量系统；

机器人重心控制步骤，根据机器人重力系统、惯量系统确定影响机器人重心控制的相关参数，构建双足机器人稳态行走的重心控制策略，进行重心控制相关参数标定和设置；所述重心控制策略包括以机器人头部相对于地面的高度的三维变化情况来标定机器人是否处于正常行走状态，进行重心控制；

2.根据权利要求1所述基于强化学习的双足机器人重心控制方法，其特征在于，所述机器人三维组件构建步骤具体包括：

通过1个大号立方体构建双足机器人头部立方体模型；

通过1个大号立方体，构建双足机器人腹部立方体模型；

设定头部立方体模型有前后转动、左右转动2个自由度；

设定胸部立方体模型有前后转动、左右转动2个自由度；

3.根据权利要求2所述基于强化学习的双足机器人重心控制方法，其特征在于，机器人重力系统构建步骤中，所述标定基本立方体组件的参数具体为：标定大号立方体和小号立方体的密度质量、体积、质量；

在各组件紧连、平铺、垂直状态下，标定机器人重心，所述初始状态下的重心位于机器人中轴线上的腹部区域。

4.根据权利要求3所述基于强化学习的双足机器人重心控制方法，其特征在于，机器人惯量系统构建步骤中，腿部有2个可转动关节，分别为髋关节和膝关节；

设两条腿的髋关节的2个自由度方向与水平面夹角为θ₁和θ₂、θ₃和θ₄，两个膝关节的1个自由度方向与水平面夹角为α₁和α₂，双足机器人行走稳态速度为v；

5.根据权利要求4所述基于强化学习的双足机器人重心控制方法，其特征在于，机器人重心控制步骤具体包括：

X＝f_x(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Y＝f_y(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

Z＝f_z(θ₁、θ₂、θ₃、θ₄、α₁、α₂,v,h_l,h_r,l_l,l_r)

6.根据权利要求5所述基于强化学习的双足机器人重心控制方法，其特征在于，所述机器人模拟仿真步骤具体包括：

7.一种基于强化学习的双足机器人重心控制系统，其特征在于，所述系统包括：

机器人惯量系统构建模块，用于考虑双足机器人在运动时每个组件的形态变化，构建机器人各关节的惯量系统；

8.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如权利要求1～6任一项所述的系统。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现如权利要求1～6任一项所述的系统。