CN114326722B

CN114326722B - 六足机器人自适应步态规划方法、系统、装置及介质

Info

Publication number: CN114326722B
Application number: CN202111569041.9A
Authority: CN
Inventors: 蔡中斌; 魏武; 高勇; 高天啸
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2023-06-16
Anticipated expiration: 2041-12-21
Also published as: CN114326722A

Abstract

本发明公开了一种六足机器人自适应步态规划方法、系统、装置及介质，其中方法包括：搭建六足机器人的仿真模型；根据六足机器人的运动特点建立步态生成器；融合所述仿真模型与所述步态生成器，构建获得强化学习运动控制框架；对所述强化学习运动控制框架进行训练，获得控制网络的参数，使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动；将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动。本发明使用基于强化学习的控制框架学习最优的策略网络，用来控制步态生成器的输入，避免了需要手工设置也不易更改参数的问题，并能更好的适应地形条件的改变。本发明可广泛应用于机器人控制领域。

Description

六足机器人自适应步态规划方法、系统、装置及介质

技术领域

本发明涉及机器人控制领域，尤其涉及一种六足机器人自适应步态规划方法、系统、装置及介质。

背景技术

随着社会经济的持续发展和科学技术的不断进步，智能机器人被应用在越来越多的复杂场景下，如仓储物流、加工制造、能源和矿产采集、医疗康复、国防军事等。如今人类的活动范围不断扩大，各种生活和生产环境也越来越复杂，因此人类开始利用智能机器人完成在各类复杂环境下的探索与检测以提高安全性和工作效率。但是由于技术还在不断发展，现有的机器人技术还需要进一步的提高才能满足现有的工作需求。

在智能机器人中，六足机器人是通过模仿多足动物的结构和运动形式发展而来的特种机器人。在结构上有多冗余自由度，在运动形式上有多种仿生步态。相比于轮式机器人，六足机器人结构更复杂，运动灵活性更高，地形适应能力更强，适合更多的复杂场景。但是足式机器人的控制难度更高，在复杂地形下需要依靠多种传感器信息才能得到合适的控制策略；同时，相应的步态参数为手工设计，对已知环境具有很好的效果，但是在面对未知的复杂地形，其效率大大降低，缺少一种适应性更强的策略去解决在复杂地形下的自适应运动难题。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种六足机器人自适应步态规划方法、系统、装置及介质。

本发明所采用的技术方案是：

一种六足机器人自适应步态规划方法，包括以下步骤：

搭建六足机器人的仿真模型；

根据六足机器人的运动特点建立步态生成器，所述步态生成器的输入为步态参数，输出为六足机器人的关节位置控制指令，以控制机器人按照预设的步态进行运动；

融合所述仿真模型与所述步态生成器，构建获得强化学习运动控制框架；

对所述强化学习运动控制框架进行训练，获得控制网络的参数，使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动；

将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动。

进一步，所述融合所述仿真模型与所述步态生成器，构建获得强化学习运动控制框架，包括：

定义六足机器人的状态变量S，所述状态变量S包括机体平台的俯仰角θ_pitch和翻滚角θ_roll、机体平台线速度ν_body和角速度ω_body、关节角度θ_i；

定义六足机器人的动作变量A，所述动作变量A包括X轴方向的跨步步幅L_x、Y轴方向的跨步步幅L_y、抬腿高度h、机体平台速度v、机器人偏航角度φ；

构建六足机器人的控制网络的结构，所述控制网络包括策略网络、在线状态价值函数网络、目标状态价值函数网络和两个动作-状态价值函数网络；

设定自适应步态策略的奖励函数。

进一步，所述自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成；

所述奖励函数的表达式为：

其中，d表示机器人的前进方向，x为前进距离，τ_n为关节力矩，

为关节速度，λ_i为自定义系数，i＝1,2,3。

进一步，所述对所述强化学习运动控制框架进行训练，获得控制网络的参数，包括：

初始化所述控制网络的参数，其中，所述在线状态价值函数网络和所述目标状态价值函数网络的初始化参数相同，两个动作-状态价值函数网络的初始化参数相同；

对仿真场景进行随机初始化，初始化内容包括机器人的姿态、连杆参数以及地形环境，并获取机器人的初始状态S_t；

将机器人的初始化状态S_t输入策略网络，得到输出的动作值A_t；将动作值A_t输出至步态生成器得到机器人的运动参数，控制仿真机器人完成一个周期的步态运动，获得下一个状态S_t+1，根据奖励函数获得所述状态S_t+1对应的奖励值R_t，将数据<S_t,A_t,S_t+1,R_t>存入经验池中；

在经验池中随机取出n个数据，作为一个批量数据，计算在线状态价值函数网络的梯度，对在线状态价值函数网络的参数进行更新；

在经验池中随机获取一个批量数据，对动作-状态价值函数网络的参数进行更新；

根据奖励值对策略网络的参数进行更新；

对目标状态价值函数网络的参数进行软更新；

判断策略网络是否收敛，若收敛，结束训练。

进一步，所述对在线状态价值函数网络的参数进行更新，包括：

采用Adam算法对在线状态价值函数网络的参数进行更新。

进一步，所述对动作-状态价值函数网络的参数进行更新，包括：

初始状态S_t的真实价值估计为V_s，采用动作值A_t得到的Q(S_t,A_t)值作为状态的预测价值估计，使用MSELoss作为损失函数，对动作-状态价值函数网络进行训练，更新动作-状态价值函数网络的参数。

进一步，所述步态生成器包括足端轨迹生成模块、逆运动学模块和轨迹跟踪控制器模块；

所述足端轨迹生成模块的输入为一个步态周期的跨步步幅、抬腿高度、步态周期以及机器人偏航角度参数，输出为该周期内六足机器人的每条腿的末端轨迹；其中，末端轨迹的曲线可以根据六足机器人不同的足端进行选择；

所述轨迹跟踪控制器采用自适应非线性积分滑模控制器。

本发明所采用的另一技术方案是：

一种六足机器人自适应步态规划系统，包括：

模型构建模块，用于搭建六足机器人的仿真模型；

生成器构建模块，用于根据六足机器人的运动特点建立步态生成器，所述步态生成器的输入为步态参数，输出为六足机器人的关节位置控制指令，以控制机器人按照预设的步态进行运动；

框架构建模块，用于融合所述仿真模型与所述步态生成器，构建获得强化学习运动控制框架；

网络训练模块，用于对所述强化学习运动控制框架进行训练，获得控制网络的参数，使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动；

步态控制模块，用于将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动。

本发明所采用的另一技术方案是：

一种六足机器人自适应步态规划装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明使用基于强化学习的控制框架学习最优的策略网络，用来控制步态生成器的输入，避免了需要手工设置也不易更改参数的问题，并能更好的适应地形条件的改变；另外，在仿真环境中训练模型，再移植到实体机器人，可以为实体机器人的设计提供更科学的指导。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中六足机器人自适应步态规划方法的流程图；

图2是本发明实施例中六足机器人的模型图；

图3是本发明实施例中六足机器人自适应步态的控制框架图；

图4是本发明实施例中策略网络训练流程图；

图5是本发明实施例中一种六足机器人自适应步态规划方法的步骤流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图5所示，本实施例提供一种六足机器人自适应步态规划方法，包括以下步骤：

S1、搭建六足机器人的仿真模型。

根据机器人的三维模型进行合理的简化搭建机器人仿真模型，并使该模型能在仿真环境中完成三维仿真运动。

S2、根据六足机器人的运动特点建立步态生成器，步态生成器的输入为步态参数，输出为六足机器人的关节位置控制指令，以控制机器人按照预设的步态进行运动。

根据六足机器人的运动特点，建立步态生成器，包含足端轨迹生成模块、逆运动学模块和轨迹跟踪控制器模块。步态生成器的输入为相关步态参数，输出为机器人关节位置控制指令，用来控制机器人按照给定的步态进行运动。

其中，足端轨迹生成模块的输入为一个步态周期的跨步步幅、抬腿高度、步态周期以及机器人偏航角度参数，输出为该周期内每条腿的末端轨迹；末端轨迹曲线可以根据六足机器人不同的足端进行选择：对于吸附式末端采用SS型曲线，对于摩擦式末端，采用改进摆线轨迹。轨迹跟踪控制器采用自适应非线性积分滑模控制器。

S3、融合仿真模型与步态生成器，构建获得强化学习运动控制框架。

对于建立的六足机器人仿真模型，融合步骤S2中的步态生成器建立强化学习运动控制框架，设定相关训练规则，具体包括步骤S31-S34：

S31、定义六足机器人的状态变量S，所述状态变量S包括机体平台的俯仰角θ_pitch和翻滚角θ_roll、机体平台线速度ν_body和角速度ω_body、关节角度θ_i；

S32、定义六足机器人的动作变量A，所述动作变量A包括X轴方向的跨步步幅L_x、Y轴方向的跨步步幅L_y、抬腿高度h、机体平台速度v、机器人偏航角度φ；

S33、构建六足机器人的控制网络的结构，所述控制网络包括策略网络、在线状态价值函数网络、目标状态价值函数网络和两个动作-状态价值函数网络；

S34、设定自适应步态策略的奖励函数。

其中，自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成；

该自适应步态策略的表达式为：

为关节速度，λ_i(i＝1,2,3)为自定义系数。

S4、对强化学习运动控制框架进行训练，获得控制网络的参数，使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动。

对构建获得的强化学习框架进行训练，得到控制网络的参数，使该框架能够控制六足机器人仿真模型在非结构化地形的仿真场景下运动。具体训练流程如下：

S41、初始化控制网络参数，其中两个状态价值函数网络的初始化参数相同，两个动作-状态价值函数网络的初始化参数相同。控制网络结构均采用四层神经网络结构，包括输入层，2个隐藏层和输出层。

S42、对仿真环境进行随机初始化，包括机器人的姿态、连杆参数以及地形环境，并获取机器人的初始状态S_t。

具体地，步骤S42中采用参数随机化的方法，包括六足机器人的初始位姿、连杆质量与转动惯量。初始参数采用三维建模软件计算得到的数值，从该值的均匀分布中采样得到一个随机参数。

S43、将机器人的初始化状态S_t输入控制策略网络，得到输出的动作值A_t；将动作输出至步态生成器得到机器人的运动参数，并控制仿真机器人完成一个周期的步态运动，再次得到一个状态值S_t+1。并根据奖励函数得到此步的奖励值R_t，将<S_t,A_t,S_t+1,R_t>存入经验池中。

S44、根据机器人状态和训练终止条件判断此次训练是否结束。如果没有结束，继续该流程。

S45、在经验池中随机取出n个数据，作为一个小批量数据，并计算在线状态价值函数网络的梯度，使用Adam算法进行参数更新。

S46、再次从经验池中随机取出一个小批量数据进行动作-状态价值函数网络参数的更新。状态S_t的真实价值估计为V_s，采用实际动作A_t得到的Q(S_t,A_t)值作为状态的预测价值估计，使用MSELoss作为损失函数，对动作-状态价值函数网络进行训练。

S47、根据奖励值对策略网络参数进行更新。

S48、对目标状态价值函数网络参数进行软更新。

S49、重复步骤S42～S48直至策略网络收敛。

S5、将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动。

将训练好的策略网络集成在六足机器人的步态控制框架中，并在仿真环境中对六足机器人进行验证；如果在仿真环境中可以很好地控制六足机器人运动，就将该控制网络移植至机器人实体机，用于控制实体六足机器人的运动。

上述的方法，由于采用了强化学习方法，使得步态相关参数不需要依靠经验设置，而是通过大量的训练得到，不仅可以提高六足机器人的运动效率和能量效率，也能使六足机器人能更好的适应地形的变化。相对于传统的固定式步态规划方法，本实施例提出的方法可以集成多种步态方案，多种足端轨迹函数，在非结构化地形下具有更强的适应能力。

以下结合附图及具体实施例对上述方法进行详细的解释说明。

如图1所示，本实施例提供一种基于强化学习的六足机器人在非结构化地形下的自适应步态规划方法，包括以下步骤：

步骤1，通过对六足机器人的实际三维模型进行一些合理的简化搭建仿真模型，搭建的详细过程为：

①根据已有的六足机器人装配体模型进行简化，构建六足机器人的三维模型，如图2所示。将六足机器人模型拆分为机体平台和六条腿，每条腿分为四个连杆。具体来说，六足机器人的机体平台为正六边形，每条腿的连接点在正六边形的六个顶点上；六足机器人的每条腿包含四个主动关节，分为髋关节、股关节、膝关节和踝关节，其中髋关节可以绕垂直于机身平面的轴向旋转，其余三个关节的转动轴向则与髋关节转动轴向互相垂直。

②将三维模型转换成stl模型，并编写六足机器人的urdf模型文件，设置关节、连杆质量与连杆转动惯量等参数。

③将仿真模型导入gym仿真环境，导入地面模型，并设置重力加速度。编写程序测试六足机器人仿真模型的关节都能正常接收位置控制指令，完成对仿真模型的测试，确保能正常进行运动仿真。

步骤2，如图3所示，构建基于强化学习的六足机器人自适应步态的控制框架，其中策略网络为强化学习所学习到的策略函数；足端轨迹生成模块、逆运动学模块和轨迹跟踪控制器模块共同组成了步态生成器，具体构建方法如下：

建立足端轨迹生成模块。足端轨迹生成模块集成了六足机器人多种步态的轨迹生成方式，包括三角步态、四足步态和波浪步态。足端轨迹曲线也根据六足机器人不同的足端形式生成不同的曲线，对于吸附式末端采用SS型曲线：

其中C_i(i＝1,2,3,4)，ω，

均为可调节参数。对于摩擦式末端，采用改进摆线轨迹：

其中S表示X轴和Y轴方向上的跨步步长，H表示抬腿高度，T_m表示步态周期。

②逆运动学求解方法：

通过几何关系的严格证明，可以得到各转动副的转动角度θ_i、机身俯仰角ψ、吸盘与水平支撑面夹角σ三者之间的关系：

根据运动学分析可以得到六足机器人的正运动学模型为：

为了便于书写，约定如下三角函数简化表达式

第j条腿足端相对于机身坐标系的位置矢量的三个分量为：

其中L_i表示六足机器人腿部第i个连杆长度。根据以上方程，可以联立解得各关节角度：

其中

B＝^Bf_z+L₄·cos(σ-sign(α_j)·ψ。

③轨迹跟踪控制器采用自适应非线性积分滑模控制器对逆运动学求解得到的关节运动轨迹进行跟踪控制。假定期望关节角度为θ_d，实际关节角度为θ，跟踪误差e＝θ_d-θ。设计滑模面为

其中K_p、K_d为增益系数。因为指数趋近律既具备良好的动态品质，又能形成有限时间的趋近运动，所以选取其作为本控制器的趋近律。自适应滑模指数趋近律为/>

其中/>

和/>

分别为对目标参数η₁和η₂的估计，计算方法为/>

其中α₁与α₂均为正实数。设计一种自适应非线性积分滑模控制器的控制律为

步骤3，在步骤1构建的仿真环境中，定义六足机器人在仿真环境中的运动规则。在本实施例子中的运动规则包括：

①定义六足机器人的状态变量S，包括机体平台的俯仰角θ_pitch和翻滚角θ_roll、机体平台线速度ν_body和角速度ω_body、关节角度θ_i。

②定义六足机器人的动作变量A，包括X轴方向的跨步步幅L_x、Y轴方向的跨步步幅L_y、抬腿高度h、机体平台速度v、机器人偏航角度φ。

③设定自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成，表示为

其中d表示机器人的前进方向，x为前进距离，τ_n为关节力矩，/>

为关节速度，λ_i(i＝1,2,3)为自定义系数。

步骤4，基于强化学习算法对六足机器人仿真模型进行训练，首先确定网络结构：

六足机器人控制网络结构包括策略网络、在线状态价值函数网络、目标状态价值函数网络和两个动作-状态价值函数网络。其中策略网络训练完成后会集成在六足机器人自适应步态的控制框架中，其他网络为辅助训练的网络。所有网络结构均为神经网络结构，包含输入层、隐藏层和输出层。本实例具体设置如下：

策略网络共四层网络结构，将状态空间映射至动作空间。该网络结构的输入层共32个结点，对应定义的状态变量；隐藏层分别为256、128个结点；输出层5个结点，对应定义的动作变量。

状态价值函数网络分为在线状态价值函数网络和目标状态价值函数网络，二者结构相同。该网络结构的输入层共37个结点，包含状态变量和动作变量；隐藏层分别为256、128个结点；输出层1个结点，对应状态价值的估计值。

动作-状态价值函数网络是将状态空间映射至动作-状态价值空间的网络，两个动作-状态价值函数网络的结构一样。该网络结构的输入层共32个结点，表示状态变量；隐藏层分别为256、128个结点；输出层5个结点，对应动作-状态价值的估计值。进一步确定训练流程，如图4所示，主要流程如下：

①初始化所有控制网络参数，策略网络参数φ，状态价值函数网络参数ψ、

动作-状态价值函数网络参数μ₁、μ₂。其中两个状态价值函数网络的初始化参数相同，两个动作-状态价值函数网络的初始化参数相同。

②从三维建模软件中获取机体平台和腿部连杆的质量、转动惯量等参数得到标准值。采用均匀分布采样的方式从标准值周围的小范围内进行采样，得到当前初始化参数

③对仿真环境进行随机初始化，包括机器人的姿态以及地形环境，并获取机器人的初始状态S_t。

④将机器人的初始化状态S_t输入控制策略网络，得到输出的动作值A_t；将动作输出至步态生成器得到机器人的运动轨迹参数，控制仿真机器人完成一个周期的步态运动，再次得到一个状态值S_t+1。并根据奖励函数得到上一步的奖励值R_t。

⑤根据机器人状态和训练终止条件判断此次训练是否结束。如果没有结束，继续一下流程；如果结束了，则重新开始下一轮训练。

⑥将得到的<S_t,S_t+1,A_t,R_t>参数存入经验池中，用来对网络参数进行更新。

⑦在经验池中随机取出n个数据，作为一个小批量数据，并计算在线状态价值函数网络的梯度，使用Adam算法进行参数更新。参数更新表达式为

λ_V为学习率。

⑧再次从经验池中随机取出一个小批量数据进行动作-状态价值函数网络参数的更新。状态S_t的真实价值估计为V_s，采用实际动作A_t得到的Q(S_t,A_t)值作为状态的预测价值估计，使用MSELoss作为损失函数，对动作-状态价值函数网络进行训练。参数更新表达式为

λ_Q为学习率。

⑨根据奖励值对策略网络参数进行更新：

λ_π为学习率。对目标状态价值函数网络参数进行软更新：/>

τ为更新系数。

⑩重复步骤②～⑨直至网络收敛。

步骤5，在仿真环境中验证步骤4训练好的策略网络。将策略网络用在六足机器人仿真模型的运动控制中，若六足机器人能够自主完成在仿真环境中的运动，则表示训练的策略网络有效，从而将策略网络提取出来用于控制真实的六足机器人运动。

综上所述，本实施例的方法相对于现有技术，具有如下有益效果：

(1)本实施例提出一种适用于六足机器人的步态生成器框架，可以集成多种步态与足端轨迹曲线，同时使用轨迹跟踪控制器提高控制精度，使得六足机器人的适应能力进一步提高。

(2)使用基于强化学习的控制框架学习最优的策略网络，用来控制步态生成器的输入，避免了需要手工设置也不易更改参数的问题，并能更好的适应地形条件的改变。

(3)本实施例方法通过仿真环境中训练模型，再移植到实体机器人，可以为实体机器人的设计提供更科学的指导；同时提出了参数随机化策略提高控制策略的鲁棒性。

本实施例还提供一种六足机器人自适应步态规划系统，包括：

模型构建模块，用于搭建六足机器人的仿真模型；

本实施例的一种六足机器人自适应步态规划系统，可执行本发明方法实施例所提供的一种六足机器人自适应步态规划方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种六足机器人自适应步态规划装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图5所示的方法。

本实施例的一种六足机器人自适应步态规划装置，可执行本发明方法实施例所提供的一种六足机器人自适应步态规划方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图5所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种六足机器人自适应步态规划方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种六足机器人自适应步态规划方法，其特征在于，包括以下步骤：

搭建六足机器人的仿真模型；

将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动；

所述融合所述仿真模型与所述步态生成器，构建获得强化学习运动控制框架，包括：

设定自适应步态策略的奖励函数。

2.根据权利要求1所述的一种六足机器人自适应步态规划方法，其特征在于，所述自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成；

所述奖励函数的表达式为：

为关节速度；λ_i为自定义系数，i＝1,2,3。

3.根据权利要求1所述的一种六足机器人自适应步态规划方法，其特征在于，所述对所述强化学习运动控制框架进行训练，获得控制网络的参数，包括：

根据奖励值对策略网络的参数进行更新；

对目标状态价值函数网络的参数进行软更新；

判断策略网络是否收敛，若收敛，结束训练。

4.根据权利要求3所述的一种六足机器人自适应步态规划方法，其特征在于，

所述对在线状态价值函数网络的参数进行更新，包括：

采用Adam算法对在线状态价值函数网络的参数进行更新。

5.根据权利要求3所述的一种六足机器人自适应步态规划方法，其特征在于，

所述对动作-状态价值函数网络的参数进行更新，包括：

6.根据权利要求1所述的一种六足机器人自适应步态规划方法，其特征在于，所述步态生成器包括足端轨迹生成模块、逆运动学模块和轨迹跟踪控制器模块；

所述足端轨迹生成模块的输入为一个步态周期的跨步步幅、抬腿高度、步态周期以及机器人偏航角度参数，输出为该周期内六足机器人的每条腿的末端轨迹；

所述轨迹跟踪控制器采用自适应非线性积分滑模控制器。

7.一种六足机器人自适应步态规划系统，其特征在于，包括：

模型构建模块，用于搭建六足机器人的仿真模型；

步态控制模块，用于将训练后获得的控制网络集成在六足机器人的步态控制框架中，用于控制六足机器人的运动；

设定自适应步态策略的奖励函数。

8.一种六足机器人自适应步态规划装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述方法。

9.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述方法。