CN114859737A

CN114859737A - 四足机器人步态过渡方法、装置、设备和介质

Info

Publication number: CN114859737A
Application number: CN202210797904.6A
Authority: CN
Inventors: 郝甜甜; 徐德; 严少华; 江磊; 梁振杰; 许�鹏
Original assignee: Institute of Automation of Chinese Academy of Science; China North Vehicle Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; China North Vehicle Research Institute
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-08-05
Anticipated expiration: 2042-07-08
Also published as: CN114859737B

Abstract

本发明涉及机器人技术领域，提供一种四足机器人步态过渡方法、装置、设备和介质，包括获取第一稳定步态下的第一相位参数及第一状态参数，将第一状态参数输入至预设强化学习模型获得相位增量；根据相位增量及第一相位参数计算出第二相位参数，获取在第二相位参数下运动后的第二状态参数；将第二状态参数作为第一状态参数并返回执行将第一状态参数输入至预设强化学习模型获得相位增量，继续执行根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数直至过渡到第二稳定步态，由此通过相位增量使得从第一稳定步态可以逐渐平稳地切换到第二稳定步态避免了由于步伐切换幅度太大导致紊乱摔倒。

Description

四足机器人步态过渡方法、装置、设备和介质

技术领域

本发明涉及机器人技术领域，尤其涉及一种四足机器人步态过渡方法、装置、设备和介质。

背景技术

近年来，随着社会不断进步和科学技术的不断发展，机器人在现代工业领域应用已经非常广泛，而人们对机器人各方面的功能需求也不断提高。为满足社会的需求，在产业界和学术界，智能机器人的研究都是一大热点，其中包括的四足机器人是近年来研究的重要领域。

目前四足机器人在根据操控指令进行运动时，运动步态仅分为走步态或者跑步态。在从走步态动态切换到跑步态或者从跑步态动态切换到走步态的运动阶段，四足机器人的腿的支撑时间与摆动时间之比具有较大变化，从而容易导致四足机器人出现步伐紊乱摔倒。

发明内容

本发明提供一种四足机器人步态过渡方法、装置、设备和介质，用以解决现有技术中四足机器人进行步态切换时，四足机器人的腿的支撑时间与摆动时间之比具有较大变化，从而容易导致四足机器人出现步伐紊乱摔倒的缺陷，实现四足机器人进行步态动态切换时，能够平稳过渡到下一个步态。

本发明提供一种四足机器人步态过渡方法，包括：

获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；

将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

根据本发明提供的一种四足机器人步态过渡方法，所述将所述第一状态参数输入至预设强化学习模型之前，还包括：

获取初始深度强化学习模型、第一稳定步态下的第一训练相位参数及第一训练状态参数；

将所述第一状态参数输入至初始深度强化学习模型，获得所述初始深度强化学习模型输出的训练相位增量；

根据所述训练相位增量及所述第一训练相位参数计算出过渡步态下的第二训练相位参数，并获取四足机器人在所述第二训练相位参数下运动后的第二训练状态参数；

根据所述第二训练状态参数计算出所述初始深度强化学习模型的奖励函数值；

根据所述奖励函数值更新所述初始深度强化学习模型的模型参数，并将所述第二状态训练参数作为所述第一训练状态参数，返回执行所述将所述第一状态参数输入至预设强化学习模型，直至所述奖励函数值达到收敛状态，以得到预设强化学习模型。

根据本发明提供的一种四足机器人步态过渡方法，所述奖励函数值的函数计算公式如下：

其中，

为第一系数，V_c为四足机器人的前进速度，V_d为四足机器人的期望前进速度，

为第i关节的力矩，

为第i关节的角速度，

为第二系数，C₁为摔倒标志。

根据本发明提供的一种四足机器人步态过渡方法，所述获取四足机器人在所述第二训练相位参数下运动后的第二训练状态参数，具体包括：

根据所述第二训练相位参数下确定四足机器人的摆动相及支撑相；

将所述摆动相输入预设位置模型，获取所述预设位置模型输出的摆动过程中的关节位置；

将所述支撑相输入预设力矩模型，获取所述预设力矩模型输出的站立过程中的关节力；

根据所述关节位置及所述关节力控制四足机器人在过渡步态下的运动，获取运动后的第二训练状态参数。

根据本发明提供的一种四足机器人步态过渡方法，所述获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态，具体包括

获取四足机器人在所述第二相位参数下运动后的第二状态参数；

在检测到所述第二状态参数处于第二目标稳定步态区间范围内的情况下，判定所述四足机器人过渡到第二稳定步态。

根据本发明提供的一种四足机器人步态过渡方法，所述获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，具体包括：

获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数；

在检测到所述第一状态参数达到第一目标稳定步态区间范围内的情况下，将所述第一状态参数输入至预设强化学习模型。

根据本发明提供的一种四足机器人步态过渡方法，所述第一稳定步态包括走步态，所述第一状态参数包括四足机器人在走步态下的前进速度、期望前进速度及四足机器人的姿态角，所述第一相位参数包括四足机器人的腿摆动开始相位时刻、四足机器人的各条腿运动周期的初始相位时刻；或者，

所述第一稳定步态包括跑步态，所述第一状态参数包括四足机器人在跑步态下的前进速度、期望前进速度及四足机器人的姿态角，所述第一相位参数包括四足机器人的腿摆动开始相位时刻、四足机器人的各条腿运动周期的初始相位时刻。

本发明还提供一种四足机器人步态过渡装置，包括：

第一获得单元，用于获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

获取单元，用于根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；

第二获得单元，用于将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

过渡单元，用于继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述四足机器人步态过渡方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述四足机器人步态过渡方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述四足机器人步态过渡方法。

本发明提供的一种四足机器人步态过渡方法、装置、设备和介质，通过获取第一稳定步态下的第一相位参数及第一状态参数，将第一状态参数输入至预设强化学习模型获得相位增量；根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数；将第二状态参数作为第一状态参数并返回执行将第一状态参数输入至预设强化学习模型获得相位增量；继续执行根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数，直至过渡到第二稳定步态，由此通过过渡步态的相位增量使得从第一稳定步态可以逐渐平稳地切换到第二稳定步态，避免了由于步伐切换幅度太大导致紊乱摔倒。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的四足机器人步态过渡方法的流程示意图之一；

图2是本发明提供的四足机器人走步态的时序相位图；

图3是本发明提供的四足机器人跑步态的时序相位图；

图4为本发明提供的四足机器人步态过渡方法的流程示意图之二；

图5是本发明提供的四足机器人的时间步-速度的运动曲线图；

图6是本发明提供的四足机器人步态过渡装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的四足机器人步态过渡方法。

在实际应用中，四足机器人进行四节拍运动时，主要分为走步态和跑步态，四足机器人在进入走步态阶段时，按照预先设定的走步态固定时序相位进行走动，参考图2，图2中的FR，FL，HR，HL分别表示右前腿，左前腿，右后腿，左后腿，此图2表示的四足机器人摆动顺序为HL-FL-HR-FR，其中，以FR为代表进行解释说明，在FR的走步态时序相位图中，白色块代表右前腿处于摆动阶段，填充块代表右前腿处于支撑阶段。同理四足机器人在进入跑步态阶段时，按照预先设定的跑步态固定时序相位进行走动，参考图3，图3中的FR，FL，HR，HL分别表示右前腿，左前腿，右后腿，左后腿，此图3表示的四足机器人摆动顺序为HL-FL-HR-FR，其中，以FR为代表进行解释说明，在FR的跑步态时序相位图中，白色块代右前表腿处于摆动阶段，填充块代表右前腿处于支撑阶段。其中，图2和图3所表示的均为一个运动周期的时序相位图。基于图2和图3可知，在走步态阶段同一时刻只有一条腿处于摆动的状态，腿的站立和摆动时间的占空比比较大，而在跑态阶段同一时刻存在四足同时腾空的阶段，此外为了能够为四足腾空提供充足的能量，也存在四足同时站立的阶段，也即腿站立时间与摆动时间的占空比比较小。

由于走步态和跑步态之间的腿站立时间与摆动时间的占空比具有较大的变化，在四足机器人进行步态切换时，容易导致出现步伐紊乱而摔倒。因此本发明提出了一种四足机器人步态过渡方法，实现四足机器人在走步态和跑步态之间进行切换时，可以从走步态平稳动态过渡到跑步态，或者从跑步态平稳动态过渡到走步态。

本发明中，为了实现四足机器人的平稳过渡，将四足机器人每条腿的运动周期均归一化为1，将一个周期内腿的摆动开始时刻记为T_P，也即腿开始摆动的相位时刻记为T_P。各条腿的初始相位时刻记为T_b。四足机器人的运动是通过协调四条腿的时序与相位来实现的，即不仅需要确定四条腿的运动状态，还需要确定四条腿所处运动状态的具体相位。当一条腿的相位时间值超过T_P时表明腿处于摆动状态，摆动状态的持续摆动时间长度为t_f；否则，处于支撑状态，且支撑状态站立时间长度为t_s。由此随着相位的变化，四条腿按照规定的顺序轮流进行摆动，进而执行各个步态。

图1为本发明提供的四足机器人步态过渡方法的流程示意图之一，如图1所示，该方法包括：

步骤100，获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

本发明中，第一稳定步态可以为走步态，还可以为跑步态。在第一稳定步态为走步态的情况下，第一状态参数包括四足机器人在走步态下的前进速度、期望前进速度及四足机器人的姿态角，第一相位参数包括四足机器人在走步态下的腿摆动开始相位时刻、四足机器人在走步态下的各条腿运动周期的初始相位时刻。在第一稳定步态为跑步态的情况下，第一状态参数包括四足机器人在跑步态下的前进速度、期望前进速度及四足机器人的姿态角，第一相位参数包括四足机器人在跑步态下的腿摆动开始相位时刻、四足机器人在跑步态下的各条腿运动周期的初始相位时刻。

具体地，稳定步态指代四足机器人根据固定时序相位进行运动的步态。预设强化学习模型输出的相位增量即为

和

，其中，

是相比于第一稳定步态下的腿摆动开始相位时刻改变的增量值，而

分别是四足机器人的各条腿相比于第一稳定步态下的运动周期的初始相位时刻改变的增量值。

进一步需要说明的是，本发明中各条腿运动周期的初始相位时刻指代各条腿的每一个运动周期开始的初始相位时刻，其中，本发明中的各条腿的初始相位时刻可以相同，也可以不同，对此不作限制。

期望前进速度即指代预先设定的四足机器人在不同步态下期望达到的一个前进速度值。也即本发明中的期望前进速度并非一个固定不变的数值，而是一个随着四足机器人的步态变化而变化的一个预先设定的数值。由此机器人在步态过渡阶段的每个运动周期通过调整步态来适应速度的变化。

此外，在实际应用中，可以在四足机器人的机身的上表面建立机身本体坐标系。其中，坐标系的原点位于机身的上表面的中心，坐标系的x轴正方向指向四足机器人的前进方向，坐标系的z轴正方向垂直于机身竖直向上，坐标系的y轴则可由右手定则确定。世界坐标系是将坐标系原点固定在地面上，x轴、y轴、z轴的建立规则如上所示。本发明中的四足机器人的姿态角即为四足机器人相对于世界坐标系的x轴、y轴及z轴三个方向上的姿态角

、

和

。

在另一应用场景中，四足机器人在执行走步态或者跑步态时，都从零速起步逐渐加速到各个步态对应的期望期间速度，因此为了避免四足机器人步态切换太快而导致出现步伐紊乱，在获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将第一状态参数输入至预设强化学习模型，具体包括：

获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数；在检测到第一状态参数达到第一目标稳定步态区间范围内的情况下，将第一状态参数输入至预设强化学习模型。

具体地，第一目标稳定步态区间范围指代第一稳定步态对应的期望前进速度范围。换句话说，该步骤中，四足机器人在第一稳定步态下从零速起步逐渐加速到期望前进速度后，才可以执行从第一稳定步态向第二稳定步态切换的任务。

步骤200，根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；

该步骤中，将相位增量与第一相位参数进行相加，获得在过渡步态下的第二相位参数。之后通过四足机器人身体内部署的位置模型和力矩模型分别输出过渡步态下腿的摆动控制信号和支撑控制信号，并获取四足机器人在根据该摆动控制信号和支撑控制信号进行运动之后的第二状态参数。其中本发明中的第二状态参数和第一状态参数所包括的参数一致，第一和第二仅用于区分出第一稳定步态下的状态参数和过渡步态下的状态参数，在此无其他含义。

此外需要说明的是，在四足机器人在第二相位参数下运动后的第二状态参数中的前进速度及四足机器人的姿态角是一个实时采集到的数值，而期望前进速度是预先设定的各个运动阶段所匹配的一个特定的固定数值。预先设定的期望前进速度V_d=0.3+2it，其中，t指代过渡步态每个运动周期所消耗的时间，i指代过渡步态的第i个运动周期换句话说，期望前进速度会随着运动周期的变长而逐渐规律性地增加。

需要说明的是，本发明中的位置模型是一个基于四足机器人的摆动相对摆动过程中腿的关节位置进行控制的模型。力矩模型则是一个基于四足机器人的支撑相对支撑过程中的关节力进行控制的模型，例如VMC（Virtual model control）模型。

具体地，四足机器人的摆动相及支撑相则是由四足机器人的腿摆动开始相位时刻T_P、四足机器人的各条腿运动周期的初始相位时刻T_b1~T_b4所确定出来的。其中，所采用的方式可以为现有技术中所公开的步态规划方法，在此不再赘述。

步骤300，将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；

具体地，在过渡步态阶段基于预设强化学习模型对四足机器人的相位参数进行调控之后，继续执行基于预设强化学习模型对四足机器人的相位参数进行调控的步骤。

容易理解地，由于走步态和跑步态之间的腿站立时间与摆动时间的占空比具有较大的变化，因此一个过渡步态周期难以实现步态过渡，需要多个过渡步态周期才能从第一稳定步态的前进速度过渡到第二稳定步态的前进速度。

步骤400，继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

该步骤中，经过多个回合的过渡周期，逐渐从第一稳定步态下的前进速度过渡到第二稳定步态下的前进速度。

具体地，获取四足机器人在第二相位参数下运动后的第二状态参数；在检测到第二状态参数处于第二目标稳定步态区间范围内的情况下，判定四足机器人过渡到第二稳定步态。

其中，第二目标稳定步态区间范围指代第二稳定步态对应的期望前进速度范围。换句话说，该步骤中，四足机器人在过渡步态下从第一稳定步态下的期望前进速度逐渐加速到第二稳定步态对应的期望前进速度后，才判定过渡到第二稳定步态。

本发明提供的一种四足机器人步态过渡方法，通过获取第一稳定步态下的第一相位参数及第一状态参数，将第一状态参数输入至预设强化学习模型获得相位增量；根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数；将第二状态参数作为第一状态参数并返回执行将第一状态参数输入至预设强化学习模型获得相位增量；继续执行根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数，直至过渡到第二稳定步态，由此通过过渡步态的相位增量使得从第一稳定步态可以逐渐平稳地切换到第二稳定步态，避免了由于步伐切换幅度太大导致紊乱摔倒。

可选地，在本发明公开的另一种实施例中，参考图4，图4为本发明提供的四足机器人步态过渡方法的流程示意图之二，如图4所示：所述将所述第一状态参数输入至预设强化学习模型之前，还包括：

步骤1001，获取初始深度强化学习模型、第一稳定步态下的第一训练相位参数及第一训练状态参数；

具体地，训练相位参数和训练状态参数指代对初始深度强化学习模型进行训练的参数。本发明中的第一训练相位参数、第一训练状态参数的参数同上述第一相位参数、第一状态参数一致。换句话说，本发明中的训练仅用于区分出对初始深度强化学习模型进行训练时所用到的参数，在此不再赘述。

其中，本发明中所采用的初始深度强化学习模型包含1个策略神经网络，2个SoftQ神经网络。其中策略神经网络的隐藏层神经元的个数为256，激活函数可以为Relu函数，策略神经网络根据输入的状态获得动作的正态分布，选取符合分布的动作，通过Relu函数将动作映射到[-1，1]区间，根据任务需要进一步将动作区间缩小为[-0.5，0.5]之间。Soft Q神经网络的隐藏层神经元个数为256个，激活函数为Tanh函数。策略神经网络和2个Soft Q神经网络的学习率都为10^-5。

步骤1002，将所述第一状态参数输入至初始深度强化学习模型，获得所述初始深度强化学习模型输出的训练相位增量；

该步骤中，初始深度强化学习模型输出的相位增量即为

和

，其中，

是相比于第一训练相位参数下的腿摆动开始相位时刻改变的增量值，而

分别是四足机器人的四条腿相比于第一训练相位参数下的运动周期的初始相位时刻改变的增量值。

步骤1003，根据所述训练相位增量及所述第一训练相位参数计算出过渡步态下的第二训练相位参数，并获取四足机器人在所述第二训练相位参数下运动后的第二训练状态参数；

该步骤中，将训练相位增量与第一训练相位参数进行相加，获得在过渡步态下的第二训练相位参数。

此外本发明中，获取四足机器人在第二训练相位参数下运动后的第二训练状态参数，具体包括：

根据第二训练相位参数下确定四足机器人的摆动相及支撑相；将摆动相输入预设位置模型，获取预设位置模型输出的摆动过程中的关节位置；将支撑相输入预设力矩模型，获取预设力矩模型输出的站立过程中的关节力；根据关节位置及关节力控制四足机器人在过渡步态下的运动，获取运动后的第二训练状态参数。

该步骤中，通过四足机器人身体内部署的预设位置模型和预设力矩模型分别输出过渡步态下腿的摆动控制信号和支撑控制信号，并获取四足机器人在根据该摆动控制信号和支撑控制信号进行运动之后的第二训练状态参数。其中本发明中的第二训练状态参数和第一训练状态参数所包括的参数一致，第一和第二仅用于区分出第一稳定步态下的状态参数和过渡步态下的状态参数，在此无其他含义。

需要说明的是，本发明中的预设位置模型是一个基于四足机器人的摆动相对摆动过程中腿的关节位置进行控制的模型。预设力矩模型则是一个基于四足机器人的支撑相对支撑过程中的关节力进行控制的模型，例如VMC（Virtual model control）模型。

步骤1004，根据所述第二训练状态参数计算出所述初始深度强化学习模型的奖励函数值；

本发明中，奖励函数值的函数计算公式如下：

其中，

为第i关节的力矩，

为第i关节的角速度，

为第二系数，C₁为摔倒标志。

该步骤中，在四足机器人在根据第二训练相位参数所生成的摆动控制信号和支撑控制信号进行运动之后，在四足机器人发生摔倒状况的情况下，C₁取1，否则取0。另外第一系数及第二系数均为预先设定好的常规系数，在此不再具体说明。

步骤1005，根据所述奖励函数值更新所述初始深度强化学习模型的模型参数，并将所述第二状态训练参数作为所述第一训练状态参数，返回执行所述将所述第一状态参数输入至预设强化学习模型，直至所述奖励函数值达到收敛状态，以得到预设强化学习模型。

该步骤中，在第一次进行训练后，对策略神经网络中的激活函数和Soft Q神经网络中的激活函数的模型参数进行更新，在更新模型参数之后，继续执行上述步骤，并比较第二次训练后的奖励函数值与第一次训练后的奖励函数值之间的损失函数，在损失函数未趋近于最小值时，迭代执行上述训练步骤，直到前后两次训练后的奖励函数值之间的损失函数趋近于最小值，判定奖励函数值达到收敛状态，停止训练，并保留当前的模型参数，由此得到预设强化学习模型。

本发明提供的一种四足机器人步态过渡方法，通过获取初始深度强化学习模型、第一稳定步态下的第一训练相位参数及第一训练状态参数；将第一状态参数输入至初始深度强化学习模型，获得初始深度强化学习模型输出的训练相位增量；根据训练相位增量及第一训练相位参数计算出过渡步态下的第二训练相位参数，并获取四足机器人在第二训练相位参数下运动后的第二训练状态参数；根据第二训练状态参数计算出初始深度强化学习模型的奖励函数值；根据奖励函数值更新初始深度强化学习模型的模型参数，并将第二状态训练参数作为第一训练状态参数，返回执行将第一状态参数输入至预设强化学习模型，直至奖励函数值达到收敛状态，以得到预设强化学习模型，由此通过奖励函数值对初始深度强化学习模型的模型参数进行训练更新，保障了四足机器人后续在基于预设强化学习模型进行步态过渡时可以平稳地过渡。

进一步地，为了便于理解，本发明对此举例说明。参考图5，对于四足机器人a，规定四足机器人a身体的期望前进速度

时，以走步态行走。规定机器人运动任务为，首先将四足机器人期望的前进速度从0m/s以1m/s²的加速度增加到0.3m/s，并保持500个时间步，每个时间步为0.005s。其中，时间步指代用于控制四足机器人a运动的控制指令的时间周期，本发明中各个步态运动周期所包含的时间步可以为十个时间步，也可以为一百个时间步等，对此不进行限制。

在四足机器人a在走步态阶段运动一段时间后，进入过渡步态阶段，在过渡步态阶段，基于预设强化学习模型使得四足机器人a以2m/s²的加速度平稳地增加到以1m/s，成功完成走步态到跑步态的步态平稳切换后，同样保持500个时间步，之后基于预设强化学习模型使得四足机器人a以-2m/s²的加速度减速到0.3m/s，完成跑步态到走步态的切换，并且以走步态保持500个时间步，最后以-1m/s²的加速度减速到0m/s，停止运动。其中，如图5所示，图5中的曲线代表四足机器人的时间步-实际前进速度对应的实际运动曲线，图5中的直线代表四足机器人的时间步-期望前进速度对应的期望运动曲线。由此可知，本发明中运动曲线可以看出，本发明方法能够实现在过渡过程中实际前进速度与期望前进速度的误差比较小，由此确保两个规定步态“走步态”和“跑步态”的顺利过渡。

下面对本发明提供的四足机器人步态过渡装置进行描述，下文描述的四足机器人步态过渡装置与上文描述的四足机器人步态过渡方法可相互对应参照。

参考图6，图6是本发明提供的四足机器人步态过渡装置的结构示意图，如图6所示，所述四足机器人步态过渡装置包括：第一获得单元610，用于获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；获取单元620，用于根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；第二获得单元630，用于将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；过渡单元640，用于继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

进一步地，第一获得单元610，还用于获取初始深度强化学习模型、第一稳定步态下的第一训练相位参数及第一训练状态参数；将所述第一状态参数输入至初始深度强化学习模型，获得所述初始深度强化学习模型输出的训练相位增量；根据所述训练相位增量及所述第一训练相位参数计算出过渡步态下的第二训练相位参数，并获取四足机器人在所述第二训练相位参数下运动后的第二训练状态参数；根据所述第二训练状态参数计算出所述初始深度强化学习模型的奖励函数值；根据所述奖励函数值更新所述初始深度强化学习模型的模型参数，并将所述第二状态训练参数作为所述第一训练状态参数，返回执行所述将所述第一状态参数输入至预设强化学习模型，直至所述奖励函数值达到收敛状态，以得到预设强化学习模型。

进一步地，所述奖励函数值的函数计算公式如下：

其中，

为第i关节的力矩，

为第i关节的角速度，

为第二系数，C₁为摔倒标志。

进一步地，第一获得单元610，还用于根据所述第二训练相位参数下确定四足机器人的摆动相及支撑相；将所述摆动相输入预设位置模型，获取所述预设位置模型输出的摆动过程中的关节位置；将所述支撑相输入预设力矩模型，获取所述预设力矩模型输出的站立过程中的关节力；根据所述关节位置及所述关节力控制四足机器人在过渡步态下的运动，获取运动后的第二训练状态参数。

进一步地，获取单元620，还用于获取四足机器人在所述第二相位参数下运动后的第二状态参数；在检测到所述第二状态参数处于第二目标稳定步态区间范围内的情况下，判定所述四足机器人过渡到第二稳定步态。

进一步地，第一获得单元610，还用于获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数；在检测到所述第一状态参数达到第一目标稳定步态区间范围内的情况下，将所述第一状态参数输入至预设强化学习模型。

进一步地，所述第一稳定步态包括走步态，所述第一状态参数包括四足机器人在走步态下的前进速度、期望前进速度及四足机器人的姿态角，所述第一相位参数包括四足机器人的腿摆动开始相位时刻、四足机器人的各条腿运动周期的初始相位时刻；或者，所述第一稳定步态包括跑步态，所述第一状态参数包括四足机器人在跑步态下的前进速度、期望前进速度及四足机器人的姿态角，所述第一相位参数包括四足机器人的腿摆动开始相位时刻、四足机器人的各条腿运动周期的初始相位时刻。

本发明提出的四足机器人步态过渡装置，通过获取第一稳定步态下的第一相位参数及第一状态参数，将第一状态参数输入至预设强化学习模型获得相位增量；根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数；将第二状态参数作为第一状态参数并返回执行将第一状态参数输入至预设强化学习模型获得相位增量；继续执行根据相位增量及第一相位参数计算出过渡步态下的第二相位参数，获取在第二相位参数下运动后的第二状态参数，直至过渡到第二稳定步态，由此通过过渡步态的相位增量使得从第一稳定步态可以逐渐平稳地切换到第二稳定步态，避免了由于步伐切换幅度太大导致紊乱摔倒。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行四足机器人步态过渡方法，该方法包括：获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的四足机器人步态过渡方法，该方法包括：获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的四足机器人步态过渡方法，该方法包括：获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数；将所述第二状态参数作为所述第一状态参数，并返回执行所述将所述第一状态参数输入至预设强化学习模型，获得所述预设强化学习模型输出的相位增量；继续执行所述根据所述相位增量及所述第一相位参数计算出过渡步态下的第二相位参数，并获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种四足机器人步态过渡方法，其特征在于，包括：

2.根据权利要求1所述的四足机器人步态过渡方法，其特征在于，所述将所述第一状态参数输入至预设强化学习模型之前，还包括：

3.根据权利要求2所述的四足机器人步态过渡方法，其特征在于，所述奖励函数值的函数计算公式如下：

其中，

为第i关节的力矩，

为第i关节的角速度，

为第二系数，C₁为摔倒标志。

4.根据权利要求2所述的四足机器人步态过渡方法，其特征在于，所述获取四足机器人在所述第二训练相位参数下运动后的第二训练状态参数，具体包括：

5.根据权利要求1所述的四足机器人步态过渡方法，其特征在于，所述获取四足机器人在所述第二相位参数下运动后的第二状态参数，直至所述四足机器人过渡到第二稳定步态，具体包括

6.根据权利要求1所述的四足机器人步态过渡方法，其特征在于，所述获取四足机器人在第一稳定步态下的第一相位参数及第一状态参数，并将所述第一状态参数输入至预设强化学习模型，具体包括：

7.根据权利要求1至6任一项所述的四足机器人步态过渡方法，其特征在于，所述第一稳定步态包括走步态，所述第一状态参数包括四足机器人在走步态下的前进速度、期望前进速度及四足机器人的姿态角，所述第一相位参数包括四足机器人的腿摆动开始相位时刻、四足机器人的各条腿运动周期的初始相位时刻；或者，

8.一种四足机器人步态过渡装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述四足机器人步态过渡方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述四足机器人步态过渡方法。