CN117572877A

CN117572877A - 一种双足机器人步态控制方法、装置、存储介质及设备

Info

Publication number: CN117572877A
Application number: CN202410061297.6A
Authority: CN
Inventors: 柴丽; 刘迪源; 潘嘉; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-02-20

Abstract

本申请公开了一种双足机器人步态控制方法、装置、存储介质及设备，该方法包括：首先获取目标双足机器人的本体信息；并响应于目标用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令，然后将本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到目标双足机器人的步态动作轨迹；接着利用该步态动作轨迹，对目标双足机器人进行步态运动控制，以实现其各种步态间的平稳切换。由于本申请是先利用双足机器人的仿真本体信息，通过深度强化学习和模仿学习联合训练的方式训练得到了步态控制模型，从而保证了该步态控制模型能够实现对多样步态动作轨迹的控制生成，进而能够用以控制目标双足机器人各种步态间的平稳切换。

Description

一种双足机器人步态控制方法、装置、存储介质及设备

技术领域

本申请涉及机器人技术领域，尤其涉及一种双足机器人步态控制方法、装置、存储介质及设备。

背景技术

双足机器人指的是一种模仿人类结构特征的机器人，它的最终目标是实现与人类相似的运动行为，相较于四足、多足机器人，能够更好地适应人类环境，具备更加广泛的应用场景。然而双足机器人具有更加复杂的非线性动力学和更高的自由度，所以实现双足机器人的稳定动态行走和静态站立是一项更具挑战性的工作。

目前，常用的双足机器人步态控制方法通常是采用运动参考轨迹作为步态先验引导策略网络模仿学习相似步态的方法，但这种方法增加了额外的数据收集成本和计算代价，且该方法训练得到的策略网络生成的步态鲁棒性和抗干扰性较差。并且，这种方法通常是针对特定任务学习特定步态，很少考虑同时学习多种步态，这导致生成的步态只能用于特定任务，对环境适应性较差。以及对于双足机器人来说，由于其支撑域较小，静态稳定站立是一项极具挑战性的难题。而现有控制方法大都采用动态平衡，很难实现完全静态站立，因此，现有的双足机器人步态控制效果较差，无法实现双足机器人的静态稳定站立和动态行走的平滑切换。

发明内容

本申请实施例的主要目的在于提供一种双足机器人步态控制方法、装置、存储介质及设备，能够实现双足机器人的静态稳定站立和动态行走的平滑切换，有效提高双足机器人的步态控制效果。

本申请实施例提供了一种双足机器人步态控制方法，包括：

获取目标双足机器人的本体信息；并响应于用户对所述目标双足机器人的触发操作，生成所述用户输入的任务标签和速度指令；

将所述目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到所述目标双足机器人的步态动作轨迹；所述步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；

利用预测得到的所述目标双足机器人的步态动作轨迹，对所述目标双足机器人进行步态运动控制，以实现所述目标双足机器人各种步态间的平稳切换。

一种可能的实现方式中，所述目标双足机器人的本体信息包括目标双足机器人当前状态的关节位置、关节速度、机身姿态、当前状态上一周期的期望位置、以及当前状态的步态相位向量。

一种可能的实现方式中，所述步态控制模型的构建方式如下：

获取仿真双足机器人的第一本体信息、第一速度指令和训练任务标签；并将所述第一本体信息和第一速度指令输入所述已训练好的静态站立模型和动态行走模型，得到第一期望动作和第二期望动作；以及根据所述训练任务标签，从所述第一期望动作和第二期望动作中选择出目标期望动作；

将所述第一本体信息、第一速度指令和训练任务标签输入初始步态控制模型，得到预测动作；并根据所述目标期望动作和所述预测动作，利用目标损失约束函数，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到所述步态控制模型；所述目标损失约束函数包含强化学习损失函数和模仿学习损失函数。

一种可能的实现方式中，所述初始步态控制模型为由三层前馈神经网络组成的策略网络模型。

一种可能的实现方式中，所述静态站立模型和动态行走模型构建方式如下：

获取仿真双足机器人的第二本体信息和第二速度指令；并将所述第二本体信息和第二速度指令分别共同输入初始静态站立模型和初始动态行走模型，得到预测静态动作和预测动态动作；

利用所述预测静态动作和预测动态动作以及第一预设奖励函数，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述静态站立模型和动态行走模型。

一种可能的实现方式中，所述利用所述预测静态动作和预测动态动作以及第一预设奖励函数，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述静态站立模型和动态行走模型，包括：

根据所述预测静态动作和预测动态动作，计算所述第一预设奖励函数的取值，并利用所述第一预设奖励函数的取值，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述静态站立模型和动态行走模型；

所述第一预设奖励函数包括线速度跟踪奖励函数、角速度跟踪奖励函数、关节加速度惩罚函数、关节力矩惩罚函数、关节极限位置惩罚函数、关节极限力矩惩罚函数、惯性测量单元IMU姿态惩罚函数、机身横滚和俯仰运动惩罚函数、动作平滑项函数、能耗惩罚函数、双足双膝间距约束函数、双足双膝双髋与机身朝向的一致性约束函数、碰撞惩罚函数中的至少一个；

所述关节加速度惩罚函数、关节力矩惩罚函数、关节极限位置惩罚、关节极限力矩惩罚函数、IMU姿态惩罚函数、机身横滚和俯仰运动惩罚函数、动作平滑项函数、能耗惩罚函数、以及碰撞惩罚函数，用于帮助静态站立模型学习平滑柔顺低能耗且对硬件友好的步态的奖励；

所述双足双膝间距约束函数、双足双膝双髋与机身朝向的一致性约束函数，用于帮助动态行走模型学习训练任务对应的平稳步态的奖励。

一种可能的实现方式中，所述根据所述目标期望动作和所述预测动作，利用目标损失约束函数，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到所述步态控制模型，包括：

根据所述目标期望动作和所述预测动作，计算所述强化学习损失函数和模仿学习损失函数，用以构成所述目标损失约束函数的取值；并利用所述目标损失约束函数的取值，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到所述步态控制模型；

所述强化学习损失函数的取值是根据所述第一预设奖励函数、第二预设奖励函数和第三预设奖励函数确定的；所述第二预设奖励函数包括关节模仿区分性奖励函数和关节角速度惩罚区分性奖励函数；所述第三预设奖励函数包括足抬高度跟踪区分性奖励函数和膝关节位置跟踪区分性奖励函数；所述第二预设奖励函数用于鼓励所述步态控制模型模仿学习预设的稳定的静态站姿；所述第三预设奖励函数用于奖励所述步态控制模型实现对美观对称平稳行走步态的学习。

一种可能的实现方式中，所述方法还包括：

判断所述目标双足机器人是否处于双足支撑相内；

若是，则对所述任务标签进行修改，并利用修改后的任务标签重新预测得到所述目标双足机器人的步态动作轨迹，以便利用重新预测得到的步态动作轨迹对所述目标双足机器人进行步态运动控制，以实现所述目标双足机器人步态的平稳切换。

本申请实施例还提供了一种双足机器人步态控制装置，包括：

第一获取单元，用于获取目标双足机器人的本体信息；并响应于目标用户对所述目标双足机器人的触发操作，生成所述用户输入的任务标签和速度指令；

预测单元，用于将所述目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到所述目标双足机器人的步态动作轨迹；所述步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；

控制单元，用于利用预测得到的所述目标双足机器人的步态动作轨迹，对所述目标双足机器人进行步态运动控制，以实现所述目标双足机器人各种步态间的平稳切换。

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取仿真双足机器人的第一本体信息、第一速度指令和训练任务标签；并将所述第一本体信息和第一速度指令输入所述已训练好的静态站立模型和动态行走模型，得到第一期望动作和第二期望动作；以及根据所述训练任务标签，从所述第一期望动作和第二期望动作中选择出目标期望动作；

第一训练单元，用于将所述第一本体信息、第一速度指令和训练任务标签输入初始步态控制模型，得到预测动作；并根据所述目标期望动作和所述预测动作，利用目标损失约束函数，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到所述步态控制模型；所述目标损失约束函数包含强化学习损失函数和模仿学习损失函数。

一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取仿真双足机器人的第二本体信息和第二速度指令；并将所述第二本体信息和第二速度指令分别共同输入初始静态站立模型和初始动态行走模型，得到预测静态动作和预测动态动作；

第二训练单元，用于利用所述预测静态动作和预测动态动作以及第一预设奖励函数，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述静态站立模型和动态行走模型。

一种可能的实现方式中，所述第二训练单元具体用于：

一种可能的实现方式中，所述第一训练单元具体用于：

一种可能的实现方式中，所述装置还包括：

判断单元，用于判断所述目标双足机器人是否处于双足支撑相内；若是，则对所述任务标签进行修改，并利用修改后的任务标签重新预测得到的所述目标双足机器人的步态动作轨迹，以便利用重新预测得到的步态动作轨迹对所述目标双足机器人进行步态运动控制，以实现所述目标双足机器人步态的平稳切换。

本申请实施例还提供了一种双足机器人步态控制设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述双足机器人步态控制方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述双足机器人步态控制方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述双足机器人步态控制方法中的任意一种实现方式。

本申请实施例提供的一种双足机器人步态控制方法、装置、存储介质及设备，首先获取目标双足机器人的本体信息；并响应于目标用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令，然后再将目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到目标双足机器人的步态动作轨迹；其中，步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；接着，可以利用预测得到的目标双足机器人的步态动作轨迹，对目标双足机器人进行步态运动控制，以实现目标双足机器人各种步态间的平稳切换。可见，由于本申请是在未引入任何参考步态先验信息的情况下，仅利用双足机器人的仿真本体信息，通过深度强化学习和模仿学习联合训练的方式训练得到了步态控制模型，从而保证了该步态控制模型能够实现对多样步态动作轨迹的控制生成，进而用以控制目标双足机器人各种步态间的平稳切换，有效提高了目标双足机器人的步态控制效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种双足机器人步态控制方法的流程示意图；

图2为本申请实施例提供的构建步态控制模型的整体过程示意图；

图3为本申请实施例提供的一种双足机器人步态控制装置的组成示意图。

具体实施方式

目前，对于足式机器人的步态运动控制方法主要分为两类，分别是基于模型的控制方法和无模型的控制方法。其中，基于模型的控制方法，首先要对被控机器人进行运动学和动力学精确建模，需要大量的专业知识和繁琐的手动调参。双足机器人因自由度更高、动力学更复杂，其建模难度远高于四足、多足机器人。而深度强化学习是无模型控制方法中的典型代表，其优势在于规避了复杂的建模和调参过程，实现了无人工设计和干预的情况下，通过不同奖励函数指导，学习到不同的目标策略，是一种较为灵活的控制方法，且表现出强大的鲁棒性。

但目前基于深度强化学习的双足机器人的运动控制算法研究还处于初期阶段，尚不成熟，主流的运控算法仍是以经典算法为主。双足机器人自由度更高，动力学更复杂，为了简化计算，经典算法在对双足机器人的动力学和运动学进行建模求解时，往往会对数学模型做简化处理，这限制了算法的性能，而且经典算法相较于深度强化学习方法在鲁棒性和泛化性上效果欠佳。近年利用深度强化学习来解决双足机器人的运动控制成为机器人领域的研究热点，为了实现美观步态，常常采用运动参考轨迹作为步态先验引导策略网络模仿学习相似步态。然而参考步态的使用增加了额外的数据收集成本和计算代价。此外，由于多种步态的运动控制和切换是一项颇具挑战性的工作，现有工作通常都是针对特定步态进行优化。具体来讲，现有的双足机器人步态控制方法包括但不限于以下几个缺点：

一是采用运动参考轨迹作为步态先验引导策略网络模仿学习相似步态的方法，增加了额外的数据收集成本和计算代价，且该方法训练得到的策略网络生成的步态鲁棒性和抗干扰性较差。

二是现有控制方法通常都是针对特定任务学习特定步态，很少考虑同时学习多种步态，这导致生成的步态只能用于特定任务，对环境适应性较差。

三是对于双足机器人，由于其支撑域较小，静态稳定站立是一项极具挑战性的难题。现有控制方法大都采用动态平衡，很难实现完全静态站立。

所以，现有方法中对于双足机器人步态控制的效果较差，无法实现双足机器人的静态稳定站立和动态行走的平滑切换。

为解决上述缺陷，本申请提供了一种双足机器人步态控制方法，首先获取目标双足机器人的本体信息；并响应于目标用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令，然后再将目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到目标双足机器人的步态动作轨迹；其中，步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；接着，可以利用预测得到的目标双足机器人的步态动作轨迹，对目标双足机器人进行步态运动控制，以实现目标双足机器人各种步态间的平稳切换。可见，由于本申请是在未引入任何参考步态先验信息的情况下，仅利用双足机器人的仿真本体信息，通过深度强化学习和模仿学习联合训练的方式训练得到了步态控制模型，从而保证了该步态控制模型能够实现对多样步态动作轨迹的控制生成，进而用以控制目标双足机器人各种步态间的平稳切换，有效提高了目标双足机器人的步态控制效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种双足机器人步态控制方法的流程示意图，该方法包括以下步骤：

S101：获取目标双足机器人的本体信息；并响应于目标用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令。

在本实施例中，将需要进行静态站立和动态行走（包括但不限于原地踏步、前进、后退、侧向、转向运动等）运动控制与切换的任一双足机器人定义为目标双足机器人，需要说明的是，本实施例不限制目标双足机器人的具体组成结构。

并且，为了实现目标双足机器人的静态稳定站立和动态行走的平滑切换，以提高对于目标双足机器人的步态控制效果，首先可以利用目标双足机器人上已部署的各个本体传感器，获取目标双足机器人的本体信息。同时，接收用户通过语音或文本等渠道对目标双足机器人的触发操作（如发出的语音控制指令或通过显示界面输入的文本信息等），并响应于该触发操作（如通过对用户的语音信息识别或通过用户输入的文本进行语义分析），生成符合用户需求的任务标签和速度指令，用以执行后续步骤S102。

其中，本体信息指的是通过目标双足机器人上已部署的本体传感器（包括但不限于关节编码器和惯性测量单元（IMU）姿态传感器等）获取到的真实环境中的目标双足机器人的状态观测值，可以包括但不限于目标双足机器人当前状态的关节位置、关节速度、机身姿态、当前状态上一周期的期望位置、以及当前状态的步态相位向量等，其中，T表示一个周期的时间，t表示第t时刻（如当前时刻）。

速度命令可以包括用户期望的线速度向量和角速度向量。线速度命令是指相对于机身坐标系x轴和y轴的线速度，角速度命令是指相对于机身坐标系的转向速度。

任务标签用于区分目标双足机器人不同任务，具体可以包括静态站立和动态行走两类任务，以实现不同任务对应的步态控制轨迹的生成。需要说明的是，对于目标双足机器人来说，动态行走并非为单一步态，而是包含0速下的原地踏步和原地转向运动、及各种速度下的前进、后退、侧向、转向运动。可以理解的是，本申请对于任务标签的具体内容不做限定，可根据实际情况和经验值设定，仅需保证实际应用过程中使用的任务标签和预先训练时采用的标签一致即可，比如，可以利用数字0表示任务一“静态站立”，利用数字1表示任务二“动态行走”。在进行步态控制时，用户可以通过指定任务标签和速度命令得到相应的任务步态，在响应于用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令后，进一步控制生成的步态的对应关系可以如下表1所示：

表1

其中，速度指令（x,y,w）中x和y表示线速度，w表示角速度，且x取值的正（+）和负（-）分别表示向前或向后，y取值的正（+）和负（-）分别表示向左或向右，w取值的正（+）和负（-）分别表示向左转向或向右转向。

S102：将目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到目标双足机器人的步态动作轨迹；其中，步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型。

在本实施例中，通过步骤S101获取到目标双足机器人的本体信息以及生成了用户输入的任务标签和速度指令后，为了实现目标双足机器人的静态稳定站立和动态行走的平滑切换，以提高对于目标双足机器人的步态控制效果，进一步可以将将目标双足机器人的本体信息、任务标签和速度指令输入目标双足机器人中已部署的预先构建的步态控制模型中，从而预测得到目标双足机器人的步态动作轨迹，用以执行后续步骤S103。需要说明的是，模型的输入数据的具体格式可根据实际情况（如预先训练的网络模型的架构等）设定，本实施例对此不进行限定，比如可以将目标双足机器人的本体信息、任务标签和速度指令进行维度拼接，以拼接成一个向量后，作为输入数据输入步态控制模型中，以预测得到目标双足机器人的步态动作轨迹。

其中，步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型，从而能够在不使用任何运动学轨迹引导的情况下，利用多任务深度强化学习方法，通过设计任务标签输入和奖励函数，实现同一个策略网络（即步态控制模型）同时学习稳定静态站立和动态行走，进而保证了模型能够实现对多样步态动作轨迹的控制生成，用以控制目标双足机器人各种步态间的平稳切换，有效提高了目标双足机器人的步态控制效果。

接下来，本实施例将对双足机器人步态控制模型的构建过程进行介绍，如图2所示，其示出了本实施例提供的构建步态控制模型的整体过程示意图，具体实现过程可以包括以下步骤A-B：

步骤A：获取仿真双足机器人的第一本体信息、第一速度指令和训练任务标签；并将第一本体信息和第一速度指令输入已训练好的静态站立模型和动态行走模型，得到第一期望动作和第二期望动作；以及根据训练任务标签，从第一期望动作和第二期望动作中选择出目标期望动作。

需要说明的是，为了构建步态控制模型，首先需要利用深度强化学习分别单独训练得到静态站立网络和动态行走模型，然后，再利用训练任务标签选择单任务模型（即静态站立网络或动态行走模型）生成的期望动作作为多步态专家数据，接着通过设计多任务训练任务标签的输入和奖励函数，并结合专家数据对多任务的步态控制模型进行深度强化学习与模仿学习联合训练调优，最终即可得到训练完成的可同时学习了多任务（包括静态站立和动态行走）的步态控制模型。

其中，一种可选的实现方式是，静态站立模型和动态行走模型构建方式为：首先，获取仿真双足机器人的第二本体信息和第二速度指令；并将第二本体信息和第二速度指令分别共同输入初始静态站立模型和初始动态行走模型，得到预测静态动作和预测动态动作。然后，利用预测静态动作和预测动态动作以及第一预设奖励函数，分别对初始静态站立模型和初始动态行走模型进行训练，得到静态站立模型和动态行走模型。

在本实现方式中，首先需要获取物理仿真环境中仿真双足机器人的本体信息（此处将其定义为第二本体信息）和模仿用户输入的速度指令（此处将其定义为第二速度指令），其中，第一本体信息指的是物理仿真环境中仿真双足机器人的状态观测值，可以包括但不限于仿真双足机器人当前状态的关节位置、关节速度、机身姿态、当前状态上一周期的期望位置、以及步态相位向量，用以配合周期步态奖励使用，起到相位告知作用。

然后，可以将第二本体信息和第二速度指令分别共同输入初始静态站立模型和初始动态行走模型，得到预测静态动作和预测动态动作，再根据预测静态动作和预测动态动作，对初始静态站立模型和初始动态行走模型进行当前轮训练，并利用第一预设奖励函数，来分别构建静态站立模型和动态行走模型，并更新模型的网络参数，以提高模型对于静态站立和步态动作的预测准确率，在经过多轮参数更新后（即满足训练结束条件后，比如达到第一预设奖励函数的取值变化量小于预设阈值等），便可训练得到静态站立模型和动态行走模型。

具体地，一种可选的实现方式是，在训练过程中，可以根据预测静态动作和预测动态动作，计算第一预设奖励函数的取值，并利用该第一预设奖励函数的取值，分别对初始静态站立模型和初始动态行走模型进行深度强化学习训练，得到静态站立模型和动态行走模型。

其中，在进行静态站立模型和动态行走模型的单任务模型训练时，第一预设奖励函数的设计目标是为了保证学习到的机器人步态能够尽量平稳美观、动作柔顺且不损坏硬件，故第一预设奖励函数中不仅可以包括与任务相关的奖励（即速度跟踪奖励），还可以包括两种辅助奖励：一种是用于帮助部署了静态站立模型的机器人能够平滑柔顺低能耗且对硬件友好的步态的奖励，包括但不限于关节加速度惩罚函数、关节力矩惩罚函数、关节极限位置惩罚、关节极限力矩惩罚函数、IMU姿态惩罚函数、机身横滚和俯仰运动惩罚函数、动作平滑项函数、能耗惩罚函数、以及碰撞惩罚函数等。另一种是帮助部署了动态行走模型的机器人能够学习训练任务对应的平稳步态的奖励，包括但不限于双足双膝间距约束函数、双足双膝双髋与机身朝向的一致性约束函数等。下面将对各个第一预设奖励函数进行具体介绍：

1、线速度跟踪奖励函数的具体计算公式如下：

其中，表示训练时通过模型产生的机身坐标系下的机身x、y方向的线速度；表示模拟用户指定的机身坐标系下的x、y方向的机身线速度命令。

2、角速度跟踪奖励函数的具体计算公式如下：

其中，表示训练时通过模型产生的机身坐标系下的机身角速度；/>表示模拟用户指定的机身坐标系下的机身角速度命令。

3、关节加速度惩罚函数的具体计算公式如下：

其中，表示所有关节角加速度，可从仿真系统中获取到。

4、关节力矩惩罚函数的具体计算公式如下：

其中，表示所有关节力矩，可由训练时静态站立模型或动态行走模型输出的期望关节位置经比例微分控制器（PD控制器）转化而来。

5、关节极限位置惩罚函数的具体计算公式如下：

其中，表示所有关节位置；/>和/>表示关节位置的极限上下值，具体取值可根据仿真器中预设的物理参数模拟出来。

6、关节极限力矩惩罚函数的具体计算公式如下：

其中，表示所有关节力矩，可由训练时静态站立模型或动态行走模型输出的期望关节位置经比例微分控制器（PD控制器）转化而来；/>和/>表示关节力矩的极限上下值，具体取值可根据仿真器中预设的物理参数模拟出来。

7、IMU姿态惩罚函数的具体计算公式如下：

其中，表示投影重力矢量在x、y方向的分量，以使得仿真双足机器人的躯干能够保持竖直。

8、机身横滚和俯仰运动惩罚函数的具体计算公式如下：

其中，表示机身的滚转俯仰角速度。

9、动作平滑项函数的具体计算公式如下：

其中，、/>、/>分别表示第t时刻、t-1时刻、t-2时刻的模型输出的期望关节动作。

10、能耗惩罚函数的具体计算公式如下：

其中，表示所有关节角速度；/>表示所有关节力矩；/>表示/>的转置。

11、双足双膝间距约束函数的具体计算公式如下：

其中，D表示预先设置的合适的双足和双膝间距值；和/>分别表示训练过程中实际输出的双足双膝的横向间距，通常情况下设定为与胯同宽，不能太近，也不能太远，以防止机器人出现内八或外八的情况。

12、双足双膝双髋与机身朝向的一致性约束函数的具体计算公式如下：

/>

其中，、/>、/>、/>分别表示机身、双足、双膝、双髋坐标系的四元数中表示朝向的z取值。

13、碰撞惩罚函数的具体计算公式如下：

其中，将训练时机器人的上肢、躯干、骨盆、大腿与地面发生碰撞（collision）时，一个周期（episode）结束，通常可以将一个episode设置为20秒，一步即为20毫秒，碰撞惩罚即为出现碰撞时，则终止一个周期（episode），以尽量减少机器人的碰撞。

在此基础上，在训练出静态站立模型和动态行走模型后，进一步可以获取物理仿真环境中仿真双足机器人第一本体信息和第一速度指令，并将二者输入静态站立模型和动态行走模型，得到第一期望动作（如胳膊向上竖直90度抬起等）和第二期望动作（如胳膊向后45度抬起等）。然后再根据获取到的仿真双足机器人的训练任务标签，从第一期望动作和第二期望动作中选择出目标期望动作，即根据训练任务标签表示的静态站立还是动态行走，来确定目标期望动作，以作为专家数据，训练步态控制模型。

步骤B：将第一本体信息、第一速度指令和训练任务标签输入初始步态控制模型，得到预测动作；并根据目标期望动作和预测动作，利用目标损失约束函数，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到步态控制模型；其中，目标损失约束函数包含强化学习损失函数和模仿学习损失函数。

在本实施例中，为了构建步态控制模型，预先可以选定一个由三层前馈神经网络组成的策略网络模型作为初始步态控制模型，并初始化模型参数，需要说明的是，本实施例对该初始步态控制模型的具体网络结构不做限定，比如，可以是3层卷积神经网络（Convolutional Neural Networks, 简称CNN）、深度神经网络（Deep Neural Networks，简称DNN）、或长短时记忆网络（Long Short Term Memory，简称LSTM）结构等。

这样，在通过步骤A获取到第一本体信息、第一速度指令和训练任务标签后，可以将第一本体信息、第一速度指令和训练任务标签输入初始步态控制模型，得到预测动作，再根据目标期望动作和预测动作，对初始步态控制模型进行当前轮训练，并利用包含强化学习损失函数和模仿学习损失函数的目标损失约束函数，来构建步态控制模型，并更新模型的网络参数，以提高模型对于步态动作的预测准确率，在经过多轮参数更新后（即满足训练结束条件后，比如达到目标损失约束函数取值变化量小于预设阈值等），便可训练得到步态控制模型。

具体地，一种可选的实现方式是，在训练过程中，可以根据目标期望动作和预测动作，计算强化学习损失函数和模仿学习损失函数，用以构成目标损失约束函数的取值；并利用该目标损失约束函数的取值，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到步态控制模型。

在本实现方式中，强化学习损失函数的取值是根据第一预设奖励函数、第二预设奖励函数和第三预设奖励函数来确定的。其中，第二预设奖励函数可以包括但不限于关节模仿区分性奖励函数和关节角速度惩罚区分性奖励函数；第三预设奖励函数可以包括但不限于足抬高度跟踪区分性奖励函数和膝关节位置跟踪区分性奖励函数。

需要说明的是，由于静态站立和动态行走是完全相悖的两类步态，所以本申请在奖励设计方面也会有所不同。静态站立步态训练时设置了包含包括关节模仿区分性奖励函数和关节角速度惩罚区分性奖励函数的第二预设奖励函数，用于鼓励步态控制模型模仿学习预设的稳定的静态站姿，其中，关节模仿区分性奖励函数用于鼓励步态控制模型模仿学习一个预设的合适稳定的静态站姿，关节角速度区分性惩罚奖励用于鼓励步态控制模型学习纯静态的站姿。这两种奖励对于动态行走步态的学习是不利的。动态行走步态训练时设置了包含足抬高度跟踪区分性奖励函数和膝关节位置跟踪区分性奖励函数的第三预设奖励函数，用于奖励步态控制模型实现对美观对称平稳行走步态的学习，而这两种奖励对静态站立步态学习是不利的。这样，在进行步态控制模型训练时，可以结合模型输入的仿真任务标签，分别采用不同的任务区分性步态奖励，各区分性步态奖励具体介绍如下：

（1）、关节模仿区分性奖励函数的具体计算公式如下：

其中，表示所有关节位置；/>表示预设的合适稳定的静态站姿；/>表示网络输入的任务标签，取值为0或1，0对应静态站立任务，1对应动态行走任务。从该奖励的表达式中可以看到，关节模仿奖励仅对静态站立任务有效，避免了对动态行走学习的不利性。

（2）、关节角速度惩罚区分性奖励函数的具体计算公式如下：

其中，表示所有关节角速度，该奖励仅在任务为静态站立步态学习时才起作用，帮助学习纯静态的站姿，而在动态行走时不起作用，避免了对动态行走步态学习的干扰。

（3）、足抬高度跟踪区分性奖励函数的具体计算公式如下：

其中，需要说明的是，本申请是采用正弦波来拟合机器人行走时足底高度曲线，从而提出足抬高度跟踪奖励，鼓励学习到双脚交替正弦波迈步步态。公式中这一项实现该奖励仅作用于动态行走步态学习任务中，而对静态站立步态无影响。公式中/>的具体定义如下：

其中，足端最大抬脚高度是h-∆h，h和∆h的具体取值不做限定，可根据实际情况和经验值预先设定。一个行走周期包含支撑相（即双脚短暂同时桌底）和摆动相，∆h的使用是为了支撑相留出一段时间跨度，可以理解的是，∆h的取值相对h来说是比较小的。

（4）、膝关节位置跟踪区分性奖励函数的具体计算公式如下：

其中，需要说明的是，本申请是采用周期正弦曲线拟合行走时双膝关节位置变化，从而提出膝关节位置跟踪奖励，鼓励学习双腿交替支撑，质心往复运动。公式中这一项实现该奖励仅作用于动态行走步态学习任务中，而不干扰静态站立步态的学习。公式中/>的具体定义如下：

其中，本申请设置行走中膝关节最大活动关节位置为，对应摆动相中脚抬最高那一时刻的膝关节位置值。设置膝关节最小活动关节位置为/>，对应支撑相时的膝关节位置值。通过设置/>可以实现对机器人身高的精确控制。为了实现静态站立和动态行走步态的平稳顺滑切换，多任务的步态控制模型在仿真训练时，约束两种步态对应的位姿尽量一致，而机身高度是衡量位姿的很显著的一个指标，所以通过设置膝关节位置跟踪奖励中/>等于预设的静态参考站姿的膝关节位置，来降低静态站立与动态行走位姿的差异性，实现两种步态间的平稳切换过渡。

需要说明的是，多任务的步态控制模型在仿真训练时，采用的综合奖励等于上述17种步态奖励函数的加权和，具体计算公式如下：

其中，权重系数均为超参数，具体取值可根据实际任务进行调整。

进一步的，由该综合奖励可以计算强化学习损失函数的取值，并利用表示，具体计算过程与现有方式一致，在此不再赘述。

可以理解的是，在训练过程中，可以根据目标损失约束函数的函数值的变化，对初始步态控制模型的模型参数进行不断更新，直至目标损失约束函数的函数值满足要求，比如强化学习损失函数和模仿学习损失函数的加权和达到最小值且变化幅度很小（基本不变），则停止模型参数的更新，完成步态控制模型的训练，得到步态控制模型。

其中，是通过模仿学习与强化学习的联合训练来最小化目标损失约束函数（利用表示），以优化多任务的步态控制模型的预测效果，目标损失约束函数/>的具体计算公式如下：

其中，表示步态控制模型的网络参数；/>表示强化学习损失函数的取值，通过上述17种步态奖励函数的加权和对应的综合奖励来确定；，表示模仿学习对应的损失函数，这是由前向KL散度推导而来，用于减少单任务与多任务分布结果的差异性，其中，/>表示专家策略，即预先训练好的单任务模型（即静态站立模型和动态行走模型）的策略，/>表示多任务的步态控制模型的策略；o表示从单任务模型收集到的任务步态的专家数据；/>表示生成的动作轨迹；/>表示模仿学习损失函数的权重超参，具体取值可根据实际预测效果进行调整。

S103：利用预测得到的目标双足机器人的步态动作轨迹，对目标双足机器人进行步态运动控制，以实现目标双足机器人各种步态间的平稳切换。

在本实施例中，通过步骤S102预测得到目标双足机器人的步态动作轨迹后，进一步利用预测得到的目标双足机器人的该步态动作轨迹，对目标双足机器人进行步态运动控制，以控制目标双足机器人在静态站立和动态行走的各种步态间的平稳切换，从而可以提高目标双足机器人的步态控制效果。

此外，为了进一步提升对于目标双足机器人的步态控制效果，一种可选的实现方式是，还可以先判断目标双足机器人是否处于双足支撑相内，若是，则可以对已生成的任务标签进行修改，并利用修后的任务标签替换原任务标签，重新执行上述步骤S102，以重新预测得到目标双足机器人的步态动作轨迹，然后，可以利用该重新预测得到的步态动作轨迹对目标双足机器人进行步态运动控制，进而可以保证在双足支撑相内的步态切换过程中，目标双足机器人的身体姿态平稳，电机的速度、力矩变化平滑，从而实现对其步态的更进一步的平稳切换。

综上，本实施例提供的一种双足机器人步态控制方法，首先获取目标双足机器人的本体信息；并响应于目标用户对目标双足机器人的触发操作，生成用户输入的任务标签和速度指令，然后再将目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到目标双足机器人的步态动作轨迹；其中，步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；接着，可以利用预测得到的目标双足机器人的步态动作轨迹，对目标双足机器人进行步态运动控制，以实现目标双足机器人各种步态间的平稳切换。可见，由于本申请是在未引入任何参考步态先验信息的情况下，仅利用双足机器人的仿真本体信息，通过深度强化学习和模仿学习联合训练的方式训练得到了步态控制模型，从而保证了该步态控制模型能够实现对多样步态动作轨迹的控制生成，进而用以控制目标双足机器人各种步态间的平稳切换，有效提高了目标双足机器人的步态控制效果。

第二实施例

本实施例将对一种双足机器人步态控制装置进行介绍，相关内容请参见上述方法实施例。

参见图3，为本实施例提供的一种双足机器人步态控制装置的组成示意图，该装置300包括：

第一获取单元301，用于获取目标双足机器人的本体信息；并响应于目标用户对所述目标双足机器人的触发操作，生成所述用户输入的任务标签和速度指令；

预测单元302，用于将所述目标双足机器人的本体信息、任务标签和速度指令输入至预先构建的步态控制模型，预测得到所述目标双足机器人的步态动作轨迹；所述步态控制模型是利用已训练好的静态站立模型和动态行走模型以及仿真本体信息和速度指令，通过深度强化学习和模仿学习联合训练的方式训练得到的策略网络模型；

控制单元303，用于利用预测得到的所述目标双足机器人的步态动作轨迹，对所述目标双足机器人进行步态运动控制，以实现所述目标双足机器人各种步态间的平稳切换。

在本实施例的一种实现方式中，所述目标双足机器人的本体信息包括目标双足机器人当前状态的关节位置、关节速度、机身姿态、当前状态上一周期的期望位置、以及当前状态的步态相位向量。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述初始步态控制模型为由三层前馈神经网络组成的策略网络模型。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述第二训练单元具体用于：

根据所述预测静态动作和预测动态动作，计算所述第一预设奖励函数的取值，并利用所述第一预设奖励函数的取值，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述训练静态站立模型和动态行走模型；

在本实施例的一种实现方式中，所述第一训练单元具体用于：

在本实施例的一种实现方式中，所述装置还包括：

进一步地，本申请实施例还提供了一种双足机器人步态控制设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述双足机器人步态控制方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述双足机器人步态控制方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述双足机器人步态控制方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等）执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种双足机器人步态控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标双足机器人的本体信息包括目标双足机器人当前状态的关节位置、关节速度、机身姿态、当前状态上一周期的期望位置、以及当前状态的步态相位向量。

3.根据权利要求1所述的方法，其特征在于，所述步态控制模型的构建方式如下：

4.根据权利要求3所述的方法，其特征在于，所述静态站立模型和动态行走模型构建方式如下：

5.根据权利要求4所述的方法，其特征在于，所述利用所述预测静态动作和预测动态动作以及第一预设奖励函数，分别对初始静态站立模型和初始动态行走模型进行训练，得到所述静态站立模型和动态行走模型，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述目标期望动作和所述预测动作，利用目标损失约束函数，对初始步态控制模型进行深度强化学习和模仿学习联合训练，得到所述步态控制模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述目标双足机器人是否处于双足支撑相内；

8.一种双足机器人步态控制装置，其特征在于，包括：

9.一种双足机器人步态控制设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。