CN112276950B

CN112276950B - 抗扰动模型训练、控制方法、装置、设备、机器人及介质

Info

Publication number: CN112276950B
Application number: CN202011134929.5A
Authority: CN
Inventors: 冷晓琨; 常琳; 何治成; 白学林; 柯真东; 王松; 吴雨璁; 黄贤贤
Original assignee: Leju Shenzhen Robotics Co Ltd
Current assignee: Leju Shenzhen Robotics Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-08-24
Anticipated expiration: 2040-10-21
Also published as: CN112276950A

Abstract

本发明提供一种抗扰动模型训练、控制方法、装置、设备、机器人及介质，涉及智能控制技术领域。该方法包括：获取机器人的训练状态信息，训练状态信息用于指示机器人在训练过程中受扰动后的状态；根据训练状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的训练控制参数；获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型。对具有多种预设抗扰动策略的抗扰动模型进行训练得到目标抗扰动模型，使得机器人在基于该控制参数进行抗扰动运动时更加稳定，提高机器人的抗扰动效果。

Description

抗扰动模型训练、控制方法、装置、设备、机器人及介质

技术领域

本发明涉及智能控制技术领域，具体而言，涉及一种抗扰动模型训练、控制方法、装置、设备、机器人及介质。

背景技术

随着智能化时代的到来，各种各样的机器人层出不穷。对于机器人进行自动控制是重要的主题之一，当机器人受到外力扰动时机身状态会发生变化，为了避免机器人摔倒，对机器人抗扰动的控制也变得越来越重要。

相关技术中，当机器人受到扰动时，依据受到的扰动大小从预设策略中确定一种策略，继而基于该策略实现机器人抗扰动。不同策略可以使得机器人执行不同动作，例如，迈出一步或者转动躯干等。

但是，相关技术中，通过单一控制策略控制机器人抗扰动时，降低了机器人的稳定性，会出现抗扰动效果较差的问题。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种抗扰动模型训练、控制方法、装置、设备、机器人及介质，以便解决相关技术中，通过单一控制策略控制机器人抗扰动时，降低了机器人的稳定性，会出现抗扰动效果较差的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种抗扰动模型的训练方法，包括：

获取机器人的训练状态信息，所述训练状态信息用于指示所述机器人在训练过程中受扰动后的状态；

根据所述训练状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的训练控制参数；

获取所述机器人基于所述多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；

根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型。

可选的，所述获取机器人的训练状态信息，包括：

获取所述机器人受扰动后的训练质心状态、训练脚掌状态和训练关节状态，所述训练状态信息包括：训练质心状态、训练脚掌状态和训练关节状态。

可选的，所述获取所述机器人受扰动后的质心状态、脚掌状态和训练关节状态，包括：

获取所述机器人的关节编码器所检测的训练关节角度；

获取所述机器人的陀螺仪检测的训练躯干倾角；

根据所述训练关节角度和所述训练躯干倾角，计算训练质心位置、训练质心速度和训练脚掌倾角；其中，所述训练质心状态包括：训练质心位置、训练质心速度；

获取所述机器人的足底压力传感器检测的训练脚掌压力，其中，所述训练脚掌状态包括：所述训练脚掌倾角和所述训练脚掌压力；

通过所述机器人的电机的电流检测训练髋关节扭矩和训练踝关节扭矩，所述训练关节状态包括：所述训练髋关节扭矩和所述训练踝关节扭矩。

可选的，所述多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略。

可选的，所述根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型，包括：

根据所述抗扰动结果，采用预设奖励函数，计算奖励函数值；

更新所述抗扰动模型的网络参数，直至基于更新参数后的所述抗扰动模型所得到的奖励函数值满足预设结束条件，得到所述目标抗扰动模型。

可选的，所述抗扰动结果包括：躯干角速度信息和躯干倾角信息；

所述根据所述抗扰动结果，采用预设奖励函数，计算奖励函数值，包括：

根据所述躯干角速度信息、所述躯干倾角信息、躯干质心与地面的高度，采用预设奖励函数，计算奖励函数值。

可选的，所述获取机器人的训练状态信息，包括：

通过所述机器人的仿真环境获取所述机器人的训练状态信息；

所述获取所述机器人基于所述多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果，包括：

通过所述机器人的仿真环境获取所述机器人基于所述多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果。

第二方面，本发明实施例还提供了一种机器人抗扰动控制方法，所述方法包括：

获取机器人的应用状态信息，所述应用状态信息用于指示所述机器人在应用过程中受扰动后的状态；

根据所述应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的运动控制参数；其中，所述抗扰动模型为采用上述第一方面任一所述方法训练得到的目标抗扰动模型；

根据所述多种预设抗扰动策略的运动控制参数，计算得到所述机器人中各关节的控制信息；

根据所述机器人中各关节的控制信息，控制所述机器人进行抗干扰运动。

可选的，所述多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略；

所述根据所述多种预设抗扰动策略的运动控制参数，计算得到所述机器人中各关节的控制信息，包括：

根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹；

根据所述至少两种策略对应关节的运动轨迹，采用运动学逆解算法进行逆解运算，得到所述机器人中各关节的控制信息。

可选的，若所述至少两种策略包括：踝关节抗扰动策略；所述踝关节抗扰动策略的运动控制参数包括：踝关节控制力矩参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

根据所述踝关节控制力矩参数和预设足部压力中心点轨迹，得到目标信息；

采用预设公式，根据所述目标信息、重力加速度、躯干质心与地面的高度进行计算，得到躯干质心的位置轨迹，所述踝关节抗扰动策略对应关节的运动轨迹包括：所述躯干质心的位置轨迹。

可选的，若所述至少两种策略包括：髋关节抗扰动策略；所述髋关节抗扰动策略的运动控制参数包括：躯干倾角参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

将所述躯干倾角参数作为躯干运动倾角轨迹，所述控制信息包括所述躯干运动倾角轨迹，所述髋关节抗扰动策略对应关节的运动轨迹包括：所述躯干运动倾角轨迹。

可选的，若所述至少两种策略包括：迈步抗扰动策略；所述迈步抗扰动策略的运动控制参数包括：足部位置参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

根据所述机器人的当前足部位置、所述足部位置参数和预设时长进行插值运算，得到所述机器人的足部运动轨迹，所述迈步抗扰动策略对应关节的运动轨迹包括：所述足部运动轨迹。

第三方面，本发明实施例还提供了一种抗扰动模型的训练装置，包括：

获取模块，用于获取机器人的样本状态信息，所述样本状态信息用于指示所述机器人在训练过程中受扰动后的状态；

处理模块，用于根据所述样本状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的训练控制参数；

控制模块，用于获取所述机器人基于所述多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；

更新模块，用于根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型。

可选的，所述获取模块，还用于获取所述机器人受扰动后的训练质心状态、训练脚掌状态和训练关节状态，所述训练状态信息包括：训练质心状态、训练脚掌状态和训练关节状态。

可选的，所述获取模块，还用于获取所述机器人的关节编码器所检测的训练关节角度；获取所述机器人的陀螺仪检测的训练躯干倾角；根据所述训练关节角度和所述训练躯干倾角，计算训练质心位置、训练质心速度和训练脚掌倾角；其中，所述训练质心状态包括：训练质心位置、训练质心速度；获取所述机器人的足底压力传感器检测的训练脚掌压力，其中，所述训练脚掌状态包括：所述训练脚掌倾角和所述训练脚掌压力；通过所述机器人的电机的电流检测训练髋关节扭矩和训练踝关节扭矩，所述训练关节状态包括：所述训练髋关节扭矩和所述训练踝关节扭矩。

可选的，所述更新模块，还用于根据所述抗扰动结果，采用预设奖励函数，计算奖励函数值；更新所述抗扰动模型的网络参数，直至基于更新参数后的所述抗扰动模型所得到的奖励函数值满足预设结束条件，得到所述目标抗扰动模型。

所述更新模块，还用于根据所述躯干角速度信息、所述躯干倾角信息、躯干质心与地面的高度，采用预设奖励函数，计算奖励函数值。

可选的，所述获取模块，还用于通过所述机器人的仿真环境获取所述机器人的训练状态信息；

所述控制模块，还用于通过所述机器人的仿真环境获取所述机器人基于所述多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果。

第四方面，本发明实施例还提供了一种机器人抗扰动控制装置，所述装置包括：

获取模块，用于获取机器人的应用状态信息，所述应用状态信息用于指示所述机器人在应用过程中受扰动后的状态；

处理模块，用于根据所述应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的运动控制参数；其中，所述抗扰动模型为采用上述第一方面任一所述方法训练得到的目标抗扰动模型；

计算模块，用于根据所述多种预设抗扰动策略的运动控制参数，计算得到所述机器人中各关节的控制信息；

控制模块，用于根据所述机器人中各关节的控制信息，控制所述机器人进行抗干扰运动。

所述计算模块，还用于根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹；根据所述至少两种策略对应关节的运动轨迹，采用运动学逆解算法进行逆解运算，得到所述机器人中各关节的控制信息。

可选的，若所述至少两种策略包括：踝关节抗扰动策略；所述踝关节抗扰动策略的运动控制参数包括：踝关节控制力矩参数；所述计算模块，还用于根据所述踝关节控制力矩参数和预设足部压力中心点轨迹，得到目标信息；采用预设公式，根据所述目标信息、重力加速度、躯干质心与地面的高度进行计算，得到躯干质心的位置轨迹，所述踝关节抗扰动策略对应关节的运动轨迹包括：所述躯干质心的位置轨迹。

可选的，若所述至少两种策略包括：髋关节抗扰动策略；所述髋关节抗扰动策略的运动控制参数包括：躯干倾角参数；所述计算模块，还用于将所述躯干倾角参数作为躯干运动倾角轨迹，所述控制信息包括所述躯干运动倾角轨迹，所述髋关节抗扰动策略对应关节的运动轨迹包括：所述躯干运动倾角轨迹。

可选的，若所述至少两种策略包括：迈步抗扰动策略；所述迈步抗扰动策略的运动控制参数包括：足部位置参数；所述计算模块，还用于根据所述机器人的当前足部位置、所述足部位置参数和预设时长进行插值运算，得到所述机器人的足部运动轨迹，所述迈步抗扰动策略对应关节的运动轨迹包括：所述足部运动轨迹。

第五方面，本发明实施例还提供了一种训练设备，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法。

第六方面，本发明实施例还提供了一种机器人，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法。

第七方面，本发明实施例还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述第一方面任一项所述的方法。

本发明的有益效果是：本发明实施例提供一种抗扰动模型的训练方法，包括：获取机器人的训练状态信息，训练状态信息用于指示机器人在训练过程中受扰动后的状态；根据训练状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的训练控制参数；获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型。对具有多种预设抗扰动策略的抗扰动模型进行训练得到目标抗扰动模型，基于目标抗扰动模型可以输出多种预设抗扰动策略的控制参数，使得机器人在基于该控制参数进行抗扰动运动时更加稳定，提高机器人的抗扰动效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图；

图2为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图；

图3为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图；

图4为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图；

图5为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图；

图6为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图；

图7为本发明实施例提供的一种抗扰动模型的训练装置的结构示意图；

图8为本发明实施例提供的一种机器人抗扰动控制装置的结构示意图；

图9为本发明实施例提供的一种训练设备的结构示意图；

图10为本发明实施例提供的一种机器人的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

图1为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图；如图1所示，本申请实施例提供的抗扰动模型的训练方法，其执行主体可以为训练设备，该方法可以包括：

S101、获取机器人的训练状态信息。

其中，训练状态信息用于指示机器人在训练过程中受扰动后的状态。受扰动后的状态可以为受扰动后机器人的多个部位的状态。

在一些实施方式中，在训练的过程中，通过人工或者干扰设备对机器人进行干扰，机器人受到干扰后状态发生变化，训练设备可以获取机器人的状态采集器件检测的机器人初始状态，继而训练设备对初始状态进行处理后，得到训练状态信息。

S102、根据训练状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的训练控制参数。

其中，具有多种预设抗扰动策略的抗扰动模型也可以称为初始抗扰动模型，抗扰动模型可以输出多个预设抗扰动策略的训练控制参数。此外，抗扰动模型可以为强化学习网络。

另外，训练设备可以构建抗扰动模型的输入信息类型和输出信息类型，即构建训练状态信息的类型和多种预设抗扰动策略的训练控制参数的类型，结合其他必要信息构建抗扰动模型。

S103、获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果。

需要说明的是，上述S102中抗扰动模型所输出的训练控制参数并不能直接用于控制机器人进行抗干扰运动，训练设备需要对训练控制参数进行处理后得到训练控制信息。

其中，训练设备可以根据训练控制参数和机器人的运动学参数，例如，机器人机身各个连杆长度、各个部件的质量分布，进行运动学逆求解，继而对机器人进行动作控制。

在一种可能实施方式中，训练设备根据训练控制信息控制机器人进行抗干扰运动，当机器人进行抗干扰运动后，训练设备可以获取机器人的状态采集器件所检测的训练抗扰动状态，即抗扰动结果。

S104、根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型。

在一些实施方式中，训练设备可以对抗扰动结果进行处理得到处理结果，根据处理结果对抗扰动模型的网络参数进行更新，当处理结果满足预设条件时，则说明对于抗扰动模型的训练完成，得到的目标抗扰动模型。

需要说明的是，对机器人进行一次扰动，所获取的机器人的训练状态信息，可以实现对于抗扰动模型的一轮训练。对机器人进行多次扰动，继而进行多轮训练，也即是对网络参数进行多次更新，通过进行多轮训练，可以获取训练得到的目标抗扰动模型。

在实际应用中，上述得到的目标抗扰动模型可以应用于机器人中，以便机器人在受到扰动时，机器人自身可以基于目标抗扰动模型进行抗扰动运动。

综上所述，本发明实施例提供一种抗扰动模型的训练方法，包括：获取机器人的训练状态信息，训练状态信息用于指示机器人在训练过程中受扰动后的状态；根据训练状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的训练控制参数；获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型。对具有多种预设抗扰动策略的抗扰动模型进行训练得到目标抗扰动模型，基于目标抗扰动模型可以输出多种预设抗扰动策略的控制参数，使得机器人在基于该控制参数进行抗扰动运动时更加稳定，提高机器人的抗扰动效果。

而且，本申请实施例中，通过目标抗扰动模型输出多种预设抗扰动策略的控制参数，继而基于多种预设抗扰动策略的控制参数进行计算，得到机器人的关节控制信息，而并非是通过目标抗扰动模型直接输出关节控制信息。这样可以使得抗扰动模型训练过程中更容易收敛，另一方面使得抗扰动能力更强。

可选的，上述S101中获取机器人的训练状态信息的过程，可以包括：获取机器人受扰动后的训练质心状态、训练脚掌状态和训练关节状态。

其中，训练状态信息包括：训练质心状态、训练脚掌状态和训练关节状态。

另外，训练质心状态是指训练过程中躯干质心状态；当机器人是双足机器人时，训练脚掌状态是指训练过程中两个脚掌的状态；训练关节状态是指训练过程中至少一个关节的状态。

可选的，图2为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图，如图2所示，上述获取机器人受扰动后的质心状态、脚掌状态和训练关节状态的过程，可以包括：

S201、获取机器人的关节编码器所检测的训练关节角度。

S202、获取机器人的陀螺仪检测的训练躯干倾角。

需要说明的是，机器人的关节编码器可以采集训练关节角度，并向训练设备发送该训练关节角度；机器人的陀螺仪可以检测训练躯干倾角，并向训练设备发送该训练躯干倾角；相应的，训练设备可以接收该训练关节角度和训练躯干倾角。

S203、根据训练关节角度和训练躯干倾角，计算训练质心位置、训练质心速度和训练脚掌倾角。

其中，训练质心状态包括：训练质心位置、训练质心速度。

在一种可能的实施方式中，训练设备可以根据训练关节角度和训练躯干倾角进行运动学正解，得到训练质心位置、训练质心速度和训练脚掌倾角。其中，训练质心位置可以用x1表示，训练质心速度可以用x2，脚掌倾角可以用θ_foot表示。

S204、获取机器人的足底压力传感器检测的训练脚掌压力。

其中，训练脚掌状态包括：训练脚掌倾角和训练脚掌压力。训练脚掌倾角可以用f_i表示。

S205、通过机器人的电机的电流检测训练髋关节扭矩和训练踝关节扭矩。

其中，训练关节状态包括：训练髋关节扭矩和训练踝关节扭矩。训练髋关节扭矩可以用τ_hip表示，训练踝关节扭矩可以用τ_ankle表示。

在本申请实施例中，机器人的训练状态信息可以用S进行表示，则S＝{x1，x2，θ_foot，f_i，τ_hip，τ_ankle}。训练状态信息可以为训练状态向量。

可选的，多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略。

其中，踝关节抗扰动策略对应的训练控制参数可以为训练踝关节控制力矩参数；髋关节抗扰动策略对应的训练控制参数可以为训练躯干倾角参数；迈步抗扰动策略对应的训练控制参数可以为训练足部位置参数。

需要说明的是，训练踝关节控制力矩参数可以用p_aux表示，训练躯干倾角参数可以用θ_target表示，训练足部位置参数可以用x_capture表示。训练踝关节控制力矩参数、训练躯干倾角参数、训练足部位置参数均是用于控制机器人进行抗扰动动作的，因此，三者可以为动作向量，动作向量可以用A表示，则A＝{p_aux，θ_target，x_capture}。

可选的，图3为本发明实施例提供的一种抗扰动模型的训练方法的流程示意图，如图3所示，上述S104中根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型的过程，可以包括：

S301、根据抗扰动结果，采用预设奖励函数，计算奖励函数值。

在本申请实施例中，预设奖励函数可以用公式表示，预设奖励函数中可以包括抗扰动结果和预设参数，将抗扰动结果代入预设奖励函数中，则可以得到奖励函数值。

S302、更新抗扰动模型的网络参数，直至基于更新参数后的抗扰动模型所得到的奖励函数值满足预设结束条件，得到目标抗扰动模型。

其中，训练设备可以根据奖励函数值更新抗扰动模型的网络参数。

在一些实施方式中，对机器人进行一次扰动，相应的可以获取一次抗扰动结果，计算得到奖励函数值，继而更新一次抗扰动模型的网络参数，完成对于抗扰动模型的一轮训练；继而对机器人进行再一次扰动，再次计算得到奖励函数值，再次更新抗扰动模型的网络参数；直至当计算得到的奖励函数值收敛时，完成对于抗扰动模型的训练，得到目标抗扰动模型。

需要说明的事，当经过多轮训练后，计算得到的奖励函数值收敛。

可选的，抗扰动结果包括：躯干角速度信息和躯干倾角信息；

其中，训练状态信息和抗扰动结果所包含的信息的类型不同。

上述S301中根据抗扰动结果，采用预设奖励函数，计算奖励函数值的过程，可以包括：

根据躯干角速度信息、躯干倾角信息、躯干质心与地面的高度，采用预设奖励函数，计算奖励函数值。

其中，训练设备可以根据躯干角速度信息、躯干倾角信息、躯干质心与地面的高度和预设参数，采用预设奖励函数，计算奖励函数值。预设参数包括：重力加速度。

在一种可能的实施方式中，躯干角速度信息可以用θ_gyro，躯干倾角信息可以用θ_IMU表示，躯干质心与地面的高度可以用z₀表示，重力加速度可以用g表示，奖励函数值可以用R表示，预设奖励函数可以表示为：

另外，将抗扰动结果中的θ_gyro、θ_IMU代入上述预设奖励函数中，可以计算得到奖励函数值R。

可选的，上述S101中获取机器人的训练状态信息的过程，可以包括：通过机器人的仿真环境获取机器人的训练状态信息。

在一种可能的实施方式中，训练设备可以是终端设备，终端设备上运行有仿真环境，终端设备可以对仿真环境中仿真机器人进行干扰操作，继而获取仿真环境中仿真机器人的训练初始状态，终端设备可以对训练初始状态进行处理，得到训练状态信息。

在另一种可能的实施方式中，训练设备可以为实体机器人中的处理器，也可以为机器人的控制器或者主控器等等。对实体机器人进行干扰，实体机器人中的状态采集器件可以采集训练初始状态，并向实体机器人中的处理器发送该训练初始状态，实体机器人中的处理器可以对训练初始状态进行处理，得到训练状态信息。

需要说明的是，初始状态可以包括：训练关节角度、训练躯干倾角、训练脚掌压力、电机电流；训练状态信息可以包括：训练质心位置、训练质心速度、训练脚掌倾角、训练脚掌压力、训练髋关节扭矩、训练踝关节扭矩。

上述S103中获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果的过程，可以包括：通过机器人的仿真环境获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果。

在本申请实施例中，当训练设备为终端设备时，可以通过机器人的仿真环境根据训练控制参数对仿真机器人动作控制，继而获取仿真机器人的抗扰动结果；当训练设备为实体机器人时，实体机器人的处理器可以根据训练控制参数对实体机器人动作控制，继而获取实体机器人的抗扰动结果。

需要说明的是，当训练设备是终端设备时，可以在终端设备上初步有效的抗扰动模型，再导入至实体机器人样机中继续训练，以优化抗扰动模型在实体机器人上的效果，可以避免直接使用实体机器人训练导致硬件损耗较大的问题。

综上所述，在本申请实施例中，在训练质心位置和训练质心速度的基础上，还包括：训练脚掌倾角、训练脚掌压力、训练髋关节扭矩、训练踝关节扭矩等与抗扰动策略非线性相关的状态参数来训练抗扰动模型，使得训练得到的目标抗扰动模型输出的抗干扰参数更准确。

图4为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图，如图4所示，本申请实施例所提供的机器人抗扰动控制方法，其执行主体可以为机器人，具体的，可以为机器人的处理器，也可以为机器人的控制器或者主控器。该方法包括：

S401、获取机器人的应用状态信息。

其中，应用状态信息可以用于指示机器人在应用过程中受扰动后的状态。

在实际应用中，机器人受到外力干扰时，机器人的处理器可以获取机器人的状态采集器件检测的初始状态，继而对初始状态进行处理后，得到应用状态信息。

需要说明的是，在机器人应用的过程中，所获取的应用状态信息和上述实施例中所获取的训练状态信息类似，此处不再赘述。

可选的，初始状态可以包括：应用关节角度、应用躯干倾角、应用脚掌压力、应用电机电流。应用状态信息可以包括下述信息中的至少三项：应用质心位置、应用质心速度、应用脚掌倾角、应用脚掌压力、应用髋关节扭矩、应用踝关节扭矩。

S402、根据应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的运动控制参数。

其中，抗扰动模型为采用上述图1至3任一所述的方法训练得到的目标抗扰动模型。

在一些实施方式中，机器人的处理器在获取应用状态信息后，可以将应用状态信息输入训练好的抗扰动模型中，则抗扰动模型可以进行相应的处理，继而输出多种预设抗扰动策略的运动控制参数。

需要说明的是，抗扰动模型可以根据应用状态信息，动态的对多种预设抗扰动策略的运动控制参数进行确定。不同的扰动，即不同的应用状态信息，可以对应不同的多种预设抗扰动策略的运动控制参数，使得机器人具有较强的抗扰动能力，提高抗扰动过程中的稳定性。

S403、根据多种预设抗扰动策略的运动控制参数，计算得到机器人中各关节的控制信息。

其中，各预设抗扰动策略的运动控制参数，均具有对应的计算规则。

在一种可能的实施方式中，对于各种预设抗扰动策略的运动控制参数，采用对应的计算规则进行计算得到多个计算结果，对计算结果进行处理，得到机器人中各关节的控制信息。其中，多个计算结果可以为多个运动轨迹信息。

S404、根据机器人中各关节的控制信息，控制机器人进行抗干扰运动。

在本申请实施例中，机器人的处理器根据机器人中各关节的控制信息，控制机器人中相应的关节进行运动，从而可以控制机器人进行抗干扰运动。可选的，在实际应用中，抗干扰运动可以包括如下运动中的至少两种：通过踝关节作用力抵抗扰动、转动上半身抵抗扰动、迈出一步抵抗扰动。

综上所述，本申请实施例提供一种机器人抗扰动控制方法，包括：获取机器人的应用状态信息，应用状态信息用于指示机器人在应用过程中受扰动后的状态；根据应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的运动控制参数；根据多种预设抗扰动策略的运动控制参数，计算得到机器人中各关节的控制信息；根据机器人中各关节的控制信息，控制机器人进行抗干扰运动。基于抗扰动模型所输出的多种预设抗扰动策略的运动控制参数，得到各关节的控制信息，根据控制信息控制机器人进行抗干扰运动，可以提高机器人的抗干扰效果，也提供了抗干扰时机器人的稳定性。

在本申请实施例中，机器人在应用抗扰动模型的过程中，可以不再对抗扰动模型中的网络参数进行更新。

图5为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图，如图5所示，上述S403中根据多种预设抗扰动策略的运动控制参数，计算得到机器人中各关节的控制信息的过程，可以包括：

S501、根据至少两种策略的运动控制参数，分别计算至少两种策略对应关节的运动轨迹。

在一种可能的实施方式中，踝关节抗扰动策略的运动控制参数可以为踝关节控制力矩参数，对应的关节的运动轨迹可以为躯干质心的位置轨迹；髋关节抗扰动策略的运动控制参数可以为躯干倾角参数，对应的关节的运动轨迹可以为躯干运动倾角轨迹；迈步抗扰动策略的运动控制参数可以为足部位置参数，对应的关节的运动轨迹可以为足部运动轨迹。

需要说明的是，机器人的处理器可以根据至少两种策略的运动控制参数，对应的计算得到躯干质心的位置轨迹、躯干运动倾角轨迹、足部运动轨迹中的至少两种。

S502、根据至少两种策略对应关节的运动轨迹，采用运动学逆解算法进行逆解运算，得到机器人中各关节的控制信息。

其中，机器人的处理器可以根据六维的躯干位姿进行逆解运算。

在本申请实施例中，六维的躯干位姿包括：三维空间坐标(x、y、z坐标)和roll(围绕X轴旋转，也称为俯仰角)、pitch(围绕Y轴旋转，也称为偏航角)、yaw(围绕Z轴旋转，也称为翻滚角)等了六个维度。

需要说明的是，六维的躯干倾角可以表示为T_torso＝{x_t，y_t，z_t，r_t，p_t，y_t}，其中，机器人的处理器可以根据躯干质心的位置轨迹，对x_t，y_t，z_t等信息进行改变，以通过控制躯干运动驱动踝关节运动，实现踝关节抗扰动策略。其次，机器人的处理器可以根据躯干运动倾角轨迹对r_t的信息进行改变，以控制以对应的倾角进行运动，以实现髋关节抗扰动策略。

另外，六维的腾空脚位姿可以表示为T_swing＝{x_sw，y_sw，z_sw，r_sw，p_sw，y_sw}。机器人的处理器可以根据足部运动轨迹对x_sw，y_sw，z_sw等信息以进行改变，以控制足部进行腾空运动，实现迈步抗扰动策略。对于六维的着地脚位姿T_stance＝{x_st，y_st，z_st，r_st，p_st，y_st}，在本申请实施例中不根据关节的运动轨迹对其做出改变。

可选的，若至少两种策略包括：踝关节抗扰动策略；踝关节抗扰动策略的运动控制参数包括：踝关节控制力矩参数。

图6为本发明实施例提供的一种机器人抗扰动控制方法的流程示意图，如图6所示，上述S501中根据至少两种策略的运动控制参数，分别计算至少两种策略对应关节的运动轨迹的过程，可以包括：

S601、根据踝关节控制力矩参数和预设足部压力中心点轨迹，得到目标信息。

其中，预设足部压力中心点轨迹可以为预设的机器人在行走过程中ZMP(零力矩点)。ZMP是地面上的一点，重力和惯性力对这一点的力矩，其水平分量为零。

在一些实施方式中，机器人的处理器可以对踝关节控制力矩参数和预设足部压力中心点轨迹进行叠加，得到目标信息。

S602、采用预设公式，根据目标信息、重力加速度、躯干质心与地面的高度进行计算，得到躯干质心的位置轨迹。

其中，踝关节抗扰动策略对应关节的运动轨迹包括：躯干质心的位置轨迹。

在一种可能的实施方式中，预设公式可以表示为

其中，p为目标信息，g为重力加速度，z₀为躯干质心与地面的高度，x为躯干质心的位置轨迹，x3为加速度。在求解x时，可以已知x的第一项，基于x的第一项求解一个x3，继而根据该x3求解x的第二项，以此类推，可以求得x中的多项，即得到躯干质心的位置轨迹。

需要说明的是，上述躯干质心的位置轨迹可以为预设时间内多个三维坐标点的集合，每个三维坐标点用于表征在对应时间点躯干质心的位置。

可选的，若至少两种策略包括：髋关节抗扰动策略；髋关节抗扰动策略的运动控制参数包括：躯干倾角参数。

上述S501中根据至少两种策略的运动控制参数，分别计算至少两种策略对应关节的运动轨迹，包括：将躯干倾角参数作为躯干运动倾角轨迹，控制信息包括躯干运动倾角轨迹。

其中，髋关节抗扰动策略对应关节的运动轨迹包括：躯干运动倾角轨迹。

在一些实施方式中，躯干倾角参数可以用θ_target1表示，躯干运动倾角轨迹可以用r_T表示，则r_T＝θ_target1。其中，躯干运动倾角轨迹可以为预设时间内多个倾角的集合，预设时间中可以包括多个时间点，每个时间点具有一个对应的躯干倾角。

可选的，若至少两种策略包括：迈步抗扰动策略；迈步抗扰动策略的运动控制参数包括：足部位置参数。

上述S501中根据至少两种策略的运动控制参数，分别计算至少两种策略对应关节的运动轨迹，包括：

根据机器人的当前足部位置、足部位置参数和预设时长进行插值运算，得到机器人的足部运动轨迹。

其中，迈步抗扰动策略对应关节的运动轨迹包括：足部运动轨迹。

在一些实施方式中，可以采用公式B(t)＝(1-t)³*p0+3*(1-t)²*t*p1+3*(1-t)²*t²*p2+t³*p3。其中，p0表示机器人足部的当前位置，p3表示足部位置参数，p1和p2为预设的插值点，例如，p1可以位于p1和p3的三分之一处；p2可以位于p1和p3的三分之二处。当然，p1还可以位于p1和p3的其他位置处，本申请实施例对此不进行具体限制。

需要说明的是，足部运动轨迹可以用于表示机器人的足部腾空时，在各个时间点的足部三维坐标，足部运动轨迹可以为多个三维坐标的集合。

图7为本发明实施例提供的一种抗扰动模型的训练装置的结构示意图，如图7所示，该装置包括：

获取模块701，用于获取机器人的样本状态信息，样本状态信息用于指示机器人在训练过程中受扰动后的状态；

处理模块702，用于根据样本状态信息，采用具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的训练控制参数；

控制模块703，用于获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果；

更新模块704，用于根据抗扰动结果，对抗扰动模型的网络参数进行更新，得到目标抗扰动模型。

可选的，获取模块701，还用于获取机器人受扰动后的训练质心状态、训练脚掌状态和训练关节状态，训练状态信息包括：训练质心状态、训练脚掌状态和训练关节状态。

可选的，获取模块701，还用于获取机器人的关节编码器所检测的训练关节角度；获取机器人的陀螺仪检测的训练躯干倾角；根据训练关节角度和训练躯干倾角，计算训练质心位置、训练质心速度和训练脚掌倾角；其中，训练质心状态包括：训练质心位置、训练质心速度；获取机器人的足底压力传感器检测的训练脚掌压力，其中，训练脚掌状态包括：训练脚掌倾角和训练脚掌压力；通过机器人的电机的电流检测训练髋关节扭矩和训练踝关节扭矩，训练关节状态包括：训练髋关节扭矩和训练踝关节扭矩。

可选的，更新模块704，还用于根据抗扰动结果，采用预设奖励函数，计算奖励函数值；更新抗扰动模型的网络参数，直至基于更新参数后的抗扰动模型所得到的奖励函数值满足预设结束条件，得到目标抗扰动模型。

更新模块704，还用于根据躯干角速度信息、躯干倾角信息、躯干质心与地面的高度，采用预设奖励函数，计算奖励函数值。

可选的，获取模块701，还用于通过机器人的仿真环境获取机器人的训练状态信息；

控制模块703，还用于通过机器人的仿真环境获取机器人基于多种预设抗扰动策略的训练控制参数进行动作控制后的抗扰动结果。

图8为本发明实施例提供的一种机器人抗扰动控制装置的结构示意图，如图8所示，该装置包括：

获取模块801，用于获取机器人的应用状态信息，应用状态信息用于指示机器人在应用过程中受扰动后的状态；

处理模块802，用于根据应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到多种预设抗扰动策略的运动控制参数；其中，抗扰动模型为采用上述任一抗扰动模型的训练方法得到的目标抗扰动模型；

计算模块803，用于根据多种预设抗扰动策略的运动控制参数，计算得到机器人中各关节的控制信息；

控制模块804，用于根据机器人中各关节的控制信息，控制机器人进行抗干扰运动。

可选的，多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略；

计算模块803，还用于根据至少两种策略的运动控制参数，分别计算至少两种策略对应关节的运动轨迹；根据至少两种策略对应关节的运动轨迹，采用运动学逆解算法进行逆解运算，得到机器人中各关节的控制信息。

可选的，若至少两种策略包括：踝关节抗扰动策略；踝关节抗扰动策略的运动控制参数包括：踝关节控制力矩参数；计算模块803，还用于根据踝关节控制力矩参数和预设足部压力中心点轨迹，得到目标信息；采用预设公式，根据目标信息、重力加速度、躯干质心与地面的高度进行计算，得到躯干质心的位置轨迹，踝关节抗扰动策略对应关节的运动轨迹包括：躯干质心的位置轨迹。

可选的，若至少两种策略包括：髋关节抗扰动策略；髋关节抗扰动策略的运动控制参数包括：躯干倾角参数；计算模块803，还用于将躯干倾角参数作为躯干运动倾角轨迹，控制信息包括躯干运动倾角轨迹，髋关节抗扰动策略对应关节的运动轨迹包括：躯干运动倾角轨迹。

可选的，若至少两种策略包括：迈步抗扰动策略；迈步抗扰动策略的运动控制参数包括：足部位置参数；计算模块803，还用于根据机器人的当前足部位置、足部位置参数和预设时长进行插值运算，得到机器人的足部运动轨迹，迈步抗扰动策略对应关节的运动轨迹包括：足部运动轨迹。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本发明实施例提供的一种训练设备的结构示意图，如图9所示，该训练设备包括：处理器901、存储器902。其中，训练设备可以为终端设备或者机器人。

存储器902用于存储程序，处理器901调用存储器902存储的程序，以执行上述图1至3任一所述的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

图10为本发明实施例提供的一种机器人的结构示意图，如图10所示，该机器人包括：处理器1001、存储器1002。

存储器1002用于存储程序，处理器1001调用存储器1002存储的程序，以执行上述图4至6任一所述的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述图1至6任一所述的方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抗扰动模型的训练方法，其特征在于，包括：

根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型；

所述获取机器人的训练状态信息，包括：

获取所述机器人受扰动后的训练质心状态、训练脚掌状态和训练关节状态，所述训练状态信息包括：训练质心状态、训练脚掌状态和训练关节状态；

所述获取所述机器人受扰动后的质心状态、脚掌状态和训练关节状态，包括：

获取所述机器人的关节编码器所检测的训练关节角度；

获取所述机器人的陀螺仪检测的训练躯干倾角；

2.如权利要求1所述的方法，其特征在于，所述多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略。

3.如权利要求1所述的方法，其特征在于，所述根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型，包括：

4.如权利要求3所述的方法，其特征在于，所述抗扰动结果包括：躯干角速度信息和躯干倾角信息；

5.如权利要求1所述的方法，其特征在于，所述获取机器人的训练状态信息，包括：

6.一种机器人抗扰动控制方法，其特征在于，所述方法包括：

根据所述应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的运动控制参数；其中，所述抗扰动模型为采用上述权利要求1-5任一所述方法训练得到的目标抗扰动模型；

7.根据权利要求6所述的方法，其特征在于，所述多种预设抗扰动策略包括如下至少两种策略：踝关节抗扰动策略、髋关节抗扰动策略、迈步抗扰动策略；

8.根据权利要求7所述的方法，其特征在于，若所述至少两种策略包括：踝关节抗扰动策略；所述踝关节抗扰动策略的运动控制参数包括：踝关节控制力矩参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

9.根据权利要求7所述的方法，其特征在于，若所述至少两种策略包括：髋关节抗扰动策略；所述髋关节抗扰动策略的运动控制参数包括：躯干倾角参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

10.根据权利要求7所述的方法，其特征在于，若所述至少两种策略包括：迈步抗扰动策略；所述迈步抗扰动策略的运动控制参数包括：足部位置参数；所述根据所述至少两种策略的运动控制参数，分别计算所述至少两种策略对应关节的运动轨迹，包括：

11.一种抗扰动模型的训练装置，其特征在于，包括：

更新模块，用于根据所述抗扰动结果，对所述抗扰动模型的网络参数进行更新，得到目标抗扰动模型；

所述获取机器人的训练状态信息，包括：

所述获取模块，还用于获取所述机器人的关节编码器所检测的训练关节角度；获取所述机器人的陀螺仪检测的训练躯干倾角；根据所述训练关节角度和所述训练躯干倾角，计算训练质心位置、训练质心速度和训练脚掌倾角；其中，所述训练质心状态包括：训练质心位置、训练质心速度；获取所述机器人的足底压力传感器检测的训练脚掌压力，其中，所述训练脚掌状态包括：所述训练脚掌倾角和所述训练脚掌压力；通过所述机器人的电机的电流检测训练髋关节扭矩和训练踝关节扭矩，所述训练关节状态包括：所述训练髋关节扭矩和所述训练踝关节扭矩。

12.一种机器人抗扰动控制装置，其特征在于，所述装置包括：

处理模块，用于根据所述应用状态信息，采用预先训练的具有多种预设抗扰动策略的抗扰动模型进行处理，得到所述多种预设抗扰动策略的运动控制参数；其中，所述抗扰动模型为采用上述权利要求1-5任一所述方法训练得到的目标抗扰动模型；

13.一种训练设备，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法。

14.一种机器人，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求6至10任一项所述的方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述权利要求1至10任一项所述的方法。