CN112060075A

CN112060075A - 步态生成网络的训练方法、训练设备以及存储介质

Info

Publication number: CN112060075A
Application number: CN202010708043.0A
Authority: CN
Inventors: 董遥; 何勇; 吴新宇; 冯伟
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-11
Anticipated expiration: 2040-07-21
Also published as: CN112060075B

Abstract

本申请公开了一种步态生成网络的训练方法、训练设备以及存储介质。该方法包括：获取外骨骼机器人的静态步态轨迹作为参考轨迹；将参考轨迹和外骨骼机器人的当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据；基于第一步态数据对外骨骼机器人的运动进行PD控制，获取外骨骼机器人当前的第二状态数据，以及与第一步态数据对应的立即回报值；利用第二状态数据与第一步态数据对应的立即回报值对步态生成网络的参数进行更新。该方法既能够增强外骨骼机器人行走的环境适应性；还能够通过，在外骨骼机器人步态生成网络的训练中加入PD控制器，减轻外骨骼机器人在实际行走时带来的给定步态数据与实际步态数据之间的误差。

Description

步态生成网络的训练方法、训练设备以及存储介质

技术领域

本申请涉及外骨骼机器人技术领域，特别是涉及一种外骨骼机器人的步态生成网络的训练方法、训练设备以及计算机可读存储介质。

背景技术

随着机器人技术的迅速发展，以及社会各界对残疾人越来越多的关怀和帮助，外骨骼机器人应运而生。外骨骼机器人融合了机械、电子、计算机、生物等多学科设计，是一种新型的可穿戴机器人。在康复医疗领域，外骨骼机器人能帮助脊髓损伤患者重新站立，像正常人一样行走，不仅能够降低日常生活中患者对护理人员的依赖，还能辅助患者进行康复治疗。同时，外骨骼机器人也能辅助老年人运动，增强老年人的运动锻炼时间，帮助他们增强体质。

深度强化学习方法在复杂的控制问题上已经被证明是行之有效的。通过学习的方式，能够解决系统的设计者对系统动力学认识不足的问题，深度强化学习方法可能会给出超越设计者知识领域的完善的解决方案。同时，这样的方法有着持续学习和改进的能力，不断地学习和适应复杂的环境。

发明内容

本申请主要解决的技术问题是提供一种外骨骼机器人的步态生成网络的训练方法，训练设备以及计算机可读存储介质，能够增强外骨骼机器人行走的环境适应性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种外骨骼机器人的步态生成网络的训练方法，该方法包括：获取外骨骼机器人的静态步态轨迹作为参考轨迹；将参考轨迹和外骨骼机器人的当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据；基于第一步态数据对外骨骼机器人的运动进行PD控制，获取外骨骼机器人当前的第二状态数据，以及与第一步态数据对应的立即回报值；利用第二状态数据与第一步态数据对应的立即回报值对步态生成网络的参数进行更新。

进一步地，利用第二状态数据与第一步态数据对应的立即回报值对步态生成网络的参数进行更新，包括：

将第二状态数据与第一步态数据对应的立即回报值输入至评价网络，以使评价网络对第一步态数据进行评价，并得到评价数据；将第二状态数据和评价数据反馈至步态生成网络，以对步态生成网络的参数进行更新。

进一步地，将第二状态数据与第一步态数据对应的立即回报值输入至评价网络，以使评价网络对第一步态状态数据进行评价，并得到评价数据包括：

评价网络根据第二状态数据与第一步态数据对应的立即回报值，计算优势估计函数，从而得到评价数据，即：

其中，r_t表示第一步态数据对应的回报值，γ为折扣因子，V(s_t+1)为第二状态数据对应的价值函数，V(s_t)为第一状态数据对应的价值函数。

进一步地，将第二状态数据和评价数据反馈至步态生成网络，以对步态生成网络的参数进行更新包括：

利用随机梯度下降算法更新步态生成网络的网络参数；

其中，步态生成网络的训练损失函数为：

L(θ)＝E[min(r_t+1(θ)A_t,clip(r_t+1(θ),1-ε,1+ε))A_t]

其中，r_t+1(θ)为策略概率比，且

s_t+1为外骨骼机器人的第二状态数据，a_t+1为针对第二状态数据s_t+1采取的步态策略，θ为步态生成网络的网络参数，θ_old为步态生成网络更新前的网络参数，π(·)为随机策略函数，下标t为时间步长；A_t(s_t,a_t)为评价数据，clip(·)为用于限制r_t+1(θ)范围的函数，ε为超参数，即对于r_t+1(θ)，超出[1-ε,1+ε]范围的值都会去除。

进一步地，基于第一步态数据对外骨骼机器人的运动进行PD控制，获取外骨骼机器人当前的第二状态数据，以及与第一步态数据对应的立即回报值包括：

计算第二状态数据与参考轨迹的欧式距离；若欧式距离越小，第二步态数据对应的立即回报值越大，反之，第二步态数据对应的立即回报值越小。

将第一步态数据输入至PD控制器；其中，PD控制器形式如下：

其中，K_p为比例增益参数，K_d为微分增益参数，K_p和K_d都是可调的参数，e(t)是第一步态数据与PD控制器输出的步态数据的差值。

进一步地，获取外骨骼机器人的静态步态轨迹作为参考轨迹包括：

基于几何约束规划法、模糊逻辑规划法、神经网络规划法、遗传算法规划法以及自然步态规划法的任意一种方法获取外骨骼机器人的静态步态轨迹。

进一步地，将参考轨迹和外骨骼机器人的当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据之前，包括：

建立步态生成网络，步态生成网络包括3个隐藏层，每一隐藏层包括256个神经元。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种训练设备，该训练设备包括：存储器，用于存储计算机程序；处理器，用于执行计算机程序以实现外骨骼机器人的步态生成网络的训练方法的步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种具有计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种外骨骼机器人的步态生成网络的训练方法一方面基于深度强化学习算法对外骨骼机器人的步态进行训练，因此能够增强外骨骼机器人行走的环境适应性，学习能力增强；另一方面，本训练方法在外骨骼机器人步态生成网络的训练过程中，加入PD控制器，也即基于步态生成网络输出的第一步态数据，对外骨骼机器人的运动进行PD控制，因此，能够减轻外骨骼机器人在实际行走时带来的给定步态数据与实际步态数据之间的误差。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请建立的外骨骼机器人模型一实施方式的结构示意图；

图2是本申请提供的外骨骼机器人的步态生成网络的训练方法一实施方式的流程示意图；

图3是本申请提供的外骨骼机器人的步态生成网络的训练方法步骤S20一实施方式的流程示意图；

图4(a)是本申请构建的步态生成网络一实施方式的结构示意图；

图4(b)是本申请构建的评价网络一实施方式的结构示意图；

图5是本申请提供的训练设备一实施方式的结构示意图；

图6是本申请提供的计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

外骨骼机器人是一种新型的可穿戴式智能设备，参阅图1，图1是本申请建立的外骨骼机器人模型一实施方式的结构示意图。本申请实施例将外骨骼机器人的摆动腿抽象为5连杆结构，如图1所示，外骨骼机器人包括腰部1、大腿部2、小腿部3和脚部4，腰部1和大腿部2通过髋关节12连接，大腿部2和小腿部3通过膝关节23连接，小腿部3和脚部4通过踝关节连接，髋关节12和膝关节23设置有驱动机构，用于控制大腿部2和小腿部3的摆动，使外骨骼机器人能够行走。

外骨骼机器人的两个踝关节主要用于外骨骼行走时保持与地面平行，以保证佩戴者在行走过程中保持平衡步行并增加舒适度。但是在训练中，这些关节会产生很多的干扰，这些干扰对训练的结果是无益的，甚至会产生负面的影响。因此，本申请的发明人在模型中加入外部约束，使外骨骼机器人训练过程中脚部4始终与地面保持平行，因此能够消除2个踝关节的控制器，进而简化模型，降低模型训练难度。

本申请发明人经长期研究发现，现有关于外骨骼机器人的步态生成方法，例如，仿生学方法，基于仿生学的步态规划方法就是使用仪器记录人的步行运动数据，然后将记录的数据进行修正，使其更适合仿人机器人的驱动方式、质量分布、机械结构等，最后将修正后的数据作为机器人的输入控制参数，如此看来，基于仿生学的步态规划方法比较简单。但基于仿生学的步态规划方法同时也具有环境适应性差、学习能力差等缺点。而基于神经网络的步态规划方法一般需要大量的样本来确定每个神经元的权重。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，是智能体与环境之间一种学习和反馈。可以通过深度强化学习来实现经验的快速积累，并针对实时情况做出动态规划。例如，游戏角色属于智能体，可以通过深度强化学习，确定游戏角色如何在学习环境中采取一系列行为，从而获得最大的累积回报。其中，涉及状态，即智能体当前处于的状态。策略，即智能体在当前处于的状态下如何做出行动。行动，即智能体根据策略采取的行动。回报，即智能体在当前状态下采取相应的行动后获得的奖励。模型，即智能体通过模型可以在已知当前处于的状态和行动的情况下获得下一个状态。

本申请发明人提出一种基于深度强化学习的步态生成网络的训练方法。该训练方法使得生成的外骨骼机器人步态更具环境适应性，另外，本申请方案将深度强化学习与PD控制器相结合，具有训练速度快，更贴合实际的优点。

请参阅图2，图2是本申请提供的外骨骼机器人的步态生成网络的训练方法一实施方式的流程示意图。

S10：获取外骨骼机器人的静态步态轨迹作为参考轨迹。

外骨骼机器人本体系统步行的运动稳定性是其运动规划必须考虑的因素，本实施例外骨骼机器人的参考轨迹能够保证外骨骼机器人在动态行走时的稳定性。

常用的步态规划方法包括几何约束规划法、模糊逻辑规划法、神经网络规划法、遗传算法规划法以及自然步态规划法等。这些方法都是基于零力矩点稳定性判据的规划方法，因此通过这些算法得到的步态轨迹均能够保证外骨骼机器人的动态稳定行走。

例如，几何约束规划法是步态规划中的常规方法，它的核心思想是首先规划机器人身体关键点的移动曲线，再求解约束方程得到机器人在行走过程中各个关节的运动轨迹。同时根据已有的轨迹及外骨骼机器人物理参数计算出零力矩点(ZMP)的位置，通过调整髋关节和换关节的运动限制，把ZMP控制在稳定区域内，从而得出外骨骼机器人行走的完整步态参数。值得注意地是，上述步态规划方法均可用来生成本实施例的外骨骼机器人的参考轨迹，在此不作具体限制。

S20：将参考轨迹和外骨骼机器人当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据。参阅图3，图3是本申请提供的外骨骼机器人的步态生成网络的训练方法步骤S20一实施方式的流程示意图。可选地，步骤S20具体包括以下步骤：

S21：为外骨骼机器人创建状态空间和动作空间。

外骨骼机器人的状态空间包括外骨骼机器人的腰部状态信息、关节状态信息、双足状态信息以及参考轨迹所表示的状态信息。外骨骼机器人的腰部状态信息、关节状态信息以及双足状态信息可通过装配在外骨骼机器人上的各类传感器获取。外骨骼机器人的状态信息多种多样，如直立、向前迈步、蹲下等、外骨骼机器人腰部的位置、方向、线速度和角速度、左右腿髋关节角度和髋关节速度、左右腿膝关节角度和膝关节速度、脚的位置和方向以及外骨骼机器人参考轨迹所表示的左右腿髋关节角度和髋关节速度、左右腿膝关节角度和膝关节线速度。可选地，本实施例的外骨骼机器人的状态向量大小为65维。

建立外骨骼机器人的动作空间。强化学习开始时往往采用随机策略进行实验得到一系列的状态、动作和奖励样本，算法根据样本改进策略，最大化奖励。由于奖励越来越大的特性，这种算法被称作增强学习。

本实施例基于强化学习方法对步态生成网络的网络参数进行训练，能够避免一般的神经网络需要大量的训练样本以确定每个神经元的权重的缺点。

具体地，外骨骼机器人的动作定义为：

a(t)＝[Δq]

其中，Δq表示外骨骼机器人每个关节(包括髋关节和膝关节)俯仰舵机的离线步态轨迹的在线角度调整量。

S22：建立步态生成网络和评价网络；

本实施例建立的步态生成网络也可称为策略网络，顾名思义，就是根据外骨骼机器人的当前状态，针对预先建立的动作空间，生成针对每个动作的动作概率，并最终基于贪婪法或者梯度下降法获取动作概率最大的动作。

参阅图4(a)、图4(b)，图4(a)是本申请构建的步态生成网络一实施方式的结构示意图；图4(b)是本申请构建的评价网络一实施方式的结构示意。可选地，本实施例建立的步态生成网络和评价网络具有相同的网络结构，包括3个隐藏层，每一隐藏层包括256个神经元。一般地，通过TCP/IP协议将步态生成网络输出的动作向量发送给外骨骼机器人，以控制外骨骼机器人的相应机构执行相应的动作，在每次动作执行完成后，计算当前外骨骼机器人的立即回报值，从而得到新的训练经验，并用新的训练经验对评价网的参数进行更新。

S23：初始化步态生成网络以及评价网络的网络参数；

为了方便起见，本实施例利用随机初始化法对步态生成网络和评价网络的参数进行初始化。

S24：将参考轨迹和外骨骼机器人的当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据。

可选地，在当前的第一状态数据下，步态生成网络利用∈-greedy贪婪法选择对应的动作a作为第一步态数据。

S30：基于第一步态数据对外骨骼机器人的运动进行PD控制，获取外骨骼机器人当前的第二状态数据，以及与第一步态数据对应的立即回报值；

本申请发明人经长期艰苦研究发现，对于外骨骼机器人的步态控制，本领域常规做法是在生成外骨骼机器人的步态数据之后，将该步态数据输入至相应控制器以控制外骨骼机器人按照给定的步态数据行走。但是，上述方式可能会造成外骨骼机器人在行走过程中，实际行走的步态数据与给定的步态数据有较大的差异，或者控制器无法保证外骨骼机器人电机在规定的时间内运行到给定的步态数据。因此，本申请发明人提出一种通过在对外骨骼机器人的步态进行训练的过程中结合PD控制器的方式，以避免或者说减轻上述步态控制可能带来的误差。

PD控制是目前工程项目中最常用的控制方法之一，其基于输入控制系统的误差量进行调节，无需对被控对象进行建模，同时调试简单且易于实现。所谓PD控制，就是在闭环控制系统中，使被控物理量能够迅速而准确地无限接近于控制目标的一种手段。

具体地，将第一步态数据输入至PD控制器。

其中，PD控制器形式如下：

其中，K_p为比例增益参数，K_d为微分增益参数，K_p和K_d都是可调的参数，可选地，对比例增益参数K_p和微分增益参数K_d的自动调整可通过智能化调整或自校正、自适应算法实现。e(t)是第一步态数据与外骨骼机器人当前实际的步态数据的差值。

可选地，确定比例增益参数K_p的过程如下：

确定比例增益参数K_p时，首先去掉PD控制器的微分项，即令K_d＝0，使PD控制为纯比例调节，输入设定为系统允许的最大值的60％-70％，由0逐渐加大比例增益参数K_p，直至系统出现振荡；再反过来，从此时的比例增益参数K_p逐渐减小，直至系统振荡消失，记录此时的比例增益参数K_p，设定PD控制器的比例增益参数K_p为当前值的60％-70％。比例增益参数K_p调试完成。

确定微分增益参数K_d的过程如下：

设定一个较大的微分增益参数K_d初值，然后逐渐减小微分增益参数K_d，直至系统出现振荡，之后再反过来，逐渐加大微分增益参数K_d，直至系统振荡消失。记录此时的微分增益参数K_d，设定PD控制器的微分增益参数K_d为当前值的30％。微分增益参数K_d调试完成。

S40：利用第二状态数据与第一步态数据对应的立即回报值对步态生成网络的参数进行更新。

S41：将第二状态数据与第一步态数据对应的立即回报值输入至评价网络，以使评价网络对第一步态数据进行评价，并得到评价数据。

具体地，评价网络根据第二状态数据与第一步态数据对应的立即回报值，计算优势估计函数，从而得到评价数据，即：

其中，r_t表示第一步态数据对应的回报值，可选地，获取第一步态数据对应的立即回报值的步骤可包括：

计算第二状态数据与参考轨迹的欧式距离；

若欧式距离越小，第二步态数据对应的立即回报值越大，反之，第二步态数据对应的立即回报值越小，也就是说，第一步态数据对应的立即回报值与欧式距离(第二状态数据与参考轨迹的欧式距离)成反比。

γ为折扣因子，V(s_t+1)为第二状态数据对应的价值函数，V(s_t)为第一状态数据对应的价值函数。

S42：将第二状态数据和评价数据反馈至步态生成网络，以对步态生成网络的参数进行更新。

可选地，利用随机梯度下降算法更新步态生成网络的网络参数；

其中，步态生成网络的训练损失函数为：

L(θ)＝E[min(r_t+1(θ)A_t,clip(r_t+1(θ),1-ε,1+ε))A_t]

其中，r_t+1(θ)为策略概率比，且

本申请提供的外骨骼机器人的步态生成网络的训练方法，该方法一方面基于深度强化学习算法对外骨骼机器人的步态进行训练，因此能够增强外骨骼机器人行走的环境适应性，学习能力增强；另一方面，本训练方法在外骨骼机器人步态生成网络的训练过程中，加入PD控制器，也即基于步态生成网络输出的第一步态数据，对外骨骼机器人的运动进行PD控制，因此，能够减轻外骨骼机器人在实际行走时带来的给定步态数据与实际步态数据之间的误差。

参阅图5，图5是本申请提供的训练设备一实施例的结构示意图。该训练设备500包括存储器510和处理器520，其中，存储器510用于存储计算机程序，处理器520用于执行计算机程序以实现本申请提供的外骨骼机器人的步态生成网络的训练方法的步骤。处理器520可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器510用于可执行的指令。存储器510可能包含高速RAM存储器510，也可能包括非易失性存储器510(non-volatile memory)，例如至少一个磁盘存储器。存储器510也可以是存储器阵列。存储器510还可能被分块，并且块可按一定的规则组合成虚拟卷。存储器510存储的指令可被处理器520执行，以使处理器520能够执行如下的外骨骼机器人的步态生成网络的训练方法的步骤，也即：

获取外骨骼机器人的静态步态轨迹作为参考轨迹，将参考轨迹和外骨骼机器人的当前的第一状态数据输入至步态生成网络，以得到步态生成网络输出的第一步态数据，基于第一步态数据对外骨骼机器人的运动进行PD控制，获取外骨骼机器人当前的第二状态数据，以及与第一步态数据对应的立即回报值，利用第二状态数据与第一步态数据对应的立即回报值对步态生成网络的参数进行更新。

参阅图6，图6是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质600上存储有计算机程序601，计算机程序601被处理器执行时实现如下的步态生成网络的训练方法，也即：

计算机存储介质600可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器110(NANDFLASH)、固态硬盘(SSD))等。

本申请提供的外骨骼机器人的步态生成网络的训练方法，该方法一方面基于深度强化学习算法对外骨骼机器人的步态进行训练，因此能够增强外骨骼机器人行走的环境适应性，学习能力增强；另一方面，本申请提供的训练方法在外骨骼机器人步态生成网络的训练过程中，加入PD控制器，以根据第一步态数据控制外骨骼机器人运动。因此，通过本申请提供的步态生成网络输出的步态数据，并给予该步态数据调整外骨骼机器人行走时，能够减轻外骨骼机器人在实际行走时带来的给定步态数据与实际步态数据之间的误差。

另外，本申请还提出了适用于下肢外骨骼机器人的模型简化方法，将足部控制脚平衡的两个关节加入平衡约束，使得像人一样在行走过程中脚部4保持与地面平行，可以消除2个踝关节控制器，降低能训练难度，同时对于训练结果不产生影响。

以上，仅为本申请中的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉该技术的人在本申请所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本申请的包含范围之内，因此，本申请的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种外骨骼机器人的步态生成网络的训练方法，其特征在于，所述方法包括：

获取所述外骨骼机器人的静态步态轨迹作为参考轨迹；

将所述参考轨迹和所述外骨骼机器人的当前的第一状态数据输入至所述步态生成网络，以得到所述步态生成网络输出的第一步态数据；

基于所述第一步态数据对所述外骨骼机器人的运动进行PD控制，获取所述外骨骼机器人当前的第二状态数据，以及与所述第一步态数据对应的立即回报值；

利用所述第二状态数据与所述第一步态数据对应的立即回报值对所述步态生成网络的参数进行更新。

2.根据权利要求1所述的方法，其特征在于，

所述利用所述第二状态数据与所述第一步态数据对应的立即回报值对所述步态生成网络的参数进行更新，包括：

将所述第二状态数据与所述第一步态数据对应的立即回报值输入至评价网络，以使所述评价网络对所述第一步态数据进行评价，并得到评价数据；

将所述第二状态数据和所述评价数据反馈至所述步态生成网络，以对所述步态生成网络的参数进行更新。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二状态数据与所述第一步态数据对应的立即回报值输入至评价网络，以使所述评价网络对所述第一步态状态数据进行评价，并得到评价数据包括：

所述评价网络根据所述第二状态数据与所述第一步态数据对应的立即回报值，计算优势估计函数，从而得到所述评价数据，即：

其中，r_t表示所述第一步态数据对应的回报值，γ为折扣因子，V(s_t+1)为所述第二状态数据对应的价值函数，V(s_t)为所述第一状态数据对应的价值函数。

4.根据权利要求2所述的方法，其特征在于，所述将所述第二状态数据和所述评价数据反馈至所述步态生成网络，以对所述步态生成网络的参数进行更新包括：

利用随机梯度下降算法更新所述步态生成网络的网络参数；

其中，所述步态生成网络的训练损失函数为：

L(θ)＝E[min(r_t+1(θ)A_t,clip(r_t+1(θ),1-ε,1+ε))A_t]

其中，r_t+1(θ)为策略概率比，且

s_t+1为所述外骨骼机器人的所述第二状态数据，a_t+1为针对所述第二状态数据s_t+1采取的步态策略，θ为所述步态生成网络的所述网络参数，θ_old为所述步态生成网络更新前的所述网络参数，π(·)为随机策略函数，下标t为时间步长；A_t(s_t,a_t)为所述评价数据，clip(·)为用于限制r_t+1(θ)范围的函数，ε为超参数，即对于r_t+1(θ)，超出[1-ε,1+ε]范围的值都会去除。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一步态数据对所述外骨骼机器人的运动进行PD控制，获取所述外骨骼机器人当前的第二状态数据，以及与所述第一步态数据对应的立即回报值包括：

计算所述第二状态数据与所述参考轨迹的欧式距离；

若所述欧式距离越小，所述第二步态数据对应的立即回报值越大，反之，所述第二步态数据对应的立即回报值越小。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一步态数据对所述外骨骼机器人的运动进行PD控制，获取所述外骨骼机器人当前的第二状态数据，以及与所述第一步态数据对应的立即回报值包括：

将所述第一步态数据输入至PD控制器；

其中，所述PD控制器形式如下：

其中，K_p为比例增益参数，K_d为微分增益参数，K_p和K_d都是可调的参数，e(t)是所述第一步态数据与所述PD控制器输出的步态数据的差值。

7.根据权利要求1所述的方法，其特征在于，所述获取所述外骨骼机器人的静态步态轨迹作为参考轨迹包括：

基于几何约束规划法、模糊逻辑规划法、神经网络规划法、遗传算法规划法以及自然步态规划法的任意一种方法获取所述外骨骼机器人的静态步态轨迹。

8.根据权利要求1所述的方法，其特征在于，所述将所述参考轨迹和所述外骨骼机器人的当前的第一状态数据输入至所述步态生成网络，以得到所述步态生成网络输出的第一步态数据之前，包括：

建立所述步态生成网络，所述步态生成网络包括3个隐藏层，每一所述隐藏层包括256个神经元。

9.一种训练设备，其特征在于，所述训练设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1-8任意一项所述的步态训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述的步态训练方法的步骤。