CN110262511A

CN110262511A - 基于深度强化学习的双足机器人自适应性行走控制方法

Info

Publication number: CN110262511A
Application number: CN201910629037.3A
Authority: CN
Inventors: 刘成菊; 马璐
Original assignee: Tongji Institute Of Artificial Intelligence (suzhou) Co Ltd
Current assignee: Tongji Institute Of Artificial Intelligence (suzhou) Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-09-20
Anticipated expiration: 2039-07-12
Also published as: CN110262511B

Abstract

本发明涉及一种基于深度强化学习的双足机器人自适应性行走控制方法，包括以下步骤：步骤1)建立仿真平台；步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型；步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型，所述交互信息存储于经历回放池中；步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。与现有技术相比，本发明具有收敛速度快、拟合效果好、行走稳定性强等优点。

Description

基于深度强化学习的双足机器人自适应性行走控制方法

技术领域

本发明涉及一种机器人控制方法，尤其是涉及一种基于深度强化学习的双足机器人自适应性行走控制方法。

背景技术

经过技术不断的发展和创新，双足机器人已经能够在已知的环境中，通过轨迹规划，或者轨迹示教等方法完成行走。但是相比于人类在未知环境下，能够自适应调整步态，穿越障碍，灵活运动，双足机器人的行走控制仍然存在许多需要改进和提高的地方。

在复杂环境中的双足机器人的自适应性行走控制存在以下几个难点：

1.步态多样。机器人在穿越复杂地形的时候需要产生很多种步态，经典的机器人行走控制算法例如多目标优化、梯度下降、遗传算法以及单层CPG无法满足机器人在多种地形状态的自适应性。大多数依赖轨迹预规划，以及落脚点调节等调制部分。

2.参数庞大。能够产生灵活步态的网络需要在庞大的参数空间中搜索到最优解，机器人行走的自适应性依赖所设计网络中的大量参数支撑。传统算法的参数寻优方式比如遗传算法、蚁群算法、策略梯度、多目标优化等算法计算量大，迭代缓慢，优化参数个数有限。

3.传感信息丰富。行走在实际环境中的机器人有图像、力学、关节角度、雷达测距等多种外界信息的输入，机器人需要依靠复杂环境下的传感信息决策。因此控制系统需要具有从复杂的输入信息提取出最有利于当下决策判断信息的能力。

策略梯度算法作为大规模强化学习中的经典算法，在游戏、围棋、路径规划等场景下得到了广泛的应用。但是机器人行走是一个当前状态和前序状态紧密相关，且对当前状态的建模依赖隐形传感信息的部分可观测马尔可夫过程。在这种情况下策略梯度算法例如RDPG、DDPG、Actor2Critic模型表现一般，甚至对于复杂输入无法收敛。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于深度强化学习的双足机器人自适应性行走控制方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度强化学习的双足机器人自适应性行走控制方法，包括以下步骤：

步骤1)建立仿真平台；

步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型；

步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型，所述交互信息存储于经历回放池中；

步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。

进一步地，所述步骤1)包括设置仿真平台的地形种类。

进一步地，所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。

进一步地，所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络，所述价值预测网络中引入注意力机制。

进一步地，所述价值预测网络中引入注意力机制具体为：

在传感信息层面引入用于区分双足机器人在可变环境中对传感信息的侧重程度的注意力机制；

在分批学习层面引入使双足机器人辨别和采集有学习价值的训练样本的注意力机制。

进一步地，所述网络模型为带有循环神经网络的网络结构。

进一步地，所述交互信息为一5元组，该5元组包括上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。

进一步地，训练网络模型时，从所述经历回放池中有优先级地采集设定批次的交互信息作为训练样本。

进一步地，该控制方法还包括：

在所述仿真平台对完成训练的网络模型进行评价，并根据评价结果调整网络模型。

与现有技术相比，本发明深度循环强化学习和注意力机制相结合，实现对双足机器人在复杂环境下自适应性行走的控制，收敛速度快、拟合效果好、行走稳定性强，具有如下有益效果：

第一，本发明基于深度强化学习进行机器人行走控制，深度强化学习具有强大的参数优化更新能力，不需要依赖机器人逆运动学对工作空间的位置姿态进行解码，实时性比较好。

第二，复杂的网络迭代基于优秀的平台例如google开发的tensorflow能够对非常复杂的网络进行基于梯度的自动化的参数搜索，参数搜索中梯度下降在平台上具有一系列可以选择的更新方式(SGD、Momentum、NesterovMomentum、AdaGrad等)。本发明在参数迭代的时候，引入了因为采样导致的梯度误差以及随着更新次数变化的学习率，很大程度上避免了局部最优解，训练过早结束，梯度消失，梯度爆炸，收敛性差等情况，使得网络在训练的过程中以最快的速度收敛。

第三，本发明利用强化学习的基于环境(env)和智能体(agent)的交互行为进行无监督学习。网络的训练样本来源于智能体与环境的“互动经历”，解决了样本来源问题，基于经历回放的学习训练网络，使得控制网络学习到能根据当前状态信息得到最优的动作的确定性策略，从而控制agent在env中取得最佳表现。

第四，本发明构建带有注意力机制的深度循环强化学习网络，经过预训练的网络自适应性好，可以在多种地形下成功控制机器人自主行走。机器人在未知环境的行走会遇到各种各样的障碍，而依赖外界传感器来调整步伐一般有一定的延迟。比如机器人的雷达传感器在t_n时刻雷达探测到前方即将有凹陷，实际上机器人将会需要在t_n+x时刻调大步伐的跨度。注意力机制就是通过学习过去时间的行走数据的采样，让神经网络通过价值网络预测出来的价值来对输入传感状态进行可变权重的加和。也就是说经过注意力机制后，一旦机器人的雷达传感器在t_n时刻雷达探测到凹陷，这个状态信息将会被赋予更大的权重，或者说更被注意，这样后续动作神经网络在决策的时候就会倾向于基于这个状态作出正确的决定。

第五，本发明耗费的时间和硬件资源较少，不需要依赖GPU的训练，在CPU上3个小时内即可训练完成。

附图说明

图1为双足机器人自适应性控制方法流程图；

图2为策略网络训练过程图；

图3为注意力机制引入示意图；

图4为优先级采集样本示意图；

图5为含有GRU的网络结构图；

图6为Critic网络结构中注意力机制示意图；

图7为引入链接注意力的预测价值函数网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明引入了强化学习方法。考虑到有监督的常见机器学习模型，以及依赖大规模神经网络构建的深度学习方法在机器人行走这个数据实时性比较高，而且前后时间状态互相依赖的场景下无法完成自适应控制。而依靠智能体(机器人)与环境交互数据信息训练得到强化学习模型在这个无监督场景下有得天独厚的优势，同时为了适应高维度数据空间的预测场景，在强化学习架构的基础上引入了大规模深度学习，使得预测得到的动作空间更适应多变的场景。

本发明提出的深度强化学习架构依靠注意力机制，循环神经网络很好的解决了策略梯度算法对于复杂输入无法收敛的问题。

如图1所示，本发明提供一种基于深度强化学习的双足机器人自适应性行走控制方法，包括以下步骤：

S1：设置仿真环境，建立仿真平台；

S2：构建基于引入注意力机制的深度强化学习方法的网络模型，包括网络模型超参数的配置和网络模型结构的设计；

S3：根据双足机器人在仿真平台的环境中的交互信息训练网络模型，所述交互信息存储于经历回放池中；

S4：在所述仿真平台对完成训练的网络模型进行评价，并根据评价结果调整网络模型的超参数和网络结构，利用完成训练的网络模型实现对双足机器人行走的自适应控制，具体是直接对仿真机器人的关节角度进行控制。

双足机器人在未知环境中行走问题可以由参数元组(S,A,P,p₀,r,γ)所描述的POMDP(Partially Observable Markov Decision Processes，部分可观察Markov决策过程)模型来表示。其中S,A分别表示模型的状态空间和动作空间；P:S×A×S表示状态动作交替转移概率；p₀,s₀表示初始状态分布概率；r(s_t,a_t)是环境反馈给智能体的回报函数，表示基于当前状态并且基于当前的动作的reward；γ是衰减因子。从最初状态演化到最终状态的样本轨迹表示为τ:(s₀,a₁,s₁,a₂,…)。π_ω:S×A表示以参数ω的随机策略π。策略优化的目标是最大化累计回报价值，如下：

式中，β_π为随机策略π下的累计回报价值，t表示第t个时间步，E_τ表示求期望，r(s_t)表示基于当前状态的平均reward。

PPO(Proximal Policy Optimization，近端策略优化)算法通过保证优势函数单调不减，同时限制新旧策略KL散度小于δ₀。损失函数J_t(ω)可表示为：

损失函数J_t(ω)一共包含三项损失，表示优势函数代理目标函数，表示价值函数平方损失，其中c₁,c₂是系数，c₂s[π](s_t)是鼓励策略探索性行为的交叉熵损失增益。式(3)中，r_t表示t时间步的回报，A_π(t)表示t时间步优势函数，ε为裁剪阈值，A_π为期望优势函数。式(4)中，表示两套参数下的价值函数网络。PPO算法通过最小化损失J_t(ω)来保证策略沿着价值函数单调不减的方向更新，同时策略变化幅度可控。

一、仿真平台

本发明设置基于mujoco仿真器的gym仿真平台，明确网络结构的状态传感信息以及输出的动作空间信息，例如机器人的状态信息包括位置，速度，角度以及外部的雷达信息；明确仿真平台路面的多变的地形种类：可以设置行走的路面包括障碍物，楼梯面，坡面，沟壑等多种地形。

二、超参数的配置

本发明设置的网络模型的超参数如表1所示，其中，τ是迭代因子，每次网络结构中参数更新的幅度；γ是衰减因子，λ是时间差分估计的衰减系数，c₁,c₂是系数，learningrate是学习速率，batch是每个批次训练的样本个数，time step是每个回合训练的总时间步。

表1

三、网络结构设计

本发明针对动作生成策略和价值函数生成策略分别设计了独立的网络结构。为了让算法在训练时方便记录和更新，针对动作生成策略网络，分别给新旧模型分配了参数空间，在代码中为action_new，action_old，策略表示为value_new。如2图所示，在根据样本完成前向反馈，得到最终损失函数以后，两个网络依次进行策略的训练和更新。

本发明采用的网络结构隶属于大规模深度强化学习中对于学习时序样本拟合能力较强的RDPG(recurrent deep policy gradient，循环确定性策略梯度)模型。该架构基于actor-critic算法机制，Actor神经网络(即动作预测网络)用于学习当前状态到动作空间的一个映射a＝λ(s)，Critic神经网络(即价值预测网络)用于拟合基于当前的状态，采取下一步动作后，agent能获得的反馈。为了提高网络的收敛性，actor和critic都具有目标网络tar和评估网络eval，样本来自与以Actor_eval网络为指导agent和环境的交互信息，以Tar网络产生的输出作为模板训练的梯度来更新Eval网络。

带有门电路的RNN探索和利用了非独立同分布的样本之间的时序关系，提高了POMDP问题中基于非完全观测状态对目标输出的拟合程度。确定性策略领域中的RDPG在POMDP问题上的表现也优于不含有RNN的DDPG。基于此，为了减少优势函数引入的偏差，精确估计基于部分可观测状态下获得的价值函数，本发明考虑在真实状态估计阶段将循环神经网络引入PPO(Proximal Policy Optimization，近端策略优化)算法，分别建立状态到动作采样空间的网络结构和状态信息到价值函数的网络结构，如图5所示。其中，GRU是循环神经网络子单元的遗忘门。

假设经过网络的前半部分全链接层对输入状态完成了映射h代表神经元基于s的隐藏单元。选取对长时间依赖关系具有强记忆能力的GRU神经单元，构建单向循环神经网络，用来拟合与线性单向神经网络不同，循环神经网络建立了带有过去时间步的映射具体函数关系表达式如下:

其中，z_t、x_t是循环神经网络子单元的遗忘门，u_t是中间单元。⊙表示矩阵元素对应相乘，δ、φ、ω、b依次表示激活函数relu、激活函数tanh、参数矩阵和偏移值。

本发明在价值预测网络中引入了注意力机制(Attention机制)，以捕获长距离的信息状态关系，具体是在价值预测网络中引入注意力机制。Actor和Critic的构建采用长短期记忆网络，提高了网络对时序样本的学习能力。Attention机制的引入主要是在传感信息层面state level和样本的分批学习层面batch level。对state level的attention机制是为了区分机器人在可变环境中对传感信息的侧重程度，从而提高机器人在复杂环境下的自适应性。而batch level的attention机制是为了让智能体侧重对未来决策影响比较大的样本信息，是在数据预处理筛选出来的有训练价值样本的进一步有选择的关注到不同的样本上，从而加快学习速度，提高算法的收敛性，如图3所示，图中公式表示动作预测网络和价值预测网络这两个网络的更新方式。

循环神经网络为时序样本建立的依赖关系随着时间间隔增大而逐渐衰减。考虑到t时刻的价值函数对之前t-x步的状态信息的依赖关系并不是简单的指数衰减，例如机器人在t时刻的摔倒是因为t-x时刻看到的障碍却没有及时作出反应。为了拟合不同时间步的状态信息对后续价值函数的可变权重依赖，在预测价值函数网络q_ωv的state level和batchlevel分别引入注意力机制，获得带有预输出注意力信息后的状态信息高维表示。目前attention的基本结构包括concat attention、bilinear attention、dot attention、minus-attention等，选择合适的attention结构才有好的性能，因此需要设计不同的对比实验，必要的情况下需要对attention的结构有所调整。

在预测网络中经过GRU输出的状态信息和价值函数的预输出值分别表示如下：

其中，表示经过GRU结构得到的第t步初始状态表示，表示对应第t步隐含状态的价值函数预测，f_q-forward()、f_q-behind()分别表示前向函数和反向函数。下标t∈(1,T)代表一共T个时间步的样本。如图7所示：第t步的状态要经过一步注意力计算表示为再经过GRU得到最终输出注意力机制采用链接注意力(concat attention)的形式，和之间的互注意力计算过程可表示为：

上式中，下标j表示第j个时间步，表示指数函数。为了避免t时刻的值函数注意到t时刻之后的状态信息，限定公式中t∈(1,j)以及j∈(1,T)。其中表示j时刻的价值函数与t时刻的状态的关联性，采取了加权点乘计算相关性。对进行softmax操作得到归一化的注意力权重分布利用加权求和得到经过注意力计算新的状态信息表示

四、网络模型的训练

本发明的网络模型基于双足机器人在仿真平台的环境中的交互信息进行训练。记录双足机器人在未知环境中行走的交互信息，以transition的形式记录对每个时间步记录一个5元组(s_t-1,a_t-1,s_t,r,done)，分别是上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。经过一段时间的transition样本(Transition(s,a,s’,r,q))存储到经历回放池(replay buffer)中。

在训练的过程中，从经历回放池有优先级的采样出一定批次的样本对网络模型进行一定的训练和迭代更新。在训练过程中，针对每一回合的训练轨迹，不同子序列的累计回报存在差异。为了尽快让算法收敛，采样子序列时，依据对单个子序列的累计回报值对样本的重要性进行评估，根据重要性对多个回合的子序列按照优先级采样。训练数据的生成如图4所示。

根据被控对象的动作空间的维度，设定合理的训练回合数，记录并追踪训练过程中累计回合回报表现，一旦回合表现达到较高的水平且能够保持稳定，中止训练，否则直到设定的训练回合数的上限。

如图5所示为带有GRU的网络结构的训练过程。图中，方向从左至右的黑色箭头表示网络的正向传播，方向从右至左的红色箭头表示网络的反向传播；T timesteps表示一个样本有T个状态；N samples表示一个批次有N个样本；Dense-u、Dense-q分别表示动作预测网络和价值预测网络；等表示网络中的隐状态；圆圈GRU表示表示一个循环神经网络单元；a_i表示对一个样本的一个状态预测的对应的动作，q_i表示对一个样本的一个状态预测的对应的价值；r_i表示智能体采取了动作a_i的话，环境的相应反应。l_sum表示网络训练的总损失sum loss，l_adv、l_vf、l_ce是分损失。

本实施例中，具体选择了基于mujoco仿真器的gym仿真平台，选取了四个典型的双足仿真机器人BipedalWalker-v2、BipedalWalkerHardcore-v2、Humanoid-v2和Walker2d-v2。所有的仿真实验在CPU上完成。机器人的状态信息包括位置，速度，角度以及外部的雷达信息。以上三个仿真机器人中BipedalWalkerHardcore-v2的状态信息含有外部雷达传感信息，且行走的路面包括障碍物，楼梯面，坡面，沟壑等多种地形。

为了方便计算新旧策略之间的优势函数，算法在训练过程中需要维持更新两套参数：训练网络参数ω_a和实时网络参数ω_a'。ω_v代表对新策略的价值函数预测网络参数。计算出算法定义的损失函数后，直接基于梯度更新训练网络参数ω_a,ω_v。定义迭代因子τ，按照迭代速度不断更新实时网络参数ω_a'。设经历回放池为R，采样得到的批量样本为S，训练的总回合数为M。网络训练的流程如下所示：

五、网络模型的应用与更新

存储训练好的网络模型，初始化机器人所处的位置以及姿态，每个时间步都将传感信息输入到网络模型里面，得到网络预测的动作空间采样分布，以此得到对应每个时间步的关节角度具体的弯曲大小，从而实现对机器人的自适应性控制。

通过观察双足机器人在仿真平台的行走表现以及累计回合回报水平来评判算法是否已经收敛，可以通过微调网络模型结构或者超参数来提升模型的表现水平。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，包括以下步骤：

步骤1)建立仿真平台；

2.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述步骤1)包括设置仿真平台的地形种类。

3.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。

4.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络，且价值预测网络中引入注意力机制。

5.根据权利要求4所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述价值预测网络中引入注意力机制具体为：

6.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述网络模型为带有循环神经网络的网络结构。

7.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，所述交互信息为一5元组，该5元组包括上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。

8.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，训练网络模型时，从所述经历回放池中有优先级地采集设定批次的交互信息作为训练样本。

9.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法，其特征在于，还包括：