CN114839878A

CN114839878A - 基于改进ppo算法的双足机器人行走稳定性优化方法

Info

Publication number: CN114839878A
Application number: CN202210493695.6A
Authority: CN
Inventors: 吴万毅; 刘芳华; 孙天圣; 邵佳伟; 狄澄; 王政
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-02

Abstract

本发明公开了一种基于改进PPO算法的双足机器人行走稳定性优化方法，具体为通过在神经网络中引入长短时记忆，将前阶段样本信息有选择地保留以拟合后续样本的预测，并在动作网络中加入注意力机制对输入特征进行动态自适应加权，拟合不同时间步的状态信息对后续采取动作的可变权重依赖，得到一种改进的PPO算法，能解决不同环境下双足机器人的步行控制问题包括仿真训练的参数调节和步行运动的稳定性。所述采用的仿真机器人行走环境采用Open AI开发的Gym里面的Bipedalwalker‑v3环境；所述预训练控制参数利用改进的PPO算法进行训练调节；所述双足机器人步行运动的稳定性通过训练的控制器实现。

Description

基于改进PPO算法的双足机器人行走稳定性优化方法

技术领域

本发明涉及一种提高双足机器人行走稳定性的方法，尤其是涉及一种基于改进PPO算法的双足机器人行走稳定性优化方法。

背景技术

双足机器人具有类人型的结构能够适应诸如楼梯、街道、非平整地面等复杂地形环境，具有运动形式灵活的特点。双足机器人自由度众多，控制双足机器人在复杂环境中的自适应性行走需要以灵活多样的步态作为支撑，这就要求控制策略能够在庞大的参数空间搜索最优解并同时综合处理高维传感信息。若是机器人行走过程中遇到凸起或凹陷的不平整地面，会使摆动腿末端提前或推迟触地，导致机器人因姿态扭曲而摔倒。如何使双足机器人适应各种地面，进行快速稳定的行走是研究中的关键问题。

近些年国内外许多学者尝试采用离线步态规划与各种步态在线修正算法结合来实现针对实际行走环境的稳定持续行走。有学者利用传统的倒立摆模型与零力矩点(ZeroMoment Point，ZMP)得到规划步态后的双足机器人关节上角度传感器信息，根据这些信息运用逆运动学算法解算得到调整身体姿态所得到实时数据，把这些数据与预先规划的步态期望数据作比较，所得误差经过处理后送回控制系统进行在线步态调节控制。该离线步态规划的方法适用于特定的环境中机器人特定步态的行走，当环境出现变化时，机器人仍会按照所编好的步态规划方法行走，这会导致机器人因为步态不适应环境而摔倒，不具有适应性。

Google在2015年提出的机器学习算法框架--DRL。近几年，不断有学者尝试将DRL应用到双足机器人自适应行走问题中，运用强化学习算法使机器人以高维视觉信息作为输入数据来学习获得避开墙壁和沿着中心线移动的良好行为。双足机器人在未知环境中的自适应性行走属于边感知边决策的部分可观测马尔可夫决策过程(POMDP)问题。机器人不依赖于轨迹规划和步态设计，仅根据本体传感信息及外界雷达信息判断自身所处的状态。传统基于马尔可夫决策过程(MDP)的强化学习策略无法在部分可观测的状态下对智能体当前所处的状态进行准确的度量。

发明内容

发明目的：针对上述问题，本发明的目的是提供一种基于改进PPO算法的双足机器人行走稳定性优化方法，能够在多种环境下保证双足机器人的稳定性行走。

技术方案：一种基于改进PPO算法的双足机器人行走稳定性优化方法，包括以下步骤：

步骤一：改进的PPO算法神经网络模型的搭建；

建立动作网络模型和评价网络模型，动作网络采用一层全连接层，一层LSTM层以及一层MHSA，评价网络采用两层全连接层和一层LSTM层；步骤二：建立双足机器人运动模型，选择仿真实验环境；

对双足机器人整体结构进行简化，将其简化成包括腰部，两个大腿、两个小腿的简易结构，简易结构包括两个髋关节和两个膝关节，四个关节均为旋转关节，建立四自由度的双足机器人运动模型，选择OpenAI Gym中的Bipedalwalker-v3作为仿真实验环境；

步骤三：双足机器人控制参数预训练；

用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息，并反馈，验证神经网络搭建的可行性；改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率η，用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ，有助于加快学习速度的λ，影响梯度裁剪范围的Epsilon(ε)，一次训练采取的样本数batch_size,最大步数t；

步骤四：双足机器人的步行运动稳定性分析；

通过在仿真环境中的训练以及超参数的调节，用所得到的双足机器人动作的滑动平均的奖励值证明其运动的稳定性，同时验证改进网络的可行性。

预训练调节控制参数利用改进PPO算法的网络结构的深度强化学习进行控制器训练；双足机器人的步行运动稳定性通过训练后的奖励值表现出来。

本发明利用深度网络来处理连续空间的可观测马尔可夫决策过程问题，并利基于用策略梯度的算法，保证在连续空间中根据所学到的良好的策略随机选择动作。

进一步的，动作网络模型的搭建及训练包括以下步骤：

S1：依次建立输入层一、全连接层一、长短时记忆层一、多头注意力机制层、输出层一；

S2：将环境信息s经过输入层一输入到全连接层一，经全连接层一输出后进入长短时记忆层一，然后将经过长短时记忆层一输出后的值，输入多头注意力机制层，获得带有权重差异的状态信息高维表示，拟合不同时间步的状态信息对后续采取动作可变权重依赖，最后经过一个输出层一输出；

S3：输出层一输出得到两个值，一个是均值，一个是方差，然后利用这两个值构建正态分布，再通过这个动作概率分布随机采样出来一个机器人的动作，随机采样动作通过双足机器人运动模型执行；

S4：将存储的所有状态s组合输入新旧策略θ，和θ下的动作网络，得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2，然后用prob1除以prob2得到重要性权重,即ratio；利用重要性采样修正不同策略θ和θ，的两个动作分布之间的差异，求动作网络的损失函数：

J^θ，(θ)＝E[min(r,clip(r,1-ε,1+ε))A^θ，(s_t,a_t)]，

利用梯度更新公式

来更新动作网络。

进一步的，双足机器人执行动作网络模型输出的多回合的随机采样动作，将从环境信息的初始状态s₀开始与环境交互至最终状态s_t的样本看作一个轨迹，用τ表示，τ：(s₀，a₀，s₁，a₁...s_t-1，a_t-1，s_t)，在一个轨迹训练中，机器人判断当前环境的状态s_t∈S，根据策略π:S→A，采取动作a_t∈π(s_t)，得到奖励r并获得下一个状态s_t+1；策略优化的目标是在状态s_t，采取动作a_t后，直到期望累计回报价值G_t最大化时回合结束，其中：

进一步的，评价网络模型的搭建及训练包括以下步骤：

第一步：依次搭建输入层二、全连接层二、全连接层三、长短时记忆层二、输出层二；

第二步：将轨迹τ中的所有的状态s输入至价值网络，依次经过价值网络的输入层二、全连接层二、全连接层三、长短时记忆层二、输出层二，得到双足机器人在一个轨迹中所有状态所对应的状态价值V(s_t)：

第三步：将G_t看作机器人执行a_t后到达状态s_t+1后，采取不同的动作所得的期望的累计奖励的平均值，即G_t＝r_t+γV(s_t+1)，得到优势函数A_π(s_t,a_t)＝G_t-V(s_t)，对优势函数采用一阶时间差分估计，得到

其中：δ_t＝r_t+γV(s_t+1)-V(s_t)，从而求评价网络的损失函数

再反向传播更新价值网络，其中N是batch_size的大小，T是步数。

最佳的，在步骤二中，选择的仿真实验环境为OpenAI Gym里面的Bipedalwalker-v3环境。

最佳的，环境信息s包括双足机器人的位姿、速度，关节角度及外部的雷达信息。

利用改进的PPO算法，在网络中引入了长短时记忆，利用了同分布的样本之间的时序关系，提高了POMDP问题中非完全观测状态对目标输出的拟合程度，在处理时序问题上实现了对状态信息的验证和过滤，从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。LSTM(长短期记忆)是一种改进的RNN。其由一个输入门input_t、一个输出门output_t和一个遗忘门forget_t组成。forget_t将前一单元信息和当前状态作为输入；信息比例由输入门控制，input_t为保留信息所占的比重；C_t将保留信息和新信息进行加权处理作为当前单元的状态；output_t决定有多少信息被输出，并将当前单元的部分信息传递给后边的单元。用t时刻状态s_t和t-1时刻的计算输出h_t-1作为输入，输出y_t和h_t，传入下一时刻t+1用于下次计算,并通过一个状态参量c来实现遗忘门的功能。

进一步的为了获得带有权重差异的状态信息高维表示，拟合不同时间步的状态信息对后续采取动作的可变权重依赖，本发明在长短时记忆后加上了多头注意力机制，每个头关注不同的状态信息，平行计算，最后拼接起来。注意力机制可以分为三步，一是获得机器人每个动作完之后所处的状态信息作为输入X＝[x₁L x_n]，通过线性变换得到查询向量序列Q，键向量序列K和值向量序列V；二是计算注意力分布α_i＝softmax(s(k_i,q_i))，其中s(k_i,q_i)是注意力打分机制。本文采用点积模型，s(k_i,q_i)＝k_i ^Tq_i；三是根据注意力分布α来计算状态输入信息的加权平均：

多头注意力机制是注意力机制的变种，利用多个查询Q＝[q₁L q_m]，状态输入信息X＝[x₁L x_n]经过LSTM输出后，每个注意力关注LSTM输出信息地不同部分，平行地计算，最后输出状态信息的不同权重，然后进行拼接：

有益效果：与现有技术相比，本发明的优点是：

1.通过在神经网络中引入长短时记忆，将前阶段样本信息有选择地保留以拟合后续样本的预测，在处理时序问题上实现了对状态信息的验证和过滤，从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。；

2.输入状态经过LSTM输出后，在动作网络中引入注意力机制，拟合不同时间步的状态信息对后续采取动作以及价值函数的可变权重依赖，避免了引入长短时记忆后，由于当前时刻的信息没有被后面时刻的策略所利用，导致机器人采取不当动作而摔倒的情况；

3.利用改进的PPO算法能够使训练的网络收敛；

4.增强了双足机器人控制器在复杂地形环境下的控制稳定性和鲁棒性，能够使机器人适应差异化的环境变化。

附图说明

图1为本发明的流程图；

图2为改进的PPO算法的动作网络模型

图3为改进的PPO算法的评价网络模型；

图4为双足机器人关键帧图；

图5为双足机器人四个关节动作的输出值；

图6为奖励曲线图；

图7为损失函数图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

复杂环境条件下双足机器人步态的控制较为困难,在控制双足机器人时,机器人步行稳定性至关重要。结合学者们在仿人双足机器人领域的研究成果及存在的问题,本发明提出利用改进的PPO算法解决复杂环境条件下双足机器人的步行控制问题,在无需建立复杂的双足机器人动力学模型的基础上,将强化深度学习方法用于双足机器人实现在快步行走条件下的长距离稳定步态控制。

一种基于改进PPO算法的双足机器人行走稳定性优化方法，如图1所示，包括仿人双足机器人模型的建立与环境的选择、预训练控制参数和双足机器人步行运动。

其中，仿人双足机器人模型是采用一种简化的4自由度连杆模型；预训练控制参数是利用一种改进的PPO网络结构的深度强化学习进行控制器的训练；双足机器人步行运动的稳定性主要是通过训练的控制器来保证。首先，仿真机器人模型与环境采用Open AI开发的Gym里面的Bipedalwalker-v3环境，在预训练过程中通常采用重要性采样的方法和梯度裁剪这两种方法来确保基于改进PPO深度强化学习网络在训练过程中能更好地收敛；然后是采用策略梯度算法，保证能够在连续的动作空间根据所学习到的策略(动作分布)随机筛选动作；最后是针对策略梯度算法，经过动作网络的动作输出是关于均值和方差的正态分布，使得每个动作都能被选到，执行动作，得到回报，跳到下一个状态。

PPO算法通过收集包含n步的多条轨迹来更新策略，这需要大量的采样数据，同时也会导致在长期试错过程中无关信息的累计，为了将前阶段样本信息有选择地保留以拟合后续样本的预测，在处理时序问题上实现对状态信息的验证和过滤，缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题；同时为了拟合不同时间步的状态信息对后续采取动作的可变权重依赖，避免由于当前时刻的信息没有被后面时刻的策略所利用，导致机器人采取不当动作而摔倒的情况。本发明在近端策略优化算法的基础上给出一种新的修正算法，该方法可以在动作-评论算法中优化动作部分，结合针对PPO网络结构改进后的总体网络结构如图2、3所示。本发明提出的适用于双足机器人的基于改进PPO算法的双足机器人行走稳定性优化方法包括以下步骤：

步骤一：改进的PPO算法神经网络模型的搭建；

建立动作网络模型和评价网络模型，动作网络采用一层全连接层，一层LSTM层以及一层MHSA，评价网络采用两层全连接层和一层LSTM层；

步骤二：建立双足机器人运动模型，选择仿真实验环境；

对双足机器人整体结构进行简化，将其简化成包括腰部，两个大腿、两个小腿的简易结构，简易结构包括两个髋关节和两个膝关节，四个关节均为旋转关节，建立四自由度的双足机器人运动模型，选择OpenAI Gym中的工具包作为仿真实验环境；

步骤三：双足机器人控制参数预训练；

用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息，并反馈，验证神经网络搭建的可行性；改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率η，用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ，有助于加快学习速度的λ，影响梯度裁剪范围的Epsilon(ε)，一次训练采取的样本数batch_size，最大步数t；

步骤四：双足机器人的步行运动稳定性分析；

使用改进的PPO算法进行超参数的调节，更好地实现双足机器人稳定步态控制。该改进算法是一种无模型的、离线的强化学习方法。它也是一种行为-评论强化学习智能体，可计算最大化长期奖励的最佳策略。该算法关键参数如表1所示。

表1改进PPO算法关键参数

动作网络模型的搭建及训练包括以下步骤：

S1：依次建立输入层一1、全连接层一2、长短时记忆层一3、多头注意力机制层4、全连接层二5；

S2：将环境信息s经过输入层一1输入到全连接层一2，经全连接层一2输出后进入长短时记忆层一3，然后将经过长短时记忆层一3输出后的值，输入多头注意力机制层4，获得带有权重差异的状态信息高维表示，拟合不同时间步的状态信息对后续采取动作可变权重依赖，最后经过一个输出层一5输出；其中，环境信息s包括双足机器人的位姿、速度，关节角度及外部的雷达信息；

S3：输出层一5输出得到两个值，一个是均值，一个是方差，然后利用这两个值构建正态分布，该正态分布表示机器人在当前状态下，采取动作的概率分布，再通过这个动作概率分布随机采样出来一个机器人的动作，随机采样动作通过双足机器人运动模型执行；

J^θ，(θ)＝E[min(r,clip(r,1-ε,1+ε))A^θ，(s_t,a_t)]，

利用梯度更新公式

来更新动作网络。

双足机器人执行动作网络模型输出的多回合的随机采样动作，将从环境信息的初始状态s₀开始与环境交互至最终状态s_t的样本看作一个轨迹，用τ表示，τ：(s₀，a₀，s₁，a₁...s_t-1，a_t-1，s_t)，在一个轨迹训练中，机器人判断当前环境的状态s_t∈S，根据策略π:S→A，采取动作a_t∈π(s_t)，得到奖励r并获得下一个状态s_t+1；策略优化的目标是在状态s_t，采取动作a_t后，直到期望累计回报价值G_t最大化时回合结束，其中：

在奖励函数的设计中，向前移动会获得正奖励信号，摔倒会得到-100的奖励信号，同时，驱动各关节转动会得到一定的负奖励信号。

长短时记忆利用了同分布的样本之间的时序关系，提高了POMDP问题中非完全观测状态对目标输出的拟合程度，在处理时序问题上实现了对状态信息的验证和过滤，从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。

评价网络模型的搭建及训练包括以下步骤：

第一步：依次搭建输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10；

第二步：将轨迹τ中的所有的状态s输入至价值网络，依次经过价值网络的输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10，得到双足机器人在一个轨迹中所有状态所对应的状态价值V(s_t)：

第三步：为了减小误差，将G_t看作机器人执行a_t后到达状态s_t+1后，采取不同的动作所得的期望的累计奖励的平均值，即G_t＝r_t+γV(s_t+1)，得到优势函数：A_π(s_t,a_t)＝G_t-V(s_t)，对优势函数采用一阶时间差分估计，得到

其中：δ_t＝r_t+γV(s_t+1)-V(s_t)，从而求评价网络的损失函数

根据控制参数确定机器人的控制策略从而进行机器人的行走，用Openai Gym里的环境进行验证该方法的可行性。

选取其中的一次稳定行走控制的实验，仿真结果的机器人在不平地面上的运动关键帧如图4所示，图上显示双足机器人从图4a～4d的连续向前行走的过程非常稳定，且很少出现跌倒情况，髋关节和膝关节能够交替周期运动，且髋关节前后摆动控制控制步长均匀，膝关节摆动使得机器人能平稳的踩在地面上，从而显示机器人的正常行走。由图4可得出，双足机器人在整个步行任务中针对崎岖不平的地形，机器人总能正常行走，调整步态适应复杂地形，且并未出现跌倒的情况发生，一直保持姿态稳定；该稳定性也可从后续的关节输出值和奖励图像的曲线得到验证。机器人在稳定行走之后，其运动时四个关节所作的动作的输出值如图5所示，由图5可知，机器人的四个关节都围绕着0轴线上下周期波动，表明，机器人的关节在做稳定的周期运动；奖励值图像如图6所示，损失函数图如图7所示，由图6、7中的曲线可知，机器人在不断地试错之后，经过1000回合，奖励逐步平稳收敛，意味着机器人经过多回合的探索之后，即能够以奖励相对较高的动作在地面上稳定行走，还保证了双足机器人在步行中的稳定性。

Claims

1.一种基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于包括以下步骤：

步骤一：改进的PPO算法神经网络模型的搭建；

步骤二：建立双足机器人运动模型，选择仿真实验环境；

步骤三：双足机器人控制参数预训练；

用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息，并反馈，验证神经网络搭建的可行性；改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率r，用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ，有助于加快学习速度的λ，影响梯度裁剪范围的Epsilon(ε)，一次训练采取的样本数batch_size，最大步数t；

步骤四：双足机器人的步行运动稳定性分析；

2.根据权利要求1所述的基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于动作网络模型的搭建及训练包括以下步骤：

S1：依次建立输入层一(1)、全连接层一(2)、长短时记忆层一(3)、多头注意力机制层(4)、输出层一(5)；

S2：将环境信息s经过输入层一(1)输入到全连接层一(2)，经全连接层一(2)输出后进入长短时记忆层一(3)，然后将经过长短时记忆层一(3)输出后的值，输入多头注意力机制层(4)，获得带有权重差异的状态信息高维表示，拟合不同时间步的状态信息对后续采取动作可变权重依赖，最后经过一个输出层一(5)输出；

S3：输出层一(5)输出得到两个值，一个是均值，一个是方差，然后利用这两个值构建正态分布，再通过这个动作概率分布随机采样出来一个机器人的动作，随机采样动作通过双足机器人运动模型执行；

S4：将存储的所有状态s组合输入新旧策略θ’和θ下的动作网络，得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2，然后用prob1除以prob2得到重要性权重,即ratio；利用重要性采样修正不同策略θ和θ’的两个动作分布之间的差异，求动作网络的损失函数：

J^θ’(θ)＝E[min(r,clip(r,1-ε,1+ε))A^θ’(s_t,a_t)]，

利用梯度更新公式

来更新动作网络。

3.根据权利要求1或2所述的基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于：双足机器人执行动作网络模型输出的多回合的随机采样动作，将从环境信息的初始状态s₀开始与环境交互至最终状态s_t的样本看作一个轨迹，用τ表示，τ：(s₀，a₀，s₁，a₁...s_t-1，a_t-1，s_t)，在一个轨迹训练中，机器人判断当前环境的状态s_t∈S，根据策略π:S→A，采取动作a_t∈π(s_t)，得到奖励r并获得下一个状态s_t+1；策略优化的目标是在状态s_t，采取动作a_t后，直到期望累计回报价值G_t最大化时回合结束，其中：

4.根据权利要求3所述的基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于评价网络模型的搭建及训练包括以下步骤：

第一步：依次搭建输入层二(6)、全连接层二(7)、全连接层三(8)、长短时记忆层二(9)、输出层二(10)；

第二步：将轨迹τ中的所有的状态s输入至价值网络，依次经过价值网络的输入层二(6)、全连接层二(7)、全连接层三(8)、长短时记忆层二(9)、输出层二(10)，得到双足机器人在一个轨迹中所有状态所对应的状态价值V(s_t)：

其中：

δ_t＝r_t+γV(s_t+1)-V(s_t)，从而求评价网络的损失函数

再反向传播更新价值网络,其中N是batch_size的大小，T是步数。

5.根据权利要求1所述的基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于：在步骤二中，选择的仿真实验环境为OpenAI Gym里面的Bipedalwalker-v3环境。

6.根据权利要求2所述的基于改进PPO算法的双足机器人行走稳定性优化方法，其特征在于：环境信息s包括双足机器人的位姿、速度，关节角度及外部的雷达信息。