CN114839878A - 基于改进ppo算法的双足机器人行走稳定性优化方法 - Google Patents

基于改进ppo算法的双足机器人行走稳定性优化方法 Download PDF

Info

Publication number
CN114839878A
CN114839878A CN202210493695.6A CN202210493695A CN114839878A CN 114839878 A CN114839878 A CN 114839878A CN 202210493695 A CN202210493695 A CN 202210493695A CN 114839878 A CN114839878 A CN 114839878A
Authority
CN
China
Prior art keywords
action
biped robot
layer
robot
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210493695.6A
Other languages
English (en)
Inventor
吴万毅
刘芳华
孙天圣
邵佳伟
狄澄
王政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210493695.6A priority Critical patent/CN114839878A/zh
Publication of CN114839878A publication Critical patent/CN114839878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于改进PPO算法的双足机器人行走稳定性优化方法,具体为通过在神经网络中引入长短时记忆,将前阶段样本信息有选择地保留以拟合后续样本的预测,并在动作网络中加入注意力机制对输入特征进行动态自适应加权,拟合不同时间步的状态信息对后续采取动作的可变权重依赖,得到一种改进的PPO算法,能解决不同环境下双足机器人的步行控制问题包括仿真训练的参数调节和步行运动的稳定性。所述采用的仿真机器人行走环境采用Open AI开发的Gym里面的Bipedalwalker‑v3环境;所述预训练控制参数利用改进的PPO算法进行训练调节;所述双足机器人步行运动的稳定性通过训练的控制器实现。

Description

基于改进PPO算法的双足机器人行走稳定性优化方法
技术领域
本发明涉及一种提高双足机器人行走稳定性的方法,尤其是涉及一种基于改进PPO算法的双足机器人行走稳定性优化方法。
背景技术
双足机器人具有类人型的结构能够适应诸如楼梯、街道、非平整地面等复杂地形环境,具有运动形式灵活的特点。双足机器人自由度众多,控制双足机器人在复杂环境中的自适应性行走需要以灵活多样的步态作为支撑,这就要求控制策略能够在庞大的参数空间搜索最优解并同时综合处理高维传感信息。若是机器人行走过程中遇到凸起或凹陷的不平整地面,会使摆动腿末端提前或推迟触地,导致机器人因姿态扭曲而摔倒。如何使双足机器人适应各种地面,进行快速稳定的行走是研究中的关键问题。
近些年国内外许多学者尝试采用离线步态规划与各种步态在线修正算法结合来实现针对实际行走环境的稳定持续行走。有学者利用传统的倒立摆模型与零力矩点(ZeroMoment Point,ZMP)得到规划步态后的双足机器人关节上角度传感器信息,根据这些信息运用逆运动学算法解算得到调整身体姿态所得到实时数据,把这些数据与预先规划的步态期望数据作比较,所得误差经过处理后送回控制系统进行在线步态调节控制。该离线步态规划的方法适用于特定的环境中机器人特定步态的行走,当环境出现变化时,机器人仍会按照所编好的步态规划方法行走,这会导致机器人因为步态不适应环境而摔倒,不具有适应性。
Google在2015年提出的机器学习算法框架--DRL。近几年,不断有学者尝试将DRL应用到双足机器人自适应行走问题中,运用强化学习算法使机器人以高维视觉信息作为输入数据来学习获得避开墙壁和沿着中心线移动的良好行为。双足机器人在未知环境中的自适应性行走属于边感知边决策的部分可观测马尔可夫决策过程(POMDP)问题。机器人不依赖于轨迹规划和步态设计,仅根据本体传感信息及外界雷达信息判断自身所处的状态。传统基于马尔可夫决策过程(MDP)的强化学习策略无法在部分可观测的状态下对智能体当前所处的状态进行准确的度量。
发明内容
发明目的:针对上述问题,本发明的目的是提供一种基于改进PPO算法的双足机器人行走稳定性优化方法,能够在多种环境下保证双足机器人的稳定性行走。
技术方案:一种基于改进PPO算法的双足机器人行走稳定性优化方法,包括以下步骤:
步骤一:改进的PPO算法神经网络模型的搭建;
建立动作网络模型和评价网络模型,动作网络采用一层全连接层,一层LSTM层以及一层MHSA,评价网络采用两层全连接层和一层LSTM层;步骤二:建立双足机器人运动模型,选择仿真实验环境;
对双足机器人整体结构进行简化,将其简化成包括腰部,两个大腿、两个小腿的简易结构,简易结构包括两个髋关节和两个膝关节,四个关节均为旋转关节,建立四自由度的双足机器人运动模型,选择OpenAI Gym中的Bipedalwalker-v3作为仿真实验环境;
步骤三:双足机器人控制参数预训练;
用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息,并反馈,验证神经网络搭建的可行性;改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率η,用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ,有助于加快学习速度的λ,影响梯度裁剪范围的Epsilon(ε),一次训练采取的样本数batch_size,最大步数t;
步骤四:双足机器人的步行运动稳定性分析;
通过在仿真环境中的训练以及超参数的调节,用所得到的双足机器人动作的滑动平均的奖励值证明其运动的稳定性,同时验证改进网络的可行性。
预训练调节控制参数利用改进PPO算法的网络结构的深度强化学习进行控制器训练;双足机器人的步行运动稳定性通过训练后的奖励值表现出来。
本发明利用深度网络来处理连续空间的可观测马尔可夫决策过程问题,并利基于用策略梯度的算法,保证在连续空间中根据所学到的良好的策略随机选择动作。
进一步的,动作网络模型的搭建及训练包括以下步骤:
S1:依次建立输入层一、全连接层一、长短时记忆层一、多头注意力机制层、输出层一;
S2:将环境信息s经过输入层一输入到全连接层一,经全连接层一输出后进入长短时记忆层一,然后将经过长短时记忆层一输出后的值,输入多头注意力机制层,获得带有权重差异的状态信息高维表示,拟合不同时间步的状态信息对后续采取动作可变权重依赖,最后经过一个输出层一输出;
S3:输出层一输出得到两个值,一个是均值,一个是方差,然后利用这两个值构建正态分布,再通过这个动作概率分布随机采样出来一个机器人的动作,随机采样动作通过双足机器人运动模型执行;
S4:将存储的所有状态s组合输入新旧策略θ,和θ下的动作网络,得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2,然后用prob1除以prob2得到重要性权重,即ratio;利用重要性采样修正不同策略θ和θ,的两个动作分布之间的差异,求动作网络的损失函数:
Jθ,(θ)=E[min(r,clip(r,1-ε,1+ε))Aθ,(st,at)],
利用梯度更新公式
Figure BDA0003618828420000031
来更新动作网络。
进一步的,双足机器人执行动作网络模型输出的多回合的随机采样动作,将从环境信息的初始状态s0开始与环境交互至最终状态st的样本看作一个轨迹,用τ表示,τ:(s0,a0,s1,a1...st-1,at-1,st),在一个轨迹训练中,机器人判断当前环境的状态st∈S,根据策略π:S→A,采取动作at∈π(st),得到奖励r并获得下一个状态st+1;策略优化的目标是在状态st,采取动作at后,直到期望累计回报价值Gt最大化时回合结束,其中:
Figure BDA0003618828420000032
进一步的,评价网络模型的搭建及训练包括以下步骤:
第一步:依次搭建输入层二、全连接层二、全连接层三、长短时记忆层二、输出层二;
第二步:将轨迹τ中的所有的状态s输入至价值网络,依次经过价值网络的输入层二、全连接层二、全连接层三、长短时记忆层二、输出层二,得到双足机器人在一个轨迹中所有状态所对应的状态价值V(st):
Figure BDA0003618828420000033
第三步:将Gt看作机器人执行at后到达状态st+1后,采取不同的动作所得的期望的累计奖励的平均值,即Gt=rt+γV(st+1),得到优势函数Aπ(st,at)=Gt-V(st),对优势函数采用一阶时间差分估计,得到
Figure BDA0003618828420000041
其中:δt=rt+γV(st+1)-V(st),从而求评价网络的损失函数
Figure BDA0003618828420000042
再反向传播更新价值网络,其中N是batch_size的大小,T是步数。
最佳的,在步骤二中,选择的仿真实验环境为OpenAI Gym里面的Bipedalwalker-v3环境。
最佳的,环境信息s包括双足机器人的位姿、速度,关节角度及外部的雷达信息。
利用改进的PPO算法,在网络中引入了长短时记忆,利用了同分布的样本之间的时序关系,提高了POMDP问题中非完全观测状态对目标输出的拟合程度,在处理时序问题上实现了对状态信息的验证和过滤,从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。LSTM(长短期记忆)是一种改进的RNN。其由一个输入门inputt、一个输出门outputt和一个遗忘门forgett组成。forgett将前一单元信息和当前状态作为输入;信息比例由输入门控制,inputt为保留信息所占的比重;Ct将保留信息和新信息进行加权处理作为当前单元的状态;outputt决定有多少信息被输出,并将当前单元的部分信息传递给后边的单元。用t时刻状态st和t-1时刻的计算输出ht-1作为输入,输出yt和ht,传入下一时刻t+1用于下次计算,并通过一个状态参量c来实现遗忘门的功能。
进一步的为了获得带有权重差异的状态信息高维表示,拟合不同时间步的状态信息对后续采取动作的可变权重依赖,本发明在长短时记忆后加上了多头注意力机制,每个头关注不同的状态信息,平行计算,最后拼接起来。注意力机制可以分为三步,一是获得机器人每个动作完之后所处的状态信息作为输入X=[x1L xn],通过线性变换得到查询向量序列Q,键向量序列K和值向量序列V;二是计算注意力分布αi=softmax(s(ki,qi)),其中s(ki,qi)是注意力打分机制。本文采用点积模型,s(ki,qi)=ki Tqi;三是根据注意力分布α来计算状态输入信息的加权平均:
Figure BDA0003618828420000043
多头注意力机制是注意力机制的变种,利用多个查询Q=[q1L qm],状态输入信息X=[x1L xn]经过LSTM输出后,每个注意力关注LSTM输出信息地不同部分,平行地计算,最后输出状态信息的不同权重,然后进行拼接:
Figure BDA0003618828420000051
有益效果:与现有技术相比,本发明的优点是:
1.通过在神经网络中引入长短时记忆,将前阶段样本信息有选择地保留以拟合后续样本的预测,在处理时序问题上实现了对状态信息的验证和过滤,从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。;
2.输入状态经过LSTM输出后,在动作网络中引入注意力机制,拟合不同时间步的状态信息对后续采取动作以及价值函数的可变权重依赖,避免了引入长短时记忆后,由于当前时刻的信息没有被后面时刻的策略所利用,导致机器人采取不当动作而摔倒的情况;
3.利用改进的PPO算法能够使训练的网络收敛;
4.增强了双足机器人控制器在复杂地形环境下的控制稳定性和鲁棒性,能够使机器人适应差异化的环境变化。
附图说明
图1为本发明的流程图;
图2为改进的PPO算法的动作网络模型
图3为改进的PPO算法的评价网络模型;
图4为双足机器人关键帧图;
图5为双足机器人四个关节动作的输出值;
图6为奖励曲线图;
图7为损失函数图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
复杂环境条件下双足机器人步态的控制较为困难,在控制双足机器人时,机器人步行稳定性至关重要。结合学者们在仿人双足机器人领域的研究成果及存在的问题,本发明提出利用改进的PPO算法解决复杂环境条件下双足机器人的步行控制问题,在无需建立复杂的双足机器人动力学模型的基础上,将强化深度学习方法用于双足机器人实现在快步行走条件下的长距离稳定步态控制。
一种基于改进PPO算法的双足机器人行走稳定性优化方法,如图1所示,包括仿人双足机器人模型的建立与环境的选择、预训练控制参数和双足机器人步行运动。
其中,仿人双足机器人模型是采用一种简化的4自由度连杆模型;预训练控制参数是利用一种改进的PPO网络结构的深度强化学习进行控制器的训练;双足机器人步行运动的稳定性主要是通过训练的控制器来保证。首先,仿真机器人模型与环境采用Open AI开发的Gym里面的Bipedalwalker-v3环境,在预训练过程中通常采用重要性采样的方法和梯度裁剪这两种方法来确保基于改进PPO深度强化学习网络在训练过程中能更好地收敛;然后是采用策略梯度算法,保证能够在连续的动作空间根据所学习到的策略(动作分布)随机筛选动作;最后是针对策略梯度算法,经过动作网络的动作输出是关于均值和方差的正态分布,使得每个动作都能被选到,执行动作,得到回报,跳到下一个状态。
PPO算法通过收集包含n步的多条轨迹来更新策略,这需要大量的采样数据,同时也会导致在长期试错过程中无关信息的累计,为了将前阶段样本信息有选择地保留以拟合后续样本的预测,在处理时序问题上实现对状态信息的验证和过滤,缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题;同时为了拟合不同时间步的状态信息对后续采取动作的可变权重依赖,避免由于当前时刻的信息没有被后面时刻的策略所利用,导致机器人采取不当动作而摔倒的情况。本发明在近端策略优化算法的基础上给出一种新的修正算法,该方法可以在动作-评论算法中优化动作部分,结合针对PPO网络结构改进后的总体网络结构如图2、3所示。本发明提出的适用于双足机器人的基于改进PPO算法的双足机器人行走稳定性优化方法包括以下步骤:
步骤一:改进的PPO算法神经网络模型的搭建;
建立动作网络模型和评价网络模型,动作网络采用一层全连接层,一层LSTM层以及一层MHSA,评价网络采用两层全连接层和一层LSTM层;
步骤二:建立双足机器人运动模型,选择仿真实验环境;
对双足机器人整体结构进行简化,将其简化成包括腰部,两个大腿、两个小腿的简易结构,简易结构包括两个髋关节和两个膝关节,四个关节均为旋转关节,建立四自由度的双足机器人运动模型,选择OpenAI Gym中的工具包作为仿真实验环境;
步骤三:双足机器人控制参数预训练;
用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息,并反馈,验证神经网络搭建的可行性;改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率η,用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ,有助于加快学习速度的λ,影响梯度裁剪范围的Epsilon(ε),一次训练采取的样本数batch_size,最大步数t;
步骤四:双足机器人的步行运动稳定性分析;
通过在仿真环境中的训练以及超参数的调节,用所得到的双足机器人动作的滑动平均的奖励值证明其运动的稳定性,同时验证改进网络的可行性。
使用改进的PPO算法进行超参数的调节,更好地实现双足机器人稳定步态控制。该改进算法是一种无模型的、离线的强化学习方法。它也是一种行为-评论强化学习智能体,可计算最大化长期奖励的最佳策略。该算法关键参数如表1所示。
表1改进PPO算法关键参数
Figure BDA0003618828420000071
动作网络模型的搭建及训练包括以下步骤:
S1:依次建立输入层一1、全连接层一2、长短时记忆层一3、多头注意力机制层4、全连接层二5;
S2:将环境信息s经过输入层一1输入到全连接层一2,经全连接层一2输出后进入长短时记忆层一3,然后将经过长短时记忆层一3输出后的值,输入多头注意力机制层4,获得带有权重差异的状态信息高维表示,拟合不同时间步的状态信息对后续采取动作可变权重依赖,最后经过一个输出层一5输出;其中,环境信息s包括双足机器人的位姿、速度,关节角度及外部的雷达信息;
S3:输出层一5输出得到两个值,一个是均值,一个是方差,然后利用这两个值构建正态分布,该正态分布表示机器人在当前状态下,采取动作的概率分布,再通过这个动作概率分布随机采样出来一个机器人的动作,随机采样动作通过双足机器人运动模型执行;
S4:将存储的所有状态s组合输入新旧策略θ,和θ下的动作网络,得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2,然后用prob1除以prob2得到重要性权重,即ratio;利用重要性采样修正不同策略θ和θ,的两个动作分布之间的差异,求动作网络的损失函数:
Jθ,(θ)=E[min(r,clip(r,1-ε,1+ε))Aθ,(st,at)],
利用梯度更新公式
Figure BDA0003618828420000081
来更新动作网络。
双足机器人执行动作网络模型输出的多回合的随机采样动作,将从环境信息的初始状态s0开始与环境交互至最终状态st的样本看作一个轨迹,用τ表示,τ:(s0,a0,s1,a1...st-1,at-1,st),在一个轨迹训练中,机器人判断当前环境的状态st∈S,根据策略π:S→A,采取动作at∈π(st),得到奖励r并获得下一个状态st+1;策略优化的目标是在状态st,采取动作at后,直到期望累计回报价值Gt最大化时回合结束,其中:
Figure BDA0003618828420000082
在奖励函数的设计中,向前移动会获得正奖励信号,摔倒会得到-100的奖励信号,同时,驱动各关节转动会得到一定的负奖励信号。
长短时记忆利用了同分布的样本之间的时序关系,提高了POMDP问题中非完全观测状态对目标输出的拟合程度,在处理时序问题上实现了对状态信息的验证和过滤,从而缓解了长期试错学习过程中累积的无关信息干扰机器人决策的问题。
评价网络模型的搭建及训练包括以下步骤:
第一步:依次搭建输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10;
第二步:将轨迹τ中的所有的状态s输入至价值网络,依次经过价值网络的输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10,得到双足机器人在一个轨迹中所有状态所对应的状态价值V(st):
Figure BDA0003618828420000091
第三步:为了减小误差,将Gt看作机器人执行at后到达状态st+1后,采取不同的动作所得的期望的累计奖励的平均值,即Gt=rt+γV(st+1),得到优势函数:Aπ(st,at)=Gt-V(st),对优势函数采用一阶时间差分估计,得到
Figure BDA0003618828420000092
其中:δt=rt+γV(st+1)-V(st),从而求评价网络的损失函数
Figure BDA0003618828420000093
再反向传播更新价值网络,其中N是batch_size的大小,T是步数。
根据控制参数确定机器人的控制策略从而进行机器人的行走,用Openai Gym里的环境进行验证该方法的可行性。
选取其中的一次稳定行走控制的实验,仿真结果的机器人在不平地面上的运动关键帧如图4所示,图上显示双足机器人从图4a~4d的连续向前行走的过程非常稳定,且很少出现跌倒情况,髋关节和膝关节能够交替周期运动,且髋关节前后摆动控制控制步长均匀,膝关节摆动使得机器人能平稳的踩在地面上,从而显示机器人的正常行走。由图4可得出,双足机器人在整个步行任务中针对崎岖不平的地形,机器人总能正常行走,调整步态适应复杂地形,且并未出现跌倒的情况发生,一直保持姿态稳定;该稳定性也可从后续的关节输出值和奖励图像的曲线得到验证。机器人在稳定行走之后,其运动时四个关节所作的动作的输出值如图5所示,由图5可知,机器人的四个关节都围绕着0轴线上下周期波动,表明,机器人的关节在做稳定的周期运动;奖励值图像如图6所示,损失函数图如图7所示,由图6、7中的曲线可知,机器人在不断地试错之后,经过1000回合,奖励逐步平稳收敛,意味着机器人经过多回合的探索之后,即能够以奖励相对较高的动作在地面上稳定行走,还保证了双足机器人在步行中的稳定性。

Claims (6)

1.一种基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于包括以下步骤:
步骤一:改进的PPO算法神经网络模型的搭建;
建立动作网络模型和评价网络模型,动作网络采用一层全连接层,一层LSTM层以及一层MHSA,评价网络采用两层全连接层和一层LSTM层;
步骤二:建立双足机器人运动模型,选择仿真实验环境;
对双足机器人整体结构进行简化,将其简化成包括腰部,两个大腿、两个小腿的简易结构,简易结构包括两个髋关节和两个膝关节,四个关节均为旋转关节,建立四自由度的双足机器人运动模型,选择OpenAI Gym中的工具包作为仿真实验环境;
步骤三:双足机器人控制参数预训练;
用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息,并反馈,验证神经网络搭建的可行性;改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率r,用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ,有助于加快学习速度的λ,影响梯度裁剪范围的Epsilon(ε),一次训练采取的样本数batch_size,最大步数t;
步骤四:双足机器人的步行运动稳定性分析;
通过在仿真环境中的训练以及超参数的调节,用所得到的双足机器人动作的滑动平均的奖励值证明其运动的稳定性,同时验证改进网络的可行性。
2.根据权利要求1所述的基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于动作网络模型的搭建及训练包括以下步骤:
S1:依次建立输入层一(1)、全连接层一(2)、长短时记忆层一(3)、多头注意力机制层(4)、输出层一(5);
S2:将环境信息s经过输入层一(1)输入到全连接层一(2),经全连接层一(2)输出后进入长短时记忆层一(3),然后将经过长短时记忆层一(3)输出后的值,输入多头注意力机制层(4),获得带有权重差异的状态信息高维表示,拟合不同时间步的状态信息对后续采取动作可变权重依赖,最后经过一个输出层一(5)输出;
S3:输出层一(5)输出得到两个值,一个是均值,一个是方差,然后利用这两个值构建正态分布,再通过这个动作概率分布随机采样出来一个机器人的动作,随机采样动作通过双足机器人运动模型执行;
S4:将存储的所有状态s组合输入新旧策略θ’和θ下的动作网络,得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2,然后用prob1除以prob2得到重要性权重,即ratio;利用重要性采样修正不同策略θ和θ’的两个动作分布之间的差异,求动作网络的损失函数:
Jθ’(θ)=E[min(r,clip(r,1-ε,1+ε))Aθ’(st,at)],
利用梯度更新公式
Figure FDA0003618828410000021
来更新动作网络。
3.根据权利要求1或2所述的基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于:双足机器人执行动作网络模型输出的多回合的随机采样动作,将从环境信息的初始状态s0开始与环境交互至最终状态st的样本看作一个轨迹,用τ表示,τ:(s0,a0,s1,a1...st-1,at-1,st),在一个轨迹训练中,机器人判断当前环境的状态st∈S,根据策略π:S→A,采取动作at∈π(st),得到奖励r并获得下一个状态st+1;策略优化的目标是在状态st,采取动作at后,直到期望累计回报价值Gt最大化时回合结束,其中:
Figure FDA0003618828410000022
4.根据权利要求3所述的基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于评价网络模型的搭建及训练包括以下步骤:
第一步:依次搭建输入层二(6)、全连接层二(7)、全连接层三(8)、长短时记忆层二(9)、输出层二(10);
第二步:将轨迹τ中的所有的状态s输入至价值网络,依次经过价值网络的输入层二(6)、全连接层二(7)、全连接层三(8)、长短时记忆层二(9)、输出层二(10),得到双足机器人在一个轨迹中所有状态所对应的状态价值V(st):
Figure FDA0003618828410000023
第三步:将Gt看作机器人执行at后到达状态st+1后,采取不同的动作所得的期望的累计奖励的平均值,即Gt=rt+γV(st+1),得到优势函数Aπ(st,at)=Gt-V(st),对优势函数采用一阶时间差分估计,得到
Figure FDA0003618828410000024
其中:
δt=rt+γV(st+1)-V(st),从而求评价网络的损失函数
Figure FDA0003618828410000031
再反向传播更新价值网络,其中N是batch_size的大小,T是步数。
5.根据权利要求1所述的基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于:在步骤二中,选择的仿真实验环境为OpenAI Gym里面的Bipedalwalker-v3环境。
6.根据权利要求2所述的基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于:环境信息s包括双足机器人的位姿、速度,关节角度及外部的雷达信息。
CN202210493695.6A 2022-04-27 2022-04-27 基于改进ppo算法的双足机器人行走稳定性优化方法 Pending CN114839878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210493695.6A CN114839878A (zh) 2022-04-27 2022-04-27 基于改进ppo算法的双足机器人行走稳定性优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210493695.6A CN114839878A (zh) 2022-04-27 2022-04-27 基于改进ppo算法的双足机器人行走稳定性优化方法

Publications (1)

Publication Number Publication Date
CN114839878A true CN114839878A (zh) 2022-08-02

Family

ID=82567024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210493695.6A Pending CN114839878A (zh) 2022-04-27 2022-04-27 基于改进ppo算法的双足机器人行走稳定性优化方法

Country Status (1)

Country Link
CN (1) CN114839878A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116592883A (zh) * 2023-04-25 2023-08-15 三峡大学 一种基于注意力和循环ppo实现的导航决策方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116592883A (zh) * 2023-04-25 2023-08-15 三峡大学 一种基于注意力和循环ppo实现的导航决策方法
CN116592883B (zh) * 2023-04-25 2024-04-30 三峡大学 一种基于注意力和循环ppo实现的导航决策方法

Similar Documents

Publication Publication Date Title
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110450156B (zh) 多自由度机械臂系统自适应模糊控制器的优化设计方法
CN111176116B (zh) 一种基于cpg模型的机器鱼闭环反馈控制方法
CN110806759A (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN109884900A (zh) 基于自适应模型预测控制的收获机路径跟踪控制器的设计方法
CN111428317B (zh) 一种基于5g和循环神经网络的关节摩擦力矩补偿方法
CN109605377B (zh) 一种基于强化学习的机器人关节运动控制方法及系统
CN112297005B (zh) 一种基于图神经网络强化学习的机器人自主控制方法
CN111552183B (zh) 一种基于自适应权重强化学习的六足机器人避障方法
CN109799829B (zh) 一种基于自组织映射的机器人群体协同主动感知方法
CN115416024A (zh) 一种力矩控制的机械臂自主轨迹规划方法和系统
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN111487863A (zh) 一种基于深度q神经网络的主动悬架强化学习控制方法
CN113110490A (zh) 基于改进的樽海鞘群算法的机器人多目标路径规划
CN110737195A (zh) 基于速度控制的双足机器人行走落脚点规划方法及装置
CN114839878A (zh) 基于改进ppo算法的双足机器人行走稳定性优化方法
Hong et al. Obstacle avoidance of hexapod robots using fuzzy Q-learning
CN109249393B (zh) 一种基于经验控制的多参数机器人实时行为校正方法
Liang et al. Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation
Fang et al. A maximum entropy inverse reinforcement learning algorithm for automatic parking
JP4630553B2 (ja) 動的制御装置および動的制御装置を用いた2足歩行移動体
CN113829351B (zh) 一种基于强化学习的移动机械臂的协同控制方法
CN114667852B (zh) 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法
CN114047697B (zh) 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination