CN110262511A - 基于深度强化学习的双足机器人自适应性行走控制方法 - Google Patents
基于深度强化学习的双足机器人自适应性行走控制方法 Download PDFInfo
- Publication number
- CN110262511A CN110262511A CN201910629037.3A CN201910629037A CN110262511A CN 110262511 A CN110262511 A CN 110262511A CN 201910629037 A CN201910629037 A CN 201910629037A CN 110262511 A CN110262511 A CN 110262511A
- Authority
- CN
- China
- Prior art keywords
- network
- biped robot
- adaptivity
- network model
- control method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000011551 heat transfer agent Substances 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 238000005457 optimization Methods 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005021 gait Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 235000019606 astringent taste Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009329 sexual behaviour Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/028—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using a RF signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于深度强化学习的双足机器人自适应性行走控制方法,包括以下步骤:步骤1)建立仿真平台;步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。与现有技术相比,本发明具有收敛速度快、拟合效果好、行走稳定性强等优点。
Description
技术领域
本发明涉及一种机器人控制方法,尤其是涉及一种基于深度强化学习的双足机器人自适应性行走控制方法。
背景技术
经过技术不断的发展和创新,双足机器人已经能够在已知的环境中,通过轨迹规划,或者轨迹示教等方法完成行走。但是相比于人类在未知环境下,能够自适应调整步态,穿越障碍,灵活运动,双足机器人的行走控制仍然存在许多需要改进和提高的地方。
在复杂环境中的双足机器人的自适应性行走控制存在以下几个难点:
1.步态多样。机器人在穿越复杂地形的时候需要产生很多种步态,经典的机器人行走控制算法例如多目标优化、梯度下降、遗传算法以及单层CPG无法满足机器人在多种地形状态的自适应性。大多数依赖轨迹预规划,以及落脚点调节等调制部分。
2.参数庞大。能够产生灵活步态的网络需要在庞大的参数空间中搜索到最优解,机器人行走的自适应性依赖所设计网络中的大量参数支撑。传统算法的参数寻优方式比如遗传算法、蚁群算法、策略梯度、多目标优化等算法计算量大,迭代缓慢,优化参数个数有限。
3.传感信息丰富。行走在实际环境中的机器人有图像、力学、关节角度、雷达测距等多种外界信息的输入,机器人需要依靠复杂环境下的传感信息决策。因此控制系统需要具有从复杂的输入信息提取出最有利于当下决策判断信息的能力。
策略梯度算法作为大规模强化学习中的经典算法,在游戏、围棋、路径规划等场景下得到了广泛的应用。但是机器人行走是一个当前状态和前序状态紧密相关,且对当前状态的建模依赖隐形传感信息的部分可观测马尔可夫过程。在这种情况下策略梯度算法例如RDPG、DDPG、Actor2Critic模型表现一般,甚至对于复杂输入无法收敛。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于深度强化学习的双足机器人自适应性行走控制方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度强化学习的双足机器人自适应性行走控制方法,包括以下步骤:
步骤1)建立仿真平台;
步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;
步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;
步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。
进一步地,所述步骤1)包括设置仿真平台的地形种类。
进一步地,所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。
进一步地,所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络,所述价值预测网络中引入注意力机制。
进一步地,所述价值预测网络中引入注意力机制具体为:
在传感信息层面引入用于区分双足机器人在可变环境中对传感信息的侧重程度的注意力机制;
在分批学习层面引入使双足机器人辨别和采集有学习价值的训练样本的注意力机制。
进一步地,所述网络模型为带有循环神经网络的网络结构。
进一步地,所述交互信息为一5元组,该5元组包括上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。
进一步地,训练网络模型时,从所述经历回放池中有优先级地采集设定批次的交互信息作为训练样本。
进一步地,该控制方法还包括:
在所述仿真平台对完成训练的网络模型进行评价,并根据评价结果调整网络模型。
与现有技术相比,本发明深度循环强化学习和注意力机制相结合,实现对双足机器人在复杂环境下自适应性行走的控制,收敛速度快、拟合效果好、行走稳定性强,具有如下有益效果:
第一,本发明基于深度强化学习进行机器人行走控制,深度强化学习具有强大的参数优化更新能力,不需要依赖机器人逆运动学对工作空间的位置姿态进行解码,实时性比较好。
第二,复杂的网络迭代基于优秀的平台例如google开发的tensorflow能够对非常复杂的网络进行基于梯度的自动化的参数搜索,参数搜索中梯度下降在平台上具有一系列可以选择的更新方式(SGD、Momentum、NesterovMomentum、AdaGrad等)。本发明在参数迭代的时候,引入了因为采样导致的梯度误差以及随着更新次数变化的学习率,很大程度上避免了局部最优解,训练过早结束,梯度消失,梯度爆炸,收敛性差等情况,使得网络在训练的过程中以最快的速度收敛。
第三,本发明利用强化学习的基于环境(env)和智能体(agent)的交互行为进行无监督学习。网络的训练样本来源于智能体与环境的“互动经历”,解决了样本来源问题,基于经历回放的学习训练网络,使得控制网络学习到能根据当前状态信息得到最优的动作的确定性策略,从而控制agent在env中取得最佳表现。
第四,本发明构建带有注意力机制的深度循环强化学习网络,经过预训练的网络自适应性好,可以在多种地形下成功控制机器人自主行走。机器人在未知环境的行走会遇到各种各样的障碍,而依赖外界传感器来调整步伐一般有一定的延迟。比如机器人的雷达传感器在t_n时刻雷达探测到前方即将有凹陷,实际上机器人将会需要在t_n+x时刻调大步伐的跨度。注意力机制就是通过学习过去时间的行走数据的采样,让神经网络通过价值网络预测出来的价值来对输入传感状态进行可变权重的加和。也就是说经过注意力机制后,一旦机器人的雷达传感器在t_n时刻雷达探测到凹陷,这个状态信息将会被赋予更大的权重,或者说更被注意,这样后续动作神经网络在决策的时候就会倾向于基于这个状态作出正确的决定。
第五,本发明耗费的时间和硬件资源较少,不需要依赖GPU的训练,在CPU上3个小时内即可训练完成。
附图说明
图1为双足机器人自适应性控制方法流程图;
图2为策略网络训练过程图;
图3为注意力机制引入示意图;
图4为优先级采集样本示意图;
图5为含有GRU的网络结构图;
图6为Critic网络结构中注意力机制示意图;
图7为引入链接注意力的预测价值函数网络结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明引入了强化学习方法。考虑到有监督的常见机器学习模型,以及依赖大规模神经网络构建的深度学习方法在机器人行走这个数据实时性比较高,而且前后时间状态互相依赖的场景下无法完成自适应控制。而依靠智能体(机器人)与环境交互数据信息训练得到强化学习模型在这个无监督场景下有得天独厚的优势,同时为了适应高维度数据空间的预测场景,在强化学习架构的基础上引入了大规模深度学习,使得预测得到的动作空间更适应多变的场景。
本发明提出的深度强化学习架构依靠注意力机制,循环神经网络很好的解决了策略梯度算法对于复杂输入无法收敛的问题。
如图1所示,本发明提供一种基于深度强化学习的双足机器人自适应性行走控制方法,包括以下步骤:
S1:设置仿真环境,建立仿真平台;
S2:构建基于引入注意力机制的深度强化学习方法的网络模型,包括网络模型超参数的配置和网络模型结构的设计;
S3:根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;
S4:在所述仿真平台对完成训练的网络模型进行评价,并根据评价结果调整网络模型的超参数和网络结构,利用完成训练的网络模型实现对双足机器人行走的自适应控制,具体是直接对仿真机器人的关节角度进行控制。
双足机器人在未知环境中行走问题可以由参数元组(S,A,P,p0,r,γ)所描述的POMDP(Partially Observable Markov Decision Processes,部分可观察Markov决策过程)模型来表示。其中S,A分别表示模型的状态空间和动作空间;P:S×A×S表示状态动作交替转移概率;p0,s0表示初始状态分布概率;r(st,at)是环境反馈给智能体的回报函数,表示基于当前状态并且基于当前的动作的reward;γ是衰减因子。从最初状态演化到最终状态的样本轨迹表示为τ:(s0,a1,s1,a2,…)。πω:S×A表示以参数ω的随机策略π。策略优化的目标是最大化累计回报价值,如下:
式中,βπ为随机策略π下的累计回报价值,t表示第t个时间步,Eτ表示求期望,r(st)表示基于当前状态的平均reward。
PPO(Proximal Policy Optimization,近端策略优化)算法通过保证优势函数单调不减,同时限制新旧策略KL散度小于δ0。损失函数Jt(ω)可表示为:
损失函数Jt(ω)一共包含三项损失,表示优势函数代理目标函数,表示价值函数平方损失,其中c1,c2是系数,c2s[π](st)是鼓励策略探索性行为的交叉熵损失增益。式(3)中,rt表示t时间步的回报,Aπ(t)表示t时间步优势函数,ε为裁剪阈值,Aπ为期望优势函数。式(4)中,表示两套参数下的价值函数网络。PPO算法通过最小化损失Jt(ω)来保证策略沿着价值函数单调不减的方向更新,同时策略变化幅度可控。
一、仿真平台
本发明设置基于mujoco仿真器的gym仿真平台,明确网络结构的状态传感信息以及输出的动作空间信息,例如机器人的状态信息包括位置,速度,角度以及外部的雷达信息;明确仿真平台路面的多变的地形种类:可以设置行走的路面包括障碍物,楼梯面,坡面,沟壑等多种地形。
二、超参数的配置
本发明设置的网络模型的超参数如表1所示,其中,τ是迭代因子,每次网络结构中参数更新的幅度;γ是衰减因子,λ是时间差分估计的衰减系数,c1,c2是系数,learningrate是学习速率,batch是每个批次训练的样本个数,time step是每个回合训练的总时间步。
表1
三、网络结构设计
本发明针对动作生成策略和价值函数生成策略分别设计了独立的网络结构。为了让算法在训练时方便记录和更新,针对动作生成策略网络,分别给新旧模型分配了参数空间,在代码中为action_new,action_old,策略表示为value_new。如2图所示,在根据样本完成前向反馈,得到最终损失函数以后,两个网络依次进行策略的训练和更新。
本发明采用的网络结构隶属于大规模深度强化学习中对于学习时序样本拟合能力较强的RDPG(recurrent deep policy gradient,循环确定性策略梯度)模型。该架构基于actor-critic算法机制,Actor神经网络(即动作预测网络)用于学习当前状态到动作空间的一个映射a=λ(s),Critic神经网络(即价值预测网络)用于拟合基于当前的状态,采取下一步动作后,agent能获得的反馈。为了提高网络的收敛性,actor和critic都具有目标网络tar和评估网络eval,样本来自与以Actor_eval网络为指导agent和环境的交互信息,以Tar网络产生的输出作为模板训练的梯度来更新Eval网络。
带有门电路的RNN探索和利用了非独立同分布的样本之间的时序关系,提高了POMDP问题中基于非完全观测状态对目标输出的拟合程度。确定性策略领域中的RDPG在POMDP问题上的表现也优于不含有RNN的DDPG。基于此,为了减少优势函数引入的偏差,精确估计基于部分可观测状态下获得的价值函数,本发明考虑在真实状态估计阶段将循环神经网络引入PPO(Proximal Policy Optimization,近端策略优化)算法,分别建立状态到动作采样空间的网络结构和状态信息到价值函数的网络结构,如图5所示。其中,GRU是循环神经网络子单元的遗忘门。
假设经过网络的前半部分全链接层对输入状态完成了映射h代表神经元基于s的隐藏单元。选取对长时间依赖关系具有强记忆能力的GRU神经单元,构建单向循环神经网络,用来拟合与线性单向神经网络不同,循环神经网络建立了带有过去时间步的映射具体函数关系表达式如下:
其中,zt、xt是循环神经网络子单元的遗忘门,ut是中间单元。⊙表示矩阵元素对应相乘,δ、φ、ω、b依次表示激活函数relu、激活函数tanh、参数矩阵和偏移值。
本发明在价值预测网络中引入了注意力机制(Attention机制),以捕获长距离的信息状态关系,具体是在价值预测网络中引入注意力机制。Actor和Critic的构建采用长短期记忆网络,提高了网络对时序样本的学习能力。Attention机制的引入主要是在传感信息层面state level和样本的分批学习层面batch level。对state level的attention机制是为了区分机器人在可变环境中对传感信息的侧重程度,从而提高机器人在复杂环境下的自适应性。而batch level的attention机制是为了让智能体侧重对未来决策影响比较大的样本信息,是在数据预处理筛选出来的有训练价值样本的进一步有选择的关注到不同的样本上,从而加快学习速度,提高算法的收敛性,如图3所示,图中公式表示动作预测网络和价值预测网络这两个网络的更新方式。
循环神经网络为时序样本建立的依赖关系随着时间间隔增大而逐渐衰减。考虑到t时刻的价值函数对之前t-x步的状态信息的依赖关系并不是简单的指数衰减,例如机器人在t时刻的摔倒是因为t-x时刻看到的障碍却没有及时作出反应。为了拟合不同时间步的状态信息对后续价值函数的可变权重依赖,在预测价值函数网络qωv的state level和batchlevel分别引入注意力机制,获得带有预输出注意力信息后的状态信息高维表示。目前attention的基本结构包括concat attention、bilinear attention、dot attention、minus-attention等,选择合适的attention结构才有好的性能,因此需要设计不同的对比实验,必要的情况下需要对attention的结构有所调整。
在预测网络中经过GRU输出的状态信息和价值函数的预输出值分别表示如下:
其中,表示经过GRU结构得到的第t步初始状态表示,表示对应第t步隐含状态的价值函数预测,fq-forward()、fq-behind()分别表示前向函数和反向函数。下标t∈(1,T)代表一共T个时间步的样本。如图7所示:第t步的状态要经过一步注意力计算表示为再经过GRU得到最终输出注意力机制采用链接注意力(concat attention)的形式,和之间的互注意力计算过程可表示为:
上式中,下标j表示第j个时间步,表示指数函数。为了避免t时刻的值函数注意到t时刻之后的状态信息,限定公式中t∈(1,j)以及j∈(1,T)。其中表示j时刻的价值函数与t时刻的状态的关联性,采取了加权点乘计算相关性。对进行softmax操作得到归一化的注意力权重分布利用加权求和得到经过注意力计算新的状态信息表示
四、网络模型的训练
本发明的网络模型基于双足机器人在仿真平台的环境中的交互信息进行训练。记录双足机器人在未知环境中行走的交互信息,以transition的形式记录对每个时间步记录一个5元组(st-1,at-1,st,r,done),分别是上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。经过一段时间的transition样本(Transition(s,a,s’,r,q))存储到经历回放池(replay buffer)中。
在训练的过程中,从经历回放池有优先级的采样出一定批次的样本对网络模型进行一定的训练和迭代更新。在训练过程中,针对每一回合的训练轨迹,不同子序列的累计回报存在差异。为了尽快让算法收敛,采样子序列时,依据对单个子序列的累计回报值对样本的重要性进行评估,根据重要性对多个回合的子序列按照优先级采样。训练数据的生成如图4所示。
根据被控对象的动作空间的维度,设定合理的训练回合数,记录并追踪训练过程中累计回合回报表现,一旦回合表现达到较高的水平且能够保持稳定,中止训练,否则直到设定的训练回合数的上限。
如图5所示为带有GRU的网络结构的训练过程。图中,方向从左至右的黑色箭头表示网络的正向传播,方向从右至左的红色箭头表示网络的反向传播;T timesteps表示一个样本有T个状态;N samples表示一个批次有N个样本;Dense-u、Dense-q分别表示动作预测网络和价值预测网络;等表示网络中的隐状态;圆圈GRU表示表示一个循环神经网络单元;ai表示对一个样本的一个状态预测的对应的动作,qi表示对一个样本的一个状态预测的对应的价值;ri表示智能体采取了动作ai的话,环境的相应反应。lsum表示网络训练的总损失sum loss,ladv、lvf、lce是分损失。
本实施例中,具体选择了基于mujoco仿真器的gym仿真平台,选取了四个典型的双足仿真机器人BipedalWalker-v2、BipedalWalkerHardcore-v2、Humanoid-v2和Walker2d-v2。所有的仿真实验在CPU上完成。机器人的状态信息包括位置,速度,角度以及外部的雷达信息。以上三个仿真机器人中BipedalWalkerHardcore-v2的状态信息含有外部雷达传感信息,且行走的路面包括障碍物,楼梯面,坡面,沟壑等多种地形。
为了方便计算新旧策略之间的优势函数,算法在训练过程中需要维持更新两套参数:训练网络参数ωa和实时网络参数ωa'。ωv代表对新策略的价值函数预测网络参数。计算出算法定义的损失函数后,直接基于梯度更新训练网络参数ωa,ωv。定义迭代因子τ,按照迭代速度不断更新实时网络参数ωa'。设经历回放池为R,采样得到的批量样本为S,训练的总回合数为M。网络训练的流程如下所示:
五、网络模型的应用与更新
存储训练好的网络模型,初始化机器人所处的位置以及姿态,每个时间步都将传感信息输入到网络模型里面,得到网络预测的动作空间采样分布,以此得到对应每个时间步的关节角度具体的弯曲大小,从而实现对机器人的自适应性控制。
通过观察双足机器人在仿真平台的行走表现以及累计回合回报水平来评判算法是否已经收敛,可以通过微调网络模型结构或者超参数来提升模型的表现水平。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,包括以下步骤:
步骤1)建立仿真平台;
步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;
步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;
步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。
2.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述步骤1)包括设置仿真平台的地形种类。
3.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。
4.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络,且价值预测网络中引入注意力机制。
5.根据权利要求4所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述价值预测网络中引入注意力机制具体为:
在传感信息层面引入用于区分双足机器人在可变环境中对传感信息的侧重程度的注意力机制;
在分批学习层面引入使双足机器人辨别和采集有学习价值的训练样本的注意力机制。
6.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述网络模型为带有循环神经网络的网络结构。
7.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述交互信息为一5元组,该5元组包括上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。
8.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,训练网络模型时,从所述经历回放池中有优先级地采集设定批次的交互信息作为训练样本。
9.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,还包括:
在所述仿真平台对完成训练的网络模型进行评价,并根据评价结果调整网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629037.3A CN110262511B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629037.3A CN110262511B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110262511A true CN110262511A (zh) | 2019-09-20 |
CN110262511B CN110262511B (zh) | 2022-08-09 |
Family
ID=67925893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910629037.3A Active CN110262511B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110262511B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
CN111123945A (zh) * | 2019-12-30 | 2020-05-08 | 同济大学 | 一种基于混合控制的双足机器人步态轨迹生成方法及应用 |
CN111612162A (zh) * | 2020-06-02 | 2020-09-01 | 中国人民解放军军事科学院国防科技创新研究院 | 一种强化学习方法、装置、电子设备及存储介质 |
CN112060075A (zh) * | 2020-07-21 | 2020-12-11 | 深圳先进技术研究院 | 步态生成网络的训练方法、训练设备以及存储介质 |
CN112147892A (zh) * | 2020-09-08 | 2020-12-29 | 东南大学 | 一种针对多质量块弹簧阻尼器一致性控制的算法 |
CN112782973A (zh) * | 2019-11-07 | 2021-05-11 | 四川省桑瑞光辉标识系统股份有限公司 | 基于双智能体协作博弈的双足机器人行走控制方法和系统 |
CN112904890A (zh) * | 2021-01-15 | 2021-06-04 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检系统及方法 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN113159430A (zh) * | 2021-04-27 | 2021-07-23 | 广东电网有限责任公司清远供电局 | 一种路线规划方法、装置、设备及存储介质 |
CN113156925A (zh) * | 2020-01-07 | 2021-07-23 | 四川省桑瑞光辉标识系统股份有限公司 | 一种基于对抗网络的双足机器人行走控制方法及电子设备 |
CN113377116A (zh) * | 2021-07-14 | 2021-09-10 | 乐聚(深圳)机器人技术有限公司 | 机器人的步态规划方法、装置、处理设备及介质 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113503885A (zh) * | 2021-04-30 | 2021-10-15 | 山东师范大学 | 一种基于采样优化ddpg算法的机器人路径导航方法及系统 |
CN113741464A (zh) * | 2021-09-07 | 2021-12-03 | 电子科技大学 | 一种基于时空数据强化学习的自动驾驶速度控制框架 |
CN114469000A (zh) * | 2022-01-27 | 2022-05-13 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
CN114684293A (zh) * | 2020-12-28 | 2022-07-01 | 成都启源西普科技有限公司 | 一种机器人行走仿真算法 |
CN114839884A (zh) * | 2022-07-05 | 2022-08-02 | 山东大学 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
CN113269315B (zh) * | 2021-06-29 | 2024-04-02 | 安徽寒武纪信息科技有限公司 | 利用深度强化学习执行任务的设备、方法及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388348A (zh) * | 2018-03-19 | 2018-08-10 | 浙江大学 | 一种基于深度学习和注意力机制的肌电信号手势识别方法 |
US20180348716A1 (en) * | 2017-05-30 | 2018-12-06 | Xerox Corporation | Non-markovian control with gated end-to-end memory policy networks |
CN109101712A (zh) * | 2018-07-27 | 2018-12-28 | 石家庄创天电子科技有限公司 | 基于图网络的产品模型设计系统及方法 |
CN109416257A (zh) * | 2016-06-27 | 2019-03-01 | 御眼视觉技术有限公司 | 基于检测到的停放车辆特性控制主车辆 |
WO2019115200A1 (en) * | 2017-12-11 | 2019-06-20 | Koninklijke Philips N.V. | System and method for efficient ensembling of natural language inference |
CN109948783A (zh) * | 2019-03-29 | 2019-06-28 | 中国石油大学(华东) | 一种基于注意力机制的网络结构优化方法 |
-
2019
- 2019-07-12 CN CN201910629037.3A patent/CN110262511B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109416257A (zh) * | 2016-06-27 | 2019-03-01 | 御眼视觉技术有限公司 | 基于检测到的停放车辆特性控制主车辆 |
US20180348716A1 (en) * | 2017-05-30 | 2018-12-06 | Xerox Corporation | Non-markovian control with gated end-to-end memory policy networks |
WO2019115200A1 (en) * | 2017-12-11 | 2019-06-20 | Koninklijke Philips N.V. | System and method for efficient ensembling of natural language inference |
CN108388348A (zh) * | 2018-03-19 | 2018-08-10 | 浙江大学 | 一种基于深度学习和注意力机制的肌电信号手势识别方法 |
CN109101712A (zh) * | 2018-07-27 | 2018-12-28 | 石家庄创天电子科技有限公司 | 基于图网络的产品模型设计系统及方法 |
CN109948783A (zh) * | 2019-03-29 | 2019-06-28 | 中国石油大学(华东) | 一种基于注意力机制的网络结构优化方法 |
Non-Patent Citations (6)
Title |
---|
CHANGAN CHEN 等: "《Crowd-Robot_Interaction_Crowd-Aware_Robot_Navigation_With_Attention-Based_Deep_Reinforcement_Learning》", 《2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 * |
WENQI LI 等: "《Robot_Patrol_Path_Planning_Based_on_Combined_Deep_Reinforcement_Learning》", 《IEEE》 * |
YOSHIHISA TSURUMINE 等: "《Deep reinforcement learning with smooth policy update Application to robotic cloth manipulation》", 《ROBOTICS AND AUTONOMOUS SYSTEMS》 * |
刘全 等: "《一种基于视觉注意力机制的深度循环Q网络模型》", 《计算机学报》 * |
刘全 等: "《深度强化学习综述》", 《计算机学报》 * |
马璐 等: "《基于AM-RPPO 的双足机器人适应性行走控制算法》", 《机器人》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110632931B (zh) * | 2019-10-09 | 2022-06-21 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN112782973A (zh) * | 2019-11-07 | 2021-05-11 | 四川省桑瑞光辉标识系统股份有限公司 | 基于双智能体协作博弈的双足机器人行走控制方法和系统 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN110956148B (zh) * | 2019-12-05 | 2024-01-23 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
CN111123945A (zh) * | 2019-12-30 | 2020-05-08 | 同济大学 | 一种基于混合控制的双足机器人步态轨迹生成方法及应用 |
CN113156925B (zh) * | 2020-01-07 | 2022-11-29 | 四川省桑瑞光辉标识系统股份有限公司 | 一种基于对抗网络的双足机器人行走控制方法及电子设备 |
CN113156925A (zh) * | 2020-01-07 | 2021-07-23 | 四川省桑瑞光辉标识系统股份有限公司 | 一种基于对抗网络的双足机器人行走控制方法及电子设备 |
CN111612162A (zh) * | 2020-06-02 | 2020-09-01 | 中国人民解放军军事科学院国防科技创新研究院 | 一种强化学习方法、装置、电子设备及存储介质 |
CN112060075A (zh) * | 2020-07-21 | 2020-12-11 | 深圳先进技术研究院 | 步态生成网络的训练方法、训练设备以及存储介质 |
CN112147892A (zh) * | 2020-09-08 | 2020-12-29 | 东南大学 | 一种针对多质量块弹簧阻尼器一致性控制的算法 |
CN112147892B (zh) * | 2020-09-08 | 2022-06-10 | 东南大学 | 一种针对多质量块弹簧阻尼器一致性控制的算法 |
CN114684293A (zh) * | 2020-12-28 | 2022-07-01 | 成都启源西普科技有限公司 | 一种机器人行走仿真算法 |
CN112904890A (zh) * | 2021-01-15 | 2021-06-04 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检系统及方法 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113031528B (zh) * | 2021-02-25 | 2022-03-15 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法 |
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN113159430A (zh) * | 2021-04-27 | 2021-07-23 | 广东电网有限责任公司清远供电局 | 一种路线规划方法、装置、设备及存储介质 |
CN113503885A (zh) * | 2021-04-30 | 2021-10-15 | 山东师范大学 | 一种基于采样优化ddpg算法的机器人路径导航方法及系统 |
CN113503885B (zh) * | 2021-04-30 | 2024-02-20 | 山东师范大学 | 一种基于采样优化ddpg算法的机器人路径导航方法及系统 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113395723B (zh) * | 2021-06-11 | 2022-08-09 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113269315B (zh) * | 2021-06-29 | 2024-04-02 | 安徽寒武纪信息科技有限公司 | 利用深度强化学习执行任务的设备、方法及可读存储介质 |
CN113377116A (zh) * | 2021-07-14 | 2021-09-10 | 乐聚(深圳)机器人技术有限公司 | 机器人的步态规划方法、装置、处理设备及介质 |
CN113741464A (zh) * | 2021-09-07 | 2021-12-03 | 电子科技大学 | 一种基于时空数据强化学习的自动驾驶速度控制框架 |
CN114469000A (zh) * | 2022-01-27 | 2022-05-13 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
CN114469000B (zh) * | 2022-01-27 | 2023-08-11 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
CN114839884B (zh) * | 2022-07-05 | 2022-09-30 | 山东大学 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
CN114839884A (zh) * | 2022-07-05 | 2022-08-02 | 山东大学 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110262511B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110262511A (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
Er et al. | Obstacle avoidance of a mobile robot using hybrid learning approach | |
CN105700526B (zh) | 具有自主学习能力的在线序列极限学习机方法 | |
CN109816095A (zh) | 基于改进门控循环神经网络的网络流量预测方法 | |
CN110490035A (zh) | 人体骨架动作识别方法、系统及介质 | |
CN113189983B (zh) | 一种面向开放场景的多机器人协同多目标采样方法 | |
Huang et al. | Connecting model-based and model-free control with emotion modulation in learning systems | |
CN117454124A (zh) | 一种基于深度学习的船舶运动预测方法及系统 | |
Belmonte-Baeza et al. | Meta reinforcement learning for optimal design of legged robots | |
CN115731724A (zh) | 一种基于强化学习的区域交通信号配时方法及系统 | |
CN116147627A (zh) | 一种结合深度强化学习和内在动机的移动机器人自主导航方法 | |
US11911902B2 (en) | Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN | |
Gumbsch et al. | Developing hierarchical anticipations via neural network-based event segmentation | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
Hilleli et al. | Toward deep reinforcement learning without a simulator: An autonomous steering example | |
Modayil et al. | Acquiring a broad range of empirical knowledge in real time by temporal-difference learning | |
Zintgraf | Fast adaptation via meta reinforcement learning | |
Pierris et al. | Learning robot control using a hierarchical som-based encoding | |
Heravi | Learning representations in reinforcement learning | |
Gao | Soft computing methods for control and instrumentation | |
Hilleli et al. | Deep learning of robotic tasks without a simulator using strong and weak human supervision | |
Uchibe | Cooperative behavior acquisition by learning and evolution in a multi-agent environment for mobile robots | |
Hu et al. | Hybrid learning architecture for fuzzy control of quadruped walking robots | |
Ji et al. | Research on Path Planning of Mobile Robot Based on Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Ma Lu Inventor before: Liu Chengju Inventor before: Ma Lu |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |