CN110919659A - 一种基于ddgpes的机器人控制方法 - Google Patents

一种基于ddgpes的机器人控制方法 Download PDF

Info

Publication number
CN110919659A
CN110919659A CN201911351334.2A CN201911351334A CN110919659A CN 110919659 A CN110919659 A CN 110919659A CN 201911351334 A CN201911351334 A CN 201911351334A CN 110919659 A CN110919659 A CN 110919659A
Authority
CN
China
Prior art keywords
state
strategy
agent
action
epsilon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911351334.2A
Other languages
English (en)
Inventor
王红滨
原明旗
何鸣
张耘
周连科
王念滨
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911351334.2A priority Critical patent/CN110919659A/zh
Publication of CN110919659A publication Critical patent/CN110919659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于DDGPES的机器人控制方法,涉及一种机器人的控制方法,属于控制领域。本发明是为了解决现有的机器人控制方法中存在策略参数调整和均匀采样“无效”动作问题,以及Agent容易陷入局部最优的问题。本发明将机器人的控制决策系统记为智能体Agent;针对Agent,利用DQN网络进行决策,进而实现机器人进行控制。DQN网络应用中,结合DDES策略和GPES策略,GPES策略通过计算difference的值,根据Agent学习的过程动态的调整ε‑greedy策略中的ε参数,以1‑ε的概率执行argmaxa∈A Q(s,ai)动作,Agent以ε的概率进行探索。同时,采用DDES探索利用策略确定损失函数LD=L‑Eπ′∈Π′[αD(π,π′)]。主要用于机器人的控制。

Description

一种基于DDGPES的机器人控制方法
技术领域
本发明涉及一种机器人的控制方法,属于控制领域。
背景技术
随着计算机图形技术、网络技术和人机交互技术的发展,视频游戏的研究也进入到了一个全新的阶段。近年来,DRL(Deep Reinforcement Learning)在机器人导航、指挥决策、视频游戏等多个应用领域受到关注。随着机器人技术的发展,将DRL应用于机器人(或智能体Agent)的控制也取得了一定的成果,但是将DRL应用于于机器人时,现有的基于深度学习的控制中,深度强化学习在选择何种行动策略时,不可避免地会遇到强化学习的难点之一,即探索与利用的平衡策略。目前主流深度强化学习算法中用于解决此问题的方法ε-greedy策略,因实现简单,可以在一定程度上平衡探索利用的问题而被广泛使用。
ε-greedy策略具体如下所示:
Figure BDA0002334739690000011
其中rand是随机数。ε-greedy策略的原理是:按概率1-ε选取Q值中最大的动作并执行。然而,在这些等概率的动作中往往存在“坏”动作,即:有些动作对算法的训练是无效的甚至延缓算法的收敛,会增加Agent到达目标点的代价的问题。同时,ε值在训练初期接近1,同时随着Agent不断探索对环境不断学习,ε值需要不断手动设置减小,对于动态的学习过程,不能实时的根据Agent的学习过程调整ε的值,其探索与利用问题仍然存在,在一定程度上将会影响算法的学习速率和效率。
同时,对于欺骗性的局部最优值或稀疏奖励信号的复杂环境,探索仍然是一个主要的挑战。在具有欺骗性报酬的环境中,代理可能陷入局部最优,并且永远不会发现其他策略来寻找更大的报酬。例如,在MuJoCo的HalfCheetah中,agent很快学会了翻转,然后“摇摆”前进,这是次优策略。此外,只有稀疏奖励的环境提供的训练信号很少,使得agent很难发现可行的策略。
发明内容
本发明是为了解决现有的机器人控制方法中存在策略参数调整和均匀采样“无效”动作问题,以及Agent容易陷入局部最优的问题。
一种基于DDGPES的机器人控制方法,具体包括以下步骤:
将机器人的控制决策系统记为智能体Agent;
针对Agent,利用DQN网络进行决策,进而实现机器人进行控制;
DQN网络中,采用DDES探索利用策略确定损失函数LD
LD=L-Eπ′∈Π′[αD(π,π′)]
其中,L表示为DRL算法中用于更新当前策略网络的损失函数;π是Agent当前的策略,π′是有限策略集合Π′的一个样本,D(π,π′)是π和π′之间的度量距离,α是D的比例因子,E[·]表示期望,Eπ′∈Π′[·]表示π′∈Π′条件下对应的E[·];
在利用DQN网络进行决策时,使用波尔茲曼策略选择行动,包括以下步骤:
生成随机数,判断随机数与概率ε的大小;
当随机数大于等于概率ε时,计算
Figure BDA0002334739690000021
并判断是否达到目标状态;其中,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望值;ai表示当前状态s下所有可以选择的动作,i=1,2,3…;A为当前状态s下所有可以选择的动作的集合;
所述概率ε为ε-greedy策略中ε参数,具体为
Figure BDA0002334739690000022
其中,D为环比增长率,difference=Qmaxt(s,ai)-Qmaxt-1(s,ai),Qmaxt(s,ai)为状态动作对(s,ai)当前时间步下的最大收益的期望值,Qmaxt-1(s,ai)为状态动作对(s,ai)上一时间步对应的最大收益的期望值;
否则,计算
Figure BDA0002334739690000023
根据p(s,ai)执行动作;然后判断是否达到目标状态,并更新difference。
有益效果:
利用本发明对机器人进行控制时,由于本发明将GPES策略和GPES策略相结合进行优势互补,DDES策略通过计算difference=Qmaxt(s,ai)-Qmaxt-1(s,ai)的值,根据Agent学习的过程动态的调整ε-greedy策略中的ε参数,以1-ε的概率执行argmaxa∈A Q(s,ai)动作,Agent以ε的概率进行探索,为了防止“坏”动作影响算法的学习速率和效率,GPES策略改变传统等概率探索的做法,而是计算该状态下每个动作的Q值在所有动作Q值加和的概率,进行动作的选择。DDES策略是在计算损失函数阶段,通过优化策略网络参数θ的过程中,根据当前策略π与之前策略π′之间的KL-divergence距离通过影响损失函数,进而影响反向梯度更新θ来激励Agent在与环境交互的过程中不断探索,解决深度强化学习在欺骗性的局部最优值或稀疏奖励信号的复杂环境中训练速度慢,容易陷入局部最优的问题。
附图说明
图1为DDGPES的网络结构示意图;
图2为GPES探索利用策略流程图;
图3为SOBTPER-DDGPES网络结构示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
本实施方式为一种基于DDGPES的机器人控制方法,DDGPES即基于多样性驱动和贪婪波尔茲曼的探索策略(Based on Diversity-Driven and Greedy Poltzman'sExploration Strategy,简写为DDGPES),具体包括以下步骤:
将机器人的控制决策系统记为智能体Agent;
针对Agent,利用DQN进行决策,进而实现机器人进行控制;
在深度强化学习中,Agent对于外界环境是未知的,所以Agent必须通过探索来获取相关的环境知识,过分的探索会影响强化学习的收敛速度,而过分利用会使强化学习容易陷入局部最优解,有效的探索仍然是一个具有挑战性的研究问题,特别是当Agent处于欺骗性的或稀疏的奖赏环境中时。为了解决这一问题,本发明提出了一种多样性驱动的探索利用策略(Diversity-Driven Exploration Strategy,简写为DDES探索利用策略),主要特点是在原始DRL算法的损失函数基础上减去KL-divergence距离,其目的是鼓励DRL中的Agent在训练的过程中尝试采取与以前的策略所不同的策略,对于激励Agent训练过程中探测出更丰富的状态集是一种有效的方法,该方法可以显著地增强Agent对环境的搜索行为,从而避免了陷入局部最优的策略。
DDES探索利用策略的实现是基于修改损失函数L来实现,DDES探索利用策略的损失函数LD公式如下:
LD=L-Eπ′∈Π′[αD(π,π′)] (1)
其中,L=Es,a,r,s′[(y-Q(s,a;θ))2]表示原始DRL算法中用于更新当前策略网络的损失函数,s为机器人的状态,a为机器人的动作,θ为网络参数,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望;y是DQN中利用target策略网络μ′和target Q网络Q′得到的计算结果;r为奖励值,s′为转移后的状态,E[·]表示期望,Es,a,r,s′[·]为s,a,r,s′条件下对应的E[·];
π是Agent当前的策略,π′是有限策略集合Π′的一个样本,D是π和π′之间的度量距离,α是D的比例因子,Eπ′∈Π′[·]表示π′∈Π′条件下对应的E[·]。公式中第二项鼓励Agent向各个梯度方向更新策略π,以至于π与策略集合Π′中的策略样本是发散的。
原始DQN算法及其变体算法是通过损失函数L不断迭代更新当前策略网络,本发明在此基础上引入Eπ′∈Π′[αD(π,π′)],π′和π分布越相似,Eπ′∈Π′[αD(π,π′)]的值越小,LD的值越大,说明当前策略π需要反向梯度调整的幅度越大;当前策略π与最近策略π′分布差异越大,LD的值越小,说明当前π正在不断探索新的策略,需要反向梯度小幅度调整。
公式(1)提供了如下几个对Agent与环境交互过程中非常有利的性质。
(1)它会驱使Agent主动尝试新策略,增加访问新状态的机会,即使没有从环境ε中获取奖励信号。这个特征属性在稀疏奖励的环境中是特别有用的。
(2)通过修改代理的当前策略π,度量距离D可以激发探索,而不是随机改变Agent其行为。
(3)在训练阶段,它允许Agent执行贪婪策略或随机策略进行有效的探索。对于greedy策略,由于D需要Agent每次更新后来调整π,对于一个状态的greedy动作可能会相应的发生变化,潜在地指示代理探索未知的状态。这个特征属性也确保Agent在熟悉的状态始终如一的执行动作,因为π和π′对于那些状态有相同的输出结果。
DDES探索利用策略的实现需要将过去的Q-values(表示为Q′(s,a))存储在经验回放池中,用softmax函数来表示Q-values,如下所示:
Figure BDA0002334739690000041
Figure BDA0002334739690000042
公式(1)中的度量距离使用KL-divergence距离,可以用DKL表示。KL-divergence距离(相对熵)是对两个概率分布间差异的非对称性度量。其中,参与计算的一个概率分布为真实分布,另一个分布为理论(拟合)分布,相对熵表示在理论分布与真实分布拟合的过程中产生的信息损耗。设P(x)与Q(x)分别表示离散随机变量X上的概率分布,相对熵的为:
Figure BDA0002334739690000043
因此,本发明结合上述相对熵和softmax表示的Q-values可以对公式(1)中的D和π、π′进行替代,过程如下所示:
LD=L-Eπ′∈Π′[αD(π,π′)] (5)
Figure BDA0002334739690000051
针对上述ε-greedy策略的两个问题,本发明还提出了贪婪波尔茲曼探索利用策略(Greedy Poltzman's Exploration Strategy,简写为GPES探索利用策略),GPES探索利用策略流程图如图2所示,该策略在ε-greedy策略的基础上进行了两处创新,首先,本发明提出以Agent在各状态下的学习状况为依据,对参数进行自适应调整,解决ε参数根据运行时间或运行的帧数设置无法根据Agent运行的状态动态调整的问题;针对ε-greedy策略中,Agent以概率ε等概率探索“坏”动作会增加学习者到达目标点的代价问题,本发明采用了波尔茲曼策略,该策略对Agent所处状态下的所有动作的Q(s,ai)值进行判断,最后选择概率p(s,ai),使Agent在探索的过程中有目的、有针对的进行探索,保证Agent优先探索价值大的动作的同时,也保证了探索的多样性,减少低价值探索的可能。其中ε-greedy策略为全局的选择策略,玻尔兹曼为局部的选择策略,过程如下:
Figure BDA0002334739690000052
其中,ai表示当前状态St下所有可以选择的动作,i=1,2,3…。p(s,ai)代表选择动作ai的概率,即通过对各个动作ai对应的Q(s,ai),按照p(s,ai)进行动作选择。
difference用来分类Agent在各个状态下的学习状况,该值状态动作对(s,ai)当前时间步下的最大收益的期望值Qmaxt(s,ai)与(s,ai)上一时间步对应的最大收益的期望值Qmaxt-1(s,ai)的差值构成,具体如下所示:
difference=Qmaxt(s,ai)-Qmaxt-1(s,ai) (8)
本发明将状态学习状况分为三种情况,具体如下所示:
(1)当difference=0,说明Agent当前学习策略已经收敛或者上一个时间步所执行的动作并不是最好的选择。无论属于哪种情况,此刻Agent应该侧重保持探索的状态;
(2)当difference<0,说明上一个时间步,Agent根据行动策略选择的动作是“坏”的或者选择的动作当前对学习策略无贡献,所以当前时间步的动作应该侧重利用现有“经验知识”来摆脱这种困境;
(3)当difference>0,说明上一个时间步,Agent根据策略选择的动作是“好”的,此时本发明使用环比增长率D判断difference增长情况,若D值比较大,说明Agent在此状态并没有收敛,需要侧重探索,反之,侧重使用学习到的策略。
综上所述,参数ε的调整表达式如所示:
Figure BDA0002334739690000061
本发明将DDES和GPES相结合,提出了混合的探索利用策略,即:基于多样性驱动和贪婪波尔茲曼的探索策略(Based on Diversity-Driven and Greedy Poltzman'sExploration Strategy,简写为DDGPES探索利用策略)。
该策略在Agent与环境进行交互的过程中,将DDES策略和GPES策略相结合进行优势互补,GPES策略通过计算difference=Qmaxt(s,ai)-Qmaxt-1(s,ai)的值,根据Agent学习的过程动态的调整ε-greedy策略中的ε参数,以1-ε的概率执行argmaxa∈A Q(s,ai)动作,Agent以ε的概率进行探索,为了防止“坏”动作影响算法的学习速率和效率,GPES策略改变传统等概率探索的做法,而是计算该状态下每个动作的Q值在所有动作Q值加和的概率,进行动作的选择。DDES策略是在计算损失函数阶段,通过优化策略网络参数θ的过程中,根据当前策略π与之前策略π′之间的KL-divergence距离通过影响损失函数,进而影响反向梯度更新θ来激励Agent在与环境交互的过程中不断探索,解决深度强化学习在欺骗性的局部最优值或稀疏奖励信号的复杂环境中训练速度慢,容易陷入局部最优的问题。π和π′中可执行动作Q值分布越相似,说明π执行的策略越接近学习到的策略,KL-divergence距离越小,LD的值越大,反向梯度调整当前的策略幅度越大,激励算法不断探索新的状态;相反,π和π′中可执行动作Q值分布差别越大,说明π执行的策略是不断探索的新的策略,KL-divergence距离越大,LD的值越小,反向梯度调整当前的策略幅度越小,激励算法保持探索新的状态。
实施例
结合图3说明本实施例,利用本发明对机器人进行控制,具体过程包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
Figure BDA0002334739690000071
初始化临时经验回放池
Figure BDA0002334739690000076
为空,并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略GPES选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为
Figure BDA0002334739690000072
Figure BDA0002334739690000073
代表第m个样本数据的优先级;
探索利用策略GPES选择Agent执行的动作Am的过程如下:
生成随机数,判断随机数与概率ε的大小;
当随机数大于等于概率ε时,计算argmaxai∈AQ(s,ai),并判断是否达到目标状态;其中,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望值;ai表示当前状态s下所有可以选择的动作,i=1,2,3…;A为当前状态s下所有可以选择的动作的集合;
所述概率ε为ε-greedy策略中ε参数,具体为
Figure BDA0002334739690000074
其中,D为环比增长率,difference=Qmaxt(s,ai)-Qmaxt-1(s,ai),Qmaxt(s,ai)为状态动作对(s,ai)当前时间步下的最大收益的期望值,Qmaxt-1(s,ai)为状态动作对(s,ai)上一时间步对应的最大收益的期望值;
否则,计算
Figure BDA0002334739690000075
根据p(s,ai)执行动作;然后判断是否达到目标状态,并更新difference。
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;具体过程为:
经验回放池E中第j个样本序列lj的累计奖赏值Gj为:
Figure BDA0002334739690000081
其中:γ为折扣因子,T′为第j个样本序列lj中的样本数据总个数;
经验回放池E中第j个样本序列lj的优先级pj为:
pj=Gj
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;具体过程为:
第j个样本序列lj被采样的概率P(j)为:
Figure BDA0002334739690000082
其中:pk′代表第k′个样本序列lk′的优先级,M代表经验回放池E中样本序列的总个数,α代表比例系数;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池
Figure BDA0002334739690000083
中,得到临时经验回放池
Figure BDA0002334739690000084
中含有的样本数据的个数
Figure BDA0002334739690000085
临时经验回放池
Figure BDA0002334739690000086
中每个样本数据的采样概率,具体过程为:
临时经验回放池
Figure BDA0002334739690000087
中第e个样本数据的采样概率
Figure BDA0002334739690000088
为:
Figure BDA0002334739690000089
其中:
Figure BDA00023347396900000810
为第e个样本数据的优先级,
Figure BDA00023347396900000811
Figure BDA00023347396900000812
为第n个样本数据的优先级,α为常数,α的取值为[0,1]。
步骤八、计算步骤七临时经验回放池
Figure BDA00023347396900000813
中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池
Figure BDA00023347396900000814
Figure BDA00023347396900000815
个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池
Figure BDA00023347396900000816
中的样本序列中的位置,进行反向更新优先级;具体过程为:
对于抽取出的k个样本数据中的任意一个样本数据,若该样本数据是所在样本序列中的第i个样本数据,则该样本数据的优先级会向前以衰减的形式传播;
该样本数据所在样本序列中的第i-1个样本数据的优先级pi-1为:
pi-1=max{pi·ρ1,pi-1}
其中:pi为该样本数据的优先级,pi-1为第i-1个样本数据的原优先级,ρ为衰减因子;
该样本数据所在样本序列中的第i-2个样本数据的优先级pi-2为:
pi-2=max{pi·ρ2,pi-2}
其中:pi-2为第i-2个样本数据的原优先级,ρ为衰减因子;
且定义该样本数据的优先级向前传播的窗口容量W为:
Figure BDA0002334739690000091
同理,计算出窗口容量W内,该样本数据前面的其他样本数据的优先级;
从经验回放池的策略集合Π中抽取策略π′,计算Eπ′∈Π′[αD(π,π′)];
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;计算累计的过程采用DDES策略进行,LD=L-Eπ′∈Π′[αD(π,π′)];
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。

Claims (4)

1.一种基于DDGPES的机器人控制方法,具体包括以下步骤:
将机器人的控制决策系统记为智能体Agent;
针对Agent,利用DQN网络进行决策,进而实现机器人进行控制;
其特征在于,DQN网络中,采用DDES探索利用策略确定损失函数LD
LD=L-Eπ′∈Π′[αD(π,π′)]
其中,L表示为DRL算法中用于更新当前策略网络的损失函数;π是Agent当前的策略,π′是有限策略集合Π′的一个样本,D(π,π′)是π和π′之间的度量距离,α是D的比例因子,E[·]表示期望,Eπ′∈Π′[·]表示π′∈Π′条件下对应的E[·];
在利用DQN网络进行决策时,使用波尔茲曼策略选择行动,包括以下步骤:
生成随机数,判断随机数与概率ε的大小;
当随机数大于等于概率ε时,计算
Figure FDA0002334739680000011
并判断是否达到目标状态;其中,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望值;ai表示当前状态s下所有可以选择的动作,i=1,2,3…;A为当前状态s下所有可以选择的动作的集合;
所述概率ε为ε-greedy策略中ε参数,具体为
Figure FDA0002334739680000012
其中,D为环比增长率,difference=Qmaxt(s,ai)-Qmaxt-1(s,ai),Qmaxt(s,ai)为状态动作对(s,ai)当前时间步下的最大收益的期望值,Qmaxt-1(s,ai)为状态动作对(s,ai)上一时间步对应的最大收益的期望值;
否则,计算
Figure FDA0002334739680000013
根据p(s,ai)执行动作;然后判断是否达到目标状态,并更新difference。
2.根据权利要求1所述的一种基于DDGPES的机器人控制方法,其特征在于,所述度量距离D(π,π′)使用KL-divergence距离。
3.根据权利要求1或2所述的一种基于DDGPES的机器人控制方法,其特征在于,所述的L=Es,a,r,s′[(y-Q(s,a;θ))2],其中,s为机器人的状态,a为机器人的动作,θ为网络参数,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望;y是DDPG中利用target策略网络μ′和target Q网络Q′得到的计算结果;r为奖励值,s′为转移后的状态,E[·]表示期望,Es,a,r,s′[·]为s,a,r,s′条件下对应的E[·]。
4.一种基于DDGPES的机器人控制方法,具体包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
Figure FDA0002334739680000021
初始化临时经验回放池
Figure FDA0002334739680000022
为空,并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略GBES选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为
Figure FDA0002334739680000023
Figure FDA0002334739680000024
代表第m个样本数据的优先级;
探索利用策略GPES选择Agent执行的动作Am的过程如下:
生成随机数,判断随机数与概率ε的大小;
当随机数大于等于概率ε时,计算
Figure FDA0002334739680000025
并判断是否达到目标状态;其中,Q(·)为Q函数,表示某一刻状态下采用动作能够获得收益的期望值;ai表示当前状态s下所有可以选择的动作,i=1,2,3…;A为当前状态s下所有可以选择的动作的集合;
所述概率ε为ε-greedy策略中ε参数,具体为
Figure FDA0002334739680000026
其中,D为环比增长率,difference=Q maxt(s,ai)-Q maxt-1(s,ai),Q maxt(s,ai)为状态动作对(s,ai)当前时间步下的最大收益的期望值,Q maxt-1(s,ai)为状态动作对(s,ai)上一时间步对应的最大收益的期望值;
否则,计算
Figure FDA0002334739680000027
根据p(s,ai)执行动作;然后判断是否达到目标状态,并更新difference;
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池
Figure FDA0002334739680000031
中,得到临时经验回放池
Figure FDA0002334739680000032
中含有的样本数据的个数
Figure FDA0002334739680000033
步骤八、计算步骤七临时经验回放池
Figure FDA0002334739680000034
中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池
Figure FDA0002334739680000035
Figure FDA0002334739680000036
个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池
Figure FDA0002334739680000037
中的样本序列中的位置,进行反向更新优先级;
从经验回放池的策略集合Π中抽取策略π′,计算Eπ′∈Π′[αD(π,π′)];
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;计算累计的过程采用DDES策略进行,LD=L-Eπ′∈Π′[αD(π,π′)];
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。
CN201911351334.2A 2019-12-24 2019-12-24 一种基于ddgpes的机器人控制方法 Pending CN110919659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911351334.2A CN110919659A (zh) 2019-12-24 2019-12-24 一种基于ddgpes的机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911351334.2A CN110919659A (zh) 2019-12-24 2019-12-24 一种基于ddgpes的机器人控制方法

Publications (1)

Publication Number Publication Date
CN110919659A true CN110919659A (zh) 2020-03-27

Family

ID=69861899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911351334.2A Pending CN110919659A (zh) 2019-12-24 2019-12-24 一种基于ddgpes的机器人控制方法

Country Status (1)

Country Link
CN (1) CN110919659A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111421538A (zh) * 2020-03-31 2020-07-17 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111830971A (zh) * 2020-06-15 2020-10-27 中山大学 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN112325447A (zh) * 2020-11-02 2021-02-05 珠海米枣智能科技有限公司 一种基于强化学习的制冷机组控制装置及控制方法
CN112734030A (zh) * 2020-12-31 2021-04-30 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN113032934A (zh) * 2021-03-10 2021-06-25 东北电力大学 基于me-td3算法的风电场动态参数智能校核方法
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113411099A (zh) * 2021-05-28 2021-09-17 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN114371634A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102709834A (zh) * 2012-05-30 2012-10-03 哈尔滨工程大学 输电线路线缆除冰机器人
CN107403426A (zh) * 2017-06-20 2017-11-28 北京工业大学 一种目标物体检测方法及设备
US20190236455A1 (en) * 2018-01-31 2019-08-01 Royal Bank Of Canada Pre-training neural networks with human demonstrations for deep reinforcement learning
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102709834A (zh) * 2012-05-30 2012-10-03 哈尔滨工程大学 输电线路线缆除冰机器人
CN107403426A (zh) * 2017-06-20 2017-11-28 北京工业大学 一种目标物体检测方法及设备
US20190236455A1 (en) * 2018-01-31 2019-08-01 Royal Bank Of Canada Pre-training neural networks with human demonstrations for deep reinforcement learning
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHANG-WEI HONG: "Diversity-Driven Exploration Strategy For Deep Reinforcement Learning", 《DIVERSITY-DRIVEN EXPLORATION STRATEGY FOR DEEP REINFORCEMENT LEARNING》 *
李琛: "一种强化学习行动策略ε-greedy的改进方法", 《一种强化学习行动策略Ε-GREEDY的改进方法》 *
董瑶: "基于强化学习的移动机器人路径规划", 《基于强化学习的移动机器人路径规划 *
赵英男: "深度Q学习的二次主动采样方法", 《深度Q学习的二次主动采样方法 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111421538A (zh) * 2020-03-31 2020-07-17 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111421538B (zh) * 2020-03-31 2022-05-20 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111830971B (zh) * 2020-06-15 2021-09-07 中山大学 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN111830971A (zh) * 2020-06-15 2020-10-27 中山大学 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN112325447A (zh) * 2020-11-02 2021-02-05 珠海米枣智能科技有限公司 一种基于强化学习的制冷机组控制装置及控制方法
CN112734030A (zh) * 2020-12-31 2021-04-30 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN112734030B (zh) * 2020-12-31 2022-09-02 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN113031528B (zh) * 2021-02-25 2022-03-15 电子科技大学 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113032934A (zh) * 2021-03-10 2021-06-25 东北电力大学 基于me-td3算法的风电场动态参数智能校核方法
CN113032934B (zh) * 2021-03-10 2022-09-20 东北电力大学 基于me-td3算法的风电场动态参数智能校核方法
CN113411099A (zh) * 2021-05-28 2021-09-17 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN114371634A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法
CN116700258B (zh) * 2023-06-13 2024-05-03 万基泰科工集团数字城市科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Similar Documents

Publication Publication Date Title
CN110919659A (zh) 一种基于ddgpes的机器人控制方法
Roderick et al. Implementing the deep q-network
CN111275174B (zh) 一种面向博弈的雷达对抗策略生成方法
CN112052936B (zh) 基于生成对抗机制的强化学习探索方法及装置
CN116448117A (zh) 一种融合深度神经网络和强化学习方法的路径规划方法
CN111723945A (zh) 一种基于改进灰狼算法的bp神经网络优化方法
CN111768028B (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN112269382B (zh) 一种机器人多目标路径规划方法
Adhikary et al. Randomized Balanced Grey Wolf Optimizer (RBGWO) for solving real life optimization problems
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN116451737A (zh) 一种基于强化学习的策略梯度改进粒子群的pg-w-pso方法
CN116341605A (zh) 一种基于反向学习策略的灰狼算法混合优化方法
Jiang et al. Action candidate based clipped double q-learning for discrete and continuous action tasks
CN115730743A (zh) 一种基于深度神经网络的战场作战趋势预测方法
Su et al. Analysis and improvement of GSA’s optimization process
Lu et al. Double-track particle swarm optimizer for nonlinear constrained optimization problems
Pan et al. A dynamically adaptive approach to reducing strategic interference for multiagent systems
CN116596059A (zh) 一种基于优先级经验共享的多智能体强化学习方法
Li et al. Realistic Actor-Critic: A framework for balance between value overestimation and underestimation
CN111001161B (zh) 一种基于二阶反向传播优先级的游戏策略获得方法
CN113721655A (zh) 一种控制周期自适应的强化学习无人机稳定飞行控制方法
Jia et al. DQN algorithm based on target value network parameter dynamic update
KR102558092B1 (ko) 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법
CN117749625B (zh) 基于深度q网络的网络性能优化系统和方法
Liu et al. CAAC: An effective reinforcement learning algorithm for sparse reward in automatic control systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication