CN109934332A - 基于评论家和双经验池的深度确定性策略梯度学习方法 - Google Patents
基于评论家和双经验池的深度确定性策略梯度学习方法 Download PDFInfo
- Publication number
- CN109934332A CN109934332A CN201811650467.5A CN201811650467A CN109934332A CN 109934332 A CN109934332 A CN 109934332A CN 201811650467 A CN201811650467 A CN 201811650467A CN 109934332 A CN109934332 A CN 109934332A
- Authority
- CN
- China
- Prior art keywords
- critic
- module
- experience
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 73
- 230000002787 reinforcement Effects 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 15
- 230000008901 benefit Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 34
- 238000010586 diagram Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011423 initialization method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出的用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法及设备,属于人工智能应用技术领域,主要包括:确定所述智能无人系统的智能体的观测空间和动作空间大小,构建行动者actor模块与评论家critic模块;创建所述critic模块中的多个评论家子模块;创建双经验池的环形数组数据结构;进行所述actor模块与critic模块的参数梯度更新与训练过程,在达到了最大的迭代次数或者满足终止条件后训练过程结束。本发明能够提供一种更高稳定性和更高性能的强化学习方法,使得智能体的性能表现得到有效提升。
Description
技术领域
本发明属于计算机人工智能技术领域,具体涉及一种多个评论家和双经验池的深度确定性策略梯度强化学习方法。
背景技术
近些年来,人工智能技术掀起了巨大浪潮,各种相关的智能信息技术层出不穷,而深度强化学习方法(Deep Reinforcement Learning)结合了深度学习的感知能力与强化学习自身的决策能力,更是成为了众人关注的焦点(参见文献[1,2])。不久前,DeepMind基于强化学习方法的AlphaGo围棋程序击败顶级围棋职业选手李世石(参见文献[3]),然后在次年提出升级版本的AlphaGo Zero 在围棋、国际象棋、日本将棋等棋类击败人类选手和它的“前辈”AlphaGo(参见文献[4]),更是证实了强化学习方法在人工智能发展中的突出地位。在智能无人系统中,强化学习方法发挥了重要的作用,它能够通过训练使无人智能体 (机器人,无人机等)具备自主能力与环境自适应能力,对智能无人系统的研究与发展具有重要的影响。探索性能表现更高和稳定性更好的强化学习方法,克服存在的一些不足从而优化强化学习方法也具有重大的意义。
强化学习方法可以追溯到上个世纪五十年代,Bellman提出了动态规划方法,基于著名的Bellman方程将最优化问题变成简单的子问题,奠定了强化学习的基础。直到出现标志性发展的1988年,Sutton等提出了时间差分算法 (Temporal-Difference learning,TDlearning,参见文献[2]),介绍了基于时序差分学习方法的新思路,并且成为了强化学习算法发展的基础。此后,典型的强化学习方法研究不断地涌现。在1992年,Watkins提出了著名的 Q-learning算法(参见文献[5]);在此后的1994年,Rummery等提出了一种在线策略(onpolicy)的Q-learning算法,称为Sarsa学习算法(参见文献[6]);在1999年,Sutton等提出了创新性的策略梯度方法,从而产生了基于策略的强化学习方法(参见文献[7])。近年来,随着人工神经网络的发展和深度学习的浪潮,强化学习方法与深度学习方法结合而形成了深度强化学习,它让强化学习方法的表现得到了突破性的提高。在2014年,Silver等提出确定性策略梯度算法(Deterministic Policy Gradient Algorithm,即后来的DDPG算法),证明了确定性策略梯度的存在性(参见文献[8])。基于确定性策略梯度,随后涌现出了多种多样的强化学习方法,例如Actor-Critic算法、A3C算法等(参见文献[9]),并掀起了强化学习方法的发展热潮。
然而,确定性策略梯度方法在训练时存在稳定性的问题,其中包含的行动者actor模块与评论家critic模块由于稳定性的问题也使得确定性策略梯度方法的性能表现受到限制。这主要是因为actor模块的训练很大程度上依赖critic 模块的训练,当critic模块训练的不好或者出现了不稳定的波动,actor模块也会随之受到影响,而智能体的动作策略是由actor模块产生的,所以也会就对智能体的行为表现产生不良的影响。那么,如何解决确定性策略梯度方法中的critic模块的训练稳定性问题是提高智能体表现的关键,这为创建具有更高性能和更高稳定性的无人智能系统指引了研究的方向。
以下为参考的相关文献:
[1]M.L.Littman,“Reinforcement learning improves behaviour fromevaluative feedback,”Nature,vol.521,no.7553,pp.445–451,2015.
[2]Sutton R S,Barto A G.“Reinforcement learning:an introduction.”Cambridge:MIT press,1998.
[3]Wikipedia contributors."AlphaGo versus Lee Sedol."Wikipedia, TheFree Encyclopedia.Wikipedia,The Free Encyclopedia,21Jun.2018.
[4]Wikipedia contributors."AlphaGo Zero."Wikipedia,The FreeEncyclopedia.Wikipedia,The Free Encyclopedia,19Jun.2018.
[5]Watkins C J C H,Dayan P.Technical Note:Q-Learning[J].MachineLearning,1992,8(3-4):279-292.
[6]Rummery G A,Niranjan M.On-Line Q-Learning Using ConnectionistSystems[J].1994.
[7]Sutton,R.S.,McAllester,D.A.,Singh,S.P.,and Mansour,Y. (1999).Policy gradient methods for reinforcement learning with functionapproximation.In Neural Information Processing Systems 12,pages 1057–1063.
[8]Silver D,Lever G,Heess N,et al.Deterministic policy gradientalgorithms[C]//International Conference on International Conference onMachine Learning.JMLR.org,2014.
[9]MnihV,Badia,AdriàPuigdomènech,Mirza M,et al.Asynchronous Methodsfor Deep Reinforcement Learning[J].2016.
发明内容
针对现有技术存在的不足,本发明提出一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,通过设计多个评论家的深度确定性策略梯度,旨在解决现有技术的训练稳定性问题和提高方法的性能表现,通过设计双经验池来提升训练过程的收敛速度,从而实现一种更高性能个更高稳定性的强化学习方法。
第一方面,本发明提出一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其中,所述智能无人系统包括一智能体,其特征在于包括以下步骤:
步骤1:对智能体所在环境和智能体本身的行为特征进行分析,确定智能体的观测空间大小和动作空间大小;
步骤2:基于深度确定性策略梯度(Deep Determistic Policy Gradient)算法,构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块,并对所述 actor模块和critic模块的参数进行随机初始化;
步骤3:对于步骤2中的所述critic模块,创建至少二个独立异构的评论家critic子模块,各critic 子模块具有不同的结构和参数以及参数的初始化,所有的critic子模块能够分别对所述动作作出评价反馈,这些反馈评价的平均值作为所述critic模块的最终评价;
步骤4:创建经验池,用于保存供所述智能体离线学习的经验池数据;在强化学习过程中,所述智能体按照指定的探索策略在环境中进行探索,在每一步探索中,生成由当前状态s下智能体执行的决策动作a,执行动作a后,所述智能体观测的环境也随之发生变化的下一状态s',基于智能体的行为获得的奖励反馈r这四个信息构成的四元组数据<s,a,r,s'>,将所述每一步探索中生成的所述四元组数据作为经验数据保存在所述经验池中;
步骤5:对于步骤4中的经验池,创建包括两个隔离的经验池A和B,经验池A保存所述智能体所有的四元组数据作为所述智能体学习的经验数据,经验池B则保存累计奖励高于第一特定阈值或者低于第二特定阈值的经验数据;
步骤6:对所述actor模块和所述多个critic子模块进行迭代训练和参数更新,每一次迭代训练的数据是从所述经验池中随机抽取定量大小的一批四元组数据<s,a,r,s'>,其中一部分是从经验池A中抽取,另一部分是从经验池B中抽取的;
步骤7:所述智能体完成所述步骤6的训练后,根据所述actor模块输出决策的动作。
进一步的,在上述技术方案的基础上,所述智能无人系统包括执行操作的动作部件,所述行为特征根据所述动作部件所执行的操作来描述。
进一步的,在上述技术方案的基础上,所述第一特定阈值为所有累计奖励收益的最大值的0.8倍,所述第二特征阈值为所有累计奖励收益的最小值的1.5倍。
进一步的,在上述技术方案的基础上,所述经验池B的大小比所述经验池A小,当所述经验池A或经验池 B中的经验数据装满后,后续存储的经验数据覆盖最早保存的经验数据。
进一步的,在上述技术方案的基础上,所述智能无人系统包括执行操作的动作部件,所述行为特征根据所述动作部件所执行的操作来描述。
进一步的,在上述技术方案的基础上,所述第一特定阈值为所有累计奖励收益的最大值的0.8倍,所述第二特定阈值为所有累计奖励收益的最小值的1.5倍。
进一步的,在上述技术方案的基础上,所述经验池B的大小比所述经验池A小,当所述经验池A或经验池 B中的经验数据装满后,后续存储的经验数据覆盖最早保存的经验数据。
进一步的,在上述技术方案的基础上,所述步骤2的进一步包括以下子步骤:
步骤2.1:获得所述观测空间大小state_shape;
步骤2.2:所述actor模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的所述当前状态s作为神经网络的输入,输入大小为所述state_shape,然后经过多个中间隐含层,输出所述决策动作a,输出的大小为所述动作空间大小action_shape;对所述actor 模块进行迭代训练,每迭代一定次数时,创建目标行动者target-actor模块,并将所述actor模块的参数复制到所述target-actor模块;
步骤2.3:所述critic模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的当前状态s和所述智能体执行的所述决策动作a作为所述神经网络的输入,输入大小为所述 state_shape加上所述action_shape,然后经过多个中间隐含层,输出一个评价值,记为Q(s,a|θ),用所述评价值估计所述累计奖励,其中θ为所述深度神经网络参数;
对所述critic模块进行迭代训练,每迭代一定次数时,创建目标评论者 target-critic模块,并将与所述critic模块的参数复制到所述target-critic 模块。
进一步的,在上述技术方案的基础上,所述actor模块和所述critic模块的高斯分布的方差σ均为0.02。
进一步的,在上述技术方案的基础上,所述步骤3的包括以下子步骤:
步骤3.1:当参与的评论家有K个时,对于所述critic模块而言,需要构建K个结构不同的critic子模块,构成长度为K的所述critic模块,每一个 critic子模块独立地占据所述critic模块中的一个位置;
步骤3.2:依次创建所述K个critic子模块,使用深度神经网络作为模型,其中每一个critic子模块的创建过程与步骤2.3中一样,每一个critic子模块的深度神经网络模型是不同的,具有不同的中间隐含层数量和各层节点数,并用不同的初始化分布来初始化网络参数,确保各个critic子模块具有不同的结构,其中,所述K为大于2的自然数;
步骤3.3:对于上一步创建完成的容量为K的所述critic模块,使用所述 critic模块的K个critic子模块的输出的平均值critic_avg作为所述critic 模块的输出。
进一步的,在上述技术方案的基础上,所述步骤5包括以下子步骤:
步骤5.1:采用环形数组保存所述四元组数据<s,a,r,s'>,所述数组每一个单位空间保存一个四元组数据;
步骤5.2:对于需要保存的一批新的四元组数据,首先保存到经验池A的数组中,如果这一批四元组数据的累计奖励收益高于第一特定阈值或者低于第二特定阈值,则再将它保存到经验池B的数组中;
步骤5.3:依据比例p分别从A和B中进行抽样,抽样的总大小为N,其中从A中随机抽样N*(1-p)个四元组,从B中随机抽样N*p个四元组,其中,N为自然数,p为抽样比率,且0≤p≤1。
进一步的,在上述技术方案的基础上,所述经验池A的数组长度为106,经验池B的数组长度为105。
进一步的,在上述技术方案的基础上,所述第一特定阈值可设置成所有累计收益最大值的0.8倍,所述第二特定阈值设置成所有累计收益最小值的1.5 倍。
进一步的,在上述技术方案的基础上,所述步骤5.2的第一特定阈值和第二特定阈值可按如下方式确定:设T是所有的累计收益值的集合,E(T)表示T 的平均值,S1表示T中所有大于E(T)的值的集合,S2表示T中所有小于E(T) 的值的集合,则所述第一特定阈值v1为E(S1),所述第二特定阈值v2为E(S2)。
进一步的,在上述技术方案的基础上,当新保存的一批四元组不足以放到数组空间时,就将数组空间的开头清空一部分用来保存最新的四元组。
进一步的,在上述技术方案的基础上,所述抽样比率p随着所述actor和所述critic模块的训练是逐渐减少的,在训练接近收敛时,p设置为0。
进一步的,在上述技术方案的基础上,所述步骤6还包括以下子步骤:
步骤6.1:已经创建完成的所述actor模块和所述critic模块需要数据进行训练更新,每次更新的数据是从所述两个经验池中随机抽取一批定量大小的数据;
步骤6.2:当所述critic模块包含K个critic子模块时,分别记为:critici,且分别具有参数为θi,设每一个critic子模块的评价反馈值为Qi(s,a|θi),其中 K,i均为整数,且K≥2,1≤i≤K,所有子模块的评价反馈值的平均值为 Qavg(s,a|θ),
则:
其中,所述θ为所有θi构成的集合,i为正整数,且1≤i≤K,所述s表示输入的智能体观测到的当前状态,所述a表示在当前状态s下智能体执行的动作;
相应的,所述target_critic模块也包含K个子模块,分别记为:critic′i,且分别具有参数θ′i,每一个target_critic模块的评价反馈值分别为Q′i,其中i 为正整数,且1≤i≤K,对于四元组数据<s,a,r,s'>,将当前状态s的下一个状态s'输入target_actor模块中,可以得到在状态s'下智能体的动作a',则a′=μ′(s′|ω′),其中ω′是target_actor模块的策略μ′的参数,则 target_critic模块的一个子模块target_critici的评价反馈值Q′i可以表示为:Q′i=Q′(s′,μ′(s′|ω′)|θ′i),其中,Q′为强化学习的状态价值函数,其输入为s′和μ′(s′|ω′),参数为θ′i,i为正整数,且1≤i≤K;
目标的值就是环境的奖励反馈加上Q′i的衰减值,它与Qi的差值就是训练的误差,称为时序差分误差TDerror(Temporal difference error),采用平方误差作为误差函数,即每个critic子模块的训练误差L(θi)为:
L(θi)=(r(st,at)+γQ′(st+1,at+1|θ′i)-Q(st,at|θi))2,
其中r(st,at)为奖励函数,所述γ为衰减因子,且0≤γ≤1,作为更优选的技术方案,0.9≤γ≤0.99;
该误差表示了critic模块中第i个子模块与target_critic模块对应的第 i个子模块的误差,可用来对critic模块中的第i个子模块进行训练更新,此外,在训练所述K个critic子模块时,还使用TDerror的平均值,即critic 模块平均值Qavg与target_critic模块的平均值Q′avg所产生的平方误差 Lavg(θ):
Lavg(θ)=(r(s,a)+γQ′avg(s,a|θ′)-Qavg(s,a|θ))2,
其中,Qavg和Q′avg分别为critic模块和target_critic模块各自所包含的多个子模块输出的平均值,它们的输入均为s,a,参数分别为θ和θ′,所述θ为 critic模块包含的所有子模块的参数的集合,所述θ′为target_critic模块包含的所有子模块的参数的集合;
为了防止critic模块中评论家子模块的评价值产生较大的分歧,增加一个约束项来限制每一个critic子模块的评价值Qi与Qavg之间的差值C(θi),即:
C(θi)=(Qi(s,a|θi)-Qavg(s,a|θ))2,
对于每一个critic子模块,将其自身与target_critic的TDerror与critic 模块平均值的TDerror进行加权平均,再加上影响因子β乘以该评论家子模块的约束项,就是该评论家子模块进行迭代训练的误差函数Loss(θi):
Loss(θi)=τL(θi)+(1-τ)Lavg(θ)+βC(θi)
其中,τ为分配占比,且0<τ<1;
根据梯度更新critic子模块的参数θi:
其中,表示更新后的θi,表示更新前的θi,α为影响因子,且每隔一定步数的迭代训练,将critic子模块的参数复制给target_critic模块中的对应的子模块;
步骤6.3:通过确定性策略梯度算法训练actor模块,并每隔一定训练次数更新target_actor模块参数,所述确定性策略表示actor模块根据输入的环境状态输出一个确定的动作用于执行,而不再是一个动作的分布,确定的动作表示为a=μ(s|ω),其中ω是actor策略μ的参数,那么,actor模块的训练更新则需要critic模块来提供确定性的策略梯度:
其中是求梯度运算符,
同样地,根据梯度来更新actor模块的参数:
其中,ωnew表示更新后的ω,ωold表示更新前的ω,α为影响因子,并且每隔一定步数的迭代训练,就需要将actor模块的参数复制给target_actor模块;
步骤6.4:重复步骤6.1到步骤6.3,使得模型不断地训练优化,直到达到了最大的迭代次数或者满足终止条件。
另一方面,本发明还提出一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习设备,包括:
处理器和存储器,所述存储器具有存储有程序代码的介质,当所述处理器读取所述介质存储的程序代码时,所述电子设备能够执行权利要求1-14任一项所述的方法。
本发明与现有技术相比的优点和积极效果如下:
(1)对原有的策略性梯度方法进行了改进,提出了多评论家的策略性梯度方法,设计了多评论家的critic模块,并完善了多评论家的损失函数和其策略梯度,使该强化学习方法更加稳定。多评论家的critic模块相比原有方法中的critic而言,具有更强的稳定性,因为当某一个评论家的表现出现较大不稳定性波动,多个评论家的平均值会很大程度地减少这一情况,使得多评论家的 critic模块能够表现出对训练中的不稳定性波动更强的抵抗能力,从而具备更高的稳定性。此外,完善了多个评论家的critic模块的损失函数,使损失函数不仅包含了原有方法中critic与target_critic的TDerror,而且包含了多评论家情况下它们的平均值之间的TDerror,还额外增加了防止多个评论家产生较大分歧的约束项,并使用这多种误差的梯度进行更新参数,使得策略梯度更加完善。
(2)由于多评论家的策略性梯度方法中的critic模块具备了更强的稳定性,而且actor模块进行训练更新的策略梯度是由critic模块来提供的,那么 actor的参数训练就会得到更加稳定的更新过程,这会使得actor模块具有更优化的参数,也可以描述为更优化的动作策略。而智能体的执行动作是由actor 模块生成的确定性动作,所以多评论家的策略性梯度方法也会让智能体具有更好的表现性能。此外,多个评论家具有不同的结构和参数量,也就具有了多种不同的表达能力,在通过数据进行迭代训练的过程中,对强化学习方法需要学习的策略具有不同的表达,也就是同时具备了更多的策略学习,这也是本专利提出的方法具有更高的表现性能的原因。
(3)设计了双经验池的数据结构,能够加速训练过程的收敛速度。关于经验池加快收敛速度的研究大多是基于梯度大小而言的,梯度越大的经验样本数据,显然会使得参数在训练时更新的更快,从而加速训练过程的收敛。而其缺点也很明显,需要不停的计算每一批数据的梯度并根据梯度大小维护一个数据的抽样分布,然后根据分布来对数据进行抽样而不是随机抽样,这样就带来了额外的计算量和存储空间。双经验池的数据结构则克服了这样的缺点,并且利用了它的优点。近似地,累计奖励表现的特别好(或者特别差)的经验数据,相比当前学习到的策略而言是一种更优化(或更差)的表现,从而对于参数的更新就具有更大的梯度,也就加快了训练过程的收敛速度。
附图说明
图1为本发明提出的用于智能无人系统的基于评论家与双经验池的深度确定性策略梯度强化学习方法的模块示意图;
图2为本发明中的行动者actor模块的模型结构示意图;
图3为本发明中的评论家critic模块的模型结构示意图;
图4为本发明中的双经验池的模块结构示意图;
图5为本发明中的行动者actor模块和评论家critic模块训练过程的数据流图。
图6为本发明提出的用于智能无人系统的基于评论家与双经验池的深度确定性策略梯度强化学习设备的一个结构示意图。
下面对本发明进一步详细说明。但下述的实例仅仅是本发明的简易或者最佳例子,并不代表或限制本发明的权利保护范围,本发明的保护范围以权利要求书为准。
具体实施方式
下面结合实施例和说明书附图,对本发明的具体实施方案进行详细描述。此处所描绘的实施例仅用于说明和解释本发明,但不用于限定本发明。
本发明提出的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,主要包括以下步骤:首先,对智能体所在环境和智能体的动作进行分析并确定智能体的观测空间和动作空间大小,基于此通过深度神经网络来构建深度确定性策略梯度方法的行动者actor模块与评论家 critic模块,并随机初始化参数。随后,创建critic模块中的多个评论家,各个评论家(critic)具有不同的结构和参数,而且用不同的参数初始化方法去随机初始化参数,并且将多个评论家的输出反馈取平均值代替原有的单个评论家。然后,对于所有创建的actor模块与多评论家的critic模块,保存它们的一个复制。此外,创建双经验池的环形数组数据结构,一个用来保存所有智能体学习的四元组经验数据,另一个空间较小则用来保存所有特别好或者特别差的经验数据,并实现数据保存与抽样的接口。最后,进行actor模块与critic模块的训练,每次训练需要从双经验池中抽取一小批训练数据,然后利用反向传播 (Back Propagation)进行各模块的参数梯度更新,每隔一定的训练步数,要将各模块的参数值直接赋值给它们的复制,训练过程在达到了最大的迭代次数或者满足终止条件后结束。本发明能够提供一种更高稳定性和更高性能的强化学习方法,基于此方法能够很容易的扩展到其他的强化学习方法,使得智能体的性能表现得到提升。
为了便于理解,实施例中基本上采用的强化学习中常用的符号,如:Q值指的就是Q(s,a|θ)函数的值,是强化学习中的智能体的状态价值函数,其网络参数为θ(也可不注明,则为Q(s,a)),r(st,at)表示强化学习中的奖励函数,常被简写为r,为求梯度运算,其下标即为求梯度的变量,如:是指函数f(x,y)对变量x求梯度。
具体含义也可参考背景技术所列的参考文献或者其他相应的科技文献,本文不再赘述。
参见图1,具体实施的步骤如下说明:
步骤1:基于深度确定性策略梯度算法(Deep Determistic Policy Gradient),构建位于主网络的actor(行动者)模块和critic(评论家)模块,并对模块参数进行随机初始化;
具体实现过程如下:
1)创建actor模块的模型,其结构示意图如图2所示。实现的actor模块需要以环境的状态表示作为输入,对于以图像作为状态表示的情况需要使用卷积神经网络进行特征提取后,再作为actor的状态输入。在创建actor模块的神经网络时,可使用开源的TensorFlow深度学习框架来搭建网络模型,对于输入的图像状态,首先经历3个卷积层(convolutionallayer)和池化层(pooling layer)(参见图2中的卷积层1与池化层1-卷积层3与池化层3),卷积层可由TensorFlow的Conv2D函数实现,池化层可由max_pooling函数实现;然后经过2个全连接层(参见图2中的全连接层1和全连接层2)进行特征学习,最后是一个动作输出层用来输出智能体动作,维度与执行的动作维度相同。网络的激活函数使用修正线性单元(Rectified Linear Units,ReLU)或者缩放指数线性单元(Scaled Exponential LinearUnits,SELU),但是动作输出层的激活函数则不使用线性单元,而是使用tanh函数或者sigmoid函数将输出映射到 (-1,1)或(0,1)的区间,这样可以用来表达实际的动作含义。各个网络层的权值 (weights)采用方差为0.02、均值为0的高斯分布进行初始化,而网络层的偏移值(bias)则初始为0。
2)创建critic模块的模型,其结构示意图如图3所示。实现的critic模块需要以环境的状态和智能体的动作作为输入,对于图像作为状态表示的情况需要使用卷积神经网络进行特征提取后,再与动作一起输入到critic模块中。与创建actor模块的模型相类似,也使用TensorFlow框架进行网络模型搭建,卷积层按照完全相同的方法进行创建(参见图3中的卷积层1与池化层1-卷积层3与池化层3),中间的全连接层(参见图3中的全连接层1和全连接层2) 也是用相同的结构,而动作输出层则只是输出一个值用来对状态价值进行评估。网络层的激活函数也可与之相同,但是动作输出层的激活函数可以去掉而直接输出该值即可。网络初始化也是相同的。
步骤2:创建critic模块中的多个评论家(参见图1中的critic 1、critic 2、…、critic K),并将多个评论家的输出反馈取平均值(参见图1中的average) 代替原有的单个评论家的输出值,平均值作为综合的反馈评价。
具体的实现过程如下:
1)若包含有K个评论家,那么还需要创建K-1个不同评论家。创建一个评论家列表,将之前创建的一个评论家(critic),作为评论家子模块(如图1中的 critic 1)放入其中,然后按照之前创建评论家的方法重复创建K-1个评论家子模块(参见图1中的criti2、…critic K)。在创建每一个评论家时,为了保证各个评论家之间具有不同的结构和参数,需要每一次都改变全连接层的层数和每一层的隐含节点数,并且各层之间交替变换地使用ReLU与SELU激活函数。此外,在初始化网络层的权值时使用不同的初始化方法,例如区间(-0.02,0.02)上的均匀分布、Xavier初始化方法、MSRA初始化方法等,也可使用不同参数的同种分布进行初始化。在创建完一个评论家之后,将它加入到评论家列表中,直到所有的评论家创建完成。
2)之前创建的卷积神经网络可以对图像进行特征提取,将提取的特征作为环境的状态表示输入评论家列表中所有的评论家。这样所有的评论家是共用同一个卷积神经网络的,这有利于减少多评论家的critic子模块的参数量,也有利于缩减每一次训练所需的时间。
3)将评论家列表中所有评论家子模块的输出取平均值作为critic模块的输出,即:
其中,s表示提取特征后的环境状态,a表示在状态s下智能体执行的动作。这样,对于actor模块而言不用关注每一个单独的评论家子模块,而只需要参考Qavg作为整个critic模块的综合评价。
步骤3:在target网络里创建actor模块与critic模块的一个复制。具体而言,需要复制一个actor模块中actor模块的网络结构的复制,但是私有属性并不复制,比如actor模块的名称为“actor”,而复制的actor模块的名称为“target actor”,这样仅仅是用来区分。critic模块也是类似生成复制target_critic(如参见图1,主网络的critic被对应复制到target网络中的 critic')。
步骤4:创建双经验池的环形数组数据结构,并实现数据保存与抽样的数据抽样接口,其模块结构示意图如图4所示。经验池A空间较大用来保存所有智能体学习的四元组经验数据,经验池B空间较小则用来保存所有特别好或者特别差的经验数据。
该步骤具体的实现过程如下:
步骤4.1:将经验池设计为环形数组结构,由于保存的是<s,a,r,s'>四元组,数组每一个单位空间保存的是一个四元组。对于双经验池则需要包含两个不同的环形数组A和B,一般地,B的总长度比A小很多,例如A的长度为106,B的长度为105。
步骤4.2:实现双经验池环形数组的数据存储接口:对于需要保存的一批新的四元组,首先将其保存到经验池A的数组中,如果这一批四元组的累计奖励收益高于某个阈值v1或者低于某个阈值v2,就再将它的复制保存到经验池B中。阈值v1可以简单的设置成所有累计收益最大值的0.8倍,v2则设置成最小值的 1.5倍。也可以按照以下规则:假设T是所有的累计收益值的集合,E(T)表示T 的平均值,那么S1表示T中所有大于E(T)的值的集合,S2表示T中所有小于 E(T)的值的集合,那么可以设置v1=E(S1),v2=E(S2)。另外,当新保存的一批四元组不足以放到数组空间时,就将数组的开头清空一部分用来保存最新的四元组,这样就是环形的数组结构。
步骤4.3:实现双经验池环形数组的数据抽样接口。抽样的数据是随机抽样固定大小的一批数据,并且依据某种抽样比率p(0≤p≤1)分别从A和B中进行抽样。设抽样的总大小为N(N>0),其中从A中随机抽样N*(1-p)个四元组,从B中随机抽样N*P个四元组。抽样的比率p需要随着actor和critic模块训练过程的进行而逐渐减少,在训练过程接近收敛时将p置为0,经验池B就不再发挥作用了。
步骤5:进行actor模块与critic模块的训练过程,其过程示意图如图5 所示。每次训练过程都需要从双经验池中抽取一小批数据作为训练数据,然后利用反向传播(BP)进行各模块的参数梯度更新。每次在训练了一定的步数后,要将actor模块和critic模块的参数值分别对应地赋值给target_actor模块和target_critic模块。在达到了最大的迭代次数或者满足终止条件后结束训练过程。
参见图5,具体的实现过程如下:
步骤6.1:调用双经验池的数据抽样接口进行数据随机抽样,从双经验池中随机抽取一批定量大小的数据,也就是一个包含了<s,a,r,s'>四元组的小批数据集。这小批数据集就是actor模块和critic模块进行训练和梯度更新的数据集。
步骤6.2:训练包含有多个(如K个)评论家子模块的critic模块。将K 个评论家子模块的列表用[critic1,critic2,...,criticK]进行表示,分别具有参数为θ1,θ2,...,θK,设每一个评论家的评价反馈值表示为Q1,Q2,...,QK,所有Q值的平均值为Qavg。类似地,将target_critic模块的K个评论家子模块的列表为[critic′1,critic′2,...,critic′K],分别以θ′1,θ′2,…,θ′K为参数,评价反馈分别表示为Q′1,Q′2,...,Q′K。对于critic子模块而言,目标值就是环境的奖励反馈加上Q′i的衰减值,计算它与Qi的差值作为训练的误差(TDerror),然后将平方误差作为误差函数,即
L(θi)=(r(st,at)+γQ′(st+1,at+1|θ′i)-Q(st,at|θi))2,
该误差表示了critic模块中第i个评论家子模块与target_critic模块中第i个评论家子模块的误差,可用来对第i个评论家子模块进行训练更新。此外,在训练含有多个评论家的critic模块时,还用到了critic模块平均值Qavg与target_critic模块的平均值Q′avg所产生的平方误差,计算平均值的TDerror 如下:
L(θi)=(r(s,a)+γQ′avg(s,a|θ′)-Q(st,at|θi))2,其中r(st,at)表示奖励函数,所述γ为衰减因子,且0≤γ≤1,其一个优选范围为0.9≤γ≤0.99,能够加速训练的速度;
最后,为了防止critic模块中多个评论家的评价值产生较大的分歧,增加一个约束项来限制每一个critic的评价值Qi与Qavg之间的差值不会太大,即
C(θi)=(Qi(s,a|θi)-Qavg(s,a|θ))2,
综上,对于每一个评论家,将其自身与target_critic的TDerror与模块平均值的TDerror进行加权平均,再加上影响因子β乘以该评论家的约束项,就得到了该评论家进行迭代训练的误差函数:
Loss(θi)=τL(θi)+(1-τ)Lavg(θ)+βC(θi),其中τ为加权平均的参数,τ取值在1<τ<1,β为正数,通常去较小的正数;
然后根据梯度更新critic模块的参数:
其中,表示更新后的θi,表示更新前的θi,α为影响因子。
在每经过一定步数的迭代训练后,将critic模块中所有评论家的参数分别对应地赋值给target_critic模块。
步骤6.3:通过确定性策略梯度算法训练actor模块。确定性策略意味着actor模块可以根据输入的环境状态输出一个确定的动作来执行,表示为 a=μ(s|ω),其中ω是actor策略μ的参数。由critic模块来计算actor模块的训练更新策略梯度:
同样地,根据梯度来更新actor模块的参数:
在每经过一定步数的迭代训练后,将actor模块中所有评论家的参数分别对应地赋值给target_actor模块。
步骤6.4:重复以上步骤6.1到步骤6.3,使得模型不断地训练优化,直到达到了最大的迭代次数或者满足终止条件。
作为本发明的第二个方面,还提供一种电子设备,如图6所示,包括:处理器1120和存储器1140,所述存储器1140具有存储有程序代码的介质(计算机可读存储介质),当所述处理器读取所述介质存储的程序代码时,通过输入单元1130和输出单元1150的协助,使得所述电子设备能够执行上述方法步骤。
对于方法实施,本发明提出的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本发明提出的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列 (FPGA)、处理器、处理器、微处理器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本发明提出的各种实施方式可以在图所示的处理器1120中实施。对于软件实施,本发明提出的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器1140中并且由处理器1120执行。
本发明未详细阐述部分属于本领域公知技术。
申请人声明,本发明通过上述实施例来说明本发明的详细结构特征,但本发明并不局限于上述详细结构特征,即不意味着本发明必须依赖上述详细结构特征才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明所选用部件的等效替换以及辅助部件的增加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (10)
1.一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其中,所述智能无人系统包括一智能体,其特征在于包括以下步骤:
步骤1:对智能体所在环境和智能体本身的行为特征进行分析,确定智能体的观测空间大小和动作空间大小;
步骤2:基于深度确定性策略梯度(Deep Determistic Policy Gradient)算法,构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块,并对所述actor模块和critic模块的参数进行随机初始化;
步骤3:对于步骤2中的所述critic模块,创建至少二个独立异构的评论家critic子模块,各critic子模块具有不同的结构和参数以及参数的初始化,所有的critic子模块能够分别对所述动作作出评价反馈,这些反馈评价的平均值作为所述critic模块的最终评价;
步骤4:创建经验池,用于保存供所述智能体离线学习的经验池数据;在强化学习过程中,所述智能体按照指定的探索策略在环境中进行探索,在每一步探索中,生成由当前状态s,当前状态s下智能体执行的决策动作a,执行动作a后,所述智能体观测的环境也随之发生变化的下一状态s′,基于智能体的行为获得的奖励反馈r这四个信息构成的四元组数据<s,a,r,s′>,将所述每一步探索中生成的所述四元组数据作为经验数据保存在所述经验池中;
步骤5:对于步骤4中的经验池,创建包括两个隔离的经验池A和B,经验池A保存所述智能体所有的四元组数据作为所述智能体学习的经验数据,经验池B则保存累计奖励高于第一特定阈值或者低于第二特定阈值的经验数据;
步骤6:对所述actor模块和所述多个critic子模块进行迭代训练和参数更新,每一次迭代训练的数据是从所述经验池中随机抽取定量大小的一批四元组数据<s,a,r,s′>,其中一部分是从经验池A中抽取,另一部分是从经验池B中抽取的;
步骤7:所述智能体完成所述步骤6的训练后,根据所述actor模块输出决策的动作。
2.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述第一特定阈值为所有累计奖励收益的最大值的0.8倍,所述第二特定阈值为所有累计奖励收益的最小值的1.5倍。
3.根据权利要求2所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述经验池B的大小比所述经验池A小,当所述经验池A或经验池B中的经验数据装满后,后续存储的经验数据覆盖最早保存的经验数据。
4.根据权利要求3所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤2的进一步包括以下子步骤:
步骤2.1:获得所述观测空间大小state_shape;
步骤2.2:所述actor模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的所述当前状态s作为神经网络的输入,输入大小为所述state_shape,然后经过多个中间隐含层,输出所述决策动作a,输出的大小为所述动作空间大小action_shape;对所述actor模块进行迭代训练,每迭代一定次数时,创建目标行动者target-actor模块,并将所述actor模块的参数复制到所述target-actor模块;
步骤2.3:所述critic模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的当前状态s和所述智能体执行的所述决策动作a作为所述神经网络的输入,输入大小为所述stare_shape加上所述action_shape,然后经过多个中间隐含层,输出一个评价值,即:Q(s,a|θ),用所述评价值估计所述累计奖励,其中θ为所述深度神经网络参数,s,a为输入;
对所述critic模块进行迭代训练,每迭代一定次数时,创建目标评论者target-critic模块,并将与所述critic模块的参数复制到所述target-critic模块。
5.根据权利要求4所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤3的包括以下子步骤:
步骤3.1:当参与的评论家有K个时,对于所述critic模块而言,需要构建K个结构不同的critic子模块,构成长度为K的所述critic模块,每一个critic子模块独立地占据所述critic模块中的一个位置;
步骤3.2:依次创建所述K个critic子模块,使用深度神经网络作为模型,其中每一个critic子模块的创建过程与步骤2.3中一样,每一个critic子模块的深度神经网络模型是不同的,具有不同的中间隐含层数量和各层节点数,并用不同的初始化分布来初始化网络参数,确保各个critic子模块具有不同的结构,其中,所述K为大于2的自然数;
步骤3.3:对于上一步创建完成的容量为K的所述critic模块,使用所述critic模块的K个critic子模块的输出的平均值critic_avg作为所述critic模块的输出。
6.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤5包括以下子步骤:
步骤5.1:采用环形数组保存所述四元组数据<s,a,r,s′>,所述数组每一个单位空间保存一个四元组数据;
步骤5.2:对于需要保存的一批新的四元组数据,首先保存到经验池A的数组中,如果这一批四元组数据的累计奖励收益高于第一特定阈值或者低于第二特定阈值,则再将它保存到经验池B的数组中;
步骤5.3:依据比例p分别从A和B中进行抽样,抽样的总大小为N,其中从A中随机抽样N*(1-p)个四元组,从B中随机抽样N*p个四元组,其中,N为自然数,p为抽样比率,且0≤p≤1。
7.根据权利要求6所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述第一特定阈值可设置成所有累计收益最大值的0.8倍,所述第二特定阈值设置成所有累计收益最小值的1.5倍。
8.根据权利要求7所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤5.2的第一特定阈值和第二特定阈值可按如下方式确定:设T是所有的累计收益值的集合,E(T)表示T的平均值,S1表示T中所有大于E(T)的值的集合,S2表示T中所有小于E(T)的值的集合,则所述第一特定阈值v1为E(S1),所述第二特定阈值v2为E(S2)。
9.根据权利要求6所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于当新保存的一批四元组不足以放到数组空间时,就将数组空间的开头清空一部分用来保存最新的四元组;
所述抽样比率p随着所述actor和所述critic模块的训练是逐渐减少的,在训练接近收敛时,p设置为0。
10.根据权利要求4所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于:所述步骤6还包括以下子步骤:
步骤6.1:已经创建完成的所述actor模块和所述critic模块需要数据进行训练更新,每次更新的数据是从所述两个经验池中随机抽取一批定量大小的数据;
步骤6.2:当所述critic模块包含K个critic子模块时,分别记为:critici,且分别具有参数为θi,设每一个critic子模块的评价反馈值为Qi(s,a|θi),其中K,i均为正整数,且K≥2,1≤i≤K,所有Q值的平均值为Qavg(s,a|θ),则:其中,所述θ为所有θi构成的集合,i为正整数,且1≤i≤K,所述s表示输入的智能体观测到的当前状态,所述a表示在当前状态s下智能体执行的动作;
相应的,所述target_critic模块也包含K个子模块,分别记为:critic′i,且分别具有参数θ′i,每一个target_critic模块的评价反馈值分别为Q′i,其中i为正整数,且1≤i≤K,对于四元组数据<s,a,r,s′>,将当前状态s的下一个状态s′输入target_actor模块中,可以得到在状态s′下智能体的动作a′,将其表示为a′=μ′(s′|ω′),其中ω′是target_actor策略μ′的参数,则target_critic模块的一个子模块target-critici的评价反馈值Q′i可以表示为:
Q′i=Q′(s′,μ′(s′|ω′)|θ′i),其中,Q′为强化学习的状态价值函数,其输入为s′和μ′(s′|ω′),参数为θ′i,i为正整数,且1≤i≤K;
目标的值就是环境的奖励反馈加上Q′i的衰减值,它与Qi的差值就是训练的误差,称为时序差分误差TDerror(Temporal difference error),采用平方误差作为误差函数,即每个critic子模块的训练误差L(θi)为:
L(θi)=(r(st,at)+γQ′(st+1,at+1|θ′i)-Q(st,at|θi))2,
其中r(st,at)为奖励函数,所述γ为衰减因子,且0≤γ≤1;
该误差表示了critic模块中第i个子模块与target_critic模块对应的第i个子模块的误差,可用来对critic模块中的第i个子模块进行训练更新,此外,在训练所述K个critic子模块时,还使用TDerror的平均值,即critic模块平均值Qavg与target_critic模块的平均值Q′avg所产生的平方误差Lavg(θ):
Lavg(θ)=(r(s,a)+γQ′avg(s,a|θ′)-Qavg(s,a|θ))2,
其中,Qavg和Q′avg分别为critic模块和target_critic模块各自所包含的多个子模块输出的平均值,它们的输入均为s,a,参数分别为θ和θ′,所述θ为critic模块包含的所有子模块的参数的集合,所述θ′为target_critic模块包含的所有子模块的参数的集合;
为了防止critic模块中评论家子模块的评价值产生较大的分歧,增加一个约束项来限制每一个critic子模块的评价值Qi与Qavg之间的差值C(θi),即:
C(θi)=(Qi(s,a|θi)-Qavg(s,a|θ))2
对于每一个critic子模块,将其自身与target_critic的TDerror与critic模块平均值的TDerror进行加权平均,再加上影响因子β乘以该评论家子模块的约束项,就是该评论家子模块进行迭代训练的误差函数Loss(θi):
Loss(θi)=τL(θi)+(1-τ)Lavg(θ)+βC(θi)
其中,τ为分配占比,且0<τ<1;
根据梯度更新critic子模块的参数θi:
其中,表示更新后的θi,表示更新前的θi,α为影响因子,且每隔一定步数的迭代训练,将critic子模块的参数复制给target_critic模块中的对应的子模块;
步骤6.3:通过确定性策略梯度算法训练actor模块,并每隔一定训练次数更新target_actor模块参数,所述确定性策略表示actor模块根据输入的环境状态输出一个确定的动作用于执行,而不再是一个动作的分布,确定的动作表示为a=μ(s|ω),其中ω是actor策略μ的参数,那么,actor模块的训练更新则需要critic模块来提供确定性的策略梯度:
其中是求梯度运算符,
同样地,根据梯度来更新actor模块的参数:
其中,ωnew表示更新后的ω,ωold表示更新前的ω,α为影响因子,并且每隔一定步数的迭代训练,就需要将actor模块的参数复制给target_actor模块;
步骤6.4:重复步骤6.1到步骤6.3,使得模型不断地训练优化,直到达到了最大的迭代次数或者满足终止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811650467.5A CN109934332A (zh) | 2018-12-31 | 2018-12-31 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811650467.5A CN109934332A (zh) | 2018-12-31 | 2018-12-31 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109934332A true CN109934332A (zh) | 2019-06-25 |
Family
ID=66984870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811650467.5A Pending CN109934332A (zh) | 2018-12-31 | 2018-12-31 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934332A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110370295A (zh) * | 2019-07-02 | 2019-10-25 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
CN110458663A (zh) * | 2019-08-06 | 2019-11-15 | 上海新共赢信息科技有限公司 | 一种车辆推荐方法、装置、设备及存储介质 |
CN110458443A (zh) * | 2019-08-07 | 2019-11-15 | 南京邮电大学 | 一种基于深度强化学习的智慧家庭能量管理方法及系统 |
CN110609875A (zh) * | 2019-08-26 | 2019-12-24 | 华北电力大学(保定) | 一种esi跨期数据智能检索方法 |
CN110659796A (zh) * | 2019-08-08 | 2020-01-07 | 北京理工大学 | 一种可充电群车智能中的数据采集方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111267830A (zh) * | 2020-02-10 | 2020-06-12 | 南京航空航天大学 | 一种混合动力公交车能量管理方法、设备和存储介质 |
CN111292001A (zh) * | 2020-02-24 | 2020-06-16 | 清华大学深圳国际研究生院 | 基于强化学习的联合决策方法及装置 |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111694365A (zh) * | 2020-07-01 | 2020-09-22 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
CN112084680A (zh) * | 2020-09-02 | 2020-12-15 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112131206A (zh) * | 2020-09-24 | 2020-12-25 | 北京计算机技术及应用研究所 | 一种多模型数据库OrientDB参数配置自动调优方法 |
CN112381359A (zh) * | 2020-10-27 | 2021-02-19 | 惠州蓄能发电有限公司 | 一种基于数据挖掘的多critic强化学习的电力经济调度方法 |
CN112508398A (zh) * | 2020-12-04 | 2021-03-16 | 北京邮电大学 | 基于深度强化学习的动态生产调度方法、装置及电子设备 |
CN112600256A (zh) * | 2020-12-04 | 2021-04-02 | 深圳供电局有限公司 | 微网电力控制方法 |
CN112802061A (zh) * | 2021-03-22 | 2021-05-14 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
CN112819215A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN112835368A (zh) * | 2021-01-06 | 2021-05-25 | 上海大学 | 一种多无人艇协同编队控制方法及系统 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113032934A (zh) * | 2021-03-10 | 2021-06-25 | 东北电力大学 | 基于me-td3算法的风电场动态参数智能校核方法 |
CN113158608A (zh) * | 2021-02-26 | 2021-07-23 | 北京大学 | 确定模拟电路参数的处理方法、装置、设备及存储介质 |
CN113591375A (zh) * | 2021-07-16 | 2021-11-02 | 四川大学 | 一种基于智能体的多能源系统最优协同运行方法 |
CN113706023A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN113778080A (zh) * | 2021-08-09 | 2021-12-10 | 清华大学 | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 |
CN113983638A (zh) * | 2021-10-29 | 2022-01-28 | 西安建筑科技大学 | 一种基于改进型dqn的室内热舒适控制方法及系统 |
CN114770523A (zh) * | 2022-05-31 | 2022-07-22 | 苏州大学 | 一种基于离线环境交互的机器人控制方法 |
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN118051063A (zh) * | 2024-04-16 | 2024-05-17 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038545A (zh) * | 2017-12-06 | 2018-05-15 | 湖北工业大学 | 基于Actor-Critic神经网络连续控制的快速学习算法 |
CN108536011A (zh) * | 2018-03-19 | 2018-09-14 | 中山大学 | 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
-
2018
- 2018-12-31 CN CN201811650467.5A patent/CN109934332A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038545A (zh) * | 2017-12-06 | 2018-05-15 | 湖北工业大学 | 基于Actor-Critic神经网络连续控制的快速学习算法 |
CN108536011A (zh) * | 2018-03-19 | 2018-09-14 | 中山大学 | 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
Non-Patent Citations (3)
Title |
---|
JIAO WU ET AL: "Multi-Critic DDPG Method and Double Experience Replay", 《2018 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS,MAN,AND CYBERNETICS》 * |
SILVER D ET AL: "deterministic policy gradient algorithms", 《INTERNATIONAL CONFERENCE ON INTERNATIONAL CONFERENCE ON 》 * |
WANRONG HUANG ET AL: "A Deep Reinforcement Learning Approach to Preserve Connectivity for Multi-robot Systems", 《2017 10TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》 * |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110370295B (zh) * | 2019-07-02 | 2020-12-18 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110370295A (zh) * | 2019-07-02 | 2019-10-25 | 浙江大学 | 基于深度强化学习的小型足球机器人主动控制吸球方法 |
CN110458663B (zh) * | 2019-08-06 | 2020-06-02 | 上海新共赢信息科技有限公司 | 一种车辆推荐方法、装置、设备及存储介质 |
CN110458663A (zh) * | 2019-08-06 | 2019-11-15 | 上海新共赢信息科技有限公司 | 一种车辆推荐方法、装置、设备及存储介质 |
CN110458443B (zh) * | 2019-08-07 | 2022-08-16 | 南京邮电大学 | 一种基于深度强化学习的智慧家庭能量管理方法及系统 |
CN110458443A (zh) * | 2019-08-07 | 2019-11-15 | 南京邮电大学 | 一种基于深度强化学习的智慧家庭能量管理方法及系统 |
CN110659796A (zh) * | 2019-08-08 | 2020-01-07 | 北京理工大学 | 一种可充电群车智能中的数据采集方法 |
CN110659796B (zh) * | 2019-08-08 | 2022-07-08 | 北京理工大学 | 一种可充电群车智能中的数据采集方法 |
CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
CN110609875A (zh) * | 2019-08-26 | 2019-12-24 | 华北电力大学(保定) | 一种esi跨期数据智能检索方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN110806756B (zh) * | 2019-09-10 | 2022-08-02 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111267830A (zh) * | 2020-02-10 | 2020-06-12 | 南京航空航天大学 | 一种混合动力公交车能量管理方法、设备和存储介质 |
CN111267830B (zh) * | 2020-02-10 | 2021-07-09 | 南京航空航天大学 | 一种混合动力公交车能量管理方法、设备和存储介质 |
CN111292001A (zh) * | 2020-02-24 | 2020-06-16 | 清华大学深圳国际研究生院 | 基于强化学习的联合决策方法及装置 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112118556B (zh) * | 2020-03-02 | 2022-11-18 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111300390B (zh) * | 2020-03-20 | 2021-03-23 | 南栖仙策(南京)科技有限公司 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111694365A (zh) * | 2020-07-01 | 2020-09-22 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
US11914376B2 (en) | 2020-07-01 | 2024-02-27 | Wuhan University Of Technology | USV formation path-following method based on deep reinforcement learning |
CN112084680A (zh) * | 2020-09-02 | 2020-12-15 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112084680B (zh) * | 2020-09-02 | 2023-12-26 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112131206B (zh) * | 2020-09-24 | 2023-01-10 | 北京计算机技术及应用研究所 | 一种多模型数据库OrientDB参数配置自动调优方法 |
CN112131206A (zh) * | 2020-09-24 | 2020-12-25 | 北京计算机技术及应用研究所 | 一种多模型数据库OrientDB参数配置自动调优方法 |
CN112381359A (zh) * | 2020-10-27 | 2021-02-19 | 惠州蓄能发电有限公司 | 一种基于数据挖掘的多critic强化学习的电力经济调度方法 |
CN112600256A (zh) * | 2020-12-04 | 2021-04-02 | 深圳供电局有限公司 | 微网电力控制方法 |
CN112508398A (zh) * | 2020-12-04 | 2021-03-16 | 北京邮电大学 | 基于深度强化学习的动态生产调度方法、装置及电子设备 |
CN112835368A (zh) * | 2021-01-06 | 2021-05-25 | 上海大学 | 一种多无人艇协同编队控制方法及系统 |
CN112819215B (zh) * | 2021-01-26 | 2024-01-12 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN112819215A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN113031528A (zh) * | 2021-02-25 | 2021-06-25 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人运动控制方法 |
CN113031528B (zh) * | 2021-02-25 | 2022-03-15 | 电子科技大学 | 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法 |
CN113158608A (zh) * | 2021-02-26 | 2021-07-23 | 北京大学 | 确定模拟电路参数的处理方法、装置、设备及存储介质 |
CN113032934A (zh) * | 2021-03-10 | 2021-06-25 | 东北电力大学 | 基于me-td3算法的风电场动态参数智能校核方法 |
CN113032934B (zh) * | 2021-03-10 | 2022-09-20 | 东北电力大学 | 基于me-td3算法的风电场动态参数智能校核方法 |
CN112802061B (zh) * | 2021-03-22 | 2021-08-06 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
CN112802061A (zh) * | 2021-03-22 | 2021-05-14 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
CN113591375B (zh) * | 2021-07-16 | 2023-04-25 | 四川大学 | 一种基于智能体的多能源系统最优协同运行方法 |
CN113591375A (zh) * | 2021-07-16 | 2021-11-02 | 四川大学 | 一种基于智能体的多能源系统最优协同运行方法 |
CN113778080A (zh) * | 2021-08-09 | 2021-12-10 | 清华大学 | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 |
CN113778080B (zh) * | 2021-08-09 | 2023-12-01 | 清华大学 | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 |
CN113706023B (zh) * | 2021-08-31 | 2022-07-12 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN113706023A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN113983638A (zh) * | 2021-10-29 | 2022-01-28 | 西安建筑科技大学 | 一种基于改进型dqn的室内热舒适控制方法及系统 |
CN114770523A (zh) * | 2022-05-31 | 2022-07-22 | 苏州大学 | 一种基于离线环境交互的机器人控制方法 |
CN114770523B (zh) * | 2022-05-31 | 2023-09-15 | 苏州大学 | 一种基于离线环境交互的机器人控制方法 |
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN115330556B (zh) * | 2022-08-10 | 2024-04-02 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN118051063A (zh) * | 2024-04-16 | 2024-05-17 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
CN118051063B (zh) * | 2024-04-16 | 2024-06-14 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934332A (zh) | 基于评论家和双经验池的深度确定性策略梯度学习方法 | |
Zahavy et al. | Learn what not to learn: Action elimination with deep reinforcement learning | |
CN111177792B (zh) | 基于隐私保护确定目标业务模型的方法及装置 | |
CN113792937A (zh) | 一种基于图神经网络的社交网络影响力预测方法、装置 | |
CN113158608A (zh) | 确定模拟电路参数的处理方法、装置、设备及存储介质 | |
JP6325762B1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Tan et al. | End-to-end supermask pruning: Learning to prune image captioning models | |
CN112541570A (zh) | 一种多模型训练方法、装置、电子设备及存储介质 | |
CN107441709B (zh) | 基于模糊行为树的游戏智能体动作序列生成方法 | |
CN117474077A (zh) | 一种基于oar模型与强化学习的辅助决策方法和装置 | |
Yang et al. | Hierarchical reinforcement learning for conversational recommendation with knowledge graph reasoning and heterogeneous questions | |
Cai et al. | Near-optimal policy optimization for correlated equilibrium in general-sum Markov games | |
CN115829717B (zh) | 风控决策规则优化方法、系统、终端及存储介质 | |
CN116090522A (zh) | 一种基于因果反馈的缺失数据集因果关系发现方法及系统 | |
Xie et al. | Evolutionary sampling: A novel way of machine learning within a probabilistic framework | |
CN114239827A (zh) | 基于混合采样策略的多智能体在线动作决策方法 | |
Olesen et al. | Evolutionary planning in latent space | |
CN114626284A (zh) | 一种模型处理方法及相关装置 | |
Wu et al. | Monte-Carlo Bayesian reinforcement learning using a compact factored representation | |
CN112465106A (zh) | 一种提高深度学习模型精度的方法、系统、设备及介质 | |
CN112287599B (zh) | 基于多步新奇度的时态序列迭代预测算法、介质和设备 | |
CN116187446B (zh) | 基于自适应注意力机制的知识图谱补全方法、装置和设备 | |
CN117540828B (zh) | 作训科目推荐模型训练方法、装置、电子设备和存储介质 | |
JP7338858B2 (ja) | 行動学習装置、行動学習方法、行動決定装置及び行動決定方法 | |
Valk | Comparing the performance of Argumentation-Based Learning with tabular and approximation-based QLearning: A quantitative study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |
|
RJ01 | Rejection of invention patent application after publication |