CN111008449A - 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 - Google Patents

一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 Download PDF

Info

Publication number
CN111008449A
CN111008449A CN201910343721.5A CN201910343721A CN111008449A CN 111008449 A CN111008449 A CN 111008449A CN 201910343721 A CN201910343721 A CN 201910343721A CN 111008449 A CN111008449 A CN 111008449A
Authority
CN
China
Prior art keywords
neural network
heuristic
action value
value function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910343721.5A
Other languages
English (en)
Inventor
李辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Rongao Technology Co ltd
Original Assignee
Chengdu Rongao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Rongao Technology Co ltd filed Critical Chengdu Rongao Technology Co ltd
Priority to CN201910343721.5A priority Critical patent/CN111008449A/zh
Publication of CN111008449A publication Critical patent/CN111008449A/zh
Priority to CN202010313846.6A priority patent/CN111339690A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出一种用于战场仿真环境下深度强化学习推演决策训练的加速方法。该方法针对战场仿真想定场景下使用深度强化学习制定决策时存在训练缓慢的问题,引入启发动作值函数评估动作表现,从而加快训练速度。该方法主要包括:任务建模;算法初始化;Agent与战场仿真环境交互,存储信息到经验缓存池;在经验缓存池中随机采样输入到神经网络;基于神经网络的输出计算期望值函数;基于期望值函数计算启发动作值函数;使用启发动作值函数更新启发神经网络参数;结合启发动作值函数更新在线神经网络参数;定期进行目标神经网络的参数更新。该方法适用于深度Q神经网络架构算法的加速训练,且能够抑制过估计带来的负面影响。

Description

一种用于战场仿真环境下深度强化学习推演决策训练的加速 方法
技术领域
本发明涉及仿真领域和智能算法领域,尤其涉及基于深度强化学习技术的战场仿真环境下的智能推演决策方法。
背景技术
随着计算机技术以及信息化装备的发展,基于仿真技术的战场仿真对军事作战领域进行逼真模拟,形成虚拟的数字化战场,能够以较低的人力、物力和时间成本进行想定环境下的实战演练和作战效能分析。基于战场仿真平台的推演能够辅助进行战法研究,制定或检验作战计划等。
近年来,人工智能技术迅猛发展。随着AlphaGo系列算法成为此次人工智能热潮的标志性工作之一,其背后的深度强化学习技术引起学术界和工业界广泛关注,也被越来越多的应用于生产生活中。如淘宝将深度强化学习技术应用于电商推荐服务以增加成交量,DeepMind公司将其应用于谷歌公司数据中心的资源调配工作以降低电力成本等。在特定想定环境下的推演任务在本质上可被抽象化为序列决策任务,基于深度强化学习所获得的推演决策将丰富作战计划的制定,同时可通过对战等形式更好的进行作战计划的效能分析。因此,基于深度强化学习的推演决策有着重要的实用价值和深远意义。
但是,深度强化学习技术在落地应用过程中还存在诸多困难。众所周知,深度学习技术需要大量数据驱动。而强化学习技术以试错的方式进行策略学习,虽然不同于监督学习因为对大量标注数据的需求而开展繁琐的数据标注工作,但也需要通过与环境持续交互获取足够多的样本。因此,结合深度学习和强化学习的深度强化学习势必需要更多的样本和更多次数的训练。所以深度强化学习技术落地的一大重要挑战便是需要大量与环境交互产生的样本,学习速度慢。而在现实生活以及战场仿真的很多场景中,与环境交互获取样本的时间、金钱成本较高。
针对深度强化学习的样本效率和训练速度问题,多种改进算法分别从不同角度去提升算法性能。经验优先级回放方法通过给样本设置优先级,令引起较大参数更新的样本被采样的概率增加,从而提高训练速度;Dueling DQN方法通过更改神经网络架构,将动作值函数分成优势值函数和状态值函数的加和,以提高对动作值函数的更新,从而提高训练速度;值函数分布方法通过使用一个离散分布来表示动作值函数,以提高对动作值函数的估计。Rainbow算法将多种不同角度的改进方法组合成为一种方法,取得了更好的算法性能,表明不同角度的改进方法可以协同作用。
发明内容
本发明的目的是针对深度强化学习训练次数多、样本需求量大的问题,从更准确评定当前动作执行效果的角度提出一种用于战场仿真环境下深度强化学习推演决策训练的加速方法。该方法引入基于期望值函数的启发动作值函数更好的对执行动作的性能表现进行评价,从而更准确的估计动作值函数,进而更准确的更新神经网络参数,最终提高训练速度,减少样本需求量。
本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法主要包括以下步骤:
(1)任务建模,构建动作空间、状态空间和回报函数;
(2)Agent算法的初始化;
(3)Agent持续基于当前神经网络与战场仿真环境交互,并将获取的信息
Figure 760018DEST_PATH_IMAGE001
存放在经验缓存池D;
(4)在经验缓存池中随机选择信息作为在线神经网络和目标神经网络的输入,并分别获取两个神经网络的输出
Figure 330676DEST_PATH_IMAGE002
(5)分别基于两个神经网络的输出
Figure 195864DEST_PATH_IMAGE002
计算期望值函数
Figure 334721DEST_PATH_IMAGE003
(6)基于计算所得的期望值函数
Figure 918150DEST_PATH_IMAGE003
计算启发动作值函数
Figure 433444DEST_PATH_IMAGE004
(7)使用启发动作值函数
Figure 44817DEST_PATH_IMAGE004
更新启发神经网络的参数;
(8)结合启发动作值函数
Figure 354575DEST_PATH_IMAGE004
更新在线神经网络的参数;
(9)定期进行目标神经网络的参数更新。
以上是本发明的总体步骤,特别是在基本的深度Q神经网络算法上添加步骤(6)、(7)、(8)后,整个算法才具有较快完成训练的先进性。其具体步骤如下:
步骤(6)中所述,基于计算所得的期望值函数计算启发动作值函数。其中,基于步骤(5)中期望值函数计算启发动作值函数
Figure 425299DEST_PATH_IMAGE004
,并通过启发动作值函数来辅助衡量所选择样本
Figure 478706DEST_PATH_IMAGE001
中在状态
Figure 318486DEST_PATH_IMAGE005
所选择动作
Figure 923780DEST_PATH_IMAGE006
的好坏,从而获得更好的策略。启发动作值函数为
Figure 481800DEST_PATH_IMAGE007
步骤(7)中所述,使用启发动作值函数
Figure 73318DEST_PATH_IMAGE004
更新启发神经网络的参数。其中,为了增强启发动作值函数
Figure 767605DEST_PATH_IMAGE004
的泛化能力,增加并训练启发神经网络。具体操作为将状态输入到启发神经,输出为
Figure 684745DEST_PATH_IMAGE004
。通过启发动作值函数作为启发神经网络训练目标,对启发神经网络的参数更新方式为
Figure DEST_PATH_849295DEST_PATH_IMAGE002
在不需要考虑泛化的情况下,可直接使用启发动作值函数
Figure 220211DEST_PATH_IMAGE004
而不必重新设置一个启发神经网络。所以,通过启发神经网络训练所获得的启发动作值函数和步骤(5)所得启发动作值函数在后面均使用
Figure 34584DEST_PATH_IMAGE004
表示。
步骤(8)中所述,结合启发动作值函数
Figure 857046DEST_PATH_IMAGE004
更新在线神经网络的参数。其中,当采用启发神经网络时,为避免神经网络在训练初期输出值偏差过大而影响训练,通过结合
Figure 124079DEST_PATH_IMAGE009
-贪婪策略的参数
Figure 713192DEST_PATH_IMAGE009
来调节启发动作值函数的影响量级。所以在线神经网络的更新方式为
Figure DEST_PATH_116328DEST_PATH_IMAGE003
当不采用启发神经网络时,直接使用基于在线神经网络和目标神经网络计算的启发动作值函数
Figure 375435DEST_PATH_IMAGE004
进行在线神经网络的参数更新,更新
Figure DEST_PATH_252911DEST_PATH_IMAGE004
本发明具有如下优点及效果:
(1)本发明适用于所有采用Deep Q Network (DQN) 网络架构的算法,即包含一个在线网络和一个目标网络的算法,具有普适性、通用性;
(2)本发明通过引入基于神经网络所输出动作值函数的启发动作值函数,能够更准确的衡量所执行动作的性能表现,从而更高效的完成神经网络参数的更新,进而提高训练效率、减少所需样本;
(3)本发明所使用添加启发动作值函数项的损失函数,当对性能表现较好的动作所对应的动作值函数进行更新时,能够加强该动作值函数的增加或者抑制该动作值函数的减小;当对性能表现较差的动作所对应的动作值函数进行更新时,能够加强其减小或抑制其增加。最终,使得不同动作的动作值函数差距加大,能够缓解动作值函数的过估计问题。
附图说明
图1是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的流程图;
图2是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的侦察机控制器示意图;
图3是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的神经网络结构及参数更新示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进行进一步详细说明。有必要指出,以下实施例只用于该方法做进一步的说明,不能理解为对该方法保护范围的限制,该领域技术熟练人员根据上述该方法内容对该方法做出一些非本质的改进和调整,仍属于本发明的保护范围。
本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的具体实施方式,包括以下步骤:(1)任务建模,构建动作空间、状态空间和回报函数;(2)Agent算法的初始化;(3)Agent持续基于当前神经网络与战场仿真环境交互,并将获取的信息
Figure 866776DEST_PATH_IMAGE001
存放在经验缓存池D;(4)在经验缓存池D中随机采样信息作为在线神经网络和目标神经网络的输入,并分别获取两个神经网络的输出
Figure 733103DEST_PATH_IMAGE002
;(5)分别基于两个神经网络的输出
Figure 162947DEST_PATH_IMAGE002
计算期望值函数
Figure 404573DEST_PATH_IMAGE003
;(6)基于计算所得的期望值函数
Figure 679696DEST_PATH_IMAGE003
计算启发动作值函数
Figure 323167DEST_PATH_IMAGE004
;(7)使用启发动作值函数
Figure 48546DEST_PATH_IMAGE004
更新启发神经网络的参数;(8)结合启发动作值函数
Figure 777468DEST_PATH_IMAGE004
更新在线神经网络的参数;(9)定期进行目标神经网络的参数更新。
下面结合图1,以仿真战场中控制侦察机执行侦查任务为实例,对该发明的各步骤进行详细说明。图1是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的流程图。如图1所示,该方法包括以下几个步骤:
(1)任务建模,构建动作空间、状态空间和回报函数基于战场基本规则和想定环境条件,设置任务执行成功与否的奖励值和状态空间以及动作空间。在控制侦查飞机执行侦查任务的本实例中,如图2所示,图2为一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的侦察机控制器示意图,算法的agent即侦察机控制器。该侦查机的动作空间大小||A||为16,具体为方向动作(保持方向、上升、下降、左转、右转)和速度动作(加速、匀速、减速)的动作组合,以及撤退动作;将自身坐标和可视范围内的单位坐标放入状态张量作为当前时刻的状态
Figure 856282DEST_PATH_IMAGE005
;将到达指定侦查目的地的奖励值
Figure 354260DEST_PATH_IMAGE012
设置为+1,将被对方发现的奖励值
Figure 125907DEST_PATH_IMAGE012
设置为-1。
(2)侦察机控制器的算法初始化
本发明中侦察机控制器的神经网络结构如图3所示,图3为一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的神经网络结构及参数更新示意图。在本发明中,共有3个神经网络:分别为在线神经网络online-network、目标神经网络target-network和启发神经网络heu-network。三个神经网络使用相同的神经网络结构,其中在线神经网络和目标神经网络的输出个数对应于环境动作空间大小||A||,启发神经网络的输出个数为1。在训练开始前,对三个神经网络进行参数的随机初始化。
另外,在本发明中需要使用经验缓存池D保存训练过程中Agent与战场环境交互获取的数据。所以,训练前将经验缓存池大小设计为Nbuffer
(3)侦察机控制器持续基于当前神经网络与战场仿真环境交互,并将获取的信息
Figure 702644DEST_PATH_IMAGE001
存放在经验缓存池D
侦察机控制器在状态
Figure 585149DEST_PATH_IMAGE005
基于当前神经网络的输出
Figure 937633DEST_PATH_IMAGE002
遵循
Figure 880181DEST_PATH_IMAGE009
-贪婪策略π(a t | s t )选择动作a t ,在战场环境中执行动作a t 并在下一时刻获取状态s t +1,并接收来自环境反馈的奖励值r t 。之后,侦察机控制器将状态,s t ,所执行动作a t ,下一状态,s t +1和奖励值r t 打包成(s t , a t , r t ,s t +1)一同存入经验缓存池D中。
其中,ε-贪婪策略为:
Figure DEST_PATH_921790DEST_PATH_IMAGE005
此算法为在线学习算法,侦察机控制器依赖当前神经网络按照上述方式与战场环境进行持续的交互并储存信息,并利用该储存信息来训练侦察机控制器中神经网络的训练。
(4)在经验缓存池中随机选择信息作为在线神经网络online-network和目标神经网络target-network的输入,并分别获取两个神经网络的输出
Figure 407109DEST_PATH_IMAGE002
当经验缓存池D中储存的样本数量达到事先设定的可以进行训练的数量N后,便可以对侦察机控制器的神经网络结构进行训练。具体为从中随机选择一批样本
Figure 973219DEST_PATH_IMAGE001
;首先将所选样本中的状态
Figure 274888DEST_PATH_IMAGE005
先进行同等程度的标准化处理;然后分别输入到在线神经网络,并输出||A||个动作值函数
Figure 635462DEST_PATH_IMAGE002
;将所选样本中的下一状态输入到目标神经网络中,输出动作值函数
Figure 22581DEST_PATH_IMAGE002
(5)分别基于两个神经网络的输出
Figure 18481DEST_PATH_IMAGE002
计算期望值函数
Figure 909077DEST_PATH_IMAGE003
分别基于侦察机控制器中在线神经网络和目标神经网络的输出,即动作值函数
Figure 706131DEST_PATH_IMAGE016
Figure 314967DEST_PATH_IMAGE017
,结合
Figure 488460DEST_PATH_IMAGE009
-贪婪策略
Figure 623775DEST_PATH_IMAGE013
通过求期望的方式获得期望值函数
Figure 591731DEST_PATH_IMAGE003
.
状态的期望值函数为
Figure 687863DEST_PATH_IMAGE018
其中,
Figure 399467DEST_PATH_IMAGE019
为当前最优动作值函数所对应的贪婪动作。
同理,下一状态
Figure 264655DEST_PATH_IMAGE014
的期望值函数为
Figure 758172DEST_PATH_IMAGE020
(6)基于期望值函数
Figure 341600DEST_PATH_IMAGE003
计算启发动作值函数
Figure 591316DEST_PATH_IMAGE004
基于上述期望值函数计算启发动作值函数
Figure 576589DEST_PATH_IMAGE004
,并通过启发动作值函数来辅助衡量所选择样本
Figure 886348DEST_PATH_IMAGE001
中在状态
Figure 347285DEST_PATH_IMAGE005
上侦察机控制器所选择动作
Figure 400692DEST_PATH_IMAGE006
的好坏,从而获得更好的策略。启发动作值函数为
Figure 240472DEST_PATH_IMAGE007
(7)使用启发动作值函数
Figure 721132DEST_PATH_IMAGE004
更新启发神经网络heu-network的参数
通过训练启发神经网络,增强启发动作值函数
Figure 13573DEST_PATH_IMAGE004
的泛化能力。具体操作为将状态
Figure 496769DEST_PATH_IMAGE005
输入到启发神经,输出为
Figure 191055DEST_PATH_IMAGE004
。通过启发动作值函数作为启发神经网络训练目标,对启发神经网络的参数更新方式为
Figure DEST_PATH_867563DEST_PATH_IMAGE002
在不需要考虑泛化的情况下,可以直接使用启发动作值函数而不必重新设置 一个启发神经网络。所以,通过启发神经网络训练所输出的启发动作值函数
Figure DEST_PATH_297408DEST_PATH_IMAGE008
和 步骤(5)所得启发动作值函数在后面均使用表示。
此外,在本实例中,侦察机控制器使用了启发神经网络。
(8)结合启发动作值函数
Figure 956569DEST_PATH_IMAGE004
更新在线神经网络online-ntwork的参数
在采用启发神经网络的本实例中,为避免神经网络在训练初期输出值偏差过大而影响训练,通过结合
Figure 44611DEST_PATH_IMAGE009
-贪婪策略的参数
Figure 311644DEST_PATH_IMAGE009
来调节启发动作值函数的影响量级。所以在线神经网络的更新方式为
Figure DEST_PATH_539033DEST_PATH_IMAGE003
当不采用启发神经网络时,直接使用基于在线神经网络和目标神经网络计算的启发动作值函数
Figure 539942DEST_PATH_IMAGE004
进行在线神经网络的参数更新,更新方式为
Figure DEST_PATH_814157DEST_PATH_IMAGE004
(9)定期进行目标神经网络target-network的参数更新
当训练次数达到预先设定的Nupdate时,将在线神经网络的参数直接复制给目标神经网络,完成目标神经网络参数的更新;如训练次数没有达到Nupdate,则跳过目标神经网络的参数更新,继续下一次迭代。
经过上述步骤,整个算法具体表现为在未添加启发动作值函数之前,动作值函数主要依靠基于奖励值
Figure 553215DEST_PATH_IMAGE012
的折扣累积回报;在添加动作值函数之后,在每一步的更新中都可以基于相邻的状态值函数来辅助评估引起该状态转移的动作的性能表现,从而更准确的评估该动作对应的动作值函数,特别是在类似于本控制侦察机执行侦查任务实例所述稀疏奖励问题中。最终,使用本发明方法能够有效加快战场仿真环境下深度强化学习推演决策的训练速度,提高样本效率。

Claims (4)

1.本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法主要包括以下步骤:
(1)任务建模,构建动作空间、状态空间和回报函数;
(2)Agent算法的初始化;
(3)Agent持续基于当前神经网络与战场仿真环境交互,并将获取的信息
Figure 675671DEST_PATH_IMAGE001
存放在经验缓存池D;
(4)在经验缓存池中随机选择信息作为在线神经网络和目标神经网络的输入,并分别获取两个神经网络的输出
Figure 592811DEST_PATH_IMAGE002
(5)分别基于两个神经网络的输出
Figure 372548DEST_PATH_IMAGE002
计算期望值函数
Figure 767758DEST_PATH_IMAGE003
(6)基于计算所得的期望值函数
Figure 956031DEST_PATH_IMAGE003
计算启发动作值函数
Figure 778494DEST_PATH_IMAGE004
(7)使用启发动作值函数
Figure 45527DEST_PATH_IMAGE004
更新启发神经网络的参数;
(8)结合启发动作值函数
Figure 244427DEST_PATH_IMAGE004
更新在线神经网络的参数;
(9)定期进行目标神经网络的参数更新。
2.根据权利要求1所述的方法,其特征在于,步骤(6)中所述,基于计算所得的期望值函数计算启发动作值函数;其中,基于步骤(5)中期望值函数计算启发动作值函数
Figure 913306DEST_PATH_IMAGE004
,并通过启发动作值函数来辅助衡量所选择样本
Figure 782036DEST_PATH_IMAGE001
中在状态
Figure 536365DEST_PATH_IMAGE005
所选择动作
Figure 273377DEST_PATH_IMAGE006
的好坏,从而获得更好的策略;启发动作值函数为
Figure 796762DEST_PATH_IMAGE007
3.根据权利要求1所述的方法,其特征在于,步骤(7)中所述,使用启发动作值函数QH (st,at)更新启发神经网络的参数;其中,为了增强启发动作值函数QH (st,at)的泛化能力,增加并训练启发神经网络;具体操作为将状态st输入到启发神经,输出为QH (st,at);通过启发动作值函数作为启发神经网络训练目标,对启发神经网络的参数更新方式为
Figure RE-957497DEST_PATH_IMAGE002
在不需要考虑泛化的情况下,可直接使用启发动作值函数QH (st,at)而不必重新设置一个启发神经网络;所以,通过启发神经网络训练所获得的启发动作值函数和步骤(5)所得启发动作值函数在后面均使用QH (st,at)表示。
4.根据权利要求1所述的方法,其特征在于,步骤(8)中所述,结合启发动作值函数QH (st,at)更新在线神经网络的参数;其中,当采用启发神经网络时,为避免神经网络在训练初期输出值偏差过大而影响训练,通过结合ε-贪婪策略的参数来调节启发动作值函数的影响量级;所以在线神经网络的更新方式为
Figure RE-686419DEST_PATH_IMAGE003
当不采用启发神经网络时,直接使用基于在线神经网络和目标神经网络计算的启发动作值函数QH (st,at)进行在线神经网络的参数更新,更新
Figure RE-702916DEST_PATH_IMAGE004
CN201910343721.5A 2019-04-26 2019-04-26 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 Withdrawn CN111008449A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910343721.5A CN111008449A (zh) 2019-04-26 2019-04-26 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN202010313846.6A CN111339690A (zh) 2019-04-26 2020-04-20 一种基于期望值函数的深度强化学习训练加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910343721.5A CN111008449A (zh) 2019-04-26 2019-04-26 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法

Publications (1)

Publication Number Publication Date
CN111008449A true CN111008449A (zh) 2020-04-14

Family

ID=70110734

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910343721.5A Withdrawn CN111008449A (zh) 2019-04-26 2019-04-26 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN202010313846.6A Pending CN111339690A (zh) 2019-04-26 2020-04-20 一种基于期望值函数的深度强化学习训练加速方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010313846.6A Pending CN111339690A (zh) 2019-04-26 2020-04-20 一种基于期望值函数的深度强化学习训练加速方法

Country Status (1)

Country Link
CN (2) CN111008449A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN112862885A (zh) * 2021-01-22 2021-05-28 江苏丰华联合科技有限公司 一种基于深度强化学习的柔性物体展开方法
CN112883586A (zh) * 2021-03-15 2021-06-01 中国人民解放军国防科技大学 一种基于双逻辑层Agent的模拟仿真系统及方法
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN114859734A (zh) * 2022-06-15 2022-08-05 厦门大学 一种基于改进sac算法的温室环境参数优化决策方法
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882030B (zh) * 2020-06-29 2023-12-05 武汉钢铁有限公司 一种基于深度强化学习的加锭策略方法
CN111753300B (zh) * 2020-06-29 2024-03-19 浙江工业大学 面向强化学习的检测防御异常数据方法和装置
CN112052936B (zh) * 2020-07-24 2022-06-03 清华大学 基于生成对抗机制的强化学习探索方法及装置
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112162564B (zh) * 2020-09-25 2021-09-28 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN112862885A (zh) * 2021-01-22 2021-05-28 江苏丰华联合科技有限公司 一种基于深度强化学习的柔性物体展开方法
CN112862885B (zh) * 2021-01-22 2023-07-21 江苏丰华联合科技有限公司 一种基于深度强化学习的柔性物体展开方法
CN112883586A (zh) * 2021-03-15 2021-06-01 中国人民解放军国防科技大学 一种基于双逻辑层Agent的模拟仿真系统及方法
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN113298260B (zh) * 2021-06-11 2022-07-26 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN114859734A (zh) * 2022-06-15 2022-08-05 厦门大学 一种基于改进sac算法的温室环境参数优化决策方法
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Also Published As

Publication number Publication date
CN111339690A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111008449A (zh) 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
US11779837B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
Wulfmeier et al. Mutual alignment transfer learning
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
Rajendran et al. Attend, adapt and transfer: Attentive deep architecture for adaptive transfer from multiple sources in the same domain
EP3992857A1 (en) Method and device for generating neural network model, and computer-readable storage medium
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
CN109726813A (zh) 任务的强化和模仿学习
US20220176248A1 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
CN109523029A (zh) 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
Ren et al. Generalization guarantees for imitation learning
US20220176554A1 (en) Method and device for controlling a robot
CN110447041A (zh) 噪声神经网络层
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
Jia et al. Improving policy optimization with generalist-specialist learning
Rengarajan et al. Enhanced Meta Reinforcement Learning via Demonstrations in Sparse Reward Environments
Källström et al. Reinforcement learning for computer generated forces using open-source software
CN116400726A (zh) 一种基于强化学习的旋翼无人机逃逸方法及系统
Liu et al. Hindsight generative adversarial imitation learning
KR20230010746A (ko) 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝
Contardo et al. Learning states representations in pomdp
Kuzmin et al. Hierarchical reinforcement learning with options and united neural network approximation
Chen et al. Learning to optimize differentiable games
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Ren et al. Generalization guarantees for multi-modal imitation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200414