CN111008449A - 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 - Google Patents
一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 Download PDFInfo
- Publication number
- CN111008449A CN111008449A CN201910343721.5A CN201910343721A CN111008449A CN 111008449 A CN111008449 A CN 111008449A CN 201910343721 A CN201910343721 A CN 201910343721A CN 111008449 A CN111008449 A CN 111008449A
- Authority
- CN
- China
- Prior art keywords
- neural network
- heuristic
- action value
- value function
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 238000004088 simulation Methods 0.000 title claims abstract description 27
- 230000001133 acceleration Effects 0.000 title description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 109
- 230000009471 action Effects 0.000 claims abstract description 88
- 230000006870 function Effects 0.000 claims abstract description 84
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出一种用于战场仿真环境下深度强化学习推演决策训练的加速方法。该方法针对战场仿真想定场景下使用深度强化学习制定决策时存在训练缓慢的问题,引入启发动作值函数评估动作表现,从而加快训练速度。该方法主要包括:任务建模;算法初始化;Agent与战场仿真环境交互,存储信息到经验缓存池;在经验缓存池中随机采样输入到神经网络;基于神经网络的输出计算期望值函数;基于期望值函数计算启发动作值函数;使用启发动作值函数更新启发神经网络参数;结合启发动作值函数更新在线神经网络参数;定期进行目标神经网络的参数更新。该方法适用于深度Q神经网络架构算法的加速训练,且能够抑制过估计带来的负面影响。
Description
技术领域
本发明涉及仿真领域和智能算法领域,尤其涉及基于深度强化学习技术的战场仿真环境下的智能推演决策方法。
背景技术
随着计算机技术以及信息化装备的发展,基于仿真技术的战场仿真对军事作战领域进行逼真模拟,形成虚拟的数字化战场,能够以较低的人力、物力和时间成本进行想定环境下的实战演练和作战效能分析。基于战场仿真平台的推演能够辅助进行战法研究,制定或检验作战计划等。
近年来,人工智能技术迅猛发展。随着AlphaGo系列算法成为此次人工智能热潮的标志性工作之一,其背后的深度强化学习技术引起学术界和工业界广泛关注,也被越来越多的应用于生产生活中。如淘宝将深度强化学习技术应用于电商推荐服务以增加成交量,DeepMind公司将其应用于谷歌公司数据中心的资源调配工作以降低电力成本等。在特定想定环境下的推演任务在本质上可被抽象化为序列决策任务,基于深度强化学习所获得的推演决策将丰富作战计划的制定,同时可通过对战等形式更好的进行作战计划的效能分析。因此,基于深度强化学习的推演决策有着重要的实用价值和深远意义。
但是,深度强化学习技术在落地应用过程中还存在诸多困难。众所周知,深度学习技术需要大量数据驱动。而强化学习技术以试错的方式进行策略学习,虽然不同于监督学习因为对大量标注数据的需求而开展繁琐的数据标注工作,但也需要通过与环境持续交互获取足够多的样本。因此,结合深度学习和强化学习的深度强化学习势必需要更多的样本和更多次数的训练。所以深度强化学习技术落地的一大重要挑战便是需要大量与环境交互产生的样本,学习速度慢。而在现实生活以及战场仿真的很多场景中,与环境交互获取样本的时间、金钱成本较高。
针对深度强化学习的样本效率和训练速度问题,多种改进算法分别从不同角度去提升算法性能。经验优先级回放方法通过给样本设置优先级,令引起较大参数更新的样本被采样的概率增加,从而提高训练速度;Dueling DQN方法通过更改神经网络架构,将动作值函数分成优势值函数和状态值函数的加和,以提高对动作值函数的更新,从而提高训练速度;值函数分布方法通过使用一个离散分布来表示动作值函数,以提高对动作值函数的估计。Rainbow算法将多种不同角度的改进方法组合成为一种方法,取得了更好的算法性能,表明不同角度的改进方法可以协同作用。
发明内容
本发明的目的是针对深度强化学习训练次数多、样本需求量大的问题,从更准确评定当前动作执行效果的角度提出一种用于战场仿真环境下深度强化学习推演决策训练的加速方法。该方法引入基于期望值函数的启发动作值函数更好的对执行动作的性能表现进行评价,从而更准确的估计动作值函数,进而更准确的更新神经网络参数,最终提高训练速度,减少样本需求量。
本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法主要包括以下步骤:
(1)任务建模,构建动作空间、状态空间和回报函数;
(2)Agent算法的初始化;
(9)定期进行目标神经网络的参数更新。
以上是本发明的总体步骤,特别是在基本的深度Q神经网络算法上添加步骤(6)、(7)、(8)后,整个算法才具有较快完成训练的先进性。其具体步骤如下:
步骤(6)中所述,基于计算所得的期望值函数计算启发动作值函数。其中,基于步骤(5)中期望值函数计算启发动作值函数,并通过启发动作值函数来辅助衡量所选择样本中在状态所选择动作的好坏,从而获得更好的策略。启发动作值函数为
步骤(7)中所述,使用启发动作值函数更新启发神经网络的参数。其中,为了增强启发动作值函数的泛化能力,增加并训练启发神经网络。具体操作为将状态输入到启发神经,输出为。通过启发动作值函数作为启发神经网络训练目标,对启发神经网络的参数更新方式为
步骤(8)中所述,结合启发动作值函数更新在线神经网络的参数。其中,当采用启发神经网络时,为避免神经网络在训练初期输出值偏差过大而影响训练,通过结合-贪婪策略的参数来调节启发动作值函数的影响量级。所以在线神经网络的更新方式为
本发明具有如下优点及效果:
(1)本发明适用于所有采用Deep Q Network (DQN) 网络架构的算法,即包含一个在线网络和一个目标网络的算法,具有普适性、通用性;
(2)本发明通过引入基于神经网络所输出动作值函数的启发动作值函数,能够更准确的衡量所执行动作的性能表现,从而更高效的完成神经网络参数的更新,进而提高训练效率、减少所需样本;
(3)本发明所使用添加启发动作值函数项的损失函数,当对性能表现较好的动作所对应的动作值函数进行更新时,能够加强该动作值函数的增加或者抑制该动作值函数的减小;当对性能表现较差的动作所对应的动作值函数进行更新时,能够加强其减小或抑制其增加。最终,使得不同动作的动作值函数差距加大,能够缓解动作值函数的过估计问题。
附图说明
图1是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的流程图;
图2是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的侦察机控制器示意图;
图3是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的神经网络结构及参数更新示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进行进一步详细说明。有必要指出,以下实施例只用于该方法做进一步的说明,不能理解为对该方法保护范围的限制,该领域技术熟练人员根据上述该方法内容对该方法做出一些非本质的改进和调整,仍属于本发明的保护范围。
本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的具体实施方式,包括以下步骤:(1)任务建模,构建动作空间、状态空间和回报函数;(2)Agent算法的初始化;(3)Agent持续基于当前神经网络与战场仿真环境交互,并将获取的信息存放在经验缓存池D;(4)在经验缓存池D中随机采样信息作为在线神经网络和目标神经网络的输入,并分别获取两个神经网络的输出;(5)分别基于两个神经网络的输出计算期望值函数;(6)基于计算所得的期望值函数计算启发动作值函数;(7)使用启发动作值函数更新启发神经网络的参数;(8)结合启发动作值函数更新在线神经网络的参数;(9)定期进行目标神经网络的参数更新。
下面结合图1,以仿真战场中控制侦察机执行侦查任务为实例,对该发明的各步骤进行详细说明。图1是本发明一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的流程图。如图1所示,该方法包括以下几个步骤:
(1)任务建模,构建动作空间、状态空间和回报函数基于战场基本规则和想定环境条件,设置任务执行成功与否的奖励值和状态空间以及动作空间。在控制侦查飞机执行侦查任务的本实例中,如图2所示,图2为一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的侦察机控制器示意图,算法的agent即侦察机控制器。该侦查机的动作空间大小||A||为16,具体为方向动作(保持方向、上升、下降、左转、右转)和速度动作(加速、匀速、减速)的动作组合,以及撤退动作;将自身坐标和可视范围内的单位坐标放入状态张量作为当前时刻的状态;将到达指定侦查目的地的奖励值设置为+1,将被对方发现的奖励值设置为-1。
(2)侦察机控制器的算法初始化
本发明中侦察机控制器的神经网络结构如图3所示,图3为一种用于战场仿真环境下深度强化学习推演决策训练的加速方法的神经网络结构及参数更新示意图。在本发明中,共有3个神经网络:分别为在线神经网络online-network、目标神经网络target-network和启发神经网络heu-network。三个神经网络使用相同的神经网络结构,其中在线神经网络和目标神经网络的输出个数对应于环境动作空间大小||A||,启发神经网络的输出个数为1。在训练开始前,对三个神经网络进行参数的随机初始化。
另外,在本发明中需要使用经验缓存池D保存训练过程中Agent与战场环境交互获取的数据。所以,训练前将经验缓存池大小设计为Nbuffer。
侦察机控制器在状态基于当前神经网络的输出遵循-贪婪策略π(a t | s t )选择动作a t ,在战场环境中执行动作a t 并在下一时刻获取状态s t +1,并接收来自环境反馈的奖励值r t 。之后,侦察机控制器将状态,s t ,所执行动作a t ,下一状态,s t +1和奖励值r t 打包成(s t , a t , r t ,s t +1)一同存入经验缓存池D中。
其中,ε-贪婪策略为:
此算法为在线学习算法,侦察机控制器依赖当前神经网络按照上述方式与战场环境进行持续的交互并储存信息,并利用该储存信息来训练侦察机控制器中神经网络的训练。
当经验缓存池D中储存的样本数量达到事先设定的可以进行训练的数量N后,便可以对侦察机控制器的神经网络结构进行训练。具体为从中随机选择一批样本;首先将所选样本中的状态先进行同等程度的标准化处理;然后分别输入到在线神经网络,并输出||A||个动作值函数;将所选样本中的下一状态输入到目标神经网络中,输出动作值函数。
状态的期望值函数为
此外,在本实例中,侦察机控制器使用了启发神经网络。
(9)定期进行目标神经网络target-network的参数更新
当训练次数达到预先设定的Nupdate时,将在线神经网络的参数直接复制给目标神经网络,完成目标神经网络参数的更新;如训练次数没有达到Nupdate,则跳过目标神经网络的参数更新,继续下一次迭代。
Claims (4)
1.本发明提出的一种用于战场仿真环境下深度强化学习推演决策训练的加速方法主要包括以下步骤:
(1)任务建模,构建动作空间、状态空间和回报函数;
(2)Agent算法的初始化;
(9)定期进行目标神经网络的参数更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343721.5A CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
CN202010313846.6A CN111339690A (zh) | 2019-04-26 | 2020-04-20 | 一种基于期望值函数的深度强化学习训练加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343721.5A CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008449A true CN111008449A (zh) | 2020-04-14 |
Family
ID=70110734
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910343721.5A Withdrawn CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
CN202010313846.6A Pending CN111339690A (zh) | 2019-04-26 | 2020-04-20 | 一种基于期望值函数的深度强化学习训练加速方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313846.6A Pending CN111339690A (zh) | 2019-04-26 | 2020-04-20 | 一种基于期望值函数的深度强化学习训练加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111008449A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
CN112862885A (zh) * | 2021-01-22 | 2021-05-28 | 江苏丰华联合科技有限公司 | 一种基于深度强化学习的柔性物体展开方法 |
CN112883586A (zh) * | 2021-03-15 | 2021-06-01 | 中国人民解放军国防科技大学 | 一种基于双逻辑层Agent的模拟仿真系统及方法 |
CN113052312A (zh) * | 2021-03-31 | 2021-06-29 | 北京字节跳动网络技术有限公司 | 深度强化学习模型的训练方法、装置、介质及电子设备 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN114859734A (zh) * | 2022-06-15 | 2022-08-05 | 厦门大学 | 一种基于改进sac算法的温室环境参数优化决策方法 |
CN114980254A (zh) * | 2022-08-02 | 2022-08-30 | 中国人民解放军国防科技大学 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882030B (zh) * | 2020-06-29 | 2023-12-05 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
CN111753300B (zh) * | 2020-06-29 | 2024-03-19 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN112052936B (zh) * | 2020-07-24 | 2022-06-03 | 清华大学 | 基于生成对抗机制的强化学习探索方法及装置 |
CN111695690B (zh) * | 2020-07-30 | 2023-04-18 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
-
2019
- 2019-04-26 CN CN201910343721.5A patent/CN111008449A/zh not_active Withdrawn
-
2020
- 2020-04-20 CN CN202010313846.6A patent/CN111339690A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
CN112862885A (zh) * | 2021-01-22 | 2021-05-28 | 江苏丰华联合科技有限公司 | 一种基于深度强化学习的柔性物体展开方法 |
CN112862885B (zh) * | 2021-01-22 | 2023-07-21 | 江苏丰华联合科技有限公司 | 一种基于深度强化学习的柔性物体展开方法 |
CN112883586A (zh) * | 2021-03-15 | 2021-06-01 | 中国人民解放军国防科技大学 | 一种基于双逻辑层Agent的模拟仿真系统及方法 |
CN113052312A (zh) * | 2021-03-31 | 2021-06-29 | 北京字节跳动网络技术有限公司 | 深度强化学习模型的训练方法、装置、介质及电子设备 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN113298260B (zh) * | 2021-06-11 | 2022-07-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN114859734A (zh) * | 2022-06-15 | 2022-08-05 | 厦门大学 | 一种基于改进sac算法的温室环境参数优化决策方法 |
CN114859734B (zh) * | 2022-06-15 | 2024-06-07 | 厦门大学 | 一种基于改进sac算法的温室环境参数优化决策方法 |
CN114980254A (zh) * | 2022-08-02 | 2022-08-30 | 中国人民解放军国防科技大学 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111339690A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008449A (zh) | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 | |
US11779837B2 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
Wulfmeier et al. | Mutual alignment transfer learning | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
Rajendran et al. | Attend, adapt and transfer: Attentive deep architecture for adaptive transfer from multiple sources in the same domain | |
US20220176248A1 (en) | Information processing method and apparatus, computer readable storage medium, and electronic device | |
CN109726813A (zh) | 任务的强化和模仿学习 | |
CN109523029A (zh) | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 | |
JP2022519351A (ja) | ニューラルネットワークモデルの生成方法及び装置、コンピュータプログラム | |
US12005580B2 (en) | Method and device for controlling a robot | |
CN110447041A (zh) | 噪声神经网络层 | |
Jia et al. | Improving policy optimization with generalist-specialist learning | |
Ghouri et al. | Attitude control of quad-copter using deterministic policy gradient algorithms (DPGA) | |
Källström et al. | Reinforcement learning for computer generated forces using open-source software | |
Liu et al. | Hindsight generative adversarial imitation learning | |
CN116400726A (zh) | 一种基于强化学习的旋翼无人机逃逸方法及系统 | |
Contardo et al. | Learning states representations in pomdp | |
Kuzmin et al. | Hierarchical reinforcement learning with options and united neural network approximation | |
KR20230010746A (ko) | 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 | |
Dimitriu et al. | A Reinforcement Learning Approach to Military Simulations in Command: Modern Operations | |
Li et al. | A hierarchical reinforcement learning method for persistent time-sensitive tasks | |
Klink et al. | Tracking Control for a Spherical Pendulum via Curriculum Reinforcement Learning | |
Chen et al. | Learning to optimize differentiable games | |
Chen et al. | Lifelong Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200414 |