CN111339690A - 一种基于期望值函数的深度强化学习训练加速方法 - Google Patents
一种基于期望值函数的深度强化学习训练加速方法 Download PDFInfo
- Publication number
- CN111339690A CN111339690A CN202010313846.6A CN202010313846A CN111339690A CN 111339690 A CN111339690 A CN 111339690A CN 202010313846 A CN202010313846 A CN 202010313846A CN 111339690 A CN111339690 A CN 111339690A
- Authority
- CN
- China
- Prior art keywords
- function
- action
- neural network
- reinforcement learning
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提出一种基于期望值函数的深度强化学习训练加速方法。该方法针对深度强化学习因奖励稀疏而训练缓慢的问题,引入基于期望值函数的辅助评价指标来评估动作表现,从而加快训练速度。该方法主要包括:构建神经网络并进行参数初始化;计算相邻两个状态的动作值函数;利于动作值函数与策略的期望求得期望值函数,并通过期望值函数得到辅助评价指标;最后通过添加辅助评价指标项构建符合损失函数用以更准确的更新值函数网络参数。该方法适用于深度Q神经网络架构算法,能够通过更准确地评估动作表现来加快深度强化学习的训练速度。
Description
技术领域
本发明涉及仿真领域和智能算法领域,尤其涉及深度强化学习技术的训练速度。
背景技术
近年来,因为具有强大的解决序列决策问题的能力,融合深度学习和强化学习优势的深度强化学习备受学术界和工业界的关注。但是,深度学习需要大量数据驱动;强化学习以试错方式进行学习,虽然可以省去繁琐的数据标注工作,但还是需要与环境进行大量地交互以获取足够多的样本。然而,当前深度强化学习存在着样本利用率较低、训练速度较慢的问题,且该问题会随着特定落地场景中任务复杂度的增加而加剧。如在战场仿真环境中,深度强化学习可以通过自主学习完成战术探索,以便辅助相关人员通过观摩、对战等形式开展战法研究、制定或检验作战计划等。但是,战场仿真任务中战场形式瞬息万变,需要实时针对对方行为更改自身策略;且该任务下的动作序列较长,其中包含虽然不会立即获得收益、但对最终战果具有影响的动作决策。所以,在此类任务下深度强化学习需要更多的训练样本。
针对深度强化学习的样本效率和训练速度问题,多种改进算法分别从不同角度去提升算法性能:如经验优先级回放方法通过给样本设置优先级;Dueling DQN方法通过更改神经网络架构以提高对环境的感知准确度;值函数分布方法通过使用一个离散分布来表示动作值函数,以提高对动作值函数的估计准确度。Rainbow算法将多种不同角度的改进方法组合成为一种方法,取得了更好的算法性能,表明不同角度的改进方法可以协同作用。
因为深度强化学习的训练依赖于奖励值,但是通常只是在任务完成时才能获得奖励值,因此导致奖励稀疏问题。奖励重塑技术通过细化奖励值以加快训练,但是奖励值的设定较为困难,甚至误导学习。另外可以通过使用人类的经验样本和特定领域知识来设定辅助奖励值,但是在很多任务中并不具有足量的上述样本和知识。且上述技术只适用于特定任务,不便于算法向其他任务快速扩展,如果能在学习过程中自适应地设定辅助奖励值,将有效缓解当前深度强化学习的奖励稀疏问题。如在上述战场仿真任务下,通过辅助奖励值快速将对最终战果具有深远影响的动作策略加以识别,以促进算法的有效学习。
发明内容
本发明的目的是针对深度强化学习由奖励稀疏导致的训练次数多、样本需求量大的问题,提出一种基于期望值函数的强化学习训练加速方法,通过引入自适应的动作辅助标准以更准确评定当前动作执行效果,进而更准确的更新神经网络参数,最终提高训练速度,减少样本需求量。
本发明提出的一种基于期望值函数的强化学习训练加速方法主要包括以下步骤:
(1)构建在线神经网络No和目标神经网络Nt,并进行参数初始化;
(2)在仿真环境中依据策略π(at|st)选择并执行动作at以获取环境反馈信息;在线神经网络No利用执行动作前所处的状态信息st拟合当前动作值函数Q(st,a),目标神经网络Nt利用执行动作后所处的状态信息st+1拟合下一时刻动作值函数Q(st+1,a);
(3)通过动作策略π(at|st)和动作值函数求数学期望,分别得到当前期望值函数VH(st)和下一时刻期望值函数VH(st+1);并基于期望值函数求得动作策略的辅助评价指标:C(st,at)=VH(st+1)-VH(st);
(4)将辅助评价指标C(st,at)作为辅助损失函数以加快训练速度,最终的损失函数为:
其中,α为调节C(st,at)影响程度的超参数;
(5)利用该最终损失函数更新在线神经网络No的参数,并定期将该参数复制到目标神经网络Nt中。
本发明具有如下优点及效果:
(1)本发明适用于所有采用Deep Q Network(DQN)网络架构的算法,即包含一个在线网络和一个目标网络的算法,具有普适性、通用性;
(2)本发明通过引入辅助评价指标C(st,at),能够更准确的衡量所执行动作的性能表现,从而更高效的完成神经网络参数的更新,进而提高训练效率、减少所需样本;
附图说明
图1是本发明一种基于期望值函数的强化学习训练加速方法的侦察机实例控制器示意图;
图2是本发明一种基于期望值函数的强化学习训练加速方法的神经网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以战场仿真环境中利用深度强化学习算法训练侦察机完成侦查任务为实例,参照附图,对该发明的各步骤进行详细说明。
在战场仿真环境中利用深度强化学习算法训练侦察机完成侦查任务实例中,侦察机通常只能在寻找到侦查目标之后才能获取正向奖励值,期间需要经历大量飞行动作,因此该任务中的奖励值较为稀疏。在本实例中,侦查机的控制器如图1所示,上层控制器的动作输出直接对应控制下层控制器,并由此完成侦察机的动作。将侦察机的动作进行离散化,得到方向动作(保持方向、上升、下降、左转、右转)和速度动作(加速、匀速、减速)动作组合,以及撤退动作的动作空间,其大小为||A||=16。将自身坐标和可视范围内的单位坐标放入状态张量作为当前时刻的状态st;将到达指定侦查目的地的奖励值rt设置为+1,将被对方发现的奖励值rt设置为-1。
(1)构建在线神经网络No和目标神经网络Nt,并进行参数初始化;
本发明中侦察机控制器如图1所示,包含2个神经网络:在线神经网络No和目标神经网络Nt。两个神经网络具有相同的网络结构,输出个数对应于环境动作空间大小||A||。其中,在线神经网络No的网络权重参数由随机初始化产生;目标神经网络Nt直接复制在线神经网络No的网络权重参数。
(2)本实例使用Boltzmann机制策略进行动作决策。首先,侦察机控制器在状态st基于在线神经网络No输出的动作值函数Q(st,a),并根据Boltzmann机制求得策略π(at|st);然后从中选择并执行动作at,从而到达状态st+1,并接收来自环境反馈的奖励值rt。其中,Boltzmann机制策略π(at|st)为:
此外,将状态st+1输入到目标神经网络Nt中得到拟合的下一时刻动作值函数Q(st+1,a)。
(3)基于侦察机控制器中在线神经网络No和目标神经网络Nt输出的动作值函数Q(st,a)和Q(st+1,a),分别结合策略π(at|st)以求期望的方式获得期望值函数VH(st),如图2所示。其中,状态st的期望值函数为:
同理,下一状态st+1的期望值函数为:
然后,基于期望值函数求得动作策略的辅助评价指标:
C(st,at)=VH(st+1)-VH(st)。
(4)将辅助评价指标C(st,at)作为辅助损失函数以加快训练速度,最终的复合损失函数为:
其中,α为调节C(st,at)影响程度的超参数。
(5)采用梯度下降法对上述复合损失函数针对在线神经网络No进行参数优化。此外,当训练次数达到预先设定的Nupdate时,将在线神经网络的参数直接复制给目标神经网络,完成目标神经网络参数的更新;如训练次数没有达到Nupdate,则跳过目标神经网络的参数更新,继续下一次迭代。
经过上述步骤,整个算法具体表现为在未添加基于期望值函数的辅助评价指标之前,动作值函数的更新主要依靠基于奖励值rt的折扣累积回报;在添加之后,在每一步的更新中都可以基于相邻的状态值函数来辅助评估引起该状态转移的动作的性能表现,从而更准确的评估该动作对应的动作值函数,特别是在类似于本控制侦察机执行侦查任务实例所述稀疏奖励问题中。最终,使用本发明方法能够有效加快战场仿真环境下深度强化学习推演决策的训练速度,提高样本效率。
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,利用上述实例对本发明进行进一步详细说明。有必要指出,以下实施例只用于该方法做进一步的说明,不能理解为对该方法保护范围的限制,该领域技术熟练人员根据上述该方法内容对该方法做出一些非本质的改进和调整,仍属于本发明的保护范围。
Claims (3)
1.本发明提出的一种基于期望值函数的深度强化学习训练加速方法主要包括以下步骤:
(1)构建在线神经网络No和目标神经网络Nt,并进行参数初始化;
(2)依据策略π(at|st)选择并执行动作at以获取环境反馈信息;在线神经网络No利用执行动作前所处的状态信息st拟合当前动作值函数Q(st,a),目标神经网络Nt利用执行动作后所处的状态信息st+1拟合下一时刻动作值函数Q(st+1,a);
(3)通过动作策略π(at|st)和动作值函数求数学期望,分别得到当前期望值函数VH(st)和下一时刻期望值函数VH(st+1);并基于期望值函数求得动作策略的辅助评价指标:C(st,at)=VH(st+1)-VH(st);
(4)将辅助评价指标C(st,at)作为辅助损失函数以加快训练速度,最终的损失函数为:
其中,α为调节C(st,at)影响程度的超参数;
(5)利用该最终损失函数更新在线神经网络No的参数,并定期将该参数复制到目标神经网络Nt中。
2.根据权利要求书1所述的方法,其特征在于,步骤(3)中所述,使用动作策略π(at|st)和动作值函数求数学期望,分别得到当前期望值函数VH(st)和下一时刻期望值函数VH(st+1);并基于期望值函数求得动作策略的辅助评价指标:
C(st,at)=VH(st+1)-VH(st)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343721.5A CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
CN2019103437215 | 2019-04-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339690A true CN111339690A (zh) | 2020-06-26 |
Family
ID=70110734
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910343721.5A Withdrawn CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
CN202010313846.6A Pending CN111339690A (zh) | 2019-04-26 | 2020-04-20 | 一种基于期望值函数的深度强化学习训练加速方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910343721.5A Withdrawn CN111008449A (zh) | 2019-04-26 | 2019-04-26 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111008449A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN111753300A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN111882030A (zh) * | 2020-06-29 | 2020-11-03 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
CN112052936A (zh) * | 2020-07-24 | 2020-12-08 | 清华大学 | 基于生成对抗机制的强化学习探索方法及装置 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862885B (zh) * | 2021-01-22 | 2023-07-21 | 江苏丰华联合科技有限公司 | 一种基于深度强化学习的柔性物体展开方法 |
CN112883586B (zh) * | 2021-03-15 | 2023-03-24 | 中国人民解放军国防科技大学 | 一种基于双逻辑层Agent的模拟仿真系统及方法 |
CN113052312A (zh) * | 2021-03-31 | 2021-06-29 | 北京字节跳动网络技术有限公司 | 深度强化学习模型的训练方法、装置、介质及电子设备 |
CN113298260B (zh) * | 2021-06-11 | 2022-07-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN114859734A (zh) * | 2022-06-15 | 2022-08-05 | 厦门大学 | 一种基于改进sac算法的温室环境参数优化决策方法 |
CN114980254B (zh) * | 2022-08-02 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
-
2019
- 2019-04-26 CN CN201910343721.5A patent/CN111008449A/zh not_active Withdrawn
-
2020
- 2020-04-20 CN CN202010313846.6A patent/CN111339690A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753300A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN111882030A (zh) * | 2020-06-29 | 2020-11-03 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
CN111882030B (zh) * | 2020-06-29 | 2023-12-05 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
CN111753300B (zh) * | 2020-06-29 | 2024-03-19 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN112052936A (zh) * | 2020-07-24 | 2020-12-08 | 清华大学 | 基于生成对抗机制的强化学习探索方法及装置 |
CN112052936B (zh) * | 2020-07-24 | 2022-06-03 | 清华大学 | 基于生成对抗机制的强化学习探索方法及装置 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN111695690B (zh) * | 2020-07-30 | 2023-04-18 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111008449A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339690A (zh) | 一种基于期望值函数的深度强化学习训练加速方法 | |
CN109523029A (zh) | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 | |
Hassani et al. | Multi-objective design of state feedback controllers using reinforced quantum-behaved particle swarm optimization | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN110389556A (zh) | 控制装置以及控制方法 | |
Fan et al. | Model-based stochastic search for large scale optimization of multi-agent UAV swarms | |
CN108955689A (zh) | 基于自适应细菌觅食优化算法的rbpf-slam方法 | |
CN116050505A (zh) | 一种基于伙伴网络的智能体深度强化学习方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN115293022A (zh) | 基于OptiGAN和时空注意力的航空兵智能体对抗行为建模方法 | |
CN107194155A (zh) | 一种基于小数据集和贝叶斯网络的威胁评估建模方法 | |
CN116663416A (zh) | 一种基于行为树的cgf决策行为仿真方法 | |
Källström et al. | Reinforcement learning for computer generated forces using open-source software | |
CN116400726A (zh) | 一种基于强化学习的旋翼无人机逃逸方法及系统 | |
CN116817909A (zh) | 一种基于深度强化学习的无人机中继式导航方法 | |
CN114384931B (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 | |
Aly | Evaluation of cuckoo search usage for model parameters estimation | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
CN113324545A (zh) | 一种基于混合增强智能的多无人机协同任务规划方法 | |
Chen et al. | Multi-robot task allocation based on the modified particle swarm optimization algorithm | |
GOODRICH et al. | An integrated environment for tactical guidance research and evaluation | |
Wang et al. | Research on naval air defense intelligent operations on deep reinforcement learning | |
Echevarrieta et al. | Speeding-Up Evolutionary Algorithms to Solve Black-Box Optimization Problems | |
Fang et al. | Air combat strategies of CGF based on Q-learning and behavior tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |