CN111339690A

CN111339690A - 一种基于期望值函数的深度强化学习训练加速方法

Info

Publication number: CN111339690A
Application number: CN202010313846.6A
Authority: CN
Inventors: 吴昊霖; 李辉; 周俊成; 王壮; 黄操
Original assignee: Chengdu Rongao Technology Co ltd
Current assignee: Chengdu Rongao Technology Co ltd
Priority date: 2019-04-26
Filing date: 2020-04-20
Publication date: 2020-06-26
Also published as: CN111008449A

Abstract

本发明提出一种基于期望值函数的深度强化学习训练加速方法。该方法针对深度强化学习因奖励稀疏而训练缓慢的问题，引入基于期望值函数的辅助评价指标来评估动作表现，从而加快训练速度。该方法主要包括:构建神经网络并进行参数初始化；计算相邻两个状态的动作值函数；利于动作值函数与策略的期望求得期望值函数，并通过期望值函数得到辅助评价指标；最后通过添加辅助评价指标项构建符合损失函数用以更准确的更新值函数网络参数。该方法适用于深度Q神经网络架构算法，能够通过更准确地评估动作表现来加快深度强化学习的训练速度。

Description

一种基于期望值函数的深度强化学习训练加速方法

技术领域

本发明涉及仿真领域和智能算法领域，尤其涉及深度强化学习技术的训练速度。

背景技术

近年来，因为具有强大的解决序列决策问题的能力，融合深度学习和强化学习优势的深度强化学习备受学术界和工业界的关注。但是，深度学习需要大量数据驱动；强化学习以试错方式进行学习，虽然可以省去繁琐的数据标注工作，但还是需要与环境进行大量地交互以获取足够多的样本。然而，当前深度强化学习存在着样本利用率较低、训练速度较慢的问题，且该问题会随着特定落地场景中任务复杂度的增加而加剧。如在战场仿真环境中，深度强化学习可以通过自主学习完成战术探索，以便辅助相关人员通过观摩、对战等形式开展战法研究、制定或检验作战计划等。但是，战场仿真任务中战场形式瞬息万变，需要实时针对对方行为更改自身策略；且该任务下的动作序列较长，其中包含虽然不会立即获得收益、但对最终战果具有影响的动作决策。所以，在此类任务下深度强化学习需要更多的训练样本。

针对深度强化学习的样本效率和训练速度问题，多种改进算法分别从不同角度去提升算法性能：如经验优先级回放方法通过给样本设置优先级；Dueling DQN方法通过更改神经网络架构以提高对环境的感知准确度；值函数分布方法通过使用一个离散分布来表示动作值函数，以提高对动作值函数的估计准确度。Rainbow算法将多种不同角度的改进方法组合成为一种方法，取得了更好的算法性能，表明不同角度的改进方法可以协同作用。

因为深度强化学习的训练依赖于奖励值，但是通常只是在任务完成时才能获得奖励值，因此导致奖励稀疏问题。奖励重塑技术通过细化奖励值以加快训练，但是奖励值的设定较为困难，甚至误导学习。另外可以通过使用人类的经验样本和特定领域知识来设定辅助奖励值，但是在很多任务中并不具有足量的上述样本和知识。且上述技术只适用于特定任务，不便于算法向其他任务快速扩展，如果能在学习过程中自适应地设定辅助奖励值，将有效缓解当前深度强化学习的奖励稀疏问题。如在上述战场仿真任务下，通过辅助奖励值快速将对最终战果具有深远影响的动作策略加以识别，以促进算法的有效学习。

发明内容

本发明的目的是针对深度强化学习由奖励稀疏导致的训练次数多、样本需求量大的问题，提出一种基于期望值函数的强化学习训练加速方法，通过引入自适应的动作辅助标准以更准确评定当前动作执行效果，进而更准确的更新神经网络参数，最终提高训练速度，减少样本需求量。

本发明提出的一种基于期望值函数的强化学习训练加速方法主要包括以下步骤：

(1)构建在线神经网络No和目标神经网络Nt，并进行参数初始化；

(2)在仿真环境中依据策略π(a_t|s_t)选择并执行动作a_t以获取环境反馈信息；在线神经网络No利用执行动作前所处的状态信息s_t拟合当前动作值函数Q(s_t,a)，目标神经网络Nt利用执行动作后所处的状态信息s_t+1拟合下一时刻动作值函数Q(s_t+1,a)；

(3)通过动作策略π(a_t|s_t)和动作值函数求数学期望，分别得到当前期望值函数V_H(s_t)和下一时刻期望值函数V_H(s_t+1)；并基于期望值函数求得动作策略的辅助评价指标：C(s_t,a_t)＝V_H(s_t+1)-V_H(s_t)；

(4)将辅助评价指标C(s_t,a_t)作为辅助损失函数以加快训练速度，最终的损失函数为：

其中，α为调节C(s_t,a_t)影响程度的超参数；

(5)利用该最终损失函数更新在线神经网络No的参数，并定期将该参数复制到目标神经网络Nt中。

本发明具有如下优点及效果：

(1)本发明适用于所有采用Deep Q Network(DQN)网络架构的算法，即包含一个在线网络和一个目标网络的算法，具有普适性、通用性；

(2)本发明通过引入辅助评价指标C(s_t,a_t)，能够更准确的衡量所执行动作的性能表现，从而更高效的完成神经网络参数的更新，进而提高训练效率、减少所需样本；

附图说明

图1是本发明一种基于期望值函数的强化学习训练加速方法的侦察机实例控制器示意图；

图2是本发明一种基于期望值函数的强化学习训练加速方法的神经网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以战场仿真环境中利用深度强化学习算法训练侦察机完成侦查任务为实例，参照附图，对该发明的各步骤进行详细说明。

在战场仿真环境中利用深度强化学习算法训练侦察机完成侦查任务实例中，侦察机通常只能在寻找到侦查目标之后才能获取正向奖励值，期间需要经历大量飞行动作，因此该任务中的奖励值较为稀疏。在本实例中，侦查机的控制器如图1所示，上层控制器的动作输出直接对应控制下层控制器，并由此完成侦察机的动作。将侦察机的动作进行离散化，得到方向动作(保持方向、上升、下降、左转、右转)和速度动作(加速、匀速、减速)动作组合，以及撤退动作的动作空间，其大小为||A||＝16。将自身坐标和可视范围内的单位坐标放入状态张量作为当前时刻的状态s_t；将到达指定侦查目的地的奖励值r_t设置为+1，将被对方发现的奖励值r_t设置为-1。

本发明中侦察机控制器如图1所示，包含2个神经网络：在线神经网络No和目标神经网络Nt。两个神经网络具有相同的网络结构，输出个数对应于环境动作空间大小||A||。其中，在线神经网络No的网络权重参数由随机初始化产生；目标神经网络Nt直接复制在线神经网络No的网络权重参数。

(2)本实例使用Boltzmann机制策略进行动作决策。首先，侦察机控制器在状态s_t基于在线神经网络No输出的动作值函数Q(s_t,a)，并根据Boltzmann机制求得策略π(a_t|s_t)；然后从中选择并执行动作a_t，从而到达状态s_t+1，并接收来自环境反馈的奖励值r_t。其中，Boltzmann机制策略π(a_t|s_t)为：

此外，将状态s_t+1输入到目标神经网络Nt中得到拟合的下一时刻动作值函数Q(s_t+1,a)。

(3)基于侦察机控制器中在线神经网络No和目标神经网络Nt输出的动作值函数Q(s_t,a)和Q(s_t+1,a)，分别结合策略π(a_t|s_t)以求期望的方式获得期望值函数V_H(s_t)，如图2所示。其中，状态s_t的期望值函数为：

同理，下一状态s_t+1的期望值函数为：

然后，基于期望值函数求得动作策略的辅助评价指标：

C(s_t,a_t)＝V_H(s_t+1)-V_H(s_t)。

(4)将辅助评价指标C(s_t,a_t)作为辅助损失函数以加快训练速度，最终的复合损失函数为：

其中，α为调节C(s_t,a_t)影响程度的超参数。

(5)采用梯度下降法对上述复合损失函数针对在线神经网络No进行参数优化。此外，当训练次数达到预先设定的N_update时，将在线神经网络的参数直接复制给目标神经网络，完成目标神经网络参数的更新；如训练次数没有达到N_update，则跳过目标神经网络的参数更新，继续下一次迭代。

经过上述步骤，整个算法具体表现为在未添加基于期望值函数的辅助评价指标之前，动作值函数的更新主要依靠基于奖励值r_t的折扣累积回报；在添加之后，在每一步的更新中都可以基于相邻的状态值函数来辅助评估引起该状态转移的动作的性能表现，从而更准确的评估该动作对应的动作值函数，特别是在类似于本控制侦察机执行侦查任务实例所述稀疏奖励问题中。最终，使用本发明方法能够有效加快战场仿真环境下深度强化学习推演决策的训练速度，提高样本效率。

为使本发明的目的、技术方案和优点更加清楚明白，参照附图，利用上述实例对本发明进行进一步详细说明。有必要指出，以下实施例只用于该方法做进一步的说明，不能理解为对该方法保护范围的限制，该领域技术熟练人员根据上述该方法内容对该方法做出一些非本质的改进和调整，仍属于本发明的保护范围。

Claims

1.本发明提出的一种基于期望值函数的深度强化学习训练加速方法主要包括以下步骤：

(2)依据策略π(a_t|s_t)选择并执行动作a_t以获取环境反馈信息；在线神经网络No利用执行动作前所处的状态信息s_t拟合当前动作值函数Q(s_t,a)，目标神经网络Nt利用执行动作后所处的状态信息s_t+1拟合下一时刻动作值函数Q(s_t+1,a)；

其中，α为调节C(s_t,a_t)影响程度的超参数；

2.根据权利要求书1所述的方法，其特征在于，步骤(3)中所述，使用动作策略π(a_t|s_t)和动作值函数求数学期望，分别得到当前期望值函数V_H(s_t)和下一时刻期望值函数V_H(s_t+1)；并基于期望值函数求得动作策略的辅助评价指标：

C(s_t,a_t)＝V_H(s_t+1)-V_H(s_t)。

3.根据权利要求书1所述的方法，其特征在于，步骤(4)中所述，将辅助评价指标C(s_t,a_t)作为辅助损失函数以加快训练速度，最终的损失函数为：

其中，α为调节C(s_t,a_t)影响程度的超参数。