CN114371729B

CN114371729B - 一种基于距离优先经验回放的无人机空战机动决策方法

Info

Publication number: CN114371729B
Application number: CN202111580695.1A
Authority: CN
Inventors: 林旺群; 田成平; 王伟; 王锐华; 黄其旺; 陶蔚; 毕华军
Original assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Current assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-10-25
Anticipated expiration: 2041-12-22
Also published as: CN114371729A

Abstract

一种基于距离优先级约束经验回放方法的无人机空战机动决策方法，包括无人机空战机动仿真预备信息设定步骤，无人机空战机动决策智能体模型构建步骤，无人机空战机动智能体模型训练步骤和多次训练并结束步骤。本发明相比于现有优先级经验回放方法，改进了计算样本优先级的计算逻辑，引入距离优先级来缓减TD‑error在训练初期的不准确性，使得在训练初期智能体学习时优先选取靠近终止状态的样本,从而避免了智能体在训练初期进行无意义的学习，大大提升了训练效率和样本利用率，减少了训练的时间成本。

Description

一种基于距离优先经验回放的无人机空战机动决策方法

技术领域

本发明涉及无人机空战的虚拟仿真领域，特别的，涉及一种基于距离优先经验回放的无人机空战机动决策方法，能够利用深度强化学习方法，加快无人机空战机动决策智能体模型在空战模拟中的训练，在传统优先级经验回放法的基础上进一步提升了样本利用效率，避免了无人机空战机动决策智能体模型在训练初期进行无意义的学习，提升无人机空战机动决策智能体模型完成空战机动训练的速度。

背景技术

随着无人化、智能化技术的发展，无人机的使用已经成为了民用、军事科学领域中的重要课题，最初的无人机主要由人工操作，随着智能化、仿真化的发展，已经将智能体的仿真控制方法应用到了无人机空战模拟操作中。

传统的优先级经验回放利用TD-error衡量无人机空战机动样本的重要性，使重要的无人机空战机动样本优先参与学习，提高经验回放效率。但该方法的无人机空战机动样本选择仅以TD-error主导优先级，易造成由不准确的TD目标值导致的不准确的TD-error所引起的误导训练方向，无人机智能体模型整体训练效率不高等问题。为解决该问题，本方法将无人机空战机动样本靠近终止状态的距离，纳入优先级的考虑范围中，提出基于距离优先级约束的经验回放的无人机空战机动的深度强化学习方法。

发明内容

本发明的目的在于提出一种基于距离优先经验回放的无人机空战机动决策方法，相比于现有优先级经验回放方法，关键改进为使用距离优先级来解决基于TD-error的优先级在训练初期的偏差较大问题，并以无人机空战机动样本被选取用于训练次数，来衰减距离优先级在训练中后期对总的优先级的影响，从而避免无人机空战机动决策智能体模型在训练初期进行大量无意义的学习，提升了训练效率和样本利用率。

为达此目的，本发明采用以下技术方案：

一种基于距离优先级约束经验回放方法的无人机空战机动决策方法，其特征在于，包括如下步骤：

无人机空战机动仿真预备信息设定步骤S110：

设定无人机空战机动的仿真环境反馈的状态信息、在环境中可做的合法动作，根据任务需求设定奖励函数；

无人机空战机动决策智能体模型构建步骤S120：

采用深度Q网络构建用于无人机空战机动决策的智能体模型，包括当前Q网络、目标Q网络和经验池，其中，当前Q网络和目标Q网络为结构相同的神经网络模型，输入为状态信息，输出为作为两个网络输入的所述状态信息下的所有红方无人机可选动作A对应的状态-动作价值，经验池用于存储转移样本，评估指标采用M个情节的平均奖励和；

无人机空战机动决策智能体模型训练步骤S130：

利用步骤S110设定的无人机空战机动的状态信息、合法动作和奖励函数，利用步骤S120基于深度Q网络构建的用于无人机空战机动决策的智能体模型中的当前Q网络执行仿真情节，收集转移样本，并使用最大优先级存储所述转移样本，对收集来的转移样本进行采样，并利用采集的无人机空战机动决策样本i的状态与仿真初始状态的距离更新所采集转移样本的优先级，随后，更新智能体模型中的当前Q网络和目标Q网络；另多次初始化无人机空战机动环境，随机重置初始状态信息，利用当前训练得到的当前Q网络在初始化的无人机空战机动环境中执行一个情节，重复多次，计算平均情节奖励并保存最优智能体模型；多次进行步骤S130中的转移样本收集以及转移样本优先级的更新和当前Q网络与目标Q网络的更新，得到最优的智能体模型；

多次训练并结束步骤S140：

重复执行多次步骤S130，每次都能得到一个具有不同初始化网络参数的当前Q网络经训练得到的最优智能体模型，比较这多个最优智能体模型，取在S134的评估阶段具有最大平均情节奖励和的最优智能体模型作为最终的智能体模型。

进一步的，在无人机仿真预备信息设定步骤S110：

所述状态信息为根据影响战机空战态势的因素而构建红蓝双方基于随机博弈的状态信息s，具体如下，

其中，

表示红方战机的坐标位置、

表示蓝方战机坐标位置，

和φ_r表示红方战机的航迹偏角与滚转角，

和φ_b表示蓝方战机的航迹偏角与滚转角；

所述合法动作设置为战机向左滚转、维持滚转和向右滚转，分别用L,S,R代表，构建离散的动作空间，红方的动作空间为A_r＝{L,S,R}，蓝方动作空间为A_b＝{L,S,R}；

所述奖励函数根据双方战机的欧氏距离D、战机视界角AA和战机的天线偏转角ATA来量化，具体如下表示：

即：战机的欧氏距离D在满足优势状态的最大距离D_max和最小距离D_min之间，战机的视界角AA的绝对值小于60度，战机的天线偏转角ATA的绝对值小于30度，当同时满足上述三个条件则判定战机取得优势，并获得奖励值r＝1，若取得优势地位的是敌方，则战机获取的奖励值r＝-1，此外其他情况判定为平局且战机获取奖励值r＝0。

进一步的，所述无人机空战机动决策智能体模型构建步骤S120中：

当前Q网络和目标Q网络根据仿真环境状态输出控制指令并作用与仿真环境，输入状态信息s，输出分别为所述状态信息S下所有红方无人机可选动作A对应的状态-动作价值Q(s,a；θ)和

其中a表示红方战机的动作，即向左滚转、维持滚转和向右滚转三个动作中的一个，θ和θ^-为网络参数，其中θ为当前Q网络的权重参数，评估指标采用M个情节的平均奖励和

来表示，其中，M表示情节数量,E表示每个情节包含的转移样本数量，r表示每个转移样本中的奖励。

进一步的，所述无人机空战机动决策智能体模型训练步骤S130具体为：

仿真情节执行步骤S131：

从t＝0时刻开始，对于神经网络的当前Q网络输入t时刻的状态信息s_t，即t时刻的红蓝双方基于随机博弈的状态信息s_t，输出该状态下所有红方无人机可选动作A对应的状态-动作价值Q(s_t,A；θ)；其中，所述状态-动作价值表示红方无人机在当前状态下，做出的各个动作在未来获得的收益，取状态-动作价值最大对应的动作a_t用于红方无人机执行，作用于仿真环境，并得到环境反馈的距离d_t＝t、奖励r_t以及下一时刻状态信息s_t+1，获得转移样本(s_t,a_t,r_t,s_t+1,d_t)，对于每个转移样本，通过遍历经验池B中已有的所有转移样本的优先级，取最大的优先级p_i作为本转移样本的优先级p_t，对于初始转移样本，优先级p₀＝1，将转移样本(s_t,a_t,r_t,s_t+1,d_t)存入经验池B，重复执行上述步骤；

样本采集和优先级更新步骤S132：

根据转移样本的优先级和采样概率从经验池中抽取指定数量的转移样本，其中采样概率利用下式进行计算：

其中，p_i为第i个转移样本的优先级，α用于调节优先程度，当α＝0的时候退化为均匀采样，K为经验池中总的转移样本数量，下标k表示第k个转移样本；

对于采样得来的每个转移样本j，计算归一化的重要性采样权重w_j＝(K·P(j))^-β/max_iw_i，其中，P(j)是采样概率，max_iw_i是采集指定数量的转移样本中采样权重最大的一个，β为超参数，用于决定对优先级经验回放带来的偏差影响的抵消程度；

然后根据状态信息s_j+1计算TD目标值y_j，具体的计算方法为：若s_j+1为终止状态，即为红方或蓝方无人机被击落或是为时间步T时的状态，则y_j＝r_j，否则使用目标Q网络计算

其中，y_j表示第样本j的TD目标值，

为由目标Q网络计算的在状态s_j+1和动作a_j+1下的状态-动作价值；

然后使用当前Q网络计算Q(s_j,a_j；θ)并计算无人机空战机动转移样本j的TD-errorδ_j＝y_j-Q(s_j,a_j；θ)，更新样本优先级

其中，d_j为无人机空战机动样本j的状态与仿真初始状态的距离，n_j表示无人机空战机动样本j被选取用于训练的次数，μ为超参数，用于控制距离d_j对优先级的影响程度；

最后计算累计权重变化

其中，

表示求当前Q网络的输出关于参数θ的梯度；

网络更新步骤S133：

处理完指定数量样本后，使用学习率η＝0.01更新当前Q网络参数θ←θ+η·Δ，重置累计权重变化Δ＝0并且每隔100步复制主Q网络参数到目标Q网络；

模型保存步骤S134：

多次初始化无人机空战机动环境以随机重置初始状态信息，利用更新后的智能体模型中的当前Q网络再次作用于初始化后的无人机空战机动环境，以情节为单位重复所述多次，即达到终止状态便再次随机初始化无人机空战机动环境，记录每个情节得到的奖励和，并计算所述多次的奖励和的平均值，若该奖励和的平均值为当前最大的值，则保留智能体模型参数以保存最优模型，并记录该奖励和的平均值

其中，M表示情节数量,E表示每个情节包含的转移样本数量，r表示每个转移样本中的奖励；

多轮训练步骤S135:

重复执行D轮步骤S131-S134，直到当前Q网络收敛，即每次在S134计算的平均情节奖励和基本稳定不变，此时取最后一次保留的模型参数作为该次训练的最优智能体模型。

进一步的，在步骤S130中，β取为0.5，μ取0.1。

进一步的，在仿真情节执行步骤S131中，重复执行步骤S131，直到达到设定的执行步数T或是红方/蓝方无人机在战斗中被击落。

进一步的，在进行步骤S131之前，初始化当前Q网络参数为θ，目标Q网络参数为θ^-＝θ，θ就是当前Q网络的权重参数。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，其特征在于，

所述计算机可执行指令在被处理器执行时执行上述的基于距离优先级约束经验回放方法的无人机空战机动模拟方法。

本发明提出一种基于距离优先经验回放的无人机空战机动方法，本方法和系统相比于现有优先级经验回放方法，改进了计算样本优先级的计算逻辑，优先级经验回放使用TD-error作为衡量样本重要性的依据，但TD-error在训练初期无法真实反映样本的重要程度，因此引入距离优先级来缓减TD-error在训练初期的不准确性，使得在训练初期无人机空战机动决策智能体模型学习时优先选取靠近终止状态的样本,从而避免了无人机空战机动决策智能体模型在训练初期进行无意义的学习，大大提升了训练效率和样本利用率，减少了训练的时间成本。

附图说明

图1是根据本发明具体实施例的基于距离优先级约束经验回放方法的无人机空战机动决策方法的流程图；

图2是根据本发明具体实施例的无人机空战机动决策方法的基于深度Q网络的智能体模型结构图；

图3是根据本发明具体实施例的无人机空战机动决策方法的空战模拟场景；

图4是根据本发明具体实施例的对无人机空战决策智能体模型进行训练的具体步骤。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明的基于距离优先级约束经验回放方法的无人机空战机动模拟方法中涉及到的相关术语进行如下说明：

1.深度Q学习

深度Q学习是基于值函数的深度强化学习的代表性方法。它包含两个神经网络，分别称为当前Q网络和目标Q网络，两个网络结构相同，由于两个网络对是对状态-动作价值函数的拟合，因此分别用Q(s,a；θ)和

表示当前Q网络和目标Q网络的输出。两个网络的输入都是状态信息，输出为所有动作的状态-动作价值。本发明中，智能体模型中的当前Q网络是需要学习的网络，用于控制无人机智能体，因此，也能够称当前Q网络为无人机空战机动智能体网络模型。目标Q网络用于在训练阶段计算TD目标值，该值作为当前Q网络的训练标签，帮助当前Q网络训练。目标Q网络的参数直接复制当前Q网络，当前Q网络的参数通过梯度下降法最小化损失函数L_i(θ_i)进行训练：

L_i(θ_i)＝(y_i-Q(s,a；θ_i))²#(1)

其中，i表示第i次迭代，s′表示在状态s之后下一时刻状态，y_i为第i次迭代使用目标Q网络计算的TD目标值。

2.智能体模型

基于神经网络的软件模型，由大量的、简单的神经元广泛地互相连接而形成的网络以及其它一些必要组件构成的复杂系统，是在使用深度强化学习训练智能体时的核心部分。在本发明中，采用深度Q网络构建的当前Q网络和目标Q网络以及用于存储转移样本的经验池构成智能体模型，其中，在本例中，当前Q网络用于控制红方无人机，目标Q网络用于辅助当前Q网络的训练，其输入是仿真环境的状态信息，输出是作用于仿真环境的指令或动作，即红方无人机智能体需要执行的指令或动作，仿真环境为无人机空战机动环境。

3.无人机智能体

无人机智能体指与战场环境进行交互的实体，与战场环境进行交互指无人机智能体根据当前的空战环境状态信息做出动作，导致空战环境状态信息发生改变并反馈奖励信号给无人机空战机动决策智能体模型。无人机智能体需要做出的动作由智能体模型即当前Q网络生成。

4.情节

情节是指无人机智能体在与环境交互时，在限定时间内从开始到未完成目标或完成目标这段经历的状态、动作与奖励构成的序列，表现形式为这段经历构成的多个转移元组的集合，本例中具体指无人机从起点到终点所经历的全部状态。

5.转移样本

转移样本是构成情节的基本单位，无人机智能体与仿真环境的每一次交互或是在时刻t的交互都会产生状态s_t、下一时刻状态s_t+1、奖励r_t，动作(指令)a_t、状态s_t与初始状态s₀的距离d_t＝t，转移样本指使用一个五元组记录每次交互产生的数据，表示为(s_t,a_t,r_t,s_t+1,d_t)。

现有技术中，采用优先级经验回放算法进行无人机空战机动决策的模拟仿真。

在优先级经验回放算法(Prioritized Experience Replay，PER)中以TD-error作为衡量样本重要性的指标，赋予优先级大的样本更高的被采样概率，同时保证每个样本被采样到的几率不为0，使得即使是优先级最小的样本也有被采样到的机会。采样概率定义为:

其中，其中p_i为第i个样本的优先级，α用于调节优先程度(α＝0的时候退化为均匀采样)，K为经验池中总的样本数量，下标k表示第k个样本。其中p_i可以采取基于比例优先级的方式计算，即p_i＝|δ_i|∈。其中δ_i为TD-error，∈是一个固定常数，用于防止概率为0。使用优先级回放会改变样本的潜在分布，因此在样本用于神经网络训练时，可以在计算梯度时乘上归一化的重要性采样权重w_i以抵消对收敛结果的影响。

这里的K是经验池里的样本数，而β是一个超参数，用来决定对优先级经验回放带来的偏差影响的抵消程度。

优先级经验回放在实验效果上确实超过了原始的DQN算法。但仅凭TD-error不足以保证样本的优先级正确。TD-error计算如下所示：

TD-error＝y_i-Q(s,a；θ_i)#(5)

其中，y_i表示第i次迭代时的TD目标值，

和Q(s,a；θ_i)分別为目标Q网络和当前Q网络计算的状态-动作价值，

为目标Q网络参数，θ_i为当前Q网络参数。

但现有技术的优先级经验回放算法在使用函数近似，即神经网络拟合状态-动作价值函数时，影响TD-error大小的因素有两点：(1)神经网络训练过少，未能较好逼近最优动作价值函数Q^*(s_t,a_t)；(2)TD目标值y_i随着无人机空战机动决策智能体模型的学习而改变，很可能与预测值差异变大。显然，第二点因素对正确的训练方向的影响远大于第一点，因为即使神经网络拟合了Q^*值，由于以目标值y_i作为拟合目标，如果y_i距离实际有较大偏差，则即使TD-error值较大该转移样本也不能较好引导网络训练，相反会将网络引入歧途。

因此，本发明先削弱第二点因素对TD-error的影响，再根据第一点因素选取样本进行学习。具体的，为避免在训练初期，由于因素(2)对TD-error的影响导致的无效更新，本发明先使目标值接近真实值，减小其改变幅度。根据状态价值函数的贝尔曼公式，即公式(7)：

t时刻状态价值的计算依赖于t+1时刻状态价值，依次递推，直到终止状态，其状态价值不再依赖于下一时刻状态价值，为收敛直接赋值0。因此本发明需要在训练初期尽可能的学习接近终止状态的经验样本。经验的存储以转移元组(s_t,a_t,r_t,s_t+1)为单位，在此基础上，本发明将转移中的s_t+1距离初始状态的步数d_t也存入转移中，该步数衡量了对应转移与终止状态的接近程度，步数越大，则表明其越接近终止状态。

具体地，本发明选取无人机空战机动转移样本的前一时刻状态s_t与初始状态s₀的距离d_t作为在选取样本时首要考虑的优先级，称为距离优先级，且结合TD-error优先级共同影响对样本的抽取概率。同时，以无人机空战机动样本被选取的次数来衰减距离优先级对总的优先级影响，从而避免无人机空战机动决策智能体模型学习时不断选取靠近终止状态的样本，产生过拟合。

本发明以公式(3)来定义采样概率，定义距离优先级

如公式(8)所示：

其中，δ_i为无人机空战机动转移样本i的TD-error，本领域技术人员可以知道，如公式(5)所示，δ_i可以通过第i次迭代时的TD目标值与当前Q网络的输出Q(s,a；θ_i)的差值来表示，TD-error衡量了对无人机在处于当前状态s_i下做出的动作a_i好坏的估计值与“真实值”之间的差距，“真实值”不是绝对正确的值，但相比估计值更精准；d_i为无人机空战机动样本i的状态与仿真初始状态的距离，转移样本的获取以时间步为单位，即每个时间步无人机执行一个动作，获取一个转移样本，因此距离表达了当前样本所处的时刻与0时刻之间的时间步的差距；n_i表示无人机空战机动样本i被选取用于训练的次数，μ为超参数，用于随着训练的进行，控制距离d_i对优先级的影响程度，μ的取值通常为0.1。

因此，本发明为：

参见图1，图2，分别示出了基于距离优先级约束经验回放方法的无人机空战机动决策方法的流程图，以及深度Q网络的模块图。

该基于距离优先级约束经验回放方法的无人机空战机动决策方法，包括如下步骤：

无人机空战机动仿真预备信息设定步骤S110：

在本实施例中，设定空战博弈的环境，空域范围限制在水平面内，水平面横坐标x∈[-1000m,1000m]，水平面纵坐标y∈[-1000m,1000m]。在本实施例中，红方战机的目标是在蓝方战机背后取得并保持优势的地位，使用视界角(AA)和天线偏转角(ATA)来量化这个优势位置，航向交叉角(HCA)用于描述红蓝战机之间的飞行朝向差异。

因此，所述状态信息为根据影响战机空战态势的因素而构建红蓝双方基于随机博弈的状态信息s，具体如下，

其中，

表示红方战机的坐标位置、

表示蓝方战机坐标位置、

和φ_r表示红方战机的航迹偏角与滚转角，

和φ_b表示蓝方战机的航迹偏角与滚转角。

在无人机空战机动仿真环境中，战机的所述合法动作设置为向左滚转、维持滚转和向右滚转，分别用L,S,R代表，构建离散的动作空间，红方的动作空间为A_r＝{L,S,R}，蓝方动作空间为A_b＝{L,S,R}；

在无人机空战机动仿真环境中，战机的优势奖励函数主要根据双方战机的欧氏距离D、战机视界角AA和战机的天线偏转角ATA来量化，具体通过如下的无人机占据有利态势需满足的要求来确定，具有如下三个条件：

即：战机的欧氏距离D在满足优势状态的最大距离D_max和最小距离D_min之间，在本例中，最小距离D_min为100米，最大距离D_max为500米，战机的视界角AA的绝对值小于60度，战机的天线偏转角ATA的绝对值小于30度。

当同时满足所述上述三个条件则判定战机取得优势，并获得奖励值r＝1，若取得优势地位的是敌方，则战机获取的奖励值r＝-1，此外其他情况判定为平局且战机获取奖励值r＝0。

无人机空战决策智能体模型构建步骤S120：

主要采用基于深度Q网络构建的当前Q网络、目标Q网络和经验池。其中，当前Q网络和目标Q网络为结构相同的神经网络模型，可根据仿真环境状态输出控制指令并作用与仿真环境。两个网络的输入为步骤S110中的状态信息s，即

其中，

表示红方无人机的坐标位置、

表示蓝方战机坐标位置、

和φ_r表示红方无人机的航迹偏角与滚转角，

和φ_b表示蓝方无人机的航迹偏角与滚转角；当前Q网络和目标Q网络输出分别为所述状态信息s下所有红方无人机可选动作A对应的状态-动作价值Q(s,a；θ)和

在该状态-动作价值函数中a表示红方无人机的动作，即向左滚转、维持滚转和向右滚转三个动作中的一个，θ和θ^-为网络参数，即θ为当前Q网络的权重参数。评估指标采用M个情节的平均奖励和

来表示。其中，M表示情节数量,T表示每个情节包含的转移样本数量，r表示每个转移样本中的奖励

在本发明进行具体训练的时候，可以为网络设定选取合适的硬件配置。例如，包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量。

根据智能体训练请求，配置硬件资源，其中，无人机空战决策智能体模型运行在GPU服务器上，仿真引擎运行在CPU服务器上。初始化环境状态为s₀、经验池B的容量为100万，即可存放100万个转移样本、累计权重变化Δ＝0、样本优先级p₀＝1和动作价值函数Q；设定执行步数T为10000、采样个数k为256和测试间隔步数C为100。

无人机空战决策智能体模型训练步骤S130：

利用步骤S110设定的无人机空战机动的状态信息、合法动作和奖励函数，利用步骤S120基于深度Q网络构建的用于无人机空战机动决策的智能体模型中的当前Q网络执行仿真情节，收集转移样本，并使用最大优先级存储所述转移样本，对收集来的转移样本进行采样，并利用采集的无人机空战机动决策样本i的状态与仿真初始状态的距离更新所采集转移样本的优先级，随后，更新智能体模型中的当前Q网络和目标Q网络；另多次初始化无人机空战机动环境，随机重置初始状态信息，利用当前训练得到的当前Q网络在初始化的无人机空战机动环境中执行一个情节，重复多次，计算平均情节奖励并保存最优智能体模型；多次进行步骤S130中的转移样本收集以及转移样本优先级的更新和当前Q网络与目标Q网络的更新，得到最优的智能体模型。

在进行步骤S131之前，初始化当前Q网络参数为θ，目标Q网络参数为θ^-＝θ，θ就是当前Q网络的权重参数。

具体的，仿真情节执行步骤S131：从t＝0时刻开始，对于神经网络的当前Q网络输入t时刻的状态信息s_t，即t时刻的红蓝双方基于随机博弈的状态信息s_t，输出该状态下所有红方无人机可选动作A对应的状态-动作价值Q(s_t,A；θ)；其中，所述状态-动作价值表示红方无人机在当前状态(态势)下，做出的各个动作在未来获得的收益，即到终止状态所获得的奖励和，所述状态-动作价值用来表示未来所处态势的好坏，取状态-动作价值最大对应的动作a_t用于红方无人机执行，作用于仿真环境，并得到环境反馈的距离d_t＝t、奖励r_t以及下一时刻状态s_t+1，获得转移样本(s_t,a_t,r_t,s_t+1,d_t)，对于每个转移样本，通过遍历经验池B中已有的所有转移样本的优先级，取最大的优先级p_i作为本转移样本的优先级p_t，即本转移样本的优先级p_t为最大优先级，p_t＝max_i＜tp_i，其中初始转移样本，t＝0时间步的转移样本直接赋p₀＝1，将转移样本(s_t,a_t,r_t,s_t+1,d_t)存入经验池B，重复执行上述步骤，直到达到设定的执行步数T或是我方(敌方)无人机在战斗中被击落；

该步骤作用为：为无人机空战机动决策智能体模型的训练收集转移样本。使用最大优先级存储样本的原因在于使得每个样本至少有一次被抽取用来训练的机会。

样本采集和优先级更新步骤S132：

由于经验池在训练开始时存储的转移样本数为0，因此当经验池中样本数量大于指定数量，例如大于256时，则在步骤S131所描述过程的每个时间步都需采集转移样本计算累计变化权重用于在下一步对无人机空战机动决策智能体模型执行一次更新。

由于步骤S131中具有状态-动作价值，为使无人机空战机动决策智能体模型对无人机在当前状态以及所做动作的未来收益有更准确的估计，需要对无人机空战机动决策智能体模型进行训练。

本子步骤具体为：

根据转移样本的优先级和采样概率从经验池中抽取指定数量的转移样本，例如256个，其中采样概率利用下式进行计算：

其中，p_j为第j个转移样本的优先级，α用于调节优先程度，当α＝0的时候退化为均匀采样，K为经验池中总的转移样本数量，下标k表示第k个转移样本。

对于采样得来的每个转移样本j，即(s_j,a_j,r_j,s_j+1,d_j)计算归一化的重要性采样权重w_j＝(K·P(j))^-β/max_iw_i，其中，P(j)是采样概率，max_iw_i是采集指定数量(例如256个样本)的转移样本中采样权重最大的一个，用于归一化，β是一个超参数，本例中取为0.5，用来决定对优先级经验回放带来的偏差影响的抵消程度；

然后根据状态信息s_j+1计算TD目标值y_j，具体的计算方法为：若s_j+1为终止状态，即为时间步T时的状态，此时不会有后继状态，也不会有未来的奖励，所以该状态的任意状态-动作价值为0，则y_j＝r_j，否则使用目标Q网络计算

其中,y_j表示第样本j的TD目标值，

为由目标Q网络计算的在状态s_j+1和动作a_j+1下的状态-动作价值，由参数为θ_i的神经网络近似；

其中，d_j为无人机空战机动样本j的状态与仿真初始状态的距离，n_j表示无人机空战机动样本j被选取用于训练的次数，μ为超参数，用于随着训练的进行，控制距离d_j对优先级的影响程度，μ的取值通常为0.1；

最后计算累计权重变化

其中，

表示求当前Q网络的输出关于参数θ的梯度。

由于TD目标值的计算需要计算下一时刻的最优状态-动作价值，如果下一时刻的最优状态-动作价值的估计不准确，则会影响对当前时刻状态-动作价值估计的更新，即对于一条无人机轨迹，如果对越靠近轨迹终点所处位置的态势好坏估计不准确，也难以对轨迹前半段所处态势的好坏准确估计，而距离d_j就衡量了无人机当前所处的位置在整条轨迹中距离轨迹起点的远近，越大，则距离起点越远，相对来说距离终点则越近，所以对应具有更高的优先级和更大被采样概率用于训练无人机空战机动决策智能体模型。

该步骤的目的为：更新转移样本的优先级并计算下一步网络更新所需的累计权重变化Δ。由于TD-error的计算需要使用当前Q网络和目标Q网络，因此随着网络的更新，转移样本的TD-error会发生改变，而转移样本被用于多次训练后，距离对优先级的影响也应该改变，所以在抽取转移样本用于训练网络的同时更新转移样本的优先级。

网络更新步骤S133：

处理完指定数量(例如256个)样本后，使用学习率η＝0.01更新当前Q网络参数θ←θ+η·Δ，重置累计权重变化Δ＝0并且每隔100步复制主Q网络参数到目标Q网络。

该步骤的目的为：使用上一步计算的累计权重变化更新当前Q网络权重，并且在满足间隔条件时通过复制的方式更新目标Q网络权重。

在本发明中，步数指的是无人机智能体与环境交互的时间单位，即在时间步t，状态为s_t，无人机智能体在状态s_t下执行动作a_t，与环境作用，状态转变为s_t+1，接着在时间步t+1，无人机智能体在状态s_t+1下执行动作a_t+1，以此递推。

模型保存步骤S134：多次初始化(例如10次)无人机战场环境，即随机重置状态信息，利用更新后的无人机空战机动决策智能体模型再次作用于初始化后的无人机战场环境，以情节为单位重复10次，即达到终止状态便再次随机初始化无人机战场环境，记录每个情节得到的奖励和，并计算10次奖励和的平均值，若该奖励和的平均值为当前最大的值，则保留无人机空战机动决策智能体模型参数以保存最优模型，并记录该奖励和的平均值

其中，M表示情节数量,E表示每个情节包含的转移样本数量，r表示每个转移样本中的奖励。

该子步骤的主要作用为：由于深度强化学习的过程极其不稳定，训练到最后收敛，模型的效果很可能不是最好的，因此，本发明需要在每次更新网络后进行测试，即时保存最优的无人机空战机动决策智能体模型。

多轮训练步骤S135:

重复执行D轮步骤S131-S134，直到当前Q网络收敛，即每次在S135计算的平均情节奖励和基本稳定不变。此时取最后一次保留的模型参数作为该次训练的最优无人机空战机动决策智能体模型。

该步骤的目的是：收集更多的样本并对同一无人机空战机动决策智能体模型训练多次。

多次训练并结束步骤S140：

重复执行10次步骤S130，每次都能得到一个具有不同初始化网络参数的当前Q网络经训练得到的最优无人机空战机动决策智能体模型，比较这10个最优智能体模型，取在S134的评估阶段具有最大平均情节奖励和的最优智能体模型作为最终的无人机空战机动决策智能体模型。

通常测试的平均情节奖励和趋于平稳不变时，算法已经收敛，即由无人机空战机动决策智能体模型控制的无人机智能体在任意一个情节得到的奖励和不会再随着智能体模型的训练而变化。因此，本发明重复执行步骤S130，每次生成一个在不同初始化条件下的最优模型，因此可取在整个训练过程中保存的最优智能体模型作为最终无人机空战机动决策智能体模型。

具体实施例：

在一个具体的实施例中，基于距离优先级约束经验回放方法的无人机空战机动决策方法可以通过远程终端发送，也可以通过预先编好的脚本发送训练请求。

采用深度Q网络构建无人机空战机动决策智能体模型，在无人机空战机动决策智能体模型训练请求中，硬件资源为用户基于对抗训练规模而选择的硬件配置，

根据无人机空战机动决策智能体模型训练请求，配置硬件资源，其中，无人机空战机动决策智能体模型运行在GPU服务器上，仿真引擎运行在CPU服务器上。初始化环境状态为s₀、经验池

的容量为100万，即可存放100万个转移样本、累计权重变化Δ＝0、样本优先级p₀＝1和动作价值函数Q；设定执行步数T为10000、采样个数k为256和测试间隔步数C为100。

在图3中，示例性的示出了智能体对抗中的无人机空战机动决策的对抗场景，由深度Q学习作为无人机空战机动决策智能体模型控制红色无人机进行飞行移动，以取得空战优势。当蓝方无人机执行动作导致红蓝双方的位置，蓝方无人机的航迹偏角与滚转角发生变化时。无人机空战机动决策智能体模型将输出红色无人机需要执行的动作，以保证红方无人机持续保持空战优势。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于多级事后经验回放的无人机空战机动决策仿真方法。

综上，本发明提出一种基于距离优先级约束的经验回放的无人机空战机动决策的深度强化学习方法，本方法和系统相比于现有优先级经验回放方法，改进了计算样本优先级的计算逻辑，优先级经验回放使用TD-error作为衡量样本重要性的依据，但TD-error在训练初期无法真实反映样本的重要程度，因此引入距离优先级来缓减TD-error在训练初期的不准确性，使得训练初期无人机空战机动决策智能体模型学习时优先选取靠近终止状态的样本,从而避免了无人机空战机动决策智能体模型在训练初期进行无意义的学习，大大提升了训练效率和样本利用率，减少了训练的时间成本。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。