CN110673488A

CN110673488A - 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Info

Publication number: CN110673488A
Application number: CN201911009182.8A
Authority: CN
Inventors: 丁勇; 何金; 高振龙
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-10

Abstract

本发明公布了一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法，包括：首先，建立隐蔽接敌双方空战态势示意图，由该图建立隐蔽接敌过程的优势区域与暴露区域；其次，建立无人机的状态空间并转化为特征空间和基于速度限制的无人机动作空间；然后，构建基于优先级随机抽样策略的双深度Q学习网络；接着，根据优势区域与暴露区域中敌我双方相对位置构建目标势函数奖赏，由无人机与障碍物的距离构建障碍物奖赏，将二者叠加为总奖赏对Double DQN神经网络进行隐蔽接敌训练；最后，将无人机当前的特征序列输入至训练后的Double DQN中的Q目标神经网络，得到无人机最优隐蔽接敌策略。该方法主要解决了无人机无模型隐蔽接敌问题。

Description

一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

技术领域

本发明属于无人机空战决策领域，特别是一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法。

技术背景

随着空战环境越来越复杂与未知，新一代无人飞行器更加强调低可探测性、高机动性、网络化作战与隐身突防轨迹优化等特性。采用隐蔽接敌策略，无人飞行器能很快到达优势区域，形成可攻击条件，同时避免出现在敌机攻击范围内的暴露区域。因此，隐蔽接敌对于无人飞行器的作战与生存性能起着至关重要的作用。由于空战的实时性要求较高，目前采用的由地面站遥控的方法很难完成对无人机及时、准确的操控，因此提高无人机的智能水平，让无人机能独立感知战场环境，自动产生控制指令完成空战中的机动选择是当前无人机空战主要的研究方向。

强化学习是一种采用“试错”的方法与环境交互的学习算法，由于空战环境的不确定性以及复杂性，传统强化学习无法解决高维连续状态空间策略学习所面临的“维数灾难”问题，因此产生了将深度学习与强化学习进行结合的DQN算法，利用深度学习的神经网络拟合动作值函数解决该问题。但DQN算法在进行动作选择与动作评估时均采用同一个神经网络，很容易产生过拟合现象，导致所选动作并非最优解而是当前状态的次优解。

因此本发明针对以上问题，提出一种基于优先级随机抽样策略的Double DQN算法，利用Double DQN生成目标值函数的方法解决了传统DQN的过拟合问题，同时基于优先级随机抽样策略获取样本对神经网络进行训练，加快了神经网络的训练速度，保证了隐蔽接敌过程的准确性和快速性。

发明内容

本发明的目的在于提供一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法，该方法可以使无人机在无环境模型情况下进行隐蔽接地。

为实现上述目的，本发明采用以下技术方案：

一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法，包括：

步骤1，建立隐蔽接敌双方空战态势示意图，由该图建立隐蔽接敌过程的优势区域与暴露区域。

步骤2，建立无人机在环境中的状态空间，并将其转换为特征空间。

步骤3，建立基于速度限制的无人机动作空间。

步骤4，构建基于优先级随机抽样策略的双深度Q学习网络。

步骤5，根据优势区域与暴露区域构建目标势函数奖赏，利用无人机与障碍物的距离构建障碍物奖赏，将二者叠加构成总的势函数奖赏。

步骤6，利用总的势函数奖赏对Double DQN神经网络进行训练，更新网络参数。

步骤7，将无人机当前的特征序列输入训练后的Double DQN中的Q目标神经网络，得到无人机最优隐蔽接敌策略。

本发明具有以下优点：

1.本发明通过对无人机的动作空间进行速度限制，达到了对无人机飞行姿态角的限制，更符合实际战场环境。

2.本发明通过引入基于优先级随机抽样策略改进Double DQN算法，克服了传统强化学习算法过拟合的缺点，避免了动作选择次优解而非最优解的问题，同时按照优先级随机抽样原则抽取训练样本，提高了神经网络训练的快速性。

3.本发明采用神经网络对动作值函数进行拟合，解决了传统强化学习的维数过高问题，能够实现无模型无人机隐蔽接敌。

附图说明

图1为本发明方法的流程图

图2为敌我双方空战态势示意图

图3为优势区域与暴露区域示意图

图4为基于优先级随机抽样策略的Double DQN算法隐蔽接敌测试图

图5为基于优先级随机抽样策略的Double DQN算法不同训练次数平均奖赏比较

图6为基于优先级随机抽样策略的Double DQN算法前7000次训练的损失函数曲线

具体实施方式

结合所附图表，对本发明的技术方案作具体说明。

本发明的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法，具体包括以下步骤：

步骤1，建立隐蔽接敌双方空战态势示意图，如图2所示。图中，B和R分别为我方和敌方无人机的位置，L为敌我双方的距离，

为我方无人机提前角，θ为敌方无人机进入角，ρ为敌我双方航向夹角，v_b和v_r分别为敌我双方速度矢量。然后，根据该空战态势图，得到隐蔽接敌过程的优势区域与暴露区域，如图 3所示，具体计算公式为：

(1.1)优势区域定义为：

式中，θ为敌方无人机进入角，

为我方无人机提前角，θ_m与

为无人机机载武器性能决定的攻击临界角，L为敌我双方的距离，R_m与R_M为机载武器最小发射距离与射程。

(1.2)暴露区域定义为：

式中，θ为敌方无人机进入角，L为敌我双方距离，θ_R为敌机雷达最大扫描角度， R_R为敌机最大侦察距离。

步骤2，设敌我双方无人机在环境中的位置分别为(x_b，y_b)和(x_r，y_r)，敌我双方无人机的速度分别为v_b和v_r，敌我双方航向夹角为ρ，则无人机在环境中的状态空间为S＝[x_r，y_r，x_b，y_b，v_r，v_b]，将状态空间S转化为特征空间

其中，L，α，

θ具体计算公式为：

式中，L为敌我双方的距离，α为敌我双方连线与横坐标的夹角，

为我方无人机提前角，θ为敌方无人机进入角，ρ为敌我双方航向夹角，v_r，v_b为敌我双方的速度矢量，其与横轴的夹角分别为∠v_r，∠v_b。

步骤3，由于无人机接敌时转向存在角度限制，故对无人机动作选择进行限制，建立基于速度限制的动作空间A_t，具体为：

A_t＝[n-3，n-2，n-1，n，n+1，n+2，n+3] (16)

式中，A_t为t时刻的动作空间，n为上一时刻无人机的动作序号。

步骤4，构建基于优先级随机抽样策略的双深度Q学习网络，具体为：

(4.1)建立双深度Q学习网络，初始化参数如下表所示。

(4.2)通过优先级随机抽样策略抽取经验池中的样本，对双深度Q学习网络进行训练，具体为：

(4.2.1)对于样本j计算优先级P(j)，计算公式为：

式中，p_i和p_j分别为第i和第j个样本的时序差分差异，具体为：

p_i＝TargetQ-Q(s_i，a_i；θ) (18)

p_j＝TargetQ-Q(s_j，a_j；θ) (19)

其中，TargetQ为目标神经网络输出的Q值，Q(s_i，a_i；θ)和Q(s_j，a_j；θ)为Q估计神经网络输出的Q值。

(4.2.2)基于优先级随机抽样策略抽取经验池中的样本，将抽取的样本送入神经网络进行训练，具体步骤为：

首先，从经验池中随机抽取n个样本，根据其优先级P(j)，(j＝1，2，…，n)进行排序；

然后，根据抽样数量选取前n₁个优先级的样本作为训练样本，输入至神经网络进行训练。

步骤5，根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏，利用无人机与障碍物的距离构建障碍物奖赏，将二者叠加构成总势函数奖赏，具体为：

(5.1)根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏r_tar，具体过程为：

(5.1.1)建立态势函数A(s)，计算公式为：

式中，μ₁与μ₂为角度调节因子，分别满足

和

这里α₁为敌机的雷达扫描角度，α₂为我方无人机的攻击覆盖角度。θ为敌方无人机进入角，

为我方无人机提前角，d为飞行步长，R_d为期望的接近距离，k为调节因子。

(5.1.2)建立目标即时奖赏函数R(s)，计算公式为：

式中，d^k为当前时刻敌我双方的距离，d^k+1是下一时刻敌我双方的距离。

(5.1.3)目标势函数奖赏r_tar计算公式为：

r_tar＝ωR(s)+(1-ω)A(s) (22)

式中，ω为权重因子，表示即时收益与态势优势的权重关系，这里取ω＝0.15。

(5.2)利用无人机与障碍物的距离构建障碍物奖赏r_ob，计算公式为：

式中，

为当前时刻无人机与障碍物误入区域最短距离，

为执行完当前动作后下一时刻无人机与误入区域最短距离，r_ob为障碍物最大半径。

(5.3)将二者叠加构成无人机总的势函数奖赏r，计算公式为：

r＝r_tar+r_ob (24)

步骤6，利用无人机总的势函数奖赏r对Double DQN神经网络进行训练，更新网络参数，具体步骤为：

(6.1)建立样本池，确定经验池容量D＝50000以及最小经验块D_m＝300。

(6.2)建立Q目标神经网络和Q估计神经网络，该网络是由一个输入层、两个隐含层和一个输出层组成的全连接神经网络，选择激活函数为ReLU，设置神经网络学习率α＝0.001、折扣因子γ＝0.1、无人机飞行步长η＝5、动态贪婪系数ε满足：

式中，t为当前训练情节数，δ为偏移量，这里选取δ＝20。

(6.3)每次训练设置总的训练情节数N＝1000。

(6.4)随机初始化无人机状态向量

及敌我双方航向夹角ρ₁，将其转化为特征向量其中，L₁，α₁，

θ₁由式 (15)得到。

(6.5)对情节中的第k步，将特征向量

作为神经网络的输入，按照ε的概率随机选择动作a_k，按照1-ε的概率选择值函数最大的动作a_k＝argmax_aQ(s，a；θ)；无人机执行动作a_k，计算当前时刻势函数奖赏 r_k；计算无人机下一时刻的状态

及敌我双方航向夹角ρ_k+1，并将该状态转化为特征向量

其中，L_k+1，α_k+1，

θ_k+1由式(15)得到。

(6.6)将当前特征向量

作为新的样本存储在经验池D中，从经验池D中随机抽取最小经验块D_min对神经网络进行训练。

(6.7)构造损失值函数L(θ)，对其执行梯度下降，更新Q估计神经网络权值θ，并且每隔100步更新Q目标神经网络权值θ^-＝θ。这里，L(θ)满足：

式中，Q(s_k，a_k；θ)为Q估计神经网络输出的Q值，y_k为Q目标神经网络输出的 Q值，满足：

(6.8)当所有情节全部训练完成，则训练结束；否则，转至步骤(6.4)。

步骤7，将无人机当前的特征序列输入训练后的Double DQN中的Q目标神经网络，得到无人机最优隐蔽接敌策略，具体步骤为：

(7.1)设置无人机飞行步长η为5，障碍物检测距离l为20m。

(7.2)令k＝1，随机初始化无人机状态向量

及敌我双方航向夹角ρ₁，将其转化为特征序列

(7.3)将无人机当前的特征序列输入到训练后的Q目标神经网络，由网络输出的最优动作值a_k＝arg max_aQ(s_k，a；θ)，得到下一时刻我方无人机位置

具体为：

式中，

为我方无人机当前位置。

(7.4)当我方无人机进入优势区域，形成隐蔽接敌态势，即

则接敌运动结束；否则，获取k+1时刻的状态序列 S^k+1，并按照式(15)将其转化为当前特征序列T(s_k+1)，令k＝k+1转至步骤 (7.3)；

为了验证方法的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

在macOS操作系统(版本号为：Mojava version：10.14.5，处理器：2.5GHz intercode i7，内存：16GB 1600MHz DDR3，显卡：Inter Iris Pro 1536MB)上，使用python 语言在pycharm上搭建仿真环境进行算法仿真，并将仿真结果导出，实现可视化。

图4为基于优先级随机抽样策略的DDQN算法在训练10000次后，利用Q 目标神经网络得到的隐蔽接敌测试效果。图中，椭圆为随机产生的10个障碍物，实线曲线为我方无人机飞行轨迹，虚线曲线为敌方无人机飞行轨迹。由图中可以看出，在DDQN训练10000次后，我方无人机能迅速到达敌方无人机后方，形成了可攻击的条件，很好地完成了隐蔽接敌任务。

图5为基于优先级随机抽样策略的Double DQN算法不同训练次数的平均奖赏比较。图中，虚点线为训练情节900到1000的平均奖赏；虚线为训练情节4900 到5000的平均奖赏；实线为训练情节9900到10000的平均奖赏。由虚点线可以看出，在Double DQN训练初期，平均奖赏较低并且有较大的波动，这是由于无人机对环境只进行了较少的探索，因此无法做出合理的决策所导致，并且在第 900到第950个训练情节中平均奖赏为负值；由虚线和实线可以看出，随着训练次数的不断增加，平均奖赏也不断增加，当训练次数达到一定值后，平均奖赏将渐渐收敛，符合马尔科夫理论。

图6为基于优先级随机抽样策略的Double DQN算法前7000次训练的损失函数曲线，可以看出，损失函数值呈现下降趋势，且可以很快下降到一个较小值，说明该网络具有很好的性能。图中曲线出现尖峰现象，是由于在贪婪策略 (ε-greedy)下进行探索，以ε的概率随机选择动作导致。