CN112947541B

CN112947541B - 一种基于深度强化学习的无人机意图航迹预测方法

Info

Publication number: CN112947541B
Application number: CN202110054435.4A
Authority: CN
Inventors: 王玉惠; 陈天培; 吴庆宪; 周泽宇; 张逸航; 刘昊天
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-26
Anticipated expiration: 2041-01-15
Also published as: CN112947541A

Abstract

本发明公开了一种基于深度强化学习的无人机意图航迹预测方法，首先，建立意图航迹预测奖励函数模型，其中包含机动动作模型和地形模型；接着，建立深度强化学习网络模型，对网络中参数迭代计算的过程进行分析；然后，对动作价值函数的近似过程进行分析，为之后的策略选择做准备；最后，建立策略模型，通过该模型对动作价值函数进行选取，从而选择出最佳的飞行动作，并通过航迹的形式显示结果。本发明不仅能完整的显示无人机的意图航迹，还可以得知无人机在飞行过程中做了何种机动动作。

Description

一种基于深度强化学习的无人机意图航迹预测方法

技术领域

本发明属于无人机领域，具体涉及一种基于深度强化学习的无人机意图航迹预测方法。

背景技术

意图预测是将各种传感器得到的信息进行综合分析、处理后，得到敌方下一阶段的企图和打算。由于空战过程和无人机的机动动作有着连续性，因此，敌方无人机的作战意图航迹可通过已获得的空战信息在经过合理推断后得知。充分掌握敌方招式，相当于赢得了一半的对抗。意图预测有多种详细的表述方式，对敌方的作战意图进行判断、分析敌军作战意图和计划、推断出敌方的行为模式和作战意图和确定敌方的意图特征等。它主要用来解决以下问题，敌方会采取何种行动、敌方为什么会采取该种行动、敌方采取该种行动的目的是什么和敌方采取该种行动的可能性有多大。按不同的作战场景来划分，可以将意图预测分为海战场意图预测、陆战场意图预测和空战场意图预测。按战争影响的层次，意图预测可以分为目标战略意图预测、目标战役意图预测、目标战术意图预测。总而言之意图预测是将各种传感器得到的信息进行综合分析、处理后，得到敌方下一阶段的企图和打算。

在现代空战中，战争局势迅速变化，若能提前预测出敌方无人机的意图航迹，我方就有充足的时间做出最佳的对抗决策，从而起到先敌制胜的效果，使我方在空战对抗中取得优势。因此，对敌方意图航迹进行提前预测具有十分重要的意义。

发明内容

发明目的：本发明提供一种基于深度强化学习的无人机意图航迹预测方法，以克服传统预测方法在求解意图航迹预测问题时存在的缺陷。

技术方案：本发明所述的一种基于深度强化学习的无人机意图航迹预测方法，包括以下步骤：

(1)构建意图航迹预测奖励函数模型；所述意图航迹预测奖励函数模型包含机动动作模型和地形模型；

(2)根据奖励函数模型建立深度强化学习网络模型，利用该网络模型进行意图动作的预测，并对深度强化学习网络参数的训练过程进行分析；

(3)对由深度强化学习网络参数得到动作价值函数的过程进行分析，为之后的策略选择做准备；

(4)建立策略模型，对动作价值函数进行选取，从而选择出最佳的飞行动作，并实时生成航迹。

进一步地，所述步骤(1)包括以下步骤：

(11)建立两个奖励函数：地形的奖励函数和飞行机动动作的奖励函数，总的奖励函数为两个奖励函数的加权和：

r_t＝λ_dr_d+λ_mr_m

其中，r_d为地形的奖励函数，r_m为飞行机动动作的奖励函数，λ_d、λ_m为相应的权重系数；当奖励值为正时，表示建议当前时刻对该动作的选择；当奖励值为负时，表示不建议当前时刻对该动作的选择；

(12)构建地形环境模型，对适合和不适合无人机作战的区域进行划分：按照实际地形环境将规划空间划分为正方形网格，每个网格的初始高度定义为0米，把两个地形环境划分为300*300个独立的网格单元；按照实际地形的等高线，为每个不同的网格单元赋上高度值；进行仿真，生成对应的数字地图；

意图航迹预测的地形威胁奖励函数r₁可表示为：

其中，D表示无人机正处于的作战区域；D_d表示危险作战区域；D_n表示一般作战区域；D_s表示安全作战区域；

建立地形防碰撞奖励函数r₂如下：

其中，d表示无人机与地形之间的距离；d_min表示无人机与地形环境间的最小安全距离，小于该值时极易与地形发生碰撞；d_max表示最大安全距离，大于该值时不会有与地形发生碰撞的危险；

(13)构建无人机动动作模型：设计基本机动单元库，对机动单元进行预测，拟合出敌方意图轨迹；将基本的机动单元按照不同的顺序进行组合，得到无人机的复杂机动动作；无人机复杂机动动作为MR，无人机机动动作与基本机动单元动作Mr之间的关系为：

MR＝f((Mr_i,τ₁),(Mr_i,τ₂),...,(Mr_i,τ_n))

其中，Mr_i(i∈1,2,...,6)表示6种基本机动单元动作；f(·)表示执行复杂机动动作序列，执行MR的时间为τ，将其分为n个间隔：先执行τ₁时刻的基本机动单元，再执行τ₂时刻的基本机动单元，直到执行τ_n时刻的基本机动单元后，表示本次复杂机动动作MR结束；τ₁,τ₂,...τ_n为无人机完成各基本机动单元所需时间，且满足以下关系：

t_min≤τ＝τ₁+τ₂+...+τ_n≤t_max

其中，t_min为无人机完成一次机动所需最短时间，t_max为无人机完成一次机动所需最长时间；将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mr_i的序列，并考虑实际飞行概率，给定基本机动单元衔接的初始概率奖励函数r_m。

进一步地，所述步骤(2)包括以下步骤：

(21)选择深度神经网络作为深度强化学习中的Q网络；

(22)对网络中参数迭代计算的过程进行分析：在DQN的基础上增加一个同样结构的Q网络，因为相比单层Q网络的深度强化学习多了一层Q网络，利用第一层网络先找出最大动作价值函数对应的动作A_t,choose，计算公式为：

其中，

是第一层Q网络，

是第一层Q网络的网络参数，

表示的是第一层Q网络在n+1迭代时的状态位置，

是第t+1次迭代时由第一层Q网络的特征向量；利用第二层Q网络去计算动作A_t,choose的动作价值函数y_t，即：

其中，

是第二层Q网络，

是第二层Q网络的网络参数且与

中的参数相同，

是第t+1次迭代时由第二层Q网络的特征向量；

执行第t次迭代选中的动作A_t,i后计算该动作的动作价值函数，并与第t-1迭代时执行完动作A_t-1,i的Q值进行比较，来判断动作A_t,i的优良程度；若差值较大则表明当前时刻选择该动作效果较差，建议重新选择动作；若差值较小则表明当前时刻选择该动作效果较好，建议使用该动作，计算公式为：

将结果存储于二叉树的叶节点中，各个二叉树叶节点的值p_t(t∈1,2,...,j)取决于d_t的大小，计算公式为：

p_t＝|d_t|+μ

其中，μ是一个很小的参数，目的是防止p_t为0；

根据优先级采样定理对叶节点进行选择：

引入了重要性采样权重方法恢复被经验回放方法打乱的抽样概率分布，计算公式为：

ω_t(t)＝1/(j·P_t(t))

在历史信息的影响下根据反向传播法更新神经网络参数

计算公式为：

其中，

为第t次迭代时的Q网络参数。

进一步地，所述步骤(3)实现过程如下：

当

收敛后得到近似神经网络参数，使用动作价值函数的近似过程求得

进而计算策略；动作价值函数

由神经网络参数θ_t描述，并以状态位置信息

作为输入，表达式为：

进一步地，所述步骤(4)实现过程如下：

通过动作价值函数的计算得出第t+1次迭代时各个动作的价值函数，大概率选择行为值最大的动作，使算法最终趋于稳定，表达式为：

π_t+1＝(π₁^π₂)

其中，

表示选择行为值最大的动作，

k∈1,2,...,n k≠i表示选择除去行为值最大动作的其他动作；通过贪婪值ε∈(0,1)来执行π₁或π₂的选择，贪婪值ε的初始值由人为给定，并会随着迭代的进行不断减小，通过贪婪值ε的不断变化诱导动作的选择。

有益效果：与现有技术相比，本发明的有益效果：1、现有的方法只能预测出一条轨迹，而本发明不仅可以预测出一条完整轨迹而且可以通过拆分轨迹求解任意时刻无人机做出的机动动作；2、现有的预测方法依赖于模型，当无人机型号或者地形发生变化后都要重新进行建模，十分的麻烦；而本发明在建立了包含机动动作和奖励函数的模型后，就不需要再对模型进行任何更改，可以适用于各种情况，相比于传统方法更加简便，适用性更强；3、本发明在算法运行速度上有了很大的提升，更快预测出敌方的意图，使我方有更充足的时间进行后续的对策，牢牢把握战场的先机。

附图说明

图1是本发明的流程图；

图2是本发明的无人机与环境交互示意图；

图3是本发明的地形环境模型中威胁俯瞰图；其中(a)表示标识威胁的地形图；(b)为标识威胁的地形图；

图4是本发明的基本机动单元动作库示意图；

图5是本发明的基本机动单元衔接图；

图6是本发明的二叉树结构图；

图7是本发明的动作价值函数近似过程；

图8是本发明在地形一图3(a)中的基于深度强化学习的短期意图预测结果图；其中(a)为短期意图航迹预测结果图；(b)为飞行高度变化曲线图；

图9是本发明在地形一图3(a)中的基于深度强化学习的长期意图预测结果图；其中(a)为长期意图航迹预测结果图；(b)为表示飞行高度变化曲线图；

图10是本发明在地形二图3(b)中的基于深度强化学习的短期意图预测结果图；其中(a)为短期意图航迹预测结果图；(b)为飞行高度变化曲线图；

图11是本发明在地形二图3(b)中的基于深度强化学习的长期意图预测结果图；其中(a)为长期意图航迹预测结果图；(b)为表示飞行高度变化曲线图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明公开了基于深度强化学习算法的无人机意图航迹预测技术，属于兵器系统技术领域，如图1所示，具体步骤如下：

步骤1：建立了无人机意图航迹预测奖励函数模型，其中包含机动动作模型和地形模型。

步骤1.1，建立无人机意图航迹预测奖励函数模型。无人机意图预测过程可以看成是无人机这个智能体与环境不断进行交互的过程，每一次交互都对应有相应的奖励值，然后根据奖励值不断选择最优的动作，交互过程如图2所示。

图2中S_t表示第t迭代时无人机在地形环境中所处的位置，r_t表示第t次迭代时奖励函数的值，A_t表示第t次迭代时无人机采取的动作。无人机在执行某个动作后A_t，与当前所处环境进行交互，产生新的状态位置S_t，同时环境给出一个奖励值r_t，来反映执行动作A_t的优良程度，最佳机动动作选择中根据A_t、S_t和r_t来选择下一时刻将要执行的机动动作A_t+1。如此循环，无人机和环境进行交互会不断产生新的数据，再利用新的数据去修改自身的动作策略。经过多次迭代之后，无人机就会学习到完成任务所需要的最佳动作策略。

无人机每次动作后，系统都会对该动作进行评定，奖励函数的设定是提供给系统一个评价的标准。当奖励值为正时，表示建议当前时刻对该动作的选择；当奖励值为负时，表示不建议当前时刻对该动作的选择。奖励函数的设定可以从另一方面约束无人机动作的选择，并影响无人机意图决策效果。在本发明中，关于意图航迹预测考虑建立两个奖励函数：地形的奖励函数和飞行机动动作的奖励函数。总的奖励函数可表示为两个奖励函数的加权和，表达如下：

r_t＝λ_dr_d+λ_mr_m

其中，r_d为地形的奖励函数，r_m为飞行机动动作的奖励函数，λ_d、λ_m为相应的权重系数。

步骤1.2，建立意图航迹预测地形环境模型。

实际地形环境的数字建模步骤如下：

1)按照实际地形环境将规划空间划分为正方形网格，每个网格的初始高度定义为0米。本发明把两个地形环境划分为300*300个独立的网格单元。

2)按照实际地形的等高线，为每个不同的网格单元赋上高度值。

3)进行仿真，生成对应的数字地图。

在较为复杂的地形下进行对抗会大大加剧无人机坠毁的概率，所以在建立地形模型的时候应对适合和不适合无人机作战的区域进行了划分，主要分为以下三块：

1)实线区域为危险作战区，通常为高海拔山峰聚集处，此处不适合无人机作战，应避免飞入该区域。

2)点线区域为安全作战区，通常为低海拔平坦区域，适合无人机作战，在此区域内战斗时因碰撞到周围的地形环境而导致无人机坠毁的概率很小。

3)其他区域为一般作战区，在该区域内也会有碰撞危险，其概率小于危险作战区和大于安全作战区。

则意图预测的地形图如图3所示，图中实线区域为危险作战区，点线区域为安全作战区，除此之外的区域为一般作战区。

为便于分析，意图预测的地形威胁奖励函数r₁可表示为：

其中，D表示无人机正处于的作战区域；D_d表示危险作战区域；D_n表示一般作战区域；D_s表示安全作战区域。

另外，考虑无人机与地形之间的最小安全距离，建立地形防碰撞奖励函数r₂如下：

其中，d表示无人机与地形之间的距离；d_min表示无人机与地形环境间的最小安全距离，小于该值时极易与地形发生碰撞；d_max表示最大安全距离，大于该值时不会有与地形发生碰撞的危险。

总的地形奖励函数r_d为地形威胁奖励函数r₁和地形防碰撞奖励函数r₂的加权和，表示如下：

其中，

和

为相应的权重系数。

步骤1.3，建立机动动作预测模型。意图预测机动动作模型的行动空间是无人机的机动库。机动库的建立可以借鉴空战中战斗机的机动动作，具体包括：筋斗、半筋斗翻转、高速悠悠、低速悠悠、滚筒、破S、半破S和殷麦曼回旋等。为便于分析，这些机动动作可以继续拆分为更小的机动单元。由于传统机动动作的连续性，导致无人机在执行机动单元时必然存在一定的规律。为了在短时间内准确地预测敌方意图，本发明将先对机动单元进行预测，最后再拟合出敌方意图轨迹。为此，本发明对基本机动单元动作库进行了细化补充，如图4所示。

所设计的基本机动单元库包括直飞、翻转、爬升、左侧爬升、右侧爬升、左转弯、右转弯、俯冲、左侧俯冲、右侧俯冲共10个基本机动单元。将这些基本的机动单元按照不同的顺序进行组合，可以得到无人机大多数的复杂机动动作。表1给出了复杂机动动作与基本机动单元的对照关系。

表1常见机动动作与改进基本机动单元库对照表

由表1可知，左右爬升和左右俯冲通常配合在一起使用，实现追踪打击的功能，因此为了简化模型把这四个基本机动单元统称为追踪，同时把左右转弯统称为转向。将基本机动单元简化成6个，分别为直飞、爬升、翻转、俯冲、转向和追踪，任意一种常见机动动作都可由上述6种基本机动单元组合衔接而成。假设空战复杂机动动作均为基本机动单元及其组合，且由于基本机动单元库中的动作衔接有一定的规律，所以可由表1制定基本机动单元动作衔接图，如图5所示。

记无人机机动动作为MR，无人机机动动作与基本机动单元动作Mr之间的关系为：

MR＝f((Mr_i,τ₁),(Mr_i,τ₂),...,(Mr_i,τ_n))

其中，Mr_i(i∈1,2,...,6)表示6种基本机动单元动作；f(·)表示执行复杂机动动作序列，执行MR的时间为τ，将其分为n个间隔：先执行τ₁时刻的基本机动单元，再执行τ₂时刻的基本机动单元，直到执行τ_n时刻的基本机动单元后，表示本次复杂机动动作MR结束。τ₁,τ₂,...τ_n为无人机完成各基本机动单元所需时间，且满足以下关系：

t_min≤τ＝τ₁+τ₂+...+τ_n≤t_max

其中，t_min为无人机完成一次机动所需最短时间，t_max为无人机完成一次机动所需最长时间。

综上，将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mr_i的序列。并考虑实际飞行概率，给定基本机动单元衔接的初始概率奖励函数r_m。

步骤2：根据奖励函数模型建立深度强化学习网络模型，利用该网络模型进行意图动作的预测，并对深度强化学习网络参数的训练过程进行分析。

步骤2.1，选择网络模型。传统的深度强化学习被称为DQN(DeepQ-learningNetwork)。算法的思路来源于Q-learning，为了存储连贯的数据，采用Q网络进行数据的存储和计算。Q网络可以是传统神经网络、循环神经网络和深度神经网络等。通过对比分析各种神经网络，本发明选择出性能较好的神经网络作为深度强化学习中的Q网络。

深度神经网络(Deep Neural Network,DNN)可以理解成具有很多隐藏层的传统神经网络。把它按不同的层次划分可以分为三类：输入层、隐藏层和输出层，一般来说第一层是输入层，最后一层是输出层，而中间的都是隐藏层。这种多层次的结构，可以用较少的参数表示复杂的函数，解决复杂的问题，因此本发明采用深度神经网络。

步骤2.2，对网络中参数迭代计算的过程进行分析。为了防止出现过估计的现象，本发明在DQN的基础上增加一个同样结构的Q网络，因为相比单层Q网络的深度强化学习多了一层Q网络，因此改进后的深度强化学习算法可以称为DDQN(Double Deep Q-Network)。由于有双层Q网络，可以直接利用第一层网络先找出最大动作价值函数对应的动作A_t,choose，计算公式为：

其中，

是第一层Q网络，

是第一层Q网络的网络参数，

表示的是第一层Q网络在n+1迭代时的状态位置，

是第t+1次迭代时由第一层Q网络的特征向量。再利用第二层Q网络去计算动作A_t,choose的动作价值函数y_t，即：

其中，

是第二层Q网络，

是第二层Q网络的网络参数且与

中的参数相同，为了方便公式说明采用l₁、l₂加以区分。

是第t+1次迭代时由第二层Q网络的特征向量。

通过该方法使得不用取极值的方法去选取动作，先使用第一层Q网络找出最大Q值所对应的动作，在使用第二层Q网络去计算被选中动作的Q值。利用多一层Q网络多一次精确计算的方式使得输出结果更加精确，避免了过估计的风险。

为了评定当前迭代所得结果效果的好坏，本发明引入时间差分法(Temporal-Difference,TD)的方法，当前迭代所选中动作的好坏与TD误差计算结果成反比。TD误差值越大，当前迭代所得出的结果越差；TD误差值越小，当前迭代所得出的结果越好，把TD误差的结果d_t作为历史信息进行存储。假设当前处于第t次迭代，时间差分法的本质可以表示为：执行第t次迭代选中的动作A_t,i后计算该动作的动作价值函数，并与第t-1迭代时执行完动作A_t-1,i的Q值进行比较，来判断动作A_t,i的优良程度。若差值较大则表明当前时刻选择该动作效果较差，建议重新选择动作；若差值较小则表明当前时刻选择该动作效果较好，建议使用该动作。计算公式为：

为了减少算法在历史信息选择中所耗费的时间，本发明对存储数据的数据结构进行改进，使用二叉树的数据结构取代经验池这一数据结构。把每一次迭代中通过时间差分法所得的结果存储在二叉树的叶节点中，二叉树叶节点的大小值与TD误差结果d_t的大小成正比，d_t的值越大则二叉树叶节点的大小也就越大，反之则反，二叉树的数据结构如图6所示。将结果存储于二叉树的叶节点中，各个二叉树叶节点的值p_t(t∈1,2,...,j)取决于d_t的大小，计算公式为：

p_t＝|d_t|+μ

其中，μ是一个很小的参数，目的是防止p_t为0。

当每个二叉树的叶节点都有了对应的数值之后，就可以通过优先级采样定理来定位某个固定的叶节点。优先级采样定理的选择原则是：二叉树某一叶节点的数值越大，则优先级就越高，被选择中的几率也就越大。通过该方法可以快速、高效地选择经TD误差结果d_t，从而减少了算法的运行时间。优先级采样P_t(t)的计算公式为：

通过优先级采样的数据若不进行处理可能会导致系统过早收敛，因为有一种可能性较小的情况：大优先级的树单元一直没有被选中，而一直选择优先级较低的树单元。为了降低以上情况发生的概率，需要对所得到的结果进行进一步的处理，为了提高采样过程中稳定性，本发明引入了重要性采样权重方法(Importance Sample Weights,ISW)。该方法是统计学中用来估计某一分布性质时采用的方法，该方法不改变统计量，只改变概率分布，可以用来降低方差，该方法的目标是用一种受控的方式改变仿真，以便增加稀少事件的数目，同时还能正确地确定解调差错概率。通过该方法用来恢复被经验回放方法打乱的抽样概率分布。计算公式为：

ω_t(t)＝1/(j·P_t(t))

其中，j是二叉树叶节点的上限数量。

下一步在历史信息的影响下根据反向传播法更新神经网络参数

计算公式为：

其中，

为第t次迭代时的Q网络参数。

步骤3：对由深度强化学习网络参数得到动作价值函数的过程进行分析，为之后的策略选择做准备。

当

收敛后就可以得到近似神经网络参数，进而可以使用动作价值函数的近似过程求得

进而计算策略。动作价值函数

由神经网络参数θ_t描述，并以状态位置信息

作为输入，表达式为：

该过程可描述为在得到状态位置信息之后，计算其特征向量

并通过神经网络计算基本机动单元集合中各个动作的价值

其中i∈1,...,n。图7为价值函数的近似过程。

步骤4：建立策略模型，通过该模型对动作价值函数进行选取，从而选择出最佳的飞行动作，并实时生成航迹。

通过动作价值函数的计算后可以得出第t+1次迭代时各个动作的价值函数，之后利用策略π_t+1对动作价值函数进行选取。策略π_t+1的设计思路为：在迭代的初期增加算法的多样性，考虑各种方案的可行性，鼓励其不断进行探索；而在算法的后期有了足够的样本数据，近似过程的精准度较高后开始趋于保守，大概率选择行为值最大的动作，使算法最终趋于稳定。计算公式为：

π_t+1＝(π₁^π₂)

其中，

i∈1,2,...,n表示选择行为值最大的动作，

k∈1,2,...,n k≠i表示选择除去行为值最大动作的其他动作。

为了实现上述功能需要引入贪婪值ε∈(0,1)来执行π₁或π₂的选择，假设ε＝0.8，则执行π₁的概率为1-ε＝0.2；执行π₂的概率为ε＝0.8。贪婪值ε的初始值由人为给定，并会随着迭代的进行不断减小，通过该值的不断变化来诱导动作的选择。

综上所述，本发明基于深度强化学习的无人机意图预测结果如图8至图11所示。仿真结果表明基于深度强化学习的无人机意图预测方法在意图预测问题上具有很高的实时性，并且可以准确判断出敌方任意时刻具体的机动动作单元并以航迹的形式展示，可以很好的作为作战依据。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。