CN112947541B - 一种基于深度强化学习的无人机意图航迹预测方法 - Google Patents

一种基于深度强化学习的无人机意图航迹预测方法 Download PDF

Info

Publication number
CN112947541B
CN112947541B CN202110054435.4A CN202110054435A CN112947541B CN 112947541 B CN112947541 B CN 112947541B CN 202110054435 A CN202110054435 A CN 202110054435A CN 112947541 B CN112947541 B CN 112947541B
Authority
CN
China
Prior art keywords
action
network
unmanned aerial
aerial vehicle
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110054435.4A
Other languages
English (en)
Other versions
CN112947541A (zh
Inventor
王玉惠
陈天培
吴庆宪
周泽宇
张逸航
刘昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110054435.4A priority Critical patent/CN112947541B/zh
Publication of CN112947541A publication Critical patent/CN112947541A/zh
Application granted granted Critical
Publication of CN112947541B publication Critical patent/CN112947541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的无人机意图航迹预测方法,首先,建立意图航迹预测奖励函数模型,其中包含机动动作模型和地形模型;接着,建立深度强化学习网络模型,对网络中参数迭代计算的过程进行分析;然后,对动作价值函数的近似过程进行分析,为之后的策略选择做准备;最后,建立策略模型,通过该模型对动作价值函数进行选取,从而选择出最佳的飞行动作,并通过航迹的形式显示结果。本发明不仅能完整的显示无人机的意图航迹,还可以得知无人机在飞行过程中做了何种机动动作。

Description

一种基于深度强化学习的无人机意图航迹预测方法
技术领域
本发明属于无人机领域,具体涉及一种基于深度强化学习的无人机意图航迹预测方法。
背景技术
意图预测是将各种传感器得到的信息进行综合分析、处理后,得到敌方下一阶段的企图和打算。由于空战过程和无人机的机动动作有着连续性,因此,敌方无人机的作战意图航迹可通过已获得的空战信息在经过合理推断后得知。充分掌握敌方招式,相当于赢得了一半的对抗。意图预测有多种详细的表述方式,对敌方的作战意图进行判断、分析敌军作战意图和计划、推断出敌方的行为模式和作战意图和确定敌方的意图特征等。它主要用来解决以下问题,敌方会采取何种行动、敌方为什么会采取该种行动、敌方采取该种行动的目的是什么和敌方采取该种行动的可能性有多大。按不同的作战场景来划分,可以将意图预测分为海战场意图预测、陆战场意图预测和空战场意图预测。按战争影响的层次,意图预测可以分为目标战略意图预测、目标战役意图预测、目标战术意图预测。总而言之意图预测是将各种传感器得到的信息进行综合分析、处理后,得到敌方下一阶段的企图和打算。
在现代空战中,战争局势迅速变化,若能提前预测出敌方无人机的意图航迹,我方就有充足的时间做出最佳的对抗决策,从而起到先敌制胜的效果,使我方在空战对抗中取得优势。因此,对敌方意图航迹进行提前预测具有十分重要的意义。
发明内容
发明目的:本发明提供一种基于深度强化学习的无人机意图航迹预测方法,以克服传统预测方法在求解意图航迹预测问题时存在的缺陷。
技术方案:本发明所述的一种基于深度强化学习的无人机意图航迹预测方法,包括以下步骤:
(1)构建意图航迹预测奖励函数模型;所述意图航迹预测奖励函数模型包含机动动作模型和地形模型;
(2)根据奖励函数模型建立深度强化学习网络模型,利用该网络模型进行意图动作的预测,并对深度强化学习网络参数的训练过程进行分析;
(3)对由深度强化学习网络参数得到动作价值函数的过程进行分析,为之后的策略选择做准备;
(4)建立策略模型,对动作价值函数进行选取,从而选择出最佳的飞行动作,并实时生成航迹。
进一步地,所述步骤(1)包括以下步骤:
(11)建立两个奖励函数:地形的奖励函数和飞行机动动作的奖励函数,总的奖励函数为两个奖励函数的加权和:
rt=λdrdmrm
其中,rd为地形的奖励函数,rm为飞行机动动作的奖励函数,λd、λm为相应的权重系数;当奖励值为正时,表示建议当前时刻对该动作的选择;当奖励值为负时,表示不建议当前时刻对该动作的选择;
(12)构建地形环境模型,对适合和不适合无人机作战的区域进行划分:按照实际地形环境将规划空间划分为正方形网格,每个网格的初始高度定义为0米,把两个地形环境划分为300*300个独立的网格单元;按照实际地形的等高线,为每个不同的网格单元赋上高度值;进行仿真,生成对应的数字地图;
意图航迹预测的地形威胁奖励函数r1可表示为:
Figure BDA0002900126260000021
其中,D表示无人机正处于的作战区域;Dd表示危险作战区域;Dn表示一般作战区域;Ds表示安全作战区域;
建立地形防碰撞奖励函数r2如下:
Figure BDA0002900126260000022
其中,d表示无人机与地形之间的距离;dmin表示无人机与地形环境间的最小安全距离,小于该值时极易与地形发生碰撞;dmax表示最大安全距离,大于该值时不会有与地形发生碰撞的危险;
(13)构建无人机动动作模型:设计基本机动单元库,对机动单元进行预测,拟合出敌方意图轨迹;将基本的机动单元按照不同的顺序进行组合,得到无人机的复杂机动动作;无人机复杂机动动作为MR,无人机机动动作与基本机动单元动作Mr之间的关系为:
MR=f((Mri1),(Mri2),...,(Mrin))
其中,Mri(i∈1,2,...,6)表示6种基本机动单元动作;f(·)表示执行复杂机动动作序列,执行MR的时间为τ,将其分为n个间隔:先执行τ1时刻的基本机动单元,再执行τ2时刻的基本机动单元,直到执行τn时刻的基本机动单元后,表示本次复杂机动动作MR结束;τ12,...τn为无人机完成各基本机动单元所需时间,且满足以下关系:
tmin≤τ=τ12+...+τn≤tmax
其中,tmin为无人机完成一次机动所需最短时间,tmax为无人机完成一次机动所需最长时间;将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mri的序列,并考虑实际飞行概率,给定基本机动单元衔接的初始概率奖励函数rm
进一步地,所述步骤(2)包括以下步骤:
(21)选择深度神经网络作为深度强化学习中的Q网络;
(22)对网络中参数迭代计算的过程进行分析:在DQN的基础上增加一个同样结构的Q网络,因为相比单层Q网络的深度强化学习多了一层Q网络,利用第一层网络先找出最大动作价值函数对应的动作At,choose,计算公式为:
Figure BDA0002900126260000031
其中,
Figure BDA0002900126260000032
是第一层Q网络,
Figure BDA0002900126260000033
是第一层Q网络的网络参数,
Figure BDA0002900126260000034
表示的是第一层Q网络在n+1迭代时的状态位置,
Figure BDA0002900126260000035
是第t+1次迭代时由第一层Q网络的特征向量;利用第二层Q网络去计算动作At,choose的动作价值函数yt,即:
Figure BDA0002900126260000041
其中,
Figure BDA0002900126260000042
是第二层Q网络,
Figure BDA0002900126260000043
是第二层Q网络的网络参数且与
Figure BDA0002900126260000044
中的参数相同,
Figure BDA0002900126260000045
是第t+1次迭代时由第二层Q网络的特征向量;
执行第t次迭代选中的动作At,i后计算该动作的动作价值函数,并与第t-1迭代时执行完动作At-1,i的Q值进行比较,来判断动作At,i的优良程度;若差值较大则表明当前时刻选择该动作效果较差,建议重新选择动作;若差值较小则表明当前时刻选择该动作效果较好,建议使用该动作,计算公式为:
Figure BDA0002900126260000046
将结果存储于二叉树的叶节点中,各个二叉树叶节点的值pt(t∈1,2,...,j)取决于dt的大小,计算公式为:
pt=|dt|+μ
其中,μ是一个很小的参数,目的是防止pt为0;
根据优先级采样定理对叶节点进行选择:
Figure BDA0002900126260000047
引入了重要性采样权重方法恢复被经验回放方法打乱的抽样概率分布,计算公式为:
ωt(t)=1/(j·Pt(t))
在历史信息的影响下根据反向传播法更新神经网络参数
Figure BDA0002900126260000048
计算公式为:
Figure BDA0002900126260000049
其中,
Figure BDA00029001262600000410
为第t次迭代时的Q网络参数。
进一步地,所述步骤(3)实现过程如下:
Figure BDA00029001262600000411
收敛后得到近似神经网络参数,使用动作价值函数的近似过程求得
Figure BDA00029001262600000412
进而计算策略;动作价值函数
Figure BDA0002900126260000051
由神经网络参数θt描述,并以状态位置信息
Figure BDA0002900126260000052
作为输入,表达式为:
Figure BDA0002900126260000053
进一步地,所述步骤(4)实现过程如下:
通过动作价值函数的计算得出第t+1次迭代时各个动作的价值函数,大概率选择行为值最大的动作,使算法最终趋于稳定,表达式为:
πt+1=(π12)
其中,
Figure BDA0002900126260000054
表示选择行为值最大的动作,
Figure BDA0002900126260000055
k∈1,2,...,n k≠i表示选择除去行为值最大动作的其他动作;通过贪婪值ε∈(0,1)来执行π1或π2的选择,贪婪值ε的初始值由人为给定,并会随着迭代的进行不断减小,通过贪婪值ε的不断变化诱导动作的选择。
有益效果:与现有技术相比,本发明的有益效果:1、现有的方法只能预测出一条轨迹,而本发明不仅可以预测出一条完整轨迹而且可以通过拆分轨迹求解任意时刻无人机做出的机动动作;2、现有的预测方法依赖于模型,当无人机型号或者地形发生变化后都要重新进行建模,十分的麻烦;而本发明在建立了包含机动动作和奖励函数的模型后,就不需要再对模型进行任何更改,可以适用于各种情况,相比于传统方法更加简便,适用性更强;3、本发明在算法运行速度上有了很大的提升,更快预测出敌方的意图,使我方有更充足的时间进行后续的对策,牢牢把握战场的先机。
附图说明
图1是本发明的流程图;
图2是本发明的无人机与环境交互示意图;
图3是本发明的地形环境模型中威胁俯瞰图;其中(a)表示标识威胁的地形图;(b)为标识威胁的地形图;
图4是本发明的基本机动单元动作库示意图;
图5是本发明的基本机动单元衔接图;
图6是本发明的二叉树结构图;
图7是本发明的动作价值函数近似过程;
图8是本发明在地形一图3(a)中的基于深度强化学习的短期意图预测结果图;其中(a)为短期意图航迹预测结果图;(b)为飞行高度变化曲线图;
图9是本发明在地形一图3(a)中的基于深度强化学习的长期意图预测结果图;其中(a)为长期意图航迹预测结果图;(b)为表示飞行高度变化曲线图;
图10是本发明在地形二图3(b)中的基于深度强化学习的短期意图预测结果图;其中(a)为短期意图航迹预测结果图;(b)为飞行高度变化曲线图;
图11是本发明在地形二图3(b)中的基于深度强化学习的长期意图预测结果图;其中(a)为长期意图航迹预测结果图;(b)为表示飞行高度变化曲线图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明公开了基于深度强化学习算法的无人机意图航迹预测技术,属于兵器系统技术领域,如图1所示,具体步骤如下:
步骤1:建立了无人机意图航迹预测奖励函数模型,其中包含机动动作模型和地形模型。
步骤1.1,建立无人机意图航迹预测奖励函数模型。无人机意图预测过程可以看成是无人机这个智能体与环境不断进行交互的过程,每一次交互都对应有相应的奖励值,然后根据奖励值不断选择最优的动作,交互过程如图2所示。
图2中St表示第t迭代时无人机在地形环境中所处的位置,rt表示第t次迭代时奖励函数的值,At表示第t次迭代时无人机采取的动作。无人机在执行某个动作后At,与当前所处环境进行交互,产生新的状态位置St,同时环境给出一个奖励值rt,来反映执行动作At的优良程度,最佳机动动作选择中根据At、St和rt来选择下一时刻将要执行的机动动作At+1。如此循环,无人机和环境进行交互会不断产生新的数据,再利用新的数据去修改自身的动作策略。经过多次迭代之后,无人机就会学习到完成任务所需要的最佳动作策略。
无人机每次动作后,系统都会对该动作进行评定,奖励函数的设定是提供给系统一个评价的标准。当奖励值为正时,表示建议当前时刻对该动作的选择;当奖励值为负时,表示不建议当前时刻对该动作的选择。奖励函数的设定可以从另一方面约束无人机动作的选择,并影响无人机意图决策效果。在本发明中,关于意图航迹预测考虑建立两个奖励函数:地形的奖励函数和飞行机动动作的奖励函数。总的奖励函数可表示为两个奖励函数的加权和,表达如下:
rt=λdrdmrm
其中,rd为地形的奖励函数,rm为飞行机动动作的奖励函数,λd、λm为相应的权重系数。
步骤1.2,建立意图航迹预测地形环境模型。
实际地形环境的数字建模步骤如下:
1)按照实际地形环境将规划空间划分为正方形网格,每个网格的初始高度定义为0米。本发明把两个地形环境划分为300*300个独立的网格单元。
2)按照实际地形的等高线,为每个不同的网格单元赋上高度值。
3)进行仿真,生成对应的数字地图。
在较为复杂的地形下进行对抗会大大加剧无人机坠毁的概率,所以在建立地形模型的时候应对适合和不适合无人机作战的区域进行了划分,主要分为以下三块:
1)实线区域为危险作战区,通常为高海拔山峰聚集处,此处不适合无人机作战,应避免飞入该区域。
2)点线区域为安全作战区,通常为低海拔平坦区域,适合无人机作战,在此区域内战斗时因碰撞到周围的地形环境而导致无人机坠毁的概率很小。
3)其他区域为一般作战区,在该区域内也会有碰撞危险,其概率小于危险作战区和大于安全作战区。
则意图预测的地形图如图3所示,图中实线区域为危险作战区,点线区域为安全作战区,除此之外的区域为一般作战区。
为便于分析,意图预测的地形威胁奖励函数r1可表示为:
Figure BDA0002900126260000071
其中,D表示无人机正处于的作战区域;Dd表示危险作战区域;Dn表示一般作战区域;Ds表示安全作战区域。
另外,考虑无人机与地形之间的最小安全距离,建立地形防碰撞奖励函数r2如下:
Figure BDA0002900126260000081
其中,d表示无人机与地形之间的距离;dmin表示无人机与地形环境间的最小安全距离,小于该值时极易与地形发生碰撞;dmax表示最大安全距离,大于该值时不会有与地形发生碰撞的危险。
总的地形奖励函数rd为地形威胁奖励函数r1和地形防碰撞奖励函数r2的加权和,表示如下:
Figure BDA0002900126260000082
其中,
Figure BDA0002900126260000083
Figure BDA0002900126260000084
为相应的权重系数。
步骤1.3,建立机动动作预测模型。意图预测机动动作模型的行动空间是无人机的机动库。机动库的建立可以借鉴空战中战斗机的机动动作,具体包括:筋斗、半筋斗翻转、高速悠悠、低速悠悠、滚筒、破S、半破S和殷麦曼回旋等。为便于分析,这些机动动作可以继续拆分为更小的机动单元。由于传统机动动作的连续性,导致无人机在执行机动单元时必然存在一定的规律。为了在短时间内准确地预测敌方意图,本发明将先对机动单元进行预测,最后再拟合出敌方意图轨迹。为此,本发明对基本机动单元动作库进行了细化补充,如图4所示。
所设计的基本机动单元库包括直飞、翻转、爬升、左侧爬升、右侧爬升、左转弯、右转弯、俯冲、左侧俯冲、右侧俯冲共10个基本机动单元。将这些基本的机动单元按照不同的顺序进行组合,可以得到无人机大多数的复杂机动动作。表1给出了复杂机动动作与基本机动单元的对照关系。
表1常见机动动作与改进基本机动单元库对照表
Figure BDA0002900126260000085
Figure BDA0002900126260000091
由表1可知,左右爬升和左右俯冲通常配合在一起使用,实现追踪打击的功能,因此为了简化模型把这四个基本机动单元统称为追踪,同时把左右转弯统称为转向。将基本机动单元简化成6个,分别为直飞、爬升、翻转、俯冲、转向和追踪,任意一种常见机动动作都可由上述6种基本机动单元组合衔接而成。假设空战复杂机动动作均为基本机动单元及其组合,且由于基本机动单元库中的动作衔接有一定的规律,所以可由表1制定基本机动单元动作衔接图,如图5所示。
记无人机机动动作为MR,无人机机动动作与基本机动单元动作Mr之间的关系为:
MR=f((Mri1),(Mri2),...,(Mrin))
其中,Mri(i∈1,2,...,6)表示6种基本机动单元动作;f(·)表示执行复杂机动动作序列,执行MR的时间为τ,将其分为n个间隔:先执行τ1时刻的基本机动单元,再执行τ2时刻的基本机动单元,直到执行τn时刻的基本机动单元后,表示本次复杂机动动作MR结束。τ12,...τn为无人机完成各基本机动单元所需时间,且满足以下关系:
tmin≤τ=τ12+...+τn≤tmax
其中,tmin为无人机完成一次机动所需最短时间,tmax为无人机完成一次机动所需最长时间。
综上,将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mri的序列。并考虑实际飞行概率,给定基本机动单元衔接的初始概率奖励函数rm
步骤2:根据奖励函数模型建立深度强化学习网络模型,利用该网络模型进行意图动作的预测,并对深度强化学习网络参数的训练过程进行分析。
步骤2.1,选择网络模型。传统的深度强化学习被称为DQN(DeepQ-learningNetwork)。算法的思路来源于Q-learning,为了存储连贯的数据,采用Q网络进行数据的存储和计算。Q网络可以是传统神经网络、循环神经网络和深度神经网络等。通过对比分析各种神经网络,本发明选择出性能较好的神经网络作为深度强化学习中的Q网络。
深度神经网络(Deep Neural Network,DNN)可以理解成具有很多隐藏层的传统神经网络。把它按不同的层次划分可以分为三类:输入层、隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的都是隐藏层。这种多层次的结构,可以用较少的参数表示复杂的函数,解决复杂的问题,因此本发明采用深度神经网络。
步骤2.2,对网络中参数迭代计算的过程进行分析。为了防止出现过估计的现象,本发明在DQN的基础上增加一个同样结构的Q网络,因为相比单层Q网络的深度强化学习多了一层Q网络,因此改进后的深度强化学习算法可以称为DDQN(Double Deep Q-Network)。由于有双层Q网络,可以直接利用第一层网络先找出最大动作价值函数对应的动作At,choose,计算公式为:
Figure BDA0002900126260000101
其中,
Figure BDA0002900126260000102
是第一层Q网络,
Figure BDA0002900126260000103
是第一层Q网络的网络参数,
Figure BDA0002900126260000104
表示的是第一层Q网络在n+1迭代时的状态位置,
Figure BDA0002900126260000105
是第t+1次迭代时由第一层Q网络的特征向量。再利用第二层Q网络去计算动作At,choose的动作价值函数yt,即:
Figure BDA0002900126260000106
其中,
Figure BDA0002900126260000107
是第二层Q网络,
Figure BDA0002900126260000108
是第二层Q网络的网络参数且与
Figure BDA0002900126260000109
中的参数相同,为了方便公式说明采用l1、l2加以区分。
Figure BDA00029001262600001010
是第t+1次迭代时由第二层Q网络的特征向量。
通过该方法使得不用取极值的方法去选取动作,先使用第一层Q网络找出最大Q值所对应的动作,在使用第二层Q网络去计算被选中动作的Q值。利用多一层Q网络多一次精确计算的方式使得输出结果更加精确,避免了过估计的风险。
为了评定当前迭代所得结果效果的好坏,本发明引入时间差分法(Temporal-Difference,TD)的方法,当前迭代所选中动作的好坏与TD误差计算结果成反比。TD误差值越大,当前迭代所得出的结果越差;TD误差值越小,当前迭代所得出的结果越好,把TD误差的结果dt作为历史信息进行存储。假设当前处于第t次迭代,时间差分法的本质可以表示为:执行第t次迭代选中的动作At,i后计算该动作的动作价值函数,并与第t-1迭代时执行完动作At-1,i的Q值进行比较,来判断动作At,i的优良程度。若差值较大则表明当前时刻选择该动作效果较差,建议重新选择动作;若差值较小则表明当前时刻选择该动作效果较好,建议使用该动作。计算公式为:
Figure BDA0002900126260000111
为了减少算法在历史信息选择中所耗费的时间,本发明对存储数据的数据结构进行改进,使用二叉树的数据结构取代经验池这一数据结构。把每一次迭代中通过时间差分法所得的结果存储在二叉树的叶节点中,二叉树叶节点的大小值与TD误差结果dt的大小成正比,dt的值越大则二叉树叶节点的大小也就越大,反之则反,二叉树的数据结构如图6所示。将结果存储于二叉树的叶节点中,各个二叉树叶节点的值pt(t∈1,2,...,j)取决于dt的大小,计算公式为:
pt=|dt|+μ
其中,μ是一个很小的参数,目的是防止pt为0。
当每个二叉树的叶节点都有了对应的数值之后,就可以通过优先级采样定理来定位某个固定的叶节点。优先级采样定理的选择原则是:二叉树某一叶节点的数值越大,则优先级就越高,被选择中的几率也就越大。通过该方法可以快速、高效地选择经TD误差结果dt,从而减少了算法的运行时间。优先级采样Pt(t)的计算公式为:
Figure BDA0002900126260000121
通过优先级采样的数据若不进行处理可能会导致系统过早收敛,因为有一种可能性较小的情况:大优先级的树单元一直没有被选中,而一直选择优先级较低的树单元。为了降低以上情况发生的概率,需要对所得到的结果进行进一步的处理,为了提高采样过程中稳定性,本发明引入了重要性采样权重方法(Importance Sample Weights,ISW)。该方法是统计学中用来估计某一分布性质时采用的方法,该方法不改变统计量,只改变概率分布,可以用来降低方差,该方法的目标是用一种受控的方式改变仿真,以便增加稀少事件的数目,同时还能正确地确定解调差错概率。通过该方法用来恢复被经验回放方法打乱的抽样概率分布。计算公式为:
ωt(t)=1/(j·Pt(t))
其中,j是二叉树叶节点的上限数量。
下一步在历史信息的影响下根据反向传播法更新神经网络参数
Figure BDA00029001262600001211
计算公式为:
Figure BDA0002900126260000122
其中,
Figure BDA0002900126260000123
为第t次迭代时的Q网络参数。
步骤3:对由深度强化学习网络参数得到动作价值函数的过程进行分析,为之后的策略选择做准备。
Figure BDA0002900126260000124
收敛后就可以得到近似神经网络参数,进而可以使用动作价值函数的近似过程求得
Figure BDA0002900126260000125
进而计算策略。动作价值函数
Figure BDA0002900126260000126
由神经网络参数θt描述,并以状态位置信息
Figure BDA0002900126260000127
作为输入,表达式为:
Figure BDA0002900126260000128
该过程可描述为在得到状态位置信息之后,计算其特征向量
Figure BDA0002900126260000129
并通过神经网络计算基本机动单元集合中各个动作的价值
Figure BDA00029001262600001210
其中i∈1,...,n。图7为价值函数的近似过程。
步骤4:建立策略模型,通过该模型对动作价值函数进行选取,从而选择出最佳的飞行动作,并实时生成航迹。
通过动作价值函数的计算后可以得出第t+1次迭代时各个动作的价值函数,之后利用策略πt+1对动作价值函数进行选取。策略πt+1的设计思路为:在迭代的初期增加算法的多样性,考虑各种方案的可行性,鼓励其不断进行探索;而在算法的后期有了足够的样本数据,近似过程的精准度较高后开始趋于保守,大概率选择行为值最大的动作,使算法最终趋于稳定。计算公式为:
πt+1=(π12)
其中,
Figure BDA0002900126260000131
i∈1,2,...,n表示选择行为值最大的动作,
Figure BDA0002900126260000132
k∈1,2,...,n k≠i表示选择除去行为值最大动作的其他动作。
为了实现上述功能需要引入贪婪值ε∈(0,1)来执行π1或π2的选择,假设ε=0.8,则执行π1的概率为1-ε=0.2;执行π2的概率为ε=0.8。贪婪值ε的初始值由人为给定,并会随着迭代的进行不断减小,通过该值的不断变化来诱导动作的选择。
综上所述,本发明基于深度强化学习的无人机意图预测结果如图8至图11所示。仿真结果表明基于深度强化学习的无人机意图预测方法在意图预测问题上具有很高的实时性,并且可以准确判断出敌方任意时刻具体的机动动作单元并以航迹的形式展示,可以很好的作为作战依据。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (1)

1.一种基于深度强化学习的无人机意图航迹预测方法,其特征在于,包括以下步骤:
(1)构建意图航迹预测奖励函数模型;所述意图航迹预测奖励函数模型包含机动动作模型和地形模型;
(2)根据奖励函数模型建立深度强化学习网络模型,利用该网络模型进行意图动作的预测,并对深度强化学习网络参数的训练过程进行分析;
(3)对由深度强化学习网络参数得到动作价值函数的过程进行分析,为之后的策略选择做准备;
(4)建立策略模型,对动作价值函数进行选取,从而选择出最佳的飞行动作,并实时生成航迹;
所述步骤(1)包括以下步骤:
(11)建立两个奖励函数:地形的奖励函数和飞行机动动作的奖励函数,总的奖励函数为两个奖励函数的加权和:
rt=λdrdmrm
其中,rd为地形的奖励函数,rm为飞行机动动作的奖励函数,λd、λm为相应的权重系数;当奖励值为正时,表示建议当前时刻对该动作的选择;当奖励值为负时,表示不建议当前时刻对该动作的选择;
(12)构建地形环境模型,对适合和不适合无人机作战的区域进行划分:按照实际地形环境将规划空间划分为正方形网格,每个网格的初始高度定义为0米,把两个地形环境划分为300*300个独立的网格单元;按照实际地形的等高线,为每个不同的网格单元赋上高度值;进行仿真,生成对应的数字地图;
意图航迹预测的地形威胁奖励函数r1可表示为:
Figure FDA0003644775270000011
其中,D表示无人机正处于的作战区域;Dd表示危险作战区域;Dn表示一般作战区域;Ds表示安全作战区域;
建立地形防碰撞奖励函数r2如下:
Figure FDA0003644775270000021
其中,d表示无人机与地形之间的距离;dmin表示无人机与地形环境间的最小安全距离,小于该值时极易与地形发生碰撞;dmax表示最大安全距离,大于该值时不会有与地形发生碰撞的危险;
(13)构建无人机动动作模型:设计基本机动单元库,对机动单元进行预测,拟合出敌方意图轨迹;将基本的机动单元按照不同的顺序进行组合,得到无人机的复杂机动动作;无人机复杂机动动作为MR,无人机机动动作与基本机动单元动作Mr之间的关系为:
MR=f((Mri1),(Mri2),...,(Mrin))
其中,Mri(i∈1,2,...,6)表示6种基本机动单元动作;f(·)表示执行复杂机动动作序列,执行MR的时间为τ,将其分为n个间隔:先执行τ1时刻的基本机动单元,再执行τ2时刻的基本机动单元,直到执行τn时刻的基本机动单元后,表示本次复杂机动动作MR结束;τ12,...τn为无人机完成各基本机动单元所需时间,且满足以下关系:
tmin≤τ=τ12+...+τn≤tmax
其中,tmin为无人机完成一次机动所需最短时间,tmax为无人机完成一次机动所需最长时间;将一个复杂的机动动作MR划分为一个个相互衔接的基本机动单元Mri的序列,并考虑实际飞行概率,给定基本机动单元衔接的初始概率奖励函数rm
所述步骤(2)包括以下步骤:
(21)选择深度神经网络作为深度强化学习中的Q网络;
(22)对网络中参数迭代计算的过程进行分析:在DQN的基础上增加一个同样结构的Q网络,因为相比单层Q网络的深度强化学习多了一层Q网络,利用第一层网络先找出最大动作价值函数对应的动作At,choose,计算公式为:
Figure FDA0003644775270000031
其中,Ql1是第一层Q网络,
Figure FDA0003644775270000032
是第一层Q网络的网络参数,
Figure FDA0003644775270000033
表示的是第一层Q网络在n+1迭代时的状态位置,
Figure FDA0003644775270000034
是第t+1次迭代时由第一层Q网络的特征向量;利用第二层Q网络去计算动作At,choose的动作价值函数yt,即:
Figure FDA0003644775270000035
其中,
Figure FDA0003644775270000036
是第二层Q网络,
Figure FDA0003644775270000037
是第二层Q网络的网络参数且与
Figure FDA0003644775270000038
中的参数相同,
Figure FDA0003644775270000039
是第t+1次迭代时由第二层Q网络的特征向量;
执行第t次迭代选中的动作At,i后计算该动作的动作价值函数,并与第t-1迭代时执行完动作At-1,i的Q值进行比较,来判断动作At,i的优良程度;若差值较大则表明当前时刻选择该动作效果较差,建议重新选择动作;若差值较小则表明当前时刻选择该动作效果较好,建议使用该动作,计算公式为:
Figure FDA00036447752700000310
将结果存储于二叉树的叶节点中,各个二叉树叶节点的值pt(t∈1,2,...,j)取决于dt的大小,计算公式为:
pt=|dt|+μ
其中,μ是一个很小的参数,目的是防止pt为0;
根据优先级采样定理对叶节点进行选择:
Figure FDA00036447752700000311
引入了重要性采样权重方法恢复被经验回放方法打乱的抽样概率分布,计算公式为:
ωt(t)=1/(j·Pt(t))
在历史信息的影响下根据反向传播法更新神经网络参数
Figure FDA00036447752700000312
计算公式为:
Figure FDA00036447752700000313
其中,
Figure FDA0003644775270000041
为第t次迭代时的Q网络参数;
所述步骤(3)实现过程如下:
Figure FDA0003644775270000042
收敛后得到近似神经网络参数,使用动作价值函数的近似过程求得
Figure FDA0003644775270000043
进而计算策略;动作价值函数
Figure FDA0003644775270000044
由神经网络参数θt描述,并以状态位置信息
Figure FDA0003644775270000045
作为输入,表达式为:
Figure FDA0003644775270000046
所述步骤(4)实现过程如下:
通过动作价值函数的计算得出第t+1次迭代时各个动作的价值函数,大概率选择行为值最大的动作,使算法最终趋于稳定,表达式为:
πt+1=(π1∧π2)
其中,
Figure FDA0003644775270000047
表示选择行为值最大的动作,
Figure FDA0003644775270000048
表示选择除去行为值最大动作的其他动作;通过贪婪值ε∈(0,1)来执行π1或π2的选择,贪婪值ε的初始值由人为给定,并会随着迭代的进行不断减小,通过贪婪值ε的不断变化诱导动作的选择。
CN202110054435.4A 2021-01-15 2021-01-15 一种基于深度强化学习的无人机意图航迹预测方法 Active CN112947541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110054435.4A CN112947541B (zh) 2021-01-15 2021-01-15 一种基于深度强化学习的无人机意图航迹预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110054435.4A CN112947541B (zh) 2021-01-15 2021-01-15 一种基于深度强化学习的无人机意图航迹预测方法

Publications (2)

Publication Number Publication Date
CN112947541A CN112947541A (zh) 2021-06-11
CN112947541B true CN112947541B (zh) 2022-07-26

Family

ID=76235527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110054435.4A Active CN112947541B (zh) 2021-01-15 2021-01-15 一种基于深度强化学习的无人机意图航迹预测方法

Country Status (1)

Country Link
CN (1) CN112947541B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435644B (zh) * 2021-06-25 2023-04-07 天津大学 基于深度双向长短期记忆神经网络的突发事件预测方法
CN114115304A (zh) * 2021-10-26 2022-03-01 南京航空航天大学 一种航空器四维爬升航迹规划方法及系统
CN114358211B (zh) * 2022-01-14 2022-08-23 中科世通亨奇(北京)科技有限公司 基于多模态深度学习的航空器行为意图识别方法
CN116360503B (zh) * 2023-05-31 2023-10-13 北京航空航天大学 一种无人机博弈对抗策略生成方法、系统及电子设备
CN117556681B (zh) * 2023-07-20 2024-03-29 北京师范大学 一种智能空战决策方法、系统及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450593B (zh) * 2017-08-30 2020-06-12 清华大学 一种无人机自主导航方法和系统
CN108731684B (zh) * 2018-05-07 2021-08-03 西安电子科技大学 一种多无人机协同区域监视的航路规划方法
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法
CN109743210B (zh) * 2019-01-25 2020-04-17 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法

Also Published As

Publication number Publication date
CN112947541A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112947541B (zh) 一种基于深度强化学习的无人机意图航迹预测方法
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN108549402B (zh) 基于量子乌鸦群搜索机制的无人机群任务分配方法
CN106873628A (zh) 一种多无人机跟踪多机动目标的协同路径规划方法
CN112329348A (zh) 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN108319286A (zh) 一种基于强化学习的无人机空战机动决策方法
CN114413906A (zh) 一种基于改进粒子群优化算法的三维轨迹规划方法
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
CN111256697B (zh) 一种针对路径点聚类机器学习的无人机航迹规划方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN108319132A (zh) 用于无人机空中对抗的决策系统及方法
CN110986960B (zh) 一种基于改进聚类算法的无人机航迹规划方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN111813144B (zh) 一种基于改进羊群算法的多无人机协同航路规划方法
CN104484500A (zh) 一种基于拟合强化学习的空战行为建模方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116360503A (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant