CN113741186A - 一种基于近端策略优化的双机空战决策方法 - Google Patents

一种基于近端策略优化的双机空战决策方法 Download PDF

Info

Publication number
CN113741186A
CN113741186A CN202110964269.1A CN202110964269A CN113741186A CN 113741186 A CN113741186 A CN 113741186A CN 202110964269 A CN202110964269 A CN 202110964269A CN 113741186 A CN113741186 A CN 113741186A
Authority
CN
China
Prior art keywords
enemy
plane
strategy
machine
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110964269.1A
Other languages
English (en)
Other versions
CN113741186B (zh
Inventor
刘小雄
苏玉展
尹逸
秦斌
韦大正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110964269.1A priority Critical patent/CN113741186B/zh
Publication of CN113741186A publication Critical patent/CN113741186A/zh
Application granted granted Critical
Publication of CN113741186B publication Critical patent/CN113741186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。

Description

一种基于近端策略优化的双机空战决策方法
技术领域
本发明属于无人机技术领域,具体涉及一种双机空战决策方法。
背景技术
在当今的信息化智能化时代,无人机的应用领域越来越广泛,除了应用于地质勘探、巡检、航拍等民用领域,也越来越多地被应用于侦察监视、预警、电子对抗、补给运输和歼击轰炸等军事目的。随着无人机所要执行的任务越来越复杂,无人机操作手工作的任务量和复杂度都大幅增加。为减轻操作手的工作负担并提升无人机工作效率,市场对于无人机的智能化程度要求越来越高,希望无人机能够独自完成多种复杂的任务。空战决策是其中最为复杂的任务。
空战战术决策方法大致归纳为传统基于规则的非学习策略和基于智能算法的自我学习策略两种。基于规则的非学习策略主要是根据空战格斗中既定的行为规则来进行机动动作的选择,决策形成过程中没有基于数据的训练、优化自身策略的过程。自我学习的空战决策方法核心是基于一些智能算法进行空战决策的建模和优化,通过自身的经验来优化自身决策模型的结构和参数。其中,深度强化学习方法既关注了短期的利益,又考虑到了长远的回报,所选出来的动作具有较强的合理性和实时性,对于环境也有一定的自适应性,相比于其他算法具有明显的优势。
深度强化学习是机器学习的重要分支,是由Minsky,Lee M于1954年提出的一种仿生算法。强化学习算法通过智能体不断与环境进行交互试错得到奖励或惩罚,然后根据所得的奖励或惩罚改进动作选择策略,从而进行学习。深度强化学习将深度学习和强化学习相结合,通过引入神经网络解决了复杂系统中数据量过大的问题。在多种深度强化学习算法中,近端策略优化算法(Proximal Policy Optimization,PPO)既解决了策略梯度算法(Policy Gradient)中步长选取困难的问题,又解决了由此带来的优化策略差的问题,是目前效果最好的算法之一。
发明内容
为了克服现有技术的不足,本发明提供了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中,st表示当前状态,st+1表示下一时刻状态,at表示当前状态选择的动作,rt+1表示下一时刻状态得到的回报;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
进一步地,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
Figure BDA0003223429860000031
式中,v为无人机速度,θ为无人机俯仰角,
Figure BDA0003223429860000032
为无人机滚转角,ψ为无人机偏航角,Nx为切向过载,Nz为法相过载;
使用无人机的切向过载Nx、法向过载Nz和滚转角
Figure BDA0003223429860000033
进行动作编码,即使用三元组
Figure BDA0003223429860000034
表示无人机在每个时刻采取的动作;表1展示了七种不同的无人机机动动作指令对应的编码方式;
表1七种不同的机动动作指令对应的编码方式
Figure BDA0003223429860000035
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
决定导弹性能的参数为最大离轴发射角
Figure BDA0003223429860000041
最大最小攻击距离DM max和DM min、最大和最小不可逃逸距离DMk max和DMk min、以及圆锥角
Figure BDA0003223429860000042
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|d<DMmaxMmax} (3)
其中,Areaack表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;
将我方导弹攻击区分为5个部分,定义如下:
Figure BDA0003223429860000043
且DMk min<d<DMk max时,敌机处于攻击区的⑤区;
Figure BDA0003223429860000044
且DM min<d<DMk min时,敌机处于攻击区的①区;
Figure BDA0003223429860000045
且DMk max<d<DM max时,敌机处于攻击区的④区;
Figure BDA0003223429860000046
且DM min<d<DM max时,敌机处于②区或者③区;
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
Figure BDA0003223429860000047
其中,Δx、Δy、Δz分别表示敌机与我机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示敌机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示我机在x轴方向、y轴方向和z轴方向的位置;
步骤2-2-2-2:当
Figure BDA0003223429860000048
且DM min<d<DMk min时,敌机处于攻击区的①区,此时敌机的速度方向如果与我机一致,即脱离角
Figure BDA0003223429860000049
则敌机的击毁概率为:
Figure BDA00032234298600000410
步骤2-2-2-3:当
Figure BDA00032234298600000411
且DM min<d<DM max
Figure BDA00032234298600000412
时,敌机处于攻击区的②区,此时
Figure BDA00032234298600000413
Figure BDA00032234298600000414
敌机向左飞,远离我机,敌机击毁概率如下:
Figure BDA0003223429860000051
Figure BDA0003223429860000052
敌机向右飞,靠近我机,敌机击毁概率如下:
Figure BDA0003223429860000053
其中,vx、vy分别表示飞机速度在x轴和y轴的投影;
步骤2-2-2-4:当
Figure BDA0003223429860000054
且DM min<d<DM max
Figure BDA0003223429860000055
敌机处于攻击区的③区,此时
Figure BDA0003223429860000056
Figure BDA0003223429860000057
敌机向左飞,靠近我机,敌机击毁概率如下:
Figure BDA0003223429860000058
Figure BDA0003223429860000059
敌机向右飞,远离我机,敌机击毁概率如下:
Figure BDA00032234298600000510
步骤2-2-2-5:当
Figure BDA00032234298600000512
且DMk max<d<DM max,敌机处于攻击区的④区,此时敌机的速度方向如果与我机一致,即
Figure BDA00032234298600000511
敌机的击毁概率如下:
Figure BDA0003223429860000061
步骤2-2-2-5:当
Figure BDA0003223429860000062
且DMk min<d<DMk max时,敌机处于攻击区的⑤区,此时敌机的击毁概率P为1;
步骤2-2-2-6:考虑敌机与我机高度差对敌机击毁概率的影响,最终敌机击毁概率Ph=KhP,其中Kh为:
Figure BDA0003223429860000063
其中,Δh表示敌机与我机高度差。
进一步地,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
Figure BDA0003223429860000064
其中
Figure BDA0003223429860000065
表示第j架无人机在t时刻的优势函数,
Figure BDA0003223429860000066
表示第i架无人机在t时刻的状态,i=1,2;
Figure BDA0003223429860000067
表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,
Figure BDA0003223429860000068
表示第j架无人机在t时刻的状态值函数,
Figure BDA0003223429860000069
表示第j架无人机在t-1时刻的状态值函数;
Figure BDA00032234298600000610
表示第j架无人机在t时刻的回报;
价值神经网络中的误差
Figure BDA00032234298600000611
计算如下:
Figure BDA00032234298600000612
其中,S为最小训练数据量的大小,θi表示第i架无人机当前的动作选取策略;
Figure BDA00032234298600000613
表示更新动作选取策略之后的状态值函数,
Figure BDA00032234298600000614
表示动作选取策略更新之前的状态值函数;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
Figure BDA0003223429860000071
其中,
Figure BDA0003223429860000072
表示求期望,
Figure BDA0003223429860000073
表示第i架无人机根据当前的动作选取策略θi在状态
Figure BDA0003223429860000074
下选择动作ai的概率,
Figure BDA0003223429860000075
表示第i架无人机根据之前的动作选取策略θi,old在状态
Figure BDA0003223429860000076
下选择动作ai的概率,
Figure BDA0003223429860000077
表示优势函数,a′k表示在k时刻选择的动作,π′k表示在k时刻的动作选取策略,
Figure BDA0003223429860000078
表示在k时刻的状态;
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
Figure BDA0003223429860000079
其中
Figure BDA00032234298600000710
表示求期望,
Figure BDA00032234298600000711
πθ(at|st)表示根据当前的动作选取策略θ在状态st下选择动作ai的概率,
Figure BDA00032234298600000712
表示根据之前的动作选取策略θold在状态st下选择动作ai的概率,clip(.)表示裁剪函数,
Figure BDA00032234298600000713
表示优势函数。
本发明的有益效果如下:
1、本发明方法有效解决了双机空战决策算法中存在的计算量大,战场态势变化快等问题。
2、本发明方法将近端策略优化算法和集中式训练、分布式执行架构相结合,解决了1v1空战决策中实时对抗、动作持续性、搜索空间大和任务复杂度高等问题。
3、本发明所形成的基于近端策略优化的双机空战决策方法中模块化程度高可以实现快速移植,包括了战场环境模块、飞机模块、导弹模块以及奖励函数模块。
4、本发明能够实现1v1实时空战决策,并且可以根据不同的场景单独训练,且该算法具有良好的输入输出接口。
附图说明
图1为本发明基于近端策略优化的双机空战决策方法框架。
图2为本发明方法基本空战机动示意图。
图3为本发明方法攻击区横截面示意图。
图4为本发明实施例敌我双方初始位置设定图。
图5为本发明实施例敌我双方速度变化图。
图6为本发明实施例敌我双方高度变化图。
图7为本发明实施例敌我双方距离变化图。
图8为本发明实施例敌我双方奖励变化图。
图9为本发明实施例敌我双方偏离角变化图。
图10为本发明实施例敌我双方脱离角变化图。
图11为本发明实施例敌我双方轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
双机空战对抗属于博弈论中的零和博弈问题,针对此问题,本发明提供了一种基于近端策略优化的双机空战决策算法,通过我机和敌机不断与环境进行交互得到回报,然后用得到的回报训练动作策略神经网络从而优化敌我双方的动作选取策略,最终敌我双方无人机可以通过训练完成的神经网络在空战中实时选取合理的动作指令来进行双机空战。
如图1所示,一种基于近端策略优化的双机空战决策方法,包括如下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:初始化环境模块,在环境模块中建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:在步骤2中设定好的初始环境下,我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
进一步地,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
Figure BDA0003223429860000091
式中,v为无人机速度,θ为无人机俯仰角,
Figure BDA0003223429860000092
为无人机滚转角,ψ为无人机偏航角,Nx为切向过载,Nz为法相过载;
使用无人机的切向过载Nx、法向过载Nz和滚转角
Figure BDA0003223429860000093
进行动作编码,即使用三元组
Figure BDA0003223429860000094
表示无人机在每个时刻采取的动作;表1展示了七种不同的无人机机动动作指令对应的编码方式;
表1七种不同的机动动作指令对应的编码方式
Figure BDA0003223429860000095
图2展示了无人机在飞行过程中所能采用的基本机动,其中1为定常飞行、2为加速、3为减速、4为左转弯、5为右转弯、6为拉起、7为俯冲。
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;结合四阶龙格-库塔微分方程数值解方法求得飞行器速度、三维空间坐标值、俯仰角和偏航角的一阶微分,在状态st下,给定双方机动动作结合仿真时间单位Δt即可计算出新状态st+1,相比于直接数值计算的欧拉法精度更高。在任意时刻的某个系统状态下,三元组
Figure BDA0003223429860000101
表示某一方无人机的机动动作输入。除了基本的飞行轨迹,无人机通过连续多步的机动控制可以实现一些较复杂的战术轨迹;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
决定导弹性能的参数为最大离轴发射角
Figure BDA0003223429860000102
最大最小攻击距离DM max和DM min、最大和最小不可逃逸距离DMk max和DMk min、以及圆锥角
Figure BDA0003223429860000103
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|dt<DMmaxMmax} (3)
如图3所示,将我方导弹攻击区分为5个部分,定义如下:
Figure BDA0003223429860000104
且DMk min<d<DMk max时,敌机处于攻击区的⑤区;
Figure BDA0003223429860000105
且DM min<d<DMk min时,敌机处于攻击区的①区;
Figure BDA0003223429860000106
且DMk max<d<DM max时,敌机处于攻击区的④区;
Figure BDA0003223429860000107
且DM min<d<DM max时,敌机处于②区或者③区,②区和③区具体可以通过我机和敌机相对位置来判断。
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
Figure BDA0003223429860000108
步骤2-2-2-2:当
Figure BDA0003223429860000109
且DM min<d<DMk min时,敌机处于攻击区的①区,此时敌机的速度方向如果与我机一致,即脱离角
Figure BDA0003223429860000111
此时目标机越靠近不可逃逸区,被击中的概率加大,当AA=0时,命中概率较大,相反,目标机会逃出攻击区,命中的概率较小,与距离则是线性关系,两机距离越近,目标机被命中的概率越小,则敌机的击毁概率为:
Figure BDA0003223429860000112
步骤2-2-2-3:当
Figure BDA0003223429860000113
且DM min<d<DM max
Figure BDA0003223429860000114
时,敌机处于攻击区的②区,此时目标机的速度方向对命中概率有很大的影响,若目标机向敌机的方向飞行,则接近不可逃逸区,命中概率会被加大,相反,则会更快逃离攻击区,规避导弹的进攻。当目标机相对远离我机时,当飞机沿着攻击区的切线方向时,可以更快逃离攻击区,此时
Figure BDA0003223429860000115
与目标机机动相关联的击毁概率最小,当目标机相对靠近我机时,当飞机沿着攻击区的切线方向时,更接近不可逃逸区,此时
Figure BDA0003223429860000116
与目标机机动相关联的击毁概率最大,与距离相关联的击毁概率则是越接近攻击区的最大或者最小攻击距离则越小,而在这种情况下,机动能力对击毁概率的影响肯定要大于距离对击毁概率的影响。
Figure BDA0003223429860000117
敌机向左飞,远离我机,敌机击毁概率如下:
Figure BDA0003223429860000118
Figure BDA0003223429860000119
敌机向右飞,靠近我机,敌机击毁概率如下:
Figure BDA00032234298600001110
步骤2-2-2-4:当
Figure BDA0003223429860000121
且DM min<d<DM max
Figure BDA0003223429860000122
敌机处于攻击区的③区,此时目标机的速度方向对命中概率有很大的影响,若目标机向敌机的方向飞行,则接近不可逃逸区,命中概率会被加大,相反,则会更快逃离攻击区,规避导弹的进攻。当目标机相对远离我机时,当飞机沿着攻击区的切线方向时,可以更快逃离攻击区,此时
Figure BDA0003223429860000123
与目标机机动相关联的击毁概率最小,当目标机相对靠近我机时,当飞机沿着攻击区的切线方向时,更接近不可逃逸区,此时
Figure BDA0003223429860000124
与目标机机动相关联的击毁概率最大,与距离相关联的击毁概率则是越接近攻击区的最大或者最小攻击距离则越小,而在这种情况下,机动能力对击毁概率的影响肯定要大于距离对击毁概率的影响。
Figure BDA0003223429860000125
敌机向左飞,靠近我机,敌机击毁概率如下:
Figure BDA0003223429860000126
Figure BDA0003223429860000127
敌机向右飞,远离我机,敌机击毁概率如下:
Figure BDA0003223429860000128
步骤2-2-2-5:当
Figure BDA00032234298600001210
且DMk max<d<DM max,敌机处于攻击区的④区,此时敌机的速度方向如果与我机一致,即
Figure BDA0003223429860000129
此时目标机越远离不可逃逸区,被击中的概率减小,当AA=0时,命中概率最小,相反,目标机会接近不可逃逸区,命中的概率加大,与距离则是线性关系,两机距离越近,目标机被命中的概率越小。敌机的击毁概率如下:
Figure BDA0003223429860000131
步骤2-2-2-5:当
Figure BDA0003223429860000132
且DMk min<d<DMk max时,敌机处于攻击区的⑤区,此时目标机处于攻击区中的不可逃逸区,无论目标做出任种机动,即AA无论为何值,目标机都无法规避导弹的攻击,此时目标机处于攻击区中的不可逃逸区,此时敌机的击毁概率P为1;
步骤2-2-2-6:考虑高度差对敌机击毁概率的影响,设计了高度对目标击毁概率的影响,如果将高度直接以加法的形式加入目标击毁概率中,无法显示高度对导弹带来的重要影响,所以采取乘法的形式,最终敌机击毁概率Ph=KhP,其中Kh为:
Figure BDA0003223429860000133
Kh∈[0.7,1.3],本机高度过高或者高度低于目标机都会导致目标击毁概率降低。
进一步地,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
Figure BDA0003223429860000134
其中
Figure BDA0003223429860000135
表示第j架无人机在t时刻的优势函数,
Figure BDA0003223429860000136
表示第i架无人机在t时刻的状态,i=1,2;
Figure BDA0003223429860000137
表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,
Figure BDA0003223429860000138
表示第j架无人机在t时刻的状态值函数,
Figure BDA0003223429860000139
表示第j架无人机在t-1时刻的状态值函数;
价值神经网络中的误差
Figure BDA00032234298600001310
计算如下:
Figure BDA00032234298600001311
其中,S为最小训练数据量的大小,θi表示第i架无人机当前的动作选取策略;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
Figure BDA0003223429860000141
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
Figure BDA0003223429860000142
具体实施例:
如图4所示,研究设定当敌我双方xy平面内距离差为50km时,我机在敌机之上,高度差为2km,此时我机的初始位置为[-50000m,0m,5000m],速度为100m/s,俯仰角和偏航角为[0rad,0rad]。敌机的初始位置为[0m,0m,3000m],速度为100m/s,俯仰角和偏航角为[0rad,0rad]。基于上述仿真条件,对所设计的算法进行仿真验证,进行1000次仿真,仿真结果如表2所示。
表2仿真结果
情况 次数
我机胜 1000
敌机胜 0
选取一种我机获胜的情况进行详细说明,具体仿真结果如图5-图11所示。
从图5-图11的仿真结果可以看出,实线代表我机,虚线代表敌机。
我机选取的动作序列是['acc','acc','acc','acc','acc','acc','acc','acc','acc','acc','right','acc','left','right','acc','left','right','acc','acc','acc','left','acc','right','acc','acc','acc','acc','left','acc','acc','acc','slow','slow','acc','acc','acc','right','left','left','acc','acc','acc','slow','acc','acc']。
敌机选取的动作序列是['acc','acc','acc','acc','acc','acc','right','acc','right','acc','left','left','right','acc','acc','acc','left','acc','right','acc','acc','left','acc','right','acc','acc','acc','left','acc','acc','acc','acc','acc','left','acc','acc','left','left','left','left','acc','acc','acc','left','acc']。
由速度变化图可以看敌我双方都率先选择加速,在接近最大速度350m/s后,由于我机拥有高度和角度上巨大的优势,逼迫敌机选择了转弯的动作来扭转角度劣势和高度劣势,因此我机夺得了速度上的优势,并且保持了高度上的优势,最终我机处于态势上的巨大优势,并将敌机置于己方的攻击区中,我机此时的导弹命中率为47.9%,我机发射导弹成功命中敌机。
综合各个仿真结果以及实际试飞定位结果,证明了本发明所设计的基于近端策略优化的双机空战决策算法设计与实现方法的有效性,能够成功对双机进行训练优化策略,最后敌我双方飞机都能根据己方飞机的状态和预测到的对方飞机的状态和选择的动作,选择合适的动作,引导飞机取得空战的胜利。

Claims (3)

1.一种基于近端策略优化的双机空战决策方法,其特征在于,包括以下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中,st表示当前状态,st+1表示下一时刻状态,at表示当前状态选择的动作,rt+1表示下一时刻状态得到的回报;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
2.根据权利要求1所述的一种基于近端策略优化的双机空战决策方法,其特征在于,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
Figure FDA0003223429850000021
式中,v为无人机速度,θ为无人机俯仰角,
Figure FDA0003223429850000022
为无人机滚转角,ψ为无人机偏航角,Nx为切向过载,Nz为法相过载;
使用无人机的切向过载Nx、法向过载Nz和滚转角
Figure FDA0003223429850000023
进行动作编码,即使用三元组
Figure FDA0003223429850000024
表示无人机在每个时刻采取的动作;表1展示了七种不同的无人机机动动作指令对应的编码方式;
表1七种不同的机动动作指令对应的编码方式
Figure FDA0003223429850000025
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
决定导弹性能的参数为最大离轴发射角
Figure FDA0003223429850000031
最大最小攻击距离DMmax和DMmin、最大和最小不可逃逸距离DMkmax和DMkmin、以及圆锥角
Figure FDA0003223429850000032
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|d<DMmaxMmax} (3)
其中,Areaack表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;
将我方导弹攻击区分为5个部分,定义如下:
Figure FDA0003223429850000033
且DMkmin<d<DMkmax时,敌机处于攻击区的⑤区;
Figure FDA0003223429850000034
且DMmin<d<DMkmin时,敌机处于攻击区的①区;
Figure FDA0003223429850000035
且DMkmax<d<DMmax时,敌机处于攻击区的④区;
Figure FDA0003223429850000036
且DMmin<d<DMmax时,敌机处于②区或者③区;
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
Figure FDA0003223429850000037
其中,Δx、Δy、Δz分别表示敌机与我机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示敌机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示我机在x轴方向、y轴方向和z轴方向的位置;
步骤2-2-2-2:当
Figure FDA0003223429850000038
且DMmin<d<DMkmin时,敌机处于攻击区的①区,此时敌机的速度方向如果与我机一致,即脱离角
Figure FDA0003223429850000039
则敌机的击毁概率为:
Figure FDA00032234298500000310
步骤2-2-2-3:当
Figure FDA00032234298500000311
且DMmin<d<DMmax
Figure FDA00032234298500000312
时,敌机处于攻击区的②区,此时
Figure FDA00032234298500000313
Figure FDA00032234298500000314
敌机向左飞,远离我机,敌机击毁概率如下:
Figure FDA0003223429850000041
Figure FDA0003223429850000042
敌机向右飞,靠近我机,敌机击毁概率如下:
Figure FDA0003223429850000043
其中,vx、vy分别表示飞机速度在x轴和y轴的投影;
步骤2-2-2-4:当
Figure FDA0003223429850000044
且DMmin<d<DMmax
Figure FDA0003223429850000045
敌机处于攻击区的③区,此时
Figure FDA0003223429850000046
Figure FDA0003223429850000047
敌机向左飞,靠近我机,敌机击毁概率如下:
Figure FDA0003223429850000048
Figure FDA0003223429850000049
敌机向右飞,远离我机,敌机击毁概率如下:
Figure FDA00032234298500000410
步骤2-2-2-5:当
Figure FDA00032234298500000411
Figure FDA00032234298500000412
敌机处于攻击区的④区,此时敌机的速度方向如果与我机一致,即
Figure FDA00032234298500000413
敌机的击毁概率如下:
Figure FDA0003223429850000051
步骤2-2-2-5:当
Figure FDA0003223429850000052
且DMkmin<d<DMkmax时,敌机处于攻击区的⑤区,此时敌机的击毁概率P为1;
步骤2-2-2-6:考虑敌机与我机高度差对敌机击毁概率的影响,最终敌机击毁概率Ph=KhP,其中Kh为:
Figure FDA0003223429850000053
其中,Δh表示敌机与我机高度差。
3.根据权利要求2所述的一种基于近端策略优化的双机空战决策方法,其特征在于,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
Figure FDA0003223429850000054
其中
Figure FDA0003223429850000055
表示第j架无人机在t时刻的优势函数,
Figure FDA0003223429850000056
表示第i架无人机在t时刻的状态,i=1,2;
Figure FDA0003223429850000057
表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,Vt j(.)表示第j架无人机在t时刻的状态值函数,
Figure FDA0003223429850000058
表示第j架无人机在t-1时刻的状态值函数;
Figure FDA0003223429850000059
表示第j架无人机在t时刻的回报;
价值神经网络中的误差
Figure FDA00032234298500000510
计算如下:
Figure FDA00032234298500000511
其中,S为最小训练数据量的大小,θi表示第i架无人机当前的动作选取策略;Vi θ表示更新动作选取策略之后的状态值函数,Vt targetθ表示动作选取策略更新之前的状态值函数;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
Figure FDA0003223429850000061
其中,
Figure FDA0003223429850000062
表示求期望,
Figure FDA0003223429850000063
表示第i架无人机根据当前的动作选取策略θi在状态
Figure FDA0003223429850000064
下选择动作ai的概率,
Figure FDA0003223429850000065
表示第i架无人机根据之前的动作选取策略θi,old在状态
Figure FDA0003223429850000066
下选择动作ai的概率,
Figure FDA0003223429850000067
表示优势函数,a′k表示在k时刻选择的动作,π′k表示在k时刻的动作选取策略,
Figure FDA0003223429850000068
表示在k时刻的状态;
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
Figure FDA0003223429850000069
其中
Figure FDA00032234298500000610
表示求期望,
Figure FDA00032234298500000611
πθ(at|st)表示根据当前的动作选取策略θ在状态st下选择动作ai的概率,
Figure FDA00032234298500000612
表示根据之前的动作选取策略θold在状态st下选择动作ai的概率,clip(.)表示裁剪函数,
Figure FDA00032234298500000613
表示优势函数。
CN202110964269.1A 2021-08-22 2021-08-22 一种基于近端策略优化的双机空战决策方法 Active CN113741186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110964269.1A CN113741186B (zh) 2021-08-22 2021-08-22 一种基于近端策略优化的双机空战决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110964269.1A CN113741186B (zh) 2021-08-22 2021-08-22 一种基于近端策略优化的双机空战决策方法

Publications (2)

Publication Number Publication Date
CN113741186A true CN113741186A (zh) 2021-12-03
CN113741186B CN113741186B (zh) 2023-08-18

Family

ID=78732118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110964269.1A Active CN113741186B (zh) 2021-08-22 2021-08-22 一种基于近端策略优化的双机空战决策方法

Country Status (1)

Country Link
CN (1) CN113741186B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116893690A (zh) * 2023-07-25 2023-10-17 西安爱生技术集团有限公司 一种基于强化学习的无人机躲避攻击输入数据计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407596A (zh) * 2016-10-11 2017-02-15 中国人民解放军军械工程学院 防空导弹命中毁伤过程建模仿真方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN112906233A (zh) * 2021-03-08 2021-06-04 中国人民解放军国防科技大学 基于认知行为知识的分布式近端策略优化方法及其应用
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407596A (zh) * 2016-10-11 2017-02-15 中国人民解放军军械工程学院 防空导弹命中毁伤过程建模仿真方法
CN112906233A (zh) * 2021-03-08 2021-06-04 中国人民解放军国防科技大学 基于认知行为知识的分布式近端策略优化方法及其应用
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JAEWOONG YOO: "Deep Reinforcement Learning-based Intelligent Agent for Autonomous Air Combat", 《2022 IEEE/AIAA 41ST DIGITAL AVIONICS SYSTEMS CONFERENCE (DASC)》 *
WENXUE CHEN: "Proximal policy optimization guidance algorithm for intercepting near-space maneuvering targets", 《AEROSPACE SCIENCE AND TECHNOLOGY》 *
傅莉等: "战机空战决策方法及分析", 《沈阳航空航天大学学报》 *
吴宜珈: "强化学习算法在超视距空战辅助决策上的应用研究", 《航空兵器》 *
顾佼佼: "基于攻击区和杀伤概率的视距内空战态势评估", 《系统工程与电子技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116893690A (zh) * 2023-07-25 2023-10-17 西安爱生技术集团有限公司 一种基于强化学习的无人机躲避攻击输入数据计算方法
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116736729B (zh) * 2023-08-14 2023-10-27 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Also Published As

Publication number Publication date
CN113741186B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN113589842B (zh) 一种基于多智能体强化学习的无人集群任务协同方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN112906233B (zh) 基于认知行为知识的分布式近端策略优化方法及其应用
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
Chen et al. Design and verification of UAV maneuver decision simulation system based on deep q-learning network
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN115047907B (zh) 一种基于多智能体ppo算法的空中同构编队指挥方法
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
CN116225065A (zh) 多智能体强化学习的多自由度模型的无人机协同追捕方法
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN115457809A (zh) 对面支援场景下基于多智能体强化学习的航迹规划方法
Lu et al. Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV
Guopeng et al. Research on Path planning of Three-Dimensional UAV Based on Levy Flight Strategy and Improved Particle Swarm Optimization Algorithm
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning
CN116679742B (zh) 一种多六自由度飞行器协同作战决策方法
CN113962012B (zh) 无人机对抗策略优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant