CN113741186A

CN113741186A - 一种基于近端策略优化的双机空战决策方法

Info

Publication number: CN113741186A
Application number: CN202110964269.1A
Authority: CN
Inventors: 刘小雄; 苏玉展; 尹逸; 秦斌; 韦大正
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-08-22
Filing date: 2021-08-22
Publication date: 2021-12-03
Anticipated expiration: 2041-08-22
Also published as: CN113741186B

Abstract

本发明公开了一种基于近端策略优化的双机空战决策方法，首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块；然后建立无人机对战的飞机模型和导弹模型，接下来将无人机所处的状态信息输入各自的策略神经网络中，然后通过策略神经网络选择动作，在作战环境中执行所选动作并得到回报；将我机和敌机的状态信息归一化后，将信息打包成四元组存入经验池中；当经验池的数据量达到所设定的最小训练数据量时，对价值神经网络和策略神经网络进行训练，更新我机和敌机的动作选取策略；最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好，且具有一定的鲁棒性，具有较好的可行性。

Description

一种基于近端策略优化的双机空战决策方法

技术领域

本发明属于无人机技术领域，具体涉及一种双机空战决策方法。

背景技术

在当今的信息化智能化时代，无人机的应用领域越来越广泛，除了应用于地质勘探、巡检、航拍等民用领域，也越来越多地被应用于侦察监视、预警、电子对抗、补给运输和歼击轰炸等军事目的。随着无人机所要执行的任务越来越复杂，无人机操作手工作的任务量和复杂度都大幅增加。为减轻操作手的工作负担并提升无人机工作效率，市场对于无人机的智能化程度要求越来越高，希望无人机能够独自完成多种复杂的任务。空战决策是其中最为复杂的任务。

空战战术决策方法大致归纳为传统基于规则的非学习策略和基于智能算法的自我学习策略两种。基于规则的非学习策略主要是根据空战格斗中既定的行为规则来进行机动动作的选择，决策形成过程中没有基于数据的训练、优化自身策略的过程。自我学习的空战决策方法核心是基于一些智能算法进行空战决策的建模和优化，通过自身的经验来优化自身决策模型的结构和参数。其中，深度强化学习方法既关注了短期的利益，又考虑到了长远的回报，所选出来的动作具有较强的合理性和实时性，对于环境也有一定的自适应性，相比于其他算法具有明显的优势。

深度强化学习是机器学习的重要分支，是由Minsky,Lee M于1954年提出的一种仿生算法。强化学习算法通过智能体不断与环境进行交互试错得到奖励或惩罚，然后根据所得的奖励或惩罚改进动作选择策略，从而进行学习。深度强化学习将深度学习和强化学习相结合，通过引入神经网络解决了复杂系统中数据量过大的问题。在多种深度强化学习算法中，近端策略优化算法(Proximal Policy Optimization,PPO)既解决了策略梯度算法(Policy Gradient)中步长选取困难的问题，又解决了由此带来的优化策略差的问题，是目前效果最好的算法之一。

发明内容

为了克服现有技术的不足，本发明提供了一种基于近端策略优化的双机空战决策方法，首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块；然后建立无人机对战的飞机模型和导弹模型，接下来将无人机所处的状态信息输入各自的策略神经网络中，然后通过策略神经网络选择动作，在作战环境中执行所选动作并得到回报；将我机和敌机的状态信息归一化后，将信息打包成四元组存入经验池中；当经验池的数据量达到所设定的最小训练数据量时，对价值神经网络和策略神经网络进行训练，更新我机和敌机的动作选取策略；最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好，且具有一定的鲁棒性，具有较好的可行性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：将无人机对战双方分为我方和敌方，我方无人机为我机，敌方无人机为敌机；分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块；

步骤2：建立无人机对战的飞机模型和导弹模型，在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角，并在导弹模型中设定所携带的导弹数量以及空战环境大小；

步骤3：我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中，然后通过策略神经网络选择动作，在作战环境中执行所选动作并得到回报；

步骤4：将我机和敌机的状态信息归一化后，与在步骤3选择的动作和得到的回报打包成四元组<s_t,a_t,s_t+1,r_t+1>存入经验池中，s_t表示当前状态，s_t+1表示下一时刻状态，a_t表示当前状态选择的动作，r_t+1表示下一时刻状态得到的回报；

步骤5：重复步骤3和步骤4，当经验池的数据量达到所设定的最小训练数据量时，从经验池中采样一批次样本，将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中，对价值神经网络进行训练；然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中，并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练，更新我机和敌机的动作选取策略；

步骤6：重复步骤3至步骤5，直至达到训练结束条件，得到训练好的我机和敌机的策略神经网络和价值神经网络。

步骤7：我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。

进一步地，所述步骤2的具体步骤如下：

步骤2-1：建立无人机的六自由度运动方程如式(1)，即飞机模型；

式中，v为无人机速度，θ为无人机俯仰角，

为无人机滚转角，ψ为无人机偏航角，N_x为切向过载，N_z为法相过载；

使用无人机的切向过载N_x、法向过载N_z和滚转角

进行动作编码，即使用三元组

表示无人机在每个时刻采取的动作；表1展示了七种不同的无人机机动动作指令对应的编码方式；

表1七种不同的机动动作指令对应的编码方式

则无人机状态更新的计算表示为：

s_t+1＝f(s_t,a_r,a_b) (2)

式中，a_r和b_r分别表示单步决策中我机和敌机所选择的机动动作，f(.)表示依据式(1)的运动学微分方程构建的状态更新函数；

步骤2-2：建立导弹模型；

导弹模型包括导弹攻击区模型和敌机击毁概率P；

步骤2-2-1：导弹攻击区模型；

决定导弹性能的参数为最大离轴发射角

最大最小攻击距离D_{M max}和D_{M min}、最大和最小不可逃逸距离D_{Mk max}和D_{Mk min}、以及圆锥角

当满足条件式(3)时，敌机进入我方导弹攻击区：

Area_ack＝{Pos(Target)|d＜DMmax_Mmax} (3)

其中，Area_ack表示导弹攻击区，ATA表示偏离角，Pos(Target)表示敌机位置，d表示敌机与我机的距离；

将我方导弹攻击区分为5个部分，定义如下：

当

且D_{Mk min}＜d＜D_{Mk max}时，敌机处于攻击区的⑤区；

当

且D_{M min}＜d＜D_{Mk min}时，敌机处于攻击区的①区；

当

且D_{Mk max}＜d＜D_{M max}时，敌机处于攻击区的④区；

当

且D_{M min}＜d＜D_{M max}时，敌机处于②区或者③区；

步骤2-2-2：敌机击毁概率；

步骤2-2-2-1：设定我机和敌机的相对位置如下：

其中，Δx、Δy、Δz分别表示敌机与我机在x轴方向、y轴方向和z轴方向的距离差，x_b、y_b、z_b分别表示敌机在x轴方向、y轴方向和z轴方向的位置，x_r、y_r、z_r分别表示我机在x轴方向、y轴方向和z轴方向的位置；

步骤2-2-2-2：当

且D_{M min}＜d＜D_{Mk min}时，敌机处于攻击区的①区，此时敌机的速度方向如果与我机一致，即脱离角

则敌机的击毁概率为：

步骤2-2-2-3：当

且D_{M min}＜d＜D_{M max}且

时，敌机处于攻击区的②区，此时

若

敌机向左飞，远离我机，敌机击毁概率如下：

若

敌机向右飞，靠近我机，敌机击毁概率如下：

其中，v_x、v_y分别表示飞机速度在x轴和y轴的投影；

步骤2-2-2-4：当

且D_{M min}＜d＜D_{M max}且

敌机处于攻击区的③区，此时

若

敌机向左飞，靠近我机，敌机击毁概率如下：

若

敌机向右飞，远离我机，敌机击毁概率如下：

步骤2-2-2-5：当

且D_{Mk max}＜d＜D_{M max}，敌机处于攻击区的④区，此时敌机的速度方向如果与我机一致，即

敌机的击毁概率如下：

步骤2-2-2-5：当

且D_{Mk min}＜d＜D_{Mk max}时，敌机处于攻击区的⑤区，此时敌机的击毁概率P为1；

步骤2-2-2-6：考虑敌机与我机高度差对敌机击毁概率的影响，最终敌机击毁概率P_h＝K_hP，其中K_h为：

其中，Δh表示敌机与我机高度差。

进一步地，所述步骤5的具体步骤如下：

步骤5-1：将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中，对价值神经网络进行训练；价值神经网络中的优势函数如下：

其中

表示第j架无人机在t时刻的优势函数，

表示第i架无人机在t时刻的状态，i＝1,2；

表示第i架无人机在t时刻的选取的动作，γ表示折扣因子，

表示第j架无人机在t时刻的状态值函数，

表示第j架无人机在t-1时刻的状态值函数；

表示第j架无人机在t时刻的回报；

价值神经网络中的误差

计算如下：

其中，S为最小训练数据量的大小，θ_i表示第i架无人机当前的动作选取策略；

表示更新动作选取策略之后的状态值函数，

表示动作选取策略更新之前的状态值函数；

步骤5-2：将我机和敌机各自的状态信息输入至各自的策略神经网络中，策略神经网络更新目标函数L^CPI(.)为：

其中，

表示求期望，

表示第i架无人机根据当前的动作选取策略θ_i在状态

下选择动作a_i的概率，

表示第i架无人机根据之前的动作选取策略θ_i，old在状态

下选择动作a_i的概率，

表示优势函数，a′_k表示在k时刻选择的动作，π′_k表示在k时刻的动作选取策略，

表示在k时刻的状态；

将新的动作选取策略于旧的动作选取策略进行比较，并对动作选取策略进行裁剪，更新获得新的动作选取策略，最终策略更新目标函数L(θ)如下：

其中

表示求期望，

π_θ(a_t|s_t)表示根据当前的动作选取策略θ在状态s_t下选择动作a_i的概率，

表示根据之前的动作选取策略θ_old在状态s_t下选择动作a_i的概率，clip(.)表示裁剪函数，

表示优势函数。

本发明的有益效果如下：

1、本发明方法有效解决了双机空战决策算法中存在的计算量大，战场态势变化快等问题。

2、本发明方法将近端策略优化算法和集中式训练、分布式执行架构相结合，解决了1v1空战决策中实时对抗、动作持续性、搜索空间大和任务复杂度高等问题。

3、本发明所形成的基于近端策略优化的双机空战决策方法中模块化程度高可以实现快速移植，包括了战场环境模块、飞机模块、导弹模块以及奖励函数模块。

4、本发明能够实现1v1实时空战决策，并且可以根据不同的场景单独训练，且该算法具有良好的输入输出接口。

附图说明

图1为本发明基于近端策略优化的双机空战决策方法框架。

图2为本发明方法基本空战机动示意图。

图3为本发明方法攻击区横截面示意图。

图4为本发明实施例敌我双方初始位置设定图。

图5为本发明实施例敌我双方速度变化图。

图6为本发明实施例敌我双方高度变化图。

图7为本发明实施例敌我双方距离变化图。

图8为本发明实施例敌我双方奖励变化图。

图9为本发明实施例敌我双方偏离角变化图。

图10为本发明实施例敌我双方脱离角变化图。

图11为本发明实施例敌我双方轨迹图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

双机空战对抗属于博弈论中的零和博弈问题，针对此问题，本发明提供了一种基于近端策略优化的双机空战决策算法，通过我机和敌机不断与环境进行交互得到回报，然后用得到的回报训练动作策略神经网络从而优化敌我双方的动作选取策略，最终敌我双方无人机可以通过训练完成的神经网络在空战中实时选取合理的动作指令来进行双机空战。

如图1所示，一种基于近端策略优化的双机空战决策方法，包括如下步骤：

步骤2：初始化环境模块，在环境模块中建立无人机对战的飞机模型和导弹模型，在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角，并在导弹模型中设定所携带的导弹数量以及空战环境大小；

步骤4：将我机和敌机的状态信息归一化后，与在步骤3选择的动作和得到的回报打包成四元组<s_t,a_t,s_t+1,r_t+1>存入经验池中；

步骤7：在步骤2中设定好的初始环境下，我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。

进一步地，所述步骤2的具体步骤如下：

式中，v为无人机速度，θ为无人机俯仰角，

使用无人机的切向过载N_x、法向过载N_z和滚转角

进行动作编码，即使用三元组

表1七种不同的机动动作指令对应的编码方式

图2展示了无人机在飞行过程中所能采用的基本机动，其中1为定常飞行、2为加速、3为减速、4为左转弯、5为右转弯、6为拉起、7为俯冲。

则无人机状态更新的计算表示为：

s_t+1＝f(s_t,a_r,a_b) (2)

式中，a_r和b_r分别表示单步决策中我机和敌机所选择的机动动作，f(.)表示依据式(1)的运动学微分方程构建的状态更新函数；结合四阶龙格-库塔微分方程数值解方法求得飞行器速度、三维空间坐标值、俯仰角和偏航角的一阶微分，在状态s_t下，给定双方机动动作结合仿真时间单位Δt即可计算出新状态s_t+1，相比于直接数值计算的欧拉法精度更高。在任意时刻的某个系统状态下，三元组

表示某一方无人机的机动动作输入。除了基本的飞行轨迹，无人机通过连续多步的机动控制可以实现一些较复杂的战术轨迹；

步骤2-2：建立导弹模型；

导弹模型包括导弹攻击区模型和敌机击毁概率P；

步骤2-2-1：导弹攻击区模型；

决定导弹性能的参数为最大离轴发射角

当满足条件式(3)时，敌机进入我方导弹攻击区：

Area_ack＝{Pos(Target)|d_t＜DMmax_Mmax} (3)

如图3所示，将我方导弹攻击区分为5个部分，定义如下：

当

且D_{Mk min}＜d＜D_{Mk max}时，敌机处于攻击区的⑤区；

当

且D_{M min}＜d＜D_{Mk min}时，敌机处于攻击区的①区；

当

且D_{Mk max}＜d＜D_{M max}时，敌机处于攻击区的④区；

当

且D_{M min}＜d＜D_{M max}时，敌机处于②区或者③区，②区和③区具体可以通过我机和敌机相对位置来判断。

步骤2-2-2：敌机击毁概率；

步骤2-2-2-1：设定我机和敌机的相对位置如下：

步骤2-2-2-2：当

此时目标机越靠近不可逃逸区，被击中的概率加大，当AA＝0时，命中概率较大，相反，目标机会逃出攻击区，命中的概率较小，与距离则是线性关系，两机距离越近，目标机被命中的概率越小，则敌机的击毁概率为：

步骤2-2-2-3：当

且D_{M min}＜d＜D_{M max}且

时，敌机处于攻击区的②区，此时目标机的速度方向对命中概率有很大的影响，若目标机向敌机的方向飞行，则接近不可逃逸区，命中概率会被加大，相反，则会更快逃离攻击区，规避导弹的进攻。当目标机相对远离我机时，当飞机沿着攻击区的切线方向时，可以更快逃离攻击区，此时

与目标机机动相关联的击毁概率最小，当目标机相对靠近我机时，当飞机沿着攻击区的切线方向时，更接近不可逃逸区，此时

与目标机机动相关联的击毁概率最大，与距离相关联的击毁概率则是越接近攻击区的最大或者最小攻击距离则越小，而在这种情况下，机动能力对击毁概率的影响肯定要大于距离对击毁概率的影响。

若

敌机向左飞，远离我机，敌机击毁概率如下：

若

敌机向右飞，靠近我机，敌机击毁概率如下：

步骤2-2-2-4：当

且D_{M min}＜d＜D_{M max}且

敌机处于攻击区的③区，此时目标机的速度方向对命中概率有很大的影响，若目标机向敌机的方向飞行，则接近不可逃逸区，命中概率会被加大，相反，则会更快逃离攻击区，规避导弹的进攻。当目标机相对远离我机时，当飞机沿着攻击区的切线方向时，可以更快逃离攻击区，此时

若

敌机向左飞，靠近我机，敌机击毁概率如下：

若

敌机向右飞，远离我机，敌机击毁概率如下：

步骤2-2-2-5：当

此时目标机越远离不可逃逸区，被击中的概率减小，当AA＝0时，命中概率最小，相反，目标机会接近不可逃逸区，命中的概率加大，与距离则是线性关系，两机距离越近，目标机被命中的概率越小。敌机的击毁概率如下：

步骤2-2-2-5：当

且D_{Mk min}＜d＜D_{Mk max}时，敌机处于攻击区的⑤区，此时目标机处于攻击区中的不可逃逸区，无论目标做出任种机动，即AA无论为何值，目标机都无法规避导弹的攻击，此时目标机处于攻击区中的不可逃逸区，此时敌机的击毁概率P为1；

步骤2-2-2-6：考虑高度差对敌机击毁概率的影响，设计了高度对目标击毁概率的影响，如果将高度直接以加法的形式加入目标击毁概率中，无法显示高度对导弹带来的重要影响，所以采取乘法的形式，最终敌机击毁概率P_h＝K_hP，其中K_h为：

K_h∈[0.7,1.3],本机高度过高或者高度低于目标机都会导致目标击毁概率降低。

进一步地，所述步骤5的具体步骤如下：

其中

表示第j架无人机在t时刻的优势函数，

表示第i架无人机在t时刻的状态，i＝1,2；

表示第i架无人机在t时刻的选取的动作，γ表示折扣因子，

表示第j架无人机在t时刻的状态值函数，

表示第j架无人机在t-1时刻的状态值函数；

价值神经网络中的误差

计算如下：

具体实施例：

如图4所示，研究设定当敌我双方xy平面内距离差为50km时，我机在敌机之上，高度差为2km，此时我机的初始位置为[-50000m,0m,5000m]，速度为100m/s，俯仰角和偏航角为[0rad,0rad]。敌机的初始位置为[0m,0m,3000m]，速度为100m/s，俯仰角和偏航角为[0rad,0rad]。基于上述仿真条件，对所设计的算法进行仿真验证，进行1000次仿真，仿真结果如表2所示。

表2仿真结果

情况	次数
		我机胜	1000
敌机胜	0

选取一种我机获胜的情况进行详细说明，具体仿真结果如图5-图11所示。

从图5-图11的仿真结果可以看出，实线代表我机，虚线代表敌机。

我机选取的动作序列是['acc','acc','acc','acc','acc','acc','acc','acc','acc','acc','right','acc','left','right','acc','left','right','acc','acc','acc','left','acc','right','acc','acc','acc','acc','left','acc','acc','acc','slow','slow','acc','acc','acc','right','left','left','acc','acc','acc','slow','acc','acc']。

敌机选取的动作序列是['acc','acc','acc','acc','acc','acc','right','acc','right','acc','left','left','right','acc','acc','acc','left','acc','right','acc','acc','left','acc','right','acc','acc','acc','left','acc','acc','acc','acc','acc','left','acc','acc','left','left','left','left','acc','acc','acc','left','acc']。

由速度变化图可以看敌我双方都率先选择加速，在接近最大速度350m/s后，由于我机拥有高度和角度上巨大的优势，逼迫敌机选择了转弯的动作来扭转角度劣势和高度劣势，因此我机夺得了速度上的优势，并且保持了高度上的优势，最终我机处于态势上的巨大优势，并将敌机置于己方的攻击区中，我机此时的导弹命中率为47.9％，我机发射导弹成功命中敌机。

综合各个仿真结果以及实际试飞定位结果，证明了本发明所设计的基于近端策略优化的双机空战决策算法设计与实现方法的有效性，能够成功对双机进行训练优化策略，最后敌我双方飞机都能根据己方飞机的状态和预测到的对方飞机的状态和选择的动作，选择合适的动作，引导飞机取得空战的胜利。