CN116679742B

CN116679742B - 一种多六自由度飞行器协同作战决策方法

Info

Publication number: CN116679742B
Application number: CN202310402725.2A
Authority: CN
Inventors: 邓向阳; 方伟; 徐涛; 张立民; 付宇鹏; 朱子强; 周伟
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2024-04-02
Anticipated expiration: 2043-04-11
Also published as: CN116679742A

Abstract

本发明涉及一种基于深度强化学习的多六自由度飞行器协同作战的决策方法，属于多飞行器协同智能空战领域。该方法基于层次分析法实现多飞行器协同作战过程中的态势评估，降低态势评估模型的主观性，并针对不同多飞行器协同作战场景提供一套有效且统一的奖励函数设计方法。

Description

一种多六自由度飞行器协同作战决策方法

技术领域

本发明涉及一种基于深度强化学习的多六自由度飞行器协同作战的决策方法，属于多飞行器协同智能空战领域。

背景技术

多飞行器协同作战是指两架或两架以上的作战飞机相互配合、相互协作，通过协同机动，协同打击以及火力掩护等方式完成既定的作战任务。相比于单机作战，多飞行器作战可以在信息网络为中心的作战条件下，共享态势及资源信息，单机优势可通过协同转化为编队整体优势来发挥作用.以联成一体的作战平台网络为基础，以最佳的打击效果为目的，形成灵活多样的多飞行器协同攻击作战方式。但在多飞行器协同作战过程中如何对当前态势进行合理的评估，如何使多飞行器协同态势最大化，是多飞行器协同作战面临的主要问题。

近年来，以深度学习，强化学习和深度强化学习为代表的人工智能技术取得了较大的进展。并在围棋，雅达利，星际争霸和单机近距格斗等领域取得了成功，并有望在复杂的控制决策领域取得进一步突破。若将单智能体深度强化学习算法直接应用于多智能体控制决策领域，会存在奖励函数难以设计，观察空间过大等问题，从而造成训练困难，学习效果欠佳。相较于单智能体深度强化学习算法，多智能体算法在协作决策问题上取得了更好的效果。例如在2019年OpenAI团队所设计的OpenAI Five程序击败了Dota 2世界冠军战队OG，此外，多智能体算法还在炸弹人，谷歌足球等多智能体协同对抗游戏里取得了很好的效果。

如今，在多智能体协同对抗领域，已有不少相关研究。如2021年南京理工大学李琛等人利用AC(Actor-Critic)框架对兵棋进行多智能体协同推演，并且采用了分布式执行，集中训练的方法避免了维度爆炸问题，加快了训练速度以及加强了训练后得到的模型稳定性，但是该作者在初始动态数据库里加入了专家数据，其模型的泛化性有所下降。2021年马晶，李鹏等人将深度强化学习对舰载机多智能体对抗进行了相关研究，分别说明了异步优势AC算法，分布式近端策略优化算法PPO(Proximal Policy Optimization)，深度确定性策略梯度算法DDPG(Deep Deterministic Policy Gradient)、多智能体深度确定性策略梯度算法MADDPG(Multi-Agent Deep Deterministic Policy Gradient)在多飞行器对抗方面的优势，但是该研究并没有提高数据使用效率和不同任务模型的泛化能力，无法突破对于经验的局限性问题。在无人机方面，姜福涛，黄学军等人提出基于无人机群领导跟随模式下的邻接跟随，根据无人机方位灵活确定领航者，根据环境变换阵型，不拘泥于单一领导者，但是面对复杂地形以及无人机对抗时，局部无人机之间协同程度低，且无人机群的邻接跟随模式会让机群过多分散，导致单一作战从而落败。

综上所述，现有多六自由度飞行器协同作战决策方法与装置存在的问题是：

(1)在现有方法中，多飞行器协同作战过程中的态势评估部分缺乏理论建模，过于依赖专家的先验知识，导致态势评估主观性较强，训练得到的模型泛化性较差。

(2)在现有方法中，针对2v1，2v2等不同的多飞行器协同作战场景奖励函数设计复杂，需要根据不同的场景单独设计奖励函数，缺乏统一的奖励函数设计方法。

发明内容

针对上述问题，本发明的目的在于提供一种基于深度强化学习的一种多六自由度飞行器协同作战决策方法，该方法基于层次分析法实现多飞行器协同作战过程中的态势评估，降低态势评估模型的主观性，并针对不同多飞行器协同作战场景提供了一套有效且统一的奖励函数设计方法。技术方案如下：

一种多六自由度飞行器协同作战决策方法，包括以下步骤：

S1:使用PID控制器实现六自由度固定翼飞行器的飞行控制，并将控制输入由舵面控制层次(副翼，升降舵，方向舵，油门)转为航迹控制层次(航路点的三维坐标)。

S2:使用层次分析法搭建多飞行器协同作战态势评估模型，并将该模型作为多智能体深度强化学习算法的观测空间，对于不同的多飞行器协同作战场景的奖励函数设计，将奖励函数分为单机部分和协同部分进行设计。

S3:基于多智能体深度强化学习算法，搭建神经网络，根据S2中设计的观测值和奖励函数进行不同场景的多飞行器协同作战训练，最终得到不同场景的多飞行器协同作战模型。

进一步的，所述S1的具体过程为：

通过两个PID控制器通过控制升降舵和副翼分别实现六自由度固定翼飞行器的俯仰通道和滚转通道的控制，六自由度固定翼飞行器选用的动力学模型的开源动力学模型JSBSim，固定翼飞行器的机型为F-16，俯仰通道和滚转通道控制器的结构图如图1所示，俯仰通道的输入为目标俯仰角，PID控制器输入为当前俯仰角与目标俯仰角之差，滚转通道的输入的目标滚转角，PID控制器的输入为当前滚转角与目标滚转角之差。

在上述俯仰通道和滚转通道控制的基础上，在使用两个PID控制器实现对飞行器高度和航向的控制，进而实现将飞行器的输入由舵面控制层次输入变为航迹控制层次输入，整体的控制器结构图如图2所示。PID控制器1的输入为误差1，误差1为目标航向或高度与当前航向或高度之差，PID控制器1的输出为飞行器的目标俯仰角或滚转角，PID控制器2为图1所述的俯仰(滚转通道控制器)。

目标航向和高度的获取由飞行器当前位置和目标航路点位置决定，此外，在本发明中舵面控制量中的方向舵始终为零，油门为满油门状态。

更进一步的，所述S2的具体过程为：

S21:基于层次分析法建立的态势评估模型分为速度优势评估，角度优势评估，距离优势评估和空战能力评估四个部分加权求和得到，在本发明中使用相同的机型进行飞行器空战协同对抗，相同的机型空战能力默认相同，因此在本发明中不对空战能力评估进行说明，只进行速度优势，角度优势和距离优势的建模和评估。

速度优势评估函数如式(1)所示：

其中V_R表示红方飞机速度，V_B表示蓝方飞机速度，V₀表示有利速度，有利速度的取值由作战任务确定。

S22:角度优势评估函数如式(2)所示，其中p表示红方飞机相对于蓝方飞机的视线角，q表式蓝方飞机相对于红方飞机的视线角，红蓝双方视线角的示意图如图3所示。

T_a＝[p-q+180°]/360° (2)

S23:距离优势评估函数如式(3)所示，其中D为双方距离，D_Mmax为导弹的最大发射距离，D_MTmax为最大不可逃逸距离，D_MTmin为最小不可逃逸距离。

S23:根据层次分析法理论确定速度优势评估，角度优势评估，距离优势评估和空战能力评估各个部分的权重。本发明依据层次分析法构造的重要性判断矩阵如表1所示：

表1重要性判断矩阵

A	T_C	T_d	T_v	T_a
					T_C	1	1/2	1/4	1/4
T_d	2	1	4/7	2/3
					T_v	4	7/4	1	7/6
T_a	5	3/2	6/7	1

其中，T_c,T_d,T_v,T_a分别为空战能力评估值，距离优势评估值，速度优势评估值和角度优势评估值，矩阵中的数值表示两两的相对重要程度，例如，第二行第三列的值为1/2表示空战能力评估值和距离优势评估值在总体态势评估中重要程度比值为1/2。根据层次分析法求解上述重要性判断矩阵的特征值和特征向量，取最大特征值对应的特征向量作为各部分评估值的权重。根据表1得到空战能力评估值，距离优势评估值，速度优势评估值和角度优势评估值分别对应的权重值为0.09，0.2，0.37，0.33。

更进一步的，所述的S3的具体过程为：

S31：在仿真系统中搭建实验环境，确定训练飞行器的类型、飞机的初始状态，并初始化环境；

S32:使用MAPPO算法，搭建多飞行器协同对抗强化学习算法：

(1)设置观测空间

观测空间包含两部分，第一部分是对敌方飞行器或友方飞行器进行观测，第二部分是对自身的飞行状态进行观测。第一部分的观测值根据S2中所述的层次分析法确定，主要包含计算距离，速度和角度优势评估值所需的敌/友飞行器的飞行状态值，第二部分观测自身飞行器状态的目的是确保自身飞行不会有迎角过大等可能导致飞行器失速的情况发生。

根据六自由度下的运动解算方程，以分别表示飞行器的俯仰角、偏航角和滚转角，反映飞行器相对地面惯性坐标系的姿态。[x y z]表示飞行器以地面为参考系的三维空间坐标值。以[v_x v_y v_z]分别表示飞行器的飞行速率在三个方向上的拆分。

在任意的某时刻，某一飞行器所处的状态可以由以下的十六元组来表示：

其中，V_t为速度标量，α为攻角，β为侧滑角，为滚转角，/>为俯仰角，θ为航向角，P为绕机体x轴旋转角速度，Q为绕机体y轴旋转角速度，R为绕机体z轴旋转角速度，Northward为局部x轴坐标，EastWard为局部y坐标，Alititude为局部z坐标。获得单独的飞行器的状态信息后，则通过联合协同作战环境中其余飞行器各自的状态，计算当前战场的观测信息，当前飞行器的观测值可表示为：

其中，表示当前飞行器对第i个飞行器i的相对观测内容。即在飞行器自身的观测值外，增加其余方飞行器与自身的位置的相对关系以及双方速度在三维方向上的差异。

(1)设置动作空间

根据S1中所述的飞行器从舵偏控制层次转为航迹控制层次，选取目标点的北东天坐标为决策维度进行连续空间的决策控制。同时，为了缩小搜索空间，将决策的位置范围集中至目标机方圆5km之内，目标机的编号也通过网络来进行生成，决策结果以一维向量表示。

action＝[target，x_t，y_t，z_t]

其中，target表示该机选择的目标飞机的编号，x_t，y_t，z_t分别表示智能体在三个航迹维度上作出的指令值。在具体的训练过程中，三者均根据实际的控制范围作了[0，1]的放缩处理。

(2)设置奖励函数

在多飞行器协同空战场景中，奖励函数分为两部分，第一部分是对于每个智能体的奖励，由S2中所述的层次分析法计算得到，第二部分的奖励为团队协作奖励，设置团队奖励的目的是避免出现部分飞行器攻击，部分飞行器逃跑的情况。

第一部分奖励如式(4)所示，其中R_single表示单个智能体的奖励，没有考虑团队协作，R_c表示空战能力优势奖励，R_a表示角度优势奖励，R_d表示距离优势奖励，R_v表示速度优势奖励，k₁，k₂，k₃和k₄表示对应的权重因子，在本发明中，所有的飞行器类型相同，因此R_c设置为1，R_a，R_d，R_v分别与S2中的所述的T_a，T_d，T_v对应，k₁，k₂，k₃和k₄分别与S2中所述的权重0.09，0.2，0.37，0.33对应。

R_single＝k₁R_c+k₂R_a+k₃R_d+k₄R_v (4)

第二部分奖励如式(5)所示，其中，R_cooperate表示团队合作奖励，属性为惩罚奖励，R_attacked表示队友被攻击给予的惩罚奖励，R_crash表示队友被击毁的惩罚奖励。在这里需要注意的是，当队友攻击敌方飞机时我们没有给予奖励，其原因是我们认为队友攻击敌方飞机获取的奖励已在R_single中进行了体现，若再增加奖励不利于智能体之间的相互协作。

R_cooperate＝R_attacked+R_crash (5)

(3)设置算法参数并进行多飞行器协同对抗训练

在多智能体的对抗训练中，考虑到多飞行器方可能存在的配合策略，采用MAPPO算法对智能体进行训练。MAPPO算法是相对成熟的深度强化学习算法，其算法原理在本发明中就不再阐述。由于在近距离格斗任务下，飞行器的动作需要具有很高的灵活性，同时，飞行器所处的环境也存在着参数数量级跨度大，环境变化迅速等特点，因此就需要策略网络和动作状态价值函数具有很高的非线性拟合能力。在训练中，策略网络以及评估网络均采用了10层512单元的全连接层，并在每一层后增加Sigmoid激活函数将输出范围压缩到[0,1]之间。

本发明的有益效果是：

(1)在S1中通过PID控制器将六自由度飞行器的控制层次由舵偏层次转为航迹控制层次，与使用深度强化学习算法直接控制飞行舵偏量相比，航迹层次的控制更有利于多智能体深度强化学习算法收敛，并使得算法做出的决策更聚焦于战术协同层面。

(2)在S2中引入态势评估中的层次分析法设计算法的观测值和奖励函数，避免了观测值和奖励函数过于依赖专家知识或主观性太强的问题，提高了训练后模型泛化性。

(3)在本发明中提出了一套统一的观测值和奖励函数的设计方法，该方法可不止应用于一种多飞行器协同对抗作战场景，解决了不同协同作战场景需要单独设计观测值和奖励函数的问题。

附图说明

图1为俯仰(滚转)通道控制模型。

图2为航迹层次控制器模型。

图3为双机视线角关系示意图。

图4为航迹层次控制器控制流程。

图5为2v1协同对抗场景训练奖励曲线。

图6为2v1协同对抗场景对战过程可视化。

图7为2v1协同对抗场景200次测试胜利曲线。

图8为2v2协同对抗场景训练奖励曲线。

图9为2v2协同对抗场景对战过程可视化。

图10为2v2协同对抗场景200次测试胜利曲线。

图11是本发明实施例提供的基于深度强化学习的多飞行器协同作战方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。本实例基于JSBSim开源飞行动力学仿真平台和MAPPO多智能体深度强化学习算法实现。

步骤1：搭建基于航迹控制层次的多智能体协同作战对抗环境。

步骤1.1：使用四个PID控制器JSBSim将六自由度飞行动力学模型从舵偏(输入为升降舵，副翼，方向舵和油门)控制层次转为航迹(输入为航路点坐标)控制层次，选用的机型为F-16。

四个PID控制器分别为滚转角控制器，俯仰角控制器，航向控制器和高度控制器。滚转角控制器和俯仰角控制器分别实现飞行器滚转通道和俯仰通道的控制，其结构如图1所示，滚转角控制器的输入为当前滚转角与目标滚转角之差，输出为副翼控制指令，俯仰角控制器的输入为当前俯仰角与目标俯仰角之差，输出为升降舵控制指令，航向控制器和高度控制器分别实现飞行器航向和高度的控制，其结构如图2所示，航向控制器的输入为当前飞行器航向与目标航向之差，输出为飞行目标滚转角，高度控制器的输入为当前飞行器高度与目标高度之差，输出为飞行器目标俯仰角。

航迹层次的控制流程如图4所示，目标航向和目标高度有飞行器当前位置和目标点位置决定，在本发明中，方向舵指令始终为零，油门指令为满油门状态。

步骤1.2：设置多智能体协同作战对抗环境的作战区域为20km*20km*12km的长方体内，飞行器雷达扫描的方位角和俯仰角的范围都为±25°

步骤2：确定MAPPO多智能体深度强化学习算法观测空间和奖励函数。

步骤2.1：基于层次分析法确定观测空间。

其中，表示当前飞行器对第i个飞行器的相对观测内容。即在飞行器自身的观测值外，增加其余方飞行器与自身的位置的相对关系以及双方速度在三维方向上的差异。

需要注意的是在本发明中提出的观测空间设置方法适用于多种多飞行器协同作战场景，如上所述的i表示第i个飞行器，本实例以2v1和2v2两种多飞行器协同作战场景进行阐述。

步骤2.2：基于层次分析法确定奖励函数。

在多飞行器协同空战场景中，奖励函数分为两部分，第一部分是对于每个智能体的奖励，由层次分析法计算得到，第二部分的奖励为团队协作奖励，设置团队奖励的目的是避免出现部分飞行器攻击，部分飞行器逃跑的情况。

第一部分奖励如式(4)所示，其中R_single表示单个智能体的奖励，没有考虑团队协作，R_c表示空战能力优势奖励，R_a表示角度优势奖励，R_d表示距离优势奖励，R_v表示速度优势奖励，k₁，k₂，k₃和k₄表示对应的权重因子。在本发明中，所有的飞行器类型相同，因此R_c设置为1，R_v与式(1)中的T_v相同，R_a与式(2)中的T_a相同，R_d与式(3)中的T_d相同。

第二部分奖励如式(5)所示，其中，R_cooperate表示团队合作奖励，属性为惩罚奖励，R_attacked表示队友被攻击给予的惩罚奖励，在本发明中为-1，R_crash表示队友被击毁的惩罚奖励，在本发明中为-10。在这里需要注意的是，当队友攻击敌方飞机时我们没有给予奖励，其原因是我们认为队友攻击敌方飞机获取的奖励已在R_single中进行了体现，若再增加奖励不利于智能体之间的相互协作。

最终的奖励函数如式(6)所示。

R＝R_single+R_cooperate (6)

步骤3：2v1和2v2多智能体协同对抗场景训练及结果分析

步骤3.1：2v1多智能体协同对抗场景训练及结果分析。

2v1作战场景的初始设置如表2所示，红方为智能体一方，蓝方采用固定的攻击策略，在本实例中蓝方的攻击策略设置为攻击离自己最近的红方飞机。坠毁设定为连续30个仿真步长在敌方飞机的攻击范围内。在双方初始位置的设置中，双方飞机都在初始X,Y位置±3000米内随机生成，Z在初始位置的±1000米内随机生成。

表2

训练算法选用MAPPO多智能体深度强化学习算法，MAPPO算法为比较成熟的多智能体深度强化学习算法，算法原理在本实例中不作说明。再根据步骤2中所述的观测值和奖励设置进行训练。

在经过3.5×10⁷仿真步长的训练后得到的奖励曲线变化如图5所示，从图5中可以看到在1×10⁷仿真步长前的奖励为负，说明红方智能体尚未学会攻击蓝方飞机或掩护队友。在1×10⁷的仿真步长后奖励由负变为正，说明红方智能体开始学会攻击蓝方飞机或掩护队友。在2×10⁷时奖励达到最高值，之后奖励在1×10⁵范围内波动，可以认为是训练已收敛。

加载2×10⁷仿真步长后的权重，对2v1多智能体协同对抗过程进行可视化如图6所示。图6中(a)-(h)按对抗的时间顺序进行排序。对抗过程可以分为三个阶段，图(a)-(c)为对抗初始阶段，在该阶段双方飞机互相接近，试探，红方阵营飞机为把被击中的概率降到最低，在与蓝方飞机相距一定的距离后开始逃跑，如(b)所示，感知到合适的攻击态势后再进行追击，如(c)所示。图(d)-(f)为中间对抗阶段，在该阶段红蓝方的交战较为激烈，红方智能体为将损失降到最低，只在对自己有绝对优势态势时才发动进攻，总共经过三个回合的格斗。图(g)-(i)为对抗的最后阶段，在该协同红方智能体抓住了蓝方飞机的机动漏洞，通过协作完成了对蓝方飞机的击毁，在(g)中可以看到红方阵营中的一架飞机负责引诱蓝方飞机，另一架飞机正在转换为进攻态势，在(h)中转换完成，形成了绝对优势，最后在(i)中完成了对蓝方飞机的击毁。

为了证明训练结果的有效性，本实例在对训练收敛后的结果进行了200次测试，统计了对抗胜率，如图7所示，从图7中可以看到经过深度强化学习训练过的智能体在2v1的多智能体协同对抗作战场景中能达到80％以上的胜率。

步骤3.2：2v2多智能体协同对抗场景训练及结果分析。

2v2作战场景的初始设置如表3所示，红方为智能体一方，蓝方采用固定的攻击策略，在本研究中蓝方的攻击策略设置为攻击离自己最近的红方飞机。坠毁设定为连续30个仿真步长在敌方飞机的攻击范围内。在双方初始位置的设置中，双方飞机都在初始X,Y位置±3000米内随机生成，Z在初始位置的±300米内随机生成。

表3

在经过约4×10⁷仿真步长的训练后得到的奖励曲线变化如图8所示，从图8中可以看到在9×10⁶仿真步长前的奖励为负，说明红方智能体尚未学会攻击蓝方飞机或掩护队友。在9×10⁶的仿真步长后奖励由负变为正，说明红方智能体开始学会攻击蓝方飞机或掩护队友。且训练结束时奖励仍继续上涨。

同2v1空战训练一样，对2v2多智能体协同对抗过程进行可视化，图9(a)-(c)为智能体初始条件劣势的可视化，(a)为对抗初始阶段，此时红蓝双方均为自由状态，当红蓝双方相遇时，如图(b)所示，红色方智能体初始条件弱于蓝色方，故选择示敌以弱，把被命中概率降低，随着时间的推移和策略的更新，如图(c)所示，慢慢达到势均力敌的局面，逐步取得优势后夺得胜利；(d)-(f)为智能体初始均势态势可视化，图(d)为对抗初始阶段，此时红蓝双方飞机在自由飞行，探测目标，当红蓝双方互相感知时，如图(e)所示，红色方飞机选择一架诱敌，一架控制距离在敌后进行追击，最终如图(f)所示，蓝色方对红色方诱敌机进行追赶攻击，红色方另一架飞机对蓝色方飞机后部进行攻击，夺取胜利。

为了证明训练结果的有效性，经过多次奖励训练积累经验，在红方初始态占优的情况下，作者对同型机2v2对抗进行了200次仿真对抗试验，其胜率大于90％，满足要求，如图10所示。

Claims

1.一种多六自由度飞行器协同作战决策方法，其特征在于包括以下步骤：

S1:使用PID控制器实现六自由度固定翼飞行器的飞行控制，并将控制输入由舵面控制层次转为航迹控制层次；

S2:使用层次分析法搭建多飞行器协同作战态势评估模型，并将该模型作为多智能体深度强化学习算法的观测空间，对于不同的多飞行器协同作战场景的奖励函数设计，将奖励函数分为单机部分和协同部分进行设计；

S3:基于多智能体深度强化学习算法，搭建神经网络，根据S2中设计的观测值和奖励函数进行不同场景的多飞行器协同作战训练，最终得到不同场景的多飞行器协同作战模型；

所述S2的具体过程为：

S21:基于层次分析法建立的态势评估模型分为速度优势评估，角度优势评估，距离优势评估和空战能力评估四个部分加权求和得到，使用相同的机型进行飞行器空战协同对抗，相同的机型空战能力默认相同，因此不对空战能力评估进行说明，只进行速度优势，角度优势和距离优势的建模和评估；

速度优势评估函数如式(1)所示：

其中V_R表示红方飞机速度，V_B表示蓝方飞机速度，V₀表示有利速度，有利速度的取值由作战任务确定；

S22:角度优势评估函数如式(2)所示，其中p表示红方飞机相对于蓝方飞机的视线角，q表式蓝方飞机相对于红方飞机的视线角；

T_a＝[o―q+180°]/360° (2)

S23:距离优势评估函数如式(3)所示，其中D为双方距离，D_Mmax为导弹的最大发射距离，D_MTmax为最大不可逃逸距离，D_MTmin为最小不可逃逸距离；

S23:根据层次分析法理论确定速度优势评估，角度优势评估，距离优势评估和空战能力评估各个部分的权重；

所述的S3的具体过程为：

S32:使用MAPPO算法，搭建多飞行器协同对抗强化学习算法：

(1)设置观测空间

观测空间包含两部分，第一部分是对敌方飞行器或友方飞行器进行观测，第二部分是对自身的飞行状态进行观测，第一部分的观测值根据S2中所述的层次分析法确定，主要包含计算距离，速度和角度优势评估值所需的敌/友飞行器的飞行状态值，第二部分观测自身飞行器状态的目的是确保自身飞行不会有迎角过大等可能导致飞行器失速的情况发生；

根据六自由度下的运动解算方程，以分别表示飞行器的俯仰角、偏航角和滚转角，反映飞行器相对地面惯性坐标系的姿态，[x y z]表示飞行器以地面为参考系的三维空间坐标值，以[v_xv_yv_z]分别表示飞行器的飞行速率在三个方向上的拆分；

其中，V_t为速度标量，α为攻角，β为侧滑角，为滚转角，/>为俯仰角，θ为航向角，P为绕机体x轴旋转角速度，Q为绕机体y轴旋转角速度，R为绕机体z轴旋转角速度，Northward为局部x轴坐标，EastWard为局部y坐标，Alititude为局部z坐标，获得单独的飞行器的状态信息后，则通过联合协同作战环境中其余飞行器各自的状态，计算当前战场的观测信息，当前飞行器的观测值可表示为：

其中，表示当前飞行器对第i个飞行器i的相对观测内容，即在飞行器自身的观测值外，增加其余方飞行器与自身的位置的相对关系以及双方速度在三维方向上的差异；

(2)设置动作空间

根据S1中所述的飞行器从舵偏控制层次转为航迹控制层次，选取目标点的北东天坐标为决策维度进行连续空间的决策控制，同时，为了缩小搜索空间，将决策的位置范围集中至目标机方圆5km之内，目标机的编号也通过网络来进行生成，决策结果以一维向量表示；

action＝[target,x_t,y_t,z_t]

其中,target表示该机选择的目标飞机的编号，x_t,y_t,z_t分别表示智能体在三个航迹维度上作出的指令值，在具体的训练过程中，三者均根据实际的控制范围作了[0,1]的放缩处理；

(3)设置奖励函数

在多飞行器协同空战场景中，奖励函数分为两部分，第一部分是对于每个智能体的奖励，由S2中所述的层次分析法计算得到，第二部分的奖励为团队协作奖励，设置团队奖励的目的是避免出现部分飞行器攻击，部分飞行器逃跑的情况；

第一部分奖励如式(4)所示，其中R_single表示单个智能体的奖励，没有考虑团队协作，R_c表示空战能力优势奖励，R_a表示角度优势奖励，R_d表示距离优势奖励，R_v表示速度优势奖励，k₁，k₂，k₃和k₄表示对应的权重因子，所有的飞行器类型相同，因此R_c设置为1，R_a，R_d，R_v分别与S2中的所述的T_a，T_d，T_v对应，k₁，k₂，k₃和k₄分别与S2中所述的权重0.09，0.2，0.37，0.33对应；

R_single＝k₁R_c+k₂R_a+k₃R_d+k₄R_v (4)

第二部分奖励如式(5)所示，其中，R_cooperate表示团队合作奖励，属性为惩罚奖励，R_attacked表示队友被攻击给予的惩罚奖励，R_crash表示队友被击毁的惩罚奖励，在这里需要注意的是，当队友攻击敌方飞机时未给予奖励；

R_cooperate＝R_attacked+R_crash (5)

(4)设置算法参数并进行多飞行器协同对抗训练

在多智能体的对抗训练中，考虑到多飞行器方可能存在的配合策略，采用MAPPO算法对智能体进行训练，MAPPO算法是相对成熟的深度强化学习算法，由于在近距离格斗任务下，飞行器的动作需要具有很高的灵活性，同时，飞行器所处的环境也存在着参数数量级跨度大，环境变化迅速等特点，因此就需要策略网络和动作状态价值函数具有很高的非线性拟合能力，在训练中，策略网络以及评估网络均采用了10层512单元的全连接层，并在每一层后增加Sigmoid激活函数将输出范围压缩到[0,1]之间。

2.按照权利要求1所述的一种多六自由度飞行器协同作战决策方法，其特征在于

所述S1的具体过程为：

通过两个PID控制器通过控制升降舵和副翼分别实现六自由度固定翼飞行器的俯仰通道和滚转通道的控制，六自由度固定翼飞行器选用的动力学模型的开源动力学模型JSBSim，固定翼飞行器的机型为F-16，俯仰通道的输入为目标俯仰角，PID控制器输入为当前俯仰角与目标俯仰角之差，滚转通道的输入的目标滚转角，PID控制器的输入为当前滚转角与目标滚转角之差；

在上述俯仰通道和滚转通道控制的基础上，在使用两个PID控制器实现对飞行器高度和航向的控制，进而实现将飞行器的输入由舵面控制层次输入变为航迹控制层次输入，PID控制器1的输入为误差1，误差1为目标航向或高度与当前航向或高度之差，PID控制器1的输出为飞行器的目标俯仰角或滚转角；

PID控制器2的输入为误差2，误差2为目标俯仰角或滚转角与当前俯仰角或滚转角之差；

目标航向和高度的获取由飞行器当前位置和目标航路点位置决定，此外，舵面控制量中的方向舵始终为零，油门为满油门状态。