CN114721424A

CN114721424A - 一种多无人机协同对抗方法、系统以及存储介质

Info

Publication number: CN114721424A
Application number: CN202210268450.3A
Authority: CN
Inventors: 高显忠; 候中喜; 金泉; 贾高伟; 王玉杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-08

Abstract

本发明公开了一种多无人机协同对抗方法、系统以及存储介质，本发明首先基于多无人机协同对抗系统中的无人机信息建立我方多无人机协同对抗条件下的马尔可夫博弈模型，然后基于MADDPG对马尔可夫博弈模型进行训练，使用改进的MADDPG为每一架我方无人机设置一组执行器网络和评价器网络，利用集中训练，分散执行的策略，训练学习时给予一个获取全局状态信息的评价器网络指导我方无人机训练，输出具体机动动作的执行器只获取局部观测状态信息，在评价器网络指导下通过逐渐收敛到合适的网络参数，使我方无人机在未知和动态的对抗环境下提高在对抗中的自主决策能力,而且本发明的收敛速度快，决策时间短。

Description

一种多无人机协同对抗方法、系统以及存储介质

技术领域

本申请实施例涉及无人机技术领域，尤其涉及一种多无人机协同对抗方法、系统以及存储介质。

背景技术

空战发展过程中，人们认识到多架战斗机协同作战能提高战斗效率，早期单机空战逐步发展到双机编队、多机编队等模式，战斗力不断增强。理论上战斗机数量的增加提供了更多的火力输出点和更宽阔的观测视野，不论是进攻还是执行防御任务都有更强的优势。

在同一区域执行同一任务的战斗机数量规模如果过大不可避免会产生一些缺陷，比如战斗机群规模越大，其目标越明显，越容易暴露被敌人提前探测发现，不利于执行隐蔽接敌等任务。同时战机数量的增加也导致空中碰撞风险的增加，特别是执行空战对抗这种战场态势迅速动态变化的任务，战斗机突然做出大过载机动动作很可能导致队友来不及躲闪造成碰撞，或队友间配合不默契发生失误导致任务失败。而且，现代战场电磁环境复杂，多机间保持稳定信息传输得不到保障，无法高效协同将大大降低了战机数量带来的优势。正因此，现代战斗机执行任务时最常见的仍然是双机或四机这种小组编队，且区分长机与僚机，彼此具体划分不同主要任务，前期经过大量训练，以期望在战场上不论何种状态都争取最大的配合默契。这对研究多无人机协同对抗也有启发。

相较于单架无人机(单架我方无人机和敌方无人机)进行对抗，多架我方无人机协同对抗敌方目标无人机，能够一定程度提高任务成功率，通过相互配合提高对抗效率，甚至可能通过数量优势弥补单无人机性能上的劣势。

对于协同对抗敌方目标的我方无人机，每架我方无人机通过自身机载传感器探测和通信接受信息，若协同对抗目标的我方无人机之间可以保持稳定的信息通讯，即可集中全局信息做出最优决策，但这种方法有两个主要弊端，一是其假设战场电磁环境满足稳定可靠通信要求，过于理想不符合实际，如今电子战已走向实际战场，电子干扰、压制、诱骗等技术层出不穷，无人机平台期望时刻掌握全局信息，但这不符合实际场景。二是随着参与对抗的无人机数量的增加，需要处理的信息量迅速增加，这对决策算法的复杂度、机载计算机的算力、通信传输的承载量都提出了很高要求，过大的计算量可能导致决策时间过长或算法不收敛。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供了一种多无人机协同对抗方法、系统以及存储介质，能够使我方无人机在未知和动态的对抗环境下提高在对抗中的自主决策能力。

本发明的第一方面，本申请实施例提供一种多无人机协同对抗方法，包括如下步骤：

获取多无人机协同对抗系统中的无人机信息，并根据所述无人机信息，构建多无人机协同的马尔可夫博弈模型；

基于MADDPG算法对所述马尔可夫博弈模型进行训练，得到训练完成的多无人机协同对抗自主决策模型；其中，通过所述MADDPG算法为每一架我方无人机设置执行器网络和评价器网络，所述执行器网络的输入为我方无人机的局部观测状态信息，输出为我方无人机的机动动作，所述评价器网络的输入为所有无人机全局状态信息；

获取敌方无人机和我方无人机在当前时刻的状态，利用所述多无人机协同对抗自主决策模型生成我方无人机相应的机动动作。

本发明第一方面提供的多无人机协同对抗方法，至少具有如下有益效果：

在本方法中，首先基于多无人机协同对抗系统中的无人机信息建立我方多无人机协同对抗条件下的马尔可夫博弈模型，然后基于MADDPG算法对马尔可夫博弈模型进行训练，为每一架我方无人机设置一组执行器网络和评价器网络，利用集中训练，分散执行的策略，训练学习时给予一个获取全局状态信息的评价器网络指导我方无人机训练，输出具体机动动作的执行器只获取局部观测状态信息，在评价器网络指导下通过逐渐收敛到合适的网络参数，使我方无人机在未知和动态的对抗环境下提高在对抗中的自主决策能力。而且本方法的收敛速度快，决策时间短。

第二方面，本申请实施例提供一种多无人机协同对抗系统，所述多无人机协同对抗系统包括多架我方无人机和一架或多架敌方无人机，每一架我方无人机设置有存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现：如上述第一方面的多无人机协同对抗方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行：如上述第一方面的多无人机协同对抗方法。

可以理解的是，上述第二方面至第三方面与相关技术相比存在的有益效果与上述第一方面提高的多无人机协同对抗方法与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提供的马尔科夫决策过程中的智能体-环境交互的示意图；

图2是本申请一个实施例提供的一种多无人机协同对抗方法的流程示意图；

图3是本申请一个实施例提供的无人机三自由度质点模型示意图；

图4是本申请一个实施例提供的两架我方无人机协同对抗一架敌方无人机的示意图；

图5是本申请一个实施例提供的MADDPG算法结构示意图；

图6是本申请一个实施例提供的评价器和执行器的结构示意图；

图7是本申请一个实施例提供的MADDPG算法训练过程奖励值变化示意图；

图8是本申请一个实施例提供的敌方无人机匀速直线机动时双方轨迹示意图；

图9是本申请一个实施例提供的敌方无人机随机机动时双方轨迹示意图；

图10是本申请一个实施例提供的敌方无人机MINMAX策略机动时双方轨迹示意图；

图11是本申请一个实施例提供的多我方无人机对抗单敌方无人机的仿真结果示意图；

图12是本申请一个实施例提供的夹击战术仿真示意图；

图13是本申请一个实施例提供的夹击战术总结图；

图14是本申请一个实施例提供的诱饵战术仿真示意图；

图15是本申请一个实施例提供的诱饵战术总结图；

图16是本申请一个实施例提供的防御分合战术仿真示意图；

图17是本申请一个实施例提供的防御分合战术总结图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

还应当理解，在本申请实施例说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请实施例的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在相关方案中，相较于单架无人机(单架我方无人机和敌方无人机)进行对抗，多架我方无人机协同对抗敌方目标无人机，能够一定程度提高任务成功率，通过相互配合提高对抗效率，甚至可能通过数量优势弥补单无人机性能上的劣势。对于协同对抗敌方目标的我方无人机，每架我方无人机通过自身机载传感器探测和通信接受信息，若协同对抗目标的我方无人机之间可以保持稳定的信息通讯，即可集中全局信息做出最优决策，但这种方法有两个主要弊端，一是其假设战场电磁环境满足稳定可靠通信要求，过于理想不符合实际，如今电子战已走向实际战场，电子干扰、压制、诱骗等技术层出不穷，无人机平台期望时刻掌握全局信息，但这不符合实际场景。二是随着参与对抗的无人机数量的增加，需要处理的信息量迅速增加，这对决策算法的复杂度、机载计算机的算力、通信传输的承载量都提出了很高要求，过大的计算量可能导致决策时间过长或算法不收敛。

在本发明的一些实施例中，提供了一种多无人机协同对抗系统，多无人机协同对抗系统包括多架我方无人机和一架或多架敌方无人机。例如，由两个我方无人机和一架敌方无人机即可构成一个多无人机协同对抗系统。每一架我方无人机设置有存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现一种多无人机协同对抗方法。

参照图2，基于上述多无人机协同对抗系统，提供了一种多无人机协同对抗方法，包括如下步骤：

步骤S100、获取多无人机协同对抗系统中的无人机信息，并根据无人机信息，构建多无人机协同的马尔可夫博弈模型。

首先，建立无人机运动模型。如图3所示，建立“北天东”惯性坐标系，X轴正方向指向正东，Y轴正方向指向正北，Z轴正方向垂直地面指向上。无人机空中飞行过程中主要受到发动机推力、重力和气动力作用，下面的方程组表示的是无人机在惯性坐标系中简化后的动力学模型。

式中，g为重力加速度，v代表无人机速度，其大小满足约束v_min≤v≤v_max，速度方向被分解成两个角度来表示，航迹倾角γ代表速度矢量与水平面XOY的夹角，γ∈[-π/2，π/2]，指向正北为0°，向西转为正。航迹偏角ψ代表速度矢量在水平面上的投影与坐标轴X轴的夹角，ψ∈(-π，π]，水平时为0°，向上为正。n_τ、n_f为切向过载和法相过载，μ为滚转角。n_τ可以看成推力和阻力的合力对速度产生的影响，其方向为速度的方向，其中阻力包含重力的分力作用，用来改变飞机的速度；法向过载n_f方向为机顶的方向，滚转角μ为无人机绕自身纵轴的转角，两者决定速度航向角和速度爬升角的变化率，可以改变飞行方向和高度。

在相同的惯性坐标系中，经过坐标变换可得到简化的无人机运动方程：

式中，x，y和z表示无人机在惯性坐标系下的位置。

参照图1，强化学习过程是一种“试错”过程，马尔可夫决策过程被描述是强化学习任务的模型框架。本实施例在单智能体的马尔科夫决策过程基础上，构建多智能体(本申请实施例将每一架无人机视为一个智能体)条件下的马尔可夫博弈模型。

在一些实施例中，马尔可夫博弈模型由状态空间、动作空间、奖励函数以及状态转移函数构建而成。在多无人机协同对抗系统中，假设我方无人机数量为N，将每架我方无人机视为一个智能体，因此，与单机对抗时的马尔可夫决策过程一个显著区别在于，状态集合区分为整个战场(即对抗区域)的全局状态和每架我方无人机所能观察到的局部观测状态，除了定义每架我方无人机的机动动作，还有所有智能体的动作集合为A₁，...，A_N。设战场的全局状态集合为S，则状态转移过程(状态转移函数)为T：S×A₁×...×A_N→P(S)，其表示已知当前时刻的全局状态和所有智能体的动作时，下一刻处于不同状态的概率分布。每个智能体的奖励函数是全局状态和动作到回报值的映射S×A₁×...×A_N→R_i。特别的，考虑环境反馈给每个智能体i的有限的状态信息o_i，o_i是全局状态s(s∈S)中智能体i可观测部分，每个智能体在与环境交互过程(马尔可夫决策模型为智能体和环境交互学习的模型)中学习一个策略π_i：o_i→P(A_i)，该策略是智能体局部观测状态量到不同动作的分布概率的映射。马尔可夫决策模型的状态转移过程是所有智能体的当前状态和联合行为时下一状态的概率分布；任一智能体的下一状态和回报，取决于当前状态和所有其他智能体的当前动作。

对于马尔科夫决策，如果已知决策中的回报函数和状态转移函数，则希望寻找不同智能体策略的纳什均衡，记为N个策略组

如果未知，则希望智能体能在探索环境中学习到纳什均衡策略，纳什均衡策略表示为当其他智能体策略不变化时，某智能体的策略无法再获取更好的回报。定义智能体i的动作值函数Q_i(s，a₁，...，a_N)为给定状态和所有智能体的联合动作时，智能体i折扣回报的累积和。同样定义智能体i的回报函数

定义智能体i采用策略π_i的累积折扣奖励的期望J_i(π_i)：

智能体的纳什均衡策略是最大化J_i(π_i)的策略，上式中γ∈[0，1]是折扣因子，决定策略对即时奖励和长期奖励的偏好程度。

具体的，第一、状态空间；

对于每一架我方无人机r₁，其执行器网络的状态输入分为自身状态、敌方无人机状态和我方协同无人机状态三部分。自身状态部分包括本身速度大小

航迹倾角

航迹偏角

和速度滚转角

敌方无人机状态部分包括敌方无人机本身的速度大小

航迹倾角

航迹偏角

还包括与我方无人机的距离、双方视线的水平傾角和纵向偏角；我方协同无人机状态部分包括协同无人机的速度大小

航迹倾角

航迹偏角

再加上与我方无人机的距离、两者视线的水平偏角和纵向偏角。

评价器网络在输入执行器状态基础上再增加动作状态。因此，在m架我方无人机对抗n架敌方无人机的系统中，一架我方无人机的执行器网络输入的状态数量为(6m+6n+4)个。

以二对一对抗为例，即两架我方无人机协同对抗一架敌方无人机，这是非常常见的对抗场景，同时也包含智能体本身、协作队友、对抗敌人三方要素的最少状态信息。如图4所示，采用我方无人机r₁的视角，我方协同的队友为r₂，对手为敌方无人机b₁。由r₁指向b₁为视线ρ_adv，视线ρ_adv与水平面XOY的夹角为β_adv，视线ρ_adv在水平面XOY的投影与X轴的夹角为α_adv。由r₁指向r₂为视线ρ_ally，视线ρ_ally与水平面XOY的夹角为β_ally，视线ρ_ally在水平面XOY的投影与X轴的夹角为α_ally。

因此，能够得到模型训练时，我方无人机r₁的局部观测状态数值，输入执行器网络训练前，可以将局部观测状态数值进行预处理，用于稳定网络，提高网络收敛速度。例如：

表1

在表1中，D_ally表示我方无人机与协同队友之间的空间距离，D_adv表示我方无人机与敌方无人机之间的空间距离，Dmax表示无人机的最大探测距离。对于每架我方无人机，其训练神经网络的输入维度为16，预处理后数据的取值多在-1与1之间，经过预处理操作后，能够有利于网络稳定、快速计算，提高收敛速度。

第二、动作空间与状态转移函数；

动作选择无人机的切向过载、法向过载和滚转角速度三项连续控制量控制无人机机动，a＝[n_τ，n_f，ω]，ω为机体滚转角速度。无人机通过选择不同的动作组合可以机动至任意航向，每一种机动动作库中的动作都可以对应一组动作值。

在神经网络中，使用了不同的非线性激活函数，若神经网络不添加非线性激活函数，就只能描述多项式函数，无法拥有逼近任意函数的能力，执行器网络最后输出层选择了双曲正切函数(tanh函数)作为激活函数，其数学表达式为：

y＝(e^x-e^-x)/(e^x+e^-x)

tanh函数将执行器网络输出的数据映射到(-1，1)区间，数学处理后得到实际控制量如下：

ω＝ω^min+(a₃+1)×(ω^max-ω^min)×0.5

上式中a₁，a₂和a₃为神经网络通过tanh函数后直接输出的在(-1，1)区间量。

状态转移函数描述的是在当前状态下采取某种动作时，转换成某种新状态的概率。在本实施例中，状态转移过程满足上述所定义的无人机运动方程的约束。

已知无人机的切向过载、法向过载和滚转角速度指令，便可计算出无人机的速度、航迹倾角和航迹偏角，进一步得到在惯性坐标系中无人机的三维空间位置。

第三、奖励函数；

最后设定奖励函数与终止条件，无人机按照某种策略选取动作与环境交互得到经验，算法目的是得到最大化奖励。在本实施例中，奖励函数包括锁定奖励、过程奖励以及碰撞惩罚。

当无人机之间的距离满足机载武器最小攻击距离且无人机之间的相对角度合适时，判定锁定成功，自身获得奖励的同时给予友机协助奖励。同样友机成功锁定敌机时，自身也得到无人机协助奖励：

r_lock为锁定奖励，D_adv表示我方无人机与敌方无人机之间的空间距离，D′表示我方协同无人机与敌方无人机之间的空间距离，D^*为满足锁定成功时两机最小距离。p_r为我方无人机速度方向偏离指向敌方无人机质心方向的夹角，e_r为敌方无人机速度方向偏离我方无人机指向其质心方向视线矢量的夹角，p^*为满足锁定成功时，攻击方无人机速度方向偏离指向防御方无人机质心方向的最大夹角，与无人机所载武器系统的最大攻击角度相关；p′_r为我方协同无人机速度方向偏离指向敌方无人机质心方向的夹角，e′_r为敌方无人机速度方向偏离我方协同无人机指向其质心方向视线矢量的夹角，e^*为满足锁定成功时，防御方无人机速度方向偏离攻击方无人机指向防御方无人机质心方向的最大夹角。

为解决稀疏奖励导致不易收敛的问题，本申请在训练过程中，增加过程奖励对无人机的学习进行引导，主要包括角度优势奖励r₁和距离优势奖励r₂。

r₁＝-(p_r+e_r)/2π

最后增加碰撞惩罚。设置一个避免碰撞的我方无人机之间最小安全距离D_c，当协同的两架我方无人机之间距离小于D_c时，给予协同无人机负的奖励值r_c。

得到综合的单步奖励：

R＝r_lock+k₁r₁+k₂r₂+r_c

式中k₁，k₂为权值，取值在0至1间且相加和为1。

每回合步数达到最大值，或一方无人机连续锁定另一方步数达到预设值时，回合结束。

步骤S200、基于MADDPG算法对马尔可夫博弈模型进行训练，得到训练完成的多无人机协同对抗自主决策模型；其中，通过MADDPG算法为每一架我方无人机设置执行器网络和评价器网络，执行器网络的输入为我方无人机的局部观测状态信息，输出为我方无人机的机动动作，评价器网络的输入为所有无人机全局状态信息。

首先，多智能体深度确定性梯度算法(Multi-Agent Deep Deterministic PolicyGradient，简称MADDPG)，是确定性策略梯度算法(DDPG)在多智能体环境中的扩展。其采用集中学习和分散执行的思想，是由OpenAl团队在2017年首次提出，本申请中给出了MADDPG算法结构如图5所示。

在基于MADDPG的马尔可夫决策模型训练中，每架我方无人机都拥有一套“执行器-评判器”(Actor-Critic)神经网络框架，执行器(Actor)网络根据输入的状态输出动作，评判器(Critic)神经网络根据环境奖励评判执行器此次运行的优劣。与单智能体强化学习不同的是，输入到执行器的信息是有限的，不包括其他智能体的动作，而输入到评价器的信息为全局状态，包括所有智能体的动作信息。

神经网络具体的设计包括：每架我方无人机有一套执行器网络和评判器网络，网络均由输入层、隐藏层和输出层组成全连接层网络，执行器的输入层神经元个数由其局部观测状态的数量决定。输出层为3个动作量，分别为无人机的切向过载、法向过载和滚转角速度。评判器的输入层神经元个数由全局状态量决定，输出为一个评估值。两套神经网络的隐藏层均有两层，每层包含300神经元节点。激活函数为Relu函数，定义如下：

f(x)＝max(0，x)

神经网络结构如图6所示：

训练参数设置：

表2

确定性策略不同于随机策略输出动作的概率，而是直接输出动作，学习效率大大提高。同时为了确保“探索”性以避免陷入局部最优，在输出动作时添加随机噪声，随机噪声满足高斯分布，取以0为均值、以随机噪音参数N_i为标准差的正态分布，且最终输出动作处理后依然处在[-1，1]区间。

为了稳定的学习，采用固定Q值网络的方法，一定步数后更新，且采用软更新的方法，每次更新只更新一部分参数，更新所占比例由软更新参数τ确定。

无人机的性能参数如下表3所示：

表3

其中，无人机的机载武器攻击范围和两项锁定角度共同描述了机载武器的性能。当被攻击的防御方无人机速度与视线夹角很大时，很容易丢失目标，故为了稳定锁住敌人，做出了如此限制。

步骤S300、获取敌方无人机和我方无人机在当前时刻的状态，利用多无人机协同对抗自主决策模型生成我方无人机相应的机动动作。

以下是一组仿真实验实施例：

以两架我方无人机对抗一架敌方无人机为背景，初始状态随机，我方无人机采用基于MADDPG算法的策略训练，敌方无人机采用匀速直线的策略1(即开始仿真后保持航向做匀速直线运动)、随机机动的策略2(即每一决策时刻，从机动动作库中随机选择一种动作)和MINMAX策略3(极小极大值策略)这三种策略。

一共仿真100000回合，每回合50步，仿真步长0.5秒，选择软更新场景迁移的优化训练方法，敌方无人机在前20000回合时，有a概率选择策略1，(1-a)概率选择策略2；在20000到70000回合期间，有b概率选择策略2，(1-b)概率选择策略3；最后30000回合选择策略3。

a＝1-s/20000

b＝(s-20000)/50000

式中，s为当前回合数。随着回合数的增长，敌方无人机选择的策略逐渐变的复杂，这种由易到难渐变的过程更适合智能体学习。

随着训练次数的不断增加，可以观察到我方无人机获得的总的奖励越来越高，并且收敛到稳定状态。训练过程的平均奖励变化如图7所示：

由图7可发现，在训练前期奖励迅速提升，在约30000回合时趋于收敛。观察训练过程的奖励曲线，曲线一直在波动，收敛后也在一定范围震荡，分析原因有两点：第一，每回合仿对抗的初始条件都是随机设定，我方无人机初始状态可能处于优势也可能处于劣势，这对一回合结束时计算总的奖励值影响很大；第二，在选择动作时，为了增加探索性，避免智能体陷入局部最优，加入了随机扰动值，在保持利用已有经验的同时也在不断探索尝试，在学习过程中具有这种不确定性。

以下通过搭建的多无人机协同对抗环境进行可视化的验证与分析，初始环境随机选取。首先当敌方无人机选择匀速直线机动，双方无人机的初始状态信息如下表4所示：

表4

仿真出的飞行轨迹如图8(需要注意的是，图8以及后续的附图中，r₁和r₂表示协同作战的我方无人机，b₁表示敌方无人机)所示，敌方无人机一直保持着初始的运动方向飞行，两架我方无人机经过航向调整后稳定跟随在敌方无人机后方争取有利角度态势，并且逐渐缩短了与敌方无人机的距离。

接下来，敌方选择随机机动策略，初始状态如下表5所示：

表5

仿真出的飞行轨迹如图9所示，敌方无人机飞行过程出做出了一些机动动作，在爬升的同时向左侧偏转，两架我方无人机经过航向调整后依然稳定跟随在敌方无人机后方争取有利角度态势，并且逐渐缩短了与敌方无人机的距离。

最后敌方无人机选择采用MINMAX机动策略，其对抗目标选择离自己最近的我方无人机，初始状态如下表6所示：

表6

仿真出的飞行轨迹如图10所示，此时敌方无人机选择离自己距离较近的左侧我方无人机为对手，飞向对方，左侧我方无人机选择爬升的同时改变航向避开敌方无人机的攻击，向右侧我方无人机靠近，右侧我方无人机迅速改变航向飞向战场。可以看出，我方无人机在不知道对手机动策略的情况下已经具备的较好的自主对抗能力，并且相互之间有一些配合。

继续增加我方无人数量，分析多机协同对抗单目标训练效果，训练过程奖励值变化曲线如图11所示，随着我方无人机数量增加，训练过程奖励值波动变大。将三种机动策略训练100000回合神经网络收敛后，仿真验证执行网络的训练效果。仿真1000回合，双机协同胜率86.1％，发生危险碰撞率2.0％；三机协同胜率87.9％，发生危险碰撞率5.4％；四机协同胜率75.8％，发生危险碰撞率8.9％。三机协同胜率与双机协同胜率接近，但危险碰撞率翻倍，四机协同不仅危险碰撞率最高，胜率反而下降。分析原因一是智能体数量增多导致状态量数量增加，环境变化更复杂，学习效果降低；二是研究场景基于近距空中格斗，友机数量增加导致碰撞概率也大幅增加，对抗过程中同时学习避障也降低了学习效果。相比较后，双机协同对抗的效率和效果最高。

本方法利用MADDPG算法实现收敛后，通过大量试验观察，分析出我方无人机在一些状态下学会了一些协同策略，主要包括多机协同夹击战术、多机协同诱饵战术、多机协同防御分合战术。

第一、多机协同夹击战术；

参照图12和图13，首先观察仿真图，由图中可见，初始时，我方双机发现敌方无人机从前方飞过，双机都选择转向机动至敌机尾后攻击，且双机各选择敌机一侧攻击，这样即避免了因距离过近而发生碰撞，也从多方向限制住了敌机的运动方向。敌方无人机选择攻击左侧我方无人机，向左机动，左侧我方无人机左转防御，双方均未取得有利态势。另一架初始位于右侧的我方无人机趁机绕到敌方无人机后，锁定了敌机。通过大量类似仿真实例总结出夹击战术，示意图如下：

如图所示，在t₁时刻两架我方无人机迎面遇到一架敌方无人机，采取夹击战术，迫使敌方无人机在t₂时刻选择其中一架我方无人机作为攻击目标，如此另一架无人机可偏离战场，进行前置转弯在t₃时刻获得较大的进攻优势。若敌方无人机未选择进攻任何一架我方无人机，扔保持前飞，那么两架我方无人机均可转到敌后攻击。

第二：多机协同诱饵战术；

参照图14和图15，初始时刻，一架位于我方无人机编队后方的敌方无人机发起进攻，选择攻击离自己距离较近的右前方我方无人机。此时我方无人机处于不利状态，位于右侧被攻击的我方无人机迅速右转远离队友，之后多次变换航向使敌方无人机无法成功锁定攻击。与此同时另一架我方无人机右转机动至敌方无人机身后占据有利位置准备发起攻击。

根据此类仿真结果分析总结出无人机诱饵战术，战术示意如下：

当一架我方无人机被敌方无人机尾追处于劣势时，应选择朝向远离队友的方向机动，并通过适时机动吸引敌人注意力，此时另一架我方无人机应立即调整角度，占据有利位置对敌方无人机发动攻击。初始方位对我方无人机不利，但是通过战术配合充分发挥数量优势，一架我方无人机与敌方无人机缠斗为队友制造攻击机会，取得战场优势。给制定战术的启示是，进入战场空域后无人机编队时距离不可以太近，探测方位要全面，避免被敌突袭同时击毁。

第三：多机协同防御分合战术；

参照图16和图17，依然是敌方无人机出现在我方无人机编队后方，但并没有做出决策选择攻击对手，只是保持航向继续跟踪。此时我方双机突然分开向两边机动，绕行一圈后待敌机冲向前方后再次汇合，从两个不同的方向夹击敌人。

总结的战术示意如下：当敌方无人机处于我方无人机后方且不能判明会攻击哪架我方无人机时，我方无人机水平或纵向分离，迷惑敌机，待到时机合适而后汇合从不同角度夹击敌方无人机。若机动过程中敌方无人机追击其中一架我方无人机，则情况类似于协同诱饵战术，被追击的我方无人机与敌机缠斗为另一架我方无人机创造攻击机会。

相较于单机的自主机动策略，单机机动多倾向速度变化和转弯机动寻找机会取得战场优势，多机协同更倾向于在上三维空间构成方位角优势态势。夹击战术和防御分合战术有效的原因与机载武器系统的攻击模型有很大关系，武器攻击模型具有攻击角度和范围限制，实施夹击战术时可扩大火力威胁范围；实施防御分合战术也是利用了敌方无人机武器攻击角度限制，无法同时攻击分离的所有我方无人机。

本方法首先基于多无人机协同对抗系统中的无人机信息建立多我方无人机协同对抗条件下的马尔可夫博弈模型，然后基于MADDPG算法对马尔可夫博弈模型进行训练，使用改进的MADDPG算法为每一架我方无人机设置一组执行器网络和评价器网络，利用集中训练，分散执行的策略，训练学习时给予一个获取全局状态信息的评价器网络指导我方无人机训练，输出具体机动动作的执行器只获取局部观测状态信息，在评价器网络指导下通过逐渐收敛到合适的网络参数，使我方无人机在未知和动态的对抗环境中不断重复“探索”、“学习”、“决策”的过程，不断提高在空战对抗中的自主决策能力，取得战场有利态势，而且本方法的收敛速度快，决策时间短。

在本方法应用场景中，我方无人机仅通过自身传感器得到观测到局部状态信息，我方无人机不知道下一时刻协同无人机的策略，在训练时由于协同无人机策略在不断变化，而且我方无人机各自策略不互通，在这种变化的环境下自身也无法学到稳定策略，导致训练失败，本方法利用“集中训练，分散执行”的解决思路，利用MADDPG算法采用全局状态信息估计智能体的动作值函数(训练学习时给予一个获取全局状态信息的评价器指导无人机训练，输出具体机动动作的执行器只获取局部信息，在评价器指导下通过尝试逐渐收敛到合适的网络参数)，较为有效解决了多智能体强化学习所面临的环境的非静态性问题；仅用自身局部观测状态信息表示智能体的策略，这种方式能使智能体在训练阶段充分利用全部数据信息，而实际执行策略时，不必共享彼此的动作等信息。

仿真结果表明，本方法能够求解出符合预期的无人机运动策略，具备可行性。而且本申请实施例还通过对仿真结果的分析与研究，总结出多无人机协同夹击、诱饵战术、防御分合等协同战术。

本申请的一个实施例，提供了一种电子设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

需要说明的是，本实施例中的电子设备能够构成上述系统实施例中的系统架构的一部分，这些实施例均属于相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。

实现上述实施例的多无人机协同对抗方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例方法，例如，执行以上描述的图2中的方法步骤S100至S300。

以上所描述的终端实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本申请实施例的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述系统实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的多无人机协同对抗方法，例如，执行以上描述的图2中的方法步骤S100至S300。又如，被上述设备连接器实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的多无人机协同对抗方法，例如，执行以上描述的图2中的方法步骤S100至S300。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种多无人机协同对抗方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的多无人机协同对抗方法，其特征在于，所述马尔可夫博弈模型由状态空间、动作空间、奖励函数以及状态转移函数构成；所述状态空间包括每一架我方无人机的局部观测状态和所有无人机的全局状态，所述动作空间包括无人机的切向过载、法相过载和滚转角速度，所述状态转移函数用于表征已知当前时刻的全局状态和所有无人机的动作后，下一时刻处于不同状态的概率分布，所述奖励函数用于表征全局状态和动作到回报值的映射。

3.根据权利要求2所述的多无人机协同对抗方法，其特征在于，所述奖励函数的单步奖励公式为：

R＝r_lock+k₁r₁+k₂r₂+r_c

r₁＝-(p_r+e_r)/2π

其中，r_lock表示锁定奖励，D_adv表示我方无人机与敌方无人机之间的空间距离，D′表示我方协同无人机与敌方无人机之间的空间距离，D^*表示满足锁定成功时，两机最小距离，p_r表示我方无人机速度方向偏离指向敌方无人机质心方向的夹角，e_r表示敌方无人机速度方向偏离我方无人机指向其质心方向视线矢量的夹角，p^*表示满足锁定成功时，攻击方无人机速度方向偏离指向防御方无人机质心方向的最大夹角，e^*表示满足锁定成功时，防御方无人机速度方向偏离攻击方无人机指向防御方无人机质心方向的最大夹角，p′_r表示我方协同无人机速度方向偏离指向敌方无人机质心方向的夹角，e′_r表示敌方无人机速度方向偏离我方协同无人机指向其质心方向视线矢量的夹角，r₁表示角度优势奖励，D_max表示无人机的最大探测距离，r₂表示距离优势奖励，k₁，k₂表示权值且k₁+k₂＝1，r_c表示两架协同的我方无人机之间的距离小于预设的最小安全距离时的碰撞惩罚。

4.根据权利要求1所述的多无人机协同对抗方法，其特征在于，所述我方无人机的局部观测状态信息包括我方无人机的自身状态信息、敌方无人机的状态信息以及我方协同无人机的状态信息，其中，所述我方无人机的自身状态信息包括我方无人机的速度、航迹倾角、航迹偏角和速度滚转角；所述敌方无人机的状态信息包括敌方无人机的速度、航迹倾角、航迹偏角以及我方无人机与敌方无人机之间距离、视线的水平偏角和纵向傾角；所述我方协同无人机的状态信息包括我方协同无人机的速度、航迹倾角、航迹偏角以及我方无人机与我方协同无人机之间距离、视线的水平偏角和纵向傾角。

5.根据权利要求1所述的多无人机协同对抗方法，其特征在于，所述MADDPG算法的激活函数为Relu函数，所述Relu函数表示为：f(x)＝max(0，x)。

6.根据权利要求5所述的多无人机协同对抗方法，其特征在于，所述执行器网络和所述评价器网络均由输入层、隐藏层和输出层组成，其中所述隐藏层的数量为两层。

7.根据权利要求6所述的多无人机协同对抗方法，其特征在于，还包括：训练过程中所述执行器网络输出我方无人机的机动动作基础上添加满足高斯分布的随机噪声。

8.根据权利要求6所述的多无人机协同对抗方法，其特征在于，还包括：所述执行器网络和所述评价器网络根据预设的软更新参数进行软更新学习。

9.一种多无人机协同对抗系统，其特征在于，所述多无人机协同对抗系统包括多架我方无人机和一架或多架敌方无人机，每一架我方无人机设置有存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现：如权利要求1至8任一项所述的多无人机协同对抗方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行：如权利要求1至8任一项所述的多无人机协同对抗方法。