CN114167756A

CN114167756A - 多无人机协同空战决策自主学习及半实物仿真验证方法

Info

Publication number: CN114167756A
Application number: CN202111639119.XA
Authority: CN
Inventors: 马耀飞; 赵丽平; 冯旭焘; 龚光红; 李妮; 宋晓; 王江云
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-08
Filing date: 2021-12-29
Publication date: 2022-03-11
Anticipated expiration: 2041-12-29
Also published as: CN114167756B

Abstract

本发明为一种多无人机协同空战决策自主学习及半实物仿真验证方法，属于智能空战决策技术领域。本发明包括：采用马尔可夫博弈过程对多无人机协同空战决策问题建模；改进QMIX框架建立多无人机协同空战决策网络模型，改进模型学习框架；采用Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC建立半实物仿真验证环境。本发明显著提高多无人机空战决策学习的效率，能加快决策网络模型收敛速度，解决了多无人机协同空战策略的学习和验证问题，实现了多无人机协同空战策略的自学习、自改进和试验验证的整体方案。

Description

多无人机协同空战决策自主学习及半实物仿真验证方法

技术领域

本发明属于智能空战决策技术领域，具体涉及一种用于多无人机自主学习协同空战策略及半实物仿真验证方法。

背景技术

多无人机的自主协同空战问题一直受到军事领域关注。传统的自主空战决策方法，包括博弈论方法、优化理论方法、知识决策方法等，都没能很好地解决多无人机环境下空战的协同决策问题。例如，博弈论方法和优化理论方法都对参与决策的个体数量敏感，其计算复杂度随决策数量的增加呈指数增加；知识决策方法则需要通过复杂的知识工程获取决策知识，而众所周知的是，这一过程通常需要耗费大量的人力、财力。

基于深度强化学习的自学习方法为解决多无人机协同空战决策问题提供了新思路。深度强化学习方法无需事先准备领域知识，可以通过与环境的交互从零开始自我学习，持续提高决策水平，甚至创造出全新的战术。训练好的网络模型在实际使用时具有较好的实时性。目前，面向多Agent(代理)学习的QMIX框架能用于学习多无人机协同空战策略，但仍有学习过程收敛慢(甚至不收敛)、学习鲁棒性差等问题。

此外，为了高效率地为多机协同空战学习提供大量数据，并在高可信度环境中验证学习结果，有必要建立高可信度的仿真验证平台。半实物仿真又称硬件在回路(HardwareIn The Loop,HITL)仿真，是指将研究对象的部分硬件实物加入仿真系统开展仿真试验的技术，比数字仿真具备更高的准确性和真实性，但同时也比实物验证更加便利、消耗更少，是实验室研究与实际部署应用之间必须的一个环节。

发明内容

为了更高效地获取多无人机协同空战策略以验证策略，本发明提出一种多无人机协同空战决策自主学习及半实物仿真验证方法。本发明方法提出了一种新颖的多无人机协同空战决策自主学习方法，以实现显著改进QMIX框架学习效率，改进多无人机协同空战策略的自主学习问题，达到能更快获取多无人机协同空战决策的目的；同时，本发明还提出一种与之配套的半实物仿真验证环境设计方案，共同解决了多无人机协同空战策略的学习和验证问题。

本发明的一种多无人机协同空战决策自主学习及半实物仿真验证方法，包括：

(1)建立多无人机协同空战决策系统模型；

将多无人机协同空战决策问题建模为马尔可夫博弈过程，设计马尔可夫博弈中的状态空间、动作空间和即时回报函数；

(2)采用改进的QMIX框架建立多无人机协同空战决策网络模型，改进模型学习框架，对模型进行学习；

建立的多无人机协同空战决策网络模型包括：首先，为每架无人机建立单独的动作价值网络Q_i(o_i,a_i)，其中o_i、a_i分别表示无人机i的观测状态和动作。其次，为多无人机建立价值混合网络，价值混合网络包含一个全局动作价值函数网络Q_total(s,a)和一个超参数网络，s、a分别表示全局状态和多无人机联合动作，超参数网络则用于生成全局动作价值函数网络的参数。无人机个体的动作价值网络Q_i(o_i,a_i)、全局动作价值函数网络Q_total(s,a)以及超参数网络共同构成了学习框架的当前网络。

模型学习框架中，将当前网络复制一份作为学习框架的目标网络，用于计算损失函数。在无人机的动作选择模块中，使用ε-greedy策略设置无人机的动作选择策略，同时加入动作掩码机制防止无人机选择到不合理的机动动作。

在设置动作选择策略时，除了随机策略、强化学习网络之外，加入“Min-Max策略”作为“教师”教导无人机在巨大状态空间中如何决策，以获得最大回报，加快学习速度。在学习时，产生0-1之间的随机数p，当p≤ε/2时，调用Min-Max策略；当ε/2<p≤ε时，调用随机策略；当ε<p<1时，调用多无人机协同空战策略决策模型；超参数ε的值域为[0,1)，随仿真轮次的增加而逐渐减小。

基于上述措施，在学习前期，无人机能快速找到合理的行动策略；在学习后期，无人机主要使用学习到的多机空战决策网络模型，而不再依赖“Min-Max策略”教导。

(3)建立半实物仿真验证环境；

半实物仿真验证环境主要包括Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC等。本发明以六自由度四旋翼无人机为对象，由Pixhawk飞控板完成对无人机的飞行控制，在仿真软件Gazebo中构建无人机数字模型的动力学和视觉传感器部分，并运行在桌面计算机上。Pixhawk飞控板和仿真软件Gazebo通过USB线或者USB-串口转接线连接。地面站软件QGC用于为无人机下达模式指令，以及实时显示无人机的二维轨迹、状态和指令信息等。

在半实物仿真验证时，无人机启用Offboard模式，接收空战仿真进程下发的指令，包括多无人机协同空战策略决策模型决策的无人机机动动作以及无人机起飞、返航指令等。地面站软件QGC中，空战仿真进程作为一个独立的ROS节点运行，支持ROS通信协议，Pixhawk飞控板支持MAVLink通信协议，Pixhawk飞控板与ROS节点之间通过MAVROS通信节点实现通信。

相对于现有技术，本发明的优点和积极效果在于：

(1)本发明方法提供了实现了多无人机协同空战策略的自学习、自改进和试验验证的整体方法，解决了多无人机协同空战策略的学习和验证问题；

(2)本发明方法改进了多无人机协同空战学习方法，显著提高了多无人机空战决策学习效率，收敛速度快，将能更快获得协同空战策略；

(3)本发明方法利用Pixhawk飞控板实物和相关多种软件，通过集成设计，建立了一个可信度高、扩展性好的学习训练和仿真验证环境，并可推广用于一般性的多Agent协同任务决策学习的仿真验证。

附图说明

图1是本发明的多无人机协同空战策略学习和半实物仿真方法的整体实现示意图；

图2是本发明实施例为四旋翼无人机空战建立的7种机动动作示意图；

图3是本发明改进的多无人机协同空战决策网络模型的学习框架示意图；

图4是本发明提出的通过“课程学习”加快学习速度方式的示意图；

图5是本发明提出的多无人机协同空战半实物仿真验证环境的组成结构图；

图6是本发明实施例在半实物仿真环境中对协同空战决策模型仿真验证的示意图；

图7是在训练过程中每隔100轮对本发明决策网络模型测试交战100局红方无人机的胜负情况示意图；

图8中a和b是利用半实物仿真验证环境验证过程中两张红蓝双方对抗图。

具体实施方式

下面将结合附图和实施例详细说明本发明技术方案。

本发明提出的多无人机协同空战决策自主学习及半实物仿真验证方法，如图1所示，主要包括三部分：建立多无人机协同空战决策系统模型，改进多无人机协同空战策略学习方法，建立半实物仿真验证环境。下面分别对应三个步骤来说明。

步骤1：建立多无人机协同空战决策系统模型。多无人机协同空战决策系统模型是指对多机空战问题进行数学建模。

本发明将多无人机协同空战决策问题建模为马尔可夫博弈过程，可用以下六元组定义：

(N,S,{Aⁱ}_i∈N,P,Rⁱ,γ) (1)

其中，N＝{1,…,m}表示红方m(m>1)个智能体的集合，每架无人机为一个智能体，S表示所有智能体观测到的联合状态空间，Aⁱ表示智能体i的动作空间，令所有智能体的联合动作空间A:＝A¹×…×Aⁿ，则P:S×A→Δ(S)代表在采取任意联合动作a∈A后从任意状态s∈S到任意状态s′∈S的转移概率；

是回报函数，决定智能体i从(s,a)转移到s′时收到的即时回报；γ∈[0,1]是折扣因子。

本发明多无人机协同空战决策问题中，对马尔可夫博弈中的状态空间S、动作空间A、即时回报函数Rⁱ等要素进行设计，如下：

(1)状态空间设计。对于一架无人机而言，其状态可用位置、速度、姿态三个矢量描述。设大地平面坐标系下无人机的位置矢量pos、速度矢量vel、姿态矢量euler如下：

其中，

·x,y,z和vx,vy,vz分别代表无人机在x轴、y轴、z轴三个方向的位置和速度；

·

表示无人机的滚转角，向右滚转为正；

·θ∈[-π/2,π/2]表示无人机的俯仰角，向上为正；

·ψ∈[-π,π]表示无人机的偏航角，向右为正。

状态向量的设计离不开空战胜负的判定。空战对抗过程中，当无人机处于完全优势状态时，判定其打击的目标无人机被击毁，不再参与对抗。本发明实施例中，我方无人机为红方，敌机为蓝方，我机处于完全优势的判定条件如下：

其中，R表示我机与敌机在三维空间中的欧式距离，此处m为单位米；AA表示脱离角，是敌机机尾方向与我机和敌机连线的夹角。|AA|<π/3时，我机对敌机尾部进行攻击的命中概率高。ATA表示攻击角，是我机机头方向与我机和敌机连线的夹角。|ATA|<π/6时，敌机摆脱我机雷达锁定的可能性较小。

本发明中为了便于机动动作的设计，令无人机执行完机动动作后沿z轴(高度方向)的速度、俯仰角、滚转角为0。因此无人机决策时可以忽略沿z轴的速度分量、俯仰角和滚转角这三个状态量。此外，在设计状态向量时仅使用我方无人机与敌方无人机的相对态势信息。

其中，

m和n分别代表红方无人机和蓝方无人机的总数量；

j表示蓝方无人机的序号，k表示红方无人机中除i之外的无人机的序号，即红方无人机的友机；

oⁱ表示红方第i架无人机的观测状态；s为红方无人机的观测状态集合；

x_i,y_i,z_i,vx_i,vy_i,ψ_i表示红方第i架无人机在x,y,z轴三个方向的位置、x轴和y轴方向的速度以及偏航角；

Δx_ij,Δy_ij,Δz_ij,Δvx_ij,Δvy_ij，|AA|_ij,|ATA|_ij表示红方第i架无人机与蓝方第j架无人机在x,y,z轴三个方向的相对距离、x,y轴方向的相对速度、红方第i架无人机攻击蓝方第j架无人机时的脱离角和攻击角的绝对值；

Δx_ik,Δy_ik,Δz_ik,Δvx_ik,Δvy_ik,Δψ_ik表示红方第i架无人机与友机第k架无人机在x,y,z轴三个方向的相对距离、x,y轴方向的相对速度以及相对偏航角。

(2)动作空间设计。动作空间包含匀速前飞，减速前飞，加速前飞，左转，右转，爬升，俯冲7种机动动作，如图2所示。

(3)即时回报函数设计。本发明设计的即时回报函数包括空战对抗结束时依据空战结果评定的离散回报和空战过程中根据双方态势实时引导红方无人机决策的连续回报。

令m和n分别表示红方无人机和蓝方无人机的总数量，首先定义红方任意一架无人机R_i(1≤i≤m)相对蓝方任意一架无人机B_j(1≤j≤n)的优势函数

为：

式(5)综合考虑了角度优势与距离优势，k₁,k₂分别代表角度优势与距离优势的权重因子，满足k₁+k₂＝1；d_ij表示无人机R_i(1≤i≤m)与B_j(1≤j≤n)在三维空间中的欧式距离。

本发明实施例中提供两种场景，第一种是两架红方无人机与一架蓝方无人机进行空战对抗，简称二对一；第二种是两架红方无人机与两架蓝方无人机进行空战对抗，简称二对二，因此回报函数将针对红方无人机总数量m＝2，蓝方无人机总数量n＝1和n＝2两种情况分别考虑。

当蓝方无人机总数量n＝1，设计回报函数rew如下：

(6)式中考虑了红方无人机被蓝方摧毁时得到的惩罚、摧毁蓝方无人机时得到的奖励及中间过程的连续回报，中间过程的回报函数设置为红方两架无人机对蓝方无人机优势函数的和，再在此基础上减去一个常数因子0.1，是为了令红方无人机学习用尽可能少的决策次数获取空战的胜利。

表示红方任意一架无人机相对蓝方无人机B_j的优势函数值。

当蓝方无人机总数量n＝2，设计即时回报函数rew如下：

当战场上红蓝双方各无人机都没被击毁时，回报函数将引导红方无人机自行进行目标分配，分别去攻击两架蓝方无人机。分配的原则是选取优势函数之和较大的一种方案，若

回报函数将引导红方无人机R₁攻击蓝方无人机B₁，红方无人机R₂攻击蓝方无人机B₂；否则，R₁攻击B₂，R₂攻击B₁。

如上，当战场上仅剩一架红方无人机、两架蓝方无人机全部存活时，此时红方无人机需综合考虑对两个目标进行攻击，中间回报设计为红方无人机对各蓝方无人机优势函数的均值再减去一个常数因子。当战场上仅剩一架蓝方无人机、两架红方无人机全部存活时，中间回报为红方两架无人机对蓝方无人机优势函数之和减去一个常数因子。当战场上仅剩一架蓝方无人机和一架红方无人机时，空战对抗简化为一对一，中间回报设计为红方无人机对蓝方无人机的优势函数减去常数因子。

步骤2：改进多无人机协同空战策略学习方法。多无人机协同空战策略学习方法基于QMIX模型的学习训练方法，本发明对多Agent学习框架QMIX进行多项创新性改进，建立了训练效率更高的多无人机协同空战决策网络模型的学习框架。

本发明建立的改进的多无人机协同空战决策网络模型的训练框架如图3所示，首先为每架无人机建立单独的动作价值函数网络Q_i(oⁱ,aⁱ)，如图3中101所示，其中oⁱ、aⁱ分别表示无人机i的观测状态和动作；其次，为多个无人机建立价值混合网络，如图3中102所示，价值混合网络包含一个全局动作价值函数网络Q_total(s,a)和一个超参数网络，其中，s，a分别表示全局状态和多无人机联合动作；超参数网络则用于生成全局动作价值函数网络的参数。无人机个体的动作价值网络Q_i(oⁱ,aⁱ)、全局动作价值函数网络Q_total(s,a)以及超参数网络共同构成了学习框架的“当前网络”。将当前网络复制一份作为学习框架的“目标网络”，用于计算损失函数。“当前网络”即多无人机协同空战决策网络模型。

利用图3所示框架开展训练构建和学习过程，如下步骤2.1～2.3所述。

步骤2.1：构建当前网络和目标网络，如图2中的标号1和2所示。标号1代表当前网络，标号2代表目标网络。标号1网络的组成如上所述。

步骤2.2：设计动作选择策略，动作选择模块如图1中标号3所示。

(2.2.1)确定无人机在环境中的探索策略。

动作选择策略需要考虑智能体探索与利用之间的折中平衡，本发明使用ε-greedy策略用来平衡探索与利用，如图4所示。

本发明方法基于“课程学习”措施显著提高了多无人机空战决策学习的效率。本发明采取的该创新措施，在前期学习中，侧重于对状态空间的探索。动作选择模块的输入是无人机的观测状态，输出无人机动作。如图4所示，除了随机策略、强化学习网络(决策网络模型)之外，加入“Min-Max策略”作为“教师”教导无人机在巨大状态空间中如何决策，加快学习速度。决策网络模型是指基于QMIX框架实现的当前网络。

如图4所示，加入Min-Max策略，在学习时，产生0-1之间的随机数p，当p≤ε/2时，调用Min-Max策略；当ε/2<p≤ε时，调用随机策略，当ε<p<1时，调用决策网络模型。

使用“Min-Max策略”进行教导的频次由超参数ε和随机数p决定。其中，超参数ε的值域为[0,1)，随仿真轮次的增加而逐渐减小；p为0-1之间的随机数，每次都要进行采样。

Min-Max策略的基本思想是：在博弈双方信息完全可知的情况下，逐一遍历己方所有可选择的决策方案，在每一种决策方案下，遍历推演对方所有可执行的策略，从而计算出己方所有可选择的决策方案相对应的对方收益的最大值，选择最大收益值中最小的一个对应的己方决策作为当前时刻己方实际执行的决策方案。

本发明加入Min-Max策略后，对学习主体(即无人机)获得优质训练样本作用巨大。优质样本是指有助于使学习主体获得最大回报的学习样本。例如，在一个红蓝无人机二对二的对抗场景中，红方作为学习主体，很难在前期训练中获得对蓝方占优的行动决策，因而学习效率极为缓慢。采用图4所示的方法，则能够使学习主体在早期探索中也能积累一些质量较优的决策样本，引导学习主体快速发现最优行动策略。于此同时，该方式也仍然保留了随机探索能力，有效防止陷入局部最优解。在未加入Min-Max策略前，网络收敛不了，本发明通过前期学习加入课程学习措施大大加快了学习效率，收敛速度快。

(2.2.2)引入动作掩码。

从具体实现的角度，无人机在空战中加入了速度和高度约束：最大速度不能超过14米/秒，最小不低于2米/秒。此外，为防止无人机坠地，设定其高度不得低于15米。如果通过网络训练令无人机学习这些约束，会极大地减缓训练效率、增加训练成本。

本发明在动作选择策略中加入动作掩码，利用先验知识人为屏蔽不合理动作，减少训练的复杂性。例如，当无人机速度为14米/秒时，再次执行加速前飞动作是不合理的。类似地，当无人机速度为2米/秒时，执行减速前飞动作也是不合理的；当无人机高度小与等于15米时，俯冲当作也是不合理的。动作掩码将不合理动作对应的价值Q设置成绝对值很大的负数，保证该值比所有合理动作的Q值都小。这样，当通过贪婪原则选取最优行动a＝argmax_aQ_i(oⁱ,aⁱ)时，不合理动作就不会被选到。

步骤2.3：对设计的如图3所示的多机空战决策框架进行训练。

(2.3.1)以红方无人机为学习主体，为蓝方无人机事先指定已有的空战策略。对本发明提出的学习模型网络超参数进行合理设置，如表1所示。设置红蓝方无人机的初始态势。

表1参数含义

超参数	含义	超参数	含义
				γ	折扣因子	learning_rate	学习率
targetNet_update_freq	目标网络更新频率	ε<sub>0</sub>	探索程度初始值
				memory_size	经验池容量	ε<sub>decay</sub>	探索程度衰减速率
batch_size	单次训练选取的样本数	ε<sub>min</sub>	探索程度衰最小值

(2.3.2)令红蓝双方进行空战对抗，将空战过程数据以＜s,a,s′,r＞的样式加到经验池中，如图3中的标号4所示。其中，s表示战场全局状态，为各无人机的本地观测信息集合；a表示各无人机的联合动作；s′表示无人机执行动作后的后续全局状态；r表示无人机执行动作后环境反馈的即时回报；

(2.3.3)如果经验池中数据量小于batch_size，返回(2.3.2)，否则执行(2.3.4)；

(2.3.4)在经验池中随机抽取batch_size大小的样本，用于网络训练。将无人机各观测输入到其动作价值函数网络中，得到样本中动作对应的状态动作值Q_i(oⁱ,aⁱ)，将全局状态s输入到超参数网络中，输出全局动作价值函数网络的权值和偏重。其中，为了保证每个无人机的最优动作恰好是全局最优动作的一部分，超参数网络输出的全局动作价值函数网络的权值必须是非负的，确保：

令Q_total(s,a)和Q_i(oⁱ,aⁱ)之间的关系满足单调性。将状态动作值Q_i(oⁱ,aⁱ)输入到全局动作价值函数网络中，输出全局动作价值Q_total(s,a)。将后继全局状态s′中的各观测状态输入到其目标动作价值函数网络中，得到最大的状态动作价值max_aQ_i ^-(o_i',a_i)，将后继状态s′输入到目标超参数网络中，输出目标全局动作价值函数网络的权值和偏重，将max_aQ_i ^-(o_i',a_i)输入到目标全局动作价值函数网络中，输出全局动作价值

图3中的5表示损失函数，其计算方式如下：

其中，M＝batch_size，表示抽取的样本数量。得到损失函数后，计算梯度进行反向传播并更新当前网络的参数。r_j表示第j个样本的即使回报，

表示由状态s′输入目标全局动作价值函数网络，输出得到的最大全局动作价值。

(2.3.5)判断目标网络是否应该更新，如是则复制当前网络的参数，否则执行(2.3.7)；对当前网络更新达到设定轮数时，将更新目标网络，复制当前网络参数给目标网络；

(2.3.6)判断空战是否结束，若是执行(2.3.7)，否则返回(2.3.3)；

(2.3.7)判断是否满足停止训练的条件，若是则终止当前流程，否则返回(2.3.3)。

在训练完成后，利用当前网络来进行空战决策。

步骤3：在半实物仿真环境中运行验证。

步骤3.1：搭建如图5所示的半实物仿真环境；

本发明实施例以六自由度四旋翼无人机为对象，建立包含Pixhawk飞控板(硬件)、仿真软件Gazebo、地面站软件QGC(QGround Control)的HITL试验验证环境。多无人机协同空战策略决策模型运行在地面站软件QGC上。

六自由度四旋翼无人机数字模型由Gazebo提供动力学、视觉传感器部分，运行在桌面计算机上；飞行控制则由Pixhawk飞控板完成。两者通过USB线或者USB-串口转接线连接。

地面站软件QGC用于为无人机下达模式指令，以及实时显示无人机的二维轨迹、状态和指令信息等。无人机启用Offboard模式(外部模式)，接收空战仿真进程下发的指令，包括协同空战决策的机动动作、起飞、返航等。空战仿真进程作为一个独立的ROS节点运行，支持ROS通信协议，Pixhawk飞控板支持MAVLink通信协议，二者之间通过MAVROS通信节点实现通信。Pixhawk与其他各软件直接基于MAVLink协议通信。

步骤3.2：按顺序启动四旋翼无人机、MAVROS通信节点和空战仿真进程控制节点，实现多无人机空战对抗半实物仿真。其中，红方无人机使用学习得到的协同空战决策模型，而蓝方无人机采用预先指定的决策模型。

半实物仿真的一个实现流程如图6所示。开始时，空战环境初始化。令各无人机解锁并切换到Offboard模式，到达初始设定的目标位置，以设定速度平飞20米，开始空战对抗。空战仿真进程通过MAVROS节点获取无人机的位姿和速度信息，将其转换到Gazebo中的世界坐标系下使用；将红蓝双方的决策结果通过MAVROS节点发送给Pixhawk飞控板，控制无人机执行作战机动；执行结束后则给出下一个决策结果。空战仿真进程在无人机动作执行结束后，通过MAVROS节点获取无人机的位姿和速度信息，持续判断无人机是否被击毁、空战是否结束等状态。若无人机被击毁，令被摧毁的无人机返航；若空战结束，令所有无人机返回，否则，重复上述空战机动决策和无人机执行动作过程直至对抗结束。

如图7所示，为训练过程中每隔100轮对采用本发明方法构建的当前模型测试交战100局红方无人机的胜负情况，横坐标代表训练轮次，纵坐标代表交战100局的胜负次数。图中3条曲线分别代表红方获胜(win)、平局(draw)、失败(lose)的次数。在加入“Min-Max策略”前，智能体产生的样本质量不够高，网络无法收敛；加“Min-Max策略”后，大大提高了智能体的学习效率，网络在训练9000轮左右时收敛，与蓝方对战可取得90％左右的胜率。

利用半实物验证环境可以验证完整的红蓝双方对抗过程，证明红方能够成功击败蓝方，说明本发明提出的空战决策方法是有效的。如图8中a和b所示两张空战对抗图，图中的左侧是地面站软件，右侧是仿真器Gazebo。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述，以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式，在本发明技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims

1.一种多无人机协同空战决策自主学习及半实物仿真验证方法，其特征在于，包括：

(1)将多无人机协同空战决策问题建模为马尔可夫博弈过程，确定马尔可夫博弈中的状态空间、动作空间和即时回报函数；

(2)采用QMIX框架建立多无人机协同空战决策网络模型，并改进模型学习框架；

建立的多无人机协同空战决策网络模型包括：首先，为每架无人机建立单独的动作价值网络Q_i(o_i,a_i)，其中o_i、a_i分别表示无人机i的观测状态和动作；其次，为多无人机建立价值混合网络，价值混合网络包含一个全局动作价值函数网络Q_total(s,a)和一个超参数网络，其中s、a分别表示全局状态和多无人机联合动作，超参数网络用于生成全局动作价值函数网络的参数；无人机个体的动作价值网络Q_i(o_i,a_i)、全局动作价值函数网络Q_total(s,a)以及超参数网络共同构成了学习框架的当前网络；

模型学习框架中，将当前网络复制一份作为学习框架的目标网络，用于计算损失函数；在无人机的动作选择模块中，使用ε-greedy策略设计动作选择策略，加入Min-Max策略，同时加入动作掩码机制；在前期学习中，利用Min-Max策略教导无人机如何决策，以获取最大回报；通过动作掩码机制防止无人机选择到不合理的机动动作；

(3)建立半实物仿真验证环境，对多无人机协同空战策略决策模型进行仿真验证；

所述半实物仿真验证环境包括Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC；Pixhawk飞控板用于控制无人机飞行，仿真软件Gazebo用于建立无人机数字模型的动力学和视觉传感器部分，地面站软件QGC用于为无人机下达模式指令，以及实时显示无人机的二维轨迹、状态和指令信息；Pixhawk飞控板和仿真软件Gazebo通过USB线或者USB-串口转接线连接。

2.根据权利要求1所述的方法，其特征在于，所述的(1)中，对马尔可夫博弈中的状态空间、动作空间和即时回报函数进行如下设计：

(1.1)状态空间设计：无人机的状态用位置、速度和姿态三个矢量描述；红方无人机处于完全优势的判定条件为：

其中，R表示红机与蓝机在三维空间中的欧式距离；AA表示脱离角；ATA表示脱离角；状态向量使用红方无人机与蓝方无人机的相对态势信息来描述，如下：

红方第i架无人机的观测状态

oⁱ＝{Δx_ij,Δy_ij,Δz_ij,Δvx_ij,Δvy_ij，|AA|_ij,|ATA|_ij,Δx_ik,Δy_ik,Δz_ik,Δvx_ik,Δvy_ik,Δψ_ik|j＝1,2,…,n,k＝1,2,…,m且k≠i}

其中，Δx_ij,Δy_ij,Δz_ij,Δvx_ij,Δvy_ij，|AA|_ij,|ATA|_ij表示红方第i架无人机与蓝方第j架无人机在x,y,z轴三个方向的相对距离、x,y轴方向的相对速度、红方第i架无人机攻击蓝方第j架无人机时的脱离角和攻击角的绝对值；Δx_ik,Δy_ik,Δz_ik,Δvx_ik,Δvy_ik,Δψ_ik表示红方的第i架无人机与第k架无人机在x,y,z轴三个方向的相对距离、x,y轴方向的相对速度以及相对偏航角；

(1.2)动作空间设计：无人机的动作空间包含匀速前飞，减速前飞，加速前飞，左转，右转，爬升，俯冲7种机动动作；

(1.3)即时回报函数设计：即时回报函数包括空战对抗结束时依据空战结果评定的离散回报和空战过程中根据双方态势实时引导红方无人机决策的连续回报。

3.根据权利要求1或2所述的方法，其特征在于，所述的(1)中，针对如下两种场景设计的即时回报函数分别为：

(一)两架红方无人机与一架蓝方无人机进行空战对抗的场景，即时回报函数rew如下：

其中，m表示红方无人机数量，取值为2；R_i表示红方第i架无人机；B_j表示蓝方第j架无人机，j＝1；

表示红方无人机R_i相对蓝方无人机B_j的优势函数值；

(二)两架红方无人机与两架蓝方无人机进行空战对抗的场景，即时回报函数rew如下：

其中，n表示蓝方无人机数量，取值为2；

优势函数

的计算如下：

其中，k₁,k₂分别代表角度优势与距离优势的权重因子，满足k₁+k₂＝1；d_ij表示红方无人机R_i相对蓝方无人机B_j在三维空间中的欧式距离。

4.根据权利要求1所述的方法，其特征在于，所述的(2)中，使用ε-greedy策略设计动作选择策略，在学习时，产生0-1之间的随机数p，当p≤ε/2时，调用Min-Max策略；当ε/2<p≤ε时，调用随机策略；当ε<p<1时，调用多无人机协同空战策略决策模型；超参数ε的值域为[0,1)，随仿真轮次的增加而逐渐减小。

5.根据权利要求1所述的方法，其特征在于，所述的(2)中，加入的动作掩码机制包括：

无人机在空战中，最大速度不能超过14米/秒，最小速度不低于2米/秒；

无人机的飞行高度不得低于15米。

6.根据权利要求1所述的方法，其特征在于，所述的(3)中，在半实物仿真验证环境中，无人机启用Offboard模式，接收空战仿真进程下发的指令，包括多无人机协同空战策略决策模型决策的无人机动作以及无人机起飞、返航指令；地面站软件QGC中，空战仿真进程作为一个独立的ROS节点运行，支持ROS通信协议，Pixhawk飞控板支持MAVLink通信协议，Pixhawk飞控板与ROS节点之间通过MAVROS通信节点实现通信。

7.根据权利要求6所述的方法，其特征在于，所述的(3)中，按顺序启动无人机、MAVROS通信节点和空战仿真进程ROS节点；半实物仿真开始时，首先初始化空战环境，令各无人机解锁并切换到Offboard模式，到达初始设定的目标位置，以设定速度平飞20米，开始空战对抗；空战对抗仿真过程为：

空战仿真进程通过MAVROS通信节点获取无人机的位姿和速度，并转换到仿真软件Gazebo中的世界坐标系下使用；将对战双方的决策结果通过MAVROS通信节点发送给Pixhawk飞控板，控制无人机执行机动动作；空战仿真进程在无人机动作执行结束后，通过MAVROS通信节点获取无人机的位姿和速度，判断无人机状态，若无人机被击毁，令被摧毁的无人机返航；若空战结束，令所有无人机返回；

重复上述空战对抗仿真过程，直至对抗结束。