CN112198892B

CN112198892B - 一种多无人机智能协同突防对抗方法

Info

Publication number: CN112198892B
Application number: CN202010404371.1A
Authority: CN
Inventors: 林德福; 郑多; 陈灿; 宋韬; 李斌; 张福彪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2022-06-10
Anticipated expiration: 2040-05-13
Also published as: CN112198892A

Abstract

本发明公开了一种多无人机智能协同突防对抗方法，该方法包括以下步骤：步骤1，对无人机集群进行训练，获得集群内各无人机的策略模型；步骤2，各无人机根据观测状态，采用训练获得的策略模型获得行为决策。本发明所公开的多无人机协同突防方法，可用于复杂环境下的无人机协同突防，其训练出的策略模型在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策；通过集中式的评判模块和反事实基线方法，实现了多无人机协同的合作共赢，平衡个体收益与集群的整体收益，为多无人机协同突防提供了高效、可靠的技术方案。

Description

一种多无人机智能协同突防对抗方法

技术领域

本发明涉及飞行器技术领域，具体涉及人工智能、多无人机协同控制与决策、博弈的交叉领域，尤其涉及一种基于反事实基线评判-执行算法的多无人机智能协同突防对抗方法。

背景技术

多无人机协同突防的特点在于利用数量和多飞行器协同的优势，通过寻找防空漏洞、诱骗防空火力、突防掩护、利用地形隐蔽等战术进入有防空火力的区域，执行相应的任务。同时，任务区域内通常包含机动的防空力量，如防空无人机等，多无人机协同需要在防空无人机的追捕下提高无人机的存活率，从而完成既定任务。

针对多无人机协同突防，传统的做法是假设任务区域的态势已知，在地图上标注防空火力阵地等威胁范围、地形、任务目标等态势信息，将地图输入到无人机中供无人机决策使用。具体地，根据建立的态势地图，利用多无人机路径规划、任务规划等技术实现多无人机协同突防预规划，在突防过程中根据态势的变化再进行动态规划。上述方法存在以下缺陷：

(1)场景描述对实际的无人机突防任务考虑不足，缺乏对机动防空力量的模型；

(2)要求多无人机的实时全局态势信息；

(3)对无人机的任务分配和路径规划难以体现协同突防的战术思想，发挥多无人机协同的优势。

因此，有必要提供一种多无人机协同突防对抗方法，以解决上述问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种多无人机协同突防方法，该方法通过一个多无人机协同的效益评判，实现无人机之间的信息共享与协作，通过一种反事实基线(Counterfactual baseline)的方法实现个体效益与整体效益的均衡。其中，每个无人机都通过执行模块生成行为决策，而全局评判模块则作为全局的评价函数只在训练阶段集中训练为每架无人机的策略优化提供基于反事实基线的优势评估，以引导执行模块的学习，该方法能够充分考虑实际作战场景，发挥多无人机协同的协同优势，为多无人机协同突防提供高效、可靠的技术方案，从而完成了本发明。

具体来说，本发明的目的在于提供一种多无人机协同突防对抗方法，所述方法包括以下步骤：

步骤1，对无人机集群进行训练，获得集群内各无人机的策略模型；

步骤2，各无人机根据观测状态，采用训练获得的策略模型获得行为决策。

本发明所具有的有益效果包括：

(1)本发明提供的多无人机协同突防对抗方法，可用于复杂环境下的无人机协同突防，其训练出的策略模型在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策；

(2)本发明提供的多无人机协同突防对抗方法，不要求对抗环境的环境模型和多无人机协同的通信模型，而是通过与仿真环境的交互完成训练，实战效果好；

(3)本发明提供的多无人机协同突防对抗方法，通过评判-执行架构实现了多无人机协同执行突防任务时的分布式控制，提高了多无人机协同突防控制系统的鲁棒性；

(4)本发明提供的多无人机协同突防对抗方法，通过集中式的评判模块和反事实基线方法，实现了多无人机协同的合作共赢，平衡个体收益与集群的整体收益；

(5)本发明提供的多无人机协同突防对抗方法，在强化学习的基础上，借鉴人工势场的避障思想结合，引入障碍斥力，保证对威胁障碍的躲避。

附图说明

图1示出根据本发明一种优选实施方式的全局评判模块的评判过程图；

图2示出根据本发明一种优选实施方式的无人机集群训练过程图；

图3示出根据本发明一种优选实施方式的训练场景示意图；

图4示出本发明实验例中不同方法的突防成功率比较图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。其中，尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明提供了一种多无人机协同突防方法，所述方法包括以下步骤：

以下进一步描述本发明所述的多无人机协同突防方法：

步骤1，对无人机集群进行训练，获得集群内各无人机的策略模型。

在本发明中，步骤1包括以下子步骤：

步骤1-1，无人机根据当前观测状态输出动作行为至仿真环境，进行交互。

在本发明中，所述仿真环境可以采用半实物仿真平台，即无人机的飞控系统为实物，包括：飞控计算机、惯性测量单元(加速度计、陀螺和磁力计)，而无人机的GPS和目标探测传感器(如光电吊舱、雷达)以及飞行环境(即大气、地形等)完全虚拟，从而以较小的成本，使训练环境最大限度地贴近实际，使无人机可以利用虚拟环境和实物测量反馈的数据，进行人工智能的训练，学习协同突防的合作策略以及对抗防空力量的竞争策略。

所述仿真环境也可以为完全虚拟状态，即无人机的飞行环境和飞控系统均为虚拟。

在本发明中，所述仿真环境包括地形隐蔽、威胁/地形障碍、防空无人机等。

根据本发明一种优选的实施方式，所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置和探测到的障碍物的相对位置。

在进一步优选的实施方式中，无人机的自身的位置由GPS定位系统获得；

无人机自身的速度矢量由惯性测量单元和磁力计获得；

敌对无人机的相对位置由光电吊舱获得；

障碍物的相对位置由超声波雷达获得。

在更进一步优选的实施方式中，所述无人机输出的动作行为包括无人机的油门指令、纵向过载指令和滚转角指令。

在本发明中，所述仿真环境能够获得无人机集群中各无人机的观测状态、动作行为、奖励和继任观测状态(下一时刻的观测状态)，并可以反馈至各无人机进行存储，作为训练数据集。

优选地，所述无人机与仿真环境交互的过程为：无人机根据当前的行为策略执行一个动作行为，由仿真环境得到各无人机的继任状态(下一时刻的观测状态)和奖励。

步骤1-2，采集多无人机集群与仿真环境交互的数据，并存储至经验池中。

根据本发明一种优选的实施方式，所述多个无人机与仿真环境交互的数据为元素组(s^t,s^t+1,

u^t,r^t)，

其中，s^t为t时刻所有无人机的联合状态，s^t+1为t+1时刻所有无人机的联合状态，即联合继任状态，

为第i架无人机在t时刻的观测状态，

为第i架无人机在t+1时刻的观测状态，u^t为t时刻所有无人机的联合动作，r^t为t时刻所有无人机整体执行动作后获得奖励。

在进一步优选的实施方式中，所述交互的数据存储在一个共同的经验池中，存储为历史经验，以共享多无人机集群的观测状态信息和动作行为。

在本发明中，优选将多无人机集群的观测状态信息和动作行为共享至统一的无人机经验池中，有利于全局评判模块对每个无人机的优势函数进行评估，引导每个无人机进行策略学习。

在交互的数据存储至经验池中后，将继任联合状态更新为联合状态。

步骤1-3，对无人机进行训练。

根据本发明一种优选的实施方式，每隔一定的仿真步数，无人机从经验池中随机采样，以进行训练，进而获得集群内每个无人机的策略模型。

在本发明中，无人机集群利用集中式的全局评判模块辅助策略梯度学习即执行模块的学习，使得每个无人机获得各自的策略模型。

其中，从经验池中随机采得的样本为s^t,s^t+1,

u^t,r^t。

根据本发明一种优选的实施方式，所述训练包括以下步骤：

步骤1-3-1，集群内各无人机输出动作行为。

其中，集群内各无人机根据自身的观测状态及存储的上一时刻的动作，输出当前状态下的动作行为。

步骤1-3-2，对集群内各无人机当前状态下的动作行为进行评判。

根据本发明一种优选的实施方式，采用全局评判模块对所有无人机当前的联合状态和动作行为进行评判，

优选地，所述集群内所有无人机共用一个评判模块，即全局评判模块。

在进一步优选的实施方式中，所述全局评判模块由全连接神经网络组成，其对所有无人机的联合观测状态和动作行为进行评判。

在更进一步优选的实施方式中，所述全局评判模块包括评判神经网络和目标神经网络，

所述评判神经网络对当前训练样本中所有无人机的联合状态和动作行为进行评判，获得对应的状态-动作值函数值；

所述目标神经网络对当前训练样本中所有无人机的继任联合状态和依据当前策略在继任状态下执行的动作行为进行评判，获得对应的目标状态-动作值函数值。

在本发明中，根据获得的无人机当前联合状态和联合动作对应的状态-动作值函数的值，以及所有无人机的继任观测状态和依据当前策略在继任状态下执行的联合动作对应的目标状态-动作值函数值，获得TD误差(时间差分误差)，即损失函数。

根据本发明一种优选的实施方式，采用下式(一)获得全局评判模块神经网络的损失函数：

L(θ)＝(r^t+γQ(s^t,u^t)-Q(s^t+1,u^t+1))²(一)

其中，L(θ)为全局评判模块神经网络的损失函数，θ为无人机全局评判模块神经网络的权重参数，r^t为t时刻所有无人机整体获得的奖励；γ为折扣因子，代表某一时刻无人机奖励的权重；Q(s^t,u^t)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数；Q(s^t+1,u^t+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数，即目标状态动作值函数；u^t+1为：执行模块中的目标策略神经网络，依据样本中所有无人机的联合继任状态(t+1时刻所有无人机的联合状态)s^t+1和t时刻的联合动作u^t，输出的t+1时刻所有无人机的联合动作。

在进一步优选的实施方式中，采用反向传播算法获得损失函数的梯度，并对损失函数进行优化，以更新评判神经网络的权重参数。

其中，对损失函数的优化为对其进行最小化，可以采用现有技术中常用的方法进行，如随机梯度下降法。

在更进一步优选的实施方式中，所述目标神经网络的权重参数更新通过复制评判神经网络的权重参数得到，且复制滞后于评判神经网络权重参数的更新。

优选地，所述目标神经网络的权重参数更新按照下式进行：

ω'_new＝τω_new+(1-τ)ω'

其中，ω'为目标神经网络更新前的参数，ω'_new为目标神经网络更新后的参数，ω_new为评判神经网络更新后的参数，τ为滞后参数，优选取值为0.01。

在传统的评判-执行算法中，可直接利用评判模块的输出来估计状态动作值函数的时间差分，并用于计算执行模块的策略梯度(如下式所示)：

其中，g为策略梯度，θ^π表示策略π的参数；π_i表示无人机i的当前策略，Q(s^t,u^t)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数；Q(s^t+1,u^t+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数，即目标状态动作值函数，r^t+γQ(s^t,u^t)-Q(s^t+1,u^t+1)是状态动作值函数的时间差分；u^t+1为执行模块中的目标策略神经网络依据样本中所有无人机的联合继任状态s^t+1和t时刻的联合动作u^t，输出的t+1时刻所有无人机的联合动作。

但是，本发明人发现，时间差分考虑的是环境反馈给多无人机的全局奖励函数的影响，对于每个无人机而言，难以显式地表达自身对于多无人机集群收益的贡献，不能平衡集群中的个体收益与整体收益，不利于突防对抗场景下多无人机的合作。

因此，本发明中优选利用反事实基线的方法替代时间差分，即采用全局评判模块对每个无人机对于多无人机集群收益的贡献进行评判，并向每个无人机反馈当前状态下行为选择(动作)的优势函数。)

根据本发明一种优选的实施方式，所述全局评判模块通过下式(二)对每个无人机对于多无人机集群收益的贡献进行评判：

其中，

表示无人机i的优势函数即反事实基线，即无人机i在t时刻执行动作u_i后相对于执行特定动作u^c的优势，体现了多无人机集群收益的贡献；Q(s^t,u^t)是整个多无人机集群的联合状态和联合动作的联合状态动作值函数；

表示除无人机i之外的其他无人机在t时刻的联合动作；s^t表示t时刻所有无人机的联合状态；

表示在无人机i的行为被替换为特定动作u^c的前提下多无人机的联合状态动作值函数；

表示无人机i的动作被替换为特定动作后，所有可能的特定动作对应的状态动作值函数的平均值；U为无人机的动作空间，|U|为所有可能特定动作的个数。

本发明中，“反事实”代表：无人机集群整体的状态动作值函数与将某个无人机的动作替换为指定动作的集群整体状态动作值函数的差，“基线”则体现了引入“反事实”能够降低全局评判模块对真实的值函数的估计的偏差。因此，优势函数体现的是无人机当前行为选择(动作)相对于所有选择平均结果的优势。

具体地，如图1所示，全局评价模块中的评判神经网络根据输入的样本中所有无人机的联合动作u^t，和所有无人机的联合状态s^t输出t时刻的状态动作值函数。再将联合动作中无人机i的动作依次替换为所有可能的特定动作，并由评判神经网络依次输出所有替换动作后的状态动作值函数，最后根据式(二)计算优势函数值

步骤1-3-3，获得集群内各无人机的策略模型。

在本发明中，采用执行模块根据无人机自身的当前观测状态输出动作行为。

根据本发明一种优选的实施方式，所述执行模块包括策略神经网络和目标策略神经网络；

其中，所述执行模块神经网络的策略梯度通过下式(三)获得：

其中，g为策略梯度，θ^π表示策略π的参数；π_i表示无人机i的当前策略，

为无人机i在t时刻的优势函数。

根据本发明一种优选的实施方式，根据策略梯度，对执行模块神经网络的损失函数进行优化，以更新策略神经网络的权重参数。

其中，采用现有技术中常用方法对损失函数进行优化(即最大化)，如随机梯度上升法。

在进一步优选的实施方式中，所述目标策略神经网络的权重参数通过复制策略神经网络的权重参数得到，且复制滞后于策略神经网络权重参数的更新。

优选地，所述目标策略神经网络的权重参数更新按照下式进行：

θ'_new＝τθ_new+(1-τ)θ'

其中，θ'为目标策略神经网络更新前的参数，θ'_new为目标策略神经网络更新后的参数，θ_new为策略神经网络更新后的参数，τ为滞后参数，一般取值为0.01。

优选地，所述执行模块由一个GRU神经网络组成，其是长短期记忆神经网络(LSTM)的一种变体，输入是无人机i的观测状态o_i和上一时刻的动作行为，输出无人机行为的具体数值，参数更新依靠基于策略梯度的梯度下降。

根据本发明一种优选的实施方式，根据攻防对抗的结果或已执行过仿真步数，判断是否达到训练终止状态或单回合最大步数，

当达到训练终止状态或单回合最大步数时，结束当前训练，重置仿真环境开始下一回合训练。

其中，训练终止状态为仿真训练过程中敌方被歼灭的状态。

在进一步优选的实施方式中，当执行模块神经网络的损失函数收敛时，结束对多无人机集群的训练，保存获得的策略模型。

具体地，如图2所示，无人机集群包括n个无人机，每个无人机根据自身的观测状态o₁～o_n以及存储的上一时刻的动作，输出当前状态下的动作u₁～u_n。全局评判模块根据采样样本中所有无人机t时刻联合状态s^t，t+1时刻的联合状态s^t+1以及执行模块的目标策略神经网络输出的t+1时刻所有无人机的联合动作u^t+1，输出状态动作值函数和目标状态动作值函数，以完成自身神经网络的更新。再根据s^t和样本中所有无人机t时刻的奖励r^t，反馈每个无人机当前状态下当前行为选择(动作)的优势函数

进而每个无人机的执行模块利用优势函数计算策略梯度，完成网络更新。

其中，步骤2包括以下子步骤：

步骤2-1，各无人机获得观测状态。

其中，所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置以及探测到的障碍物的相对位置。

步骤2-2，各无人机根据训练获得的策略模型输出动作行为。

在本发明中，由于训练阶段多无人机集群内的各无人机已经学习获得最优的协同突防策略，具有稳定的执行策略模型，在执行任务阶段，各无人机仅需依据自身观测状态即可自主输出行为决策。

在本发明中，各无人机根据训练获得的策略模型输出动作行为之前，还需要考虑无人机靠近威胁障碍的“斥力”，即无人机进入威胁边缘时的常值动作值。

根据本发明一种优选的实施方式，所述无人机通过下式获得行为决策：

a＝a_NN+a_reject

其中，a表示无人机最终的加速度指令；a_NN表示训练得到的策略模型输出的加速度指令；a_reject是无人机的避障控制模块在靠近威胁障碍时输出的加速度指令，具体为：

a_reject＝k(p-p_o)

其中，p为无人机的位置，p_o为威胁障碍的位置，k为避障参数，优选取值为0.1。

本发明通过引入障碍斥力，保证无人机对威胁障碍的躲避，提高了协同突防的效率。

本发明所述的基于反事实基线评判-执行算法的多无人机协同突防方法，通过一个多无人机协同的效益评判，实现无人机之间的信息共享与协作。采用集中式训练和分布式执行的框架，在训练阶段，允许无人机使用其他无人机的观测信息和行为来简化训练过程，在执行阶段则不使用其他无人机的信息，使得每个无人机根据获得的各自的优势函数进行学习，能够在协同突防过程中自主决策。

并且，通过一种反事实基线的方法实现个体效益与整体效益的均衡，能够发挥多无人机的协同优势，为多无人机协同突防提供高效、可靠的技术方案。

实验例

仿真多无人机协同突防场景，如图3所示，任务区域为200m×200米的正方形区域，黑色区域是威胁/地形障碍，绿色区域是可供躲避的地形区，2个蓝色圆点代表多无人机协同突防的任务目标，3架红色无人机是任务区域内的机动防空力量，3架绿色无人机代表突防的多无人机。

其中，仿真场景的各部分参数如表1所示：

表1

其中，突防无人机(绿色无人机)采用本发明所述的基于反事实基线评判-执行算法的多无人机协同突防方法进行决策(如图1和2所示)，其奖励函数基于与红方无人机的距离之和以及与任务目标的最短距离。具体地：

其中，r为所有无人机的奖励，r_i为无人机i的奖励，p_i为无人机i的位置；F为所有任务目标的集合，R为所有防空无人机(机动防空力量)的集合，p_T为任务目标T的位置，p_d为防空无人机d的位置。

防空无人机(红色无人机)采用本发明提出的决策方法。

同时，采用基于目标分配和路径规划的突防方法的突防无人机作为对比，相同条件下进行突防。

目标分配与路径规划的突防方法的具体操作为：

将防空无人机与威胁、障碍均视为障碍物；在仿真初始时刻进行一次目标分配与路径规划，每5秒重新进行一次目标分配和路径迹规划。

目标分配的优化目标函数如下：

解空间：第i个无人机分配到目标f；

其中，p_i为第i个无人机的位置，p_f为第i个无人机分配到的目标f的位置，p_j为第j个障碍物的位置。

求解算法：离散粒子群算法。

在完成目标分配后，将作战区域划分为栅格地图，为每一个无人机及其分配到的目标采用A^*算法(A-Star算法)进行路径规划。

对采用本发明所述突防方法和基于目标分配和路径规划的突防方法的多无人机集群的突防成功率进行检测，结果如图4所示。由图4可知，采用本发明所述方法的突防无人机的突防成功率明显高于传统的基于动态任务分配和轨迹规划的突防方法的无人机，其突防成功率约为80％，约为传统方法的2倍。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种多无人机协同突防对抗方法，其特征在于，所述方法包括以下步骤：

步骤2，各无人机根据观测状态，采用训练获得的策略模型获得行为决策；

步骤1包括以下子步骤：

步骤1-1，无人机根据当前观测状态输出动作行为至仿真环境，进行交互；

步骤1-2，采集多无人机集群与仿真环境交互的数据，并存储至经验池中；

步骤1-3，对无人机进行训练；

步骤1-3中，所述训练包括以下步骤：

步骤1-3-1，集群内各无人机输出动作行为；

步骤1-3-2，采用全局评判模块对集群内各无人机当前状态下的动作行为进行评判，所述集群内所有无人机共用一个全局评判模块，

所述全局评判模块包括评判神经网络和目标神经网络，

采用下式(一)获得全局评判模块神经网络的损失函数：

L(θ)＝(r^t+γQ(s^t,u^t)-Q(s^t+1,u^t+1))² (一)

其中，L(θ)为全局评判模块神经网络的损失函数，θ为无人机全局评判模块神经网络的权重参数，r^t为t时刻所有无人机整体获得的奖励；γ为折扣因子，代表某一时刻无人机奖励的权重；Q(s^t,u^t)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数；Q(s^t+1,u^t+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数，即目标状态动作值函数；u^t+1为：执行模块中的目标策略神经网络，依据样本中所有无人机的联合继任状态即t+1时刻所有无人机的联合状态s^t+1和t时刻的联合动作u^t，输出的t+1时刻所有无人机的联合动作；

所述目标神经网络的权重参数更新按照下式进行：

ω'_new＝τω_new+(1-τ)ω'

其中，ω'为目标神经网络更新前的参数，ω'_new为目标神经网络更新后的参数，ω_new为评判神经网络更新后的参数，τ为滞后参数，取值为0.01；

步骤1-3-3，获得集群内各无人机的策略模型；

所述执行模块包括策略神经网络和目标策略神经网络；