CN112180967B

CN112180967B - 基于评判-执行架构的多无人机协同对抗决策方法

Info

Publication number: CN112180967B
Application number: CN202010340657.8A
Authority: CN
Inventors: 林德福; 郑多; 陈灿; 宋韬; 李斌; 莫雳
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2022-08-19
Anticipated expiration: 2040-04-26
Also published as: CN112180967A

Abstract

本发明公开了一种基于评判‑执行架构的多无人机协同对抗决策方法，所述方法包括：步骤1，在执行任务前，对多个无人机进行训练，得到各无人机的行为策略模型；步骤2，执行任务时，各无人机根据观测状态获得行为决策。本发明提供的方法，不要求对抗环境的环境模型和多无人机协同的通信模型，而是通过与仿真环境的交互完成训练，训练出的行为策略在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策。

Description

基于评判-执行架构的多无人机协同对抗决策方法

技术领域

本发明涉及飞行器技术领域，具体涉及人工智能、多无人机协同控制与决策、博弈的交叉领域，尤其涉及一种基于评判-执行架构的多无人机协同对抗决策方法。

背景技术

多无人机协同对抗是未来无人机作战的重要模式，其是一群无人机对另一群无人机进行拦截而形成的空中协作式的缠斗，对抗过程中无人机具有自组织、自适应特点和拟人思维属性，通过感知环境、对周围态势进行判断，依据一定的行为规则，采取攻击、避让、分散、集中、协作、援助等有利策略，使得在整体上涌现出多无人机协同对抗系统的动态特性。

早期的多无人机协同对抗决策方法是基于有人机协同对抗的经验，制定相应的行为规则来实现决策。随着技术的不断发展，多无人机协同对抗决策技术可分为以下几种类型：

(一)基于一致性原理的多无人机协同控制技术：此类技术要求无人机有特定的通信拓扑，利用代数拓扑学与多输入多输出系统的结合建立多无人机协同的状态方程，为每个无人机设计相应的控制器。但是此类技术一般只能控制多无人机协同的一致性行为，难以适应复杂的对抗环境；

(二)任务规划技术：任务规划技术是将多无人机协同划分为多个单无人机或双无人机的作战单位的集合，将对抗任务分解为多个子任务，通过优化算法实现最优任务分配，从而将多无人机协同对抗决策转变为单无人机或双无人机对抗决策；

(三)群智能技术：群智能技术是基于仿生学的研究，如蚁群、蜂群、鱼群、狼群等，或者基于物理学的原理，如粒子的吸引和排斥，建立多无人机协同的行为控制器。

但是，上述的多无人机协同对抗决策技术需要建立对抗环境的任务模型或环境模型，无法充分考虑模型的不确定性，而且，建立行为模型或行为准则的方法，会人为限制了行为策略的求解空间，难以获得最优策略，从而无法适应动态多变的多无人机协同对抗环境。而且，复杂环境下，环境变量和决策变量维度增加，问题复杂度随之增加，进而导致上述多无人机协同对抗决策技术无法适应复杂环境或算法难以求解。

因此，有必要提供一种多无人机协同对抗决策方法，以解决上述问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种基于评判-执行架构的多无人机协同对抗决策方法，每架无人机都包含一组评判网络和执行网络，执行网络根据无人机自身的当前状态输出行为，评判网络通过输入多无人机协同所有成员的状态和行为对无人机当前状态下的行为的好坏进行评价。该基于深度强化学习的方法突破了环境动力学模型和通信模型的限制，并且使无人机在训练阶段获得整个多无人机群体的观测信息和行为，而在执行决策时只使用自身的观测信息，提高协同对抗决策算法的稳定性，使多无人机协同能够在大量的试错之后，学习到最优的协同对抗策略，从而完成了本发明。

具体来说，本发明的目的在于提供一种基于评判-执行架构的多无人机协同对抗决策方法，所述方法包括以下步骤：

步骤1，在执行任务前，对多个无人机进行训练，得到各无人机的行为策略模型；

步骤2，执行任务时，各无人机根据观测状态获得行为决策。

本发明所具有的有益效果包括：

(1)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法，可用于复杂环境下的无人机协同对抗，其训练出的行为策略在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策，并能同时体现出与对手的对抗行为和与队友的协作行为；

(2)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法，不要求对抗环境的环境模型和多无人机协同的通信模型，而是通过与仿真环境的交互完成训练，实战效果好；

(3)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法，与传统强化学习算法相比，在训练时使用全局信息而在执行时使用局部观测信息，既保证了训练过程中环境对于无人机的动态稳定性，又使得分布式的执行更加符合实际应用场景；

(4)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法，每个无人机的评判模块是独立训练的，所以可以为不同无人机设计不同的奖励函数，体现不同的对抗“风格”。

附图说明

图1示出根据本发明一种优选实施方式的多无人机训练过程图；

图2示出根据本发明一种优选实施方式的多无人机执行任务过程图；

图3示出本发明实验例所述的仿真多无人机追逃对抗场景示意图；

图4示出本发明实验例所述的蓝方无人机法向加速度与飞行速度和角速度的关系图；

图5示出本发明实验例所述的蓝方无人机急转弯时速度矢量关系图；

图6示出本发明实验例所述的仿真多无人机追逃对抗结果图。

具体实施方式

下面通过附图和实施方式对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。其中，尽管在附图中示出了实施方式的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明提供了一种基于评判-执行架构的多无人机协同对抗决策方法，所述方法包括以下步骤：

步骤2，执行任务时，各无人机根据观测状态获得行为决策。

以下进一步描述本发明所述的多无人机协同对抗决策方法：

步骤1，在执行任务前，对多个无人机进行训练，得到各无人机的行为策略模型。

其中，如图1所示，步骤1包括以下子步骤：

步骤1-1，无人机根据当前观测状态输出动作行为至仿真环境，进行交互。

在本发明中，所述的仿真环境可以采用半实物仿真平台，即无人机的飞控系统为实物，包括：飞控计算机、惯性测量单元(加速度计、陀螺和磁力计)，而无人机的GPS和目标探测传感器(如光电吊舱、雷达)以及飞行环境(即大气、地形等)完全虚拟。从而以较小的成本，使训练环境最大限度地贴近实际，使无人机可以利用虚拟环境和实物测量反馈的数据，进行人工智能的训练。

所述仿真环境也可以为完全虚拟状态，即无人机的飞行环境和飞控系统均为虚拟。

在本发明中，所述仿真环境越接近于真实环境，训练出的无人机的行为策略模型效果越好。

根据本发明一种优选的实施方式，所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置和探测到的障碍物的相对位置。

在进一步优选的实施方式中，无人机的自身的位置由GPS定位系统获得；

无人机自身的速度矢量由惯性测量单元和磁力计获得；

敌对无人机的相对位置由光电吊舱获得；

障碍物的相对位置由超声波雷达获得。

在进一步优选的实施方式中，所述无人机输出的动作行为包括无人机的油门指令、纵向过载指令和滚转角指令。

在本发明中，所述仿真环境能够获得多无人机群体中各无人机的观测状态、动作行为、奖励和继任观测状态(下一时刻的观测状态)，并可以反馈至各无人机进行存储，作为训练数据集。

优选地，所述无人机与仿真环境交互的过程为：无人机执行网络中的策略神经网络根据当前观测状态信息，输出动作行为，无人机执行该动作行为，由仿真环境得到各个无人机的继任状态(下一时刻的观测状态)和奖励。

步骤1-2，采集多无人机群体与仿真环境交互的数据，并存储至经验池中。

根据本发明一种优选的实施方式，所述多个无人机与仿真环境交互的数据为元素组(x^t,x^t+1,a₁,…,a_n,r₁,…r_n)，

其中，x^t为所有无人机在t时刻的联合观测状态；x^t+1为所有无人机在t+1时刻的联合观测状态(即执行动作后下一时刻达到的状态)；a₁…a_n为n架无人机在t时刻执行的动作(即输出的控制指令)；r₁…r_n为n架无人机在t时刻执行动作后获得的奖励；n为无人机的个数。

在进一步优选的实施方式中，所述交互的数据存储至每个无人机的经验池中，以共享多无人机群体的观测状态信息和动作行为。

在本发明中，优选将多无人机群体的观测状态信息和动作行为共享至每个无人机的经验池中，有利于每个无人机利用其它无人机的策略进行学习。

其中，在交互的数据存储至经验池中后，更新当前状态为继任状态。

步骤1-3，从经验池中随机采样获得历史经验，对无人机进行训练。

其中，步骤1-3包括以下子步骤：

步骤1-3-1，构建评判网络和执行网络。

根据本发明一种优选的实施方式，所述评判网络包括评判神经网络和目标神经网络，

所述执行网络包括策略神经网络和目标策略神经网络。

优选地，所述多无人机群体中的每个无人机都包括一组评判网络和执行网络，以独立学习各自的评判函数和策略函数。

在本发明中，执行网络用于根据无人机自身的当前观测状态输出动作行为，评判网络用于对所有无人机根据当前观测状态输出的动作行为的好坏进行评价。

步骤1-3-2，对无人机的评判网络和执行网络进行更新。

在本发明中，每隔一定的仿真步数，无人机从经验池中随机采样，以对评判网络和执行网络进行训练，不断更新网络参数，进而获得每个无人机的行为策略模型。

根据本发明一种优选的实施方式，从经验池中随机采得的样本为一批样本，即为S组多无人机与环境交互的历史数据(x^t,x^t+1,a₁,…,a_n,r₁,…r_n)，

其中，t为数据样本的时间戳，x^t为所有无人机t时刻的联合观测状态，即整体的当前状态；x^t+1为所有无人机t+1时刻的联合观测状态(即执行动作后下一时刻达到的状态，整体的继任状态)；a₁…a_n为n架无人机t时刻执行的动作(即输出的控制指令)；r₁…r_n为n架无人机t时刻执行动作后获得的奖励。

优选地，所述评判网络和执行网络的更新包括以下步骤：

步骤i，对上述训练样本中的多无人机的当前观测状态和继任观测状态进行评判。

根据本发明一种优选的实施方式，根据训练样本中所有无人机的当前观测状态，采用评判神经网络评获得当前观测状态和动作行为对应的状态-动作值函数值；

采用目标策略神经网络，根据当前训练样本中所有无人机的继任观测状态，获得各个无人机依据当前策略在继任状态下会执行的动作；

采用目标神经网络，根据当前训练样本中所有无人机的继任状态，以及目标策略神经网络获得的各个无人机依据当前策略在继任状态下会执行的动作，进而获得相对应的目标状态-动作值函数的值。

其中，评判神经网络对当前训练样本中所有无人机的观测状态和动作行为进行评判；目标神经网络对当前训练样本中所有无人机的继任观测状态和目标策略神经网络输出的动作行为进行评判。

步骤ii，更新评判神经网络和目标神经网络。

在本发明中，根据上述步骤获得的无人机当前观测状态和动作行为对应的状态-动作值函数的值，以及所有无人机的继任观测状态和目标策略神经网络输出的动作行为对应的状态-动作值函数的值，获得TD误差(时间差分误差)，从而获得损失函数。

根据本发明一种优选的实施方式，采用下式(一)获得评判神经网络的损失函数：

其中，

L(ω)为评判神经网络的损失函数，ω为无人机的评判神经网络的权重参数，Q_i(x^t,a^t|ω)为第i架无人机的状态动作值函数，即评判神经网络的输出，x^t为t时刻所有无人机的联合观测状态；a^t为t时刻各个无人机的动作集合；r_i ^t为第i架无人机t时刻的奖励，

为第i架无人机的目标状态动作值函数，即目标神经网络的输出，ω'为评判神经网络的目标神经网络具有滞后更新的参数；γ为折扣因子，代表某一时刻无人机奖励的权重，

为第i架无人机t+1时刻的动作，

为目标策略神经网络，

为第i架无人机t+1时刻的观测状态。

在进一步优选的实施方式中，采用反向传播算法获得损失函数的梯度，并对损失函数进行优化，以更新评判神经网络的权重参数。

其中，对损失函数的优化为对其进行最小化，可以采用现有技术中常用的方法进行，如随机梯度下降法。

在更进一步优选的实施方式中，所述目标神经网络的权重参数更新通过复制评判神经的网络的权重参数得到，且复制滞后于评判神经网络权重参数的更新。

优选地，所述目标神经网络的权重参数更新按照下式进行：

ω'_new＝τω_new+(1-τ)ω'

其中，ω'为目标神经网络更新前的参数，ω'_new为目标神经网络更新后的参数，ω_new为评判神经网络更新后的参数，τ为滞后参数，优选取值为0.01。

步骤iii，更新策略神经网络和目标策略神经网络。

其中，所述执行网络的损失函数即为评判神经网络输出的状态动作值函数。

在本发明中，所述策略神经网络的策略梯度通过下式(二)获得：

其中，θ＝[θ₁,…,θ_n]表示n个无人机执行策略的参数，μ＝[μ₁,…μ_n]表示n个无人机的联合策略，

表示第i个无人机在t时刻的观测状态，

表示所有无人机在t时刻的联合观测状态，a^t为t时刻各个无人机的动作集合，p^π是状态的概率分布函数，

是在无人机群体采用联合策略μ的前提下，第i个无人机的状态动作值函数，即评判神经网络的输出；J(θ_i)为策略神经网络优化用的目标函数，它表示第i个无人机的累积期望奖励：

其中，R_i为第i架无人机的累积回报，γ为折扣因子，x是无人机群体的联合观测状态，r_i ^t为第i架无人机t时刻的奖励，a是各个无人机执行的动作集合。

根据本发明一种优选的实施方式，根据策略梯度，对损失函数进行优化，以更新策略神经网络的权重参数。

其中，采用现有技术中常用方法对损失函数进行优化(即最大化)，如随机梯度上升法。

在进一步优选的实施方式中，所述目标策略神经网络的权重参数通过复制策略神经网络的权重参数得到，且复制滞后于策略神经网络权重参数的更新。

优选地，所述目标策略神经网络的权重参数更新按照下式进行：

θ'_new＝τθ_new+(1-τ)θ'

其中，θ'为目标策略神经网络更新前的参数，θ'_new为目标策略神经网络更新后的参数，θ_new为策略神经网络更新后的参数，τ为滞后参数，一般取值为0.01。

步骤1-4，获得无人机的行为策略模型。

根据本发明一种优选的实施方式，根据攻防对抗的结果或已执行过仿真步数，判断是否达到训练终止状态或单回合最大步数，

当达到训练终止状态或单回合最大步数时，结束当前训练，重置仿真环境开始下一回合训练。

其中，训练终止状态为仿真训练过程中敌方被歼灭的状态。

在进一步优选的实施方式中，当策略神经网络的损失函数收敛时，结束对多无人机群体的训练，保存获得的行为策略模型。

在本发明中，训练阶段无人机群体中每个无人机均使用群体内其他无人机的状态信息和动作行为进行训练，即知晓所有无人机的行为，有利于提高环境对于无人机的动态稳定性，进而保证获得的行为策略的模型动力学是稳定的。

同时，群体内的每个无人机可以利用目标策略神经网络对其它无人机的行为进行估计，而不是直接获得其它无人机的行为，即每个无人机独立学习自己的评判函数，且每个无人机可以有不同的奖励函数，便于在执行任务时自主决策，完成合作或竞争任务。

步骤2，执行任务时，各无人机根据观测状态获得行为决策。

其中，如图2所示，步骤2包括以下子步骤：

步骤2-1，各无人机获得观测状态。

其中，所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置以及探测到的障碍物的相对位置。

步骤2-2，各无人机根据训练获得的行为策略模型输出动作行为。

在本发明中，由于训练阶段多无人机群体内的各无人机已经学习获得最优的协同对抗策略，具有稳定的执行策略模型，在执行任务阶段，各无人机仅需依据自身观测状态即可自主输出行为决策。

本发明所述的基于评判-执行架构的多无人机协同对抗决策方法，采用集中式训练和分布式执行的框架，在训练阶段，允许无人机使用其他无人机的观测信息和行为来简化训练过程，在执行阶段则不使用其他无人机的信息，使得每个无人机独立学习自己的评判函数和策略函数，能够在协同对抗过程中自主决策，实战效果好。

实验例

仿真多无人机追逃对抗场景，如图3所示，任务区域为200m×200m，该场景包括两处障碍区域(半径15m的圆域)，3架红方无人机为追捕无人机群，其追捕1架蓝方无人机。其中，所述蓝方无人机的最大机动能力和最大飞行速度均为红方无人机的1.5倍，具体地，红方无人机的最大飞行速度为10m/s，最大加速度为3m/s²；蓝方无人机的最大飞行速度为15m/s，最大加速度为4.5m/s²；

红方无人机采用本发明所述的基于评判-执行架构的多无人机协同对抗决策方法进行决策(如图1所示)，红方无人机的奖励函数基于与蓝方无人机的最短距离，接近蓝方无人机则获得奖励，远离则获得惩罚；

累积回报中折扣因子γ＝0.95，单回合最大步长为50，单次采样样本量为1024组；

神经网络结构：4层(一层输入层，两层隐藏层，一层输出层)；

隐藏层的每层神经元个数：32；

神经元激活函数：线性整流函数。

在对抗的过程中，蓝方无人机基于Isaacs(Isaacs,Rufus Philip.Differentialgames a mathematical theory with applications to warfare and pursuit,controland optimization[J].Physics Bulletin,1966,17(2))给出的追逃博弈中逃跑者的策略进行决策，躲避无人机群的追捕：以最大速度v飞行，控制量为法向加速度a_n，u为对应的角速度，

其中，a_n＝vu，如图4所示；

当与最近的红方无人机的距离d大于30米时，蓝方无人机的策略是使这一距离最大化：

其中，(x_b,y_b)为蓝方无人机位置坐标，(x_r,y_r)为距离蓝方无人机最近的一个红方无人机的位置坐标，k为可调节的参数，取0.1；

当与最近的红红无人机的距离d小于30米时，蓝方无人机的策略是做急转弯，如图5所示：

图5中，v_r为距离最近的红方无人机的速度矢量，θ为蓝方无人机的速度矢量v_b与视线矢量q的夹角，取值范围为(-π,π]，顺时针为正，逆时针为负。

红方无人机在训练收敛后，对蓝方无人机进行追捕，如图6所示，在50秒内，对蓝方无人机的追捕成功率可达到95％以上。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种基于评判-执行架构的多无人机协同对抗决策方法，其特征在于，所述方法包括以下步骤：

步骤2，执行任务时，各无人机根据观测状态获得行为决策；

步骤1包括以下子步骤：

步骤1-1，无人机根据当前观测状态输出动作行为至仿真环境；

步骤1-2，采集多无人机与仿真环境交互的数据，并存储至经验池中；

步骤1-3，从经验池中随机采样，对无人机进行训练；

步骤1-4，获得无人机的行为策略模型；

步骤1-3包括以下子步骤：

步骤1-3-1，构建评判网络和执行网络；

步骤1-3-2，对无人机的评判网络和执行网络进行更新；

步骤1-3-2中，所述网络的更新包括以下步骤：

步骤i，对多无人机群体的当前观测状态和继任观测状态进行评判；

步骤ii，更新每个无人机的评判神经网络和目标神经网络；

步骤iii，更新每个无人机的策略神经网络和目标策略神经网络；

采用评判神经网络评判多无人机群体的当前状态，

采用目标神经网络评判多无人机群体的继任观测状态；

采用下式获得评判网络中评判神经网络的损失函数：

其中，

为第i架无人机的目标状态动作值函数，即目标神经网络的输出；γ为折扣因子代表某一时刻无人机奖励的权重，

为第i架无人机t+1时刻的动作，

为目标策略神经网络，

为第i架无人机t+1时刻的观测状态；

采用反向传播算法获得损失函数的梯度，并对损失函数进行优化，以更新评判神经网络的权重参数；

所述目标神经网络的权重参数更新按照下式进行：

ω'_new＝τω_new+(1-τ)ω'

其中，ω'为目标神经网络更新前的参数，ω'_new为目标神经网络更新后的参数，ω_new为评判神经网络更新后的参数，τ为滞后参数，取值为0.01；

步骤iii中，策略神经网络的策略梯度通过下式获得：

其中，θ＝[θ₁,…,θ_n]表示n个无人机执行策略的参数，μ＝[μ₁,…,μ_n]表示n个无人机的联合策略，

u为对应的角速度；

表示第i个无人机在t时刻的观测状态，

其中，R_i为第i架无人机的累积回报，γ为折扣因子，x是无人机群体的联合观测状态，a是各个无人机执行的动作集合；其中累积回报中折扣因子γ＝0.95，单回合最大步长为50，单次采样样本量为1024组；

步骤1-2中，所述多无人机与仿真环境交互的数据为元素组(x^t,x^t+1,a₁,…,a_n,r₁,…r_n)，其中，x^t为所有无人机t时刻的联合观测状态；x^t+1为所有无人机t+1时刻的联合观测状态；a₁…a_n为n架无人机t时刻执行的动作；r₁…r_n为n架无人机t时刻执行动作后获得的奖励；n为无人机的个数；

步骤1-3-1中，

所述评判网络包括评判神经网络和目标神经网络，

所述执行网络包括策略神经网络和目标策略神经网络；

每个无人机都包括一组评判网络和执行网络；其中神经网络结构包括4层：一层输入层，两层隐藏层，一层输出层；

隐藏层的每层神经元个数：32；

神经元激活函数：线性整流函数；

步骤2包括以下子步骤：

步骤2-1，无人机获得观测状态；