CN115113642A

CN115113642A - 一种多无人机时空关键特征自学习协同对抗决策方法

Info

Publication number: CN115113642A
Application number: CN202210624651.2A
Authority: CN
Inventors: 朴海音; 孙阳; 詹光; 冯勇明; 杨晟琦; 于津; 樊松源; 张健
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-27
Anticipated expiration: 2042-06-02
Also published as: CN115113642B

Abstract

本申请提供了一种多无人机时空关键特征自学习协同对抗决策方法，该方法包括如下步骤：步骤一、将空中多无人机对抗问题抽象并简化为多关系时空动力学；步骤二、萃取多机协同对抗时空图中的关键空间关联关系：步骤三、时间关联特征演化学习；步骤四、联合对抗决策优化。本申请的方法可以有效捕捉多无人机协同对抗决策的时间与空间特征关联关系，有效简化问题特征，并最终提升协同对抗决策效果。

Description

一种多无人机时空关键特征自学习协同对抗决策方法

技术领域

本申请涉及管路连接技术领域，特别涉及一种低阻航空管路转向器。

背景技术

随着航空装备智能化的不断发展，现代空中对抗形态发生了巨大变革，无人机逐渐成为未来空中对抗的主角。相比于有人机，无人机可以摆脱对飞行员的高度依赖，突破人类飞行员的作战极限，其自主化对抗能力已经被证实高于人类水平。

现有的无人机自主对抗方法主要包括基于规则的专家系统方法、概率模型/模糊逻辑和计算智能混合方法、机器学习和深度强化学习方法。上述这些方法均在小规模自主对抗方面取得了一定的成绩，但在面向大规模自主对抗场景中效果并不理想。基于规则的专家系统完全依赖于人类飞行员预先定义的空中对抗规则数据库，但大规模自主对抗的策略很难进行抽象，其逻辑完备性较差；概率模型/模糊逻辑和计算智能混合方法需要专家构建概率推理网络或设计启发式的目标函数，无法覆盖所有的大规模自主对抗状态并且设计十分复杂困难；机器学习方法严重依赖数据样本，而大规模无人机自主对抗实战数据非常稀有甚至无法获得；深度强化学习方法通过无人类知识监督的自博弈强化学习训练，自动生成空中对抗的战术策略，但由于无人机自主对抗规模的增加使得解空间剧增，给战术策略的学习带来了一定困难。

因此，上述方法均不能较好的应用在大规模无人机自主对抗环境中。

发明内容

本申请的目的是提供了一种多无人机时空关键特征自学习协同对抗决策方法，以解决或减轻背景技术中的至少一个问题。

本申请的技术方案是：一种多无人机时空关键特征自学习协同对抗决策方法，包括：

步骤一、将空中多无人机对抗问题抽象并简化为多关系时空动力学，包括：

将多无人机协同对抗中动态时变的多种关系抽象为空中多无人机协调对抗对抗时空图

每个无人机为图节点

无人机之间的两两关系为图的边

将空中对抗博弈的完整时间历程T按照时间等分成多个等步长的时间切片ΔT，空中多无人机协同博弈对抗问题简化成图序列

其中

包含在第i个时间切片中存在的全部多图节点多关联边的特征输入矩阵；

步骤二、萃取多机协同对抗时空图中的关键空间关联关系，包括：

通过可学习的编码函数e(o_i；ψ)将第i个图节点的特征输入向量o_i编码为隐变量z，编码过程为z＝e(o_i；ψ)，编码函数的待学习参数为ψ；

经图神经网络消息传递学习后的第l+1层次隐变量具备如下形式：

从而得到简短的空间特征向量子集；

步骤三、时间关联特征演化学习；

分别对友机

和敌机

上一时间切片的隐变量，综合二者各自的当前空间特征

及

采用两个长短周期循环记忆网络来分别对当前输出综合多步时间特征的向量

和

进行建模，从而得到多机协同对抗决策的时间变化特征；

步骤四、联合对抗决策优化

在时空关系图特征有效简化的基础上，承接输出的隐变量特征，采用多智能体近端优化策略开展多无人机协同对抗决策。

进一步的，简化第l+1层的隐变量的过程为：

通过选择多头点乘图注意力机制来具体实现上式中的函数f，在传播过程引入自注意力机制，每个节点的隐藏状态通过注意其邻居节点来计算；具体包括：

首先将第i层的隐变量z通过矩阵W映射为更为紧凑的特征

图注意力网络GAT由堆叠简单的图注意力层来实现，每一个注意力层对节点(i，j)的注意力系数

的计算方式为：

有了未归一化的注意力系数

通过Softmax函数归一化即可得到注意力权重，在Softmax函数之前额外增加LeakyRelLU激活函数实现非线性激活，即得到最终的节点i对节点j的图注意力系数

为了建模图节点之间可能存在的多种关联关系，通过采用经过激活函数σ处理后的K个点乘注意力的算术平均来拟合输出给下一个层次隐变量

的特征：

进一步的，向量

和

满足：

式中，θ_f和θ_o分别为两个长短周期循环记忆网络的待学习参数。

进一步的，两个所述长短周期循环记忆网络相互独立。

进一步的，所述采用多智能体近端优化策略方法开展多无人机协同对抗决策的过程包括：

确定优化目标函数为最小化损失

其中φ为待优化策略参数：

其中，

π_φ为当前待更新的策略，

为采样时刻的决策策略；o_t为多无人机联合特征输入向量，

为第k架无人机当前输出的决策行为；

为第k架无人机的近似优势函数；∈为信任域常量；

则最终损失函数

即为所述多智能体近端优化策略与熵正则化的加权综合，其中β为混合权重；

为第k架无人机的行为熵；

近似优势函数

看作以T为计算周期的

函数折算到当前时刻的加权和，其中γ为时间折扣因子；λ为优势折算系数；

函数

上式中，

为当前即时汇报，V^(k)为第k架无人机的多步累计价值函数，s向量为n个无人机观测向量的并集。

进一步的，所述信任域常量∈取值范围为0.1～0.2。

进一步的，所述混合权重β取值为0.06～0.8。

进一步的，所述时间折扣因子γ取值为0.90～0.99。

进一步的，所述优势折算系数λ取值为0.8～0.9。

附图说明

为了更清楚地说明本申请提供的技术方案，下面将对附图作简单地介绍。显而易见地，下面描述的附图仅仅是本申请的一些实施例。

图1为本申请的空中多无人机对抗场景示意图。

图2为本申请的多无人机时空关键特征自学习协同对抗决策方法流程图。

图3为本申请的多无人机时空关键特征自学习协同对抗决策方法与其他方法学习效率对比曲线。

图4为本申请一实施例的四对四空中对抗博弈场景有效性案例分析。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

为了解决背景技术中所致出的问题，本申请中提供了一种能够自动学习多无人机空中对抗博弈中的时间-空间特征的方法，并将经过学习后的关键特征进一步用于协同对抗决策优化，使得多无人机联合决策智能程序能够自动辨识大量特征输入中真正关键且与当前飞机具有密切联系的特征分量，并自动找到多个连续时间切片的关联关系，从而有效简化指数级增加的问题难度，将复杂的多无人机协同对抗态势映射为更为简短的时空抽象特征向量，并提升协同对抗决策效果。

如图1所示，在空中多无人机对抗场景中，每个无人机都存在与其他无人机特定的时空关系。在空间关系层面，无人机之间呈现出逐级相互依赖的多阶关系特征，例如在图1的时空B中，无人机B3正在进攻无人机R1，因此二者属于进攻与摆脱关系，这类关系为一阶关系。在此基础上，无人机R4正在支援无人机R1，二者属于支援与被支援关系，由于无人机B3和无人机R4都通过无人机R1发生了关联，因此二者间存在二阶关系。相应的，在时间关系层面，这种空间关系也会随着时间推移而不断演变。例如在图1的时空C中，无人机R1已被无人机B3击落，因此原有的攻防空间关系就不复存在了。

为了捕捉这种多无人机协同对抗中动态时变的多种关系，本申请中采用图神经网络来建模还原上述问题，将上述问题抽象为多无人机协同对抗时空图

在多无人机协同对抗时空图中，每个无人机被定义为图节点

而无人机之间的两两关系则被定义为图的边

考虑到多重关系的存在，本申请中允许任一图节点与其他图节点之间存在多条关联边。初始的图结构可以被表示为图节点特征输入矩阵形式

其中

表示其中每个无人机的局部相对观测向量。此外，本申请中具备多种关联关系的图节点特征输入矩阵定义了图邻接矩阵

其中

量化了图节点i和图节点j之间特定的关联强度(v_i，v_j)∈ε。同时，为了捕捉场景中空间关系随时间的演变，本申请中将空中对抗博弈的完整时间历程T按照时间等分成多个等步长的时间切片ΔT。因此原多机协同空中博弈对抗问题即被简化成图序列

其中

包含在第i个时间切片中存在的全部多图节点多关联边的特征输入矩阵。在这样的刻画下，本申请将原空中多无人机对抗问题抽象并简化为多关系时空动力学。

在此基础上，如图2所示，本申请进一步提出多无人机时空关键特征自学习协同对抗决策方法可以分为下述三个步骤：

步骤一、多无人机空间关联特征学习

该步骤的主要目的是萃取多机协同对抗时空图中的关键空间关联关系，具体过程包括：

首先通过可学习的编码函数e(o_i；ψ)将第i个图节点的特征输入向量O_i编码为隐变量z，该编码函数的待学习参数为ψ，编码过程为：

z＝e(o_i；ψ)

在此基础上，经进一步图神经网络消息传递学习后的第l+1层次(即下一层次)具备如下形式：

通过选择多头点乘图注意力机制来具体实现上式中的函数f，在传播过程引入自注意力(Self-Attention)机制，每个节点的隐藏状态通过注意其邻居节点来计算。图注意力可以较好地拟合图节点之间真正重要的关联关系，从而极大地减轻当前决策的无人机关注的特征输入矩阵的复杂度。

首先将第i层的隐变量z通过矩阵W映射为更为紧凑的特征

图注意力网络(Graph Attention Network，GAT)由堆叠简单的图注意力层(GraphAttention Layer)来实现，每一个注意力层对节点(i，j)的注意力系数

的计算方式为：

有了注意力系数

(未归一化)，通过Softmax函数归一化即可得到注意力权重，在Softmax函数之前额外增加LeakyRelLU激活函数实现非线性激活，即得到最终的节点i对节点j的图注意力系数

进而，为了建模图节点之间可能存在的多种关联关系(多重边)，通过采用经过激活函数σ处理后的K个点乘注意力的算术平均来拟合输出给下一个层次隐变量

的特征：

经过上述多无人机空间关联特征学习，可以将复杂的多机关联特征输入向量简化为最需要关注的更为简短的空间特征向量子集，接下来还需要找到多个时间切片对应的时间关联特征。

步骤二、时间关联特征演化学习

为捕捉空中对抗博弈的时间变化特性，分别对友机

和敌机

上一时间切片的隐变量，综合二者各自的当前空间特征

及

采用两个独立的长短周期循环记忆(LSTM)网络来分别对当前输出综合多步时间特征的向量

和

进行建模，其中θ_f和θ_o分别为两个分立LSTM的待学习参数：

经上式处理的时间特征，融合了前序多步的图关联关系特征，从而能够更好地刻画多机协同对抗决策的时间变化特征。

步骤三、联合对抗决策优化

在时空关系图特征有效简化的基础上，承接输出的隐变量特征，进一步开展多无人机协同对抗决策。优化方法采用多智能体近端优化策略，其优化目标函数为最小化损失

其中φ为待优化策略参数：

其中，

π_φ为当前待更新的策略，

为采样时刻的决策策略；o_t为多无人机联合特征输入向量，

为第k架无人机当前输出的决策行为；

为第k架无人机的近似优势函数；∈为信任域常量，本实施例中可取值为0.1。

则最终损失函数

即为上述多智能体近端优化策略与熵正则化的加权综合，其中β为混合权重，本实施例中可取值为0.07；

为第k架无人机的行为熵。

近似优势函数

可以看作以T为计算周期的

函数折算到当前时刻的加权和，其中γ为时间折扣因子，可取值为0.95；λ为优势折算系数，本实施例中可取值为0.9。

函数

上式中，

为了说明本申请的方法的有益效果，本申请以下提供了经本申请的联合对抗决策优化后验证效果，过程如下：

首先在学习效率上，本申请中对比了多智能体深度强化学习在空中对抗领域的典型方法，包括MAHPG、COMMNET、Qmix及DICG，验证场景均为4对4均势状态下的空中对抗博弈，从图3的累计得分曲线上可以看到，本申请提出的方法能够在400轮迭代(每轮迭代采样32000个博弈对抗样本片段)后，以显著优势领先其他主流方法。

其次，为了验证本申请提出的多无人机空间关联特征学习与时间关联特征演化学习的有效性，本申请中分别添加和取消相应功能后开展了实验验证，结论如表1所述的《添加/取消多无人机空间关联特征学习与时间关联特征演化学习功能的效果验证统计表》：

表1

从表1中可以看出，当采用2层空间关联特征学习的图神经网络和4单位时间切片的时间关联特征演化学习时，四对四均势对抗场景归一化后的累计得分均值为0.8049，对比取消本方法提出的两类时空特征学习方法有明显提升。同时，本方法的方差为0.0012，对比取消两类时空特征学习后的其他方法，其得分不确定性低了近一个数量级，得分更加稳定。

最后，为验证本申请的方法在实际多无人机协同对抗决策场景中的有效性，本申请中通过四对四空中对抗博弈场景开展了该方法的有效性验证，如图4中a～e所示，其历经的完整时间流程为：

·图4(a)中蓝机(B1-B4)多机协作，其空间关系为针对各自目标进攻关系相继打出压制弹；

·图4(b)中随着态势变化，红机(R1-R4)编队相继规避压制弹后发起进攻；

·图4(c)中蓝机捕获时间特征，将关系从进攻转为防御，但其中一架蓝机(B4)回转不及时被击落；

·图4(d)中空间关系继续随时间演变，一架红机(R1)雷达同时探测并跟踪两架敌机，突然向其中一架蓝机(B1)发射导弹并制导，另一架蓝机(B2)想回头支援，但回转不及时，被制导的蓝机被击落；

·图4(e)中最后四架(R1-R4)红机识别出当前多机协同对抗时空图应为针对蓝机目标的全面进攻关系，同时对最后一架蓝机(B3)发起进攻，并获得最终胜利。

案例分析证明，本申请的方法可以有效捕捉多无人机协同对抗决策的时间与空间特征关联关系，有效简化问题特征，并最终提升协同对抗决策效果。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。