CN115113642A - 一种多无人机时空关键特征自学习协同对抗决策方法 - Google Patents

一种多无人机时空关键特征自学习协同对抗决策方法 Download PDF

Info

Publication number
CN115113642A
CN115113642A CN202210624651.2A CN202210624651A CN115113642A CN 115113642 A CN115113642 A CN 115113642A CN 202210624651 A CN202210624651 A CN 202210624651A CN 115113642 A CN115113642 A CN 115113642A
Authority
CN
China
Prior art keywords
time
unmanned aerial
decision
learning
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210624651.2A
Other languages
English (en)
Other versions
CN115113642B (zh
Inventor
朴海音
孙阳
詹光
冯勇明
杨晟琦
于津
樊松源
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Original Assignee
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC filed Critical Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority to CN202210624651.2A priority Critical patent/CN115113642B/zh
Publication of CN115113642A publication Critical patent/CN115113642A/zh
Application granted granted Critical
Publication of CN115113642B publication Critical patent/CN115113642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请提供了一种多无人机时空关键特征自学习协同对抗决策方法,该方法包括如下步骤:步骤一、将空中多无人机对抗问题抽象并简化为多关系时空动力学;步骤二、萃取多机协同对抗时空图中的关键空间关联关系:步骤三、时间关联特征演化学习;步骤四、联合对抗决策优化。本申请的方法可以有效捕捉多无人机协同对抗决策的时间与空间特征关联关系,有效简化问题特征,并最终提升协同对抗决策效果。

Description

一种多无人机时空关键特征自学习协同对抗决策方法
技术领域
本申请涉及管路连接技术领域,特别涉及一种低阻航空管路转向器。
背景技术
随着航空装备智能化的不断发展,现代空中对抗形态发生了巨大变革,无人机逐渐成为未来空中对抗的主角。相比于有人机,无人机可以摆脱对飞行员的高度依赖,突破人类飞行员的作战极限,其自主化对抗能力已经被证实高于人类水平。
现有的无人机自主对抗方法主要包括基于规则的专家系统方法、概率模型/模糊逻辑和计算智能混合方法、机器学习和深度强化学习方法。上述这些方法均在小规模自主对抗方面取得了一定的成绩,但在面向大规模自主对抗场景中效果并不理想。基于规则的专家系统完全依赖于人类飞行员预先定义的空中对抗规则数据库,但大规模自主对抗的策略很难进行抽象,其逻辑完备性较差;概率模型/模糊逻辑和计算智能混合方法需要专家构建概率推理网络或设计启发式的目标函数,无法覆盖所有的大规模自主对抗状态并且设计十分复杂困难;机器学习方法严重依赖数据样本,而大规模无人机自主对抗实战数据非常稀有甚至无法获得;深度强化学习方法通过无人类知识监督的自博弈强化学习训练,自动生成空中对抗的战术策略,但由于无人机自主对抗规模的增加使得解空间剧增,给战术策略的学习带来了一定困难。
因此,上述方法均不能较好的应用在大规模无人机自主对抗环境中。
发明内容
本申请的目的是提供了一种多无人机时空关键特征自学习协同对抗决策方法,以解决或减轻背景技术中的至少一个问题。
本申请的技术方案是:一种多无人机时空关键特征自学习协同对抗决策方法,包括:
步骤一、将空中多无人机对抗问题抽象并简化为多关系时空动力学,包括:
将多无人机协同对抗中动态时变的多种关系抽象为空中多无人机协调对抗对抗时空图
Figure BDA0003676428630000021
每个无人机为图节点
Figure BDA0003676428630000022
无人机之间的两两关系为图的边
Figure BDA0003676428630000023
将空中对抗博弈的完整时间历程T按照时间等分成多个等步长的时间切片ΔT,空中多无人机协同博弈对抗问题简化成图序列
Figure BDA0003676428630000024
其中
Figure BDA0003676428630000025
包含在第i个时间切片中存在的全部多图节点多关联边的特征输入矩阵;
步骤二、萃取多机协同对抗时空图中的关键空间关联关系,包括:
通过可学习的编码函数e(oi;ψ)将第i个图节点的特征输入向量oi编码为隐变量z,编码过程为z=e(oi;ψ),编码函数的待学习参数为ψ;
经图神经网络消息传递学习后的第l+1层次隐变量具备如下形式:
Figure BDA0003676428630000026
从而得到简短的空间特征向量子集;
步骤三、时间关联特征演化学习;
分别对友机
Figure BDA0003676428630000027
和敌机
Figure BDA0003676428630000028
上一时间切片的隐变量,综合二者各自的当前空间特征
Figure BDA0003676428630000029
Figure BDA00036764286300000210
采用两个长短周期循环记忆网络来分别对当前输出综合多步时间特征的向量
Figure BDA00036764286300000211
Figure BDA00036764286300000212
进行建模,从而得到多机协同对抗决策的时间变化特征;
步骤四、联合对抗决策优化
在时空关系图特征有效简化的基础上,承接输出的隐变量特征,采用多智能体近端优化策略开展多无人机协同对抗决策。
进一步的,简化第l+1层的隐变量的过程为:
通过选择多头点乘图注意力机制来具体实现上式中的函数f,在传播过程引入自注意力机制,每个节点的隐藏状态通过注意其邻居节点来计算;具体包括:
首先将第i层的隐变量z通过矩阵W映射为更为紧凑的特征
Figure BDA0003676428630000031
Figure BDA0003676428630000032
图注意力网络GAT由堆叠简单的图注意力层来实现,每一个注意力层对节点(i,j)的注意力系数
Figure BDA0003676428630000033
的计算方式为:
Figure BDA0003676428630000034
有了未归一化的注意力系数
Figure BDA0003676428630000035
通过Softmax函数归一化即可得到注意力权重,在Softmax函数之前额外增加LeakyRelLU激活函数实现非线性激活,即得到最终的节点i对节点j的图注意力系数
Figure BDA0003676428630000036
Figure BDA0003676428630000037
为了建模图节点之间可能存在的多种关联关系,通过采用经过激活函数σ处理后的K个点乘注意力的算术平均来拟合输出给下一个层次隐变量
Figure BDA0003676428630000038
的特征:
Figure BDA0003676428630000039
进一步的,向量
Figure BDA00036764286300000310
Figure BDA00036764286300000311
满足:
Figure BDA00036764286300000312
Figure BDA00036764286300000313
式中,θf和θo分别为两个长短周期循环记忆网络的待学习参数。
进一步的,两个所述长短周期循环记忆网络相互独立。
进一步的,所述采用多智能体近端优化策略方法开展多无人机协同对抗决策的过程包括:
确定优化目标函数为最小化损失
Figure BDA0003676428630000041
其中φ为待优化策略参数:
Figure BDA0003676428630000042
其中,
Figure BDA0003676428630000043
πφ为当前待更新的策略,
Figure BDA0003676428630000044
为采样时刻的决策策略;ot为多无人机联合特征输入向量,
Figure BDA0003676428630000045
为第k架无人机当前输出的决策行为;
Figure BDA0003676428630000046
为第k架无人机的近似优势函数;∈为信任域常量;
则最终损失函数
Figure BDA0003676428630000047
即为所述多智能体近端优化策略与熵正则化的加权综合,其中β为混合权重;
Figure BDA0003676428630000048
为第k架无人机的行为熵;
近似优势函数
Figure BDA0003676428630000049
看作以T为计算周期的
Figure BDA00036764286300000410
函数折算到当前时刻的加权和,其中γ为时间折扣因子;λ为优势折算系数;
函数
Figure BDA00036764286300000411
上式中,
Figure BDA00036764286300000412
为当前即时汇报,V(k)为第k架无人机的多步累计价值函数,s向量为n个无人机观测向量的并集。
进一步的,所述信任域常量∈取值范围为0.1~0.2。
进一步的,所述混合权重β取值为0.06~0.8。
进一步的,所述时间折扣因子γ取值为0.90~0.99。
进一步的,所述优势折算系数λ取值为0.8~0.9。
附图说明
为了更清楚地说明本申请提供的技术方案,下面将对附图作简单地介绍。显而易见地,下面描述的附图仅仅是本申请的一些实施例。
图1为本申请的空中多无人机对抗场景示意图。
图2为本申请的多无人机时空关键特征自学习协同对抗决策方法流程图。
图3为本申请的多无人机时空关键特征自学习协同对抗决策方法与其他方法学习效率对比曲线。
图4为本申请一实施例的四对四空中对抗博弈场景有效性案例分析。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。
为了解决背景技术中所致出的问题,本申请中提供了一种能够自动学习多无人机空中对抗博弈中的时间-空间特征的方法,并将经过学习后的关键特征进一步用于协同对抗决策优化,使得多无人机联合决策智能程序能够自动辨识大量特征输入中真正关键且与当前飞机具有密切联系的特征分量,并自动找到多个连续时间切片的关联关系,从而有效简化指数级增加的问题难度,将复杂的多无人机协同对抗态势映射为更为简短的时空抽象特征向量,并提升协同对抗决策效果。
如图1所示,在空中多无人机对抗场景中,每个无人机都存在与其他无人机特定的时空关系。在空间关系层面,无人机之间呈现出逐级相互依赖的多阶关系特征,例如在图1的时空B中,无人机B3正在进攻无人机R1,因此二者属于进攻与摆脱关系,这类关系为一阶关系。在此基础上,无人机R4正在支援无人机R1,二者属于支援与被支援关系,由于无人机B3和无人机R4都通过无人机R1发生了关联,因此二者间存在二阶关系。相应的,在时间关系层面,这种空间关系也会随着时间推移而不断演变。例如在图1的时空C中,无人机R1已被无人机B3击落,因此原有的攻防空间关系就不复存在了。
为了捕捉这种多无人机协同对抗中动态时变的多种关系,本申请中采用图神经网络来建模还原上述问题,将上述问题抽象为多无人机协同对抗时空图
Figure BDA0003676428630000061
在多无人机协同对抗时空图中,每个无人机被定义为图节点
Figure BDA0003676428630000062
而无人机之间的两两关系则被定义为图的边
Figure BDA0003676428630000063
考虑到多重关系的存在,本申请中允许任一图节点与其他图节点之间存在多条关联边。初始的图结构可以被表示为图节点特征输入矩阵形式
Figure BDA0003676428630000064
其中
Figure BDA0003676428630000065
表示其中每个无人机的局部相对观测向量。此外,本申请中具备多种关联关系的图节点特征输入矩阵定义了图邻接矩阵
Figure BDA0003676428630000066
其中
Figure BDA0003676428630000067
量化了图节点i和图节点j之间特定的关联强度(vi,vj)∈ε。同时,为了捕捉场景中空间关系随时间的演变,本申请中将空中对抗博弈的完整时间历程T按照时间等分成多个等步长的时间切片ΔT。因此原多机协同空中博弈对抗问题即被简化成图序列
Figure BDA0003676428630000068
其中
Figure BDA0003676428630000069
包含在第i个时间切片中存在的全部多图节点多关联边的特征输入矩阵。在这样的刻画下,本申请将原空中多无人机对抗问题抽象并简化为多关系时空动力学。
在此基础上,如图2所示,本申请进一步提出多无人机时空关键特征自学习协同对抗决策方法可以分为下述三个步骤:
步骤一、多无人机空间关联特征学习
该步骤的主要目的是萃取多机协同对抗时空图中的关键空间关联关系,具体过程包括:
首先通过可学习的编码函数e(oi;ψ)将第i个图节点的特征输入向量Oi编码为隐变量z,该编码函数的待学习参数为ψ,编码过程为:
z=e(oi;ψ)
在此基础上,经进一步图神经网络消息传递学习后的第l+1层次(即下一层次)具备如下形式:
Figure BDA00036764286300000710
通过选择多头点乘图注意力机制来具体实现上式中的函数f,在传播过程引入自注意力(Self-Attention)机制,每个节点的隐藏状态通过注意其邻居节点来计算。图注意力可以较好地拟合图节点之间真正重要的关联关系,从而极大地减轻当前决策的无人机关注的特征输入矩阵的复杂度。
首先将第i层的隐变量z通过矩阵W映射为更为紧凑的特征
Figure BDA0003676428630000071
Figure BDA0003676428630000072
图注意力网络(Graph Attention Network,GAT)由堆叠简单的图注意力层(GraphAttention Layer)来实现,每一个注意力层对节点(i,j)的注意力系数
Figure BDA0003676428630000073
的计算方式为:
Figure BDA0003676428630000074
有了注意力系数
Figure BDA0003676428630000075
(未归一化),通过Softmax函数归一化即可得到注意力权重,在Softmax函数之前额外增加LeakyRelLU激活函数实现非线性激活,即得到最终的节点i对节点j的图注意力系数
Figure BDA0003676428630000076
Figure BDA0003676428630000077
进而,为了建模图节点之间可能存在的多种关联关系(多重边),通过采用经过激活函数σ处理后的K个点乘注意力的算术平均来拟合输出给下一个层次隐变量
Figure BDA0003676428630000078
的特征:
Figure BDA0003676428630000079
经过上述多无人机空间关联特征学习,可以将复杂的多机关联特征输入向量简化为最需要关注的更为简短的空间特征向量子集,接下来还需要找到多个时间切片对应的时间关联特征。
步骤二、时间关联特征演化学习
为捕捉空中对抗博弈的时间变化特性,分别对友机
Figure BDA0003676428630000081
和敌机
Figure BDA0003676428630000082
上一时间切片的隐变量,综合二者各自的当前空间特征
Figure BDA0003676428630000083
Figure BDA0003676428630000084
采用两个独立的长短周期循环记忆(LSTM)网络来分别对当前输出综合多步时间特征的向量
Figure BDA0003676428630000085
Figure BDA0003676428630000086
进行建模,其中θf和θo分别为两个分立LSTM的待学习参数:
Figure BDA0003676428630000087
Figure BDA0003676428630000088
经上式处理的时间特征,融合了前序多步的图关联关系特征,从而能够更好地刻画多机协同对抗决策的时间变化特征。
步骤三、联合对抗决策优化
在时空关系图特征有效简化的基础上,承接输出的隐变量特征,进一步开展多无人机协同对抗决策。优化方法采用多智能体近端优化策略,其优化目标函数为最小化损失
Figure BDA0003676428630000089
其中φ为待优化策略参数:
Figure BDA00036764286300000810
其中,
Figure BDA00036764286300000811
πφ为当前待更新的策略,
Figure BDA00036764286300000812
为采样时刻的决策策略;ot为多无人机联合特征输入向量,
Figure BDA00036764286300000813
为第k架无人机当前输出的决策行为;
Figure BDA00036764286300000814
为第k架无人机的近似优势函数;∈为信任域常量,本实施例中可取值为0.1。
则最终损失函数
Figure BDA00036764286300000815
即为上述多智能体近端优化策略与熵正则化的加权综合,其中β为混合权重,本实施例中可取值为0.07;
Figure BDA0003676428630000091
为第k架无人机的行为熵。
近似优势函数
Figure BDA0003676428630000092
可以看作以T为计算周期的
Figure BDA0003676428630000093
函数折算到当前时刻的加权和,其中γ为时间折扣因子,可取值为0.95;λ为优势折算系数,本实施例中可取值为0.9。
函数
Figure BDA0003676428630000094
上式中,
Figure BDA0003676428630000095
为当前即时汇报,V(k)为第k架无人机的多步累计价值函数,s向量为n个无人机观测向量的并集。
为了说明本申请的方法的有益效果,本申请以下提供了经本申请的联合对抗决策优化后验证效果,过程如下:
首先在学习效率上,本申请中对比了多智能体深度强化学习在空中对抗领域的典型方法,包括MAHPG、COMMNET、Qmix及DICG,验证场景均为4对4均势状态下的空中对抗博弈,从图3的累计得分曲线上可以看到,本申请提出的方法能够在400轮迭代(每轮迭代采样32000个博弈对抗样本片段)后,以显著优势领先其他主流方法。
其次,为了验证本申请提出的多无人机空间关联特征学习与时间关联特征演化学习的有效性,本申请中分别添加和取消相应功能后开展了实验验证,结论如表1所述的《添加/取消多无人机空间关联特征学习与时间关联特征演化学习功能的效果验证统计表》:
表1
Figure BDA0003676428630000096
Figure BDA0003676428630000101
从表1中可以看出,当采用2层空间关联特征学习的图神经网络和4单位时间切片的时间关联特征演化学习时,四对四均势对抗场景归一化后的累计得分均值为0.8049,对比取消本方法提出的两类时空特征学习方法有明显提升。同时,本方法的方差为0.0012,对比取消两类时空特征学习后的其他方法,其得分不确定性低了近一个数量级,得分更加稳定。
最后,为验证本申请的方法在实际多无人机协同对抗决策场景中的有效性,本申请中通过四对四空中对抗博弈场景开展了该方法的有效性验证,如图4中a~e所示,其历经的完整时间流程为:
·图4(a)中蓝机(B1-B4)多机协作,其空间关系为针对各自目标进攻关系相继打出压制弹;
·图4(b)中随着态势变化,红机(R1-R4)编队相继规避压制弹后发起进攻;
·图4(c)中蓝机捕获时间特征,将关系从进攻转为防御,但其中一架蓝机(B4)回转不及时被击落;
·图4(d)中空间关系继续随时间演变,一架红机(R1)雷达同时探测并跟踪两架敌机,突然向其中一架蓝机(B1)发射导弹并制导,另一架蓝机(B2)想回头支援,但回转不及时,被制导的蓝机被击落;
·图4(e)中最后四架(R1-R4)红机识别出当前多机协同对抗时空图应为针对蓝机目标的全面进攻关系,同时对最后一架蓝机(B3)发起进攻,并获得最终胜利。
案例分析证明,本申请的方法可以有效捕捉多无人机协同对抗决策的时间与空间特征关联关系,有效简化问题特征,并最终提升协同对抗决策效果。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种多无人机时空关键特征自学习协同对抗决策方法,其特征在于,包括:
步骤一、将空中多无人机对抗问题抽象并简化为多关系时空动力学,包括:
将多无人机协同对抗中动态时变的多种关系抽象为空中多无人机协调对抗对抗时空图
Figure FDA0003676428620000011
每个无人机为图节点
Figure FDA0003676428620000012
无人机之间的两两关系为图的边
Figure FDA0003676428620000013
将空中对抗博弈的完整时间历程T按照时间等分成多个等步长的时间切片ΔT,空中多无人机协同博弈对抗问题简化成图序列
Figure FDA0003676428620000014
其中
Figure FDA0003676428620000015
包含在第i个时间切片中存在的全部多图节点多关联边的特征输入矩阵;
步骤二、萃取多机协同对抗时空图中的关键空间关联关系,包括:
通过可学习的编码函数e(oi;ψ)将第i个图节点的特征输入向量oi编码为隐变量z,编码过程为z=e(oi;ψ),编码函数的待学习参数为ψ;
经图神经网络消息传递学习后的第l+1层次隐变量具备如下形式:
Figure FDA0003676428620000016
从而得到简短的空间特征向量子集;
步骤三、时间关联特征演化学习;
分别对友机
Figure FDA0003676428620000017
和敌机
Figure FDA0003676428620000018
上一时间切片的隐变量,综合二者各自的当前空间特征
Figure FDA0003676428620000019
Figure FDA00036764286200000110
采用两个长短周期循环记忆网络来分别对当前输出综合多步时间特征的向量
Figure FDA00036764286200000111
Figure FDA00036764286200000112
进行建模,从而得到多机协同对抗决策的时间变化特征;
步骤四、联合对抗决策优化
在时空关系图特征有效简化的基础上,承接输出的隐变量特征,采用多智能体近端优化策略开展多无人机协同对抗决策。
2.如权利要求1所述的无人机时空关键特征自学习协同对抗决策方法,其特征在于,简化第l+1层的隐变量的过程为:
通过选择多头点乘图注意力机制来具体实现上式中的函数f,在传播过程引入自注意力机制,每个节点的隐藏状态通过注意其邻居节点来计算;具体包括:
首先将第i层的隐变量z通过矩阵W映射为更为紧凑的特征
Figure FDA0003676428620000021
Figure FDA0003676428620000022
图注意力网络GAT由堆叠简单的图注意力层来实现,每一个注意力层对节点(i,j)的注意力系数
Figure FDA0003676428620000023
的计算方式为:
Figure FDA0003676428620000024
有了未归一化的注意力系数
Figure FDA0003676428620000025
通过Softmax函数归一化即可得到注意力权重,在Softmax函数之前额外增加LeakyRelLU激活函数实现非线性激活,即得到最终的节点i对节点j的图注意力系数
Figure FDA0003676428620000026
Figure FDA0003676428620000027
为了建模图节点之间可能存在的多种关联关系,通过采用经过激活函数σ处理后的K个点乘注意力的算术平均来拟合输出给下一个层次隐变量
Figure FDA0003676428620000028
的特征:
Figure FDA0003676428620000029
3.如权利要求1所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,向量
Figure FDA00036764286200000210
Figure FDA00036764286200000211
满足:
Figure FDA00036764286200000212
Figure FDA00036764286200000213
式中,θf和θo分别为两个长短周期循环记忆网络的待学习参数。
4.如权利要求3所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,两个所述长短周期循环记忆网络相互独立。
5.如权利要求3所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,所述采用多智能体近端优化策略方法开展多无人机协同对抗决策的过程包括:
确定优化目标函数为最小化损失
Figure FDA0003676428620000031
其中φ为待优化策略参数:
Figure FDA0003676428620000032
其中,
Figure FDA0003676428620000033
πφ为当前待更新的策略,
Figure FDA00036764286200000312
为采样时刻的决策策略;ot为多无人机联合特征输入向量,
Figure FDA0003676428620000034
为第k架无人机当前输出的决策行为;
Figure FDA0003676428620000035
为第k架无人机的近似优势函数;∈为信任域常量;
则最终损失函数
Figure FDA0003676428620000036
即为所述多智能体近端优化策略与熵正则化的加权综合,其中β为混合权重;
Figure FDA0003676428620000037
为第k架无人机的行为熵;
近似优势函数
Figure FDA0003676428620000038
看作以T为计算周期的
Figure FDA0003676428620000039
函数折算到当前时刻的加权和,其中γ为时间折扣因子;λ为优势折算系数;
函数
Figure FDA00036764286200000310
上式中,
Figure FDA00036764286200000311
为当前即时汇报,V(k)为第k架无人机的多步累计价值函数,s向量为n个无人机观测向量的并集。
6.如权利要求5所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,所述信任域常量∈取值范围为0.1~0.2。
7.如权利要求5所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,所述混合权重β取值为0.06~0.8。
8.如权利要求5所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,所述时间折扣因子γ取值为0.90~0.99。
9.如权利要求5所述的多无人机时空关键特征自学习协同对抗决策方法,其特征在于,所述优势折算系数λ取值为0.8~0.9。
CN202210624651.2A 2022-06-02 2022-06-02 一种多无人机时空关键特征自学习协同对抗决策方法 Active CN115113642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210624651.2A CN115113642B (zh) 2022-06-02 2022-06-02 一种多无人机时空关键特征自学习协同对抗决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210624651.2A CN115113642B (zh) 2022-06-02 2022-06-02 一种多无人机时空关键特征自学习协同对抗决策方法

Publications (2)

Publication Number Publication Date
CN115113642A true CN115113642A (zh) 2022-09-27
CN115113642B CN115113642B (zh) 2023-06-20

Family

ID=83327040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210624651.2A Active CN115113642B (zh) 2022-06-02 2022-06-02 一种多无人机时空关键特征自学习协同对抗决策方法

Country Status (1)

Country Link
CN (1) CN115113642B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030570A1 (en) * 2002-04-22 2004-02-12 Neal Solomon System, methods and apparatus for leader-follower model of mobile robotic system aggregation
US20170221368A1 (en) * 2014-10-22 2017-08-03 SZ DJI Technology Co., Ltd. Method and device for setting a flight route
CN111898201A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
US20210405660A1 (en) * 2020-03-03 2021-12-30 Institute Of Automation, Chinese Academy Of Sciences Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
CN113962013A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 飞行器对抗决策方法及装置
CN114327935A (zh) * 2021-12-09 2022-04-12 北京邮电大学 一种通信敏感的多智能体协同方法
CN114460959A (zh) * 2021-12-15 2022-05-10 北京机电工程研究所 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030570A1 (en) * 2002-04-22 2004-02-12 Neal Solomon System, methods and apparatus for leader-follower model of mobile robotic system aggregation
US20170221368A1 (en) * 2014-10-22 2017-08-03 SZ DJI Technology Co., Ltd. Method and device for setting a flight route
US20210405660A1 (en) * 2020-03-03 2021-12-30 Institute Of Automation, Chinese Academy Of Sciences Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
CN111898201A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113962013A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 飞行器对抗决策方法及装置
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN114327935A (zh) * 2021-12-09 2022-04-12 北京邮电大学 一种通信敏感的多智能体协同方法
CN114460959A (zh) * 2021-12-15 2022-05-10 北京机电工程研究所 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王岳环 等: "基于图像理解和意图识别的多Agent自主协同方法" *

Also Published As

Publication number Publication date
CN115113642B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
Kahraman et al. Dynamic FDB selection method and its application: modeling and optimizing of directional overcurrent relays coordination
Luo et al. Scalable differential privacy with sparse network finetuning
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
Teng et al. A GRU‐Based Method for Predicting Intention of Aerial Targets
CN116861239A (zh) 一种联邦学习方法和系统
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN114519190A (zh) 基于贝叶斯网络攻击图的多目标网络安全动态评估方法
CN114757362A (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
CN116187169A (zh) 基于动态贝叶斯网络的无人机集群意图推断算法及系统
Liu et al. Multi‐UUV Cooperative Dynamic Maneuver Decision‐Making Algorithm Using Intuitionistic Fuzzy Game Theory
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
CN115834153A (zh) 一种基于节点投票机制的图神经网络模型黑盒攻击装置及方法
Zhao et al. Deep Reinforcement Learning‐Based Air Defense Decision‐Making Using Potential Games
CN115113642A (zh) 一种多无人机时空关键特征自学习协同对抗决策方法
CN116846592A (zh) 一种基于攻防博弈模型的智能化决策系统及方法
CN117114622A (zh) 一种基于模型和强化学习方法的智能体分布式协同方法
CN115909027B (zh) 一种态势估计方法及装置
CN116579430A (zh) 一种求解网络攻防博弈精炼bne的方法及系统
CN116165886A (zh) 多传感器智能协同控制方法、装置、设备及介质
CN115984667A (zh) 一种基于Fisher信息的对抗训练泛化能力提升方法
Wang et al. Online adversarial distillation for graph neural networks
CN115952493A (zh) 一种黑盒模型的逆向攻击方法、攻击装置以及存储介质
Li et al. Three‐way decision of target threat decision making based on adaptive threshold algorithms
Zhou et al. Semi-supervised meta-learning via self-training
CN114491889A (zh) 一种作战体系网络关键节点识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant