CN116757497B - 基于图类感知Transformer的多模态军事智能辅助作战决策方法 - Google Patents
基于图类感知Transformer的多模态军事智能辅助作战决策方法 Download PDFInfo
- Publication number
- CN116757497B CN116757497B CN202310688374.6A CN202310688374A CN116757497B CN 116757497 B CN116757497 B CN 116757497B CN 202310688374 A CN202310688374 A CN 202310688374A CN 116757497 B CN116757497 B CN 116757497B
- Authority
- CN
- China
- Prior art keywords
- graph
- sub
- combat
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008447 perception Effects 0.000 title claims abstract description 24
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 76
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000012512 characterization method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图类感知Transformer的多模态军事智能辅助作战决策的方法,包括以下步骤:S1、模拟作战环境,获取环境信息;S2、构建多智能体的全局图结构以及子图结构;S3、基于图卷积神经网络提取节点特征;S4、基于预训练CLIP模型中获得图像、文本模态的特征,其次根据图文语义相似度更新特征图得到图文匹配表征;S5、基于Transformer网络学习智能体表征,获取智能体嵌入向量;S6、根据智能体嵌入向量计算Q值,基于DQN算法确定作战决策;本发明设计了有效的网络结构对多个作战智能体进行表征学习,并且基于智能体合作对抗关系得出更先进的作战策略,解决了军事作战情况中混合合作以及竞争任务的关键性难点,面对不同场景的战场结构仍可适用,可泛化能力强。
Description
技术领域
本发明涉及军事智能指挥决策领域,具体而言涉及一种基于图类感知Transformer的多模态军事智能辅助作战决策方法。
背景技术
军事智能化是军事信息化发展的必然阶段,尤其在当前高度现代化的战场环境下,作战不仅仅依靠武器装备的先进程度,更在于如何基于当前的战场环境例如目标的类型、位置,我方战机储备等信息统筹规划作战策略,精准控制兵力,做出收益最大化的指挥决策。随着人工智能的发展,结合深度神经网络的强化学习逐渐兴起,在智能游戏博弈中已经达到了人类水平或者具有更高的表现,如AlphaGo战胜高水平人类棋手。这证实了深度学习以及强化学习在真实博弈场景中有极大的潜力,这吸引了大量研究者的注意,人们开始探索如何利用深度强化学习算法框架以解决更加复杂以及大规模的博弈问题,例如辅助作战决策等。
目前在军事智能领域,深度学习常用于战场数据的分析处理,生成语义理解更丰富的多维特征映射,增强对战场的态势感知等;而强化学习通过最大化智能体获得的奖励值来学习一个最优策略。然而,现代战场变化波谲云诡,战场环境高度复杂化,智能体之间存在合作竞争、互利互赢等关系,这对于训练一个成熟的框架是一个极大的考验;不仅如此,许多现存的模型不能转移到具有不同目标,不同数量的智能体的任务,泛化能力弱。因此,本发明提出基于图类感知Transformer的多模态军事智能辅助作战决策方法来解决上述问题。
发明内容
为解决上述问题,本发明目的在于推动军事作战决策智能化,提出一种基于图类感知Transformer的多模态军事智能辅助作战决策方法,解决了现有作战决策训练框架不够成熟以及许多现存的模型不能转移到具有不同目标、不同数量的智能体的任务和泛化能力弱的问题,本发明通过搭建全局图结构以及子图结构,利用图卷积网络以及图注意力机制获得智能体表征,并利用Transformer提取类感知的智能体高阶语义特征,旨在获得多模态融合特征,,更好的进行下一步作战动作决策,为作战智能体提供了新型的动作执行方法,辅助军事智能作战决策。
为达成上述目的,本发明提供如下技术方案:本发明提出一种基于图类感知Transformer的多模态军事智能辅助作战决策方法,包括以下步骤:
S1、模拟作战环境,获取作战智能体位置,战场感知态势信息,战场感知态势信息包括智能体储备、基地、以及战场地理环境、水文条件的图像模态数据和媒体相关报导、战场信息描述的文本模态数据;
S2、根据智能体属性,建立节点边关系,构建全局图结构以及子图结构;
S3、基于图卷积神经网络分别对全局图结构提取节点表征V,对子图结构提取类感知节点表征;
S4、将图像、文本模态数据分别输入基于预训练CLIP模型中获得图像、文本模态的特征,其次根据图文语义相似度更新特征图得到图文匹配表征;
S5、跨模态的图文匹配表征作为Transformer网络的引导特征,得到的全新的Q、K和V节点特征以及位置表示输入Transformer层,获取智能体嵌入向量o;
S6、根据智能体嵌入向量o计算Q值,基于DQN算法确定作战决策。
优选的,步骤S1包括:
S11、借助Gym库接口,模拟一个作战环境,其内容包括智能体数量、智能体属性,智能体属性包括敌方友方以及不执行动作但参与作战的地形组件或障碍物、作战单元、以及武器系统参数;
S12、设置环境参数。
优选的,S2包括以下子步骤:
S21、将智能体视作顶点,基于智能体属性构建智能体的初始表征;
S22、根据模拟作战环境的设置、智能体位置信息,以及距离感知范围,判断两个智能体间若能够互相联系或互相侦察,则视为这两个节点存在边与之相连,构建全局图结构;
S23、根据设定的先验信息,将全局图结构分成基于智能体类别的子图结构。
优选的,S3包括以下子步骤:
S31、构建两个不同的图卷积神经网络,分别对全局图结构以及子图结构进行节点特征提取;
S32、对于全局图结构,分别将顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵输入图卷积神经网络中,得到全局图结构节点特征V;
S33、对于每一个子图结构,分别将子图的顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵输入图卷积神经网络中,得到第i类子图结构节点特征hi;
S34、再根据图注意力机制,计算图类间注意力;
S35、基于上述计算得到的图类间注意力,对每个子图结构节点特征hi进行加权求和,得到子图结构的类感知节点表征。
优选的,S4包括以下子步骤:
S41、加载预训练的CLIP模型,将图像、文本模态数据分别输入至图像编码器以及文本编码器中,得到图像特征v和文本特征u;
S42、将图像特征v和文本特征u进行相似度计算,其计算公式表示如下:
其中,u表示文本特征,v表示图像特征,表示特征vj的转置;
S43、显式自适应地构建图像、文本匹配和不匹配片段的相似度分布,并且最大程度分离它们。
优选的,S43包括以下子步骤:
S431、分别对匹配的图像、文本以及对不匹配的图像、文本对进行相似度采样,并表示为
S432、计算匹配相似度以及不匹配相似度/>的概率分布,其计算公式分别如下:
其中,分别表示两个分布的均值和标准差;
S433、根据统计学知识,通过引入一个惩罚函数,学习一个能够最大化区分两个分布的最佳边界;
S434、基于学习到的边界t,更新相似度系数,得到最终图文匹配表征。
优选的,S5包括以下子步骤:
S51、搭建Transformer网络,其中包含了注意力机制融合模块、前馈神经网络以及归一化操作;
S52、对于注意力机制、V(Value)为全图特征、Q(Query)和K(Key)为子图结构的类感知的子图特征,构建全局子图-局部子图的融合特征,其公式表示如下:
其中,是缩放因子,该式得到了全局子图-局部子图的融合特征Attention(Q,K,V);
S53、将图文匹配表征引入Transformer网络中作为新的K(Key)和V(Value),将全局子图-局部子图的融合特征Attention(Q,K,V)引入Transformer网络中作为新的Q(Query),再通过交叉注意力机制得到多模态融合特征;
S54、得到的多模态融合特征依次经过归一化层、前馈神经网络以及另一个归一化层,经过整个Transformer结构的运算,得到全图新的特征矩阵X′,其中,N为智能体个数,由此通过全图新的特征矩阵X′得到每个智能体嵌入向量o,/>优选的,S6包括如下子步骤:
S61、基于经典强化学习DQN算法,将每个智能体的嵌入向量o作为状态s输入至Q网络(Q-Network)中,并输出网络预测的Q值,该输出包含每一个可能动作的Q值;
Q(s,a,w)≈f(o,w);
其中,s表示状态,a表示动作,w表示网络参数,f()表示用来近似价值函数的Q网络;
S62、根据当前时刻的动作以及下个时刻的态势计算目标Q值,并计算损失函数,目标Q值和损失函数公式表示如下:
Loss(w)=E(QTarget-Q(s,a,w));
其中,r表示执行该动作得到的奖励,s′,a′为下一个状态和动作,γ为人为设定的超参数;
S63、根据梯度下降策略更新Q网络参数,直至迭代完成或收敛。
由上述技术方案,本发明提供了基于图类感知Transformer的多模态军事智能辅助作战决策方法,至少具备以下有益效果:
本发明的方法引入了全局图结构以及子图结构,实现了战场多智能体的感知态势以及抽象特征表示,同时考虑了智能体之间的状态依赖关系,利用图卷积网络以及图注意力机制,高效访问了智能体间的竞争合作关系,并将全局图结构节点特征以及子图结构类感知节点表征特征输入至Transformer模型,以此生成更高级的智能体语义特征,旨在获得多模态融合特征,更好的进行下一步动作决策,并实现了图神经网络与Transformer的融合;该方法设计了有效的网络结构对多个作战智能体进行表征学习,并且基于智能体合作对抗关系得出更先进的作战策略,解决了军事作战情况中混合合作以及竞争任务的关键性难点,为作战智能体提供了新型的动作执行方法,辅助军事智能作战决策。面对不同场景的战场结构仍可适用,可泛化能力强。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的基于图类感知Transformer的多模态军事智能辅助作战决策方法的实施总体流程图;
图2是本发明的基于图类感知Transformer的多模态军事智能辅助作战决策方法的整体架构图;
图3是本发明中基于CLIP的图文匹配特征表示网络结构图;
图4是本发明中提取类感知节点特征的网络层次图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
请参阅图1-图4,示出了本实施例的一种具体实施方式,本发明通过构建全局图结构以及子图结构并将全局图结构节点特征以及子图结构类感知节点表征特征输入至Transformer模型,以此生成更高级的智能体语义特征,旨在获得多模态融合特征,更好的进行下一步动作决策,并实现了图神经网络与Transformer的融合;解决了军事作战情况中混合合作以及竞争任务的关键性难点,为作战智能体提供了新型的动作执行方法。
请参照图1,本实施例提出了基于图类感知Transformer的多模态军事智能辅助作战决策方法,包括如下步骤:
S1、模拟作战环境,获取作战智能体位置,战场感知态势信息,战场感知态势信息包括智能体储备、基地、以及战场地理环境、水文条件的图像模态数据和媒体相关报导、战场信息描述的文本模态数据;
具体的,S1包括以下子步骤:
S11、借助Gym库接口,模拟一个作战环境,其内容包括智能体数量、智能体属性,智能体属性包括敌方友方以及不执行动作但参与作战的地形组件或障碍物、作战单元、以及武器系统参数;
S12、设置环境参数。
S2、根据智能体属性,建立节点边关系,构建全局图结构以及子图结构;
具体的,S2包括以下子步骤:
S21、将智能体视作顶点,基于智能体属性构建智能体的初始表征;
S22、根据模拟作战环境的设置、智能体位置信息,以及距离感知范围,判断两个智能体间若能够互相联系或互相侦察,则视为这两个节点存在边与之相连,构建全局图结构;
S23、根据设定的先验信息,将全局图结构分成基于智能体类别的子图结构。
S3、基于图卷积神经网络对全局图结构提取节点表征V,对子图结构提取类感知节点表征;
具体的,S3包括以下子步骤:
S31、构建两个不同的图卷积神经网络,分别对全局图结构以及子图结构进行节点特征提取;
S32、对于全局图结构,分别将全图的顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵输入图卷积神经网络中,得到全局图结构节点表征V,其公式表示如下:
其中,表示变换后的邻接矩阵,/>表示N个顶点的特征矩阵,W表示需要学习的参数矩阵,上式表示通过两个图卷积层进行训练;
S33、对于每一个子图结构,遵循上一步的计算方式,输入子图的顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵,得到第i类子图结构节点特征hi,其公式表示如下:
其中,表示变换后的邻接矩阵,/>表示Ni个顶点的特征矩阵,W表示需要学习的参数矩阵。
S34、再根据图注意力机制,计算图类间注意力,公式表示如下:
eij=f([Whi||Whj]);
其中,注意力系数eij表示第j类相对于第i类的重要程度,αij为归一化后的注意力系数;
S35、基于上述计算得到的图类间注意力,对每个子图结构节点特征hi进行加权求和,得到子图结构的类感知节点表征。
如图4所示,为本发明本实施例中提取类感知节点特征的网络层次图,将各类别的子图结构均通过图卷积网络得到第i类子图的特征hi,再根据图注意力机制,计算图类间注意力,其次对每个子图的特征进行加权求和,得到类感知节点表征作为Q和K输入Transformer中。
S4、将图像、文本模态数据分别输入基于预训练CLIP模型中获得图像、文本模态的特征,其次根据图文语义相似度更新特征图得到图文匹配表征;
具体的,S4包括以下子步骤:
S41、加载预训练的CLIP模型,将图像、文本模态数据分别输入至图像编码器以及文本编码器中,得到图像特征v和文本特征u;
S42、将图像特征v和文本特征u进行相似度计算,其计算公式表示如下:
其中,u表示文本特征,v表示图像特征,表示特征vj的转置;
S43、显式自适应地构建图像、文本匹配和不匹配片段的相似度分布,并且最大程度分离它们。
具体的,S43包括以下子步骤:
S431、分别对匹配的图像、文本以及对不匹配的图像、文本对进行相似度采样,并表示为
S432、计算匹配相似度以及不匹配相似度/>的概率分布,其计算公式分别如下:
其中,分别表示两个分布的均值和标准差;
S433、根据统计学知识,通过引入一个惩罚函数,学习一个能够最大化区分两个分布的最佳边界,惩罚函数表达如下:
其中,α为人为设定的超参数,E1表示真正匹配片段被错分成不匹配的片段,E2表示真正不匹配片段被错分成匹配的片段。
S434、基于学习到的边界t,更新相似度系数,得到最终图文匹配表征。
如图3所示,为本发明本实施例中基于CLIP的图文匹配特征表示网络结构图,将图像、文本模态数据分别输入至图像编码器CLIP-I以及文本编码器CLIP-T中,得到图像特征v和文本特征u,然后将图像特征v和文本特征u进行相似度计算,分别对匹配的图像、文本以及对不匹配的图像、文本对进行相似度采样,计算匹配相似度以及不匹配相似度的概率分布,通过引入一个惩罚函数,再基于学习到的边界t,更新相似度系数,得到最终图文匹配表征,以此生成更高级的智能体语义特征。
S5、跨模态的图文匹配表征作为Transformer网络的引导特征,得到的全新的Q、K和V节点特征以及位置表示输入Transformer层,获取智能体嵌入向量o;
具体的,S5包括以下子步骤:
S51、搭建Transformer网络,其中包含了注意力机制融合模块、前馈神经网络以及归一化操作;
S52、对于注意力机制、V(Value)为全图特征、Q(Query)和K(Key)为子图结构的类感知节点表征,构建全局子图-局部子图的融合特征,其公式表示如下:
其中,是缩放因子,该式得到了全局子图-局部子图的融合特征Attention(Q,K,V);
S53、将图文匹配表征引入Transformer网络中作为新的K(Key)和V(Value),将全局子图-局部子图的融合特征Attention(Q,K,V)引入Transformer网络中作为新的Q(Query),再通过交叉注意力机制得到多模态融合特征;
S54、得到的多模态融合特征依次经过归一化层、前馈神经网络以及另一个归一化层,经过整个Transformer结构的运算,得到全图新的特征矩阵X′,其中,N为智能体个数,由此通过全图新的特征矩阵X′得到每个智能体嵌入向量o,/>
如图2所示,为本发明本实施例中基于图类感知Transformer的多模态军事智能辅助作战决策方法的整体架构图,通过S4中得到的图文匹配表征引入Transformer网络中作为新的K和V,将全局子图-局部子图的融合特征Attention(Q,K,V)引入Transformer网络中作为新的Q,再通过交叉注意力机制得到多模态融合特征,得到的多模态融合特征依次经过归一化层、前馈神经网络以及另一个归一化层,经过整个Transformer结构的运算,得到全图新的特征矩阵通过全图新的特征矩阵X′得到每个智能体嵌入向量o。
S6、根据智能体嵌入向量o计算Q值,基于DQN算法确定作战决策。
具体的,S6包括如下子步骤:
S61、基于经典强化学习DQN算法,将每个智能体的嵌入向量o作为状态s输入至Q网络(Q-Network)中,并输出网络预测的Q值,该输出包含每一个可能动作的Q值;
Q(s,a,w)≈f(hi,w);
其中,s表示状态,a表示动作,w表示网络参数,f()表示用来近似价值函数的Q网络;
S62、根据当前时刻的动作以及下个时刻的态势计算目标Q值,并计算损失函数,目标Q值和损失函数的公式表示分别如下:
L(w)=E(QTarget-Q(s,a,w));
其中,r表示执行该动作得到的奖励,s′,a′为下一个状态和动作,γ为人为设定的超参数;
S63、根据梯度下降策略更新Q网络参数,直至迭代完成或收敛。
本发明设计了有效的网络结构对多个作战智能体进行表征学习,并且基于智能体合作对抗关系得出更先进的作战策略,解决了现有作战决策训练框架不够成熟以及许多现存的模型不能转移到具有不同目标、不同数量的智能体的任务和泛化能力弱的问题,从而解决了军事作战情况中混合合作以及竞争任务的关键性难点,面对不同场景的战场结构仍可适用,可泛化能力强。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (8)
1.基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,包括以下步骤:
S1、模拟作战环境,获取作战智能体位置,战场感知态势信息,战场感知态势信息包括智能体储备、基地、以及战场地理环境、水文条件的图像模态数据和媒体相关报导、战场信息描述的文本模态数据;
S2、根据智能体属性,建立节点边关系,构建全局图结构以及子图结构;
S3、基于图卷积神经网络分别对全局图结构提取节点表征V,对子图结构提取类感知节点表征,对于每一个子图结构,分别将子图的顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵输入图卷积神经网络中,得到第i类子图结构节点特征hi;再根据图注意力机制,计算图类间注意力;基于上述计算得到的图类间注意力,对每个子图结构节点特征hi进行加权求和,得到子图结构的类感知节点表征,得到的类感知节点表征作为Q和K;
S4、将图像、文本模态数据分别输入基于预训练CLIP模型中获得图像、文本模态的特征,其次根据图文语义相似度更新特征图得到图文匹配表征;
S5、跨模态的图文匹配表征作为Transformer网络的引导特征,搭建Transformer网络,其中包含了注意力机制融合模块、前馈神经网络以及归一化操作;对于注意力机制、V(Value)为全图特征、Q(Query)和K(Key)为子图结构的类感知的子图特征,构建全局子图-局部子图的融合特征Attention(Q,K,V),其公式表示如下:
其中,是缩放因子,该式得到了全局子图-局部子图的融合特征Attention(Q,K,V);
将图文匹配表征引入Transformer网络中作为新的K(Key)和V(Value),将全局子图-局部子图的融合特征Attention(Q,K,V)引入Transformer网络中作为新的Q(Query),再通过交叉注意力机制得到多模态融合特征;得到的全新的Q、K和V节点特征以及位置表示输入Transformer层,获取智能体嵌入向量o;
S6、根据智能体嵌入向量o计算Q值,基于DQN算法确定作战决策。
2.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,所述S1包括以下子步骤:
S11、借助Gym库接口,模拟一个作战环境,其内容包括智能体数量、智能体属性,智能体属性包括敌方友方以及不执行动作但参与作战的地形组件或障碍物、作战单元、以及武器系统参数;
S12、设置环境参数。
3.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,所述S2包括以下子步骤:
S21、将智能体视作顶点,基于智能体属性构建智能体的初始表征;
S22、根据模拟作战环境的设置、智能体位置信息,以及距离感知范围,判断两个智能体间若能够互相联系或互相侦察,则视为这两个节点存在边与之相连,构建全局图结构;
S23、根据设定的先验信息,将全局图结构分成基于智能体类别的子图结构。
4.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,在步骤S3中所述基于图卷积神经网络分别对全局图结构提取节点表征V,具体包括以下子步骤:
S31、构建两个不同的图卷积神经网络,分别对全局图结构以及子图结构进行节点特征提取;
S32、对于全局图结构,分别将顶点特征矩阵,边特征矩阵以及顶点连接情况的邻接矩阵输入图卷积神经网络中,得到全局图结构节点表征V。
5.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,所述S4包括以下子步骤:
S41、加载预训练的CLIP模型,将图像、文本模态数据分别输入至图像编码器以及文本编码器中,得到图像特征v和文本特征u;
S42、将图像特征v和文本特征u进行相似度计算,其计算公式表示如下:
其中,u表示文本特征,v表示图像特征,表示特征vj的转置;
S43、显式自适应地构建图像、文本匹配和不匹配片段的相似度分布,并且最大程度分离它们。
6.根据权利要求5所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,所述S43包括以下子步骤:
S431、分别对匹配的图像、文本以及对不匹配的图像、文本对进行相似度采样,并表示为
S432、计算匹配相似度以及不匹配相似度/>的概率分布,其计算公式分别如下:
其中,分别表示两个分布的均值和标准差;
S433、根据统计学知识,通过引入一个惩罚函数,学习一个能够最大化区分两个分布的最佳边界;
S434、基于学习到的边界t,更新相似度系数,得到最终图文匹配表征。
7.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,在S5中,所述获取智能体嵌入向量o具体包括:将得到的所述多模态融合特征依次经过归一化层、前馈神经网络以及另一个归一化层,经过整个Transformer结构的运算,得到全图新的特征矩阵X′,其中,N为智能体个数,由此通过全图新的特征矩阵X′得到每个智能体嵌入向量o,/>
8.根据权利要求1所述的基于图类感知Transformer的多模态军事智能辅助作战决策方法,其特征在于,所述S6包括如下子步骤:
S61、基于经典强化学习DQN算法,将每个智能体的嵌入向量o作为状态s输入至Q网络(Q-Network)中,并输出网络预测的Q值,该输出包含每一个可能动作的Q值;
Q(s,a,w)≈f(o,w);
其中,s表示状态,a表示动作,w表示网络参数,f()表示用来近似价值函数的Q网络;
S62、根据当前时刻的动作以及下个时刻的态势计算目标Q值,并计算损失函数,目标Q值和损失函数的公式表示分别如下:
L(w)=Ε(QTarget-Q(s,a,w));
其中,r表示执行该动作得到的奖励,s′,a′为下一个状态和动作,γ为人为设定的超参数;
S63、根据梯度下降策略更新Q网络参数,直至迭代完成或收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310688374.6A CN116757497B (zh) | 2023-06-12 | 2023-06-12 | 基于图类感知Transformer的多模态军事智能辅助作战决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310688374.6A CN116757497B (zh) | 2023-06-12 | 2023-06-12 | 基于图类感知Transformer的多模态军事智能辅助作战决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116757497A CN116757497A (zh) | 2023-09-15 |
CN116757497B true CN116757497B (zh) | 2024-01-12 |
Family
ID=87954617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310688374.6A Active CN116757497B (zh) | 2023-06-12 | 2023-06-12 | 基于图类感知Transformer的多模态军事智能辅助作战决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757497B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132864B (zh) * | 2023-10-27 | 2024-08-27 | 深圳品阔信息技术有限公司 | 多模态输入的数字人物生成方法、装置、设备及存储介质 |
CN117171712B (zh) * | 2023-11-03 | 2024-02-02 | 中关村科学城城市大脑股份有限公司 | 辅助信息生成方法、装置、电子设备和计算机可读介质 |
CN117409264B (zh) * | 2023-12-16 | 2024-03-08 | 武汉理工大学 | 基于transformer的多传感器数据融合机器人地形感知方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
US11227190B1 (en) * | 2021-06-29 | 2022-01-18 | Alipay (Hangzhou) Information Technology Co., Ltd. | Graph neural network training methods and systems |
CN114069608A (zh) * | 2021-10-19 | 2022-02-18 | 威胜信息技术股份有限公司 | 一种基于电压的分布式台区识别方法 |
CN114565261A (zh) * | 2022-02-24 | 2022-05-31 | 华中科技大学 | 基于gmqn的协同作战控制方法、系统、设备及介质 |
JP2022137145A (ja) * | 2021-07-12 | 2022-09-21 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | マルチモーダルデータ連合学習モデルトレーニング方法及び装置 |
CN115878811A (zh) * | 2022-10-31 | 2023-03-31 | 北京计算机技术及应用研究所 | 一种基于事理图谱的军事情报智能分析及推演方法 |
KR20230044834A (ko) * | 2021-09-27 | 2023-04-04 | 고려대학교 산학협력단 | 일반 상식 추론 기반의 언어 생성 장치 및 방법 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN116187787A (zh) * | 2023-04-25 | 2023-05-30 | 中国人民解放军96901部队 | 作战资源跨域调配问题的智能规划方法 |
CN116246279A (zh) * | 2022-12-28 | 2023-06-09 | 北京理工大学 | 一种基于clip背景知识的图文特征融合方法 |
CN116245009A (zh) * | 2022-12-15 | 2023-06-09 | 中国航空工业集团公司西安航空计算技术研究所 | 人机策略生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120176237A1 (en) * | 2011-01-12 | 2012-07-12 | Joseph Akwo Tabe | Homeland intelligence systems technology "h-list" and battlefield apparatus |
US11226945B2 (en) * | 2008-11-14 | 2022-01-18 | Georgetown University | Process and framework for facilitating information sharing using a distributed hypergraph |
-
2023
- 2023-06-12 CN CN202310688374.6A patent/CN116757497B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227190B1 (en) * | 2021-06-29 | 2022-01-18 | Alipay (Hangzhou) Information Technology Co., Ltd. | Graph neural network training methods and systems |
JP2022137145A (ja) * | 2021-07-12 | 2022-09-21 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | マルチモーダルデータ連合学習モデルトレーニング方法及び装置 |
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
KR20230044834A (ko) * | 2021-09-27 | 2023-04-04 | 고려대학교 산학협력단 | 일반 상식 추론 기반의 언어 생성 장치 및 방법 |
CN114069608A (zh) * | 2021-10-19 | 2022-02-18 | 威胜信息技术股份有限公司 | 一种基于电压的分布式台区识别方法 |
CN114565261A (zh) * | 2022-02-24 | 2022-05-31 | 华中科技大学 | 基于gmqn的协同作战控制方法、系统、设备及介质 |
CN115878811A (zh) * | 2022-10-31 | 2023-03-31 | 北京计算机技术及应用研究所 | 一种基于事理图谱的军事情报智能分析及推演方法 |
CN116245009A (zh) * | 2022-12-15 | 2023-06-09 | 中国航空工业集团公司西安航空计算技术研究所 | 人机策略生成方法 |
CN116246279A (zh) * | 2022-12-28 | 2023-06-09 | 北京理工大学 | 一种基于clip背景知识的图文特征融合方法 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN116187787A (zh) * | 2023-04-25 | 2023-05-30 | 中国人民解放军96901部队 | 作战资源跨域调配问题的智能规划方法 |
Non-Patent Citations (6)
Title |
---|
一种顾及空间语义的跨模态遥感影像检索技术;金 澄, 弋步荣, 曾志昊, 刘 扬, 陈 旭, 赵 裴, 康 栋;中国电子科学研究院学报(第4期);298-385 * |
基于OODA 环和动态图强化学习的作 战辅助决策研究;徐彬;知网优秀硕士论文网;10-54 * |
基于深度学习的气象环境下军事装备机动效能评估研究与实现;王瑾仪;中国知网;1-39 * |
强化学习驱动的海战场多智能体协同作战仿真算法;石鼎,燕雪峰,宫丽娜,张静宣,关东海,魏明强;系统仿真学报;第35卷(第4期);786-796 * |
陈卓 ; 杜昊 ; 吴雨菲 ; 徐童 ; 陈恩红 ; .基于视觉-文本关系对齐的跨模态视频片段检索.中国科学:信息科学.2020,(第06期),88-102. * |
陈卓 ; 杜昊 ; 吴雨菲 ; 徐童 ; 陈恩红 ; .基于视觉-文本关系对齐的跨模态视频片段检索.中国科学:信息科学.2022,(第06期),345-368. * |
Also Published As
Publication number | Publication date |
---|---|
CN116757497A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116757497B (zh) | 基于图类感知Transformer的多模态军事智能辅助作战决策方法 | |
CN112329348B (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
Gol et al. | A formal methods approach to pattern synthesis in reaction diffusion systems | |
CN112052948B (zh) | 一种网络模型压缩方法、装置、存储介质和电子设备 | |
CN111401132B (zh) | 监控场景下高层语义指导的行人属性识别方法 | |
CN110569033A (zh) | 一种数字化交易类智能合约基础代码生成方法 | |
Ahmadi et al. | Learning fuzzy cognitive maps using imperialist competitive algorithm | |
CN112052933B (zh) | 基于粒子群优化的深度学习模型的安全性测试方法和修复方法 | |
CN114037871A (zh) | 一种基于神经支持决策树的图像分类可解释方法 | |
CN112463987A (zh) | 一种中国古典园林知识图谱补全与认知推理方法 | |
Sun et al. | Intelligent decision-making and human language communication based on deep reinforcement learning in a wargame environment | |
CN117313795A (zh) | 一种基于改进dbo-lstm的智慧楼宇能耗预测方法 | |
Lin et al. | PopDMMO: A general framework of population-based stochastic search algorithms for dynamic multimodal optimization | |
US7788194B2 (en) | Method for controlling game character | |
Yan et al. | Strategy synthesis for zero-sum neuro-symbolic concurrent stochastic games | |
CA2016451C (en) | Apparatus and method for computer-aided decision making | |
CN116524316A (zh) | 强化学习框架下场景图骨架构建方法 | |
Lu et al. | Dynamic evolution analysis of desertification images based on BP neural network | |
CN115909027A (zh) | 一种态势估计方法及装置 | |
Jain et al. | A neuro-symbolic approach for multimodal reference expression comprehension | |
Chen et al. | Parametric Design of Office Furniture Partition Space Integrated with the Interactive Evolution Algorithm of FNT and Tree Structure | |
CN109816530A (zh) | 一种基于深度强化学习a3c算法的金融交易方法 | |
Huang et al. | Synthetic Data: Development Status and Prospects for Military Applications | |
Sun et al. | Research on a wargaming system for deep reinforcement learning | |
Chen et al. | Research on explainability methods for unmanned combat decision-making models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |