CN116842127B

CN116842127B - 一种基于多源动态数据的自适应辅助决策智能方法及系统

Info

Publication number: CN116842127B
Application number: CN202311107462.9A
Authority: CN
Inventors: 王丽婷; 陈青华; 宋超; 郑晓梅; 吕晓峰; 路翠华; 李福强
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-05
Anticipated expiration: 2043-08-31
Also published as: CN116842127A

Abstract

本发明公开了一种基于多源动态数据的自适应辅助决策智能方法及系统。包括：多源数据获取与处理模块，用于对己方传感器设备、如雷达传感器、红外传感器和可见光传感器获得的动态数据以及专家标注后的静态数据进行预处理；有效信息挖掘模块，通过视觉‑语言模型获取图像特征和文本特征，并通过位置引导的特征融合模块将同一目标的多源数据对应的图像特征融合，利用文本特征和融合后的图像特征进行目标识别；战场态势可视化模块，基于己方目标及其位置信息以及所识别的敌方目标及其位置信息，利用三维场景重建模型对战场态势进行可视化；战场态势预测，利用网络结构，通过目标的历史位置信息，预测其未来时刻的位置信息，从而预测整个未来战场态势。

Description

一种基于多源动态数据的自适应辅助决策智能方法及系统

技术领域

本发明涉及图像处理与分析领域，特别涉及一种基于多源动态数据的自适应辅助决策智能方法及系统。

背景技术

随着军事变革的继续深入，武器装备等硬件快速升级，主要体现为作战装备移动速度快和各类传感器传输速度快两个方面。这两个方面使得现代化战场具有数据量庞大和数据时效性强的特征。同时，在计算机、网络和通信技术发展的牵引下，现代化战争中填充的各类信息越来越庞杂。因此，如何充分且有效地利用战场信息，从而做出正确的决策，在现代化战争中越来越重要。

指挥员未来需要运用跨媒体数据融合技术，从海量数据中快速发掘支撑作战指挥决策的关键信息，极大的提升情况研判、趋势预测、方案评估、行动管控等能力。面对数量庞大且变化迅速的数据，决策者如果无法及时获取有效信息，那么就无法根据当前战场态势做出合适的决策。如图1所示，随着时间的推进，人处理数据的能力、装备移动的速度和传感器的能力三者的差距越来越大。和武器装备能力的变化相比，人处理数据的能力是有限的，因此需要利用计算机和人工智能技术辅助决策者做出决策。当代各类传感器(雷达传感器、红外传感器、视觉传感器)精度高、速度快，可以提供高质量的多源数据。基于深度学习的图像处理与分析算法具备从海量数据实时获取有效信息并做出推理的能力，能够帮助决策者统筹全局信息，辅助决策者做出决定。

为了解决以上面临的决策问题，本发明提出了一种基于多源动态数据的自适应辅助决策智能方法及其系统。该方法及系统可自适应地利用实时数据，挖掘关键数据，结合军事知识库，提供有效信息；同时，该方法及系统联合多源数据，对战场态势进行实时建模，为指挥人员提供直观的战场态势；最后，方法及系统基于历史信息，能够估计敌方目标轨迹，从而对未来战场态势做出预测。综上，本发明能够基于实时数据，自适应地处理和分析战场态势，辅助指挥人员决策。

发明内容

本发明提供了一种基于多源动态数据的自适应辅助决策智能方法及系统，旨在利用多源数据，实时提供战场态势信息，辅助指挥人员决策。

该基于多源动态数据的自适应辅助决策智能方法，包括以下步骤：

步骤101：多源数据获取与处理。本发明所涉及的数据包括两类：1)静态数据；静态数据指军事知识库，例如战机型号、坦克型号、枪械类型等。静态数据的目的是将战场实时获取的数据转换为可理解的信息。2)动态数据；动态数据指作战装备通过各类传感器(雷达传感器、红外传感器、视觉传感器)实时获取的战场数据。动态数据是辅助决策系统对战场态势建模的信息来源。本发明使用的数据处理步骤包括：1)数据清洗；2)数据标准化；3)专家标注；4)数据存储。数据获取与处理过程见图3；

所述多源数据获取与处理包括：

通过己方分布在战场上的各作战装备的传感器，包括雷达传感器、红外传感器和可见光传感器，收集作战装备所在位置周围的各类数据；收集到的数据经过数据清洗和数据格式标准化，得到具有统一尺寸的RGB图像，作为动态数据并表示为X_d；同时，由专家收集整理并完成标注的军事知识，即装备图及描述信息构成静态数据，并表示为(X_s,Y_s)；动态数据和静态数据分别进行数据存储。

步骤102：有效信息挖掘，即使用视觉-语言模型提取目标特征，基于位置引导的视觉特征融合模块，融合多源数据特征，实现目标识别。如图4所示，基于微调后的视觉-语言模型的文本编码器和视觉编码器，分别对静态数据和标准化后的动态数据进行编码，获得文本及图像特征；如图5所示，利用位置引导的视觉特征融合模块，将同一目标的不同源数据特征融合；如图6所示，将融合后的视觉特征与军事知识库对应的文本特征结合，利用识别模块(包括相似度计算和目标识别)确定目标及目标信息。有效信息挖掘整体过程如图7所示。

所述的基于微调后的视觉-语言模型是指一种特征编码器，为微调后的CLIP模型；CLIP模型是在4亿图像-文本对上进行了预训练的视觉-语言模型，其视觉和文本编码器具有强力的特征编码能力；为了消除在应用特征编码器时可能存在的特征偏差，首先利用静态数据(X_s,Y_s)对预训练的视觉-语言模型进行模型微调。微调模型使用目标函数为公式(1)：

其中，M为静态数据量，(x_i，y_i)∈(X_s，Y_s)，E_v和E_t分别表示CLIP模型中的视觉编码器和文本编码器。

所述的对静态数据和标准化后的动态数据进行编码包括：

对于输入的动态数据x_d∈X_d，使用视觉编码器E_v对其进行特征提取，如公式(2)；对于输入的静态数据y_s∈Y_s，使用文本编码器E_t对其进行特征提取，如公式(3)；

I_d＝E_v(x_d) (2)

T_s＝E_t(y_s) (3)

其中，I_d表示编码后的图像特征向量，T_s表示编码后的文本特征向量；视觉编码器和文本编码器分别由Vision Transformer和Text Transformer实现；Vision Transformer和Text Transformer分别由L_v层和L_t层Transformer Block组成，每一个TransformerBlock由一层Layer Normalization、一层多头自注意力模块、一层多层感知机，一层LayerNormalization组成；对于视觉编码器的输入x_input，Transformer Block对其处理过程如下：

z′_l＝MSA(LN(z_l-1))+z_l-1 l＝1...L (5)

z_l＝MLP(LN(z′_l))+z′_l l＝1...L (6)

x_out＝LN(z_l) (7)

其中，E表示全连接层，E_pos表示位置编码，L表示Transformer Block数目，z为各网络的输出，z₀表示全连接层E编码后的图像特征，z′_l表示多头自注意力模块处理后的特征，z_l表示感知机处理后的特征；x_cls为类别编码，用于融合整个输入图像的信息；MSA表示多头自注意力模块，其计算方式为公式(8)；MLP表示多层感知机；LN表示Layer Normalization；

MSA(Q，K，V)＝Concat(head₁，...，head_h)W^O (8)

其中，将整个图像特征按照通道维度拆分成h部分，表示为head₁～head_h，Q_i,K_i,V_i分别表示第i个head的Query，Key和Value，表示归一化项，W^O为输出变换矩阵，Concat表示拼接操作，MSA表示多头自注意力模块，softmax为归一化操作。

所述的同一目标不同源数据的特征融合包括：

针对同一目标的不同源数据特征，使用基于位置的特征融合模块进行特征融合，融合策略如公式(10)所示：

其中，MLP表示多层感知机，Concat表示将特征按照channel方向拼接；表示融合后的特征，/>表示属于位置k的第1个数据源特征，同理，/>表示属于位置k的第n个数据源特征，n的最大值为N，即多层感知机的层数。

所述的相似度计算包括：

输入编码后的视觉特征I_d和文本特征T_s，计算两种特征的余弦相似度，计算公式如(11)：

||表示向量的模，s_ij表示视觉特征与文本特征/>的相似度，/>为第i个融合后的图像特征，/>为第j个文本特征。

所述的目标识别包括：

将识别目标(视觉特征)和所有文本特征/>计算相似度后进行目标识别，使用arg max函数获取与识别目标相似度最大的类别O_i：

数据库中预先加载了所有目标类型的索引，该索引下对应所有目标类型的顺序排列。通过目标识别得到相似度最大的类别O_i，对照该索引即可获得目标的类别。

由于模型使用视觉特征和文本特征计算相似度，因此，可以通过不断扩充静态数据库中的数据规模，增大静态数据量M，从而实现新类别目标的识别。

步骤103：基于战场态势可视化和战场态势预测结果，做出决策。

首先，使用场景生成技术进行战场态势可视化。基于系统使用方作战目标位置信息和识别到的敌方目标信息，进行双方作战目标的可视化建模，建模的目的是直观地提供双方作战单位的布局和战力对比，辅助决策者了解当前时刻的战场态势，有助于决策者统筹全局信息，及时做出正确决策。可视化过程见图8。

然后，进行战场态势预测。基于敌方各目标的历史信息，使用序列模型，对敌方目标的未来轨迹做出预测，从而获得未来一段时间敌方目标的布局。根据预测结果，决策者可以提前做出战略决策。预测过程见图9。

所述的战场态势可视化包括：

针对己方作战准备，已知其位置和类别，可以直接使用；针对敌方目标，通过步骤102可以获得其位置和类别；基于这两种信息，通过数据标准化，将目标类别和位置转换成文本特征，然后将文本特征输入基于文本的三维生成模型MAV3D，生成t时刻三维场景Scene_t：

Scene_t＝MAW3D(T_敌,T_己) (13)

其中，T_敌和T_己分别表示敌方目标和己方目标信息的文本特征，MAV3D表示基于文本的三维场景生成模型，为MetaAI开源模型。

所述的战场态势预测包括：

基于所获取敌方目标前m时刻的位置信息，使用时序模型预测下一时刻目标的位置信息；预测过程如以下公式所示：

其中，表示第d个目标t时刻的位置，/>表示第d个目标t时刻的位置特征，E_a表示位置编码器，使用全连接层实现；P表示位置预测模块，使用全连接层实现；Transformer函数表示用于融合前m个时刻位置信息的网络，经过(14)-(16)公式后，可以基于前m时刻目标d的位置信息，预测出其m+1时刻的位置信息。

基于多源动态数据的自适应辅助决策智能方法的系统流程如图10所示。

一种基于多源动态数据的自适应辅助决策智能方法及系统，包括多源数据获取与处理模块、有效信息挖掘模块、战场态势可视化模块和战场态势预测模块。

其中，多源数据获取与处理模块连接己方分布在战场上的各作战装备的传感器，包括雷达传感器、红外传感器和可见光传感器，收集作战装备所在位置周围的各类数据，并进行数据清洗和数据格式标准化；

有效信息挖掘模块以图像处理服务器和远程数据库为依托，加载有效信息挖掘方法，用于将同一目标的多源数据的数据特征融合起来，达到更高效、更精确的目标识别，从而实现将大数据转化为有效信息的目标；

战场态势可视化模块以图像处理服务器和远程数据库为依托，加载战场态势可视化方法，用于将战场形式即己方目标和敌方目标的数量和位置以三维形式展现出来，提供更加直观的战场布局；

战场态势预测模块以计算服务器为依托，加载战场态势预测方法，充分挖掘历史信息，根据目标的历史位置预测未来位置，提供未来战场的形势。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于多源动态数据的自适应辅助决策智能方法及系统，可以充分利用不同传感器的数据，在海量数据中挖掘有效信息，并且基于获得的有效信息可视化战场态势，同时能够对未来战场态势做出预测，实现了减轻决策者处理数据的负担，起到了辅助决策者决策的作用。其优点如下：

(1)基于微调后的视觉-语言模型进行特征提取，在保证模型特征抽取能力的同时，消除了所提取特征可能存在的偏差性，提高了系统的鲁棒性。

(2)本发明设计的基于位置(己方目标)的多源数据特征融合模块，可以有效地融合不同维度的特征，提高系统对敌方目标的识别准确率，消除由于噪音带来的误识别，提高了系统的稳定性和可靠性。

(3)通过视觉特征和文本特征匹配，模型具有识别新类别目标的能力，更加符合实际应用场景。

(4)相较于传统的文本信息，本系统提供的可视化功能可以提供更直观的战场态势信息，缩短了决策者理解信息的时间，加快了决策者的决策过程。

(5)系统中的序列预测模型可以有效结合历史信息，对未来战场态势做出预估，使得决策者在做出决策时可以将未来可能的突发状况考虑在范围内，从而提高决策的准确性和有效性。

附图说明

图1是本发明提供的人类与武器装备能力变化对比图。

图2是本发明提供的基于多源数据进行辅助决策的基本流程示意图。

图3是本发明提供的多源数据获取与处理流程图。

图4是本发明提供的基于视觉-语言模型的特征编码示意图。

图5是本发明提供的基于位置引导的视觉特征融合模块示意图。

图6是本发明提供的基于多模态数据的目标识别模块示意图。

图7是本发明提供的有效信息挖掘整体流程图。

图8是本发明提供的基于场景生成技术的战场态势可视化示意图。

图9是本发明提供的基于序列模型的敌方目标轨迹预测示意图。

图10是本发明提供的基于多源动态数据的自适应辅助决策智能方法及系统整体流程图。

图11是本发明提供的基于多源动态数据的自适应辅助决策智能方法的简化步骤图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实例的一种基于多源动态数据的自适应辅助决策智能方法及系统。

图2为决策过程示意图，说明了决策者在辅助决策系统协助下，可以通过数据生成、信息生成和决策生成三个步骤，将海量的传感器采集动态数据和军事知识等静态数据转化为有效信息，并依据有效信息做出决策的整体过程。

图10为本发明实例所提供的一种基于多源动态数据的自适应辅助决策智能方法及系统流程示意图。该系统包括步骤如图11所示，具体包括：

步骤101：数据获取与处理

如图3所示，通过己方分布在战场上的各作战装备的传感器，包括雷达传感器、红外传感器和可见光传感器，收集作战装备所在位置周围的各类数据。收集到的数据经过数据清洗和数据格式标准化，得到具有统一尺寸的RGB图像，作为动态数据并表示为X_d。同时，由专家收集整理并完成标注的军事知识，即装备图及描述信息构成静态数据，并表示为(X_s，Y_s)。动态数据和静态数据分别进行数据存储。

步骤102：有效信息挖掘

图7为本发明提供的辅助决策模型有效信息挖掘部分流程图，该流程包括以下步骤：

(1)模型微调

本发明所使用的特征编码器为微调后的CLIP模型，CLIP模型是在4亿图像-文本对上进行了预训练的视觉-语言模型，其视觉和文本编码器具有强力的特征编码能力。为了消除在应用特征编码器时可能存在的特征偏差，如图4所示，首先利用静态数据(X_s，Y_s)对预训练的视觉-语言模型进行模型微调。微调模型使用目标函数为公式(1)：

其中，M为静态数据量，为静态数据中同时包含(装备图+描述信息)数据对的数据对总数，(x_i，y_i)∈(X_s，Y_s)，E_v和E_t分别表示CLIP模型中的视觉编码器和文本编码器，后文将使用E_v和E_t表示微调后的视觉编码器和文本编码器。

(2)特征编码

如图4所示，图中条形方格结构表示特征向量。将微调后的视觉-语言模型应用特征编码中，即对于输入的动态数据x_d∈X_d，使用视觉编码器E_v对其进行特征提取，如公式(2)；对于输入的静态数据y_s∈Y_s，使用文本编码器E_t对其进行特征提取，如公式(3)。

I_d＝E_v(x_d) (2)

T_s＝E_t(y_s) (3)

其中，I_d表示编码后的图像特征向量，T_s表示编码后的文本特征向量。

视觉编码器E_v和文本编码器E_t分别由Vision Transformer和Text Transformer实现。Vision Transformer和Text Transformer分别由L_v层和L_t层Transformer Block组成，每一个Transformer Block由一层Layer Normalization(LN)、一层多头自注意力模块、一层多层感知机、一层LayerNormalization组成。对于视觉编码器的输入x_input，TransformerBlock对其处理过程如下：

z′_l＝MSA(LN(z_l-1))+z_l-1 l＝1...L (5)

z_l＝MLP(LN(z′_l))+z′_l l＝1...l (6)

x_out＝LN(z_l) (7)

其中，E表示全连接层，E_pos表示位置编码，L表示Transformer Block数目。z为各网络的输出，z₀表示全连接层E编码后的图像特征，z′_l表示多头自注意力模块处理后的特征，z_l表示感知机处理后的特征；x_cls为类别编码，用于融合整个输入图像的信息。MSA表示多头自注意力模块，其计算方式为公式(8)；MLP表示多层感知机；LN表示LayerNormalization。

MSA(Q,K,V)＝Concat(head₁,...,head_h)W^O (8)

其中，将整个图像特征按照通道维度拆分成h部分，表示为head₁～head_h，Q_i,K_i,V_i分别表示第i个head的Query，Key和Value，表示归一化项。W^O为输出变换矩阵，Concat表示拼接操作，MSA表示多头自注意力模块，softmax为归一化操作。

(3)特征融合

如图5所示，图中条形方格结构表示特征向量，针对同一目标的不同源数据特征，使用基于位置的视觉特征融合模块进行特征融合，融合策略如公式(10)所示：

其中，MLP表示多层感知机，Concat表示将特征按照channel方向拼接；表示融合后的特征，/>表示属于位置k的第1个数据源特征，同理，/>表示属于位置k的第n个数据源特征，n的最大值为N，即多层感知机的层数。融合了不同数据源后的特征具有更丰富的特征信息，可以提高后续模型识别目标的准确率。

以图5为例，图中1、2表示获取数据的地理位置编号，每个位置各有2个不同数据源，即n＝2；具有相同位置编号的信息可以进行融合，因此，同一目标的数据由于位置k不同，图中输入4个向量，经特征融合后得到2个向量。

(4)相似度计算

如图6所示，图中条形方格结构表示特征向量，输入编码后的视觉特征I_d和文本特征T_s进行相似度计算，计算两种特征的余弦相似度，计算公式如(11)：

(5)目标识别

如图6所示，将识别目标(视觉特征)和所有文本特征/>计算相似度后进行目标识别，即使用arg max函数获取与识别目标相似度最大的类别O_i。

数据库中预先加载了所有目标类型(如直升机、无人机、歼击机等)的索引，该索引下对应所有目标类型的顺序排列。通过目标识别得到相似度最大的类别O_i，对照该索引即可获得目标的类别。

步骤103：

(1)战场态势可视化

针对己方作战准备，已知其位置和类别，可以直接使用；针对敌方目标，通过步骤102可以获得其位置和类别。如图8所示，基于这两种信息，通过数据标准化，将目标类别和位置转换成文本特征，然后将文本特征输入基于文本的三维生成模型MAV3D，生成t时刻三维场景Scene_t。

Scene_t＝MAV3D(T_敌,T_己) (13)

其中，T_敌和T_己分别表示敌方目标和己方目标信息的文本特征，MAV3D表示基于文本的三维场景生成模型，为MetaAI开源模型。图8中展示了三维场景中包含了直升机、无人机、坦克等目标的类型和位置信息。

(2)战场态势预测

除了了解当前战场局势，对未来局势的预测能够帮助决策者把握未来战场态势的发展动向，辅助决策者更全面的做出决策。如图9所示，图中条形方格结构表示特征向量，基于步骤102中所获取敌方目标前m时刻的位置信息，使用时序模型预测下一时刻目标的位置信息。预测过程如以下公式所示。

其中，表示第d个目标t时刻的位置，/>表示第d个目标t时刻的位置特征，E_a表示位置编码器，使用全连接层实现。P表示位置预测模块，使用全连接层实现。Transformer函数表示用于融合前m个时刻位置信息的网络，经过(14)-(16)公式后，可以基于前m时刻目标d的位置信息，预测出其m+1时刻的位置信息。图9事例中m＝6，各个时刻从前往后依次表示为t₁、t₂、t₃、t₄、t₅和t₆，前6个时刻的目标特征向量通过时序模型，得到了下一个时刻的目标预测模型，即获得了目标在t₇时刻的位置信息。

综上，本发明提供的辅助决策系统能够通过步骤101-步骤103利用战场大数据，实时挖掘有效信息，辅助决策者进行可靠决策。

Claims

1.一种基于多源动态数据的自适应辅助决策智能方法，其特征在于，包括：

步骤101：多源数据获取与处理；处理数据包括静态数据和动态数据；数据处理包括数据清洗、数据标准化、专家标注和数据存储；

所述多源数据获取与处理包括：通过己方分布在战场上的各作战装备的传感器，包括雷达传感器、红外传感器和可见光传感器，收集作战装备所在位置周围的各类数据；收集到的数据经过数据清洗和数据格式标准化，得到具有统一尺寸的RGB图像，作为动态数据并表示为X_d；同时，由专家收集整理并完成标注的军事知识，即装备图及描述信息构成静态数据，并表示为(X_s,Y_s)；动态数据和静态数据分别进行数据存储；

步骤102：有效信息挖掘，即使用视觉-语言模型提取目标特征，基于位置引导的视觉特征融合模块，融合多源数据特征，实现目标识别；基于微调后的视觉-语言模型的文本编码器和视觉编码器，分别对静态数据和标准化后的动态数据进行编码，获得文本及图像特征；利用位置引导的视觉特征融合模块，将同一目标的不同源数据特征融合；将融合后的视觉特征与军事知识库对应的文本特征结合，利用识别模块确定目标及目标信息，识别模块包括相似度计算和目标识别；

所述的基于微调后的视觉-语言模型是指一种特征编码器，为微调后的CLIP模型；CLIP模型是在4亿图像-文本对上进行了预训练的视觉-语言模型；为了消除在应用特征编码器时可能存在的特征偏差，首先利用静态数据(X_s,Y_s)对预训练的视觉-语言模型进行模型微调，微调模型使用目标函数为公式(1)：

其中，M为静态数据量，(x_i,y_i)∈(X_s,Y_s)，E_v和E_t分别表示CLIP模型中的视觉编码器和文本编码器；

所述的对静态数据和标准化后的动态数据进行编码包括：对于输入的动态数据x_d∈X_d，使用视觉编码器E_v对其进行特征提取，如公式(2)；对于输入的静态数据y_s∈Y_s，使用文本编码器E_t对其进行特征提取，如公式(3)；

I_d＝E_v(x_d) (2)

T_S＝E_t(y_s) (3)

其中，I_d表示编码后的图像特征向量，T_s表示编码后的文本特征向量；视觉编码器和文本编码器分别由Vision Transformer和Text Transformer实现；Vision Transformer和Text Transformer分别由L_v层和L_t层Transformer Block组成，每一个Transformer Block由一层Layer Normalization、一层多头自注意力模块、一层多层感知机，一层LayerNormalization组成；对于视觉编码器的输入x_input，Transformer Block对其处理过程如下：

z′_l＝MSA(LN(z_l-1))+z_l-1 l＝1...L (5)

z_l＝MLP(LN(z′_l))+z′_l l＝1...L (6)

x_out＝LN(z_l) (7)

MSA(Q,K,V)＝Concat(head₁，...，head_h)W^O (8)

其中，将整个图像特征按照通道维度拆分成h部分，表示为head₁～head_h，Q_i,K_i,V_i分别表示第i个head的Query，Key和Value，表示归一化项，W^O为输出变换矩阵，Concat表示拼接操作，MSA表示多头自注意力模块，softmax为归一化操作；

所述的同一目标不同源数据的特征融合包括：针对同一目标的不同源数据特征，使用基于位置的特征融合模块进行特征融合，融合策略如公式(10)所示：

其中，MLP表示多层感知机，Concat表示将特征按照channel方向拼接；表示融合后的特征，/>表示属于位置k的第1个数据源特征，同理，/>表示属于位置k的第n个数据源特征，n的最大值为N，即多层感知机的层数；

所述的相似度计算包括：输入编码后的视觉特征I_d和文本特征T_s，计算两种特征的余弦相似度，计算公式如(11)：

||表示向量的模，s_ij表示视觉特征与文本特征/>的相似度，/>为第i个融合后的图像特征，/>为第j个文本特征；

所述的目标识别包括：将识别目标视觉特征和所有文本特征/>计算相似度后，使用arg max函数获取与识别目标相似度最大的类别O_i：

数据库中预先加载了所有目标类型的索引，该索引下对应所有目标类型的顺序排列，通过目标识别得到相似度最大的类别O_i，对照该索引即可获得目标的类别；

由于模型使用视觉特征和文本特征计算相似度，因此，可以通过不断扩充静态数据库中的数据规模，增大静态数据量M，从而实现新类别目标的识别；

步骤103：基于战场态势可视化和战场态势预测结果，做出决策；

首先，使用场景生成技术进行战场态势可视化；基于系统使用方作战目标位置信息和识别到的敌方目标信息，进行双方作战目标的可视化建模，建模的目的是直观地提供双方作战单位的布局和战力对比，辅助决策者了解当前时刻的战场态势，有助于决策者统筹全局信息，及时做出正确决策；

然后，进行战场态势预测；基于敌方各目标的历史信息，使用序列模型，对敌方目标的未来轨迹做出预测，从而获得未来一段时间敌方目标的布局；根据预测结果，决策者提前做出战略决策。

2.如权利要求1所述的一种基于多源动态数据的自适应辅助决策智能方法，其特征在于，步骤103中所述的战场态势可视化包括：

针对己方作战准备，已知其位置和类别，直接使用；针对敌方目标，通过步骤102获得其位置和类别；基于这两种信息，通过数据标准化，将目标类别和位置转换成文本特征，然后将文本特征输入模型MAV3D，生成t时刻三维场景Scene_t：

Scene_t＝MAV3D(T_敌，T_己) (13)

其中，T_敌和T_己分别表示敌方目标和己方目标信息的文本特征，MAV3D表示基于文本的三维场景生成模型。

3.如权利要求1所述的一种基于多源动态数据的自适应辅助决策智能方法，其特征在于，步骤103中所述的战场态势预测包括：

其中，表示第d个目标t时刻的位置，/>表示第d个目标t时刻的位置特征，E_a表示位置编码器，使用全连接层实现；P表示位置预测模块，使用全连接层实现；Transformer函数表示用于融合前m个时刻位置信息的网络，经过(14)-(16)公式后，基于前m时刻目标d的位置信息，预测出其m+1时刻的位置信息。