CN111046955A

CN111046955A - 一种基于图网络的多智能体对抗策略智能预测方法及装置

Info

Publication number: CN111046955A
Application number: CN201911276827.4A
Authority: CN
Inventors: 徐新海; 李晟泽; 管乃洋; 寇广; 张峰; 凡遵林
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-21
Anticipated expiration: 2039-12-12
Also published as: CN111046955B

Abstract

本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法及装置，该方法包括：计算图构造流程、关系特征融合流程、关系特征汇聚流程、节点特征与关系特征融合流程、节点特征汇聚流程及解码预测流程。本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法及装置，通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果，处理过程中由于所有信息均为有效特征，无需利用卷积操作对多余信息进行过滤，同时在聚合过程能够去除特征间的顺序相关性，提高了整个多智能体对抗策略智能预测的泛化能力。

Description

一种基于图网络的多智能体对抗策略智能预测方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于图网络的多智能体对抗策略智能预测方法及装置。

背景技术

多智能体对抗问题是指双方多个智能体同时根据自身及外界信息进行决策和行动的问题。在该问题中，智能体通过与外界环境的交互，来感知对方状态并推测对方可能行为和意图，从而调整自身策略。但就单个智能体而言，感知和认知环境的能力有限，因此需要在全局层面上进行宏观策略规划。

常规的多智能体对抗策略智能预测技术，主要包括两类：一种是以结构化数据形式，将所有可观测数据进行串行叠加后输入神经网络，这种方法缺乏数据内在关系描述，对输入特征顺序较为敏感，无法去除特征数据间的空间无关性；另一种是以卷积形式，对图像数据进行特征过滤，这种方法计算中包含大量无关信息，处理速度较慢，同样无法有效描述智能体间的内在关系。

发明内容

为解决现有技术中的问题，本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法及装置。

第一方面，本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法，包括：计算图构造流程，包括：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；关系特征融合流程，包括：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；关系特征汇聚流程，包括：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；节点特征与关系特征融合流程，包括：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；节点特征汇聚流程，包括：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；解码预测流程，包括：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

进一步地，在执行所述计算图构造流程之后，迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后，再执行所述节点特征汇聚流程。

进一步地，所述多智能体中各个所述智能体所加载的神经网络共享网络权值。

进一步地，所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。

进一步地，所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时，得到的所述第二关系特征。

进一步地，所述第一节点特征包括智能体的速度信息和/或位置信息。

进一步地，所述对所述汇聚节点特征进行解码处理，包括：采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。

第二方面，本发明实施例提供一种基于图网络的多智能体对抗策略智能预测装置，包括：计算图构造模块，用于：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；关系特征融合模块，用于：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；关系特征汇聚模块，用于：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；节点特征与关系特征融合模块，用于：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；节点特征汇聚模块，用于：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；解码预测模块，用于：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法及装置，通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果，处理过程中由于所有信息均为有效特征，无需利用卷积操作对多余信息进行过滤，同时在聚合过程能够去除特征间的顺序相关性，提高了整个多智能体对抗策略智能预测的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图；

图2是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中计算图的示意图；

图3是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程示意图；

图4是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中多层特征更新示意图；

图5是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图；

图6是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测装置的结构示意图；

图7是本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图。如图1所示，所述方法包括：

步骤101、计算图构造流程，包括：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；

本发明实施例构造的计算图为以顶点和边所形成的拓扑计算图，将对抗双方智能体和环境间的特征以计算图形式进行描述，通过节点间连边进行相互关系描述，可有效根据全局态势信息进行关联推理。

图2是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中计算图的示意图。所述计算图由二元组表示：

G＝(V,E)

其中，V为计算图n个节点所组成的集合，V＝{v_i}_i＝1……n，v_i即智能体i的主要特征(如可以包括速度、位置等信息)，E为计算图中的连边所组成的集合，E＝{(e_k,r_k,s_k)}_k＝1……m，e_k即智能体r_k与智能体s_k间的关系特征(如可以包括距离信息、威胁程度信息等)，其中，r_k为被动作用节点，s_k为主动作用节点。m表示计算图中的边数。上述v_i即所述第一节点特征，e_k即所述第一关系特征。

步骤102、关系特征融合流程，包括：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；

所述第一关系特征为两个智能体间的关系特征。将所述第一关系特征与相应的两个智能体的所述第一节点特征进行融合，形成第二关系特征。第二关系特征用e′_k表示，表达式为：

其中，

为关系神经网络模型，用以处理关系特征，θ为该神经网络超参数。

步骤103、关系特征汇聚流程，包括：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；

将计算图中与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征。其中，由于各个智能体根据外界环境进行智能决策，因此，与各个所述节点相关的所述第二关系特征，可以是在所述节点作为所述被动作用节点时，经过步骤101和步骤102得到的所述第二关系特征。

比如，以节点i为例，将与节点i相关的所述第二关系特征进行汇聚，得到节点i的汇聚关系特征，用

表示，表达式为：

其中，g^e→v为关系聚合函数，用于汇聚与节点i相关的关系特征，

m_i表示与节点i相关的关系特征的个数。

步骤104、节点特征与关系特征融合流程，包括：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；

将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征。

比如，以节点i为例，将聚合后的关系特征

与节点i的特征v_i进一步融合，形成新的节点特征v′_i：

其中，

为节点神经网络模型，用以处理节点特征，θ为该神经网络超参数。

步骤105、节点特征汇聚流程，包括：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；

将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征，用

表示，表达式为：

其中，g^v→u为节点聚合函数，用以汇聚计算图G中所有节点特征，V′＝{v′_i}_i＝1……n。

步骤106、解码预测流程，包括：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

将

进一步解码，形成对智能体未来行为的预测，得到的结果用u′表示，表达式为：

其中，

为行为预测神经网络模型，用以产生策略与行为的映射。

图3是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程示意图。如图3所示，本发明实施例在得到由二元组(V,E)表示的计算图G后，利用关系神经网络模型

进行关系特征融合；并利用关系聚合函数g^e→v进行关系特征汇聚，利用节点神经网络模型

进行节点特征与关系特征融合，利用节点聚合函数g^v→u进行节点特征汇聚，其中，上述进行关系特征汇聚、节点特征与关系特征融合及节点特征汇聚的过程可视为节点特征融合过程；最后利用预测神经网络模型

进行解码预测，输出行为预测结果。

针对目前多智能体对抗策略智能预测技术中，结构化数据无法有效对智能体间合作和竞争关系进行有效推理的问题，本发明实施例利用计算图构建智能体及环境的拓扑关系网。通过分层感知其相邻节点信息，对智能体可能采取的各种自主行为进行有效预测。克服了传统结构化数据推理能力较弱、卷积操作计算效率较低的缺点，更为高效的引导己方智能体进行合理决策。本发明实施例可通过对中小尺度计算图的训练，推广至更为复杂的计算图进行行为推理。

本发明实施例通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果，处理过程中由于所有信息均为有效特征，无需利用卷积操作对多余信息进行过滤，同时在聚合过程能够去除特征间的顺序相关性，提高了整个多智能体对抗策略智能预测的泛化能力。

进一步地，基于上述实施例，在执行所述计算图构造流程之后，迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后，再执行所述节点特征汇聚流程。

图4是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中多层特征更新示意图。通过迭代学习，可以提高增强学习效果。因此，在执行所述计算图构造流程之后，迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后，再执行所述节点特征汇聚流程。

在上述实施例的基础上，本发明实施例通过重复执行关系特征融合流程、关系特征汇聚流程及节点特征与关系特征融合流程，实现了迭代学习，有利于增强学习效果，提高了基于图网络的多智能体对抗策略智能预测的准确性。

进一步地，基于上述实施例，所述多智能体中各个所述智能体所加载的神经网络共享网络权值。

在对抗过程中，随着对抗过程中智能体数量的快速变化，难以有效进行对手行为和意图的有效认知，进而造成己方决策难度的增加。由于分层感知过程中神经网络能够共享权值，为进一步解决上述问题，本发明实施例中所述多智能体中各个所述智能体所加载的神经网络共享网络权值，即在上述关系特征融合、节点特征融合等过程中，神经网络使用共享权值。

在上述实施例的基础上，本发明实施例在关系特征融合、节点特征融合等过程中，神经网络使用共享权值，有效降低了神经网络调参难度，同时权值共享能够支持整个计算图进行连边关系和节点数量的变更，可根据实时对抗态势进行快速调整，在数据处理上更为高效。

图5是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图。下面结合图5进一步通过一具体实例说明本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法的特点及其功能。在多智能体对抗数据样本采集及对抗场景计算图构造后，具体实施步骤如下：

(1)采用标准多层感知机(MLP)对所有节点特征进行初始编码：

其中，

为以初始特征为输入的关系神经网络模型，θ₀为该神经网络超参数，

为该神经网络权值，σ为Sigmoid激活函数，

表示对第一节点特征v_i进行初始编码得到的结果。

(2)对所有关系特征进行初始编码：

其中，

为以初始特征为输入的节点神经网络模型，θ₀为该神经网络超参数，

为该神经网络权值，

表示对第一关系特征e_k进行初始编码得到的结果。

(3)从l＝1开始，进行d次迭代：

(3.1)对关系特征e_k进行更新(关系特征融合)：

(3.2)将关于节点i＝r_k的关系特征进行汇聚(关系特征汇聚)：

(3.3)将节点与关系特征进行融合(节点与关系特征融合)：

(4)经过d次迭代，有

(5)将更新后的节点特征进一步汇聚(节点特征汇聚)：

(6)最后，由于智能体典型策略与历史状态具有密切联系，因此采用门控循环神经网络(GRU)进行特征解码，在t时刻时：

其中，

U^z、U^r、U^h、W^z、W^r、W^h均为神经网络权值，分别用以计算张量z、r和h，tanh为双曲正切激活函数，°为哈达玛乘积。

由此，实现了行为解码和行为输出。

图6是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测装置的结构示意图。如图6所示，所述装置包括计算图构造模块10、关系特征融合模块20、关系特征汇聚模块30、节点特征与关系特征融合模块40、节点特征汇聚模块50及解码预测模块60，其中：计算图构造模块10用于：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；关系特征融合模块20用于：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；关系特征汇聚模块30用于：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；节点特征与关系特征融合模块40用于：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；节点特征汇聚模块50用于：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；解码预测模块60用于：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

进一步地，基于上述实施例，在计算图构造模块10执行完毕后，关系特征融合模块20、关系特征汇聚模块30及节点特征与关系特征融合模块40顺次迭代执行预设次数后，再触发节点特征汇聚模块50的执行。

进一步地，基于上述实施例，所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。

在上述实施例的基础上，本发明实施例通过合理设定计算图中的关系特征，有利于提高基于图网络的多智能体对抗策略智能预测的准确性。

进一步地，基于上述实施例，所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时，得到的所述第二关系特征。

在上述实施例的基础上，本发明实施例通过各个节点作为被动作用节点时，得到相应的第二关系特征，进一步提高了基于图网络的多智能体对抗策略智能预测的准确性。

进一步地，基于上述实施例，所述第一节点特征包括智能体的速度信息和/或位置信息。

在上述实施例的基础上，本发明实施例通过合理设定计算图中的节点特征，有利于提高基于图网络的多智能体对抗策略智能预测的准确性。

进一步地，基于上述实施例，所述对所述汇聚节点特征进行解码处理，包括：采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。

在上述实施例的基础上，本发明实施例通过合理设定解码方法，进一步提高了基于图网络的多智能体对抗策略智能预测的准确性。

本发明实施例提供的装置是用于上述方法的，具体功能可参照上述方法流程，此处不再赘述。

图7是本发明一实施例提供的电子设备的实体结构示意图。如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行如下方法：计算图构造流程，包括：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；关系特征融合流程，包括：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；关系特征汇聚流程，包括：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；节点特征与关系特征融合流程，包括：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；节点特征汇聚流程，包括：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；解码预测流程，包括：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：计算图构造流程，包括：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；关系特征融合流程，包括：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；关系特征汇聚流程，包括：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；节点特征与关系特征融合流程，包括：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；节点特征汇聚流程，包括：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；解码预测流程，包括：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图网络的多智能体对抗策略智能预测方法，其特征在于，包括：

计算图构造流程，包括：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；

关系特征融合流程，包括：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；

关系特征汇聚流程，包括：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；

节点特征与关系特征融合流程，包括：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；

节点特征汇聚流程，包括：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；

解码预测流程，包括：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

2.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，在执行所述计算图构造流程之后，迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后，再执行所述节点特征汇聚流程。

3.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，所述多智能体中各个所述智能体所加载的神经网络共享网络权值。

4.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。

5.根据权利要求4所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时，得到的所述第二关系特征。

6.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，所述第一节点特征包括智能体的速度信息和/或位置信息。

7.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法，其特征在于，所述对所述汇聚节点特征进行解码处理，包括：

采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。

8.一种基于图网络的多智能体对抗策略智能预测装置，其特征在于，包括：

计算图构造模块，用于：基于多智能体对抗场景构造计算图，所述计算图包括节点和边；其中，所述节点的信息包括对应智能体的第一节点特征，所述边的信息包括对应两个智能体间的第一关系特征；

关系特征融合模块，用于：将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合，形成第二关系特征；

关系特征汇聚模块，用于：将与各个所述节点相关的所述第二关系特征进行汇聚，得到各个所述节点的汇聚关系特征；

节点特征与关系特征融合模块，用于：将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合，得到各个所述节点的第二节点特征；

节点特征汇聚模块，用于：将所述计算图中所有节点的所述第二节点特征进行汇聚，得到汇聚节点特征；

解码预测模块，用于：对所述汇聚节点特征进行解码处理，得到所述多智能体未来行为的预测结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于图网络的多智能体对抗策略智能预测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于图网络的多智能体对抗策略智能预测方法的步骤。