CN111046955A - 一种基于图网络的多智能体对抗策略智能预测方法及装置 - Google Patents

一种基于图网络的多智能体对抗策略智能预测方法及装置 Download PDF

Info

Publication number
CN111046955A
CN111046955A CN201911276827.4A CN201911276827A CN111046955A CN 111046955 A CN111046955 A CN 111046955A CN 201911276827 A CN201911276827 A CN 201911276827A CN 111046955 A CN111046955 A CN 111046955A
Authority
CN
China
Prior art keywords
node
agent
relation
feature
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911276827.4A
Other languages
English (en)
Other versions
CN111046955B (zh
Inventor
徐新海
李晟泽
管乃洋
寇广
张峰
凡遵林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN201911276827.4A priority Critical patent/CN111046955B/zh
Publication of CN111046955A publication Critical patent/CN111046955A/zh
Application granted granted Critical
Publication of CN111046955B publication Critical patent/CN111046955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法及装置,该方法包括:计算图构造流程、关系特征融合流程、关系特征汇聚流程、节点特征与关系特征融合流程、节点特征汇聚流程及解码预测流程。本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法及装置,通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果,处理过程中由于所有信息均为有效特征,无需利用卷积操作对多余信息进行过滤,同时在聚合过程能够去除特征间的顺序相关性,提高了整个多智能体对抗策略智能预测的泛化能力。

Description

一种基于图网络的多智能体对抗策略智能预测方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于图网络的多智能体对抗策略智能预测方法及装置。
背景技术
多智能体对抗问题是指双方多个智能体同时根据自身及外界信息进行决策和行动的问题。在该问题中,智能体通过与外界环境的交互,来感知对方状态并推测对方可能行为和意图,从而调整自身策略。但就单个智能体而言,感知和认知环境的能力有限,因此需要在全局层面上进行宏观策略规划。
常规的多智能体对抗策略智能预测技术,主要包括两类:一种是以结构化数据形式,将所有可观测数据进行串行叠加后输入神经网络,这种方法缺乏数据内在关系描述,对输入特征顺序较为敏感,无法去除特征数据间的空间无关性;另一种是以卷积形式,对图像数据进行特征过滤,这种方法计算中包含大量无关信息,处理速度较慢,同样无法有效描述智能体间的内在关系。
发明内容
为解决现有技术中的问题,本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法及装置。
第一方面,本发明实施例提供一种基于图网络的多智能体对抗策略智能预测方法,包括:计算图构造流程,包括:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;关系特征融合流程,包括:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;关系特征汇聚流程,包括:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;节点特征与关系特征融合流程,包括:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;节点特征汇聚流程,包括:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;解码预测流程,包括:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
进一步地,在执行所述计算图构造流程之后,迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后,再执行所述节点特征汇聚流程。
进一步地,所述多智能体中各个所述智能体所加载的神经网络共享网络权值。
进一步地,所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。
进一步地,所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时,得到的所述第二关系特征。
进一步地,所述第一节点特征包括智能体的速度信息和/或位置信息。
进一步地,所述对所述汇聚节点特征进行解码处理,包括:采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。
第二方面,本发明实施例提供一种基于图网络的多智能体对抗策略智能预测装置,包括:计算图构造模块,用于:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;关系特征融合模块,用于:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;关系特征汇聚模块,用于:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;节点特征与关系特征融合模块,用于:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;节点特征汇聚模块,用于:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;解码预测模块,用于:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法及装置,通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果,处理过程中由于所有信息均为有效特征,无需利用卷积操作对多余信息进行过滤,同时在聚合过程能够去除特征间的顺序相关性,提高了整个多智能体对抗策略智能预测的泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图;
图2是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中计算图的示意图;
图3是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程示意图;
图4是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中多层特征更新示意图;
图5是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图;
图6是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测装置的结构示意图;
图7是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图。如图1所示,所述方法包括:
步骤101、计算图构造流程,包括:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;
本发明实施例构造的计算图为以顶点和边所形成的拓扑计算图,将对抗双方智能体和环境间的特征以计算图形式进行描述,通过节点间连边进行相互关系描述,可有效根据全局态势信息进行关联推理。
图2是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中计算图的示意图。所述计算图由二元组表示:
G=(V,E)
其中,V为计算图n个节点所组成的集合,V={vi}i=1……n,vi即智能体i的主要特征(如可以包括速度、位置等信息),E为计算图中的连边所组成的集合,E={(ek,rk,sk)}k=1……m,ek即智能体rk与智能体sk间的关系特征(如可以包括距离信息、威胁程度信息等),其中,rk为被动作用节点,sk为主动作用节点。m表示计算图中的边数。上述vi即所述第一节点特征,ek即所述第一关系特征。
步骤102、关系特征融合流程,包括:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;
所述第一关系特征为两个智能体间的关系特征。将所述第一关系特征与相应的两个智能体的所述第一节点特征进行融合,形成第二关系特征。第二关系特征用e′k表示,表达式为:
Figure BDA0002315784870000051
其中,
Figure BDA0002315784870000052
为关系神经网络模型,用以处理关系特征,θ为该神经网络超参数。
步骤103、关系特征汇聚流程,包括:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;
将计算图中与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征。其中,由于各个智能体根据外界环境进行智能决策,因此,与各个所述节点相关的所述第二关系特征,可以是在所述节点作为所述被动作用节点时,经过步骤101和步骤102得到的所述第二关系特征。
比如,以节点i为例,将与节点i相关的所述第二关系特征进行汇聚,得到节点i的汇聚关系特征,用
Figure BDA0002315784870000061
表示,表达式为:
Figure BDA0002315784870000062
其中,ge→v为关系聚合函数,用于汇聚与节点i相关的关系特征,
Figure BDA0002315784870000063
mi表示与节点i相关的关系特征的个数。
步骤104、节点特征与关系特征融合流程,包括:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;
将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征。
比如,以节点i为例,将聚合后的关系特征
Figure BDA0002315784870000064
与节点i的特征vi进一步融合,形成新的节点特征v′i
Figure BDA0002315784870000065
其中,
Figure BDA0002315784870000066
为节点神经网络模型,用以处理节点特征,θ为该神经网络超参数。
步骤105、节点特征汇聚流程,包括:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;
将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征,用
Figure BDA0002315784870000067
表示,表达式为:
Figure BDA0002315784870000068
其中,gv→u为节点聚合函数,用以汇聚计算图G中所有节点特征,V′={v′i}i=1……n
步骤106、解码预测流程,包括:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
Figure BDA0002315784870000069
进一步解码,形成对智能体未来行为的预测,得到的结果用u′表示,表达式为:
Figure BDA00023157848700000610
其中,
Figure BDA0002315784870000071
为行为预测神经网络模型,用以产生策略与行为的映射。
图3是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程示意图。如图3所示,本发明实施例在得到由二元组(V,E)表示的计算图G后,利用关系神经网络模型
Figure BDA0002315784870000072
进行关系特征融合;并利用关系聚合函数ge→v进行关系特征汇聚,利用节点神经网络模型
Figure BDA0002315784870000073
进行节点特征与关系特征融合,利用节点聚合函数gv→u进行节点特征汇聚,其中,上述进行关系特征汇聚、节点特征与关系特征融合及节点特征汇聚的过程可视为节点特征融合过程;最后利用预测神经网络模型
Figure BDA0002315784870000074
进行解码预测,输出行为预测结果。
针对目前多智能体对抗策略智能预测技术中,结构化数据无法有效对智能体间合作和竞争关系进行有效推理的问题,本发明实施例利用计算图构建智能体及环境的拓扑关系网。通过分层感知其相邻节点信息,对智能体可能采取的各种自主行为进行有效预测。克服了传统结构化数据推理能力较弱、卷积操作计算效率较低的缺点,更为高效的引导己方智能体进行合理决策。本发明实施例可通过对中小尺度计算图的训练,推广至更为复杂的计算图进行行为推理。
本发明实施例通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果,处理过程中由于所有信息均为有效特征,无需利用卷积操作对多余信息进行过滤,同时在聚合过程能够去除特征间的顺序相关性,提高了整个多智能体对抗策略智能预测的泛化能力。
进一步地,基于上述实施例,在执行所述计算图构造流程之后,迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后,再执行所述节点特征汇聚流程。
图4是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测方法中多层特征更新示意图。通过迭代学习,可以提高增强学习效果。因此,在执行所述计算图构造流程之后,迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后,再执行所述节点特征汇聚流程。
在上述实施例的基础上,本发明实施例通过重复执行关系特征融合流程、关系特征汇聚流程及节点特征与关系特征融合流程,实现了迭代学习,有利于增强学习效果,提高了基于图网络的多智能体对抗策略智能预测的准确性。
进一步地,基于上述实施例,所述多智能体中各个所述智能体所加载的神经网络共享网络权值。
在对抗过程中,随着对抗过程中智能体数量的快速变化,难以有效进行对手行为和意图的有效认知,进而造成己方决策难度的增加。由于分层感知过程中神经网络能够共享权值,为进一步解决上述问题,本发明实施例中所述多智能体中各个所述智能体所加载的神经网络共享网络权值,即在上述关系特征融合、节点特征融合等过程中,神经网络使用共享权值。
在上述实施例的基础上,本发明实施例在关系特征融合、节点特征融合等过程中,神经网络使用共享权值,有效降低了神经网络调参难度,同时权值共享能够支持整个计算图进行连边关系和节点数量的变更,可根据实时对抗态势进行快速调整,在数据处理上更为高效。
图5是本发明另一实施例提供的基于图网络的多智能体对抗策略智能预测方法流程图。下面结合图5进一步通过一具体实例说明本发明实施例提供的基于图网络的多智能体对抗策略智能预测方法的特点及其功能。在多智能体对抗数据样本采集及对抗场景计算图构造后,具体实施步骤如下:
(1)采用标准多层感知机(MLP)对所有节点特征进行初始编码:
Figure BDA0002315784870000081
其中,
Figure BDA0002315784870000082
为以初始特征为输入的关系神经网络模型,θ0为该神经网络超参数,
Figure BDA0002315784870000083
为该神经网络权值,σ为Sigmoid激活函数,
Figure BDA0002315784870000084
表示对第一节点特征vi进行初始编码得到的结果。
(2)对所有关系特征进行初始编码:
Figure BDA0002315784870000091
其中,
Figure BDA0002315784870000092
为以初始特征为输入的节点神经网络模型,θ0为该神经网络超参数,
Figure BDA0002315784870000093
为该神经网络权值,
Figure BDA0002315784870000094
表示对第一关系特征ek进行初始编码得到的结果。
(3)从l=1开始,进行d次迭代:
(3.1)对关系特征ek进行更新(关系特征融合):
Figure BDA0002315784870000095
(3.2)将关于节点i=rk的关系特征进行汇聚(关系特征汇聚):
Figure BDA0002315784870000096
(3.3)将节点与关系特征进行融合(节点与关系特征融合):
Figure BDA0002315784870000097
(4)经过d次迭代,有
Figure BDA0002315784870000098
(5)将更新后的节点特征进一步汇聚(节点特征汇聚):
Figure BDA0002315784870000099
(6)最后,由于智能体典型策略与历史状态具有密切联系,因此采用门控循环神经网络(GRU)进行特征解码,在t时刻时:
Figure BDA00023157848700000910
其中,
Figure BDA00023157848700000911
Figure BDA00023157848700000912
Uz、Ur、Uh、Wz、Wr、Wh均为神经网络权值,分别用以计算张量z、r和h,tanh为双曲正切激活函数,°为哈达玛乘积。
由此,实现了行为解码和行为输出。
图6是本发明一实施例提供的基于图网络的多智能体对抗策略智能预测装置的结构示意图。如图6所示,所述装置包括计算图构造模块10、关系特征融合模块20、关系特征汇聚模块30、节点特征与关系特征融合模块40、节点特征汇聚模块50及解码预测模块60,其中:计算图构造模块10用于:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;关系特征融合模块20用于:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;关系特征汇聚模块30用于:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;节点特征与关系特征融合模块40用于:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;节点特征汇聚模块50用于:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;解码预测模块60用于:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
本发明实施例通过计算图构造、关系特征融合、关系特征汇聚、节点特征与关系特征融合、节点特征汇聚及解码预测得到多智能体未来行为的预测结果,处理过程中由于所有信息均为有效特征,无需利用卷积操作对多余信息进行过滤,同时在聚合过程能够去除特征间的顺序相关性,提高了整个多智能体对抗策略智能预测的泛化能力。
进一步地,基于上述实施例,在计算图构造模块10执行完毕后,关系特征融合模块20、关系特征汇聚模块30及节点特征与关系特征融合模块40顺次迭代执行预设次数后,再触发节点特征汇聚模块50的执行。
在上述实施例的基础上,本发明实施例通过重复执行关系特征融合流程、关系特征汇聚流程及节点特征与关系特征融合流程,实现了迭代学习,有利于增强学习效果,提高了基于图网络的多智能体对抗策略智能预测的准确性。
进一步地,基于上述实施例,所述多智能体中各个所述智能体所加载的神经网络共享网络权值。
在上述实施例的基础上,本发明实施例在关系特征融合、节点特征融合等过程中,神经网络使用共享权值,有效降低了神经网络调参难度,同时权值共享能够支持整个计算图进行连边关系和节点数量的变更,可根据实时对抗态势进行快速调整,在数据处理上更为高效。
进一步地,基于上述实施例,所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。
在上述实施例的基础上,本发明实施例通过合理设定计算图中的关系特征,有利于提高基于图网络的多智能体对抗策略智能预测的准确性。
进一步地,基于上述实施例,所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时,得到的所述第二关系特征。
在上述实施例的基础上,本发明实施例通过各个节点作为被动作用节点时,得到相应的第二关系特征,进一步提高了基于图网络的多智能体对抗策略智能预测的准确性。
进一步地,基于上述实施例,所述第一节点特征包括智能体的速度信息和/或位置信息。
在上述实施例的基础上,本发明实施例通过合理设定计算图中的节点特征,有利于提高基于图网络的多智能体对抗策略智能预测的准确性。
进一步地,基于上述实施例,所述对所述汇聚节点特征进行解码处理,包括:采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。
在上述实施例的基础上,本发明实施例通过合理设定解码方法,进一步提高了基于图网络的多智能体对抗策略智能预测的准确性。
本发明实施例提供的装置是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。
图7是本发明一实施例提供的电子设备的实体结构示意图。如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:计算图构造流程,包括:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;关系特征融合流程,包括:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;关系特征汇聚流程,包括:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;节点特征与关系特征融合流程,包括:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;节点特征汇聚流程,包括:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;解码预测流程,包括:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:计算图构造流程,包括:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;关系特征融合流程,包括:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;关系特征汇聚流程,包括:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;节点特征与关系特征融合流程,包括:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;节点特征汇聚流程,包括:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;解码预测流程,包括:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于图网络的多智能体对抗策略智能预测方法,其特征在于,包括:
计算图构造流程,包括:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;
关系特征融合流程,包括:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;
关系特征汇聚流程,包括:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;
节点特征与关系特征融合流程,包括:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;
节点特征汇聚流程,包括:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;
解码预测流程,包括:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
2.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,在执行所述计算图构造流程之后,迭代执行所述关系特征融合流程、所述关系特征汇聚流程及所述节点特征与关系特征融合流程预设次数后,再执行所述节点特征汇聚流程。
3.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,所述多智能体中各个所述智能体所加载的神经网络共享网络权值。
4.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,所述第一关系特征包括被动作用节点和主动作用节点间的距离信息和/或威胁程度信息。
5.根据权利要求4所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,所述与各个所述节点相关的所述第二关系特征包括各个所述节点作为所述被动作用节点时,得到的所述第二关系特征。
6.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,所述第一节点特征包括智能体的速度信息和/或位置信息。
7.根据权利要求1所述的基于图网络的多智能体对抗策略智能预测方法,其特征在于,所述对所述汇聚节点特征进行解码处理,包括:
采用门控循环神经网络GRU对所述汇聚节点特征进行特征解码处理。
8.一种基于图网络的多智能体对抗策略智能预测装置,其特征在于,包括:
计算图构造模块,用于:基于多智能体对抗场景构造计算图,所述计算图包括节点和边;其中,所述节点的信息包括对应智能体的第一节点特征,所述边的信息包括对应两个智能体间的第一关系特征;
关系特征融合模块,用于:将所述第一关系特征与对应两个智能体的所述第一节点特征进行融合,形成第二关系特征;
关系特征汇聚模块,用于:将与各个所述节点相关的所述第二关系特征进行汇聚,得到各个所述节点的汇聚关系特征;
节点特征与关系特征融合模块,用于:将各个所述节点的所述汇聚关系特征与相应的所述第一节点特征进行融合,得到各个所述节点的第二节点特征;
节点特征汇聚模块,用于:将所述计算图中所有节点的所述第二节点特征进行汇聚,得到汇聚节点特征;
解码预测模块,用于:对所述汇聚节点特征进行解码处理,得到所述多智能体未来行为的预测结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于图网络的多智能体对抗策略智能预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于图网络的多智能体对抗策略智能预测方法的步骤。
CN201911276827.4A 2019-12-12 2019-12-12 一种基于图网络的多智能体对抗策略智能预测方法及装置 Active CN111046955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911276827.4A CN111046955B (zh) 2019-12-12 2019-12-12 一种基于图网络的多智能体对抗策略智能预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911276827.4A CN111046955B (zh) 2019-12-12 2019-12-12 一种基于图网络的多智能体对抗策略智能预测方法及装置

Publications (2)

Publication Number Publication Date
CN111046955A true CN111046955A (zh) 2020-04-21
CN111046955B CN111046955B (zh) 2020-11-20

Family

ID=70235901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911276827.4A Active CN111046955B (zh) 2019-12-12 2019-12-12 一种基于图网络的多智能体对抗策略智能预测方法及装置

Country Status (1)

Country Link
CN (1) CN111046955B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101619984A (zh) * 2009-07-28 2010-01-06 重庆邮电大学 一种基于颜色路标的移动机器人视觉导航方法
CN102215260A (zh) * 2011-06-02 2011-10-12 北京理工大学 一种具有连通性保持的多智能体系统协同控制方法
CN102270305A (zh) * 2011-08-11 2011-12-07 西北工业大学 一种基于msbn的多智能体协同目标识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
US20190349251A1 (en) * 2018-05-08 2019-11-14 International Business Machines Corporation Context-based resource allocation with extended user concepts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101619984A (zh) * 2009-07-28 2010-01-06 重庆邮电大学 一种基于颜色路标的移动机器人视觉导航方法
CN102215260A (zh) * 2011-06-02 2011-10-12 北京理工大学 一种具有连通性保持的多智能体系统协同控制方法
CN102270305A (zh) * 2011-08-11 2011-12-07 西北工业大学 一种基于msbn的多智能体协同目标识别方法
US20190349251A1 (en) * 2018-05-08 2019-11-14 International Business Machines Corporation Context-based resource allocation with extended user concepts
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN111723931B (zh) * 2020-06-02 2021-12-17 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN113792844B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Also Published As

Publication number Publication date
CN111046955B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
US11010658B2 (en) System and method for learning the structure of deep convolutional neural networks
Haarnoja et al. Latent space policies for hierarchical reinforcement learning
CN109635917B (zh) 一种多智能体合作决策及训练方法
CN110674869B (zh) 分类处理、图卷积神经网络模型的训练方法和装置
US8990133B1 (en) Apparatus and methods for state-dependent learning in spiking neuron networks
US20130325774A1 (en) Learning stochastic apparatus and methods
WO2010042256A9 (en) Methods of improved learning in simultaneous recurrent neural networks
CN111046955B (zh) 一种基于图网络的多智能体对抗策略智能预测方法及装置
US11423287B2 (en) Computer for spiking neural network with maximum aggregation
US9471885B1 (en) Predictor-corrector method for knowledge amplification by structured expert randomization
EP3259711A1 (en) Method for dynamically updating classifier complexity
CN111983923A (zh) 一种受限多智能体系统编队控制方法、系统及设备
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
Seow et al. Recurrent neural network as a linear attractor for pattern association
US20190392243A1 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
WO2019243910A1 (en) Segmenting irregular shapes in images using deep region growing
Martin et al. Probabilistic program neurogenesis
CN108376283B (zh) 用于神经网络的池化装置和池化方法
CN110610231A (zh) 一种信息处理方法、电子设备和存储介质
CN115759199A (zh) 基于层次化图神经网络的多机器人环境探索方法及系统
CN110536266B (zh) 无人机编队通信能耗的周期性在线均衡方法和装置
Gupta et al. Learning autonomous marine behaviors in MOOS-IvP
CN112926738A (zh) 一种神经网络自适应输出层的设计方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant