CN113627596A - 基于动态图神经网络的多智能体对抗方法及系统 - Google Patents

基于动态图神经网络的多智能体对抗方法及系统 Download PDF

Info

Publication number
CN113627596A
CN113627596A CN202110914090.5A CN202110914090A CN113627596A CN 113627596 A CN113627596 A CN 113627596A CN 202110914090 A CN202110914090 A CN 202110914090A CN 113627596 A CN113627596 A CN 113627596A
Authority
CN
China
Prior art keywords
agent
network
representing
confrontation
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110914090.5A
Other languages
English (en)
Inventor
何赛克
张连怡
闫硕
熊彦钧
郑晓龙
曾大军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Beijing Simulation Center
Original Assignee
Institute of Automation of Chinese Academy of Science
Beijing Simulation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Beijing Simulation Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110914090.5A priority Critical patent/CN113627596A/zh
Publication of CN113627596A publication Critical patent/CN113627596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本发明属于多智能体系统的强化学习领域,具体涉及了一种基于动态图神经网络的多智能体对抗方法及系统,旨在解决现有基于图神经网络的多智能体模型训练速度慢、效率低以及图构建中需要较多人工干预的问题。本发明包括:获取每一个智能体的观测向量,并进行线性变换获得观测特征向量;计算相邻智能体之间的连接关系,构建智能体之间的图结构;结合观测特征向量对智能体之间的图结构进行嵌入表示;将嵌入表示用于动作网络的动作预测结果和评价网络的评价,进行网络时空并行训练;通过训练好的网络进行多智能体对抗中的动作预测和动作评价。本发明通过剪枝建立更真实的图关系,利用全连接神经网络加位置编码的实现时空并行训练,训练效率高、效果好。

Description

基于动态图神经网络的多智能体对抗方法及系统
技术领域
本发明属于多智能体系统的强化学习领域,具体涉及了一种基于动态图神经网络的多智能体对抗方法及系统。
背景技术
强化学习在诸多领域都有很多成功的应用,其中多智能体技术作为强化学习中的一个重要分支也有众多的学者在研究。一个重要的多智能体研究方向便是多智能体协作对抗。多智能体模型主要分为两类,一种是对抗,一种是合作。典型的对抗关系的模型便是AlphaZero,其需要两个智能体进行博弈从而发现更优的策略。合作关系便是需要多个智能体之间共同协作完成任务,例如网球双打,足球任务等。
对于多智能体任务,一个最直接的想法便是直接为每一个智能体配备一个单智能体的强化学习模型,而且每一个模型之间不建立任何联系,这便是Ardi Tampuu等人提出的IDQN(Independent Deep QNetwork)。除了这种最简单的方式,还有一种思路便是利用价值函数分解,即定义全局的Q值函数,再将全局的Q值分解为每一个智能体的局部Q值,每一个智能体根据自己的Q值进行决策。Peter Sunehag等人提出了VDN(Value DecompositionNetwork),其采用最加和的方式将全局Q值分解为单个智能体的Q值,由于只是简单的加和,因此这种方法认为局部Q值的重要性都是一样的。为了解决这个问题,Tabish Rashid等人提出了Qmix算法,这种方法在VDN的基础上采用神经网络学习每一个智能体对全局贡献的权重。除此之外还有Yaodong Yang等人采用的基于注意力机制的多智能体学习算法,该方法利用注意力机制为不同智能体的Q值计算权重并得到全局Q值。除了基于值的方法,还有基于Actor Critic的方法,其中比较有代表性的是Jakob N.Foerster等人提出的COMA(Counterfactual Multi-Agent Policy Gradients)算法,该方法为每一个智能体使用一个Actor并使用一个集中的Critic,并采用反事实推断为每一个智能体分配奖励。
对于多智能体系统,除了使用使用价值函数分解以外还会使用一些方法令智能体之间进行通信。Jakob N.Foerster等人采用RNN使得不同智能体之间可以进行交互通信。Peng Peng等人则采用基于双向RNN的方法,不仅建立了不同智能体之间的通信手段同时还使得其能够完成对过去信息的记忆。还有一些学者使用基于图神经网络的方法,这些方法将智能体之间联系使用图进行建模,并利用图卷积等方法进行表示学习,最后得到学习的策略。Heechang Ryu等人采用了层次化图注意力机制建模智能体之间的关系。Yong Liu等人则首先用图剪枝方法去掉无用的连接关系再使用图注意力机制为不同的智能体分配权重。
总的来说,一般的多智能体模型只能很好的建模智能体中时间序列之间的关系,而现有基于图神经网络的多智能体模型虽然可以很好的建模智能体之间空间关系,但是目前图构建方法主要采用Top-K的方法或者使用完全互连的方法,且在处理时间序列特征上,一般采用的RNN的方法,受限于RNN训练速度较慢,现有基于图神经网络的多智能体模型训练速度慢、效率低。
发明内容
为了解决现有技术中的上述问题,即现有基于图神经网络的多智能体模型训练速度慢、效率低,以及图构建中需要较多人工干预的问题,本发明提供了一种基于动态图神经网络的多智能体对抗方法,该多智能体对抗方法包括:
步骤S10,设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
步骤S20,获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
步骤S30,通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
步骤S40,基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
步骤S50,将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
步骤S60,通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
在一些优选的实施例中,所述每一个智能体的观测特征向量,其表示为:
Figure BDA0003205002900000031
其中,
Figure BDA0003205002900000041
代表智能体i在t时刻的观测特征向量,
Figure BDA0003205002900000042
代表智能体i在t时刻的状态向量,W和b分别为将智能体i的状态向量si进行线性变换的预设的权重和偏置,relu()为激活函数。
在一些优选的实施例中,所述智能体之间的连接关系,其表示为:
aij=gum(Wg*(hi+hj)+bg)
其中,aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;Wg和bg分别为计算两个相邻的智能体之间的连接关系时的权重和偏置,Wg和bg在计算不同的两个相邻的智能体之间的连接关系时共享;gum()代表可以通过reparameter-trick来解决argmax操作不可导的问题的gumbel-softmax函数;hi和hj分别代表智能体i和智能体j的观测特征向量。
在一些优选的实施例中,步骤S40包括:
步骤S41,分别计算对抗双方的在图结构中每两个相邻的智能体之间的连接注意力分数;
步骤S42,基于所述相邻的智能体之间的连接注意力分数,通过softmax函数获取相邻的智能体之间的连接强度;
步骤S43,基于所述相邻的智能体之间的连接强度,结合智能体j的观测特征向量
Figure BDA0003205002900000043
通过基于图注意力机制的图卷积神经网络获取图结构中任意一个智能体i的特征,获得融入图结构信息的多智能体特征向量嵌入表示。
在一些优选的实施例中,所述图结构中每两个相邻的智能体之间的连接注意力分数,其表示为:
Figure BDA0003205002900000044
其中,
Figure BDA0003205002900000051
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数;[Whi,Whj]代表进行Whi和Whj的拼接操作,W代表权重矩阵,hi和hj分别代表图结构中两个相邻的智能体i和智能体j在当前图卷积神经网络层级的观测特征向量;
Figure BDA0003205002900000052
代表权重矩阵;LeakyReLU()为激活函数,若x>0,则LeakyReLU(x)=x,若x≤0,则LeakyReLU(x)=λx,λ为预设的超参数。
在一些优选的实施例中,所述相邻的智能体之间的连接强度,其表示为:
Figure BDA0003205002900000053
其中,softmax()代表softmax函数,
Figure BDA0003205002900000054
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数,
Figure BDA0003205002900000055
代表图卷积神经网络第l层的智能体i和智能体k之间的连接注意力分数,exp()代表指数函数,N(i)代表智能体i在图结构中所有的邻居智能体。
在一些优选的实施例中,所述图结构中任意一个智能体i的特征,其表示为:
Figure BDA0003205002900000056
其中,
Figure BDA0003205002900000057
代表图卷积神经网络l+1层级中智能体i的观测特征向量;aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;W(l)代表图卷积神经网络l层级的权重矩阵;
Figure BDA0003205002900000058
代表智能体i的观测特征向量。
在一些优选的实施例中,所述动作网络损失函数,其表示为:
Figure BDA0003205002900000059
其中,Lactor代表动作网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,πi代表当前智能体执行的策略,N代表智能体数量,
Figure BDA0003205002900000061
分别代表智能体i在当前时刻t执行的动作和所处状态,
Figure BDA0003205002900000062
为动作网络中智能体i当前动作的优势函数:
Figure BDA0003205002900000063
其中,
Figure BDA0003205002900000064
代表通过奖励函数r获取的智能体i当前时刻t的奖励,
Figure BDA0003205002900000065
Figure BDA0003205002900000066
分别代表智能体i当前时刻t和下一时刻t+1的状态价值,γ为预设的超参数。
在一些优选的实施例中,所述评价网络损失函数,其表示为:
Figure BDA0003205002900000067
其中,Lcritic代表评价网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,
Figure BDA0003205002900000068
代表评价网络的输出结果,
Figure BDA0003205002900000069
代表智能体i当前时刻t的累积回报:
Figure BDA00032050029000000610
其中,
Figure BDA00032050029000000611
代表通过奖励函数r获取的智能体i时刻0,1,…,t的奖励,γ0,γ1,…γt为预设的超参数。
本发明的另一方面,提出了一种基于动态图神经网络的多智能体对抗系统,该多智能体对抗系统包括以下模块:
对抗设定,配置为设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
线性变换模块,配置为获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
图结构构建模块,配置为通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
嵌入表示模块,配置为基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
时空并行训练模块,配置为将所述多智能体特征向量嵌入表示用于动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
多智能体对抗模块,配置为通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
本发明的有益效果:
(1)本发明基于动态图神经网络的多智能体对抗方法,采用gumbel-softmax来对智能体的结构图进行剪枝,从而可以大大减少人为干扰并且能建立智能体之间更真实的图关系,从而有效提升后续智能体对抗训练的效率以及效果。
(2)本发明基于动态图神经网络的多智能体对抗方法,利用全连接神经网络加位置编码的方式对时间序列特征进行提取,可以保证不同时间步的并行训练,即采用时空并行训练方法,大大提升了网络训练效率,并进一步提升了智能体对抗效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于动态图神经网络的多智能体对抗方法一种实施例的模型训练示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于动态图神经网络的多智能体对抗方法,区别于一般的多智能体模型只很好的建模智能体中时间序列之间的关系,采用基于图神经网络的多智能体模型可以很好的建模智能体之间空间关系,这有利于多智能体模型对整个任务进行时空建模。然而,现有技术中对智能体之间进行关系建模时先要将图构建出来,目前图构建方法主要采用Top-K的方法或者使用完全互连的方法,在处理时间序列特征上,一般采用的RNN的方法,但是RNN训练速度较慢。本发明采用了基于门机制gumbel-softmax来剪枝图神经网络,减少人为干扰且能建立更真实的图关系,并且利用全连接网络加位置编码的方式对时间序列特征进行提取,可以实现时空并行训练,大大提升了网络训练效率,并进一步提升了智能体对抗效果。
本发明的一种基于动态图神经网络的多智能体对抗方法,该多智能体对抗方法包括:
步骤S10,设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
步骤S20,获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
步骤S30,通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
步骤S40,基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
步骤S50,将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
步骤S60,通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
为了更清晰地对本发明基于动态图神经网络的多智能体对抗方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于动态图神经网络的多智能体对抗方法,包括步骤S10-步骤S60,各步骤详细描述如下:
步骤S10,设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r。
本发明一个实施例中,对抗双方为星际争霸2平台的红蓝双方,以蓝方作为我方,红方作为敌方,红方会主动搜索蓝方并发起攻击,蓝方主要任务是歼灭红方的单位并且最大限度的保全自己的部队。蓝方每消灭一个单位则获得这个单位的奖励,蓝方每损失一个单位则扣除该单位的对应的奖励。
一个单位的奖励根据每个单位建造时所使用的资源进行奖励设置,其规则如式(1)所示:
runit=水晶数*1+高能瓦斯数*2 (1)
步骤S20,获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态。
在剪枝之前,首先需要初始化智能体之间的图结构,初始状态是全部连接的。一个智能体接受的输入主要包含当前的观测,观测一般包含智能体所出的坐标,当前状态(即红方/蓝方智能体的血量),动作,对手的状态(即对抗方智能体的血量)等,并由这些数值组成观测向量。
每一个智能体的观测特征向量,其表示如式(2)所示:
Figure BDA0003205002900000101
其中,
Figure BDA0003205002900000102
代表智能体i在t时刻的观测特征向量,
Figure BDA0003205002900000103
代表智能体i在t时刻的状态向量,由于单个智能体无法观测到整个环境,因此这里使用智能体i在t时刻的观测向量代替智能体i在t时刻状态向量,W和b分别为将智能体i的状态向量si进行线性变换的预设的权重和偏置,relu()为激活函数。
步骤S30,通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构。
智能体之间的连接关系,其表示如式(3)所示:
aij=gum(Wg*(hi+hj)+bg) (3)
其中,aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;Wg和bg分别为计算两个相邻的智能体之间的连接关系时的权重和偏置,Wg和bg在计算不同的两个相邻的智能体之间的连接关系时共享;gum()代表可以通过reparameter-trick来解决argmax操作不可导的问题的gumbel-softmax函数;hi和hj分别代表智能体i和智能体j的观测特征向量。
步骤S40,基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示。
步骤S41,分别计算对抗双方的在图结构中每两个相邻的智能体之间的连接注意力分数,如式(4)所示:
Figure BDA0003205002900000111
其中,
Figure BDA0003205002900000112
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数;[Whi,Whj]代表进行Whi和Whj的拼接操作,W代表权重矩阵,其由不同的智能体之间共享,hi和hj分别代表图结构中两个相邻的智能体i和智能体j在当前图卷积神经网络层级的观测特征向量;
Figure BDA0003205002900000113
代表权重矩阵;LeakyReLU()为激活函数,若x>0,则LeakyReLU(x)=x,若x≤0,则LeakyReLU(x)=λx,λ为预设的超参数。
步骤S42,基于所述相邻的智能体之间的连接注意力分数,通过softmax函数获取相邻的智能体之间的连接强度,如式(5)所示:
Figure BDA0003205002900000114
其中,softmax()代表softmax函数,
Figure BDA0003205002900000121
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数,
Figure BDA0003205002900000122
代表图卷积神经网络第l层的智能体i和智能体k之间的连接注意力分数,exp()代表指数函数,N(i)代表智能体i在图结构中所有的邻居智能体。
步骤S43,基于所述相邻的智能体之间的连接强度,结合智能体j的观测特征向量
Figure BDA0003205002900000123
通过基于图注意力机制的图卷积神经网络获取图结构中任意一个智能体i的特征,获得融入图结构信息的多智能体特征向量嵌入表示。
图结构中任意一个智能体i的特征,其表示如式(6)所示:
Figure BDA0003205002900000124
其中,
Figure BDA0003205002900000125
代表图卷积神经网络l+1层级中智能体i的观测特征向量;aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;W(l)代表图卷积神经网络l层级的权重矩阵;
Figure BDA0003205002900000126
代表智能体i的观测特征向量。
步骤S50,将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络。
现有技术中,一般采用RNN将时间序列数据串联起来,但是RNN在训练过程中需要逐个时间步进行串行训练,无法并行,效率较低。因此本发明将RNN中的时间连接切断使其变为参数共享的全连接神经网络,再利用位置编码编入时间信息,这样又可以使得整个模型在空间上和时间上都并行的进行训练,大大提高训练效率。
模型训练过程为:首先,收集关卡序列D={τ1…τk…τK},其中τk记录了一个关卡中的状态,动作以及奖励。τk在关卡中的每一个时刻由一个三元组组成
Figure BDA0003205002900000131
st和at为状态和动作集合,也就是所有智能体在时刻t的状态和动作集合;之后,再计算动作网络和评价网络的损失函数;最后,利用梯度下降算法对网络的参数进行更新。重复这个过程直至网络收敛。
动作网络和评价网络的最终输出分别如式(7)和式(8)所示:
Figure BDA0003205002900000132
Figure BDA0003205002900000133
其中,
Figure BDA0003205002900000134
Figure BDA0003205002900000135
分别代表动作网络输出的动作概率分布,也就是策略函数和评价网络输出逇当前状态的价值,Wactor,i和bactor,i分别为动作网络的权重矩阵和偏置矩阵,
Figure BDA0003205002900000136
代表智能体i的图卷积神经网络最后一层的嵌入特征,Wcritic和bcritic分别为评价网络的权重矩阵和偏置矩阵,PE为位置编码信息,也就是当前时间步在整个episode中的位置,其计算方法如式(9)和式(10)所示:
Figure BDA0003205002900000137
Figure BDA0003205002900000138
其中,pos为当前时间步的序号,d为智能体经过嵌入表示后的维度,m嵌入表示的维度,也就是说为嵌入表示的偶数位加入第一个编码为奇数位加入第二个编码。
动作网络损失函数,其表示如式(11)所示:
Figure BDA0003205002900000139
其中,Lactor代表动作网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,πi代表当前智能体执行的策略,N代表智能体数量,
Figure BDA0003205002900000141
分别代表智能体i在当前时刻t执行的动作和所处状态,
Figure BDA0003205002900000142
为动作网络中智能体i当前动作的优势函数。
优势函数用于评价智能体i当前动作的好坏,即比较当前所获得的奖励与当前的状态值,与下一个时刻的状态价值优势的程度,如果是负值,则证明这个动作所获得的奖励不如当前策略估计的V(st+1),应该减少这个动作在这个状态出现的概率;如果是正值,则证明这个动作所获得的奖励比当前策略估计的V(st+1)更优,应该增加这个动作在这个状态出现的概率。
优势函数
Figure BDA0003205002900000143
如式(12)所示:
Figure BDA0003205002900000144
其中,
Figure BDA0003205002900000145
代表通过奖励函数r获取的智能体i当前时刻t的奖励,
Figure BDA0003205002900000146
Figure BDA0003205002900000147
分别代表智能体i当前时刻t和下一时刻t+1的状态价值,γ为预设的超参数。一般将γ设定为小于但接近1的数,如0.99,代表奖励衰减,即越未来的奖励权重越低,因为越未来的事情越难以预测。
评价网络损失函数,其表示如式(13)所示:
Figure BDA0003205002900000148
其中,Lcritic代表评价网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,
Figure BDA0003205002900000149
代表评价网络的输出结果,
Figure BDA00032050029000001410
代表智能体i当前时刻t的累积回报,如式(14)所示:
Figure BDA00032050029000001411
其中,
Figure BDA00032050029000001412
代表通过奖励函数r获取的智能体i时刻0,1,…,t的奖励,γ0,γ1,…γt为预设的超参数。
步骤S60,通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于动态图神经网络的多智能体对抗系统,该多智能体对抗系统包括以下模块:
对抗设定,配置为设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
线性变换模块,配置为获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
图结构构建模块,配置为通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
嵌入表示模块,配置为基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
时空并行训练模块,配置为将所述多智能体特征向量嵌入表示用于动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
多智能体对抗模块,配置为通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于动态图神经网络的多智能体对抗系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于动态图神经网络的多智能体对抗方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于动态图神经网络的多智能体对抗方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于动态图神经网络的多智能体对抗方法,其特征在于,该多智能体对抗方法包括:
步骤S10,设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
步骤S20,获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
步骤S30,通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
步骤S40,基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
步骤S50,将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
步骤S60,通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
2.根据权利要求1所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述每一个智能体的观测特征向量,其表示为:
Figure FDA0003205002890000011
其中,
Figure FDA0003205002890000021
代表智能体i在t时刻的观测特征向量,
Figure FDA0003205002890000022
代表智能体i在t时刻的状态向量,W和b分别为将智能体i的状态向量si进行线性变换的预设的权重和偏置,relu()为激活函数。
3.根据权利要求1所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述智能体之间的连接关系,其表示为:
aij=gum(Wg*(hi+hj)+bg)
其中,aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;Wg和bg分别为计算两个相邻的智能体之间的连接关系时的权重和偏置,Wg和bg在计算不同的两个相邻的智能体之间的连接关系时共享;gum()代表可以通过reparameter-trick来解决argmax操作不可导的问题的gumbel-softmax函数;hi和hj分别代表智能体i和智能体j的观测特征向量。
4.根据权利要求1所述的基于动态图神经网络的多智能体对抗方法,其特征在于,步骤S40包括:
步骤S41,分别计算对抗双方的在图结构中每两个相邻的智能体之间的连接注意力分数;
步骤S42,基于所述相邻的智能体之间的连接注意力分数,通过softmax函数获取相邻的智能体之间的连接强度;
步骤S43,基于所述相邻的智能体之间的连接强度,结合智能体j的观测特征向量
Figure FDA0003205002890000023
通过基于图注意力机制的图卷积神经网络获取图结构中任意一个智能体i的特征,获得融入图结构信息的多智能体特征向量嵌入表示。
5.根据权利要求4所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述图结构中每两个相邻的智能体之间的连接注意力分数,其表示为:
Figure FDA0003205002890000031
其中,
Figure FDA0003205002890000032
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数;[Whi,Whj]代表进行Whi和Whj的拼接操作,W代表权重矩阵,hi和hj分别代表图结构中两个相邻的智能体i和智能体j在当前图卷积神经网络层级的观测特征向量;
Figure FDA0003205002890000033
代表权重矩阵;LeakyReLU()为激活函数,若x>0,则LeakyReLU(x)=x,若x≤0,则LeakyReLU(x)=λx,λ为预设的超参数。
6.根据权利要求5所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述相邻的智能体之间的连接强度,其表示为:
Figure FDA0003205002890000034
其中,softmax()代表softmax函数,
Figure FDA0003205002890000035
代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数,
Figure FDA0003205002890000036
代表图卷积神经网络第l层的智能体i和智能体k之间的连接注意力分数,exp()代表指数函数,N(i)代表智能体i在图结构中所有的邻居智能体。
7.根据权利要求6所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述图结构中任意一个智能体i的特征,其表示为:
Figure FDA0003205002890000037
其中,
Figure FDA0003205002890000038
代表图卷积神经网络l+1层级中智能体i的观测特征向量;aij代表智能体i和智能体j之间的连接关系,aij=1代表智能体i和智能体j之间存在连接关系,aij=0代表智能体i和智能体j之间不存在连接关系;W(l)代表图卷积神经网络l层级的权重矩阵;
Figure FDA0003205002890000041
代表智能体i的观测特征向量。
8.根据权利要求1所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述动作网络损失函数,其表示为:
Figure FDA0003205002890000042
其中,Lactor代表动作网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,πi代表当前智能体执行的策略,N代表智能体数量,
Figure FDA0003205002890000043
分别代表智能体i在当前时刻t执行的动作和所处状态,
Figure FDA0003205002890000044
为动作网络中智能体i当前动作的优势函数:
Figure FDA0003205002890000045
其中,
Figure FDA0003205002890000046
代表通过奖励函数r获取的智能体i当前时刻t的奖励,
Figure FDA0003205002890000047
Figure FDA0003205002890000048
分别代表智能体i当前时刻t和下一时刻t+1的状态价值,γ为预设的超参数。
9.根据权利要求1所述的基于动态图神经网络的多智能体对抗方法,其特征在于,所述评价网络损失函数,其表示为:
Figure FDA0003205002890000049
其中,Lcritic代表评价网络损失函数,|D|表示训练中经历关卡的数量,T代表当前关卡执行的时间长度,
Figure FDA00032050028900000410
代表评价网络的输出结果,
Figure FDA00032050028900000411
代表智能体i当前时刻t的累积回报:
Figure FDA00032050028900000412
其中,
Figure FDA00032050028900000413
代表通过奖励函数r获取的智能体i时刻0,1,…,t的奖励,γ0,γ1,…γt为预设的超参数。
10.一种基于动态图神经网络的多智能体对抗系统,其特征在于,该多智能体对抗系统包括以下模块:
对抗设定,配置为设定对抗双方的对抗任务、建设要求,设定对抗双方每完成一个任务的奖励函数r;
线性变换模块,配置为获取对抗双方每一个智能体的观测向量,并通过全连接层进行线性变换,获得每一个智能体的观测特征向量;所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态;
图结构构建模块,配置为通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系,并基于所述连接关系构建智能体之间的图结构;
嵌入表示模块,配置为基于所述每一个智能体的观测特征向量,通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示,获得融入图结构信息的多智能体特征向量嵌入表示;
时空并行训练模块,配置为将所述多智能体特征向量嵌入表示用于动作网络的动作预测结果以及评价网络对动作预测结果的评价,基于预先构建的动作网络损失函数、评价网络损失函数,通过梯度下降方法进行动作网络、评价网络的训练,获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络;
多智能体对抗模块,配置为通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络,进行多智能体对抗中的动作预测和动作评价。
CN202110914090.5A 2021-08-10 2021-08-10 基于动态图神经网络的多智能体对抗方法及系统 Pending CN113627596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914090.5A CN113627596A (zh) 2021-08-10 2021-08-10 基于动态图神经网络的多智能体对抗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914090.5A CN113627596A (zh) 2021-08-10 2021-08-10 基于动态图神经网络的多智能体对抗方法及系统

Publications (1)

Publication Number Publication Date
CN113627596A true CN113627596A (zh) 2021-11-09

Family

ID=78383950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914090.5A Pending CN113627596A (zh) 2021-08-10 2021-08-10 基于动态图神经网络的多智能体对抗方法及系统

Country Status (1)

Country Link
CN (1) CN113627596A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399909A (zh) * 2021-12-31 2022-04-26 深圳云天励飞技术股份有限公司 交通信号灯控制方法及相关设备
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN116188173A (zh) * 2023-05-04 2023-05-30 北京澜舟科技有限公司 证券市场波动预警方法、系统以及存储介质
CN116596406A (zh) * 2023-07-11 2023-08-15 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质
CN117217100A (zh) * 2023-11-08 2023-12-12 中国人民解放军63963部队 一种基于强化学习的某分队数智化建模方法及仿真系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399909A (zh) * 2021-12-31 2022-04-26 深圳云天励飞技术股份有限公司 交通信号灯控制方法及相关设备
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN116188173A (zh) * 2023-05-04 2023-05-30 北京澜舟科技有限公司 证券市场波动预警方法、系统以及存储介质
CN116596406A (zh) * 2023-07-11 2023-08-15 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质
CN116596406B (zh) * 2023-07-11 2023-10-03 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质
CN117217100A (zh) * 2023-11-08 2023-12-12 中国人民解放军63963部队 一种基于强化学习的某分队数智化建模方法及仿真系统
CN117217100B (zh) * 2023-11-08 2024-01-30 中国人民解放军63963部队 一种基于强化学习的某分队数智化建模方法及仿真系统

Similar Documents

Publication Publication Date Title
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
JP7159458B2 (ja) 仮想環境における仮想対象のスケジューリング方法、装置、デバイス及びコンピュータプログラム
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN105637540A (zh) 用于强化学习的方法和设备
Yu From information networking to intelligence networking: Motivations, scenarios, and challenges
Yesil et al. Fuzzy cognitive maps learning using artificial bee colony optimization
Ma et al. Contrastive variational reinforcement learning for complex observations
CN115018017B (zh) 基于集成学习的多智能体信用分配方法、系统、设备
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
Druce et al. Brittle AI, causal confusion, and bad mental models: challenges and successes in the XAI program
Liu et al. Efficient reinforcement learning for starcraft by abstract forward models and transfer learning
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN114880955A (zh) 基于强化学习的兵棋多实体异步协同决策方法和装置
CN117272835A (zh) 数字孪生兵棋推演气象数据仿真及智能决策方法和系统
CN108898221A (zh) 基于状态特征和后继特征的特征与策略的联合学习方法
Kuravsky et al. An applied multi-agent system within the framework of a player-centered probabilistic computer game
Balachandar et al. Collaboration of ai agents via cooperative multi-agent deep reinforcement learning
Ji et al. Improving decision-making efficiency of image game based on deep Q-learning
CN116353623A (zh) 一种基于自监督模仿学习的驾驶控制方法
CN114053712B (zh) 一种虚拟对象的动作生成方法、装置及设备
CN116047902A (zh) 一种机器人在人群中导航的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination