CN113627596A

CN113627596A - 基于动态图神经网络的多智能体对抗方法及系统

Info

Publication number: CN113627596A
Application number: CN202110914090.5A
Authority: CN
Inventors: 何赛克; 张连怡; 闫硕; 熊彦钧; 郑晓龙; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science; Beijing Simulation Center
Current assignee: Institute of Automation of Chinese Academy of Science; Beijing Simulation Center
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-09

Abstract

本发明属于多智能体系统的强化学习领域，具体涉及了一种基于动态图神经网络的多智能体对抗方法及系统，旨在解决现有基于图神经网络的多智能体模型训练速度慢、效率低以及图构建中需要较多人工干预的问题。本发明包括：获取每一个智能体的观测向量，并进行线性变换获得观测特征向量；计算相邻智能体之间的连接关系，构建智能体之间的图结构；结合观测特征向量对智能体之间的图结构进行嵌入表示；将嵌入表示用于动作网络的动作预测结果和评价网络的评价，进行网络时空并行训练；通过训练好的网络进行多智能体对抗中的动作预测和动作评价。本发明通过剪枝建立更真实的图关系，利用全连接神经网络加位置编码的实现时空并行训练，训练效率高、效果好。

Description

基于动态图神经网络的多智能体对抗方法及系统

技术领域

本发明属于多智能体系统的强化学习领域，具体涉及了一种基于动态图神经网络的多智能体对抗方法及系统。

背景技术

强化学习在诸多领域都有很多成功的应用，其中多智能体技术作为强化学习中的一个重要分支也有众多的学者在研究。一个重要的多智能体研究方向便是多智能体协作对抗。多智能体模型主要分为两类，一种是对抗，一种是合作。典型的对抗关系的模型便是AlphaZero，其需要两个智能体进行博弈从而发现更优的策略。合作关系便是需要多个智能体之间共同协作完成任务，例如网球双打，足球任务等。

对于多智能体任务，一个最直接的想法便是直接为每一个智能体配备一个单智能体的强化学习模型，而且每一个模型之间不建立任何联系，这便是Ardi Tampuu等人提出的IDQN(Independent Deep QNetwork)。除了这种最简单的方式，还有一种思路便是利用价值函数分解，即定义全局的Q值函数，再将全局的Q值分解为每一个智能体的局部Q值，每一个智能体根据自己的Q值进行决策。Peter Sunehag等人提出了VDN(Value DecompositionNetwork)，其采用最加和的方式将全局Q值分解为单个智能体的Q值，由于只是简单的加和，因此这种方法认为局部Q值的重要性都是一样的。为了解决这个问题，Tabish Rashid等人提出了Qmix算法，这种方法在VDN的基础上采用神经网络学习每一个智能体对全局贡献的权重。除此之外还有Yaodong Yang等人采用的基于注意力机制的多智能体学习算法，该方法利用注意力机制为不同智能体的Q值计算权重并得到全局Q值。除了基于值的方法，还有基于Actor Critic的方法，其中比较有代表性的是Jakob N.Foerster等人提出的COMA(Counterfactual Multi-Agent Policy Gradients)算法，该方法为每一个智能体使用一个Actor并使用一个集中的Critic，并采用反事实推断为每一个智能体分配奖励。

对于多智能体系统，除了使用使用价值函数分解以外还会使用一些方法令智能体之间进行通信。Jakob N.Foerster等人采用RNN使得不同智能体之间可以进行交互通信。Peng Peng等人则采用基于双向RNN的方法，不仅建立了不同智能体之间的通信手段同时还使得其能够完成对过去信息的记忆。还有一些学者使用基于图神经网络的方法，这些方法将智能体之间联系使用图进行建模，并利用图卷积等方法进行表示学习，最后得到学习的策略。Heechang Ryu等人采用了层次化图注意力机制建模智能体之间的关系。Yong Liu等人则首先用图剪枝方法去掉无用的连接关系再使用图注意力机制为不同的智能体分配权重。

总的来说，一般的多智能体模型只能很好的建模智能体中时间序列之间的关系，而现有基于图神经网络的多智能体模型虽然可以很好的建模智能体之间空间关系，但是目前图构建方法主要采用Top-K的方法或者使用完全互连的方法，且在处理时间序列特征上，一般采用的RNN的方法，受限于RNN训练速度较慢，现有基于图神经网络的多智能体模型训练速度慢、效率低。

发明内容

为了解决现有技术中的上述问题，即现有基于图神经网络的多智能体模型训练速度慢、效率低，以及图构建中需要较多人工干预的问题，本发明提供了一种基于动态图神经网络的多智能体对抗方法，该多智能体对抗方法包括：

步骤S10，设定对抗双方的对抗任务、建设要求，设定对抗双方每完成一个任务的奖励函数r；

步骤S20，获取对抗双方每一个智能体的观测向量，并通过全连接层进行线性变换，获得每一个智能体的观测特征向量；所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态；

步骤S30，通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系，并基于所述连接关系构建智能体之间的图结构；

步骤S40，基于所述每一个智能体的观测特征向量，通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示，获得融入图结构信息的多智能体特征向量嵌入表示；

步骤S50，将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价，基于预先构建的动作网络损失函数、评价网络损失函数，通过梯度下降方法进行动作网络、评价网络的训练，获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络；

步骤S60，通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络，进行多智能体对抗中的动作预测和动作评价。

在一些优选的实施例中，所述每一个智能体的观测特征向量，其表示为：

其中，

代表智能体i在t时刻的观测特征向量，

代表智能体i在t时刻的状态向量，W和b分别为将智能体i的状态向量s_i进行线性变换的预设的权重和偏置，relu()为激活函数。

在一些优选的实施例中，所述智能体之间的连接关系，其表示为：

a_ij＝gum(W_g*(h_i+h_j)+b_g)

其中，a_ij代表智能体i和智能体j之间的连接关系，a_ij＝1代表智能体i和智能体j之间存在连接关系，a_ij＝0代表智能体i和智能体j之间不存在连接关系；W_g和b_g分别为计算两个相邻的智能体之间的连接关系时的权重和偏置，W_g和b_g在计算不同的两个相邻的智能体之间的连接关系时共享；gum()代表可以通过reparameter-trick来解决argmax操作不可导的问题的gumbel-softmax函数；h_i和h_j分别代表智能体i和智能体j的观测特征向量。

在一些优选的实施例中，步骤S40包括：

步骤S41，分别计算对抗双方的在图结构中每两个相邻的智能体之间的连接注意力分数；

步骤S42，基于所述相邻的智能体之间的连接注意力分数，通过softmax函数获取相邻的智能体之间的连接强度；

步骤S43，基于所述相邻的智能体之间的连接强度，结合智能体j的观测特征向量

通过基于图注意力机制的图卷积神经网络获取图结构中任意一个智能体i的特征，获得融入图结构信息的多智能体特征向量嵌入表示。

在一些优选的实施例中，所述图结构中每两个相邻的智能体之间的连接注意力分数，其表示为：

其中，

代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数；[Wh_i，Wh_j]代表进行Wh_i和Wh_j的拼接操作，W代表权重矩阵，h_i和h_j分别代表图结构中两个相邻的智能体i和智能体j在当前图卷积神经网络层级的观测特征向量；

代表权重矩阵；LeakyReLU()为激活函数，若x>0，则LeakyReLU(x)＝x，若x≤0，则LeakyReLU(x)＝λx，λ为预设的超参数。

在一些优选的实施例中，所述相邻的智能体之间的连接强度，其表示为：

其中，softmax()代表softmax函数，

代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数，

代表图卷积神经网络第l层的智能体i和智能体k之间的连接注意力分数，exp()代表指数函数，N(i)代表智能体i在图结构中所有的邻居智能体。

在一些优选的实施例中，所述图结构中任意一个智能体i的特征，其表示为：

其中，

代表图卷积神经网络l+1层级中智能体i的观测特征向量；a_ij代表智能体i和智能体j之间的连接关系，a_ij＝1代表智能体i和智能体j之间存在连接关系，a_ij＝0代表智能体i和智能体j之间不存在连接关系；W^(l)代表图卷积神经网络l层级的权重矩阵；

代表智能体i的观测特征向量。

在一些优选的实施例中，所述动作网络损失函数，其表示为：

其中，L_actor代表动作网络损失函数，|D|表示训练中经历关卡的数量，T代表当前关卡执行的时间长度，π_i代表当前智能体执行的策略，N代表智能体数量，

分别代表智能体i在当前时刻t执行的动作和所处状态，

为动作网络中智能体i当前动作的优势函数：

其中，

代表通过奖励函数r获取的智能体i当前时刻t的奖励，

和

分别代表智能体i当前时刻t和下一时刻t+1的状态价值，γ为预设的超参数。

在一些优选的实施例中，所述评价网络损失函数，其表示为：

其中，L_critic代表评价网络损失函数，|D|表示训练中经历关卡的数量，T代表当前关卡执行的时间长度，

代表评价网络的输出结果，

代表智能体i当前时刻t的累积回报：

其中，

代表通过奖励函数r获取的智能体i时刻0，1，…，t的奖励，γ⁰，γ¹，…γ^t为预设的超参数。

本发明的另一方面，提出了一种基于动态图神经网络的多智能体对抗系统，该多智能体对抗系统包括以下模块：

对抗设定，配置为设定对抗双方的对抗任务、建设要求，设定对抗双方每完成一个任务的奖励函数r；

线性变换模块，配置为获取对抗双方每一个智能体的观测向量，并通过全连接层进行线性变换，获得每一个智能体的观测特征向量；所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态；

图结构构建模块，配置为通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系，并基于所述连接关系构建智能体之间的图结构；

嵌入表示模块，配置为基于所述每一个智能体的观测特征向量，通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示，获得融入图结构信息的多智能体特征向量嵌入表示；

时空并行训练模块，配置为将所述多智能体特征向量嵌入表示用于动作网络的动作预测结果以及评价网络对动作预测结果的评价，基于预先构建的动作网络损失函数、评价网络损失函数，通过梯度下降方法进行动作网络、评价网络的训练，获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络；

多智能体对抗模块，配置为通过训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络，进行多智能体对抗中的动作预测和动作评价。

本发明的有益效果：

(1)本发明基于动态图神经网络的多智能体对抗方法，采用gumbel-softmax来对智能体的结构图进行剪枝，从而可以大大减少人为干扰并且能建立智能体之间更真实的图关系，从而有效提升后续智能体对抗训练的效率以及效果。

(2)本发明基于动态图神经网络的多智能体对抗方法，利用全连接神经网络加位置编码的方式对时间序列特征进行提取，可以保证不同时间步的并行训练，即采用时空并行训练方法，大大提升了网络训练效率，并进一步提升了智能体对抗效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于动态图神经网络的多智能体对抗方法一种实施例的模型训练示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于动态图神经网络的多智能体对抗方法，区别于一般的多智能体模型只很好的建模智能体中时间序列之间的关系，采用基于图神经网络的多智能体模型可以很好的建模智能体之间空间关系，这有利于多智能体模型对整个任务进行时空建模。然而，现有技术中对智能体之间进行关系建模时先要将图构建出来，目前图构建方法主要采用Top-K的方法或者使用完全互连的方法，在处理时间序列特征上，一般采用的RNN的方法，但是RNN训练速度较慢。本发明采用了基于门机制gumbel-softmax来剪枝图神经网络，减少人为干扰且能建立更真实的图关系，并且利用全连接网络加位置编码的方式对时间序列特征进行提取，可以实现时空并行训练，大大提升了网络训练效率，并进一步提升了智能体对抗效果。

本发明的一种基于动态图神经网络的多智能体对抗方法，该多智能体对抗方法包括：

为了更清晰地对本发明基于动态图神经网络的多智能体对抗方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于动态图神经网络的多智能体对抗方法，包括步骤S10-步骤S60，各步骤详细描述如下：

步骤S10，设定对抗双方的对抗任务、建设要求，设定对抗双方每完成一个任务的奖励函数r。

本发明一个实施例中，对抗双方为星际争霸2平台的红蓝双方，以蓝方作为我方，红方作为敌方，红方会主动搜索蓝方并发起攻击，蓝方主要任务是歼灭红方的单位并且最大限度的保全自己的部队。蓝方每消灭一个单位则获得这个单位的奖励，蓝方每损失一个单位则扣除该单位的对应的奖励。

一个单位的奖励根据每个单位建造时所使用的资源进行奖励设置，其规则如式(1)所示：

r_unit＝水晶数*1+高能瓦斯数*2 (1)

步骤S20，获取对抗双方每一个智能体的观测向量，并通过全连接层进行线性变换，获得每一个智能体的观测特征向量；所述观测向量包括智能体所处坐标、当前状态、动作、对抗方智能体状态。

在剪枝之前，首先需要初始化智能体之间的图结构，初始状态是全部连接的。一个智能体接受的输入主要包含当前的观测，观测一般包含智能体所出的坐标，当前状态(即红方/蓝方智能体的血量)，动作，对手的状态(即对抗方智能体的血量)等，并由这些数值组成观测向量。

每一个智能体的观测特征向量，其表示如式(2)所示：

其中，

代表智能体i在t时刻的观测特征向量，

代表智能体i在t时刻的状态向量，由于单个智能体无法观测到整个环境，因此这里使用智能体i在t时刻的观测向量代替智能体i在t时刻状态向量，W和b分别为将智能体i的状态向量s_i进行线性变换的预设的权重和偏置，relu()为激活函数。

步骤S30，通过门神经网络分别计算对抗双方的每两个相邻的智能体之间的连接关系，并基于所述连接关系构建智能体之间的图结构。

智能体之间的连接关系，其表示如式(3)所示：

a_ij＝gum(W_g*(h_i+h_j)+b_g) (3)

步骤S40，基于所述每一个智能体的观测特征向量，通过基于图注意力机制的图卷积神经网络将所述智能体之间的图结构进行嵌入表示，获得融入图结构信息的多智能体特征向量嵌入表示。

步骤S41，分别计算对抗双方的在图结构中每两个相邻的智能体之间的连接注意力分数，如式(4)所示：

其中，

代表图卷积神经网络第l层的智能体i和智能体j之间的连接注意力分数；[Wh_i，Wh_j]代表进行Wh_i和Wh_j的拼接操作，W代表权重矩阵，其由不同的智能体之间共享，h_i和h_j分别代表图结构中两个相邻的智能体i和智能体j在当前图卷积神经网络层级的观测特征向量；

步骤S42，基于所述相邻的智能体之间的连接注意力分数，通过softmax函数获取相邻的智能体之间的连接强度，如式(5)所示：

其中，softmax()代表softmax函数，

图结构中任意一个智能体i的特征，其表示如式(6)所示：

其中，

代表智能体i的观测特征向量。

步骤S50，将所述多智能体特征向量嵌入表示用于作为动作网络的动作预测结果以及评价网络对动作预测结果的评价，基于预先构建的动作网络损失函数、评价网络损失函数，通过梯度下降方法进行动作网络、评价网络的训练，获得训练好的用于多智能体对抗的动作预测和动作评价的多智能体对抗动作网络和多智能体对抗评价网络。

现有技术中，一般采用RNN将时间序列数据串联起来，但是RNN在训练过程中需要逐个时间步进行串行训练，无法并行，效率较低。因此本发明将RNN中的时间连接切断使其变为参数共享的全连接神经网络，再利用位置编码编入时间信息，这样又可以使得整个模型在空间上和时间上都并行的进行训练，大大提高训练效率。

模型训练过程为：首先，收集关卡序列D＝{τ₁…τ_k…τ_K}，其中τ_k记录了一个关卡中的状态，动作以及奖励。τ_k在关卡中的每一个时刻由一个三元组组成

s_t和a_t为状态和动作集合，也就是所有智能体在时刻t的状态和动作集合；之后，再计算动作网络和评价网络的损失函数；最后，利用梯度下降算法对网络的参数进行更新。重复这个过程直至网络收敛。

动作网络和评价网络的最终输出分别如式(7)和式(8)所示：

其中，

和

分别代表动作网络输出的动作概率分布，也就是策略函数和评价网络输出逇当前状态的价值，W_actor，i和b_actor，i分别为动作网络的权重矩阵和偏置矩阵，

代表智能体i的图卷积神经网络最后一层的嵌入特征，W_critic和b_critic分别为评价网络的权重矩阵和偏置矩阵，PE为位置编码信息，也就是当前时间步在整个episode中的位置，其计算方法如式(9)和式(10)所示：

其中，pos为当前时间步的序号，d为智能体经过嵌入表示后的维度，m嵌入表示的维度，也就是说为嵌入表示的偶数位加入第一个编码为奇数位加入第二个编码。

动作网络损失函数，其表示如式(11)所示：

分别代表智能体i在当前时刻t执行的动作和所处状态，

为动作网络中智能体i当前动作的优势函数。

优势函数用于评价智能体i当前动作的好坏，即比较当前所获得的奖励与当前的状态值，与下一个时刻的状态价值优势的程度，如果是负值，则证明这个动作所获得的奖励不如当前策略估计的V(s_t+1)，应该减少这个动作在这个状态出现的概率；如果是正值，则证明这个动作所获得的奖励比当前策略估计的V(s_t+1)更优，应该增加这个动作在这个状态出现的概率。

优势函数

如式(12)所示：

其中，

代表通过奖励函数r获取的智能体i当前时刻t的奖励，

和

分别代表智能体i当前时刻t和下一时刻t+1的状态价值，γ为预设的超参数。一般将γ设定为小于但接近1的数，如0.99，代表奖励衰减，即越未来的奖励权重越低，因为越未来的事情越难以预测。

评价网络损失函数，其表示如式(13)所示：

代表评价网络的输出结果，

代表智能体i当前时刻t的累积回报，如式(14)所示：

其中，

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于动态图神经网络的多智能体对抗系统，该多智能体对抗系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于动态图神经网络的多智能体对抗系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于动态图神经网络的多智能体对抗方法。

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于动态图神经网络的多智能体对抗方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。