CN114037048A

CN114037048A - 基于变分循环网络模型的信念一致多智能体强化学习方法

Info

Publication number: CN114037048A
Application number: CN202111200399.4A
Authority: CN
Inventors: 刘宇; 张现杰; 赵哲焕; 单世民
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-11
Anticipated expiration: 2041-10-15
Also published as: CN114037048B

Abstract

本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法，该方法启发于人类团队之间的可以产生默契合作的现象，即通过共同的信念在任务上达成一致性共识。与人类社会群体类似，分布式学习系统中的智能体也可以受益于一致的信念，在有限的通信条件下实现协作。在本文中，我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法，它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念，以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明，该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。

Description

基于变分循环网络模型的信念一致多智能体强化学习方法

技术领域

本发明属于计算机人工智能控制决策技术领域，涉及一种基于变分循环网络模型进而实现智能体之间信念一致性多智能体强化学习协作方法。

背景技术

多智能体强化学习对于各种高维场景和多智能体的复杂任务是必不可少的一种方法工具。多智能体强化学习最近在各种实际问题上的应用引起了人们的关注，包括交通信号灯控制，自动驾驶，以及网络数据包传递。这种自主的协同方法具有广泛的商用价值及深远的研究意义。

然而，在真实世界中的多智能体系统，智能体通常都受到其局部观测和通信带宽的限制，这使得实现智能体之间的有效合作成为一个具有挑战性的问题。为了应对这些问题，提出了一系列集中训练和分散执行(CTDE)方法，例如：MADDPG和COMA在Actor-Critic框架内学习了集中式评论家和分散式的执行者。还有一些方法比如VDN和QMIX使用混合网络来分解价值函数。然而，所有这些方法在训练过程中都只使用集中式评论家进行协调，而在执行过程中缺乏智能体之间的协调机制。

也有大量研究采用通信机制来实现执行过程中智能体之间的协调。这些工作通常建立在智能体可以使用显式通信协议或符号共享某种私人信息的假设之上。然而，在人类合作的出现中，人们通常在没有交流的情况下也能以一致的方式感知自己的处境，这是一种自然意识。受此启发，一些研究将认知或常识的概念引入多智能体系统，在促进智能体之间的合作方面表现出良好的性能。然而，由于智能体对环境只有局部的观测，智能体很难形成可以在它们之间共享的一致信念。

发明内容

为了克服上述现有技术的缺点，和人类协同过程中自然产生一致性信念的启发，本发明提供一个基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法。

这是一种新颖的基于值的强化学习方法，可以在局部观察的约束下推断智能体之间的一致信念。该方法使智能体能够通过局部观测推断他们的潜在信念，并使用KL散度度量使潜在信念趋于一致。为了在处理历史数据的同时推断出一致的潜在信念，方法基于变分模型和循环神经网络(RNN)结合的变分循环网络框架。在训练阶段，所有的观察都可以获得每个智能体的一致信念，而在执行阶段，每个智能体的控制器只能访问局部观察和自身推断的潜在变量。因此，该方法仍然在集中训练分散执行的模式下，但在执行过程中不需要在智能体之间交换显示信息并且只需要本地信息的意义上说，该方法是免通信和完全分布式的。

为了实现上述目的，本发明采用的具体技术方案是：

基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法具体步骤为：

(1)变分模型对分布式部分观测马尔科夫过程(Dec-POMDP)建模：

在变分模型(VAE)中，潜变量z用于预测可观察变量x。难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近，然后在对数似然上最大化证据下限(ELBO)：

变分循环网络(VRNN)是VAE的扩展，可用于处理序列数据。下面我们将VRNN推广到多智能体顺序决策设置中。在Dec-POMDP设置中有N个智能体。对于每个智能体，状态转换函数p(o_i,t+1|o_i,t,a_i,t)和奖励函数可以很容易地嵌入到图形模型中。为方便起见，将奖励r与智能体i的部分观察o_i拼接为一个整体x_i＝(o_i,r)。图2给出了多智能体变分模型的简图，其中每个智能体i都有可观察变量x_i和相应的潜在变量z_i。此外，方法具有以下组成部分：

初始分布和先验分布分别是p_θ(z_i,1)和p_θ(z_i,t|z_i,t-1,x_i,t-1,a_i,1:t-1)。

在生成模型中：未来的观测是通过其潜在变量来预测的，p_θ(x_i,t∣z_i,1:t,x_i,1:t-1)。

在推理模型中：潜在变量z_i,t由推理模型近似q_φ(z_i,t|z_i,1:t-1,x_i,1:t,a_i,1:t-1)。

从对数似然上最大化证据下限(ELBO)扩展，智能体i的潜在变量模型的对数似然可以重写为：

最大化ELBO相当于最小化损失函数

分别将q_φ(z_i,t|z_i,1:t-1,x_i,1:t,a_i,1:t-1)命名为编码器，将p_θ(x_i,t∣z_i,1:t,x_i,1:t-1)命名为解码器。请注意，

表示损失函数的小批量版本。

变分模型与门控循环单元(GRU)网络相结合，该网络是高度灵活的函数逼近器。每个智能体的隐藏层变量可以通过递推方程更新：

d_i,t＝GRU(d_i,t-1；z_i,t,x_i,t)

(2)利用高斯分布对其中分布进行重参数化近似：

生成模型

变分模型以GRU的隐藏层变量d_i,t为条件。可以根据历史信息得到一个先验分布，

具有对角协方差结构I由于面临高维连续状态空间的问题，使用高斯分布作为输出。参数化的对角高斯分布如下：

其中

和

是参数化的先验分布，θ^prior(·)是先验分布的神经网络参数。给定内部状态

可以通过生成模型预测未来的观察结果)：

其中

和

是参数化的预测观测分布，θ^p(·)是神经网络参数。

推理模型

智能体i的信念z_i,t可以参数化为高斯分布

给定变量x_i,t：

其中

和

表示参数化的高斯后验分布，φ^q(·)是后验分布的神经网络参数。

给定以上模型，可以计算出

中的两项。第一项是生成模型

这是自动编码器术语中的负重构误差。对于每个智能体i，有以下公式：

其中x_i,t是从重放缓冲区采样的原始状态和奖励，

是基于历史信息和潜在变量的重构变量，

基于等式

假设

属于参数化高斯分布，均值为

方差为

得到参数化的

其中∈是辅助噪声变量

第二项是KL散度。类似地，q_φ(z_i,t|z_i,1:t-1,x_i,1:t,a_i,1:t-1)和p_θ(z_i,t|z_i,t-1,x_i,t-1,a_i,1:t-1)可以参数化为高斯分布，这两个分布之间的KL散度如下所示：

生成模型和推理模型是联合训练的，目标是优化参数使得最大化ELBO。

(3)智能体之间形成一致性信念

在前面的小节中，使用变分分布来近似每个智能体的先验分布。这允许每个智能体推断一个有意义的潜在变量。然而，对于多个智能体，仅仅推断他们的潜在变量可能不会有利于合作的建立。一种可能的解决方案是每个智能体推断关于全局状态s的潜在变量。给定先验分布p(z_t|s_t)，可以使用D_KL(q_φ(z_i,t|z_i,1:t-1,x_i,1:t,a_i,1:t-1)||p(z_t|s_t))来推断一致信念。然而，由于部分观察，智能体通常无法访问全局状态。为了规避这个问题，让智能体之间的变分分布相互近似，以实现智能体之间的信念一致性。

上述损失L_CB将使智能体i的信念q_φ(z_i,t|z_i,1:t-1,x_i,1:t,a_i,1:t-1)与智能体j的信念q_φ(z_j,t|z_j,1:t-1,x_j,1:t,a_j,1:t-1)接近，这意味着智能体i和j将实现一致信念。

(3)构建强化学习损失函数和变分模型损失函数：

CBMA的训练基于QMIX系列算法，通过并行最小化时序差分损失和变分模型损失。

时序差分损失：

使用时序差分损失的梯度更新每个智能体的Q网络θ_Q和混合网络θ_m。如图5所示，对于每个智能体的Q-networkQ_i，输入是(o_i,a_i,d_i)，然后每个单独的效用被送入混合网络，用于计算全局动作值Q_tot。网络由以下等式更新：

其中y^tot＝r+γmax_a′Q_tot(o′,d′,a′,s′；ξ-)，智能体的Q网络和混合网络参数表示为ξ＝(θ_Q,θ_m)和ξ-是目标网络的参数。

包含每个智能体的部分可观察信息，

是变分模型计算的内部状态。

一致信念变分模型损失

变分公式和一致信念损失的组合如下：

其中L_VR是训练一致信念变分网络的损失；超参数α用于平衡L_CB的权重。

与现有技术相比，本发明能够使基于变分循环网络模型的信念一致多智能体强化学习方法，可以让多智能体系统学习到一致信念，让智能体在没有显示通信的情况推测其他智能体的动态变化，同时模型利用变分自编码器使模型据有可解释性。

本发明的方法可以应用于无人机群控制、自动驾驶等各个领域。

附图说明

图1为本发明示意图。

图2为本发明的图模型结构简图，其中正方形为确定性变量，圆圈为随机变量。白色圆圈为观察变量，灰色圆圈为潜在变量。左边是生成模型，右边是智能体的推理模型。

图3为本发明训练阶段的图结构。

图4为本发明执行阶段的图结构。

图5为本发明执行阶段的中集中训练强化学习网络结构。

图6为网格环境，左边为拦截任务，右边为导航任务。

图7为星际争霸II独立控制环境(SMAC)。

图8为拦截任务奖励值图。

图9为导航任务奖励值图。

图10为星际争霸II独立控制环境奖励值图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

图4和图5给出了本发明的基本计算设计框架。主要过程如下：

首先，在图5中是执行过程的示图。在算法开始训练前需要先让实施例中的游戏场景运行起来，并得到智能体的轨迹数据。在方法中为了方便利用图模型拟合状态转换函数p(o_i,t+1|o_i,t,a_i,t)和奖励函数将奖励r与智能体i的部分观察o_i拼接为一个整体x_i＝(o_i,r)。其中每个智能体的部分观测向量是一个一维的特征向量，奖励值是一个标量，二者可以拼接起来组成一个新的向量x_i。将x_i作为循环神经网络GRU的输入：

d_i,t＝GRU(d_i,t-1；z_i,t,x_i,t)

其中d_i,t是循环神经网络中的隐藏层状态，保证网络对历史数据的记忆。z_i,t是利用推理机制计算出来的潜在变量。在得到t时刻的中间变量d_i,t之后就可以利用每个智能体的策略网络得到每个智能体的动作a_i。策略网络是一个Q函数网络，控制器可以通过

为每个智能体选择动作。

然后，在图4中是训练过程的示图。训练过程使用的数据是执行阶段得到存储的智能体历史轨迹。利用这些历史轨迹，方法每一次采样了一个小批量数据来训练变分模型和强化学习模型。变分模型和强化模型是分为两个损失函数计算的。在训练变分模型时也同时训练其中的RNN模型，其中变分模型包括生成模型和推理模型。在训练强化学习模型时，仅使用方程

中的损失函数训练控制器的多层感知器(MLP)网络和混合网络。

由于初始阶段智能体的策略更具探索性并且大部分轨迹是随机的，因此变分网络在早期训练阶段是不稳定的。设计了两个变分网络来解决这个问题。第一个网络，在收集到足够多的数据后，进行足够轮次的训练，然后固定，无需进一步训练。第二个网络先进行强化学习部分的训练，直到训练结束。

实施例

在本实施例中，在GTX 2080显卡上，采用深度学习框架Pytorch。

实验环境：实验评估是在网格世界环境和星际争霸II独立控制环境(SMAC)上进行的。网格世界环境是一个离散时间、离散空间和离散动作空间的游戏环境，智能体可以执行五个动作，包括向上、向下、向左、向右或停留。而星际争霸II独立控制环境是一个离散时间、连续空间和离散动作空间的游戏环境，其中每个智能体是一个战斗单元可以执行的动作分为运动动作和开火动作，其中运动动作为：向上、向下、向左、向右或停留，开火动作为，敌方所对应的智能体。

如图7所示，在SMAC中利用了地图5m_vs_6m，非对称作战单元，包括：5名用户陆战队员对6名敌人陆战队员(5m_vs_6m)。

基于网格世界环境设计了两个游戏场景。穿过拦截器场景，协同导航场景。如图6所示：

在拦截任务中，智能体必须学会到达比赛场地的底部。与此同时，拦截器旨在通过某些策略阻止他们。三个智能体和两个拦截器放置在一个7×4的棋盘上，如图6左所示。拦截器1和拦截器2分别负责第1-4和4-7列。状态空间由每个智能体和拦截器的位置组成。每个智能体的动作空间包括向上、向下、向左和向右，或停留在原地，而阻挡者则以某种策略向左或向右移动以阻止这些智能体。每轮次最多有20步，直到其中一个智能体到达最终区域。在到达终极区域之前，团队的每一步奖励都是-1。当其中一个智能体成功时，情节结束。此游戏的最大累积奖励为-3。

在导航游戏中，四个智能体将学习一个协作策略以到达四个相应的地标。此类任务与拦截器具有相同的离散操作设置。设置了一个任务，即6×6。对于这个任务，在所有智能体到达他们的终端之前，每一步给出-1的奖励。如图6右所示，智能体和标志由一个数字(即1-4)标识。只有当所有智能体都到达相应的标志时，游戏才结束。6×6任务的最大奖励为-4。

为证明基于变分循环网络模型的信念一致多智能体强化学习方法的有效性，通过在两种环境测试奖励值(reward)指标。结果如图8-10所示，我们对比了现有技术，例如：Q-DPP、VDN、IQL、QMIX、COMA和QTRAN。算法在不同场景下的表现，都达到了超过基线的性能。实验证明本发明的方法能够有效提高多个智能体的奖励值。从实验结果中可以看出，本发明相比于现有技术不仅可以适用于离散状态空间，而且在高维连续状态空间的游戏环境也可以获得很好的性能。

Claims

1.基于变分循环模型的信念一致多智能体强化学习方法，其特征在于，步骤如下：

(1)变分模型对分布式部分观测马尔科夫过程(Dec-POMDP)建模

在变分模型VAE中，潜变量z用于预测可观察变量x；难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近，然后在对数似然上最大化证据下限(ELBO)：

变分循环网络(VRNN)是VAE的扩展，用于处理序列数据；将VRNN推广到多智能体顺序决策设置；在Dec-POMDP设置中有N个智能体；对于每个智能体，状态转换函数p(o_i，t+1|o_i，t，a_i，t)和奖励函数很容易地嵌入到图形模型中；将奖励r与智能体i的部分观察o_i拼接为一个整体x_i＝(o_i，r)；

初始分布和先验分布分别是p_θ(z_i，1)和p_θ(z_i，t|z_i，t-1，x_i，t-1，a_i，1：t-1)；

在生成模型中，未来的观测是通过其潜在变量来预测的，p_θ(x_i，t|z_i，1：t，x_i，1：t-1)；

在推理模型中：潜在变量z_i，t由推理模型近似q_φ(z_i，t|z_i，1：t-1，x_i，1：t，a_i，1：t-1)；

从对数似然上最大化证据下限(ELBO)扩展，智能体i的潜在变量模型的对数似然重写为：