CN114037048A - 基于变分循环网络模型的信念一致多智能体强化学习方法 - Google Patents

基于变分循环网络模型的信念一致多智能体强化学习方法 Download PDF

Info

Publication number
CN114037048A
CN114037048A CN202111200399.4A CN202111200399A CN114037048A CN 114037048 A CN114037048 A CN 114037048A CN 202111200399 A CN202111200399 A CN 202111200399A CN 114037048 A CN114037048 A CN 114037048A
Authority
CN
China
Prior art keywords
agent
model
variational
distribution
beliefs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111200399.4A
Other languages
English (en)
Other versions
CN114037048B (zh
Inventor
刘宇
张现杰
赵哲焕
单世民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111200399.4A priority Critical patent/CN114037048B/zh
Publication of CN114037048A publication Critical patent/CN114037048A/zh
Application granted granted Critical
Publication of CN114037048B publication Critical patent/CN114037048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Strategic Management (AREA)
  • Geometry (AREA)
  • Robotics (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。

Description

基于变分循环网络模型的信念一致多智能体强化学习方法
技术领域
本发明属于计算机人工智能控制决策技术领域,涉及一种基于变分循环网络模型进而实现智能体之间信念一致性多智能体强化学习协作方法。
背景技术
多智能体强化学习对于各种高维场景和多智能体的复杂任务是必不可少的一种方法工具。多智能体强化学习最近在各种实际问题上的应用引起了人们的关注,包括交通信号灯控制,自动驾驶,以及网络数据包传递。这种自主的协同方法具有广泛的商用价值及深远的研究意义。
然而,在真实世界中的多智能体系统,智能体通常都受到其局部观测和通信带宽的限制,这使得实现智能体之间的有效合作成为一个具有挑战性的问题。为了应对这些问题,提出了一系列集中训练和分散执行(CTDE)方法,例如:MADDPG和COMA在Actor-Critic框架内学习了集中式评论家和分散式的执行者。还有一些方法比如VDN和QMIX使用混合网络来分解价值函数。然而,所有这些方法在训练过程中都只使用集中式评论家进行协调,而在执行过程中缺乏智能体之间的协调机制。
也有大量研究采用通信机制来实现执行过程中智能体之间的协调。这些工作通常建立在智能体可以使用显式通信协议或符号共享某种私人信息的假设之上。然而,在人类合作的出现中,人们通常在没有交流的情况下也能以一致的方式感知自己的处境,这是一种自然意识。受此启发,一些研究将认知或常识的概念引入多智能体系统,在促进智能体之间的合作方面表现出良好的性能。然而,由于智能体对环境只有局部的观测,智能体很难形成可以在它们之间共享的一致信念。
发明内容
为了克服上述现有技术的缺点,和人类协同过程中自然产生一致性信念的启发,本发明提供一个基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法。
这是一种新颖的基于值的强化学习方法,可以在局部观察的约束下推断智能体之间的一致信念。该方法使智能体能够通过局部观测推断他们的潜在信念,并使用KL散度度量使潜在信念趋于一致。为了在处理历史数据的同时推断出一致的潜在信念,方法基于变分模型和循环神经网络(RNN)结合的变分循环网络框架。在训练阶段,所有的观察都可以获得每个智能体的一致信念,而在执行阶段,每个智能体的控制器只能访问局部观察和自身推断的潜在变量。因此,该方法仍然在集中训练分散执行的模式下,但在执行过程中不需要在智能体之间交换显示信息并且只需要本地信息的意义上说,该方法是免通信和完全分布式的。
为了实现上述目的,本发明采用的具体技术方案是:
基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法具体步骤为:
(1)变分模型对分布式部分观测马尔科夫过程(Dec-POMDP)建模:
在变分模型(VAE)中,潜变量z用于预测可观察变量x。难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近,然后在对数似然上最大化证据下限(ELBO):
Figure BDA0003304708450000021
变分循环网络(VRNN)是VAE的扩展,可用于处理序列数据。下面我们将VRNN推广到多智能体顺序决策设置中。在Dec-POMDP设置中有N个智能体。对于每个智能体,状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数可以很容易地嵌入到图形模型中。为方便起见,将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r)。图2给出了多智能体变分模型的简图,其中每个智能体i都有可观察变量xi和相应的潜在变量zi。此外,方法具有以下组成部分:
初始分布和先验分布分别是pθ(zi,1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)。
在生成模型中:未来的观测是通过其潜在变量来预测的,pθ(xi,t∣zi,1:t,xi,1:t-1)。
在推理模型中:潜在变量zi,t由推理模型近似qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)。
从对数似然上最大化证据下限(ELBO)扩展,智能体i的潜在变量模型的对数似然可以重写为:
Figure BDA0003304708450000031
最大化ELBO相当于最小化损失函数
Figure BDA0003304708450000032
分别将qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)命名为编码器,将pθ(xi,t∣zi,1:t,xi,1:t-1)命名为解码器。请注意,
Figure BDA0003304708450000033
表示损失函数的小批量版本。
变分模型与门控循环单元(GRU)网络相结合,该网络是高度灵活的函数逼近器。每个智能体的隐藏层变量可以通过递推方程更新:
di,t=GRU(di,t-1;zi,t,xi,t)
(2)利用高斯分布对其中分布进行重参数化近似:
生成模型
变分模型以GRU的隐藏层变量di,t为条件。可以根据历史信息得到一个先验分布,
Figure BDA0003304708450000034
具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出。参数化的对角高斯分布如下:
Figure BDA0003304708450000035
其中
Figure BDA0003304708450000036
Figure BDA0003304708450000037
是参数化的先验分布,θprior(·)是先验分布的神经网络参数。给定内部状态
Figure BDA0003304708450000038
可以通过生成模型预测未来的观察结果):
Figure BDA0003304708450000039
其中
Figure BDA00033047084500000310
Figure BDA00033047084500000311
是参数化的预测观测分布,θp(·)是神经网络参数。
推理模型
智能体i的信念zi,t可以参数化为高斯分布
Figure BDA00033047084500000312
给定变量xi,t
Figure BDA00033047084500000313
其中
Figure BDA00033047084500000314
Figure BDA00033047084500000315
表示参数化的高斯后验分布,φq(·)是后验分布的神经网络参数。
给定以上模型,可以计算出
Figure BDA0003304708450000041
中的两项。第一项是生成模型
Figure BDA0003304708450000042
Figure BDA0003304708450000043
这是自动编码器术语中的负重构误差。对于每个智能体i,有以下公式:
Figure BDA0003304708450000044
其中xi,t是从重放缓冲区采样的原始状态和奖励,
Figure BDA0003304708450000045
是基于历史信息和潜在变量的重构变量,
Figure BDA0003304708450000046
基于等式
Figure BDA0003304708450000047
Figure BDA0003304708450000048
假设
Figure BDA0003304708450000049
属于参数化高斯分布,均值为
Figure BDA00033047084500000410
方差为
Figure BDA00033047084500000411
得到参数化的
Figure BDA00033047084500000412
其中∈是辅助噪声变量
Figure BDA00033047084500000413
第二项是KL散度。类似地,qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)可以参数化为高斯分布,这两个分布之间的KL散度如下所示:
Figure BDA00033047084500000414
生成模型和推理模型是联合训练的,目标是优化参数使得最大化ELBO。
(3)智能体之间形成一致性信念
在前面的小节中,使用变分分布来近似每个智能体的先验分布。这允许每个智能体推断一个有意义的潜在变量。然而,对于多个智能体,仅仅推断他们的潜在变量可能不会有利于合作的建立。一种可能的解决方案是每个智能体推断关于全局状态s的潜在变量。给定先验分布p(zt|st),可以使用DKL(qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)||p(zt|st))来推断一致信念。然而,由于部分观察,智能体通常无法访问全局状态。为了规避这个问题,让智能体之间的变分分布相互近似,以实现智能体之间的信念一致性。
Figure BDA0003304708450000051
上述损失LCB将使智能体i的信念qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)与智能体j的信念qφ(zj,t|zj,1:t-1,xj,1:t,aj,1:t-1)接近,这意味着智能体i和j将实现一致信念。
(3)构建强化学习损失函数和变分模型损失函数:
CBMA的训练基于QMIX系列算法,通过并行最小化时序差分损失和变分模型损失。
时序差分损失:
使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm。如图5所示,对于每个智能体的Q-networkQi,输入是(oi,ai,di),然后每个单独的效用被送入混合网络,用于计算全局动作值Qtot。网络由以下等式更新:
Figure BDA0003304708450000052
其中ytot=r+γmaxa′Qtot(o′,d′,a′,s′;ξ-),智能体的Q网络和混合网络参数表示为ξ=(θQm)和ξ-是目标网络的参数。
Figure BDA0003304708450000053
包含每个智能体的部分可观察信息,
Figure BDA0003304708450000054
是变分模型计算的内部状态。
一致信念变分模型损失
变分公式和一致信念损失的组合如下:
Figure BDA0003304708450000055
其中LVR是训练一致信念变分网络的损失;超参数α用于平衡LCB的权重。
与现有技术相比,本发明能够使基于变分循环网络模型的信念一致多智能体强化学习方法,可以让多智能体系统学习到一致信念,让智能体在没有显示通信的情况推测其他智能体的动态变化,同时模型利用变分自编码器使模型据有可解释性。
本发明的方法可以应用于无人机群控制、自动驾驶等各个领域。
附图说明
图1为本发明示意图。
图2为本发明的图模型结构简图,其中正方形为确定性变量,圆圈为随机变量。白色圆圈为观察变量,灰色圆圈为潜在变量。左边是生成模型,右边是智能体的推理模型。
图3为本发明训练阶段的图结构。
图4为本发明执行阶段的图结构。
图5为本发明执行阶段的中集中训练强化学习网络结构。
图6为网格环境,左边为拦截任务,右边为导航任务。
图7为星际争霸II独立控制环境(SMAC)。
图8为拦截任务奖励值图。
图9为导航任务奖励值图。
图10为星际争霸II独立控制环境奖励值图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
图4和图5给出了本发明的基本计算设计框架。主要过程如下:
首先,在图5中是执行过程的示图。在算法开始训练前需要先让实施例中的游戏场景运行起来,并得到智能体的轨迹数据。在方法中为了方便利用图模型拟合状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r)。其中每个智能体的部分观测向量是一个一维的特征向量,奖励值是一个标量,二者可以拼接起来组成一个新的向量xi。将xi作为循环神经网络GRU的输入:
di,t=GRU(di,t-1;zi,t,xi,t)
其中di,t是循环神经网络中的隐藏层状态,保证网络对历史数据的记忆。zi,t是利用推理机制计算出来的潜在变量。在得到t时刻的中间变量di,t之后就可以利用每个智能体的策略网络得到每个智能体的动作ai。策略网络是一个Q函数网络,控制器可以通过
Figure BDA0003304708450000061
为每个智能体选择动作。
然后,在图4中是训练过程的示图。训练过程使用的数据是执行阶段得到存储的智能体历史轨迹。利用这些历史轨迹,方法每一次采样了一个小批量数据来训练变分模型和强化学习模型。变分模型和强化模型是分为两个损失函数计算的。在训练变分模型时也同时训练其中的RNN模型,其中变分模型包括生成模型和推理模型。在训练强化学习模型时,仅使用方程
Figure BDA0003304708450000071
中的损失函数训练控制器的多层感知器(MLP)网络和混合网络。
由于初始阶段智能体的策略更具探索性并且大部分轨迹是随机的,因此变分网络在早期训练阶段是不稳定的。设计了两个变分网络来解决这个问题。第一个网络,在收集到足够多的数据后,进行足够轮次的训练,然后固定,无需进一步训练。第二个网络先进行强化学习部分的训练,直到训练结束。
实施例
在本实施例中,在GTX 2080显卡上,采用深度学习框架Pytorch。
实验环境:实验评估是在网格世界环境和星际争霸II独立控制环境(SMAC)上进行的。网格世界环境是一个离散时间、离散空间和离散动作空间的游戏环境,智能体可以执行五个动作,包括向上、向下、向左、向右或停留。而星际争霸II独立控制环境是一个离散时间、连续空间和离散动作空间的游戏环境,其中每个智能体是一个战斗单元可以执行的动作分为运动动作和开火动作,其中运动动作为:向上、向下、向左、向右或停留,开火动作为,敌方所对应的智能体。
如图7所示,在SMAC中利用了地图5m_vs_6m,非对称作战单元,包括:5名用户陆战队员对6名敌人陆战队员(5m_vs_6m)。
基于网格世界环境设计了两个游戏场景。穿过拦截器场景,协同导航场景。如图6所示:
在拦截任务中,智能体必须学会到达比赛场地的底部。与此同时,拦截器旨在通过某些策略阻止他们。三个智能体和两个拦截器放置在一个7×4的棋盘上,如图6左所示。拦截器1和拦截器2分别负责第1-4和4-7列。状态空间由每个智能体和拦截器的位置组成。每个智能体的动作空间包括向上、向下、向左和向右,或停留在原地,而阻挡者则以某种策略向左或向右移动以阻止这些智能体。每轮次最多有20步,直到其中一个智能体到达最终区域。在到达终极区域之前,团队的每一步奖励都是-1。当其中一个智能体成功时,情节结束。此游戏的最大累积奖励为-3。
在导航游戏中,四个智能体将学习一个协作策略以到达四个相应的地标。此类任务与拦截器具有相同的离散操作设置。设置了一个任务,即6×6。对于这个任务,在所有智能体到达他们的终端之前,每一步给出-1的奖励。如图6右所示,智能体和标志由一个数字(即1-4)标识。只有当所有智能体都到达相应的标志时,游戏才结束。6×6任务的最大奖励为-4。
为证明基于变分循环网络模型的信念一致多智能体强化学习方法的有效性,通过在两种环境测试奖励值(reward)指标。结果如图8-10所示,我们对比了现有技术,例如:Q-DPP、VDN、IQL、QMIX、COMA和QTRAN。算法在不同场景下的表现,都达到了超过基线的性能。实验证明本发明的方法能够有效提高多个智能体的奖励值。从实验结果中可以看出,本发明相比于现有技术不仅可以适用于离散状态空间,而且在高维连续状态空间的游戏环境也可以获得很好的性能。

Claims (1)

1.基于变分循环模型的信念一致多智能体强化学习方法,其特征在于,步骤如下:
(1)变分模型对分布式部分观测马尔科夫过程(Dec-POMDP)建模
在变分模型VAE中,潜变量z用于预测可观察变量x;难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近,然后在对数似然上最大化证据下限(ELBO):
Figure FDA0003304708440000011
变分循环网络(VRNN)是VAE的扩展,用于处理序列数据;将VRNN推广到多智能体顺序决策设置;在Dec-POMDP设置中有N个智能体;对于每个智能体,状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数很容易地嵌入到图形模型中;将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r);
初始分布和先验分布分别是pθ(zi,1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1);
在生成模型中,未来的观测是通过其潜在变量来预测的,pθ(xi,t|zi,1:t,xi,1:t-1);
在推理模型中:潜在变量zi,t由推理模型近似qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1);
从对数似然上最大化证据下限(ELBO)扩展,智能体i的潜在变量模型的对数似然重写为:
Figure FDA0003304708440000012
最大化ELBO相当于最小化损失函数
Figure FDA0003304708440000013
分别将qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)命名为编码器,将pθ(xi,t|zi,1:t,xi,1:t-1)命名为解码器;请注意,
Figure FDA0003304708440000014
表示损失函数的小批量版本;
变分模型与门控循环单元(GRU)网络相结合,该网络是高度灵活的函数逼近器;每个智能体的隐藏层变量可以通过递推方程更新:
di,t=GRU(di,t-1;zi,t,xi,t)
(2)利用高斯分布对其中分布进行重参数化近似
生成模型
变分模型以GRU的隐藏层变量di,t为条件;根据历史信息得到一个先验分布,
Figure FDA0003304708440000021
具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出;参数化的对角高斯分布如下:
Figure FDA0003304708440000022
其中
Figure FDA0003304708440000023
Figure FDA0003304708440000024
是参数化的先验分布,θprior(·)是先验分布的神经网络参数;给定内部状态
Figure FDA0003304708440000025
通过生成模型预测未来观察结果):
Figure FDA0003304708440000026
其中
Figure FDA0003304708440000027
Figure FDA0003304708440000028
是参数化的预测观测分布,θp(·)是神经网络参数;
推理模型
智能体i的一致信念zi,t参数化为高斯分布
Figure FDA0003304708440000029
给定变量xi,t
Figure FDA00033047084400000210
其中
Figure FDA00033047084400000211
Figure FDA00033047084400000212
表示参数化的高斯后验分布,φq(·)是后验分布的神经网络参数;
给定以上模型,计算出
Figure FDA00033047084400000213
中的两项;第一项是生成模型
Figure FDA00033047084400000214
Figure FDA00033047084400000215
这是自动编码器术语中的负重构误差;对于每个智能体i,有以下公式:
Figure FDA00033047084400000216
其中xi,t是从重放缓冲区采样的原始状态和奖励,
Figure FDA00033047084400000217
是基于历史信息和潜在变量的重构变量,
Figure FDA00033047084400000218
基于等式
Figure FDA00033047084400000219
假设
Figure FDA00033047084400000220
属于参数化高斯分布,均值为
Figure FDA00033047084400000221
方差为
Figure FDA00033047084400000222
得到参数化的
Figure FDA00033047084400000223
Figure FDA00033047084400000224
其中∈是辅助噪声变量
Figure FDA00033047084400000225
第二项是KL散度;类似地,qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)参数化为高斯分布,这两个分布之间的KL散度如下所示:
Figure FDA00033047084400000226
生成模型和推理模型是联合训练的,目标是优化参数使得最大化ELBO;
(3)智能体之间形成一致性信念
每个智能体推断关于全局状态s的潜在变量;给定先验分布p(zt|st),使用DKL(qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)||p(zt|st))来推断一致信念;让智能体之间的变分分布相互近似,以实现智能体之间的信念一致性;
Figure FDA0003304708440000031
上述损失LCB将使智能体i的信念qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)与智能体j的信念qφ(zj,t|zj,1:t-1,xj,1:t,aj,1:t-1)接近,这意味着智能体i和j将实现一致信念;
(3)构建强化学习损失函数和变分模型损失函数:
CBMA的训练基于QMIX系列算法,通过并行最小化时序差分损失和变分模型损失;
时序差分损失:
使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm;对于每个智能体的Q-network Qi,输入是(oi,ai,di),然后每个单独的效用被送入混合网络,用于计算全局动作值Qtot;网络由以下等式更新:
Figure FDA0003304708440000032
其中ytot=r+γmaxa′Qtot(o′,d′,a′,s′;ξ-),智能体的Q网络和混合网络参数表示为ξ=(θQ,θm)和ξ-是目标网络的参数;
Figure FDA0003304708440000033
包含每个智能体的部分可观察信息,
Figure FDA0003304708440000034
是变分模型计算的内部状态;
一致信念变分模型损失
变分公式和一致信念损失的组合如下:
Figure FDA0003304708440000035
其中LVR是训练一致信念变分网络的损失;超参数α用于平衡LCB的权重。
CN202111200399.4A 2021-10-15 2021-10-15 基于变分循环网络模型的信念一致多智能体强化学习方法 Active CN114037048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111200399.4A CN114037048B (zh) 2021-10-15 2021-10-15 基于变分循环网络模型的信念一致多智能体强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111200399.4A CN114037048B (zh) 2021-10-15 2021-10-15 基于变分循环网络模型的信念一致多智能体强化学习方法

Publications (2)

Publication Number Publication Date
CN114037048A true CN114037048A (zh) 2022-02-11
CN114037048B CN114037048B (zh) 2024-05-28

Family

ID=80141427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111200399.4A Active CN114037048B (zh) 2021-10-15 2021-10-15 基于变分循环网络模型的信念一致多智能体强化学习方法

Country Status (1)

Country Link
CN (1) CN114037048B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484942A (zh) * 2023-04-13 2023-07-25 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质
CN117332814A (zh) * 2023-12-01 2024-01-02 中国科学院自动化研究所 一种基于模块化网络的合作智能体模型、学习方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184338A1 (en) * 2018-12-11 2020-06-11 The Toronto-Dominion Bank Regularization of recurrent machine-learned architectures
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184338A1 (en) * 2018-12-11 2020-06-11 The Toronto-Dominion Bank Regularization of recurrent machine-learned architectures
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于玉海;林鸿飞;孟佳娜;郭海;赵哲焕;: "跨模态多标签生物医学图像分类建模识别", 中国图象图形学报, no. 06, 16 June 2018 (2018-06-16) *
高金胜;周昌乐: "一个刻画智能Agent理性信念的认知系统", 微电子学与计算机, vol. 33, no. 12, 5 December 2016 (2016-12-05) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484942A (zh) * 2023-04-13 2023-07-25 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质
CN116484942B (zh) * 2023-04-13 2024-03-15 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质
CN117332814A (zh) * 2023-12-01 2024-01-02 中国科学院自动化研究所 一种基于模块化网络的合作智能体模型、学习方法和装置

Also Published As

Publication number Publication date
CN114037048B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Russell et al. Q-decomposition for reinforcement learning agents
Wen et al. A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning
Yu et al. Multiagent learning of coordination in loosely coupled multiagent systems
Ma et al. Multi-robot target encirclement control with collision avoidance via deep reinforcement learning
CN114037048A (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN112132263A (zh) 一种基于强化学习的多智能体自主导航方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN115018017B (zh) 基于集成学习的多智能体信用分配方法、系统、设备
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
CN115185294A (zh) 基于qmix的航空兵多编队协同自主行为决策建模方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
Sun et al. Multi-agent air combat with two-stage graph-attention communication
Wei et al. Deep hierarchical reinforcement learning based formation planning for multiple unmanned surface vehicles with experimental results
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Wang et al. Autonomous target tracking of multi-UAV: A two-stage deep reinforcement learning approach with expert experience
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
Zhang et al. Peer Incentive Reinforcement Learning for Cooperative Multiagent Games
Li et al. Cooperative multi-agent reinforcement learning with hierarchical relation graph under partial observability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant