CN114037048B - 基于变分循环网络模型的信念一致多智能体强化学习方法 - Google Patents
基于变分循环网络模型的信念一致多智能体强化学习方法 Download PDFInfo
- Publication number
- CN114037048B CN114037048B CN202111200399.4A CN202111200399A CN114037048B CN 114037048 B CN114037048 B CN 114037048B CN 202111200399 A CN202111200399 A CN 202111200399A CN 114037048 B CN114037048 B CN 114037048B
- Authority
- CN
- China
- Prior art keywords
- agent
- model
- belief
- distribution
- consistent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 100
- 238000009826 distribution Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010304 firing Methods 0.000 claims description 3
- CLSIFQGHPQDTHQ-DTWKUNHWSA-N (2s,3r)-2-[(4-carboxyphenyl)methyl]-3-hydroxybutanedioic acid Chemical compound OC(=O)[C@H](O)[C@@H](C(O)=O)CC1=CC=C(C(O)=O)C=C1 CLSIFQGHPQDTHQ-DTWKUNHWSA-N 0.000 claims description 2
- 230000001143 conditioned effect Effects 0.000 claims description 2
- 238000012821 model calculation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 6
- 125000004122 cyclic group Chemical group 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 abstract 1
- 230000002079 cooperative effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 4
- 101150082208 DIABLO gene Proteins 0.000 description 3
- 102100033189 Diablo IAP-binding mitochondrial protein Human genes 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 206010010071 Coma Diseases 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229940004975 interceptor Drugs 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Strategic Management (AREA)
- Geometry (AREA)
- Robotics (AREA)
- Computer Hardware Design (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。
Description
技术领域
本发明属于计算机人工智能控制决策技术领域,涉及一种基于变分循环网络模型进而实现智能体之间信念一致性多智能体强化学习协作方法。
背景技术
多智能体强化学习对于各种高维场景和多智能体的复杂任务是必不可少的一种方法工具。多智能体强化学习最近在各种实际问题上的应用引起了人们的关注,包括交通信号灯控制,自动驾驶,以及网络数据包传递。这种自主的协同方法具有广泛的商用价值及深远的研究意义。
然而,在真实世界中的多智能体系统,智能体通常都受到其局部观测和通信带宽的限制,这使得实现智能体之间的有效合作成为一个具有挑战性的问题。为了应对这些问题,提出了一系列集中训练和分散执行(CTDE)方法,例如:MADDPG和COMA在Actor-Critic框架内学习了集中式评论家和分散式的执行者。还有一些方法比如VDN和QMIX使用混合网络来分解价值函数。然而,所有这些方法在训练过程中都只使用集中式评论家进行协调,而在执行过程中缺乏智能体之间的协调机制。
也有大量研究采用通信机制来实现执行过程中智能体之间的协调。这些工作通常建立在智能体可以使用显式通信协议或符号共享某种私人信息的假设之上。然而,在人类合作的出现中,人们通常在没有交流的情况下也能以一致的方式感知自己的处境,这是一种自然意识。受此启发,一些研究将认知或常识的概念引入多智能体系统,在促进智能体之间的合作方面表现出良好的性能。然而,由于智能体对环境只有局部的观测,智能体很难形成可以在它们之间共享的一致信念。
发明内容
为了克服上述现有技术的缺点,和人类协同过程中自然产生一致性信念的启发,本发明提供一个基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法。
这是一种新颖的基于值的强化学习方法,可以在局部观察的约束下推断智能体之间的一致信念。该方法使智能体能够通过局部观测推断他们的潜在信念,并使用KL散度度量使潜在信念趋于一致。为了在处理历史数据的同时推断出一致的潜在信念,方法基于变分模型和循环神经网络(RNN)结合的变分循环网络框架。在训练阶段,所有的观察都可以获得每个智能体的一致信念,而在执行阶段,每个智能体的控制器只能访问局部观察和自身推断的潜在变量。因此,该方法仍然在集中训练分散执行的模式下,但在执行过程中不需要在智能体之间交换显示信息并且只需要本地信息的意义上说,该方法是免通信和完全分布式的。
为了实现上述目的,本发明采用的具体技术方案是:
基于变分循环网络模型进而实现智能体之间信念一致性的强化学习多智能体协作方法具体步骤为:
(1)变分模型对分布式部分观测马尔科夫过程(Dec-POMDP)建模:
在变分模型(VAE)中,潜变量z用于预测可观察变量x。难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近,然后在对数似然上最大化证据下限(ELBO):
变分循环网络(VRNN)是VAE的扩展,可用于处理序列数据。下面我们将VRNN推广到多智能体顺序决策设置中。在Dec-POMDP设置中有N个智能体。对于每个智能体,状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数可以很容易地嵌入到图形模型中。为方便起见,将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r)。图2给出了多智能体变分模型的简图,其中每个智能体i都有可观察变量xi和相应的潜在变量zi。此外,方法具有以下组成部分:
初始分布和先验分布分别是pθ(zi,1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)。
在生成模型中:未来的观测是通过其潜在变量来预测的,pθ(xi,t∣zi,1:t,xi,1:t-1)。
在推理模型中:潜在变量zi,t由推理模型近似qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)。
从对数似然上最大化证据下限(ELBO)扩展,智能体i的潜在变量模型的对数似然可以重写为:
最大化ELBO相当于最小化损失函数分别将qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)命名为编码器,将pθ(xi,t∣zi,1:t,xi,1:t-1)命名为解码器。请注意,/>表示损失函数的小批量版本。
变分模型与门控循环单元(GRU)网络相结合,该网络是高度灵活的函数逼近器。每个智能体的隐藏层变量可以通过递推方程更新:
di,t=GRU(di,t-1;zi,t,xi,t)
(2)利用高斯分布对其中分布进行重参数化近似:
生成模型
变分模型以GRU的隐藏层变量di,t为条件。可以根据历史信息得到一个先验分布,具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出。参数化的对角高斯分布如下:/>
其中和/>是参数化的先验分布,θprior(·)是先验分布的神经网络参数。给定内部状态/>可以通过生成模型预测未来的观察结果):
其中和/>是参数化的预测观测分布,θp(·)是神经网络参数。
推理模型
智能体i的信念zi,t可以参数化为高斯分布给定变量xi,t:/>
其中和/>表示参数化的高斯后验分布,φq(·)是后验分布的神经网络参数。
给定以上模型,可以计算出中的两项。第一项是生成模型/> 这是自动编码器术语中的负重构误差。对于每个智能体i,有以下公式:/>
其中xi,t是从重放缓冲区采样的原始状态和奖励,是基于历史信息和潜在变量的重构变量,/>基于等式/> 假设/>属于参数化高斯分布,均值为/>方差为/>得到参数化的/>其中∈是辅助噪声变量/>
第二项是KL散度。类似地,qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)可以参数化为高斯分布,这两个分布之间的KL散度如下所示:
生成模型和推理模型是联合训练的,目标是优化参数使得最大化ELBO。
(3)智能体之间形成一致性信念
在前面的小节中,使用变分分布来近似每个智能体的先验分布。这允许每个智能体推断一个有意义的潜在变量。然而,对于多个智能体,仅仅推断他们的潜在变量可能不会有利于合作的建立。一种可能的解决方案是每个智能体推断关于全局状态s的潜在变量。给定先验分布p(zt|st),可以使用DKL(qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)||p(zt|st))来推断一致信念。然而,由于部分观察,智能体通常无法访问全局状态。为了规避这个问题,让智能体之间的变分分布相互近似,以实现智能体之间的信念一致性。
上述损失LCB将使智能体i的信念qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)与智能体j的信念qφ(zj,t|zj,1:t-1,xj,1:t,aj,1:t-1)接近,这意味着智能体i和j将实现一致信念。
(3)构建强化学习损失函数和变分模型损失函数:
CBMA的训练基于QMIX系列算法,通过并行最小化时序差分损失和变分模型损失。
时序差分损失:
使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm。如图5所示,对于每个智能体的Q-networkQi,输入是(oi,ai,di),然后每个单独的效用被送入混合网络,用于计算全局动作值Qtot。网络由以下等式更新:
其中ytot=r+γmaxa′Qtot(o′,d′,a′,s′;ξ-),智能体的Q网络和混合网络参数表示为ξ=(θQ,θm)和ξ-是目标网络的参数。包含每个智能体的部分可观察信息,是变分模型计算的内部状态。
一致信念变分模型损失
变分公式和一致信念损失的组合如下:
其中LVR是训练一致信念变分网络的损失;超参数α用于平衡LCB的权重。
与现有技术相比,本发明能够使基于变分循环网络模型的信念一致多智能体强化学习方法,可以让多智能体系统学习到一致信念,让智能体在没有显示通信的情况推测其他智能体的动态变化,同时模型利用变分自编码器使模型据有可解释性。
本发明的方法可以应用于无人机群控制、自动驾驶等各个领域。
附图说明
图1为本发明示意图。
图2为本发明的图模型结构简图,其中正方形为确定性变量,圆圈为随机变量。白色圆圈为观察变量,灰色圆圈为潜在变量。左边是生成模型,右边是智能体的推理模型。
图3为本发明训练阶段的图结构。
图4为本发明执行阶段的图结构。
图5为本发明执行阶段的中集中训练强化学习网络结构。
图6为网格环境,左边为拦截任务,右边为导航任务。
图7为星际争霸II独立控制环境(SMAC)。
图8为拦截任务奖励值图。
图9为导航任务奖励值图。
图10为星际争霸II独立控制环境奖励值图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
图4和图5给出了本发明的基本计算设计框架。主要过程如下:
首先,在图5中是执行过程的示图。在算法开始训练前需要先让实施例中的游戏场景运行起来,并得到智能体的轨迹数据。在方法中为了方便利用图模型拟合状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r)。其中每个智能体的部分观测向量是一个一维的特征向量,奖励值是一个标量,二者可以拼接起来组成一个新的向量xi。将xi作为循环神经网络GRU的输入:
di,t=GRU(di,t-1;zi,t,xi,t)
其中di,t是循环神经网络中的隐藏层状态,保证网络对历史数据的记忆。zi,t是利用推理机制计算出来的潜在变量。在得到t时刻的中间变量di,t之后就可以利用每个智能体的策略网络得到每个智能体的动作ai。策略网络是一个Q函数网络,控制器可以通过为每个智能体选择动作。
然后,在图4中是训练过程的示图。训练过程使用的数据是执行阶段得到存储的智能体历史轨迹。利用这些历史轨迹,方法每一次采样了一个小批量数据来训练变分模型和强化学习模型。变分模型和强化模型是分为两个损失函数计算的。在训练变分模型时也同时训练其中的RNN模型,其中变分模型包括生成模型和推理模型。在训练强化学习模型时,仅使用方程中的损失函数训练控制器的多层感知器(MLP)网络和混合网络。
由于初始阶段智能体的策略更具探索性并且大部分轨迹是随机的,因此变分网络在早期训练阶段是不稳定的。设计了两个变分网络来解决这个问题。第一个网络,在收集到足够多的数据后,进行足够轮次的训练,然后固定,无需进一步训练。第二个网络先进行强化学习部分的训练,直到训练结束。
实施例
在本实施例中,在GTX 2080显卡上,采用深度学习框架Pytorch。
实验环境:实验评估是在网格世界环境和星际争霸II独立控制环境(SMAC)上进行的。网格世界环境是一个离散时间、离散空间和离散动作空间的游戏环境,智能体可以执行五个动作,包括向上、向下、向左、向右或停留。而星际争霸II独立控制环境是一个离散时间、连续空间和离散动作空间的游戏环境,其中每个智能体是一个战斗单元可以执行的动作分为运动动作和开火动作,其中运动动作为:向上、向下、向左、向右或停留,开火动作为,敌方所对应的智能体。
如图7所示,在SMAC中利用了地图5m_vs_6m,非对称作战单元,包括:5名用户陆战队员对6名敌人陆战队员(5m_vs_6m)。
基于网格世界环境设计了两个游戏场景。穿过拦截器场景,协同导航场景。如图6所示:
在拦截任务中,智能体必须学会到达比赛场地的底部。与此同时,拦截器旨在通过某些策略阻止他们。三个智能体和两个拦截器放置在一个7×4的棋盘上,如图6左所示。拦截器1和拦截器2分别负责第1-4和4-7列。状态空间由每个智能体和拦截器的位置组成。每个智能体的动作空间包括向上、向下、向左和向右,或停留在原地,而阻挡者则以某种策略向左或向右移动以阻止这些智能体。每轮次最多有20步,直到其中一个智能体到达最终区域。在到达终极区域之前,团队的每一步奖励都是-1。当其中一个智能体成功时,情节结束。此游戏的最大累积奖励为-3。
在导航游戏中,四个智能体将学习一个协作策略以到达四个相应的地标。此类任务与拦截器具有相同的离散操作设置。设置了一个任务,即6×6。对于这个任务,在所有智能体到达他们的终端之前,每一步给出-1的奖励。如图6右所示,智能体和标志由一个数字(即1-4)标识。只有当所有智能体都到达相应的标志时,游戏才结束。6×6任务的最大奖励为-4。
为证明基于变分循环网络模型的信念一致多智能体强化学习方法的有效性,通过在两种环境测试奖励值(reward)指标。结果如图8-10所示,我们对比了现有技术,例如:Q-DPP、VDN、IQL、QMIX、COMA和QTRAN。算法在不同场景下的表现,都达到了超过基线的性能。实验证明本发明的方法能够有效提高多个智能体的奖励值。从实验结果中可以看出,本发明相比于现有技术不仅可以适用于离散状态空间,而且在高维连续状态空间的游戏环境也可以获得很好的性能。
Claims (1)
1.基于变分循环模型的信念一致多智能体强化学习方法,其特征在于,所述的智能体是一个战斗单元,执行的动作分为运动动作和开火动作,其中运动动作为:向上、向下、向左、向右或停留,开火动作的对象为敌方所对应的智能体;智能体是在网格世界环境和星际争霸II独立控制环境上进行的;其中,网格世界环境是一个离散时间、离散空间和离散动作空间的游戏环境,星际争霸II独立控制环境是一个离散时间、连续空间和离散动作空间的游戏环境;
步骤如下:
(1)变分模型对分布式部分观测马尔科夫过程Dec-POMDP建模
在变分模型VAE中,潜变量z用于预测可观察变量x;难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近,然后在对数似然上最大化证据下限ELBO:
变分循环网络VRNN是VAE的扩展,用于处理序列数据;将VRNN推广到多智能体顺序决策设置;在Dec-POMDP设置中有N个智能体;对于每个智能体,状态转换函数p(oi,t+1|oi,t,ai,t)和奖励函数很容易地嵌入到图形模型中;将奖励r与智能体i的部分观察oi拼接为一个整体xi=(oi,r);
初始分布和先验分布分别是pθ(zi,1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1);
在生成模型中,未来的观测是通过其潜在变量来预测的,pθ(xi,t|zi,1:t,xi,1:t-1);
在推理模型中:潜在变量zi,t由推理模型近似qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1);
从对数似然上最大化证据下限ELBO扩展,智能体i的潜在变量模型的对数似然重写为:
最大化ELBO相当于最小化损失函数分别将qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)命名为编码器,将pθ(xi,t|zi,1:t,xi,1:t-1)命名为解码器;/>表示损失函数的小批量版本;
变分模型与门控循环单元GRU网络相结合,该网络是高度灵活的函数逼近器;每个智能体的隐藏层变量通过递推方程更新:
di,t=GRU(di,t-1;zi,t,xi,t)
(2)利用高斯分布对其中分布进行重参数化近似
生成模型
变分模型以GRU的隐藏层变量di,t为条件;根据历史信息得到一个先验分布,具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出;参数化的对角高斯分布如下:
其中和/>是参数化的先验分布,θprior(·)是先验分布的神经网络参数;给定内部状态/>通过生成模型预测未来观察结果:
其中和/>是参数化的预测观测分布,θp(·)是神经网络参数;
推理模型
智能体i的一致信念zi,t参数化为高斯分布给定变量xi,t:
其中和/>表示参数化的高斯后验分布,φq(·)是后验分布的神经网络参数;
给定以上模型,计算出中的两项;第一项是生成模型/> 是负重构误差;对于每个智能体i,有以下公式:/>
其中xi,t是从重放缓冲区采样的原始状态和奖励,是基于历史信息和潜在变量的重构变量,/>基于等式/>假设/>属于参数化高斯分布,均值为/>方差为/>得到参数化的/>其中∈是辅助噪声变量/>
第二项是KL散度;类似地,qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)和pθ(zi,t|zi,t-1,xi,t-1,ai,1:t-1)参数化为高斯分布,这两个分布之间的KL散度如下所示:
生成模型和推理模型是联合训练的,目标是优化参数使得最大化ELBO;
(3)智能体之间形成一致性信念
每个智能体推断关于全局状态s的潜在变量;给定先验分布p(zt|st),使用DKL(qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)||p(zt|st))来推断一致信念;让智能体之间的变分分布相互近似,以实现智能体之间的信念一致性;
上述损失LCB将使智能体i的信念qφ(zi,t|zi,1:t-1,xi,1:t,ai,1:t-1)与智能体j的信念qφ(zj,t|zj,1:t-1,xj,1:t,aj,1:t-1)接近,这意味着智能体i和j将实现一致信念;
(3)构建强化学习损失函数和变分模型损失函数:
CBMA的训练基于QMIX系列算法,通过并行最小化时序差分损失和变分模型损失;
时序差分损失:
使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm;对于每个智能体的Q-network Qi,输入是(oi,ai,di),然后每个单独的效用被送入混合网络,用于计算全局动作值Qtot;网络由以下等式更新:
其中ytot=r+γmaxa′Qtot(o′,d′,a′,s′;ξ-),智能体的Q网络和混合网络参数表示为ξ=(θQ,θm)和ξ-是目标网络的参数;包含每个智能体的部分可观察信息,是变分模型计算的内部状态;
一致信念变分模型损失
变分公式和一致信念损失的组合如下:
其中LVR是训练一致信念变分网络的损失;超参数α用于平衡LCB的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111200399.4A CN114037048B (zh) | 2021-10-15 | 2021-10-15 | 基于变分循环网络模型的信念一致多智能体强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111200399.4A CN114037048B (zh) | 2021-10-15 | 2021-10-15 | 基于变分循环网络模型的信念一致多智能体强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037048A CN114037048A (zh) | 2022-02-11 |
CN114037048B true CN114037048B (zh) | 2024-05-28 |
Family
ID=80141427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111200399.4A Active CN114037048B (zh) | 2021-10-15 | 2021-10-15 | 基于变分循环网络模型的信念一致多智能体强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037048B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484942B (zh) * | 2023-04-13 | 2024-03-15 | 上海处理器技术创新中心 | 用于多智能体强化学习的方法、系统、设备和存储介质 |
CN117332814B (zh) * | 2023-12-01 | 2024-08-09 | 中国科学院自动化研究所 | 一种基于模块化网络的合作智能体模型、学习方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329948A (zh) * | 2020-11-04 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种多智能体策略预测方法及装置 |
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3117833A1 (en) * | 2018-12-11 | 2020-06-18 | The Toronto-Dominion Bank | Regularization of recurrent machine-learned architectures |
-
2021
- 2021-10-15 CN CN202111200399.4A patent/CN114037048B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329948A (zh) * | 2020-11-04 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种多智能体策略预测方法及装置 |
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
Non-Patent Citations (2)
Title |
---|
一个刻画智能Agent理性信念的认知系统;高金胜;周昌乐;微电子学与计算机;20161205;第33卷(第12期);全文 * |
跨模态多标签生物医学图像分类建模识别;于玉海;林鸿飞;孟佳娜;郭海;赵哲焕;;中国图象图形学报;20180616(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114037048A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications | |
Nguyen et al. | System design perspective for human-level agents using deep reinforcement learning: A survey | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
Choudhury et al. | On the utility of model learning in hri | |
CN112131786B (zh) | 基于多智能体强化学习的目标探测与分配方法及装置 | |
CN114037048B (zh) | 基于变分循环网络模型的信念一致多智能体强化学习方法 | |
Yu et al. | Multiagent learning of coordination in loosely coupled multiagent systems | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
Schwarting et al. | Deep latent competition: Learning to race using visual control policies in latent space | |
CN104102522B (zh) | 交互式游戏中智能非玩家角色的人工情感驱动方法 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
CN115018017B (zh) | 基于集成学习的多智能体信用分配方法、系统、设备 | |
CN111178496A (zh) | 多代理强化学习合作任务场景下的代理间交换知识的方法 | |
CN112215350A (zh) | 一种基于强化学习的智能体控制方法及装置 | |
CN114626499A (zh) | 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法 | |
Fan et al. | Model-based stochastic search for large scale optimization of multi-agent UAV swarms | |
CN116167415A (zh) | 一种多智能体协同及对抗中的策略决策方法 | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
CN115972211A (zh) | 基于模型不确定性与行为先验的控制策略离线训练方法 | |
CN117608315A (zh) | 一种结合自注意力机制的无人机集群协同对抗方法 | |
CN116533234A (zh) | 基于分层强化学习与分布式学习的多轴孔装配方法及系统 | |
Zhang et al. | Clique-based cooperative multiagent reinforcement learning using factor graphs | |
Kuravsky et al. | An applied multi-agent system within the framework of a player-centered probabilistic computer game | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |