CN113902087A - 一种多Agent深度强化学习算法 - Google Patents

一种多Agent深度强化学习算法 Download PDF

Info

Publication number
CN113902087A
CN113902087A CN202111240522.5A CN202111240522A CN113902087A CN 113902087 A CN113902087 A CN 113902087A CN 202111240522 A CN202111240522 A CN 202111240522A CN 113902087 A CN113902087 A CN 113902087A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
leader
network
learning algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111240522.5A
Other languages
English (en)
Inventor
王旭
张宇
郭秀娟
徐勇
尤天舒
富倩
孙伟
刘钢
戴传祗
吴程巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Jianzhu University
Original Assignee
Jilin Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Jianzhu University filed Critical Jilin Jianzhu University
Priority to CN202111240522.5A priority Critical patent/CN113902087A/zh
Publication of CN113902087A publication Critical patent/CN113902087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种多Agent深度强化学习算法,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。本发明通过在分布式执行之前加入集中式预判分配权重,增强了智能体群体之间的决策通信,提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。

Description

一种多Agent深度强化学习算法
技术领域
本发明涉及学习算法,具体涉及一种多Agent深度强化学习算法--Leader_MADDPG。
背景技术
多Agent深度强化学习是指在多个智能体环境中,使用深度强化学习的算法使得智能体之间可以像人一样进行协作交流,达到智能博弈的效果。与传统的强化学习的单个智能体在单个领域方面实施训练不同,多Agent强化学习可以实现大量自治或半自治的群体系统,并且可以拓展到多个领域的综合训练。
目前主流的MADDPG多Agent强化学习算法具有较强的收敛性、复杂环境适应性以及自我学习能力,虽然其在大部分多Agent环境中取得了预期的群体效果,但由于MADDPG在动作网络的输出动作过程中仅仅考虑到了自己所在的环境状态信息,并且只能通过全局评估网络的Q值更新才考虑到除自身以外其他智能体的部分反馈信息,这对于一个群体系统来说达到协作交流的效率就大打折扣了,并没有充分发挥群体博弈的最大优势,从而使得MADDPG在较为复杂的多Agent环境中收敛速度以及收敛的奖励幅度有着较大的提升空间。
发明内容
本发明的主要目的在于提供一种多Agent深度强化学习算法。
本发明采用的技术方案是:一种多Agent深度强化学习算法,包括:
S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;
S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;
S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。
进一步地,多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式(1)所示:
Figure DEST_PATH_IMAGE001
(1)
其中
Figure 641857DEST_PATH_IMAGE002
是一个集中的动作值函数,它将所有智能体的动作
Figure 198740DEST_PATH_IMAGE003
加上一些状态信息x作为输入,然后输出智能体i的Q值;智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。
更进一步地,多Agent深度强化学习算法,还包括:多Agent集中式leader层的期望收益的梯度更新方式如式(2)所示:
Figure 731352DEST_PATH_IMAGE004
(2)
其中
Figure DEST_PATH_IMAGE005
是leader网络的参数集合,
Figure 399094DEST_PATH_IMAGE006
为所有智能体策略的集合。
更进一步地,多Agent深度强化学习算法,还包括:对于评估网络更新,经验回放缓冲区D包含元组
Figure 5656DEST_PATH_IMAGE007
,记录了所有智能体的经验,集中的评估网络更新方式如式(3)所示:
Figure 733441DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
(3)
其中
Figure 956611DEST_PATH_IMAGE010
为具有延迟参数
Figure 959203DEST_PATH_IMAGE011
的目标策略集合,
Figure 948500DEST_PATH_IMAGE012
为具有延迟参数
Figure DEST_PATH_IMAGE013
的目标预判集合。
更进一步地,多Agent深度强化学习算法,还包括:策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数,以智能体i自身的本地信息作为输入,输出其对应的策略动作,与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘,作为最终的策略动作输出值。
更进一步地,多Agent深度强化学习算法,还包括:全局评估网络层采用Leaky_Relu作为层与层之间的激活函数,以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入,进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。
更进一步地,多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法在多Agent系统中,leader层以及评估网络的输入空间随着智能体个数n线性增长,所采取的解决方案是局部模块化以实现leader层及评估层功能,外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。
本发明的优点:本申请针对现有主流的MADDPG算法在多Agent群体环境下Q值收敛速度慢、训练时的奖励幅度波动过大的问题,随着多Agent之间的关系本质的变化,MADDPG在集体回报上所获得的收益并没有发挥到最大化,每个智能体在前期都是分布式执行的情况下并没有考虑到其他智能体的状态信息,使得所有智能体后期的训练过程中只能通过全局评估网络进行参数更新,并没有达到完全意义上的多智能体通信。
本申请的多Agent深度强化学习Leader_MADDPG神经网络中引入了leader层,解决上述MADDPG存在的部分问题,通过在分布式执行之前加入集中式预判分配权重,增强了智能体群体之间的决策通信,提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。
本申请的Leader_MADDPG对于OpenAI上的多个不同多Agent环境(simple_adversary,simple_push,simple_tag,simple_spread)进行数据实验分析对比,通过实验表明本发明在各种协作和竞争的多Agent环境中胜过传统的MADDPG算法,并证明其在不同的环境关系中的适用性,并可以将其迁移至生活中的多Agent实际环境之中进行运用。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的Leader_MADDPG神经网络模型的总体框架图;
图2为本发明实施例的leader层神经网络模型示意图;
图3为本发明实施例的实验模型环境simple_adversary示意图;
图4为本发明实施例的实验模型环境simple_push示意图;
图5为本发明实施例的实验模型环境simple_tag示意图;
图6为本发明实施例的实验模型环境simple_spread示意图;
图7为本发明实施例的simple_adversary的平均奖励对比图;
图8为本发明实施例的simple_push的平均奖励对比图;
图9为本发明实施例的simple_tag的平均奖励对比图;
图10为本发明实施例的simple_spread的平均奖励对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1至图10,一种多Agent深度强化学习算法,包括:
S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;
S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;
S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。
多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式(1)所示:
Figure 847185DEST_PATH_IMAGE014
(1)
其中
Figure 26494DEST_PATH_IMAGE015
是一个集中的动作值函数,它将所有智能体的动作
Figure 832776DEST_PATH_IMAGE016
加上一些状态信息x作为输入,然后输出智能体i的Q值;由于每个
Figure DEST_PATH_IMAGE017
都是分开学习的,智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。
多Agent深度强化学习算法,还包括:多Agent集中式leader层的期望收益的梯度更新方式如式(2)所示:
Figure 945089DEST_PATH_IMAGE018
(2)
其中
Figure DEST_PATH_IMAGE019
是leader网络的参数集合,
Figure 952359DEST_PATH_IMAGE020
为所有智能体策略的集合。
多Agent深度强化学习算法,还包括:对于评估网络更新,经验回放缓冲区D包含元组
Figure 946860DEST_PATH_IMAGE021
,记录了所有智能体的经验,集中的评估网络更新方式如式(3)所示:
Figure 494516DEST_PATH_IMAGE022
Figure 195755DEST_PATH_IMAGE023
(3)
其中
Figure 967402DEST_PATH_IMAGE024
为具有延迟参数
Figure 386882DEST_PATH_IMAGE026
的目标策略集合,
Figure 534967DEST_PATH_IMAGE027
为具有延迟参数
Figure 356292DEST_PATH_IMAGE028
的目标预判集合。
多Agent深度强化学习算法,还包括:策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数,以智能体i自身的本地信息作为输入,输出其对应的策略动作,与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘,作为最终的策略动作输出值。
多Agent深度强化学习算法,还包括:全局评估网络层采用Leaky_Relu作为层与层之间的激活函数,以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入,进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。
多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法在多Agent系统中,leader层以及评估网络的输入空间随着智能体个数n线性增长,所采取的解决方案是局部模块化以实现leader层及评估层功能,外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。
多Agent深度强化学习算法还包括:所述多Agent深度强化学习算法产生一个通用的多Agent强化学习算法,不仅可以应用于具有明确的通信渠道的合作博弈,还可以应用于涉及主体之间物理交互的竞争博弈。
本发明采用分散式执行、集中式预判、集中式训练的框架,使得策略网络能使用额外的信息来缓解训练压力,与此同时还保证了每个智能体之间保持着独立性,每个智能体只能观测到自己的状态信息,仅根据自己本地的状态信息完成策略动作的输出,这样可以保证算法适用于合作与竞争的环境中。由于集中式leader预判完成了智能体训练之前的权重分配,这样加快了整个智能体的训练速度以及训练质量。其中,leader层网络的结构如图2所示。由于集中的评估网络增加了其他智能体的策略动作信息,算法还做到了在线学习其他代理人的近似模型并有效地用到智能体之间的策略学习过程中去。
为了简述整个神经网络模型的架构,所采取的多Agent环境都为经典的多智能环境。为了说明算法可以应用于每一种经典模型,对于模型变化后,Leader_MADDPG神经网络模型的架构依旧保持不变,具体的Leader_MADDPG神经网络模型参数详情如表1所示。
表1 Leader_MADDPG神经网络模型参数
Figure 502103DEST_PATH_IMAGE029
在Leader_MADDPG神经网络模型搭建完毕后,接下来是对不同功能的神经网络的反向传播的更新方式作出简明的叙述,所述的Leader_MADDPG算法中智能体i的期望收益的梯度如公式(1)所示:
Figure 205617DEST_PATH_IMAGE030
(1)
其中
Figure 829496DEST_PATH_IMAGE031
是一个集中的动作值函数,它将所有智能体的动作
Figure 567645DEST_PATH_IMAGE032
加上一些状态信息x作为输入,然后输出智能体i的Q值。由于每个
Figure 884357DEST_PATH_IMAGE033
都是分开学习的,智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。策略梯度是各种强化学习任务的另一个选择,其主要思想是直接调整策略中的参数
Figure 12850DEST_PATH_IMAGE034
以便于通过沿着
Figure 502737DEST_PATH_IMAGE035
的方向进行前进来最大化目标
Figure 33076DEST_PATH_IMAGE036
[R]。上述公式扩展到确定性策略,考虑到n个策略
Figure 583006DEST_PATH_IMAGE037
,参数为
Figure 464374DEST_PATH_IMAGE038
,那么梯度就可以表示为式(2):
Figure 432986DEST_PATH_IMAGE039
(2)
更进一步地,所述的多Agent强化学习Leader_MADDPG,其特征在于,多Agent集中式leader层的期望收益的梯度更新方式如式(3)所示:
Figure 880147DEST_PATH_IMAGE040
(3)
其中
Figure 538662DEST_PATH_IMAGE041
为leader网络的参数集合,
Figure 704064DEST_PATH_IMAGE042
为所有智能体策略的集合。
经过策略网络层以及预判网络层后,所述的多Agent强化学习Leader_MADDPG,对于评估网络更新,经验回放缓冲区D包含元组
Figure 739016DEST_PATH_IMAGE043
,记录了所有智能体的经验,集中的评估网络更新方式如式(4)所示:
Figure 978368DEST_PATH_IMAGE044
Figure 870100DEST_PATH_IMAGE045
(4)
其中
Figure 460481DEST_PATH_IMAGE046
为具有延迟参数
Figure 830283DEST_PATH_IMAGE047
的目标策略集合,
Figure 189720DEST_PATH_IMAGE048
为具有延迟参数
Figure 455616DEST_PATH_IMAGE050
的目标预判集合。
对于推理其他智能体策略方面,每个智能体可以额外的保有一个与智能体真实策略
Figure 330031DEST_PATH_IMAGE052
有关的近似值
Figure 706786DEST_PATH_IMAGE054
,这个近似策略通过最大化智能体j动作的对数概率加上一个熵的正则化项来进行学习,如式(5)所示:
Figure 983047DEST_PATH_IMAGE055
(5)
其中H为策略分布的熵,从重放缓冲区取出每个智能体j的最新的样本,执行一个梯度步骤来更新
Figure DEST_PATH_IMAGE057
策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数,以智能体i自身的本地信息作为输入,输出其对应的策略动作,与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘,作为最终的策略动作输出值。
全局评估网络层采用Leaky_Relu作为层与层之间的激活函数,以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入,进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。
所述的Leader_MADDPG算法在更复杂的、更庞大的多Agent系统中,leader层以及评估网络的输入空间随着智能体个数n线性增长,所采取的解决方案是局部模块化以实现leader层及评估层功能,外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新,以实现复杂环境下的高效率通信行为。
在模型训练过程中,本申请一共在OpenAI的四个经典(simple_adversary,simple_push,simple_tag,simple_spread)多Agent环境模型中,将Leader_MADDPG算法与现存的DDPG算法、MADDPG算法进行了重复多次实验性的对比分析。四个经典多Agent环境如图3、4、5、6所示。其中,simple_adversary模型中,一共有三个智能体。一个智能体作为红色方,另外两个智能体作为绿色方。绿色方以及红色方都知道自己要到达红色目的地,而红色方不知道两个目标地点中哪一个是真正的红色目标,所以绿色方要引导红色方到达假的目的地以达到欺骗红色方,保卫绿色目的地的效果。这属于合作与代理人模型;simple_push模型中,绿色方需要做到距离目标地点越近并且将红色方推离目标地点。这属于竞争模型;simple_tag模型中,一共有四个智能体,其中三个绿色作为捕食者智能体,另外一个作为红色猎物智能体。猎物的速度要快于捕食者的速度,障碍物用于格挡所有的智能体。这属于合作于竞争模型;simple_spread模型中,三个绿色智能体要求实现到达三个目标地点,并且在去往目标地点的过程中所有的智能体互相之间都不能发生碰撞。这属于合作模型。
Leader_MADDPG神经网络模型的运行环境如表2所示,
表2 模型运行环境
Figure 419844DEST_PATH_IMAGE058
在Leader_MADDPG模型训练过程中,主要的超参数的设置如表3所示。
表3 主要超参数设置
Figure 719239DEST_PATH_IMAGE059
本申请在OpenAI上的四个经典多Agent环境模型(simple_adversary模型、simple_push模型、simple_tag模型、simple_spread模型、)设置多个Agent进行协同对抗,对MADDPG算法和Leader_MADDPG算法进行了重复多次实验性的对比分析,所获得的平均奖励值如表4所示。
表4 多个智能体平均奖励值断点平均值对比
Figure 634105DEST_PATH_IMAGE060
训练完成后,本申请使用Visdom可视化工具来查看训练结果,三种算法(DDPG、MADDPG、Leader_MADDPG)的对比分析如图7、8、9、10所示,图中的实线均为Leader_MADDPG算法模型训练时记录的真实数据,由于训练过程中模型不会完美地一直变好,它的损失会有偶尔的增大情况,损失曲线上会有大大小小的起伏,为了更好地查看分析模型损失结果,本申请在数据描绘的过程中分段式采样描点,这样的操作使得三种算法的奖励值的走势在图像分析上更加清晰明了,同时更加直观的展现出Leader_MADDPG算法的优越性。
多Agent深度强化学习Leader_MADDPG算法,所述的算法包括:actor策略网络层仅使用本地状态信息作为策略动作输出的依据;leader预判网络仅分配actor神经网络输出策略动作的权重,与actor层网络无参数梯度更新关系;critic评估网络作为最终的集中式训练网络,既对actor策略网络进行反向传播梯度下降并更新actor网络的参数,也对leader预判网络进行参数更新,与此同时,通过马尔可夫决策博弈和最小化损失来学习到最优的动作值函数
Figure DEST_PATH_IMAGE061
;Leader_MADDPG算法的所有网络更新都采用了动作对数概率加上一个熵的正则化项来进行学习;Leader_MADDPG算法的所有网络更新都采用延迟更新,即都有目标网络作为所有神经网络的延迟软更新。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种多Agent深度强化学习算法,其特征在于,包括:
S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;
S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;
S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。
2.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式(1)所示:
Figure 207311DEST_PATH_IMAGE001
(1)
其中
Figure 720332DEST_PATH_IMAGE002
是一个集中的动作值函数,它将所有智能体的动作
Figure 56636DEST_PATH_IMAGE003
加上一些状态信息x作为输入,然后输出智能体i的Q值;智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。
3.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:多Agent集中式leader层的期望收益的梯度更新方式如式(2)所示:
Figure 578884DEST_PATH_IMAGE004
(2)
其中
Figure 887505DEST_PATH_IMAGE005
是leader网络的参数集合,
Figure 571428DEST_PATH_IMAGE006
为所有智能体策略的集合。
4.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:对于评估网络更新,经验回放缓冲区D包含元组
Figure 129448DEST_PATH_IMAGE007
,记录了所有智能体的经验,集中的评估网络更新方式如式(3)所示:
Figure 455387DEST_PATH_IMAGE008
Figure 352936DEST_PATH_IMAGE009
(3)
其中
Figure 270076DEST_PATH_IMAGE010
为具有延迟参数
Figure DEST_PATH_IMAGE011
的目标策略集合,
Figure 987497DEST_PATH_IMAGE012
为具有延迟参数
Figure 648285DEST_PATH_IMAGE011
的目标预判集合。
5.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数,以智能体i自身的本地信息作为输入,输出其对应的策略动作,与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘,作为最终的策略动作输出值。
6.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:全局评估网络层采用Leaky_Relu作为层与层之间的激活函数,以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入,进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。
7.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:所述多Agent深度强化学习算法在多Agent系统中,leader层以及评估网络的输入空间随着智能体个数n线性增长,所采取的解决方案是局部模块化以实现leader层及评估层功能,外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。
CN202111240522.5A 2021-10-25 2021-10-25 一种多Agent深度强化学习算法 Pending CN113902087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111240522.5A CN113902087A (zh) 2021-10-25 2021-10-25 一种多Agent深度强化学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111240522.5A CN113902087A (zh) 2021-10-25 2021-10-25 一种多Agent深度强化学习算法

Publications (1)

Publication Number Publication Date
CN113902087A true CN113902087A (zh) 2022-01-07

Family

ID=79026769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111240522.5A Pending CN113902087A (zh) 2021-10-25 2021-10-25 一种多Agent深度强化学习算法

Country Status (1)

Country Link
CN (1) CN113902087A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660110A (zh) * 2022-12-26 2023-01-31 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体
CN117748747A (zh) * 2024-02-21 2024-03-22 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660110A (zh) * 2022-12-26 2023-01-31 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体
CN117748747A (zh) * 2024-02-21 2024-03-22 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法
CN117748747B (zh) * 2024-02-21 2024-05-17 青岛哈尔滨工程大学创新发展中心 一种auv集群能源在线监测及管理系统以及方法

Similar Documents

Publication Publication Date Title
Zhu et al. Deep reinforcement learning for mobile edge caching: Review, new features, and open issues
CN110958680B (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN113902087A (zh) 一种多Agent深度强化学习算法
Patel et al. A hybrid ACO/PSO based algorithm for QoS multicast routing problem
CN111582469A (zh) 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111885671B (zh) 一种基于深度强化学习的水下联合中继选择和功率分配方法
Li et al. Adaptive learning: A new decentralized reinforcement learning approach for cooperative multiagent systems
Wang et al. UAV swarm confrontation using hierarchical multiagent reinforcement learning
CN112215364A (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112215350A (zh) 一种基于强化学习的智能体控制方法及装置
CN115047907B (zh) 一种基于多智能体ppo算法的空中同构编队指挥方法
Wang et al. Optimal DoS attack strategy for cyber-physical systems: A Stackelberg game-theoretical approach
CN117750509A (zh) 一种多无人机网络下基于深度强化学习的时隙分配方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN115981369B (zh) 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN113592079B (zh) 一种面向大规模任务空间的协同多智能体通信方法
CN116165886A (zh) 多传感器智能协同控制方法、装置、设备及介质
CN116318520A (zh) 一种干扰机的路径控制方法、装置、系统以及存储介质
CN116011555A (zh) 度量复杂任务决策情景下强化学习策略间差异度的方法
CN114840024A (zh) 基于情景记忆的无人机控制决策方法
Rajagopalan et al. Factors that affect the evolution of complex cooperative behavior
CN117669710B (zh) 面向博弈对抗任务的多行为树决策方案聚合方法和装置
CN113570040B (zh) 一种基于进化策略的多域行动序列智能优化系统及方法
Peng et al. Multi-agent communication with attentional and recurrent message integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination