CN113592101A - 一种基于深度强化学习的多智能体协作模型 - Google Patents

一种基于深度强化学习的多智能体协作模型 Download PDF

Info

Publication number
CN113592101A
CN113592101A CN202110930777.8A CN202110930777A CN113592101A CN 113592101 A CN113592101 A CN 113592101A CN 202110930777 A CN202110930777 A CN 202110930777A CN 113592101 A CN113592101 A CN 113592101A
Authority
CN
China
Prior art keywords
action
tot
value
global
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110930777.8A
Other languages
English (en)
Other versions
CN113592101B (zh
Inventor
邹启杰
蒋亚军
高兵
秦静
李丹
李文雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202110930777.8A priority Critical patent/CN113592101B/zh
Publication of CN113592101A publication Critical patent/CN113592101A/zh
Application granted granted Critical
Publication of CN113592101B publication Critical patent/CN113592101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、Q值分解网络,每个所述Actor网络与环境交互产生状态‑动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态‑动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi。本发明保证了全局最优动作与局部最优动作的一致性,从而提高多智能体在连续动作空间的探索效率。

Description

一种基于深度强化学习的多智能体协作模型
技术领域
本发明涉及多智能体强化学习技术领域,具体涉及一种基于深度强化学习的多智能体协作模型。
背景技术
MAS是由多个智能体与环境交互组成的分布式决策系统。上世纪70年代以来,MAS展开了众多的研究,其目的就在于建立一个拥有特定的自主等级和自主学习能力的群体智能系统。MAS信息共享、分布式计算和协同执行的特点在现实生活中有着十分广泛的应用需求,尤其军事、工业、交通运输等众多领域。在决策优化问题中,强化学习展现出巨大的在线学习优势,并且更加契合生物群体的学习机制。伴随AlphaGo引领的强化学习热潮,MARL成为广大多智能体系统MAS研究者重点关注的领域,极大推动MARL模型各个层面的不断进步。
目前主流的MARL模型研究中,主要的工作分为两大类:价值分解和Actor-Critic的方法。在已有的两类MARL方法中,尽管价值分解的方法在性能上略优于Actor-Critic方法,但在对抗环境非平稳问题上缺乏优势。采用集中式的Critic网络可以将全局的动作和状态信息作为输入,很好的处理环境非平稳。然而,在已有Actor-Critic结构的MARL方法中,由于集中式的Critic结构和Agent数量增加带来的信度分配等问题,使得全局Q值对于分散的Agent策略梯度指导效率低下,Agent在团队中的贡献无法得到表达,因而收敛效率变得缓慢。另外,协作多Agent中全局最优动作组合与Agent最优动作的一致性无法保证,全局贪婪动作的选择无法与局部最优动作相匹配。这些问题使得MARL方法收敛效率和稳定性无法提升。因此,协作多Agent系统中采用集中式的Critic网络在信度分配问题和动作选择一致性问题上缺乏较优的解决方案。
现有技术中公开号为CN112364984A,名称为一种协作多智能体强化学习方法的专利申请,需要全局动作状态信息输入到奖励高速路网络,然而在动态变化的现实环境中,智能体无法得到足够多的、有效的奖励,即智能体得到的是稀疏奖励,进而导致智能体学习缓慢甚至无法进行有效学习。公开号为CN112232478A,名称为一种基于分层注意力机制的多智能体强化学习方法及系统的专利申请,尽管引入分层注意力机制降低了维度空间,然而在其他智能体状态-动作空间信息输入的处理过程中,无法准确求解其他智能体对智能体团队的影响。OpenAI在文献《Multi-agent actor-critic for mixed cooperative-competitive environments》中提出MADDPG算法,为每个智能体学习一个独立的Critic网络,尽管可以适应协作、竞争和混合环境,然而对于任务的奖励机制需要单独设计;另外,尽管MADDPG实现了连续动作空间中高效的off-policy学习,却没能解决完全合作的环境中信用分配问题。牛津大学在文献《Counterfactual Multi-Agent policy gradients》中提出COMA方法,如图1所示,设计反事实Baseline,来评估智能体在团队联合动作中的贡献问题,然而,默认动作的计算需要消耗大量的计算资源,因此在实际效果上并不理想。
发明内容
针对现有多智能体强化学习方法效率低、收敛速度慢和稳定性差等问题,本申请提供一种基于深度强化学习的多智能体协作模型,其保证了全局最优动作与局部最优动作的一致性,从而提高多智能体在连续动作空间的探索效率。
为实现上述目的,本申请的技术方案为:一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、Q值分解网络,每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态-动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi
进一步的,所述Actor网络的梯度更新方式为:
Figure BDA0003211222530000031
其中,E为期望值,τ表示观测历史,a表示动作历史,D表示经验缓冲区,θi表示智能体i的策略,oi表示智能体i的局部观测,ai表示智能体i的动作;πi(ai|oi)表示当前观测状态下的动作。
进一步的,为得到全局动作价值Qtot,将初始单个智能体的动作价值Qi'进行累加,得到一个累加和,由于该累加和并非真实的Qtot,因此引入一个差值b(s)来弥补累加和与真实全局动作价值Qtot之间的差距,从而得到近似的全局动作价Q'tot;即当协作多智能体系统处于状态s时,令:
Figure BDA0003211222530000041
其中:
Figure BDA0003211222530000042
b(s)是当前最优联合动作的全局动作价值Qtot与累加和的差值,
Figure BDA0003211222530000043
Figure BDA0003211222530000044
分别为全局和局部最优动作;通过此方式,近似得到了在当前最优联合动作序列下单个智能体的动作价值Qi与近似的全局动作价值Q'tot的关系。
进一步的,为使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合,需要满足IGM原则,因此优化目标是使得:
Figure BDA0003211222530000045
成立,即保证最优联合动作序列的选择与局部最优动作集合中元素一致;也就是说,在当前状态s下学到的全局动作价值Qtot最大时的动作序列和单个智能体的动作价值Qi下的动作集合组成保持一致,即:
Figure BDA0003211222530000046
如果满足上式,要建立全局动作价值Qtot和单个智能体的动作价值Qi的关系;因此,需使近似得到的Q'tot和Critic网络学到的真实Qtot相等,即:
Q'tot(o,a)=Qtot(o,a)
由于近似的全局动作价值Q'tot为通过单个智能体的动作价值Qi近似得到的,通过公式
Figure BDA0003211222530000051
建立的约束关系,等价于真实全局动作价值Qtot和单个智能体的动作价值Qi的关系,即:
Figure BDA0003211222530000052
将全局动作价值Qtot分解为单个智能体的动作价值Qi,保证了最优联合动作与局部最优动作集合的一致性,使得MARL在高维度空间下的收敛效率缓慢问题得到解决。
进一步的,通过损失函数训练所述Critic网络与Q值分解网络,所述损失函数为:
L(τ,a,r,τ',θ)=LcqLq
其中,τ表示观测历史;λq表示损失函数的权重常量;Lc表示Critic网络通过TD方式学习全局动作价值Qtot的损失函数;Lq表示约束关系成立时的损失函数,即当前最优动作的集合和全局动作价值Qtot相等,通过损失最小化,调整单个智能体的动作价值Qi的大小。
更进一步的,所述Critic网络的损失函数Lc的具体表现形式为:
Figure BDA0003211222530000053
其中:
Figure BDA0003211222530000054
在损失函数Lc中,当前状态s下联合动作与环境进行交互,获得环境的反馈信号,通过最小化损失来更新当前全局动作价值Qtot,具体来讲,若当前联合动作与环境交互产生的联合奖励大于最优联合的奖励时,则认定当前联合动作替代原最优联合动作,成为新的最优联合动作,同时更新全局动作价值Qtot
更进一步的,所述Q值分解网络的损失函数Lq为:
Figure BDA0003211222530000061
通过最小化近似的全局动作价值Qtot'与最优动作的全局动作价值Qtot的损失,来指导单个智能体的动作价值Qi,进而指导该智能体的Actor网络梯度更新。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明在集中式的Critic网络和分散式的Actor网络之间加入Q值分解网络,将Critic网络学习到的联合Q值,进一步分解成为针对单个智能体(Actor)的局部Q值。这种方式不仅保证了全局最优动作序列与局部最优动作集合的一致性,并且局部Q值对于Actor网络梯度更新的指导更加明确,使得Actor网络的更新规则更简单,从而使得多智能体的学习效率和对未知环境的适应能力得到提高。
附图说明
图1为现有技术中CCDA结构组成图;
图2为多智能体协作模型组成图;
图3为多智能体协作模型工作流程图;
图4为Q值分解网络结构图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
本实施例采用CCDA的基本结构,分散式的Actor网络有利于智能体分布式的执行,其与环境交互产生状态-动作信息存入经验缓冲区中,为了对抗环境非平稳性,集中式的Critic网络将全局状态-动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot。为了保证单个智能体与全局最优动作的一致性,本发明引入价值分解的思想,加入Q值分解网络—QDN,将全局动作价值Qtot分解为基于单个智能体的动作价值Qi,这样实现了隐式的信用分配,使单个体智能体在团队中的贡献有所表达;另外,Actor网络的梯度更新无需基于Critic网络输出的Qtot,只需依赖分解后的Qi。这种方式降低了多智能体系统随着智能体个数呈指数级增长的动作-状态空间复杂度,使得协作多智能体系统中Actor网络更新规则更加简单,从而提高了收敛效率。Actor网络策略梯度如下式。
Figure BDA0003211222530000071
其中,τ表示观测历史,a表示动作历史,D表示缓冲区,θi表示智能体i的策略,oi表示智能体i的局部观测,ai表示智能体i的动作。Q值分解网络通过近似累加的方式和全局动作价值Qtot建立联系,然后反向传播,来更新当前Qi的值。为建立联系,将初始单个智能体的动作价值Qi'进行累加,得到一个累加和,由于该累加和并非真实的Qtot,因此引入一个差值b(s)来弥补累加和与真实全局动作价值Qtot之间的差距,从而得到近似的全局动作价Q'tot;即当协作多智能体系统处于状态s时,令:
Figure BDA0003211222530000072
其中:
Figure BDA0003211222530000081
b(s)是当前最优联合动作的全局动作价值Qtot与累加和的差值,
Figure BDA0003211222530000082
Figure BDA0003211222530000083
分别为全局和局部最优动作;通过此方式,近似得到了在当前最优联合动作序列下单个智能体的动作价值Qi与近似的全局动作价值Q'tot的关系。
为了细化Q值对单个智能体的Actor网络策略梯度更新的指导作用,使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合,需要满足IGM原则,因此优化目标是使得:
Figure BDA0003211222530000084
成立,即保证最优联合动作序列的选择与局部最优动作集合中元素一致;也就是说,在当前状态s下学到的全局动作价值Qtot最大时的动作序列和单个智能体的动作价值Qi下的动作集合组成保持一致,即:
Figure BDA0003211222530000085
如果满足上式,要建立全局动作价值Qtot和单个智能体的动作价值Qi的关系;因此,需使近似得到的Q'tot和Critic网络学到的真实Qtot相等,即:
Q'tot(o,a)=Qtot(o,a)
由于近似的全局动作价值Q'tot为通过单个智能体的动作价值Qi近似得到的,通过公式
Figure BDA0003211222530000086
建立的约束关系,等价于真实全局动作价值Qtot和单个智能体的动作价值Qi的关系,即:
Figure BDA0003211222530000087
因此,当上式成立时,则建立了全局Qtot与局部Qi的关系,利用从全局奖励中学习到的Qtot,通过该约束关系可以将学到的全局最优动作与局部智能体动作等价,进一步分解为针对单个智能体的局部Qi,进而细化对Actor网络策略梯度更新的评价,简化Actor网络的更新规则,使其不再基于全局Qtot,可以解决多智能体在Actor-Critic框架下面临的信度分配问题。同时,将全局Qtot分解为单个智能体的局部Qi,保证了联合最优动作与局部最优动作集合的一致性,使得多智能体强化学习MARL在高维度空间下的收敛效率缓慢问题得到解决。
通过损失函数训练所述Critic网络与Q值分解网络,训练过程有两个主要目标:一是训练Critic网络输出全局动作价值Qtot,学习最优动作序列的集合;二是Qtot分解后的局部动作值Qi的集合应等价于全局动作价值Qtot,即两者的最优动作相等。因此,设计如下式的损失函数,由两个损失函数加权组合:
L(τ,a,r,τ',θ)=LcqLq
其中,τ表示观测历史;λq表示损失函数的权重常量;Lc表示Critic网络通过TD方式的学习联合Qtot的损失函数;Lq表示约束关系成立时的损失函数,即当前最优动作的集合和最大化Qtot相等,通过损失最小化,调整局部Qi的大小。Critic网络损失函数Lc的具体表现形式为:
Figure BDA0003211222530000091
其中:
Figure BDA0003211222530000092
在损失函数Lc中,当前状态s下联合动作与环境进行交互,获得环境的反馈信号,通过最小化损失来更新当前全局动作价值Qtot,具体来讲,若当前联合动作与环境交互产生的联合奖励大于最优联合的奖励时,则认定当前联合动作替代原最优联合动作,成为新的最优联合动作,同时更新全局动作价值Qtot。另外,为了实现第二个目标,即将Q值分解网络建立的约束关系有效实现,定义损失函数Lq为:
Figure BDA0003211222530000101
在最优联合动作已知的前提下,上式将Q值分解网络建立的约束条件进行有效的实现,通过最小化近似出的Qtot'与最优动作的Qtot的损失,来指导单个智能体的Qi,进而指导该智能体的Actor网络的梯度更新。
为了解决信度分配所引起的收敛性差问题,引入Q值分解网络,将集中式的Critic网络输出的Qtot转化为针对单个智能体的局部Qi。这种方式不仅使得局部Actor网络的梯度更新规则更加简化,同时多智能体系统MAS全局最优动作与局部最优动作的一致性得到了保证,从而提高MAS在连续动作空间的稳定性与探索效率。这种方式有三个优势:
a.通过分解联合保证MAS全局最优动作和局部最优动作的一致性;
b.局部actor网络的梯度更新规则更加简化,智能体的维数困境减少;
c.通过分解后的Q值对代理进行评价,达到一定程度的信度分配,从而可以使得团队中个体代理的贡献得到表达。
最后,本发明可以有效的解决价值分解方法在连续动作空间中的稳定性差和收敛效率低的问题。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (7)

1.一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、其特征在于,还包括Q值分解网络,每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态-动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi
2.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,所述Actor网络的梯度更新方式为:
Figure FDA0003211222520000011
其中,E为期望值,τ表示观测历史,a表示动作历史,D表示经验缓冲区,θi表示智能体i的策略,oi表示智能体i的局部观测,ai表示智能体i的动作;πi(ai|oi)表示当前观测状态下的动作。
3.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为得到全局动作价值Qtot,将初始单个智能体的动作价值Qi'进行累加,得到一个累加和,由于该累加和并非真实的Qtot,因此引入一个差值b(s)来弥补累加和与真实全局动作价值Qtot之间的差距,从而得到近似的全局动作价Q′tot;即当协作多智能体系统处于状态s时,令:
Figure FDA0003211222520000012
其中:
Figure FDA0003211222520000013
b(s)是当前最优联合动作的全局动作价值Qtot与累加和的差值,
Figure FDA0003211222520000021
Figure FDA0003211222520000022
分别为全局和局部最优动作;通过此方式,近似得到了在当前最优联合动作序列下单个智能体的动作价值Qi与近似的全局动作价值Q′tot的关系。
4.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合,需要满足IGM原则,因此优化目标是使得:
Figure FDA0003211222520000023
成立,即保证最优联合动作序列的选择与局部最优动作集合中元素一致;也就是说,在当前状态s下学到的全局动作价值Qtot最大时的动作序列和单个智能体的动作价值Qi下的动作集合组成保持一致,即:
Figure FDA0003211222520000024
如果满足上式,要建立全局动作价值Qtot和单个智能体的动作价值Qi的关系;因此,需使近似得到的Q′tot和Critic网络学到的真实Qtot相等,即:
Q′tot(o,a)=Qtot(o,a)
由于近似的全局动作价值Q′tot为通过单个智能体的动作价值Qi近似得到的,通过公式
Figure FDA0003211222520000025
建立的约束关系,等价于真实全局动作价值Qtot和单个智能体的动作价值Qi的关系,即:
Figure FDA0003211222520000026
将全局动作价值Qtot分解为单个智能体的动作价值Qi,保证了最优联合动作与局部最优动作集合的一致性。
5.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,通过损失函数训练所述Critic网络与Q值分解网络,所述损失函数为:
L(τ,a,r,τ',θ)=LcqLq
其中,τ表示观测历史;λq表示损失函数的权重常量;Lc表示Critic网络通过TD方式学习全局动作价值Qtot的损失函数;Lq表示约束关系成立时的损失函数,即当前最优动作的集合和全局动作价值Qtot相等,通过损失最小化,调整单个智能体的动作价值Qi的大小。
6.根据权利要求5所述一种基于深度强化学习的多智能体协作模型,其特征在于,所述Critic网络的损失函数Lc的具体表现形式为:
Figure FDA0003211222520000031
其中:
Figure FDA0003211222520000032
在损失函数Lc中,当前状态s下联合动作与环境进行交互,获得环境的反馈信号,通过最小化损失来更新当前全局动作价值Qtot,具体来讲,若当前联合动作与环境交互产生的联合奖励大于最优联合的奖励时,则认定当前联合动作替代原最优联合动作,成为新的最优联合动作,同时更新全局动作价值Qtot
7.根据权利要求5所述一种基于深度强化学习的多智能体协作模型,其特征在于,所述Q值分解网络的损失函数Lq为:
Figure FDA0003211222520000033
通过最小化近似的全局动作价值Qtot'与最优动作的全局动作价值Qtot的损失,来指导单个智能体的动作价值Qi,进而指导该智能体的Actor网络梯度更新。
CN202110930777.8A 2021-08-13 2021-08-13 一种基于深度强化学习的多智能体协作模型 Active CN113592101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110930777.8A CN113592101B (zh) 2021-08-13 2021-08-13 一种基于深度强化学习的多智能体协作模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110930777.8A CN113592101B (zh) 2021-08-13 2021-08-13 一种基于深度强化学习的多智能体协作模型

Publications (2)

Publication Number Publication Date
CN113592101A true CN113592101A (zh) 2021-11-02
CN113592101B CN113592101B (zh) 2023-10-17

Family

ID=78257719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110930777.8A Active CN113592101B (zh) 2021-08-13 2021-08-13 一种基于深度强化学习的多智能体协作模型

Country Status (1)

Country Link
CN (1) CN113592101B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962390A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN114861932A (zh) * 2022-04-13 2022-08-05 南京大学 一种使用注意力网络的值分解多智能体强化学习训练方法
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115994555A (zh) * 2023-03-22 2023-04-21 北京航空航天大学 一种元奖励分配的多智能体协同方法
CN116599687A (zh) * 2023-03-15 2023-08-15 中国人民解放军61660部队 一种低通信时延的级联漏洞扫描探针部署方法、系统
CN117579358A (zh) * 2023-11-24 2024-02-20 中国科学院自动化研究所 多智能体通信方法、装置、存储介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN112906885A (zh) * 2021-02-05 2021-06-04 电子科技大学 基于深度强化学习ddpg算法框架的策略协同选择方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112906885A (zh) * 2021-02-05 2021-06-04 电子科技大学 基于深度强化学习ddpg算法框架的策略协同选择方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许诺;杨振伟;: "稀疏奖励下基于MADDPG算法的多智能体协同", 现代计算机, no. 15 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962390A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113962390B (zh) * 2021-12-21 2022-04-01 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN114861932A (zh) * 2022-04-13 2022-08-05 南京大学 一种使用注意力网络的值分解多智能体强化学习训练方法
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN116599687A (zh) * 2023-03-15 2023-08-15 中国人民解放军61660部队 一种低通信时延的级联漏洞扫描探针部署方法、系统
CN116599687B (zh) * 2023-03-15 2023-11-24 中国人民解放军61660部队 一种低通信时延的级联漏洞扫描探针部署方法、系统
CN115994555A (zh) * 2023-03-22 2023-04-21 北京航空航天大学 一种元奖励分配的多智能体协同方法
CN117579358A (zh) * 2023-11-24 2024-02-20 中国科学院自动化研究所 多智能体通信方法、装置、存储介质和电子设备
CN117579358B (zh) * 2023-11-24 2024-09-06 中国科学院自动化研究所 多智能体通信方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN113592101B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN113592101A (zh) 一种基于深度强化学习的多智能体协作模型
Zhang et al. Dynamic multi-role adaptive collaborative ant colony optimization for robot path planning
Zhang et al. A hybrid approach combining an extended BBO algorithm with an intuitionistic fuzzy entropy weight method for QoS-aware manufacturing service supply chain optimization
CN111191934A (zh) 一种基于强化学习策略的多目标云工作流调度方法
Dong et al. Workflow scheduling based on deep reinforcement learning in the cloud environment
Brajević et al. A hybrid firefly and multi-strategy artificial bee colony algorithm
CN113780576B (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
Acernese et al. Double deep-Q learning-based output tracking of probabilistic Boolean control networks
CN113205172A (zh) 一种基于自适应知识迁移的多任务演化算法
Pan et al. Research on path planning algorithm of mobile robot based on reinforcement learning
CN111159489B (zh) 一种搜索方法
Zhan et al. Twin delayed multi-agent deep deterministic policy gradient
CN116582442A (zh) 一种基于层次化通信机制的多智能体协作方法
Liu et al. EvoTSC: An evolutionary computation-based traffic signal controller for large-scale urban transportation networks
Chen et al. Survey of multi-agent strategy based on reinforcement learning
CN115840892B (zh) 一种复杂环境下多智能体层次化自主决策方法及系统
Quach et al. Reinforcement Learning Approach for Integrating Compressed Contexts into Knowledge Graphs
Zhao et al. A multi-objective scheduling method for operational coordination time using improved triangular fuzzy number representation
He et al. Enhanced sooty tern optimization algorithm using multiple search guidance strategies and multiple position update modes for solving optimization problems
Seth et al. Type-2 fuzzy set based hesitant fuzzy linguistic term sets for linguistic decision making
Chira et al. Learning sensitive stigmergic agents for solving complex problems
Zhou et al. Cooperative multi-agent transfer learning with coalition pattern decomposition
Tian et al. The application of path planning algorithm based on deep reinforcement learning for mobile robots
Sun et al. An Adaptive Updating Method of Target Network Based on Moment Estimates for Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant