CN113435475B - 一种多智能体通信协作方法 - Google Patents

一种多智能体通信协作方法 Download PDF

Info

Publication number
CN113435475B
CN113435475B CN202110585681.2A CN202110585681A CN113435475B CN 113435475 B CN113435475 B CN 113435475B CN 202110585681 A CN202110585681 A CN 202110585681A CN 113435475 B CN113435475 B CN 113435475B
Authority
CN
China
Prior art keywords
agent
time
intelligent
communication channel
intelligent agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110585681.2A
Other languages
English (en)
Other versions
CN113435475A (zh
Inventor
王瑞
孙楚雄
臧泽华
李凯
胡晓惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202110585681.2A priority Critical patent/CN113435475B/zh
Publication of CN113435475A publication Critical patent/CN113435475A/zh
Application granted granted Critical
Publication of CN113435475B publication Critical patent/CN113435475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种多智能体通信协作方法,其步骤包括:1)构建智能体并设定智能体的属性和规则,调用或构建智能体的运动环境;其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制;2)构建智能体通信信道,智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体;3)对于任意一个智能体i,该智能体i以局部观察
Figure DDA0003087245620000014
和消息
Figure DDA0003087245620000013
为输入,输出智能体i的动作策略
Figure DDA0003087245620000012
和交流消息
Figure DDA0003087245620000011
4)智能体的运动环境基于智能体决策和交流框架采样得到数据并行训练n个智能体,以达到最大化团队奖励的目标。本方法增加了内部动机模块,在原有方法忽略内在价值的缺陷是一个很好的补充。

Description

一种多智能体通信协作方法
技术领域
本发明属于深度强化学习多智能体协作领域,具体涉及一种基于内在动机的多智能体通信协作方法。
背景技术
对人类来说,交流是促进文明进步的关键工具。在很多现实场景中,智能体之间的高效通信是实现多智能体合作的一种有效方式。然而,漫无目的和毫无动机的信息共享可能不起作用,甚至降低多智能体合作的表现。在过去,多智能体的通信行为是由来自环境的外部奖励所激励的,可以归结为“交流什么奖励了你”。该机制被广泛使用,并在多智能体通信中取得了重大进展。然而,当外在奖励稀疏或不可分解时,这种机制可能不起作用。
目前,从提取信息和根据输入的信息做出决定方向看,Sainbayar Sukhbaatar等人[11]提出了一种名为CommNet的结构,可以从局部观察中学习连续的消息。JiechuanJiang[5],Amanpreet Singh[9]等人设计了一个门控网络来输出二进制通信动作,SaiQian Zhang[15]等人提出了一种启发式机制,只有当代理不能做出自信的决策时,才会发生通信;Daewoo Kim[6]/Hangyu Mao[7]、Rundong Wang[13]等人采用基于权重的调度器来控制通信,它只会将通信资源分配给具有重要观察结果的代理。为了区分传入消息,Jiechuan Jiang[5]等人利用双向LSTM单元,可以忽略无用的信息来集成传入消息,Abhishek Das[3]等人使用由发送人和接收方共同生成的软注意机制来计算每条消息的重要权重。此外,Sai Qian Zhang[14]等人通过引入两个信息理论的正则化器来实现目标通信。从框架的角度来看,Daewoo Kim[6],Hangyu Mao[7]、Rundong Wang[13]等人的工作旨在决定何时交流,Abhishek Das[3]等人建议决定由谁交流,如果能将二者结合起来,便能够同时享受两种方法的好处。
内在动机是指由内部回归驱动的行为[2]。近年来,内在值被引入到强化学习领域,以探索新的行为。提出了各种依赖于状态的奖励来衡量内在值[1,4,8,10,12]。但是,大多数现有的内在值不能扩展到分散的多代理任务,因为代理只在执行过程中限制访问。现有多智能体通信领域基本都在使用单一的外部值信息,而内在值是对现有解决方案的一个很好的补充。
以下为所述的参考文献:
[1]Marc Bellemare,Sriram Srinivasan,Georg Ostrovski,Tom Schaul,DavidSaxton,and Remi Munos.2016.Unifying count-based exploration and intrinsicmotivation.In Advances in Neural Information Processing Systems.1471–1479。
[2]Dennis Coon and John O Mitterer.2012.Introduction to psychology:Gateways to mind and behavior with concept maps and reviews.Cengage Learning。
[3]Abhishek Das,Théophile Gervet,Joshua Romoff,Dhruv Batra,DeviParikh,Mike Rabbat,and Joelle Pineau.2019.Tarmac:Targeted multi-agentcommunication.In International Conference on Machine Learning.1538–1546。
[4]Rein Houthooft,Xi Chen,Yan Duan,John Schulman,Filip De Turck,andPieter Abbeel.2016.Vime:Variational information maximizing exploration.InAdvances in Neural Information Processing Systems.1109–1117。
[5]Jiechuan Jiang and Zongqing Lu.2018.Learning attentionalcommunication for multi-agent cooperation.In Advances in neural informationprocessing systems.7254–7264。
[6]Daewoo Kim,Sangwoo Moon,David Hostallero,Wan Ju Kang,Taeyoung Lee,Kyunghwan Son,and Yung Yi.2019.Learning to schedule communication in multi-agent reinforcement learning.arXiv preprint arXiv:1902.01554(2019)。
[7]Hangyu Mao,Zhengchao Zhang,Zhen Xiao,Zhibo Gong,and YanNi.2020.Learning Agent Communication under Limited Bandwidth by MessagePruning.AAAI 2020:The Thirty-Fourth AAAI Conference on ArtificialIntelligence 34,4(2020),5142–5149。
[8]Deepak Pathak,Pulkit Agrawal,Alexei A Efros,and TrevorDarrell.2017.Curiosity-driven exploration by self-supervised prediction.InInternational Conference on Machine Learning(ICML),Vol.2017。
[9]Amanpreet Singh,Tushar Jain,and Sainbayar Sukhbaatar.2018.Learningwhen to communicate at scale in multiagent cooperative and competitivetasks.arXiv preprint arXiv:1812.09755(2018)。
[10]Bradly C Stadie,Sergey Levine,and PieterAbbeel.2015.Incentivizing exploration in reinforcement learning with deeppredictive models.arXiv preprint arXiv:1507.00814(2015)。
[11]Sainbayar Sukhbaatar,Rob Fergus,et al.2016.Learning multiagentcommunication with backpropagation.In Advances in neural informationprocessing systems.2244–2252。
[12]Haoran Tang,Rein Houthooft,Davis Foote,Adam Stooke,OpenAI XiChen,Yan Duan,John Schulman,Filip DeTurck,and Pieter Abbeel.2017.#Exploration:A study of count-based exploration for deep reinforcementlearning.In Advances in Neural Information Processing Systems.2753–2762。
[13]Rundong Wang,Xu He,Runsheng Yu,Wei Qiu,Bo An,and ZinoviRabinovich.2020.Learning Efficient Multi-agent Communication:An InformationBottleneck Approach.In ICML 2020:37th International Conference on MachineLearning。
[14]Tonghan Wang,Jianhao Wang,Chongyi Zheng,and ChongjieZhang.2020.Learning Nearly posable Value Functions Via CommunicationMinimization.In ICLR 2020:Eighth International Conference on LearningRepresentations。
[15]Sai Qian Zhang,Qi Zhang,and Jieyu Lin.2019.Efficientcommunication in multi-agent reinforcement learning via variance basedcontrol.In Advances in Neural Information Processing Systems.3235–3244。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于内在动机的多智能体通信协作方法,为现有算法忽略内在价值做了一个很好的补充。另外,本发明使用一种基于内在值门控机制删除了无用的信息,提高了通信效率。同时本发明也使用了一种注意力机制,可以帮助智能体区分传入的消息,并提高决策的准确性。
本发明基于内部动机的多智能体通信协作方法,其特征在于包括以下步骤:
步骤1:明确单智能体的属性和规则,调用或构建智能体的运动环境。
步骤2:构建智能体通信信道,智能体通信信道的输入为由各个智能体传来的信息
Figure BDA0003087245600000031
并运用Softmax和权重求和机制产生智能体之间传递的消息
Figure BDA0003087245600000032
其中
Figure BDA0003087245600000033
表示第i个智能体在时刻t的向智能体通信信道发送的信息,
Figure BDA0003087245600000034
表示第i个智能体在时刻t从通信信息到信道收到的整合后的信息。
步骤3:构建单个智能体的结构,每个智能体架构包括一个策略网络、一个内在值网络和一个门控机制,以局部观察
Figure BDA0003087245600000035
和通信信道的外部信息
Figure BDA0003087245600000036
为输入,输出智能体动作
Figure BDA0003087245600000037
和交流消息
Figure BDA0003087245600000038
其中
Figure BDA0003087245600000039
表示第i个智能体在时刻t的局部观察,
Figure BDA00030872456000000310
第i个智能体在时刻t所作出的动作。
步骤4:并行训练n个智能体,基于步骤2和步骤3的多智能体决策和交流框架采样得到数据{τ12,......,τn},其中i∈(1,n),τi=(s0,a0,r0,s1,a1,r1,s2,.......,sT,aT,rT),s0表示环境的初始状态,a0表示智能体在时刻0生成的决策行为,r0表示决策行为a0的即时奖励,s1表示在执行决策行为a0后,环境转移到一个新状态s1,sT表示终止时刻T时的环境状态、aT表示智能体在终止时刻T生成的决策行为、rT表示决策行为aT的即时奖励。使用强化学习的损失函数
Figure BDA00030872456000000311
对策略网络进行集中训练,以达到最大化团队奖励
Figure BDA00030872456000000312
的目标。其中θp表示策略网络的参数,T表示轨迹的终止时刻,γ表示折扣因子,rt表示在时刻t环境所反馈的团队奖励。
所述步骤1的具体实现包括以下子步骤:
步骤1.1:根据调用或构建的具体运行环境,明确智能体的动作空间,状态空间以及奖励机制。
步骤1.2:智能体的交互环境包括智能体的动作和状态,环境反馈的奖励等内容。从智能体个体的角度出发,智能体根据当前所观察到的状态,得到下一步的动作和奖励信息。
所述步骤2的具体实现包括以下子步骤:
步骤2.1:智能体首先对观测信息进行编码得到局部观测
Figure BDA0003087245600000041
并从局部观测中获取要交流的信息
Figure BDA0003087245600000042
其中
Figure BDA0003087245600000043
步骤2.2:通信信道收到智能体所发出的消息
Figure BDA0003087245600000044
其中
Figure BDA0003087245600000046
表示第i个智能体在时刻t发出的消息所包含的内容,即局部观察
Figure BDA0003087245600000047
的嵌入,
Figure BDA0003087245600000048
表示第i个智能体在时刻t智能体内部值网络内在值网络的输出,表示消息的重要性。
步骤2.3:通信信道将利用内部信息的重要性来计算输入消息的注意力向量。
Figure BDA0003087245600000049
当信息不确定和重要时,注意力的权重就会很高。
步骤2.4:然后使用内在的注意力向量对共享信息的内容进行聚合:
Figure BDA00030872456000000410
步骤2.5:最后,外部信息与智能体局部观测相结合,输入策略网络。
Figure BDA00030872456000000411
所述步骤3的具体实现包括以下子步骤:
步骤3.1:观测编码器由一层多层感知器MLP和一层门控循环单元GRU组成,以局部观测
Figure BDA00030872456000000412
作为输入,并负责编码输出第i个智能体在时刻t发出的消息所包含的内容
Figure BDA00030872456000000413
步骤3.2:将局部观测历史
Figure BDA00030872456000000414
和从通信信道中接收到的信息
Figure BDA00030872456000000415
相结合,作为动作生成器的输入。动作生成器由一层多层感知器MLP构成,是策略网络的组成部分,输入为局部观测历史
Figure BDA00030872456000000416
和从通信信道中接收到的信息
Figure BDA00030872456000000417
输出智能体i在下一时刻所要采取的动作。
步骤3.3:内在值网络的参数会使用以下MSE进行更新:
Figure BDA00030872456000000418
其中θf表示预测问题,在训练过程中保持固定。θg表示预测网络的参数。
步骤3.4:我们表示外部重要性为
Figure BDA00030872456000000419
并直接和内部重要性直接组合更新
Figure BDA00030872456000000420
Figure BDA0003087245600000051
其中βe和βi都是平衡内在值和外在值的超参数。
步骤3.5:通过步骤3.1和步骤3.4产生的
Figure BDA0003087245600000052
Figure BDA0003087245600000053
组合成为新的消息
Figure BDA0003087245600000054
即智能体在时刻t想要对外界通信的消息。
步骤3.6:门控机制需要根据当前的观察结果来决定是否进行通信。此处使用简单启发式算法,当内在重要性
Figure BDA0003087245600000055
大于阈值δ时,则向通信信道发送消息
Figure BDA0003087245600000056
所述步骤4的具体实现包括以下子步骤:
步骤4.1:在每个时间步长,每个智能体都要做出分散决策
Figure BDA0003087245600000057
其中π表示智能体的策略函数,表示第i个智能体在时刻t根据局部观察
Figure BDA0003087245600000058
收到通信信道中收到的外部信息
Figure BDA0003087245600000059
和策略网络参数θi的条件下,所得到的行为
Figure BDA00030872456000000510
步骤4.2:环境将根据动态转移方程和智能体的联合行动
Figure BDA00030872456000000511
过渡到一个新的状态st+1,即下一时刻t+1时的全局状态,每个智能体收到一个新的局部观察结果
Figure BDA00030872456000000512
步骤4.3:并行训练的每一智能体会分别收到一个团队奖励
Figure BDA00030872456000000513
r表示在状态st下,智能体1,2,…,n在时刻t分别采取动作
Figure BDA00030872456000000514
环境所反馈的奖励。在训练期间,还会提供额外的信息,比如环境的全局状态,其他智能体的行为和轨迹,并对分散决策进行集中训练,以最大化团队奖励
Figure BDA00030872456000000515
也就是本通信协作方法的最终目标。基于该目标可以对策略网络通过强化损失和外部奖励来进行训练:
Figure BDA00030872456000000516
使用贝尔曼方程计算最优值,其中,
Figure BDA00030872456000000517
是累积回报的估计值;Qtot(st+1,a′;θt)为
Figure BDA00030872456000000518
的一个估计值,θt表示用于计算更新目标的目标网络的参数,θp表示策略网络的参数。
本发明与现有技术相比的优点和积极效果如下:
(1)我们得出了如何评估所观察到的信息的重要性是推动高效沟通行为的关键的结论。所以,与原有的多智能体通信协作方法相比,本方法增加了内部动机模块,在原有方法忽略内在价值的缺陷是一个很好的补充。
(2)我们采用RND[4]来测量观测信息的内在新颖性和不确定性。然后,我们将一种基于内在值的门控机制和一种注意机制应用到多智能体通信框架中。门控机制可以删除无用的信息,提高协作效率。注意机制可以帮助智能体区分传入的消息,并提高决策的准确性。
(3)基于内在动机的多智能体通信协作方法是有前途的,并且与现有的基于外部动机的多智能体通信协作方法相结合,可以产生更好的性能。
附图说明
图1为本发明的实现流程图。
具体实施方式
下面结合实施例和说明书附图,对本发明的具体实施方案进行详细描述。此处所描绘的实施例仅用于说明和解释本发明,但不用于限定本发明。
本发明设计一种基于内在动机的多智能体通信协作方法,包括以下步骤:首先,定义单智能体的属性和规则,明确智能体的状态空间和动作空间,构建或调用单智能体运动游戏环境;然后,构建通信信道架构和单个智能体的框架,通信信道用于接收聚合不同智能体所发送的信息,并向智能体发送要通信的信息;单智能体的框架包括三部分,一个策略网络、一个内在的值网络和一个门控机制,策略网络用于接收局部观察和外部信息,并产生要向外发送的信息以及下一步策略,内在值网络用于根据局部观察计算当前局部观察的重要性,门控机制用于负责修剪无用消息;最后,并行训练多个智能体,并最大化团队收益,产生下一步团队策略。本发明可以根据实际需求构建合理的运动环境,来更好地指导智能体进行决策,达到智能策略优化的目的,对我国机器人以及无人系统的发展具有积极作用。
下面详细说明。
一种基于内在动机的多智能体通信协作方法,其特征在于,包括以下步骤:
步骤1:明确单智能体的属性和规则,调用或构建智能体的运动环境。
步骤2:构建智能体通信信道,通信信道的输入为由各个智能体传来的信息
Figure BDA0003087245600000061
并运用Softmax和权重求和机制产生智能体之间传递的消息
Figure BDA0003087245600000062
其中
Figure BDA0003087245600000063
表示第i个智能体在时刻t的向通信信道发送的信息,
Figure BDA0003087245600000064
表示第i个智能体在时刻t从通信信息到收到的信息。
步骤3:构建单个智能体的结构,每个智能体架构包括一个策略网络、一个内在的值网络和一个门控机制,以局部观察
Figure BDA0003087245600000065
和通信信道的外部信息
Figure BDA0003087245600000066
为输入,输出智能体下一步动作
Figure BDA0003087245600000067
和要传递的消息
Figure BDA0003087245600000068
其中
Figure BDA0003087245600000069
表示第i个智能体在时刻t的局部观察,
Figure BDA00030872456000000610
第i个智能体在时刻t所作出的动作。
步骤4:并行训练n个智能体,并利用步骤2和步骤3的内容,对分散决策进行集中训练,以实现共同目标,也就是最大化团队奖励
Figure BDA00030872456000000611
其中γ表示折扣因子,rt表示在时刻t环境所反馈的奖励。
所述步骤1的具体实现包括以下子步骤:
步骤1.1:根据调用或构建的具体运行环境明确智能体的动作空间,状态空间以及奖励机制。
步骤1.2:智能体的交互环境包括智能体的动作和状态,环境反馈的奖励等内容。从智能体个体的角度出发,智能体根据当前所观察到的状态,得到下一步的动作和奖励信息。
所述步骤2的具体实现包括以下子步骤:
步骤2.1:智能体首先对观测信息进行编码得到局部观测
Figure BDA0003087245600000071
并从局部观测中获取要交流的信息
Figure BDA0003087245600000072
其中
Figure BDA0003087245600000073
步骤2.2:通信信道收到智能体所发出的消息
Figure BDA0003087245600000074
其中
Figure BDA0003087245600000075
表示第i个智能体在时刻t发出的消息所包含的内容,即局部观察
Figure BDA0003087245600000076
的嵌入,
Figure BDA0003087245600000077
表示第i个智能体在时刻t智能体内部值网络的输出,表示消息的重要性。
步骤2.3:通信信道将利用内部信息的重要性来计算输入消息的注意力向量。
Figure BDA0003087245600000078
当信息不确定和重要时,注意力的权重就会很高。
步骤2.4:然后使用内在的注意力向量对共享信息的内容进行聚合:
Figure BDA0003087245600000079
步骤2.5:最后,外部信息与智能体局部观测相结合,输入策略网络。
Figure BDA00030872456000000710
所述步骤3的具体实现包括以下子步骤:
步骤3.1:观测编码器由一层多层感知器MLP和一层门控循环单元GRU组成,以局部观测
Figure BDA00030872456000000711
作为输入,并负责编码输出局部观测历史
Figure BDA00030872456000000712
步骤3.2:将局部观测历史
Figure BDA00030872456000000713
和从通信信道中接收到的信息
Figure BDA00030872456000000714
相结合,作为动作生成器的输入。动作生成器由一层多层感知器MLP构成,是策略网络的组成部分,输入为局部观测历史
Figure BDA00030872456000000715
和从通信信道中接收到的信息
Figure BDA00030872456000000716
输出智能体i在下一时刻所要采取的动作。
步骤3.3:动作生成器得到步骤3.2产生的数据之后,产生智能体的下一步动作策略。策略网络通过强化损失和外部奖励来进行训练:
Figure BDA00030872456000000717
使用贝尔曼方程计算最优值,其中
Figure BDA00030872456000000718
Figure BDA0003087245600000081
步骤3.4:内在值网络的参数会使用以下MSE进行更新:
Figure BDA0003087245600000082
其中θf表示预测问题,在训练过程中保持固定。θg表示预测网络的参数。
步骤3.5:我们表示外部沟通重要性为
Figure BDA0003087245600000083
并直接和内部重要性直接组合:
Figure BDA0003087245600000084
其中βe和βi都是平衡内在值和外在值的超参数。
步骤3.6:通过步骤3.1和步骤3.5产生的
Figure BDA0003087245600000085
Figure BDA0003087245600000086
组合成为新的消息
Figure BDA0003087245600000087
即智能体在时刻t想要对外界通信的消息。
步骤3.7:门控机制需要根据当前的观察结果来决定是否进行通信。此处使用简单启发式算法,当内在重要性
Figure BDA0003087245600000088
大于阈值δ时,则向通信信道发送消息
Figure BDA0003087245600000089
所述步骤4的具体实现包括以下子步骤:
步骤4.1:在每个时间步长,每个智能体都要做出分散决策
Figure BDA00030872456000000810
其中π表示智能体的策略函数,表示第i个智能体在时刻t根据局部观察
Figure BDA00030872456000000811
收到通信信道中收到的外部信息
Figure BDA00030872456000000812
和策略网络参数θi的条件下,所得到的行为
Figure BDA00030872456000000813
步骤4.2:环境将根据联合行动
Figure BDA00030872456000000814
过渡到一个新的状态st+1,每个智能体收到一个新的局部观察结果
Figure BDA00030872456000000815
步骤4.3:并行训练的每一智能体会分别收到一个团队奖励
Figure BDA00030872456000000816
r表示在状态st下,智能体1,2,…,n在时刻t分别采取动作
Figure BDA00030872456000000817
环境所反馈的奖励。在训练期间,还会提供额外的信息,比如环境的全局状态,其他智能体的行为和轨迹,并对分散决策进行集中训练,以最大化团队奖励
Figure BDA00030872456000000818
也就是本通信协作方法的最终目标。
本发明未详细阐述部分属于本领域的公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可理解想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种多智能体通信协作方法,其步骤包括:
1)构建智能体并设定智能体的属性和规则,调用或构建智能体的运动环境;其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制;
2)构建智能体通信信道,智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体;
3)对于任意一个智能体i,该智能体i以局部观察
Figure FDA0003871473500000011
和消息
Figure FDA0003871473500000012
为输入,输出智能体i的动作策略
Figure FDA0003871473500000013
和交流消息
Figure FDA0003871473500000014
其中,
Figure FDA0003871473500000015
表示智能体i在时刻t的局部观察,
Figure FDA0003871473500000016
为智能体i在时刻t所作出的动作,
Figure FDA0003871473500000017
表示智能体i在时刻t的向智能体通信信道发送的信息,
Figure FDA0003871473500000018
表示智能体i在时刻t从智能体通信信道收到的消息,
Figure FDA0003871473500000019
表示智能体i在时刻t发出的消息所包含的内容,
Figure FDA00038714735000000110
表示智能体i在时刻t智能体i的内在值网络的输出,表示消息的重要性;其中,智能体i利用观测编码器对局部观察
Figure FDA00038714735000000111
进行编码输出
Figure FDA00038714735000000112
然后将
Figure FDA00038714735000000113
和从智能体通信信道中接收到的信息
Figure FDA00038714735000000114
相结合,作为策略网络中动作生成器的输入,输出智能体i所要采取的动作
Figure FDA00038714735000000115
根据外部沟通重要性
Figure FDA00038714735000000116
和内部重要性
Figure FDA00038714735000000117
计算更新
Figure FDA00038714735000000118
然后将
Figure FDA00038714735000000119
和vt组合生成消息
Figure FDA00038714735000000120
其中,βe为平衡内在值的超参数,βi为平衡外在值的超参数;然后智能体i中的门控机制根据观察结果来决定是否进行通信,即当内在重要性
Figure FDA00038714735000000121
大于阈值δ时,则向智能体通信信道发送消息
Figure FDA00038714735000000122
4)智能体的运动环境基于智能体决策和交流框架采样得到数据{τ12,......,τn}并行训练n个智能体,其中第i个数据τi=(s0,a0,r0,s1,a1,r1,s2,.......,sT,aT,rT),i∈(1,n),s0表示环境的初始状态、a0表示智能体在时刻0生成的决策行为、r0表示决策行为a0的即时奖励,sT表示终止时刻T时的环境状态、aT表示智能体在终止时刻T生成的决策行为、rT表示决策行为aT的即时奖励;使用强化学习的损失函数
Figure FDA00038714735000000123
对智能体中的策略网络进行训练,以达到最大化团队奖励
Figure FDA00038714735000000124
的目标,θp表示策略网络的参数,T表示智能体行为轨迹的终止时刻,γ表示折扣因子,rt表示在时刻t环境所反馈的团队奖励。
2.如权利要求1所述的方法,其特征在于,智能体通信信道对各智能体t时刻传来的信息m进行聚合为智能体i生成消息
Figure FDA00038714735000000125
然后智能体i将
Figure FDA00038714735000000126
与局部观察
Figure FDA00038714735000000127
输入智能体i的策略网络得到
Figure FDA00038714735000000128
3.如权利要求1所述的方法,其特征在于,步骤4)中,智能体的运动环境首先根据联合行动
Figure FDA00038714735000000129
过渡到下一时刻的状态st+1,智能体i收到下一时刻的局部观察结果
Figure FDA00038714735000000130
和一个团队奖励
Figure FDA00038714735000000131
其中
Figure FDA00038714735000000132
为智能体n在时刻t所作出的动作,r表示在状态st下n个智能体时刻t分别采取动作
Figure FDA00038714735000000133
时环境所反馈的奖励;然后计算最大化团队奖励
Figure FDA0003871473500000021
作为下一时刻的团队奖励发送给各智能体。
4.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至3任一所述方法中各步骤的指令。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一所述方法的步骤。
CN202110585681.2A 2021-05-27 2021-05-27 一种多智能体通信协作方法 Active CN113435475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585681.2A CN113435475B (zh) 2021-05-27 2021-05-27 一种多智能体通信协作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585681.2A CN113435475B (zh) 2021-05-27 2021-05-27 一种多智能体通信协作方法

Publications (2)

Publication Number Publication Date
CN113435475A CN113435475A (zh) 2021-09-24
CN113435475B true CN113435475B (zh) 2023-01-20

Family

ID=77802952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585681.2A Active CN113435475B (zh) 2021-05-27 2021-05-27 一种多智能体通信协作方法

Country Status (1)

Country Link
CN (1) CN113435475B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151206B (zh) * 2023-10-12 2024-04-12 北京蓝色创想网络科技有限责任公司 一种多智能体协同决策强化学习方法、系统及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111514585B (zh) * 2020-03-17 2022-02-11 南京知能科技有限公司 智能体的控制方法及系统、计算机装置以及存储介质
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Also Published As

Publication number Publication date
CN113435475A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
Lei et al. Deep reinforcement learning for autonomous internet of things: Model, applications and challenges
Shao et al. Multi-objective neural evolutionary algorithm for combinatorial optimization problems
Qiang et al. Reinforcement learning model, algorithms and its application
Jiang et al. Stacked autoencoder-based deep reinforcement learning for online resource scheduling in large-scale MEC networks
Jiang et al. Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration
CN107241213B (zh) 一种基于深度强化学习的Web服务组合方法
Papageorgiou Review study on fuzzy cognitive maps and their applications during the last decade
CN113407345B (zh) 一种基于深度强化学习的目标驱动计算卸载方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
KR102656365B1 (ko) 신경망의 인과 학습에 대한 프레임워크
CN113435475B (zh) 一种多智能体通信协作方法
Zhou et al. Solving large-scale 0-1 knapsack problem by the social-spider optimisation algorithm
Fang et al. Two-stream fused fuzzy deep neural network for multiagent learning
CN115982610A (zh) 一种促进多智能体协作性的通讯强化学习算法
Zhang et al. Multi-robot cooperative target encirclement through learning distributed transferable policy
Le et al. Applications of distributed machine learning for the Internet-of-Things: A comprehensive survey
CN116341611A (zh) 一种基于多头注意力机制通信的多智能体强化学习算法
Chen et al. Survey of multi-agent strategy based on reinforcement learning
Yuan Intrinsically-motivated reinforcement learning: A brief introduction
CN111950690A (zh) 一种具有自适应能力的高效强化学习策略模型
Liu et al. A PSO-RBF neural network for BOD multi-step prediction in wastewater treatment process
CN114118371A (zh) 一种智能体深度强化学习方法及计算机可读介质
Scholten et al. Deep reinforcement learning with feedback-based exploration
Chen et al. Stochastic Dynamic Power Dispatch With Human Knowledge Transfer Using Graph-GAN Assisted Inverse Reinforcement Learning
Yu et al. Event-Based Deep Reinforcement Learning for Quantum Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant