CN113435475B

CN113435475B - 一种多智能体通信协作方法

Info

Publication number: CN113435475B
Application number: CN202110585681.2A
Authority: CN
Inventors: 王瑞; 孙楚雄; 臧泽华; 李凯; 胡晓惠
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-01-20
Anticipated expiration: 2041-05-27
Also published as: CN113435475A

Abstract

本发明公开了一种多智能体通信协作方法，其步骤包括：1)构建智能体并设定智能体的属性和规则，调用或构建智能体的运动环境；其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制；2)构建智能体通信信道，智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体；3)对于任意一个智能体i，该智能体i以局部观察

和消息

为输入，输出智能体i的动作策略

和交流消息

4)智能体的运动环境基于智能体决策和交流框架采样得到数据并行训练n个智能体，以达到最大化团队奖励的目标。本方法增加了内部动机模块，在原有方法忽略内在价值的缺陷是一个很好的补充。

Description

一种多智能体通信协作方法

技术领域

本发明属于深度强化学习多智能体协作领域，具体涉及一种基于内在动机的多智能体通信协作方法。

背景技术

对人类来说，交流是促进文明进步的关键工具。在很多现实场景中，智能体之间的高效通信是实现多智能体合作的一种有效方式。然而，漫无目的和毫无动机的信息共享可能不起作用，甚至降低多智能体合作的表现。在过去，多智能体的通信行为是由来自环境的外部奖励所激励的，可以归结为“交流什么奖励了你”。该机制被广泛使用，并在多智能体通信中取得了重大进展。然而，当外在奖励稀疏或不可分解时，这种机制可能不起作用。

目前，从提取信息和根据输入的信息做出决定方向看，Sainbayar Sukhbaatar等人[11]提出了一种名为CommNet的结构，可以从局部观察中学习连续的消息。JiechuanJiang[5]，Amanpreet Singh[9]等人设计了一个门控网络来输出二进制通信动作，SaiQian Zhang[15]等人提出了一种启发式机制，只有当代理不能做出自信的决策时，才会发生通信；Daewoo Kim[6]/Hangyu Mao[7]、Rundong Wang[13]等人采用基于权重的调度器来控制通信，它只会将通信资源分配给具有重要观察结果的代理。为了区分传入消息，Jiechuan Jiang[5]等人利用双向LSTM单元，可以忽略无用的信息来集成传入消息，Abhishek Das[3]等人使用由发送人和接收方共同生成的软注意机制来计算每条消息的重要权重。此外，Sai Qian Zhang[14]等人通过引入两个信息理论的正则化器来实现目标通信。从框架的角度来看，Daewoo Kim[6]，Hangyu Mao[7]、Rundong Wang[13]等人的工作旨在决定何时交流，Abhishek Das[3]等人建议决定由谁交流，如果能将二者结合起来，便能够同时享受两种方法的好处。

内在动机是指由内部回归驱动的行为[2]。近年来，内在值被引入到强化学习领域，以探索新的行为。提出了各种依赖于状态的奖励来衡量内在值[1,4,8,10,12]。但是，大多数现有的内在值不能扩展到分散的多代理任务，因为代理只在执行过程中限制访问。现有多智能体通信领域基本都在使用单一的外部值信息，而内在值是对现有解决方案的一个很好的补充。

以下为所述的参考文献：

[1]Marc Bellemare,Sriram Srinivasan,Georg Ostrovski,Tom Schaul,DavidSaxton,and Remi Munos.2016.Unifying count-based exploration and intrinsicmotivation.In Advances in Neural Information Processing Systems.1471–1479。

[2]Dennis Coon and John O Mitterer.2012.Introduction to psychology:Gateways to mind and behavior with concept maps and reviews.Cengage Learning。

[3]Abhishek Das,Théophile Gervet,Joshua Romoff,Dhruv Batra,DeviParikh,Mike Rabbat,and Joelle Pineau.2019.Tarmac:Targeted multi-agentcommunication.In International Conference on Machine Learning.1538–1546。

[4]Rein Houthooft,Xi Chen,Yan Duan,John Schulman,Filip De Turck,andPieter Abbeel.2016.Vime:Variational information maximizing exploration.InAdvances in Neural Information Processing Systems.1109–1117。

[5]Jiechuan Jiang and Zongqing Lu.2018.Learning attentionalcommunication for multi-agent cooperation.In Advances in neural informationprocessing systems.7254–7264。

[6]Daewoo Kim,Sangwoo Moon,David Hostallero,Wan Ju Kang,Taeyoung Lee,Kyunghwan Son,and Yung Yi.2019.Learning to schedule communication in multi-agent reinforcement learning.arXiv preprint arXiv:1902.01554(2019)。

[7]Hangyu Mao,Zhengchao Zhang,Zhen Xiao,Zhibo Gong,and YanNi.2020.Learning Agent Communication under Limited Bandwidth by MessagePruning.AAAI 2020:The Thirty-Fourth AAAI Conference on ArtificialIntelligence 34,4(2020),5142–5149。

[8]Deepak Pathak,Pulkit Agrawal,Alexei A Efros,and TrevorDarrell.2017.Curiosity-driven exploration by self-supervised prediction.InInternational Conference on Machine Learning(ICML),Vol.2017。

[9]Amanpreet Singh,Tushar Jain,and Sainbayar Sukhbaatar.2018.Learningwhen to communicate at scale in multiagent cooperative and competitivetasks.arXiv preprint arXiv:1812.09755(2018)。

[10]Bradly C Stadie,Sergey Levine,and PieterAbbeel.2015.Incentivizing exploration in reinforcement learning with deeppredictive models.arXiv preprint arXiv:1507.00814(2015)。

[11]Sainbayar Sukhbaatar,Rob Fergus,et al.2016.Learning multiagentcommunication with backpropagation.In Advances in neural informationprocessing systems.2244–2252。

[12]Haoran Tang,Rein Houthooft,Davis Foote,Adam Stooke,OpenAI XiChen,Yan Duan,John Schulman,Filip DeTurck,and Pieter Abbeel.2017.#Exploration:A study of count-based exploration for deep reinforcementlearning.In Advances in Neural Information Processing Systems.2753–2762。

[13]Rundong Wang,Xu He,Runsheng Yu,Wei Qiu,Bo An,and ZinoviRabinovich.2020.Learning Efficient Multi-agent Communication:An InformationBottleneck Approach.In ICML 2020:37th International Conference on MachineLearning。

[14]Tonghan Wang,Jianhao Wang,Chongyi Zheng,and ChongjieZhang.2020.Learning Nearly posable Value Functions Via CommunicationMinimization.In ICLR 2020:Eighth International Conference on LearningRepresentations。

[15]Sai Qian Zhang,Qi Zhang,and Jieyu Lin.2019.Efficientcommunication in multi-agent reinforcement learning via variance basedcontrol.In Advances in Neural Information Processing Systems.3235–3244。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于内在动机的多智能体通信协作方法，为现有算法忽略内在价值做了一个很好的补充。另外，本发明使用一种基于内在值门控机制删除了无用的信息，提高了通信效率。同时本发明也使用了一种注意力机制，可以帮助智能体区分传入的消息，并提高决策的准确性。

本发明基于内部动机的多智能体通信协作方法，其特征在于包括以下步骤：

步骤1：明确单智能体的属性和规则，调用或构建智能体的运动环境。

步骤2：构建智能体通信信道，智能体通信信道的输入为由各个智能体传来的信息

并运用Softmax和权重求和机制产生智能体之间传递的消息

其中

表示第i个智能体在时刻t的向智能体通信信道发送的信息，

表示第i个智能体在时刻t从通信信息到信道收到的整合后的信息。

步骤3：构建单个智能体的结构，每个智能体架构包括一个策略网络、一个内在值网络和一个门控机制，以局部观察

和通信信道的外部信息

为输入，输出智能体动作

和交流消息

其中

表示第i个智能体在时刻t的局部观察，

第i个智能体在时刻t所作出的动作。

步骤4：并行训练n个智能体，基于步骤2和步骤3的多智能体决策和交流框架采样得到数据{τ₁,τ₂,......,τ_n}，其中i∈(1,n)，τ_i＝(s₀,a₀,r₀,s₁,a₁,r₁,s₂,.......,s_T,a_T,r_T),s₀表示环境的初始状态，a₀表示智能体在时刻0生成的决策行为，r₀表示决策行为a₀的即时奖励，s₁表示在执行决策行为a₀后，环境转移到一个新状态s₁，s_T表示终止时刻T时的环境状态、a_T表示智能体在终止时刻T生成的决策行为、r_T表示决策行为a_T的即时奖励。使用强化学习的损失函数

对策略网络进行集中训练，以达到最大化团队奖励

的目标。其中θ_p表示策略网络的参数，T表示轨迹的终止时刻，γ表示折扣因子，r_t表示在时刻t环境所反馈的团队奖励。

所述步骤1的具体实现包括以下子步骤：

步骤1.1：根据调用或构建的具体运行环境，明确智能体的动作空间，状态空间以及奖励机制。

步骤1.2：智能体的交互环境包括智能体的动作和状态，环境反馈的奖励等内容。从智能体个体的角度出发，智能体根据当前所观察到的状态，得到下一步的动作和奖励信息。

所述步骤2的具体实现包括以下子步骤：

步骤2.1：智能体首先对观测信息进行编码得到局部观测

并从局部观测中获取要交流的信息

其中

步骤2.2：通信信道收到智能体所发出的消息

其中

表示第i个智能体在时刻t发出的消息所包含的内容，即局部观察

的嵌入，

表示第i个智能体在时刻t智能体内部值网络内在值网络的输出，表示消息的重要性。

步骤2.3：通信信道将利用内部信息的重要性来计算输入消息的注意力向量。

当信息不确定和重要时，注意力的权重就会很高。

步骤2.4：然后使用内在的注意力向量对共享信息的内容进行聚合：

步骤2.5：最后，外部信息与智能体局部观测相结合，输入策略网络。

所述步骤3的具体实现包括以下子步骤：

步骤3.1：观测编码器由一层多层感知器MLP和一层门控循环单元GRU组成，以局部观测

作为输入，并负责编码输出第i个智能体在时刻t发出的消息所包含的内容

步骤3.2：将局部观测历史

和从通信信道中接收到的信息

相结合，作为动作生成器的输入。动作生成器由一层多层感知器MLP构成，是策略网络的组成部分，输入为局部观测历史

和从通信信道中接收到的信息

输出智能体i在下一时刻所要采取的动作。

步骤3.3：内在值网络的参数会使用以下MSE进行更新：

其中θ_f表示预测问题，在训练过程中保持固定。θ_g表示预测网络的参数。

步骤3.4：我们表示外部重要性为

并直接和内部重要性直接组合更新

其中β_e和β_i都是平衡内在值和外在值的超参数。

步骤3.5：通过步骤3.1和步骤3.4产生的

和

组合成为新的消息

即智能体在时刻t想要对外界通信的消息。

步骤3.6：门控机制需要根据当前的观察结果来决定是否进行通信。此处使用简单启发式算法，当内在重要性

大于阈值δ时，则向通信信道发送消息

所述步骤4的具体实现包括以下子步骤：

步骤4.1：在每个时间步长，每个智能体都要做出分散决策

其中π表示智能体的策略函数，表示第i个智能体在时刻t根据局部观察

收到通信信道中收到的外部信息

和策略网络参数θ_i的条件下，所得到的行为

步骤4.2：环境将根据动态转移方程和智能体的联合行动

过渡到一个新的状态s_t+1，即下一时刻t+1时的全局状态，每个智能体收到一个新的局部观察结果

步骤4.3：并行训练的每一智能体会分别收到一个团队奖励

r表示在状态s_t下，智能体1,2,…,n在时刻t分别采取动作

环境所反馈的奖励。在训练期间，还会提供额外的信息，比如环境的全局状态，其他智能体的行为和轨迹，并对分散决策进行集中训练，以最大化团队奖励

也就是本通信协作方法的最终目标。基于该目标可以对策略网络通过强化损失和外部奖励来进行训练：

使用贝尔曼方程计算最优值，其中，

是累积回报的估计值；Q_tot(s_t+1,a′；θ_t)为

的一个估计值，θ_t表示用于计算更新目标的目标网络的参数，θ_p表示策略网络的参数。

本发明与现有技术相比的优点和积极效果如下：

(1)我们得出了如何评估所观察到的信息的重要性是推动高效沟通行为的关键的结论。所以，与原有的多智能体通信协作方法相比，本方法增加了内部动机模块，在原有方法忽略内在价值的缺陷是一个很好的补充。

(2)我们采用RND[4]来测量观测信息的内在新颖性和不确定性。然后，我们将一种基于内在值的门控机制和一种注意机制应用到多智能体通信框架中。门控机制可以删除无用的信息，提高协作效率。注意机制可以帮助智能体区分传入的消息，并提高决策的准确性。

(3)基于内在动机的多智能体通信协作方法是有前途的，并且与现有的基于外部动机的多智能体通信协作方法相结合，可以产生更好的性能。

附图说明

图1为本发明的实现流程图。

具体实施方式

下面结合实施例和说明书附图，对本发明的具体实施方案进行详细描述。此处所描绘的实施例仅用于说明和解释本发明，但不用于限定本发明。

本发明设计一种基于内在动机的多智能体通信协作方法，包括以下步骤：首先，定义单智能体的属性和规则，明确智能体的状态空间和动作空间,构建或调用单智能体运动游戏环境；然后，构建通信信道架构和单个智能体的框架，通信信道用于接收聚合不同智能体所发送的信息，并向智能体发送要通信的信息；单智能体的框架包括三部分，一个策略网络、一个内在的值网络和一个门控机制，策略网络用于接收局部观察和外部信息，并产生要向外发送的信息以及下一步策略，内在值网络用于根据局部观察计算当前局部观察的重要性，门控机制用于负责修剪无用消息；最后，并行训练多个智能体，并最大化团队收益，产生下一步团队策略。本发明可以根据实际需求构建合理的运动环境，来更好地指导智能体进行决策，达到智能策略优化的目的，对我国机器人以及无人系统的发展具有积极作用。

下面详细说明。

一种基于内在动机的多智能体通信协作方法，其特征在于，包括以下步骤：

步骤2：构建智能体通信信道，通信信道的输入为由各个智能体传来的信息

并运用Softmax和权重求和机制产生智能体之间传递的消息

其中

表示第i个智能体在时刻t的向通信信道发送的信息，

表示第i个智能体在时刻t从通信信息到收到的信息。

步骤3：构建单个智能体的结构，每个智能体架构包括一个策略网络、一个内在的值网络和一个门控机制，以局部观察

和通信信道的外部信息

为输入，输出智能体下一步动作

和要传递的消息

其中

表示第i个智能体在时刻t的局部观察，

第i个智能体在时刻t所作出的动作。

步骤4：并行训练n个智能体，并利用步骤2和步骤3的内容，对分散决策进行集中训练，以实现共同目标，也就是最大化团队奖励

其中γ表示折扣因子，r_t表示在时刻t环境所反馈的奖励。

所述步骤1的具体实现包括以下子步骤：

步骤1.1：根据调用或构建的具体运行环境明确智能体的动作空间，状态空间以及奖励机制。

所述步骤2的具体实现包括以下子步骤：

步骤2.1：智能体首先对观测信息进行编码得到局部观测

并从局部观测中获取要交流的信息

其中

步骤2.2：通信信道收到智能体所发出的消息

其中

的嵌入，

表示第i个智能体在时刻t智能体内部值网络的输出，表示消息的重要性。

当信息不确定和重要时，注意力的权重就会很高。

所述步骤3的具体实现包括以下子步骤：

作为输入，并负责编码输出局部观测历史

步骤3.2：将局部观测历史

和从通信信道中接收到的信息

和从通信信道中接收到的信息

输出智能体i在下一时刻所要采取的动作。

步骤3.3：动作生成器得到步骤3.2产生的数据之后，产生智能体的下一步动作策略。策略网络通过强化损失和外部奖励来进行训练：

使用贝尔曼方程计算最优值，其中

步骤3.4：内在值网络的参数会使用以下MSE进行更新：

步骤3.5：我们表示外部沟通重要性为

并直接和内部重要性直接组合：

其中β_e和β_i都是平衡内在值和外在值的超参数。

步骤3.6：通过步骤3.1和步骤3.5产生的

和

组合成为新的消息

即智能体在时刻t想要对外界通信的消息。

步骤3.7：门控机制需要根据当前的观察结果来决定是否进行通信。此处使用简单启发式算法，当内在重要性

大于阈值δ时，则向通信信道发送消息

所述步骤4的具体实现包括以下子步骤：

步骤4.1：在每个时间步长，每个智能体都要做出分散决策

收到通信信道中收到的外部信息

和策略网络参数θ_i的条件下，所得到的行为

步骤4.2：环境将根据联合行动

过渡到一个新的状态s_t+1，每个智能体收到一个新的局部观察结果

步骤4.3：并行训练的每一智能体会分别收到一个团队奖励

r表示在状态s_t下，智能体1,2,…,n在时刻t分别采取动作

也就是本通信协作方法的最终目标。

本发明未详细阐述部分属于本领域的公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可理解想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多智能体通信协作方法，其步骤包括：

1)构建智能体并设定智能体的属性和规则，调用或构建智能体的运动环境；其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制；

2)构建智能体通信信道，智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体；

3)对于任意一个智能体i，该智能体i以局部观察

和消息

为输入，输出智能体i的动作策略

和交流消息

其中，

表示智能体i在时刻t的局部观察，

为智能体i在时刻t所作出的动作，

表示智能体i在时刻t的向智能体通信信道发送的信息，

表示智能体i在时刻t从智能体通信信道收到的消息，

表示智能体i在时刻t发出的消息所包含的内容，

表示智能体i在时刻t智能体i的内在值网络的输出，表示消息的重要性；其中，智能体i利用观测编码器对局部观察

进行编码输出

然后将

和从智能体通信信道中接收到的信息

相结合，作为策略网络中动作生成器的输入，输出智能体i所要采取的动作

根据外部沟通重要性

和内部重要性

计算更新

然后将

和v^t组合生成消息

其中，β_e为平衡内在值的超参数，β_i为平衡外在值的超参数；然后智能体i中的门控机制根据观察结果来决定是否进行通信，即当内在重要性

大于阈值δ时，则向智能体通信信道发送消息

4)智能体的运动环境基于智能体决策和交流框架采样得到数据{τ₁,τ₂,......,τ_n}并行训练n个智能体，其中第i个数据τ_i＝(s₀,a₀,r₀,s₁,a₁,r₁,s₂,.......,s_T,a_T,r_T),i∈(1,n),s₀表示环境的初始状态、a₀表示智能体在时刻0生成的决策行为、r₀表示决策行为a₀的即时奖励，s_T表示终止时刻T时的环境状态、a_T表示智能体在终止时刻T生成的决策行为、r_T表示决策行为a_T的即时奖励；使用强化学习的损失函数