CN113902087A

CN113902087A - 一种多Agent深度强化学习算法

Info

Publication number: CN113902087A
Application number: CN202111240522.5A
Authority: CN
Inventors: 王旭; 张宇; 郭秀娟; 徐勇; 尤天舒; 富倩; 孙伟; 刘钢; 戴传祗; 吴程巍
Original assignee: Jilin Jianzhu University
Current assignee: Jilin Jianzhu University
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-07

Abstract

本发明公开了一种多Agent深度强化学习算法，包括：S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果；S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道；S3：leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。本发明通过在分布式执行之前加入集中式预判分配权重，增强了智能体群体之间的决策通信，提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。

Description

一种多Agent深度强化学习算法

技术领域

本发明涉及学习算法，具体涉及一种多Agent深度强化学习算法--Leader_MADDPG。

背景技术

多Agent深度强化学习是指在多个智能体环境中，使用深度强化学习的算法使得智能体之间可以像人一样进行协作交流，达到智能博弈的效果。与传统的强化学习的单个智能体在单个领域方面实施训练不同，多Agent强化学习可以实现大量自治或半自治的群体系统，并且可以拓展到多个领域的综合训练。

目前主流的MADDPG多Agent强化学习算法具有较强的收敛性、复杂环境适应性以及自我学习能力，虽然其在大部分多Agent环境中取得了预期的群体效果，但由于MADDPG在动作网络的输出动作过程中仅仅考虑到了自己所在的环境状态信息，并且只能通过全局评估网络的Q值更新才考虑到除自身以外其他智能体的部分反馈信息，这对于一个群体系统来说达到协作交流的效率就大打折扣了，并没有充分发挥群体博弈的最大优势，从而使得MADDPG在较为复杂的多Agent环境中收敛速度以及收敛的奖励幅度有着较大的提升空间。

发明内容

本发明的主要目的在于提供一种多Agent深度强化学习算法。

本发明采用的技术方案是：一种多Agent深度强化学习算法，包括：

S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果；

S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道；

S3：leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。

进一步地，多Agent深度强化学习算法，还包括：所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式（1）所示：

(1)

其中

是一个集中的动作值函数，它将所有智能体的动作

加上一些状态信息x作为输入，然后输出智能体i的Q值；智能体可以有任意的奖励方式，包括在竞争环境中相互冲突的奖励。

更进一步地，多Agent深度强化学习算法，还包括：多Agent集中式leader层的期望收益的梯度更新方式如式（2）所示：

(2)

其中

是leader网络的参数集合，

为所有智能体策略的集合。

更进一步地，多Agent深度强化学习算法，还包括：对于评估网络更新，经验回放缓冲区D包含元组

，记录了所有智能体的经验，集中的评估网络更新方式如式（3）所示：

(3)

其中

为具有延迟参数

的目标策略集合，

为具有延迟参数

的目标预判集合。

更进一步地，多Agent深度强化学习算法，还包括：策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数，以智能体i自身的本地信息作为输入，输出其对应的策略动作，与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘，作为最终的策略动作输出值。

更进一步地，多Agent深度强化学习算法，还包括：全局评估网络层采用Leaky_Relu作为层与层之间的激活函数，以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入，进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。

更进一步地，多Agent深度强化学习算法，还包括：所述多Agent深度强化学习算法在多Agent系统中，leader层以及评估网络的输入空间随着智能体个数n线性增长，所采取的解决方案是局部模块化以实现leader层及评估层功能，外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。

本发明的优点：本申请针对现有主流的MADDPG算法在多Agent群体环境下Q值收敛速度慢、训练时的奖励幅度波动过大的问题，随着多Agent之间的关系本质的变化，MADDPG在集体回报上所获得的收益并没有发挥到最大化，每个智能体在前期都是分布式执行的情况下并没有考虑到其他智能体的状态信息，使得所有智能体后期的训练过程中只能通过全局评估网络进行参数更新，并没有达到完全意义上的多智能体通信。

本申请的多Agent深度强化学习Leader_MADDPG神经网络中引入了leader层，解决上述MADDPG存在的部分问题，通过在分布式执行之前加入集中式预判分配权重，增强了智能体群体之间的决策通信，提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。

本申请的Leader_MADDPG对于OpenAI上的多个不同多Agent环境（simple_adversary，simple_push，simple_tag，simple_spread）进行数据实验分析对比，通过实验表明本发明在各种协作和竞争的多Agent环境中胜过传统的MADDPG算法，并证明其在不同的环境关系中的适用性，并可以将其迁移至生活中的多Agent实际环境之中进行运用。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的Leader_MADDPG神经网络模型的总体框架图；

图2为本发明实施例的leader层神经网络模型示意图；

图3为本发明实施例的实验模型环境simple_adversary示意图；

图4为本发明实施例的实验模型环境simple_push示意图；

图5为本发明实施例的实验模型环境simple_tag示意图；

图6为本发明实施例的实验模型环境simple_spread示意图；

图7为本发明实施例的simple_adversary的平均奖励对比图；

图8为本发明实施例的simple_push的平均奖励对比图；

图9为本发明实施例的simple_tag的平均奖励对比图；

图10为本发明实施例的simple_spread的平均奖励对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1至图10，一种多Agent深度强化学习算法，包括：

多Agent深度强化学习算法，还包括：所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式（1）所示：

(1)

其中

是一个集中的动作值函数，它将所有智能体的动作

加上一些状态信息x作为输入，然后输出智能体i的Q值；由于每个

都是分开学习的，智能体可以有任意的奖励方式，包括在竞争环境中相互冲突的奖励。

多Agent深度强化学习算法，还包括：多Agent集中式leader层的期望收益的梯度更新方式如式（2）所示：

(2)

其中

是leader网络的参数集合，

为所有智能体策略的集合。

多Agent深度强化学习算法，还包括：对于评估网络更新，经验回放缓冲区D包含元组

(3)

其中

为具有延迟参数

的目标策略集合，

为具有延迟参数

的目标预判集合。

多Agent深度强化学习算法，还包括：策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数，以智能体i自身的本地信息作为输入，输出其对应的策略动作，与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘，作为最终的策略动作输出值。

多Agent深度强化学习算法，还包括：全局评估网络层采用Leaky_Relu作为层与层之间的激活函数，以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入，进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。

多Agent深度强化学习算法，还包括：所述多Agent深度强化学习算法在多Agent系统中，leader层以及评估网络的输入空间随着智能体个数n线性增长，所采取的解决方案是局部模块化以实现leader层及评估层功能，外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。

多Agent深度强化学习算法还包括：所述多Agent深度强化学习算法产生一个通用的多Agent强化学习算法，不仅可以应用于具有明确的通信渠道的合作博弈，还可以应用于涉及主体之间物理交互的竞争博弈。

本发明采用分散式执行、集中式预判、集中式训练的框架，使得策略网络能使用额外的信息来缓解训练压力，与此同时还保证了每个智能体之间保持着独立性，每个智能体只能观测到自己的状态信息，仅根据自己本地的状态信息完成策略动作的输出，这样可以保证算法适用于合作与竞争的环境中。由于集中式leader预判完成了智能体训练之前的权重分配，这样加快了整个智能体的训练速度以及训练质量。其中，leader层网络的结构如图2所示。由于集中的评估网络增加了其他智能体的策略动作信息，算法还做到了在线学习其他代理人的近似模型并有效地用到智能体之间的策略学习过程中去。

为了简述整个神经网络模型的架构，所采取的多Agent环境都为经典的多智能环境。为了说明算法可以应用于每一种经典模型，对于模型变化后，Leader_MADDPG神经网络模型的架构依旧保持不变，具体的Leader_MADDPG神经网络模型参数详情如表1所示。

表1 Leader_MADDPG神经网络模型参数

在Leader_MADDPG神经网络模型搭建完毕后，接下来是对不同功能的神经网络的反向传播的更新方式作出简明的叙述，所述的Leader_MADDPG算法中智能体i的期望收益的梯度如公式（1）所示：

(1)

其中

是一个集中的动作值函数，它将所有智能体的动作

加上一些状态信息x作为输入，然后输出智能体i的Q值。由于每个

都是分开学习的，智能体可以有任意的奖励方式，包括在竞争环境中相互冲突的奖励。策略梯度是各种强化学习任务的另一个选择，其主要思想是直接调整策略中的参数

以便于通过沿着

的方向进行前进来最大化目标

[R]。上述公式扩展到确定性策略，考虑到n个策略

，参数为

，那么梯度就可以表示为式（2）：

(2)

更进一步地，所述的多Agent强化学习Leader_MADDPG，其特征在于，多Agent集中式leader层的期望收益的梯度更新方式如式（3）所示：

(3)

其中

为leader网络的参数集合，

为所有智能体策略的集合。

经过策略网络层以及预判网络层后，所述的多Agent强化学习Leader_MADDPG，对于评估网络更新，经验回放缓冲区D包含元组

，记录了所有智能体的经验，集中的评估网络更新方式如式（4）所示：

(4)

其中

为具有延迟参数

的目标策略集合，

为具有延迟参数

的目标预判集合。

对于推理其他智能体策略方面，每个智能体可以额外的保有一个与智能体真实策略

有关的近似值

，这个近似策略通过最大化智能体j动作的对数概率加上一个熵的正则化项来进行学习，如式（5）所示：

(5)

其中H为策略分布的熵，从重放缓冲区取出每个智能体j的最新的样本，执行一个梯度步骤来更新

。

策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数，以智能体i自身的本地信息作为输入，输出其对应的策略动作，与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘，作为最终的策略动作输出值。

全局评估网络层采用Leaky_Relu作为层与层之间的激活函数，以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入，进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。

所述的Leader_MADDPG算法在更复杂的、更庞大的多Agent系统中，leader层以及评估网络的输入空间随着智能体个数n线性增长，所采取的解决方案是局部模块化以实现leader层及评估层功能，外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新，以实现复杂环境下的高效率通信行为。

在模型训练过程中，本申请一共在OpenAI的四个经典（simple_adversary，simple_push，simple_tag，simple_spread）多Agent环境模型中，将Leader_MADDPG算法与现存的DDPG算法、MADDPG算法进行了重复多次实验性的对比分析。四个经典多Agent环境如图3、4、5、6所示。其中，simple_adversary模型中，一共有三个智能体。一个智能体作为红色方，另外两个智能体作为绿色方。绿色方以及红色方都知道自己要到达红色目的地，而红色方不知道两个目标地点中哪一个是真正的红色目标，所以绿色方要引导红色方到达假的目的地以达到欺骗红色方，保卫绿色目的地的效果。这属于合作与代理人模型；simple_push模型中，绿色方需要做到距离目标地点越近并且将红色方推离目标地点。这属于竞争模型；simple_tag模型中，一共有四个智能体，其中三个绿色作为捕食者智能体，另外一个作为红色猎物智能体。猎物的速度要快于捕食者的速度，障碍物用于格挡所有的智能体。这属于合作于竞争模型；simple_spread模型中，三个绿色智能体要求实现到达三个目标地点，并且在去往目标地点的过程中所有的智能体互相之间都不能发生碰撞。这属于合作模型。

Leader_MADDPG神经网络模型的运行环境如表2所示，

表2 模型运行环境

在Leader_MADDPG模型训练过程中，主要的超参数的设置如表3所示。

表3 主要超参数设置

本申请在OpenAI上的四个经典多Agent环境模型（simple_adversary模型、simple_push模型、simple_tag模型、simple_spread模型、）设置多个Agent进行协同对抗，对MADDPG算法和Leader_MADDPG算法进行了重复多次实验性的对比分析，所获得的平均奖励值如表4所示。

表4 多个智能体平均奖励值断点平均值对比

训练完成后，本申请使用Visdom可视化工具来查看训练结果，三种算法（DDPG、MADDPG、Leader_MADDPG）的对比分析如图7、8、9、10所示，图中的实线均为Leader_MADDPG算法模型训练时记录的真实数据，由于训练过程中模型不会完美地一直变好，它的损失会有偶尔的增大情况，损失曲线上会有大大小小的起伏，为了更好地查看分析模型损失结果，本申请在数据描绘的过程中分段式采样描点，这样的操作使得三种算法的奖励值的走势在图像分析上更加清晰明了，同时更加直观的展现出Leader_MADDPG算法的优越性。

多Agent深度强化学习Leader_MADDPG算法，所述的算法包括：actor策略网络层仅使用本地状态信息作为策略动作输出的依据；leader预判网络仅分配actor神经网络输出策略动作的权重，与actor层网络无参数梯度更新关系；critic评估网络作为最终的集中式训练网络，既对actor策略网络进行反向传播梯度下降并更新actor网络的参数，也对leader预判网络进行参数更新，与此同时，通过马尔可夫决策博弈和最小化损失来学习到最优的动作值函数

；Leader_MADDPG算法的所有网络更新都采用了动作对数概率加上一个熵的正则化项来进行学习；Leader_MADDPG算法的所有网络更新都采用延迟更新，即都有目标网络作为所有神经网络的延迟软更新。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多Agent深度强化学习算法，其特征在于，包括：

2.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式（1）所示：

(1)

其中

是一个集中的动作值函数，它将所有智能体的动作

3.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：多Agent集中式leader层的期望收益的梯度更新方式如式（2）所示：

(2)

其中

是leader网络的参数集合，

为所有智能体策略的集合。

4.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：对于评估网络更新，经验回放缓冲区D包含元组

(3)

其中

为具有延迟参数

的目标策略集合，

为具有延迟参数

的目标预判集合。

5.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数，以智能体i自身的本地信息作为输入，输出其对应的策略动作，与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘，作为最终的策略动作输出值。

6.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：全局评估网络层采用Leaky_Relu作为层与层之间的激活函数，以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入，进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。

7.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：所述多Agent深度强化学习算法在多Agent系统中，leader层以及评估网络的输入空间随着智能体个数n线性增长，所采取的解决方案是局部模块化以实现leader层及评估层功能，外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。