CN113592101A

CN113592101A - 一种基于深度强化学习的多智能体协作模型

Info

Publication number: CN113592101A
Application number: CN202110930777.8A
Authority: CN
Inventors: 邹启杰; 蒋亚军; 高兵; 秦静; 李丹; 李文雪
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-02
Anticipated expiration: 2041-08-13
Also published as: CN113592101B

Abstract

本发明公开了一种基于深度强化学习的多智能体协作模型，包括集中式的Critic网络、分散式的多个Actor网络、Q值分解网络，每个所述Actor网络与环境交互产生状态‑动作信息存入经验缓冲区中，Critic网络从所述经验缓冲区中采样，将所有状态‑动作信息作为输入，以协作多智能体系统的任务为目标设计全局奖励R，采用TD误差的方式学习得到一个全局动作价值Q_tot；Q值分解网络将所述全局动作价值Q_tot分解为基于单个智能体的动作价值Q_i，每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Q_i。本发明保证了全局最优动作与局部最优动作的一致性，从而提高多智能体在连续动作空间的探索效率。

Description

一种基于深度强化学习的多智能体协作模型

技术领域

本发明涉及多智能体强化学习技术领域，具体涉及一种基于深度强化学习的多智能体协作模型。

背景技术

MAS是由多个智能体与环境交互组成的分布式决策系统。上世纪70年代以来，MAS展开了众多的研究，其目的就在于建立一个拥有特定的自主等级和自主学习能力的群体智能系统。MAS信息共享、分布式计算和协同执行的特点在现实生活中有着十分广泛的应用需求，尤其军事、工业、交通运输等众多领域。在决策优化问题中，强化学习展现出巨大的在线学习优势，并且更加契合生物群体的学习机制。伴随AlphaGo引领的强化学习热潮，MARL成为广大多智能体系统MAS研究者重点关注的领域，极大推动MARL模型各个层面的不断进步。

目前主流的MARL模型研究中，主要的工作分为两大类：价值分解和Actor-Critic的方法。在已有的两类MARL方法中，尽管价值分解的方法在性能上略优于Actor-Critic方法，但在对抗环境非平稳问题上缺乏优势。采用集中式的Critic网络可以将全局的动作和状态信息作为输入，很好的处理环境非平稳。然而，在已有Actor-Critic结构的MARL方法中，由于集中式的Critic结构和Agent数量增加带来的信度分配等问题，使得全局Q值对于分散的Agent策略梯度指导效率低下，Agent在团队中的贡献无法得到表达，因而收敛效率变得缓慢。另外，协作多Agent中全局最优动作组合与Agent最优动作的一致性无法保证，全局贪婪动作的选择无法与局部最优动作相匹配。这些问题使得MARL方法收敛效率和稳定性无法提升。因此，协作多Agent系统中采用集中式的Critic网络在信度分配问题和动作选择一致性问题上缺乏较优的解决方案。

现有技术中公开号为CN112364984A，名称为一种协作多智能体强化学习方法的专利申请，需要全局动作状态信息输入到奖励高速路网络，然而在动态变化的现实环境中，智能体无法得到足够多的、有效的奖励，即智能体得到的是稀疏奖励，进而导致智能体学习缓慢甚至无法进行有效学习。公开号为CN112232478A，名称为一种基于分层注意力机制的多智能体强化学习方法及系统的专利申请，尽管引入分层注意力机制降低了维度空间，然而在其他智能体状态-动作空间信息输入的处理过程中，无法准确求解其他智能体对智能体团队的影响。OpenAI在文献《Multi-agent actor-critic for mixed cooperative-competitive environments》中提出MADDPG算法，为每个智能体学习一个独立的Critic网络，尽管可以适应协作、竞争和混合环境，然而对于任务的奖励机制需要单独设计；另外，尽管MADDPG实现了连续动作空间中高效的off-policy学习，却没能解决完全合作的环境中信用分配问题。牛津大学在文献《Counterfactual Multi-Agent policy gradients》中提出COMA方法，如图1所示，设计反事实Baseline，来评估智能体在团队联合动作中的贡献问题，然而，默认动作的计算需要消耗大量的计算资源，因此在实际效果上并不理想。

发明内容

针对现有多智能体强化学习方法效率低、收敛速度慢和稳定性差等问题，本申请提供一种基于深度强化学习的多智能体协作模型，其保证了全局最优动作与局部最优动作的一致性，从而提高多智能体在连续动作空间的探索效率。

为实现上述目的，本申请的技术方案为：一种基于深度强化学习的多智能体协作模型，包括集中式的Critic网络、分散式的多个Actor网络、Q值分解网络，每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中，Critic网络从所述经验缓冲区中采样，将所有状态-动作信息作为输入，以协作多智能体系统的任务为目标设计全局奖励R，采用TD误差的方式学习得到一个全局动作价值Q_tot；Q值分解网络将所述全局动作价值Q_tot分解为基于单个智能体的动作价值Q_i，每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Q_i。

进一步的，所述Actor网络的梯度更新方式为：

其中，E为期望值，τ表示观测历史，a表示动作历史，D表示经验缓冲区，θ_i表示智能体i的策略，o_i表示智能体i的局部观测，a_i表示智能体i的动作；π_i(a_i|o_i)表示当前观测状态下的动作。

进一步的，为得到全局动作价值Q_tot，将初始单个智能体的动作价值Q_i'进行累加，得到一个累加和，由于该累加和并非真实的Q_tot，因此引入一个差值b(s)来弥补累加和与真实全局动作价值Q_tot之间的差距，从而得到近似的全局动作价Q'_tot；即当协作多智能体系统处于状态s时，令：

其中：

b(s)是当前最优联合动作的全局动作价值Q_tot与累加和的差值，

和

分别为全局和局部最优动作；通过此方式，近似得到了在当前最优联合动作序列下单个智能体的动作价值Q_i与近似的全局动作价值Q'_tot的关系。

进一步的，为使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合，需要满足IGM原则，因此优化目标是使得：

成立，即保证最优联合动作序列的选择与局部最优动作集合中元素一致；也就是说，在当前状态s下学到的全局动作价值Q_tot最大时的动作序列和单个智能体的动作价值Q_i下的动作集合组成保持一致，即：

如果满足上式，要建立全局动作价值Q_tot和单个智能体的动作价值Q_i的关系；因此，需使近似得到的Q'_tot和Critic网络学到的真实Q_tot相等，即：

Q'_tot(o,a)＝Q_tot(o,a)

由于近似的全局动作价值Q'_tot为通过单个智能体的动作价值Q_i近似得到的，通过公式

建立的约束关系，等价于真实全局动作价值Q_tot和单个智能体的动作价值Q_i的关系，即：

将全局动作价值Q_tot分解为单个智能体的动作价值Q_i，保证了最优联合动作与局部最优动作集合的一致性，使得MARL在高维度空间下的收敛效率缓慢问题得到解决。

进一步的，通过损失函数训练所述Critic网络与Q值分解网络，所述损失函数为：

L(τ,a,r,τ',θ)＝L_c+λ_qL_q

其中，τ表示观测历史；λ_q表示损失函数的权重常量；L_c表示Critic网络通过TD方式学习全局动作价值Q_tot的损失函数；L_q表示约束关系成立时的损失函数，即当前最优动作的集合和全局动作价值Q_tot相等，通过损失最小化，调整单个智能体的动作价值Q_i的大小。

更进一步的，所述Critic网络的损失函数L_c的具体表现形式为：

其中：

在损失函数L_c中，当前状态s下联合动作与环境进行交互，获得环境的反馈信号，通过最小化损失来更新当前全局动作价值Q_tot，具体来讲，若当前联合动作与环境交互产生的联合奖励大于最优联合的奖励时，则认定当前联合动作替代原最优联合动作，成为新的最优联合动作，同时更新全局动作价值Q_tot。

更进一步的，所述Q值分解网络的损失函数L_q为：

通过最小化近似的全局动作价值Q_tot'与最优动作的全局动作价值Q_tot的损失，来指导单个智能体的动作价值Q_i，进而指导该智能体的Actor网络梯度更新。

本发明由于采用以上技术方案，能够取得如下的技术效果：本发明在集中式的Critic网络和分散式的Actor网络之间加入Q值分解网络，将Critic网络学习到的联合Q值，进一步分解成为针对单个智能体(Actor)的局部Q值。这种方式不仅保证了全局最优动作序列与局部最优动作集合的一致性，并且局部Q值对于Actor网络梯度更新的指导更加明确，使得Actor网络的更新规则更简单，从而使得多智能体的学习效率和对未知环境的适应能力得到提高。

附图说明

图1为现有技术中CCDA结构组成图；

图2为多智能体协作模型组成图；

图3为多智能体协作模型工作流程图；

图4为Q值分解网络结构图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

实施例1

本实施例采用CCDA的基本结构，分散式的Actor网络有利于智能体分布式的执行，其与环境交互产生状态-动作信息存入经验缓冲区中，为了对抗环境非平稳性，集中式的Critic网络将全局状态-动作信息作为输入，以协作多智能体系统的任务为目标设计全局奖励R，采用TD误差的方式学习得到一个全局动作价值Q_tot。为了保证单个智能体与全局最优动作的一致性，本发明引入价值分解的思想，加入Q值分解网络—QDN，将全局动作价值Q_tot分解为基于单个智能体的动作价值Q_i，这样实现了隐式的信用分配，使单个体智能体在团队中的贡献有所表达；另外，Actor网络的梯度更新无需基于Critic网络输出的Q_tot，只需依赖分解后的Q_i。这种方式降低了多智能体系统随着智能体个数呈指数级增长的动作-状态空间复杂度，使得协作多智能体系统中Actor网络更新规则更加简单，从而提高了收敛效率。Actor网络策略梯度如下式。

其中，τ表示观测历史，a表示动作历史，D表示缓冲区，θ_i表示智能体i的策略，o_i表示智能体i的局部观测，a_i表示智能体i的动作。Q值分解网络通过近似累加的方式和全局动作价值Q_tot建立联系，然后反向传播，来更新当前Q_i的值。为建立联系，将初始单个智能体的动作价值Q_i'进行累加，得到一个累加和，由于该累加和并非真实的Q_tot，因此引入一个差值b(s)来弥补累加和与真实全局动作价值Q_tot之间的差距，从而得到近似的全局动作价Q'_tot；即当协作多智能体系统处于状态s时，令：

其中：

和

为了细化Q值对单个智能体的Actor网络策略梯度更新的指导作用，使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合，需要满足IGM原则，因此优化目标是使得：

Q'_tot(o,a)＝Q_tot(o,a)

因此，当上式成立时，则建立了全局Q_tot与局部Q_i的关系，利用从全局奖励中学习到的Q_tot，通过该约束关系可以将学到的全局最优动作与局部智能体动作等价，进一步分解为针对单个智能体的局部Q_i，进而细化对Actor网络策略梯度更新的评价，简化Actor网络的更新规则，使其不再基于全局Q_tot，可以解决多智能体在Actor-Critic框架下面临的信度分配问题。同时，将全局Q_tot分解为单个智能体的局部Q_i，保证了联合最优动作与局部最优动作集合的一致性，使得多智能体强化学习MARL在高维度空间下的收敛效率缓慢问题得到解决。

通过损失函数训练所述Critic网络与Q值分解网络，训练过程有两个主要目标：一是训练Critic网络输出全局动作价值Q_tot，学习最优动作序列的集合；二是Q_tot分解后的局部动作值Q_i的集合应等价于全局动作价值Q_tot，即两者的最优动作相等。因此，设计如下式的损失函数，由两个损失函数加权组合：

L(τ,a,r,τ',θ)＝L_c+λ_qL_q

其中，τ表示观测历史；λ_q表示损失函数的权重常量；L_c表示Critic网络通过TD方式的学习联合Q_tot的损失函数；L_q表示约束关系成立时的损失函数，即当前最优动作的集合和最大化Q_tot相等，通过损失最小化，调整局部Q_i的大小。Critic网络损失函数L_c的具体表现形式为：

其中：

在损失函数L_c中，当前状态s下联合动作与环境进行交互，获得环境的反馈信号，通过最小化损失来更新当前全局动作价值Q_tot，具体来讲，若当前联合动作与环境交互产生的联合奖励大于最优联合的奖励时，则认定当前联合动作替代原最优联合动作，成为新的最优联合动作，同时更新全局动作价值Q_tot。另外，为了实现第二个目标，即将Q值分解网络建立的约束关系有效实现，定义损失函数L_q为：

在最优联合动作已知的前提下，上式将Q值分解网络建立的约束条件进行有效的实现，通过最小化近似出的Q_tot'与最优动作的Q_tot的损失，来指导单个智能体的Q_i，进而指导该智能体的Actor网络的梯度更新。

为了解决信度分配所引起的收敛性差问题，引入Q值分解网络，将集中式的Critic网络输出的Q_tot转化为针对单个智能体的局部Q_i。这种方式不仅使得局部Actor网络的梯度更新规则更加简化，同时多智能体系统MAS全局最优动作与局部最优动作的一致性得到了保证，从而提高MAS在连续动作空间的稳定性与探索效率。这种方式有三个优势：

a.通过分解联合保证MAS全局最优动作和局部最优动作的一致性；

b.局部actor网络的梯度更新规则更加简化，智能体的维数困境减少；

c.通过分解后的Q值对代理进行评价，达到一定程度的信度分配，从而可以使得团队中个体代理的贡献得到表达。

最后，本发明可以有效的解决价值分解方法在连续动作空间中的稳定性差和收敛效率低的问题。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于深度强化学习的多智能体协作模型，包括集中式的Critic网络、分散式的多个Actor网络、其特征在于，还包括Q值分解网络，每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中，Critic网络从所述经验缓冲区中采样，将所有状态-动作信息作为输入，以协作多智能体系统的任务为目标设计全局奖励R，采用TD误差的方式学习得到一个全局动作价值Q_tot；Q值分解网络将所述全局动作价值Q_tot分解为基于单个智能体的动作价值Q_i，每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Q_i。

2.根据权利要求1所述一种基于深度强化学习的多智能体协作模型，其特征在于，所述Actor网络的梯度更新方式为：

3.根据权利要求1所述一种基于深度强化学习的多智能体协作模型，其特征在于，为得到全局动作价值Q_tot，将初始单个智能体的动作价值Q_i'进行累加，得到一个累加和，由于该累加和并非真实的Q_tot，因此引入一个差值b(s)来弥补累加和与真实全局动作价值Q_tot之间的差距，从而得到近似的全局动作价Q′_tot；即当协作多智能体系统处于状态s时，令：