CN111079305A

CN111079305A - 一种基于λ-回报的异策略多智能体强化学习协作方法

Info

Publication number: CN111079305A
Application number: CN201911373178.XA
Authority: CN
Inventors: 谭晓阳; 文超; 姚兴虎
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-28

Abstract

本发明公开了一种基于λ‑回报的异策略多智能体强化学习协作方法，使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设，通过使用λ‑回报来计算损失函数以平衡值函数估计的偏差和方差，并使用经验回放机制来降低算法的样本复杂度。本发明在非马尔可夫环境中较好的实现多个智能体的协作任务，为本领域的技术进步拓展了空间，实施效果好。

Description

一种基于λ-回报的异策略多智能体强化学习协作方法

技术领域

本发明属于自动控制领域，具体涉及一种基于λ-回报的异策略多智能体强化学习协作方法。

背景技术

近年来，强化学习从游戏领域到用于复杂的连续控制任务中都取得了巨大的成功。但是，许多现实世界中的问题本质上是存在多个智能体的，例如网络数据包路由，自动控制等，这些问题都带来了单智能体情形中从未遇到的巨大挑战。

特别地，在多智能体环境中的主要挑战包括联合动作空间的大小随智能体的数量成指数增长，由单个智能体的交互作用引起的不稳定环境，以及合作场景中的多智能体全局奖励分配问题。这些挑战使得将所有智能体视为单个元智能体的完全中心化方法，以及通过将其他智能体视为环境的一部分来分别训练每个智能体的完全分散式方法都变得非常困难。

最近，由于概念的简单性和实用性，中心化训练、分散执行(CentralizedTraining，Decentralized Execution，CTDE)的范式在多智能体强化学习中变得很流行。它的关键思想是在训练期间学习让所有智能体共享中心化价值函数(CVF)，而每个智能体在执行阶段均以分散的方式进行执行。通过将CVF充当每个智能体的环境，结合适当的奖励分配机制，每个智能体各自的值函数可以被很方便地学习。

不幸的是，CVF在CTDE方法中发挥的核心作用在当前领域中似乎并没有得到足够的重视。目前学术界通常用单智能体设定下的方式来学习CVF，这导致在多智能体环境中会引入估计误差。此外，为了减少将中心化价值函数分解为单个价值函数的难度，许多算法在训练过程中对CVF的假设空间施加了额外的结构假设。例如，VDN，QMIX和QTRAN假定最佳联合行动等于每个智能体的最佳行动的集合。

另一方面，由于以下原因，估计多智能体环境中的CVF本质上是困难的：1)联合行动空间的“维度诅咒”导致经验稀疏；2)非马尔可夫性质的挑战[16]和多智能体环境中的部分可观测性比在单智能体环境更为严峻；3)多智能体环境的复杂且难以建模，部分原因是智能体之间的交互复杂。实际上，这些因素通常会导致CVF不可靠且不稳定，且偏差和方差很高。

因此，我们提出了一个具有高采样效率，基于CTDE框架的多智能体强化学习方法，称为SMIX(λ)。SMIX(λ)通过基于异策略的CVF学习方法改进了中心化价值函数估计，该方法消除了在训练过程中显式依赖中心化贪婪行为假设的需要，并且引入λ-回报可以更好地平衡偏差和方差，并更好地适应环境的非马尔可夫性质。SMIX(λ)使用异策略学习机制是由重要性采样驱动的，但是通过经验回放来实现。通过结合这些要素，SMIX(λ)方法有效地提高了采样效率并稳定了训练过程。

发明内容

发明目的：本发明提供一种基于λ-回报的异策略多智能体强化学习协作方法，具有高采样效率并能较好平衡偏差与方差的多智能体强化学习协作方法。

技术方案：本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法，包括以下步骤：

(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设；

(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差；

(3)使用经验回放机制来降低算法的样本复杂度。

近一步地，步骤(1)所述的中心化贪心假设通过以下公式实现：

其中，τ是历史轨迹，a是所有智能体的联合动作，Q_tot(τ,a)为中心化的状态动作值函数，Qⁱ为第i个智能体的状态动作值函数。

进一步地，所述步骤(1)包括以下步骤：

(11)从时刻t＝0开始，获取所有智能体的局部观测值

以及全局状态s_t，根据智能体i的非中心化值函数Qⁱ，使用∈-greedy策略选择其动作

接着在环境中执行联合动作a_t＝{a¹,a²,…,a^N}，获得全局奖励r_t+1，智能体i的下一个观测值

以及下一个全局状态s_t+1；如此反复，直至轨迹结束，得到一条完整的采样轨迹{s₀,o₀,a₀,s₁,o₁,a₁,r₁,…,s_T,o_T,a_T,r_t}；

(12)重复步骤(11)多次，采样足够多的轨迹，并将轨迹存储在经验池D中，如果经验池已满，则用新的轨迹取代旧的轨迹；

(13)从经验池中采样一个大小为b的批轨迹；

(14)根据批轨迹，计算λ-回报目标

(15)通过反向传播最小化损失函数；

(16)每采样完成100条轨迹后，将当前网络的参数复制到目标网络中。

进一步地，所述步骤(14)包括以下步骤：

(141)计算从t时刻开始的n步回报：

其中，θ^-为目标网络的参数,γ为奖励值的折扣因子，τ为历史观测，a为联合动作，r_t为t时刻智能体得到的奖励值；

(143)根据n步回报，计算λ-回报

进一步地，步骤(15)所述的最小化损失函数为：

其中，

为策略π的中心化状态动作值函数，b为批轨迹的大小。

有益效果：与现有技术相比，本发明的有益效果：通过使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设，通过使用λ-回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度；该模型可在非马尔可夫环境中较好的实现多个智能体的协作任务，为本领域的技术进步拓展了空间，实施效果好。

附图说明

图1为本发明流程示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

如图1所示，本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法(SMIX(λ))，首先，使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的如下的中心化贪心假设：

这种方式使得值函数的学习更加灵活。然后，通过使用λ-回报来均衡值函数估计中存在的偏差和方差，通过调整λ值的大小，可以方便地偏差和方差中做取舍。最后，我们使用经验回放机制来实现异策略机制，这种方式有效地降低了算法的样本复杂度。尽管这种经验回放机制在已有的方法中经常被采用，但如何通过这种方式将Sarsa这种同策略算法改造成异策略算法尚未在已有的方法中出现过。具体包括以下步骤：

1、从时刻t＝0开始，获取所有智能体的局部观测值

以及下一个全局状态s_t+1；如此反复，直至轨迹结束，得到一条完整的采样轨迹{s₀,o₀,a₀,s₁,o₁,a₁,r₁,…,s_T,o_T,a_T,r_t}。

2、重复步骤1多次，采样足够多的轨迹，并将轨迹存储在经验池D中，如果经验池已满，则用新的轨迹取代旧的轨迹。

3、从经验池中采样一个大小为b的批轨迹。

4、根据该批轨迹，根据计算λ-回报目标

先计算从t时刻开始的n步回报，其计算方式为

其中，θ^-为目标网络的参数,γ为奖励值的折扣因子，τ为历史观测，a为联合动作，r_t为t时刻智能体得到的奖励值；再根据n步回报，计算λ-回报

5、通过反向传播最小化损失函数

其中，

为策略π的中心化状态动作值函数，b为批轨迹的大小。

6、每采样完成100条轨迹后将当前网络的参数复制到目标网络中。

因为多智能体强化学习算法的性能在模拟环境中进行评估，所以本算法在本领域内公认的星际争霸多智能体强化学习算法测试环境中进行了评估，并且选取了本领域内主流的多智能体强化学习算法进行比较(包含IQL，COMA，VDN，QMIX)，通过一系列实验得到各算法在该环境中不同地图上的性能情况如表1：

表1在星际争霸不同地图下SMIX(λ)算法与其他四个算法的性能对比

结合上述实验结果可以看出，本发明所设计的方法模型在综合性能上优于当前主流的多智能强化学习算法，在最终性能和样本复杂度上均具有较好的表现。采用本发明后，能够有效地在模拟环境中协调多个智能体的行为以达到特定目标，该算法模型亦可对许多现实问题进行建模，例如多无人机的协作，多机器人的协作等。由此可见，本发明具有实质性技术特点和显著的技术进步，其应用前景非常广阔。