CN113313209A

CN113313209A - 一种高样本效率的多智能体强化学习训练方法

Info

Publication number: CN113313209A
Application number: CN202110718305.6A
Authority: CN
Inventors: 吴健; 宋广华; 姜晓红; 叶振辉; 陈弈宁; 王珂; 应豪超
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-08-27

Abstract

本发明公开了一种高样本效率的多智能体强化学习训练方法，包括以下步骤：(1)构建多智能体系统，多智能体系统由多智能体强化学习模型控制；(2)收集多个训练样本并存储到容器中；(3)抽取训练样本，对抽取的训练样本进行数据预处理；(4)采用策略延迟更新的方式训练模型，在更新模型的执行者网络、评价者网络和目标网络时，先更新评价者网络n×d次，再更新执行者网络n次，最后更新目标网络n次；(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数；(6)训练完毕后，使用多智能体系统进行应用。利用本发明，可以解决现有多智能体强化学习算法在现实任务中面临的低样本效率、高训练成本的问题。

Description

一种高样本效率的多智能体强化学习训练方法

技术领域

本发明属于多智能体强化学习技术领域，尤其是涉及一种高样本效率的多智能体强化学习训练方法。

背景技术

面对现实世界中日益复杂、规模庞大的群体控制任务，集成的单智能体解决方案越来越面临着资源和条件的限制。多智能体系统是在同一个环境中由多个较为简单的交互智能体组成的系统，该系统常用于解决独立智能体以及单层系统难以解决的复杂问题，相比独立智能体或单层系统，多智能体系统有效地提高了整个系统的鲁棒性、可靠性和可扩展性。随着互联网、智能设备等新兴技术的发展，越来越多新的任务场景可以被建模成多智能体系统，如城市交通调度、分布式传感网络、无人机集群协同、通信路由等。然而，这些场景多存在智能体规模大、数据类型复杂、环境部分可观测等困难，对传统多智能体系统算法提出了巨大挑战。设计满足上述要求的高效多智能体算法，训练具有群体智能的多智能体系统，是解决此类问题的关键所在。

深度强化学习是将强化学习和深度学习理论应用于智能体决策问题的技术，强化学习使得智能体可以从与环境的交互中学习到有效的策略，深度学习技术的引入则使智能体能够处理更加动态、更加高维的数据，从而可以应用在更复杂的现实场景中。然而，目前较少有多智能体强化学习算法在现实场景中的应用，这很大部分是因为目前多智能体强化学习算法的样本效率较低，算法收敛所需要的数据量很高，在现实场景中收集这些数据的经济成本和时间成本十分高昂。因此，目前学界广泛作为基准的DIAL、MADDPG、QMIX、MAAC等多智能体强化学习算法无法很好地应对现实任务中的这些难点。为此，已有很多专家和学者立足于“在实际场景中应用强化学习”这一目标展开了研究。还有的致力于提升强化学习算法的样本效率，分别侧重于考虑改进采样方式(如优先级经验回放)、并行化收集样本(异步环境)、利用数据增强产生额外数据等。下面我们对学界中提升训练效率和样本效率的研究进行总结。

提升算法的训练效率是一个很宽泛的概念，但却是强化学习领域一个长久的研究热点。与监督学习有一个明确的训练目标不同，由于强化学习需要从试错中学习，低样本效率导致的高经济成本和低训练速度导致的高时间成本一直是限制其在复杂现实任务中得到应用的最大制约因素。最早的提升强化学习算法的训练效率的尝试应该是DQN引入的经验回放(experience replay)机制，该机制将当前策略在过去与环境交互获得的训练样本储存起来进行多次使用，大大提升了强化学习算法的样本效率，并在此后的大部分强化学习算法中得到沿用。此后有大量工作通过改善选取训练样本的策略达到了提升算法训练效率的效果。Prioritized Experience Replay提出优先级经验回放，根据各训练样本的训练价值(时序差分误差大小)进行优先级采样，提升了算法的训练速度。Combined ExperienceReplay提出在进行经验回放的同时将智能体当前采集的样本结合一起用来训练，在部分场景中实现了更快的训练速度。<Reinforcement Learning with Augmented Data>将在计算机视觉中常用的数据增强方法应用在强化学习中，提升了算法的收敛性能和鲁棒性。Message-Dropout通过将dropout机制迁移到智能体间通信流程中，实现了更快的训练速度和更优的性能。此外还有很多工作从分布式训练的角度对算法的训练策略进行了优化，如A3C算法首次提出同时执行多个平行仿真环境来提高样本的收集速度，起到了加速探索、提升样本效率的效果；Distributed Prioritized Experience Replay在执行平行环境的基础上引入了优先级经验回放，进一步提升了算法的训练效率。

最后，由于强化学习模型需要从探索试错中学习，当模型对环境的探索不足时会导致模型的泛化能力差、鲁棒性差的问题。为解决此，学界开创了Soft learning的研究领域。提出了Soft Q-learning、Soft-Actor-Critic、TD3等一系列高泛化能力的强化学习算法。

综上所述，虽然目前针对提升强化学习算法的训练效率的研究已经进行得十分彻底，但其彼此之间的联系尚不清楚，同时针对多智能体任务的技巧研究还十分稀缺。

发明内容

本发明提供了一种高样本效率的多智能体强化学习训练方法，可以解决现有多智能体强化学习算法在现实任务中面临的低样本效率、高训练成本的问题。

一种高样本效率的多智能体强化学习训练方法，包括以下步骤：

(1)构建多智能体系统，所述的多智能体系统由多智能体强化学习模型控制，多智能体系统包括多个同构智能体；

(2)收集多个训练样本并存储到容器中；所述的训练样本为多智能体系统与环境进行一次互动产生的四元组e＝(s,a.r,s′)，其中s表示所有智能体当前时刻的状态，a表示所有智能体的动作，r表示所有智能体做出上述动作后从环境得到的回报值，s′表示所有智能体下一时刻的状态。

上述状态、动作、回报值由实际训练的任务所具体定义。例如，如图2所示的简单任务中，多智能体系统(本实例中是两个智能体)的任务是尽可能多地占领灰色的目标点，因此每个智能体的回报值被设计为该智能体做出动作后占领的目标点数量；智能体的状态被设计为一个包含了自身位置、自身速度、其他智能体位置、其他智能体速度，以及所有目标点位置的向量；智能体的动作被设计为一个二维向量，该向量用于控制智能体的纵向和横向的加速度，进而控制智能体的运动状态。

(3)在训练模型时，从存储的容器中抽取训练样本，使用经验增强方法对抽取的训练样本进行数据预处理，得到扩增数据；

(4)采用策略延迟更新的方式训练模型，在更新模型的执行者网络、评价者网络和目标网络时，先更新评价者网络n×d次，再更新执行者网络n次，最后更新目标网络n次；

(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数；

(6)训练完毕后，可以将训练得到的执行者网络作为策略模型，该策略模型可以根据智能体当前状态s进行动作a的决策。将其部署到多智能体系统当中，由策略模型来自主控制多智能体系统中每个智能体完成策略模型训练场景中定义的任务。

步骤(2)中，通过平行执行多个环境来加速数据搜集；每个平行环境中包含一个由相同多智能体强化学习模型控制的多智能体系统，在每一时刻，每个平行环境中该多智能体系统通过与环境的交互产生一个训练数据

平行执行多个环境的手段包括但不限于多线程、多进程和多计算机异步执行方式。

步骤(3)中，进行数据预处理的具体过程为：

(3-1)获取需要训练的智能体的序号i和一个小批量的训练数据

(3-2)根据对多智能体系统的先验知识，找到可置换的智能体；

(3-3)根据步骤(2-2)找到的所有可置换智能体，建立置换矩阵集P；

(3-4)从置换矩阵集P中任意选取一个置换矩阵P_k，左乘训练数据

得到新的训练数据

(3-5)返回训练i号智能体所需的数据，即

步骤(3-2)中，可置换的智能体之间需要满足以下条件：

可置换的智能体之间需要同构，具有相同的物理属性、奖励函数、状态空间s和动作空间a；可置换智能体的状态空间s不能包含智能体的特定序号。

步骤(4)中，更新评价者网络和执行者网络采用梯度下降法更新；目标网络更新时可以采用硬更新(直接复制前两种网络参数)的方式，或者采用软更新(移动平均逼近前两种网络参数)的方式。

步骤(5)中，训练策略函数时，原始策略函数的目标函数为J(x)，在该目标的基础上添加了最大化动作熵的目标项；将目标函数变为J’(x)＝J(x)+a*H(p)，其中，a是一个预设的温度系数，p是策略函数输出的动作的概率分布，H(p)是由该概率分布计算得到的信息熵。

训练评价函数时，原始评价函数的损失函数为g(x)，在该目标的基础上添加了包括Lp正则化、目标平滑的目标项；具体的，对于Lp正则化，损失函数变为g’(x)＝g(x)+||W||p，其中||W||p为模型参数的p阶范数；对于目标平滑，损失函数变为g’(x)＝g(x+N)，其中N为一个细小的随机噪声。

与现有技术相比，本发明具有以下有益效果：

1、本发明在数据采集、数据预处理、数据利用等阶段分别使用平行环境、经验增强、策略延迟更新等技巧，实现了降低时间成本和经济成本、提升模型性能等效果。

附图说明

图1为本发明实施例的流程框图；

图2为本发明实施例中数据预处理得到扩增数据的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明方法针对现有多智能体强化学习模型样本效率低、训练成本高昂的问题，通过改良经验回放方法，具体地，本发明在经验回放方法的数据采集、数据预处理、数据利用等阶段分别使用平行环境、经验增强、策略延迟更新技巧，实现了降低时间成本和经济成本、提升模型性能等效果。如图1所示，为本发明一种高样本效率的多智能体强化学习训练方法的整体流程图。

下面以一个简单的多智能体任务作为示例，对本发明的具体实施方式进行介绍。为方便起见，采用目前广泛采用的“集中训练-分布执行”的多智能体强化学习算法，考虑一个由两个同构智能体组成的多智能体系统，每个智能体i由一个单独的执行者网络π_i(s_i)控制，该执行者网络由一个配套的评价者网络

提供训练目标。在该环境中存在若干可以被观测到的目标点，每个智能体i的奖励由覆盖的目标点的数量得到，如图2中左图所示，智能体1覆盖了4个目标点，其获得奖励值为4；智能体2覆盖了3个目标点，其获得奖励值为3。

步骤1.数据获取：在每一时间步，每个智能体i的执行者网络π_i(s_i)根据当前状态s_i，作出动作a_i，获得奖励r_i，并可以观测得到进行动作后的状态s′_i。对于整个多智能体系统，每与环境做一次交互可以得到一个

每个该元组是用于训练多智能体强化学习模型的最小数据单元，我们称之为一个训练样本。显然对于每个环境每一时刻只能产生一个训练样本。本发明通过平行环境技巧，即通过包括多线程、多进程、多计算机异步执行在内的手段，平行执行多个环境，从而数倍地加速了训练样本的获取。

步骤2.数据预处理：在完成了训练样本的获取、储存和采样后，传统多智能体强化学习方法不会对训练样本进行任何预处理。本发明使用包括首次提出的经验增强及其他添加噪声等常见数据增强方法在内的手段，对训练数据进行预处理。其中，在本实例中应用经验增强方法进行数据扩增的具体过程为：首先，考虑环境中的两个智能体，发现其同构且状态空间s无智能体序号信息，因此这两个智能体是可置换的；随后，根据可置换智能体建立置换矩阵集，在本场景中较为简单，只有两个置换矩阵：一个是交换智能体1和智能体2，还有一个是不进行交换，由于后者不对数据进行修改，所以我们选择前一个交换智能体1和智能体2的置换矩阵；接着，使用上一步选择的置换矩阵对初始数据

进行左乘，即交换元组中所有向量里智能体1和智能体2的位置，得到扩增数据

步骤3.数据利用阶段：在步骤2中，通过交换智能体1和智能体2的位置，对每一个训练数据都可以得到一个新的扩增数据。面对规模得到倍增的数据集，我们需要对原始训练策略进行改进，以充分利用这些扩增的训练样本。本发明设计的模型训练策略为：设定一个固定的训练间隔T＝100和训练次数n＝4，并额外设计一个参数d＝2。每间隔T个环境时间步，本发明方法会重复执行步骤1-2共n×d次，将得到的n×d个小批量训练样本

依次用于各个智能体的评价者网络

随后，本发明再从这些样本中随机抽取$n$个小批量的样本依次用于训练执行者网络π_i(s_i)。这一做法是因为我们考虑到现有数据量较大，可以提升模型的训练频率。由于提升执行者网络的训练频率可能导致策略过拟合，我们仅对评价者网络增加了训练频率，使其能够给执行者网络提供更加准确的训练目标。最后，我们使用软更新或硬更新对目标网络进行n次更新。

重复步骤1-3，本发明实现了更加高样本效率、高时间效率、低经济成本低方式训练多智能体强化学习模型。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种高样本效率的多智能体强化学习训练方法，其特征在于，包括以下步骤：

(2)收集多个训练样本并存储到容器中；所述的训练样本为多智能体系统与环境进行一次互动产生的四元组e＝(s,a.r,s′)，其中s表示所有智能体当前时刻的状态，a表示所有智能体的动作，r表示所有智能体做出上述动作后从环境得到的回报值，s′表示所有智能体下一时刻的状态；

(6)训练完毕后，将训练得到的执行者网络作为策略模型；将部署到多智能体系统当中，由策略模型来自主控制多智能体系统中每个智能体完成策略模型训练场景中定义的任务。

2.根据权利要求1所述的高样本效率的多智能体强化学习系统训练方法，其特征在于，步骤(2)中，通过平行执行多个环境来加速数据搜集；每个平行环境中包含一个由相同多智能体强化学习模型控制的多智能体系统，在每一时刻，每个平行环境中该多智能体系统通过与环境的交互产生一个训练数据

3.根据权利要求2所述的高样本效率的多智能体强化学习系统训练方法，其特征在于，平行执行多个环境的手段包括但不限于多线程、多进程和多计算机异步执行方式。

4.根据权利要求1所述的高样本效率的多智能体强化学习系统训练方法，其特征在于，步骤(3)中，进行数据预处理的具体过程为：

(3-1)获取需要训练的智能体的序号i和一个小批量的训练数据

得到新的训练数据

(3-5)返回训练i号智能体所需的数据，即

。

5.根据权利要求4所述的高样本效率的多智能体强化学习系统训练方法，其特征在于，步骤(3-2)中，可置换的智能体之间需要满足以下条件：

6.根据权利要求1所述的高样本效率的多智能体强化学习训练方法，其特征在于，步骤(4)中，更新评价者网络和执行者网络采用梯度下降法更新；目标网络更新时直接复制前两种网络参数的方式，或者采用移动平均逼近前两种网络参数的方式。

7.根据权利要求1所述的高样本效率的多智能体强化学习训练方法，其特征在于，步骤(5)中，训练策略函数时，原始策略函数的目标函数为J(x)，在该目标的基础上添加了最大化动作熵的目标项；将目标函数变为J’(x)＝J(x)+a*H(p)，其中，a是一个预设的温度系数，p是策略函数输出的动作的概率分布，H(p)是由该概率分布计算得到的信息熵。

8.根据权利要求1所述的高样本效率的多智能体强化学习训练方法，其特征在于，步骤(5)中，训练评价函数时，原始评价函数的损失函数为g(x)，在该目标的基础上添加了包括Lp正则化、目标平滑的目标项；具体的，对于Lp正则化，损失函数变为g’(x)＝g(x)+||W||p，其中||W||p为模型参数的p阶范数；对于目标平滑，损失函数变为g’(x)＝g(x+N)，其中N为一个细小的随机噪声。