CN116187466A

CN116187466A - 一种基于旋转对称性的多智能体强化学习训练方法

Info

Publication number: CN116187466A
Application number: CN202211571339.8A
Authority: CN
Inventors: 罗杰; 于鑫; 田雍恺
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-30

Abstract

本发明提供了一种基于旋转对称性的多智能体强化学习训练方法，属于多智能体强化学习技术领域。本发明方法利用多智能体系统的全局对称性，基于原始样本执行旋转变换获得增强样本，用于计算对称损失，改进多智能体强化学习的损失函数，在原始损失函数的基础上增加对称损失，为神经网络的训练提供额外信息；所获得增强样本可以加入经验缓存池，参与下一轮多智能体强化学习的训练。本发明提高了样本利用率，提高了多智能体强化学习模型的收敛速度和最终收敛效果，是一种即插即用的方法，可以嵌入到任何多智能体强化学习算法中，具有十分广泛的应用。

Description

一种基于旋转对称性的多智能体强化学习训练方法

技术领域

本发明属于多智能体强化学习技术领域，涉及一种基于旋转对称性的多智能体强化学习训练方法。

背景技术

各种现代人工智能挑战可以被表述为多智能体强化学习(Multiagentreinforcement learning，MARL)问题。随着MARL的发展，在多个任务场景中取得了许多成就，例如多人游戏、交通控制和多机器人等。然而，大多数强化学习(Reinforcementlearning，RL)方法需要使用大量数据训练智能体。在仿真模拟中，由于渲染速度的限制，数据效率对于实现快速实验迭代十分重要。虽然并行和加速的仿真环境使代理能够在合理的时间内解决复杂的任务，但在真实环境中的智能体训练受到物理条件的限制。因此，提高现有MARL方法的样本效率对于理论研究和实践都至关重要。

提高MARL样本效率是指减少环境交互的数量，以便更好地学习智能体的行为策略。最近有些文献提出了许多方法来解决深度强化学习数据效率低下问题。这些方法可以大致分为两类：基于数据增强的方法和基于网络结构设计的方法。具体来说，数据增强在最近的研究中被广泛用于在单智能体RL中生成更多数据样本，但大多数提出的解决方案都集中在基于图像的数据增强。如一种名为RAD的数据增强的强化学习技术对所观察到的图像数据进行裁剪，翻转等操作，使单代理RL的数据效率提高。因此尽管数据增强很重要，但目前MARL中的数据增强方法几乎没有被研究过。在多智能体强化学习中，智能体在每个时刻根据当前状态依据神经网络策略执行动作，智能体之间存在复杂的交互关系，无法简单使用计算机视觉中的数据增强方法，因此基于数据增强的方法虽然会产生足够多的样本，但会大大提高多智能体强化学习算法的计算量。另一种基于网络结构设计的方法通常旨在设计专门的网络架构，隐含地嵌入与给定任务相关的先验知识。多智能体同态网络将多智能体系统的全局对称性集成到神经网络模型中，从而提高数据效率。尽管它们具有显着的效果，但这些方法需要精心设计网络结构。此外，由于潜在的不变性很难隐式编码到神经网络架构中，这类方法通用性差且难以扩展到更复杂的任务中。

发明内容

为了克服现有技术的缺陷，解决多智能体强化学习样本效率低的问题，本发明提出了一种基于旋转对称性的多智能体强化学习训练方法，通过改进多智能体强化学习算法的损失函数，利用多智能体系统的全局对称性，为神经网络的训练提供额外信息，使多智能体强化学习算法在训练的过程中有更高的数据效率和更好的收敛效果，有效促进了多智能体强化学习算法的训练。

本发明提供的一种基于旋转对称性的多智能体强化学习训练方法，包括以下步骤：

步骤1：初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重。

步骤2：获取每一个智能体在环境中的当前状态，利用每一个智能体的当前策略网络得到每个智能体的动作向量，并执行各自的动作向量；获取执行动作后的奖励以及执行动作后的智能体状态；生成原始样本(s,a,r,s')。

步骤3：获取到足够多的设定数量的原始样本存入经验缓存池。

步骤4：从经验缓存池中随机采集样本，对所采集到的样本执行旋转变换。

步骤5：利用步骤3采集的样本分别对策略网络和动作价值网络进行训练，其中使用基于旋转对称性的新的动作价值网络的损失函数对动作价值函数进行更新。

步骤6：在决策阶段，各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境，从而与环境进行交互。

所述步骤3中，根据多智能体系统的全局对称性，基于原始样本执行旋转变换获得增强样本；设获得原始样本(s,a,r,s')，其中，s为多智能体在环境中的当前状态，a为多智能体的策略网络获得的智能体的动作向量，r和s'分别为各智能体执行各自的动作向量后，获得执行动作后的奖励以及执行动作后的多智能体在环境中的状态；

根据预先设置的旋转角度β得到旋转矩阵

将s、a、s'均与旋转矩阵T相乘，得到旋转β角度后的状态和动作，设分别得到L[s]、K^s[a]、L[s']，则获得增强样本(L[s],K^s[a],r,L[s'])。

所述步骤5中，计算基于旋转对称性的对称损失，在多智能体强化学习算法的原始动作价值网络的损失基础上增加所述对称损失，获得新的动作价值网络的损失函数L(φ)，如下：

L(φ)＝L_M(φ)+c^mL_sym(φ)

其中，φ为动作价值网络的参数，L_M(φ)代表所用多智能体强化学习算法的原始动作价值网络的损失，c^m为对称损失权重，L_sym(φ)代表基于旋转对称性的对称损失；

L_sym(φ)计算如下：

其中，

为经验缓存池；/>

是多智能体采用策略π，在状态s时，执行动作a所能获取的累计折扣奖励的期望；/>

多智能体采用策略π，在状态L[s]时，执行动作K^s[a]所能获取的累计折扣奖励的期望。

本发明的一种基于旋转对称性的多智能体强化学习训练方法的优点在于：

(1)传统多智能体强化学习算法忽略了系统自身存在性质，本发明方法基于多智能体系统的旋转对称性，对智能体与环境交互所产生的样本进行变换用于计算对称损失，改进多智能体强化学习的损失函数，在原始损失函数的基础上增加对称损失，提高了样本利用率，提高了多智能体强化学习算法的收敛速度和最终收敛效果。

(2)相比于数据增强方法将额外样本存入经验缓存池，本发明方法在每次训练过程中无需将对称性变换后的增强样本加入经验缓存池，直接在求损失函数时使用对称性变换的样本进行计算，不增加额外的样本量。

(3)由于本发明是对多智能体强化学习训练过程中损失函数的改进，无需任何特定MARL算法设计的假设，是一种即插即用的方法，因此可以嵌入到任何多智能体强化学习算法中，具有十分广泛的应用。

附图说明

图1为多智能体的全局对称性的可视化示例图；

图2为本发明一种基于旋转对称性的多智能体强化学习训练方法的模块结构图；

图3为本发明一种基于旋转对称性的多智能体强化学习训练方法的流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

现有的主流MARL算法忽略了多智能体系统的对称性，而本发明多智能体系统中最普遍的对称性是如图1所示的全局对称性。图1表示一个典型的多智能体导航任务，其中圆形表示智能体，叉表示目标点，智能体的任务是导航到目标点。在强化学习的训练过程中，使用智能体策略π₁,π₂,...,π_N和环境交互，每次交互可产生样本(s,a,r,s')，其中s表示所有智能体的状态，即s＝(s₁,s₂,...,s_N)，s_i表示智能体i的状态。a表示所有智能体的动作a＝(a₁,a₂,...,a_N)，s'表示智能体i在执行动作a_i以后，所能到达的下一个状态s_i'的集合，i＝1,2,3,...,N；r表示环境反馈的智能体奖励r_i的集合，i＝1,2,3,...,N。以图1中的智能体1为例说明全局对称性。在每个时刻，智能体1能够观察到其他智能体的位置信息

以及目标点位置信息(g_x,g_y)，/>

表示当前智能体i与智能体j在x方向的坐标差，/>

表示智能体i与智能体j在y方向的坐标差，g_x和g_y分别表示当前智能体与目标点在x方向和y方向的坐标差。智能体1的状态/>

对于系统状态s下的智能体1，策略为执行向下移动的动作a₁,执行动作后状态变为s₁′并从环境获取到奖励r，即获取到样本(s,a,r,s')。将整个系统旋转90°，可得到图一右上部分，其系统状态为L[s]。对于L[s]，智能体1的策略应为向左移动，恰好为动作a₁顺时针旋转90°所得到的动作K_s[a₁]。同时智能体1执行动作后所处的状态s'经过旋转变换后得到L[s']，与状态L[s]执行动作K_s[a₁]所对应的状态是相对应的。

受多智能体领域中的对称现象的启发，本发明方法提出了一种面向多智能体强化学习的损失函数，该损失函数为神经网络的训练提供额外信息，能够引导多智能体强化学习算法训练的方向，当神经网络的更新方向违背系统对称性时，能够及时调整更新方向，避免多智能体强化学习训练崩溃，从而利用更少的样本达到更好的效果，提高多智能体强化学习算法的数据效率。本发明的一种基于旋转对称性的多智能体强化学习训练方法，是一种即插即用的方法，适用于大多数MARL算法，无需任何特定MARL算法设计的假设。如图2和图3所示，本发明下面分六个步骤来说明。

初始化N个智能体策略π₁,π₂,...,π_N，其中π_i是将状态s_i映射为动作a_i的函数，即a_i＝π_i(s_i)。具体地，使用参数为θ_i的神经网络代表策略π_i。初始化包括：初始化动作价值网络

其中/>

是多智能体采用策略π，在状态s时，执行动作a所能获取的累计折扣奖励的期望。使用参数为φ的神经网络代表动作价值网络/>

初始化经验回放池D，初始为空。初始化对称损失权重c^m，设置为0.5。

步骤2：获取每一个智能体在环境中的当前状态，利用每一个智能体的当前策略网络得到每个智能体的动作向量，并执行各自的动作向量；获取执行动作后的奖励以及执行动作后的智能体状态。

使用智能体策略π₁,π₂,...,π_N和环境交互，产生样本(s,a,r,s')，其中s表示所有智能体的状态，即s＝(s₁,s₂,...,s_N)，a表示所有智能体的动作a＝(a₁,a₂,...,a_N)，s'表示智能体i在执行动作a_i以后，所能到达的下一个状态s_i'的集合，i＝1,2,3,...,N；r表示环境反馈的智能体奖励r_i的集合，i＝1,2,3,...,N。

步骤3：获取到足够数据存入经验缓存池

获取足够多的原始样本(s,a,r,s')存入经验回放池D中。随后在经验回放池中随机采集M组样本(s_k,a_k,r_k,s′_k)，其中k＝1,2,...,M。

步骤4：对所采集到的样本执行旋转变换。

根据系统的全局对称性设计旋转变换L[s]和K^s[a]，其中L[s]是指对系统的全局状态s进行旋转变换，K^s[a]是指对全局状态为s时所执行的动作a进行旋转变换。随后对智能体与环境交互所产生的样本(s,a,r,s')执行旋转变换L[s]，K^s[a]，获取到增强样本(L[s],K^s[a],r,L[s'])，其中L[s']是对原样本的s'执行旋转变换后的状态。

定义矩阵

任意二维向量可与矩阵T相乘得到旋转β角度后的向量。若系统状态为二维向量s，智能体i策略π_i所对应的动作为a＝π_i(s)，使用旋转矩阵T可对其产生的数据(s,a)进行旋转操作。

所述的对状态s的旋转操作计算公式为：

所述的对动作a的旋转操作计算公式为：

采用上述方法获得的增强数据不需要智能体和环境交互。

可以将获得的增强数据存入经验缓存池，以参与下一轮训练。

步骤5：使用多智能体强化学习算法更新智能体策略π₁,π₂,...,π_N。使用多智能体强化学习算法利用步骤3采集的样本分别对策略网络和动作价值网络进行更新。

以典型的多智能体强化学习算法MADDPG为例，描述更新过程。

所述的策略网络的损失函数为：

其中

为策略网络的损失函数，/>

为经验缓存池。

对于动作价值网络

计算原始MADDPG算法的损失函数：/>

其中L_MADDPG(φ)表示全局动作价值网络的损失，

为经验缓存池，y表示/>

的目标值，γ为折扣因子一般设置为0.99。

计算基于旋转对称性的对称损失：

则动作价值网络

的损失函数为：

L(φ)＝L_MADDPG(φ)+c^mL_sym(φ)

其中c^m为对称损失的权重，一般设置为0.5。

多智能体系统中存在对称性是固有存在的，原始的多智能体强化学习算法需要通过智能体与环境交互产生的样本来学习这一性质。本发明方法将多智能体系统的对称性转化为对称损失L_sym(φ)，当智能体学习到的策略不符合对称性时，就会受到损失项的惩罚。修改后的损失函数能够提供更多的信息，来引导智能体的训练。本质上是将这一性质直接告诉智能体，不再需要智能体从数据中去学习。

重复步骤4和5将对多智能体的策略网络和动作价值网络执行多轮训练。若增强样本存入经验缓存池中，则在下一轮训练中也将会被采样用来训练多智能体强化学习网络。

步骤6：训练完成后，策略网络参数已确定，在决策阶段，动作价值网络被移除，智能体将根据本地观测输入给自身策略网络来选择动作输出给环境，从而与环境进行交互，与常规的做法无异，此处不再阐述。

自此，本发明实现了在不与环境进行额外交互的前提下计算对称损失来加速训练多智能体强化学习的方法，该方法且可以嵌入到任何主流多智能体强化框架中。

Claims

1.一种基于旋转对称性的多智能体强化学习训练方法，其特征在于，包括：

(1)根据多智能体系统的全局对称性，基于原始样本执行旋转变换获得增强样本；

设获得原始样本(s,a,r,s')，其中，s为多智能体在环境中的当前状态，a为多智能体的策略网络获得的智能体的动作向量，r和s'分别为各智能体执行各自的动作向量后，获得执行动作后的奖励以及执行动作后的多智能体在环境中的状态；

根据预先设置的旋转角度β得到旋转矩阵

将s、a、s'均与旋转矩阵T相乘，得到旋转β角度后的状态和动作，设分别得到L[s]、K^s[a]、L[s']，则获得增强样本(L[s],K^s[a],r,L[s'])；

(2)在训练智能体策略网络和动作价值网络时，计算基于旋转对称性的对称损失，在多智能体强化学习算法的原始动作价值网络的损失基础上增加所述对称损失，获得新的动作价值网络的损失函数L(φ)，如下：

L(φ)＝L_M(φ)+c^mL_sym(φ)

L _sym(φ)计算如下：

其中，

为经验缓存池；/>

2.根据权利要求1所述的方法，其特征在于，所述的多智能体强化学习训练方法包括如下步骤：

步骤1：初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重；

步骤2：获取各智能体在环境中的当前状态，利用各智能体的当前策略网络得到每个智能体的动作向量，并执行各自的动作向量，获取执行动作后的奖励以及执行动作后的智能体状态，生成原始样本(s,a,r,s')；

步骤3：获取到设定数量的原始样本存入经验缓存池；

步骤4：从经验缓存池中随机采集样本，对所采集到的样本执行旋转变换；

步骤5：利用步骤3采集的样本分别对策略网络和动作价值网络进行训练，其中利用新的动作价值网络的损失函数对动作价值网络进行更新；

步骤6：训练完成后，在决策阶段，各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境，与环境进行交互。

3.根据权利要求2所述的方法，其特征在于，所述的步骤4将旋转变换后获取的增强样本存入经验缓存池中，以参与下一轮训练，每轮训练执行步骤4和5。