CN116187466A - 一种基于旋转对称性的多智能体强化学习训练方法 - Google Patents

一种基于旋转对称性的多智能体强化学习训练方法 Download PDF

Info

Publication number
CN116187466A
CN116187466A CN202211571339.8A CN202211571339A CN116187466A CN 116187466 A CN116187466 A CN 116187466A CN 202211571339 A CN202211571339 A CN 202211571339A CN 116187466 A CN116187466 A CN 116187466A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
loss
symmetry
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211571339.8A
Other languages
English (en)
Inventor
罗杰
于鑫
田雍恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211571339.8A priority Critical patent/CN116187466A/zh
Publication of CN116187466A publication Critical patent/CN116187466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种基于旋转对称性的多智能体强化学习训练方法,属于多智能体强化学习技术领域。本发明方法利用多智能体系统的全局对称性,基于原始样本执行旋转变换获得增强样本,用于计算对称损失,改进多智能体强化学习的损失函数,在原始损失函数的基础上增加对称损失,为神经网络的训练提供额外信息;所获得增强样本可以加入经验缓存池,参与下一轮多智能体强化学习的训练。本发明提高了样本利用率,提高了多智能体强化学习模型的收敛速度和最终收敛效果,是一种即插即用的方法,可以嵌入到任何多智能体强化学习算法中,具有十分广泛的应用。

Description

一种基于旋转对称性的多智能体强化学习训练方法
技术领域
本发明属于多智能体强化学习技术领域,涉及一种基于旋转对称性的多智能体强化学习训练方法。
背景技术
各种现代人工智能挑战可以被表述为多智能体强化学习(Multiagentreinforcement learning,MARL)问题。随着MARL的发展,在多个任务场景中取得了许多成就,例如多人游戏、交通控制和多机器人等。然而,大多数强化学习(Reinforcementlearning,RL)方法需要使用大量数据训练智能体。在仿真模拟中,由于渲染速度的限制,数据效率对于实现快速实验迭代十分重要。虽然并行和加速的仿真环境使代理能够在合理的时间内解决复杂的任务,但在真实环境中的智能体训练受到物理条件的限制。因此,提高现有MARL方法的样本效率对于理论研究和实践都至关重要。
提高MARL样本效率是指减少环境交互的数量,以便更好地学习智能体的行为策略。最近有些文献提出了许多方法来解决深度强化学习数据效率低下问题。这些方法可以大致分为两类:基于数据增强的方法和基于网络结构设计的方法。具体来说,数据增强在最近的研究中被广泛用于在单智能体RL中生成更多数据样本,但大多数提出的解决方案都集中在基于图像的数据增强。如一种名为RAD的数据增强的强化学习技术对所观察到的图像数据进行裁剪,翻转等操作,使单代理RL的数据效率提高。因此尽管数据增强很重要,但目前MARL中的数据增强方法几乎没有被研究过。在多智能体强化学习中,智能体在每个时刻根据当前状态依据神经网络策略执行动作,智能体之间存在复杂的交互关系,无法简单使用计算机视觉中的数据增强方法,因此基于数据增强的方法虽然会产生足够多的样本,但会大大提高多智能体强化学习算法的计算量。另一种基于网络结构设计的方法通常旨在设计专门的网络架构,隐含地嵌入与给定任务相关的先验知识。多智能体同态网络将多智能体系统的全局对称性集成到神经网络模型中,从而提高数据效率。尽管它们具有显着的效果,但这些方法需要精心设计网络结构。此外,由于潜在的不变性很难隐式编码到神经网络架构中,这类方法通用性差且难以扩展到更复杂的任务中。
发明内容
为了克服现有技术的缺陷,解决多智能体强化学习样本效率低的问题,本发明提出了一种基于旋转对称性的多智能体强化学习训练方法,通过改进多智能体强化学习算法的损失函数,利用多智能体系统的全局对称性,为神经网络的训练提供额外信息,使多智能体强化学习算法在训练的过程中有更高的数据效率和更好的收敛效果,有效促进了多智能体强化学习算法的训练。
本发明提供的一种基于旋转对称性的多智能体强化学习训练方法,包括以下步骤:
步骤1:初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重。
步骤2:获取每一个智能体在环境中的当前状态,利用每一个智能体的当前策略网络得到每个智能体的动作向量,并执行各自的动作向量;获取执行动作后的奖励以及执行动作后的智能体状态;生成原始样本(s,a,r,s')。
步骤3:获取到足够多的设定数量的原始样本存入经验缓存池。
步骤4:从经验缓存池中随机采集样本,对所采集到的样本执行旋转变换。
步骤5:利用步骤3采集的样本分别对策略网络和动作价值网络进行训练,其中使用基于旋转对称性的新的动作价值网络的损失函数对动作价值函数进行更新。
步骤6:在决策阶段,各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境,从而与环境进行交互。
所述步骤3中,根据多智能体系统的全局对称性,基于原始样本执行旋转变换获得增强样本;设获得原始样本(s,a,r,s'),其中,s为多智能体在环境中的当前状态,a为多智能体的策略网络获得的智能体的动作向量,r和s'分别为各智能体执行各自的动作向量后,获得执行动作后的奖励以及执行动作后的多智能体在环境中的状态;
根据预先设置的旋转角度β得到旋转矩阵
Figure BDA0003987890810000021
将s、a、s'均与旋转矩阵T相乘,得到旋转β角度后的状态和动作,设分别得到L[s]、Ks[a]、L[s'],则获得增强样本(L[s],Ks[a],r,L[s'])。
所述步骤5中,计算基于旋转对称性的对称损失,在多智能体强化学习算法的原始动作价值网络的损失基础上增加所述对称损失,获得新的动作价值网络的损失函数L(φ),如下:
L(φ)=LM(φ)+cmLsym(φ)
其中,φ为动作价值网络的参数,LM(φ)代表所用多智能体强化学习算法的原始动作价值网络的损失,cm为对称损失权重,Lsym(φ)代表基于旋转对称性的对称损失;
Lsym(φ)计算如下:
Figure BDA0003987890810000022
其中,
Figure BDA0003987890810000023
为经验缓存池;/>
Figure BDA0003987890810000024
是多智能体采用策略π,在状态s时,执行动作a所能获取的累计折扣奖励的期望;/>
Figure BDA0003987890810000025
多智能体采用策略π,在状态L[s]时,执行动作Ks[a]所能获取的累计折扣奖励的期望。
本发明的一种基于旋转对称性的多智能体强化学习训练方法的优点在于:
(1)传统多智能体强化学习算法忽略了系统自身存在性质,本发明方法基于多智能体系统的旋转对称性,对智能体与环境交互所产生的样本进行变换用于计算对称损失,改进多智能体强化学习的损失函数,在原始损失函数的基础上增加对称损失,提高了样本利用率,提高了多智能体强化学习算法的收敛速度和最终收敛效果。
(2)相比于数据增强方法将额外样本存入经验缓存池,本发明方法在每次训练过程中无需将对称性变换后的增强样本加入经验缓存池,直接在求损失函数时使用对称性变换的样本进行计算,不增加额外的样本量。
(3)由于本发明是对多智能体强化学习训练过程中损失函数的改进,无需任何特定MARL算法设计的假设,是一种即插即用的方法,因此可以嵌入到任何多智能体强化学习算法中,具有十分广泛的应用。
附图说明
图1为多智能体的全局对称性的可视化示例图;
图2为本发明一种基于旋转对称性的多智能体强化学习训练方法的模块结构图;
图3为本发明一种基于旋转对称性的多智能体强化学习训练方法的流程图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
现有的主流MARL算法忽略了多智能体系统的对称性,而本发明多智能体系统中最普遍的对称性是如图1所示的全局对称性。图1表示一个典型的多智能体导航任务,其中圆形表示智能体,叉表示目标点,智能体的任务是导航到目标点。在强化学习的训练过程中,使用智能体策略π12,...,πN和环境交互,每次交互可产生样本(s,a,r,s'),其中s表示所有智能体的状态,即s=(s1,s2,...,sN),si表示智能体i的状态。a表示所有智能体的动作a=(a1,a2,...,aN),s'表示智能体i在执行动作ai以后,所能到达的下一个状态si'的集合,i=1,2,3,...,N;r表示环境反馈的智能体奖励ri的集合,i=1,2,3,...,N。以图1中的智能体1为例说明全局对称性。在每个时刻,智能体1能够观察到其他智能体的位置信息
Figure BDA0003987890810000031
以及目标点位置信息(gx,gy),/>
Figure BDA0003987890810000032
表示当前智能体i与智能体j在x方向的坐标差,/>
Figure BDA0003987890810000033
表示智能体i与智能体j在y方向的坐标差,gx和gy分别表示当前智能体与目标点在x方向和y方向的坐标差。智能体1的状态/>
Figure BDA0003987890810000034
对于系统状态s下的智能体1,策略为执行向下移动的动作a1,执行动作后状态变为s1′并从环境获取到奖励r,即获取到样本(s,a,r,s')。将整个系统旋转90°,可得到图一右上部分,其系统状态为L[s]。对于L[s],智能体1的策略应为向左移动,恰好为动作a1顺时针旋转90°所得到的动作Ks[a1]。同时智能体1执行动作后所处的状态s'经过旋转变换后得到L[s'],与状态L[s]执行动作Ks[a1]所对应的状态是相对应的。
受多智能体领域中的对称现象的启发,本发明方法提出了一种面向多智能体强化学习的损失函数,该损失函数为神经网络的训练提供额外信息,能够引导多智能体强化学习算法训练的方向,当神经网络的更新方向违背系统对称性时,能够及时调整更新方向,避免多智能体强化学习训练崩溃,从而利用更少的样本达到更好的效果,提高多智能体强化学习算法的数据效率。本发明的一种基于旋转对称性的多智能体强化学习训练方法,是一种即插即用的方法,适用于大多数MARL算法,无需任何特定MARL算法设计的假设。如图2和图3所示,本发明下面分六个步骤来说明。
步骤1:初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重。
初始化N个智能体策略π12,...,πN,其中πi是将状态si映射为动作ai的函数,即ai=πi(si)。具体地,使用参数为θi的神经网络代表策略πi。初始化包括:初始化动作价值网络
Figure BDA0003987890810000041
其中/>
Figure BDA0003987890810000042
是多智能体采用策略π,在状态s时,执行动作a所能获取的累计折扣奖励的期望。使用参数为φ的神经网络代表动作价值网络/>
Figure BDA0003987890810000043
初始化经验回放池D,初始为空。初始化对称损失权重cm,设置为0.5。
步骤2:获取每一个智能体在环境中的当前状态,利用每一个智能体的当前策略网络得到每个智能体的动作向量,并执行各自的动作向量;获取执行动作后的奖励以及执行动作后的智能体状态。
使用智能体策略π12,...,πN和环境交互,产生样本(s,a,r,s'),其中s表示所有智能体的状态,即s=(s1,s2,...,sN),a表示所有智能体的动作a=(a1,a2,...,aN),s'表示智能体i在执行动作ai以后,所能到达的下一个状态si'的集合,i=1,2,3,...,N;r表示环境反馈的智能体奖励ri的集合,i=1,2,3,...,N。
步骤3:获取到足够数据存入经验缓存池
获取足够多的原始样本(s,a,r,s')存入经验回放池D中。随后在经验回放池中随机采集M组样本(sk,ak,rk,s′k),其中k=1,2,...,M。
步骤4:对所采集到的样本执行旋转变换。
根据系统的全局对称性设计旋转变换L[s]和Ks[a],其中L[s]是指对系统的全局状态s进行旋转变换,Ks[a]是指对全局状态为s时所执行的动作a进行旋转变换。随后对智能体与环境交互所产生的样本(s,a,r,s')执行旋转变换L[s],Ks[a],获取到增强样本(L[s],Ks[a],r,L[s']),其中L[s']是对原样本的s'执行旋转变换后的状态。
定义矩阵
Figure BDA0003987890810000044
任意二维向量可与矩阵T相乘得到旋转β角度后的向量。若系统状态为二维向量s,智能体i策略πi所对应的动作为a=πi(s),使用旋转矩阵T可对其产生的数据(s,a)进行旋转操作。
所述的对状态s的旋转操作计算公式为:
Figure BDA0003987890810000045
所述的对动作a的旋转操作计算公式为:
Figure BDA0003987890810000051
采用上述方法获得的增强数据不需要智能体和环境交互。
可以将获得的增强数据存入经验缓存池,以参与下一轮训练。
步骤5:使用多智能体强化学习算法更新智能体策略π12,...,πN。使用多智能体强化学习算法利用步骤3采集的样本分别对策略网络和动作价值网络进行更新。
以典型的多智能体强化学习算法MADDPG为例,描述更新过程。
所述的策略网络的损失函数为:
Figure BDA0003987890810000052
其中
Figure BDA0003987890810000053
为策略网络的损失函数,/>
Figure BDA0003987890810000054
为经验缓存池。
对于动作价值网络
Figure BDA0003987890810000055
计算原始MADDPG算法的损失函数:/>
Figure BDA00039878908100000512
Figure BDA00039878908100000513
其中LMADDPG(φ)表示全局动作价值网络的损失,
Figure BDA0003987890810000058
为经验缓存池,y表示/>
Figure BDA0003987890810000059
的目标值,γ为折扣因子一般设置为0.99。
计算基于旋转对称性的对称损失:
Figure BDA00039878908100000510
则动作价值网络
Figure BDA00039878908100000511
的损失函数为:
L(φ)=LMADDPG(φ)+cmLsym(φ)
其中cm为对称损失的权重,一般设置为0.5。
多智能体系统中存在对称性是固有存在的,原始的多智能体强化学习算法需要通过智能体与环境交互产生的样本来学习这一性质。本发明方法将多智能体系统的对称性转化为对称损失Lsym(φ),当智能体学习到的策略不符合对称性时,就会受到损失项的惩罚。修改后的损失函数能够提供更多的信息,来引导智能体的训练。本质上是将这一性质直接告诉智能体,不再需要智能体从数据中去学习。
重复步骤4和5将对多智能体的策略网络和动作价值网络执行多轮训练。若增强样本存入经验缓存池中,则在下一轮训练中也将会被采样用来训练多智能体强化学习网络。
步骤6:训练完成后,策略网络参数已确定,在决策阶段,动作价值网络被移除,智能体将根据本地观测输入给自身策略网络来选择动作输出给环境,从而与环境进行交互,与常规的做法无异,此处不再阐述。
自此,本发明实现了在不与环境进行额外交互的前提下计算对称损失来加速训练多智能体强化学习的方法,该方法且可以嵌入到任何主流多智能体强化框架中。

Claims (3)

1.一种基于旋转对称性的多智能体强化学习训练方法,其特征在于,包括:
(1)根据多智能体系统的全局对称性,基于原始样本执行旋转变换获得增强样本;
设获得原始样本(s,a,r,s'),其中,s为多智能体在环境中的当前状态,a为多智能体的策略网络获得的智能体的动作向量,r和s'分别为各智能体执行各自的动作向量后,获得执行动作后的奖励以及执行动作后的多智能体在环境中的状态;
根据预先设置的旋转角度β得到旋转矩阵
Figure FDA0003987890800000011
将s、a、s'均与旋转矩阵T相乘,得到旋转β角度后的状态和动作,设分别得到L[s]、Ks[a]、L[s'],则获得增强样本(L[s],Ks[a],r,L[s']);
(2)在训练智能体策略网络和动作价值网络时,计算基于旋转对称性的对称损失,在多智能体强化学习算法的原始动作价值网络的损失基础上增加所述对称损失,获得新的动作价值网络的损失函数L(φ),如下:
L(φ)=LM(φ)+cmLsym(φ)
其中,φ为动作价值网络的参数,LM(φ)代表所用多智能体强化学习算法的原始动作价值网络的损失,cm为对称损失权重,Lsym(φ)代表基于旋转对称性的对称损失;
L sym(φ)计算如下:
Figure FDA0003987890800000012
其中,
Figure FDA0003987890800000013
为经验缓存池;/>
Figure FDA0003987890800000014
是多智能体采用策略π,在状态s时,执行动作a所能获取的累计折扣奖励的期望;/>
Figure FDA0003987890800000015
多智能体采用策略π,在状态L[s]时,执行动作Ks[a]所能获取的累计折扣奖励的期望。
2.根据权利要求1所述的方法,其特征在于,所述的多智能体强化学习训练方法包括如下步骤:
步骤1:初始化多智能体的策略网络参数、动作价值网络参数以及对称损失权重;
步骤2:获取各智能体在环境中的当前状态,利用各智能体的当前策略网络得到每个智能体的动作向量,并执行各自的动作向量,获取执行动作后的奖励以及执行动作后的智能体状态,生成原始样本(s,a,r,s');
步骤3:获取到设定数量的原始样本存入经验缓存池;
步骤4:从经验缓存池中随机采集样本,对所采集到的样本执行旋转变换;
步骤5:利用步骤3采集的样本分别对策略网络和动作价值网络进行训练,其中利用新的动作价值网络的损失函数对动作价值网络进行更新;
步骤6:训练完成后,在决策阶段,各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境,与环境进行交互。
3.根据权利要求2所述的方法,其特征在于,所述的步骤4将旋转变换后获取的增强样本存入经验缓存池中,以参与下一轮训练,每轮训练执行步骤4和5。
CN202211571339.8A 2022-12-08 2022-12-08 一种基于旋转对称性的多智能体强化学习训练方法 Pending CN116187466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211571339.8A CN116187466A (zh) 2022-12-08 2022-12-08 一种基于旋转对称性的多智能体强化学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211571339.8A CN116187466A (zh) 2022-12-08 2022-12-08 一种基于旋转对称性的多智能体强化学习训练方法

Publications (1)

Publication Number Publication Date
CN116187466A true CN116187466A (zh) 2023-05-30

Family

ID=86445093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211571339.8A Pending CN116187466A (zh) 2022-12-08 2022-12-08 一种基于旋转对称性的多智能体强化学习训练方法

Country Status (1)

Country Link
CN (1) CN116187466A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596060A (zh) * 2023-07-19 2023-08-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596060A (zh) * 2023-07-19 2023-08-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质
CN116596060B (zh) * 2023-07-19 2024-03-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kwak et al. Quantum neural networks: Concepts, applications, and challenges
WO2020024172A1 (zh) 多状态连续动作空间的合作式方法及系统
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN111240356A (zh) 一种基于深度强化学习的无人机集群会合方法
CN116187466A (zh) 一种基于旋转对称性的多智能体强化学习训练方法
CN112732436B (zh) 一种多核处理器-单图形处理器的深度强化学习加速方法
Fujita et al. Distributed reinforcement learning of targeted grasping with active vision for mobile manipulators
CN117103282B (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN116643499A (zh) 一种基于模型强化学习的智能体路径规划方法及系统
CN115759177A (zh) 一种基于旋转对称性的多智能体强化学习数据增强方法
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Zheng et al. A multi-agent path planning algorithm based on hierarchical reinforcement learning and artificial potential field
CN113313209A (zh) 一种高样本效率的多智能体强化学习训练方法
CN114170454A (zh) 基于关节分组策略的智能体元动作学习方法
Lin et al. End-to-end learning of deep visuomotor policy for needle picking
CN109087247A (zh) 一种对立体图像进行超分的方法
Asadi et al. Accellerating Action Dependent Hierarchical Reinforcement Learning through Autonomous Subgoal Discovery
KR20220166716A (ko) 퓨샷 모방을 위한 시연 조건부 보강 학습
CN114706384A (zh) 一种连通性保持的多机导航方法、系统及介质
CN114545776A (zh) 多智能体控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination