CN111079305A - 一种基于λ-回报的异策略多智能体强化学习协作方法 - Google Patents

一种基于λ-回报的异策略多智能体强化学习协作方法 Download PDF

Info

Publication number
CN111079305A
CN111079305A CN201911373178.XA CN201911373178A CN111079305A CN 111079305 A CN111079305 A CN 111079305A CN 201911373178 A CN201911373178 A CN 201911373178A CN 111079305 A CN111079305 A CN 111079305A
Authority
CN
China
Prior art keywords
reward
lambda
agent
value
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911373178.XA
Other languages
English (en)
Inventor
谭晓阳
文超
姚兴虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911373178.XA priority Critical patent/CN111079305A/zh
Publication of CN111079305A publication Critical patent/CN111079305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于λ‑回报的异策略多智能体强化学习协作方法,使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设,通过使用λ‑回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度。本发明在非马尔可夫环境中较好的实现多个智能体的协作任务,为本领域的技术进步拓展了空间,实施效果好。

Description

一种基于λ-回报的异策略多智能体强化学习协作方法
技术领域
本发明属于自动控制领域,具体涉及一种基于λ-回报的异策略多智能体强化学习协作方法。
背景技术
近年来,强化学习从游戏领域到用于复杂的连续控制任务中都取得了巨大的成功。但是,许多现实世界中的问题本质上是存在多个智能体的,例如网络数据包路由,自动控制等,这些问题都带来了单智能体情形中从未遇到的巨大挑战。
特别地,在多智能体环境中的主要挑战包括联合动作空间的大小随智能体的数量成指数增长,由单个智能体的交互作用引起的不稳定环境,以及合作场景中的多智能体全局奖励分配问题。这些挑战使得将所有智能体视为单个元智能体的完全中心化方法,以及通过将其他智能体视为环境的一部分来分别训练每个智能体的完全分散式方法都变得非常困难。
最近,由于概念的简单性和实用性,中心化训练、分散执行(CentralizedTraining,Decentralized Execution,CTDE)的范式在多智能体强化学习中变得很流行。它的关键思想是在训练期间学习让所有智能体共享中心化价值函数(CVF),而每个智能体在执行阶段均以分散的方式进行执行。通过将CVF充当每个智能体的环境,结合适当的奖励分配机制,每个智能体各自的值函数可以被很方便地学习。
不幸的是,CVF在CTDE方法中发挥的核心作用在当前领域中似乎并没有得到足够的重视。目前学术界通常用单智能体设定下的方式来学习CVF,这导致在多智能体环境中会引入估计误差。此外,为了减少将中心化价值函数分解为单个价值函数的难度,许多算法在训练过程中对CVF的假设空间施加了额外的结构假设。例如,VDN,QMIX和QTRAN假定最佳联合行动等于每个智能体的最佳行动的集合。
另一方面,由于以下原因,估计多智能体环境中的CVF本质上是困难的:1)联合行动空间的“维度诅咒”导致经验稀疏;2)非马尔可夫性质的挑战[16]和多智能体环境中的部分可观测性比在单智能体环境更为严峻;3)多智能体环境的复杂且难以建模,部分原因是智能体之间的交互复杂。实际上,这些因素通常会导致CVF不可靠且不稳定,且偏差和方差很高。
因此,我们提出了一个具有高采样效率,基于CTDE框架的多智能体强化学习方法,称为SMIX(λ)。SMIX(λ)通过基于异策略的CVF学习方法改进了中心化价值函数估计,该方法消除了在训练过程中显式依赖中心化贪婪行为假设的需要,并且引入λ-回报可以更好地平衡偏差和方差,并更好地适应环境的非马尔可夫性质。SMIX(λ)使用异策略学习机制是由重要性采样驱动的,但是通过经验回放来实现。通过结合这些要素,SMIX(λ)方法有效地提高了采样效率并稳定了训练过程。
发明内容
发明目的:本发明提供一种基于λ-回报的异策略多智能体强化学习协作方法,具有高采样效率并能较好平衡偏差与方差的多智能体强化学习协作方法。
技术方案:本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法,包括以下步骤:
(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设;
(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差;
(3)使用经验回放机制来降低算法的样本复杂度。
近一步地,步骤(1)所述的中心化贪心假设通过以下公式实现:
Figure BDA0002340242340000021
其中,τ是历史轨迹,a是所有智能体的联合动作,Qtot(τ,a)为中心化的状态动作值函数,Qi为第i个智能体的状态动作值函数。
进一步地,所述步骤(1)包括以下步骤:
(11)从时刻t=0开始,获取所有智能体的局部观测值
Figure BDA0002340242340000022
以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作
Figure BDA0002340242340000031
接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值
Figure BDA0002340242340000032
以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt};
(12)重复步骤(11)多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹;
(13)从经验池中采样一个大小为b的批轨迹;
(14)根据批轨迹,计算λ-回报目标
Figure BDA0002340242340000033
(15)通过反向传播最小化损失函数;
(16)每采样完成100条轨迹后,将当前网络的参数复制到目标网络中。
进一步地,所述步骤(14)包括以下步骤:
(141)计算从t时刻开始的n步回报:
Figure BDA0002340242340000034
其中,θ-为目标网络的参数,γ为奖励值的折扣因子,τ为历史观测,a为联合动作,rt为t时刻智能体得到的奖励值;
(143)根据n步回报,计算λ-回报
Figure BDA0002340242340000035
进一步地,步骤(15)所述的最小化损失函数为:
Figure BDA0002340242340000036
其中,
Figure BDA0002340242340000037
为策略π的中心化状态动作值函数,b为批轨迹的大小。
有益效果:与现有技术相比,本发明的有益效果:通过使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设,通过使用λ-回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度;该模型可在非马尔可夫环境中较好的实现多个智能体的协作任务,为本领域的技术进步拓展了空间,实施效果好。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
如图1所示,本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法(SMIX(λ)),首先,使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的如下的中心化贪心假设:
Figure BDA0002340242340000041
这种方式使得值函数的学习更加灵活。然后,通过使用λ-回报来均衡值函数估计中存在的偏差和方差,通过调整λ值的大小,可以方便地偏差和方差中做取舍。最后,我们使用经验回放机制来实现异策略机制,这种方式有效地降低了算法的样本复杂度。尽管这种经验回放机制在已有的方法中经常被采用,但如何通过这种方式将Sarsa这种同策略算法改造成异策略算法尚未在已有的方法中出现过。具体包括以下步骤:
1、从时刻t=0开始,获取所有智能体的局部观测值
Figure BDA0002340242340000042
以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作
Figure BDA0002340242340000043
接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值
Figure BDA0002340242340000044
以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt}。
2、重复步骤1多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹。
3、从经验池中采样一个大小为b的批轨迹。
4、根据该批轨迹,根据计算λ-回报目标
Figure BDA0002340242340000045
先计算从t时刻开始的n步回报,其计算方式为
Figure BDA0002340242340000051
其中,θ-为目标网络的参数,γ为奖励值的折扣因子,τ为历史观测,a为联合动作,rt为t时刻智能体得到的奖励值;再根据n步回报,计算λ-回报
Figure BDA0002340242340000052
5、通过反向传播最小化损失函数
Figure BDA0002340242340000053
其中,
Figure BDA0002340242340000054
为策略π的中心化状态动作值函数,b为批轨迹的大小。
6、每采样完成100条轨迹后将当前网络的参数复制到目标网络中。
因为多智能体强化学习算法的性能在模拟环境中进行评估,所以本算法在本领域内公认的星际争霸多智能体强化学习算法测试环境中进行了评估,并且选取了本领域内主流的多智能体强化学习算法进行比较(包含IQL,COMA,VDN,QMIX),通过一系列实验得到各算法在该环境中不同地图上的性能情况如表1:
表1在星际争霸不同地图下SMIX(λ)算法与其他四个算法的性能对比
Figure BDA0002340242340000055
结合上述实验结果可以看出,本发明所设计的方法模型在综合性能上优于当前主流的多智能强化学习算法,在最终性能和样本复杂度上均具有较好的表现。采用本发明后,能够有效地在模拟环境中协调多个智能体的行为以达到特定目标,该算法模型亦可对许多现实问题进行建模,例如多无人机的协作,多机器人的协作等。由此可见,本发明具有实质性技术特点和显著的技术进步,其应用前景非常广阔。

Claims (5)

1.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,包括以下步骤:
(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设;
(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差;
(3)使用经验回放机制来降低算法的样本复杂度。
2.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,步骤(1)所述的中心化贪心假设通过以下公式实现:
Figure FDA0002340242330000011
其中,τ是历史轨迹,a是所有智能体的联合动作,Qtot(τ,a)为中心化的状态动作值函数,Qi为第i个智能体的状态动作值函数。
3.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,所述步骤(1)包括以下步骤:
(11)从时刻t=0开始,获取所有智能体的局部观测值
Figure FDA0002340242330000012
以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作
Figure FDA0002340242330000013
接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值
Figure FDA0002340242330000014
以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt};
(12)重复步骤(11)多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹;
(13)从经验池中采样一个大小为b的批轨迹;
(14)根据批轨迹,计算λ-回报目标
Figure FDA0002340242330000015
(15)通过反向传播最小化损失函数;
(16)每采样完成100条轨迹后,将当前网络的参数复制到目标网络中。
4.根据权利要求3所述的一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,所述步骤(14)包括以下步骤:
(141)计算从t时刻开始的n步回报:
Figure FDA0002340242330000021
其中,θ-为目标网络的参数,γ为奖励值的折扣因子,τ为历史观测,a为联合动作,rt为t时刻智能体得到的奖励值;
(142)根据n步回报,计算λ-回报
Figure FDA0002340242330000022
5.根据权利要求3所述的一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,步骤(15)所述的最小化损失函数为:
Figure FDA0002340242330000023
其中,
Figure FDA0002340242330000024
为策略π的中心化状态动作值函数,b为批轨迹的大小。
CN201911373178.XA 2019-12-27 2019-12-27 一种基于λ-回报的异策略多智能体强化学习协作方法 Pending CN111079305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373178.XA CN111079305A (zh) 2019-12-27 2019-12-27 一种基于λ-回报的异策略多智能体强化学习协作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373178.XA CN111079305A (zh) 2019-12-27 2019-12-27 一种基于λ-回报的异策略多智能体强化学习协作方法

Publications (1)

Publication Number Publication Date
CN111079305A true CN111079305A (zh) 2020-04-28

Family

ID=70318277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373178.XA Pending CN111079305A (zh) 2019-12-27 2019-12-27 一种基于λ-回报的异策略多智能体强化学习协作方法

Country Status (1)

Country Link
CN (1) CN111079305A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626489A (zh) * 2020-05-20 2020-09-04 杭州安恒信息技术股份有限公司 基于时序差分学习算法的最短路径规划方法和装置
CN111632387A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于星际争霸ii的指挥控制系统
CN111814988A (zh) * 2020-07-07 2020-10-23 北京航空航天大学 一种多智能体协作环境强化学习算法的测试方法
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112215333A (zh) * 2020-09-14 2021-01-12 清华大学 基于低阶高斯分布的多智能体协同探索方法及装置
CN113095500A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113688977A (zh) * 2021-08-30 2021-11-23 浙江大学 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
CN114900619A (zh) * 2022-05-06 2022-08-12 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理系统
WO2023225941A1 (en) * 2022-05-26 2023-11-30 Robert Bosch Gmbh A computer-implemented method and an apparatus for reinforcement learning

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626489A (zh) * 2020-05-20 2020-09-04 杭州安恒信息技术股份有限公司 基于时序差分学习算法的最短路径规划方法和装置
CN111626489B (zh) * 2020-05-20 2023-04-18 杭州安恒信息技术股份有限公司 基于时序差分学习算法的最短路径规划方法和装置
CN111632387A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于星际争霸ii的指挥控制系统
CN111814988A (zh) * 2020-07-07 2020-10-23 北京航空航天大学 一种多智能体协作环境强化学习算法的测试方法
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112215333B (zh) * 2020-09-14 2022-08-12 清华大学 基于低阶高斯分布的多智能体协同探索方法及装置
CN112215333A (zh) * 2020-09-14 2021-01-12 清华大学 基于低阶高斯分布的多智能体协同探索方法及装置
CN113095500A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113688977A (zh) * 2021-08-30 2021-11-23 浙江大学 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN113688977B (zh) * 2021-08-30 2023-12-05 浙江大学 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
CN113779302B (zh) * 2021-09-09 2023-09-22 福州大学 基于值分解网络和多智能体的半分布式协作存储方法
CN114900619A (zh) * 2022-05-06 2022-08-12 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理系统
WO2023225941A1 (en) * 2022-05-26 2023-11-30 Robert Bosch Gmbh A computer-implemented method and an apparatus for reinforcement learning

Similar Documents

Publication Publication Date Title
CN111079305A (zh) 一种基于λ-回报的异策略多智能体强化学习协作方法
CN111563188B (zh) 一种移动多智能体协同目标搜索方法
CN109388484B (zh) 一种基于Deep Q-network算法的多资源云作业调度方法
CN110991545A (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Xiao et al. Learning multi-robot decentralized macro-action-based policies via a centralized q-net
CN111178496A (zh) 多代理强化学习合作任务场景下的代理间交换知识的方法
CN113449458A (zh) 一种基于课程学习的多智能体深度确定性策略梯度方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN112215364A (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
CN115562342A (zh) 多飞行器任务分配、航迹规划和编队控制一体化博弈方法
CN113848711B (zh) 一种基于安全模型强化学习的数据中心制冷控制算法
CN105955921A (zh) 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
Zhu et al. Variationally and intrinsically motivated reinforcement learning for decentralized traffic signal control
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
CN116068900A (zh) 面向多非完整约束移动机器人的强化学习行为控制方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
Li et al. Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm
CN113126498A (zh) 基于分布式强化学习的优化控制系统和控制方法
CN114051256A (zh) 一种择优近端策略优化方法
Nguyen et al. Bootstrapping Monte Carlo tree search with an imperfect heuristic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination