CN111079305A - 一种基于λ-回报的异策略多智能体强化学习协作方法 - Google Patents
一种基于λ-回报的异策略多智能体强化学习协作方法 Download PDFInfo
- Publication number
- CN111079305A CN111079305A CN201911373178.XA CN201911373178A CN111079305A CN 111079305 A CN111079305 A CN 111079305A CN 201911373178 A CN201911373178 A CN 201911373178A CN 111079305 A CN111079305 A CN 111079305A
- Authority
- CN
- China
- Prior art keywords
- reward
- lambda
- agent
- value
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 230000009916 joint effect Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于λ‑回报的异策略多智能体强化学习协作方法,使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设,通过使用λ‑回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度。本发明在非马尔可夫环境中较好的实现多个智能体的协作任务,为本领域的技术进步拓展了空间,实施效果好。
Description
技术领域
本发明属于自动控制领域,具体涉及一种基于λ-回报的异策略多智能体强化学习协作方法。
背景技术
近年来,强化学习从游戏领域到用于复杂的连续控制任务中都取得了巨大的成功。但是,许多现实世界中的问题本质上是存在多个智能体的,例如网络数据包路由,自动控制等,这些问题都带来了单智能体情形中从未遇到的巨大挑战。
特别地,在多智能体环境中的主要挑战包括联合动作空间的大小随智能体的数量成指数增长,由单个智能体的交互作用引起的不稳定环境,以及合作场景中的多智能体全局奖励分配问题。这些挑战使得将所有智能体视为单个元智能体的完全中心化方法,以及通过将其他智能体视为环境的一部分来分别训练每个智能体的完全分散式方法都变得非常困难。
最近,由于概念的简单性和实用性,中心化训练、分散执行(CentralizedTraining,Decentralized Execution,CTDE)的范式在多智能体强化学习中变得很流行。它的关键思想是在训练期间学习让所有智能体共享中心化价值函数(CVF),而每个智能体在执行阶段均以分散的方式进行执行。通过将CVF充当每个智能体的环境,结合适当的奖励分配机制,每个智能体各自的值函数可以被很方便地学习。
不幸的是,CVF在CTDE方法中发挥的核心作用在当前领域中似乎并没有得到足够的重视。目前学术界通常用单智能体设定下的方式来学习CVF,这导致在多智能体环境中会引入估计误差。此外,为了减少将中心化价值函数分解为单个价值函数的难度,许多算法在训练过程中对CVF的假设空间施加了额外的结构假设。例如,VDN,QMIX和QTRAN假定最佳联合行动等于每个智能体的最佳行动的集合。
另一方面,由于以下原因,估计多智能体环境中的CVF本质上是困难的:1)联合行动空间的“维度诅咒”导致经验稀疏;2)非马尔可夫性质的挑战[16]和多智能体环境中的部分可观测性比在单智能体环境更为严峻;3)多智能体环境的复杂且难以建模,部分原因是智能体之间的交互复杂。实际上,这些因素通常会导致CVF不可靠且不稳定,且偏差和方差很高。
因此,我们提出了一个具有高采样效率,基于CTDE框架的多智能体强化学习方法,称为SMIX(λ)。SMIX(λ)通过基于异策略的CVF学习方法改进了中心化价值函数估计,该方法消除了在训练过程中显式依赖中心化贪婪行为假设的需要,并且引入λ-回报可以更好地平衡偏差和方差,并更好地适应环境的非马尔可夫性质。SMIX(λ)使用异策略学习机制是由重要性采样驱动的,但是通过经验回放来实现。通过结合这些要素,SMIX(λ)方法有效地提高了采样效率并稳定了训练过程。
发明内容
发明目的:本发明提供一种基于λ-回报的异策略多智能体强化学习协作方法,具有高采样效率并能较好平衡偏差与方差的多智能体强化学习协作方法。
技术方案:本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法,包括以下步骤:
(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设;
(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差;
(3)使用经验回放机制来降低算法的样本复杂度。
近一步地,步骤(1)所述的中心化贪心假设通过以下公式实现:
其中,τ是历史轨迹,a是所有智能体的联合动作,Qtot(τ,a)为中心化的状态动作值函数,Qi为第i个智能体的状态动作值函数。
进一步地,所述步骤(1)包括以下步骤:
(11)从时刻t=0开始,获取所有智能体的局部观测值以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt};
(12)重复步骤(11)多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹;
(13)从经验池中采样一个大小为b的批轨迹;
(15)通过反向传播最小化损失函数;
(16)每采样完成100条轨迹后,将当前网络的参数复制到目标网络中。
进一步地,所述步骤(14)包括以下步骤:
(141)计算从t时刻开始的n步回报:
其中,θ-为目标网络的参数,γ为奖励值的折扣因子,τ为历史观测,a为联合动作,rt为t时刻智能体得到的奖励值;
进一步地,步骤(15)所述的最小化损失函数为:
有益效果:与现有技术相比,本发明的有益效果:通过使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设,通过使用λ-回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度;该模型可在非马尔可夫环境中较好的实现多个智能体的协作任务,为本领域的技术进步拓展了空间,实施效果好。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
如图1所示,本发明所述的一种基于λ-回报的异策略多智能体强化学习协作方法(SMIX(λ)),首先,使用与Sarsa算法类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的如下的中心化贪心假设:
这种方式使得值函数的学习更加灵活。然后,通过使用λ-回报来均衡值函数估计中存在的偏差和方差,通过调整λ值的大小,可以方便地偏差和方差中做取舍。最后,我们使用经验回放机制来实现异策略机制,这种方式有效地降低了算法的样本复杂度。尽管这种经验回放机制在已有的方法中经常被采用,但如何通过这种方式将Sarsa这种同策略算法改造成异策略算法尚未在已有的方法中出现过。具体包括以下步骤:
1、从时刻t=0开始,获取所有智能体的局部观测值以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt}。
2、重复步骤1多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹。
3、从经验池中采样一个大小为b的批轨迹。
6、每采样完成100条轨迹后将当前网络的参数复制到目标网络中。
因为多智能体强化学习算法的性能在模拟环境中进行评估,所以本算法在本领域内公认的星际争霸多智能体强化学习算法测试环境中进行了评估,并且选取了本领域内主流的多智能体强化学习算法进行比较(包含IQL,COMA,VDN,QMIX),通过一系列实验得到各算法在该环境中不同地图上的性能情况如表1:
表1在星际争霸不同地图下SMIX(λ)算法与其他四个算法的性能对比
结合上述实验结果可以看出,本发明所设计的方法模型在综合性能上优于当前主流的多智能强化学习算法,在最终性能和样本复杂度上均具有较好的表现。采用本发明后,能够有效地在模拟环境中协调多个智能体的行为以达到特定目标,该算法模型亦可对许多现实问题进行建模,例如多无人机的协作,多机器人的协作等。由此可见,本发明具有实质性技术特点和显著的技术进步,其应用前景非常广阔。
Claims (5)
1.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,包括以下步骤:
(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设;
(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差;
(3)使用经验回放机制来降低算法的样本复杂度。
3.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,所述步骤(1)包括以下步骤:
(11)从时刻t=0开始,获取所有智能体的局部观测值以及全局状态st,根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt};
(12)重复步骤(11)多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹;
(13)从经验池中采样一个大小为b的批轨迹;
(15)通过反向传播最小化损失函数;
(16)每采样完成100条轨迹后,将当前网络的参数复制到目标网络中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911373178.XA CN111079305A (zh) | 2019-12-27 | 2019-12-27 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911373178.XA CN111079305A (zh) | 2019-12-27 | 2019-12-27 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079305A true CN111079305A (zh) | 2020-04-28 |
Family
ID=70318277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911373178.XA Pending CN111079305A (zh) | 2019-12-27 | 2019-12-27 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079305A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626489A (zh) * | 2020-05-20 | 2020-09-04 | 杭州安恒信息技术股份有限公司 | 基于时序差分学习算法的最短路径规划方法和装置 |
CN111632387A (zh) * | 2020-06-12 | 2020-09-08 | 南京大学 | 一种基于星际争霸ii的指挥控制系统 |
CN111814988A (zh) * | 2020-07-07 | 2020-10-23 | 北京航空航天大学 | 一种多智能体协作环境强化学习算法的测试方法 |
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112215333A (zh) * | 2020-09-14 | 2021-01-12 | 清华大学 | 基于低阶高斯分布的多智能体协同探索方法及装置 |
CN113095500A (zh) * | 2021-03-31 | 2021-07-09 | 南开大学 | 一种基于多智能体强化学习的机器人追捕方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN113688977A (zh) * | 2021-08-30 | 2021-11-23 | 浙江大学 | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 |
CN113779302A (zh) * | 2021-09-09 | 2021-12-10 | 福州大学 | 基于值分解网络和多智能体强化学习的半分布式协作存储方法 |
CN114900619A (zh) * | 2022-05-06 | 2022-08-12 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理系统 |
WO2023225941A1 (en) * | 2022-05-26 | 2023-11-30 | Robert Bosch Gmbh | A computer-implemented method and an apparatus for reinforcement learning |
-
2019
- 2019-12-27 CN CN201911373178.XA patent/CN111079305A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626489A (zh) * | 2020-05-20 | 2020-09-04 | 杭州安恒信息技术股份有限公司 | 基于时序差分学习算法的最短路径规划方法和装置 |
CN111626489B (zh) * | 2020-05-20 | 2023-04-18 | 杭州安恒信息技术股份有限公司 | 基于时序差分学习算法的最短路径规划方法和装置 |
CN111632387A (zh) * | 2020-06-12 | 2020-09-08 | 南京大学 | 一种基于星际争霸ii的指挥控制系统 |
CN111814988A (zh) * | 2020-07-07 | 2020-10-23 | 北京航空航天大学 | 一种多智能体协作环境强化学习算法的测试方法 |
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112215333B (zh) * | 2020-09-14 | 2022-08-12 | 清华大学 | 基于低阶高斯分布的多智能体协同探索方法及装置 |
CN112215333A (zh) * | 2020-09-14 | 2021-01-12 | 清华大学 | 基于低阶高斯分布的多智能体协同探索方法及装置 |
CN113095500A (zh) * | 2021-03-31 | 2021-07-09 | 南开大学 | 一种基于多智能体强化学习的机器人追捕方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN113688977A (zh) * | 2021-08-30 | 2021-11-23 | 浙江大学 | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 |
CN113688977B (zh) * | 2021-08-30 | 2023-12-05 | 浙江大学 | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 |
CN113779302A (zh) * | 2021-09-09 | 2021-12-10 | 福州大学 | 基于值分解网络和多智能体强化学习的半分布式协作存储方法 |
CN113779302B (zh) * | 2021-09-09 | 2023-09-22 | 福州大学 | 基于值分解网络和多智能体的半分布式协作存储方法 |
CN114900619A (zh) * | 2022-05-06 | 2022-08-12 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理系统 |
WO2023225941A1 (en) * | 2022-05-26 | 2023-11-30 | Robert Bosch Gmbh | A computer-implemented method and an apparatus for reinforcement learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079305A (zh) | 一种基于λ-回报的异策略多智能体强化学习协作方法 | |
CN111563188B (zh) | 一种移动多智能体协同目标搜索方法 | |
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN110991545A (zh) | 一种面向多智能体对抗的强化学习训练优化方法及装置 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
Xiao et al. | Learning multi-robot decentralized macro-action-based policies via a centralized q-net | |
CN111178496A (zh) | 多代理强化学习合作任务场景下的代理间交换知识的方法 | |
CN113449458A (zh) | 一种基于课程学习的多智能体深度确定性策略梯度方法 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN112215364A (zh) | 一种基于强化学习的敌-友深度确定性策略方法及系统 | |
CN115562342A (zh) | 多飞行器任务分配、航迹规划和编队控制一体化博弈方法 | |
CN113848711B (zh) | 一种基于安全模型强化学习的数据中心制冷控制算法 | |
CN105955921A (zh) | 基于自动发现抽象动作的机器人分层强化学习初始化方法 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
Zhu et al. | Variationally and intrinsically motivated reinforcement learning for decentralized traffic signal control | |
CN116796844A (zh) | 一种基于m2gpi的无人机一对一追逃博弈方法 | |
CN116068900A (zh) | 面向多非完整约束移动机器人的强化学习行为控制方法 | |
CN116340737A (zh) | 基于多智能体强化学习的异构集群零通信目标分配方法 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
Li et al. | Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm | |
CN113126498A (zh) | 基于分布式强化学习的优化控制系统和控制方法 | |
CN114051256A (zh) | 一种择优近端策略优化方法 | |
Nguyen et al. | Bootstrapping Monte Carlo tree search with an imperfect heuristic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |