CN113780576A - 基于奖励自适应分配的合作多智能体强化学习方法 - Google Patents
基于奖励自适应分配的合作多智能体强化学习方法 Download PDFInfo
- Publication number
- CN113780576A CN113780576A CN202111042531.3A CN202111042531A CN113780576A CN 113780576 A CN113780576 A CN 113780576A CN 202111042531 A CN202111042531 A CN 202111042531A CN 113780576 A CN113780576 A CN 113780576A
- Authority
- CN
- China
- Prior art keywords
- reward
- agent
- sub
- method based
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Abstract
针对完全合作式多智能体强化学习过程中,由于每个智能体获得一个共同的全局奖励,无法确定自身动作对整体奖励的影响,导致算法模型的训练效率低下及最终性能不佳的问题,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。
Description
技术领域
本发明属于智能体强化学习技术领域,更具体地,涉及一种基于奖励自适应分配的合作多智能体强化学习方法。
背景技术
近年来,随着单智能体深度强化学习技术广泛取得的突破性进展,也推动了多智能体强化学习的发展和研究,在实际情形中,往往存在多个独立自主决策的智能体,因此,多智能体强化学习的研究具有十分重要的应用价值。
完全合作式多智能体与环境的交互过程如附图1所示,环境中一共有n个独立自主决策的智能体,过程主要如下:(1)在时刻t,智能体i感知当前的环境状态st,得到自身的局部观测信息(2)智能体根据当前的局部观测信息及当前采取的策略从动作空间A中选择一个动作组成联合动作(3)当多智能体的联合动作作用于环境时,环境转移到新状态st+1,并给出一个全局奖励回报值rt;如此循环。
其中,奖励回报指的是智能体在与环境的交互中获得的来自环境的评价性质的反馈信号。智能体通过强化学习方法,确定如何在环境中采取一系列行为动作,使长期的累积回报最大化。由于在完全合作式多智能体强化学习中只能获得全局回报,单个智能体无法确定自身动作对整体回报的影响,单个智能体学习的方向不明确,导致算法模型训练效率低下,甚至无法收敛。
目前常用的方法是采用值分解方法隐式的解决奖励分配问题,但是这类方法需要联合训练全局值函数、每个智能体的局部值函数以及二者之间的关系参数,存在训练效率低、多智能体之间协作能力不足、无法适应大规模场境的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据观测到的环境状态自适应计算单个智能体的子奖励回报权重,并据此计算分配给单个智能体的局部奖励回报,即由子奖励回报值与子奖励回报的权重相乘得到的加权和,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。
为实现上述目的,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
(2)初始化模型参数;
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh,其中o=(o1,……,on)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
本发明的一个实施例中,所述多智能体是完全合作关系,即具有一个共同的目标。
本发明的一个实施例中,所述步骤(2)中,初始化的模型参数包括:子奖励回报权重生成策略函数π(oi|θ)的参数θ,智能体的局部状态-动作值函数的参数子奖励回报权重评价器Qtot(o,w|θh)的参数θh。
本发明的一个实施例中,间隔步长数5≤K≤20。
本发明的一个实施例中,所述智能体的可执行的动作为离散的动作,且数量≤5。
本发明的一个实施例中,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
本发明的一个实施例中,所述智能体的数量不大于10。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)显式的对全局奖励回报进行分配得到单个智能体的局部奖励回报,能够引导单个智能体根据环境的变化做出有利于全局任务的行动,提高了多智能体的协作能力;
(2)通过显式的奖励分配使得单个智能体的学习具有目的性,能够提升模型算法的训练效率和最终的性能。
附图说明
图1是完全合作式多智能体强化学习中交互过程示意图;
图2是本发明提供的基于奖励自适应分配的合作多智能体强化学习方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图2所示,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
例如,子奖励回报的种类数量为4≤m≤10;
(2)初始化模型参数;
其中,所述多智能体是完全合作关系,即具有一个共同的目标;
一般地,所述智能体的数量不大于10;
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh,其中o=(o1,……,on)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的全局累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
进一步地,本发明实施例中,间隔步长数5≤K≤20;
进一步地,所述智能体的可执行的动作为离散的动作,且数量≤5。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
(2)初始化模型参数;
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh,其中o=(o1,……,on)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的全局累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
2.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述多智能体是完全合作关系,即具有一个共同的目标。
6.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,间隔步长数5≤K≤20。
8.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述智能体的可执行的动作为离散的动作,且数量≤5。
9.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
10.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述智能体的数量不大于10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042531.3A CN113780576B (zh) | 2021-09-07 | 2021-09-07 | 基于奖励自适应分配的合作多智能体强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042531.3A CN113780576B (zh) | 2021-09-07 | 2021-09-07 | 基于奖励自适应分配的合作多智能体强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780576A true CN113780576A (zh) | 2021-12-10 |
CN113780576B CN113780576B (zh) | 2023-05-23 |
Family
ID=78841439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111042531.3A Active CN113780576B (zh) | 2021-09-07 | 2021-09-07 | 基于奖励自适应分配的合作多智能体强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780576B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987963A (zh) * | 2021-12-23 | 2022-01-28 | 北京理工大学 | 一种分布式信道汇聚策略生成方法及装置 |
CN114690623A (zh) * | 2022-04-21 | 2022-07-01 | 中国人民解放军军事科学院战略评估咨询中心 | 一种值函数快速收敛的智能体高效全局探索方法及系统 |
CN116628520A (zh) * | 2023-07-24 | 2023-08-22 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
US20210174205A1 (en) * | 2019-11-28 | 2021-06-10 | GoodAI Research s.r.o. | Artificial intelligence system |
US20210200163A1 (en) * | 2019-12-13 | 2021-07-01 | Tata Consultancy Services Limited | Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings |
-
2021
- 2021-09-07 CN CN202111042531.3A patent/CN113780576B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210174205A1 (en) * | 2019-11-28 | 2021-06-10 | GoodAI Research s.r.o. | Artificial intelligence system |
US20210200163A1 (en) * | 2019-12-13 | 2021-07-01 | Tata Consultancy Services Limited | Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings |
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987963A (zh) * | 2021-12-23 | 2022-01-28 | 北京理工大学 | 一种分布式信道汇聚策略生成方法及装置 |
CN114690623A (zh) * | 2022-04-21 | 2022-07-01 | 中国人民解放军军事科学院战略评估咨询中心 | 一种值函数快速收敛的智能体高效全局探索方法及系统 |
CN114690623B (zh) * | 2022-04-21 | 2022-10-25 | 中国人民解放军军事科学院战略评估咨询中心 | 一种值函数快速收敛的智能体高效全局探索方法及系统 |
CN116628520A (zh) * | 2023-07-24 | 2023-08-22 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
CN116628520B (zh) * | 2023-07-24 | 2023-09-29 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113780576B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563188B (zh) | 一种移动多智能体协同目标搜索方法 | |
CN113780576A (zh) | 基于奖励自适应分配的合作多智能体强化学习方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN109325580A (zh) | 一种用于服务组合全局优化的自适应布谷鸟搜索方法 | |
CN113033072A (zh) | 一种基于多头注意力指针网络的成像卫星任务规划方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
CN113592101A (zh) | 一种基于深度强化学习的多智能体协作模型 | |
CN111768028A (zh) | 一种基于深度强化学习的gwlf模型参数调节方法 | |
CN111246438B (zh) | 一种基于强化学习的m2m通信中中继节点的选择方法 | |
CN112804103A (zh) | 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
CN111967199A (zh) | 一种强化学习多代理合作任务下的代理贡献分配的方法 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
Liu et al. | Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards | |
CN115187056A (zh) | 一种考虑公平性原则的多智能体协同资源分配方法 | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
Yu et al. | A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 | |
CN116755046B (zh) | 一种不完美专家策略的多功能雷达干扰决策方法 | |
CN116938732A (zh) | 一种基于强化学习算法的通信拓扑优化方法 | |
Zhai et al. | Dynamic belief for decentralized multi-agent cooperative learning | |
CN115691110B (zh) | 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |