CN112396187A - 基于动态协作图的多智能体强化学习方法 - Google Patents
基于动态协作图的多智能体强化学习方法 Download PDFInfo
- Publication number
- CN112396187A CN112396187A CN202011298827.7A CN202011298827A CN112396187A CN 112396187 A CN112396187 A CN 112396187A CN 202011298827 A CN202011298827 A CN 202011298827A CN 112396187 A CN112396187 A CN 112396187A
- Authority
- CN
- China
- Prior art keywords
- agent
- agents
- intelligent
- group
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于动态协作图的多智能体强化学习方法,首先,结合注意力机制对多智能体协作图进行动态构建;其次,基于当前状态下构造的协作图,结合启发式规则进行显式分组;再其次,对于智能体小组内部的智能体采用max‑plus算法进行组内全局最优策略搜索;最后,采用超网络结合全局状态信息估计各组局部联合动作价值,进行信度分配。与现有技术相比,本发明针对多智能体系统提出的算法,在降低计算量的前提下,有效的提高了智能体之间的合作。
Description
技术领域
本发明涉及多智能体强化学习领域领域,特别是涉及一种多智能体强化学习方法。
背景技术
基于协作图的强化学习中的稀疏协作Q学习(sparse cooperative Q-learning)技术,将所有智能体的信息和相关关系表征在图表中,但是很难扩展到更大位的状态和动作空间动作值网络的表征能力(The Representational Capacity of Action-ValueNetworks)。使用神经网络近似不同尺寸大小的内在关系,但是仅仅在一次性决策博弈上进行了验证深度协作图(deep coordination graph)。基于Q学习端对端训练的值函数,结合max-plus算法将协作图扩展到深度学习下的连续决策任务下,但是由于该方法使用了完全连接协作图的原因,算法的可扩展性收到了一定的限制。多智能体强化学习系统中,常见的做法就是假设所有智能体之间都存在着隐式合作关系,利用智能体独立的动作值函数与两两智能体之间的局部联合动作值函数之和作为全局联合动作值函数进行策略估计。
基于值函数分解的强化学习中的值分解网络(Value Decomposition Network)采用单独动作值函数求和的方式计算联合动作值函数,训练过程中利用联合动作值函数对神经网络进行更新,执行时则基于单独动作值函数选择最优动作与环境交互。然而由于该方法假设联合动作值函数和单独动作值函数存在可加性假设,过于严格的限制以及对全局状态的忽略导致在某些较为复杂的任务上无法达到期望的效果。
QMIX算法针对值分解网络(VDN)的问题提出解决方案。为更准确的预测联合动作值函数,QMIX在集中式训练解决引入全局状态s进行训练,利用超网络将全局状态s映射到多维正值向量上,作为单独动作值函数的权重和偏置。基于这种方式对单独动作值函数进行加权求和,在放松可加性约束的同时利用全局信息提高值函数预测准确性。在一些值分解网络无法有效学习的环境上有较好的实验效果。
Qtran算法的提出是为了解决基于可加性约束的值分解网络和基于单调性约束的QMIX对于不满足其约束性的可分解任务无法做到有效的联合动作值函数分解的此类问题,但该方法计算量过大,且较为宽松的约束使得其在多数任务上无法获得较好的表现。
现有算法将多智能体系统类比为协作图。具体的,将智能体类比为协作图中的节点,智能体之间的合作关系类比为协作图的边。这些方法往往将协作图设计为完全连接的图结构,通过将联合动作状态值函数分解为智能体独立的动作值函数与两两智能体之间的局部联合动作值函数的方式,更准确的预测独立动作价值和联合动作价值,从而提高智能体之间的合作能力;另一方面,隐式的信度分配机制也能有效的避免智能体选择损害合作行为的动作。但是智能体之间的关系往往是动态变化的,某些时刻合作关系并不存在于任意两个智能体之间。显然,更为准确的协作图的构建会带来更准确的值函数的表达,进而学习到更接近最优策略的联合动作决策。
发明内容
本发明旨在解决多智能体系统下智能体之间的合作效率问题,而提出了一种基于动态协作图的多智能体强化学习方法,结合注意力机制提取智能体之间的动态合作关系,进一步结合max-plus算法和超网络进行智能体策略提升,有效促进了智能体之间的合作。
1.本发明的一种基于动态协作图的多智能体强化学习方法,其特征在于,该方法具体包括以下步骤:
步骤1、基于多智能体系统构建动态协作图:
将多智能体系统中的智能体作为图结构中的节点,节点信息为智能体的局部观察o;对智能体局部观察及其属性信息进行隐式特征提取,使相关智能体的特征信息相似度尽可能的增大,明确当前状态下的合作关系之后,采用注意力机制来构建多智能体系统动态协作图;动态协作图构建及多智能体分组过程如下:
步骤1-1、进行智能体特征的提取,输出信息为该智能体的隐式特征信息xi,公式如下:
xi=embedding(ai,oi) (1)
其中,oi表示智能体的局部观察及其属性信息,ai表示智能体基于局部观察和策略所选择的动作,embedding表示多层神经元感知器,隐藏层激活函数为relu;
步骤1-2、基于注意力机制计算智能体之间的合作关系权重wi,j,公式如下:
其中,VQ表示智能体的特征矩阵,VK表示除了当前智能体外其余智能体的特征矩阵,通过矩阵相乘计算两两智能体之间的相似度,softmax将相似度值进行归一化,同满足其他所有智能体的相关权重之和为1的约束;
完成合作关系权重的计算后,设置阈值ρ,筛选掉权重较小的关系,基于较大权重wi,j连接协作图内的节点,构建动态协作图;
步骤1-3、完成动态协作图的构建后,将智能体动态的进行启发式分组,进一步在保证高效合作的条件下提升训练效率,具体步骤如下:
将多智能体系统中智能体之间的关系比作动态的协作图,协作图中的节点表示智能体,边则表示智能体之间的隐式关系;以对抗单位为中心,智能体的视野距离为半径作圆,圆内存在的智能体作为同组智能体,对于处于多个组内的智能体则依据合作关系权重分配到与其权重之和最大的组内;对于不包含在任何小组的智能体采取上述同样的分组机制;
步骤2、进行组内联合最优策略搜索:每个智能体i重复地向其相关智能体j发送消息μi,j(αj);其中,μi,j将代理j的动作aj映射到一个实数,如下所示:
其中,Γ(i)\j表示与智能体i相连所有智能体中,除了智能体j的任意其他智能体k,ci,j表示归一化向量;
直到收敛;
步骤3、进行组间信度分配:采用集中式训练分布式执行的训练范式,各组智能体的集中式价值网络收集各组联合状态和联合动作信息,得到对应组的价值函数;于此同时,利用超网络对全局状态进行提取,网络输入全局状态信息,分别输出第一层网络权重和偏差以及第二层网络权重和偏差,并对各参数进行绝对值运算,以满足价值分解的单调性假设;然后分别利用两层权重和偏差对各个小组局部联合动作价值的权重完成两次加权求和运算,层间激活函数采用relu进行非线性变换;最终从全局的角度将全局价值分解成以组为最小单位的局部价值,完成隐式的信度分配过程,从而提升合作质量。
与现有技术相比,本发明针对多智能体系统提出的算法,在降低计算量的前提下,有效的提高了智能体之间的合作。
附图说明
图1为本发明的基于动态协作图的多智能体强化学习方法整体流程示意图;
图2为本发明的基于动态协作图的多智能体强化学习方法实施例示意图;
图3为动态协作图构建及多智能体分组过程示意图;
图4为启发式分组示意图;
图5为局部最优策略搜索示意图
图6为超网络示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进一步说明。
本发明基于现实场景中智能体之间的关系会随着状态的变化发生改变的特点,结合注意力机制对多智能体协作图进行动态构建;其次,基于当前状态下构造的协作图,结合启发式规则进行显式分组;再其次,对于智能体小组内部的智能体采用max-plus算法进行组内全局最优策略搜索;最后,采用超网络结合全局状态信息估计各组局部联合动作价值,进行信度分配。
由于多智能体之间的关系并不是一直存在的,因此如何提取当前状态下的隐式合作关系成为了本发明的关键。如图1所示,为本发明的基于动态协作图的多智能体强化学习方法整体流程示意图。具体流程如下:
步骤1、基于多智能体系统构建动态协作图:
将多智能体系统中的智能体作为图结构中的节点,节点信息为智能体的局部观察o;对智能体局部观察及其属性信息进行隐式特征提取,使相关智能体的特征信息相似度尽可能的增大,明确当前状态下的合作关系之后,采用注意力机制来构建多智能体系统动态协作图;动态协作图构建及多智能体分组过程如下:
步骤1-1、进行智能体特征的提取,输出信息为该智能体的隐式特征信息xi,公式如下:
xi=embedding(ai,oi) (1)
其中,oi表示智能体的局部观察及其属性信息,ai表示智能体基于局部观察和策略所选择的动作,embedding表示多层神经元感知器,隐藏层激活函数为relu。
步骤1-2、基于注意力机制计算智能体之间的合作关系权重wi,j,公式如下:
其中,VQ表示智能体的特征矩阵,VK表示除了当前智能体外其余智能体的特征矩阵,通过矩阵相乘计算两两智能体之间的相似度,softmax将相似度值进行归一化,同满足其他所有智能体的相关权重之和为1的约束;
完成合作关系权重的计算后,设置阈值ρ,筛选掉权重较小的关系,基于较大权重wi,j连接协作图内的节点,构建动态协作图;
步骤1-3、完成动态协作图的构建后,本发明创新地的采用启发式的方法将智能体动态的进行分组,进一步在保证高效合作的条件下提升训练效率,具体步骤如下:
将多智能体系统中智能体之间的关系比作动态的协作图,协作图中的节点表示智能体,边则表示智能体之间的隐式关系;以对抗单位为中心,智能体的视野距离为半径作圆,圆内存在的智能体作为同组智能体,对于处于多个组内的智能体则依据合作关系权重分配到与其权重之和最大的组内;对于不包含在任何小组的智能体采取上述同样的分组机制;如图3所示,为动态协作图构建及多智能体分组过程示意图。如图4所示,为启发式分组示意图。
步骤2、进行组内联合最优策略搜索:每个智能体i重复地向其相关智能体j发送消息μi,j(αj);其中,μi,j将代理j的动作αj映射到一个实数,如下所示:
其中,Γ(i)\j表示与智能体i相连所有智能体中,除了智能体j的任意其他智能体k,ci,j表示归一化向量;
消息μi,j(αj)为对于相关智能体j的给定动作,任意智能体i可以获得的最大回报。它可以通过最大化回报函数fi和fi,j,以及所有传到i的消息(除了来自j)的总和来计算。智能体之间不断交换消息,直到收敛。
如图5所示,从智能体2的角度来看,智能体2会收到来自于智能体1、智能体3以及智能体4传来的信息,该部分信息可以理解为智能体2根据与组内其他智能体局部联合最优动作价值函数对应的动作选择其动作,此外,会发送当前动作选择信息来指导智能体1、智能体3和智能体4的动作选择,多次迭代后传递的信息会逐渐收敛,最终完成组内的最优联合动作选择。
步骤3、进行组间信度分配:采用集中式训练分布式执行的训练范式,各组智能体的集中式价值网络收集各组联合状态和联合动作信息,得到对应组的价值函数。于此同时,利用超网络对全局状态进行提取,网络输入全局状态信息,分别输出第一层网络权重和偏差以及第二层网络权重和偏差,并对各参数进行绝对值运算,以满足价值分解的单调性假设。然后分别利用两层权重和偏差对各个小组局部联合动作价值的权重完成两次加权求和运算,层间激活函数采用relu进行非线性变换。最终从全局的角度将全局价值分解成以组为最小单位的局部价值,完成隐式的信度分配过程,从而提升合作质量。
本发明主要解决多智能体系统中,智能体如何有效提取实际存在的合作关系以及如何结合信度分配机制更准确的预测智能体的动作价值的问题,最终目的是加速策略收敛的同时使得智能体达到更高水平的合作。
Claims (1)
1.一种基于动态协作图的多智能体强化学习方法,其特征在于,该方法具体包括以下步骤:
步骤1、基于多智能体系统构建动态协作图:
将多智能体系统中的智能体作为图结构中的节点,节点信息为智能体的局部观察o;对智能体局部观察及其属性信息进行隐式特征提取,使相关智能体的特征信息相似度尽可能的增大,明确当前状态下的合作关系之后,采用注意力机制来构建多智能体系统动态协作图;动态协作图构建及多智能体分组过程如下:
步骤1-1、进行智能体特征的提取,输出信息为该智能体的隐式特征信息xi,公式如下:
xi=embedding(ai,oi) (1)
其中,oi表示智能体的局部观察及其属性信息,ai表示智能体基于局部观察和策略所选择的动作,embedding表示多层神经元感知器,隐藏层激活函数为relu;
步骤1-2、基于注意力机制计算智能体之间的合作关系权重wi,j,公式如下:
其中,VQ表示智能体的特征矩阵,VK表示除了当前智能体外其余智能体的特征矩阵,通过矩阵相乘计算两两智能体之间的相似度,softmax将相似度值进行归一化,同满足其他所有智能体的相关权重之和为1的约束;
完成合作关系权重的计算后,设置阈值ρ,筛选掉权重较小的关系,基于较大权重wi,j连接协作图内的节点,构建动态协作图;
步骤1-3、完成动态协作图的构建后,将智能体动态的进行启发式分组,进一步在保证高效合作的条件下提升训练效率,具体步骤如下:
将多智能体系统中智能体之间的关系比作动态的协作图,协作图中的节点表示智能体,边则表示智能体之间的隐式关系;以对抗单位为中心,智能体的视野距离为半径作圆,圆内存在的智能体作为同组智能体,对于处于多个组内的智能体则依据合作关系权重分配到与其权重之和最大的组内;对于不包含在任何小组的智能体采取上述同样的分组机制;
步骤2、进行组内联合最优策略搜索:每个智能体i重复地向其相关智能体j发送消息μi,j(aj);其中,μi,j将代理j的动作aj映射到一个实数,如下所示:
其中,Γ(i)\j表示与智能体i相连所有智能体中,除了智能体j的任意其他智能体k,ci,j表示归一化向量;
直到收敛;
步骤3、进行组间信度分配:采用集中式训练分布式执行的训练范式,各组智能体的集中式价值网络收集各组联合状态和联合动作信息,得到对应组的价值函数;于此同时,利用超网络对全局状态进行提取,网络输入全局状态信息,分别输出第一层网络权重和偏差以及第二层网络权重和偏差,并对各参数进行绝对值运算,以满足价值分解的单调性假设;然后分别利用两层权重和偏差对各个小组局部联合动作价值的权重完成两次加权求和运算,层间激活函数采用relu进行非线性变换;最终从全局的角度将全局价值分解成以组为最小单位的局部价值,完成隐式的信度分配过程,从而提升合作质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298827.7A CN112396187A (zh) | 2020-11-19 | 2020-11-19 | 基于动态协作图的多智能体强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298827.7A CN112396187A (zh) | 2020-11-19 | 2020-11-19 | 基于动态协作图的多智能体强化学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112396187A true CN112396187A (zh) | 2021-02-23 |
Family
ID=74607462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011298827.7A Pending CN112396187A (zh) | 2020-11-19 | 2020-11-19 | 基于动态协作图的多智能体强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396187A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949856A (zh) * | 2021-03-09 | 2021-06-11 | 华东师范大学 | 基于稀疏注意力机制的多智能体强化学习方法及系统 |
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN113642233A (zh) * | 2021-07-29 | 2021-11-12 | 太原理工大学 | 一种通信机制优化的群体智能协同方法 |
CN113779302A (zh) * | 2021-09-09 | 2021-12-10 | 福州大学 | 基于值分解网络和多智能体强化学习的半分布式协作存储方法 |
CN113902125A (zh) * | 2021-09-24 | 2022-01-07 | 浙江大学 | 一种基于深度分层强化学习的组内合作智能体控制方法 |
CN114626499A (zh) * | 2022-05-11 | 2022-06-14 | 之江实验室 | 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法 |
-
2020
- 2020-11-19 CN CN202011298827.7A patent/CN112396187A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949856A (zh) * | 2021-03-09 | 2021-06-11 | 华东师范大学 | 基于稀疏注意力机制的多智能体强化学习方法及系统 |
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN113313267B (zh) * | 2021-06-28 | 2023-12-08 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN113642233A (zh) * | 2021-07-29 | 2021-11-12 | 太原理工大学 | 一种通信机制优化的群体智能协同方法 |
CN113642233B (zh) * | 2021-07-29 | 2023-12-29 | 太原理工大学 | 一种通信机制优化的群体智能协同方法 |
CN113779302A (zh) * | 2021-09-09 | 2021-12-10 | 福州大学 | 基于值分解网络和多智能体强化学习的半分布式协作存储方法 |
CN113779302B (zh) * | 2021-09-09 | 2023-09-22 | 福州大学 | 基于值分解网络和多智能体的半分布式协作存储方法 |
CN113902125A (zh) * | 2021-09-24 | 2022-01-07 | 浙江大学 | 一种基于深度分层强化学习的组内合作智能体控制方法 |
CN114626499A (zh) * | 2022-05-11 | 2022-06-14 | 之江实验室 | 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396187A (zh) | 基于动态协作图的多智能体强化学习方法 | |
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
CN109948029B (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
Wang et al. | Adaptive and large-scale service composition based on deep reinforcement learning | |
CN113313947A (zh) | 短期交通预测图卷积网络的路况评估方法 | |
CN113435472A (zh) | 车载算力网络用户需求预测方法、系统、设备、介质 | |
WO2021036414A1 (zh) | 一种低轨移动卫星星座下星地下行链路同频干扰预测方法 | |
CN111935724B (zh) | 基于异步深度强化学习的无线传感器网络拓扑优化方法 | |
Ni et al. | Hdpg: Hyperdimensional policy-based reinforcement learning for continuous control | |
CN114896899A (zh) | 一种基于信息交互的多智能体分散式决策方法及系统 | |
CN107092987A (zh) | 一种中小型无人机自主着舰风速预测方法 | |
CN115001937B (zh) | 面向智慧城市物联网的故障预测方法及装置 | |
CN109800517A (zh) | 一种改进的磁流变阻尼器逆向建模方法 | |
CN116582442A (zh) | 一种基于层次化通信机制的多智能体协作方法 | |
Juang et al. | A self-generating fuzzy system with ant and particle swarm cooperative optimization | |
CN117852915A (zh) | 一种基于dqn的信息系统弹性适变策略求解方法 | |
CN117395687A (zh) | 一种星地融合网络节点资源部署方法、系统及电子设备 | |
Lin | A VaFALCON neuro-fuzzy system for mining of incomplete construction databases | |
CN116578858A (zh) | 基于图神经网络的空压机故障预测与健康度评价方法及系统 | |
Mandeh et al. | Data fusion in wireless sensor networks using fuzzy systems | |
Rolim et al. | Comparison of a multi output adaptative neuro-fuzzy inference system (manfis) and multi layer perceptron (mlp) in cloud computing provisioning | |
CN114743374A (zh) | 基于图网络的多元交通流预测方法 | |
Taylor et al. | Two decades of multiagent teamwork research: past, present, and future | |
Zhao et al. | Learning multi-agent communication with policy fingerprints for adaptive traffic signal control | |
Wang et al. | Multi-agent cognition difference reinforcement learning for multi-agent cooperation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210223 |
|
WD01 | Invention patent application deemed withdrawn after publication |