CN109726903B - 基于注意力机制的分布式多智能体协同决策方法 - Google Patents
基于注意力机制的分布式多智能体协同决策方法 Download PDFInfo
- Publication number
- CN109726903B CN109726903B CN201811558195.6A CN201811558195A CN109726903B CN 109726903 B CN109726903 B CN 109726903B CN 201811558195 A CN201811558195 A CN 201811558195A CN 109726903 B CN109726903 B CN 109726903B
- Authority
- CN
- China
- Prior art keywords
- attention
- information
- agent
- decision
- local observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种基于注意力机制的分布式多智能体协同决策方法,基于注意力机制对分布式多智能体观测信息进行融合,包括局部观测信息编码步骤,基于注意力机制权重计算步骤,注意力(Attention)系数计算步骤,局部观测信息加权求和步骤,注意力信息与位置信息融合步骤和决策概率求解步骤。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息,将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。
Description
技术领域
本发明涉及一种智能决策领域,具体的,是一种基于注意力机制的分布式多智能体协同决策方法,其将分布式多智能体观测信息进行融合,并将其与单智能体id进行编码融合,形成决策特征,为最终的决策提供丰富有效的信息,提供决策水平。
背景技术
多智能体系统是由相互配合的计算单元—智能体所组成的系统。智能体协同是将多个单智能体组织为一个群体并使各个智能体有效地进行协调合作,从而产生总体解决问题的能力。多智能体系统构成方式分为集中式和分布式两种。集中式系统有一个核心Agent和多个与之在结构上分散的、独立的协作Agent构成。核心的Agent负责任务的动态分配与资源的动态调度,协调各协作Agent间的竞争与合作,该类系统比较容易实现系统的管理、控制和调度;分布式系统中各Agent彼此独立、完全平等、无逻辑上的主从关系,各Agent按预先规定的协议,根据系统的目标、状态与自身的状态、能力、资源和知识,利用通信网络相互间通过协商与谈判,确定各自的任务,协调各自的行为活动,实现资源、知识、信息和功能的共享,协作完成共同的任务,以达到整体目标,该系统具有良好的封装性、容错性、开放性和可扩展性。
基于环境反馈信息自主形成应对策略,一直是智能体研究领域里的核心话题。在过去的一段时间中,计算能力不足和提升策略的限制使得这一领域一直缺乏根本性的进展。近年来,由于摩尔定律以及深度神经网络方法的应用,硬件性能和提升算法有了长足的进步。随着神经网络在增强学习任务中投入应用,业界不断发展出来一系列相对成熟的智能体训练策略。
现有技术中,较先进的多智能体协同问题多采用DQN(Deep Q Network,深度Q值网络)或者DDPG(Deep Deterministic Policy Gradient,深度决定策略梯度)作为个体行动策略,在此基础上进行个体间神经网络的设计与规划。在多智能体协作问题的研究中,相对主流的实现方法是2016年提出的CommNet(Communication Neural Net,交流神经网络)、RIAL(Reinforced Inter-agent Learning,增强智能体间学习)和DIAL(DifferentiableInter-agent Learning,差异智能体间学习),基于二者发展出的最新方法是2017年提出的BiCNet。CommNet默认智能体一定范围内的全联结,对多个同类的智能体采用了同一个网络,用当前态(隐态)和交流信息得出下一时刻的状态,信息交流从利用隐态的均值得出。其优点能够根据现实位置变化对智能体联结结构做出自主规划,而缺点在于信息采用均值过于笼统,不能够处理多个种类的智能体。除此以外,RIAL和DIAL个体行为中采取了类DQN的解决方式,在智能体间进行单向信息交流,采用了单向环整体架构,两者的区别在于RIAL向一个智能体传递的是Q网络结果中的极大值,DIAL则传递的是Q网络的所有结果。在实验中,两者均可以解决多种类协同的现实问题,且DIAL表现出了很好的抗信号干扰能力。但是,在处理非静态环境的快速反应问题上,RIAL与DIAL的表现仍旧不足。借鉴之前CommNet和DIAL的研究,阿里巴巴团队为了解决多智能体的协作问题,提出了使用BiCNet决多智能体协作的方法。相较于之前的研究,BiCNet在个体行为上采取了DDPG取代DQN作为提升方法,在群体连接中采用了双向循环网络取代单向网络进行联结。这一方法在DIAL的基础上利用了双向信息传递取代单向信息传递,在多种类协同的基础上一定程度上解决了快速反应的问题。然而,BiCNet的组织架构思想仍旧没有摆脱链状拓扑或者环状拓扑结构,且不具有动态规划能力,在现实实践中会有很大问题。在相互摧毁的真实战术背景下,不具有动态规划能力的网络中一点的破坏会导致所有经过该点的所有信息交流彻底终止。在无恢复的前提下,链状拓扑和环状拓扑对于网络中的每一端点过分依赖,导致少量几点的破坏会对智能体交流网络造成毁灭性影响,团体被彻底拆分失去交流协同能力
因此,传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联,并且传统的决策网络不够重视位置信息。因此,如何能够解决上述问题,提出一种新的分布式多智能体协同决策方法成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于注意力机制的分布式多智能体协同决策方法及存储介质,提高单智能体的信息交流,使得单智能体获取充分的全局信息,从而为最终的决策提供丰富有效的信息,提供决策水平。
为达此目的,本发明采用以下技术方案:
一种基于注意力机制的分布式多智能体协同决策方法,其特征在于:
该多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,…,N,可选动作维度为m,则第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi
即,可用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1)
然后进行池化,qi=pool(qi) 式(2);
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,…,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,…,N;
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,…,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj;
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qj对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi
Attention信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
其中,T为注意力参数、P为位置参数,
注意力(Attention)信息特征和位置信息特征融合方式如下:
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数,
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj,
可选的,在步骤S110中,卷积和池化的大小可以根据局部观测信息的大小进行自行设定。
可选的,在步骤S120中,采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。
可选的,注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。
本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于注意力机制的分布式多智能体协同决策方法。
本发明具有如下优点:
(1)传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息。
(2)传统的决策网络不够重视位置信息,在决策过程中的重要性,本发明将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。
附图说明
图1是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策方法的流程图;
图2是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策的形象示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于:基于注意力机制对分布式多智能体观测信息进行融合,并将其与单智能体id进行编码融合,形成决策特征,为最终的决策提供丰富有效的信息,提供决策水平。
具体而言,参见图1,示出了基于注意力机制的分布式多智能体协同决策方法的流程图,图2,示出了基于注意力机制的分布式多智能体协同决策的形象示意图。
针对多智能体系统,该多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,…,N,可选动作维度为m,则第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi
即,可用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1)
然后进行池化,qi=pool(qi) 式(2)
可选的,卷积和池化的大小可以根据局部观测信息的大小进行自行设定。
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制中Query和Key的方式分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,…,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,…,N。
可选的,可以采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。
其中,向量点积形式计算公式为:
Similarity(Qi,Qj)=(Qi,Qj), 式(3)
Cosine相似性计算公式为:
多层感知网络相似性计算公式为:
Similarity(Qi,Qj)=MLP(Qi,Qj) 式(5)。
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,…,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj,j=1,2,…,N;
在该步骤中,根据步骤S130计算方法不同得到的权重系数可能不同,而通过归一化,可以将原始计算的权重系数Simj整理成所有元素权重之和为1的概率分布。该归一化系数αj即为注意力机制中的注意力(Attention)系数。
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qi对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对注意力(Attention)信息,即局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi
Attention信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
注意力(Attention)信息特征和位置信息特征融合方式如下:
其中,T为注意力参数,P为位置参数。两者均可以为矩阵的形式。
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数。
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj,
在一个可选的实施例中,注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。
本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于注意力机制的分布式多智能体协同决策方法。
本发明具有如下优点:
(1)传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息。
(2)传统的决策网络不够重视位置信息,在决策过程中的重要性,本发明将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (7)
1.一种基于注意力机制的分布式多智能体协同决策方法,其特征在于:
多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,...,N,可选动作维度为m,第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi,
即,用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1),
然后进行池化,qi=pool(qi) 式(2);
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,...,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,...,N;
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,...,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj,j=1,2,...,N;该归一化系数αj即为注意力机制中的注意力(Attention)系数;
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qj对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi,
注意力信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
其中,T为注意力参数、P为位置参数,
注意力信息特征和位置信息特征融合方式如下:
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数,
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj,
2.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S110中,卷积和池化的大小根据局部观测信息的大小进行自行设定。
3.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S120中,采用向量点积形式计算权重系数,
Similarity(Qi,Qj)=(Qi,Qj), 式(3)。
5.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S120中,采用多层感知网络相似性计算权重系数,
Similarity(Qi,Qj)=MLP(Qi,Qj) 式(5)。
6.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
注意力参数T、位置参数P和特征提取参数H根据模仿学习、强化学习的方式迭代计算得到。
7.一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的基于注意力机制的分布式多智能体协同决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811558195.6A CN109726903B (zh) | 2018-12-19 | 2018-12-19 | 基于注意力机制的分布式多智能体协同决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811558195.6A CN109726903B (zh) | 2018-12-19 | 2018-12-19 | 基于注意力机制的分布式多智能体协同决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726903A CN109726903A (zh) | 2019-05-07 |
CN109726903B true CN109726903B (zh) | 2020-10-16 |
Family
ID=66296193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811558195.6A Active CN109726903B (zh) | 2018-12-19 | 2018-12-19 | 基于注意力机制的分布式多智能体协同决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726903B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275527B (zh) * | 2019-05-29 | 2022-02-11 | 南京航空航天大学 | 一种基于改进拟态物理法的多智能体系统运动控制方法 |
CN110164151A (zh) * | 2019-06-21 | 2019-08-23 | 西安电子科技大学 | 基于分布式深度循环q网络的交通灯控制方法 |
CN110442129B (zh) * | 2019-07-26 | 2021-10-22 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN111144557A (zh) * | 2019-12-31 | 2020-05-12 | 中国电子科技集团公司信息科学研究院 | 一种基于级联模式的动作策略方法 |
CN111514585B (zh) * | 2020-03-17 | 2022-02-11 | 南京知能科技有限公司 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN113239513B (zh) * | 2021-04-01 | 2023-06-30 | 中国电子科技集团公司信息科学研究院 | 多智能体的一致性分析方法、系统及应用 |
CN113326902B (zh) * | 2021-07-08 | 2021-11-05 | 中国人民解放军国防科技大学 | 基于在线学习的策略获取方法、装置及设备 |
CN113625757B (zh) * | 2021-08-12 | 2023-10-24 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
CN114021737B (zh) * | 2021-11-04 | 2023-08-22 | 中国电子科技集团公司信息科学研究院 | 一种基于博弈的强化学习方法、系统、终端及存储介质 |
CN114130034B (zh) * | 2021-11-19 | 2023-08-18 | 天津大学 | 基于注意力机制与强化学习的多智能体游戏ai设计方法 |
CN114083539B (zh) * | 2021-11-30 | 2022-06-14 | 哈尔滨工业大学 | 一种基于多智能体强化学习的机械臂抗干扰运动规划方法 |
CN114139637B (zh) * | 2021-12-03 | 2022-11-04 | 哈尔滨工业大学(深圳) | 多智能体信息融合方法、装置、电子设备及可读存储介质 |
CN114827138A (zh) * | 2022-03-28 | 2022-07-29 | 中国电子科技集团公司第五十四研究所 | 一种基于全局信息的群体分布式协商方法 |
CN115565104A (zh) * | 2022-09-28 | 2023-01-03 | 华为技术有限公司 | 一种动作预测方法及其相关设备 |
CN115840892B (zh) * | 2022-12-09 | 2024-04-19 | 中山大学 | 一种复杂环境下多智能体层次化自主决策方法及系统 |
CN117289668B (zh) * | 2023-11-24 | 2024-02-02 | 深圳市陶氏精密技术有限公司 | 分布式减速机网络协同控制方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3558268A4 (en) * | 2016-12-22 | 2020-08-12 | Xenamed Corp. | DROXIDOPA COMPOSITIONS AND PROCEDURES |
CN107230351B (zh) * | 2017-07-18 | 2019-08-09 | 福州大学 | 一种基于深度学习的短时交通流预测方法 |
CN107544960B (zh) * | 2017-08-29 | 2020-01-14 | 中国科学院自动化研究所 | 一种基于变量绑定和关系激活的自动问答方法 |
CN108133038B (zh) * | 2018-01-10 | 2022-03-22 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN108717439A (zh) * | 2018-05-16 | 2018-10-30 | 哈尔滨理工大学 | 一种基于注意力机制和特征强化融合的中文文本分类方法 |
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
-
2018
- 2018-12-19 CN CN201811558195.6A patent/CN109726903B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109726903A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726903B (zh) | 基于注意力机制的分布式多智能体协同决策方法 | |
Chen et al. | DNNOff: offloading DNN-based intelligent IoT applications in mobile edge computing | |
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
Zhang et al. | Learning-based energy-efficient data collection by unmanned vehicles in smart cities | |
CN109902798A (zh) | 深度神经网络的训练方法和装置 | |
CN108803349A (zh) | 非线性多智能体系统的最优一致性控制方法及系统 | |
CN109782600A (zh) | 一种通过虚拟环境建立自主移动机器人导航系统的方法 | |
Venturini et al. | Distributed reinforcement learning for flexible and efficient uav swarm control | |
CN103971160A (zh) | 基于复杂网络的粒子群优化方法 | |
CN110135582A (zh) | 神经网络训练、图像处理方法及装置、存储介质 | |
CN113408209A (zh) | 跨样本联邦分类建模方法及装置、存储介质、电子设备 | |
CN107967513B (zh) | 多机器人强化学习协同搜索方法及系统 | |
CN109710404A (zh) | 分布式系统中的任务调度方法 | |
CN106327357A (zh) | 一种基于改进概率神经网络的负载识别方法 | |
CN109787699A (zh) | 一种基于混合深度模型的无线传感器网络路由链路状态预测方法 | |
He et al. | Three-stage stackelberg game enabled clustered federated learning in heterogeneous UAV swarms | |
CN106230827A (zh) | 一种基于成本效益优化的多目标服务组合方法 | |
CN103761485B (zh) | 一种隐私保护方法 | |
Zhang et al. | Multi-robot cooperative target encirclement through learning distributed transferable policy | |
Zhang et al. | Prediction of Tourist Quantity Based on RBF Neural Network. | |
CN109800517A (zh) | 一种改进的磁流变阻尼器逆向建模方法 | |
CN109975800A (zh) | 组网雷达资源管控方法及装置、计算机可读存储介质 | |
CN102955948B (zh) | 一种基于多智能体的分布式模式识别方法 | |
Wang et al. | Analysis of price of anarchy in traffic networks with heterogeneous price-sensitivity populations | |
Li et al. | Optimization of ice and snow sports industry chain structure based on sensor network communication and artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |