CN109726903B

CN109726903B - 基于注意力机制的分布式多智能体协同决策方法

Info

Publication number: CN109726903B
Application number: CN201811558195.6A
Authority: CN
Inventors: 李明强; 陈思; 高放; 张峰
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-10-16
Anticipated expiration: 2038-12-19
Also published as: CN109726903A

Abstract

一种基于注意力机制的分布式多智能体协同决策方法，基于注意力机制对分布式多智能体观测信息进行融合，包括局部观测信息编码步骤，基于注意力机制权重计算步骤，注意力(Attention)系数计算步骤，局部观测信息加权求和步骤，注意力信息与位置信息融合步骤和决策概率求解步骤。本发明基于数据驱动的方式，自主发现局部信息的相互关系，并为单智能体构建全局决策信息，将位置信息单独进行处理，能够使得信息更加丰富，有针对性的处理空间位置关系的多智能体系统。

Description

基于注意力机制的分布式多智能体协同决策方法

技术领域

本发明涉及一种智能决策领域，具体的，是一种基于注意力机制的分布式多智能体协同决策方法，其将分布式多智能体观测信息进行融合，并将其与单智能体id进行编码融合，形成决策特征，为最终的决策提供丰富有效的信息，提供决策水平。

背景技术

多智能体系统是由相互配合的计算单元—智能体所组成的系统。智能体协同是将多个单智能体组织为一个群体并使各个智能体有效地进行协调合作，从而产生总体解决问题的能力。多智能体系统构成方式分为集中式和分布式两种。集中式系统有一个核心Agent和多个与之在结构上分散的、独立的协作Agent构成。核心的Agent负责任务的动态分配与资源的动态调度，协调各协作Agent间的竞争与合作，该类系统比较容易实现系统的管理、控制和调度；分布式系统中各Agent彼此独立、完全平等、无逻辑上的主从关系，各Agent按预先规定的协议，根据系统的目标、状态与自身的状态、能力、资源和知识，利用通信网络相互间通过协商与谈判，确定各自的任务，协调各自的行为活动，实现资源、知识、信息和功能的共享，协作完成共同的任务，以达到整体目标，该系统具有良好的封装性、容错性、开放性和可扩展性。

基于环境反馈信息自主形成应对策略，一直是智能体研究领域里的核心话题。在过去的一段时间中，计算能力不足和提升策略的限制使得这一领域一直缺乏根本性的进展。近年来，由于摩尔定律以及深度神经网络方法的应用，硬件性能和提升算法有了长足的进步。随着神经网络在增强学习任务中投入应用，业界不断发展出来一系列相对成熟的智能体训练策略。

现有技术中，较先进的多智能体协同问题多采用DQN(Deep Q Network，深度Q值网络)或者DDPG(Deep Deterministic Policy Gradient，深度决定策略梯度)作为个体行动策略，在此基础上进行个体间神经网络的设计与规划。在多智能体协作问题的研究中，相对主流的实现方法是2016年提出的CommNet(Communication Neural Net，交流神经网络)、RIAL(Reinforced Inter-agent Learning，增强智能体间学习)和DIAL(DifferentiableInter-agent Learning，差异智能体间学习)，基于二者发展出的最新方法是2017年提出的BiCNet。CommNet默认智能体一定范围内的全联结，对多个同类的智能体采用了同一个网络，用当前态(隐态)和交流信息得出下一时刻的状态，信息交流从利用隐态的均值得出。其优点能够根据现实位置变化对智能体联结结构做出自主规划，而缺点在于信息采用均值过于笼统，不能够处理多个种类的智能体。除此以外，RIAL和DIAL个体行为中采取了类DQN的解决方式，在智能体间进行单向信息交流，采用了单向环整体架构，两者的区别在于RIAL向一个智能体传递的是Q网络结果中的极大值，DIAL则传递的是Q网络的所有结果。在实验中，两者均可以解决多种类协同的现实问题，且DIAL表现出了很好的抗信号干扰能力。但是，在处理非静态环境的快速反应问题上，RIAL与DIAL的表现仍旧不足。借鉴之前CommNet和DIAL的研究，阿里巴巴团队为了解决多智能体的协作问题，提出了使用BiCNet决多智能体协作的方法。相较于之前的研究，BiCNet在个体行为上采取了DDPG取代DQN作为提升方法，在群体连接中采用了双向循环网络取代单向网络进行联结。这一方法在DIAL的基础上利用了双向信息传递取代单向信息传递，在多种类协同的基础上一定程度上解决了快速反应的问题。然而，BiCNet的组织架构思想仍旧没有摆脱链状拓扑或者环状拓扑结构，且不具有动态规划能力，在现实实践中会有很大问题。在相互摧毁的真实战术背景下，不具有动态规划能力的网络中一点的破坏会导致所有经过该点的所有信息交流彻底终止。在无恢复的前提下，链状拓扑和环状拓扑对于网络中的每一端点过分依赖，导致少量几点的破坏会对智能体交流网络造成毁灭性影响，团体被彻底拆分失去交流协同能力

因此，传统的多智能体决策网络太过于繁琐，不能够挖掘局部信息本身的相互关联，并且传统的决策网络不够重视位置信息。因此，如何能够解决上述问题，提出一种新的分布式多智能体协同决策方法成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于注意力机制的分布式多智能体协同决策方法及存储介质，提高单智能体的信息交流，使得单智能体获取充分的全局信息，从而为最终的决策提供丰富有效的信息，提供决策水平。

为达此目的，本发明采用以下技术方案：

一种基于注意力机制的分布式多智能体协同决策方法，其特征在于：

该多智能体体系中有N个智能体，第i个智能体的局部观测信息为Q_i，空间位置信息为Location_i，i＝1,2,…,N，可选动作维度为m，则第i个智能体的动作决策包括如下步骤：

局部观测信息编码步骤S110，对于智能体的局部观测信息Q_i先进行卷积再进行池化，从而得到局部信息编码q_i

即，可用如下两个公式表示该步骤，

首先进行卷积，q_i＝conv(Q_i) 式(1)

然后进行池化，q_i＝pool(q_i) 式(2)；

基于注意力机制权重计算步骤S120，在该步骤中基于注意力机制分别计算权重系数，根据第i个智能体的局部观测信息Q_i和所有的N个智能体的之间的N个局部观测信息Q_j,j＝1,2,…,N，利用相似性计算方法计算两者的相似性或者相关性得到权重系数Sim_j,j＝1,2,…,N；

注意力(Attention)系数计算步骤S130：根据步骤S120中得到的N个权重系数Sim_j,j＝1,2,…,N，利用Softmax对权重系数Sim_j进行归一化，得到归一化系数α_j；

局部观测信息加权求和步骤S140：利用归一化系数α_j和每个智能体的局部观测信息编码q_j对局部观测信息进行加权求和，得到第i个智能体的局部观测信息加权和Attention_i，即

注意力信息与位置信息融合步骤S150:对局部观测信息加权和Attention_i进行全连接得到注意力信息特征A_i，对位置信息进行融合得到位置信息特征L_i，然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Z_i

Attention信息特征A_i为：A_i＝T*Attention_i,

位置信息特征L_i为：L_i＝P*Location_i,

其中，T为注意力参数、P为位置参数，

注意力(Attention)信息特征和位置信息特征融合方式如下:

决策概率求解步骤S160：对融合特征Z_i使用全连接提取特征V_i，即V_i＝H*Z_i，其中H为特征提取参数，

对提取后的特征V_i使用softmax进行归一化，求得第j个动作决策概率action_j，

可选的，在步骤S110中，卷积和池化的大小可以根据局部观测信息的大小进行自行设定。

可选的，在步骤S120中，采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。

可选的，注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。

本发明还公开了一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行上述的基于注意力机制的分布式多智能体协同决策方法。

本发明具有如下优点：

(1)传统的多智能体决策网络太过于繁琐，不能够挖掘局部信息本身的相互关联。本发明基于数据驱动的方式，自主发现局部信息的相互关系，并为单智能体构建全局决策信息。

(2)传统的决策网络不够重视位置信息，在决策过程中的重要性，本发明将位置信息单独进行处理，能够使得信息更加丰富，有针对性的处理空间位置关系的多智能体系统。

附图说明

图1是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策方法的流程图；

图2是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策的形象示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明在于：基于注意力机制对分布式多智能体观测信息进行融合，并将其与单智能体id进行编码融合，形成决策特征，为最终的决策提供丰富有效的信息，提供决策水平。

具体而言，参见图1，示出了基于注意力机制的分布式多智能体协同决策方法的流程图，图2，示出了基于注意力机制的分布式多智能体协同决策的形象示意图。

针对多智能体系统，该多智能体体系中有N个智能体，第i个智能体的局部观测信息为Q_i，空间位置信息为Location_i，i＝1,2,…,N，可选动作维度为m，则第i个智能体的动作决策包括如下步骤：

即，可用如下两个公式表示该步骤，

首先进行卷积，q_i＝conv(Q_i) 式(1)

然后进行池化，q_i＝pool(q_i) 式(2)

可选的，卷积和池化的大小可以根据局部观测信息的大小进行自行设定。

基于注意力机制权重计算步骤S120，在该步骤中基于注意力机制中Query和Key的方式分别计算权重系数，根据第i个智能体的局部观测信息Q_i和所有的N个智能体的之间的N个局部观测信息Q_j,j＝1,2,…,N，利用相似性计算方法计算两者的相似性或者相关性得到权重系数Sim_j,j＝1,2,…,N。

可选的，可以采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。

其中，向量点积形式计算公式为：

Similarity(Q_i,Q_j)＝(Q_i,Q_j)，式(3)

Cosine相似性计算公式为：

多层感知网络相似性计算公式为：

Similarity(Q_i,Q_j)＝MLP(Q_i,Q_j) 式(5)。

注意力(Attention)系数计算步骤S130：根据步骤S120中得到的N个权重系数Sim_j,j＝1,2,…,N，利用Softmax对权重系数Sim_j进行归一化，得到归一化系数α_j,j＝1,2,…,N；

在该步骤中，根据步骤S130计算方法不同得到的权重系数可能不同，而通过归一化，可以将原始计算的权重系数Sim_j整理成所有元素权重之和为1的概率分布。该归一化系数α_j即为注意力机制中的注意力(Attention)系数。

局部观测信息加权求和步骤S140：利用归一化系数α_j和每个智能体的局部观测信息编码q_i对局部观测信息进行加权求和，得到第i个智能体的局部观测信息加权和Attention_i，即

注意力信息与位置信息融合步骤S150:对注意力(Attention)信息，即局部观测信息加权和Attention_i进行全连接得到注意力信息特征A_i，对位置信息进行融合得到位置信息特征L_i，然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Z_i

Attention信息特征A_i为：A_i＝T*Attention_i,

位置信息特征L_i为：L_i＝P*Location_i,

注意力(Attention)信息特征和位置信息特征融合方式如下:

其中，T为注意力参数，P为位置参数。两者均可以为矩阵的形式。

决策概率求解步骤S160：对融合特征Z_i使用全连接提取特征V_i，即V_i＝H*Z_i，其中H为特征提取参数。

在一个可选的实施例中，注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。

本发明具有如下优点：

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种基于注意力机制的分布式多智能体协同决策方法，其特征在于：

多智能体体系中有N个智能体，第i个智能体的局部观测信息为Q_i，空间位置信息为Location_i，i＝1，2，...，N，可选动作维度为m，第i个智能体的动作决策包括如下步骤：

局部观测信息编码步骤S110，对于智能体的局部观测信息Q_i先进行卷积再进行池化，从而得到局部信息编码q_i，

即，用如下两个公式表示该步骤，

首先进行卷积，q_i＝conv(Q_i) 式(1)，

然后进行池化，q_i＝pool(q_i) 式(2)；

基于注意力机制权重计算步骤S120，在该步骤中基于注意力机制分别计算权重系数，根据第i个智能体的局部观测信息Q_i和所有的N个智能体的之间的N个局部观测信息Q_j，j＝1，2，...，N，利用相似性计算方法计算两者的相似性或者相关性得到权重系数Sim_j，j＝1，2，...，N；

注意力(Attention)系数计算步骤S130：根据步骤S120中得到的N个权重系数Sim_j，j＝1，2，...，N，利用Softmax对权重系数Sim_j进行归一化，得到归一化系数α_j，j＝1，2，...，N；该归一化系数α_j即为注意力机制中的注意力(Attention)系数；

注意力信息与位置信息融合步骤S150：对局部观测信息加权和Attention_i进行全连接得到注意力信息特征A_i，对位置信息进行融合得到位置信息特征L_i，然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Z_i，

注意力信息特征A_i为：A_i＝T*Attention_i，

位置信息特征L_i为：L_i＝P*Location_i，

其中，T为注意力参数、P为位置参数，

注意力信息特征和位置信息特征融合方式如下：

2.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S110中，卷积和池化的大小根据局部观测信息的大小进行自行设定。

3.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S120中，采用向量点积形式计算权重系数，

Similarity(Q_i，Q_j)＝(Q_i，Q_j)，式(3)。

4.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S120中，采用Cosine相似性计算权重系数，

5.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S120中，采用多层感知网络相似性计算权重系数，

Similarity(Q_i，Q_j)＝MLP(Q_i，Q_j) 式(5)。

6.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

注意力参数T、位置参数P和特征提取参数H根据模仿学习、强化学习的方式迭代计算得到。

7.一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的基于注意力机制的分布式多智能体协同决策方法。