CN113592079B

CN113592079B - 一种面向大规模任务空间的协同多智能体通信方法

Info

Publication number: CN113592079B
Application number: CN202110930784.8A
Authority: CN
Inventors: 邹启杰; 胡有坤; 秦静; 高兵; 陈爽; 汤宇
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-06-28
Anticipated expiration: 2041-08-13
Also published as: CN113592079A

Abstract

本发明公开了一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；所述通信阶段实现过程为：获取当前时刻智能体j的注意力权重，得到该注意力权重对应评分值；对所述评分值进行归一化处理得到权重系数；基于所述权重系数生成通信向量；所述动作选择阶段实现过程为：构建基于长短时记忆LSTM的神经网络，所述神经网络作为每个智能体的独立控制器；训练所述基于长短时记忆LSTM的神经网络；通过训练后的神经网络执行动作选择。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等；在动作选择的时候，每个智能体只用自己的隐藏层状态信息决策，它允许训练每个智能体使其个体奖励最大化，进而提高可扩展性。

Description

一种面向大规模任务空间的协同多智能体通信方法

技术领域

本发明涉及智能体通信技术领域，具体涉及一种面向大规模任务空间的协同多智能体通信方法。

背景技术

多智能体系统(Multi-agent Systems,MASs)是分布式人工智能研究的一个重要分支，是人工智能的最新发展方向，是人工智能技术一次质的飞跃。如果说模拟人是单智能体的目标，那么模拟人类社会则是多智能体系统的最终目标。在多机器人合作完成任务、交通车辆控制、通信带宽的合理分配等领域广泛应用。强化学习(RL)主要是研究智能体如何通过感知局部和全局状态来选择动作，并不断与动态环境进行交互，从而找到最优策略，实现奖励值最大化。深度学习是一种高效的表征学习，可以发现原始信息中的关键信息。主要原因是神经网络可以处理输入的高维数据并提取有用的表达。多智能体深度强化学习(MDRL)是解决信息协调策略问题的有效方法，主要优势在于它可以将RL扩展到高维的状态和动作空间。

对于大规模的任务空间，智能体之间的通信是高效合作的关键，通过通信，智能体可以交换他们的观察结果，以更好地发现当前的全局状态，了解其他智能体的动作和意图，而智能体借助动态通信可以更有效地协调。然而，传统的通信机制采用简单的信息聚合和广播的方式，在某些情况下缺乏对信息重要性的区分，无法为智能体在决策过程中提供更加有益的消息。也就是说，智能体需要对其他智能体提供消息进行判断，依次划分每条消息的重要程度，进而有目的性的通信，使学习过程更加稳定。在传统的集中式训练范式中，训练时需要一个中央控制器，它帮助智能体训练策略网络。智能体把自己的观测都汇报给中央，中央收集全局信息之后才会做决策。随着智能体数量的增加，输入维度的线性增长和输出空间的指数化增长使得算法无法轻易扩展到大规模任务空间，算法的收敛效果变差甚至无法收敛。

现有技术中公开号为104951898A，名称为一种面向任务的协同多智能体联盟形成方法的专利申请,是一种使用层次分析法AHP构建任务特征向量，针对单个智能体,将其面向同一任务所建立的任务特征向量。但智能体之间缺乏沟通，系统中不存在明确的反馈控制作用。由于智能体之间不是相互独立的，不应该忽视他们之间的影响。公开号为106802564A，名称为一种多智能体系统及其控制方法的专利申请,提出了一种自适应控制器结构,一旦系统中的第一智能体发生错误时不能与第二智能体通信，每个第二智能体上都部署了单个自适应控制器，智能体之间仍然可以进行通信。但当系统规模过大时，庞大的信息量很容易加重第一智能体的负担，进而影响系统运行效率甚至使系统陷入瘫疾。公开号为109617968A，名称为一种多智能体协作系统中智能体间的通信方法的专利申请，使用了注意力机制(attention mechanism)对多智能体协作系统中第一智能体的通信对象进行筛选，从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象，避免了多智能体协作系统中各智能体间通信时过高的通信负荷，降低了通信开销，加强了载有协作消息信号传输的针对性。但是仅仅使用距离来选择通信对象显然是有欠缺的，这样定义在某些场景下是有作用的，但如果在复杂场景中不具有普适性。

发明内容

为了处理在具有许多智能体和高维观察空间的现实世界任务中，集中式控制器变得难以处理状态空间和动作空间爆炸所带来的扩展性差和多智能体之间很难区分有价值信息等问题，本发明提出了一种面向大规模任务空间的协同多智能体通信方法。

为实现上述目的，本申请的技术方案为：一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；

所述通信阶段实现过程为：

获取当前时刻智能体j的注意力权重，得到该注意力权重对应评分值；

对所述评分值进行归一化处理得到权重系数；

基于所述权重系数生成通信向量；

所述动作选择阶段实现过程为：

构建基于长短时记忆LSTM的神经网络，所述神经网络作为每个智能体的独立控制器；

训练所述基于长短时记忆LSTM的神经网络；

通过训练后的神经网络执行动作选择。

进一步的，所述注意力权重对应评分值的获取方式为：将当前时刻智能体j的隐藏层状态向量作为查询向量，与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算，得到智能体j评分值：

进一步的，对所述评分值进行归一化处理得到权重系数，具体为：

通过归一化处理得到相似度大小的权重系数系数的大小同时反映出内容的重要性。

进一步的，基于所述权重系数生成通信向量，具体为：智能体j在时间t时的通信向量生成公式为：

其中，是智能体j在时间t时其他智能体隐藏层状态向量加权求和，在通信过程中，智能体j试图了解从其他智能体那里收到的状态信息。

进一步的，构建基于长短时记忆LSTM的神经网络，具体为：

通过输入信息定义神经网络的门值和候选值函数；

更新下一状态的候选值

再更新智能体j的自身隐藏层状态

更进一步的，通过输入信息定义神经网络的门值和候选值函数，具体为：门值Γ_u、Γ_f、Γ_o和候选值计算公式分别为：

为候选参数，w_u、b_u为更新参数，w_f、b_f为遗忘参数，w_o、b_o输出参数，上述参数在每个长短时记忆LSTM单元中是共享的；δ代表sigmoid函数，它使门值非常接近0或1；在每个时间步骤中，通过激活函数tanh，当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γ_u、遗忘门Γ_f和输出门Γ_o是为了调整流经神经网络的值。

更进一步的，更新下一状态的候选值具体为：使用更新门Γ_u和遗忘门Γ_f更新下一状态的候选值

具体来说，作为遗忘门Γ_f，控制前一个状态的候选值哪些信息应该保留，哪些应该遗忘；作为更新门Γ_u，选择和记忆这个阶段的输入观察值和融合值并记录更重要的内容；将上述两个结果相加，意味着当前状态的部分信息被删除，新输入的部分信息被添加，从而得到下一个状态的候选值

更进一步的，再更新智能体j的自身隐藏层状态具体为：

其中，候选值被激活函数缩放，并由输出门Γ_o控制。

更进一步的，训练所述基于长短时记忆LSTM的神经网络，具体为：智能体j在时间t时与环境互动，从环境中获得个体观察值个体动作值和个体奖励值训练阶段，每个智能体需要一个独立的控制器，对于智能体j，根据收到的其他智能体的隐藏层状态向量进行有目的的融合，以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中；通过注意力的通信机制，不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程；训练结束后，智能体根据自己的隐藏层状态向量做出决定；而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:

为了评价策略π的总体性能指标，将其表示为J(π)：

其中，是在策略参数θ_j下每个序列存在的概率；

为了优化策略π，最大化奖励沿着梯度更新策略参数θ_j，使其达到最优：

其中α是学习率，总体性能指标是通过以下梯度的上升来更新：

本发明由于采用以上技术方案，能够取得如下的技术效果：

1、本发明使用了独立控制器方法，每个独立控制器只控制一个智能体。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等；在动作选择的时候，每个智能体只用自己的隐藏层状态信息决策，它允许训练每个智能体使其个体奖励最大化，而不是单个全局奖励；进而提高可扩展性。

2、根据消息接受者的状态信息，将消息定向到特定的内容。这使得复杂环境中的协作策略更加灵活。由于智能体的观察结果具有连续性，所以生成的通信信息也具有连续性，这也使得训练过程更加平稳。

附图说明

图1为协同多智能体通信方法原理框图；

图2为基于独立控制器的动作策略生成过程图；

图3为基于查询向量的长短时记忆LSTM单元图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

实施例1

本实施例提供一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；

S1.在通信结构中使用基于查询向量的注意力机制来识别更有利的特定智能体信息，并使用评分函数来评估当前时刻其他智能体发送的隐藏层状态信息与作为智能体查询向量的自身隐藏层状态两者之间的相关性，根据关注权重的大小将注意力导向特定的通信链接，实现信息的融合，生成更有价值的通信向量。所述通信阶段实现包括：

S1.1获取当前时刻智能体j的注意力权重，得到该注意力权重对应评分值；

具体为，将当前时刻智能体j的隐藏层状态向量作为查询向量，与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算，得到智能体j评分值：

S1.2对所述评分值进行归一化处理得到权重系数，具体为：

基于长短时记忆LSTM的神经网络，通过隐藏层的加权求和，可以得到当前时刻的通信向量。这个时候，智能体会关注更重要的信息。以智能体自己的局部观察和状态编码为输入，用基于查询向量的注意机制产生通信向量，即其他智能体观察到的融合状态信息作为附加输入，以指导合作策略。

S1.3基于所述权重系数生成通信向量，具体为：

智能体j在时间t时的通信向量生成公式为：

建立有效的协作策略需要有针对性的通信，即能够向智能体发送特定的信息。在通信结构中使用基于查询向量的注意力机制来识别更有利的特定智能体信息，并实现信息的融合，根据关注权重的大小将注意力导向特定的通信链接。

S2.获取编码得到的智能体j自身观察值和其他智能体的通信向量以及智能体j自身隐藏层状态，对流经网络的自身隐藏层状态向量和其他隐藏层状态信息的通信向量进行调整和训练。所述动作选择阶段包括：

S2.1构建基于长短时记忆LSTM的神经网络，所述神经网络作为每个智能体的独立控制器，其包括：

A、通过输入信息定义神经网络的门值和候选值函数，具体为：

使用LSTM网络作为每个智能体的独立控制器，可以对流经网络的自身隐藏层状态向量和其他隐藏层状态信息的通信向量进行调整和训练。考虑多个具有共享参数的大网络，每个网络分别控制一个智能体，大网络由多个LSTM网络组成，每个网络处理对单个智能体的观察。

B、更新下一状态的候选值具体为：

具体来说，作为遗忘门Γ_f，控制前一个状态的候选值哪些信息应该保留，哪些应该遗忘；作为更新门Γ_u，选择和记忆这个阶段的输入观察值和融合值将上述两个结果相加，意味着当前状态的部分信息被删除，新输入的部分信息被添加，从而得到下一个状态的候选值

C、再更新智能体j的自身隐藏层状态具体为：

其中，候选值被激活函数缩放，并由输出门Γ_o控制。

S2.2训练所述基于长短时记忆LSTM的神经网络；具体的，智能体j在时间t时与环境互动，从环境中获得个体观察值个体动作值和个体奖励值训练阶段，每个智能体需要一个独立的控制器，对于智能体j，根据收到的其他智能体的隐藏层状态向量进行有目的的融合，以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中；通过注意力的通信机制，不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程；训练结束后，智能体根据自己的隐藏层状态向量做出决定；而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:

为了评价策略π的总体性能指标，将其表示为J(π)：

其中，是在策略参数θ_j下每个序列存在的概率；

S2.3通过训练后的神经网络执行动作选择。

本发明提出了一种基于向量查询的注意力机制方法。在训练时候采取独立的控制器处理来自智能体自身的个体观察和其他智能体状态信息的通信向量，每个智能体上都部署了独立的控制器，独立控制器使用了LSTM网络结构。在这种设置下，控制器(例如完全连接的网络)可以被视为隐含编码通信。并且以分散的方式执行动作。这种独立的控制模型提高了计算效率并减轻了维度爆炸带来问题，保持了智能体良好的可扩展性。针对传统广播通信的方式，采取了基于向量查询的注意力机制的通信方式，对每个智能体的局部观察值进行编码。通过注意单元依次计算智能体当前时刻接受到的其他智能体发送消息的重要程度，有选择性的关注其他智能体的观察和动作，为智能体在决策过程中提供更加有益的消息，使学习过程更加稳定。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；其特征在于：

所述通信阶段实现过程为：

对所述评分值进行归一化处理得到权重系数；

基于所述权重系数生成通信向量；

所述动作选择阶段实现过程为：

训练所述基于长短时记忆LSTM的神经网络；

通过训练后的神经网络执行动作选择；

构建基于长短时记忆LSTM的神经网络，具体为：

通过输入信息定义神经网络的门值和候选值函数；

更新下一状态的候选值

再更新智能体j的自身隐藏层状态

通过输入信息定义神经网络的门值和候选值函数，具体为：门值Γ_u、Γ_f、Γ_o和候选值计算公式分别为：

为候选参数，w_u、b_u为更新参数，w_f、b_f为遗忘参数，w_o、b_o输出参数，上述参数在每个长短时记忆LSTM单元中是共享的；δ代表sigmoid函数，它使门值非常接近0或1；在每个时间步骤中，通过激活函数tanh，当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γ_u、遗忘门Γ_f和输出门Γ_o是为了调整流经神经网络的值；

更新下一状态的候选值具体为：使用更新门Γ_u和遗忘门Γ_f更新下一状态的候选值

具体来说，作为遗忘门Γ_f，控制前一个状态的候选值s_jt哪些信息应该保留，哪些应该遗忘；作为更新门Γ_u，选择和记忆这个阶段的输入观察值和融合值将遗忘门Γ_f与更新门Γ_u相加，意味着当前状态的部分信息被删除，新输入的部分信息被添加，从而得到下一个状态的候选值

再更新智能体j的自身隐藏层状态具体为：

其中，候选值被激活函数缩放，并由输出门Γ_o控制。

2.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法，其特征在于，所述注意力权重对应评分值的获取方式为：将当前时刻智能体j的隐藏层状态向量作为查询向量，与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算，得到智能体j评分值：

3.根据权利要求2所述一种面向大规模任务空间的协同多智能体通信方法，其特征在于，对所述评分值进行归一化处理得到权重系数，具体为：

4.根据权利要求3所述一种面向大规模任务空间的协同多智能体通信方法，其特征在于，基于所述权重系数生成通信向量，具体为：智能体j在时间t时的通信向量生成公式为：

5.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法，其特征在于，训练所述基于长短时记忆LSTM的神经网络，具体为：智能体j在时间t时与环境互动，从环境中获得个体观察值个体动作值和个体奖励值训练阶段，每个智能体需要一个独立的控制器，对于智能体j，根据收到的其他智能体的隐藏层状态向量进行有目的的融合，以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中；通过注意力的通信机制，不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程；训练结束后，智能体根据自己的隐藏层状态向量做出决定；而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:

为了评价策略π的总体性能指标，将其表示为J(π)：

其中，是在策略参数θ_j下每个序列存在的概率；