CN115294474A

CN115294474A - 一种融合局部目标特征与协作特征的多智能体信息交互方法

Info

Publication number: CN115294474A
Application number: CN202210812033.0A
Authority: CN
Inventors: 骆祥峰; 张瀚; 谢少荣; 陈雪
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-11-04

Abstract

本发明公开了一种融合局部目标特征与协作特征的多智能体信息交互方法。该方法包括：(1)初始化“多目标协作导航”任务场景，其中每个智能体包括一个动作生成器和一个动作评价器；(2)构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象；(3)对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测输入到动作生成器中，输出智能体的动作；(4)循环步骤2‑3，收集交互轨迹样本；(5)使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标。

Description

一种融合局部目标特征与协作特征的多智能体信息交互方法

技术领域

本发明涉及多智能体强化学习领域，具体涉及一种融合局部目标特征与协作特征的多智能体信息交互方法。

背景技术

多智能体强化学习是深度强化学习领域中与多智能体系统相结合的子课题之一，是在单智能体强化学习算法的基础上，向多智能体环境的拓展与延伸，主要用于生成协作任务中的行为策略，多智能体强化学习的目标是最大化群体累积奖励。其中在多智能体协作环境下，每个智能体由于感知范围的限制或传感器噪声问题，只能获得部分观测，对环境状态与队友状态的理解不完备，难以在更新自身行为策略时考虑到其他智能体对自身及整体团队的影响，因此难以生成具备团队协作能力的行为策略。

为了解决以上问题，出现了多智能体信息交互方法。这一类多智能体强化学习方法显式地假设智能体之间存在信息共享，在协作策略训练过程中，提取自身局部观测的特征进行传递，并接收队友传递而来的局部特征进行融合，补充自身对不完全可观测环境以及队友状态的掌握，从而提升智能体之间的协作能力，生成最大化团队奖励的协作行为策略。

现有的基于信息交互的协作策略生成方法能够在智能体之间建立离散或连续的通信通道。对于共享信息的生成过程，可以使用价值Q网络或搭建消息网络等方法进行生成，网络的参数通过团队奖励进行反向更新，生成的共享信息在智能体之间进行广播传递；对于消息融合过程，可以使用求和、平均等数学运算对消息进行融合，并进一步引入了注意力机制对每个消息的重要性权重进行自主学习。然而，现有的大多数信息交互方法遵循共享-观测模式，主要将智能体当前局部观测的特征嵌入进行共享，这种模式缺乏对协作环境中拓扑结构特征的利用。

综上，当前多智能体之间的信息交互方法，主要通过智能体的局部特征表征与智能体之间的局部特征共享，解决协作场景中智能体对环境状态与队友状态感知不完备的问题，进而提升协作策略的决策准确率与协作任务完成率。

发明内容

针对现有技术存在的缺陷，本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在多智能体自主协作决策环境中，基于图神经网络与多层权重分配，将智能体有限感知范围内感知到的局部目标信息与协作信息共享给其他智能体，提升智能体对无法感知区域的任务执行情况的理解，使得智能体决策时考虑更全面的目标信息与队友状态，从而形成协作配合，进行合理的队内分工，避免多个智能体对同一目标产生内部竞争，提升团队任务的完成效率，可应用于无人系统(无人艇)集群等领域的多目标协同导航等任务场景。

为达到上述目的，本发明采用如下技术方案：

一种融合局部目标特征与协作特征的多智能体信息交互方法，包括以下步骤：

步骤1、初始化“多目标协作导航”任务场景，任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点，其中每个智能体包括一个动作生成器和一个动作评价器；其过程如下：初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下，各智能体自主选择合适的目标，协作到达各自目标点。该场景是智能体交互的基础，为智能体提供观测信息，智能体的动作作用于此场景，改变场景的实时状态，场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N，目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l，队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。

步骤2、构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象；其过程如下：

(2-1)获取智能体局部观测信息：从步骤1的初始化场景状态中，提取智能体i的局部观测，包含智能体在x轴和z轴的自身位置与速度信息oⁱ＝{v_x,v_z,p_x,p_z}；智能体i感知范围内观测到的l个目标实体的位置信息

感知范围内j个协作队友的位置与速度信息

(2-2)局部目标特征提取与交互信息生成：将智能体i感知范围内观测到的l个目标实体的位置信息输入到多层感知机中，编码为目标特征向量，并将l个目标特征与智能体i自身特征作为节点组成目标关系图，使用图神经网络提取图特征作为目标交互信息E_t，其中包含了目标与智能体之间的拓扑结构特征，能够体现智能体的目标选择偏好。

(2-3)局部协作特征提取与交互信息生成：将智能体i感知范围内j个协作队友的位置与速度信息输入到多层感知机中，编码为队友特征向量，并将j个队友特征与智能体i自身特征作为节点组成协作关系图，使用图神经网络提取图特征作为协作交互信息T_t，其中包含了智能体之间的拓扑结构特征，能够体现智能体之间的局部协作状态。

(2-4)交互信息传递：将目标交互信息E_t与协作交互信息T_t同时传递给交互对象，每个智能体在时刻t获得的交互信息为

步骤3、对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测，输入到动作生成器中，输出智能体的动作；其过程如下：

(3-1)第一层交互信息融合：根据重要性权重α_N-1和β_N-1对同类交互信息进行加权。目标交互信息融合为

协作交互信息融合为

(3-2)第二层交互信息融合：根据重要性权重ω^E和ω^T对不同类别交互信息进行加权，融合为全局观测

通过分层融合，智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作。

(3-3)动作选择：将融合交互信息得到的全局观测

输入到动作生成器中，动作生成器由多层感知机构成，将全局观测映射为要执行的动作进行输出。

步骤4、循环步骤2-3，收集交互轨迹样本；其过程如下：收集交互轨迹样本，包含每个时刻的环境观测、动作选择、环境反馈的奖励。

步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标，其过程如下：

(5-1)使用损失函数Lc对动作评价器进行更新，具体为：

其中，φ为动作评价器的参数，

为信息交互通道的参数，

表示时刻t的期望值，r_t为环境反馈的奖励，γ为超参数，

为t时刻以信息交互后得到的全局观测

作为输入得到的动作评价值。

(5-2)使用损失函数La对动作生成器进行更新，具体为：

其中，θ为动作评价器参数，

为信息交互通道的参数，c为超参数；S表示信息熵奖励；π_θ表示动作生成器的策略输出；

表示智能体在时刻t的全局观测。

其中，

表示一次迭代更新中旧动作生成器与新动作生成器的比值，π_θ(a_t|gcu_t)表示新动作生成器π_θ在t时刻观测为gcu、输出动作为a的概率，

表示旧动作生成器

在t时刻观测为gcu、输出动作为a的概率，A_t表示优势函数，由奖励值与动作评价器输出的动作价值计算得到，∈表示预设的用于控制策略更新幅度的常数。

与现有技术相比，本发明具有如下的优点：

本发明方法增加了提取协作环境中的局部目标特征与协作特征这两类拓扑结构信息，形成了特征蕴含更丰富、更有利于协作的交互信息。通过引入图神经网络，提取智能体局部感知范围内，各个目标节点以及队友智能体节点之间的空间结构关系，然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种包含拓扑结构特征的交互信息，可以使得“多目标协作导航”任务中，智能体决策时不仅考虑更全局的目标信息，还考虑队友的状态信息，形成协作配合进行合理的队内分工，避免多个智能体对同一目标产生内部竞争，从而提升团队任务的完成效率。

附图说明

图1为融合局部目标特征与协作特征的多智能体信息交互方法流程图。

图2为融合局部目标特征与协作特征的多智能体信息交互方法具体实现流程图。

图3为仿真实验中的“多目标协作导航”任务场景图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在现有的多智能体信息交互方法共享-观测的基础上，增加了共享拓扑结构信息。为了提取协作环境中的拓扑结构信息，形成更有利于协作的交互信息，引入了图神经网络，提取智能体局部感知范围内，智能体与各个目标节点以及与队友智能体节点之间的空间结构关系，然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种增加了拓扑结构特征的交互信息，可以使得智能体决策时考虑更全面的目标信息与队友状态，形成协作配合进行合理的队内分工，避免多个智能体对同一目标产生内部竞争，从而提升团队任务的完成效率。

本发明的基本特征主要有以下几个方面：一是生成了目标交互信息E_t，其中包含了目标与智能体之间的拓扑结构特征，共享这类交互信息能够体现智能体的目标选择偏好；二是生成了协作交互信息T_t，其中包含了智能体之间的拓扑结构特征，共享这类交互信息能够体现智能体之间的局部协作状态；三是在融合两类交互信息时，使用分层的重要性权重分配，先对同类交互信息进行加权，再对不同类交互信息进行融合。通过分层融合，智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作，形成更加有效的协作。

如图1所示，一种融合局部目标特征与协作特征的多智能体信息交互方法，具体实施步骤如下：

步骤1：初始化“多目标协作导航”任务场景，任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点，其中每个智能体包括一个动作生成器和一个动作评价器，具体过程为：初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下，各智能体自主选择合适的目标，协作到达各自目标点。该场景是智能体交互的基础，为智能体提供观测信息，智能体的动作作用于此场景，改变场景的实时状态，场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N，目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l，队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。

步骤2：构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象，具体过程为：

感知范围内j个协作队友的位置与速度信息

步骤3：对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测，输入到动作生成器中，输出智能体的动作，具体过程为：

协作交互信息融合为

(3-3)动作选择：将融合交互信息得到的全局观测

步骤4：循环步骤2-3，收集交互轨迹样本，具体过程为：收集交互轨迹样本，包含每个时刻的环境观测、动作选择、环境反馈的奖励。

步骤5：使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标，具体过程为：

(5-1)使用损失函数Lc对动作评价器进行更新，具体为：

其中，φ为动作评价器的参数，

为信息交互通道的参数，

表示时刻t的期望值，r_t为环境反馈的奖励，γ为超参数，

为t时刻以信息交互后得到的全局观测

作为输入得到的动作评价值。

(5-2)使用损失函数La对动作生成器进行更新，具体为：

其中，θ为动作评价器参数，

表示智能体在时刻t的全局观测。

其中，

表示旧动作生成器

实验说明及结果：仿真实验环境为“多目标协作导航”这一协作任务场景，出处：https://github.com/sumitsk/matrl.git。任务目标为：多个智能体在不碰撞的前提下，协作导航至各个目标点，到达的目标点越多，对目标点覆盖的越准确，任务完成度越高；仿真环境设置为：二维场景大小20单元*20单元、智能体大小1单元、目标点大小1单元、智能体数量3或6、目标点数量3或6；智能体局部感知范围：半径为5的单位圆；智能体动作设置：动作类型离散、动作种类5种(前后左右停)；智能体状态设置：智能体速度+智能体位置坐标+感知范围内目标点位置坐标+感知范围内队友智能体速度+位置坐标；奖励设置：所有目标点与其最近智能体之间负距离的总和。表1显示了本发明方法与已有基准方法的对比结果。

表1实验结果(测试10000次得到的平均结果)

表1显示本发明方法与各基准方法在“多目标协作导航”任务中的对比结果。我们在智能体数量为3和6的两组设置中训练本发明方法和基准方法，训练过程中智能体与目标点的初始位置是随机的，训练轮数为7000轮，每轮与环境交互的最大步数为50步。

其中，对比指标设置为3种，S％表示任务成功率；DIST表示目标覆盖程度，即目标点与最近的智能体的平均距离(越小越好)；AEL表示平均完成步数，即完成一轮任务所需的步数(越小越好)。用于对比的已有基准方法包括Q-MIX、COMA、MADDPG、SAEG。

其中，Q-MIX、COMA方法没有信息交互机制，即使设置为完全可观测，也无法完成“多目标协作导航”任务，与这两种方法的对比，证明了特征共享在不完全可观测协作任务完成中的重要性。MADDPG方法使用集中训练分散决策的训练框架，具有隐式的信息交互过程，在3个智能体数量的设置中具有良好的表现，但是没有拓扑结构信息的添加，与这个方法对比，证明了添加拓扑结构信息的作用。SAEG方法具有显性的信息交互过程，也使用了图神经网络表征局部特征，但是没有考虑到局部目标特征+协作特征的双交互信息共享与融合机制，与这个方法对比，证明了融合局部目标特征与协作特征的作用。

可以看出，本发明方法在成功率、目标覆盖程度、平均完成步数三种指标中都比已有方法有所提升。在智能体数量为3的任务设置中，本发明方法的任务完成率最高，完成任务所需的步数也最少；在智能体数量为6的任务设置中，智能体数量增加，任务难度升高，只有SAEG和本发明方法能够完成多目标协作导航的任务，本发明方法的任务完成率同样最高，并且对目标点的覆盖程度更好，体现了智能体之间更有效的信息交互与更好的协作效果。

Claims

1.一种融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，包括以下步骤：

步骤1、初始化“多目标协作导航”任务场景，任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点，其中每个智能体包括一个动作生成器和一个动作评价器；

步骤2、构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象；

步骤3、对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测，输入到动作生成器中，输出智能体的动作；

步骤4、循环步骤2-3，收集交互轨迹样本；

步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标。

2.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤1的过程如下：初始化“多目标协作导航”任务场景，任务目标为在不碰撞、不产生内部目标竞争的前提下，各智能体自主选择合适的目标，协作到达各自目标点；初始化智能体数量为N，目标点数量为L；初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置，其中局部感知范围内观测到的目标数量为l，队友智能体数量为j；初始化N个智能体动作生成器与动作评价器的参数。

3.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤2的过程如下：

(2-1)获取智能体局部观测信息：从步骤1的初始化场景状态中，提取智能体i的局部观测，包含智能体自身位置与速度信息、智能体i感知范围内观测到的l个目标实体的位置信息、感知范围内j个协作队友的位置与速度信息；

(2-2)局部目标特征提取与交互信息生成：将智能体i感知范围内观测到的l个目标实体的位置信息编码为目标特征向量，并将l个目标特征与智能体i自身特征作为节点组成目标关系图，提取图特征作为目标交互信息E_t，其中包含了目标与智能体之间的拓扑结构特征，能够体现智能体的目标选择偏好；

(2-3)局部协作特征提取与交互信息生成：将智能体i感知范围内j个协作队友的位置与速度信息编码为队友特征向量，并将j个队友特征与智能体i自身特征作为节点组成协作关系图，提取图特征作为协作交互信息T_t，其中包含了智能体之间的拓扑结构特征，能够体现智能体之间的局部协作状态；

(2-4)交互信息传递：将两类交互信息传递给交互对象，每个智能体获得