CN114139637B

CN114139637B - 多智能体信息融合方法、装置、电子设备及可读存储介质

Info

Publication number: CN114139637B
Application number: CN202111470623.1A
Authority: CN
Inventors: 王轩; 黄新昊; 漆舒汉; 张加佳; 刘洋; 蒋琳; 罗文坚; 高翠芸; 李君一; 黄旭忠
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-11-04
Anticipated expiration: 2041-12-03
Also published as: CN114139637A

Abstract

本申请公开了一种多智能体信息融合方法、装置、电子设备及可读存储介质。其中，方法包括构建操作预测网络模型和门控注意力机制模型，门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。将多智能体应用模拟环境的状态信息输入至操作预测网络模型，得到各智能体的预测动作；根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于门控注意力机制模型的强化学习算法更新操作预测网络模型，循环训练操作预测网络模型直至收敛。本申请提升了多智能体信息融合效果。

Description

多智能体信息融合方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种多智能体信息融合方法、装置、电子设备及可读存储介质。

背景技术

多智能体一般专指多智能体系统(MAS，Multi-AgentSystem)或多智能体技术(MAT，Multi-Agent Technology)，是多智能体系统是分布式人工智能(DAI，DistributedArtificial Intelligence)的一个重要分支。多智能体系统是多个智能体组成的集合，其目标是将大而复杂的系统建设成小的、彼此互相通信和协调的，易于管理的系统。多智能体系统在表达实际系统时，可通过各智能体间的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性。

在现实世界中，很多任务如交通控制、军事指挥决策等都可以视为多智能体问题。强化学习具有灵活、无需人工干预等特点，常被用于解决时序决策相关的问题，并已经得到较广泛的应用。但是，强化学习方法一般直接应用于单智能体场景中，将其引入到多智能体应用场景中会带来环境非平稳等诸多问题。在多智能体强化学习过程中，相关技术通常采用注意力机制进行通信信息的融合。但是，传统注意力机制的通信信息融合方法经过融合的信息本质上是一些特征向量加权求和的结果，其中，权重的大小是由查询向量和键向量的相似度决定的，且权重之和为1。这表明，该通信机制将使得智能体始终接收经过多个向量混合的一个向量，即所有智能体都在不间断地进行通信，而不会对一些情况做特殊考虑，如(1)某一智能体的预期目标已经完成，无需再接收融合了其它智能体意图的信息；(2)该通信信息处理模块的注意力机制并不完善，表现不佳；(3)在非完全合作场景下，智能体可能会接收融合了其他智能体意图的不利信息。在这些特殊的情况下，即使其他所有智能体分享的信息均未满足当前智能体的查询意图，基于传统注意力机制的通信信息处理模块仍然会返回一个值向量的加权和。这种忽略权重分配情况的通信融合结果不会对当前智能体产生有益的信息，导致智能体信息融合效果不好。

鉴于此，如何解决应用传统注意力机制智能体可能会接收融合了其他智能体意图的不利信息，导致最终信息融合效果不好的技术弊端问题，是所属领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种多智能体信息融合方法、装置、电子设备及可读存储介质，有效地解决了应用传统注意力机制智能体可能会接收融合了其他智能体意图的不利信息所导致最终的信息融合效果不好的技术问题，加强各智能体间的协作性能，提升了多智能体信息融合效果。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种多智能体信息融合方法，包括：

构建用于对多智能体应用模拟环境中各智能体的操作进行预测的操作预测网络模型；

构建门控注意力机制模型，所述门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收所述通信信息融合结果；

将所述多智能体应用模拟环境的状态信息输入至所述操作预测网络模型，得到各智能体的预测动作；

根据所述多智能体应用模拟环境基于各智能体的预测动作输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，循环训练所述操作预测网络模型直至收敛。

可选的，所述门控注意力机制模型包括多个控制器和通信信息处理组件；

每个控制器包括编码器和译码器，各控制器数量与所述多智能体应用模拟环境中的智能体总数相同；所述通信信息处理组件连接所有控制器；

所述编码器用于对输入的环境状态信息进行特征提取和状态映射，以得到对应的嵌入向量；

所述译码器用于确定当前智能体在下一时刻的动作；

所述通信信息处理组件用于确定所述当前智能体之外的其他各智能体的数据信息。

可选的，所述编码器通过执行h＝f_encoder(o)，以完成对输入的环境状态信息进行特征提取和状态映射；

所述通信信息处理组件通过调用m＝f_processor(h)，得到所有智能体状态信息到每个智能体的信息融合结果；

所述译码器通过执行a＝f_decoder(h,m)，以确定当前智能体在下一时刻的动作；

其中，h为观测信息，o为状态信息，f_encoder为具有全连接层和非线性激活层的第一神经网络，m为所有智能体的状态信息到每个智能体的信息融合结果，f_processor为具有全连接层和非线性激活层的第二神经网络，f_decoder为具有全连接层和非线性激活层的第三神经网络，a为所述当前智能体的动作信息。

可选的，所述根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收所述通信信息融合结果，包括：

根据原始注意力机制计算各智能体的通信信息融合结果，并将所述通信信息融合结果作为隐层信息；

对各智能体，根据当前智能体的查询向量和所述通信信息融合结果确定所述当前智能体的候选通信结果和门控信号；根据所述候选通信结果和所述门控信号确定所述当前智能体的信息融合结果。

可选的，所述根据当前智能体的查询向量和所述通信信息融合结果确定所述当前智能体的候选通信结果和门控信号，包括：

调用z_i＝concat(Q_i,m_i)对所述查询向量和所述通信信息融合结果进行拼接，得到拼接数据；

通过调用

计算所述候选通信结果；

通过调用g＝sigmoid(W_gz_i)计算所述门控信号；

其中，i为第i个智能体，Q_i为所述查询向量，m_i为所述通信信息融合结果，z_i为所述拼接数据，concat表示拼接操作，

为所述候选通信结果，W_cand为所述拼接数据的向量特征变换矩阵，g为所述门控信号，W_g为所述拼接数据的特征变换矩阵，sigmoid为sigmoid函数。

可选的，所述基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，包括：

根据所述门控注意力机制模型和演员-评论家算法构建多智能体强化学习模型；所述多智能体强化学习模型包括评论家网络、演员网络和目标网络；每个智能体对应一个评论家和一个演员；所述评论家网络根据所述多智能体应用模拟环境反馈的奖励信息进行更新，所述演员网络根据对应的评论家网络的输出指导更新；

通过交替更新所述评论家网络和所述演员网络，同时利用所述目标网络计算所述评论家网络的目标Q值，训练所述操作预测网络模型；

其中，所述评论家网络的输入为所有智能体的观测信息，所有智能体作用到所述多智能体应用模拟环境的实际联合动作以及对应奖励信息；所述评论家网络的输出为所有智能体联合动作的期望收益。

可选的，所述通过交替更新所述评论家网络和所述演员网络，包括：

在对所述评论家网络进行了预设次数的更新之后，对所述演员网络进行一次更新。

本发明实施例另一方面提供了一种多智能体信息融合装置，包括：

网络模型构建模块，用于构建用于对多智能体应用模拟环境中各智能体的操作进行预测的操作预测网络模型；

门控模型构建模块，用于构建门控注意力机制模型，所述门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收所述通信信息融合结果；

动作预测模块，用于将所述多智能体应用模拟环境的状态信息输入至所述操作预测网络模型，得到各智能体的预测动作；

模型训练模块，用于根据所述多智能体应用模拟环境基于各智能体的预测动作输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，循环训练所述操作预测网络模型直至收敛。

本发明实施例还提供了一种电子设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述多智能体信息融合方法的步骤。

本发明实施例最后还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述多智能体信息融合方法的步骤。

本申请提供的技术方案的优点在于，在多智能体学习过程中，通过门控注意力机制模型可以允许每个智能体结合自身情况和通信信息融合结果两个因素来决定是否接受通信信息的融合结果，可过滤掉无关的注意力信息，仅保留有用的信息，从而使智能体能够充分理解和其他智能体的交互信息，有效地解决了应用传统注意力机制智能体可能会接收融合了其他智能体意图的不利信息所导致最终的信息融合效果不好的技术问题，较好地解决了多智能体场景中的环境非平稳以及可迁移性等诸多问题，加强了智能体间的协作性能，提升了多智能体信息融合效果，从而产生更大的群体收益。同时该方法同样对智能体数量不敏感，适用于智能体数量较多或智能体数量动态变化的场景。

此外，本发明实施例还针对多智能体信息融合方法提供了相应的实现装置、电子设备及可读存储介质，进一步使得所述方法更具有实用性，所述装置、电子设备及可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多智能体信息融合方法的流程示意图；

图2为本发明实施例提供的一个示意性例子中的覆盖控制模拟环境示意图；

图3为本发明实施例提供的门控注意力模型结构示意图；

图4为本发明实施例提供的基于门控注意力机制模型的强化学习算法流程示意图；

图5为本发明实施例提供的基于门控注意力机制模型的强化学习算法的策略网络的网络结构示意图；

图6为本发明实施例提供的基于门控注意力机制模型的强化学习算法的中心化训练与分散式执行示意图；

图7为本发明实施例提供的多智能体信息融合装置的一种具体实施方式结构图；

图8为本发明实施例提供的电子设备的一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种多智能体信息融合方法的流程示意图，例如非完备信息条件下多智能体信息融合问题，本发明实施例可包括以下内容：

在执行下述各步骤之前，需要先获取多智能体应用模拟环境并安装该多智能体应用模拟环境，多智能体应用模拟环境可为一段计算机程序，多智能体应用模拟环境例如可为覆盖控制环境、交通控制环境和复杂机器人控制场景等。其中，OpenAI开发的覆盖控制环境，环境中有K个固定的目标点以及K个可移动的智能体，任务是让所有智能体移动到不同的目的地，同时，智能体之间发生碰撞时会受到惩罚，因此该环境的任务是让每个智能体通过协调配合，分别前往合适的目标点，尽可能获得更高的奖励。可通过代码托管网站GitHub的OpenAI仓库即可获取并安装覆盖控制环境，如图2所示。

S101：构建操作预测网络模型。

在获取并安装多智能体应用模拟环境之后，可构建用于对多智能体应用模拟环境中各智能体的操作进行预测的操作预测网络模型。本实施例的操作预测网络模型可基于深度强化学习方法进行构建，操作预测网络模型的输入为多智能体应用模拟环境的状态信息，输出为对应环境下各智能体在下一时刻的动作。操作预测网络模型的中间层的网络的参数需要使用深度强化学习训练的对应策略。举例来说，图4中编码器输入为当前游戏状态信息，包括各智能体的位置、移动方向等信息，其输入维度可设置为96，输出维度可设置为256维，译码器的输入维度可设置为256维。在通信信息处理模块的注意力机制参数中，查询向量维度可设置为64维，注意力头的数量可设置为4。操作预测网络模型的优化器可使用Adam优化器，学习率可设置为0.001，高斯噪声方差可设置为0.1，折扣因子可设置为0.9。同时还可使用多进程的方法，将环境分配到32个进程中，加快整个操作预测网络模型的训练速度。本实施例通过使用智能体在多智能体应用模拟环境中作出决策来收集数据，根据收集的状态和动作来优化智能体的策略。

表1操作预测网络模型的网络结构

S102：构建门控注意力机制模型。

注意力机制是指，对于当前的智能体，计算所有智能体的重要性得分，然后使用诸如softmax函数将得分标准化为权重，最后将关注权重用于衡量业务代表之间的相关程度。但是，注意力权重表示代理之间的相关性，并无法真正对智能体之间的关系进行建模。另外，当没有满足特定查询要求的内容时，注意力模块仍会返回一个向量，该向量是候选向量的加权平均值，因此与查询完全无关。为了解决传统注意力机制存在的不相关的注意力问题，以及因注意力权重非零而带来的可能会融合不利信息问题，本实施例可采用门控注意力机制模型，以过滤掉无关的注意力信息，仅保留有用的信息。门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。具体来说，门控注意力机制在传统注意力机制的基础上增加了一层门控判断机制，通过门控判断机制允许每个智能体结合自身情况和通信信息融合结果两个因素来决定是否接受通信信息的融合结果，学习更加灵活高效的通信模式。从而对原有的注意力结果进行二次处理。同时该方法同样对智能体数量不敏感，适用于智能体数量较多或智能体数量动态变化的场景。基于门控注意力机制在多个智能体之间建立通信机制能够缓解部分问题，同时能够加强智能体间的协作性能，从而产生更大的群体收益。

S103：将多智能体应用模拟环境的状态信息输入至操作预测网络模型，得到各智能体的预测动作。

在上述步骤构建好操作预测网络模型之后，可从多智能体应用模拟环境中获取诸如各智能体的位置、移动方向等状态信息，并将获取的状态信息输入至操作预测网络模型，操作预测网络模型输出各智能体在下一个时刻的动作信息。

S104：根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于门控注意力机制模型的强化学习算法更新操作预测网络模型，循环训练操作预测网络模型直至收敛。

在上述步骤获取各智能体在下一时刻的预测动作信息之后，将各智能体的预测动作反馈至多智能体应用模拟环境，多智能体应用模拟环境根据各智能体的动作信息进行打分，并输出下一时刻的状态信息，下一时刻的状态信息可为图像信息，同时可利用基于门控注意力机制模型的强化学习算法确定各智能体的价值。也就是说，使用操作预测网络模型与多智能体应用模拟环境进行交互获取模拟记录数据，根据模拟记录数据，基于门控注意力机制模型的强化学习算法更新操作预测网络模型。模拟记录数据包括：通过多智能体应用模拟环境生成模拟记录数据并输入到操作预测网络模型，操作预测网络模型产生合法的动作并返回给多智能体应用模拟环境，同时基于门控注意力机制的价值网络产生价值，最后将根据价值指导操作预测网络模型；同时多智能体应用模拟环境根据操作预测网络模型产生的动作给出得分以及下一个环境状态图像。

在本发明实施例提供的技术方案中，在多智能体学习过程中，通过门控注意力机制模型可以允许每个智能体结合自身情况和通信信息融合结果两个因素来决定是否接受通信信息的融合结果，可过滤掉无关的注意力信息，仅保留有用的信息，从而使智能体能够充分理解和其他智能体的交互信息，有效地解决了应用传统注意力机制智能体可能会接收融合了其他智能体意图的不利信息所导致最终的信息融合效果不好的技术问题，较好地解决了多智能体场景中的环境非平稳以及可迁移性等诸多问题，加强了智能体间的协作性能，提升了多智能体信息融合效果，从而产生更大的群体收益。同时该方法同样对智能体数量不敏感，适用于智能体数量较多或智能体数量动态变化的场景。

需要说明的是，本申请中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1只是一种示意方式，并不代表只能是这样的执行顺序。

在上述实施例中，对于如何执行步骤S102并不做限定，本实施例中门控注意力机制的一种可选的构建方式，可包括如下步骤：

门控注意力机制在传统注意力机制的基础上增加了一层判断机制，允许每个智能体结合自身情况和通信信息融合结果两个因素来决定是否接受通信信息的融合结果，从而学习更加灵活高效的通信模式。门控注意力机制的一般模型如图4所示。如何基于模拟环境状态信息训练良好的深度学习模型是智能体性能的关键，本实施例的门控注意力机制模型可包括多个控制器和通信信息处理组件；每个控制器包括编码器和译码器，各控制器数量与多智能体应用模拟环境中的智能体总数相同；通信信息处理组件连接所有控制器；编码器用于对输入的环境状态信息进行特征提取和状态映射，以得到对应的嵌入向量；译码器用于确定当前智能体在下一时刻的动作；通信信息处理组件用于确定当前智能体之外的其他各智能体的数据信息。

在本实施例中，预先定义编码器、通信信息处理模块与译码器，编码器可定义为观测信息o到状态信息h的映射：h＝f_encoder(o)(3-1)，相应的，编码器可通过执行h＝f_encoder(o)，以完成对输入的环境状态信息进行特征提取和状态映射。通信信息处理组件定义所有智能体的状态信息h到每个智能体的信息融合结果m为：m＝f_processor(h)(3-2)，相应的，通信信息处理组件可通过调用m＝f_processor(h)，得到所有智能体状态信息到每个智能体的信息融合结果。译码器定义为智能体的状态信息h和信息融合结果m到动作信息a的映射：a＝f_decoder(h,m)(3-3)，相应的，译码器可通过执行a＝f_decoder(h,m)，以确定当前智能体在下一时刻的动作。其中，h为观测信息，o为状态信息，f_encoder为具有全连接层和非线性激活层的第一神经网络，m为所有智能体的状态信息到每个智能体的信息融合结果，f_processor为具有全连接层和非线性激活层的第二神经网络，f_decoder为具有全连接层和非线性激活层的第三神经网络，a为当前智能体的动作信息。

在上述实施例中，对于如何基于门控注意力机制模型进行多智能体的信息融合过程并没有进行限定，本实施例还给出一种可选的实施例方式，可包括如下步骤：

根据原始注意力机制计算各智能体的通信信息融合结果，并将通信信息融合结果作为隐层信息；对各智能体，根据当前智能体的查询向量和通信信息融合结果确定当前智能体的候选通信结果和门控信号；根据候选通信结果和门控信号确定当前智能体的信息融合结果。

在本实施例中，门控注意力机制可保证通信信息融合结果的维度等与智能体数量无关，并且使得不同来源的信息以交互过程中学习的比例进行融合。所谓的原始注意力机制即为相关技术中任何一种注意力机制，基于原始注意力机制的通信信息融合结果方式如下：根据智能体的状态信息可生成查询向量Q、键向量K和值向量V，这三个向量可表示为：

Q＝W_qh,K＝W_kh,V＝W_vh (3-4)

其中，W_q为查询向量特征变换矩阵；W_k为键向量特征变换矩阵；W_v为值向量特征变换矩阵。可通过相似度函数f_sim计算查询向量和键向量的相似度s，可表示为：s＝f_sim(Q,K)(3-5)。其中，相似度函数f_sim可表示为：

Q^T为查询向量Q的转秩，d为查询向量Q的维度。

在上述步骤得到相似度s之后，可利用softmax函数对第i个智能体关于其它所有智能体的相似度进行归一化，得到注意力权重w_ij，也即可通过计算关系式3-7计算注意力权重：

式中，

为以自然对数e为底的s_i，j次幂，p为从1到智能体总数，s_i，j为智能体i和智能体j的相似程度。

最后根据上个步骤计算得到的注意力权重w_ij对所有值向量进行加权求和，得到智能体i的信息融合结果m_i：

m_i＝∑w_i,jV_j (3-8)

式中，V_j为智能体j的查询向量。

利用上述过程以及计算关系式3-4到3-8计算得到多智能体应用模拟环境中各智能体的信息融合结果，由原始注意力机制计算得到的每个智能体的通信融合结果m_i作为隐层信息c_i，预先定义用于对当前第i个智能体的查询向量与该智能体的通信融合结果m_i进行拼接的拼接关系式，拼接关系式可表示为：z_i＝concat(Q_i,m_i) (3-9)。定义用于计算得到候选通信结果的候选通信结果计算关系式，也即可通过对拼接结果进行一次线性变换得到候选通信结果，候选通信结果计算关系式可表示为

定义用于计算门控信号的门控计算关系式，门控计算关系式可表示为g＝sigmoid(W_gz_i)(3-11)。最后，将门控信号作用在候选通信结果上，二者相乘即可得到最终的通信结果，也即定义用于计算最终融合结果的关系式可为

基于此，根据当前智能体的查询向量和通信信息融合结果确定当前智能体计算当前智能体的最终融合通信结果的过程为：

调用z_i＝concat(Q_i,m_i)对当前智能体的查询向量和通信信息融合结果进行拼接，得到当前智能体的拼接数据；

通过调用

计算当前智能体的候选通信结果；

通过调用g＝sigmoid(W_gz_i)计算门控信号；

通过调用

计算当前智能体的最终融合通信结果。

其中，i为第i个智能体，Q_i为查询向量，m_i为通信信息融合结果，z_i为拼接数据，concat表示拼接操作，

为候选通信结果，W_cand为拼接数据的向量特征变换矩阵，g为门控信号，W_g为拼接数据的特征变换矩阵，sigmoid为sigmoid函数，

表示元素矩阵乘法。

可以理解的是，深度强化学习算法应用于多智能体博弈场景的优势在于其端到端的特性，通过深度强化学习算法学习智能体行动策略从而直接完成从输入游戏状态到输出可行动作的映射，这为解决各类多智能体博弈任务提供了一套通用的算法框架，而Actor-Critic(演员-评论家)算法是其中较具代表性的算法。在以Actor-Critic算法为基本框架的深度强化学习算法中，为了训练出各类机器博弈智能体，通常的做法是首先通过设计卷积网络对博弈状态进行特征提取，然后利用Actor网络进行智能体行动策略学习，利用Critic网络进行策略评估与改善，不断迭代训练直至收敛。然而，由于Actor-Critic算法实质上是综合考虑了值迭代方法与策略梯度方法，其中策略梯度方法需要根据智能体交互过程中的轨迹进行采样和策略更新，如果缺乏充足的采样轨迹或者采样轨迹的质量不够好，就会影响策略梯度的优化过程从而导致智能体无法学习到正确且高效的策略。基于此，在少数几个Atari视频游戏场景中，以该算法为基本框架的智能体很难学习到高效获取环境奖励的策略，这类场景所具备的一个相似点是智能体所处的环境比较复杂，很难直接获得奖励反馈，智能体往往需要经过一系列的行动决策或者参考较多的历史信息才能做出获得正向奖励值的动作。为了解决上述深度学习算法所存在的技术弊端，本实施例结合门控注意力机制模型，形成具有一定智能水平的决策模型和技术，从而使智能体能够充分理解和其他智能体的交互信息，也即将门控注意力机制模型与演员-评论家算法进行融合实现对操作预测网络模型的训练，可包括下述内容：

根据门控注意力机制模型和演员-评论家算法构建多智能体强化学习模型；多智能体强化学习模型包括评论家Critic网络、演员Actor网络和目标网络；每个智能体对应一个评论家Critic和一个演员Actor；评论家网络根据多智能体应用模拟环境反馈的奖励信息进行更新，演员网络根据对应的评论家网络的输出指导更新；通过交替更新评论家网络和演员网络，同时利用目标网络计算评论家网络的目标Q值，训练操作预测网络模型；其中，评论家网络的输入为所有智能体的观测信息，所有智能体作用到多智能体应用模拟环境的实际联合动作以及对应奖励信息；输出为所有智能体联合动作的期望收益。

在本实施例中，门控注意力机制模型仅作用于通信信息处理模块中，并不涉及整个操作预测网络模型的具体结构和学习方法。多个智能体的协作性能依赖于整体操作预测网络模型的参数，可利用基于门控注意力机制模型的确定性策略梯度强化学习算法对其进行训练。在训练阶段，每个智能体的Critic利用环境的奖励信号进行更新，而Actor参数的更新则依赖于Critic的价值评估。由于基于确定性策略梯度的强化学习算法在训练过程中存在Q值估计方差大等问题，可利用一定的训练技巧对训练方法进行优化。在测试阶段，智能体只需利用Actor进行决策，无需Critic的参与。基于确定性策略梯度的多智能体强化学习算法中，虽然基于注意力机制的通信信息处理模块返回给智能体的信息融合结果维度不受智能体数量的影响，但整体操作预测网络中的Critic输入直接与智能体的数量相关，一旦多智能体应用模拟环境中的智能体数量发生改变，整个操作预测网络由于结构发生改变必须重新训练。因此，在该方法的基础上对Critic的连接方式进行修改，使其不受智能体数量变化的影响，从而整个模型可利用智能体数量变化的学习进行辅助训练。

在多智能体协作场景中，智能体的奖励通常取决于多个智能体的动作。受MADDPG算法思想的启发，可选择将确定性策略梯度算法与门控注意力机制方法结合起来。在该操作预测网络结构中，每个智能体都对应一个Critic和一个Actor。对于n个智能体，Critic网络的输入为所有智能体的观测信息，所有智能体作用到环境的实际联合动作以及对应奖励信息。输出为所有智能体联合动作的期望收益。在训练阶段，Critic网络和Actor网络交替更新，Critic网络根据环境反馈的奖励信息进行更新，Actor网络则由Critic网络的输出指导更新。在测试阶段，则不需要Critic网络的参与。由图6可以看出为了在多智能体中更好地共享信息，利用一个集中的Critic来评估所有智能体的行为，而不是原来的智能体单独训练自己的估值网络，这增强智能体的协作能力同时还能中心化地计算奖励，通过这样一个中心化的Q值可以对观察o下的动作a进行估值。

由于使用了确定性策略梯度的优化方法，Actor由对应的Critic指导更新，策略梯度可利用链式求导法则进行求解。Critic网络在更新时采用TD迭代方式，同时利用目标网络机制辅助计算目标Q值，从而降低目标Q值与当前Q值的相关性。由于每个Critic的输入都包含了其他智能体的策略信息以及环境的真实状态，使得当前智能体的Critic在评价其Actor的表现时更加合理，能够极大地缓解环境中的非平稳问题。

在确定性策略梯度中，Actor与Critic的同步训练将使得训练不稳定，Critic网络在训练初期的评价质量较差，会使得受其指导更新的Actor网络的更新质量变差。因此本实施例可采用延迟更新Actor网络的做法，在Critic网络进行了一定次数的更新之后再进行一次Actor网络参数的更新。也即在对评论家网络进行了预设次数的更新之后，对演员网络进行一次更新。预设次数可根据实际应用场景进行灵活选择，本申请对此不作任何限定。经过多次更新后的Critic评估会更加准确，从而减小对智能体动作的评估方差，减少网络训练的不稳定性。

由于Critic的Q值存在过估计问题，可借鉴TD3算法，使用剪切的双Q网络的架构，其做法是随机初始化两个参数值不同的Critic网络，同时还有对应的两个Critic目标网络，在计算目标Q值时选择两个Critic目标网络输出的Q值中较小的一个，利用该目标Q值即可计算两个Critic网络的TD误差，进而更新两个Critic网络。

此外，在计算目标Q值时，会在当前智能体的Actor目标网络动作选取的过程中添加一定噪声，相当于对目标策略进行了平滑，这样可以进一步降低目标Q值的估计方差。在更新两个Critic网络的参数时，使用目标Q值作为两个Critic网络更新的目标，即两个Critic网络的目标Q值一致。在更新两个Critic目标网络的参数时，采用指数移动平均的方式将两个Critic网络的参数覆盖到对应的目标网络，在更新Actor网络的同时，同样使用指数移动平均的方式对Actor目标网络参数进行更新。利用指数移动平均的方式对目标网络参数进行更新能有效减小训练时参数的波动幅度，有效减小更新的方差，同时降低当前网络与其目标网络的相关性。

基于上述内容，策略网络如图5所示，本实施例通过融合基于门控注意力机制模型的演员-评论家算法所得的深度学习算法的实施过程可如下：

为了验证本实施例所提的基于门控注意力机制模型的强化学习算法的有效性，本实施例将强化学习方法应用于多人游戏中，实现多智能体博弈。将该强化学习方法应用于多人游戏中的实现方式包括：

根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵，可编码为一个96维的状态表征向量，作为操作预测网络模型输入；原始状态表示矩阵中需要包括地图信息、智能体位置信息、智能体移动方向信息、敌方智能体信息；操作预测网络模型主体结构采用融合门控注意力的多层感知机；分为训练和测试2个步骤，训练时采用强化学习框架，其中智能体策略求解采用中心化训练分散式执行框架，如图6所示，通过智能体共享的全局信息和动作训练了一个中心化的基于门控注意力机制的价值网络Critic，Critic网络和Actor网络交替更新，Critic网络根据环境反馈的奖励信息进行更新，Actor网络则由Critic网络的输出指导更新；测试时，Actor网络进行行为克隆从而更新网络参数，不需要Critic网络的参与；在训练和测试时均通过智能体策略决定每个智能体的动作，假设N是智能体的可选动作总数，智能体策略输出是一个N维向量，表示每个智能体的动作概率分布，智能体将采取N维向量中概率最大的动作。

覆盖控制环境被广泛地用于多智能体深度强化学习的研究，通过该实验环境说明本申请所提供的计算方案的有效性。本实施例以非完备信息条件下的游戏‘覆盖控制’为研究对象和测试平台，基于该测试平台实现了基于门控注意力机制的强化学习算法。

覆盖控制场景是测试本实施例所提的强化学习算法的多智能体应用模拟环境。在如图2所示的覆盖控制环境中，环境中有K个固定的目标点以及K个可移动的智能体，任务是让所有智能体移动到不同的目的地，同时智能体之间发生碰撞时会受到惩罚，因此该环境的任务是让每个智能体通过协调配合，分别前往合适的目标点，尽可能获得更高的奖励。值得注意的是，该环境并没有规定某一智能体必须移动到某一目标点，而是让智能体通过通信等方式决定各自的目标点。覆盖控制平台提供了接口接受动作输入和反馈奖励信号，模拟了强化学习模型中的环境。目前覆盖控制环境为训练多智能体进行环境探索提供了较全面的测试能力，本实施例基于该平台进行了实验。

表2本实施例的实验开发环境

本实施例分别针对现有方法CoomNet和本申请所提供的技术方案进行了对比试验，CoomNet将多个智能体的模型组合成一个大模型，所有智能体的模型通过一个通信模块连接起来，不同智能体的模型参数共享。为了便于描述，将本申请所提的基于门控注意力机制的强化学习算法称为HAMAC(Hierarchical Attentional Multi-agentCommunication)，可包括下述内容：

深度强化学习算法通常以模拟环境输出的得分值作为智能体性能的度量标准，对不同游戏场景而言都略有不同，但都是对深度强化学习奖励值的等价表示形式。在覆盖控制场景中，任务成功率指的是在所有测试的回合中，智能体完成任务目标的回合数占总回合数的比例，回合时长指的是回合开始到回合结束所用的时间步，其中最大回合时长设置为50，在某一回合中超过该最大时间步则判定为任务失败。不同算法训练的智能体在覆盖控制场景中的平均奖励值效果对比如表格3所示。

成功率越高表明训练该智能体的算法学习出的行动策略越有效，智能体能够快速准确到达目标点。这种结果的主要原因在于覆盖控制场景中智能体之间需要互相协作，而HAMAC算法中的门控注意力机制在此类场景中恰好为智能体的行动策略更新提供了辅助，从而修正了智能体之间的通信信息，因此能够较快地学习探索策略。通过上述对比试验说明了使用HAMAC算法在覆盖控制中能够训练出探索性能较为高效的强化学习智能体。其中HAMAC算法以100％的成功率具有最优的表现，更好的成功率表明HAMAC算法能够帮助智能体形成协作关系，从而准确的找到每个智能体应该到达的位置，即具有更稳定的行动策略。

表3 HAMAC算法实验数据对比

评估指标	CommNet	HAMAC
			成功率	86％	100％

由上可知，本实施例所提供的技术方案所产生的智能体融合信息，在训练过程中为智能体的策略更新起到了非常重要的作用，帮助各智能体决策，从而更好地进行团队协作。通过与CommNet算法的对比分析，HAMAC算法在成功率上超越了CommNet算法，表现出了更好的性能。

本发明实施例还针对多智能体信息融合方法提供了相应的装置，进一步使得方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的多智能体信息融合装置进行介绍，下文描述的多智能体信息融合装置与上文描述的多智能体信息融合方法可相互对应参照。

基于功能模块的角度，参见图7，图7为本发明实施例提供的多智能体信息融合装置在一种具体实施方式下的结构图，该装置可包括：

网络模型构建模块701，用于构建用于对多智能体应用模拟环境中各智能体的操作进行预测的操作预测网络模型。

门控模型构建模块702，用于构建门控注意力机制模型，门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。

动作预测模块703，用于将多智能体应用模拟环境的状态信息输入至操作预测网络模型，得到各智能体的预测动作。

模型训练模块704，用于根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于门控注意力机制模型的强化学习算法更新操作预测网络模型，循环训练操作预测网络模型直至收敛。

可选的，在本实施例的一些实施方式中，上述门控注意力机制模型包括多个控制器和通信信息处理组件；每个控制器包括编码器和译码器，各控制器数量与多智能体应用模拟环境中的智能体总数相同；通信信息处理组件连接所有控制器；编码器用于对输入的环境状态信息进行特征提取和状态映射，以得到对应的嵌入向量；译码器用于确定当前智能体在下一时刻的动作；通信信息处理组件用于确定当前智能体之外的其他各智能体的数据信息。

作为上述实施例的一种可选的实施方式，上述门控模型构建模块702可用于：编码器通过执行h＝f_encoder(o)，以完成对输入的环境状态信息进行特征提取和状态映射；通信信息处理组件通过调用m＝f_processor(h)，得到所有智能体状态信息到每个智能体的信息融合结果；译码器通过执行a＝f_decoder(h,m)，以确定当前智能体在下一时刻的动作；其中，h为观测信息，o为状态信息，f_encoder为具有全连接层和非线性激活层的第一神经网络，m为所有智能体的状态信息到每个智能体的信息融合结果，f_processor为具有全连接层和非线性激活层的第二神经网络，f_decoder为具有全连接层和非线性激活层的第三神经网络，a为当前智能体的动作信息。

可选的，在本实施例的另一些实施方式中，上述门控模型构建模块702还可用于：根据原始注意力机制计算各智能体的通信信息融合结果，并将通信信息融合结果作为隐层信息；对各智能体，根据当前智能体的查询向量和通信信息融合结果确定当前智能体的候选通信结果和门控信号；根据候选通信结果和门控信号确定当前智能体的信息融合结果。

作为上述实施例的一种可选的实施方式，上述门控模型构建模块702还可进一步用于：调用z_i＝concat(Q_i,m_i)对查询向量和通信信息融合结果进行拼接，得到拼接数据；通过调用

计算候选通信结果；通过调用g＝sigmoid(W_gz_i)计算门控信号；其中，i为第i个智能体，Q_i为查询向量，m_i为通信信息融合结果，z_i为拼接数据，concat表示拼接操作，

为候选通信结果，W_cand为拼接数据的向量特征变换矩阵，g为门控信号，W_g为拼接数据特征变换矩阵，sigmoid为sigmoid函数。

可选的，在本实施例的其他一些实施方式中，上述模型训练模块704可用于：根据门控注意力机制模型和演员-评论家算法构建多智能体强化学习模型；多智能体强化学习模型包括评论家网络、演员网络和目标网络；每个智能体对应一个评论家和一个演员；评论家网络根据多智能体应用模拟环境反馈的奖励信息进行更新，演员网络根据对应的评论家网络的输出指导更新；通过交替更新评论家网络和演员网络，同时利用目标网络计算评论家网络的目标Q值，训练操作预测网络模型；其中，评论家网络的输入为所有智能体的观测信息，所有智能体作用到多智能体应用模拟环境的实际联合动作以及对应奖励信息；输出为所有智能体联合动作的期望收益。

作为上述实施例的一种可选的实施方式，上述模型训练模块704还可进一步用于：在对评论家网络进行了预设次数的更新之后，对演员网络进行一次更新。

本发明实施例所述多智能体信息融合装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例有效地解决了应用传统注意力机制智能体可能会接收融合了其他智能体意图的不利信息所导致最终的信息融合效果不好的技术问题，加强各智能体间的协作性能，提升了多智能体信息融合效果。

上文中提到的多智能体信息融合装置是从功能模块的角度描述，进一步的，本申请还提供一种电子设备，是从硬件角度描述。图8为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图8所示，该电子设备包括存储器80，用于存储计算机程序；处理器81，用于执行计算机程序时实现如上述任一实施例提到的多智能体信息融合方法的步骤。

其中，处理器81可以包括一个或多个处理核心，比如4核心处理器、8核心处理器，处理器81还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器81可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable GateArray，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器81可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器81还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器80可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器80还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。存储器80在一些实施例中可以是电子设备的内部存储单元，例如服务器的硬盘。存储器80在另一些实施例中也可以是电子设备的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器80还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器80不仅可以用于存储安装于电子设备的应用软件及各类数据，例如：执行漏洞处理方法的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中，存储器80至少用于存储以下计算机程序801，其中，该计算机程序被处理器81加载并执行之后，能够实现前述任一实施例公开的多智能体信息融合方法的相关步骤。另外，存储器80所存储的资源还可以包括操作系统802和数据803等，存储方式可以是短暂存储或者永久存储。其中，操作系统802可以包括Windows、Unix、Linux等。数据803可以包括但不限于多智能体信息融合结果对应的数据等。

在一些实施例中，上述电子设备还可包括有显示屏82、输入输出接口83、通信接口84或者称为网络接口、电源85以及通信总线86。其中，显示屏82、输入输出接口83比如键盘(Keyboard)属于用户接口，可选的用户接口还可以包括标准的有线接口、无线接口等。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口84可选的可以包括有线接口和/或无线接口，如WI-FI接口、蓝牙接口等，通常用于在电子设备与其他电子设备之间建立通信连接。通信总线86可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域技术人员可以理解，图8中示出的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的组件，例如还可包括实现各类功能的传感器87。

本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

可以理解的是，如果上述实施例中的多智能体信息融合方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时如上任意一实施例所述多智能体信息融合方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本申请所提供的一种多智能体信息融合方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种多智能体信息融合方法，其特征在于，包括：

根据所述多智能体应用模拟环境基于各智能体的预测动作输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，循环训练所述操作预测网络模型直至收敛；

其中，所述根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收所述通信信息融合结果，包括：

2.根据权利要求1所述的多智能体信息融合方法，其特征在于，所述门控注意力机制模型包括多个控制器和通信信息处理组件；

所述译码器用于确定当前智能体在下一时刻的动作；

3.根据权利要求2所述的多智能体信息融合方法，其特征在于，所述编码器通过执行h＝f_encoder(o)，以完成对输入的环境状态信息进行特征提取和状态映射；

4.根据权利要求1所述的多智能体信息融合方法，其特征在于，所述根据当前智能体的查询向量和所述通信信息融合结果确定所述当前智能体的候选通信结果和门控信号，包括：

通过调用

计算所述候选通信结果；

通过调用g＝sigmoid(W_gz_i)计算所述门控信号；

5.根据权利要求1至4任意一项所述的多智能体信息融合方法，其特征在于，所述基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，包括：

6.根据权利要求5所述的多智能体信息融合方法，其特征在于，所述通过交替更新所述评论家网络和所述演员网络，包括：

7.一种多智能体信息融合装置，其特征在于，包括：

模型训练模块，用于根据所述多智能体应用模拟环境基于各智能体的预测动作输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于所述门控注意力机制模型的强化学习算法更新所述操作预测网络模型，循环训练所述操作预测网络模型直至收敛；

其中，所述门控模型构建模块进一步用于：根据原始注意力机制计算各智能体的通信信息融合结果，并将所述通信信息融合结果作为隐层信息；对各智能体，根据当前智能体的查询向量和所述通信信息融合结果确定所述当前智能体的候选通信结果和门控信号；根据所述候选通信结果和所述门控信号确定所述当前智能体的信息融合结果。

8.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述多智能体信息融合方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多智能体信息融合方法的步骤。