CN115793717B

CN115793717B - 群体协同决策方法、装置、电子设备及存储介质

Info

Publication number: CN115793717B
Application number: CN202310104054.1A
Authority: CN
Inventors: 刘振; 周志明; 张天乐; 易建强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-05
Anticipated expiration: 2043-02-13
Also published as: CN115793717A

Abstract

本发明提供一种群体协同决策方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：基于目标无人机的局部观测信息得到观测表征向量；基于目标无人机的局部通信信息得到交互表征向量；融合观测表征向量及交互表征向量，得到环境表征向量；基于环境表征向量对目标无人机进行群体协同策略更新，由此通过根据融合后得到的环境表征向量进行群体协同策略进行更新，得到最优运行策略，以根据最优运行策略完成协同围捕任务，实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕决策能力。

Description

群体协同决策方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种群体协同决策方法、装置、电子设备及存储介质。

背景技术

群体系统中智能体根据在局部观测、局部通信条件下所获信息进行协同决策，这种分布式的特性决定了群体系统具有可扩展性，高适应性等性质，使其在不同任务场景中的应用提供了巨大的优势。

然而，这种特性为群体协同决策提出了挑战。特别是在实际围捕任务中，比如多个进行追捕的无人机（即追捕者）组成的无人机追捕群体系统中，通过给各个追捕者施加相应的运行策略（即追捕者运行时的位置和速度），完成对一个进行逃跑的逃跑者或者多个逃跑者的协同围捕。

由于无人机追捕群体系统中的追捕者和逃跑者之间的行为具有对抗性，因此无人机追捕群体系统中的追捕者（即进行追捕的无人机）的局部观测信息与局部通信信息也是动态变化的，包含信息内容与信息维度大小的变化，例如观测范围内障碍物或者对手的状态及数量，通信范围内的同类无人机的状态及数量。这都需要无人机的策略模型能够有效地处理动态变化的局部观察信息，同时处理与同类无人机的通信交互信息，以提高无人机在动态变化环境下的协同围捕能力。

因此，研究如何提供一种适应于信息动态变化的群体协同决策方法具有重要意义。

发明内容

本发明提供一种群体协同决策方法、装置、电子设备及存储介质，用以有效地处理无人机追捕群体系统中的无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕能力。

本发明提供一种群体协同决策方法，包括：

基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；

基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；

融合所述观测表征向量及所述交互表征向量，得到环境表征向量；

基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，得到最优运行策略，以根据所述最优运行策略完成协同围捕任务。

根据本发明提供的一种群体协同决策方法，所述获取目标无人机的局部观测信息中的观测表征向量，包括：

根据无人机与目标无人机之间的类型关系，将目标无人机的局部观测信息划分为多组观测信息，其中，每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息；

获取每一组所述观测信息对应的观测有向图及观测图注意力网络，通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对所述目标无人机节点的影响关系表征向量，其中，所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机节点；

对多组所述影响关系表征向量进行加权求和，得到观测表征向量。

根据本发明提供的一种群体协同决策方法，所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层；

所述通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量，包括：

将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层，获取所述第一编码层输出的各所述节点的高维特征向量；

基于所述高维特征向量确定各所述无人机节点的键向量、查询向量及值向量；

将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层，获取所述第一注意力层输出的各所述其他无人机节点与所述目标无人机节点之间的第一注意力权重；

将所有所述其他无人机节点的第一注意力权重及所有所述其他无人机节点的值向量输入所述第一聚集层，获取所述第一聚集层输出的目标向量；

将所述目标向量及所述目标无人机节点的高维特征向量输入所述全连接网络层，获取所述全连接网络层输出的所述其他无人机节点对所述目标无人机节点的影响关系表征向量。

根据本发明提供的一种群体协同决策方法，所述基于所述目标无人机的局部通信信息得到交互表征向量，包括：

基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图；

移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图；

通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量。

根据本发明提供的一种群体协同决策方法，所述移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图，包括：

将所述局部通信拓扑图中的目标无人机节点的观测表征向量分别与各同类无人机节点的观测表征向量拼接成特征向量；

基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间交互关系，移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。

根据本发明提供的一种群体协同决策方法，所述通信图注意力网络包括第二编码层、第二注意力层及第二聚集层；

所述通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量，包括：

将所述相关通信拓扑图中各同类无人机节点与目标无人机节点之间传递的局部通信信息输入所述第二编码层，获取所述第二编码层输出的编码后的局部通信信息；

将各所述编码后的局部通信信息输入所述第二注意力层，获取所述第二注意力层输出的各所述同类无人机节点与所述目标无人机节点之间的第二注意力权重；

将所有所述第二注意力权重及所有所述编码后的局部通信信息输入所述第二聚集层，获取所述第二聚集层输出的交互表征向量。

根据本发明提供的一种群体协同决策方法，所述基于所述环境表征向量对所述目标无人机进行群体协同策略更新，包括：

将所述环境表征向量输入所述目标无人机的策略网络，获取所述策略网络输出的动作值；

将所述环境表征向量输入所述目标无人机的值网络，获取所述值网络输出的标量值；

基于所述动作值及所述标量值对所述目标无人机的群体协同策略进行更新。

本发明还提供一种群体协同决策装置，包括：

第一表征模块，用于基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；

第二表征模块，用于基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；

融合模块，用于融合所述观测表征向量及所述交互表征向量，得到环境表征向量；

策略模块，用于基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述群体协同决策方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述群体协同决策方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述群体协同决策方法。

本发明提供的群体协同决策方法、装置、电子设备及存储介质，通过基于目标无人机的局部观测信息得到观测表征向量；基于目标无人机的局部通信信息得到交互表征向量；融合观测表征向量及交互表征向量，得到环境表征向量；基于环境表征向量对目标无人机进行群体协同策略更新，由此通过根据融合后得到的环境表征向量进行群体协同策略进行更新，得到最优运行策略，以根据最优运行策略完成协同围捕任务，实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕决策能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的群体协同决策模型的结构示意图；

图2是本发明提供的群体协同决策方法的流程示意图之一；

图3是本发明提供的群体协同决策方法的流程示意图之二；

图4是本发明提供的群体协同决策方法的流程示意图之三；

图5是本发明提供的群体协同决策装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外需要说明的是，本发明提供的群体协同决策方法应用于部署了群体协同决策模型的智能终端，参考图1，本发明提供的群体协同决策模型的网络结构包括观测异构图注意力网络、通信相关图注意力网络、融合注意力网络及策略模型四大网络结构，其中，箭头代表群体协同决策模型中的数据流向。

具体地，本实施例中，将目标无人机的局部观测信息输入至观测异构图注意力网络后，观测异构图注意力网络输出观测表征向量，将目标无人机的局部通信信息输入至通信相关注意力网络后，通信相关注意力网络输出交互表征向量，之后观测表征向量及交互表征向量一同输入至融合注意力网络，融合注意力网络输出融合后的环境表征向量，最后环境表征向量输入至策略模型，在策略模型中基于环境表征向量对目标无人机的群体协同策略进行更新，得到最优运行策略后，输出最优运行策略，以供无人机根据最优运行策略完成协同围捕任务。

其中，异构图注意力网络包括观测信息组别划分层、关系图建模层及注意力聚集层，具体地，将目标无人机的局部观测信息输入至异构图注意力网络的输入层后，局部观测信息输入至观测信息组别划分层，观测信息组别划分层输出划分好的多组观测信息，之后每一组观测信息分别输入至关系图建模层，关系图建模层输出每一组观测信息的影响关系表征向量，最后影响关系表征向量输入至注意力聚集层，注意力聚集层输出观测表征向量。

其中，通信相关图注意力网络包括局部通信拓扑图层、相关通信拓扑图层及通信信息交互层，具体地，将目标无人机的局部通信信息输入至通信相关注意力网络的局部通信拓扑图层后，局部通信拓扑图层输出目标无人机的局部通信拓扑图，局部通信拓扑图输入至相关通信拓扑图层后，相关通信拓扑图层输出相关通信拓扑图，最后相关通信拓扑图输入至通信信息交互层后，通信信息交互层输出交互表征向量。

具体地，参考以下实施例，如图2所示，图2是本发明提供群体协同决策方法的流程示意图之一，该方法主要包括如下步骤：

步骤210，基于目标无人机的局部观测信息得到观测表征向量；

目标无人机为无人机追捕群体系统中需要进行群体协同策略更新的无人机，可以理解地，无人机追捕群体系统中每一个进行追捕的无人机均可被视为目标无人机。

目标无人机的局部观测信息包括在目标无人机的预设可视范围内所有无人机（包括目标无人机本身）的速度信息和位置信息，例如：无人机2在无人机追捕群体系统的坐标系下的 x方向和 y方向上的速度、 x方向和 y方向上的位置，其中，本实施例中的无人机可包括与目标无人机属于友方关系的无人机（即同类无人机）、与目标无人机属于敌方关系的无人机及与目标无人机属于中立关系的无人机。

在一个示例中，先根据目标无人机的局部观测信息构建出相应的观测有向图，其中，观测有向图中的节点包括目标无人机可视范围内所有无人机节点（包括目标无人机节点本身），接着通过对观测有向图进行处理，进而提取出观测表征向量，其中，观测表征向量表征了目标无人机的周围环境信息对目标无人机的空间影响关系。

步骤220，基于所述目标无人机的局部通信信息得到交互表征向量；

需要说明的是，局部通信信息为至少一个同类无人机（包括目标无人机本身）与目标无人机之间传递的局部通信信息，其中，同类无人机包括在目标无人机的预设通信范围内与目标无人机属于友方关系的无人机。

本实施例中，目标无人机的观测表征向量被作为通信交互信息在目标无人机和同类无人机之间传递，因此目标无人机能接受到的来自同类无人机的局部通信信息，其中,，其中，指代目标无人机的预设通信范围内所有的同类无人机（包括目标无人机本身），也即局部通信信息包括在目标无人机的预设通信范围内的同类无人机的观测表征向量。

本实施例中，先根据目标无人机的局部通信信息构建出相应的局部通信拓扑图，其中，局部通信拓扑图中的节点包括目标无人机的预设通信范围内的同类无人机节点（包括目标无人机节点本身），接着通过对局部通信拓扑图进行处理，进而提取出交互表征向量，其中，交互表征向量表征了目标无人机的所有同类无人机组成的群体系统中每一个无人机与其协作者之间的有效的交互消息。

步骤230，融合所述观测表征向量及所述交互表征向量，得到环境表征向量；

本实施例中，将观测表征向量及交互表征向量进行组合，以实现局部观测信息和局部通信信息的互补。

具体地，按照如下公式过对观测表征向量及交互表征向量进行加权求和，以得到环境表征向量：

，其中，为观测表征向量的权重，为交互表征向量的权重。

本实施例中和通过以下公式得出：

；

其中，是第一系数，其是通过将观测表征向量和目标无人机的高维特征向量拼接后输入到两个全连接网络F中后得到的。

其中，是第一系数，其是通过将交互表征向量和目标无人机的高维特征向量拼接后输入到两个全连接网络F中后得到的。

需要说明的是，本实施中的高维特征向量是通过对目标无人机的速度信息和位置信息进行编码后得到的，具体编码过程详见以下实施例，在此不在具体赘述。

步骤240，基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。

本实施例中，目标无人机的群体协同策略更新的更新对象包括分布式执行者和分布式评判者，其中，分布式执行者用于输出当前环境表征向量对应的动作值以进行运行策略决策，分布式评判者用于输出当前环境表征向量对应的运行标量值以指导分布式执行者训练，由此通过有效地训练分布式执行者和分布式评判者，生成有效的最优运行策略。

在一个示例中，打开多个线程来并行模拟目标无人机与集群环境之间的交互，从多个并行模拟的交互结果中收集融合经验（即融合后的环境表征向量）来训练执行者和评判者，在训练过程中，通过定义的总损失来更新所有可学习的网络参数，其中，本实施例中的总损失是由价值损失、策略损失及动作熵项的加权和组成。

本发明实施例提供的群体协同决策方法，通过获取目标无人机的预设可视范围内的无人机的速度信息和位置信息（即局部观测信息）中的观测表征向量；获取目标无人机的预设通信范围内的同类无人机的观测表征向量（即局部通信信息）中的交互表征向量；融合观测表征向量及交互表征向量，得到环境表征向量；基于环境表征向量对目标无人机进行群体协同策略进行更新，由此通过将局部观测信息和局部通信信息进行融合，使用融合的特征进行群体协同策略更新，实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕决策能力。

在一些实施例中，如图3所示，图3是本发明提供群体协同决策方法的流程示意图之二，所述获取目标无人机的局部观测信息中的观测表征向量主要包括如下步骤：

步骤211，根据无人机与目标无人机之间的类型关系，将目标无人机的局部观测信息划分为多组观测信息，其中，每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息；

本实施例中，根据目标无人机可视范围内除目标无人机之外的所有无人机与目标无人机之间的类型关系，将属于同一类型关系的无人机的速度信息和位置信息划分成一组，由此得到多组观测信息，例如，目标无人机可视范围内的无人机包括与目标无人机属于友方关系的无人机、与目标无人机属于关系的敌方无人机及与目标无人机属于关系的中立无人机，则将所有的友方关系的无人机的速度信息和位置信息划分成一组，将所有的敌方关系的无人机的速度信息和位置信息划分成一组，将所有的中立关系的无人机的速度信息和位置信息划分成一组。

在一个示例中，将目标无人机的局部观测信息划分成K组，则目标无人机在某一时刻的局部观测信息可以表示为，其中，表示目标无人机的第 k组的观测信息，表示目标无人机观测到属于第 k组的无人机的状态（即速度信息和位置信息），其中，和分别表示无人机在无人机追捕群体系统的坐标系下的 x方向和 y方向上的速度、和分别表示 x方向和 y方向上的位置，表示属于第 k组的所有无人机，表示目标无人机可视范围内的所有无人机（包括目标无人机本身）。

步骤212，获取每一组所述观测信息对应的观测有向图及观测图注意力网络，通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量，其中，所述其他无人机节点为所述观测有向图中除目标无人机节点之外的无人机节点；

需要说明的是，本实施例中观测图注意力网络为可从观测有向图中提取出影响关系表征向量的图注意力网络（GAT，Graph Attention Network）。

在一个示例中，设计多个观测图注意力网络去提取不同组别的观测信息对目标无人机的影响关系表征向量，其中，设计的多个观测图注意力网络包括相同的网络结构和不同的网络参数，以提取第 k组观测信息对目标无人机的影响关系表征向量为例，其过程如下：

第 k组观测信息为，针对第 k组的观测信息的第 k组的观测有向图及第 k组的观测图注意力网络，其中，，代表观测有向图的所有节点，即目标无人机节点本身或者第k组中除目标无人机节点之外的无人机节点，代表观测有向图的边，是由第k组的无人机节点指向目标无人机节点。

例如，假设第 k组中被目标无人机观测到的无人机包括无人机2和无人机3，则第 k组的观测有向图的所有节点包括目标无人机节点、无人机2节点和无人机3节点，第 k组的观测有向图的边包括无人机2节点指向目标无人机节点的边和无人机3节点指向目标无人机节点的边，针对第 k组的观测有向图，利用第 k组的观测图注意力网络去提取该图中无人机2节点和无人机3节点对目标无人机节点的影响关系表征向量。

具体地，本实施例中，观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层；

将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层，获取所述第一编码层输出的各所述无人机节点的高维特征向量；

将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层，获取所述第一注意力层输出的各所述其他节点与所述目标无人机之间的第一注意力权重；

将所有所述其他无人机节点的第一注意力权重及所有所述其他节点的值向量输入所述第一聚集层，获取所述第一聚集层输出的目标向量；

本实施例中以第 k组的观测有向图为例进行解释说明，首先，第 k组的观测有向图输入第 k组的观测图注意力网络后，先经过第一编码层，通过第一编码层将每个无人机节点的状态（即速度信息和位置信息）编码成高维特征向量：

；

其中，和均为目标无人机进行群体协同策略更新时待学习的参数矩阵，表示目标无人机观测到属于第 k组的无人机节点的状态，表示目标无人机节点的状态。

此外需要说明的是，每一组的观测有向图中目标无人机节点的状态均相等，即，因此本实施例中每一组的目标无人机的高维特征向量均相等，即。

在得到每个无人机节点的高维特征向量后，计算出每个无人机节点的键向量、查询向量及值向量。

其中，和均为目标无人机进行群体协同策略更新时待学习的参数矩阵。

接着将其他无人机节点的键向量及目标无人机节点的查询向量的转置输入第一注意力层，其中，在第一注意力层中经过以下处理后，第一注意力层输出各其他无人机节点与目标无人机节点之间的第一注意力权重：

；

其中，是键向量的维度。

第一注意力层输出各其他无人机节点与目标无人机节点之间的第一注意力权重后，各其他无人机节点的第一注意力权重及各其他无人机节点的值向量输入第一聚集层，其中，在第一聚集层中经过以下处理后，第一聚集层输出聚集后的目标向量：

；

其中，为目标无人机进行群体协同策略更新时待学习的参数矩阵。

最后，将聚集后的目标向量及目标无人机的高维特征向量输入全连接网络层，其中，全连接网络层中只包括一个全连接网络F，该全连接网络F对由目标向量及高维特征向量拼接而成的向量进行非线性变换，得到目标无人机的第 k组的影响关系表征向量：

；

步骤213，对多组所述影响关系表征向量进行加权求和，得到观测表征向量。

该步骤中，设计一个注意力机制来聚集不同组的影响关系表征向量，从而使得目标无人机能够有选择地聚集来自不同组的影响关系表征向量，得到有效的观测表征向量。

本实施例中，在注意力机制中，先计算出每一组的权重值，接着基于各组的权重值聚集来自不同组的影响关系表征向量，得到有效的观测表征向量。

具体地，以第 k组为例进行解释说明，在注意力机制中，将第 k组的影响关系表征向量和目标无人机的高维特征向量拼接起来输入到两个全连接网络F中，输出一个系数,然后基于该系数计算出第 k组的权重值，其中，。

最后，基于各组的权重值，得到有效的观测表征向量：

；

本发明实施例提供的群体协同决策方法，先根据目标无人机可视范围内所有无人机的类型关系将局部观测信息划分为多组观测信息，接着分别利用各组的观测图注意力网络提取出各组的观测有向图中的影响关系表征向量，最后对聚集不同组的影响关系表征向量，进而得到有效的观测表征向量，从而使得后续目标无人机进行群体协同策略更新时能够有效地处理无人机追捕群体系统中无人机动态多变的局部观测信息。

在一些实施例中，如图4所示，图4是本发明提供群体协同决策方法的流程示意图之三，所述获取所述目标无人机的局部通信信息中的交互表征向量，主要包括如下步骤：

步骤221，基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图；

根据目标无人机的局部通信信息构建出相应的局部通信拓扑图，其中，代表局部通信拓扑图的所有节点，包括目标无人机节点的预设通信范围内的所有同类无人机节点（包括目标无人机节点本身），代表局部通信拓扑图的边，如果两个节点之间的距离小于它们的通信距离，则这两个节点之间存在一条双向边，其中，。

步骤222，移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图；

本实施例中，由于目标无人机节点的观测表征向量被作为通信交互信息在目标无人机节点和同类无人机节点之间传递，因此目标无人机节点也能接受到的来自同类无人机节点的传递的观测表征向量，则可根据目标无人机节点与各同类无人机节点之间的交互信息，确定出目标无人机节点与各同类无人机节点之间是否属于相关或不相关的交互关系，最后移除所有与目标无人机节点之间属于不相关的交互关系的目标同类无人机节点与目标无人机节点之间的有向边，进而生成相关通信拓扑图。

在一个示例中，步骤222包括：

基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间的交互关系，移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。

本实施例中，以目标无人机的预设通信范围内的同类无人机节点包括无人机2节点和无人机3节点为例进行解释说明：

首先，先分别将无人机2节点的观测表征向量和无人机3节点的观测表征向量和目标无人机节点的观测表征向量拼接成一个特征向量，之后将特征向量依次输入到双向长短时记忆网络（BiLSTM）中，再将双向长短时记忆网络（BiLSTM）输出的结果输入到一个全连接网络F中，即可确定目标无人机节点与无人机2节点和无人机3节点之间的相关类结果，其中，的结果包括相关类或不相关类：

；

接着，通过以下公式即可根据相关类结果确定出目标无人机与无人机2和无人机3之间的相关注意力权重：

；

其中， gum( )是gumbel-softmax 函数，结果包括0或1，当结果为0时，表示目标无人机节点与同类无人机节点之间的交互关系为不相关，当结果为1时，表示目标无人机节点与同类无人机节点之间的交互关系为不相关。

步骤223，通过第二图注意力网络提取出所述相关通信拓扑图中的交互表征向量。

该步骤中，在去除掉不相关的目标同类无人机节点与目标无人机节点之间的有向边后，从仅保留相关的同类无人机节点与目标无人机节点之间的有向边的相关通信拓扑图中提取出有效的交互表征向量，

具体地，本实施例中，通信图注意力网络包括第二编码层、第二注意力层及第二聚集层；

需要说明的是，本实施例中通信图注意力网络为可从相关通信拓扑图提取出交互表征向量的图注意力网络（GAT，Graph Attention Network）。

本实施例中，将相关通信拓扑图输入通信图注意力网络后，先经过第二编码层，通过第二编码层将目标无人机节点接受到的来自同类无人机节点（包括目标无人机节点本身）的传递的局部通信信息（即观测表征向量）进行编码，得到编码后的局部通信信息：

；

接着将编码后的局部通信信息输入第二注意力层, 其中，在第二注意力层中经过以下处理后，第一注意力层输出同类无人机节点与目标无人机节点之间的第二注意力权重：

第一步，先得出同类无人机节点与目标无人机节点之间的注意力系数：

；

其中，为目标无人机进行群体协同策略更新时待学习的参数向量，是一个非线性激活函数，是同类无人机节点与目标无人机节点之间的相关注意力权重，是目标无人机节点本身与目标无人机节点之间的编码后的局部通信信息，是目标无人机节点之外的同类无人机节点与目标无人机节点之间的编码后的局部通信信息。

第二步，得出同类无人机节点与目标无人机节点之间的第二注意力权重：

；

其中，是相关通信拓扑图中同类无人机节点的邻接矩阵，如果各同类无人机节点在其各自的通信范围内，则等于1，否则等于0。

在得到同类无人机节点与目标无人机节点之间的第二注意力权重之后，将各第二注意力权重及各编码后的局部通信信息输入第二聚集层，其中，在第二聚集层中经过以下处理后，第二聚集层输出聚集后的交互表征向量：

；

本发明实施例提供的群体协同决策方法，先移除局部通信拓扑图中目标无人机节点与不相关无人机节点之间的有向边，生成相关通信拓扑图，最后再通过观测图注意力网络提取出相关通信拓扑图中的交互表征向量，由此去除掉无效的交互通信，仅保留有效的交互通信，从而使得后续目标无人机进行群体协同策略更新时能够有效地处理群体系统中无人机动态多变的局部通信信息。

在一些实施例中，所述基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，包括：

本实施例中，将观测表征向量及交互表征向量进行融合后，根据融合后的环境表征向量有效地训练分布式执行者和分布式评判者，以生成有效的群体协同策略。

具体地，本实施例中，将环境表征向量输入目标无人机的分布式执行者中的策略网络，策略网络输出目标无人机的动作值以进行策略决策，将环境表征向量输入目标无人机的分布式评判者中的值网络，值网络输出一个标量值R以指导分布式执行者的策略决策的更新，按照以上方式循环迭代进行群体协同策略更新，得到最优运行策略，以根据所述最优运行策略完成协同围捕任务。

需要说明的是，本实施例中策略网络和值网络的循环迭代方式同现有技术中的方式相同，在此不再赘述。

本发明实施例提供的群体协同决策方法，通过根据对观测表征向量和环境表征向量融合后得到的环境表征向量进行策略更新，提高了策略更新结果的精准性，从而提高无人机在动态变化环境下的协同围捕决策能力。

下面对本发明提供的群体协同决策装置进行描述，下文描述的群体协同决策装置与上文描述的群体协同决策方法可相互对应参照。

图5是本发明提供的群体协同决策装置的结构示意图。如图5所示，本发明实施例提供的群体协同决策装置，包括：第一表征模块510、第二表征模块520、融合模块530及策略模块540。

其中，第一表征模块510，用于基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；

第二表征模块520，用于基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；

融合模块530，用于融合所述观测表征向量及所述交互表征向量，得到环境表征向量；

策略模块540，用于基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，得到最优运行策略，以根据所述最优运行策略完成协同围捕任务。

本发明实施例提供的群体协同决策装置，能够通过基于目标无人机的局部观测信息得到观测表征向量；基于目标无人机的局部通信信息得到交互表征向量；融合观测表征向量及交互表征向量，得到环境表征向量；基于环境表征向量对目标无人机进行群体协同策略更新，由此通过根据融合后得到的环境表征向量进行群体协同策略更新，实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕决策能力。

在一些实施例中，第一表征模块510，还用于根据无人机与目标无人机之间的类型关系，将目标无人机的局部观测信息划分为多组观测信息，其中，每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息；获取每一组所述观测信息对应的观测有向图及观测图注意力网络，通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对所述目标无人机节点的影响关系表征向量，其中，所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机；对多组所述影响关系表征向量进行加权求和，得到观测表征向量。

在一些实施例中，所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层；第一表征模块510，还用于将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层，获取所述第一编码层输出的各所述无人机节点的高维特征向量；基于所述高维特征向量确定各所述无人机节点的键向量、查询向量及值向量；将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层，获取所述第一注意力层输出的各所述其他无人机节点与所述目标无人机节点之间的第一注意力权重；将所有所述其他无人机节点的第一注意力权重及所有所述其他节点的值向量输入所述第一聚集层，获取所述第一聚集层输出的目标向量；将所述目标向量及所述高维特征向量输入所述全连接网络层，获取所述全连接网络层输出的所述其他无人机节点对所述目标无人机节点的影响关系表征向量。

在一些实施例中，第二表征模块520，还用于基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图；移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图；通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量。

在一些实施例中，第二表征模块520，还用于将所述局部通信拓扑图中的目标无人机节点的观测表征向量分别与各同类无人机节点的观测表征向量拼接成特征向量；基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间的交互关系，移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。

在一些实施例中，所述通信图注意力网络包括第二编码层、第二注意力层及第二聚集层；第二表征模块520，还用于将所述相关通信拓扑图中各同类无人机节点与目标无人机节点之间传递的局部通信信息输入所述第二编码层，获取所述第二编码层输出的编码后的局部通信信息；将各所述编码后的局部通信信息输入所述第二注意力层，获取所述第二注意力层输出的各所述同类无人机节点与所述目标无人机节点之间的第二注意力权重；将各所述第二注意力权重及各所述编码后的局部通信信息输入所述第二聚集层，获取所述第二聚集层输出的交互表征向量。

在一些实施例中，策略模块540还用于将所述环境表征向量输入所述目标无人机的策略网络，获取所述策略网络输出的动作值；将所述环境表征向量输入所述目标无人机的值网络，获取所述值网络输出的标量值；基于所述动作值及所述标量值对所述目标无人机的群体协同策略进行更新。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行群体协同决策方法，该方法包括：基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；融合所述观测表征向量及所述交互表征向量，得到环境表征向量；基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的群体协同决策方法，该方法包括：基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；融合所述观测表征向量及所述交互表征向量，得到环境表征向量；基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的群体协同决策方法，该方法包括：基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；融合所述观测表征向量及所述交互表征向量，得到环境表征向量；基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种群体协同决策方法，其特征在于，包括：

基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，得到最优运行策略，以根据所述最优运行策略完成协同围捕任务；

其中，所述基于目标无人机的局部观测信息得到观测表征向量，包括：

获取每一组所述观测信息对应的观测有向图及观测图注意力网络，通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量，其中，所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机节点；

对多组所述影响关系表征向量进行加权求和，得到观测表征向量；

其中，所述基于所述目标无人机的局部通信信息得到交互表征向量，包括：

2.根据权利要求1所述的群体协同决策方法，其特征在于，所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层；

3.根据权利要求1所述的群体协同决策方法，其特征在于，所述移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图，包括：

基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间的交互关系；

移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。

4.根据权利要求1所述的群体协同决策方法，其特征在于，所述通信图注意力网络包括第二编码层、第二注意力层及第二聚集层；

5.根据权利要求1至4任一项所述的群体协同决策方法，其特征在于，所述基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，包括：

6.一种群体协同决策装置，其特征在于，包括：

策略模块，用于基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，直至得到最优运行策略，以根据所述最优运行策略完成协同围捕任务；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述群体协同决策方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述群体协同决策方法。