CN116760536A

CN116760536A - 一种多智能体协同感知方法、系统、电子设备及存储介质

Info

Publication number: CN116760536A
Application number: CN202310717887.5A
Authority: CN
Inventors: 刘瑜; 宫宁; 李徵; 姜智卓; 何友
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-15

Abstract

本申请公开了一种多智能体协同感知方法、系统、电子设备及存储介质，所属的技术领域为协同感知技术。所述多智能体协同感知方法包括：根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将本地查询向量发送至其他智能体并接收其他智能体生成的外部查询向量；生成匹配分数矩阵并确定目标智能体的通讯群组；对目标智能体和其他智能体的中间特征进行加权融合，得到学生模型特征图；根据学生模型特征图和教师模型特征图对目标智能体进行模型训练和知识蒸馏；若接收到下游任务执行指令，则控制目标智能体与通讯群组中其他智能体进行协同感知，以便完成下游任务。本申请能够在保证智能体感知性能的前提下提高通信效率。

Description

一种多智能体协同感知方法、系统、电子设备及存储介质

技术领域

本申请涉及协同感知技术领域，特别涉及一种多智能体协同感知方法、系统、电子设备及存储介质。

背景技术

通信是协调多个智能体的有效机制。在无人系统、机器人以及多智能体强化学习等领域，智能体可以通过通信来提高整体学习的性能并实现其目标。协同感知技术可以使多个智能体通过通信互补感知到的信息，促进更加全面的感知，从根本上克服单智能体感知如遮挡和远距离等不可避免的问题，提高对感知任务的整体准确性，在自动驾驶以及无人机群等领域存在一定的应用价值。

现有的协同感知方案大多是从原始数据或者感知结果层面进行协同，从原始数据层面进行早期通信协同则需要大量的通信带宽；从感知结果层面进行后期通信协同，虽然解决了通信带宽的占用问题，但难免会产生噪声影响融合结果的输出，而且训练得到的基于通信的智能体下游任务模型参数量大，对边缘计算设备的部署上线存在较大压力。

因此，如何在保证智能体感知性能的前提下提高通信效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种多智能体协同感知方法、系统、电子设备及存储介质，能够在保证智能体感知性能的前提下提高通信效率。

为解决上述技术问题，本申请提供一种多智能体协同感知方法，该多智能体协同感知方法包括：

根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将所述本地查询向量发送至其他智能体并接收所述其他智能体生成的外部查询向量；

根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，并根据所述匹配分数矩阵确定所述目标智能体的通讯群组；其中，所述匹配分数矩阵用于描述智能体之间的连接权重；

对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合，得到学生模型特征图；

根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏；其中，所述教师模型特征图包括教师模型从原始数据层面协同感知后经过编码器得到的中间特征，所述原始数据为所述目标智能体和所有所述其他智能体在同一时刻获取的数据的拼接结果；

若接收到下游任务执行指令，则控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，以便完成下游任务。

可选的，根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，包括：

对所述本地查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体的自身匹配分数；

对所述外部查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体与所述其他智能体的连接权重；

基于自注意力机制根据所述自身匹配分数和所述连接权重生成所述匹配分数矩阵。

可选的，根据所述匹配分数矩阵确定所述目标智能体的通讯群组，包括：

利用激活函数对所述匹配分数矩阵进行修剪，并根据修剪后的所述匹配分数矩阵构建通讯群组。

可选的，在将所述本地查询向量发送至其他智能体之前，还包括：

将所述本地查询向量压缩为预设维度的向量。

可选的，根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏，包括：

根据所述学生模型特征图和所述教师模型特征图计算知识蒸馏损失；

计算所述目标智能体和所述教师模型的下游任务损失；

根据所述知识蒸馏损失和所述下游任务损失确定总损失函数，利用所述总损失函数对所述目标智能体进行模型训练和知识蒸馏。

可选的，在对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合之前，还包括：

利用所述目标智能体中的图像编码器对所述目标数据进行编码得到中间特征。

可选的，控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，包括：

利用所述目标智能体提取当前数据的中间特征；

将所述当前数据的中间特征发送至所述通讯群组中的其他智能体，并接收所述通讯群组中的其他智能体发送的数据。

本申请还提供了一种多智能体协同感知系统，该系统包括：

向量交互模块，用于根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将所述本地查询向量发送至其他智能体并接收所述其他智能体生成的外部查询向量；

群组确定模块，用于根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，并根据所述匹配分数矩阵确定所述目标智能体的通讯群组；其中，所述匹配分数矩阵用于描述智能体之间的连接权重；

特征图生成模块，用于对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合，得到学生模型特征图；

训练模块，用于根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏；其中，所述教师模型特征图包括教师模型从原始数据层面协同感知后经过编码器得到的中间特征，所述原始数据为所述目标智能体和所有所述其他智能体在同一时刻获取的数据的拼接结果；

协同感知模块，用于若接收到下游任务执行指令，则控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，以便完成下游任务。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述多智能体协同感知方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述多智能体协同感知方法执行的步骤。

本申请提供了一种多智能体协同感知方法，该多智能体协同感知方法包括：根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将所述本地查询向量发送至其他智能体并接收所述其他智能体生成的外部查询向量；根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，并根据所述匹配分数矩阵确定所述目标智能体的通讯群组；其中，所述匹配分数矩阵用于描述智能体之间的连接权重；对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合，得到学生模型特征图；根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏；其中，所述教师模型特征图包括教师模型从原始数据层面协同感知后经过编码器得到的中间特征，所述原始数据为所述目标智能体和所有所述其他智能体在同一时刻获取的数据的拼接结果；若接收到下游任务执行指令，则控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，以便完成下游任务。

本申请中目标智能体与其他智能体之间交换外部查询向量，并基于本地查询向量、本地密钥向量和外部查询向量生成匹配分数矩阵，根据匹配分数矩阵中记载的各个智能体之间的连接权重确定目标智能体的通讯群组。目标智能体可以通过与通讯群组中的其他智能模型进行中间特征的加权融合操作得到学生模型特征图，根据学生模型特征图和教师模型特征图进行模型训练和知识蒸馏，使得目标智能体在进行通讯时可以高效地选取重要的其他智能体进行协同感知，进而完成下游任务。本申请能够在保证智能体感知性能的前提下提高通信效率。本申请同时还提供了一种多智能体协同感知系统、一种存储介质和一种电子设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种多智能体协同感知方法的流程图；

图2为本申请实施例所提供的一种知识蒸馏的模型框架图；

图3为本申请实施例所提供的一种训练阶段算法的流程图；

图4为本申请实施例所提供的一种测试阶段算法的流程图；

图5为本申请实施例所提供的一种多智能体协同感知系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能行业的发展，多智能体协同感知领域也得到了持续推进，智能体之间的通信细节在新的技术背景下得到了广泛的研究。在多智能体通信方面，现有的优化方法主要可以分为对通信规范和通信内容的研究。一方面通过连续通信完成完全合作任务，以深度学习的方式学习智能体之间的通信协议；另一方面使用利用注意力单元来确定发送方要发送信息的内容和准备接受该信息的对象，从而提高了多智能体自身的感知性能以及通信效率。

下面请参见图1，图1为本申请实施例所提供的一种多智能体协同感知方法的流程图。

具体步骤可以包括：

S101：根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将所述本地查询向量发送至其他智能体并接收所述其他智能体生成的外部查询向量；

其中，本实施例可以应用于包括目标智能体的无人机、工业机器人、环境监测设备等电子设备，目标区域中存在多个上述电子设备，各个电子设备中的智能体可以通过协同感知完成下游任务。若上述目标智能体所在的设备为无人机，则目标智能体获取的目标数据可以为摄像头拍摄的环境图像；若上述目标智能体所在的设备为工业机器人，则目标智能体获取的目标数据可以为摄像头拍摄的物料运输图像；若上述目标智能体所在的设备为环境监测设备，则目标智能体获取的目标数据可以为温湿度传感器采集的温度和湿度。

目标智能体中可以包括查询生成器和密钥生成器，在目标智能体获取目标数据后，可以将目标数据输入查询生成器得到本地查询向量，还可以将目标数据输入密钥生成其得到本地密钥向量。本实施例还将本地查询向量发送至其他智能体，并接收其他智能体发送的外部查询向量。本实施例将其他智能体根据自身采集的数据生成的查询向量称为外部查询向量。

S102：根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，并根据所述匹配分数矩阵确定所述目标智能体的通讯群组；

其中，在得到其他智能体发送的外部查询向量之后，可以将本地密钥向量分别与本地查询向量和各个外部查询向量计算连接权重，进而得到匹配分数矩阵，上述匹配分数矩阵用于描述任意两个智能体之间的连接权重。本实施例还可以根据连接权重对上述匹配分数矩阵进行修剪，将修剪后的匹配分数矩阵中的项构建通讯群组。通讯群组用于描述可以与目标智能体进行协同感知的通讯的其他智能体。

S103：对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合，得到学生模型特征图；

其中，在得到通讯群组之后，目标智能体可以获取通讯群组中其他智能体的中间特征，将目标智能体的中间特征和其他智能体的中间特征进行加权融合得到学生模型特征图。上述加权融合的操作的加权系数根据连接权重确定，上述中间特征可以由智能体中的编码器对输入的数据进行编码得到。本实施例将目标智能体视为知识蒸馏过程中的学生模型，故将加权融合后的中特征成为学生模型特征图。

S104：根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏；

在本步骤之前可以存在训练教师模型的操作，还可以将目标智能体和所有所述其他智能体在同一时刻获取的数据进行拼接得到原始数据，教师模型从上述原始数据层面进行协同感知并进行编码器的处理得到中间特征，进而根据所有得到的中间特征生成教师模型特征图。

教师模型在原始数据层面进行全连接的通信，该教师模型提取出来的中间特征包含了每个智能体视角下的特征信息，使用该中间特征对基于自注意力机制的学生模型的通信特征拼接结果进行监督，希望可以在学生模型的特征生成过程中提取一些教师模型所体现出的个性与共性特征，通过教师模型对学生模型的约束来更好的训练多智能体系统之间的通信模型。

在得到学生模型特征图和教师模型特征图的基础上，可以利用学生模型特征图和教师模型特征图对目标智能体进行模型训练和知识蒸馏，以便调整目标智能体的模型参数。上述目标智能体训练完毕后可以部署落地到无人机、工业机器人等设备上进行应用。

S105：若接收到下游任务执行指令，则控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，以便完成下游任务。

其中，在目标智能体训练完毕之后，若接收到下游任务执行指令，则可以控制目标智能体与所述通讯群组中其他智能体进行协同感知，以使目标智能体与其他智能体之间进行数据传输，进而完成下游任务(如飞行任务、物料运输任务、温湿度计算任务等)。

本实施例中目标智能体与其他智能体之间交换外部查询向量，并基于本地查询向量、本地密钥向量和外部查询向量生成匹配分数矩阵，根据匹配分数矩阵中记载的各个智能体之间的连接权重确定目标智能体的通讯群组。目标智能体可以通过与通讯群组中的其他智能模型进行中间特征的加权融合操作得到学生模型特征图，根据学生模型特征图和教师模型特征图进行模型训练和知识蒸馏，使得目标智能体在进行通讯时可以高效地选取重要的其他智能体进行协同感知，进而完成下游任务。本实施例能够在保证智能体感知性能的前提下提高通信效率。

作为对于图1对应实施例的进一步介绍，可以通过以下方式为目标智能体生成匹配分数矩阵：对所述本地查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体的自身匹配分数；对所述外部查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体与所述其他智能体的连接权重；基于自注意力机制根据所述自身匹配分数和所述连接权重生成所述匹配分数矩阵。

进一步的，图1对应的实施例还可以利用激活函数对所述匹配分数矩阵进行修剪，并根据修剪后的所述匹配分数矩阵构建通讯群组。

作为对于图1对应实施例的进一步介绍，为了降低智能体之间的数据传输对于带宽的占用，在将所述本地查询向量发送至其他智能体之前，还可以将所述本地查询向量压缩为预设维度的向量。本地密钥向量的尺寸可以通过神经网络从256*4*4通过矩阵变换为1*1024，进而节省空间。

作为对于图1对应实施例的进一步介绍，可以通过以下方式对目标智能体进行模型训练和知识蒸馏：根据所述学生模型特征图和所述教师模型特征图计算知识蒸馏损失；计算所述目标智能体和所述教师模型的下游任务损失；根据所述知识蒸馏损失和所述下游任务损失确定总损失函数，利用所述总损失函数对所述目标智能体进行模型训练和知识蒸馏。

作为对于图1对应实施例的进一步介绍，在对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合之前，还可以利用所述目标智能体中的图像编码器对所述目标数据进行编码得到中间特征。

作为对于图1对应实施例的进一步介绍，可以通过以下方式控制目标智能体与其他智能体进行协同感知：利用所述目标智能体提取当前数据的中间特征；将所述当前数据的中间特征发送至所述通讯群组中的其他智能体，并接收所述通讯群组中的其他智能体发送的数据。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

在海上无人机与无人艇的搜救任务中，通常受体积和储能的限制，无法搭载大型的感知设备，这时通过多智能体系统的协同感知就可以大大提升救援的整体感知能力，并且能在部分机器无法正常工作时保持搜救系统的有效性。通信问题作为多智能体协作感知的关键，不可避免的会导致在感知性能与通信带宽之间存在平衡取舍。

现有的多智能体协同感知中的通信问题研究主要分为两类：1)通信规范或协议的选择，也就是通信方式的问题，大多数多智能体协同感知问题中的规则是通过预定义通信协议实现的，比较依赖于研究者对实际应用场景的经验假设，而全连接的通信方式则会造成网络带宽的高度使用，使硬件设备达到负荷。2)通信内容的选择，在确定好通信协议后，如果可以共享全部信息就可以达到完全信息博弈的效果，但是这往往会导致网络的堵塞与延迟。

本实施例提供了一种基于通信优化的多智能体协同感知方案，本实施例对多智能体协同感知的训练过程进优化，采用知识蒸馏的模型框架，应用数据早期层面协同训练的教师模型指导不同智能体中间级数据层面的协同，一方面能够压缩模型的大小，使得不同智能体部署上线的小模型获取教师模型的泛化能力；另一方面保留各自学生模型对于不同视角数据输入的独特性，更好的训练不同智能体之间的注意力连接权重矩阵，促进特征层面上的数据融合，提高通信效率。

请参见图2，图2为本申请实施例提供的一种知识蒸馏的模型框架图，图中示出了教师模型和学生模型，教师模型可以利用编码器对拼接得到的原始数据提取中间特征，学生模型可以利用编码器对各自采集的数据提取中间特征，学生模型可以基于自注意力机制(包含请求者和提供者)实现，学生模型还包括编码器、生成器(即查询生成器、密钥生成器)和解码器；在上述模型中可以通过知识蒸馏对学生模型进行训练，训练过程使用的损失函数包括蒸馏过程的损失函数和每个智能体的损失函数。本实施例建立的多智能体通信模型对参数训练过程进行优化，提出一个师生框架，通过知识蒸馏来训练模型，教师模型采用早期的数据协作与整体视图输入，学生模型采用基于单视图的中间输入。在推理过程中，只需要使用学生模型，归因于师生框架，每个智能体训练的学生模型可以通过通信互补信息以整体视角来假设教师模型的性能。

图2公式中的A表示聚合操作，即维度连接；ξ_i和x_i表示智能体i的视角编码和输入图像，Aggregation表示聚合公式，X表示聚合结果。/>表示教师模型中经过编码器和卷积神经网络得到的中间特征；Θ^t表示教师模型中经过编码器之后，提取到中间特征的神经网络参数；Ψ^t表示教师模型的解码器。L_kd表示蒸馏过程的损失函数(知识蒸馏损失)，L_det表示每个智能体的损失函数(下游任务损失)，key表示密钥向量，query表示查询向量，Attention score表示注意力得分，图中还示出了编码器、生成器和解码器，/>表示学生模型中经过编码器之后再经过卷积神经网络得到的中间特征，上标s表示为学生模型(student)。

关于智能体进行基于自注意力机制的通信优化的说明如下：

为了减少网络的复杂度和带宽使用情况，首先应用三阶段的握手通信方法来确定智能体之间连接的权重，然后使用激活函数进一步修剪不太重要的连接。三阶段的握手通信机制包含请求、匹配、选择三个阶段，首先智能体i根据其自己观察到的数据x_i生成查询向量query和密钥向量key。

其中，μ_i表示智能体i生成的查询向量，κ_i表示智能体i生成的密钥向量，G_q是一个由θ_q参数化的查询生成器，θ_q表示查询生成器的神经网络参数，Q表示查询向量的维度，G_k是由θ_k参数化的密钥生成器，θ_k表示密钥生成器的神经网络参数，K表示密钥向量的维度。本实施例中i和j表示智能体编号，本实施例可以进一步将查询广播给所有其他智能体，并根据相似度匹配函数Φ计算智能体i和智能体j的连接权重m_i，j，κ_j表示智能体j生成的密钥向量：

同时根据该函数计算自身的匹配分数m_i，i：

m_i，i＝Φ(μ_i，κ_i)； (3)

为减少信息传输期间的带宽使用情况，在匹配函数的计算步骤以一种非对称消息方法，该方法将查询向量query压缩为一个极低维向量(已传输)，同时保持密钥向量key(未传输)的较大大小。在通信之后，计算相关性分数：

其中，T表示向量转置，是一个可学习参数，用于匹配查询和密钥的大小，Q和K分别是查询和密钥维度，基于上述self-attention机制生成匹配分数矩阵M，其中σ(·)是一个逐行的softmax函数，N表示智能体的总数量。

为了修剪掉不必要的通信关系构建通信群组，本实施例可以使用激活函数对M矩阵进行修剪。在建立好通信群组之后，每个智能体就可以根据自身观测到的数据和通信得到的数据进行自己的下游任务。上述通信得到的数据指的是经过编码器特征提取后，每个智能体得到的中间特征f_j，通信的内容为每个智能体的中间特征f_j，对于基于注意力分数的匹配分数矩阵M修剪掉的部分即不需要进行通信，对M保留的部分进行加权融合得到f_i，即中间级的特征融合结果。匹配分数矩阵M矩阵是一个表示智能体两两之前注意力分数的矩阵，在经过softmax函数之后，该矩阵每行所表示的为注意力分数的归一化概率，对M矩阵进行修剪可以选出概率高的个体进行特征维度的通信，以此来降低通信带宽。本实施例可以选取1/N作为超参数δ，其中N为系统中的智能体数量，将M矩阵当中小于δ的项置0，然后重新经过逐行的softmax函数，得到归一化概率。修剪后的M可以看作是有向图的邻接矩阵，其中矩阵的对角元素表示何时通信(概率为1表示不需要进行通信)，非对角线元素表示与谁通信，矩阵的每一行表示请求者如何接收从不同的智能体信息，矩阵的每一列表示一个支持者如何将自己的信息发送给不同的请求代理，在得到最终的M矩阵后，对所构成通信群组的智能体的中间特征做维度拼接，得到学生模型任务的标签信息

其中，D是由θ_d参数化的感知任务解码器，是位于矩阵/>的第i行和第j行的元素，/>是经过修剪之后的M矩阵，f_i＝E(x_i；θ_e)是由图像编码器E编码的智能体i的特征图，f_j是由图像编码器E编码的智能体j的特征图，x_i带指输入的原始图片，θ_e为对原始图像进行特征提取的编码器的神经网络参数，[·；·]是沿通道维度的级联操作，/>指的是每个智能体经过解码器后得到的结果输出，f_i ^inf指的是对通信得到的其他智能体的中间特征图按照剪裁后的M矩阵进行加权处理后的结果，θ_d表示构成解码器的神经网络参数。为了训练模型，训练过程中使用下游任务的标签(如分段掩码)y_i作为监督，将训练过程中的损失函数L计算为：

其中，H(·，·)可以是任何下游视觉任务的目标函数(例如，分割任务的逐像素交叉熵或识别任务的交叉熵)，y_j为学生模型最终的输出结果，为该学生模型任务的标签信息(通过训练用于更新神经网络的参数)。在此之后以端到端的方式使用上述损失更新模型的权重θ＝(θ_k，θ_q，θ_e，θ_d)，θ_k表示生成key向量的生成器的神经网络参数，θ_q表示生成query向量的生成器的神经网络参数。

本实施例中的知识蒸馏优化方法设计如下：

教师模型使用早期数据的合作，将多个智能体同一时刻获取到的图片进行编码整合来保证空间信息的完整性，并指导学生模型在特征层面进行协同感知，教师模型和学生模型由所有智能体共享。在通过多视角输入的教师模型完成特征提取之后，可以使用该中间特征对学生模型得到的通信特征拼接结果进行KL散度的计算作为模型的第二项损失函数进行拟合。

学生模型包括以下几个部分：

特征编码，其功能是从每个智能体的原始度量中提取信息特征。第i个智能体的特征为f_i ^s←Θ^s(x_i)，其中Θ^s(·)是特征编码器，每个智能体单独训练，上标s反映了学生模式。为了节省通信带宽，每个智能体都可以在传输之前压缩其特征映射。

通信协同，在通信阶段，使用上一节所提到的自注意力方法来构建通信群组。

解码输出，将融合后的特征作为解码对象，输出下游任务结果。

教师模型与学生模型类似，具有特征编码器与解码器，但是需要在训练之前先将不同智能体的原始图片数据从不同视角进行整合。在后续训练中，所有智能体共享一个教师模型来指导自身的下游任务训练，但是每个智能体都以自身观测到的数据进行输入。

在系统训练和知识蒸馏部分，设计损失函数L^S如下：

下游任务损失L_det与教师模型的损失相似，主要是交叉熵损失函数，第二项主要作为知识蒸馏的损失使学生模型正则化，以生成和教师模型相似的结果。其中，y_i为学生模型最终的输出结果；为学生模型任务的标签信息；/>为学生模型通信后维度拼接得到的中间特征；/>为教师模型从原始数据层面协同后经过编码器得到的中间特征。λ_kd为控制知识蒸馏损失L_kd的超参数，L_kd定义如下：

其中D_KL(p(x)||q(x))表示分布p(x)和q(x)的KL散度(即，相对熵)，p(x)和q(x)表示概率分布，表示特征图的分辨率大小，σ(·)表示对解码器输出的特征映射结果做softmax运算。

请参见图3，图3为本申请实施例所提供的一种训练阶段算法的流程图，训练过程包括：选取一组同时刻无人机群组拍摄的图像，判断是否是教师网络(即教师模型)。若是教师网络则进入多通道图像输入和UNet的处理，判断是否是训练过程，若是训练过程则计算损失loss更新网络参数，若不是训练过程则得到不同通道的中间级特征图和分割结果软标签。若不是教师网络，则说明是学生网络(即智能体)，可以利用每个无人机视角各自的编码器得到各自的特征图，基于互注意力机制进行通信得到各自通信后的特征向量，进行特征级知识蒸馏和每个无人机视角各自的解码器处理，得到分割结果，并对分割结果进行结果级知识蒸馏。将特征级知识蒸馏和结果级知识蒸馏的结果进行相加分别计算损失loss，并为不同智能体更新网络参数。

请参见图4，图4为本申请实施例所提供的一种测试阶段算法的流程图，测试过程包括：利用每个智能体各自的编码器生成各自的特征图，基于互注意力机制进行通信得到各自通信后的特征向量，利用每个智能体各自的解码器得到分割结果。

在训练阶段：本实施例先训练一个教师模型，该教师模型是一个多图片通道输入、多通道输出的模型。在训练过程中，可以把多个智能体输入的图片，按照RGB通道进行维度拼接，经过卷积神经网络，得到一个包含全局信息的中间特征，然后对于该中间特征，同时使用UNet进行对每个智能体进行特征提取，与中间特征分别进行加权后得到分别进行解码得到多输出的结果。

在训练学生模型的过程中，每个智能体训练一个特征提取器用来提取自己的中间特征f_i，同时训练一个query向量和key向量的提取器，用于先进行小带宽的通信，获取交叉的注意力分数，得到M矩阵，在对M矩阵进行softmax，剪枝等操作后，可以确定通信群组，即通信对象，通过自注意力机制，根据注意力分数对需要通信的智能体的中间特征f_i进行加权，得到融合后的每个智能体的特征图根据教师模型得到的特征图/>计算蒸馏的损失函数结果作为下游任务损失结果的正则项，来使学生模型中每个智能体的特征提取器和query向量和key向量的提取器更好的学习到教师模型的全局特征信息，并在通信群组(注意力分数M矩阵)确立和特征融合过程中得到更好的结果。

在测试阶段：不需要教师模型的参与，学生模型中的每个智能体根据自己的特征提取器和查询向量和密钥向量的提取器，自行确立通信群组(注意力分数M矩阵)进行通信，输出自身的下游任务结果。

本实施例提出了基于知识蒸馏师生框架的分布式通信优化，以集中式训练，分布式执行的思想在数据中间级的特征层面进行通信，通过教师模型对学生模型的约束来更好的训练多智能体系统之间的通信模型，在压缩不同智能体下游任务模型的同时，获得教师模型的泛化性能并保留各自视角输入数据的特性，使得学生模型在进行下游任务推理时，在相同的带宽使用情况下，提高任务精度。

在本实施例中，教师模型采用基于与整体视图输入的早期协作，学生模型采用基于与单视图输入的中间协作。基于知识蒸馏的框架通过约束学生模型中的协作后特征图来匹配教师模型中的对应关系，从而优化了多智能体通信模型的训练。在感知的输出级监督和知识蒸馏的特征级监督的指导下，蒸馏后的协作图促进了更好的特征抽象和聚合，改善了性能-带宽权衡。在协同通信的建模方面，本实施例基于自注意力机制给出不同智能体之间的连接权重矩阵，以反映多智能体系统之间的协作强度。在矩阵中，每个元素代表特定智能体之间的互注意力分数。这种设计允许智能体自适应地进行通信，选择合适的合作伙伴来请求补充信息。

在群体控制领域，多智能体协同感知技术可以用于群体控制，例如无人机编队飞行。在这种情况下，每个无人机都可以通过传感器感知周围的环境，并与其他无人机共同规划和执行飞行任务。在智能交通领域，多智能体协同感知技术也可以应用于智能交通系统中，例如城市交通拥堵监测和交通流量优化。通过多个智能体感知城市中的车流和路况，可以实时监测交通拥堵情况，并优化交通流量，提高道路利用率和交通效率。

在工业自动化过程中，多智能体协同感知技术也可以应用于生产线上的物料运输和协同作业。通过智能传感器和机器人等设备，多个智能体可以实时感知和协同完成生产线上的各项任务。

对于环境监测方面的应用，多智能体协同感知技术还可以应用于环境监测领域。例如，在气象预测中，可以通过多个传感器感知天气变化，并通过协同计算来提高预测准确性。多智能体协同感知技术也可以应用于智能化的目标跟踪系统，通过多个智能体感知环境变化，可以协同完成侦察、目标跟踪等任务，提高作业效率和精度。

请参见图5，图5为本申请实施例所提供的一种多智能体协同感知系统的结构示意图；该系统可以包括：

向量交互模块501，用于根据目标智能体获取的目标数据生成本地查询向量和本地密钥向量，将所述本地查询向量发送至其他智能体并接收所述其他智能体生成的外部查询向量；

群组确定模块502，用于根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，并根据所述匹配分数矩阵确定所述目标智能体的通讯群组；其中，所述匹配分数矩阵用于描述智能体之间的连接权重；

特征图生成模块503，用于对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合，得到学生模型特征图；

训练模块504，用于根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏；其中，所述教师模型特征图包括教师模型从原始数据层面协同感知后经过编码器得到的中间特征，所述原始数据为所述目标智能体和所有所述其他智能体在同一时刻获取的数据的拼接结果；

协同感知模块505，用于若接收到下游任务执行指令，则控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，以便完成下游任务。

进一步的，群组确定模块502根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵的过程包括：对所述本地查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体的自身匹配分数；对所述外部查询向量和所述本地密钥向量进行相似度匹配函数的计算，得到所述目标智能体与所述其他智能体的连接权重；基于自注意力机制根据所述自身匹配分数和所述连接权重生成所述匹配分数矩阵。

进一步的，群组确定模块502根据所述匹配分数矩阵确定所述目标智能体的通讯群组的过程包括：利用激活函数对所述匹配分数矩阵进行修剪，并根据修剪后的所述匹配分数矩阵构建通讯群组。

进一步的，还包括：

压缩模块，用于在将所述本地查询向量发送至其他智能体之前，将所述本地查询向量压缩为预设维度的向量。

进一步的，训练模块504根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏的过程包括：根据所述学生模型特征图和所述教师模型特征图计算知识蒸馏损失；计算所述目标智能体和所述教师模型的下游任务损失；根据所述知识蒸馏损失和所述下游任务损失确定总损失函数，利用所述总损失函数对所述目标智能体进行模型训练和知识蒸馏。

进一步的，还包括：

编码模块，用于在对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合之前，利用所述目标智能体中的图像编码器对所述目标数据进行编码得到中间特征。

进一步的，协同感知模块505控制所述目标智能体与所述通讯群组中其他智能体进行协同感知的过程包括：利用所述目标智能体提取当前数据的中间特征；将所述当前数据的中间特征发送至所述通讯群组中的其他智能体，并接收所述通讯群组中的其他智能体发送的数据。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多智能体协同感知方法，其特征在于，包括：

2.根据权利要求1所述多智能体协同感知方法，其特征在于，根据所述本地查询向量、所述本地密钥向量和所述外部查询向量生成匹配分数矩阵，包括：

3.根据权利要求1所述多智能体协同感知方法，其特征在于，根据所述匹配分数矩阵确定所述目标智能体的通讯群组，包括：

4.根据权利要求1所述多智能体协同感知方法，其特征在于，在将所述本地查询向量发送至其他智能体之前，还包括：

将所述本地查询向量压缩为预设维度的向量。

5.根据权利要求1所述多智能体协同感知方法，其特征在于，根据所述学生模型特征图和教师模型特征图对所述目标智能体进行模型训练和知识蒸馏，包括：

计算所述目标智能体和所述教师模型的下游任务损失；

6.根据权利要求1所述多智能体协同感知方法，其特征在于，在对所述目标智能体和所述通讯群组中其他智能体的中间特征进行加权融合之前，还包括：

7.根据权利要求1所述多智能体协同感知方法，其特征在于，控制所述目标智能体与所述通讯群组中其他智能体进行协同感知，包括：

利用所述目标智能体提取当前数据的中间特征；

8.一种多智能体协同感知系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述多智能体协同感知方法的步骤。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述多智能体协同感知方法的步骤。