CN115752473A

CN115752473A - 分布式多机器人导航方法、系统、存储介质及设备

Info

Publication number: CN115752473A
Application number: CN202211465370.3A
Authority: CN
Inventors: 宋勇; 贾云杰; 庞豹; 许庆阳; 袁宪锋; 刘萍萍
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

本发明涉及分布式多机器人导航方法、系统、存储介质及设备，包括以下步骤：获取机器人在指定时刻的RGB图像、激光雷达数据以及运动矢量数据，基于视觉编码器提取RGB图像和激光雷达数据中的特征，并将RGB图像的特征转换为视觉特征隐向量；将视觉特征隐向量和激光雷达特征通过传感器融合网络进行融合，得到传感器级别的特征向量；基于图神经网络，将机器人通信范围内所有邻居机器人的传感器级别特征向量聚合，得到智能体级别的邻域感知向量；将连接的传感器级别的特征向量和智能体级别的邻域感知向量作为行为者网络和批评者网络的输入，以目标到达、避免碰撞和时间效率设定奖励函数得到机器人最优的导航策略，实现对机器人团队的协同导航。

Description

分布式多机器人导航方法、系统、存储介质及设备

技术领域

本发明涉及多机器人协同导航技术领域，具体为分布式多机器人导航方法、系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在多机器人导航场景中，由于涉及更多移动障碍物和空间冲突，导航性能受机器人感知不完整性的限制效果被放大，现有技术采用多个传感器来提高感知能力，然而，简单地拼接多个传感器的输入并不能很好地帮助机器人充分感知周围的环境，在真实世界的复杂环境中，所学习到的策略无法满足机器人团队协同导航的要求。

一方面，不同类型的传感器可以提供丰富的环境信息，因此现有技术使用深度强化学习作为策略工具融合多种传感器获取的信息，以学习基于多传感器输入的鲁棒性自主驾驶策略，得到端到端的驾驶策略网络。然而，真实场景的图像通常包含复杂的纹理和独立于任务的视觉干扰，如反射、阴影等。仅依靠强化学习信号来优化模型的控制策略的效率很低。

另一方面，现有技术通过多机器人信息聚合的方式实现多机器人系统协作，这类方法的关键点在于如何在邻居机器人之间聚合信息，例如采取向量拼接方法可以聚合所有其他智能体的状态，然而，这种神经网络结构取决于机器人的数量，导致不同规模的群体系统的可伸缩性较差。一部分现有技术采取均值嵌入法，将相邻机器人高维特征的均值作为融合表示，以实现机器人的置换不变性。此外，为了区分不同重要性的相邻机器人，一些方法采用长短时记忆(LSTM)进行智能体级的状态融合，以将不确定长度的序列处理为固定大小的隐藏状态向量。然而，当机器人的密度达到足够高时，因为无法区分不同机器人的贡献，以上方法的效果均不理想。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供分布式多机器人导航方法、系统、存储介质及设备，在第一阶段，该方法融合传感器级别的观测以获得更好的环境感知，在第二阶段，该方法聚合智能体级别的信息以实现有效协调。通过深度强化学习学习多机器人协同导航的策略，能够实现在复杂的现实世界环境中进行协作导航和避免碰撞。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供分布式多机器人导航方法，包括以下步骤：

获取机器人在指定时刻的RGB图像、激光雷达数据以及运动矢量数据，基于视觉编码器提取RGB图像和激光雷达数据中的特征，并将RGB图像的特征转换为视觉特征隐向量；

将视觉特征隐向量和激光雷达特征通过传感器融合网络进行融合，得到传感器级别的特征向量；

基于图神经网络，将机器人通信范围内所有邻居机器人的传感器级别特征向量聚合，得到智能体级别的邻域感知向量；

将连接的传感器级别的特征向量和智能体级别的邻域感知向量作为行为者网络和批评者网络的输入，以目标到达、避免碰撞和时间效率设定奖励函数得到机器人最优的导航策略，实现对机器人团队的协同导航。

视觉编码器将RGB图像中的潜在表示投影到语义分割图和深度估计图上，得到表示像素级预测的视觉特征隐向量；潜在表示包含对语义和几何信息的理解。

传感器融合网络具有H个注意力融合单元，在第h个注意力融合单元中，通过加权求和将所有注意融合单元的输出串联在一起并投影到融合特征，融合特征是机器人传感器级别的特征向量。

图神经网络中，机器人团队的通信拓扑转换化为双向图，其中的每个节点表示一个机器人，如果两个节点之间的欧氏距离小于通信半径r_comm，则两个节点间存在双向边，它们相互接收另一个节点的消息，消息

由机器人i的传感器级表示

和运动测量

的串联而得到。

图神经网络具有M个独立的注意力头，在第m个头中，机器人i的消息

通过分别与矩阵

和

进行三次线性变换，投射到查询、键和值中，机器人i及其邻居机器人j的重要性得分

如下：

其中，d_K表示键

的维数，并用于比例因子，收到所有邻居的消息后，机器人i计算每个邻居的标准化注意力得分：

其中，N_i表示机器人i的邻居集合；第一轮机器人i聚合的领域消息

通过投影所有M个注意头输出的串联向量产生：

其中，σ是激活函数，f_proj是具有设定数量的激活函数单元的全连接层；通过从多跳邻居收集信息来扩大机器人的感受野，多跳消息

被聚合，并视为智能体级别的功能表示，即得到智能体级别的邻域感知向量。

行为者网络具有至少两个顺序全连接层和至少两个分支的输出层，其中一个输出平移速度

另一个输出旋转速度

批评者网络根据神经元的输出层生成状态值V_i ^t。

本发明的第二个方面提供实现上述方法所需的系统，包括：

传感器编码模块，被配置为：获取机器人在指定时刻的RGB图像、激光雷达数据以及运动矢量数据，基于视觉编码器提取RGB图像和激光雷达数据中的特征，并将RGB图像的特征转换为视觉特征隐向量；

层次化感知融合模块，被配置为：将视觉特征隐向量和激光雷达特征通过传感器融合网络进行融合，得到传感器级别的特征向量；基于图神经网络，将机器人通信范围内所有邻居机器人的传感器级别特征向量聚合，得到智能体级别的邻域感知向量；

策略学习模块，被配置为：将连接的传感器级别的特征向量和智能体级别的邻域感知向量作为行为者网络和批评者网络的输入，以目标到达、避免碰撞和时间效率设定奖励函数得到机器人最优的导航策略，实现对机器人团队的协同导航。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的分布式多机器人导航方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的分布式多机器人导航方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、在第一阶段，融合传感器级别的观测数据以获得更好的环境感知，在第二阶段，聚合智能体级别的信息以实现有效协调，通过多机器人协同导航的策略，能够实现在复杂的现实世界环境中进行协作导航和避免碰撞。

2、对于每个机器人，使用一个RGB相机和激光雷达进行数据采集，通过相应的编码器来提取两种模式的紧凑特征，利用传感器级和智能体级信息进行感知改善，以便在复杂场景中进行协作导航。

3、能够有效融合传感器级信息和智能体级交互信息，获得高效的感知表示。

4、通过基于强化学习的复合奖励策略，为每个机器人生成最终的转向指令。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的基于层次化感知融合的分布式多机器人导航方法的模型结构示意图；

图2为本发明一个或多个实施例提供的使用语义分割和深度估计任务训练视觉编码器示意图；

图3为本发明一个或多个实施例提供的传感器融合网络示意图；

图4为本发明一个或多个实施例提供的训练过程的滑动平均奖励图；

图5(a)-(d)为本发明一个或多个实施例提供的训练过程的各种回合终止条件图；

图6(a)-(c)为本发明一个或多个实施例提供的基础测试过程的各指标评估结果；

图7(a)-(c)为本发明一个或多个实施例提供的扩展性实验过程的各指标评估结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术中所描述的，在真实世界的复杂环境中，所学习到的策略无法满足机器人团队协同导航的要求，因此以下实施例给出分布式多机器人导航方法、系统、存储介质及设备，提出基于层次化感知融合的分布式多机器人导航方法，在第一阶段，该方法融合传感器级别的观测以获得更好的环境感知，在第二阶段，该方法聚合智能体级别的信息以实现有效协调。通过深度强化学习学习多机器人协同导航的策略，能够实现在复杂的现实世界环境中进行协作导航和避免碰撞。

实施例一：

本实施例所提出的基于层次化感知融合的分布式多机器人导航方法的模型架构如图1所示。

(1)首先对问题形式进行相关说明：

1)去中心化部分可观测马尔可夫决策过程：

本实施例将多机器人运动规划问题表述为团队中的每个机器人计划在指定的时间内到达自己的指定目标点，而不与其他机器人和障碍物发生碰撞。本实施例假设所有机器人都是同质的、非完整的微分机器人，具有邻域可通信性。该任务可以建模为具有邻域通信的去中心化部分可观测马尔可夫决策过程(Dec-POMDP)，这是一个顺序决策问题，其中每个智能体基于本地观察和邻域信息共享做出决策。新的全局状态的生成依赖于所有智能体的联合行动，从而影响他们的私人观察，这表明每个机器人的环境都是非平稳的。

在每个离散的时间步t，第i个机器人根据其自己的观察

和通信半径r_comm内接收到的消息集

通过策略

生成其动作

为了找到最优策略，本实施例的目标是最大化每个机器人的预期折扣回报：

其中π_-i是除机器人i以外的所有机器人的联合策略。在本实施例的方法中，由于机器人的同质性，策略π_i的参数在所有其他机器人之间共享。

2)观测与动作：

在每个离散的时间步t，第i个机器人的观察由三部分组成：

其中视觉观测

是由机器人具有90度视野的正面RGB相机拍摄的像素为128*128的RGB彩色图像，二维激光测量

是通过安装在每个机器人顶部的二维激光雷达获得的，此外，运动测量矢量

其中

和

分别表示第i个机器人当前的平移速度和旋转速度，

和

分别表示机器人i的目标g_i(摄像机或激光雷达都无法检测到的目标点)的距离和角度，而

表示机器人i在世界坐标系下的朝向。值得注意的是，方法不直接依赖于世界坐标系中的位置，以避免训练期间位置信息过拟合，因此在不同环境中部署时，对坐标具有鲁棒性。

(2)传感器特征编码部分：

这里描述两个编码器的详细信息，这两个编码器设计用于提取视觉和激光雷达输入的特征。

1)视觉特征编码器：

视觉特征编码器是将高维RGB图像

转换为有效的潜在表示

它应该对场景的复杂纹理具有鲁棒性，以便于策略学习。从像素学习确实遵循了一种优雅的端到端参数优化范式，但在环境复杂的情况下可能不适用。最重要的原因是，仅基于微弱的强化学习信号很难优化整个框架，并且由于样本的复杂性，学习过程需要大量数据。此外，就一般性而言，当场景的视觉特征发生轻微变化时，这种策略可能表现不佳。这里将视觉特征编码器的学习过程与框架其余部分的RL学习解耦，以提高其场景理解能力。

丰富的先验知识可以使模型具有良好的场景理解能力，从而具有令人满意的泛化能力和对未知环境的鲁棒性。这里选择采用多个辅助任务来训练视觉特征编码器。采用编码器-解码器架构，在语义分割和深度估计任务的监督下训练共享编码器，如图2所示。本实施例采用VGG 16层网络，去掉最后一个分类层作为视觉特征编码器，它将RGB图像编码为潜在表示。设计了两个具有五个反卷积层相同结构的任务特定解码器，分别将潜在表示投影到语义分割图和深度估计图的像素级预测。每个反卷积层都应用了ReLU激活函数和批处理归一化层。反卷积层中的滤波器数量分别为512、256、128、64和32。每个反卷积层的核大小、步长和填充分别设置为3、2和1。本实施例采用标准交叉熵损失进行语义分割，L1损失进行深度估计，并将这两个分支损失相加作为总损失，以优化参数。其中语义分割任务有四类语义分割标签，即背景(即墙和天花板)、通行区域、机器人和障碍物，它们鼓励机器人在导航时区分协作者和静态对象。

通过双任务监督学习，共享编码器产生的潜在表示包含对语义和几何信息的理解。在强化学习训练阶段，视觉特征编码器的权重被冻结，并且设计了一个面向任务的提取器来进一步提取与导航任务相关的特征。在面向任务的提取器中，首先通过一个包含128个ReLU滤波器非线性的1×1卷积层将潜在表示卷积成一个大小为128×4×4的特征映射，然后再通过一个批归一化层。然后，特征图被展平并通过两个连续的全连接层，其分别具有256和128个整流器单元。最后，特征向量

被得到，并将其视为与任务相关的视觉表示。

2)雷达特征编码器：

由于激光雷达获得的激光测量值不受不同纹理的影响，直接使用强化学习信号来优化雷达特征编码器。首先对雷达数据进行数据归一化，并使用两个带一维卷积(Conv1D)核的卷积层对输入特征进行卷积。每个卷积层的内核大小分别设置为5和3，而两者的步长都为2。添加两个全连接层，分别具有512和128个整流器单元，以生成雷达特征向量

与用于注意力模式融合的视觉特征向量

大小相同。

(3)层次化感知融合部分

本部分首先提出了所设计的传感器融合网络，该网络使用注意机制将编码的视觉和激光雷达特征融合到传感器级信息表示中。然后，使用带有注意核的图卷积邻域融合来聚集不确定数量的邻域的智能体级信息，以获得最终的感知向量。

1)传感器融合网络：

采用了一种带有注意机制的融合方法，该机制可以自适应地学习两种模式的相对重要性，如图3所示。具体来说，本实施例引入了H个注意力融合单元，以增强训练过程的稳定性。在第h个注意力融合单元中，结果通过加权求和运算产生：

其中

和

是通过连接两个特征向量并分别应用具有128和2个单元的两个连续FC层计算的系数，其激活函数分别为LeakyReLU和Softmax函数。最后，将所有H注意融合单元的输出串联在一起，然后投影到融合特征

其被认为是机器人i的紧凑传感器级表示。

2)基于图卷积的交互：

将机器人团队的通信拓扑形式化为双向图，其中每个节点表示一个机器人，如果两个节点之间的欧氏距离小于通信半径r_comm，则两个节点间存在双向边，这意味着它们可以相互接收另一个节点的消息。消息

由机器人i的传感器级表示

和运动测量

的串联而得到。此外，如果没有邻居，每个节点都有一个自循环。本实施例采用了带有多头注意力的图卷积，允许每个机器人有选择地确定不同邻居的相对重要性，并相应地聚合其消息。

具体而言，本实施例实施了M个独立的注意力头。在第m个头中，机器人i的消息

通过分别与矩阵

和

进行三次线性变换，投射到查询、键和值中。因此，机器人i及其邻居机器人j的重要性得分

计算如下：

其中，d_K表示键

的维数，并用于比例因子。收到所有邻居的消息后，机器人i计算每个邻居的标准化注意力得分：

其中，N_i表示机器人i的邻居集合。然后，第一轮机器人i聚合的领域消息

是通过投影所有M个注意头输出的串联向量产生的：

其中σ是LeakyReLU激活函数，f_proj是具有133个LeakyReLU单元的全连接层。

通过多跳交互(本实施例的方法是三轮)，通过从多跳邻居收集信息来扩大机器人的感受野。最终多跳消息

被聚合，并视为智能体级别的功能表示。

(4)策略学习部分：

1)行为者和批评者网络：

本实施例采用一种基于策略的行为者-批评者算法，即近似策略优化，来优化网络参数。特别是，本实施例注意到机器人的信息将随着聚集数量的增加而降低。因此，引入跳跃连接来增强单个特征，然后将连接的特征

通过128个LeakyReLU单元的一个全连接层，并分别传输到行为者网络和批评者网络。具体而言，行为者网络由两个顺序全连接层实现，分别具有128和32个LeakyReLU单元，然后是两个分支的输出层，其中一个输出平移速度

的Sigmoid非线性，另一个输出旋转速度

的Tanh非线性。批评者网络的前两层与参与者网络相同，使用一个神经元的输出层来生成状态值V_i ^t。

2)复合奖励函数：

本实施例的多机器人运动规划任务由三个子目标组成，即目标到达、避免碰撞和时间效率。因此，设计了一个复合奖励函数，用于反馈考虑多个子目标的信号，避免训练过程中奖励稀疏的问题。具体来说，在指定的时刻t，机器人i的奖励如下：

其中，

和

分别被设计用于目标到达、避免碰撞和运动优化。

首先，目标到达奖励

由以下公式计算：

其中，d_g是当机器人i到达目标时，从机器人i到目标g_i的欧氏距离，λ₁是到达目标的一个较大的正奖励，而λ₂是一个较小的正数，用于激励机器人在导航时朝目标移动。

其次，避碰奖励

由以下公式获得：

其中λ₃是碰撞的较大负惩罚。而λ₄和λ₅都是正数，用于使机器人提前意识到碰撞的危险。

是激光观测中的最小距离

而d_ca是预定义的危险距离。

第三，为了避免急转弯和加速导航，运动细化奖励

的计算公式为：

其中λ₆和λ₇都是较小的负数，前者用于惩罚较大的旋转速度，而后者是一个较小的时间惩罚，鼓励机器人尽快完成任务。

除时间惩罚λ₇外，所有奖励信号都包含在机器人观测中，这有助于框架专注于与任务最相关的信息，从而有利于政策和价值学习。

(4)实验结果

本实施例在仿真环境中进行多机器人协同导航实验，以证明本实施例方法相对于基线方法的优越性。

1)模型实现：

本实施例在配备Intel I7-9800X CPU(3.80GHz)和NVIDIA GTX 2080Ti GPU的工作站上进行实验，并在PyBullet的3D模拟器中构建训练和测试环境。本实施例选择Turtlebot3作为机器人模型。在强化学习阶段之前，首先进行监督学习，以训练视觉编码器的语义分割和深度估计任务。监督学习数据集包含从模拟场景中采集的5000张RGB图像，每个样本大小为3×128×128。采用Adam优化器进行监督学习，使用64个批次大小对模型进行1000个周期的训练。然后，冻结视觉编码器的权重，并使用近端策略优化算法和Adam优化器优化框架的其余部分。强化学习的学习率设置为5×10^-5，可训练参数将每128个时间步更新一次。对于模型的每次更新，批次大小设置为32。

2)训练场景：

训练场景是仿真环境中的一个5米×5米的房间，有N个不规则障碍物，其位置和类型在模型更新的每N_u次中随机变化，以确保环境的随机性。六个机器人在各自的场景中独立运行，完成导航任务。在每次插曲初始化时，机器人被放置在房间一端的固定位置，需要在最大移动时间步长N_m内到达房间另一端的目标点。这是为了增加机器人之间发生路径冲突的可能性，因为每个机器人都需要穿过房间的中心区域。此外，每个机器人的情节有四个切换条件：超时、与障碍物碰撞、与合作者碰撞和成功(即达到目标)。训练过程参数如表1所示。

表1：训练过程参数设置

3)基线方法和评估指标：

①基线方法：在本实施例的实验中，本实施例将所提方法命名为SAPI，并与以下五个基线进行了比较，包括两种最先进的方法和本实施例方法的三种变体。

MRV-A：这是一种基于视觉运动的方法，它以端到端的方式操作，利用第一人称视角的全向RGB图像进行观察，无需任何预训练过程。本实施例将其原始的离散行动策略更改为连续行动策略，并使用与SAPI相同的奖励函数以实现公平。

SelComm：这是一种先进的基于激光雷达的方法，每个机器人都需要进行全局通信，然后选择与之最相关的K个邻居来共享信息，这里按照原始方法，K设置为3。本实施例使用在原始设置中经过训练的模型，并将其与SAPI进行比较以进行评估。

SAPI-Seg：这是本实施例方法的一个消融版本，其中视觉编码器仅在语义分割任务上进行预先训练，即仅能够从图像中提取语义信息。其余设置与SAPI一致。

SAPI-Dep：在这种消融方法中，视觉编码器仅在深度估计任务上进行预先训练，以获得提取几何信息的能力，其他设置与SAPI相同。

SAPI-S：为了显示智能体级信息聚合的效果，在这个消融版本中，所有机器人都不相互通信，但具有与SAPI相同的传感器级感知能力。

②评估指标：在本实施例的实验中，本实施例采用以下三个指标来综合评估每种方法的性能。

成功率：表示成功案例数占评估案例总数的百分比。如果机器人在最大时间步长N_m内未发生碰撞就达到目标，则视为成功。

额外距离比率：表示成功案例整个轨迹中冗余长度的百分比。更大的额外距离率意味着机器人绕行的距离更长。

平均速度：测量成功案例的平均速度。

4)仿真环境中的评估：

①训练收敛性分析：

如图4所示，在每种方法的训练过程中，本实施例记录了每回合的累积奖励，并绘制了滚动奖励曲线，其中滚动奖励表示过去2000回合的平均累积奖励。此外，为了清楚地说明模型是如何学习导航技能的，本实施例还记录了每回合的切换条件，并推导了过去2000回合中所有切换条件的滚动率，即成功率、障碍碰撞率、合作者碰撞率和超时率，如图5(a)-(d)所示。可以观察到，所提出的方法SAPI优于所有基线模型，因为它收敛到最高的奖励和成功率。通过对曲线的分析，可以得出以下一些进一步的结论：

与纯视觉方法相比，传感器级信息融合和视觉编码器预处理有助于机器人在复杂环境中导航。本实施例发现，虽然MRV-A声称可以在简单的环境中工作，但在复杂的情况下几乎失败。具体来说，在培训结束时，MRV-A只学习了避免与静止障碍物碰撞的初步技能，如图5(b)所示。这也说明，由于复杂的视觉信息导致数据效率低下，因此很难从像素端到端地学习导航策略。

与SAPI-Seg和SAPI-Dep相比，具有更丰富的视觉输入先验知识的SAPI由于其更强的场景理解能力而具有更好的导航性能。与具有一种先验知识的嵌入相比，结合语义和几何信息的视觉嵌入不会增加计算复杂性。此外，本实施例注意到，与几何信息相比，视觉输入的语义信息在训练场景中更有帮助，一个可能的原因是激光测量已经可以提供环境的部分几何特征。

通过比较SAPI和SAPI-S，可以证明通过引入智能体级交互确实可以提高协作导航的性能。缺乏与合作者的沟通增加了环境的不可预测性和非平稳性。特别是，SAPI-S的滚动奖励和成功率在50000回合之后波动在同一水平，这主要是由于协作者冲突率相对较高，如图5(c)所示。

技能学习的概述可以通过图4和图5(a)-图5(d)进行总结，这里本实施例以SAPI为例。在训练的初始阶段，由于模型参数的随机性，动作几乎是随机的，反过来，滚动奖励曲线显示出较大的振荡甚至下降。之后，随着机器人开始掌握初始避碰技能，障碍物碰撞率迅速下降，如图5(b)所示，而协作者碰撞率开始增加，因为协作导航尚未学习，如图5(c)所示。同时，超时率的上升和下降表明机器人正在通过试错过程学习目标导航和避免碰撞之间的平衡，如图5(d)所示。在训练的后期阶段，不同模型的能力上限开始出现，其中MRV-A的超时率仅开始缓慢上升，因为数据效率低导致了较大的勘探需求。

②多种场景下与基线方法的比较：

在本小节中，本实施例在各种场景中进行了大量实验，没有任何微调程序来评估所有模型的性能，但MRV-a除外，MRV-a在本实施例的培训场景中被证明是无效的。每个评估中有200个测试用例。

训练场景中的性能：本实施例在训练场景中评估模型，并根据三个指标(即成功率、额外距离率和平均速度)测量其性能，如图6(a)-(c)所示。可以观察到，SAPI具有最高的成功率和最低的额外距离率，以及相对较高的平均速度。这表明，SAPI允许每个机器人以相对较快的速度到达目的地，同时遵循较短的路径。同时，本实施例发现，由于缺乏对复杂障碍的感知，SelComm在本实施例的环境中表现不佳。SAPI-S的最低成功率和最高额外距离率表明，有效的智能体级交互对于机器人之间的碰撞避免和运动协调至关重要。

对不同场景的泛化：为了评估该方法的泛化能力，本实施例设置了三个场景，即拥挤场景、走廊场景和动态场景，其中所有机器人都需要完成位置交换任务。拥挤的场景有十个随机放置的障碍物，即两倍于训练场景，而其他配置与训练场景相同。走廊场景大小为3×12米，有五个随机放置的障碍物和八个机器人，其狭窄的通行区域增加了机器人路径冲突的可能性。此外，动态场景与训练场景大小相同，但包含两个动态障碍物，分别设置为0.2m/s和0.3m/s。表2显示了每个泛化场景中所有方法的定量性能。

表2：泛化场景性能

可以看出，由于本实施例的SAPI集成了强大的感知能力和高效的交互能力，因此在所有概括场景中，SAPI的成功率最高。特别是，本实施例注意到，在拥挤的场景中，视觉观察的语义信息比几何信息更重要，这是因为需要有效地识别和避免显示密集的障碍物。在拥挤的场景中，由于复杂障碍物数量的增加，Selcomm的性能急剧下降。此外，在有远距离导航要求和障碍物稀少的走廊场景中，几何信息比语义信息更有助于协同导航。本实施例还注意到，由于对狭窄区域的运动协调要求较高，SAPI-S在走廊场景中表现最差。此外，动态场景中的性能和轨迹表明，由设计的复合奖励函数指导的策略可以在一定程度上使机器人提前避开障碍物。

大型机器人团队的可扩展性：在这里，本实施例测试可扩展性，也就是说，针对少数机器人的策略是否对大型机器人团队仍然有效。本实施例构建了大小为8×8米的场景1(scene1)和大小为10×10米的场景2(scene2)，分别包含12个障碍物和20个障碍物。然后，本实施例为位置交换任务设计了六个不同大小的机器人团队：场景1有12、16和20个机器人，场景2有24、30和36个机器人。值得注意的是，同一场景中的机器人数量越多，就意味着路径冲突的可能性越大，而场景面积的增加意味着机器人需要导航更远的距离。不同团队规模下的模型性能如图7(a)-(c)所示。本实施例的方法对于大型机器人团队仍然有效，即使在机器人数量是训练场景六倍的系统中也是如此。

首先，机器人团队的扩大确实会影响方法的成功率，因为这意味着更复杂的交互和更少的可访问区域。特别是，随着机器人数量的增加，由于缺乏运动协调能力，SAPI-S的性能急剧下降。其次，随着机器人密度的增加，额外距离率会增加，因为一个机器人需要绕行更长的距离，以避免与合作者发生移动冲突。最后，由于环境拥挤，机器人往往会做出谨慎的决定，并以较低的速度导航，以确保安全。

综上所述，本实例设计了一个框架来集成传感器级和智能体级信息，以增强机器人感知，从而促进复杂场景中的协作导航。视觉辅助任务的预训练大大提高了模型的样本效率，而语义先验和几何先验的结合被证明对导航任务是有效的。此外，还设计了一种基于注意力的传感器融合网络，以有效集成传感器级特征。带有注意核的图卷积交互被证明在很大程度上有利于机器人的运动协调。此外，还设计了一个具有多个子目标的复合奖励函数来指导导航策略的学习。通过大量实验证明了本实施例方法的优越性，以及它对未知场景的概括能力，以及对大型机器人团队的可扩展性。

实施例二：

实现上述方法的系统，包括：

在第一阶段，融合传感器级别的观测数据以获得更好的环境感知，在第二阶段，聚合智能体级别的信息以实现有效协调，通过多机器人协同导航的策略，能够实现在复杂的现实世界环境中进行协作导航和避免碰撞。

实施例三：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的分布式多机器人导航方法中的步骤。

分布式多机器人导航方法在第一阶段，融合传感器级别的观测数据以获得更好的环境感知，在第二阶段，聚合智能体级别的信息以实现有效协调，通过多机器人协同导航的策略，能够实现在复杂的现实世界环境中进行协作导航和避免碰撞。

实施例四：

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的分布式多机器人导航方法中的步骤。

以上实施例二至四中涉及的各步骤或模块与实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.分布式多机器人导航方法，其特征在于：包括以下步骤：

将视觉特征隐向量和激光雷达特征通过传感器融合网络进行融合，得到传感器级别的特征向量；基于图神经网络，将机器人通信范围内所有邻居机器人的传感器级别特征向量聚合，得到智能体级别的邻域感知向量；

2.如权利要求1所述的分布式多机器人导航方法，其特征在于：所述视觉编码器将RGB图像中的潜在表示投影到语义分割图和深度估计图上，得到表示像素级预测的视觉特征隐向量；潜在表示包含对语义和几何信息的理解。

3.如权利要求1所述的分布式多机器人导航方法，其特征在于：所述传感器融合网络具有H个注意力融合单元，在第h个注意力融合单元中，通过加权求和将所有注意融合单元的输出串联在一起并投影到融合特征，融合特征是机器人传感器级别的特征向量。

4.如权利要求1所述的分布式多机器人导航方法，其特征在于：所述图神经网络中，机器人团队的通信拓扑转换化为双向图，其中的每个节点表示一个机器人，如果两个节点之间的欧氏距离小于通信半径r_comm，则两个节点间存在双向边，它们相互接收另一个节点的消息，消息

由机器人i的传感器级表示

和运动测量

的串联而得到。

5.如权利要求4所述的分布式多机器人导航方法，其特征在于：

通过分别与矩阵

和

如下：

其中，d_K表示键

其中，N_i表示机器人i的邻居集合。

6.如权利要求4所述的分布式多机器人导航方法，其特征在于：

第一轮机器人i聚合的领域消息

通过投影所有M个注意头输出的串联向量产生：

7.如权利要求1所述的分布式多机器人导航方法，其特征在于：所述行为者网络具有至少两个顺序全连接层和至少两个分支的输出层，其中一个输出平移速度

另一个输出旋转速度

批评者网络根据神经元的输出层生成状态值

8.分布式多机器人导航系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述权利要求1-7任一项所述的分布式多机器人导航方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7任一项所述的分布式多机器人导航方法中的步骤。