CN116222577A

CN116222577A - 闭环检测方法、训练方法、系统、电子设备及存储介质

Info

Publication number: CN116222577A
Application number: CN202310476254.XA
Authority: CN
Inventors: 于翔; 郭泰�; 高美洲
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-06-06
Anticipated expiration: 2043-04-27
Also published as: CN116222577B

Abstract

本发明涉及数据处理技术领域，并公开了一种闭环检测方法、训练方法、系统、电子设备及存储介质，方法包括：获取环境数据，并将环境数据输入到多模态地点表征网络，多模态地点表征网络对环境数据进行计算，得到第一全局地点表征向量；将环境数据和第一全局地点表征向量加入历史帧数据序列；计算第一全局地点表征向量与历史帧数据序列中第二全局地点表征向量之间的欧式距离；从计算出的欧式距离中获取最小欧式距离，并基于最小欧式距离是否小于距离阈值判断是否发现闭环。通过本发明的方案，能够综合图像和点云的数据进行多模态闭环检测，提高了闭环检测过程中对于环境变化的鲁棒性，能够更好的适应长时导航、高难度场景导航等实际应用场景。

Description

闭环检测方法、训练方法、系统、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种闭环检测方法、训练方法、系统、电子设备及存储介质。

背景技术

同时定位和建图（Simultaneous Localization and Mapping ，简称SLAM）技术是移动机器人自主导航必不可少的关键技术，一个SLAM系统包括数据预处理、前端里程计、闭环检测、后端优化和地图构建五个部分。其中，闭环检测方法被用于消除里程计的累计漂移，对于长时间、长行程的导航具有十分重要的意义。

目前流行的闭环检测方法是单模态的闭环检测方法，机器人在导航过程中会途经具有不同特点的环境，例如，城市环境中建筑物稠密且存在着大量的行人、车辆等动态物体，乡镇环境中则建筑物较为稀疏，动态物体较少，但植被更为密集。此外，即使是同一环境也会因时间变化呈现不同的特点，例如，昼夜交替会使环境中的光照逐渐变化，季风性气候形成季节性雨雪条件变化，晴天或阴天导致的环境变化等等。单模态的闭环检测方法，例如，纯视觉方法在面对强光照变化、昼夜交替和季节变化时往往会遭遇巨大的性能下降，而点云方法虽然由于激光扫描的方式不会受到光照变化的影响，但点云本身几何特征提取难度高的特性还是限制了其表征地点的性能，因此，在机器人的长时导航中进行鲁棒的闭环检测是一项极具挑战性的任务。单模态的闭环检测方法限制了其在真实环境下进行长时导航的能力。

发明内容

有鉴于此，本发明提出了一种闭环检测方法、训练方法、系统、电子设备及存储介质，能够综合图像和点云的数据进行多模态闭环检测，提高了移动机器人对于环境变化的鲁棒性，包括光照变化、天气变化和气候变化等，解决了采用单独的图像或者单独的点云模态进行闭环检测，在面对长时间、高难度场景导航应用时性能下降严重，甚至导致导航系统不能工作的问题，对于长时导航和高难度场景导航具有重要的意义。

基于上述目的，本发明实施例的一方面提供了一种闭环检测方法，具体包括如下步骤：

获取采集的环境数据，并将所述环境数据输入到多模态地点识别框架的多模态地点表征网络，并基于所述多模态地点识别框架执行以下步骤：

所述多模态地点表征网络对所述环境数据进行计算，得到第一全局地点表征向量；

将所述环境数据和第一全局地点表征向量加入历史帧数据序列；

计算所述第一全局地点表征向量与所述历史帧数据序列中第二全局地点表征向量之间的欧式距离；

从计算出的所有所述欧式距离中获取最小欧式距离，并基于所述最小欧式距离是否小于距离阈值判断是否发现闭环。

在一些实施方式中，所述环境数据包括：

图像和点云。

在一些实施方式中，所述多模态地点表征网络配置用于执行以下步骤：

基于所述环境数据中的图像生成图像伪点云特征；

基于所述环境数据中的点云生成点云特征；

对所述点云特征和所述伪点云特征分别进行采样分组和局部特征提取，得到第一局部点云特征和第二局部点云特征；

将所述第一局部点云特征和所述第二局部点云特征分别输入到自注意力卷积神经网络编码器得到第一局部自注意力特征和第二局部自注意力特征；

将所述第一局部自注意力特征和所述第二局部自注意力聚合成全局地点表征向量。

在一些实施方式中，所述基于所述环境数据中的图像生成图像伪点云特征的步骤，包括：

对所述环境数据中的图像进行图像特征提取，得到图像特征图；

建立点云与图像之间的坐标映射；

基于所述坐标映射将所述图像特征图映射为所述图像伪点云特征。

在一些实施方式中，所述建立点云与图像之间的坐标映射的步骤，包括：

建立点云与图像之间的坐标映射，其中，所述坐标映射表示为：

其中，P表示点在激光雷达点云坐标系中的齐次坐标，Y=点P在图像坐标系中的投影，

为激光雷达坐标系到相机的外参变换矩阵，/>

为相机坐标系到图像坐标系的内参矩阵。

在一些实施方式中，所述基于所述环境数据中的点云生成点云特征的步骤，包括：

通过多层感知机模型和线性变换对所述环境数据中的点云进行处理，得到点云特征。

在一些实施方式中，所述对所述点云特征和所述伪点云特征分别进行采样分组和局部特征提取，得到第一局部点云特征和第二局部点云特征的步骤，包括：

随机从所述点云特征或所述伪点云特征中选取预设数量的采样点；

基于选取的采样点形成局部点集；

对所述局部点集进行局部特征提取得到对应于所述点云特征的第一局部点云特征或对应于所述伪点云特征的第二局部点云特征。

在一些实施方式中，所述基于选取的采样点形成局部点集的步骤后，方法还包括：

将所述局部点集中的点云作为所述局部点集的位置编码。

在一些实施方式中，所述将所述第一局部自注意力特征和所述第二局部自注意力聚合成全局地点表征向量的步骤，包括：

将所述第一局部自注意力特征和所述第二局部自注意力特征进行聚类，得到若干个簇；

对每个所述簇进行权重分配，并将权重与对应的所述第一局部自注意力特征或所述第二局部自注意力特征相乘并标准化，得到全局地点表征向量。

在一些实施方式中，所述自注意力卷积神经网络编码器包括多个自注意力模块，其中，所述自注意力模块的输出为自注意力特征，所述自注意力模块的输入为所述位置编码与所述第一局部点云特征或所述第二局部点云特征或所述自注意力特征的加和，所述自注意力卷积神经网络编码器配置为将各个所述自注意力模块的输出的所述自注意力特征进行拼接，得到所述第一局部自注意力特征或所述第二局部自注意力特征。

在一些实施方式中，所述自注意力模块配置为执行以下步骤：

对输入特征进行卷积得到查询矩阵、键值矩阵和权值矩阵；

将所述键值矩阵与所述权值矩阵的转置矩阵的乘积进行激活计算，得到注意力权值；

将所述注意力权值与所述权值矩阵相乘，得到加权特征；

将所述加权特征与所述输入特征进行加和计算，并对加和计算结果依次进行归一化计算和激活计算，得到所述自注意力特征。

在一些实施方式中，所述基于所述最小欧式距离是否小于距离阈值判断是否发现闭环的步骤包括：

若是所述最小欧式距离小于所述距离阈值，则发现闭环；

若是所述最小欧式距离不小于所述距离阈值，则未发现闭环；

所述计算所述第一全局地点表征向量与所述历史帧数据序列中第二全局地点表征向量之间的欧式距离的步骤包括：

从所述历史帧数据序列中获取与所述环境数据的帧数差大于预设帧数的第二历史帧数据；

计算所述第一全局地点表征向量与所述第二历史帧数据对应的第二全局地点表征向量之间的欧式距离。

本发明实施例的另一方面，还提供了一种用于闭环检测的模型训练方法，所述模型为多模态地点识别框架，方法包括：

基于第一点云和第一图像构建数据集；

构建第一多模态地点表征网络，并使用孪生网络将所述第一多模态地点表征网络构建为第一多模态地点识别框架；

使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值。

在一些实施方式中，方法还包括：

构建历史帧数据序列，所述历史帧数据序列中的每个历史帧数据包括：第一点云、第一图像和对应时刻的位置信息；

所述基于第一点云和第一图像构建数据集的步骤包括：

基于所述历史帧数据序列构建包含正样本对和负样本对的所述数据集。

在一些实施方式中，所述基于所述历史帧数据序列构建包含正样本对和负样本对的所述数据集的步骤，方法包括：

在闭环路径中查询距离在第一距离以内的所述历史帧数据作为正样本对；

在全部路径中查询距离在第二距离以上的所述历史帧数据作为负样本对，其中，所述第二距离大于第一距离；

按照预设比例获取所述正样本对和所述负样本对以构建所述数据集。

在一些实施方式中，所述基于第一点云和第一图像构建数据集的步骤之后，方法还包括：

对所述数据集中的第一点云和第一图像进行降采样处理，得到第二点云和第二图像。

在一些实施方式中，所述数据集包括训练集、验证集以及测试集，所述使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值的步骤包括：

基于所述训练集和所述验证集对所述第一多模态地点识别框架进行训练，得到第二多模态地点识别框架；

基于测试集对所述第二多模态地点识别框架中进行性能评估，得到所述距离阈值。

在一些实施方式中，所述基于所述训练集和所述验证集对所述第一多模态地点识别框架进行训练的步骤包括：

使用所述训练集和所述验证集，并使用对比损失函数对所述第一多模态地点识别框架进行训练，使得所述正样本对或所述负样本对之间的欧式距离满足要求。

在一些实施方式中，所述对比损失函数的表达式为：

其中，L表示对比损失，N表示训练集的样本对数，y _i=1时表示正样本对，y _i=0时表示负样本对，f _i1和f _i2为样本对中两个样本对应的全局表征向量，

表示两向量之间的欧式距离，margin表示距离边际。

本发明实施例的另一方面，还提供了一种闭环检测系统，包括：获取模块和多模态地点识别框架，其中，多模态地点识别框架包括多模态地点表征网络、加入模块、计算模块、闭环判断模块，其中，

所述获取模块配置为获取采集的环境数据，并将所述环境数据输入到多模态地点识别框架的多模态地点表征网络；

所述多模态地点表征网络配置为对所述环境数据进行计算，得到第一全局地点表征向量；

所述加入模块配置为将所述环境数据和第一全局地点表征向量加入历史帧数据序列；

所述计算模块配置为计算所述第一全局地点表征向量与所述历史帧数据序列中第二全局地点表征向量之间的欧式距离；

所述闭环判断模块配置为从计算出的所有所述欧式距离中获取最小欧式距离，并基于所述最小欧式距离是否小于距离阈值判断是否发现闭环。

本发明实施例的另一方面，还提供了一种用于闭环检测的模型训练系统，所述模型为多模态地点识别框架，系统包括：

第一构建模块，所述第一构建模块配置为基于第一点云和第一图像构建数据集；

第二构建模块，所述第二构建模块配置为构建第一多模态地点表征网络，并使用孪生网络将所述第一多模态地点表征网络构建为第一多模态地点识别框架；

训练模块，所述训练模块配置为使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值。

本发明实施例的又一方面，还提供了一种电子设备，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机程序，所述计算机程序由所述处理器执行时实现如上方法的步骤。

本发明实施例的再一方面，还提供了一种存储介质，存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

本发明至少具有以下有益技术效果：本发明方案能够综合图像和点云的数据进行多模态闭环检测，提高了移动机器人对于环境变化的鲁棒性，包括光照变化、天气变化和气候变化等，能够更好的适应长时导航、高难度场景导航等实际应用场景，提高了在长时导航、高难度场景导航等实际应用场景下的闭环检测性能。本发明方案，通过在多模态地点识别框架中引入注意力机制第一次加强了网络模型对于标志性地点的聚焦能力，通过特征聚合模块的权重分配第二次加强了网络模型对于标志性地点的聚焦能力；同时利用了两种模态数据之间的空间对应关系进行图像伪点云生成，既减少了网络参数量和训练时间，又为表征网络引入了更多的多模态信息。本发明方案，通过使用对比损失函数对多模态地点识别框架进行训练，增大了不同地点的特征空间欧式距离，减小相同地点的特征空间欧式距离，通过特征向量之间的距离进行地点匹配，极大节约了闭环搜索时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的闭环检测方法的一实施例的流程图；

图2为本发明提供的多模态地点识别框架的一实施例的架构图；

图3为本发明提供的图像伪点云特征生成过程的一实施例的流程图；

图4为本发明提供的自注意力卷积神经网络编码器的编码过程的一实施例的流程图；

图5为本发明提供的闭环检测方法的又一实施例的流程图；

图6为本发明提供的用于闭环检测的模型训练方法的一实施例的流程图；

图7为本发明提供的闭环检测系统的一实施例的示意图；

图8为本发明提供的用于闭环检测的模型训练系统的一实施例的示意图；

图9为本发明提供的电子设备的一实施例的结构示意图；

图10为本发明提供的存储介质的一实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种闭环检测方法。在如图1所示的实施例中，该方法包括如下步骤：

S10、获取采集的环境数据，并将所述环境数据输入到多模态地点识别框架的多模态地点表征网络；

S20、所述多模态地点表征网络对所述环境数据进行计算，得到第一全局地点表征向量；

S30、将所述环境数据和第一全局地点表征向量加入历史帧数据序列；

S40、计算所述第一全局地点表征向量与所述历史帧数据序列中第二全局地点表征向量之间的欧式距离；

S50、从计算出的所有所述欧式距离中获取最小欧式距离，并基于所述最小欧式距离是否小于距离阈值判断是否发现闭环。具体的，本发明实施例可以应用于机器人导航过程中的闭环检测过程。

在步骤S10中，环境数据可以基于机器人采集，以下结合具体实施例说明获取环境数据的过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

机器人至少携带三维激光雷达、视觉相机和GPS在室外道路采集数据，行驶路径中应该大于3km且包含闭环；视觉相机、三维激光雷达和GPS按照不同频率向主机传输图像、点云和位置数据，由于频率之间存在差别，三种数据需要通过匹配时间戳的方式构建出输入到多模态地点识别框架的环境数据，每帧数据包含一幅图像，一簇点云。

在步骤S20中，多模态地点表征网络对环境数据的计算过程包括：图像伪点云特征生成，点云的采样分组和局部特征提取，位置编码，Transformer（自注意力卷积神经网络）编码器，特征聚合。

在步骤S30中，将环境数据和计算得到的全局地点表征向量加入历史帧数据序列。

在步骤S40和S50中，计算当前帧的全局地点表征向量与历史帧数据序列中第二全局地点表征向量之间的欧式距离；并从计算出的所有欧式距离中获取最小欧式距离，并基于最小欧式距离是否小于距离阈值判断是否发现闭环。

下面通过一具体实施例描述闭环检测过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

当前时刻称为当前帧，过去的时间序列称为历史帧，每个帧采集的图像和点云都经过预处理输入至多模态地点表征网络中生成一个全局地点表征向量。给出一个当前帧，剔除与当前帧时间过近的历史帧，然后计算当前帧的全局地点表征向量与历史帧地点表征向量之间的欧式距离，将距离最小的历史帧作为闭环候选帧，如果该距离大于等于某个阈值，则认为当前帧与候选帧属于不同的地点，未发现闭环；如果该距离小于某个阈值，则认为当前帧与候选帧属于同一个地点，发现闭环。

通过本发明实施例，综合了图像和点云两个模态的数据进行多模态闭环检测，提高了移动机器人对于环境变化的鲁棒性，包括光照变化、天气变化和气候变化等，能够更好的适应长时导航、高难度场景导航等实际应用场景，提高了在长时导航、高难度场景导航等实际应用场景下的闭环检测性能。

在一些实施方式中，所述环境数据包括：图像和点云。

基于所述环境数据中的图像生成图像伪点云特征；

基于所述环境数据中的点云生成点云特征；

下面结合图2对多模态地点识别框架进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

多模态地点识别框架包括将两个相同的多模态地点表征网络，通过多模态地点表征网络可以得到全地点表征向量，通过对比相邻两帧数据的全地点表征向量的欧式距离，可以确定两帧数据是否属于同一个地点。通过多模态地点表征网络得到全地点表征向量的过程包括：图像伪点云特征生成，点云的采样分组和局部特征提取，位置编码，Transformer（自注意力卷积神经网络）编码器，特征聚合。

下面多模态地点表征网络对进行更加具体的说明。

图像伪点云特征生成：通过4层卷积层提取图像特征图，保证图像大小不变，根据点云和图像之间的映射关系，找到点云在图像中的位置，将图像特征图中该点的特征值作为图像伪点云中的一个伪点，该帧的所有伪点集组成图像伪点云。

点云的采样分组和局部特征提取：将原数据进行单词化分割地特征提取。将输入点云进行两次采样分组和局部特征提取。

位置编码：点云本身就表示距离测量，天然代表位置信息，因此本发明将采样分组后形成的点集作为点云模态的位置编码。

Transformer编码器：包括4个自注意力模块，4个自注意力模块输出的不同维度的自注意力特征和第一层自注意力模块的输入特征拼接后卷积为局部自注意力特征。

特征聚合：先将局部自注意力特征进行聚类，对各簇进行softmax权重分配，将权重与特征相乘并标准化，局部自注意力特征被聚合为全局特征，即，全局地点表征向量。

上述方案通过在多模态地点识别框架中引入注意力机制第一次加强了网络模型对于标志性地点的聚焦能力，通过特征聚合模块的权重分配第二次加强了网络模型对于标志性地点的聚焦能力；同时利用了两种模态数据之间的空间对应关系进行图像伪点云生成，既减少了网络参数量和训练时间，又为表征网络引入了更多的多模态信息。

建立点云与图像之间的坐标映射；

为激光雷达坐标系到相机的外参变换矩阵，/>

为相机坐标系到图像坐标系的内参矩阵。

下面通过一具体实施例描述图像伪点云特征生成过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

如图3所示，图像伪点云特征生成过程包括：图像特征图提取，建立点云和图像之间的坐标映射以及生成图像伪点云特征。

图像特征图提取：图像特征提取的网络参数如表1所示，输入维度为256×256×3的图像通过3个3×3卷积层和1个1×1卷积生成256×256×64维的图像特征图，每个3×3卷积层后面都经过ReLU激活函数和BN层，在卷积过程中保证图像大小不变。

表1 图像特征图提取网络

建立点云和图像之间的坐标映射：根据点云和图像之间的映射关系，找到点云在图像中的投影位置，假设P=(x,y,z,1)^T为点P在激光雷达点云坐标系中的齐次坐标，Y=(u,v,1)^T为点P在图像坐标系中的投影，则有

其中，

为激光雷达坐标系到相机的外参变换矩阵，/>

为相机坐标系到图像坐标系的内参矩阵。公共数据集会给出相应的外参和内参阵，自建数据集的变换矩阵参数可以使用激光雷达和相机联合标定方法求得。由于投影后点云在图像坐标系的坐标未必为整数，本发明采用双线性插值方法解决此问题。

生成图像伪点云特征：将当前帧的点云投影至图像坐标系，对于点云中的每个点，如果投影在图像特征图中，则该位置的点被设置为图像特征图中对应的64维向量，如果投影不在图像特征图中，则该位置特征以64维零向量补充，最后生成的图像伪点云特征维度为5000×64。

下面通过一具体实施例描述点云特征生成过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

激光雷达三维点云经过一层多层感知机和特征变换后生成5000×64维点云特征。

基于选取的采样点形成局部点集；

下面通过一具体实施例描述点云特征采样分组和局部特征提取过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

点云特征和图像伪点云特征的维度相同，都经过该步骤进行特征单词化。将输入特征进行两次采样分组和局部特征提取，输入特征可以为点云特征，也可以为图像伪点云特征，首先从每个局部区域的几何结构中提取浅层局部特征，然后在这些浅层局部特征的基础上继续提取更高层次的特征。

具体的，采样采取最远点查询的方式生成采样点群：随机选择点云中的一个点作为首个采样点，找到距离最远的点作为第二个查询点，直到采样点数量达到N。对采样点群中的采样点进行分组：对于采样点群中的每个采样点，查询距离最近的s个点作为一组，形成N个包含s个点的局部点集。每个局部点集中的点云作为该点集的位置编码。局部点集继续进行局部特征提取，局部特征提取模块可以由两个卷积层和自适应最大池化组成，第一次采样分组输出的局部点集数为512，特征维度为128；第二次的采样分组的局部点集数为256，特征维度为256。

通过上述过程可以得到两个局部点集数为256，特征维度为256的局部点云特征。

将所述局部点集中的点云作为所述局部点集的位置编码。

对输入特征进行卷积得到查询矩阵、键值矩阵和权值矩阵；

将所述注意力权值与所述权值矩阵相乘，得到加权特征；

下面通过一具体实施例描述自注意力卷积神经网络编码器的编码过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

两个单词化的256×256维特征分别输入至Transformer编码器中进行局部自注意力特征提取。Transformer编码器包括4个自注意力模块，编码流程如图4所示，每个自注意力模块的输入为特征和位置编码的加和，输出为自注意力特征。

自注意力模块的query（查询）、key（键值）和value（权值）矩阵由对输入特征进行1×1卷积的线性变换求得，其中，query和key的卷积层参数相同且完全共享权值，value的卷积层输出特征维度为query和key的4倍。接着，将key矩阵和value转置矩阵的乘积输入至softmax（表示激活函数）层，并对输出的向量进行标准化即可得到注意力权值，将注意力权值与value矩阵相乘得到加权的线性特征表示。之后，运用残差的思想，将加权特征与模块输入特征加和后的向量经过BN（归一化）层和ReLU（表示激活函数）即可得到模块的输出自注意力特征。

最终，Transformer编码器的4个自注意力模块输出的不同维度的自注意力特征拼接后卷积为256×1024维的局部自注意力特征。

下面通过一具体实施例描述特征聚合过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

将输入的点云局部自注意力特征和图像伪点云局部自注意力特征一同输入到该模块中进行聚类，并为每个簇设置可学习权值，使得能够表征地点的特征簇（如静止的建筑物等）权重变大，难以表征地点的特征簇（如移动的车辆、行人等）权重变小。在网络中表现为用K个1×1的卷积核卷积之后再经过softmax激活函数得到软分配权值，将该权值与图像特征向量x和聚类中心c的残差相乘，累加得到聚合矩阵，最后经过两次归一化操作得到一个K×D _out维的向量，该向量经过最大池化后输出一个128维的全局地点表征向量。

由于本发明使用的多模态地点表征方法，输入的点云局部自注意力特征和图像伪点云自注意力特征的维度均为256×1024，因此特征聚合模块的输入特征维度为256×2048，本发明将特征聚合模块聚类数设为K=64，输出特征D _out的维度设为128。

本发明实施例，通过图像伪点云特征生成，点云局部特征提取，位置编码，Transformer编码器和特征聚合步骤，构建了一个端到端的多模态地点表征网络，将当前地点抽象表示为一个128维的特征向量，结合第二多模态地点识别框架即可实现地点识别任务。

若是所述最小欧式距离小于所述距离阈值，则发现闭环；

如图5所示，具体的闭环检测过程如下：

机器人在真实道路环境中运动，传感器实时采集道路数据，将时间戳相近的点云和图像构成一帧数据；

每帧数据输入到多模态地点识别网络中生成全局地点表征向量，并将全局地点表征向量与输入数据中的点云和图像一起组成一帧数据；

将新生成的每帧数据均加入到历史帧数据序列，历史帧数据序列可以存储在硬盘中，需要说明的是此处的历史帧数据序列为第二历史帧数据序列，与构成数据集的第一历史帧数据序列是不相同的；

屏蔽历史帧中与当前帧时间过近的数据帧，在本实施例中，为屏蔽历史帧中与当前帧时间在200帧以内的数据帧；

通过全局地点表征向量逐一计算出剩余历史帧与当前帧的欧式距离，并找到欧式距离最小的历史帧，将该历史帧作为闭环候选帧；

判断最小欧式距离是否小于距离阈值（根据损失函数设定），如果该欧式距离小于某阈值，则认为找到闭环，即闭环候选帧与当前帧构成闭环，如果欧式距离大于该阈值，则认为未找到闭环。

通过本发明实施例，能够综合图像和点云的数据进行多模态闭环检测，提高了移动机器人对于环境变化的鲁棒性，包括光照变化、天气变化和气候变化等，能够更好的适应长时导航、高难度场景导航等实际应用场景，提高了在长时导航、高难度场景导航等实际应用场景下的闭环检测性能。

本发明实施例，综合了图像和点云两个模态的数据，使用自注意力Transformer对点云特征和图像伪点云特征进行特征提取，提高网络对于环境中标志性地点的聚焦能力；通过对多模态地点识别框架进行训练，增大了不同地点的特征空间欧式距离，减小相同地点的特征空间欧式距离，通过特征向量之间的距离进行地点匹配，极大节约了闭环搜索时间。

基于同一发明构思，根据本发明的另一个方面，如图6所示，本发明的实施例还提供了一种用于闭环检测的模型训练方法，所述模型为多模态地点识别框架，方法包括：

S100、基于第一点云和第一图像构建数据集；

S200、构建第一多模态地点表征网络，并使用孪生网络将所述第一多模态地点表征网络构建为第一多模态地点识别框架；

S300、使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值。

本发明实施例，使用图像和点云两种模态的数据，构建多模态地点表征网络和地点识别框架，将自注意力卷积神经网络引入到多模态地点表征网络中，在点云特征层级进行局部自注意力特征提取和聚合，能够应用于机器人导航系统的多模态闭环检测中，提高了机器人在复杂场景中进行闭环检测的鲁棒性。

具体的，在步骤S100中，数据集中的数据可以来自自采数据集和公共数据集。自采数据集中的数据为机器人在实际应用场景中采集的数据。以下结合具体的数据采集过程阐述本发明的构思，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

数据采集的具体过程如下：

机器人至少携带三维激光雷达、视觉相机和GPS在室外道路采集数据，行驶路径中应该大于3km且包含闭环；视觉相机、三维激光雷达和GPS按照不同频率向主机传输图像、点云和位置数据，由于频率之间存在差别，三种数据需要通过匹配时间戳的方式构建出历史帧数据序列，每帧数据包含一幅图像，一簇点云和对应时刻的位置真值。

在步骤S200中，构建第一多模态地点表征网络，构建过程包括：图像伪点云特征生成，点云的采样分组和局部特征提取，位置编码，Transformer（自注意力卷积神经网络）编码器，特征聚合。使用孪生网络将两个第一多模态地点表征网络构建为第一多模态地点识别框架。

在步骤S300中，使用数据集对第一多模态地点识别框架进行训练，得到第二多模态地点识别框架以及距离阈值，第二多模态地点识别框架为训练好的第一多模态地点识别框架，数据集中的数据是样本对的形式，输入数据为一对样本，即某两帧的图像和点云，两帧数据输入至两个分享权重的多模态融合地点识别网络生成全局地点表征向量，对全局地点表征向量进行欧式距离对比来确定两帧数据是否属于同一个地点。如果该欧式距离大于等于某个阈值，则认为当前帧与候选帧属于不同的地点，未发现闭环；如果该欧式距离小于某个阈值，则认为当前帧与候选帧属于同一个地点，发现闭环。阈值的确定与损失函数有关，训练结束之后，得到最优的阈值，即本发明实施例中的距离阈值。

本发明实施例，综合了图像和点云两个模态的数据，使用Transformer对点云特征和图像伪点云特征进行特征提取，提高网络对于环境中标志性地点的聚焦能力；通过对多模态地点识别框架进行训练的方式，增大了不同地点的特征空间欧式距离，减小相同地点的特征空间欧式距离，通过特征向量之间的距离进行地点匹配，极大节约了闭环搜索时间。

在一些实施方式中，方法还包括：

所述基于第一点云和第一图像构建数据集的步骤包括：

下面通过一具体实施例描述数据集构建过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

机器人至少携带三维激光雷达、视觉相机和GPS在室外道路采集数据，行驶路径中应该大于3km且包含闭环；视觉相机、三维激光雷达和GPS按照不同频率向主机传输图像、点云和位置数据，由于频率之间存在差别，三种数据需要通过匹配时间戳的方式构建出历史帧数据序列，每帧数据包含一幅图像，一簇点云和对应时刻的位置真值。基于历史帧数据序列构建的数据集，数据集的基本单位为样本对，包括正样本对和负样本对。在闭环路径中查询距离在20米以内的帧对作为正样本对，在全部路径中查询距离在50米以上的帧作为负样本对，按照1：1的正负样本对比例构建出数据集。将自采数据集和公共数据集划分训练集、验证集和测试集，训练集和验证集用于训练多模态融合的地点识别框架，测试集用于对多模态地点识别网络进行性能评估和距离阈值的确定。

下面通过一具体实施例描述数据集降采样过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

将数据集中的点云降采样至5000个点，将图像像素降采样为256×256。

在一些实施方式中，所述对比损失函数的表达式为：

表示两向量之间的欧式距离，margin表示距离边际。

下面通过一具体实施例描述使用对比损失函数训练第一多模态地点识别框架的过程，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

对比损失函数采用带有距离边际的交叉熵损失：

表示两向量之间的欧式距离，margin表示距离边际。当y _i=1时，输入为正样本对，/>

，对比损失为所有欧式距离之和，距离越大，则损失越大，网络权重朝着使正样本对特征距离减小的方向优化；当y _i=0时，输入为负样本对，/>

，当欧式距离大于边际值时，对比损失为0，网络不进行优化，当欧式距离小于边际值时，对比损失与欧式距离成呈负相关，欧式距离越小，损失函数反而催使网络拉大距离，欧式距离越大，网络的优化力度越小。最终尽量使正样本对之间的特征距离为0，使负样本对之间的特征距离大于margin。

本发明实施例通过使用对比损失函数对多模态地点识别框架进行训练的方式，增大了不同地点的特征空间欧式距离，减小相同地点的特征空间欧式距离，通过特征向量之间的距离进行地点匹配，极大节约了闭环搜索时间。

基于同一发明构思，根据本发明的另一个方面，如图7所示，本发明的实施例还提供了一种闭环检测系统，包括：获取模块110和多模态地点识别框架120，其中，多模态地点识别框架120包括多模态地点表征网络121、加入模块122、计算模块123、闭环判断模块124，其中，

所述获取模块110配置为获取采集的环境数据，并将所述环境数据输入到多模态地点识别框架120的多模态地点表征网络121；

所述多模态地点表征网络121配置为对所述环境数据进行计算，得到第一全局地点表征向量；

所述加入模块122配置为将所述环境数据和第一全局地点表征向量加入历史帧数据序列；

所述计算模块123配置为计算所述第一全局地点表征向量与所述历史帧数据序列中第二全局地点表征向量之间的欧式距离；

所述闭环判断模块124配置为从计算出的所有所述欧式距离中获取最小欧式距离，并基于所述最小欧式距离是否小于距离阈值判断是否发现闭环。

基于同一发明构思，根据本发明的另一个方面，如图8所示，本发明的实施例还提供了一种用于闭环检测的模型训练系统，所述模型为多模态地点识别框架，系统包括：

第一构建模块100，所述第一构建模块100配置为基于第一点云和第一图像构建数据集；

第二构建模块200，所述第二构建模块200配置为构建第一多模态地点表征网络，并使用孪生网络将所述第一多模态地点表征网络构建为第一多模态地点识别框架；

训练模块300，所述训练模块300配置为使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值。

基于同一发明构思，根据本发明的另一个方面，如图9所示，本发明的实施例还提供了一种电子设备30，在该电子设备30中包括处理器310以及存储器320，存储器320存储有可在处理器上运行的计算机程序321，处理器310执行程序时执行如上的方法的步骤。

其中，存储器作为一种非易失性存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述闭环检测方法对应的程序指令/模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行装置的各种功能应用以及数据处理，即实现上述方法实施例的闭环检测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

基于同一发明构思，根据本发明的另一个方面，如图10所示，本发明的实施例还提供了一种存储介质40，存储介质40存储有被处理器执行时执行如上方法的计算机程序410。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体（ROM）或随机存储记忆体（RAM）等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种闭环检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述环境数据包括：图像和点云。

3.根据权利要求1所述的方法，其特征在于，所述多模态地点表征网络配置用于执行以下步骤：

基于所述环境数据中的图像生成图像伪点云特征；

基于所述环境数据中的点云生成点云特征；

4.根据权利要求3所述的方法，其特征在于，所述基于所述环境数据中的图像生成图像伪点云特征的步骤，包括：

建立点云与图像之间的坐标映射；

5.根据权利要求4所述的方法，其特征在于，所述建立点云与图像之间的坐标映射的步骤，包括：

为激光雷达坐标系到相机的外参变换矩阵，/>

为相机坐标系到图像坐标系的内参矩阵。

6.根据权利要求3所述的方法，其特征在于，所述基于所述环境数据中的点云生成点云特征的步骤，包括：

7.根据权利要求3所述的方法，其特征在于，所述对所述点云特征和所述伪点云特征分别进行采样分组和局部特征提取，得到第一局部点云特征和第二局部点云特征的步骤，包括：

基于选取的采样点形成局部点集；

8.根据权利要求7所述的方法，其特征在于，所述基于选取的采样点形成局部点集的步骤后，方法还包括：

将所述局部点集中的点云作为所述局部点集的位置编码。

9.根据权利要求3所述的方法，其特征在于，所述将所述第一局部自注意力特征和所述第二局部自注意力聚合成全局地点表征向量的步骤，包括：

10.根据权利要求8所述的方法，其特征在于，所述自注意力卷积神经网络编码器包括多个自注意力模块，其中，所述自注意力模块的输出为自注意力特征，所述自注意力模块的输入为所述位置编码与所述第一局部点云特征或所述第二局部点云特征或所述自注意力特征的加和，所述自注意力卷积神经网络编码器配置为将各个所述自注意力模块的输出的所述自注意力特征进行拼接，得到所述第一局部自注意力特征或所述第二局部自注意力特征。

11.根据权利要求10所述的方法，其特征在于，所述自注意力模块配置为执行以下步骤：

对输入特征进行卷积得到查询矩阵、键值矩阵和权值矩阵；

将所述注意力权值与所述权值矩阵相乘，得到加权特征；

12.根据权利要求1所述的方法，其特征在于，所述基于所述最小欧式距离是否小于距离阈值判断是否发现闭环的步骤包括：

若是所述最小欧式距离小于所述距离阈值，则发现闭环；

13.一种用于闭环检测的模型训练方法，其特征在于，所述模型为多模态地点识别框架，方法包括：

基于第一点云和第一图像构建数据集；

14.根据权利要求13所述的方法，其特征在于，还包括：

所述基于第一点云和第一图像构建数据集的步骤包括：

15.根据权利要求14所述的方法，其特征在于，所述基于所述历史帧数据序列构建包含正样本对和负样本对的所述数据集的步骤，包括：

16.根据权利要求13所述的方法，其特征在于，所述基于第一点云和第一图像构建数据集的步骤之后，还包括：

17.根据权利要求14所述的方法，其特征在于，所述数据集包括训练集、验证集以及测试集，所述使用所述数据集对所述第一多模态地点识别框架进行训练，得到距离阈值的步骤包括：

18.根据权利要求17所述的方法，其特征在于，所述基于所述训练集和所述验证集对所述第一多模态地点识别框架进行训练的步骤包括：

19.根据权利要求18所述的方法，其特征在于，所述对比损失函数的表达式为：

表示两向量之间的欧式距离，margin表示距离边际。

20.一种闭环检测系统，其特征在于，包括：获取模块和多模态地点识别框架，其中，多模态地点识别框架包括多模态地点表征网络、加入模块、计算模块、闭环判断模块，其中，

21.一种用于闭环检测的模型训练系统，其特征在于，所述模型为多模态地点识别框架，系统包括：

22.一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1至19任意一项所述的方法的步骤。

23.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1至19任意一项所述的方法的步骤。