CN112258580A

CN112258580A - 基于深度学习的视觉slam回环检测方法

Info

Publication number: CN112258580A
Application number: CN202011204238.8A
Authority: CN
Inventors: 李文举; 马倩文; 田文超
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-22
Anticipated expiration: 2040-11-02
Also published as: CN112258580B

Abstract

本发明提供了一种基于深度学习的视觉SLAM回环检测方法，包括：训练数据集以三元组形式输入预先训练的VGG16深度网络，优化网络模型，获得图像特征描述符；将相机采集的当前图像输入优化后的网络模型，对输出的特征向量做归一化和降维；计算当前图像与历史图像的相似度，从历史图像中选择最接近的前K个帧作为回环候选帧；确定所述当前图像与回环候选帧是否满足几何一致性，满足几何一致性的图像作为真正的回环；当前图像加入历史图像中，获取新的图像，进行下一轮回环检测过程。本发明能够提高机器人回环检测存在视角和外观变化时的鲁棒性，降低误匹配率。

Description

基于深度学习的视觉SLAM回环检测方法

技术领域

本发明涉及一种基于深度学习的视觉SLAM回环检测方法。

背景技术

视觉同时定位与建图技术(Simultaneous Localization and Mapping，SLAM)是视觉导航的关键技术之一，广泛应用于机器人、自动驾驶等领域。闭环检测是完整SLAM系统的关键组成部分之一，它需要机器人识别以前访问过的地方，该过程可以减少随时间推移而累积的位置误差，能够提供精确的姿态估计并改善系统性能。

目前，主流的视觉SLAM系统的回环检测方法大多采用的是词袋模型(Bag ofWords，简称BoWs)，该方法依靠人工设计的特征来构建单词表。在实际运行环境中，这种人工设计的特征极易受到光照、季节和视点等变化的干扰，使得检测真正的回环变得困难。

近年来，随着深度学习方法在目标识别、图像检索等领域取得的巨大成功，研究者开始尝试使用卷积神经网络(CNN)解决回环检测问题。有研究表明从预训练的CNN模型中提取的图像特征较人工设计的特征有更好的表现。但是以图像分类为目标训练的卷积核更倾向于抓取那些有可能成为图像分类目标的对象，而忽略了建筑物等不是分类目标的事物，这对于闭环检测是不利的。另一方面，如果直接利用全连接层的特征会忽略空间信息，而且全连接层的权重矩阵是固定的，导致在回环检测中并不能同时应对外观和视角的变化。此外，从CNN中提取的高维度特征向量增加了计算复杂度，这对于需要实时运行的回环检测是一个挑战。

发明内容

本发明的目的在于提供一种基于深度学习的视觉SLAM回环检测方法。

为解决上述问题，本发明提供一种基于深度学习的视觉SLAM回环检测方法，包括：

步骤1，训练数据集以三元组形式输入预先训练的VGG16深度网络，优化网络模型，以获得包括图像特征描述符的优化后的网络模型；

步骤2，将相机采集的当前图像输入优化后的网络模型，以获取输出的特征向量，对输出的特征向量做归一化和降维，以得到当前图像的特征向量；

步骤3，基于当前图像的特征向量，计算当前图像与历史图像的相似度，基于所述相似度，从历史图像中选择最接近的前K个帧，作为回环候选帧；

步骤4，采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性，将满足几何一致性的当前图像作为真正的回环；

步骤5，将真正的回环加入历史图像中，获取新的当前图像，进行下一轮回环检测过程。

进一步的，在上述方法中，所述步骤1中，

所述训练数据集是带有GPS信息的Oxford Robotcar和Google Street View数据集；

所述三元组形式包括：查询图像I_q、匹配图像I⁺和不匹配图像I^-；

所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型。

进一步的，在上述方法中，所述步骤1中，优化网络模型，以获得包括图像特征描述符的优化后的网络模型，包括：

步骤1-1，获取预先训练的VGG16深度网络最后一个卷积层的特征图，所述特征图的维度是W×H×D，看作是D个大小为W×H的特征矩阵；特征图S＝{S_d}(d＝1,2,...,D)，S_d定义为第d个特征图，S_d(x,y)是第d个特征图上位置为(x，y)的特征值；

步骤1-2，对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度的区域，池化窗口的大小与特征图的大小成比例；每个区域在所有通道(channel)上进行sum-pooling聚合，形成该区域的聚合特征向量；

步骤1-3，通过网络的学习，为区域的特征分配不同的权重ω，并用加权求和的方式形成最终的包括图像特征描述符的优化后的网络模型。

进一步的，在上述方法中，在所述步骤1-2中，

所述金字塔池化操作包括：在特征图上划分若干个大小不同的区域R，定义3个尺度(n＝1,2,3)，则均匀划分的正方形区域个数是n×(n+n′-1)，其中，n′是尺度n＝1时可定义的区域个数，每个区域的长和宽都为2×min(W,H)/(n+1)。

进一步的，在上述方法中，在所述步骤1-3中，所述网络模型的三元组损失(Triplet loss)函数的计算方法如下：

其中，||·||定义为两张图像的特征的欧式距离，k表示k个不匹配图像，m是预定义的参数，通过最小化三元组损失(Triplet loss)函数，确保匹配对(I_q,I⁺)之间的特征距离小于非匹配对(I_q,I^-)；

所述加权求和表示为：F＝{f₁,...,f_d,...,f_D}，其中

进一步的，在上述方法中，在所述步骤2中，对输出的特征向量做归一化和降维，包括：

首先对输出的特征向量进行L₂归一化，即

再对归一化后的特征向量做PCA降维和L₂归一化。

进一步的，在上述方法中，在所述步骤3中，从历史图像中寻找与当前图像最接近的前K个帧，包括：

步骤3-1，采用余弦距离度量历史图像和当前图像的特征向量之间的相似性，定义历史图像A和当前图像B的特征向量分别为C^A和C^B，则历史图像A和当前图像B的相似度计算为

其中，

分别表示C^A和C^B的各分量，N为特征的个数；

步骤3-2，基于所述相似度，在当前图像与历史图像中执行最近邻搜索，筛选出与当前图像最接近的前K个帧。

进一步的，在上述方法中，在所述步骤4中，采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性，包括：

步骤4-1，从深度网络卷积层的最大激活区域提取关键点，每个特征图的H/N_w×W/N_w窗口上的最大激活区域作为关键点，其中，不同的N_w值产生的关键点数量不同；

步骤4-2，在一个3×3的窗口中，获得关键点周围每个特征向量相对于关键点特征向量的残差，连接各个残差，获得一个256维的关键点描述符；

步骤4-3，匹配关键点描述符，如果回环候选帧中有足够的有效匹配来估计RANSAC算法的基本矩阵，则认为已检测到回环，否则回环候选帧将被丢弃，具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为真正的回环。

与现有技术相比，本发明的有益效果在于：

1、本发明针对特定的回环检测任务，引入三元组训练的方式优化网络模型，让网络学习到更有利于回环检测的特征表示，解决人工设计的特征在复杂多变的环境下无法检测到回环的问题，提高了回环检测的准确率。

2、本发明通过对卷积特征图应用金字塔池化和显著性区域加权聚合，增强了聚合特征的可区分性，提高特征对视角和外观变化的鲁棒性。此外，高维特征向量通过有效的降维，降低了相似性度量的计算量，从而提高回环检测的效率。

附图说明

图1为本发明一实施例的基于深度学习的视觉SLAM回环检测方法的流程图；

图2为本发明一实施例的基于预先训练的VGG16网络的优化结构示意图；

图3为本发明一实施例的在特征图上采用多尺度区域划分的示例图；

图4为本发明一实施例的三元组损失训练过程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于深度学习的视觉SLAM回环检测方法，包括：

在此，本发明基于深度学习的视觉SLAM回环检测方法，以实现准确识别机器人访问过的地方，从而减小系统累计误差。针对特定的回环检测任务，引入三元组训练的方式优化网络模型，提高回环检测的准确率。通过对卷积特征图应用金字塔池化和显著性区域加权聚合，提高特征对视角和外观变化的鲁棒性，降低相似性度量的计算量。

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，所述步骤1中，

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，所述步骤1中，优化网络模型，以获得包括图像特征描述符的优化后的网络模型，包括：

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，在所述步骤1-2中，

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，在所述步骤1-3中，所述网络模型的三元组损失(Triplet loss)函数的计算方法如下：

所述加权求和表示为：F＝{f₁,...,f_d,...,f_D}，其中

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，在所述步骤2中，对输出的特征向量做归一化和降维，包括：

首先对输出的特征向量进行L₂归一化，即

再对归一化后的特征向量做PCA降维和L₂归一化。

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，在所述步骤3中，从历史图像中寻找与当前图像最接近的前K个帧，包括：

其中，

分别表示C^A和C^B的各分量，N为特征的个数；

本发明一实施例的基于深度学习的视觉SLAM回环检测方法中，在所述步骤4中，采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性，包括：

本发明所述回环检测方法的具体流程如图1所示，一种基于深度学习的视觉SLAM回环检测方法，包括以下步骤：

步骤1，训练数据集以三元组形式输入预先训练的VGG16深度网络，优化网络模型，获得图像特征描述符。所述训练数据集是带有GPS信息的Oxford Robotcar和GoogleStreet View数据集；Oxford Robotcar数据集由同一环境不同时间的多个遍历组成。选择在冬季夜间捕获的2518个图像和在夏季白天捕获的2847个图像作为查询数据集，选择在冬季白天捕获的2952个图像作为数据库；Google Street View数据是从车辆中拍摄的街景图像，它们在照明，视角和遮挡方面与查询图像有较大的差异。所述三元组形式包括一张查询图像I_q，两张匹配图像I⁺和一张不匹配图像I^-；匹配图像是与查询图像在地理位置上接近的图像，不匹配图像是与查询图像在地理位置上相距很远的图像。选取和查询图像距离相近的作为匹配样本，从距离I_q位置至少225m的图像中选择不匹配样本。所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型，本发明将预先训练的VGG16深度网络作为基础网络，也可以使用其他预训练的AlexNet或者ResNet50作为基础网络。

如图2所示，在所述步骤1中优化网络模型，获得图像特征描述符的具体步骤如下：

步骤1-1，获取预先训练的VGG16深度网络最后一个卷积层的特征图；所述特征图的维度是W×H×D，可以看作是D个大小为W×H的特征矩阵；特征图S＝{S_d}(d＝1,2,...,D)，S_d定义为第d个特征图，S_d(x,y)是第d个特征图上位置为(x，y)的特征值；

步骤1-2，对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度区域，池化窗口的大小与特征图的大小成比例。每个区域在所有通道(channel)上进行sum-pooling聚合，形成该区域的聚合特征向量f_R＝{f_R,1,...,f_R,d,...,f_R,D}^T，其中f_R,d＝sum_p∈ _RS_d(p)为第d个特征图R区域上的和；

具体的，如图3所示，在特征图上划分若干个大小不同的区域R，定义3个尺度(n＝1,2,3)，则可均匀划分的正方形区域个数是n×(n+n′-1)，n′是在尺度n＝1时可定义的区域个数，每个区域的长和宽都为2×min(W,H)/(n+1)。

步骤1-3，通过网络的学习，为区域特征分配不同的权重ω，并用加权求和的方式形成最终的图像特征描述符。

具体的，如图4所示，在所述步骤1-3中，所述网络模型的损失函数计算方法如下：

其中，||·||定义为两张图像特征的欧式距离，k表示k个不匹配图像，m是需要预定义的参数，同时也是衡量相似度的重要指标。f(·)为图像的特征表示。通过最小化上式三元组损失(Triplet loss)函数，确保匹配对(I_q,I⁺)之间的特征距离小于非匹配对(I_q,I^-)，即

达到可以区分相似性图片的目的；所述加权求和表示为：F＝{f₁,...,f_d,...,f_D}，其中

这里的权重ω(x,y)由网络在训练过程中学习得到，来增强聚合特征的可区分性和表达能力。

更进一步，在所述步骤2中，所述对输出的特征向量做归一化和降维的具体步骤包括：首先对输出的图像特征向量进行L₂归一化处理，即

再对归一化后的特征向量做PCA降维和L₂归一化。

更进一步，在所述步骤3中，从历史图像中寻找与当前图像最接近的前K个帧的具体步骤如下：

步骤3-1，采用余弦距离度量两张图像特征向量的相似性，尽管欧式距离是训练时用的距离度量，但相关实验表明，使用欧式距离度量训练卷积核是有益的，使用余弦距离进行相似性度量是有利的；

步骤3-2，在所述当前图像与历史图像中执行最近邻搜索，筛选出与当前图像相似度最接近的前K个帧。

更进一步，在所述步骤4中，验证几何一致性的具体步骤如下：

步骤4-1，从深度网络卷积层的最大激活区域提取关键点，每个特征图的H/N_w×W/N_w窗口上的最大激活区域作为关键点，不同的N_w值产生的关键点数量不同；

步骤4-2，在一个3×3的窗口中，获得关键点周围每个特征向量相对于关键点特征向量的残差，连接这些残差，获得一个256维的关键点描述符；

步骤4-3，匹配关键点描述符，如果回环候选帧有足够的有效匹配来估计RANSAC算法的基本矩阵，则认为已检测到回环，否则候选帧被丢弃。具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为最终的回环。在实际应用中，通过确保多个顺序匹配有效，可以进一步增强此方法。

更进一步，步骤5，当前图像加入历史图像中。获取新的图像，进行下一轮回环检测过程。

本发明为验证回环检测的有效性，测试部分采用Nordland和Campus Loop数据集。Nordland数据集包含是来自不同季节，行驶的火车在相同位置收集的，具有极端的天气变化。Campus Loop数据集由两个序列组成，每个序列包含100张图像，这些序列是校园环境中室内和室外图像的混合，每个图像匹配对都包含不同的视角、外观变化以及动态对象。

与现有技术相比，本发明的有益效果在于：

本发明公开了一种基于深度学习的视觉SLAM回环检测方法。该方法包括：训练数据集以三元组形式输入预先训练的VGG16深度网络，优化网络模型，获得图像特征描述符；将相机采集的当前图像输入优化后的网络模型，对输出的特征向量做归一化和降维；计算当前图像与历史图像的相似度，从历史图像中选择最接近的前K个帧作为回环候选帧；确定所述当前图像与回环候选帧是否满足几何一致性，满足几何一致性的图像作为真正的回环；当前图像加入历史图像中，获取新的图像，进行下一轮回环检测过程。本发明能够提高机器人回环检测存在视角和外观变化时的鲁棒性，降低误匹配率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。