CN112699954A

CN112699954A - 一种基于深度学习和词袋模型的闭环检测方法

Info

Publication number: CN112699954A
Application number: CN202110024649.7A
Authority: CN
Inventors: 阮晓钢; 余鹏程; 朱晓庆
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-23
Anticipated expiration: 2041-01-08
Also published as: CN112699954B

Abstract

本发明公开了一种基于深度学习和词袋模型的闭环检测方法，将VGG16网络提取的多个含有语义信息的特征图作为多个语义描述子代替ORB描述子传给词袋模型，使提取的特征更适用于闭环检测；构建词袋模型的单词表，用K‑means对前面提取的语义特征描述子进行聚类运算，获得聚类的中心从而当做词袋模型的单词表；提取该算法下的特征向量，利用VGG网络，从每幅图像中提取很多个语义描述子，这些语义描述子都用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数；最后利用特征向量计算相似度矩阵。本发明在数据集上实验表明,相较于传统的视觉词袋模型方法,该算法具有更强的泛化性,可以在闭环检测中达到更高的准确率。

Description

一种基于深度学习和词袋模型的闭环检测方法

技术领域

本发明公开了一种基于深度学习和词袋模型的闭环检测方法，属于模式识别与人工智能和计算机视觉领域。

背景技术

近年来，闭环检测已经成为了移动机器人导航领域的关键问题和研究热点。同时定位与地图构建(Simultaneous localization and mapping,SLAM)是机器人实现自主移动的关键基础之一,包括特征提取与匹配、数据配准、闭环检测和全局优化等步骤。其中闭环检测可以判断当前位置是否已被移动机器人访问过,是SLAM过程的关键环节。准确地检测出闭环可以有效减少机器人位姿估计的累积误差,有利于构建更加精确的地图,保证生成地图的一致性。

一些现有方法基于传统特征(如ORB)的视觉词袋模型(Bag of words,BoW)方法,词袋模型的关键在于如何选择最优的局部特征，目前多采用传统SIFT、SURF和ORB等特征作为图像的表达。而全局描述子算法的主要思想是直接计算整张图像的描述子，从而表达图像的整体属性。GIST是一种非常有效的常规图像描述子，它能够以紧凑的方式去捕捉不同类型场景的基本结构。在此基础上，然而，这些方法所使用的都是低层特征，是人为设计的。随着大规模数据集的公开(如ImageNet)以及各种硬件的升级(如GPU)，深度学习得到了迅速发展。深度学习能够通过多层神经网络对输入的图像提取抽象的高层特征，从而更好地应对环境的变化，这种优势使其在图像分类和图像检索中得到了广泛应用。

发明内容

本发明的目的在于克服现有技术的上述不足，采用深度学习和词袋模型的闭环检测方法。其中与以前的工作不同的关键部分：与传统的ORB描述子相比，本发明使用在Image-net上预训练的VGG16网络来来提取特征图，将这些带有语义信息的特征图作为语义描述子取代ORB描述子，再结合词袋模型用以检测闭环。在提取的语义描述子的基础上进行K-Means均值聚类得到词袋模型的单词表，最后通过利用单词表的中词汇表示图像以进行图片之间相似度的计算。本发明可以提高识别准确率。

为了实现上述目的，本发明采用以下技术方案：

(1)语义特征描述子的提取，基于预训练的VGG16卷积神经网来提取特征，将conv5_3后的512个含有语义信息的特征图当作512个语义特征描述子。该CNN模型是一个多层神经网络,主要由3层类型组成:5个卷积层,5个最大池化层和3个完全连接层最大池化层为相关特征提供平移不变性并同时减小其尺寸。事实上,它也是通过合并底层本地信息来构建抽象表示的过程。而对于完全连接层,前一层中的所有神经元都完全连接到当前层的每个单个神经元。借助深层架构,CNN能够在各种抽象层次上学习高级语义特征。当输入一幅RGB图像到该模型后,可以提取到每层特征可视化图。此外,与浅层次的卷积和池化层相比,pool5这样的更深层次的池层对于视觉环路闭合检测效果特别突出,因为它仍然保留输入图像的大部分空间信息并且导出输入图像的更丰富的语义表示；

(2)构建词袋模型的单词表，利用K-Means算法构造单词表。用K-means对第二步中提取的语义特征描述子，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有K个(在BOW模型中聚类中心我们称它们为视觉词)，码本的长度也就为k，计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离，并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。

(3)提取该算法下的特征向量，利用单词表的中词汇表示图像。利用VGG网络，可以从每幅图像中提取很多个语义描述子，这些语义描述子都可以用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，可以将图像表示成为一个K＝800维数值向量，用如下表示：

归一化为：

将这些特征映射到为码本矢量，码本矢量归一化，最后计算其与训练码本的距离，对应最近距离的训练图像认为与测试图像匹配；

(4)构建时间约束，通常在检测当前图像所代表的地理位置曾经是否到达过时，需要将当前图像与数据库中的所有历史图像进行相似度比较。然而数据库中保存的图像是由相机在连续时间内拍摄的，相机的运动速度很慢且拍摄的时间间隔较短，因此相邻时刻图像间的内外观信息重复性很高。如果将当前图像与相邻时间间隔较短的图像进行闭环检测，则计算出的相似度得分很高，会认为两幅图像为同一位置，但此时相机实际的运动轨迹并未形成闭环，所以算法产生了错误的判断。闭环检测为了消除视觉里程计由于相机长时间运动产生的位姿累计误差，应该提供的是相隔时间较远的闭环信息。为了避免产生大量错误结果影响闭环检测的准确率，需考虑两幅图像拍摄的时间间隔，设置图像相似度对比的时间阈值。对于当前图像，不考虑与其拍摄的间隔时间小于阈值的图像进行比较，但是由于获取每个图像的具体拍摄时间较为困难，所以采取了将时间间隔转换成图像数量的方式；

(5)利用特征向量计算相似度矩阵，视觉SLAM闭合检测问题的关键部分是估计帧(图像)之间的相似性。为此，我们计算不同帧的特征向量之间的余弦距离，并定义成对帧的相似性得分。我们将最终的特征向量表示，用向量的余弦距离来测量图像之间的相似度。为了测量目的，使用归一化距离来获得得分值位于[0，1]中。如果相似性分数大于特定阈值，我们将其视为检测到闭环。通过收集矩阵中成对图像的相似度得分，矩阵中第i行第j列的值代表图像i与图像j的相似性得分。图5显示了可视化相似度矩阵的示例，较大的值(图中的亮部分)表示相应的图像更相似，并且更有可能被视为循环。相似性计算公式如下：

提出了一种基于语义描述子的视觉SLAM系统闭环检测方法。与大多数现有方法使用的传统手工制作功能相比，CNN功能在学习图像的内部结构时对图像表示更为强大。详细介绍了基于语义描述子的闭环检测方法的工作流程。通过与基于特征点的词袋模型方法比较，我们的方法在更高的准确率上优于基于特征点的词袋模型。这表明基于语义描述子对于闭环检测是可行的。

附图说明

图1为算法整体的结构框架图

图2为VGG网络结构示意图

图3为词袋的构建图

图4为计算特征向量图

图5为计算相似度矩阵图

图6为相似度矩阵图

具体实施方式

下面对本发明的实施例作详细说明，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如附图1所示，基于深度学习和词袋模型的闭环检测方法包括以下步骤：

步骤1、先构建词袋模型的单词表。利用图2所示的VGG网络提取特征图，再将特征图改为一维的向量，最后在其上运行K-Means得到聚类的中心，以这中心作为我们的单词表，如图2所示。

(1)基于预训练的VGG16卷积神经网来提取特征，将conv5_3后的512个含有语义信息的特征图当作512个语义特征描述子。该CNN模型是一个多层神经网络,主要由3层类型组成:5个卷积层,5个最大池化层和3个完全连接层最大池化层为相关特征提供平移不变性并同时减小其尺寸。事实上,它也是通过合并底层本地信息来构建抽象表示的过程。而对于完全连接层,前一层中的所有神经元都完全连接到当前层的每个单个神经元。借助深层架构,CNN能够在各种抽象层次上学习高级语义特征。当输入一幅RGB图像到该模型后,可以提取到每层特征可视化图。此外,与浅层次的卷积和池化层相比,pool5这样的更深层次的池层对于视觉环路闭合检测效果特别突出,因为它仍然保留输入图像的大部分空间信息并且导出输入图像的更丰富的语义表示；

(2)利用K-Means算法构造单词表。用K-means对第二步中提取的语义特征描述子，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有K个(在BOW模型中聚类中心我们称它们为视觉词)，码本的长度也就为k，计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离，并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。

步骤2首先我们将图片输入到VGG网络中得到特征图，也就是带有语义信息的特征图，当做语义描述子，再结合之前得到的单词表统计每个单词出现的频率，这种统计结果作为该图片的特征向量如图4，从而可以计算向量与向量之间的距离来计算图片之间的相似程度如图5。

(1)提取该算法下的特征向量，利用单词表的中词汇表示图像。利用VGG网络，可以从每幅图像中提取很多个语义描述子，这些语义描述子都可以用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，可以将图像表示成为一个K＝800维数值向量，用如下表示：

归一化为：

(2)为了避免产生大量错误结果影响闭环检测的准确率，需考虑两幅图像拍摄的时间间隔，设置图像相似度对比的时间阈值。对于当前图像，不考虑与其拍摄的间隔时间小于阈值的图像进行比较，但是由于获取每个图像的具体拍摄时间较为困难，所以采取了将时间间隔转换成图像数量的方式；

(3)视觉SLAM闭合检测问题的关键部分是估计帧(图像)之间的相似性。为此，我们计算不同帧的特征向量之间的余弦距离，并定义成对帧的相似性得分。我们将最终的特征向量表示，用向量的余弦距离来测量图像之间的相似度。为了测量目的，使用归一化距离来获得得分值位于[0，1]中。如果相似性分数大于特定阈值，我们将其视为检测到闭环。通过收集矩阵中成对图像的相似度得分，矩阵中第i行第j列的值代表图像i与图像j的相似性得分。图5显示了可视化相似度矩阵的示例，较大的值(图中的亮部分)表示相应的图像更相似，并且更有可能被视为循环。相似性计算公式如下：

以上所述仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改，等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和词袋模型的闭环检测方法，其特征在于包括以下步骤：

步骤1，语义特征描述子的提取；基于预训练的VGG16卷积神经网来提取特征，将conv5_3后的512个含有语义信息的特征图当做512个语义特征描述子；CNN模型由3层类型组成：5个卷积层、5个最大池化层和3个完全连接的层最大池化层为相关特征提供平移不变性并同时减小其尺寸；

步骤2，构建词袋模型的单词表，利用K-Means算法构造单词表；聚类中心有K个，码本的长度也就为k，计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离，并将其映射到距离最近的视觉词中即将该视觉词的对应词频+1；完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量；

步骤3，提取该算法下的特征向量，利用单词表的中词汇表示图像；利用VGG网络，从每幅图像中提取很多个语义特征描述子，这些语义特征描述子用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，将图像表示成为一个d＝800维数值向量，用如下表示：

上述公式中等式右边是有d个维度实数的向量

这个向量是用来表示图像的，类似人脸识别，将人脸抽象成一个特征下向量，用以下一步量化误差；

归一化为：

上述公式右边

进行单位化操作，将每一个元素除以自身的二范数

对特征向量进行单位化，为后面的相似性计算做预处理；

将这些特征映射到为码本矢量、码本矢量归一化，最后计算其与训练码本的距离，对应最近距离的训练图像认为与测试图像匹配；

步骤4，构建时间约束；在检测当前图像所代表的地理位置曾经是否到达过时，需要将当前图像与数据库中的所有历史图像进行相似度比较，采取将时间间隔转换成图像数量的方式减少闭环检测误判断；

步骤5，利用特征向量计算相似度矩阵，视觉SLAM闭合检测问题的关键部分是估计帧图像之间的相似性；将最终特征向量表示，用向量的余弦距离来测量图像之间的相似度；为测量使用归一化距离来获得得分值位于[0，1]中；通过收集相似度矩阵中成对图像的相似度得分，相似度矩阵中第i行第j列的值代表图像i与图像j的相似性得分；差异性计算公式如下：

上面的D(i,j)表示第i张图片与j张图片的差异，这个值越大，表明这俩个图片对应的俩个场景的差异越大；

表示第i张图片的特征向量，

表示第j张图片的特征向量，除以自己的二范数是前面提到的单位化，单位化的俩个向量相减求模

得到的标量表示俩张图片的差异，D(i,j)这个值越大差异性越大；

因为相似性指的是俩张图片的越相似其值越大，与差异性成反比，所有相似性公式如下：

步骤6，判断是否闭环；如果相似性分数大于特定阈值，将其视为检测到闭环；如果相似性分数低于特定的阈值时则认为还没有闭环，物理意义就是还没有达到之前来过的地方。

2.根据权利要求1所述的一种基于深度学习和词袋模型的闭环检测方法，其特征在于：基于预训练的VGG16卷积神经网来提取语义特征描述子的提取的方法。

3.根据权利要求1所述的一种基于头肩模型的特定人体识别方法，其特征在于：基于语义描述子所构建的词袋模型的单词表。