CN112258580A - 基于深度学习的视觉slam回环检测方法 - Google Patents

基于深度学习的视觉slam回环检测方法 Download PDF

Info

Publication number
CN112258580A
CN112258580A CN202011204238.8A CN202011204238A CN112258580A CN 112258580 A CN112258580 A CN 112258580A CN 202011204238 A CN202011204238 A CN 202011204238A CN 112258580 A CN112258580 A CN 112258580A
Authority
CN
China
Prior art keywords
image
current image
loop
feature
loop detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011204238.8A
Other languages
English (en)
Other versions
CN112258580B (zh
Inventor
李文举
马倩文
田文超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202011204238.8A priority Critical patent/CN112258580B/zh
Publication of CN112258580A publication Critical patent/CN112258580A/zh
Application granted granted Critical
Publication of CN112258580B publication Critical patent/CN112258580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的视觉SLAM回环检测方法,包括:训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,获得图像特征描述符;将相机采集的当前图像输入优化后的网络模型,对输出的特征向量做归一化和降维;计算当前图像与历史图像的相似度,从历史图像中选择最接近的前K个帧作为回环候选帧;确定所述当前图像与回环候选帧是否满足几何一致性,满足几何一致性的图像作为真正的回环;当前图像加入历史图像中,获取新的图像,进行下一轮回环检测过程。本发明能够提高机器人回环检测存在视角和外观变化时的鲁棒性,降低误匹配率。

Description

基于深度学习的视觉SLAM回环检测方法
技术领域
本发明涉及一种基于深度学习的视觉SLAM回环检测方法。
背景技术
视觉同时定位与建图技术(Simultaneous Localization and Mapping,SLAM)是视觉导航的关键技术之一,广泛应用于机器人、自动驾驶等领域。闭环检测是完整SLAM系统的关键组成部分之一,它需要机器人识别以前访问过的地方,该过程可以减少随时间推移而累积的位置误差,能够提供精确的姿态估计并改善系统性能。
目前,主流的视觉SLAM系统的回环检测方法大多采用的是词袋模型(Bag ofWords,简称BoWs),该方法依靠人工设计的特征来构建单词表。在实际运行环境中,这种人工设计的特征极易受到光照、季节和视点等变化的干扰,使得检测真正的回环变得困难。
近年来,随着深度学习方法在目标识别、图像检索等领域取得的巨大成功,研究者开始尝试使用卷积神经网络(CNN)解决回环检测问题。有研究表明从预训练的CNN模型中提取的图像特征较人工设计的特征有更好的表现。但是以图像分类为目标训练的卷积核更倾向于抓取那些有可能成为图像分类目标的对象,而忽略了建筑物等不是分类目标的事物,这对于闭环检测是不利的。另一方面,如果直接利用全连接层的特征会忽略空间信息,而且全连接层的权重矩阵是固定的,导致在回环检测中并不能同时应对外观和视角的变化。此外,从CNN中提取的高维度特征向量增加了计算复杂度,这对于需要实时运行的回环检测是一个挑战。
发明内容
本发明的目的在于提供一种基于深度学习的视觉SLAM回环检测方法。
为解决上述问题,本发明提供一种基于深度学习的视觉SLAM回环检测方法,包括:
步骤1,训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,以获得包括图像特征描述符的优化后的网络模型;
步骤2,将相机采集的当前图像输入优化后的网络模型,以获取输出的特征向量,对输出的特征向量做归一化和降维,以得到当前图像的特征向量;
步骤3,基于当前图像的特征向量,计算当前图像与历史图像的相似度,基于所述相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤4,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,将满足几何一致性的当前图像作为真正的回环;
步骤5,将真正的回环加入历史图像中,获取新的当前图像,进行下一轮回环检测过程。
进一步的,在上述方法中,所述步骤1中,
所述训练数据集是带有GPS信息的Oxford Robotcar和Google Street View数据集;
所述三元组形式包括:查询图像Iq、匹配图像I+和不匹配图像I-
所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型。
进一步的,在上述方法中,所述步骤1中,优化网络模型,以获得包括图像特征描述符的优化后的网络模型,包括:
步骤1-1,获取预先训练的VGG16深度网络最后一个卷积层的特征图,所述特征图的维度是W×H×D,看作是D个大小为W×H的特征矩阵;特征图S={Sd}(d=1,2,...,D),Sd定义为第d个特征图,Sd(x,y)是第d个特征图上位置为(x,y)的特征值;
步骤1-2,对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度的区域,池化窗口的大小与特征图的大小成比例;每个区域在所有通道(channel)上进行sum-pooling聚合,形成该区域的聚合特征向量;
步骤1-3,通过网络的学习,为区域的特征分配不同的权重ω,并用加权求和的方式形成最终的包括图像特征描述符的优化后的网络模型。
进一步的,在上述方法中,在所述步骤1-2中,
所述金字塔池化操作包括:在特征图上划分若干个大小不同的区域R,定义3个尺度(n=1,2,3),则均匀划分的正方形区域个数是n×(n+n′-1),其中,n′是尺度n=1时可定义的区域个数,每个区域的长和宽都为2×min(W,H)/(n+1)。
进一步的,在上述方法中,在所述步骤1-3中,所述网络模型的三元组损失(Triplet loss)函数的计算方法如下:
Figure BDA0002756520860000031
其中,||·||定义为两张图像的特征的欧式距离,k表示k个不匹配图像,m是预定义的参数,通过最小化三元组损失(Triplet loss)函数,确保匹配对(Iq,I+)之间的特征距离小于非匹配对(Iq,I-);
所述加权求和表示为:F={f1,...,fd,...,fD},其中
Figure BDA0002756520860000032
进一步的,在上述方法中,在所述步骤2中,对输出的特征向量做归一化和降维,包括:
首先对输出的特征向量进行L2归一化,即
Figure BDA0002756520860000033
再对归一化后的特征向量做PCA降维和L2归一化。
进一步的,在上述方法中,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧,包括:
步骤3-1,采用余弦距离度量历史图像和当前图像的特征向量之间的相似性,定义历史图像A和当前图像B的特征向量分别为CA和CB,则历史图像A和当前图像B的相似度计算为
Figure BDA0002756520860000041
其中,
Figure BDA0002756520860000042
分别表示CA和CB的各分量,N为特征的个数;
步骤3-2,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
进一步的,在上述方法中,在所述步骤4中,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,包括:
步骤4-1,从深度网络卷积层的最大激活区域提取关键点,每个特征图的H/Nw×W/Nw窗口上的最大激活区域作为关键点,其中,不同的Nw值产生的关键点数量不同;
步骤4-2,在一个3×3的窗口中,获得关键点周围每个特征向量相对于关键点特征向量的残差,连接各个残差,获得一个256维的关键点描述符;
步骤4-3,匹配关键点描述符,如果回环候选帧中有足够的有效匹配来估计RANSAC算法的基本矩阵,则认为已检测到回环,否则回环候选帧将被丢弃,具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为真正的回环。
与现有技术相比,本发明的有益效果在于:
1、本发明针对特定的回环检测任务,引入三元组训练的方式优化网络模型,让网络学习到更有利于回环检测的特征表示,解决人工设计的特征在复杂多变的环境下无法检测到回环的问题,提高了回环检测的准确率。
2、本发明通过对卷积特征图应用金字塔池化和显著性区域加权聚合,增强了聚合特征的可区分性,提高特征对视角和外观变化的鲁棒性。此外,高维特征向量通过有效的降维,降低了相似性度量的计算量,从而提高回环检测的效率。
附图说明
图1为本发明一实施例的基于深度学习的视觉SLAM回环检测方法的流程图;
图2为本发明一实施例的基于预先训练的VGG16网络的优化结构示意图;
图3为本发明一实施例的在特征图上采用多尺度区域划分的示例图;
图4为本发明一实施例的三元组损失训练过程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于深度学习的视觉SLAM回环检测方法,包括:
步骤1,训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,以获得包括图像特征描述符的优化后的网络模型;
步骤2,将相机采集的当前图像输入优化后的网络模型,以获取输出的特征向量,对输出的特征向量做归一化和降维,以得到当前图像的特征向量;
步骤3,基于当前图像的特征向量,计算当前图像与历史图像的相似度,基于所述相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤4,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,将满足几何一致性的当前图像作为真正的回环;
步骤5,将真正的回环加入历史图像中,获取新的当前图像,进行下一轮回环检测过程。
在此,本发明基于深度学习的视觉SLAM回环检测方法,以实现准确识别机器人访问过的地方,从而减小系统累计误差。针对特定的回环检测任务,引入三元组训练的方式优化网络模型,提高回环检测的准确率。通过对卷积特征图应用金字塔池化和显著性区域加权聚合,提高特征对视角和外观变化的鲁棒性,降低相似性度量的计算量。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,所述步骤1中,
所述训练数据集是带有GPS信息的Oxford Robotcar和Google Street View数据集;
所述三元组形式包括:查询图像Iq、匹配图像I+和不匹配图像I-
所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,所述步骤1中,优化网络模型,以获得包括图像特征描述符的优化后的网络模型,包括:
步骤1-1,获取预先训练的VGG16深度网络最后一个卷积层的特征图,所述特征图的维度是W×H×D,看作是D个大小为W×H的特征矩阵;特征图S={Sd}(d=1,2,...,D),Sd定义为第d个特征图,Sd(x,y)是第d个特征图上位置为(x,y)的特征值;
步骤1-2,对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度的区域,池化窗口的大小与特征图的大小成比例;每个区域在所有通道(channel)上进行sum-pooling聚合,形成该区域的聚合特征向量;
步骤1-3,通过网络的学习,为区域的特征分配不同的权重ω,并用加权求和的方式形成最终的包括图像特征描述符的优化后的网络模型。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,在所述步骤1-2中,
所述金字塔池化操作包括:在特征图上划分若干个大小不同的区域R,定义3个尺度(n=1,2,3),则均匀划分的正方形区域个数是n×(n+n′-1),其中,n′是尺度n=1时可定义的区域个数,每个区域的长和宽都为2×min(W,H)/(n+1)。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,在所述步骤1-3中,所述网络模型的三元组损失(Triplet loss)函数的计算方法如下:
Figure BDA0002756520860000071
其中,||·||定义为两张图像的特征的欧式距离,k表示k个不匹配图像,m是预定义的参数,通过最小化三元组损失(Triplet loss)函数,确保匹配对(Iq,I+)之间的特征距离小于非匹配对(Iq,I-);
所述加权求和表示为:F={f1,...,fd,...,fD},其中
Figure BDA0002756520860000072
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,在所述步骤2中,对输出的特征向量做归一化和降维,包括:
首先对输出的特征向量进行L2归一化,即
Figure BDA0002756520860000073
再对归一化后的特征向量做PCA降维和L2归一化。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧,包括:
步骤3-1,采用余弦距离度量历史图像和当前图像的特征向量之间的相似性,定义历史图像A和当前图像B的特征向量分别为CA和CB,则历史图像A和当前图像B的相似度计算为
Figure BDA0002756520860000074
其中,
Figure BDA0002756520860000075
分别表示CA和CB的各分量,N为特征的个数;
步骤3-2,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
本发明一实施例的基于深度学习的视觉SLAM回环检测方法中,在所述步骤4中,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,包括:
步骤4-1,从深度网络卷积层的最大激活区域提取关键点,每个特征图的H/Nw×W/Nw窗口上的最大激活区域作为关键点,其中,不同的Nw值产生的关键点数量不同;
步骤4-2,在一个3×3的窗口中,获得关键点周围每个特征向量相对于关键点特征向量的残差,连接各个残差,获得一个256维的关键点描述符;
步骤4-3,匹配关键点描述符,如果回环候选帧中有足够的有效匹配来估计RANSAC算法的基本矩阵,则认为已检测到回环,否则回环候选帧将被丢弃,具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为真正的回环。
本发明所述回环检测方法的具体流程如图1所示,一种基于深度学习的视觉SLAM回环检测方法,包括以下步骤:
步骤1,训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,获得图像特征描述符。所述训练数据集是带有GPS信息的Oxford Robotcar和GoogleStreet View数据集;Oxford Robotcar数据集由同一环境不同时间的多个遍历组成。选择在冬季夜间捕获的2518个图像和在夏季白天捕获的2847个图像作为查询数据集,选择在冬季白天捕获的2952个图像作为数据库;Google Street View数据是从车辆中拍摄的街景图像,它们在照明,视角和遮挡方面与查询图像有较大的差异。所述三元组形式包括一张查询图像Iq,两张匹配图像I+和一张不匹配图像I-;匹配图像是与查询图像在地理位置上接近的图像,不匹配图像是与查询图像在地理位置上相距很远的图像。选取和查询图像距离相近的作为匹配样本,从距离Iq位置至少225m的图像中选择不匹配样本。所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型,本发明将预先训练的VGG16深度网络作为基础网络,也可以使用其他预训练的AlexNet或者ResNet50作为基础网络。
如图2所示,在所述步骤1中优化网络模型,获得图像特征描述符的具体步骤如下:
步骤1-1,获取预先训练的VGG16深度网络最后一个卷积层的特征图;所述特征图的维度是W×H×D,可以看作是D个大小为W×H的特征矩阵;特征图S={Sd}(d=1,2,...,D),Sd定义为第d个特征图,Sd(x,y)是第d个特征图上位置为(x,y)的特征值;
步骤1-2,对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度区域,池化窗口的大小与特征图的大小成比例。每个区域在所有通道(channel)上进行sum-pooling聚合,形成该区域的聚合特征向量fR={fR,1,...,fR,d,...,fR,D}T,其中fR,d=sump∈ RSd(p)为第d个特征图R区域上的和;
具体的,如图3所示,在特征图上划分若干个大小不同的区域R,定义3个尺度(n=1,2,3),则可均匀划分的正方形区域个数是n×(n+n′-1),n′是在尺度n=1时可定义的区域个数,每个区域的长和宽都为2×min(W,H)/(n+1)。
步骤1-3,通过网络的学习,为区域特征分配不同的权重ω,并用加权求和的方式形成最终的图像特征描述符。
具体的,如图4所示,在所述步骤1-3中,所述网络模型的损失函数计算方法如下:
Figure BDA0002756520860000091
其中,||·||定义为两张图像特征的欧式距离,k表示k个不匹配图像,m是需要预定义的参数,同时也是衡量相似度的重要指标。f(·)为图像的特征表示。通过最小化上式三元组损失(Triplet loss)函数,确保匹配对(Iq,I+)之间的特征距离小于非匹配对(Iq,I-),即
Figure BDA0002756520860000092
达到可以区分相似性图片的目的;所述加权求和表示为:F={f1,...,fd,...,fD},其中
Figure BDA0002756520860000093
这里的权重ω(x,y)由网络在训练过程中学习得到,来增强聚合特征的可区分性和表达能力。
更进一步,在所述步骤2中,所述对输出的特征向量做归一化和降维的具体步骤包括:首先对输出的图像特征向量进行L2归一化处理,即
Figure BDA0002756520860000101
再对归一化后的特征向量做PCA降维和L2归一化。
更进一步,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧的具体步骤如下:
步骤3-1,采用余弦距离度量两张图像特征向量的相似性,尽管欧式距离是训练时用的距离度量,但相关实验表明,使用欧式距离度量训练卷积核是有益的,使用余弦距离进行相似性度量是有利的;
步骤3-2,在所述当前图像与历史图像中执行最近邻搜索,筛选出与当前图像相似度最接近的前K个帧。
更进一步,在所述步骤4中,验证几何一致性的具体步骤如下:
步骤4-1,从深度网络卷积层的最大激活区域提取关键点,每个特征图的H/Nw×W/Nw窗口上的最大激活区域作为关键点,不同的Nw值产生的关键点数量不同;
步骤4-2,在一个3×3的窗口中,获得关键点周围每个特征向量相对于关键点特征向量的残差,连接这些残差,获得一个256维的关键点描述符;
步骤4-3,匹配关键点描述符,如果回环候选帧有足够的有效匹配来估计RANSAC算法的基本矩阵,则认为已检测到回环,否则候选帧被丢弃。具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为最终的回环。在实际应用中,通过确保多个顺序匹配有效,可以进一步增强此方法。
更进一步,步骤5,当前图像加入历史图像中。获取新的图像,进行下一轮回环检测过程。
本发明为验证回环检测的有效性,测试部分采用Nordland和Campus Loop数据集。Nordland数据集包含是来自不同季节,行驶的火车在相同位置收集的,具有极端的天气变化。Campus Loop数据集由两个序列组成,每个序列包含100张图像,这些序列是校园环境中室内和室外图像的混合,每个图像匹配对都包含不同的视角、外观变化以及动态对象。
与现有技术相比,本发明的有益效果在于:
1、本发明针对特定的回环检测任务,引入三元组训练的方式优化网络模型,让网络学习到更有利于回环检测的特征表示,解决人工设计的特征在复杂多变的环境下无法检测到回环的问题,提高了回环检测的准确率。
2、本发明通过对卷积特征图应用金字塔池化和显著性区域加权聚合,增强了聚合特征的可区分性,提高特征对视角和外观变化的鲁棒性。此外,高维特征向量通过有效的降维,降低了相似性度量的计算量,从而提高回环检测的效率。
本发明公开了一种基于深度学习的视觉SLAM回环检测方法。该方法包括:训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,获得图像特征描述符;将相机采集的当前图像输入优化后的网络模型,对输出的特征向量做归一化和降维;计算当前图像与历史图像的相似度,从历史图像中选择最接近的前K个帧作为回环候选帧;确定所述当前图像与回环候选帧是否满足几何一致性,满足几何一致性的图像作为真正的回环;当前图像加入历史图像中,获取新的图像,进行下一轮回环检测过程。本发明能够提高机器人回环检测存在视角和外观变化时的鲁棒性,降低误匹配率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (8)

1.一种基于深度学习的视觉SLAM回环检测方法,其特征在于,包括:
步骤1,训练数据集以三元组形式输入预先训练的VGG16深度网络,优化网络模型,以获得包括图像特征描述符的优化后的网络模型;
步骤2,将相机采集的当前图像输入优化后的网络模型,以获取输出的特征向量,对输出的特征向量做归一化和降维,以得到当前图像的特征向量;
步骤3,基于当前图像的特征向量,计算当前图像与历史图像的相似度,基于所述相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤4,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,将满足几何一致性的当前图像作为真正的回环;
步骤5,将真正的回环加入历史图像中,获取新的当前图像,进行下一轮回环检测过程。
2.如权利要求1所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,所述步骤1中,
所述训练数据集是带有GPS信息的Oxford Robotcar和Google Street View数据集;
所述三元组形式包括:查询图像Iq、匹配图像I+和不匹配图像I-
所述预先训练的VGG16深度网络是在ImageNet大规模图像数据集上预先训练好并除去全连接层的网络模型。
3.如权利要求1所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,所述步骤1中,优化网络模型,以获得包括图像特征描述符的优化后的网络模型,包括:
步骤1-1,获取预先训练的VGG16深度网络最后一个卷积层的特征图,所述特征图的维度是W×H×D,看作是D个大小为W×H的特征矩阵;特征图S={Sd}(d=1,2,...,D),Sd定义为第d个特征图,Sd(x,y)是第d个特征图上位置为(x,y)的特征值;
步骤1-2,对每个特征图应用金字塔池化(pyramid pooling)操作聚合多尺度的区域,池化窗口的大小与特征图的大小成比例;每个区域在所有通道(channel)上进行sum-pooling聚合,形成该区域的聚合特征向量;
步骤1-3,通过网络的学习,为区域的特征分配不同的权重ω,并用加权求和的方式形成最终的包括图像特征描述符的优化后的网络模型。
4.如权利要求3所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,在所述步骤1-2中,
所述金字塔池化操作包括:在特征图上划分若干个大小不同的区域R,定义3个尺度(n=1,2,3),则均匀划分的正方形区域个数是n×(n+n′-1),其中,n′是尺度n=1时可定义的区域个数,每个区域的长和宽都为2×min(W,H)/(n+1)。
5.如权利要求3所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,在所述步骤1-3中,所述网络模型的三元组损失(Triplet loss)函数的计算方法如下:
Figure FDA0002756520850000021
其中,||·||定义为两张图像的特征的欧式距离,k表示k个不匹配图像,m是预定义的参数,通过最小化三元组损失(Triplet loss)函数,确保匹配对(Iq,I+)之间的特征距离小于非匹配对(Iq,I-);
所述加权求和表示为:F={f1,...,fd,...,fD},其中
Figure FDA0002756520850000022
6.如权利要求1所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,在所述步骤2中,对输出的特征向量做归一化和降维,包括:
首先对输出的特征向量进行L2归一化,即
Figure FDA0002756520850000023
再对归一化后的特征向量做PCA降维和L2归一化。
7.如权利要求1所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧,包括:
步骤3-1,采用余弦距离度量历史图像和当前图像的特征向量之间的相似性,定义历史图像A和当前图像B的特征向量分别为CA和CB,则历史图像A和当前图像B的相似度计算为
Figure FDA0002756520850000031
其中,
Figure FDA0002756520850000032
分别表示CA和CB的各分量,N为特征的个数;
步骤3-2,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
8.如权利要求1所述的基于深度学习的视觉SLAM回环检测方法,其特征在于,在所述步骤4中,采用RANSAC算法确定所述当前图像与K个回环候选帧是否满足几何一致性,包括:
步骤4-1,从深度网络卷积层的最大激活区域提取关键点,每个特征图的H/Nw×W/Nw窗口上的最大激活区域作为关键点,其中,不同的Nw值产生的关键点数量不同;
步骤4-2,在一个3×3的窗口中,获得关键点周围每个特征向量相对于关键点特征向量的残差,连接各个残差,获得一个256维的关键点描述符;
步骤4-3,匹配关键点描述符,如果回环候选帧中有足够的有效匹配来估计RANSAC算法的基本矩阵,则认为已检测到回环,否则回环候选帧将被丢弃,具有有效数量的匹配和具有较高相似度得分的回环候选帧被视为真正的回环。
CN202011204238.8A 2020-11-02 2020-11-02 基于深度学习的视觉slam回环检测方法 Active CN112258580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011204238.8A CN112258580B (zh) 2020-11-02 2020-11-02 基于深度学习的视觉slam回环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011204238.8A CN112258580B (zh) 2020-11-02 2020-11-02 基于深度学习的视觉slam回环检测方法

Publications (2)

Publication Number Publication Date
CN112258580A true CN112258580A (zh) 2021-01-22
CN112258580B CN112258580B (zh) 2024-05-17

Family

ID=74267551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011204238.8A Active CN112258580B (zh) 2020-11-02 2020-11-02 基于深度学习的视觉slam回环检测方法

Country Status (1)

Country Link
CN (1) CN112258580B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989999A (zh) * 2021-03-11 2021-06-18 深圳市无限动力发展有限公司 基于视觉回环的扫地机定位方法、装置、设备及介质
CN113033555A (zh) * 2021-03-25 2021-06-25 天津大学 基于度量学习的视觉slam闭环检测方法
CN113377987A (zh) * 2021-05-11 2021-09-10 重庆邮电大学 基于ResNeSt-APW的多模块闭环检测方法
CN113378788A (zh) * 2021-07-07 2021-09-10 华南农业大学 机器人视觉slam回环检测方法、计算机设备及存储介质
CN113781563A (zh) * 2021-09-14 2021-12-10 中国民航大学 一种基于深度学习的移动机器人回环检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237646A1 (zh) * 2018-06-14 2019-12-19 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN111696118A (zh) * 2020-05-25 2020-09-22 东南大学 动态场景下基于语义分割与图像修复的视觉回环检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237646A1 (zh) * 2018-06-14 2019-12-19 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN111696118A (zh) * 2020-05-25 2020-09-22 东南大学 动态场景下基于语义分割与图像修复的视觉回环检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨理欣;曹其新;张昊若;: "基于多相机的视觉里程计方法研究", 机械设计与研究, no. 06 *
罗顺心;张孙杰;: "基于卷积神经网络的回环检测算法", 计算机与数字工程, no. 05 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989999A (zh) * 2021-03-11 2021-06-18 深圳市无限动力发展有限公司 基于视觉回环的扫地机定位方法、装置、设备及介质
CN113033555A (zh) * 2021-03-25 2021-06-25 天津大学 基于度量学习的视觉slam闭环检测方法
CN113377987A (zh) * 2021-05-11 2021-09-10 重庆邮电大学 基于ResNeSt-APW的多模块闭环检测方法
CN113377987B (zh) * 2021-05-11 2023-03-28 重庆邮电大学 基于ResNeSt-APW的多模块闭环检测方法
CN113378788A (zh) * 2021-07-07 2021-09-10 华南农业大学 机器人视觉slam回环检测方法、计算机设备及存储介质
CN113781563A (zh) * 2021-09-14 2021-12-10 中国民航大学 一种基于深度学习的移动机器人回环检测方法
CN113781563B (zh) * 2021-09-14 2023-10-24 中国民航大学 一种基于深度学习的移动机器人回环检测方法

Also Published As

Publication number Publication date
CN112258580B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN112258580B (zh) 基于深度学习的视觉slam回环检测方法
CN110209859B (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN108921107B (zh) 基于排序损失和Siamese网络的行人再识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Ranganathan et al. Towards illumination invariance for visual localization
CN110728263A (zh) 一种基于距离选择的强判别特征学习的行人重识别方法
CN109165540B (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN110781790A (zh) 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN111368759B (zh) 基于单目视觉的移动机器人语义地图构建系统
CN104794219A (zh) 一种基于地理位置信息的场景检索方法
CN106897666A (zh) 一种室内场景识别的闭环检测方法
CN113705597A (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
CN111582337A (zh) 基于小样本细粒度图像分析的草莓畸形状态检测方法
CN110751076B (zh) 车辆检测方法
Bampis et al. High order visual words for structure-aware and viewpoint-invariant loop closure detection
CN1286064C (zh) 一种基于显著兴趣点的图像检索方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN112084895A (zh) 一种基于深度学习的行人重识别方法
Yin et al. Pse-match: A viewpoint-free place recognition method with parallel semantic embedding
CN111709317A (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN114861761A (zh) 一种基于孪生网络特征与几何验证的回环检测方法
Abdullah et al. Vehicle counting using deep learning models: a comparative study
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN109255043A (zh) 基于场景理解的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant