CN112699954A - 一种基于深度学习和词袋模型的闭环检测方法 - Google Patents

一种基于深度学习和词袋模型的闭环检测方法 Download PDF

Info

Publication number
CN112699954A
CN112699954A CN202110024649.7A CN202110024649A CN112699954A CN 112699954 A CN112699954 A CN 112699954A CN 202110024649 A CN202110024649 A CN 202110024649A CN 112699954 A CN112699954 A CN 112699954A
Authority
CN
China
Prior art keywords
image
similarity
word
bag
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110024649.7A
Other languages
English (en)
Other versions
CN112699954B (zh
Inventor
阮晓钢
余鹏程
朱晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110024649.7A priority Critical patent/CN112699954B/zh
Publication of CN112699954A publication Critical patent/CN112699954A/zh
Application granted granted Critical
Publication of CN112699954B publication Critical patent/CN112699954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习和词袋模型的闭环检测方法,将VGG16网络提取的多个含有语义信息的特征图作为多个语义描述子代替ORB描述子传给词袋模型,使提取的特征更适用于闭环检测;构建词袋模型的单词表,用K‑means对前面提取的语义特征描述子进行聚类运算,获得聚类的中心从而当做词袋模型的单词表;提取该算法下的特征向量,利用VGG网络,从每幅图像中提取很多个语义描述子,这些语义描述子都用单词表中的单词近似代替,通过统计单词表中每个单词在图像中出现的次数;最后利用特征向量计算相似度矩阵。本发明在数据集上实验表明,相较于传统的视觉词袋模型方法,该算法具有更强的泛化性,可以在闭环检测中达到更高的准确率。

Description

一种基于深度学习和词袋模型的闭环检测方法
技术领域
本发明公开了一种基于深度学习和词袋模型的闭环检测方法,属于模式识别与人工智能和计算机视觉领域。
背景技术
近年来,闭环检测已经成为了移动机器人导航领域的关键问题和研究热点。同时定位与地图构建(Simultaneous localization and mapping,SLAM)是机器人实现自主移动的关键基础之一,包括特征提取与匹配、数据配准、闭环检测和全局优化等步骤。其中闭环检测可以判断当前位置是否已被移动机器人访问过,是SLAM过程的关键环节。准确地检测出闭环可以有效减少机器人位姿估计的累积误差,有利于构建更加精确的地图,保证生成地图的一致性。
一些现有方法基于传统特征(如ORB)的视觉词袋模型(Bag of words,BoW)方法,词袋模型的关键在于如何选择最优的局部特征,目前多采用传统SIFT、SURF和ORB等特征作为图像的表达。而全局描述子算法的主要思想是直接计算整张图像的描述子,从而表达图像的整体属性。GIST是一种非常有效的常规图像描述子,它能够以紧凑的方式去捕捉不同类型场景的基本结构。在此基础上,然而,这些方法所使用的都是低层特征,是人为设计的。随着大规模数据集的公开(如ImageNet)以及各种硬件的升级(如GPU),深度学习得到了迅速发展。深度学习能够通过多层神经网络对输入的图像提取抽象的高层特征,从而更好地应对环境的变化,这种优势使其在图像分类和图像检索中得到了广泛应用。
发明内容
本发明的目的在于克服现有技术的上述不足,采用深度学习和词袋模型的闭环检测方法。其中与以前的工作不同的关键部分:与传统的ORB描述子相比,本发明使用在Image-net上预训练的VGG16网络来来提取特征图,将这些带有语义信息的特征图作为语义描述子取代ORB描述子,再结合词袋模型用以检测闭环。在提取的语义描述子的基础上进行K-Means均值聚类得到词袋模型的单词表,最后通过利用单词表的中词汇表示图像以进行图片之间相似度的计算。本发明可以提高识别准确率。
为了实现上述目的,本发明采用以下技术方案:
(1)语义特征描述子的提取,基于预训练的VGG16卷积神经网来提取特征,将conv5_3后的512个含有语义信息的特征图当作512个语义特征描述子。该CNN模型是一个多层神经网络,主要由3层类型组成:5个卷积层,5个最大池化层和3个完全连接层最大池化层为相关特征提供平移不变性并同时减小其尺寸。事实上,它也是通过合并底层本地信息来构建抽象表示的过程。而对于完全连接层,前一层中的所有神经元都完全连接到当前层的每个单个神经元。借助深层架构,CNN能够在各种抽象层次上学习高级语义特征。当输入一幅RGB图像到该模型后,可以提取到每层特征可视化图。此外,与浅层次的卷积和池化层相比,pool5这样的更深层次的池层对于视觉环路闭合检测效果特别突出,因为它仍然保留输入图像的大部分空间信息并且导出输入图像的更丰富的语义表示;
(2)构建词袋模型的单词表,利用K-Means算法构造单词表。用K-means对第二步中提取的语义特征描述子,K-Means算法是一种基于样本间相似性度量的间接聚类方法,此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而簇间相似度较低。聚类中心有K个(在BOW模型中聚类中心我们称它们为视觉词),码本的长度也就为k,计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离,并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后,每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
(3)提取该算法下的特征向量,利用单词表的中词汇表示图像。利用VGG网络,可以从每幅图像中提取很多个语义描述子,这些语义描述子都可以用单词表中的单词近似代替,通过统计单词表中每个单词在图像中出现的次数,可以将图像表示成为一个K=800维数值向量,用如下表示:
Figure BDA0002889974350000031
归一化为:
Figure BDA0002889974350000032
将这些特征映射到为码本矢量,码本矢量归一化,最后计算其与训练码本的距离,对应最近距离的训练图像认为与测试图像匹配;
(4)构建时间约束,通常在检测当前图像所代表的地理位置曾经是否到达过时,需要将当前图像与数据库中的所有历史图像进行相似度比较。然而数据库中保存的图像是由相机在连续时间内拍摄的,相机的运动速度很慢且拍摄的时间间隔较短,因此相邻时刻图像间的内外观信息重复性很高。如果将当前图像与相邻时间间隔较短的图像进行闭环检测,则计算出的相似度得分很高,会认为两幅图像为同一位置,但此时相机实际的运动轨迹并未形成闭环,所以算法产生了错误的判断。闭环检测为了消除视觉里程计由于相机长时间运动产生的位姿累计误差,应该提供的是相隔时间较远的闭环信息。为了避免产生大量错误结果影响闭环检测的准确率,需考虑两幅图像拍摄的时间间隔,设置图像相似度对比的时间阈值。对于当前图像,不考虑与其拍摄的间隔时间小于阈值的图像进行比较,但是由于获取每个图像的具体拍摄时间较为困难,所以采取了将时间间隔转换成图像数量的方式;
(5)利用特征向量计算相似度矩阵,视觉SLAM闭合检测问题的关键部分是估计帧(图像)之间的相似性。为此,我们计算不同帧的特征向量之间的余弦距离,并定义成对帧的相似性得分。我们将最终的特征向量表示,用向量的余弦距离来测量图像之间的相似度。为了测量目的,使用归一化距离来获得得分值位于[0,1]中。如果相似性分数大于特定阈值,我们将其视为检测到闭环。通过收集矩阵中成对图像的相似度得分,矩阵中第i行第j列的值代表图像i与图像j的相似性得分。图5显示了可视化相似度矩阵的示例,较大的值(图中的亮部分)表示相应的图像更相似,并且更有可能被视为循环。相似性计算公式如下:
Figure BDA0002889974350000041
Figure BDA0002889974350000042
提出了一种基于语义描述子的视觉SLAM系统闭环检测方法。与大多数现有方法使用的传统手工制作功能相比,CNN功能在学习图像的内部结构时对图像表示更为强大。详细介绍了基于语义描述子的闭环检测方法的工作流程。通过与基于特征点的词袋模型方法比较,我们的方法在更高的准确率上优于基于特征点的词袋模型。这表明基于语义描述子对于闭环检测是可行的。
附图说明
图1为算法整体的结构框架图
图2为VGG网络结构示意图
图3为词袋的构建图
图4为计算特征向量图
图5为计算相似度矩阵图
图6为相似度矩阵图
具体实施方式
下面对本发明的实施例作详细说明,本实施例在本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如附图1所示,基于深度学习和词袋模型的闭环检测方法包括以下步骤:
步骤1、先构建词袋模型的单词表。利用图2所示的VGG网络提取特征图,再将特征图改为一维的向量,最后在其上运行K-Means得到聚类的中心,以这中心作为我们的单词表,如图2所示。
(1)基于预训练的VGG16卷积神经网来提取特征,将conv5_3后的512个含有语义信息的特征图当作512个语义特征描述子。该CNN模型是一个多层神经网络,主要由3层类型组成:5个卷积层,5个最大池化层和3个完全连接层最大池化层为相关特征提供平移不变性并同时减小其尺寸。事实上,它也是通过合并底层本地信息来构建抽象表示的过程。而对于完全连接层,前一层中的所有神经元都完全连接到当前层的每个单个神经元。借助深层架构,CNN能够在各种抽象层次上学习高级语义特征。当输入一幅RGB图像到该模型后,可以提取到每层特征可视化图。此外,与浅层次的卷积和池化层相比,pool5这样的更深层次的池层对于视觉环路闭合检测效果特别突出,因为它仍然保留输入图像的大部分空间信息并且导出输入图像的更丰富的语义表示;
(2)利用K-Means算法构造单词表。用K-means对第二步中提取的语义特征描述子,K-Means算法是一种基于样本间相似性度量的间接聚类方法,此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而簇间相似度较低。聚类中心有K个(在BOW模型中聚类中心我们称它们为视觉词),码本的长度也就为k,计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离,并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后,每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
步骤2首先我们将图片输入到VGG网络中得到特征图,也就是带有语义信息的特征图,当做语义描述子,再结合之前得到的单词表统计每个单词出现的频率,这种统计结果作为该图片的特征向量如图4,从而可以计算向量与向量之间的距离来计算图片之间的相似程度如图5。
(1)提取该算法下的特征向量,利用单词表的中词汇表示图像。利用VGG网络,可以从每幅图像中提取很多个语义描述子,这些语义描述子都可以用单词表中的单词近似代替,通过统计单词表中每个单词在图像中出现的次数,可以将图像表示成为一个K=800维数值向量,用如下表示:
Figure BDA0002889974350000061
归一化为:
Figure BDA0002889974350000071
(2)为了避免产生大量错误结果影响闭环检测的准确率,需考虑两幅图像拍摄的时间间隔,设置图像相似度对比的时间阈值。对于当前图像,不考虑与其拍摄的间隔时间小于阈值的图像进行比较,但是由于获取每个图像的具体拍摄时间较为困难,所以采取了将时间间隔转换成图像数量的方式;
(3)视觉SLAM闭合检测问题的关键部分是估计帧(图像)之间的相似性。为此,我们计算不同帧的特征向量之间的余弦距离,并定义成对帧的相似性得分。我们将最终的特征向量表示,用向量的余弦距离来测量图像之间的相似度。为了测量目的,使用归一化距离来获得得分值位于[0,1]中。如果相似性分数大于特定阈值,我们将其视为检测到闭环。通过收集矩阵中成对图像的相似度得分,矩阵中第i行第j列的值代表图像i与图像j的相似性得分。图5显示了可视化相似度矩阵的示例,较大的值(图中的亮部分)表示相应的图像更相似,并且更有可能被视为循环。相似性计算公式如下:
Figure BDA0002889974350000072
Figure BDA0002889974350000073
以上所述仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改,等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于深度学习和词袋模型的闭环检测方法,其特征在于包括以下步骤:
步骤1,语义特征描述子的提取;基于预训练的VGG16卷积神经网来提取特征,将conv5_3后的512个含有语义信息的特征图当做512个语义特征描述子;CNN模型由3层类型组成:5个卷积层、5个最大池化层和3个完全连接的层最大池化层为相关特征提供平移不变性并同时减小其尺寸;
步骤2,构建词袋模型的单词表,利用K-Means算法构造单词表;聚类中心有K个,码本的长度也就为k,计算每一幅图像的每一个语义特征描述子到这K个视觉词的距离,并将其映射到距离最近的视觉词中即将该视觉词的对应词频+1;完成这一步后,每一幅图像就变成了一个与视觉词序列相对应的词频矢量;
步骤3,提取该算法下的特征向量,利用单词表的中词汇表示图像;利用VGG网络,从每幅图像中提取很多个语义特征描述子,这些语义特征描述子用单词表中的单词近似代替,通过统计单词表中每个单词在图像中出现的次数,将图像表示成为一个d=800维数值向量,用如下表示:
Figure FDA0002889974340000011
上述公式中等式右边是有d个维度实数的向量
Figure FDA0002889974340000012
这个向量是用来表示图像的,类似人脸识别,将人脸抽象成一个特征下向量,用以下一步量化误差;
归一化为:
Figure FDA0002889974340000013
上述公式右边
Figure FDA0002889974340000021
进行单位化操作,将每一个元素除以自身的二范数
Figure FDA0002889974340000022
对特征向量进行单位化,为后面的相似性计算做预处理;
将这些特征映射到为码本矢量、码本矢量归一化,最后计算其与训练码本的距离,对应最近距离的训练图像认为与测试图像匹配;
步骤4,构建时间约束;在检测当前图像所代表的地理位置曾经是否到达过时,需要将当前图像与数据库中的所有历史图像进行相似度比较,采取将时间间隔转换成图像数量的方式减少闭环检测误判断;
步骤5,利用特征向量计算相似度矩阵,视觉SLAM闭合检测问题的关键部分是估计帧图像之间的相似性;将最终特征向量表示,用向量的余弦距离来测量图像之间的相似度;为测量使用归一化距离来获得得分值位于[0,1]中;通过收集相似度矩阵中成对图像的相似度得分,相似度矩阵中第i行第j列的值代表图像i与图像j的相似性得分;差异性计算公式如下:
Figure FDA0002889974340000023
上面的D(i,j)表示第i张图片与j张图片的差异,这个值越大,表明这俩个图片对应的俩个场景的差异越大;
Figure FDA0002889974340000024
表示第i张图片的特征向量,
Figure FDA0002889974340000025
表示第j张图片的特征向量,除以自己的二范数是前面提到的单位化,单位化的俩个向量相减求模
Figure FDA0002889974340000026
得到的标量表示俩张图片的差异,D(i,j)这个值越大差异性越大;
因为相似性指的是俩张图片的越相似其值越大,与差异性成反比,所有相似性公式如下:
Figure FDA0002889974340000031
步骤6,判断是否闭环;如果相似性分数大于特定阈值,将其视为检测到闭环;如果相似性分数低于特定的阈值时则认为还没有闭环,物理意义就是还没有达到之前来过的地方。
2.根据权利要求1所述的一种基于深度学习和词袋模型的闭环检测方法,其特征在于:基于预训练的VGG16卷积神经网来提取语义特征描述子的提取的方法。
3.根据权利要求1所述的一种基于头肩模型的特定人体识别方法,其特征在于:基于语义描述子所构建的词袋模型的单词表。
CN202110024649.7A 2021-01-08 2021-01-08 一种基于深度学习和词袋模型的闭环检测方法 Active CN112699954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110024649.7A CN112699954B (zh) 2021-01-08 2021-01-08 一种基于深度学习和词袋模型的闭环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110024649.7A CN112699954B (zh) 2021-01-08 2021-01-08 一种基于深度学习和词袋模型的闭环检测方法

Publications (2)

Publication Number Publication Date
CN112699954A true CN112699954A (zh) 2021-04-23
CN112699954B CN112699954B (zh) 2024-04-16

Family

ID=75513412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110024649.7A Active CN112699954B (zh) 2021-01-08 2021-01-08 一种基于深度学习和词袋模型的闭环检测方法

Country Status (1)

Country Link
CN (1) CN112699954B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240115A (zh) * 2022-07-27 2022-10-25 河南工业大学 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902619A (zh) * 2019-02-26 2019-06-18 上海大学 图像闭环检测方法及系统
CN110781790A (zh) * 2019-10-19 2020-02-11 北京工业大学 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN112084353A (zh) * 2020-09-20 2020-12-15 南京晓庄学院 一种快速陆标-卷积特征匹配的词袋模型方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902619A (zh) * 2019-02-26 2019-06-18 上海大学 图像闭环检测方法及系统
CN110781790A (zh) * 2019-10-19 2020-02-11 北京工业大学 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN112084353A (zh) * 2020-09-20 2020-12-15 南京晓庄学院 一种快速陆标-卷积特征匹配的词袋模型方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240115A (zh) * 2022-07-27 2022-10-25 河南工业大学 一种语义特征和词袋模型相结合的视觉slam回环检测方法
CN115240115B (zh) * 2022-07-27 2023-04-07 河南工业大学 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Also Published As

Publication number Publication date
CN112699954B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
US20200285896A1 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
CN110070074B (zh) 一种构建行人检测模型的方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN106709461B (zh) 基于视频的行为识别方法及装置
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN106407958B (zh) 基于双层级联的面部特征检测方法
CN110781790A (zh) 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN109341703A (zh) 一种全周期采用CNNs特征检测的视觉SLAM算法
CN112364931A (zh) 基于元特征和权重调整的少样本目标检测方法及网络模型
CN108108716A (zh) 一种基于深度信念网络的回环检测方法
CN114861761B (zh) 一种基于孪生网络特征与几何验证的回环检测方法
CN111368759A (zh) 基于单目视觉的移动机器人语义地图构建系统
CN108898623A (zh) 目标跟踪方法及设备
WO2023273337A1 (zh) 一种基于代表特征的遥感图像中的密集目标检测方法
Wang et al. Manifold regularization graph structure auto-encoder to detect loop closure for visual SLAM
Pei et al. Consistency guided network for degraded image classification
CN117079095A (zh) 基于深度学习的高空抛物检测方法、系统、介质和设备
Abdullah et al. Vehicle counting using deep learning models: a comparative study
CN112699954B (zh) 一种基于深度学习和词袋模型的闭环检测方法
Visalatchi et al. Intelligent Vision with TensorFlow using Neural Network Algorithms
CN114140524B (zh) 一种多尺度特征融合的闭环检测系统及方法
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
Gunawan et al. Spatio-temporal approach using CNN-RNN in hand gesture recognition
Da et al. Remote sensing image ship detection based on improved YOLOv3

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant