CN111401123A

CN111401123A - 一种基于深度学习的slam回环检测方法及系统

Info

Publication number: CN111401123A
Application number: CN201911386798.7A
Authority: CN
Inventors: 马鑫军
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-12-29
Filing date: 2019-12-29
Publication date: 2020-07-10
Anticipated expiration: 2039-12-29
Also published as: CN111401123B

Abstract

本发明公开了一种基于深度学习的SLAM回环检测方法及系统，包括利用词袋词典模块检测回环候选帧，并送入深度学习检测模块中；深度学习检测模块检测识别检测帧和回环候选帧中是否有同一物体；分别获取词袋词典模块与深度学习检测模块的检测概率数据；利用高斯概率模型，融合模块将词袋词典模块与深度学习检测模块检测概率数据融合，获得融合后的概率数据；判断融合后的概率数据是否达到检测要求。本发明通过结合词袋技术和深度学习检测技术，提高回环检测的准确性，从而提高整个SLAM技术的定位精度。

Description

一种基于深度学习的SLAM回环检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习的SLAM回环检测方法及系统。

背景技术

SLAM就是同时定位与地图创建，例如，一个机器人在未知的环境中运动，如何通过对环境的观测确定自身的运动轨迹，同时构建出环境的地图。SLAM技术正是为了实现这个目标涉及到的诸多技术的总和。早期的SLAM多利用声呐、单线激光雷达等传感器来实现。从2000年以后，随着计算机视觉的发展，利用摄像头的视觉SLAM开始成为研究热点，并且在许多领域中体现出巨大的应用价值。1986年提出SLAM，距今为止已经发展了30多年，1986-2004，该问题转换为一个状态估计问题，利用扩展卡尔曼滤波、粒子滤波及最大似然估计等手段来求解；2004-2015，研究SLAM的基本特性，包括观测性、收敛性和一致性；2015年，鲁棒性、高级别的场景理解，计算资源优化，任务驱动的环境感知。

视觉SLAM是在传统SLAM的基础上发展起来的，早期的视觉SLAM多采用扩展卡尔曼滤波等手段来优化相机位姿的估计和地图构建的准确性，后期随着计算能力的提升及算法的改进，BA优化、位姿优化等手段逐渐成为主流。回环检测是指机器人识别曾到达某场景，使得地图闭环的能力，目前是通过词袋技术实现的，但是词袋技术严重依赖预训练词典，检测精度不高。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在只采用词袋技术回环检测的问题，提出了本发明。

因此，本发明提供了一种基于深度学习的SLAM回环检测方法及系统，结合词袋技术与深度学习检测技术，提高回环检测准确性。

为解决上述技术问题，本发明提供如下技术方案：利用词袋词典模块检测回环候选帧，并送入深度学习检测模块中；所述深度学习检测模块检测识别检测帧和所述回环候选帧中是否有同一物体；分别获取所述词袋词典模块与所述深度学习检测模块的检测概率数据；利用高斯概率模型，融合模块将所述词袋词典模块与所述深度学习检测模块检测概率数据融合，获得融合后的概率数据；判断所述融合后的概率数据是否达到检测要求。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：检测所述回环候选帧之前具体包括，训练大量图片数据获取词典；利用关键帧数据库找出与当前帧有公共单词的关键帧；累加与所述当前帧相同单词个数，并设置80％为最大共有所述单词数量设定值。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：检测所述回环候选帧还包括，将所述设定值作为检测阈值；利用所述检测阈值筛选所述关键帧；利用所述词典获取值大于所述检测阈值，获得所述回环候选帧，并把所述回环候选帧与所述检测帧送入所述深度学习检测模块中。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：所述深度学习检测模块检测识别包括，利用开源YOLO算法检测所述当前帧与所述回环候选帧中是否有同一物体。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：所述开源YOLO算法检测具体包括，利用图像上滑动的滑窗，查看完整图像；分别判别所述图像的分类；利用调整物体精确边框，完成检测和定位。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：融合所述检测数据概率包括，利用词袋，获取所述词袋词典模块检测所述回环候选帧概率Xp；利用深度学习，获取所述深度学习检测模块检测识别概率Xm；利用高斯概率模型，将所述概率Xp与所述概率Xm融合，获得融合后的所述概率数据。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：所述高斯概率模型包括，

其中，x为融合后的概率，p为预测(即词袋词典模块100)，Xp为预测概率，δp为方差，在概率论中，若A B相互独立，则P(AB)＝P(A)*P(B)。

作为本发明所述的一种基于深度学习的SLAM回环检测方法的一种优选方案，其中：判断所述融合后的概率数据是否达到检测要求包括，若融合后的所述概率数据结果大于所述检测阈值，则所述当前帧与所述回环候选帧是正确的；若融合后的所述概率数据结果小于或等于所述检测阈值，则所述当前帧与所述回环候选帧是错误的。

作为本发明所述的一种基于深度学习的SLAM回环检测系统的一种优选方案，其中：词袋词典模块，包括词典和词袋，所述词典通过描述子聚类而构建，包含所有的单词，并与所述词袋相连接，所述词袋通过数据库筛选出与当前帧有公共单词的所述关键帧，同时通知所述词典统计与所述当前帧相同单词数量；深度学习检测模块与所述词袋词典模块相连，所述词袋词典模块检测到的所述回环候选帧与所述关键帧送入深度学习检测模块中时，所述深度学习检测模块启动检测单元检测识别所述回环检测帧与所述关键帧中有无相同物体，并通过计算体算的所述词袋词典模块与所述深度学习检测模块的检测概率；融合模块包括结合体，所述计算体获取所述检测概率后被所述检测单元以数据形式传输到所述结合体内，所述结合体将所述检测概率数据融合在一起，并反馈给所述计算体。

本发明的有益效果：本发明通过结合词袋技术和深度学习检测技术，提高回环检测的准确性，从而提高整个SLAM技术的定位精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于深度学习的SLAM回环检测方法的流程示意图；

图2为本发明第一个实施例所述的基于深度学习的SLAM回环检测方法的YOLO网络示意图；

图3为本发明第二个实施例所述的基于深度学习的SLAM回环检测系统的模块结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

在视觉SLAM中，由上一帧位姿解算当前帧位姿而产生的误差，在一帧帧的传递过程中造成累计误差，从而创建了回环检测来减小累计误差，其中，当前帧与之前的某一帧建立位姿约束关系叫回环，找出建立这种位姿约束的历史帧就是回环检测。当把所有帧与当前帧做匹配时，计算量过大，从而通过词袋技术来进行辅助筛选信息，但是目前词袋技术严重依赖预训练词典，使得回环检测能力不高，准确度不够，因此，本发明采用词袋技术与深度学习检测技术结合的策略，提高了回环检测准确性。

参照图1和图2，为本发明的第一个实施例，提供了一种基于深度学习的SLAM回环检测方法，包括以下步骤：

S1：利用词袋词典模块100检测回环候选帧，并送入深度学习检测模块200中。其中需要说明的是，检测回环候选帧之前具体包括：

训练大量图片数据获取词典101；

利用关键帧数据库找出与当前帧有公共单词的关键帧；

累加与当前帧相同单词个数，并设置80％为最大共有单词数量设定值。

进一步的，检测回环候选帧还包括：

将设定值作为检测阈值；

利用检测阈值筛选关键帧；

利用词典101获取值大于检测阈值，获得回环候选帧，并把回环候选帧与检测帧送入深度学习检测模块200中。

S2：深度学习检测模块200检测识别检测帧和回环候选帧中是否有同一物体。本步骤需要说明的是：

利用开源YOLO算法检测当前帧与回环候选帧中是否有同一物体。

具体的，参照图2，开源YOLO算法检测包括：

利用图像上滑动的滑窗，查看完整图像；

分别判别图像的分类；

利用调整物体精确边框，完成检测和定位。

S3：分别获取词袋词典模块100与深度学习检测模块200的检测概率数据。本步骤还需要说明的是，融合检测数据概率包括：

利用词袋102，获取词袋词典模块100检测回环候选帧概率Xp；

利用深度学习，获取深度学习检测模块200检测识别概率Xm；

S4：利用高斯概率模型，融合模块300将词袋词典模块100与深度学习检测模块200检测概率数据融合，获得融合后的概率数据。本步骤还需要具体说明的是：

利用高斯概率模型，将概率Xp与概率Xm融合，获得融合后的概率数据x,

具体的，高斯概率模型包括：

S5：判断融合后的概率数据是否达到检测要求。其中还需要说明的是：

若融合后的概率数据结果大于检测阈值，则当前帧与回环候选帧是正确的；

若融合后的概率数据结果小于或等于检测阈值，则当前帧与回环候选帧是错误的。

优选的是，本发明采用深度学习策略、SLAM回环检测方法选取关键帧和回环候选帧，当筛选的检测帧视差大于一定的阈值或与上一个检测帧的时间差大于一定的阈值时，确认该检测帧为关键帧；而回环候选帧则是在关键帧数据库中利用词袋方法进行相似度判断，超过阈值即为回环候选帧，例如，当前帧的单词数为1000，遍历关键帧数据库得出数据库中所有的关键帧和当前帧共有的单词数量，如果超过1000*80％则认为是回环候选帧；利用深度学习检测策略，开源YOLO算法检测关键帧和回环候选帧，检测其中是否有相同物体，并计算词袋词典模块100与深度学习检测模块200的检测概率数据，分别为共有的单词/总单词、YOLO网络输出的概率(即为概率Xp、概率Xm)，而词典模块100与深度学习检测模块200的经验值不确定度定义为方差δp；利用高斯概率模型将其概率数据融合，输入词袋词典模块100的概率+方差、深度学习检测模块200的概率+方差，代入公式计算并输出最后结果，并判断输出的最后结果数据是否达到检测要求。

场景一：

对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

传统的技术方案：传统的SLAM算法依赖词袋词典内容大小检测回环候选帧，回环候选帧是否选对依赖所用词典的内容和大小，将对SLAM定位精度带来误差。

为验证本方法相对传统方法具有较高定位精度，即检测精度。

本实施例中将采用传统词袋方法和本方法分别对仿真车辆的定位精度进行实时测试对比。

测试环境：将车辆运行在仿真平台模拟行驶并模拟地下停车场场景，采用高精度运动捕捉器测试样本，分别利用传统方法的人工操作进行转向角测试并获得测试结果数据。采用本方法，则开启自动化测试设备并运用MATLAB实现本方法的仿真测试，根据实验结果得到仿真数据。每种方法各测试3组数据，计算获得每组数据平移向量的均方根误差RMSE，与仿真模拟输入的实际平移向量对比计算误差。结果如下表所示：

表1：定位误差对比表。

序列	传统方法(RMSE)	本专利(RMSE)
			01	7.3	6.6
02	10.5	9.3
			03	2.1	1.85

表2：检测误差对比表。

序列	传统方法(RMSE)	本专利(RMSE)
			KITTI 00	5.33	4.72
KITTI 02	21.28	19.87
			KITTI 03	1.79	1.63

参考表1和表2，能够看出传统方法的定位误差值、检测误差值皆大于本发明方法的定位误差值、检测误差值，其中，对比本发明方法检测成功率利用公式(5.33-4.72)/5.33＝11％，可以直接看出在kitti数据集上的测试结果显示本发明提出的结合深度学习的回环检测方法的检测成功率比基于词袋技术的回环检测方法提高了10％；验证了本发明方法能够提高回环检测的准确性，从而提高整个SLAM技术的定位精度。

实施例2

参照图3，为本发明的第二个实施例，该实施例不同于第一个实施例的是提供了一种基于深度学习的SLAM回环检测系统，包括词袋词典模块100、深度学习检测模块200、融合模块300，词袋词典模块100包括词典101和词袋102，词典101通过描述子聚类而构建，包含所有的单词，并与词袋102相连接，词袋102通过数据库筛选出与当前帧有公共单词的关键帧，同时通知词典101统计与当前帧相同单词数量；深度学习检测模块200与词袋词典模块100相连，词袋词典模块100检测到的回环候选帧与关键帧送入深度学习检测模块200中时，深度学习检测模块200启动检测单元201检测识别回环检测帧与关键帧中有无相同物体，并通过计算体202算的词袋词典模块100与深度学习检测模块200的检测概率；融合模块300包括结合体301，计算体202获取检测概率后被检测单元201以数据形式传输到结合体301内，结合体将检测概率数据融合在一起，并反馈给计算体202。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文步骤的指令或程序时，本文的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的SLAM回环检测方法，其特征在于：包括，

获取真实相机在SLAM系统中对应的真实关键帧；

利用词袋词典模块(100)检测回环候选帧，并送入深度学习检测模块(200)中；

所述深度学习检测模块(200)检测识别检测帧和所述回环候选帧中是否有同一物体；

分别获取所述词袋词典模块(100)与所述深度学习检测模块(200)的检测概率数据；

利用高斯概率模型，融合模块(300)将所述词袋词典模块(100)与所述深度学习检测模块(200)检测概率数据融合，获得融合后的概率数据；

判断所述融合后的概率数据是否达到检测要求。

2.如权利要求1所述的基于深度学习的SLAM回环检测方法，其特征在于：检测所述回环候选帧之前具体包括，

训练大量图片数据获取词典(101)；

利用关键帧数据库找出与当前帧有公共单词的关键帧；

累加与所述当前帧相同单词个数，并设置80％为最大共有所述单词数量设定值。

3.如权利要求1或2所述的基于深度学习的SLAM回环检测方法，其特征在于：检测所述回环候选帧还包括，

将所述设定值作为检测阈值；

利用所述检测阈值筛选所述关键帧；

利用所述词典(101)获取值大于所述检测阈值，获得所述回环候选帧，并把所述回环候选帧与所述检测帧送入所述深度学习检测模块(200)中。

4.如权利要求3所述的基于深度学习的SLAM回环检测方法，其特征在于：所述深度学习检测模块(200)检测识别包括，

利用开源YOLO算法检测所述当前帧与所述回环候选帧中是否有同一物体。

5.如权利要求4所述的基于深度学习的SLAM回环检测方法，其特征在于：所述开源YOLO算法检测具体包括，

利用图像上滑动的滑窗，查看完整图像；

分别判别所述图像的分类；

利用调整物体精确边框，完成检测和定位。

6.如权利要求1或4所述的基于深度学习的SLAM回环检测方法，其特征在于：融合所述检测数据概率包括，

利用词袋(102)，获取所述词袋词典模块(100)检测所述回环候选帧概率Xp；

利用深度学习，获取所述深度学习检测模块(200)检测识别概率Xm；

利用高斯概率模型，将所述概率Xp与所述概率Xm融合，获得融合后的所述概率数据。

7.如权利要求6所述的基于深度学习的SLAM回环检测方法，其特征在于：所述高斯概率模型包括，

8.如权利要求1所述的基于深度学习的SLAM回环检测方法，其特征在于：判断所述融合后的概率数据是否达到检测要求包括，

若融合后的所述概率数据结果大于所述检测阈值，则所述当前帧与所述回环候选帧是正确的；

若融合后的所述概率数据结果小于或等于所述检测阈值，则所述当前帧与所述回环候选帧是错误的。

9.一种基于深度学习的SLAM回环检测系统，其特征在于：包括，

词袋词典模块(100)，包括词典(101)和词袋(102)，所述词典(101)通过描述子聚类而构建，包含所有的单词，并与所述词袋(102)相连接，所述词袋(102)通过数据库筛选出与当前帧有公共单词的所述关键帧，同时通知所述词典(101)统计与所述当前帧相同单词数量；

深度学习检测模块(200)与所述词袋词典模块(100)相连，所述词袋词典模块(100)检测到的所述回环候选帧与所述关键帧送入深度学习检测模块(200)中时，所述深度学习检测模块(200)启动检测单元(201)检测识别所述回环检测帧与所述关键帧中有无相同物体，并通过计算体(202)算的所述词袋词典模块(100)与所述深度学习检测模块(200)的检测概率；

融合模块(300)包括结合体(301)，所述计算体(202)获取所述检测概率后被所述检测单元(201)以数据形式传输到所述结合体(301)内，所述结合体将所述检测概率数据融合在一起，并反馈给所述计算体(202)。