CN112884835A

CN112884835A - 一种基于深度学习之目标检测的视觉slam方法

Info

Publication number: CN112884835A
Application number: CN202010978338.XA
Authority: CN
Inventors: 艾勇保; 芮挺; 赵晓萌; 方虎生; 符磊; 何家林; 陆明; 刘帅; 赵璇
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-06-01

Abstract

一种基于深度学习之目标检测的视觉SLAM方法，涉及计算机视觉传感技术领域。本发明首先通过视觉传感器采集图像，并对采集的图像进行特征提取和目标检测，得到提取的特征点与目标检测的边界框结果；根据提取的特征点与目标检测的边界框结果，并且通过建立动态对象概率模型，发现且剔除动态特征点，创建出初始化地图；将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测过程，从而在动态场景下构建出准确的三维地图，最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。本发明提高了动态场景下视觉SLAM的位姿解算和轨迹评估的精度，且精度优于现有的方法，解决了传统视觉SLAM无法有效地应对动态场景的问题。

Description

一种基于深度学习之目标检测的视觉SLAM方法

技术领域

本发明涉及计算机视觉传感技术领域，尤其涉及结合了深度学习之目标检测算法和动态对象概率模型的视觉SLAM方法。

背景技术

SLAM，全称是Simultaneous Localization and Mapping，即同时定位与建图，指机器人在自身位置不确定的条件下，在完全未知环境中创建地图，同时利用地图进行自主定位和导航。其中基于视觉传感器的SLAM系统被称为视觉SLAM，因其具有的硬件成本低，定位精度高，可实现完全自主的定位导航等优势，使这项技术在人工智能和虚拟现实等领域广受关注，也诞生了例如，PTAM、DSO、ORB-SLAM2和OpenVSLAM等诸多优秀的视觉SLAM系统。

传统的视觉SLAM系统通常假设系统所处环境是静态的，难以应对高动态场景等日常生活中常见的情形，基于静态世界假设的视觉SLAM无法辨别系统所处的动态场景，更无法分辨出该场景内的动态物体，导致SLAM系统在动态环境下的精度大幅降低，严重时甚至导致整个SLAM系统失效。为了弥补传统视觉SLAM技术在真实世界动态场景使用中存在的不足，提出了一种基于深度学习之目标检测的视觉SLAM方法，以提高视觉SLAM系统在高动态场景下的鲁棒性、精确性、稳定性和实用性。

近年来，随着人工智能与深度学习算法的兴起和高速发展，计算机在图像分类、目标检测等图像处理能力方面有了重大的飞跃。将基于深度学习的目标检测技术结合到传统视觉SLAM技术中，能够极大地提升该系统的鲁棒性、稳定性和实用性。目前，这是一个新兴的研究领域，如何使用目标检测获得的图像中有效的信息，目前并没有比较成熟和完善的方案。目前的难点有如下几个方面：(1)如何确保高动态场景下视觉SLAM系统的准确性和稳定性；(2)如何在增强视觉SLAM系统应对高动态场景能力的同时，使其在应对静态场景时仍有良好的适应性。

发明内容

本发明提高了动态场景下视觉SLAM的位姿解算和轨迹评估的精度，且精度优于现有的方法，解决了传统视觉SLAM无法有效地应对动态场景的问题。

一种基于深度学习之目标检测的视觉SLAM方法，包括如下步骤：

步骤(1)视觉传感器采集图像，并对采集的图像进行特征提取和目标检测，获得提取的特征点与目标检测的边界框结果；

步骤(2)根据上所述特征点与目标检测的边界框结果，并且通过建立动态对象概率模型，发现且剔除动态特征点，创建出初始化地图；

步骤(3)初始化地图继续依次序进行跟踪、局部建图以及回环检测过程，从而在动态场景下构建出准确地图，最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。

优选的是，本发明步骤(1)中对采集到的图像进行特征提取和目标检测的方法如下：

当获取视觉传感器采集的图像数据后，提取图像的ORB特征点，并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测；通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类，各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1]；YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer104，具有CSP的darknet53增强CNN的学习能力；YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息，SPP网络用在YOLOv4中是增加网络的感受野，实现是对layer107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer 112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连结，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128；YOLOv4网络模型的Head基于YOLOv3；最后，通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。

优选的是，本发明步骤(2)中，通过建立动态对象概率模型，剔除动态特征点，方法如下：

将属于运动对象的特征点的概率称为动态对象概率；关键帧上的特征点的动态概率分为在2中所述的四个阶段；在匹配点扩展过程中将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点；建立动态对象概率模型，并且在跟踪线程中逐帧地传播动态概率；此外，与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新：

P_t(Xⁱ)＝(1-α)P_t-1(Xⁱ)+αS_t(xⁱ) (1)

其中，P_t-1(Xⁱ)表示3D特征点Xⁱ从上一个关键帧K_t-1更新并且传播而来的动态概率；若它是第一个点，则设其为P_t-1(Xⁱ)＝P_init＝0.5，P_init是初始概率值，S_t(xⁱ)表示匹配的特征点xⁱ处于当前关键帧K_t中的状态，并且状态的取值由目标检测的边界框所在区域决定的；若特征点xⁱ落入动态物体的目标检测结果的边界框内，将其确定为动态点，那么它的S_t(xⁱ)取值为1；反之，剩下的在动态物体的目标检测结果的边界框以外的点被认为是静态点，则其S_t(xⁱ)取值为0；α表示用来平滑实时检测结果的影响因子，值较高时表示对实时的检测结果更加敏感，而较低的值表示综合考虑了更多的源自多视图几何的历史性结果；

每个特征点的动态概率通过两种方式进行逐帧地估算和更新：特征匹配和匹配点扩展；当前帧中特征点的动态概率从上一帧中的点传播而来；在特征匹配过程中，当一个3D特征点xⁱ匹配到另一个位于上一帧与3D特征点xⁱ对应的特征点

则动态概率值

就传播给3D特征点xⁱ；另外，当一个当前帧的特征点匹配到局部地图中的任意3D地图点时，也赋予当前帧的特征点与任意3D地图点等值的动态概率

而且，如果3D特征点xⁱ在上一帧和局部地图中都具有对应的匹配点，那么应该选择局部地图中地图点的概率值作为其动态概率；然后，在该帧中，将初始概率值P_init赋予其他未匹配的点，并将概率值取为0.5，通过特征匹配操作传播动态概率的公式如下：

其中，

分别表示表示点

的ORB特征点矩阵；θ是特征匹配的阈值；采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点；在动态概率通过特征匹配方法传播之后，包括静态和动态特征点的高置信度值点x_t，被选作以半径大小为r的圆心点，在圆域内继续扩展其影响范围，并且将受到影响的特征点归属于动态或静态区域；接下来，继续在该区域内搜索未匹配的点，并且根据以下等式更新找到的点的概率值。

式中，P_init表示初始动态概率值；e是指数函数，若一个点受多个高置信度点的影响，则将这些相邻的高置信度点的所有影响值求和；将高置信度点的影响包括动态概率的差异表示为

其中

表示高置信度点的概率值，

是高置信度点，λ(d)表示距离因子，d表示未匹配的点到已知概率值的特征点的距离，C代表常数。

随后，在跟踪线程中，在相机位姿估计之前，删除位于图像帧中动态区域内的特征点和局部地图中的动态地图点，成功地获取更加鲁棒且准确的相机运动估计结果；局部地图中动态3D点的概率分布保持持续地更新，传播至后续的图像帧中并反馈给动态对象概率模型。

优选的是，本发明步骤(3)中，将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测，进而在动态场景下构建出准确地图，方法如下：

通过之前经过深度学习的目标检测算法和动态对象概率模型获得的初始地图进行系统的初始位姿估计或重定位，然后跟踪已经创建的局部地图，优化相机位姿，进一步确定新的关键帧；确定关键帧以后，在局部建图线程中插入关键帧，并且剔除冗余的地图点和关键帧，随后进行局部集束调整过程；回环检测过程，包括候选帧的检测，计算Sim3，闭环融合与闭环优化；最终构建出动态场景下的准确三维场景地图，实现面向动态场景的基于深度学习之目标检测的视觉SLAM。

本发明采用上述技术方案，与现有技术相比具有如下优点：

(1)本发明采用了一种新的基于ORB-SLAM2并结合深度学习之目标检测的SLAM框架，以削弱运动对象对相机位姿估计和稠密3D点云地图构建的影响。目标检测深度卷积神经网络方法用作预处理阶段，以过滤出与动态目标或静态对象相关的数据。

(2)本发明采用了一种新颖的动态对象概率模型，以增强在我们的视觉SLAM系统中将动态物体与静态场景分离的能力。它计算每个关键帧中点的概率，并且在我们的SLAM的跟踪线程中更新和传播特征点和地图点的动态概率。

(3)本发明采用的方法提高了动态场景下视觉SLAM的位姿解算精度，且精度优于现有方法，解决了传统视觉SLAM无法应对动态场景的问题。

附图说明

图1是本发明视觉SLAM方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，一种基于深度学习之目标检测的视觉SLAM方法，包括以下步骤：

具体过程如下：

当获取视觉传感器采集的图像数据后，提取图像的ORB特征点，并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测；通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类，各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1]；此处的先验信息指的是，在进行目标检测过程中，本发明可以检测识别80个生活中常见的事物类别，我们认为地将汽车、行人等定为动态的；将桌子、门等定为静态的。为了更接近真实的动态场景，进一步将上述两种状态细分出低动态，例如：散步的人、狗、猫等；低静态，时而开关的门等。具体实现方法是通过算法中建立的动态概率模型，在该模型中，我们将四种状态概率值分别对应四个概率区间。YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer 104，具有CSP的darknet53增强CNN的学习能力；YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息，SPP网络用在YOLOv4中是增加网络的感受野，实现是对layer107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer 112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连结，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128；YOLOv4网络模型的Head基于YOLOv3；最后，通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。

具体过程如下：

P_t(Xⁱ)＝(1-α)P_t-1(Xⁱ)+αS_t(xⁱ) (1)

则动态概率值

其中，

分别表示表示点

其中

表示高置信度点的概率值，

具体过程如下：

实施例1

一种基于深度学习之目标检测的视觉SLAM方法：

步骤1、当获取传感器采集的图像数据后，提取图像的ORB特征点，并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测，视觉SLAM系统中加载的YOLOv4的网络模型是基于MS COCO数据集训练的，该目标检测器总共可以检测到80个类别，并且获取实时的、高质量的和可靠的物体检测结果。该神经网络将彩色的RGB关键帧作为输入并且输出相应的先验类别(例如汽车、人、电脑等)的边界框，每个类别的边界框能够在系统中轻松地使用，以精确地划分动态对象区域和静态背景区域。然后，将关键帧的目标检测结果输入到建立的动态对象概率模型中。

步骤2、根据上所述获得的ORB特征点与目标检测的边界框结果，通过建立动态对象概率模型，发现并且剔除动态特征点。结合目标检测器获得的关键帧检测的结果以及先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类。然后，在匹配点扩展过程中我们将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点。动态对象概率模型目的是仅仅在跟踪线程中的关键帧上不断地更新且传播特征点的动态概率值，从而极大地提高了目标检测线程中发现动态对象的效率。这是因为考虑到图像序列的时空一致性，所以在目标检测线程中只选择关键帧进行处理，然后建立动态对象概率模型，并在跟踪线程中逐帧地传播动态概率。此外，与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新：

P_t(Xⁱ)＝(1-α)P_t-1(Xⁱ)+αS_t(xⁱ) (1)

每个特征点的动态概率通过两种方式进行逐帧地估算和更新：特征匹配和匹配点扩展。当前帧中特征点的动态概率从上一帧中的点传播而来。在特征匹配过程中，当一个特征点xⁱ匹配到另一个位于上一帧与其对应的特征点

则动态概率值

就传播给它。另外，当一个特征点匹配到局部地图中的任意3D地图点时，也赋予它与地图点等值的动态概率

而且，如果特征点在上一帧和局部地图中都具有对应的匹配点，那么应该选择局部地图中地图点的概率值作为其动态概率。然后，在该帧中，我们将初始概率值P_init赋予其他未匹配的点，并将概率值取为0.5，这是因为我们没有关于这些点属于哪种状态的先验知识。通过特征匹配操作传播动态概率的公式如下：

随后，采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点。该方法基于在大多数情况下，邻近点的状态是一致的理论思想。所以，在动态概率通过特征匹配方法传播之后，包括静态和动态特征点的高置信度值点x_t，被选作以半径大小为r的圆心点，在圆域内继续扩展其影响范围，并且将受到影响的特征点归属于动态或静态区域。接下来，继续在该区域内搜索未匹配的点，并且根据以下等式更新找到的点的概率值。

步骤3、利用深度学习的目标检测算法和动态对象概率模型得到的初始地图进行系统的初始位姿估计或重定位，然后跟踪已经创建的局部地图，优化位姿，再确定新的关键帧。确定关键帧后，在局部建图线程中主要完成关键帧插入、剔除冗余的地图点和关键帧以及局部集束调整等步骤。在回环检测线程中，包含候选帧检测，计算Sim3，闭环融合与闭环优化以及全局BA等内容。经过上述几个线程，最终构建出动态场景下的准确地图，实现面向动态场景的基于深度学习之目标检测的视觉SLAM。

如表1所示，将本发明方法与现有的传统视觉SLAM系统ORB-SLAM2在TUMRGB-D数据集上的性能表现进行定量对比，其中TUMRGB-D数据集包含一个低动态场景视频序列fr3/sitting_static、rpy和静态场景视频序列fr2/desk_with_person以及四个高动态场景视频序列fr3/walking_halfsphere、rpy、static和xyz。定量对比结果表明，本发明无论是在低动态场景还是高动态场景中均具有更高的精度和鲁棒性，能更加有效地改善传统视觉SLAM系统应对动态场景的能力，提高系统在动态场景下的定位精度。

表1

Claims

1.一种基于深度学习之目标检测的视觉SLAM方法，其特征在于如下步骤：

2.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法，其特征在于上述步骤(1)中对采集的图像进行特征提取和目标检测的方法如下：

当获取视觉传感器采集的图像数据后，提取图像的ORB特征点，并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测；通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类，各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1]；YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer 104，具有CSP的darknet53增强CNN的学习能力；YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息，SPP网络用在YOLOv4中是增加网络的感受野，实现是对layer107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer 112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连结，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128；YOLOv4网络模型的Head基于YOLOv3；最后，通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。

3.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法，其特征在于上述步骤(2)中，通过建立动态对象概率模型，发现且剔除动态特征点，方法如下：

P_t(Xⁱ)＝(1-α)P_t-1(Xⁱ)+αS_t(xⁱ) (1)

则动态概率值

其中，

分别表示表示点

的ORB特征点矩阵；θ是特征匹配的阈值；采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点；在动态概率通过特征匹配方法传播之后，包括静态和动态特征点的高置信度值点x_t，被选作以半径大小为r的圆心点，在圆域内继续扩展其影响范围，并且将受到影响的特征点归属于动态或静态区域；接下来，继续在该区域内搜索未匹配的点，并且根据以下等式更新找到的点的概率值：

其中

表示高置信度点的概率值，

是高置信度点，λ(d)表示距离因子，d表示未匹配的点到已知概率值的特征点的距离，C代表常数；

4.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法，其特征在于上述步骤(3)中，将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测过程，从而在动态场景下构建出准确的三维地图，具体方法如下：