CN112884835A - 一种基于深度学习之目标检测的视觉slam方法 - Google Patents

一种基于深度学习之目标检测的视觉slam方法 Download PDF

Info

Publication number
CN112884835A
CN112884835A CN202010978338.XA CN202010978338A CN112884835A CN 112884835 A CN112884835 A CN 112884835A CN 202010978338 A CN202010978338 A CN 202010978338A CN 112884835 A CN112884835 A CN 112884835A
Authority
CN
China
Prior art keywords
dynamic
point
points
feature
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010978338.XA
Other languages
English (en)
Inventor
艾勇保
芮挺
赵晓萌
方虎生
符磊
何家林
陆明
刘帅
赵璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202010978338.XA priority Critical patent/CN112884835A/zh
Publication of CN112884835A publication Critical patent/CN112884835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习之目标检测的视觉SLAM方法,涉及计算机视觉传感技术领域。本发明首先通过视觉传感器采集图像,并对采集的图像进行特征提取和目标检测,得到提取的特征点与目标检测的边界框结果;根据提取的特征点与目标检测的边界框结果,并且通过建立动态对象概率模型,发现且剔除动态特征点,创建出初始化地图;将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测过程,从而在动态场景下构建出准确的三维地图,最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。本发明提高了动态场景下视觉SLAM的位姿解算和轨迹评估的精度,且精度优于现有的方法,解决了传统视觉SLAM无法有效地应对动态场景的问题。

Description

一种基于深度学习之目标检测的视觉SLAM方法
技术领域
本发明涉及计算机视觉传感技术领域,尤其涉及结合了深度学习之目标检测算法和动态对象概率模型的视觉SLAM方法。
背景技术
SLAM,全称是Simultaneous Localization and Mapping,即同时定位与建图,指机器人在自身位置不确定的条件下,在完全未知环境中创建地图,同时利用地图进行自主定位和导航。其中基于视觉传感器的SLAM系统被称为视觉SLAM,因其具有的硬件成本低,定位精度高,可实现完全自主的定位导航等优势,使这项技术在人工智能和虚拟现实等领域广受关注,也诞生了例如,PTAM、DSO、ORB-SLAM2和OpenVSLAM等诸多优秀的视觉SLAM系统。
传统的视觉SLAM系统通常假设系统所处环境是静态的,难以应对高动态场景等日常生活中常见的情形,基于静态世界假设的视觉SLAM无法辨别系统所处的动态场景,更无法分辨出该场景内的动态物体,导致SLAM系统在动态环境下的精度大幅降低,严重时甚至导致整个SLAM系统失效。为了弥补传统视觉SLAM技术在真实世界动态场景使用中存在的不足,提出了一种基于深度学习之目标检测的视觉SLAM方法,以提高视觉SLAM系统在高动态场景下的鲁棒性、精确性、稳定性和实用性。
近年来,随着人工智能与深度学习算法的兴起和高速发展,计算机在图像分类、目标检测等图像处理能力方面有了重大的飞跃。将基于深度学习的目标检测技术结合到传统视觉SLAM技术中,能够极大地提升该系统的鲁棒性、稳定性和实用性。目前,这是一个新兴的研究领域,如何使用目标检测获得的图像中有效的信息,目前并没有比较成熟和完善的方案。目前的难点有如下几个方面:(1)如何确保高动态场景下视觉SLAM系统的准确性和稳定性;(2)如何在增强视觉SLAM系统应对高动态场景能力的同时,使其在应对静态场景时仍有良好的适应性。
发明内容
本发明提高了动态场景下视觉SLAM的位姿解算和轨迹评估的精度,且精度优于现有的方法,解决了传统视觉SLAM无法有效地应对动态场景的问题。
一种基于深度学习之目标检测的视觉SLAM方法,包括如下步骤:
步骤(1)视觉传感器采集图像,并对采集的图像进行特征提取和目标检测,获得提取的特征点与目标检测的边界框结果;
步骤(2)根据上所述特征点与目标检测的边界框结果,并且通过建立动态对象概率模型,发现且剔除动态特征点,创建出初始化地图;
步骤(3)初始化地图继续依次序进行跟踪、局部建图以及回环检测过程,从而在动态场景下构建出准确地图,最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
优选的是,本发明步骤(1)中对采集到的图像进行特征提取和目标检测的方法如下:
当获取视觉传感器采集的图像数据后,提取图像的ORB特征点,并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测;通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类,各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1];YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer104,具有CSP的darknet53增强CNN的学习能力;YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息,SPP网络用在YOLOv4中是增加网络的感受野,实现是对layer107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer 112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连结,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128;YOLOv4网络模型的Head基于YOLOv3;最后,通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。
优选的是,本发明步骤(2)中,通过建立动态对象概率模型,剔除动态特征点,方法如下:
将属于运动对象的特征点的概率称为动态对象概率;关键帧上的特征点的动态概率分为在2中所述的四个阶段;在匹配点扩展过程中将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点;建立动态对象概率模型,并且在跟踪线程中逐帧地传播动态概率;此外,与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新:
Pt(Xi)=(1-α)Pt-1(Xi)+αSt(xi) (1)
其中,Pt-1(Xi)表示3D特征点Xi从上一个关键帧Kt-1更新并且传播而来的动态概率;若它是第一个点,则设其为Pt-1(Xi)=Pinit=0.5,Pinit是初始概率值,St(xi)表示匹配的特征点xi处于当前关键帧Kt中的状态,并且状态的取值由目标检测的边界框所在区域决定的;若特征点xi落入动态物体的目标检测结果的边界框内,将其确定为动态点,那么它的St(xi)取值为1;反之,剩下的在动态物体的目标检测结果的边界框以外的点被认为是静态点,则其St(xi)取值为0;α表示用来平滑实时检测结果的影响因子,值较高时表示对实时的检测结果更加敏感,而较低的值表示综合考虑了更多的源自多视图几何的历史性结果;
每个特征点的动态概率通过两种方式进行逐帧地估算和更新:特征匹配和匹配点扩展;当前帧中特征点的动态概率从上一帧中的点传播而来;在特征匹配过程中,当一个3D特征点xi匹配到另一个位于上一帧与3D特征点xi对应的特征点
Figure BDA0002686611090000041
则动态概率值
Figure BDA0002686611090000042
就传播给3D特征点xi;另外,当一个当前帧的特征点匹配到局部地图中的任意3D地图点时,也赋予当前帧的特征点与任意3D地图点等值的动态概率
Figure BDA0002686611090000043
而且,如果3D特征点xi在上一帧和局部地图中都具有对应的匹配点,那么应该选择局部地图中地图点的概率值作为其动态概率;然后,在该帧中,将初始概率值Pinit赋予其他未匹配的点,并将概率值取为0.5,通过特征匹配操作传播动态概率的公式如下:
Figure BDA0002686611090000051
其中,
Figure BDA0002686611090000052
分别表示表示点
Figure BDA0002686611090000053
的ORB特征点矩阵;θ是特征匹配的阈值;采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点;在动态概率通过特征匹配方法传播之后,包括静态和动态特征点的高置信度值点xt,被选作以半径大小为r的圆心点,在圆域内继续扩展其影响范围,并且将受到影响的特征点归属于动态或静态区域;接下来,继续在该区域内搜索未匹配的点,并且根据以下等式更新找到的点的概率值。
Figure BDA0002686611090000054
Figure BDA0002686611090000055
式中,Pinit表示初始动态概率值;e是指数函数,若一个点受多个高置信度点的影响,则将这些相邻的高置信度点的所有影响值求和;将高置信度点的影响包括动态概率的差异表示为
Figure BDA0002686611090000056
其中
Figure BDA0002686611090000057
表示高置信度点的概率值,
Figure BDA0002686611090000058
是高置信度点,λ(d)表示距离因子,d表示未匹配的点到已知概率值的特征点的距离,C代表常数。
随后,在跟踪线程中,在相机位姿估计之前,删除位于图像帧中动态区域内的特征点和局部地图中的动态地图点,成功地获取更加鲁棒且准确的相机运动估计结果;局部地图中动态3D点的概率分布保持持续地更新,传播至后续的图像帧中并反馈给动态对象概率模型。
优选的是,本发明步骤(3)中,将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测,进而在动态场景下构建出准确地图,方法如下:
通过之前经过深度学习的目标检测算法和动态对象概率模型获得的初始地图进行系统的初始位姿估计或重定位,然后跟踪已经创建的局部地图,优化相机位姿,进一步确定新的关键帧;确定关键帧以后,在局部建图线程中插入关键帧,并且剔除冗余的地图点和关键帧,随后进行局部集束调整过程;回环检测过程,包括候选帧的检测,计算Sim3,闭环融合与闭环优化;最终构建出动态场景下的准确三维场景地图,实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
本发明采用上述技术方案,与现有技术相比具有如下优点:
(1)本发明采用了一种新的基于ORB-SLAM2并结合深度学习之目标检测的SLAM框架,以削弱运动对象对相机位姿估计和稠密3D点云地图构建的影响。目标检测深度卷积神经网络方法用作预处理阶段,以过滤出与动态目标或静态对象相关的数据。
(2)本发明采用了一种新颖的动态对象概率模型,以增强在我们的视觉SLAM系统中将动态物体与静态场景分离的能力。它计算每个关键帧中点的概率,并且在我们的SLAM的跟踪线程中更新和传播特征点和地图点的动态概率。
(3)本发明采用的方法提高了动态场景下视觉SLAM的位姿解算精度,且精度优于现有方法,解决了传统视觉SLAM无法应对动态场景的问题。
附图说明
图1是本发明视觉SLAM方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,一种基于深度学习之目标检测的视觉SLAM方法,包括以下步骤:
步骤(1)视觉传感器采集图像,并对采集的图像进行特征提取和目标检测,获得提取的特征点与目标检测的边界框结果;
具体过程如下:
当获取视觉传感器采集的图像数据后,提取图像的ORB特征点,并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测;通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类,各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1];此处的先验信息指的是,在进行目标检测过程中,本发明可以检测识别80个生活中常见的事物类别,我们认为地将汽车、行人等定为动态的;将桌子、门等定为静态的。为了更接近真实的动态场景,进一步将上述两种状态细分出低动态,例如:散步的人、狗、猫等;低静态,时而开关的门等。具体实现方法是通过算法中建立的动态概率模型,在该模型中,我们将四种状态概率值分别对应四个概率区间。YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer 104,具有CSP的darknet53增强CNN的学习能力;YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息,SPP网络用在YOLOv4中是增加网络的感受野,实现是对layer107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer 112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连结,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128;YOLOv4网络模型的Head基于YOLOv3;最后,通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。
步骤(2)根据上所述特征点与目标检测的边界框结果,并且通过建立动态对象概率模型,发现且剔除动态特征点,创建出初始化地图;
具体过程如下:
将属于运动对象的特征点的概率称为动态对象概率;关键帧上的特征点的动态概率分为在2中所述的四个阶段;在匹配点扩展过程中将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点;建立动态对象概率模型,并且在跟踪线程中逐帧地传播动态概率;此外,与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新:
Pt(Xi)=(1-α)Pt-1(Xi)+αSt(xi) (1)
其中,Pt-1(Xi)表示3D特征点Xi从上一个关键帧Kt-1更新并且传播而来的动态概率;若它是第一个点,则设其为Pt-1(Xi)=Pinit=0.5,Pinit是初始概率值,St(xi)表示匹配的特征点xi处于当前关键帧Kt中的状态,并且状态的取值由目标检测的边界框所在区域决定的;若特征点xi落入动态物体的目标检测结果的边界框内,将其确定为动态点,那么它的St(xi)取值为1;反之,剩下的在动态物体的目标检测结果的边界框以外的点被认为是静态点,则其St(xi)取值为0;α表示用来平滑实时检测结果的影响因子,值较高时表示对实时的检测结果更加敏感,而较低的值表示综合考虑了更多的源自多视图几何的历史性结果;
每个特征点的动态概率通过两种方式进行逐帧地估算和更新:特征匹配和匹配点扩展;当前帧中特征点的动态概率从上一帧中的点传播而来;在特征匹配过程中,当一个3D特征点xi匹配到另一个位于上一帧与3D特征点xi对应的特征点
Figure BDA0002686611090000091
则动态概率值
Figure BDA0002686611090000092
就传播给3D特征点xi;另外,当一个当前帧的特征点匹配到局部地图中的任意3D地图点时,也赋予当前帧的特征点与任意3D地图点等值的动态概率
Figure BDA0002686611090000093
而且,如果3D特征点xi在上一帧和局部地图中都具有对应的匹配点,那么应该选择局部地图中地图点的概率值作为其动态概率;然后,在该帧中,将初始概率值Pinit赋予其他未匹配的点,并将概率值取为0.5,通过特征匹配操作传播动态概率的公式如下:
Figure BDA0002686611090000094
其中,
Figure BDA0002686611090000095
分别表示表示点
Figure BDA0002686611090000096
的ORB特征点矩阵;θ是特征匹配的阈值;采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点;在动态概率通过特征匹配方法传播之后,包括静态和动态特征点的高置信度值点xt,被选作以半径大小为r的圆心点,在圆域内继续扩展其影响范围,并且将受到影响的特征点归属于动态或静态区域;接下来,继续在该区域内搜索未匹配的点,并且根据以下等式更新找到的点的概率值。
Figure BDA0002686611090000101
Figure BDA0002686611090000102
式中,Pinit表示初始动态概率值;e是指数函数,若一个点受多个高置信度点的影响,则将这些相邻的高置信度点的所有影响值求和;将高置信度点的影响包括动态概率的差异表示为
Figure BDA0002686611090000103
其中
Figure BDA0002686611090000104
表示高置信度点的概率值,
Figure BDA0002686611090000105
是高置信度点,λ(d)表示距离因子,d表示未匹配的点到已知概率值的特征点的距离,C代表常数。
随后,在跟踪线程中,在相机位姿估计之前,删除位于图像帧中动态区域内的特征点和局部地图中的动态地图点,成功地获取更加鲁棒且准确的相机运动估计结果;局部地图中动态3D点的概率分布保持持续地更新,传播至后续的图像帧中并反馈给动态对象概率模型。
步骤(3)初始化地图继续依次序进行跟踪、局部建图以及回环检测过程,从而在动态场景下构建出准确地图,最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
具体过程如下:
通过之前经过深度学习的目标检测算法和动态对象概率模型获得的初始地图进行系统的初始位姿估计或重定位,然后跟踪已经创建的局部地图,优化相机位姿,进一步确定新的关键帧;确定关键帧以后,在局部建图线程中插入关键帧,并且剔除冗余的地图点和关键帧,随后进行局部集束调整过程;回环检测过程,包括候选帧的检测,计算Sim3,闭环融合与闭环优化;最终构建出动态场景下的准确三维场景地图,实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
实施例1
一种基于深度学习之目标检测的视觉SLAM方法:
步骤1、当获取传感器采集的图像数据后,提取图像的ORB特征点,并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测,视觉SLAM系统中加载的YOLOv4的网络模型是基于MS COCO数据集训练的,该目标检测器总共可以检测到80个类别,并且获取实时的、高质量的和可靠的物体检测结果。该神经网络将彩色的RGB关键帧作为输入并且输出相应的先验类别(例如汽车、人、电脑等)的边界框,每个类别的边界框能够在系统中轻松地使用,以精确地划分动态对象区域和静态背景区域。然后,将关键帧的目标检测结果输入到建立的动态对象概率模型中。
步骤2、根据上所述获得的ORB特征点与目标检测的边界框结果,通过建立动态对象概率模型,发现并且剔除动态特征点。结合目标检测器获得的关键帧检测的结果以及先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类。然后,在匹配点扩展过程中我们将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点。动态对象概率模型目的是仅仅在跟踪线程中的关键帧上不断地更新且传播特征点的动态概率值,从而极大地提高了目标检测线程中发现动态对象的效率。这是因为考虑到图像序列的时空一致性,所以在目标检测线程中只选择关键帧进行处理,然后建立动态对象概率模型,并在跟踪线程中逐帧地传播动态概率。此外,与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新:
Pt(Xi)=(1-α)Pt-1(Xi)+αSt(xi) (1)
每个特征点的动态概率通过两种方式进行逐帧地估算和更新:特征匹配和匹配点扩展。当前帧中特征点的动态概率从上一帧中的点传播而来。在特征匹配过程中,当一个特征点xi匹配到另一个位于上一帧与其对应的特征点
Figure BDA0002686611090000121
则动态概率值
Figure BDA0002686611090000122
就传播给它。另外,当一个特征点匹配到局部地图中的任意3D地图点时,也赋予它与地图点等值的动态概率
Figure BDA0002686611090000123
而且,如果特征点在上一帧和局部地图中都具有对应的匹配点,那么应该选择局部地图中地图点的概率值作为其动态概率。然后,在该帧中,我们将初始概率值Pinit赋予其他未匹配的点,并将概率值取为0.5,这是因为我们没有关于这些点属于哪种状态的先验知识。通过特征匹配操作传播动态概率的公式如下:
Figure BDA0002686611090000124
随后,采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点。该方法基于在大多数情况下,邻近点的状态是一致的理论思想。所以,在动态概率通过特征匹配方法传播之后,包括静态和动态特征点的高置信度值点xt,被选作以半径大小为r的圆心点,在圆域内继续扩展其影响范围,并且将受到影响的特征点归属于动态或静态区域。接下来,继续在该区域内搜索未匹配的点,并且根据以下等式更新找到的点的概率值。
Figure BDA0002686611090000131
Figure BDA0002686611090000132
步骤3、利用深度学习的目标检测算法和动态对象概率模型得到的初始地图进行系统的初始位姿估计或重定位,然后跟踪已经创建的局部地图,优化位姿,再确定新的关键帧。确定关键帧后,在局部建图线程中主要完成关键帧插入、剔除冗余的地图点和关键帧以及局部集束调整等步骤。在回环检测线程中,包含候选帧检测,计算Sim3,闭环融合与闭环优化以及全局BA等内容。经过上述几个线程,最终构建出动态场景下的准确地图,实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
如表1所示,将本发明方法与现有的传统视觉SLAM系统ORB-SLAM2在TUMRGB-D数据集上的性能表现进行定量对比,其中TUMRGB-D数据集包含一个低动态场景视频序列fr3/sitting_static、rpy和静态场景视频序列fr2/desk_with_person以及四个高动态场景视频序列fr3/walking_halfsphere、rpy、static和xyz。定量对比结果表明,本发明无论是在低动态场景还是高动态场景中均具有更高的精度和鲁棒性,能更加有效地改善传统视觉SLAM系统应对动态场景的能力,提高系统在动态场景下的定位精度。
表1
Figure BDA0002686611090000141

Claims (4)

1.一种基于深度学习之目标检测的视觉SLAM方法,其特征在于如下步骤:
步骤(1)视觉传感器采集图像,并对采集的图像进行特征提取和目标检测,获得提取的特征点与目标检测的边界框结果;
步骤(2)根据上所述特征点与目标检测的边界框结果,并且通过建立动态对象概率模型,发现且剔除动态特征点,创建出初始化地图;
步骤(3)初始化地图继续依次序进行跟踪、局部建图以及回环检测过程,从而在动态场景下构建出准确地图,最终实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
2.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法,其特征在于上述步骤(1)中对采集的图像进行特征提取和目标检测的方法如下:
当获取视觉传感器采集的图像数据后,提取图像的ORB特征点,并且使用YOLOv4目标检测网络对关键帧的RGB图像进行检测;通过先验信息将特征点划分为高度静态、低静态、低动态和高度动态四类,各类概率值的区间范围分别是[0,0.25]、[0.25,0.5]、[0.5,0.75]、[0.75,1];YOLOv4网络模型是由BackBone:CSPDarknet53和Neck:SPP+PAN两部分组成,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer 104,具有CSP的darknet53增强CNN的学习能力;YOLOv4网络模型的Neck部分用于融合不同尺寸特征图的特征信息,SPP网络用在YOLOv4中是增加网络的感受野,实现是对layer107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer 112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连结,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128;YOLOv4网络模型的Head基于YOLOv3;最后,通过YOLOv4网络模型的关键帧获得到带有系列边界框的目标检测结果。
3.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法,其特征在于上述步骤(2)中,通过建立动态对象概率模型,发现且剔除动态特征点,方法如下:
将属于运动对象的特征点的概率称为动态对象概率;关键帧上的特征点的动态概率分为在2中所述的四个阶段;在匹配点扩展过程中将两个高置信度区域(高度静态和动态)的点的动态概率传播到相邻的未匹配的特征点;建立动态对象概率模型,并且在跟踪线程中逐帧地传播动态概率;此外,与关键帧中的特征点匹配的局部地图中3D点的动态概率使用如下等式进行不断更新:
Pt(Xi)=(1-α)Pt-1(Xi)+αSt(xi) (1)
其中,Pt-1(Xi)表示3D特征点Xi从上一个关键帧Kt-1更新并且传播而来的动态概率;若它是第一个点,则设其为Pt-1(Xi)=Pinit=0.5,Pinit是初始概率值,St(xi)表示匹配的特征点xi处于当前关键帧Kt中的状态,并且状态的取值由目标检测的边界框所在区域决定的;若特征点xi落入动态物体的目标检测结果的边界框内,将其确定为动态点,那么它的St(xi)取值为1;反之,剩下的在动态物体的目标检测结果的边界框以外的点被认为是静态点,则其St(xi)取值为0;α表示用来平滑实时检测结果的影响因子,值较高时表示对实时的检测结果更加敏感,而较低的值表示综合考虑了更多的源自多视图几何的历史性结果;
每个特征点的动态概率通过两种方式进行逐帧地估算和更新:特征匹配和匹配点扩展;当前帧中特征点的动态概率从上一帧中的点传播而来;在特征匹配过程中,当一个3D特征点xi匹配到另一个位于上一帧与3D特征点xi对应的特征点
Figure FDA0002686611080000031
则动态概率值
Figure FDA0002686611080000032
就传播给3D特征点xi;另外,当一个当前帧的特征点匹配到局部地图中的任意3D地图点时,也赋予当前帧的特征点与任意3D地图点等值的动态概率
Figure FDA0002686611080000033
而且,如果3D特征点xi在上一帧和局部地图中都具有对应的匹配点,那么应该选择局部地图中地图点的概率值作为其动态概率;然后,在该帧中,将初始概率值Pinit赋予其他未匹配的点,并将概率值取为0.5,通过特征匹配操作传播动态概率的公式如下:
Figure FDA0002686611080000034
其中,
Figure FDA0002686611080000035
分别表示表示点
Figure FDA0002686611080000036
的ORB特征点矩阵;θ是特征匹配的阈值;采用匹配点扩展的方法将动态概率从高置信度点扩展到在特征匹配过程中其余未匹配的邻近的点;在动态概率通过特征匹配方法传播之后,包括静态和动态特征点的高置信度值点xt,被选作以半径大小为r的圆心点,在圆域内继续扩展其影响范围,并且将受到影响的特征点归属于动态或静态区域;接下来,继续在该区域内搜索未匹配的点,并且根据以下等式更新找到的点的概率值:
Figure FDA0002686611080000037
Figure FDA0002686611080000038
式中,Pinit表示初始动态概率值;e是指数函数,若一个点受多个高置信度点的影响,则将这些相邻的高置信度点的所有影响值求和;将高置信度点的影响包括动态概率的差异表示为
Figure FDA0002686611080000041
其中
Figure FDA0002686611080000042
表示高置信度点的概率值,
Figure FDA0002686611080000043
是高置信度点,λ(d)表示距离因子,d表示未匹配的点到已知概率值的特征点的距离,C代表常数;
随后,在跟踪线程中,在相机位姿估计之前,删除位于图像帧中动态区域内的特征点和局部地图中的动态地图点,成功地获取更加鲁棒且准确的相机运动估计结果;局部地图中动态3D点的概率分布保持持续地更新,传播至后续的图像帧中并反馈给动态对象概率模型。
4.根据权利要求1所述的基于深度学习之目标检测的视觉SLAM方法,其特征在于上述步骤(3)中,将所述初始化地图继续依次序进行跟踪、局部建图以及回环检测过程,从而在动态场景下构建出准确的三维地图,具体方法如下:
通过之前经过深度学习的目标检测算法和动态对象概率模型获得的初始地图进行系统的初始位姿估计或重定位,然后跟踪已经创建的局部地图,优化相机位姿,进一步确定新的关键帧;确定关键帧以后,在局部建图线程中插入关键帧,并且剔除冗余的地图点和关键帧,随后进行局部集束调整过程;回环检测过程,包括候选帧的检测,计算Sim3,闭环融合与闭环优化;最终构建出动态场景下的准确三维场景地图,实现面向动态场景的基于深度学习之目标检测的视觉SLAM。
CN202010978338.XA 2020-09-17 2020-09-17 一种基于深度学习之目标检测的视觉slam方法 Pending CN112884835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978338.XA CN112884835A (zh) 2020-09-17 2020-09-17 一种基于深度学习之目标检测的视觉slam方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978338.XA CN112884835A (zh) 2020-09-17 2020-09-17 一种基于深度学习之目标检测的视觉slam方法

Publications (1)

Publication Number Publication Date
CN112884835A true CN112884835A (zh) 2021-06-01

Family

ID=76042880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978338.XA Pending CN112884835A (zh) 2020-09-17 2020-09-17 一种基于深度学习之目标检测的视觉slam方法

Country Status (1)

Country Link
CN (1) CN112884835A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511970A (zh) * 2022-11-23 2022-12-23 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) 一种面向自主泊车的视觉定位方法
CN115565057A (zh) * 2021-07-02 2023-01-03 北京小米移动软件有限公司 地图生成方法、装置、足式机器人及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150098615A1 (en) * 2013-10-04 2015-04-09 Qualcomm Incorporated Dynamic extension of map data for object detection and tracking
US20170161546A1 (en) * 2015-12-08 2017-06-08 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting and Tracking Objects and SLAM with Hierarchical Feature Grouping
CN110378997A (zh) * 2019-06-04 2019-10-25 广东工业大学 一种基于orb-slam2的动态场景建图与定位方法
CN110599522A (zh) * 2019-09-18 2019-12-20 成都信息工程大学 一种视频序列中动态目标检测剔除方法
CN110738667A (zh) * 2019-09-25 2020-01-31 北京影谱科技股份有限公司 一种基于动态场景的rgb-d slam方法和系统
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法
CN111311708A (zh) * 2020-01-20 2020-06-19 北京航空航天大学 一种基于语义光流和逆深度滤波的视觉slam方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150098615A1 (en) * 2013-10-04 2015-04-09 Qualcomm Incorporated Dynamic extension of map data for object detection and tracking
US20170161546A1 (en) * 2015-12-08 2017-06-08 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting and Tracking Objects and SLAM with Hierarchical Feature Grouping
CN110378997A (zh) * 2019-06-04 2019-10-25 广东工业大学 一种基于orb-slam2的动态场景建图与定位方法
CN110599522A (zh) * 2019-09-18 2019-12-20 成都信息工程大学 一种视频序列中动态目标检测剔除方法
CN110738667A (zh) * 2019-09-25 2020-01-31 北京影谱科技股份有限公司 一种基于动态场景的rgb-d slam方法和系统
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法
CN111311708A (zh) * 2020-01-20 2020-06-19 北京航空航天大学 一种基于语义光流和逆深度滤波的视觉slam方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANGWEI ZHONG ET AL.: "Detect-SLAM:Making Object Detection and SLAM Mutually Beneficial", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》, pages 1001 - 1010 *
王金戈;邹旭东;仇晓松;蔡浩原;: "动态环境下结合语义的鲁棒视觉SLAM", 传感器与微系统, no. 05, pages 131 - 134 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565057A (zh) * 2021-07-02 2023-01-03 北京小米移动软件有限公司 地图生成方法、装置、足式机器人及存储介质
CN115565057B (zh) * 2021-07-02 2024-05-24 北京小米移动软件有限公司 地图生成方法、装置、足式机器人及存储介质
CN115511970A (zh) * 2022-11-23 2022-12-23 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) 一种面向自主泊车的视觉定位方法

Similar Documents

Publication Publication Date Title
CN108710868B (zh) 一种基于复杂场景下的人体关键点检测系统及方法
Fan et al. Pothole detection based on disparity transformation and road surface modeling
CN110084850B (zh) 一种基于图像语义分割的动态场景视觉定位方法
CN112132897A (zh) 一种基于深度学习之语义分割的视觉slam方法
CN109344285B (zh) 一种面向监控的视频图谱构建和挖掘方法、设备
Tissainayagam et al. Object tracking in image sequences using point features
CN103971386B (zh) 一种动态背景场景下的前景检测方法
CN111563442A (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
Delmerico et al. Building facade detection, segmentation, and parameter estimation for mobile robot localization and guidance
Rout A survey on object detection and tracking algorithms
CN112288857A (zh) 一种基于深度学习的机器人语义地图物体识别方法
CN111340881B (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
CN109919053A (zh) 一种基于监控视频的深度学习车辆停车检测方法
CN111046856A (zh) 基于动静态特征提取并行位姿跟踪与地图创建的方法
KR101460313B1 (ko) 시각 특징과 기하 정보를 이용한 로봇의 위치 추정 장치 및 방법
CN112308921B (zh) 一种基于语义和几何的联合优化动态slam方法
CN112446882A (zh) 一种动态场景下基于深度学习的鲁棒视觉slam方法
CN112884835A (zh) 一种基于深度学习之目标检测的视觉slam方法
Fakhfakh et al. Background subtraction and 3D localization of moving and stationary obstacles at level crossings
CN113689459B (zh) 动态环境下基于gmm结合yolo实时跟踪与建图方法
Palazzolo et al. Change detection in 3d models based on camera images
CN111241943A (zh) 自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
Fanani et al. CNN-based multi-frame IMO detection from a monocular camera
Altaf et al. Presenting an effective algorithm for tracking of moving object based on support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination