CN111340881A - 一种动态场景下基于语义分割的直接法视觉定位方法 - Google Patents

一种动态场景下基于语义分割的直接法视觉定位方法 Download PDF

Info

Publication number
CN111340881A
CN111340881A CN202010098733.9A CN202010098733A CN111340881A CN 111340881 A CN111340881 A CN 111340881A CN 202010098733 A CN202010098733 A CN 202010098733A CN 111340881 A CN111340881 A CN 111340881A
Authority
CN
China
Prior art keywords
image
points
dynamic
semantic
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010098733.9A
Other languages
English (en)
Other versions
CN111340881B (zh
Inventor
潘树国
盛超
高旺
谭涌
赵涛
喻国荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010098733.9A priority Critical patent/CN111340881B/zh
Publication of CN111340881A publication Critical patent/CN111340881A/zh
Application granted granted Critical
Publication of CN111340881B publication Critical patent/CN111340881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种动态场景下基于语义分割的直接法视觉定位方法,属于SLAM同步定位与建图领域;本发明首先采用深度学习中的语义分割技术对图像中的动态物体进行分割,获得像素级别的动态物体语义信息;在此基础上,从原始图像中根据像素点梯度信息提取候选点并根据语义信息对动态区域的候选点进行剔除,仅保留静态区域的候选点;然后基于保留的候选点采取融合图像语义信息的金字塔模型估计相机位姿;最后基于滑动窗口优化并结合图像语义信息对关键帧的位姿进行优化。实验结果表明,在动态环境下,本发明公开的方法的定位精度较现有系统提升71%‑86%。

Description

一种动态场景下基于语义分割的直接法视觉定位方法
技术领域
本发明涉及深度学习在视觉里程计(Visual odometry)中的应用,属于SLAM(Simultaneous Localization and Mapping)同步定位与建图领域。
背景技术
视觉SLAM(同时定位与建图,带有回环检测)或VO(视觉里程计,不带回环检测)是机器人在未知环境下自主运行的关键技术。基于机器人外部传感器检测到的环境数据,SLAM构造了机器人的周围环境图,同时给出了机器人在环境图中的位置。与雷达、声纳等测距仪器相比,视觉传感器具有体积小、功耗低、信息采集丰富等特点,能够在外部环境中提供丰富的纹理信息。因此,视觉SLAM已经成为当前研究的热点,并应用于自主导航、VR/AR等领域。
传统的视觉SLAM(带有回环检测)或者VO(不带回环检测)在恢复场景信息和相机运动时是基于静态环境假设的。场景中的动态物体会影响定位精度。目前,传统的基于点特征的视觉SLAM算法通过检测动态点并将其标记为外点来处理简单的动态场景问题。ORB-SLAM通过 RANSAC、卡方检验、关键帧法和局部地图减少了动态物体对定位精度的影响。2013年,有学者提出了一种新的关键帧表达和更新方法,用于对动态环境进行自适应建模,有效地检测和处理动态环境中的外观或结构变化。同年,有学者引入了多摄像机间姿态估计和建图的方法用于处理动态场景。2018年有学者提出将深度学习中的语义分割技术与现有的SLAM或者VO系统结合,通过语义分割获得场景中的动态物体先验信息,在特征点提取过程中剔除动态物体特征,为后续定位提供稳健的静态区域特征点。上述基于深度学习的方法都是特征点法,显著提高了基于特征点的视觉SLAM系统在动态环境下的定位精度和鲁棒性。基于直接法的SLAM 或VO在动态场景中的定位精度有待提高。
发明内容
本发明所要解决的技术问题是:
为了提升传统VO在动态场景下的定位精度和鲁棒性,提供一种动态场景下基于语义分割的直接法视觉定位方法,能够对场景中的动态物体进行分割,降低场景中的动态物体对定位的干扰。
本发明为解决上述技术问题采用以下技术方案:
一种动态场景下基于语义分割的直接法视觉定位方法,包括以下步骤:
步骤1、采集原始图像,并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体,获得包含动态物体像素级语义信息的语义图像;
步骤2、在所述原始图像中提取候选点,并根据步骤1获取的语义图像剔除动态区域候选点,仅保留静态区域候选点;
步骤3、基于步骤2中保留的静态区域候选点,结合图像金字塔模型和步骤1获取的语义图像估计相机位姿;
步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。
作为本发明一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤1中,获得包含动态物体像素级语义信息的语义图像,具体包含如下步骤:
步骤1.1、定义常见动态物体类别,所定义类别中,动态物体包括:人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿;
步骤1.2、对于原始图像I,将其输入到语义分割卷积神经网络Mask R-CNN中对图像中包含的步骤1.1所述动态物体进行分割,获得包含动态物体像素级语义信息的语义图像Isem;其中,所述语义分割卷积神经网络Mask R-CNN已知;Isem是黑白图像,其中,黑色区域像素值为0,且代表动态区域;白色区域像素值为1,且代表静态区域;
步骤1.3、对由原始图像组成的图像序列I={I1,I2,I3,I4,…,In}进行所述步骤1.1至1.2的操作,最终得到仅包含动态物体的语义图像序列
Figure BDA0002386190750000021
作为本发明一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤2中,在原始图像中提取候选点,并保留静态区域候选点,具体包含如下步骤:
步骤2.1、对于关键帧Ii,将其划分成d×d的图像块;
步骤2.2、设定梯度阈值T,对于每一个图像块,选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点;
步骤2.3、若图像块中所有像素点的梯度均小于阈值T,令T'=0.75×T,选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点;
步骤2.4、设定像素间隔D,记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4
步骤2.5、对于p点及其相邻的p1,p2,p3,p4,根据语义图像
Figure BDA0002386190750000022
中对应位置的像素值
Figure BDA0002386190750000023
判断是否将p点保存为候选点:
Figure BDA0002386190750000024
中,有一项为0,则认为预选候选点p处于动态区域,执行剔除操作;
Figure BDA0002386190750000025
全部为1,则认为预选候选点p处于静态区域,执行保留操作。
作为本发明一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤3中,采用金字塔模型恢复相机运动,具体包含如下步骤:
步骤3.1、对于关键帧Ii,以0.5的缩放因子对图像进行缩放,分别获得相对于Ii分辨率
Figure BDA0002386190750000031
的图像,将Ii与缩放后的三张图像按照分辨率由低到高的顺序构造图像金字塔,图像金字塔第k层图像记为
Figure BDA0002386190750000032
并对金字塔各层进行如步骤2所述的静态区域候选点提取;
步骤3.2、对于后续帧Ij及其对应的语义图像
Figure BDA0002386190750000033
构造与步骤3.1同样的图像金字塔,图像金字塔第k层的图像分别记为记为
Figure BDA0002386190750000034
Figure BDA0002386190750000035
步骤3.3、对于
Figure BDA0002386190750000036
中的单个候选点p,计算其投影到图像
Figure BDA0002386190750000037
上形成的光度误差:
Figure BDA0002386190750000038
其中,p'是p在
Figure BDA0002386190750000039
上的投影点,ti和tj分别是图像Ii和Ij的曝光时间,ai,aj,bi,bj是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber 范数;
步骤3.4、对于每个候选点p,根据其在
Figure BDA00023861907500000310
中投影点p'的位置,计算一个剔除标签
Figure BDA00023861907500000311
决定该点的投影残差是否去除:
Figure BDA00023861907500000312
步骤3.5、将
Figure BDA00023861907500000313
中各点的投影残差进行累加,并剔除投影到动态区域的残差,得到了金字塔第k 层的投影残差和:
Figure BDA00023861907500000314
步骤3.6、以在k-1层的相对位姿优化结果Tk-1作为本次优化的初值,利用高斯牛顿法对
Figure BDA00023861907500000315
进行优化,可以获得关键帧
Figure BDA00023861907500000316
和后续帧
Figure BDA00023861907500000317
之间的相对位姿Tk
步骤3.7、对金字塔的所有层按照由上至下的顺序重复步骤3.3-3.6,最终获得关键帧Ii和后续帧Ij之间的相对位姿Tk
作为本发明一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤4中,采用滑动窗口和语义信息对关键帧位姿进行优化,具体包含如下步骤:
步骤4.1、对于关键帧Ii中的单个点p,它投影到滑动窗口中另一关键帧Il上形成的光度误差为:
Figure BDA0002386190750000041
其中p'是p在Il上的投影点,ti和tl分别是图像Ii和Il的曝光时间,ai,al,bi,bl是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber 范数;
步骤4.2、对于关键帧Ii每个候选点p,根据其在Il中投影点p'的位置,计算一个剔除标签Cpl决定该点的投影残差是否去除:
Figure BDA0002386190750000042
步骤4.3、遍历滑动窗口内的所有关键帧,将关键帧中的所有候选点向窗口内其他关键帧进行投影,统计并累加所有的光度误差:
Figure BDA0002386190750000043
其中,F是滑动窗口内所有关键帧的集合,Pi是关键帧Ii中所有候选点的集合,obs(p)指能够观测到p点的关键帧集合;
步骤4.4、利用高斯牛顿法对Efull进行优化,即可获得所有关键帧的优化后的位姿,完成对相机运动的跟踪。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割,得到语义图像;在此基础上,从原始图像中提取候选点并根据语义图像对动态物体候选点进行剔除,从而提升了传统基于直接法的视觉里程计在动态场景下的定位精度和鲁棒性;
2、本发明提出的方法定位结果优于传统的DSO的定位结果,在动态场景中的定位精度提高71%到86%。
附图说明
图1是本方法流程图;
图2是图像金字塔表示图;
图3是DSO在三个动态序列中的定位轨迹平面图;
图4是本方法在三个动态序列中的定位轨迹平面图;
图5是DSO与本方法在三个动态序列的定位轨迹误差对比图;
图6是DSO与本方法在三个动态序列的x,y,z三轴上的定位结果对比图;
图7是DSO与本方法在三个动态序列的定位误差箱型图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
随着深度学习技术的发展,人们对图像的语义信息进行了探索,借此提高视觉SLAM的性能。语义分割是计算机视觉中的基本任务,在语义分割中需要将视觉输入分为不同的语义可解释类别。本发明提出一种动态场景下基于语义分割的直接法视觉定位方法,旨在通过降低动态物体干扰,提高动态场景下视觉里程计的定位精度,同时可以获得场景丰富的语义信息。
本发明提出一种动态场景下基于语义分割的直接法视觉定位方法,图1是本方法流程图。本发明首先采用深度学习中的语义分割技术对图像中的动态物体进行分割,获得像素级别的动态物体语义信息;在此基础上,从原始图像中根据像素点梯度信息提取候选点并根据语义信息对动态区域的候选点进行剔除,仅保留静态区域的候选点;然后基于保留的候选点采取融合图像语义信息的金字塔模型估计相机位姿;最后基于滑动窗口优化并结合图像语义信息对关键帧的位姿进行优化,完成对相机的运动跟踪。
步骤1,获得包含动态物体像素级语义信息的语义图像:
步骤1.1、定义常见动态物体类别,所定义类别中,动态物体包括:人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿;
步骤1.2、对于原始图像I,将其输入到语义分割卷积神经网络Mask R-CNN中对图像中包含的步骤1.1.1所述动态物体进行分割,获得包含动态物体像素级语义信息的语义图像Isem。其中所述MaskR-CNN已知;Isem是黑白图像,其中黑色区域像素值为0,代表动态区域;白色区域像素值为1,代表静态区域;
步骤1.3、对由原始图像组成的图像序列I={I1,I2,I3,I4,…,In}进行所述步骤1.1.1至1.1.2 的操作,最终得到仅包含动态物体的语义图像序列
Figure BDA0002386190750000051
步骤2,在原始图像中提取候选点,并保留静态区域候选点:
步骤2.1、对于关键帧Ii,将其划分成d×d的图像块;
步骤2.2、设定梯度阈值T,对于每一个图像块,选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点;
步骤2.3、若图像块中所有像素点的梯度均小于阈值T,令T'=0.75×T,选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点;
步骤2.4、设定像素间隔D,记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4
步骤2.5、对于p点及其相邻的p1,p2,p3,p4,根据语义图像
Figure BDA0002386190750000061
中对应位置的像素值
Figure BDA0002386190750000062
判断是否将p点保存为候选点:
Figure BDA0002386190750000063
中,有一项为0,则认为预选候选点p处于动态区域,执行剔除操作;
Figure BDA0002386190750000064
全部为1,则认为预选候选点p处于静态区域,执行保留操作;
步骤3,采用金字塔模型恢复相机运动:
步骤3.1、对于关键帧Ii,以0.5的缩放因子对图像进行缩放,分别获得相对于Ii分辨率
Figure BDA0002386190750000065
的图像,将Ii与缩放后的三张图像按照分辨率由低到高的顺序构造如图2所示的图像金字塔,图像金字塔第k层的图像记为
Figure BDA0002386190750000066
并对金字塔各层进行如步骤2所述的静态区域候选点提取;
步骤3.2、对于后续帧Ij及其对应的语义图像
Figure BDA0002386190750000067
构造与步骤1.3.1同样的图像金字塔,如图2所示,图像金字塔第k层的图像分别记为
Figure BDA0002386190750000068
Figure BDA0002386190750000069
步骤3.3、对于
Figure BDA00023861907500000610
中的单个候选点p,计算其投影到图像
Figure BDA00023861907500000611
上形成的光度误差:
Figure BDA00023861907500000612
其中p'是p在
Figure BDA00023861907500000613
上的投影点,ti和tj分别是图像Ii和Ij的曝光时间,ai,aj,bi,bj是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber 范数;
步骤3.4、对于每个候选点p,根据其在
Figure BDA00023861907500000614
中投影点p'的位置,计算一个剔除标签
Figure BDA00023861907500000615
决定该点的投影残差是否去除:
Figure BDA00023861907500000616
步骤3.5、将
Figure BDA0002386190750000071
中各点的投影残差进行累加,并剔除投影到动态区域的残差,得到了金字塔第k 层的投影残差和:
Figure BDA0002386190750000072
步骤3.6、以在k-1层的相对位姿优化结果Tk-1作为本次优化的初值,利用高斯牛顿法对
Figure BDA0002386190750000073
进行优化,可以获得关键帧
Figure BDA0002386190750000074
和后续帧
Figure BDA0002386190750000075
之间的相对位姿Tk
步骤3.7、对金字塔的所有层按照由上至下的顺序重复步骤1.3.3-1.3.6,最终获得关键帧Ii和后续帧Ij之间的相对位姿Tk
步骤4,采用滑动窗口和语义信息对关键帧位姿进行优化:
步骤4.1、对于关键帧Ii中的单个点p,它投影到滑动窗口中另一关键帧Il上形成的光度误差为:
Figure BDA0002386190750000076
其中p'是p在Il上的投影点,ti和tl分别是图像Ii和Il的曝光时间,ai,al,bi,bl是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber 范数;
步骤4.2、对于关键帧Ii每个候选点p,根据其在Il中投影点p'的位置,计算一个剔除标签Cpl决定该点的投影残差是否去除:
Figure BDA0002386190750000077
步骤4.3、遍历滑动窗口内的所有关键帧,将关键帧中的所有候选点向窗口内其他关键帧进行投影,统计并累加所有的光度误差:
Figure BDA0002386190750000078
其中F是滑动窗口内所有关键帧的集合,Pi是关键帧Ii中所有候选点的集合,obs(p)指能够观测到p点的关键帧集合。
步骤4.4、利用高斯牛顿法对Efull进行优化,即可获得所有关键帧的优化后的位姿。
实施例一
本发明利用添加动态物体噪声的Euroc公开数据集详细评估在场景中的定位性能。Euroc 数据集中的图像的采集频率为20Hz,分辨率为752x480,每张图片均匹配由运动捕获系统提供的高精度位姿真值,是静态场景数据集。我们将连续运动的动态行人视为一种噪声,人为合成到图像序列中,添加动态物体后的图像序列由静态场景变为动态场景。分别对Euroc数据集中的V1_01,V2_01,V2_02三个序列添加了动态物体,并记修改后的数据序列的名称分别为V101_syn,V201_syn,V202_syn。,
实验基于一台配备有128GB内存、Intel Xeon E5-2690V4 CPU(14核,2.6GHz)和Nvidia TitanV GPU(12G显存)的深度学习工作站,系统版本为Ubuntu 16.04。
图3和图4展示了DSO与本方法在V101_syn,V201_syn,V202_syn中的定位轨迹平面图,本方法估计的轨迹相较于DSO更加与真值更加贴近。
图5对比了本方法与DSO在V101_syn,V201_syn,V202_syn的定位轨迹误差对比图。从中可以看出,DSO的误差在相当一部分时间超过了1m,且波动明显。在V202_syn序列中的误差最大值超过了4m,不能满足室内定位的精度需求。本方法的轨迹误差较DSO降低非常明显,最大值为V202_syn序列中的0.557m,且整个定位过程误差波动幅度小。
图6为DSO与本法估计轨迹的xyz三轴定位结果随时间的变化情况,可以看出,相较于 DSO,本方法在各个轴中的定位结果均与真值均更加贴近。
图7为本法与DSO的轨迹误差的箱形图,用于分析误差的离散分布情况。对比发现,在三个数据序列中,本文方法定位误差的上限和下限值均低于DSO,中位数和上下四分位数较小,异常值较少,箱体扁平,表明本方法的轨迹误差分布较为集中,验证了本法在三个动态场景数据序列中的定位精度和算法鲁棒性均优于DSO。
表1给出了本方法与DSO在V101_syn,V201_syn,V202_syn三个动态场景序列的轨迹误差统计结果。从均方根误差(RMSE)可以看出,本文算法通过结合图像语义分割后,定位精度较DSO提升71%-86%。
表1
Figure BDA0002386190750000081
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于,包括以下步骤:
步骤1、采集原始图像,并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体,获得包含动态物体像素级语义信息的语义图像;
步骤2、在所述原始图像中提取候选点,并根据步骤1获取的语义图像剔除动态区域候选点,仅保留静态区域候选点;
步骤3、基于步骤2中保留的静态区域候选点,结合图像金字塔模型和步骤1获取的语义图像估计相机位姿;
步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。
2.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤1中,获得包含动态物体像素级语义信息的语义图像,具体包含如下步骤:
步骤1.1、定义常见动态物体类别,所定义类别中,动态物体包括:人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿;
步骤1.2、对于原始图像I,将其输入到语义分割卷积神经网络Mask R-CNN中对图像中包含的步骤1.1所述动态物体进行分割,获得包含动态物体像素级语义信息的语义图像Isem;其中,所述语义分割卷积神经网络Mask R-CNN已知;Isem是黑白图像,其中,黑色区域像素值为0,且代表动态区域;白色区域像素值为1,且代表静态区域;
步骤1.3、对由原始图像组成的图像序列I={I1,I2,I3,I4,…,In}进行所述步骤1.1至1.2的操作,最终得到仅包含动态物体的语义图像序列
Figure 1
3.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤2中,在原始图像中提取候选点,并保留静态区域候选点,具体包含如下步骤:
步骤2.1、对于关键帧Ii,将其划分成d×d的图像块;
步骤2.2、设定梯度阈值T,对于每一个图像块,选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点;
步骤2.3、若图像块中所有像素点的梯度均小于阈值T,令T'=0.75×T,选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点;
步骤2.4、设定像素间隔D,记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4
步骤2.5、对于p点及其相邻的p1,p2,p3,p4,根据语义图像
Figure FDA0002386190740000012
中对应位置的像素值
Figure FDA0002386190740000013
判断是否将p点保存为候选点:
Figure FDA0002386190740000014
中,有一项为0,则认为预选候选点p处于动态区域,执行剔除操作;
Figure FDA0002386190740000021
全部为1,则认为预选候选点p处于静态区域,执行保留操作。
4.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤3中,采用金字塔模型恢复相机运动,具体包含如下步骤:
步骤3.1、对于关键帧Ii,以0.5的缩放因子对图像进行缩放,分别获得相对于Ii分辨率
Figure FDA0002386190740000022
的图像,将Ii与缩放后的三张图像按照分辨率由低到高的顺序构造图像金字塔,图像金字塔第k层图像记为
Figure FDA0002386190740000023
并对金字塔各层进行如步骤2所述的静态区域候选点提取;
步骤3.2、对于后续帧Ij及其对应的语义图像
Figure FDA0002386190740000024
构造与步骤3.1同样的图像金字塔,图像金字塔第k层的图像分别记为记为
Figure FDA0002386190740000025
Figure FDA0002386190740000026
步骤3.3、对于
Figure FDA0002386190740000027
中的单个候选点p,计算其投影到图像
Figure FDA0002386190740000028
上形成的光度误差:
Figure FDA0002386190740000029
其中,p'是p在
Figure FDA00023861907400000210
上的投影点,ti和tj分别是图像Ii和Ij的曝光时间,ai,aj,bi,bj是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber范数;
步骤3.4、对于每个候选点p,根据其在
Figure FDA00023861907400000211
中投影点p'的位置,计算一个剔除标签
Figure FDA00023861907400000212
决定该点的投影残差是否去除:
Figure FDA00023861907400000213
步骤3.5、将
Figure FDA00023861907400000214
中各点的投影残差进行累加,并剔除投影到动态区域的残差,得到了金字塔第k层的投影残差和:
Figure FDA00023861907400000215
步骤3.6、以在k-1层的相对位姿优化结果Tk-1作为本次优化的初值,利用高斯牛顿法对
Figure FDA00023861907400000216
进行优化,可以获得关键帧
Figure FDA00023861907400000217
和后续帧
Figure FDA00023861907400000218
之间的相对位姿Tk
步骤3.7、对金字塔的所有层按照由上至下的顺序重复步骤3.3-3.6,最终获得关键帧Ii和后续帧Ij之间的相对位姿Tk
5.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤4中,采用滑动窗口和语义信息对关键帧位姿进行优化,具体包含如下步骤:
步骤4.1、对于关键帧Ii中的单个点p,它投影到滑动窗口中另一关键帧Il上形成的光度误差为:
Figure FDA0002386190740000031
其中p'是p在Il上的投影点,ti和tl分别是图像Ii和Il的曝光时间,ai,al,bi,bl是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber范数;
步骤4.2、对于关键帧Ii每个候选点p,根据其在Il中投影点p'的位置,计算一个剔除标签Cpl决定该点的投影残差是否去除:
Figure FDA0002386190740000032
步骤4.3、遍历滑动窗口内的所有关键帧,将关键帧中的所有候选点向窗口内其他关键帧进行投影,统计并累加所有的光度误差:
Figure FDA0002386190740000033
其中,F是滑动窗口内所有关键帧的集合,Pi是关键帧Ii中所有候选点的集合,obs(p)指能够观测到p点的关键帧集合;
步骤4.4、利用高斯牛顿法对Efull进行优化,即可获得所有关键帧的优化后的位姿,完成对相动的跟踪。
CN202010098733.9A 2020-02-18 2020-02-18 一种动态场景下基于语义分割的直接法视觉定位方法 Active CN111340881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010098733.9A CN111340881B (zh) 2020-02-18 2020-02-18 一种动态场景下基于语义分割的直接法视觉定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010098733.9A CN111340881B (zh) 2020-02-18 2020-02-18 一种动态场景下基于语义分割的直接法视觉定位方法

Publications (2)

Publication Number Publication Date
CN111340881A true CN111340881A (zh) 2020-06-26
CN111340881B CN111340881B (zh) 2023-05-19

Family

ID=71186970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010098733.9A Active CN111340881B (zh) 2020-02-18 2020-02-18 一种动态场景下基于语义分割的直接法视觉定位方法

Country Status (1)

Country Link
CN (1) CN111340881B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814683A (zh) * 2020-07-09 2020-10-23 北京航空航天大学 一种基于语义先验和深度学习特征的鲁棒视觉slam方法
CN112163502A (zh) * 2020-09-24 2021-01-01 电子科技大学 一种室内动态场景下的视觉定位方法
CN113592947A (zh) * 2021-07-30 2021-11-02 北京理工大学 一种半直接法的视觉里程计实现方法
CN113673524A (zh) * 2021-07-05 2021-11-19 北京物资学院 一种仓库半结构化环境动态特征点祛除方法及装置
CN113671522A (zh) * 2021-07-07 2021-11-19 中国人民解放军战略支援部队信息工程大学 基于语义约束的动态环境激光slam方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596974A (zh) * 2018-04-04 2018-09-28 清华大学 动态场景机器人定位建图系统及方法
CN110084850A (zh) * 2019-04-04 2019-08-02 东南大学 一种基于图像语义分割的动态场景视觉定位方法
CN110490222A (zh) * 2019-07-05 2019-11-22 广东工业大学 一种基于低性能处理器设备的半直接视觉定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596974A (zh) * 2018-04-04 2018-09-28 清华大学 动态场景机器人定位建图系统及方法
CN110084850A (zh) * 2019-04-04 2019-08-02 东南大学 一种基于图像语义分割的动态场景视觉定位方法
CN110490222A (zh) * 2019-07-05 2019-11-22 广东工业大学 一种基于低性能处理器设备的半直接视觉定位方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814683A (zh) * 2020-07-09 2020-10-23 北京航空航天大学 一种基于语义先验和深度学习特征的鲁棒视觉slam方法
CN112163502A (zh) * 2020-09-24 2021-01-01 电子科技大学 一种室内动态场景下的视觉定位方法
CN112163502B (zh) * 2020-09-24 2022-07-12 电子科技大学 一种室内动态场景下的视觉定位方法
CN113673524A (zh) * 2021-07-05 2021-11-19 北京物资学院 一种仓库半结构化环境动态特征点祛除方法及装置
CN113671522A (zh) * 2021-07-07 2021-11-19 中国人民解放军战略支援部队信息工程大学 基于语义约束的动态环境激光slam方法
CN113671522B (zh) * 2021-07-07 2023-06-27 中国人民解放军战略支援部队信息工程大学 基于语义约束的动态环境激光slam方法
CN113592947A (zh) * 2021-07-30 2021-11-02 北京理工大学 一种半直接法的视觉里程计实现方法
CN113592947B (zh) * 2021-07-30 2024-03-12 北京理工大学 一种半直接法的视觉里程计实现方法

Also Published As

Publication number Publication date
CN111340881B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
Gurghian et al. Deeplanes: End-to-end lane position estimation using deep neural networksa
CN111340881B (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
Lin et al. Depth estimation from monocular images and sparse radar data
CN106845374B (zh) 基于深度学习的行人检测方法及检测装置
CN110084850B (zh) 一种基于图像语义分割的动态场景视觉定位方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
Rout A survey on object detection and tracking algorithms
Košecka Detecting changes in images of street scenes
CN111368759B (zh) 基于单目视觉的移动机器人语义地图构建系统
Bešić et al. Dynamic object removal and spatio-temporal RGB-D inpainting via geometry-aware adversarial learning
Masoumian et al. Absolute Distance Prediction Based on Deep Learning Object Detection and Monocular Depth Estimation Models.
CN114565675A (zh) 一种在视觉slam前端去除动态特征点的方法
Balaska et al. Enhancing satellite semantic maps with ground-level imagery
Naufal et al. Preprocessed mask RCNN for parking space detection in smart parking systems
CN113516664A (zh) 一种基于语义分割动态点的视觉slam方法
Mayr et al. Self-supervised learning of the drivable area for autonomous vehicles
Ali et al. Vehicle detection and tracking in UAV imagery via YOLOv3 and Kalman filter
CN106056078A (zh) 一种基于多特征回归式集成学习的人群密度估计方法
Wen et al. Dynamic SLAM: A Visual SLAM in Outdoor Dynamic Scenes
Harianto et al. Data augmentation and faster rcnn improve vehicle detection and recognition
Sezen et al. Deep learning-based door and window detection from building façade
Schulz et al. Object-class segmentation using deep convolutional neural networks
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant