CN111899280B - 采用深度学习和混合型位姿估计的单目视觉里程计方法 - Google Patents

采用深度学习和混合型位姿估计的单目视觉里程计方法 Download PDF

Info

Publication number
CN111899280B
CN111899280B CN202010667153.7A CN202010667153A CN111899280B CN 111899280 B CN111899280 B CN 111899280B CN 202010667153 A CN202010667153 A CN 202010667153A CN 111899280 B CN111899280 B CN 111899280B
Authority
CN
China
Prior art keywords
image
optical flow
network
estimation
pose estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010667153.7A
Other languages
English (en)
Other versions
CN111899280A (zh
Inventor
王宏健
班喜程
李娟�
李庆
肖瑶
汤扬华
韩宇辰
刘越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010667153.7A priority Critical patent/CN111899280B/zh
Publication of CN111899280A publication Critical patent/CN111899280A/zh
Application granted granted Critical
Publication of CN111899280B publication Critical patent/CN111899280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C22/00Measuring distance traversed on the ground by vehicles, persons, animals or other moving solid bodies, e.g. using odometers, using pedometers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种采用深度学习和混合型位姿估计的单目视觉里程计方法,包括:利用深度学习神经网络估计连续图像间光流场并从光流场提取关键点匹配对。关键点匹配对作为输入,根据2d‑2d位姿估计原理,利用对极几何的方法初步计算出旋转矩阵和平移向量。利用深度神经网络估计得到单目图像深度场,结合几何理论三角测量方法,以深度场为参考值,使用RANSAC算法计算得到绝对尺度,将位姿从归一化坐标系转到真实坐标系,当2d‑2d位姿估计失败或绝对尺度估计失败,利用3d‑2d位姿估计原理,利用PnP算法进行位姿估计。本发明能够得到精确的位姿估计和绝对尺度估计、具有较好鲁棒性、在不同场景环境下都能够很好的复现出相机轨迹。

Description

采用深度学习和混合型位姿估计的单目视觉里程计方法
技术领域
本发明涉及一种单目视觉里程计方法,特别是一种采用深度学习和混合型位姿估计的单目视觉里程计方法,属于同时定位与地图构建(simultaneous localization andmapping,SLAM)技术领域。
背景技术
同时定位与地图构建主要应用于机器人、无人机、无人驾驶、增强现实、虚拟现实等领域,是指运动物体根据传感器的信息,一边计算自身位置,一边构建环境地图的过程,解决机器人等在未知环境下运动时的定位与地图构建问题。视觉里程计作为同时定位与地图构建的核心组成部分之一,能够定位机器人自身在环境中所在位置,估计出6自由度的相对运动状态信息,包括3自由度的位移信息和3自由度的旋转信息,再通过相对运动信息计算出绝对位置信息,进而复现出机器人的行驶轨迹。单目视觉里程计的问题可以概括为:机器人在未知环境下从未知的初始位置开始移动,在移动过程中根据位置预测和机载单目相机进行自身相对于周围环境的位姿估计,实现机器人的自主定位和导航并复现出行驶轨迹的过程。
当前,一些基于深度学习的视觉里程计方法已被提出来,S.Wang等人所著“DeepVO:Towards end-to-end Visual Odometry with Deep Recurrent ConvolutionalNeural Networks,”(Proceedings of the IEEE International Conference onRobotics and Automation,Singapore,pp.2043-2050,2017.)提出一种有监督训练方式的端到端的单目视觉里程计,该方法以一对图像帧为输入,通过数据驱动的方法优化网络权重,使网络能够以端到端的方式估计出相对位移和旋转。但是,该方法的位姿估计精度完全依赖于网络的训练效果,没有利用到位姿估计的几何理论,实际上,该方法对旋转信息的估计误差较大。R.Mur-Artal等人所著的“ORB-SLAM:a Versatile and Accurate MonocularSLAM System,”(IEEE Trans.on Robotics,vol.31,no.5,pp.1147-1163,2015.)提出的ORB-SLAM作为一个经典的系统,完全采用传统方法搭建,没有使用深度学习技术。使用单目相机的ORB-SLAM系统是无法估计出单目尺度的,这是传统单目视觉里程计的通病,只有使用真值(ground truth,GT)作为辅助参数才能估计出绝对尺度值,才能实现准确的定位。V.Abhinav等人所著的“Deep Auxiliary Learning for Visual Localization andOdometry”,(Proceedings of the IEEE International Conference on Robotics andAutomation,Brisbane,Australia,pp.6939-6946,2018.)提出了名为VLocNet的视觉里程计方法,该方法使用三个神经网络,其中一个网络用于全局位姿估计,另两个网络用于里程计估计,三个网络共同工作实现了一个6自由度的全局位姿估计。与第一种方法类似,该方法仍然仅依靠神经网络估计位姿状态,而没有利用几何理论在位姿估计上的优势,该方法的泛化能力有待提高。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种能够得到精确的位姿估计和绝对尺度估计结果、具有较好的鲁棒性、在不同场景环境下都能够很好的复现出相机轨迹的采用深度学习和混合型位姿估计的单目视觉里程计方法。
为解决上述技术问题,本发明的一种采用深度学习和混合型位姿估计的单目视觉里程计方法,包括以下步骤:
步骤1、初始迭代次数i=1,一组图像序列中两个相邻的图像构成图像对;
步骤2、利用稠密光流网络估计每组图像对之间的稠密光流场,并从光流场中提取出关键点;利用稠密深度网络估计出每组图像对中第一个图像的稠密深度场,并提取出图像深度值;
步骤3、判断i>1是否成立,当i>1不成立时,暂存得到的关键点和深度值,变换矩阵T1=I,并将T1保存至序列集,此时i<k成立,其中k为图像对个数,迭代次数加1并返回步骤2;当i>1成立时,执行步骤4;
步骤4、从稠密光流网络估计出的光流场中提取的关键点与上一次提取出的关键点匹配,得到两组二维的关键点之间的匹配对(2d-2d),采用对极几何的位姿估计算法计算出旋转矩阵R和平移向量t;如果得到的旋转矩阵R和平移向量t是有效的,则执行步骤5,如果是无效的,则执行步骤6;
步骤5、单目尺度估计:利用关键点匹配对通过三角测量法计算得到深度信息,并利用本次迭代得到的图像深度值通过随机抽样一致算法计算得到绝对尺度;判断尺度是否有效,如果尺度有效,则得到了本次迭代的变换矩阵Ti=(R,st),s为尺度,位姿从归一化坐标系变换到世界坐标系,判断i<k是否成立,当成立时,迭代次数加1并返回步骤2;否则,输出复现出的相机运动轨迹;如果尺度是无效的,则执行步骤6;
步骤6、利用前次迭代得到的图像深度值,将前次迭代得到的关键点从像素坐标系转化到世界坐标系,进而得到了关键点对应的空间点,将空间点和本次迭代得到的关键点构成匹配对(3d-2d),利用透视n点投影算法计算出旋转矩阵R`和平移向量t`,则得到了本次迭代的变换矩阵Ti=(R`,t`),判断i<k是否成立,当成立时,迭代次数加1并返回步骤2;否则,输出复现出的相机运动轨迹。
本发明还包括:
1.稠密光流网络包括空间金字塔特征提取网络和精密光流估计网络,其中,空间金字塔特征提取网络将连续的图像对转化为多尺度多维度的两个图像特征金字塔,一个是正序的,另一个是逆序的;精密光流估计网络逐层计算特征金字塔,然后将各层光流计算结果串联在一起,得到光流场。
2.稠密深度网络对每一帧图像进行稠密深度场信息估计,采用带有跳层连接的U-Net编码-解码网络框架。
发明的有益效果:
本发明设计一种单目视觉里程计方法,该方法充分利用了深度学习在图像处理领域的优势,并结合一种混合型的基于几何理论的位姿估计方法,该方法能够连续的估计图像序列的6自由度位姿信息,通过一帧接一帧(one-by-one)的方式复现出相机的运动轨迹。该方法能够得到精确的位姿估计和绝对尺度估计结果,并具有较好的鲁棒性,在不同场景环境下都能够很好的复现出相机轨迹。
与传统的单目视觉里程计方法相比较,本发明在特征点提取、尺度估计、大位移运动等情况下有出色的表现,如表1所示。在鲁棒性方面,本发明混合了2D/3D位姿估计理论并结合单目尺度估计,对于相机纯旋转或连续静止的运动情况,也能够有效的估计运动状态,不会发生程序崩溃的事情,使得本方法能够具有很好的鲁棒性。
本视觉里程计方法采用2d-2d与3d-2d混合位姿估计算法并结合单目尺度估计算法,使得提出的视觉里程计方法具有很好的鲁棒性,在各种极端的情况下都不会发生位姿估计失败的问题,例如纯旋转或相机连续静止的情况;应用深度学习网络提取相邻图像间的光流场,使本视觉里程计能够在相机大位移运动的图像序列下有效工作,即允许单目相机以高速运动下采集图像序列;3解决了传统直接法视觉里程计仅能工作在相机缓慢移动的情况下的问题;采用深度神经网络进行单目图像深度场的估计,并结合三角测量法计算出绝对尺度,使得视觉里程计能够实现精确的位姿估计结果,实现了单目视觉里程计的绝对尺度精确估计,且不需要图像序列提供真值(GT)。
表1本单目视觉里程计方法与传统单目视觉里程计方法的对比
附图说明
图1是所提出的基于深度学习和混合型位姿估计理论的单目视觉里程计方法的流程图;
图2(a)是稠密光流网络架构图;
图2(b)是精密光流估计网络中每个单元的详细框架;
图3是稠密深度网络架构图;
图4是对极几何约束示意图;
图5(a)选择KITTI VO/SLAM数据集中的序列3作为验证数据时三种技术方案实验结果对比图;
图5(b)选择KITTI VO/SLAM数据集中的序列5作为验证数据时三种技术方案实验结果对比图;
图5(c)选择KITTI VO/SLAM数据集中的序列7作为验证数据时三种技术方案实验结果对比图;
图5(d)选择KITTI VO/SLAM数据集中的序列10作为验证数据时三种技术方案实验结果对比图;
图6是本方法的混合型位姿估计方案中对极几何+尺度估计法和透视n点投影法各占工作量的百分比例;
图7(a)是在相机大位移运动情况下两个视觉里程计在原始图像序列下的轨迹复现结果;
图7(b)是在相机大位移运动情况下两个视觉里程计在间隔1个图像采样方式下的轨迹复现结果;
图7(c)是在相机大位移运动情况下两个视觉里程计在间2个图像采样方式下的轨迹复现结果;
图8(a)是选择KITTI VO/SLAM数据集中的序列5作为实验数据,以真值为指标三种技术方案位姿估计能力;
图8(b)是选择KITTI VO/SLAM数据集中的序列6作为实验数据,以真值为指标三种技术方案位姿估计能力;
图8(c)是选择KITTI VO/SLAM数据集中的序列7作为实验数据,以真值为指标三种技术方案位姿估计能力;
图8(d)是选择KITTI VO/SLAM数据集中的序列8作为实验数据,以真值为指标三种技术方案位姿估计能力;
图8(e)是选择KITTI VO/SLAM数据集中的序列9作为实验数据,以真值为指标三种技术方案位姿估计能力;
图8(f)是选择KITTI VO/SLAM数据集中的序列10作为实验数据,以真值为指标三种技术方案位姿估计能力;
图9(a)是各方法在不同轨迹长度条件下的平移误差对比结果
图9(b)是各方法在不同轨迹长度条件下的旋转误差对比结果。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
本方法采用两种深度学习网络:一种称为稠密光流网络,用于提取相邻图像之间的稠密光流场,另一种称为稠密深度网络,用于提取每帧单目图像的稠密深度场;从光流场中得到关键点匹配对,将关键点匹配对输入到混合型的2d-2d和3d-2d位姿估计算法中得到相对位姿信息。
结合图1,本发明单目视觉里程计方法实现过程为:
步骤一、在一组图像序列中,相邻的图像两两一组构成图像对,迭代的输入到本单目视觉里程计中,利用稠密光流网络估计每组图像对之间的稠密光流场,并从光流场中提取出关键点;利用稠密深度网络估计出该组图像对中首图像的稠密深度场,并提取出图像深度值。如果是第一次迭代,暂存得到的关键点和深度值,直接输出变换矩阵T1为单位矩阵I;本视觉里程计的位姿估计算法从第二次迭代开始工作。
步骤二、对于第二次及以后的迭代,从稠密光流网络估计出的光流场中,提取出关键点,与上一次迭代提取出的关键点匹配,得到关键点匹配对。这是两组二维的关键点之间的匹配对(2d-2d),采用对极几何的位姿估计算法计算出旋转矩阵R和平移向量t。
如果得到的旋转矩阵R和平移向量t是有效的,则执行步骤三,如果是无效的,则执行步骤四。
步骤三、该步骤的目的是单目尺度估计,利用关键点匹配对通过三角测量法计算得到深度信息,并利用本次迭代得到的图像深度值,通过随机抽样一致(RANSAC)算法计算得到绝对尺度,进而将位姿从归一化坐标系转到世界坐标系。判断尺度是否有效,如果尺度有效,则得到了本次迭代的变换矩阵Ti=(R,st),结束本次迭代并进入下一次迭代;如果尺度是无效的,则继续执行步骤四。
步骤四、该步骤的目的是作为步骤三如果失败后的备份方案。利用前次迭代得到的图像深度值,将前次迭代得到的关键点从像素坐标系转化到世界坐标系,进而得到了关键点对应的空间点,将空间点和本次迭代得到的关键点构成匹配对(3d-2d),利用透视n点投影算法计算出旋转矩阵R`和平移向量t`,则得到了本次迭代的变换矩阵Ti=(R`,t`),结束本次迭代并进入下一次迭代。
步骤五、当该图像序列的全部k组图像对全部迭代完毕,视觉里程计结束工作,输出复现出的相机运动轨迹。
本方法提出的基于深度学习和混合型位姿估计的单目视觉里程计方法同时吸取了深度学习和传统视觉里程计的优点,不仅充分利用了深度学习神经网络在图像处理领域的优势,并且结合传统视觉里程计方法中的帧间相对运动状态的估计算法,使得所提出的单目视觉里程计具有更高的定位和姿态估计精度。本视觉里程计方法的流程图在图1给出。
对于本方法实现过程的步骤一,利用深度学习神经网络稠密光流网络估计相邻图像间的光流场,并从光流场从提取出关键点。利用稠密深度网络估计单目图像的稠密深度场,进而得到图像深度值信息。如图1中所示,图中参数i代表迭代计数,首次迭代i的初值为1;参数k代表图像序列中两两一组图像对的数量;R、t、T分别代表旋转矩阵、平移向量、变换矩阵;
本文使用两个深度学习网络:一个网络是稠密光流网络,用于计算相邻图像对之间的稠密光流场;另一个是稠密深度网络,用于计算每一帧的稠密深度场。
本视觉里程计方法使用稠密光流网络从相邻图像对中提取光流场,网络架构图如图2(a)和图2(b)所示。稠密光流网络包括两个子网络:空间金字塔特征提取网络和精密光流估计网络。其中,空间金字塔特征提取网络能够将连续的图像对转化为多尺度多维度的两个图像特征金字塔,一个是正序的另一个是逆序的;其中精密光流估计网络是一种级联网络,精密光流估计网络逐层计算特征金字塔,然后将各层光流计算结果串联在一起,最终得到从粗略到精细的光流场。
空间金字塔特征提取网络是一个权值共享的孪生网络结构,如图2(a)所示,相邻图像对分别以正序和倒序的方式输入到孪生子网络中,相邻图像对的顺序分别可表示为{图t,图t+1}和{图t+1,图t}。空间金字塔特征提取网络将正序的图像对{图t,图t+1}转化为正序的金字塔特征映射F(I1),将逆序的图像对{图t+1,图t}转化为逆序的金字塔特征映射F(I2)。本视觉里程计使用的特征金字塔映射有6层结构,它的第一层F1(I)表示最高特征分辨率层,第六层F6(I)代表最低特征分辨率层,金字塔式的特征映射代表了从高分辨率到低分辨率的各层空间特征信息。空间金字塔特征提取网络得到金字塔式的特征映射产生一个粗略的光流场,空间金字塔特征提取网络的每个卷积神经网络单元(CNN)后都采用LeakyReLU激活函数,并将negative slope设置为0.01,特征金字塔的每层的空间分辨率是通过增加CNN的步幅s来降低的。
精密光流估计网络是一种具有级联框架的网络结构,该网络分别逐层的操作空间金字塔特征映射F(I1)和F(I2)。该网络用于操作每层金字塔特征的单元包含三个模块:匹配、像素强化和规则化,如图2(b)所示。匹配模块用于计算两个金字塔式图像特征映射F(I1)和F(I2)之间的特征向量,这是一种像素到像素的相关性检测。像素强化模块主要作用是强化光流场中的像素点,使其达到像素级的精度,该模块能够过滤掉不精确的光流点,避免了这些不精确的点在上采样或从低层到高层金字塔特征计算时被放大。规则化模块用于保持数据的保真性,防止图像边缘有不清晰的不准确的像素点的存在。
本视觉里程计使用稠密深度网络对每一帧图像进行稠密深度场信息估计,该网络结构采用带有跳层连接的经典的U-Net编码-解码网络框架,如图3所示。该网络采用自监督的方式训练,以双目图像序列作为训练数据集,当网络工作的时候使用单目图像序列作为输入,这样做的好处是利用双目图像基线几何约束使网络的权值收敛到更好的结果,使网络估计出的深度信息更加准确。在训练稠密深度网络时,同时使用了卷积神经网络作为位姿估计网络辅助稠密深度网络训练,自监督的训练信号是跨场景的光照一致性,其目的是使第i帧图像估计出的深度与第j帧图像估计出的深度具有尺度上的一致。通过最小化整幅图像中每个像素目标函数预测得到稠密深度场,损失函数为:
L=min μLp+λLs
其中μ和λ是权重因子。Lp代表计算双目图像对(Ia,Ib)之间的光度误差,该误差使用L1范数和SSIM函数构成光照误差函数,如下所示:
其中α=0.85,Ib→a代表从图像Ia到图像Ib的映射关系,映射函数如下所示:
Ib→a=fw(Ia,proj(K,Da,Tb→a))
其中fw(.)代表仿射变换函数,而proj(.)是从Ia到Ib的映射函数。K是相机内参矩阵,Da和Tb→a分别代表稠密深度场和相对变换矩阵。Ls是图像边缘深度信息光滑处理的规则化算法,形式如下:
其中是平均归一化反向深度信息,用于防止估计出的深度值缩小。通过深度神经网络的工作,每一帧图像的稠密深度场能够精确的预测得出。
对于本视觉里程计方法的步骤二,匹配相邻两次迭代得到的关键点,得到关键点匹配对,由于是两组二维的关键点之间的匹配对(2d-2d),使用对极几何的位姿估计算法计算相机位姿状态。对于2d-2d的对极几何位姿估计算法,如图4所示,对于单目视觉里程计方法,对极约束问题可以分析为:投影点p1和p2是已知的,而世界坐标系中的空间点P是未知的,相对变换矩阵T12是待求量。设点P在世界坐标系中坐标值为P=[X,Y,Z]T,将左侧图像平面所在的相机坐标系设置为参考坐标系。为了消去相机内参K的影响对位姿估计的影响,使用将所有参数都转化到归一化坐标系下计算,在此直接给出对极几何本质矩阵E,以及对极约束的表达式:
E=t^R
本质上讲,对极约束刻画的是O1、O2和P三点共面的关系,如图4所示。通过对本质矩阵E进行奇异值分解能够计算出旋转矩阵R和平移向量t。
对于单目视觉里程计方法来说,单目尺度估计是决定视觉里程计成败的关键。使用2d-2d位姿估计算法会产生一个不可避免的问题,这就是尺度不确定问题。对于图4中的对极约束,三角平面PO1O2无论缩放任意倍,得到的观测值都是一样的,这就是单目的尺度不确定性。
步骤三、该步骤的目的是单目尺度估计,利用关键点匹配对通过三角测量法计算得到深度信息,并利用本次迭代得到的图像深度值,通过随机抽样一致(RANSAC)算法计算得到绝对尺度,进而将位姿从归一化坐标系转到世界坐标系。判断尺度是否有效,如果尺度有效,则得到了本次迭代的变换矩阵Ti=(R,st),结束本次迭代并进入下一次迭代;如果尺度是无效的,则继续执行步骤四。
对于本方法的步骤三,其目的就是估计单目视觉里程计的绝对尺度信息。单目视觉中的尺度与每帧图像的深度联系紧密,在像素坐标系与相机坐标系的转换中深度信息必不可少。由于本方法采用在归一化坐标系下进行2d-2d位姿估计计算,这就涉及到一个尺度恢复的问题,为了获得一个世界坐标系下的位姿状态信息,有必要进行单目尺度的估计。本方法中,利用深度学习稠密深度网络计算得到的深度场,得到单目图像的深度信息,然而,该单目深度信息并不是每个像素点的深度值都是精确的,其中有大量的像素点的深度值不准确,如果直接将该深度值作为单目尺度计算相机位姿,那么将导致累计误差越来越大,甚至相机轨迹复现失败。因此,本方法采用随机抽样一致(RANSAC)算法估计单目尺度,根据相邻两次迭代得到的关键点匹配对,利用三角测量几何理论,计算出粗糙的单目深度信息,再以深度神经网络稠密深度网络估计得到单目图像的深度场为参考值,使用随机抽样一致算法计算得到精确的单目尺度,进而将位姿从归一化坐标系转到世界坐标系,获得了一个精准的6自由度的位姿状态。使用S代表得到的单目尺度值,由此得到了世界坐标系下的位姿状态可表示为:
pose=[R,s·t]
对于相机纯旋转运动或相机静止状态的特殊情况下,2d-2d的对极几何位姿估计算法是无法工作的,这可能导致视觉里程计崩溃,或得到的位姿信息不准确,为了提高本视觉里程计方法的鲁棒性,需要在相机极端运动的情况下仍能有效的准确的估计出相机的位姿状态,这是本方法中混合型位姿估计算法的设计初衷。
对于本方法的步骤四,在一些相机特殊运动情况下,如果步骤二中的2d-2d位姿估计算法计算旋转矩阵R和平移向量t失败了,或者步骤三种的单目尺度估计是无效的,那么就需要执行步骤四。利用前次迭代得到的图像深度值,将前次迭代得到的关键点从像素坐标系转化到世界坐标系,进而得到了关键点对应的空间点,将空间点和本次迭代得到的关键点构成匹配对(3d-2d),采用透视n点投影算法作为一种替代方案进行位姿估计。通过这样的流程设计,增加了本视觉里程计方法的鲁棒性和位姿估计的准确性,使本方法能够适应各种相机运动场景的情况。
通过实验验证本视觉里程计的性能,下面给出实验验证结果:
实验一:评价本视觉里程计的混合型位姿估计算法
本实验的目的是评估本方法的混合型位姿估计算法,分析该算法的在本视觉里程计中的合理性及有效性,并验证该设计是否提高了本视觉里程计的鲁棒性。本视觉里程计利用2d-2d和3d-2d相混合的位姿估计方案,并结合绝对尺度估计来得到相对平移信息和相对旋转信息,进而复现出相机轨迹。实验中,本方法(深度学习+混合型位姿估计)将于其他两种视觉里程计方法进行对比,三种方法的光流场和深度场的估计相同,而位姿估计算法分别使用2d-2d的对极几何位姿估计方案、3d-2d的基于透视n点投影理论的位姿估计方案三种方案实现。选择KITTI VO/SLAM数据集中的序列3、5、7和10作为验证数据,实验结果如图5(a)至图5(d)所示。
从图5可以直观的看出,本方法的轨迹复现能力要好于其他的视觉里程计方法,这说明本方法所使用的混合型位姿估计算法效果明显。进一步分析本视觉里程计工作时,对于每个图像序列中,有多少帧图像时通过对极几何+尺度估计法的算法进行位姿估计,又有多少帧图像是通过透视n点投影的算法进行的位姿估计,图6给出了2d-2d和3d-2d各占工作量的百分比,可知大部分图像是通过对极几何+尺度估计法进行位姿估计,这符合本方法的设计目标。
实验二:评估在相机大位移运动情况下本视觉里程计的表现
本实验的目的是评价本方法在相机大位移运动情况下的位姿估计能力,本实验中,作为对比的单目视觉里程计方法使用直接法提取光流,并使用真值辅助计算单目尺度,然后用与本方法相同的混合型位姿估计算法复现相机轨迹,因此称该对比方法为传统光流+真值+混合型位姿估计的视觉里程计方法。选择KITTI VO/SLAM数据集中的序列7和10作为验证数据集,为了模拟相机大位移运动,在实验中验证数据集采用三种采样方式:使用原始数据集的连续采样方式、间隔1个图像的采样方式、间隔2个图像的采样方式。实验结果如图7(a)、7(b)、7(c)所示。
如图7(a)所示,在图像序列连续采样的情况下,由于传统光流+真值+混合型位姿估计的视觉里程计方法使用了真值作为输入,其轨迹复现能力比本方法要好一些。但是在图像序列间隔1个图像采样的情况下,如图7(b)所示,传统光流+真值+混合型位姿估计的视觉里程计方法的表现一般,而本方法仍能很好的复现相机轨迹;在图像序列间隔2个图像采样的情况下,如图7(c)所示,传统光流+真值+混合型位姿估计的视觉里程计方法无法正常工作,而本方法仍能较好的复现相机轨迹。通过实验验证,说明了本方法在相机大位移运动的情况下仍能表现很好。
实验三:以真值为指标,定量分析本方法的性能
本实验以真值为标准,定量的分析本视觉里程计的位姿估计能力,选择2个经典的视觉里程计方法作为对比方法:基于学习法的视觉里程计和ORBSLAM。其中,基于学习法的视觉里程计使用深度学习神经网络搭建的端到端的视觉里程计方法;ORBSLAM系统使用单目相机,称其为ORBSLAM_单目,该系统不仅是一个视觉里程计,更是一个SLAM系统,具有回环检测和后端优化能力。本实验选择KITTI VO/SLAM数据集中的序列5、6、7、8、9和10作为实验数据,实验结果如图8(a)至图8(f)所示。
根据KITTI VO/SLAM的均方根误差(RMSEs)评价标准,计算出在不同行驶距离条件下,取100m到800m范围的距离长度,各方法复现出的轨迹在不同行驶长度条件下的平移误差和旋转误差,如图9(a)和图9(b)所示,实验表明本方法与其他方法相比,具有更小的平移误差和旋转误差。进一步,表2给出了各方法在不同图像序列下的平均平移误差和平均旋转误差。
表2平均平移误差和平均旋转误差
◆Trel:每100米的平均平移均方根误差
◆Rrel:每100米的平均旋转均方根误差。

Claims (3)

1.一种采用深度学习和混合型位姿估计的单目视觉里程计方法,其特征在于,包括以下步骤:
步骤1、初始迭代次数i=1,一组图像序列中两个相邻的图像构成图像对;
步骤2、利用稠密光流网络估计每组图像对之间的稠密光流场,并从光流场中提取出关键点;利用稠密深度网络估计出每组图像对中第一个图像的稠密深度场,并提取出图像深度值;
步骤3、判断i>1是否成立,当i>1不成立时,暂存得到的关键点和深度值,变换矩阵T1=I,并将T1保存至序列集,此时i<k成立,其中k为图像对个数,迭代次数加1并返回步骤2;当i>1成立时,执行步骤4;
步骤4、从稠密光流网络估计出的光流场中提取的关键点与上一次提取出的关键点匹配,得到两组二维的关键点之间的匹配对(2d-2d),采用对极几何的位姿估计算法计算出旋转矩阵R和平移向量t;如果得到的旋转矩阵R和平移向量t是有效的,则执行步骤5,如果是无效的,则执行步骤6;
步骤5、单目尺度估计:利用关键点匹配对通过三角测量法计算得到深度信息,并利用本次迭代得到的图像深度值通过随机抽样一致算法计算得到绝对尺度;判断尺度是否有效,如果尺度有效,则得到了本次迭代的变换矩阵Ti=(R,st),s为尺度,位姿从归一化坐标系变换到世界坐标系,判断i<k是否成立,当成立时,迭代次数加1并返回步骤2;否则,输出复现出的相机运动轨迹;如果尺度是无效的,则执行步骤6;
步骤6、利用前次迭代得到的图像深度值,将前次迭代得到的关键点从像素坐标系转化到世界坐标系,进而得到了关键点对应的空间点,将空间点和本次迭代得到的关键点构成匹配对(3d-2d),利用透视n点投影算法计算出旋转矩阵R`和平移向量t`,则得到了本次迭代的变换矩阵Ti=(R`,t`),判断i<k是否成立,当成立时,迭代次数加1并返回步骤2;否则,输出复现出的相机运动轨迹。
2.根据权利要求1所述的一种采用深度学习和混合型位姿估计的单目视觉里程计方法,其特征在于:所述稠密光流网络包括空间金字塔特征提取网络和精密光流估计网络,其中,空间金字塔特征提取网络将连续的图像对转化为多尺度多维度的两个图像特征金字塔,一个是正序的,另一个是逆序的;精密光流估计网络逐层计算特征金字塔,然后将各层光流计算结果串联在一起,得到光流场。
3.根据权利要求1或2所述的一种采用深度学习和混合型位姿估计的单目视觉里程计方法,其特征在于:所述稠密深度网络对每一帧图像进行稠密深度场信息估计,采用带有跳层连接的U-Net编码-解码网络框架。
CN202010667153.7A 2020-07-13 2020-07-13 采用深度学习和混合型位姿估计的单目视觉里程计方法 Active CN111899280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010667153.7A CN111899280B (zh) 2020-07-13 2020-07-13 采用深度学习和混合型位姿估计的单目视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010667153.7A CN111899280B (zh) 2020-07-13 2020-07-13 采用深度学习和混合型位姿估计的单目视觉里程计方法

Publications (2)

Publication Number Publication Date
CN111899280A CN111899280A (zh) 2020-11-06
CN111899280B true CN111899280B (zh) 2023-07-25

Family

ID=73192380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010667153.7A Active CN111899280B (zh) 2020-07-13 2020-07-13 采用深度学习和混合型位姿估计的单目视觉里程计方法

Country Status (1)

Country Link
CN (1) CN111899280B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288816B (zh) * 2020-11-16 2024-05-17 Oppo广东移动通信有限公司 位姿优化方法、位姿优化装置、存储介质与电子设备
CN112419409A (zh) * 2020-11-18 2021-02-26 合肥湛达智能科技有限公司 一种基于实时视频的位姿估计方法
CN112561979B (zh) * 2020-12-25 2022-06-28 天津大学 一种基于深度学习的自监督单目深度估计方法
CN112906766A (zh) * 2021-02-02 2021-06-04 电子科技大学 一种融合深度学习和几何推理的单目视觉里程计方法
CN113066152B (zh) * 2021-03-18 2022-05-27 内蒙古工业大学 一种agv地图构建方法和系统
CN114119999B (zh) * 2021-12-02 2024-05-14 河北工业大学 基于深度学习的迭代6d位姿估计方法及装置
CN114663509B (zh) * 2022-03-23 2022-09-27 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761737A (zh) * 2014-01-22 2014-04-30 北京工业大学 基于稠密光流的机器人运动估计方法
CN109272493A (zh) * 2018-08-28 2019-01-25 中国人民解放军火箭军工程大学 一种基于递归卷积神经网络的单目视觉里程计方法
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法
CN110807799A (zh) * 2019-09-29 2020-02-18 哈尔滨工程大学 一种结合深度图推断的线特征视觉里程计方法
CN111369608A (zh) * 2020-05-29 2020-07-03 南京晓庄学院 一种基于图像深度估计的视觉里程计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914874B (zh) * 2014-04-08 2017-02-01 中山大学 一种无特征提取的紧致sfm三维重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761737A (zh) * 2014-01-22 2014-04-30 北京工业大学 基于稠密光流的机器人运动估计方法
CN109272493A (zh) * 2018-08-28 2019-01-25 中国人民解放军火箭军工程大学 一种基于递归卷积神经网络的单目视觉里程计方法
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法
CN110807799A (zh) * 2019-09-29 2020-02-18 哈尔滨工程大学 一种结合深度图推断的线特征视觉里程计方法
CN111369608A (zh) * 2020-05-29 2020-07-03 南京晓庄学院 一种基于图像深度估计的视觉里程计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
动态场景下一种鲁棒的立体视觉里程计算法;张合新;徐慧;姚二亮;宋海涛;赵欣;;仪器仪表学报(第09期);全文 *

Also Published As

Publication number Publication date
CN111899280A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111899280B (zh) 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN111968129B (zh) 具有语义感知的即时定位与地图构建系统及方法
CN110956651B (zh) 一种基于视觉和振动触觉融合的地形语义感知方法
Wang et al. Learning depth from monocular videos using direct methods
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN108242079B (zh) 一种基于多特征视觉里程计和图优化模型的vslam方法
Won et al. OmniSLAM: Omnidirectional localization and dense mapping for wide-baseline multi-camera systems
CN113674416B (zh) 三维地图的构建方法、装置、电子设备及存储介质
Yan et al. Dense visual SLAM with probabilistic surfel map
Li et al. Review of vision-based Simultaneous Localization and Mapping
Qian et al. Robust visual-lidar simultaneous localization and mapping system for UAV
Lin et al. R $^ 3$ LIVE++: A Robust, Real-time, Radiance reconstruction package with a tightly-coupled LiDAR-Inertial-Visual state Estimator
Liu A robust and efficient lidar-inertial-visual fused simultaneous localization and mapping system with loop closure
Baur et al. Real-time 3D LiDAR flow for autonomous vehicles
CN113888629A (zh) 一种基于rgbd相机的快速物体三维位姿估计方法
CN112307917A (zh) 一种融合视觉里程计及imu的室内定位方法
CN112945233A (zh) 一种全局无漂移的自主机器人同时定位与地图构建方法
Cigla et al. Gaussian mixture models for temporal depth fusion
CN114707611B (zh) 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备
Li et al. Unsupervised joint learning of depth, optical flow, ego-motion from video
Dai et al. Self-supervised deep visual odometry based on geometric attention model
Namdev et al. Multibody vslam with relative scale solution for curvilinear motion reconstruction
Yang et al. PSL-SLAM: a monocular SLAM system using points and structure lines in Manhattan World
Zhang et al. MMO-SLAM: A versatile and accurate multi monocular SLAM system
Li et al. A Research of Visual-Inertial Simultaneous Localization and Mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant