CN109978924A - 一种基于单目的视觉里程计实现方法和系统 - Google Patents

一种基于单目的视觉里程计实现方法和系统 Download PDF

Info

Publication number
CN109978924A
CN109978924A CN201711439472.7A CN201711439472A CN109978924A CN 109978924 A CN109978924 A CN 109978924A CN 201711439472 A CN201711439472 A CN 201711439472A CN 109978924 A CN109978924 A CN 109978924A
Authority
CN
China
Prior art keywords
photo
photos
estimation
estimated
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711439472.7A
Other languages
English (en)
Inventor
李方敏
彭小兵
赵奇
杨志邦
栾悉道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University
Original Assignee
Changsha University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University filed Critical Changsha University
Priority to CN201711439472.7A priority Critical patent/CN109978924A/zh
Publication of CN109978924A publication Critical patent/CN109978924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目的视觉里程计实现方法,包括:通过相机获取视频中的连续两幅照片,并使用卷积神经网络对其中的第一幅照片进行估计,以得到估计后的光流照片,根据估计后的照片并使用双线性插值法对第二幅照片进行处理,以得到扭曲图,并根据扭曲图和第一幅照片得到光度误差,将第一幅照片、第二幅照片、估计矩阵、以及光度误差输入到另一个卷积神经网络中,以得到另一幅估计后的光流照片,对得到的另一幅估计后的照片进行下采样处理,将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络中,以得到多维运动描述算子。本发明能够解决现有基于几何方法实现的视觉里程计实时性不好的技术问题。

Description

一种基于单目的视觉里程计实现方法和系统
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于单目的视觉里程计实现方法和系统。
背景技术
视觉里程计是一种利用相机采集到的图像序列来估计出智能体相对运动的计算机视觉方法,在机器人自主定位和导航过程中起着很重要的作用。
目前的视觉里程计主要是通过几何法实现,其主要是提取两幅连续图片中的特征(例如ORB特征、SIFT特征等),并在两幅图片中进行匹配和计算的方式实现。
然而,现有通过几何法实现的视觉里程计均存在以下问题:首先,其实时性不好,其次,在光线昏暗环境以及照片模糊情况下,其特征检测困难,从而导致位姿跟丢,鲁棒性不好。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于单目的视觉里程计实现方法和系统,其目的在于,解决现有采用几何法实现的视觉里程计存在的实时性差、特征检测困难以及鲁棒性不好的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于单目的视觉里程计实现方法,包括以下步骤:
(1)通过相机获取视频中的连续两幅照片,并使用卷积神经网络对其中的第一幅照片I1进行估计,以得到估计后的光流照片,该照片是用以下估计矩阵w1表示:
w1=(u1,v1)T
其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标。
(2)根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理,以得到扭曲图并根据扭曲图和第一幅照片得到光度误差
(3)将第一幅照片I1、第二幅照片I2、估计矩阵w1、以及光度误差e1输入到另一个卷积神经网络中,以得到另一幅估计后的光流照片,该照片用估计矩阵w2表示;
(4)对步骤(3)中得到的另一幅估计后的照片进行下采样处理,将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络中,以得到多维运动描述算子;
(5)对于视频中的其余图片,重复上述步骤(1)至步骤(4),直到所有图片均处理完毕为止,得到的多个多维运动描述算子构成相机的运动轨迹。
优选地,步骤(1)和步骤(3)中的卷积神经网络均采用六层卷积神经网络。
优选地,步骤(4)中的卷积神经网络采用2层卷积神经网络。
优选地,多维运动描述算子包括6个,分别是三维坐标,以及分别围绕X、Y和Z轴旋转的欧拉角。
按照本发明的另一方面,提供了一种基于单目的视觉里程计实现系统,包括:
第一模块,用于通过相机获取视频中的连续两幅照片,并使用卷积神经网络对其中的第一幅照片I1进行估计,以得到估计后的光流照片,该照片是用以下估计矩阵w1表示:
w1=(u1,v1)T
其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标。
第二模块,用于根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理,以得到扭曲图并根据扭曲图和第一幅照片得到光度误差
第三模块,用于将第一幅照片I1、第二幅照片I2、估计矩阵w1、以及光度误差e1输入到另一个卷积神经网络中,以得到另一幅估计后的光流照片,该照片用估计矩阵w2表示;
第四模块,用于对第三模块中得到的另一幅估计后的照片进行下采样处理,将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络中,以得到多维运动描述算子;
第五模块,用于对于视频中的其余图片,重复上述第一模块至第四模块,直到所有图片均处理完毕为止,得到的多个多维运动描述算子构成相机的运动轨迹。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明的实时性好:由于本发明不需要对传统几何法中提取的特征(例如ORB特征、SIFT特征等)进行计算,从而提高了运行速度,保证了良好的实时性;
(2)由于本发明的步骤(1)和(3)中均获取得到了光流照片,因此即使在光线差的环境下,也能够实现路径的估计,避免了传统几何法中的特征跟踪,由此实现了高鲁棒性。
附图说明
图1是本发明基于单目的视觉里程计实现方法的流程图。
图2是本发明平均旋转误差与视频序列长度的关系曲线图。
图3是本发明平均旋转误差与行驶速度的关系曲线图。
图4是本发明平均平移误差与视频序列长度的关系曲线图。
图5是本发明平均平移误差与行驶速度的关系曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决传统基于几何方法实现的视觉里程计实时性不好,在光线昏暗环境以及照片模糊情况下特征检测困难导致位姿跟丢,鲁棒性不好等的技术问题,本发明提出了基于光流和深度学习的视觉里程机实现方法。该方法使用卷积神经网络学习估算光流场并进行运动位移和旋转估计,同时使用GPU加速,提高了视觉里程计的实时性和鲁棒性。
本发明的方法首先使用连续两帧图片作为整个系统的输入,利用深度堆叠网络来学习估算输入的光流场,并且将估算的光流场作为2级级联网络的输入,最终输出相机位移与旋转的欧拉角。整个过程大致可以分为2个过程,先估算估算连续帧的光流场,让后通过光流场去估算运动路线。
如图1所示,本发明基于单目的视觉里程计实现方法包括以下步骤:
(1)通过相机获取视频中的连续两幅照片,并使用卷积神经网络(在本实施方式中是采用六层卷积神经网络)对其中的第一幅照片I1进行估计,以得到估计后的光流照片,该照片是用以下估计矩阵w1表示:
w1=(u1,v1)T
其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标。
(2)根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理,以得到扭曲图并根据扭曲图和第一幅照片得到光度误差
(3)将第一幅照片I1、第二幅照片I2、估计矩阵w1、以及光度误差e1输入到另一个卷积神经网络(在本实施方式中是采用6层卷积神经网络)中,以得到另一幅估计后的光流照片,该照片用估计矩阵w2表示;
需要注意的是,本步骤中使用的卷积神经网络与步骤(1)中使用的卷积神经网络具有完全相同的架构。
(4)对步骤(3)中得到的另一幅估计后的照片进行下采样处理(例如到155*48),将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络(在本实施方式中是采用2层卷积神经网络)中,以得到多维运动描述算子;
在本实施方式中,是将照片分为4个子图,应该理解只要大于等于2均可;
得到的多维运动描算子可以是多维向量或多维矩阵。
在本实施方式中,得到的多维运动描述算子包括6个,分别是三维坐标,以及三个欧拉角(即分别围绕X、Y和Z轴旋转的欧拉角)。
(5)对于视频中的其余图片,重复上述步骤(1)至步骤(4),直到所有图片均处理完毕为止,得到的多个多维运动描述算子构成相机的运动轨迹。
实验结果
下表1是本发明与传统SVR VO,P-CNN和Flowdometry在旋转误差以及平移误差方面的比较,可以看出,本发明与P-CNN的现有深度学习模型相当,序列10的误差小于PCNN的误差。更重要的是,就旋转误差而言,本发明要优于光流里程计(Flow-dometry)。
表1
下表2示出本发明与现有算法在序列的计算时间方面的比较。可以看出,本发明最大的优势在于从输入图片到最后运行输出的计算时间最短。估算光流图片使用的时间最短,因为本发明采用FlowNet2-ss的算法模型,明显快于使用Brox算法的SVR VO,P-CNN,以及使用FlowNetS的光流里程计(即Flowdometry)。KITTI数据集中连续的1000张照片被选中用来计算每个系统的计算时间。本发明和光流里程计相同的是没有RGB转换过程,另外本发明结合FlownetS,也减少了里程计计算时间
(Odometry calculation)。所有的测试是使用Intel(R)Xeon(R)CPU E5-2650 v3@2.30GHz和NVIDIA Tesla K40 GPU完成的。
表2
视觉里程计的平移和旋转误差可以分别从序列长度和行驶速度来测算。图2至5表明,所有测试序列的平均误差与序列长度和行驶速度的组合关系。随着长度的增加,平均的误差反而减小,并且在速度较小的时候会出现较大的误差,可能的原因是我们的训练数据多数是启动一段时间采集的,此时的速度相对开始时较大,所以最后的训练模型在开始的一段路程以及低速时的误差大。从图3可以看出,速度增大45Km/h后,旋转误差增大,然而平移误差依然减小。
通过使用KITTI数据集测试视觉里程计(该数据集是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集),该数据集用于评测立体图像,光流,视觉测距,3D物体检测和3D跟踪等计算机视觉技术在车载环境下的性能。我们只使用前11套视频序列因为提供对应的路径。开始的8个数据集用于训练网络,后面的3个用于测试并且评估系统的精度。最后我们的平均平移误差为12.92%,旋转误差为0.0426deg/m,每帧的平均计算时间为15ms,符合实时性要求。通过处理光流图片,保证了图片在进行暗化或者模糊处理后的任然有较高的估算精度。提高了里程计的鲁棒性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于单目的视觉里程计实现方法,其特征在于,包括以下步骤:
(1)通过相机获取视频中的连续两幅照片,并使用卷积神经网络对其中的第一幅照片I1进行估计,以得到估计后的光流照片,该照片是用以下估计矩阵w1表示:
w1=(u1,v1)T
其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标。
(2)根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理,以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e1
(3)将第一幅照片I1、第二幅照片I2、估计矩阵w1、以及光度误差e1输入到另一个卷积神经网络中,以得到另一幅估计后的光流照片,该照片用估计矩阵w2表示;
(4)对步骤(3)中得到的另一幅估计后的照片进行下采样处理,将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络中,以得到多维运动描述算子;
(5)对于视频中的其余图片,重复上述步骤(1)至步骤(4),直到所有图片均处理完毕为止,得到的多个多维运动描述算子构成相机的运动轨迹。
2.根据权利要求1所述的视觉里程计实现方法,其特征在于,步骤(1)和步骤(3)中的卷积神经网络均采用六层卷积神经网络。
3.根据权利要求1所述的视觉里程计实现方法,其特征在于,步骤(4)中的卷积神经网络采用2层卷积神经网络。
4.根据权利要求1所述的视觉里程计实现方法,其特征在于,多维运动描述算子包括6个,分别是三维坐标,以及分别围绕X、Y和Z轴旋转的欧拉角。
5.一种基于单目的视觉里程计实现系统,其特征在于,包括:
第一模块,用于通过相机获取视频中的连续两幅照片,并使用卷积神经网络对其中的第一幅照片I1进行估计,以得到估计后的光流照片,该照片是用以下估计矩阵w1表示:
w1=(u1,v1)T
其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标。
第二模块,用于根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理,以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e1
第三模块,用于将第一幅照片I1、第二幅照片I2、估计矩阵w1、以及光度误差e1输入到另一个卷积神经网络中,以得到另一幅估计后的光流照片,该照片用估计矩阵w2表示;
第四模块,用于对第三模块中得到的另一幅估计后的照片进行下采样处理,将下采样处理后的照片平均分成多个子图,将下采样后的照片以及所有子图输入到另一个卷积神经网络中,以得到多维运动描述算子;
第五模块,用于对于视频中的其余图片,重复上述第一模块至第四模块,直到所有图片均处理完毕为止,得到的多个多维运动描述算子构成相机的运动轨迹。
CN201711439472.7A 2017-12-27 2017-12-27 一种基于单目的视觉里程计实现方法和系统 Pending CN109978924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711439472.7A CN109978924A (zh) 2017-12-27 2017-12-27 一种基于单目的视觉里程计实现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711439472.7A CN109978924A (zh) 2017-12-27 2017-12-27 一种基于单目的视觉里程计实现方法和系统

Publications (1)

Publication Number Publication Date
CN109978924A true CN109978924A (zh) 2019-07-05

Family

ID=67071421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711439472.7A Pending CN109978924A (zh) 2017-12-27 2017-12-27 一种基于单目的视觉里程计实现方法和系统

Country Status (1)

Country Link
CN (1) CN109978924A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324585A (zh) * 2019-07-15 2019-10-11 清华大学 基于高速移动平台的slam系统的实现方法
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090263009A1 (en) * 2008-04-22 2009-10-22 Honeywell International Inc. Method and system for real-time visual odometry
CN103761737A (zh) * 2014-01-22 2014-04-30 北京工业大学 基于稠密光流的机器人运动估计方法
CN106482711A (zh) * 2016-10-18 2017-03-08 哈尔滨工业大学 一种基于灰度特征提取和稠密光流法的室内定位方法
CN106658023A (zh) * 2016-12-21 2017-05-10 山东大学 一种基于深度学习的端到端视觉里程计及方法
CN106780484A (zh) * 2017-01-11 2017-05-31 山东大学 基于卷积神经网络特征描述子的机器人帧间位姿估计方法
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
US20170278289A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10390003B1 (en) * 2016-08-29 2019-08-20 Perceptln Shenzhen Limited Visual-inertial positional awareness for autonomous and non-autonomous device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090263009A1 (en) * 2008-04-22 2009-10-22 Honeywell International Inc. Method and system for real-time visual odometry
CN103761737A (zh) * 2014-01-22 2014-04-30 北京工业大学 基于稠密光流的机器人运动估计方法
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
US20170278289A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10390003B1 (en) * 2016-08-29 2019-08-20 Perceptln Shenzhen Limited Visual-inertial positional awareness for autonomous and non-autonomous device
CN106482711A (zh) * 2016-10-18 2017-03-08 哈尔滨工业大学 一种基于灰度特征提取和稠密光流法的室内定位方法
CN106658023A (zh) * 2016-12-21 2017-05-10 山东大学 一种基于深度学习的端到端视觉里程计及方法
CN106780484A (zh) * 2017-01-11 2017-05-31 山东大学 基于卷积神经网络特征描述子的机器人帧间位姿估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EDDY ILG 等: "FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324585A (zh) * 2019-07-15 2019-10-11 清华大学 基于高速移动平台的slam系统的实现方法
CN110324585B (zh) * 2019-07-15 2021-05-04 清华大学 基于高速移动平台的slam系统的实现方法
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法
CN110533724B (zh) * 2019-09-06 2021-10-22 电子科技大学 基于深度学习和注意力机制的单目视觉里程计的计算方法

Similar Documents

Publication Publication Date Title
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN110220493B (zh) 一种双目测距方法及其装置
Eigen et al. Depth map prediction from a single image using a multi-scale deep network
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN106600583B (zh) 基于端到端神经网络的视差图获取方法
CN108648216A (zh) 一种基于光流与深度学习的视觉里程计实现方法和系统
Anderson et al. Color photometric stereo for multicolored surfaces
CN111508013B (zh) 立体匹配方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN110533724B (zh) 基于深度学习和注意力机制的单目视觉里程计的计算方法
CN106155299B (zh) 一种对智能设备进行手势控制的方法及装置
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN111489394A (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN110378250A (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN112907573A (zh) 一种基于3d卷积的深度补全方法
CN106780309A (zh) 一种合成孔径雷达图像拼接方法
CN115661341A (zh) 一种基于多传感器融合的实时动态语义建图方法与系统
CN109978924A (zh) 一种基于单目的视觉里程计实现方法和系统
Basak et al. Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image
CN110514140B (zh) 一种三维成像方法、装置、设备以及存储介质
Saunders et al. Dyna-dm: Dynamic object-aware self-supervised monocular depth maps
Yan et al. Depth-only object tracking
CN104754316A (zh) 一种3d成像方法、装置及成像系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication