CN109978924A

CN109978924A - 一种基于单目的视觉里程计实现方法和系统

Info

Publication number: CN109978924A
Application number: CN201711439472.7A
Authority: CN
Inventors: 李方敏; 彭小兵; 赵奇; 杨志邦; 栾悉道
Original assignee: Changsha University
Current assignee: Changsha University
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-05

Abstract

本发明公开了一种基于单目的视觉里程计实现方法，包括：通过相机获取视频中的连续两幅照片，并使用卷积神经网络对其中的第一幅照片进行估计，以得到估计后的光流照片，根据估计后的照片并使用双线性插值法对第二幅照片进行处理，以得到扭曲图，并根据扭曲图和第一幅照片得到光度误差，将第一幅照片、第二幅照片、估计矩阵、以及光度误差输入到另一个卷积神经网络中，以得到另一幅估计后的光流照片，对得到的另一幅估计后的照片进行下采样处理，将下采样处理后的照片平均分成多个子图，将下采样后的照片以及所有子图输入到另一个卷积神经网络中，以得到多维运动描述算子。本发明能够解决现有基于几何方法实现的视觉里程计实时性不好的技术问题。

Description

一种基于单目的视觉里程计实现方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于单目的视觉里程计实现方法和系统。

背景技术

视觉里程计是一种利用相机采集到的图像序列来估计出智能体相对运动的计算机视觉方法，在机器人自主定位和导航过程中起着很重要的作用。

目前的视觉里程计主要是通过几何法实现，其主要是提取两幅连续图片中的特征(例如ORB特征、SIFT特征等)，并在两幅图片中进行匹配和计算的方式实现。

然而，现有通过几何法实现的视觉里程计均存在以下问题：首先，其实时性不好，其次，在光线昏暗环境以及照片模糊情况下，其特征检测困难，从而导致位姿跟丢，鲁棒性不好。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于单目的视觉里程计实现方法和系统，其目的在于，解决现有采用几何法实现的视觉里程计存在的实时性差、特征检测困难以及鲁棒性不好的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于单目的视觉里程计实现方法，包括以下步骤：

(1)通过相机获取视频中的连续两幅照片，并使用卷积神经网络对其中的第一幅照片I₁进行估计，以得到估计后的光流照片，该照片是用以下估计矩阵w₁表示：

w₁＝(u₁,v₁)^T

其中u₁和v₁分别表示估计得到的照片中像素点的横坐标和纵坐标。

(2)根据估计后的照片并使用双线性插值法对第二幅照片I₂进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差

(3)将第一幅照片I₁、第二幅照片I₂、估计矩阵w₁、以及光度误差e₁输入到另一个卷积神经网络中，以得到另一幅估计后的光流照片，该照片用估计矩阵w₂表示；

(4)对步骤(3)中得到的另一幅估计后的照片进行下采样处理，将下采样处理后的照片平均分成多个子图，将下采样后的照片以及所有子图输入到另一个卷积神经网络中，以得到多维运动描述算子；

(5)对于视频中的其余图片，重复上述步骤(1)至步骤(4)，直到所有图片均处理完毕为止，得到的多个多维运动描述算子构成相机的运动轨迹。

优选地，步骤(1)和步骤(3)中的卷积神经网络均采用六层卷积神经网络。

优选地，步骤(4)中的卷积神经网络采用2层卷积神经网络。

优选地，多维运动描述算子包括6个，分别是三维坐标，以及分别围绕X、Y和Z轴旋转的欧拉角。

按照本发明的另一方面，提供了一种基于单目的视觉里程计实现系统，包括：

第一模块，用于通过相机获取视频中的连续两幅照片，并使用卷积神经网络对其中的第一幅照片I₁进行估计，以得到估计后的光流照片，该照片是用以下估计矩阵w₁表示：

w₁＝(u₁,v₁)^T

第二模块，用于根据估计后的照片并使用双线性插值法对第二幅照片I₂进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差

第三模块，用于将第一幅照片I₁、第二幅照片I₂、估计矩阵w₁、以及光度误差e₁输入到另一个卷积神经网络中，以得到另一幅估计后的光流照片，该照片用估计矩阵w₂表示；

第四模块，用于对第三模块中得到的另一幅估计后的照片进行下采样处理，将下采样处理后的照片平均分成多个子图，将下采样后的照片以及所有子图输入到另一个卷积神经网络中，以得到多维运动描述算子；

第五模块，用于对于视频中的其余图片，重复上述第一模块至第四模块，直到所有图片均处理完毕为止，得到的多个多维运动描述算子构成相机的运动轨迹。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的实时性好：由于本发明不需要对传统几何法中提取的特征(例如ORB特征、SIFT特征等)进行计算，从而提高了运行速度，保证了良好的实时性；

(2)由于本发明的步骤(1)和(3)中均获取得到了光流照片，因此即使在光线差的环境下，也能够实现路径的估计，避免了传统几何法中的特征跟踪，由此实现了高鲁棒性。

附图说明

图1是本发明基于单目的视觉里程计实现方法的流程图。

图2是本发明平均旋转误差与视频序列长度的关系曲线图。

图3是本发明平均旋转误差与行驶速度的关系曲线图。

图4是本发明平均平移误差与视频序列长度的关系曲线图。

图5是本发明平均平移误差与行驶速度的关系曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决传统基于几何方法实现的视觉里程计实时性不好，在光线昏暗环境以及照片模糊情况下特征检测困难导致位姿跟丢，鲁棒性不好等的技术问题，本发明提出了基于光流和深度学习的视觉里程机实现方法。该方法使用卷积神经网络学习估算光流场并进行运动位移和旋转估计，同时使用GPU加速，提高了视觉里程计的实时性和鲁棒性。

本发明的方法首先使用连续两帧图片作为整个系统的输入，利用深度堆叠网络来学习估算输入的光流场，并且将估算的光流场作为2级级联网络的输入，最终输出相机位移与旋转的欧拉角。整个过程大致可以分为2个过程，先估算估算连续帧的光流场，让后通过光流场去估算运动路线。

如图1所示，本发明基于单目的视觉里程计实现方法包括以下步骤：

(1)通过相机获取视频中的连续两幅照片，并使用卷积神经网络(在本实施方式中是采用六层卷积神经网络)对其中的第一幅照片I₁进行估计，以得到估计后的光流照片，该照片是用以下估计矩阵w₁表示：

w₁＝(u₁,v₁)^T

(3)将第一幅照片I₁、第二幅照片I₂、估计矩阵w₁、以及光度误差e₁输入到另一个卷积神经网络(在本实施方式中是采用6层卷积神经网络)中，以得到另一幅估计后的光流照片，该照片用估计矩阵w₂表示；

需要注意的是，本步骤中使用的卷积神经网络与步骤(1)中使用的卷积神经网络具有完全相同的架构。

(4)对步骤(3)中得到的另一幅估计后的照片进行下采样处理(例如到155*48)，将下采样处理后的照片平均分成多个子图，将下采样后的照片以及所有子图输入到另一个卷积神经网络(在本实施方式中是采用2层卷积神经网络)中，以得到多维运动描述算子；

在本实施方式中，是将照片分为4个子图，应该理解只要大于等于2均可；

得到的多维运动描算子可以是多维向量或多维矩阵。

在本实施方式中，得到的多维运动描述算子包括6个，分别是三维坐标，以及三个欧拉角(即分别围绕X、Y和Z轴旋转的欧拉角)。

实验结果

下表1是本发明与传统SVR VO，P-CNN和Flowdometry在旋转误差以及平移误差方面的比较，可以看出，本发明与P-CNN的现有深度学习模型相当，序列10的误差小于PCNN的误差。更重要的是，就旋转误差而言，本发明要优于光流里程计(Flow-dometry)。

表1

下表2示出本发明与现有算法在序列的计算时间方面的比较。可以看出，本发明最大的优势在于从输入图片到最后运行输出的计算时间最短。估算光流图片使用的时间最短，因为本发明采用FlowNet2-ss的算法模型，明显快于使用Brox算法的SVR VO，P-CNN，以及使用FlowNetS的光流里程计(即Flowdometry)。KITTI数据集中连续的1000张照片被选中用来计算每个系统的计算时间。本发明和光流里程计相同的是没有RGB转换过程，另外本发明结合FlownetS，也减少了里程计计算时间

(Odometry calculation)。所有的测试是使用Intel(R)Xeon(R)CPU E5-2650 v3@2.30GHz和NVIDIA Tesla K40 GPU完成的。

表2

视觉里程计的平移和旋转误差可以分别从序列长度和行驶速度来测算。图2至5表明，所有测试序列的平均误差与序列长度和行驶速度的组合关系。随着长度的增加，平均的误差反而减小，并且在速度较小的时候会出现较大的误差，可能的原因是我们的训练数据多数是启动一段时间采集的，此时的速度相对开始时较大，所以最后的训练模型在开始的一段路程以及低速时的误差大。从图3可以看出，速度增大45Km/h后，旋转误差增大，然而平移误差依然减小。

通过使用KITTI数据集测试视觉里程计(该数据集是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集)，该数据集用于评测立体图像，光流，视觉测距，3D物体检测和3D跟踪等计算机视觉技术在车载环境下的性能。我们只使用前11套视频序列因为提供对应的路径。开始的8个数据集用于训练网络，后面的3个用于测试并且评估系统的精度。最后我们的平均平移误差为12.92％，旋转误差为0.0426deg/m，每帧的平均计算时间为15ms，符合实时性要求。通过处理光流图片，保证了图片在进行暗化或者模糊处理后的任然有较高的估算精度。提高了里程计的鲁棒性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单目的视觉里程计实现方法，其特征在于，包括以下步骤：

w₁＝(u₁,v₁)^T

(2)根据估计后的照片并使用双线性插值法对第二幅照片I₂进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e₁：

2.根据权利要求1所述的视觉里程计实现方法，其特征在于，步骤(1)和步骤(3)中的卷积神经网络均采用六层卷积神经网络。

3.根据权利要求1所述的视觉里程计实现方法，其特征在于，步骤(4)中的卷积神经网络采用2层卷积神经网络。

4.根据权利要求1所述的视觉里程计实现方法，其特征在于，多维运动描述算子包括6个，分别是三维坐标，以及分别围绕X、Y和Z轴旋转的欧拉角。

5.一种基于单目的视觉里程计实现系统，其特征在于，包括：

w₁＝(u₁,v₁)^T

第二模块，用于根据估计后的照片并使用双线性插值法对第二幅照片I₂进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e₁：