CN112648994B - 基于深度视觉里程计和imu的相机位姿估计方法及装置 - Google Patents
基于深度视觉里程计和imu的相机位姿估计方法及装置 Download PDFInfo
- Publication number
- CN112648994B CN112648994B CN202011476504.2A CN202011476504A CN112648994B CN 112648994 B CN112648994 B CN 112648994B CN 202011476504 A CN202011476504 A CN 202011476504A CN 112648994 B CN112648994 B CN 112648994B
- Authority
- CN
- China
- Prior art keywords
- pose
- optical flow
- image frames
- vector
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 136
- 230000003287 optical effect Effects 0.000 claims abstract description 95
- 238000003062 neural network model Methods 0.000 claims abstract description 34
- 230000001133 acceleration Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/16—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
- G01C21/165—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation combined with non-inertial navigation instruments
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/14—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by recording the course traversed by the object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法及装置,该方法包括:利用光流网络对相邻图像帧提取特征得到光流信息,并利用IMU获取相机加速度和角速度;将光流信息和相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将运动特征和时间特征融合后得到第一位姿向量;对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据第一位姿向量和第二位姿向量,得到融合后的位姿向量;根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿。该方法可分离性强、精度高、计算量低,能够适用于纹理缺失和实时性要求高等复杂场景。
Description
技术领域
本发明涉及空间定位技术领域,尤其涉及一种基于深度视觉里程计和IMU的相机位姿估计方法及装置。
背景技术
相机位姿估计是机器人定位和自动驾驶领域的一项基本技术,它通过各种传感器连续跟踪相机的自我运动估计位置和姿态。其中相机和IMU因为低成本、高性能的特点而被广泛结合使用,而且这两种传感器具有高度的互补性:相机捕捉场景的结构和外观信息,但纯相机传感器在光照变化大、纹理特征缺失、快速运动情况下会导致尺度模糊,这种单纯依靠相机获取图片序列得到位姿的方法被称为视觉里程计(Visual Odometry,简称VO);相反,IMU完全不依赖于外部环境,能够提供绝对尺度估计。融合IMU的信息估计位姿的方法被称为视觉惯性里程计(Visual-Interial Odometry,简称VIO),它不仅可以解决尺度缺失的问题,而且能够提高位姿估计的准确率。
目前的基于深度学习的方法可以直接从单目相机和IMU数据中回归得到位姿数据,无需调整系统参数。现有的基于深度学习的位姿估计方法(如VINet)主要利用卷积神经网络FlowNet直接从原始图像序列中学习几何特征和循环神经网络从IMU序列中提取时序特征,然后将这两种特征输入到长短期记忆LSTM网络中得到位姿,与传统融合方法相比,它在生成精确位姿估计结果的同时,无需相机与IMU紧密校准以获得绝对尺度估计。然而这种方法需要相机和IMU的紧密耦合、参数量多、计算复杂度高,难以应用于对实时性有较高要求和纹理缺失等复杂场景。
发明内容
本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法及装置,用以解决现有技术中的问题。
本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法,包括:每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,所述利用光流网络对所述相邻图像帧提取特征得到光流信息,包括:采用快速光流提取网络从相邻两帧中提取光流特征,得到每一像素的光流矢量图;将每一像素的光流矢量值投影到0-255区间,并将光流矢量图表示为彩色图像。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,输入预设神经网络模型的空间卷积网络分支提取运动特征,包括:以滑动窗口形式组合经过预处理后的两帧图像帧,将两张图像的颜色通道进行堆叠,并根据空间卷积网络,获取堆叠后的帧图像的运动特征,并将所获运动特征输入到全连接层以减小维度息。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,输入预设神经网络模型的时间卷积网络分支提取时间特征,包括:沿颜色通道以滑动窗口形式组合两帧图像的光流序列,将窗口内堆叠后的光流序列输入到时间卷积网络,通过卷积层提取时间特征,将提取到的时间特征输入到全连接层以减小维度。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,所述将所述运动特征和所述时间特征融合后得到第一位姿向量,包括:将两个分支的全连接层提取的运动特征和时间特征拼接后,再输入到两个全连接层中,最终输出得到由三维平移分量和四元组姿态分类的自由度位姿向量。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征之前,还包括:获取多个已知位姿向量的视频帧,并采集视频帧在内的相邻图像帧;以相邻图像帧和相邻图像帧提取的光流信息作为样本输入,对应的已知位姿向量作为标签,对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练,得到所述预设的神经网络模型。
根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法,所述根据当前时刻及以前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿,包括:将当前时刻及之前,多个连续时刻的融合后位姿向量,输入预设的卷积神经网络模型,输出当前时刻的位姿向量;其中,所述预设的卷积神经网络模型,根据已知位姿向量为标签,对应的多个连续时刻融合后位姿向量作为样本输入,进行训练后得到。
本发明实施例还提供一种基于深度视觉里程计和IMU的相机位姿估计装置,包括:采集模块,用于每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;第一处理模块,用于将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;第二处理模块,用于对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;综合处理模块,用于根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。
本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计方法及装置,将深度视觉里程计与IMU融合后,获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准,可分离性强、精度高、计算量低,能够适用于纹理缺失和实时性要求高等复杂场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计方法的流程示意图;
图2是本发明实施例提供的网络结构示意图;
图3是本发明实施例提供的融合操作示意图;
图4是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明实施例的基于深度视觉里程计和IMU的相机位姿估计方法及装置。图1是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计方法的流程示意图,如图1所示,本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法,包括:
101、每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度。
首先,通过相机采集原始视频帧数据,通过惯性里程计获取加速度和角速度数据。新生成帧时,获取多个相邻帧,包括新生成帧,共同作为相邻图像帧。采用快速光流网络,如TV-Net,对相邻图像帧提取特征得到光流信息。
102、将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量。
将经过预处理的图像帧和计算得到的多张相邻帧的光流图分别输入到网络的两个分支中,通过一系列操作后将两个分支的输出结果融合得到初步位姿数据(即第一位姿向量),初步位姿数据包括位姿向量ai和姿态向量aj。
深度视觉里程计包含两个独立分支:空间卷积网络和时间卷积网络。其中空间卷积网络可以为提取图片间运动特征的FlowNet网络,时间卷积网络可以为残差网络,用于提取多帧相邻帧光流的时间特征。该神经网络模型,是根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练后得到。
空间卷积网络分支可以由多个卷积层和一个全连接层构成;时间卷积网络分支,可由一个卷积层,若干bottleneck层和一个全连接层构成;特征融合结构,可由若干全连接层构成。
103、对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量。
相邻图像帧的开始时间到结束时间,对加速度和角速度数据进行积分,得到位置向量bi和姿态向量bj。将神经网络得到的位置向量ai和姿态向量aj与IMU积分得到的位置向量bi和姿态向量bj进行融合,进而得到融合后的位姿数据。
104、根据当前时刻及之前的多个连续时刻,每个时刻的融合后位姿向量,确定当前时刻的位姿。
每次产生新视频帧时,对应一个时刻。确定当前时刻的位姿,需要获取当前时刻之前的多个相邻时刻的位姿,根据所有相邻时刻的位姿,最终确定当前时刻的位姿。例如,分别根据101-103的步骤,得到1、2……T时刻的融合后位姿向量,再以此确定T时刻的位姿。
本发明实施例的方法,将深度视觉里程计与IMU融合后,获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准,可分离性强、精度高、计算量低,能够适用于纹理缺失和实时性要求高等复杂场景。
基于上述实施例的内容,作为一种可选实施例,所述利用光流网络对所述相邻图像帧提取特征得到光流信息,包括:采用快速光流提取网络从相邻两帧中提取光流特征,得到每一像素的光流矢量图;将每一像素的光流矢量值投影到0-255区间,并将光流矢量图表示为彩色图像。
采用快速光流提取网络。如TV-Net从相邻两张视频帧间提取光流特征,并将光流矢量图像中的光流特征,作为像素值投影到0-255区间内,用彩色图像形式对光流矢量图进行表示。
基于上述实施例的内容,作为一种可选实施例,输入预设神经网络模型的空间卷积网络分支提取运动特征,包括:以滑动窗口形式组合经过预处理后的两帧图像帧,将两张图像的颜色通道进行堆叠,并根据空间卷积网络,获取堆叠后的帧图像的运动特征,并将所获运动特征输入到全连接层以减小维度息。
将原始彩色图像尺寸裁剪为512*256*3,其中512为图片宽度分辨率,256为图片高度分辨率,3为颜色通道数。对每一帧图像减去数据集的平均RGB值,并除以RGB方差,得到标准化处理结果。
视频帧数据作为表述空间信息的载体,输入到空间卷积网络中提取相邻两张图片间运动特征,光流数据作为运动信息的载体被输入到时间卷积网络中提取时间特征,再对模型提取的不同信息进行融合。
具体是,以滑动窗口形式组合经过预处理后的两张图像帧,将T时刻图像和T+1时刻图像的颜色通道进行堆叠,并根据运动特征提取的空间卷积网络,获取堆叠后的两幅图像的运动特征信息,然后将所获运动信息输入到全连接层以减小维度。
基于上述实施例的内容,作为一种可选实施例,输入预设神经网络模型的时间卷积网络分支提取时间特征,包括:沿颜色通道以滑动窗口形式组合两帧图像的光流序列,将窗口内堆叠后的光流序列输入到时间卷积网络,通过卷积层提取时间特征,将提取到的时间特征输入到全连接层以减小维度。
基于上述实施例的内容,作为一种可选实施例,所述将运动特征和时间特征融合后得到第一位姿向量,包括:将两个分支的全连接层提取的运动特征和时间特征拼接后,再输入到两个全连接层中,最终输出得到由三维平移分量和四元组姿态分类的自由度位姿向量。
将深度视觉里程计网络的两个分支的全连接层提取的运动特征和时间特征拼接后再输入到两个全连接层中,最终输出得到由三维平移分量和四元组表示的7自由度位姿向量。
基于上述实施例的内容,作为一种可选实施例,将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征之前,还包括:获取多个已知位姿向量的视频帧,并采集视频帧在内的相邻图像帧;以相邻图像帧和相邻图像帧提取的光流信息作为样本输入,对应的已知位姿向量作为标签,对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练,得到所述预设的神经网络模型。
基于上述实施例的内容,作为一种可选实施例,所述根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿,包括:
将当前时刻及以前,多个连续时刻的融合后位姿向量,输入预设的卷积神经网络模型,输出当前时刻的位姿向量;其中,所述预设的卷积神经网络模型,根据已知位姿向量为标签,对应的多个连续时刻融合后位姿向量作为样本输入,进行训练后得到。
在具体实施时,将视觉里程计得到的7自由度位姿和IMU经过与积分得到的由三维平移分量和四元组表示的7自由度位姿,即融合后位姿向量,送入时序缓存器中。每次得到当前时刻的融合后位姿向量,则从时序缓存器中取出当前时刻的融合后位姿向量,以及当前时刻以前,多个连续相邻的时刻的融合后位姿向量,输入预设的卷积神经网络模型。连续时刻的数量可以预设,相应地训练模型时数量也保持一致。例如,以当前时刻及之前连续的60个融合后位姿向量,估计当前时刻的位姿。该卷积网络模型是训练完成的,然后经过由若干层卷积和一个全连接层得到融合后的位姿数据,即得到当前时刻的位姿估计值。该预设的卷积神经网络模型,是根据已知位姿向量为标签,对应的多个连续时刻融合后位姿向量作为样本输入,进行训练后得到。预设的卷积神经网络模型,可以是由多个卷积层和全连接层构成。图2是本发明实施例提供的网络结构示意图,图3是本发明实施例提供的融合操作示意图,具体可参加图2(图中,frame表示帧,pose表示位姿)和图3。
下面对本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计装置进行描述,下文描述的基于深度视觉里程计和IMU的相机位姿估计装置与上文描述的基于深度视觉里程计和IMU的相机位姿估计方法可相互对应参照。
图4是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计装置的结构示意图,如图4所示,该基于深度视觉里程计和IMU的相机位姿估计装置包括:采集模块401、第一处理模块402、第二处理模块403和综合处理模块404。其中,采集模块401用于每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;第一处理模块402用于将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;第二处理模块403用于对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;综合处理模块404用于根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计装置,将深度视觉里程计与IMU融合后,获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准,可分离性强、精度高、计算量低,能够适用于纹理缺失和实时性要求高等复杂场景。
图5是本发明实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行基于深度视觉里程计和IMU的相机位姿估计方法,该方法包括:每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于深度视觉里程计和IMU的相机位姿估计方法,该方法包括:每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于深度视觉里程计和IMU的相机位姿估计方法,该方法包括:每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于深度视觉里程计和IMU的相机位姿估计方法,其特征在于,包括:
每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;
将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;
对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;
根据当前时刻及之前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;
其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到;
所述将所述运动特征和所述时间特征融合后得到第一位姿向量,包括:
将两个分支的全连接层提取的运动特征和时间特征拼接后,再输入到两个全连接层中,最终输出得到由三维平移分量和四元组姿态分类表征的自由度位姿向量;
输入预设神经网络模型的空间卷积网络分支提取运动特征,包括:
以滑动窗口形式组合经过预处理后的两帧图像帧,将两张图像的颜色通道进行堆叠,并根据空间卷积网络,获取堆叠后的帧图像的运动特征,并将所获运动特征输入到全连接层以减小维度息;
输入预设神经网络模型的时间卷积网络分支提取时间特征,包括:
沿颜色通道以滑动窗口形式组合两帧图像的光流序列,将窗口内堆叠后的光流序列输入到时间卷积网络,通过卷积层提取时间特征,将提取到的时间特征输入到全连接层以减小维度。
2.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法,其特征在于,所述利用光流网络对所述相邻图像帧提取特征得到光流信息,包括:
采用快速光流提取网络从相邻两帧中提取光流特征,得到每一像素的光流矢量图;
将每一像素的光流矢量值投影到0-255区间,并将光流矢量图表示为彩色图像。
3.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法,其特征在于,将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征之前,还包括:
获取多个已知位姿向量的视频帧,并采集视频帧在内的相邻图像帧;
以相邻图像帧和相邻图像帧提取的光流信息作为样本输入,对应的已知位姿向量作为标签,对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练,得到所述预设的神经网络模型。
4.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法,其特征在于,所述根据当前时刻及以前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿,包括:
将当前时刻及之前,多个连续时刻的融合后位姿向量,输入预设的卷积神经网络模型,输出当前时刻的位姿向量;
其中,所述预设的卷积神经网络模型,根据已知位姿向量为标签,对应的多个连续时刻融合后位姿向量作为样本输入,进行训练后得到。
5.一种基于深度视觉里程计和IMU的相机位姿估计装置,其特征在于,包括:
采集模块,用于每次产生新视频帧时,获取包括新视频帧在内的相邻图像帧,利用光流网络对所述相邻图像帧提取特征得到光流信息,并利用惯性里程计IMU获取相机加速度和角速度;
第一处理模块,用于将所述光流信息和所述相邻图像帧,分别输入预设神经网络模型的空间卷积网络分支提取运动特征,和时间卷积网络分支提取时间特征,并将所述运动特征和所述时间特征融合后得到第一位姿向量;
第二处理模块,用于对相邻图像帧对应时刻的加速度和角速度进行积分,得到第二位姿向量;根据所述第一位姿向量和所述第二位姿向量,得到融合后的位姿向量;
综合处理模块,用于根据当前时刻及以前,多个连续时刻的融合后位姿向量,确定当前时刻的位姿;
其中,所述预设神经网络模型,根据已知位姿向量的相邻图像帧,提取光流信息后,将光流信息和图像帧作为输入,将已知位姿向量作为标签,进行训练得到;
所述第一处理模块,具体用于:
将两个分支的全连接层提取的运动特征和时间特征拼接后,再输入到两个全连接层中,最终输出得到由三维平移分量和四元组姿态分类表征的自由度位姿向量;
所述第一处理模块,还用于:
以滑动窗口形式组合经过预处理后的两帧图像帧,将两张图像的颜色通道进行堆叠,并根据空间卷积网络,获取堆叠后的帧图像的运动特征,并将所获运动特征输入到全连接层以减小维度息;
所述第一处理模块,还用于:
沿颜色通道以滑动窗口形式组合两帧图像的光流序列,将窗口内堆叠后的光流序列输入到时间卷积网络,通过卷积层提取时间特征,将提取到的时间特征输入到全连接层以减小维度。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476504.2A CN112648994B (zh) | 2020-12-14 | 2020-12-14 | 基于深度视觉里程计和imu的相机位姿估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476504.2A CN112648994B (zh) | 2020-12-14 | 2020-12-14 | 基于深度视觉里程计和imu的相机位姿估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112648994A CN112648994A (zh) | 2021-04-13 |
CN112648994B true CN112648994B (zh) | 2023-12-05 |
Family
ID=75355384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011476504.2A Active CN112648994B (zh) | 2020-12-14 | 2020-12-14 | 基于深度视觉里程计和imu的相机位姿估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112648994B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11841741B2 (en) * | 2021-04-29 | 2023-12-12 | Microsoft Technology Licensing, Llc | Composite pose estimate for wearable computing device |
CN114518125B (zh) * | 2022-01-31 | 2024-06-07 | 深圳市云鼠科技开发有限公司 | 加速度计前进里程获取方法及应用 |
CN115358962B (zh) * | 2022-10-18 | 2023-01-10 | 中国第一汽车股份有限公司 | 一种端到端视觉里程计方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110345944A (zh) * | 2019-05-27 | 2019-10-18 | 浙江工业大学 | 融合视觉特征和imu信息的机器人定位方法 |
CN110595466A (zh) * | 2019-09-18 | 2019-12-20 | 电子科技大学 | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 |
CN111126223A (zh) * | 2019-12-16 | 2020-05-08 | 山西大学 | 基于光流引导特征的视频行人再识别方法 |
CN111833400A (zh) * | 2020-06-10 | 2020-10-27 | 广东工业大学 | 一种相机位姿定位方法 |
CN111880207A (zh) * | 2020-07-09 | 2020-11-03 | 南京航空航天大学 | 一种基于小波神经网络的视觉惯性卫星紧耦合定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11024041B2 (en) * | 2018-12-10 | 2021-06-01 | Intel Corporation | Depth and motion estimations in machine learning environments |
-
2020
- 2020-12-14 CN CN202011476504.2A patent/CN112648994B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110345944A (zh) * | 2019-05-27 | 2019-10-18 | 浙江工业大学 | 融合视觉特征和imu信息的机器人定位方法 |
CN110595466A (zh) * | 2019-09-18 | 2019-12-20 | 电子科技大学 | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 |
CN111126223A (zh) * | 2019-12-16 | 2020-05-08 | 山西大学 | 基于光流引导特征的视频行人再识别方法 |
CN111833400A (zh) * | 2020-06-10 | 2020-10-27 | 广东工业大学 | 一种相机位姿定位方法 |
CN111880207A (zh) * | 2020-07-09 | 2020-11-03 | 南京航空航天大学 | 一种基于小波神经网络的视觉惯性卫星紧耦合定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112648994A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112648994B (zh) | 基于深度视觉里程计和imu的相机位姿估计方法及装置 | |
KR102295403B1 (ko) | 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체 | |
Casser et al. | Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos | |
Zama Ramirez et al. | Geometry meets semantics for semi-supervised monocular depth estimation | |
TW202101371A (zh) | 視訊流的處理方法和裝置 | |
US20180308240A1 (en) | Method for estimating the speed of movement of a camera | |
US20190387209A1 (en) | Deep Virtual Stereo Odometry | |
CN105141807B (zh) | 视频信号图像处理方法和装置 | |
US11222409B2 (en) | Image/video deblurring using convolutional neural networks with applications to SFM/SLAM with blurred images/videos | |
US11082633B2 (en) | Method of estimating the speed of displacement of a camera | |
US20220277545A1 (en) | Binocular image-based model training method and apparatus, and data processing device | |
CN110009675B (zh) | 生成视差图的方法、装置、介质及设备 | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN111080699A (zh) | 基于深度学习的单目视觉里程计方法及系统 | |
CN112766028B (zh) | 人脸模糊处理方法、装置、电子设备及存储介质 | |
CN115008454A (zh) | 一种基于多帧伪标签数据增强的机器人在线手眼标定方法 | |
CN113298707B (zh) | 图像帧拼接方法、视频巡检方法、装置、设备及存储介质 | |
CN114792414A (zh) | 一种用于载体的目标变量检测方法及其系统 | |
CN110717593A (zh) | 神经网络训练、移动信息测量、关键帧检测的方法及装置 | |
CN115841602A (zh) | 基于多视角的三维姿态估计数据集的构建方法及装置 | |
CN114119678A (zh) | 光流估计方法、计算机程序产品、存储介质及电子设备 | |
CN114034312B (zh) | 一种轻量级多解耦的视觉里程计实现方法 | |
CN117876608B (zh) | 三维图像重建方法、装置、计算机设备及存储介质 | |
CN114723611B (zh) | 图像重建模型训练方法、重建方法、装置、设备及介质 | |
US20240029281A1 (en) | Method for reducing error of depth estimation model, electronic device, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhou Hongwei Inventor after: Chen Limin Inventor after: Qiao Xiuquan Inventor after: Zhao Hongru Inventor before: Zhou Hongwei Inventor before: Chen Limin Inventor before: Qiao Xiuquan Inventor before: Zhao Hongru |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |