CN111080699B - 基于深度学习的单目视觉里程计方法及系统 - Google Patents
基于深度学习的单目视觉里程计方法及系统 Download PDFInfo
- Publication number
- CN111080699B CN111080699B CN201911277617.7A CN201911277617A CN111080699B CN 111080699 B CN111080699 B CN 111080699B CN 201911277617 A CN201911277617 A CN 201911277617A CN 111080699 B CN111080699 B CN 111080699B
- Authority
- CN
- China
- Prior art keywords
- representing
- information
- image
- pose
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 230000003287 optical effect Effects 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 30
- 238000006073 displacement reaction Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013459 approach Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的单目视觉里程计方法及系统。为了解决现有技术确定机器人的位置和姿态精度较低的问题,本发明提出一种基于深度学习的单目视觉里程计方法,包括基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息;基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本发明的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的单目视觉里程计方法及系统。
背景技术
近年来,深度学习技术已成功运用在人脸识别、目标跟踪、语音识别、机器翻译等方面。其中,视觉里程计是移动机器人、自觉导航以及增强现实中的重要环节。视觉里程计是通过分析处理相关图像序列确定机器人的位置和姿态。视觉里程计按照所使用的相机数量可以分为单目视觉里程计和双目视觉里程计。单目视觉里程计因为其只需要一架相机,更加轻巧、便宜而得到广泛的研究。
经典的视觉里程计算法包括相机矫正、特征检测、特征匹配、外点剔除、运动估计、尺度估计以及后端优化等。经典的视觉里程计算法在大部分情况下都能取得较好的效果,但是面对遮挡、光照变化大、无纹理等场景仍会存在失败的情况。
现有的视觉里程计方法包括采用卷积神经网络学习图片之间的几何关系,实现端到端的位姿估计。但是尽管卷积神经网络能够应对一些极端情况,但是整体精度却低于传统方法,此外,网络的泛化能力也是影响深度神经网络实际应用的重要原因。
因此,如何提出一种解决现有技术问题的方案是本领域技术人员需要解决的技术问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术确定机器人的位置和姿态精度较低的问题,本发明的第一方面提供了一种基于深度学习的单目视觉里程计方法,所述方法包括:
基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,“基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息”,其方法包括:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,在“获取所述运动图像的运动特征信息”的步骤之后,在“获取所述单目相机的位姿信息”的步骤之前,所述方法还包括:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,“获取所述运动图像对应的光流信息”,其方法包括:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Lwarp(It,It+1)=∑i,j|I(i,j,t+1)-I′(i,j,t+1)|
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
在一种可能的实现方式中,“通过预设的位姿估计模型,获取所述单目相机的位姿信息”,其方法包括:
按照如下公式所示的方法获取所述单目相机的位姿信息:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+who*ht-1+bi)
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,/>表示预测位移,pt表示实际位移,/>表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
在一种可能的实现方式中,在“获取所述单目相机的位姿信息”的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,/>表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,/>表示光流估计部分的损失函数所对应的权重学习参数。
本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统,包括:
第一模块,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
第二模块,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,所述第一模块还用于:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,所述系统还包括训练模块,所述训练模块用于:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,所述训练模块还用于:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Lwarp(It,It+1)=∑i,j|I(i,j,t+1)-I′(i,j,t+1)|
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
本发明提供的基于深度学习的单目视觉里程计方法,基于单目相机所获取的多个运动图像,通过预设的光流预测模型,获取所述运动图像的运动特征信息,基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本申请的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。
附图说明
图1是本发明的基于深度学习的单目视觉里程计方法的第一流程示意图;
图2是本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图;
图3是本发明的获取所述单目相机的位姿信息的流程示意图;
图4、图5、图6、图7分别是对应于测试序列04、05、06、07的测试轨迹图;
图8是本发明的基于深度学习的单目视觉里程计系统的结构示意图。
具体实施方式
为使本发明的实施例、技术方案和优点更加明显,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第一种流程示意图。本发明的基于深度学习的单目视觉里程计方法包括:
S101:基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息。
其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量。
参阅附图2,图2示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图。
在实际应用中,可以给定两张连续的图片,分别表示为I(x,y,t)和I(x,y,t+1),其中,x,y,t分别表示图片坐标系的横纵坐标,t表示时间。将两张连续的图片进行合成,合成后的图片可以表示为I′(x,y,t+1)=I(i+ui,j,j+vi,j,t),将合成后的图片输入到预设的图像特征提取模型中,其中,图像特征提取模型可以是图中的FlowNet模型,将合成后的图片输入到预设的图像特征提取模型中,可以得到运动图像的运动特征信息和运动图像对应的光流信息。其中,运动特征信息包括运动图像的高维特征向量。具体地,基于多个运动图像中连续的两幅运动图像,将两幅运动图像的颜色通道进行堆叠,并根据图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息。
通过图2可知,将合成后的图片输入到预设的光流预测模型中,除了可以得到运动图像的运动特征信息,还可以得到光流信息。
在“获取所述运动图像的运动特征信息”的步骤之后,在“获取所述单目相机的位姿信息”的步骤之前,所述方法还包括:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,可以按照如下公式(1)所示的方法获取运动图像对应的光流信息:
公式(1):
Lwarp(It,It+1)=∑i,j/I(i,j,t+1)-I′(i,j,t+1)|
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
S102:基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。
其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
参阅附图3,图3示例性地示出了获取所述单目相机的位姿信息的流程示意图。基于得到的运动特征信息,通过预设的位姿估计模型,根据图2可知,位姿估计模型可以是convLSTM模型,之后经过均值池化,能够得到一个1024维的向量。相比于普通的FC-LSTM模型,本申请的convLSTM模型将FC-LSTM模型中的矩阵乘法换成了卷积操作,因为可以更好地捕捉视频序列的空间和时间特性,同时可以减少参数量。
作为一种可能的实现方式,可以按照如下公式(2)所示的方法获取单目相机的位姿信息:
公式(2):
it=σ(wxi*xi+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+xho*ht-1+bi)
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,/>表示预测位移,pt表示实际位移,/>表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
在实际应用中,通过优化的损失函数,可以学习到有效的位姿估计模型,但是位姿估计模型的权重参数需要手动调节,以帮助模型调整到输出参数值趋近于真实值。手动调节不仅需要反复试验,耗时耗力,而且通常很难定位到最有的配置。
为此,在“获取所述单目相机的位姿信息”的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
公式(3):
其中,其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,/>表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,/>表示光流估计部分的损失函数所对应的权重学习参数。
需要说明的是,分别是可以学习的向量,根据学习到的情况可以动态调整,通过调整这三个参数的值,可以使得网络输出的位置、姿态以及光流损失达到最优的均衡。
本发明提供的基于深度学习的单目视觉里程计方法,基于单目相机所获取的多个运动图像,通过预设的光流预测模型,获取所述运动图像的运动特征信息,基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本申请的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。
为了验证本申请方法的有效性,可以在KittiVO/SLAM上训练本申请的方法。这个数据集包含22个视频序列,其中00~10提供了位姿真值,11~21只提供了原始的视频序列。这22个视频序列中包含很多动态物体,这对于单目VO非常具有挑战性。实验中图片均被调整为384*1280,初始学习率为0.0001,batch size为2,每10个epoch,学习率减半。所有实验均在一块NVIDIA TiTAN X GPU上完成。优化器为Adam,其中β1=0.9,β2=0.999,分别初始化为0,-3,0。实验中的误差评价是标准的Kitti评估标准。实验中使用00,02,08,09这四个序列训练,01,03,04,05,06,06,10用于定量测试。
测试结果如表1所示:
此外,图4、5、6、7分别是对应于序列04、05、06、07的测试轨迹图,用以验证本申请方法的有效性。其中,图4/5/6中,蓝色实线表示预测轨迹,红色虚线表示真实轨迹。从图中可以看书本申请的方法能够很好地吻合真实轨迹。
本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统,所述系统包括:
第一模块1,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
第二模块2,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,所述第一模块1还用于:
基基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,所述系统还包括训练模块,所述训练模块用于:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,所述训练模块还用于:
按照公式(1)所示的方法获取运动图像对应的光流信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.一种基于深度学习的单目视觉里程计方法,其特征在于,所述方法包括:
基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型;
获取所述运动图像对应的光流信息,其方法包括:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数;
基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
2.根据权利要求1所述的方法,其特征在于,基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其方法包括:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
3.根据权利要求1所述的方法,其特征在于,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其方法包括:
按照如下公式所示的方法获取所述单目相机的位姿信息:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+who*ht-1+bi)
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,/>表示预测位移,pt表示实际位移,/>表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
4.根据权利要求1所述的方法,其特征在于,在获取所述单目相机的位姿信息的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,/>表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,/>表示光流估计部分的损失函数所对应的权重学习参数。
5.一种基于深度学习的单目视觉里程计系统,其特征在于,所述系统包括:
第一模块,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
训练模块,用于基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型;
所述训练模块还用于:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数
第二模块,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
6.根据权利要求5所述的系统,其特征在于,所述第一模块还用于:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277617.7A CN111080699B (zh) | 2019-12-11 | 2019-12-11 | 基于深度学习的单目视觉里程计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277617.7A CN111080699B (zh) | 2019-12-11 | 2019-12-11 | 基于深度学习的单目视觉里程计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111080699A CN111080699A (zh) | 2020-04-28 |
CN111080699B true CN111080699B (zh) | 2023-10-20 |
Family
ID=70314253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277617.7A Active CN111080699B (zh) | 2019-12-11 | 2019-12-11 | 基于深度学习的单目视觉里程计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080699B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112344922B (zh) * | 2020-10-26 | 2022-10-21 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN112329915A (zh) * | 2020-10-27 | 2021-02-05 | 上海眼控科技股份有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN112561978B (zh) * | 2020-12-18 | 2023-11-17 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
CN113989318B (zh) * | 2021-10-20 | 2023-04-07 | 电子科技大学 | 基于深度学习的单目视觉里程计位姿优化与误差修正方法 |
CN115358962B (zh) * | 2022-10-18 | 2023-01-10 | 中国第一汽车股份有限公司 | 一种端到端视觉里程计方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107516326A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 融合单目视觉和编码器信息的机器人定位方法和系统 |
CN108986166A (zh) * | 2018-07-20 | 2018-12-11 | 山东大学 | 一种基于半监督学习的单目视觉里程预测方法及里程计 |
CN110349215A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种相机位姿估计方法及装置 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110533724A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 基于深度学习和注意力机制的单目视觉里程计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190079533A1 (en) * | 2017-09-13 | 2019-03-14 | TuSimple | Neural network architecture method for deep odometry assisted by static scene optical flow |
-
2019
- 2019-12-11 CN CN201911277617.7A patent/CN111080699B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107516326A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 融合单目视觉和编码器信息的机器人定位方法和系统 |
CN108986166A (zh) * | 2018-07-20 | 2018-12-11 | 山东大学 | 一种基于半监督学习的单目视觉里程预测方法及里程计 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110349215A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种相机位姿估计方法及装置 |
CN110533724A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 基于深度学习和注意力机制的单目视觉里程计算方法 |
Non-Patent Citations (3)
Title |
---|
"Geometric loss function for camera pose regression with deep learning";Alex Kendall;《IEEE》;全文 * |
"spatial transfomer networks";Max Jaderberg;《IEEE》;全文 * |
"基于深度神经网络的视觉位姿估计方法研究";乔明起;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111080699A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080699B (zh) | 基于深度学习的单目视觉里程计方法及系统 | |
WO2020177651A1 (zh) | 图像分割方法和图像处理装置 | |
US11182620B2 (en) | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network | |
US11557085B2 (en) | Neural network processing for multi-object 3D modeling | |
US9418458B2 (en) | Graph image representation from convolutional neural networks | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
US9344690B2 (en) | Image demosaicing | |
CN105069424B (zh) | 面部快速识别系统和方法 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN112561978B (zh) | 深度估计网络的训练方法、图像的深度估计方法、设备 | |
WO2023165093A1 (zh) | 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品 | |
CN110706262B (zh) | 图像处理方法、装置、设备及存储介质 | |
US20220157046A1 (en) | Image Classification Method And Apparatus | |
CN112648994B (zh) | 基于深度视觉里程计和imu的相机位姿估计方法及装置 | |
CN110874853A (zh) | 目标运动的确定方法、装置、设备及存储介质 | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
Senst et al. | Robust local optical flow: Long-range motions and varying illuminations | |
CN111753739A (zh) | 物体检测方法、装置、设备以及存储介质 | |
Yun et al. | Panoramic vision transformer for saliency detection in 360∘ videos | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
US20220058827A1 (en) | Multi-view iterative matching pose estimation | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN116912467A (zh) | 图像拼接方法、装置、设备及存储介质 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
Vlahović et al. | Deep learning in video stabilization homography estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |