CN111080699A - 基于深度学习的单目视觉里程计方法及系统 - Google Patents

基于深度学习的单目视觉里程计方法及系统 Download PDF

Info

Publication number
CN111080699A
CN111080699A CN201911277617.7A CN201911277617A CN111080699A CN 111080699 A CN111080699 A CN 111080699A CN 201911277617 A CN201911277617 A CN 201911277617A CN 111080699 A CN111080699 A CN 111080699A
Authority
CN
China
Prior art keywords
information
pose
acquiring
motion
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911277617.7A
Other languages
English (en)
Other versions
CN111080699B (zh
Inventor
高伟
万一鸣
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911277617.7A priority Critical patent/CN111080699B/zh
Publication of CN111080699A publication Critical patent/CN111080699A/zh
Application granted granted Critical
Publication of CN111080699B publication Critical patent/CN111080699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及一种基于深度学习的单目视觉里程计方法及系统。为了解决现有技术确定机器人的位置和姿态精度较低的问题,本发明提出一种基于深度学习的单目视觉里程计方法,包括基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息;基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本发明的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。

Description

基于深度学习的单目视觉里程计方法及系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的单目视觉里程计方法及系统。
背景技术
近年来,深度学习技术已成功运用在人脸识别、目标跟踪、语音识别、机器翻译等方面。其中,视觉里程计是移动机器人、自觉导航以及增强现实中的重要环节。视觉里程计是通过分析处理相关图像序列确定机器人的位置和姿态。视觉里程计按照所使用的相机数量可以分为单目视觉里程计和双目视觉里程计。单目视觉里程计因为其只需要一架相机,更加轻巧、便宜而得到广泛的研究。
经典的视觉里程计算法包括相机矫正、特征检测、特征匹配、外点剔除、运动估计、尺度估计以及后端优化等。经典的视觉里程计算法在大部分情况下都能取得较好的效果,但是面对遮挡、光照变化大、无纹理等场景仍会存在失败的情况。
现有的视觉里程计方法包括采用卷积神经网络学习图片之间的几何关系,实现端到端的位姿估计。但是尽管卷积神经网络能够应对一些极端情况,但是整体精度却低于传统方法,此外,网络的泛化能力也是影响深度神经网络实际应用的重要原因。
因此,如何提出一种解决现有技术问题的方案是本领域技术人员需要解决的技术问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术确定机器人的位置和姿态精度较低的问题,本发明的第一方面提供了一种基于深度学习的单目视觉里程计方法,所述方法包括:
基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,“基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息”,其方法包括:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,在“获取所述运动图像的运动特征信息”的步骤之后,在“获取所述单目相机的位姿信息”的步骤之前,所述方法还包括:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,“获取所述运动图像对应的光流信息”,其方法包括:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Lwarp(It,It+1)=∑i,j|I(i,j,t+1)-I′(i,j,t+1)|
Figure BDA0002313248700000021
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
在一种可能的实现方式中,“通过预设的位姿估计模型,获取所述单目相机的位姿信息”,其方法包括:
按照如下公式所示的方法获取所述单目相机的位姿信息:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+who*ht-1+bi)
Figure BDA0002313248700000031
Figure BDA0002313248700000032
Figure BDA0002313248700000033
Figure BDA0002313248700000034
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,
Figure BDA0002313248700000035
表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,
Figure BDA0002313248700000036
表示预测位移,pt表示实际位移,
Figure BDA0002313248700000037
表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
在一种可能的实现方式中,在“获取所述单目相机的位姿信息”的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
Figure BDA0002313248700000038
Figure BDA0002313248700000039
其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,
Figure BDA00023132487000000310
表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,
Figure BDA00023132487000000311
表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,
Figure BDA00023132487000000312
表示光流估计部分的损失函数所对应的权重学习参数。
本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统,包括:
第一模块,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
第二模块,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,所述第一模块还用于:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,所述系统还包括训练模块,所述训练模块用于:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,所述训练模块还用于:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Lwarp(It,It+1)=∑i,j|I(i,j,t+1)-I′(i,j,t+1)|
Figure BDA0002313248700000041
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
本发明提供的基于深度学习的单目视觉里程计方法,基于单目相机所获取的多个运动图像,通过预设的光流预测模型,获取所述运动图像的运动特征信息,基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本申请的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。
附图说明
图1是本发明的基于深度学习的单目视觉里程计方法的第一流程示意图;
图2是本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图;
图3是本发明的获取所述单目相机的位姿信息的流程示意图;
图4、图5、图6、图7分别是对应于测试序列04、05、06、07的测试轨迹图;
图8是本发明的基于深度学习的单目视觉里程计系统的结构示意图。
具体实施方式
为使本发明的实施例、技术方案和优点更加明显,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第一种流程示意图。本发明的基于深度学习的单目视觉里程计方法包括:
S101:基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息。
其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量。
参阅附图2,图2示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图。
在实际应用中,可以给定两张连续的图片,分别表示为I(x,y,t)和I(x,y,t+1),其中,x,y,t分别表示图片坐标系的横纵坐标,t表示时间。将两张连续的图片进行合成,合成后的图片可以表示为I′(x,y,t+1)=I(i+ui,j,j+vi,j,t),将合成后的图片输入到预设的图像特征提取模型中,其中,图像特征提取模型可以是图中的FlowNet模型,将合成后的图片输入到预设的图像特征提取模型中,可以得到运动图像的运动特征信息和运动图像对应的光流信息。其中,运动特征信息包括运动图像的高维特征向量。具体地,基于多个运动图像中连续的两幅运动图像,将两幅运动图像的颜色通道进行堆叠,并根据图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息。
通过图2可知,将合成后的图片输入到预设的光流预测模型中,除了可以得到运动图像的运动特征信息,还可以得到光流信息。
在“获取所述运动图像的运动特征信息”的步骤之后,在“获取所述单目相机的位姿信息”的步骤之前,所述方法还包括:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,可以按照如下公式(1)所示的方法获取运动图像对应的光流信息:
公式(1):
Lwarp(It,It+1)=∑i,j/I(i,j,t+1)-I′(i,j,t+1)|
Figure BDA0002313248700000061
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
S102:基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。
其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
参阅附图3,图3示例性地示出了获取所述单目相机的位姿信息的流程示意图。基于得到的运动特征信息,通过预设的位姿估计模型,根据图2可知,位姿估计模型可以是convLSTM模型,之后经过均值池化,能够得到一个1024维的向量。相比于普通的FC-LSTM模型,本申请的convLSTM模型将FC-LSTM模型中的矩阵乘法换成了卷积操作,因为可以更好地捕捉视频序列的空间和时间特性,同时可以减少参数量。
作为一种可能的实现方式,可以按照如下公式(2)所示的方法获取单目相机的位姿信息:
公式(2):
it=σ(wxi*xi+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+xho*ht-1+bi)
Figure BDA0002313248700000071
Figure BDA0002313248700000072
Figure BDA0002313248700000073
Figure BDA0002313248700000074
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,
Figure BDA0002313248700000075
表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,
Figure BDA0002313248700000076
表示预测位移,pt表示实际位移,
Figure BDA0002313248700000077
表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
在实际应用中,通过优化的损失函数,可以学习到有效的位姿估计模型,但是位姿估计模型的权重参数需要手动调节,以帮助模型调整到输出参数值趋近于真实值。手动调节不仅需要反复试验,耗时耗力,而且通常很难定位到最有的配置。
为此,在“获取所述单目相机的位姿信息”的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
公式(3):
Figure BDA0002313248700000081
Figure BDA0002313248700000082
其中,其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,
Figure BDA0002313248700000083
表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,
Figure BDA0002313248700000084
表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,
Figure BDA0002313248700000085
表示光流估计部分的损失函数所对应的权重学习参数。
需要说明的是,
Figure BDA0002313248700000086
分别是可以学习的向量,根据学习到的情况可以动态调整,通过调整这三个参数的值,可以使得网络输出的位置、姿态以及光流损失达到最优的均衡。
本发明提供的基于深度学习的单目视觉里程计方法,基于单目相机所获取的多个运动图像,通过预设的光流预测模型,获取所述运动图像的运动特征信息,基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息。本申请的方法为了使网络输出位姿的结果更精确,同时提高网络的泛化性能,采用多任务学习的方式,在估计位姿的同时预测相邻帧的光流,从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法,本申请的方法具有更高的精度。
为了验证本申请方法的有效性,可以在KittiVO/SLAM上训练本申请的方法。这个数据集包含22个视频序列,其中00~10提供了位姿真值,11~21只提供了原始的视频序列。这22个视频序列中包含很多动态物体,这对于单目VO非常具有挑战性。实验中图片均被调整为384*1280,初始学习率为0.0001,batch size为2,每10个epoch,学习率减半。所有实验均在一块NVIDIA TiTAN X GPU上完成。优化器为Adam,其中β1=0.9,β2=0.999,
Figure BDA0002313248700000087
分别初始化为0,-3,0。实验中的误差评价是标准的Kitti评估标准。实验中使用00,02,08,09这四个序列训练,01,03,04,05,06,06,10用于定量测试。
测试结果如表1所示:
Figure BDA0002313248700000091
此外,图4、5、6、7分别是对应于序列04、05、06、07的测试轨迹图,用以验证本申请方法的有效性。其中,图4/5/6中,蓝色实线表示预测轨迹,红色虚线表示真实轨迹。从图中可以看书本申请的方法能够很好地吻合真实轨迹。
本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统,所述系统包括:
第一模块1,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
第二模块2,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
在一种可能的实现方式中,所述第一模块1还用于:
基基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
在一种可能的实现方式中,所述系统还包括训练模块,所述训练模块用于:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
在一种可能的实现方式中,所述训练模块还用于:
按照公式(1)所示的方法获取运动图像对应的光流信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的单目视觉里程计方法,其特征在于,所述方法包括:
基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
2.根据权利要求1所述的方法,其特征在于,“基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息”,其方法包括:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
3.根据权利要求1所述的方法,其特征在于,在“获取所述运动图像的运动特征信息”的步骤之后,在“获取所述单目相机的位姿信息”的步骤之前,所述方法还包括:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
4.根据权利要求3所述的方法,其特征在于,“获取所述运动图像对应的光流信息”,其方法包括:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Figure FDA0002313248690000021
Figure FDA0002313248690000022
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
5.根据权利要求1所述的方法,其特征在于,“通过预设的位姿估计模型,获取所述单目相机的位姿信息”,其方法包括:
按照如下公式所示的方法获取所述单目相机的位姿信息:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bi)
ot=σ(wxo*xt+who*ht-1+bi)
Figure FDA0002313248690000023
Figure FDA0002313248690000024
Figure FDA0002313248690000025
Figure FDA0002313248690000026
Lmotion=αLtrans+βLrot
Ltotal=αLtrans+βLrot+λLphotometric
其中,xt表示t时刻位姿估计模型的输入,it、ft、ot分别表示位姿估计模型的输入门、遗忘门和输出门,ct、ct-1分别表示t时刻和t-1时刻遗忘门激活函数的输出,ht、ht-1分别表示t时刻和t-1时刻输出门激活函数的输出,*表示卷积操作,
Figure FDA0002313248690000031
表示对应元素相乘,σ(·)表示sigmoid激活函数,wxi和whi表示输入门中包含的待学习的卷积核参数,wxo和who表示输出门中包含的待学习的卷积核参数,bi表示需要学习的偏置项,wxf和whf表示遗忘门中包含的待学习的卷积核参数Ltrans表示位移的损失函数,Lrot表示旋转的损失函数,Lmotion表示运动估计部分的损失函数,Ltotal表示总的损失函数,
Figure FDA0002313248690000032
表示预测位移,pt表示实际位移,
Figure FDA0002313248690000033
表示预测角度,φt表示实际角度,α表示位置权重,β表示姿态权重,λ表示光流损失权重。
6.根据权利要求1所述的方法,其特征在于,在“获取所述单目相机的位姿信息”的步骤之后,所述方法还包括:
基于所获取的位姿信息和所述运动图像对应的光流信息,按照如下公式所示的方法训练所述图像特征提取模型的编码器:
Figure FDA0002313248690000034
其中,Lfinal表示所述位姿估计模型的损失函数,Ltrans表示位移的损失函数,
Figure FDA0002313248690000035
表示位移损失函数所对应的权重学习参数,Lrot表示旋转的损失函数,
Figure FDA0002313248690000036
表示旋转损失函数所对应的权重学习参数,Lphotometric表示光流估计部分的损失函数,
Figure FDA0002313248690000037
表示光流估计部分的损失函数所对应的权重学习参数。
7.一种基于深度学习的单目视觉里程计系统,其特征在于,所述系统包括:
第一模块,用于基于单目相机所获取的多个运动图像,通过预设的图像特征提取模型,获取所述运动图像的运动特征信息,其中,所述图像特征提取模型基于神经网络构建,通过预设的第一训练集训练并用于获取运动图像的运动特征信息,所述运动特征信息包括所述运动图像的高维特征向量;
第二模块,用于基于所述运动特征信息,通过预设的位姿估计模型,获取所述单目相机的位姿信息,其中,所述位姿估计模型基于神经网络构建,通过预设的第二训练集并用于获取相机的位姿信息。
8.根据权利要求7所述的系统,其特征在于,所述第一模块还用于:
基于多个所述运动图像中连续的两幅运动图像,将连续的两幅运动图像的颜色通道进行堆叠,并根据所述图像特征提取模型的编码器,获取颜色通道堆叠后的两幅运动图像的运动特征信息,其中,所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。
9.根据权利要求7所述的系统,其特征在于,所述系统还包括训练模块,所述训练模块用于:
基于所获取的运动特征信息,通过图像特征提取模型的解码器,获取所述运动图像对应的光流信息,所述光流信息用于训练预设的位姿估计模型,以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。
10.根据权利要求9所述的系统,其特征在于,所述训练模块还用于:
按照如下公式所示的方法获取所述运动图像对应的光流信息:
Figure FDA0002313248690000041
Figure FDA0002313248690000042
其中,Lwarp(It,It+1)表示It+1和合成的It+1的光度损失,It表示t时刻的图片,It+1表示t+1时刻的图片,T表示总的图片序列长度,I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值,I′(i,j,t+1)表示通过光流和It合成的It+1在(i,j)位置的像素值,Lphotometric是光流估计部分的损失函数。
CN201911277617.7A 2019-12-11 2019-12-11 基于深度学习的单目视觉里程计方法及系统 Active CN111080699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911277617.7A CN111080699B (zh) 2019-12-11 2019-12-11 基于深度学习的单目视觉里程计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911277617.7A CN111080699B (zh) 2019-12-11 2019-12-11 基于深度学习的单目视觉里程计方法及系统

Publications (2)

Publication Number Publication Date
CN111080699A true CN111080699A (zh) 2020-04-28
CN111080699B CN111080699B (zh) 2023-10-20

Family

ID=70314253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911277617.7A Active CN111080699B (zh) 2019-12-11 2019-12-11 基于深度学习的单目视觉里程计方法及系统

Country Status (1)

Country Link
CN (1) CN111080699B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329915A (zh) * 2020-10-27 2021-02-05 上海眼控科技股份有限公司 模型训练方法、装置、计算机设备和存储介质
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN113989318A (zh) * 2021-10-20 2022-01-28 电子科技大学 基于深度学习的单目视觉里程计位姿优化与误差修正方法
CN115358962A (zh) * 2022-10-18 2022-11-18 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516326A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 融合单目视觉和编码器信息的机器人定位方法和系统
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
US20190079533A1 (en) * 2017-09-13 2019-03-14 TuSimple Neural network architecture method for deep odometry assisted by static scene optical flow
CN110349215A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种相机位姿估计方法及装置
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516326A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 融合单目视觉和编码器信息的机器人定位方法和系统
US20190079533A1 (en) * 2017-09-13 2019-03-14 TuSimple Neural network architecture method for deep odometry assisted by static scene optical flow
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110349215A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种相机位姿估计方法及装置
CN110533724A (zh) * 2019-09-06 2019-12-03 电子科技大学 基于深度学习和注意力机制的单目视觉里程计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEX KENDALL: ""Geometric loss function for camera pose regression with deep learning"", 《IEEE》 *
MAX JADERBERG: ""spatial transfomer networks"", 《IEEE》 *
乔明起: ""基于深度神经网络的视觉位姿估计方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112329915A (zh) * 2020-10-27 2021-02-05 上海眼控科技股份有限公司 模型训练方法、装置、计算机设备和存储介质
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112561978B (zh) * 2020-12-18 2023-11-17 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN113989318A (zh) * 2021-10-20 2022-01-28 电子科技大学 基于深度学习的单目视觉里程计位姿优化与误差修正方法
CN115358962A (zh) * 2022-10-18 2022-11-18 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置
CN115358962B (zh) * 2022-10-18 2023-01-10 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置
WO2024082602A1 (zh) * 2022-10-18 2024-04-25 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置

Also Published As

Publication number Publication date
CN111080699B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Schneider et al. RegNet: Multimodal sensor registration using deep neural networks
CN111080699B (zh) 基于深度学习的单目视觉里程计方法及系统
JP5830546B2 (ja) 対象物のモデル変換に基づくモデルパラメータの決定
US20190050681A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US10460511B2 (en) Method and system for creating a virtual 3D model
US10225473B2 (en) Threshold determination in a RANSAC algorithm
CN108960045A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
CN111192293B (zh) 一种运动目标位姿跟踪方法及装置
CN108648194B (zh) 基于cad模型三维目标识别分割和位姿测量方法及装置
CN111311666A (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN112561978B (zh) 深度估计网络的训练方法、图像的深度估计方法、设备
WO2023165093A1 (zh) 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
Giering et al. Multi-modal sensor registration for vehicle perception via deep neural networks
CN112648994B (zh) 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN112183506A (zh) 一种人体姿态生成方法及其系统
Senst et al. Robust local optical flow: Long-range motions and varying illuminations
CN111784658A (zh) 一种用于人脸图像的质量分析方法和系统
US20220058827A1 (en) Multi-view iterative matching pose estimation
Baumgartner et al. Extracting spatial knowledge from track and field broadcasts for monocular 3D human pose estimation
CN113436251A (zh) 一种基于改进的yolo6d算法的位姿估计系统及方法
CN116912467A (zh) 图像拼接方法、装置、设备及存储介质
CN114612545A (zh) 图像分析方法及相关模型的训练方法、装置、设备和介质
CN114399532A (zh) 一种相机位姿确定方法和装置
Lee et al. Robust Camera Motion Estimation for Point-of-View Video Stabilization
US20240070917A1 (en) Method for self-calibration of at least one camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant