CN111080699B

CN111080699B - 基于深度学习的单目视觉里程计方法及系统

Info

Publication number: CN111080699B
Application number: CN201911277617.7A
Authority: CN
Inventors: 高伟; 万一鸣; 吴毅红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-10-20
Anticipated expiration: 2039-12-11
Also published as: CN111080699A

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的单目视觉里程计方法及系统。为了解决现有技术确定机器人的位置和姿态精度较低的问题，本发明提出一种基于深度学习的单目视觉里程计方法，包括基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息；基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息。本发明的方法为了使网络输出位姿的结果更精确，同时提高网络的泛化性能，采用多任务学习的方式，在估计位姿的同时预测相邻帧的光流，从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法，本申请的方法具有更高的精度。

Description

基于深度学习的单目视觉里程计方法及系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的单目视觉里程计方法及系统。

背景技术

近年来，深度学习技术已成功运用在人脸识别、目标跟踪、语音识别、机器翻译等方面。其中，视觉里程计是移动机器人、自觉导航以及增强现实中的重要环节。视觉里程计是通过分析处理相关图像序列确定机器人的位置和姿态。视觉里程计按照所使用的相机数量可以分为单目视觉里程计和双目视觉里程计。单目视觉里程计因为其只需要一架相机，更加轻巧、便宜而得到广泛的研究。

经典的视觉里程计算法包括相机矫正、特征检测、特征匹配、外点剔除、运动估计、尺度估计以及后端优化等。经典的视觉里程计算法在大部分情况下都能取得较好的效果，但是面对遮挡、光照变化大、无纹理等场景仍会存在失败的情况。

现有的视觉里程计方法包括采用卷积神经网络学习图片之间的几何关系，实现端到端的位姿估计。但是尽管卷积神经网络能够应对一些极端情况，但是整体精度却低于传统方法，此外，网络的泛化能力也是影响深度神经网络实际应用的重要原因。

因此，如何提出一种解决现有技术问题的方案是本领域技术人员需要解决的技术问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术确定机器人的位置和姿态精度较低的问题，本发明的第一方面提供了一种基于深度学习的单目视觉里程计方法，所述方法包括：

基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息，其中，所述图像特征提取模型基于神经网络构建，通过预设的第一训练集训练并用于获取运动图像的运动特征信息，所述运动特征信息包括所述运动图像的高维特征向量；

基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息，其中，所述位姿估计模型基于神经网络构建，通过预设的第二训练集并用于获取相机的位姿信息。

在一种可能的实现方式中，“基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息”，其方法包括：

基于多个所述运动图像中连续的两幅运动图像，将连续的两幅运动图像的颜色通道进行堆叠，并根据所述图像特征提取模型的编码器，获取颜色通道堆叠后的两幅运动图像的运动特征信息，其中，所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。

在一种可能的实现方式中，在“获取所述运动图像的运动特征信息”的步骤之后，在“获取所述单目相机的位姿信息”的步骤之前，所述方法还包括：

基于所获取的运动特征信息，通过图像特征提取模型的解码器，获取所述运动图像对应的光流信息，所述光流信息用于训练预设的位姿估计模型，以使所述位姿估计模型输出的单目相机的位姿信息趋近于所述单目相机的实际位姿信息。

在一种可能的实现方式中，“获取所述运动图像对应的光流信息”，其方法包括：

按照如下公式所示的方法获取所述运动图像对应的光流信息：

L_warp(I_t,I_t+1)＝∑_i,j|I(i,j,t+1)-I′(i,j,t+1)|

其中，L_warp(I_t,I_t+1)表示I_t+1和合成的I_t+1的光度损失，I_t表示t时刻的图片，I_t+1表示t+1时刻的图片，T表示总的图片序列长度，I(i,j,t+1)表示t+1时刻的图片在(i,j)位置的像素值，I′(i,j,t+1)表示通过光流和I_t合成的I_t+1在(i,j)位置的像素值，L_photometric是光流估计部分的损失函数。

在一种可能的实现方式中，“通过预设的位姿估计模型，获取所述单目相机的位姿信息”，其方法包括：

按照如下公式所示的方法获取所述单目相机的位姿信息：

i_t＝σ(w_xi*x_t+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_i)

o_t＝σ(w_xo*x_t+w_ho*h_t-1+b_i)

L_motion＝αL_trans+βL_rot

L_total＝αL_trans+βL_rot+λL_photometric

其中，x_t表示t时刻位姿估计模型的输入，i_t、f_t、o_t分别表示位姿估计模型的输入门、遗忘门和输出门，c_t、c_t-1分别表示t时刻和t-1时刻遗忘门激活函数的输出，h_t、h_t-1分别表示t时刻和t-1时刻输出门激活函数的输出，*表示卷积操作，表示对应元素相乘，σ(·)表示sigmoid激活函数，w_xi和w_hi表示输入门中包含的待学习的卷积核参数，w_xo和w_ho表示输出门中包含的待学习的卷积核参数，b_i表示需要学习的偏置项，w_xf和w_hf表示遗忘门中包含的待学习的卷积核参数L_trans表示位移的损失函数，L_rot表示旋转的损失函数，L_motion表示运动估计部分的损失函数，L_total表示总的损失函数，/>表示预测位移，p_t表示实际位移，/>表示预测角度，φ_t表示实际角度，α表示位置权重，β表示姿态权重，λ表示光流损失权重。

在一种可能的实现方式中，在“获取所述单目相机的位姿信息”的步骤之后，所述方法还包括：

基于所获取的位姿信息和所述运动图像对应的光流信息，按照如下公式所示的方法训练所述图像特征提取模型的编码器：

其中，L_final表示所述位姿估计模型的损失函数，L_trans表示位移的损失函数，表示位移损失函数所对应的权重学习参数，L_rot表示旋转的损失函数，/>表示旋转损失函数所对应的权重学习参数，L_photometric表示光流估计部分的损失函数，/>表示光流估计部分的损失函数所对应的权重学习参数。

本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统，包括：

第一模块，用于基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息，其中，所述图像特征提取模型基于神经网络构建，通过预设的第一训练集训练并用于获取运动图像的运动特征信息，所述运动特征信息包括所述运动图像的高维特征向量；

第二模块，用于基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息，其中，所述位姿估计模型基于神经网络构建，通过预设的第二训练集并用于获取相机的位姿信息。

在一种可能的实现方式中，所述第一模块还用于：

在一种可能的实现方式中，所述系统还包括训练模块，所述训练模块用于：

在一种可能的实现方式中，所述训练模块还用于：

L_warp(I_t,I_t+1)＝∑_i,j|I(i,j,t+1)-I′(i,j,t+1)|

本发明提供的基于深度学习的单目视觉里程计方法，基于单目相机所获取的多个运动图像，通过预设的光流预测模型，获取所述运动图像的运动特征信息，基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息。本申请的方法为了使网络输出位姿的结果更精确，同时提高网络的泛化性能，采用多任务学习的方式，在估计位姿的同时预测相邻帧的光流，从而辅助主任务的学习。相比其他基于深度学习的单目里程计方法，本申请的方法具有更高的精度。

附图说明

图1是本发明的基于深度学习的单目视觉里程计方法的第一流程示意图；

图2是本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图；

图3是本发明的获取所述单目相机的位姿信息的流程示意图；

图4、图5、图6、图7分别是对应于测试序列04、05、06、07的测试轨迹图；

图8是本发明的基于深度学习的单目视觉里程计系统的结构示意图。

具体实施方式

为使本发明的实施例、技术方案和优点更加明显，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第一种流程示意图。本发明的基于深度学习的单目视觉里程计方法包括：

S101：基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息。

其中，所述图像特征提取模型基于神经网络构建，通过预设的第一训练集训练并用于获取运动图像的运动特征信息，所述运动特征信息包括所述运动图像的高维特征向量。

参阅附图2，图2示例性地示出了本发明的基于深度学习的单目视觉里程计方法的第二种流程示意图。

在实际应用中，可以给定两张连续的图片，分别表示为I(x,y,t)和I(x,y,t+1)，其中，x,y,t分别表示图片坐标系的横纵坐标，t表示时间。将两张连续的图片进行合成，合成后的图片可以表示为I′(x,y,t+1)＝I(i+u_i,j,j+v_i,j,t)，将合成后的图片输入到预设的图像特征提取模型中，其中，图像特征提取模型可以是图中的FlowNet模型，将合成后的图片输入到预设的图像特征提取模型中，可以得到运动图像的运动特征信息和运动图像对应的光流信息。其中，运动特征信息包括运动图像的高维特征向量。具体地，基于多个运动图像中连续的两幅运动图像，将两幅运动图像的颜色通道进行堆叠，并根据图像特征提取模型的编码器，获取颜色通道堆叠后的两幅运动图像的运动特征信息。

通过图2可知，将合成后的图片输入到预设的光流预测模型中，除了可以得到运动图像的运动特征信息，还可以得到光流信息。

在“获取所述运动图像的运动特征信息”的步骤之后，在“获取所述单目相机的位姿信息”的步骤之前，所述方法还包括：

在一种可能的实现方式中，可以按照如下公式(1)所示的方法获取运动图像对应的光流信息：

公式(1)：

L_warp(I_t,I_t+1)＝∑_i,j/I(i,j,t+1)-I′(i,j,t+1)|

S102：基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息。

其中，所述位姿估计模型基于神经网络构建，通过预设的第二训练集并用于获取相机的位姿信息。

参阅附图3，图3示例性地示出了获取所述单目相机的位姿信息的流程示意图。基于得到的运动特征信息，通过预设的位姿估计模型，根据图2可知，位姿估计模型可以是convLSTM模型，之后经过均值池化，能够得到一个1024维的向量。相比于普通的FC-LSTM模型，本申请的convLSTM模型将FC-LSTM模型中的矩阵乘法换成了卷积操作，因为可以更好地捕捉视频序列的空间和时间特性，同时可以减少参数量。

作为一种可能的实现方式，可以按照如下公式(2)所示的方法获取单目相机的位姿信息：

公式(2)：

i_t＝σ(w_xi*x_i+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_i)

o_t＝σ(w_xo*x_t+x_ho*h_t-1+b_i)

L_motion＝αL_trans+βL_rot

L_total＝αL_trans+βL_rot+λL_photometric

在实际应用中，通过优化的损失函数，可以学习到有效的位姿估计模型，但是位姿估计模型的权重参数需要手动调节，以帮助模型调整到输出参数值趋近于真实值。手动调节不仅需要反复试验，耗时耗力，而且通常很难定位到最有的配置。

为此，在“获取所述单目相机的位姿信息”的步骤之后，所述方法还包括：

公式(3)：

其中，其中，L_final表示所述位姿估计模型的损失函数，L_trans表示位移的损失函数，表示位移损失函数所对应的权重学习参数，L_rot表示旋转的损失函数，/>表示旋转损失函数所对应的权重学习参数，L_photometric表示光流估计部分的损失函数，/>表示光流估计部分的损失函数所对应的权重学习参数。

需要说明的是，分别是可以学习的向量，根据学习到的情况可以动态调整，通过调整这三个参数的值，可以使得网络输出的位置、姿态以及光流损失达到最优的均衡。

为了验证本申请方法的有效性，可以在KittiVO/SLAM上训练本申请的方法。这个数据集包含22个视频序列，其中00～10提供了位姿真值，11～21只提供了原始的视频序列。这22个视频序列中包含很多动态物体，这对于单目VO非常具有挑战性。实验中图片均被调整为384*1280，初始学习率为0.0001，batch size为2，每10个epoch，学习率减半。所有实验均在一块NVIDIA TiTAN X GPU上完成。优化器为Adam，其中β₁＝0.9，β₂＝0.999，分别初始化为0，-3，0。实验中的误差评价是标准的Kitti评估标准。实验中使用00，02，08，09这四个序列训练，01，03，04，05，06，06，10用于定量测试。

测试结果如表1所示：

此外，图4、5、6、7分别是对应于序列04、05、06、07的测试轨迹图，用以验证本申请方法的有效性。其中，图4/5/6中，蓝色实线表示预测轨迹，红色虚线表示真实轨迹。从图中可以看书本申请的方法能够很好地吻合真实轨迹。

本发明的另一方面还提供了一种基于深度学习的单目视觉里程计系统，所述系统包括：

第一模块1，用于基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息，其中，所述图像特征提取模型基于神经网络构建，通过预设的第一训练集训练并用于获取运动图像的运动特征信息，所述运动特征信息包括所述运动图像的高维特征向量；

第二模块2，用于基于所述运动特征信息，通过预设的位姿估计模型，获取所述单目相机的位姿信息，其中，所述位姿估计模型基于神经网络构建，通过预设的第二训练集并用于获取相机的位姿信息。

在一种可能的实现方式中，所述第一模块1还用于：

基基于多个所述运动图像中连续的两幅运动图像，将连续的两幅运动图像的颜色通道进行堆叠，并根据所述图像特征提取模型的编码器，获取颜色通道堆叠后的两幅运动图像的运动特征信息，其中，所述图像特征提取模型的编码器包括所述图像特征提取模型的卷积层。

在一种可能的实现方式中，所述训练模块还用于：

按照公式(1)所示的方法获取运动图像对应的光流信息。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的单目视觉里程计方法，其特征在于，所述方法包括：

基于所获取的运动特征信息，通过图像特征提取模型的解码器，获取所述运动图像对应的光流信息，所述光流信息用于训练预设的位姿估计模型；

获取所述运动图像对应的光流信息，其方法包括：

其中，L_warp(I_t，I_t+1)表示I_t+1和合成的I_t+1的光度损失，I_t表示t时刻的图片，I_t+1表示t+1时刻的图片，T表示总的图片序列长度，I(i，j，t+1)表示t+1时刻的图片在(i，j)位置的像素值，I′(i，j，t+1)表示通过光流和I_t合成的I_t+1在(i，j)位置的像素值，L_photometric是光流估计部分的损失函数；

2.根据权利要求1所述的方法，其特征在于，基于单目相机所获取的多个运动图像，通过预设的图像特征提取模型，获取所述运动图像的运动特征信息，其方法包括：

3.根据权利要求1所述的方法，其特征在于，通过预设的位姿估计模型，获取所述单目相机的位姿信息，其方法包括：

按照如下公式所示的方法获取所述单目相机的位姿信息：

i_t＝σ(w_xi*x_t+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_i)

o_t＝σ(w_xo*x_t+w_ho*h_t-1+b_i)

L_motion＝αL_trans+βL_rot

L_total＝αL_trans+βL_rot+λL_photometric

4.根据权利要求1所述的方法，其特征在于，在获取所述单目相机的位姿信息的步骤之后，所述方法还包括：

5.一种基于深度学习的单目视觉里程计系统，其特征在于，所述系统包括：

训练模块，用于基于所获取的运动特征信息，通过图像特征提取模型的解码器，获取所述运动图像对应的光流信息，所述光流信息用于训练预设的位姿估计模型；

所述训练模块还用于：

其中，L_warp(I_t，I_t+1)表示I_t+1和合成的I_t+1的光度损失，I_t表示t时刻的图片，I_t+1表示t+1时刻的图片，T表示总的图片序列长度，I(i，j，t+1)表示t+1时刻的图片在(i，j)位置的像素值，I′(i，j，t+1)表示通过光流和I_t合成的I_t+1在(i，j)位置的像素值，L_photometric是光流估计部分的损失函数

6.根据权利要求5所述的系统，其特征在于，所述第一模块还用于：