CN111462208A

CN111462208A - 一种基于双目视差和外极线约束的无监督深度预测方法

Info

Publication number: CN111462208A
Application number: CN202010261813.1A
Authority: CN
Inventors: 刘波; 郭灵灵
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-05
Filing date: 2020-04-05
Publication date: 2020-07-28

Abstract

本发明提出一种基于双目视差和卷积神经网络的无监督深度估计方法。本发明模拟人类用双眼采集场景信息的方式，采用双目图像作为输入，利用卷积神经网络拟合出一个复杂的非线性函数，计算出输入图像对的视差图，通过深度与视差的之间存在的数学关系，可以计算出深度图像，结合预测出的深度图像与右图像，可以通过右图像的形变模拟出一个对应的左图像，将右图像形变后重建出的左图像与真实的左图像之间的像素差值以及双目图像的外极线约束作为损失，通过无监督学习的方式来训练卷积神经网络，完成无监督的深度预测。本发明解决了有监督的深度预测需要大量且昂贵的真实深度信息的弊端，仅需要存在固定视差关系的双目图像即可完成深度预测。

Description

一种基于双目视差和外极线约束的无监督深度预测方法

技术领域

本发明属于计算机视觉领域，更具体来说是基于双目视差和外极线约束的无监督深度预测。

背景技术

深度预测是计算机视觉领域重要的研究课题之一，是以摄像机或激光雷达等设备捕捉到的图像或视频为数据基础，利用计算机技术从二维的图像中恢复出三维场景信息的研究，并且被广泛应用于三维场景重建，三维手势识别，目标跟踪等领域。

双目图像的深度预测是模仿人类利用双眼来获取三维场景信息的方式，以双目图像作为输入数据实现深度预测。由于拍摄双目图像的左右相机之间存在固定的视差，且视差与场景的深度信息之间成反比关系。因此，双目视差的关键在于图像匹配，而利用外极线约束可以将匹配点的搜索范围从整张图像减小到像素点对应的外极线上，此约束大大提高对应点匹配的精准度，从而得到更准确的深度预测效果。

近年来，卷积神经网络凭借其强大的特征提取能力，在深度预测问题上取得了很好的效果。利用卷积神经网络的深度预测方法主要分为两类：利用真实深度图像作为标签的有监督深度预测和无需真实深度图像作为标签无监督的深度预测。由于有监督的深度预测方法是利用真实深度图像对卷积神经网络进行训练，显然效果要普遍优于没有任何真实深度信息作为参考的无监督深度预测方法，并且更加容易实现。但是，由于数据集之大，以及真实深度图像的获取受设备和环境的影响需要投入大量的物理和财力成本非常高昂，因此，无监督的深度预测方法的研究意义重大。

为了更好的实现深度预测，我们提出了一种基于双目视差和外极线约束的深度预测方法。

发明内容

本发明要解决的问题是：利用卷积神经网络对图像进行深度预测，通常需要真实深度图像作为标签，而采集真实深度图像成本高昂。针对此问题，本发明提出了一种无需真是深度图像的基于双目视差和外极线约束的无监督深度预测方法。本方法以双目相机拍摄的双目图像(左图像和右图像)作为训练和测试的输入数据，通过卷积神经网络计算出双目图像对应的深度图像，利用双目图像之间的视差和外极线约束构造损失函数，通过最小化损失函数，对网络进行无监督的训练。

本发明提出的方法具体技术方案如下：

1.本方法利用卷积神经网络实现深度预测，在网络的训练阶段，以双目相机采集的左图像I_L和右图像I_R作为网络的输入数据，通过卷积神经网络拟合一个复杂的非线性函数D(I_L,I_R)＝I_D，I_D为网络输出的对应深度图像。

2.无监督学习通过最小化损失函数来训练网络，本方法利用双目图像之间的视差以及外极线约束建立损失函数，原理及具体过程如下：

2.1利用双目视差构造损失：

本方法中的双目图像之间可以通过坐标的变换相互转化，而坐标的转化与图像的深度值联系紧密，深度信息一直贯穿坐标变换的全过程，因此，本发明提出结合神经网络计算出的深度信息，将左图像的像素点通过坐标变换，计算出其在右图像上的位置，结合右图像的像素值，利用双线性插值可以重构出左图像，然后以重构出的左图像和真是左图像之间的像素差值作为损失。通过最小化此损失项对网络进行无监督的训练，可以让神经网络拟合出计算图像深度信息的函数。

2.2利用外极线约束构造损失函数：

在2.1的过程中，我们通过坐标变换计算出左图像的像素点在右图像上对应点的坐标，外极线约束是双目图像的对应点匹配中的重要几何约束，可以通过外极线约束增加对应点匹配的准确率，外极线约束对应点完全匹配的理想情况下，左图像的像素点坐标与其在右图像上的对应点坐标与相机参数的乘积为零，因此，我们可以将外极线约束作为损失函数，通过此损失来训练网络。

3.通过最小化上述损失对网络进行无监督的训练，使神经网络拟合出计算图像深度信息的函数，完成网络的训练后，使用训练好的网络权重，输入待预测的图像通过网络计算输出深度图像。

有益效果

本发明提供了一种基于双目视差和外极线约束的无监督深度预测方法，是一种采用卷积神经网络并以双目视差和外极线约束作为损失的无监督深度预测方法。该方法不仅在不需要高成本的真实深度图像作为标签的情况下取得了较好的深度预测效果，并且能后在在预测出深度信息的同时计算出双目相机之间的旋转和平移变换。

附图说明

图1是本方法的网络结构图

图2是本发明基于双目视差和外极线约束的深度预测方法的流程图；

图3是坐标转换过程示意图；

图4是重建左图像的过程示意图。

具体实施方式

本发明提出的基于双目视差和外极线约束的无监督深度预测方法的实验，运行在Windows 10系统下，利用python3.6和pytorch1.2.0框架实现，利用型号为TITAN X的GPU为卷积神经网络的训练加速，CUDA版本为7.5。

步骤一：数据准备。

本文采用KITTI公开数据集作为实验的训练集和测试集。在实验的训练阶段，我们从城市、道路、住宅等场景中选取其中的34个场景作为实验的训练集，训练集由22600组双目图像对组成，我们将双目相机采集的RGB图像进行降采样，得到分辨率为160x 608的图像作为神经网络的输入，将输入图像对的像素值分别减去RGB三个通道对应的均值：(104，117，123)，然后除以255，使左右图像像素值均匀分布在区间[-0.5,0.5]之间，整个训练过程不需要用到任何真实深度信息。在测试阶段，我们使用500个带有真实深度图的双目图像对作为测试集，利用真实深度图对实验结果进行评估。

步骤二：卷积神经网络的搭建。本发明使用的卷积神经网络的网络结构采用Unet编码和解码的结构以及跳跃式链接结构，并在此基础上对输入数据的处理、编码器的特征提取阶段，本方法网络有如下特点并不限于此，可根据具体实验环境及特点进行调整：

(1)Unet的网络结构：Unet的网络结构采用编码器和解码器的架构，首先利用连续的卷积操作作为编码器网络，对图像进行特征提取，然后，连接一个全卷积层，最后，利用连续的上采样操作作为解码器将图像恢复到原图尺寸，此外，在编码器和解码器之间有跳跃式链接处理。

(2)本方法中的网络结构：本方法的网络结构如图1所示，网络本方法的网络特点如下：

(2.1)输入数据的处理：为了模拟人类以双眼采集三维信息的方式，本方法以双目图像作为输入，网络接收输入数据后，对左图像和右图像分别进行一次卷积操作，随后进行通道合并，再进行其他后续操作。

(2.2)编码器网络中添加注意力模块：如图1所示，本网络采用Resnet18作为编码器的主干网络，并进行改进，本网络在每个残差块后面添加注意力模块，依次包括一个通道注意力模块和一个空间注意力模块，将残差块中输出的特征图输入通道注意力模块，提取通道的重要信息，然后输入到空间注意力模块，提取特征图重要位置的信息，完成注意力模块后输入到下一个残差块中。注意力模块的添加使得网络的特征提取能力明显增强，加快了网络训练时的收敛速度。

(2.3)在解码器网络中，本网络采用连续的反卷积操作对图像进行上采样，逐步提高其分辨率到原图像大小。

步骤三：参数的初始化设置。

(1)网络参数的初始化设置：

用合适网络参数对网络进行初始化可以有效的加速网络训练，获得更好的收敛效果，并且可以避免梯度消失或梯度爆炸带来的训练失败，因此网络参数的初始化是非常重要要的环节。

在实验中，在进行卷积神经网络的训练时，根据CUDA的大小，我们设置每个批次为8，即每次读入8组双目图像对。本发明选择随机梯度下降的方法作为网络的优化方法，在对卷积神经网络进行优化时，将权值衰减的值设置为0.0005，将动量的值设置为0.9。本发明使用残差网络的模型参数对网络权值进行初始化，其余网络层参数进行随机初始化，在训练神经网络时，我们设置epoch为50。

(2)相机参数的初始化设置：

本发明方法模拟人类双眼采集信息的方式，采用双目视觉来进行深度预测，整个方法都基于相机模型，相机模型中的相机参数多次出现在损失函数的计算中，是整个方法中关键的参数，因此，对左右相机的内外参数进行合理的初始化是获得较好的深度预测结果的基础。本文中对左右相机内外参数的初始化设置如下：

相机内参数初的始化：u_L0，v_L0为左图像的中心的横纵坐标，本文初始化u_L0，v_L0为降采样后的输入图像的长和高的一半，即：u_L0＝304，v_L0＝80。为了使求解的过程方便，我们将右图像的相应参数同样初始化为图像尺寸的一半，即：u_R0＝304，v_R0＝80。将左相机的内参数k_Lx，k_Ly分别初始化为950，950，同样，将右相机的相机内参数k_Rx，k_Ry分别初始化为950，950。

相机外参数初的始化：相机外参数包括双目相机之间的旋转和平移变换，由于本文使用的数据集中，左右两图像之间的移动主要体现在水平方向上的平移，因此，我们在初始化相机的外参数的时候，为了简化运算，将旋转矩阵初始化设置为单位矩阵；对于平移矩阵的初始化，只设置水平方向的平移量，其他方向的平移变量均设置为零。此外，我们还考虑到用四元数表示旋转矩阵需要满足约束条件：

因此，我们将旋转矩阵的四元数分别初始化为：q₀＝1，q₁＝0，q₂＝0，q₃＝0，将平移矩阵中的平移变量分别初始化为：t_x＝50，t_y＝0，t_z＝0。步骤四：按照步骤二和步骤三建立卷积神经网络并完成参数初始化，按照步骤一将双目图像作为输入数据，输入卷积神经网络中，最小化损失函数，利用梯度下降法进行反向传播，对网络进行无监督的训练，通过卷积神经网络拟合一个非线性函数，最终网络输出预测的深度图像。过程如图2所示。

步骤五：构建损失函数。本发明方法的损失函数，如公式(1)所示，分为三个部分：图像重建的损失项E_recons，外极线约束损失项E_epipolar，正则化项E_smooth。

其中，n表示图像数量；λ₁和λ₂是超参数，作为系数来调节外极线约束损失和正则化的强度。

(1)图像重建的损失：图像重建损如公式(2)所示，I_L为左图像，p_L为左图像上像素点的坐标，结合上一步骤中卷积神经网络中输出的图像深度信息，对p_L进行坐标变换，计算出p_L在右图像上的对应位置，利用双线性插值法利用右图像重建出左图像，经此过程重建出的左图像标表示为I_w，最后，以真实的左图像I_L和重建出的左图像I_w之间的像素差值作为损失。其中，I_w(p_L)为重建出的左图像上p_L点的像素值，I_L(p_L)为真实的左图像上p_L点的像素值。

(1.1)步周五的(1)中的坐标变换的具体过程如图3所示，具体过程如下：

第一步：左图像像素坐标到左相机坐标的转换：此过程分为两步进行：首先，将左图像像素坐标变换为左图像像素平面坐标，然后，在将左图像像素平面坐标转换为左相机坐标。变换过程如公式(3)所示，其中，X_L，Y_L，Z_L分别为左图像上像素点p_L在左相机坐标系中的横纵竖坐标，I_D(p_L)为左图像上像素点p_L通过卷积神经网络预测出的深度值，u_L,v_L表示p_L在左图像像素坐标系的横纵坐标，u_L0和v_L0表示左图像像素坐标系的主点坐标；k_Lx，k_LY为左相机的内参数。

第二步：左相机坐标到右相机坐标的转换：转换过程的实质是左相机到右相机的旋转和平移变换，此过程在数学中是利用旋转平移矩阵来实现的，整个过程如公式(4)所示：

其中，X_L、Y_L、Z_L为左相机系中的坐标，X_R、Y_R、Z_R为右相机系中的坐标，t_x、t_y、t_z分别表示相机在x轴、y轴、z轴方向上的平移变量，R表示相机的旋转矩阵，本发明采用四元数来表示旋转矩阵，四元数中的四个变量需要满足约束条件：

旋转矩阵R如公式(5)所示：

第三步：右相机的相机坐标到右图像像素坐标的转换：变换过程分为两步：首先，将右相机坐标转换为右图像像素平面坐标，然后，再将右图像像素平面坐标转换为右图像像素坐标。坐标转换如公式(6)所示，其中，u_t,v_t为点p_L在右图像上的像素坐标，u_R0和v_R0表示右图像像素坐标系中主点坐标，k_Rx，k_RY右相机的相机内参数。

(1.2)步骤五的(1)中利用双线性插值法重建出左图像I_w的过程如图4所示，计算过程如公式(7)所示：

p_L表示左图像的像素点坐标，p_t为p_L经过(1.1)中坐标变换后得到的其在右像上的像素坐标，即：p_t＝(u_t，v_t)，

分别表示p_t的左上角，右上角，左下角和右下角四个像素邻域的像素坐标。利用

四个点的像素值进行插值计算，τ表示图像边界，则p_t>τ表示坐标位置超出图像边界位置，p_t<τ表示坐标位置在图像边界内，

可以通过p_t和

之间的空间距离计算求得，并且满等式约束关系

(2)外极线约束损失：本发明参考平方损失函数建立外极线约束的损失项如公式(9)所示：

左图像的像素点p_L通过坐标变换得到的其在右图像上的对应点p_t必在点p_L在右图像上的外极线上，其中，p_L＝(u_L，v_L，1)^T，p_t＝(u_t，v_t，1)^T，分别为左右图像上对应特征点坐标的其次形式,F为基础矩阵，是由相机的内外参数组成的3x3的矩阵。

(3)正则化：由于损失函数的梯度主要来自于周围四个邻域的像素强度差，因此很容易出现预测位置位于图像弱纹理处梯度消失的问题，或者预测位置和真实位置距离较大，像素差过大而出现梯度过大等原因造成的视差不连续的情况。又因为视差与深度值之间存在非常紧密的关联，所以有效对约束深度信息的变化幅度进行约束，可以有效的限制视差的变化幅度，从而一定程度的减少上述情况造成的视差不连续的状况。因此，使用L2正则化对计算出的图像深度信息的梯度

进行约束。

Claims

1.一种基于双目视差和外极线约束的无监督深度预测方法，其特征在于利用双目图像的双目视差和双目图像中匹配点的外极线约束设计损失函数，通过最小化损失对网络进行训练，在没有任何真实深度图像的情况下完成深度预测，方法具体包括以下步骤：

步骤1：数据准备,包括训练数据和测试数据，其中训练数据为双目相机采集的RGB图像，且左图像和右图像为一组；测试数据为带有真实深度图的双目图像；

步骤2：卷积神经网络的搭建,用于预测深度图；

步骤3：参数初始化；

步骤4：按照上述步骤搭建卷积神经网络并进行参数初始化，将准备好的训练数据输入卷积神经网络，将网络输出的深度信息代入损失函数计算损失，通过最小化损失函数，利用梯度下降法对网络进行无监督的训练。

步骤5：利用双目图像的双目视差，双目图像中匹配点的外极线约束以及L2正则化构建损失函数，

步骤6：将准备好的测试数据输入到训练完成的网络中，采用最优的网络权重，输出预测的深度图像。

2.根据权利要求1所述一种基于双目视差和外极线约束的无监督深度预测方法，步骤2中的卷积神经网络的网络特征在于：

本方法的网络结构采用Unet编码器解码器的网络结构，并在此基础上进行改进，首先编码阶段利用连续的卷积操作对图像进行特征提取，然后连接一个全卷积层，最后解码阶段利用连续的上采样操作逐步提高特征图的分辨率，将图像恢复到原图尺寸；

本方法的网络则在此基础上对输入数据的处理进行了改进，并且在编码阶段添加了注意力模块，具体描述如下：

(1)对输入数据的处理：为了模拟人类双目采集场景的三维信息的方式，以双目图像作为网络的输入，将左右两图像分别进行一次卷积操作之后，进行通道合并，然后输入到解码网络中进行后续操作。

(2)编码阶段：本方法采用Resnet18作为编码器的主干网络，并且在此基础上在每个残差块后边添加注意力模块，包括空间注意力模块和通道注意力模块，用于提高了网络对图像的特征提取能力以及提高训练的收敛速度。

3.根据权利要求1所述一种基于双目视差和外极线约束的无监督深度预测方法，如步骤4中所述构建损失函数，其特征在于：

此处为本发明的核心，基于双目图像的双目视差与图像的深度之间的紧密联系，将图像重建以及外极线约束作为损失函数对网络进行物件度训练的方法，建立损失函数的具体步骤如下：

(1)图像重建损失：结合网络预测出的图像深度信息，将左图像的像素点通过坐标变换映射到右图像上，找到左图像上像素点在右图像上的对应点，根据右图像的像素值和对应点坐标，利用双线性插值法重构出左图像，最后，将重构出的左图像与真实左图像之间的像素差值作为损失。

(2)外极线约束损失：在(1)的过程中，需要找到左图像上像素点在右图像上的对应点，这两个对应点满足外极线约束条件，将外极线约束条件作为损失，通过最小化外极线约束条件来最小化对应点的误差。