CN110310317A

CN110310317A - 一种基于深度学习的单目视觉场景深度估计的方法

Info

Publication number: CN110310317A
Application number: CN201910573787.3A
Authority: CN
Inventors: 李晖晖; 刘浪涛; 袁翔; 郭雷; 刘航
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-08

Abstract

本发明涉及一种基于深度学习的单目视觉场景深度估计的方法，采用VGG‑13网络模型，利用深度可分离卷积层代替标准卷积层以减少模型参数量，得到可用于获取视差图像的网络模型；将单目图像输入训练好的网络模型，生成多个尺度的视差图，再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图；根据多视图几何学中视差图与深度图的几何变换关系，生成对应的深度图像。有益效果：使用简单易得的双目可见光图像训练网络模型而不用使用获取代价很高的真实深度数据；采用深度可分离卷积代替标准卷积，可以减少网络模型的参数量为之前的七分之一，提升模型的推理速度。

Description

一种基于深度学习的单目视觉场景深度估计的方法

技术领域

本发明属于计算机视觉三维重构领域，涉及一种基于深度学习的单目视觉场景深度估计的方法。

背景技术

三维结构信息是人类观察认识环境、理解分析场景的不可或缺的信息。正确判断与识别场景的三维结构能让计算机更合理、准确地执行目标定位、路径规划等任务，因此，如何从二维图像或者视频序列中重建出场景的三维结构是计算机视觉领域研究的一大重点和难点。三维场景重建主要依赖于获取图像对应的深度图。目前，深度信息的获取主要有两种方式。一种是利用感知三维结构信息的传感器直接获取场景深度信息。但是传统的获取深度信息的设备，如激光雷达，大多价格比较昂贵，制约了它的推广。另一种广泛采用的深度信息获取的方式是利用同一场景的单幅或者多幅二维可见光图像序列进行深度的估计。

通常按照提供的场景视点数量的不同，可以将深度估计的算法分为三种：基于多视点图像序列的深度估计算法、基于双目图像的深度估计算法以及基于单视点视频序列和图像的深度估计算法。基于多视点的深度估计通常对同一场景采用摄像机阵列进行图像采集，并利用多视点图像之间的冗余信息进行深度信息的汁算。这类技术通常能够获得较为准确的深度信息，但是由于需要配置摄像机阵列，在大多数实际应用中很少被采用。基于双目图像的深度估计是一种模仿人类利用双目视差感知深度信息的方法，主要通过立体匹配技术计算深度信息，但计算量大，且当摄像机基线距离较大时场景深度预测精度发生严重下滑。基于单视点的深度估计只利用一个视点的视频序列和图像进行深度估计。与前两者相比，单视点的情形最贴近实际的应用需求(绝大多数应用场景只有一个视点的数据)。早期处理该问题的方法一般都是基于光学几何约束或环境假设的方法。除此以外，还可以使用其他环境假设来估计深度，例如焦点或光线的变化。若不基于这种环境假设，由于光强或颜色映射到深度值存在固有的含糊性，从通用场景的单目图像中恢复其深度信息的问题便显得更无从下手。另一方面，由于通过深度学习的方法可以学到图像中丰富的特征表达，近年越来越多的学者将深度卷积神经网络(convolutional neural network，CNN)应用于单目图像深度估计的问题中，使得该课题的研究得以迅猛发展。

但是采用基于深度学习的单目图像场景深度估计方法存在着以下的缺点：第一，一般的基于深度学习的单目图像深度估计方法将深度恢复视作图像像素的分类任务，需要用场景的真实深度数据来训练网络，而这种数据通常需要由激光雷达获取，不仅获取方法昂贵而且数据稀疏，实用性较差；第二，之前的方法由于网络结构单一，模型较为简单，最终导致结果精度较低，而且模型的可迁移性差；第三，之前的方法为了提升模型的精度，通常会采用更深层次的网络结构来提取图像的特征信息，导致参数量巨大，在进行实际应用时推理速度慢，实时性差。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于深度学习的单目视觉场景深度估计的方法。

技术方案

一种基于深度学习的单目视觉场景深度估计的方法，其特征在于步骤如下：

步骤1、网络模型的构建及训练，获得一个能够生成单目场景视差图的网络模型：采用标准的VGG-13网络模型，以深度可分离卷积作为网络模型每一层中的标准卷积，采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数，将标准数据集中的双目图像对输入网络模型，输出模型损失，利用最小化损失的思想，采用随机梯度下降的方法训练网络模型；

所述损失函数为：

其中分别为左右图像的重构损失，分别为左右视差图的视差平滑性损失，分别为左右视差一致性损失，α、β、γ分别为三种损失在总损失中所占有的权重；

步骤2、通过网络模型获取M个不同尺度的视差图，再经过多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图：

(1)多尺度融合：设置尺度参数为M，对于采集的单目场景图像，采用张正友标定法进行图像校正，将校正后的单目图像输入训练好的网络模型；输入图像尺度为S，通过网络模型输出M个尺度分别为S/2⁰、S/2¹、S/2²、···、S/2^M-1的视差图；将尺度为S/2¹、S/2²、···、S/2^M-1的视差图分别经过多次双线性插值之后生成M-1个尺度为S的视差图，对于全部M个尺度均为S的视差图，对每个像素位置的视差值采用线性叠加并求均值的操作，得到视差图：

式中：为第M个视差图在像素坐标(i，j)处的视差值，d_ij为最终获取的视差图在像素坐标(i，j)处的视差值；

(2)视差图平滑：对视差图像采用的高斯滤波器为(2k+1)×(2k+1)大小，其(i,j)位置的元素值为：

其中，σ为高斯分布标准差，M(i，j)为高斯滤波器M在矩阵位置(i，j)处的值，(i，j)取值范围均为[1，2k+1]的整数；

本步骤获得与输入图像尺度一致，用于生成深度图像的视差图；

步骤3、深度图像生成：根据多视图几何学中视差图与深度图的几何变换关系，根据下式的转换规则，生成对应的深度图像：

depth_ij＝b×f/d_ij (4)

式中：d_ij为像素坐标(i，j)处的视差值，depth_ij为像素坐标(i，j)处的深度值，b为已知相机基线距离，f为相机焦距。

根据获得与输入单目图像对应的深度图像，完成单目场景深度估计。

有益效果

本发明提出的一种基于深度学习的单目视觉场景深度估计的方法，采用深度学习的方法进行单目图像深度估计，一方面，在训练网络模型时，通常需要输入场景的可见光图像及其对应的真实深度图像，但是这种深度图像需要通过激光雷达进行场景扫描获得，获取代价昂贵而且得到的深度图比较稀疏，不适合实际应用；另一方面，常见的网络模型的迁移性通常较差，具体而言就是：在户外数据集上训练的网络模型应用到室内环境中，深度估计效果较差，会得到不满意的结果。第三，一般的网络模型结构复杂，参数量过多，在实际使用中对硬件环境要求过高，不太适合实践应用。为此，我们提出了一种新的网络模型结构，该模型在训练过程中不需要昂贵的、难以获取的场景真实深度数据，利用深度可分离卷积代替传统的卷积操作，大量的减少参数量提升运行速度，同时通过引入新的模型损失函数以及多尺度融合策略，使得该模型有更好的迁移性，在新的场景下深度估计效果依然很好。

本发明首先，构建网络模型，采用VGG-13网络模型，利用深度可分离卷积层代替标准卷积层以减少模型参数量，将标准的双目图像作为模型的输入，通过视差平滑性损失、左右视差一致性损失以及图像重构损失，利用最小化损失的思想，采用随机梯度下降方法训练网络模型，得到可用于获取视差图像的网络模型。其次，生成单目视差图像，在预测过程中，将经过张正友标定法校正的单目图像输入训练好的网络模型，生成多个尺度的视差图，再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图。最后，生成单目深度图像，根据多视图几何学中视差图与深度图的几何变换关系，在已知相机基线距离b和相机焦距f的前提下，根据depth＝bf/d转换规则，即可生成对应的深度图像。一方面，由于所提出的方法将深度估计任务当作图像重构任务，通过引入图像重构损失，我们可以使用简单易得的双目可见光图像训练网络模型而不需要使用获取代价很高的真实深度数据；另一方面，采用深度可分离卷积代替标准卷积，大幅度减少了网络模型的参数量，提升了该方法的应用性能。

本发明能够有效地利用单目图像恢复出场景的深度信息，有助于提升目前的计算机视觉技术,具有以下有益效果：

(1)通过将深度估计任务当作图像重构任务，可以使用简单易得的双目可见光图像训练网络模型而不用使用获取代价很高的真实深度数据；

(2)在网络结构中，引入新的损失以及多尺度模型，使得模型推理过程约束性更强；

(3)采用深度可分离卷积代替标准卷积，可以减少网络模型的参数量为之前的七分之一，提升模型的推理速度。

附图说明

图1：本发明方法的总体框架图

图2：网络模型结构图

图3：单目图像深度估计结果图(a)输入单目图像(b)深度图结果

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本文实验的硬件环境为：：GPU：Intel至强系列，内存：8G，硬盘：500G机械硬盘，独立显卡：NVIDIA GeForce GTX 1080Ti，11G；系统环境为Ubuntu 16.0.4；软件环境为python3.6，opencv4.0，Tensorflow。

本文针对单目图像的深度估计做了两组实验，一组是基于KITTI公开数据集，用于验证发明方法的准确度和有效性；一组是基于实际采集到的单目图像数据，验证了方法的实用性。

本发明具体实施如下：

步骤1网络模型的构建及训练：采用标准的VGG-13网络模型，采用深度可分离卷积代替网络模型每一层中的标准卷积，采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数，将标准的双目图像对输入网络模型，输出对应的模型损失，利用最小化损失的思想，采用随机梯度下降的方法训练网络模型。

(1)深度可分离卷积：假定输入卷积层的特征图大小为1280×720×3，特征图的宽为1280，特征图的高为720，特征图的通道数为3，输出通道数为32。标准卷积层的参数为(3×3×3)×32＝864，其对应的深度可分离卷积参数量为(3×3×1)×3+(1×1×3)×32＝123。我们可以计算得到两种卷积方法的参数量比值：S＝123/864＝0.142，可以看出，采用深度可分离卷积参数量减少为标准卷积参数量的七分之一，参数量大幅度的减少。

(2)损失函数：为了使得最终的模型效果更好，我们使用了三个损失来训练网络模型，分别为图像重构损失、视差平滑性损失以及左右视差一致性损失。整个网络的损失表达为式(5)：

其中分别为左右图像的重构损失，分别为左右视差图的平滑性损失，分别为左右视差图的一致性损失，α、β、γ分别为三种损失在总损失中所占有的权重，在实验中分别设置为1，0.1，1。

L_re为图像重构损失，目的是使得重构出的图像与其对应的训练输入保持高度相似性。具体如式(6)：

其中为输入左图像在像素位置(i,j)处的像素值，为重构出的左图像在像素位置(i,j)处的像素值，SSIM为结构相似性，用来计算I^l和的相似性。在实验中，α为不同系数的权重，α设置为0.8。N为图像中的像素点数，因为实验中图像大小为1240×375，所以N为465000。

L_smo为视差平滑性损失。目的是保证生成的视差图像过渡平滑，消除局部梯度大的位置视差的不连续问题。具体如式(7)：

为对应图像位置水平方向、垂直方向的梯度值。

L_con为左右视差一致性损失。目的是通过保持生成的左右视差的一致性，以生成更加准确的视差图。具体表示如式(8)：

其中为左视差图在像素位置(i，j)处的视差值。

训练过程就是将总的损失Loss通过反向传播，利用最小化损失的思想，经过随机梯度下降的方法学习调节网络模型参数，使得Loss尽量小，以训练出优异的网络模型。

步骤2单目图像视差图获取：在预测过程中，将经过校正的单目图像输入训练好的网络模型，经过特征提取以及反卷积操作生成四个不同尺度的视差图，再结合多尺度融合与视差平滑生成最终的视差图。

(1)多尺度融合：设置尺度参数为N＝4，对于1280×720尺度的输入图像，,生成(320×180)、(640×360)、(1280×720)尺度的视差图。将生成的三个较小不同尺度的视差图通过双线性插值之后生成(1280×720)尺度，将四个尺度为(1280×720)的视差图进行融合，通过对每个像素位置的值采用线性叠加并求均值的操作，如式(9)所示，得到最终的视差图。

式中，为第1、2、3、4个视差图在像素坐标(i，j)处的视差值，d_ij为最终获取的视差图在像素坐标(i，j)处的视差值。

(2)视差图平滑:一幅精度高的视差图应该连续且平滑，由于初始多尺度融合生成的视差图中存在局部不连续、变化过渡剧烈等问题，采用高斯滤波器读视差图像平滑操作，改善图像质量，本实施例使用的3*3高斯滤波器为式(10)：

步骤3深度图像生成：根据视差图与深度图的几何变换关系，将获取的视差图转换成对应的深度图。

通过步骤1和步骤2，生成了输入图像对应的精细视差图，视差图每个像素位置对应的值d_ij为该像素点的视差值(单位为像素单位)，在实验环境中，在已知相机基线距离b为65mm和相机焦距f为970(单位为像素单位)的前提下，根据式(11)的转换规则，即可生成对应的深度图像。

depth_ij＝bf/d＝(65×970/d_ij)mm (11)

d_ij为像素坐标(i，j)处的视差值，depth_ij为像素坐标(i，j)处的深度值。由式(11)可知，视差值越小，则深度值越大，表示目标离得越远。

Claims

1.一种基于深度学习的单目视觉场景深度估计的方法，其特征在于步骤如下：

所述损失函数为：

(1)多尺度融合：设置尺度参数为M，对于采集的单目场景图像，采用张正友标定法进行图像校正，将校正后的单目图像输入训练好的网络模型；输入图像尺度为S，通过网络模型输出M个尺度分别为S/2⁰、S/2¹、S/2²、…、S/2^M-1的视差图；将尺度为S/2¹、S/2²、…、S/2^M-1的视差图分别经过多次双线性插值之后生成M-1个尺度为S的视差图，对于全部M个尺度均为S的视差图，对每个像素位置的视差值采用线性叠加并求均值的操作，得到视差图：

depth_ij＝b×f/d_ij