CN109461177B

CN109461177B - 一种基于神经网络的单目图像深度预测方法

Info

Publication number: CN109461177B
Application number: CN201811147330.8A
Authority: CN
Inventors: 周武杰; 潘婷; 顾鹏笠; 张宇来; 向坚; 邱薇薇; 周扬
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-12-10
Anticipated expiration: 2038-09-29
Also published as: CN109461177A

Abstract

本发明公开了一种基于神经网络的单目图像深度预测方法，其构建包括输入层、隐层和输出层的神经网络，隐层包括编码和解码网络框架，编码网络框架包括5个神经网络块、1个推理层和1个连接层，第1个和第2个神经网络块均由2个卷积层和1个最大池化层组成、第3个至第5个神经网络块均由3个卷积层和1个最大池化层组成、推理层包括2个带孔卷积神经网络，解码网络框架包括5个神经网络块、5个连接层、4个独立双线性上采样层，每个神经网络块由1个卷积层和1个双线性上采样层组成；将训练集中的单目图像输入到神经网络中进行训练；测试时将预测的单目图像输入到神经网络模型中进行预测，得到预测深度图像；优点是预测精度高，计算复杂度低。

Description

一种基于神经网络的单目图像深度预测方法

技术领域

本发明涉及一种图像深度预测技术，尤其是涉及一种基于神经网络的单目图像深度预测方法。

背景技术

随着机器学习的迅速发展，机器模仿人类从图像中一定程度上估计物体距离远近已成为可能，即机器能在一定程度上对单张图像进行深度预测并获得深度图。深度图在三维重建、机器人导航等领域应用较广；同时，深度图由于提供了物体远近的信息，有助于检测、分割等计算机视觉领域。深度图当前主要来源于不同型号的深度相机，但是深度相机因价格昂贵、不易携带等缺点应用具有局限性；而利用单目视觉提取的深度信息成本较低，已受到关注。自2014年，深度学习首次应用于单目图像深度预测，且获得了较好的预测结果。由数据驱动的深度学习方法在单目视觉深度预测领域发展较快。相较于原始的通过人工设计的手工特征提取图像的深度特性，深度学习方法由于通过数据提取特征，因此更加客观可靠。2014年，Eigen等人首次提出多尺度神经网络的方式，通过对图像进行粗糙-精细两个尺度的特征提取，通过粗糙尺度获得低分辨率粗糙的网络框架，并通过精细尺度优化；2016年，Laina I等人提出全卷积残差网络(Fully Convolutional Residual Networks，FCRN)网络框架，利用Resnet网络框架强大的特征提取能力进行特征提取，并通过变形的卷积替代反卷积过程加快了运算速度；2017年，Xiaogang Wang等通过加入条件随机场(Conditional Random Field，CRF)改善预测的深度图，并获得了较好的结果。但是，上述方法并没有充分考虑全局和局部特征，因此在深度预测中精度上仍然有提升的空间。

发明内容

本发明所要解决的技术问题是提供一种基于神经网络的单目图像深度预测方法，其预测精度高，且计算复杂度低。

本发明解决上述技术问题所采用的技术方案为：一种基于神经网络的单目图像深度预测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第q幅原始的单目图像记为{I^q(i,j)|1≤i≤W,1≤j≤H}，将训练集中与{I^q(i,j)|1≤i≤W,1≤j≤H}对应的真实深度图像记为

其中，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)|1≤i≤W,1≤j≤H}和

的宽度，H表示{I^q(i,j)|1≤i≤W,1≤j≤H}和

的高度，I^q(i,j)表示{I^q(i,j)|1≤i≤W,1≤j≤H}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建神经网络：神经网络包括输入层、隐层和输出层；隐层包括编码网络框架和解码网络框架；

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；

对于编码网络框架，其包括5个神经网络块、1个推理层和1个连接层，第1个神经网络块由依次设置的2个卷积层和1个最大池化层组成，第2个神经网络块由依次设置的2个卷积层和1个最大池化层组成，第3个神经网络块由依次设置的3个卷积层和1个最大池化层组成，第4个神经网络块由依次设置的3个卷积层和1个最大池化层组成，第5个神经网络块由依次设置的3个卷积层和1个最大池化层组成，推理层由依次设置的2个带孔卷积神经网络构成，其中，每个神经网络块中的每个卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，每个神经网络块中的每个最大池化层的步长为2，每个带孔卷积神经网络中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，每个带孔卷积神经网络的膨胀率为2；

对于编码网络框架，第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像，第1个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₁，其中，K＝64，A₁中的每幅特征图的宽度为

高度为

符号

为向下取整运算符号；第2个神经网络块的输入端接收A₁中的所有特征图，第2个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₂，其中，K＝64，A₂中的每幅特征图的宽度为

高度为

第3个神经网络块的输入端接收A₂中的所有特征图，第3个神经网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为A₃，其中，K'＝128，A₃中的每幅特征图的宽度为

高度为

第4个神经网络块的输入端接收A₃中的所有特征图，第4个神经网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为A₄，其中，K'＝128，A₄中的每幅特征图的宽度为

高度为

第5个神经网络块的输入端接收A₄中的所有特征图，第5个神经网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为A₅，其中，K'＝128，A₅中的每幅特征图的宽度为

高度为

推理层的输入端接收A₅中的所有特征图，推理层的输出端输出K'幅特征图，将K'幅特征图构成的集合记为B，其中，K'＝128，B中的每幅特征图的宽度为

高度为

连接层的输入端接收A₅中的所有特征图和B中的所有特征图，连接层通过Concatence方式连接A₅和B得到集合C，连接层的输出端输出C，其中，C中的每幅特征图的宽度为

高度为

C中包含的特征图的总幅数为K'+K'；

对于解码网络框架，其包括5个神经网络块、5个连接层、4个独立的双线性上采样层，每个神经网络块由依次设置的1个卷积层和1个双线性上采样层组成，其中，每个神经网络块中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，第1个神经网络块中的双线性上采样层的目标的宽度设置为与A₄中的特征图的宽度一致、高度设置为与A₄中的特征图的高度一致，第2个神经网络块中的双线性上采样层的目标的宽度设置为与A₃中的特征图的宽度一致、高度设置为与A₃中的特征图的高度一致，第3个神经网络块中的双线性上采样层的目标的宽度设置为与A₂中的特征图的宽度一致、高度设置为与A₂中的特征图的高度一致，第4个神经网络块中的双线性上采样层的目标的宽度设置为与A₁中的特征图的宽度一致、高度设置为与A₁中的特征图的高度一致，第5个神经网络块中的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致，每个独立的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致；

对于解码网络框架，第1个神经网络块的输入端接收C中的所有特征图，第1个神经网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为C₁，其中，K'＝128，C₁中的每幅特征图的宽度为

高度为

第1个连接层的输入端接收A₄中的所有特征图和C₁中的所有特征图，第1个连接层通过Concatence方式连接A₄和C₁得到集合C₂，第1个连接层的输出端输出C₂，其中，C₂中的每幅特征图的宽度为

高度为

C₂中包含的特征图的总幅数为K'+K'；第2个神经网络块的输入端接收C₂中的所有特征图，第2个神经网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为C₃，其中，K'＝128，C₃中的每幅特征图的宽度为

高度为

第2个连接层的输入端接收A₃中的所有特征图和C₃中的所有特征图，第2个连接层通过Concatence方式连接A₃和C₃得到集合C₄，第2个连接层的输出端输出C₄，其中，C₄中的每幅特征图的宽度为

高度为

C₄中包含的特征图的总幅数为K'+K'；第3个神经网络块的输入端接收C₄中的所有特征图，第3个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为C₅，其中，K＝64，C₅中的每幅特征图的宽度为

高度为

第3个连接层的输入端接收A₂中的所有特征图和C₅中的所有特征图，第3个连接层通过Concatence方式连接A₂和C₅得到集合C₆，第3个连接层的输出端输出C₆，其中，C₆中的每幅特征图的宽度为

高度为

C₆中包含的特征图的总幅数为K+K；第4个神经网络块的输入端接收C₆中的所有特征图，第4个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为C₇，其中，K＝64，C₇中的每幅特征图的宽度为

高度为

第4个连接层的输入端接收A₁中的所有特征图和C₇中的所有特征图，第4个连接层通过Concatence方式连接A₁和C₇得到集合C₈，第4个连接层的输出端输出C₈，其中，C₈中的每幅特征图的宽度为

高度为

C₈中包含的特征图的总幅数为K+K；第5个神经网络块的输入端接收C₈中的所有特征图，第5个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为C₉，其中，K＝64，C₉中的每幅特征图的宽度为W、高度为H；第1个独立的双线性上采样层的输入端接收C₁中的所有特征图，第1个独立的双线性上采样层的输出端输出K'幅特征图，将K'幅特征图构成的集合记为D₁，其中，K'＝128，D₁中的每幅特征图的宽度为W、高度为H；第2个独立的双线性上采样层的输入端接收C₃中的所有特征图，第2个独立的双线性上采样层的输出端输出K'幅特征图，将K'幅特征图构成的集合记为D₂，其中，K'＝128，D₂中的每幅特征图的宽度为W、高度为H；第3个独立的双线性上采样层的输入端接收C₅中的所有特征图，第3个独立的双线性上采样层的输出端输出K幅特征图，将K幅特征图构成的集合记为D₃，其中，K＝64，D₃中的每幅特征图的宽度为W、高度为H；第4个独立的双线性上采样层的输入端接收C₇中的所有特征图，第4个独立的双线性上采样层的输出端输出K幅特征图，将K幅特征图构成的集合记为D₄，其中，K＝64，D₄中的每幅特征图的宽度为W、高度为H；第5个连接层的输入端接收C₉中的所有特征图和D₁,D₂,D₃,D₄中的所有特征图，第5个连接层通过Concatence方式连接C₉和D₁,D₂,D₃,D₄得到集合E，第5个连接层的输出端输出E，其中，E中的每幅特征图的宽度为W、高度为H，E中包含的特征图的总幅数为K+K'+K'+K+K；

对于输出层，其包括1个卷积层，其中，卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数；输出层的输入端接收E中的所有特征图，输出层的输出端输出一幅原始输入图像对应的预测深度图像；

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的预测深度图像，将{I^q(i,j)|1≤i≤W,1≤j≤H}对应的预测深度图像记为

其中，

表示

中坐标位置为(i,j)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的神经网络模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待预测的单目图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i',j')的像素点的像素值；

步骤2_2：将

输入到训练好的神经网络模型中，并利用W^best和b^best进行预测，得到

对应的预测深度图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_4中，

采用均方误差获得，

与现有技术相比，本发明的优点在于：

1)针对当前深度预测的方法主要利用了小尺寸下的特征信息，对于大尺寸下的特征信息利用不足的缺点，本发明方法提出了一种新的神经网络结构，该神经网络结构采用5个神经网络块和两个带孔卷积层构成编码网络框架用于提取小尺寸下的特征信息，采用解码网络框架将图像逐渐恢复到原始单目图像的尺寸，在将图像不断变大的同时利用卷积神经网络提取特征，有效利用了大尺寸下获得的特征信息，通过两次融合的操作将编码网络框架阶段的特征信息融合入解码网络框架中，有利于边缘特征的提取和降低深度预测的误差。

2)本发明方法仅利用了相机中仿照左眼或右眼获得的单目视觉的原始单目图像及其对应的真实深度图像，即只利用了单目视觉的信息，相较于双目降低了计算成本，计算复杂度低。

3)本发明方法在编码网络框架的推理层利用了带孔卷积的方式增强了感受野，有利于生成更精确的深度图像，利用带孔卷积也减少了计算参数量，节约了计算成本。

附图说明

图1为本发明方法的总体实现框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于神经网络的单目图像深度预测方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

其中，Q为正整数，Q≥200，如取Q＝4000，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)|1≤i≤W,1≤j≤H}和

的宽度，H表示{I^q(i,j)|1≤i≤W,1≤j≤H}和

表示

中坐标位置为(i,j)的像素点的像素值；在此，深度图像可通过激光雷达获取。

对于编码网络框架，其包括5个神经网络块、1个推理层和1个连接层，第1个神经网络块由依次设置的2个卷积层和1个最大池化层组成，第2个神经网络块由依次设置的2个卷积层和1个最大池化层组成，第3个神经网络块由依次设置的3个卷积层和1个最大池化层组成，第4个神经网络块由依次设置的3个卷积层和1个最大池化层组成，第5个神经网络块由依次设置的3个卷积层和1个最大池化层组成，推理层由依次设置的2个带孔卷积神经网络构成，其中，每个神经网络块中的每个卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified Linear Unit，ReLU)，线性整流函数在结构上具有模仿人脑神经元的特点，因此能够符合实际生物学对模拟神经网络的期望，每个神经网络块中的每个最大池化层的步长为2，每个带孔卷积神经网络中的卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数，每个带孔卷积神经网络的膨胀率(Dilation Rate)为2；

高度为

符号

高度为

高度为

高度为

高度为

高度为

连接层的输入端接收A₅中的所有特征图和B中的所有特征图，连接层通过现有的Concatence方式连接A₅和B得到集合C，连接层的输出端输出C，其中，C中的每幅特征图的宽度为

高度为

C中包含的特征图的总幅数为K'+K'；

对于解码网络框架，其包括5个神经网络块、5个连接层、4个独立的双线性上采样层，每个神经网络块由依次设置的1个卷积层和1个双线性上采样层组成，其中，每个神经网络块中的卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数，第1个神经网络块中的双线性上采样层(采用现有的双线性插值的方法)的目标的宽度设置为与A₄中的特征图的宽度一致、高度设置为与A₄中的特征图的高度一致，第2个神经网络块中的双线性上采样层的目标的宽度设置为与A₃中的特征图的宽度一致、高度设置为与A₃中的特征图的高度一致，第3个神经网络块中的双线性上采样层的目标的宽度设置为与A₂中的特征图的宽度一致、高度设置为与A₂中的特征图的高度一致，第4个神经网络块中的双线性上采样层的目标的宽度设置为与A₁中的特征图的宽度一致、高度设置为与A₁中的特征图的高度一致，第5个神经网络块中的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致，每个独立的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致；

高度为

第1个连接层的输入端接收A₄中的所有特征图和C₁中的所有特征图，第1个连接层通过现有的Concatence方式连接A₄和C₁得到集合C₂，第1个连接层的输出端输出C₂，其中，C₂中的每幅特征图的宽度为

高度为

高度为

第2个连接层的输入端接收A₃中的所有特征图和C₃中的所有特征图，第2个连接层通过现有的Concatence方式连接A₃和C₃得到集合C₄，第2个连接层的输出端输出C₄，其中，C₄中的每幅特征图的宽度为

高度为

高度为

第3个连接层的输入端接收A₂中的所有特征图和C₅中的所有特征图，第3个连接层通过现有的Concatence方式连接A₂和C₅得到集合C₆，第3个连接层的输出端输出C₆，其中，C₆中的每幅特征图的宽度为

高度为

高度为

第4个连接层的输入端接收A₁中的所有特征图和C₇中的所有特征图，第4个连接层通过现有的Concatence方式连接A₁和C₇得到集合C₈，第4个连接层的输出端输出C₈，其中，C₈中的每幅特征图的宽度为

高度为

C₈中包含的特征图的总幅数为K+K；第5个神经网络块的输入端接收C₈中的所有特征图，第5个神经网络块的输出端输出K幅特征图，将K幅特征图构成的集合记为C₉，其中，K＝64，C₉中的每幅特征图的宽度为W、高度为H；第1个独立的双线性上采样层的输入端接收C₁中的所有特征图，第1个独立的双线性上采样层的输出端输出K'幅特征图，将K'幅特征图构成的集合记为D₁，其中，K'＝128，D₁中的每幅特征图的宽度为W、高度为H；第2个独立的双线性上采样层的输入端接收C₃中的所有特征图，第2个独立的双线性上采样层的输出端输出K'幅特征图，将K'幅特征图构成的集合记为D₂，其中，K'＝128，D₂中的每幅特征图的宽度为W、高度为H；第3个独立的双线性上采样层的输入端接收C₅中的所有特征图，第3个独立的双线性上采样层的输出端输出K幅特征图，将K幅特征图构成的集合记为D₃，其中，K＝64，D₃中的每幅特征图的宽度为W、高度为H；第4个独立的双线性上采样层的输入端接收C₇中的所有特征图，第4个独立的双线性上采样层的输出端输出K幅特征图，将K幅特征图构成的集合记为D₄，其中，K＝64，D₄中的每幅特征图的宽度为W、高度为H；第5个连接层的输入端接收C₉中的所有特征图和D₁,D₂,D₃,D₄中的所有特征图，第5个连接层通过现有的Concatence方式连接C₉和D₁,D₂,D₃,D₄得到集合E，第5个连接层的输出端输出E，其中，E中的每幅特征图的宽度为W、高度为H，E中包含的特征图的总幅数为K+K'+K'+K+K；

对于输出层，其包括1个卷积层，其中，卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数；输出层的输入端接收E中的所有特征图，输出层的输出端输出一幅原始输入图像对应的预测深度图像。

其中，

表示

中坐标位置为(i,j)的像素点的像素值。

与

之间的损失函数值记为

在本实施例中，步骤1_4中，

采用均方误差(mean-square error，MSE)获得，

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的神经网络模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待预测的单目图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i',j')的像素点的像素值。

步骤2_2：将

对应的预测深度图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了验证本发明方法的可行性与有效性，进行如下实验。

选用KITTI官网提供的数据集作为测试集，将测试集中的每幅待预测的单目图像输入到训练好的神经网络模型中，并利用W^best和b^best进行预测，输出预测深度图像。通过6个评测指标比较预测深度图像与真实深度图像之间的关联性，这6个评测指标分别为：均方根误差(Root Mean Square Error，RMSE)、对数平均误差(Average lg10 Error，Log10)、对数均方根误差(Log Root Mean Square Error，Log_rms)以及阈值下的精确度值：δ₁、δ₂、δ₃；其中，均方根误差、对数平均误差和对数均方根误差反应的是预测深度图像与真实深度图像之间的误差，越小越好；阈值下的精确度值δ₁、δ₂、δ₃反应的是预测深度图像的精度，越大越好。

6个评测指标的计算公式如下：

的阈值下的精确度值：

其中，符号“||”为取绝对值符号，T表示所有预测深度图像中的像素点的总个数，即T＝W×H，max()为取最大值函数，y表示待预测的单目图像对应的真实深度图像中的像素点的像素值，

表示待预测的单目图像对应的预测深度图像中的像素点的像素值。

表1给出了利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性，从表1中可以看出，本发明方法有效降低了预测深度图像与真实深度图像之间的误差，精度也有所提高，可以较好地实现单目图像深度预测。

表1利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性

评测指标结果	RMSE	Log10	Log_rms	δ<sub>1</sub>	δ<sub>2</sub>	δ<sub>3</sub>
								2.4136	0.237	0.126	0.677	0.948	0.975