CN109448039B

CN109448039B - 一种基于深度卷积神经网络的单目视觉深度估计方法

Info

Publication number: CN109448039B
Application number: CN201811229351.4A
Authority: CN
Inventors: 周武杰; 袁建中; 吕思嘉; 钱亚冠; 何成; 王海江
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2021-12-10
Anticipated expiration: 2038-10-22
Also published as: CN109448039A

Abstract

本发明公开了一种基于深度卷积神经网络的单目视觉深度估计方法，其先构建深度卷积神经网络，其包括输入层、隐层和输出层；隐层包括编码框架和译码框架；然后使用训练集中的单目图像作为原始输入图像，输入到深度卷积神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的估计深度图像；接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，得到深度卷积神经网络训练模型及最优权值矢量和最优偏置项；再将待预测的单目图像输入到深度卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项，预测得到对应的预测深度图像；优点是其预测精度高。

Description

一种基于深度卷积神经网络的单目视觉深度估计方法

技术领域

本发明涉及一种单目视觉深度估计技术，尤其是涉及一种基于深度卷积神经网络的单目视觉深度估计方法。

背景技术

经济的高速发展带来了人们生活水平的不断提升，随着人们对好的生活质量的要求逐渐增强，交通的便利性也越来越好。汽车作为交通中的重要一环，其发展更加被重视。这几年人工智能大火，无人驾驶也是近年来较为热门的话题之一，并且在百度宣布无人驾驶车进入批量生产即将投入使用之后，无人驾驶的热潮持续提高。车前的单目视觉深度估计是无人驾驶领域的一部分，它可以有效的保障汽车行驶过程中的安全。

单目视觉深度估计的方法主要分为传统的方法和深度学习的方法。传统的方法使用在深度预测的领域并没有取得令人满意的结果，其估计精度远低于实际应用中所需要的要求；深度学习的出现给予了单目视觉深度预测极大的帮助，借助于深度学习的方法，通过端到端训练，在使用大量数据集后机器可以不停的学到深度预测所需要的特征信息，进而不断提高它的结果精度，使得单目视觉深度预测的实际应用可以得到实现。如：Eigen等人首次将深度学习应用到了单目视觉深度估计任务中，其提出结合两个深度网络：粗规模网络预测全局深度分布和精细规模网络以局部细化深度图，粗规模网络首先在全局级别预测场景的深度，然后通过精细规模网络在局部区域内进行细化。该方法的两个尺度的输入都是原始图像，此外，粗规模网络的输出作为附加的第一层图像特征传递到精细规模网络，但是这种结合粗规模网络和精细规模网络的神经网络没有足够的深度来提取更多的深度信息以获得准确性更高的深度特征。

发明内容

本发明所要解决的技术问题是提供一种基于深度卷积神经网络的单目视觉深度估计方法，其预测精度高。

本发明解决上述技术问题所采用的技术方案为：一种基于深度卷积神经网络的单目视觉深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第n幅原始的单目图像记为Qⁿ(x,y)，将训练集中与Qⁿ(x,y)对应的真实深度图像记为

其中，N为正整数，N≥1000，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，R表示Qⁿ(x,y)和

的宽度，L表示Qⁿ(x,y)和

的高度，R和L均能被2整除；

步骤1_2：构建深度卷积神经网络：深度卷积神经网络包括输入层、隐层和输出层；隐层包括编码框架和译码框架；

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为R、高度为L；

对于编码框架，其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成，其中，第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值，第一批规范化层的参数采用默认值，第一激活层的激活函数采用ReLu，第一最大池化层的池化步长为2×2，第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1，第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1，第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值，第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值，第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2，第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2，第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值，第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值，第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2，第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2，第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值，第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2，第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2，第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值，第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值；

对于编码框架，第一卷积层的输入端接收输入层的输出端输出的原始输入图像，第一卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为J₁，其中，J₁中的每幅特征图的宽度为R、高度为L；第一批规范化层的输入端接收J₁中的所有特征图，第一批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为P₁，其中，P₁中的每幅特征图的宽度为R、高度为L；第一激活层的输入端接收P₁中的所有特征图，第一激活层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为H₁，其中，H₁中的每幅特征图的宽度为R、高度为L；第一最大池化层的输入端接收H₁中的所有特征图，第一最大池化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为Z₁，其中，Z₁中的每幅特征图的宽度为

高度为

第一conv_block网络块的输入端接收Z₁中的所有特征图，第一conv_block网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为C₁，其中，C₁中的每幅特征图的宽度为

高度为

第一identity_block网络块的输入端接收C₁中的所有特征图，第一identity_block网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为I₁，其中，I₁中的每幅特征图的宽度为

高度为

第二identity_block网络块的输入端接收I₁中的所有特征图，第二identity_block网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为I₂，其中，I₂中的每幅特征图的宽度为

高度为

第二conv_block网络块的输入端接收I₂中的所有特征图，第二conv_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为C₂，其中，C₂中的每幅特征图的宽度为

高度为

第三identity_block网络块的输入端接收C₂中的所有特征图，第三identity_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为I₃，其中，I₃中的每幅特征图的宽度为

高度为

第四identity_block网络块的输入端接收I₃中的所有特征图，第四identity_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为I₄，其中，I₄中的每幅特征图的宽度为

高度为

第五identity_block网络块的输入端接收I₄中的所有特征图，第五identity_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为I₅，其中，I₅中的每幅特征图的宽度为

高度为

第三conv_block网络块的输入端接收I₅中的所有特征图，第三conv_block网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为C₃，其中，C₃中的每幅特征图的宽度为

高度为

第六identity_block网络块的输入端接收C₃中的所有特征图，第六identity_block网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为I₆，其中，I₆中的每幅特征图的宽度为

高度为

第七identity_block网络块的输入端接收I₆中的所有特征图，第七identity_block网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为I₇，其中，I₇中的每幅特征图的宽度为

高度为

第八identity_block网络块的输入端接收I₇中的所有特征图，第八identity_block网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为I₈，其中，I₈中的每幅特征图的宽度为

高度为

第四conv_block网络块的输入端接收I₈中的所有特征图，第四conv_block网络块的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为C₄，其中，C₄中的每幅特征图的宽度为

高度为

第九identity_block网络块的输入端接收C₄中的所有特征图，第九identity_block网络块的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为I₉，其中，I₉中的每幅特征图的宽度为

高度为

第十identity_block网络块的输入端接收I₉中的所有特征图，第十identity_block网络块的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为I₁₀，其中，I₁₀中的每幅特征图的宽度为

高度为

对于译码框架，其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成，其中，第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值，第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2，第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值，第二批规范化层的参数采用默认值，第二激活层的激活函数采用ReLu；

对于译码框架，第一dense block网络块的输入端接收I₁₀中的所有特征图，第一dense block网络块的输出端输出1184幅特征图，将输出的所有特征图构成的集合记为D₁，其中，D₁中的每幅特征图的宽度为

高度为

第一transitionup网络块的输入端接收D₁中的所有特征图和I₈中的所有特征图，第一transitionup网络块的输出端输出672幅特征图，将输出的所有特征图构成的集合记为T₁，其中，T₁中的每幅特征图的宽度为

高度为

第二dense block网络块的输入端接收T₁中的所有特征图，第二dense block网络块的输出端输出832幅特征图，将输出的所有特征图构成的集合记为D₂，其中，D₂中的每幅特征图的宽度为

高度为

第二transitionup网络块的输入端接收D₂中的所有特征图和I₅中的所有特征图，第二transitionup网络块的输出端输出416幅特征图，将输出的所有特征图构成的集合记为T₂，其中，T₂中的每幅特征图的宽度为

高度为

第三dense block网络块的输入端接收T₂中的所有特征图，第三dense block网络块的输出端输出576幅特征图，将输出的所有特征图构成的集合记为D₃，其中，D₃中的每幅特征图的宽度为

高度为

第三transitionup网络块的输入端接收D₃中的所有特征图和I₂中的所有特征图，第三transitionup网络块的输出端输出288幅特征图，将输出的所有特征图构成的集合记为T₃，其中，T₃中的每幅特征图的宽度为

高度为

第四dense block网络块的输入端接收T₃中的所有特征图，第四dense block网络块的输出端输出448幅特征图，将输出的所有特征图构成的集合记为D₄，其中，D₄中的每幅特征图的宽度为

高度为

第四transitionup网络块的输入端接收D₄中的所有特征图和H₁中的所有特征图，第四transitionup网络块的输出端输出192幅特征图，将输出的所有特征图构成的集合记为T₄，其中，T₄中的每幅特征图的宽度为R、高度为L；第二卷积层的输入端接收T₄中的所有特征图，第二卷积层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L；第二批规范化层的输入端接收第二卷积层的输出端输出的特征图，第二批规范化层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L；第二激活层的输入端接收第二批规范化层的输出端输出的特征图，第二激活层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L；

对于输出层，输出层的输入端接收第二激活层的输出端输出的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为R、高度为L；

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到深度卷积神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的估计深度图像，将Qⁿ(x,y)对应的估计深度图像记为

步骤1_4：计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令Q(x',y')表示待预测的单目图像；其中，1≤x'≤R'，1≤y'≤L'，R'表示Q(x',y')的宽度，L'表示Q(x',y')的高度；

步骤2_2：将Q(x',y')输入到训练好的深度卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到Q(x',y')对应的预测深度图像，记为Q_depth(x',y')。

所述的步骤1_4中，

采用均方误差函数获得。

与现有技术相比，本发明的优点在于：

1)本发明方法构建深度卷积神经网络，并采用Resnet中的conv_block网络块和identity_block网络块组合成编码框架来提取特征图，采用Densenet中的dense block网络块和transitionup网络块组成译码框架，这样的神经网络结构具有足够的深度，不仅可以提取到丰富而准确的特征信息，而且由于编码框架提取的部分特征与译码框架中输出的对应尺寸的特征的融合，因此能生成精度很高的估计深度图像，提高了测试阶段的预测精度。

2)本发明方法采用的深度卷积神经网络框架主要是由Resnet和Densenet中的网络块组成的，由于网络块的内部结构中的分步融合和网络块之间输出与输入的融合都充分发挥了残差属性的优势，因此利用得到的深度卷积神经网络训练模型预测的结果会更为精确。

3)本发明方法对于实现层间信息的融合的方式采用了两种不同的融合方法，一种是Add融合层，另外一种是Concatenate融合层，跳层融合的使用结合了残差的结构，有助于对一些原始浅层特征信息缺失的补全。

附图说明

图1为本发明方法的总体实现框图；

图2为本发明方法中使用的conv_block网络块的内部结构图；

图3为本发明方法中使用的identity_block网络块的内部结构图；

图4为本发明方法中使用的dense block网络块网络块的内部结构图；

图5为本发明方法中使用的dense block网络块网络块中的Layer层的内部结构图；

图6为本发明方法中使用的transitionup网络块的内部结构图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于深度卷积神经网络的单目视觉深度估计方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

其中，N为正整数，N≥1000，如取N＝4000，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，R表示Qⁿ(x,y)和

的宽度，L表示Qⁿ(x,y)和

的高度，R和L均能被2整除；在此，原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。

步骤1_2：构建深度卷积神经网络：深度卷积神经网络包括输入层、隐层和输出层；隐层包括编码框架和译码框架。

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。

对于编码框架，其由依次设置的第一卷积层、第一批规范化层(BatchNormalization)、第一激活层、第一最大池化层、第一conv_block网络块(现有的ResNet中的conv_block网络块网络块)、第一identity_block网络块(现有的ResNet中的identity_block网络块网络块)、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成，其中，第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值，第一卷积层是对图像做卷积运算，可当成是加权求和的过程，第一批规范化层的参数采用默认值，第一激活层的激活函数采用ReLu，第一激活层的作用是借助激活函数来增加深度卷积神经网络的非线性，ReLu激活函数的优点是在训练过程中得到的SGD的收敛速度要远快于sigmoid/tanh激活函数，同时该函数仅仅只要得到一个阈值就能够获得激活值，进而不需要进行大量的复杂的数学运算，第一最大池化层的池化步长为2×2，第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1，第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1，第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值，第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值，第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值，第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2，第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2，第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值，第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值，第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值，第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2，第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2，第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值，第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值，第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2，第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2，第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值，第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值，第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对于译码框架，其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成，其中，第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值，第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2，第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值，第二批规范化层的参数采用默认值，第二激活层的激活函数采用ReLu。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

第四transitionup网络块的输入端接收D₄中的所有特征图和H₁中的所有特征图，第四transitionup网络块的输出端输出192幅特征图，将输出的所有特征图构成的集合记为T₄，其中，T₄中的每幅特征图的宽度为R、高度为L；第二卷积层的输入端接收T₄中的所有特征图，第二卷积层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L；第二批规范化层的输入端接收第二卷积层的输出端输出的特征图，第二批规范化层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L；第二激活层的输入端接收第二批规范化层的输出端输出的特征图，第二激活层的输出端输出1幅特征图，其中，输出的特征图的宽度为R、高度为L。

对于输出层，输出层的输入端接收第二激活层的输出端输出的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为R、高度为L。

与

之间的损失函数值记为

采用均方误差函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令Q(x',y')表示待预测的单目图像；其中，1≤x'≤R'，1≤y'≤L'，R'表示Q(x',y')的宽度，L'表示Q(x',y')的高度。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

在此，本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出，因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度卷积神经网络训练模型中，再载入训练阶段得到的最优权重W^best，获得对应的预测深度图像。

在此，采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标，即：均方根误差(root mean squared error，rms)、对数均方根误差(log_rms)、平均对数误差(average log₁₀ error，log10)、阈值准确性(thr)：δ₁、δ₂、δ₃。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近，δ₁、δ₂、δ₃的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ₁、δ₂、δ₃的结果如表1所列。从表1所列的数据可知，按本发明方法获得的预测深度图像与真实深度图像之间的差别很小，这说明了本发明方法的预测结果的精度很高，体现了本发明方法的可行性和有效性。

表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标