CN110414674A

CN110414674A - 一种基于残差网络及局部细化的单目深度估计方法

Info

Publication number: CN110414674A
Application number: CN201910701151.2A
Authority: CN
Inventors: 周武杰; 段婷; 叶绿; 何成; 雷景生
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05
Anticipated expiration: 2039-07-31
Also published as: CN110414674B

Abstract

本发明公开了一种基于残差网络及局部细化的单目深度估计方法。在训练阶段，搭建神经网络模型，其隐藏层主要包括5个部分，即inception部分、编码部分、解码部分、跳跃连接部分、以及局部细化部分；使用最初的、原始的KITTI数据库交通场景图，将其进行处理、归一化，再输入到神经网络模型中进行反复的训练，得到的深度图再与相应的标签图进行对应损失函数值的计算，得到最优权重；在测试阶段，将待测试的交通场景图输入到神经网络模型当中，并载入训练阶段的最优权重，输出标签接近的深度图，优点是提高了KITTI数据图片单目深度预测的准确性，提升了深度图的质量。

Description

一种基于残差网络及局部细化的单目深度估计方法

技术领域

本发明涉及一种深度学习的深度估计方法，尤其是涉及一种基于残差网络及局部细化的单目深度估计方法。

背景技术

随着近几年人工智能和深度学习的飞速发展，计算机视觉的应用也越来越普遍，图像深度估计也迅速涌入大众视野，已成为了热门研究领域之一，深度估计是一项非常重要的技术，由于自动驾驶汽车的出现，为了保障交通安全，智能测距和智能辅助驾驶广泛被应用，因此，通过深度估计出来的深度图，判断当前车辆与周围的车辆、行人和障碍物之间的距离，可以有效的解决这一问题的存在，进一步提升自动驾驶系统的安全性。

深度估计是基于深度学习进行预测的一种方法，包括多视图深度估计、双目深度估计以及单目深度估计，多视图深度估计是通过对同一场景采用计算机阵列进行图像采集，利用视点图像之间出现冗余信息来进行深度信息的计算，能够获得较为准确的深度信息；双目深度估计是仿照人的双眼对深度感知，利用左右视差进行三角测距，而单目深度估计只需利用一个视点，单幅图像进行深度估计，与前二者比较，单目的情形更贴合于实际应用。

现有的单目深度估计方法通常是利用单一视角的图像数据作为输入，直接预测图像中每个像素所对应的深度值，但是这种方案需要大量的数据集来训练，因而成本相对较高，并且单目深度估计缺乏可靠和稳定性，研究更具挑战性。

发明内容

本发明所要解决的技术问题是提供一种基于残差网络及局部细化的单目深度估计方法，其可以预测出良好的深度图，提取出稳定的图像特征。

本发明解决上述技术问题所采用的技术方案包括以下步骤：

步骤1_1：选取D幅深度估计原始图像及深度估计原始图像对应的已知深度的深度估计标签图像，将所有深度估计原始图像及其对应的深度估计标签图像构成训练集；将训练集中的第d幅深度估计原始记为{T^d(i,j)}，把与训练集中第d张深度估计原始图像对应的深度标签图记作

训练集采用KITTI数据集，总共有4286张图片，且每一张为RGB彩色图像，每张图片为3通道，对原始图片进行处理，处理后的图片高为320，宽为512，记为H＝320，W＝512，真实深度估计图像作类似的处理。

步骤1_2：构建神经网络模型；

步骤1_3：将训练集输入到神经网络模型进行训练：训练过程中，每次迭代训练处理得到每幅深度估计原始图像的深度预测图，将得到与{T^d(i,j)}对应的深度图集合记为计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值，损失函数值采用均方差(MSE)损失函数获得；

步骤1_4：重复执行步骤1_3一共n次，并共得到D×n个损失函数值；然后从D×n个损失函数值中找出最小的损失函数值并保留其权重，从而得到最优的权重作为模型参数，从而完成神经网络模型的训练，本例中n取20。

步骤1_5：利用训练后获得的神经网络模型对深度待预测的深度估计原始图像进行预测处理，输出获得对应的深度预测图，实现单目图像深度估计。令{S^d(i',j')}表示待深度估计的交通场景图像，W'表示{S^d(i',j')}的宽度，H'表示{S^d(i',j')}的高度，用于测试的图片同样采用KITTI数据库的测试集，测试图片和测试标签图都为343张，一一对应，测试图片为RGB彩色图，测试标签图为单通道，将KITTI测试集图片输入模型中，把训练好的权重载入模型，得到预测出的深度图，记为

所述步骤1_2中，所述的神经网络模型包括依次连接的输入层、隐藏层和输出层，深度估计原始图像输入到输入层，输出层输出深度估计原始图像对应的深度预测图；输入层指输入的训练集图片，即输入高为H，宽为W的RGB图片，输出层指经过神经网络模型后输出的图片。

隐藏层包括主体部分和分支部分，隐藏层的主体部分主要由依次连接的第一个inception块、第二个inception块、第一个初始卷积块、第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块、第一个上采样块、第二个上采样块、第三个上采样块、第四个上采样块、第一个初始上采样残差块、第一个Dropout层和第一个conv2DTranspose层组成，第一个inception块与输入层连接，第一个inception块接收输入层的输出，第一个conv2DTranspose层与输出层连接，输出层接收第一个conv2DTranspose层的输出。

隐藏层的分支部分包括第一分支部分和第二分支部分，第一分支部分包括依次连接的第二个初始卷积块、第三个初始卷积块、第四个初始卷积块、第五个初始卷积块、第六个初始卷积块和第七个初始卷积块，第二个初始卷积块与输入层连接，第二个初始卷积块接收输入层的输出，第七个初始卷积块连接到第一个初始上采样残差块的输出端，第一个初始上采样残差块的输出与第七个初始卷积块的输出通过Add叠加的方式融合后再输入到第一个Dropout层。

隐藏层的第二分支部分包括第一个恒等跳跃块、第二个恒等跳跃块、第三个恒等跳跃块、第四个恒等跳跃块，第一个恒等跳跃块的输入连接到第三个下采样块的输出，第一个恒等跳跃块的输出连接到第二个上采样块的输入，第一个上采样块的输出和第一个恒等跳跃块的输出通过Add叠加的方式融合后再输入到第二个上采样块。

第二个恒等跳跃块的输入连接到第二个下采样块的输出，第二个恒等跳跃块的输出连接到第三个上采样块的输入，第二个上采样块的输出和第二个恒等跳跃块的输出通过Add叠加的方式融合后作为第三个上采样块的输入。

第三个恒等跳跃块的输入连接到第一个下采样块的输出，第三个恒等跳跃块的输出连接到第四个上采样块的输入，第三个上采样块的输出和第三个恒等跳跃块的输出通过Add叠加的方式融合后作为第四个上采样块的输入。

第四个恒等跳跃块的输入连接到第一个初始卷积块的输出，第四个恒等跳跃块的输出连接到第一个初始上采样残差块的输入，第四个上采样块的输出和第四个恒等跳跃块的输出通过Add叠加的方式融合后作为第一个初始上采样残差块的输入。

所述的第一个inception块和第二个inception块相同，以第一个inception块进行说明：第一个inception块包括四个分支，四个分支分别为卷积层一、卷积层二、卷积层一、卷积层四，输入层的输出分别输入卷积层一、卷积层二、卷积层一、卷积层四中，四个分支的输出经过Concatenate拼接的方式融合后作为第一个inception块的输出。

所述的第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块分别由结构相同但数量不同的残差映射块依次连接构成，第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块包含的残差映射块数量分别为一、三、四、六、三、一。

每个残差映射块包括主支路、侧支路和激活层三，主支路和侧支路并联后的一端再与激活层三连接，主支路由卷积层五、批标准化层一、激活层一、卷积层六、批标准化层二、激活层二、卷积层七和批标准化层三依次连接构成，侧支路包括依次连接的卷积层八和批标准化层四，卷积层八与卷积层五具有相同的输入，批标准化层四的输出与批标准化层三的输出通过Add叠加融合后，再输入到激活层三。

第一个上采样块主要由两个相同的上采样映射块和一个上采样残差块依次连接构成，第二个上采样块主要由五个相同的上采样映射块和一个上采样残差块依次连接构成，第三个上采样块主要由三个相同的上采样映射块和一个上采样残差块依次连接构成，第四个上采样块主要由两个相同的上采样映射块和一个上采样残差块依次连接构成。

单个上采样映射块包括依次连接的卷积层十二、批标准化层八、激活层七、卷积层十三、批标准化层九、激活层八，激活层九，卷积层十二的输入端再直接跳跃连接到激活层八的输出，激活层八的输出与来自卷积层十二的输入经add叠加融合后，再输入到激活层九。

单个上采样残差块包括主支路、侧支路和激活层十二，主支路和侧支路并联后的一端再与激活层十二连接，主支路由卷积层十四、批标准化层十，激活层十、反卷积层一、批标准化层十一和激活层十一依次连接构成，侧支路包括依次连接的反卷积层二和批标准化层十二，反卷积层二与卷积层十四具有相同的输入，激活层十一的输出与批标准化层十二的输出经add叠加融合后，再输入到激活层十二。

所述的隐藏层的四个恒等跳跃块结构相同，单个恒等跳跃块包括依次连接的卷积层九、批标准化层五、激活层四、卷积层十、批标准化层六、激活层五、卷积层十一、批标准化层七和激活层六，卷积层九的输入端再直接跳跃连接到批标准化层七的输出，来自卷积层九的输入与批标准化层七的输出经add叠加融合后，再输入到激活层六。

所述的深度估计原始图像为原始的交通场景图像，深度估计标签图像为交通场景图像对应的已知深度的真实深度图像。

本发明的神经网络模型包括inception部分、编码部分、解码部分、跳跃连接部分以及局部细化部分，局部细化部分依次由第2个初始卷积块、第3个初始卷积块、第4个初始卷积块、第5个初始卷积块、第6个初始卷积块、第7个初始卷积块构成，残差网络由不同的残差块结构组成，从左至右依次为第1、2、3、4个恒等跳跃块、第1、2个卷积块、第1、2、3、4个下采样块、第1、2、3、4个上采样块、第1个初始上采样残差块构成。将待测原始深度估计图像输入到本发明的神经网络模型当中，并载入训练阶段的最优权重，最终输出标签接近的深度图。

与现有技术相比，本发明的优点在于：

1)本发明方法构建残差网络及局部细化，将训练集依次输入到神经网络中进行反复的训练，得到最优的权重以及训练好的模型，再将权重载入测试中，将测试集输入训练好的模型，进行测试，预测得到深度图，由于本发明方法在构建神经网络时同时采用了上采样与下采样残差网络、局部连接，有效减少了梯度消失和梯度爆炸的问题，并且在加深度的同时，保证了良好的性能，残差网络直接将输入信息绕道到输出，避免了信息的丢失，保护了信息传递的完整性，再经过局部细化网络能对图像进一步优化，保留更细致的特征，因此有效的提高了深度图的质量。

2)本发明方法同时考率了横向与纵向，在增加模型深度的同时适当的横向拓宽，采用了一个输入经过多个不同的支路再汇集在一起，将不同的特征图进行拼接，融合了不同尺寸的特征，减少了参数，加快了模型的运算速度。

3)本发明采用了残差块跳跃连接，采集不同的特征图，重复利用低层特征图，其再与高层信息融合，使得图像信息更为全面，在训练和测试过程中，都得到了较好的验证。

附图说明

图1为本发明方法的总体实现框图；

图2为inception块图；

图3为残差映射块图；

图4为恒等跳跃块图；

图5为上采样映射块图；

图6为上采样残差块图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于残差网络及局部细化的单目深度估计方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取D幅原始的图像作为深度估计图像，选取每幅深度估计图像对应的深度估计标签图像，将深度估计图像和深度估计标签图像构成训练所用的数据集，将训练集中的第d幅原始的深度估计图像记为{T^d(i,j)}

将训练集中的第d张图片记为{T^d(i,j)}，把与训练集中第d张一一对应的标签深度图记作训练集采用KITTI数据集，总共有4286张图片，且每一张为RGB彩色图像，每张图片为3通道，对原始图片进行处理，处理后的图片高为320，宽为512，记为H＝320，W＝512，标签图像作类似的处理。

步骤1_2：构建神经网络模型：该模型包括三个主要的部分输入层、隐藏层和输出层；输入层指输入的数据集图片，输入高为H，宽为W的RGB图片；输出层指经过神经网络模型后输出的图片，一个神经网络模型的最主要的构成部分为隐藏层，其依次由第1个inception块、第2个inception块、第1个初始卷积块、第1个卷积块、第1个下采样块、第2个下采样块、第3个下采样块、第4个下采样块、第2个卷积块、第1个上采样块、第2个上采样块、第3个上采样块、第4个上采样块、第1个上采样残差块、第1个Dropout层、第1个conv2DTranspose层，第1个恒等跳跃块、第2个恒等跳跃块、第3个恒等跳跃块、第4个恒等跳跃块，第2个初始卷积块、第3个初始卷积块、第4个初始卷积块、第5个初始卷积块、第6个初始卷积块、第7个初始卷积块构成。

如图2所示，第1个inception块与第2个inception块结构和参数完全一样，这两个inception模块是相同的，依次由卷积层一、卷积层二、卷积层一、卷积层四构成，即输入图像分别经过4个支路不同大小的卷积层，卷积核大小分别为5×11、3×9、5×7、7×7，卷步长都为1，激活函数都为‘relu’,补零都为‘same’，卷积核的个数分别为4，再把各自所得的特征图通过concatenate拼接起来，经过两个这样的inception模块，特征图的大小为(H，W)。

对于第1个初始卷积块、依次包括卷积核大小为7×7，步长为2，激活函数为‘relu’,补零为‘same’的卷积层与批标准化层，输出记为x1，输出特征图的大小为(H/2，W/2)，通道数为16；

如图3所示，第1个卷积块由一个残差映射块构成，残差映射块由卷积层五、批标准化层一、激活层一、卷积层六、批标准化层二、激活层二、卷积层七，批标准化层三、卷积层八，批标准化层四、激活层三组成；

卷积层五、六、七、八的卷积核大小分别为1×1、3×3、1×1、1×1，第六与卷积层八的步长为2，卷积层六补零为‘same’，激活层都采用‘relu’，卷积核的个数都为16，其中卷积层八和批标准化层四在左侧支路上，卷积层五、六、七，批标准化层一、二、三在右侧支路上，再将经过左右侧的输出通过Add融合层进行叠加，输出再经过激活层三，因此经过第1个卷积块特征图尺寸为(H/4，W/4)；

第1个下采样块接收第1个卷积块的输出，第1个下采样块依次由3个残差映射块构成，并且这三个残差映射块的结构和参数都一样，记为第一残差映射，第二残差映射，第三残差残差映射，对于残差映射块的结构与第1卷积块中残差映射块的结构一样，参数(卷积核大小、补零)与第1卷积块中均一样，但步长变为为1，卷积层五、六、七、八卷积核的个数为分别为16、16、32、32，因此经过第1个下采样块，输出的特征图大小即(H/4，W/4)，把输出记为x2。

第2个下采样块接收第1个下采样块的输出，第2个下采样块由4个残差映射块组成依次记为第四残差映射、第五残差映射、第六残差映射、第七残差映射，第四残差映射与第五、六、七残差映射结构一样，参数不同，第四残差映射块的结构同第1个下采样块的中的残差映射块结构一样，卷积层五、六、七、八的卷积核个数变为分别为16、16、64、64。

第五、六、七残差映射中卷积层步长均为1，卷积核的个数分别为32，32，64，64，因此经过第2个下采样块，输出的特征图大小即(H/8，W8)，把输出记为x3。

第3个下采样块接收第2个下采样块的输出，第3个下采样块由6个残差映射块组成依次记为第八残差映射、第九残差映射、第十残差映射、第十一残差映射、第十二残差映射、第十三残差映射。

第八残差映射与第九、十、十一、十二、十三残差映射结构一样，参数不同，第八残差映射与第九、十、十一、十二、十三残差映射的结构同第1个下采样块的残差映射块结构一样，参数仅卷积核的个数不一样，卷积层五、六、七、八的卷积核的个数为分别为32、32、128、128，第九、十、十一、十二、十三残差映射中卷积层五、六、七、八的步长均为1，卷积核的个数分别为64，64，128，128，因此经过第3个下采样块，输出的特征图大小即(H/16，W/16)，把输出记为x4。

第4个下采样块接收第3个下采样块的输出，第4个下采样块依次由3个残差映射块构成，并且记为第十四残差映射、第十五残差映射、第十六残差映射，第十四残差映射、第十五残差映射、第十六残差映射的结构与第1卷积块中残差映射块的结构一样，参数不同，仅卷积核的个数不一样，卷积层五、六、七、八的卷积核的个数为分别为64、64、256、256，第十五残差映射与第十六残差映射，中步长均为1，卷积层五、六、七、八的卷积核的个数为分别为128、128、256、256，因此经过第4个下采样块，输出的特征图大小即(H/32，W/32)。

第2个卷积块紧跟第4个下采样块，第2个卷积块与第1卷积块中残差映射块的结构一样，且卷积层的步长均为1，卷积层五、六、七、八的卷积核的个数为256、256、512、512，输出特征图尺寸为(H/32，W/32)。

第1个上采样块接收第2个卷积块的输出，第1个上采样块依次由第一上采样映射、第二上采样映射、第一上采样残差块构成。如图5所示，单个上采样映射块依次由卷积层十二、批标准化层八、激活层七、卷积层十三、批标准化层九、激活层八，激活层九组成。

卷积层十二、十三的卷积核均为3×3，补零均为‘same’，relu激活层的激活函数都为‘relu’,卷积核个数都为512，且卷积层十二、十三、标准化层八、九、激活层七、八都位于右侧支路，左侧支路从输入端引入跳跃连接直接与右侧支路的输出进行add叠加，最后再经过激活层九，第二上采样映射与第一上采样映射结构和参数均一样。

如图6所示，第一上采样残差块依次由卷积层十四、批标准化层十，激活层十、反卷积层一、批标准化层十一、激活层十一、反卷积层二、第三批标准化BN层、激活层十二，卷积层十四的卷积核大小为3×3，步长为1，补零为‘same’，卷积核个数为256，反卷积层一、二的卷积核均2×2，步长均为2，补零为‘same’，反卷积核个数为128，所有的激活层激活函数为‘relu’；反卷积层二、批标准化层十二在左侧支路，卷积层十四、批标准化层十，激活层十、反卷积层一、批标准化层十一、激活层十一在右侧支路，再把左侧和右侧的输出通过add叠加层，再经过激活层十二，因此输出特征图大小为(H/16，W/16)。

第2个上采样块接收第1个上采样的输出与x4输入第1个恒等跳跃块的输出一起经过add融合叠加后的输出。如图4所示，第1个恒等跳跃块依次由卷积层九、批标准化层五、激活层四、卷积层十、批标准化层六、激活层五、卷积层十一、批标准化层七、激活层六构成，卷积层九、十、十一的卷积核大小分别为1×1、3×3、1×1，步长均为1，卷积核的个数依次为64、64、128，卷积层十的补零为‘same’，且激活层的激活方式均为‘relu’,卷积层九、十、十一，批标准化层五、六、七，激活层四、五依次在恒等跳跃块的右侧，再叠加上直接从输入端跳跃连接的左侧输出，最后经过激活层六，输出特征图(H/16，W/16)；第2个上采样块依次由第三上采样映射、第四上采样映射、第五上采样映射、第六上采样映射、第七上采样映射、第二上采样残差块构成，第三、四、五、六、七上采样映射结构和参数均一致，均与第一上采样映射的上采样映射块结构一致，仅卷积核的个数变为128；第二上采样残差块与第一上采样残差块的结构相似，卷积层十四的卷积核的个数与反卷积层一、二的卷积核个数分别为128、64、64；因此，经过第个2上采样输出特征图大小为(H/8，W/8)。

第3个上采样块接收第2个上采样的输出与x3输入第2个恒等跳跃块的输出一起经过add融合叠加后的输出，第2个恒等跳跃块与第1个恒等跳跃块结构相似，卷积核个数不同，卷积层九、十、十一的卷积核个数分别为32、32、64，其输出特征图(H/8，W/8)；第3个上采样块依次由第八上采样映射、第九上采样映射、第十上采样映射、第三上采样残差块构成，第八、九、十上采样映射结构和参数均一致，均与第一上采样映射的上采样映射块结构一致，仅卷积核的个数变为64；第三上采样残差块与第一上采样残差块的结构相似，卷积层十四的卷积核的个数与反卷积层一、二的卷积核个数分别为64、32、32；因此，经过第3个上采样输出特征图大小为(H/4，W/4)。

第4个上采样块接收第3个上采样的输出与x2输入第3个恒等跳跃块的输出一起经过add融合叠加后的输出，第3个恒等跳跃块与第1个恒等跳跃块结构相似，仅卷积核个数不同，反卷积层一、二的卷积核个数分别为16、16、32，其输出特征图(H/4，W/4)；第4个上采样块依次由第十一上采样映射、第十二上采样映射、第四上采样残差块构成，第十一、十二上采样映射结构和参数均一致，均与第一上采样映射的上采样映射块结构一致，仅卷积核的个数变为32；第四上采样残差块与第一上采样残差块的结构相似，卷积层十四的卷积核的个数与反卷积层一、二的卷积核个数分别为32、16、16；因此，经过第4个上采样输出特征图大小为(H/2，W/2)。

第1个初始上采样残差块接收第4个上采样的输出与x1输入第4个恒等跳跃块的输出一起经过add融合叠加后的输出，第3个恒等跳跃块与第1个恒等跳跃块结构相似，卷积核个数不同，反卷积层一、二的的卷积核个数分别为8、8、16，其输出特征图(H/2，W/2)；第1个初始上采样残差块与第一上采样残差块的结构相似，卷积层十四的卷积核的个数与第一、二反卷积的卷积核个数分别为16、8、8；因此，经过第1个初始上采样残差块输出特征图大小为(H，W)。

第1个Dropout层接收第1个初始上采样残差块的输出与输入层经过第2个初始卷积块、第3个初始卷积块、第4个初始卷积块、第5个初始卷积块、第6个初始卷积块、第7个初始卷积块的输出，两个输出一起输入add进行叠加后的输出，第2、3、4、5、6、7初始卷积块的卷积核大小均为3×3，步长为1，补零为‘same’，激活函数皆为‘relu’卷积核的个数分别为32、64、128、64、32、8，并且每个卷积层后面都接了一个批标准化；第1个Dropout层中，‘rate＝0.05’，因此第1个Dropout层输出的特征图大小为(H，W)。最后经过第1个conv2DTranspose层，步长为2，卷积核个数为1，补零为‘same’，激活函数为‘relu’,因此，最终输出的特征深度图尺寸为(H，W)。

步骤1_3：将训练集载入模型进行训练，得到与{T^d(i,j)}对应的深度图集合记为在计算预测出来的深度图与标签loss值，loss采用均方差(MSE)获得。

步骤1_4：重复执行步骤1_3一共n次，得到训练好模型，并共得到D×n个损失函数值；然后从其找出最小的损失函数值，保留其权重，得到最优的权重，本例中n取20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令{S^d(i',j')}表示待测试深度的交通场景图，W'表示{S^d(i',j')}的宽度，H'表示{S^d(i',j')}的高度，用于测试的图片同样采用KITTI数据库的测试集，测试图片和测试标签图都为343张，一一对应，测试图片为RGB彩色图，测试标签图为单通道，将KITTI测试集图片输入模型中，把训练好的权重载入模型，得到预测出的深度图，记为

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于ubuntu18.04环境、python深度学习框架Keras2.2.4搭建神经网络模型结构。采用交通测试场景数据库KITTI数据集来分析利用本发明预测得到深度估计图，这里，利用深度估计方法的5个常用的客观评价指标进行评价，即rms(均方根误差)、log_rms(均方根对数误差)、log10(平均对数误差)以及阈值下的精确度：a1，a2，a3，阈值分别为1.25，1.25^2，1.25^3，误差越小表示得到的深度图性能越好，精确度越大说明指标结果越好。

利用本发明方法交通测试场景KITTI测试集中的每一幅图都进行预测，得到每幅KITTI测试集中图片对应的深度估计图像，充分体现本发明方法的深度估计性能指标，即均方根误差rms、均方根对数误差log_rms、平均对数误差log10、阈值精确度a1、a2、a3如下表1所列。依据表1可得，按照本发明方法得到得深度图结果是较好的，充分的表明了本发明方法来获取KITTI数据集交通场景图对应得深度估计的深度图是可行的且有效。

表1利用本发明方法在测试集上的评测结果

rms	2.4487
		Log_rms	0.234
Log10	0.117
		a1	0.690
a2	0.948
		a3	0.975

Claims

1.一种基于残差网络及局部细化的单目深度估计方法，其特征在于方法包括以下步骤：

步骤1_1：选取D幅深度估计原始图像及深度估计原始图像对应的已知深度的深度估计标签图像，将所有深度估计原始图像及其对应的深度估计标签图像构成训练集；

步骤1_2：构建神经网络模型；

步骤1_3：将训练集输入到神经网络模型进行训练：训练过程中，每次迭代训练处理得到每幅深度估计原始图像的深度预测图，计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值，损失函数值采用均方差(MSE)损失函数获得；

步骤1_4：重复执行步骤1_3一共n次，并共得到D×n个损失函数值；然后从D×n个损失函数值中找出最小的损失函数值作为模型参数，从而完成神经网络模型的训练；

步骤1_5：利用训练后获得的神经网络模型对深度待预测的深度估计原始图像进行预测处理，输出获得对应的深度预测图，实现单目图像深度估计。

2.根据权利要求1所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：所述步骤1_2中，所述的神经网络模型包括依次连接的输入层、隐藏层和输出层，深度估计原始图像输入到输入层，输出层输出深度估计原始图像对应的深度预测图；

隐藏层包括主体部分和分支部分，隐藏层的主体部分主要由依次连接的第一个inception块、第二个inception块、第一个初始卷积块、第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块、第一个上采样块、第二个上采样块、第三个上采样块、第四个上采样块、第一个初始上采样残差块、第一个Dropout层和第一个conv2DTranspose层组成，第一个inception块与输入层连接，第一个inception块接收输入层的输出，第一个conv2DTranspose层与输出层连接，输出层接收第一个conv2DTranspose层的输出；

隐藏层的分支部分包括第一分支部分和第二分支部分，第一分支部分包括依次连接的第二个初始卷积块、第三个初始卷积块、第四个初始卷积块、第五个初始卷积块、第六个初始卷积块和第七个初始卷积块，第二个初始卷积块与输入层连接，第二个初始卷积块接收输入层的输出，第七个初始卷积块连接到第一个初始上采样残差块的输出端，第一个初始上采样残差块的输出与第七个初始卷积块的输出通过Add叠加的方式融合后再输入到第一个Dropout层；

隐藏层的第二分支部分包括第一个恒等跳跃块、第二个恒等跳跃块、第三个恒等跳跃块、第四个恒等跳跃块，第一个恒等跳跃块的输入连接到第三个下采样块的输出，第一个恒等跳跃块的输出连接到第二个上采样块的输入，第一个上采样块的输出和第一个恒等跳跃块的输出通过Add叠加的方式融合后再输入到第二个上采样块；

第二个恒等跳跃块的输入连接到第二个下采样块的输出，第二个恒等跳跃块的输出连接到第三个上采样块的输入，第二个上采样块的输出和第二个恒等跳跃块的输出通过Add叠加的方式融合后作为第三个上采样块的输入；

第三个恒等跳跃块的输入连接到第一个下采样块的输出，第三个恒等跳跃块的输出连接到第四个上采样块的输入，第三个上采样块的输出和第三个恒等跳跃块的输出通过Add叠加的方式融合后作为第四个上采样块的输入；

3.根据权利要求2所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：所述的第一个inception块和第二个inception块相同，以第一个inception块进行说明：第一个inception块包括四个分支，四个分支分别为卷积层一、卷积层二、卷积层一、卷积层四，输入层的输出分别输入卷积层一、卷积层二、卷积层一、卷积层四中，四个分支的输出经过Concatenate拼接的方式融合后作为第一个inception块的输出。

4.根据权利要求2所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：所述的第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块分别由结构相同但数量不同的残差映射块依次连接构成，第一个卷积块、第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第二个卷积块包含的残差映射块数量分别为一、三、四、六、三、一；

每个残差映射块包括主支路、侧支路和激活层三，主支路和侧支路并联后的一端再与激活层三连接，主支路由卷积层五、批标准化层一、激活层一、卷积层六、批标准化层二、激活层二、卷积层七和批标准化层三依次连接构成，侧支路包括依次连接的卷积层八和批标准化层四，批标准化层四的输出与批标准化层三的输出通过Add叠加融合后，再输入到激活层三。

5.根据权利要求2所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：第一个上采样块主要由两个相同的上采样映射块和一个上采样残差块依次连接构成，第二个上采样块主要由五个相同的上采样映射块和一个上采样残差块依次连接构成，第三个上采样块主要由三个相同的上采样映射块和一个上采样残差块依次连接构成，第四个上采样块主要由两个相同的上采样映射块和一个上采样残差块依次连接构成；

单个上采样残差块包括主支路、侧支路和激活层十二，主支路和侧支路并联后的一端再与激活层十二连接，主支路由卷积层十四、批标准化层十，激活层十、反卷积层一、批标准化层十一和激活层十一依次连接构成，侧支路包括依次连接的反卷积层二和批标准化层十二，激活层十一的输出与批标准化层十二的输出经add叠加融合后，再输入到激活层十二。

6.根据权利要求2所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：所述的隐藏层的四个恒等跳跃块结构相同，单个恒等跳跃块包括依次连接的卷积层九、批标准化层五、激活层四、卷积层十、批标准化层六、激活层五、卷积层十一、批标准化层七和激活层六，卷积层九的输入端再直接跳跃连接到批标准化层七的输出，来自卷积层九的输入与批标准化层七的输出经add叠加融合后，再输入到激活层六。

7.根据权利要求1所述的一种基于残差网络及局部细化的单目深度估计方法，其特征在于：所述的深度估计原始图像为原始的交通场景图像，深度估计标签图像为交通场景图像对应的已知深度的真实深度图像。