CN109410261A

CN109410261A - 基于金字塔池化模块的单目图像深度估计方法

Info

Publication number: CN109410261A
Application number: CN201811167195.3A
Authority: CN
Inventors: 周武杰; 潘婷; 顾鹏笠; 钱亚冠; 楼宋江
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-03-01
Anticipated expiration: 2038-10-08
Also published as: CN109410261B

Abstract

本发明公开了一种基于金字塔池化模块的单目图像深度估计方法，其在训练阶段，先构建神经网络，其包括输入层、隐层和输出层；隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层；再将训练集中的每幅原始的单目图像作为原始输入图像，输入到神经网络中进行训练，并通过计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值，得到训练好的神经网络模型的最优权值矢量和最优偏置项；在测试阶段，将待预测的单目图像输入到神经网络模型中，并利用最优权值矢量和最优偏置项进行预测，得到预测深度图像；优点是其预测精度高，且计算复杂度低。

Description

基于金字塔池化模块的单目图像深度估计方法

技术领域

本发明涉及一种图像深度估计技术，尤其是涉及一种基于金字塔池化模块的单目图像深度估计方法。

背景技术

深度估计是使用一幅或多幅图像来预测场景的深度图的过程。深度信息是理解场景中几何关系的重要线索，可应用于多种场景如3D模型重建、立体匹配、人类姿势估计等。深度信息可以从包含左、右视点的立体图像或运动序列中获得，它们分别从空间上和时间上为理解深度信息提供了相对丰富的信息。相比之下，从单目图像中估计深度的难度更大，也更模糊，因为它不允许在立体图像的空间上或者运动序列的时间上进行匹配。2016年，Laina I等人提出全卷积残差网络(Fully Convolutional Residual Networks，FCRN)框架，其通过将图像尺寸变小再通过恢复的方式较好地实现了深度估计，但是由于结构较为简单，对于神经网络提取的高级特征没有充分利用，因此预测精度仍然存在改进的空间。

发明内容

本发明所要解决的技术问题是提供一种基于金字塔池化模块的单目图像深度估计方法，其预测精度高，且计算复杂度低。

本发明解决上述技术问题所采用的技术方案为：一种基于金字塔池化模块的单目图像深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第q幅原始的单目图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实深度图像记为其中，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}和的宽度，H表示{I^q(i,j)}和的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建神经网络：神经网络包括输入层、隐层和输出层；隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层；

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；

对于单独的第一卷积层，单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像，单独的第一卷积层的输出端输出K幅特征图，将K幅特征图构成的集合记为P₁，其中，单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，K＝64，P₁中的每幅特征图的宽度为W、高度为H；

对于特征提取网络框架，其包括4个特征提取网络块，第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成，第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成，第3个特征提取网络块由依次设置的1个Convblock和5个Identity block组成，第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成，其中，第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256，第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512，第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024，第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048；

对于特征提取网络框架，第1个特征提取网络块的输入端接收P₁中的所有特征图，第1个特征提取网络块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为P₂，其中，K'＝256，P₂中的每幅特征图的宽度为高度为符号为向下取整运算符号；第2个特征提取网络块的输入端接收P₂中的所有特征图，第2个特征提取网络块的输出端输出2K'幅特征图，将2K'幅特征图构成的集合记为P₃，其中，K'＝256，P₃中的每幅特征图的宽度为高度为第3个特征提取网络块的输入端接收P₃中的所有特征图，第3个特征提取网络块的输出端输出4K'幅特征图，将4K'幅特征图构成的集合记为P₄，其中，K'＝256，P₄中的每幅特征图的宽度为高度为第4个特征提取网络块的输入端接收P₄中的所有特征图，第4个特征提取网络块的输出端输出8K'幅特征图，将8K'幅特征图构成的集合记为P₅，其中，K'＝256，P₅中的每幅特征图的宽度为高度为

对于尺度恢复网络框架，其包括4个上采样块和4个连接层，每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成，其中，每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512，第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256，第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128，第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64，每个上采样块中的上采样层的恢复尺度值为2，上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍；

对于尺度恢复网络框架，第1个上采样块的输入端接收P₅中的所有特征图，第1个上采样块的输出端输出2K'幅特征图，将2K'幅特征图构成的集合记为U₁，其中，K'＝256，U₁中的每幅特征图的宽度为高度为第1个连接层的输入端接收U₁中的所有特征图和P₄中的所有特征图，第1个连接层通过Concatence方式连接U₁和P₄得到集合U_1*，第1个连接层的输出端输出U_1*，其中，U_1*中的每幅特征图的宽度为高度为U_1*中包含的特征图的总幅数为2K'+4K'；第2个上采样块的输入端接收U_1*中的所有特征图，第2个上采样块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为U₂，其中，K'＝256，U₂中的每幅特征图的宽度为高度为第2个连接层的输入端接收U₂中的所有特征图和P₃中的所有特征图，第2个连接层通过Concatence方式连接U₂和P₃得到集合U_2*，第2个连接层的输出端输出U_2*，其中，U_2*中的每幅特征图的宽度为高度为U_2*中包含的特征图的总幅数为K'+2K'；第3个上采样块的输入端接收U_2*中的所有特征图，第3个上采样块的输出端输出2K幅特征图，将2K幅特征图构成的集合记为U₃，其中，K＝64，U₃中的每幅特征图的宽度为高度为第3个连接层的输入端接收U₃中的所有特征图和P₂中的所有特征图，第3个连接层通过Concatence方式连接U₃和P₂得到集合U_3*，第3个连接层的输出端输出U_3*，其中，U_3*中的每幅特征图的宽度为高度为U_3*中包含的特征图的总幅数为2K+K'；第4个上采样块的输入端接收U_3*中的所有特征图，第4个上采样块的输出端输出K幅特征图，将K幅特征图构成的集合记为U₄，其中，K＝64，U₄中的每幅特征图的宽度为W、高度为H；第4个连接层的输入端接收U₄中的所有特征图和P₁中的所有特征图，第4个连接层通过Concatence方式连接U₄和P₁得到集合U_4*，第4个连接层的输出端输出U_4*，其中，U_4*中的每幅特征图的宽度为W、高度为H，U_4*中包含的特征图的总幅数为K+K；

对于单独的第二卷积层，单独的第二卷积层的输入端接收U_4*中的所有特征图，单独的第二卷积层的输出端输出K幅特征图，将K幅特征图构成的集合记为U，其中，单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数，K＝64，U中的每幅特征图的宽度为W、高度为H；

对于金字塔池化模块，其包括4个池化块和1个连接层，每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成，其中，第1个池化块中的平均池化层的池化尺寸为1×1，第2个池化块中的平均池化层的池化尺寸为2×2，第3个池化块中的平均池化层的池化尺寸为3×3，第4个池化块中的平均池化层的池化尺寸为6×6，每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个，第1个池化块中的插孔卷积层的膨胀率为1×1，第2个池化块中的插孔卷积层的膨胀率为2×2，第3个池化块中的插孔卷积层的膨胀率为3×3，第4个池化块中的插孔卷积层的膨胀率为6×6，每个池化块中的上采样层的恢复尺度值为16，上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍；

对于金字塔池化模块，第1个池化块的输入端接收P₅中的所有特征图，第1个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₁，其中，K＝64，A₁中的每幅特征图的宽度为W、高度为H；第2个池化块的输入端接收A₁中的所有特征图，第2个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₂，其中，K＝64，A₂中的每幅特征图的宽度为W、高度为H；第3个池化块的输入端接收A₂中的所有特征图，第3个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₃，其中，K＝64，A₃中的每幅特征图的宽度为W、高度为H；第4个池化块的输入端接收A₃中的所有特征图，第4个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₄，其中，K＝64，A₄中的每幅特征图的宽度为W、高度为H；连接层的输入端接收A₁、A₂、A₃、A₄中的所有特征图，连接层通过Concatence方式连接A₁、A₂、A₃、A₄得到集合B，连接层的输出端输出B，其中，B中的每幅特征图的宽度为W、高度为H，B中包含的特征图的总幅数为K+K+K+K；

对于单独的连接层，单独的连接层的输入端接收U中的所有特征图和B中的所有特征图，单独的连接层通过Concatence方式连接U和B得到集合C，单独的连接层的输出端输出C，其中，C中的每幅特征图的宽度为W、高度为H，C中包含的特征图的总幅数为K+K+K+K+K；

对于输出层，其包括1个卷积层，其中，卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数；输出层的输入端接收C中的所有特征图，输出层的输出端输出一幅原始输入图像对应的预测深度图像；

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的预测深度图像，将{I^q(i,j)}对应的预测深度图像记为其中，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值，将与之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的神经网络模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待预测的单目图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值；

步骤2_2：将输入到训练好的神经网络模型中，并利用W^best和b^best进行预测，得到对应的预测深度图像，记为其中，表示中坐标位置为(i',j')的像素点的像素值。

所述的步骤1_4中，采用对数空间下的均方根误差获得：

与现有技术相比，本发明的优点在于：

1)本发明方法在构建神经网络时，设置了特征提取网络框架、尺度恢复网络框架和金字塔池化模块，特征提取网络框架中的4个特征提取网络块均由Conv block和Identity block两种残差网络块组成，即本发明方法利用残差网络块的组合提取出特征，再通过尺度恢复网络框架中的4个上采样块将图像恢复到原始尺寸，并通过金字塔池化模块中的池化块利用池化操作变换到不同尺寸中以获取更精细的特征信息，利用该神经网络经训练后得到的神经网络模型预测单目图像的深度图像，可有效提高深度估计的精度。

2)本发明方法对于高级特征引入了金字塔池化模块中的池化块，通过多种尺度的池化操作对于每一个像素点的深度信息都能起到较好的估计效果，在金字塔池化模块中的池化块中，通过加入插孔卷积扩大了卷积层的感受野，有效减少了计算的参数量，从而有效降低了计算复杂度。

3)本发明方法在上采样阶段采用上采样块的形式，通过扩大上采样神经网络的深度有效提高了深度估计的精度。

4)本发明方法通过利用特征提取网络框架和金字塔池化模块的特征提取能力，充分利用了高级和低级特征信息，从多个尺度考虑融合特征信息，从而获得了较好的预测结果，提高了深度估计的精度也尽可能降低了误差。

附图说明

图1为本发明方法的总体实现框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于金字塔池化模块的单目图像深度估计方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第q幅原始的单目图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实深度图像记为其中，Q为正整数，Q≥200，如取Q＝4000，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}和的宽度，H表示{I^q(i,j)}和的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；在此，原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。

步骤1_2：构建神经网络：神经网络包括输入层、隐层和输出层；隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块(Pyramid Pooling Module)、单独的连接层。

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于单独的第一卷积层，单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像，单独的第一卷积层的输出端输出K幅特征图，将K幅特征图构成的集合记为P₁，其中，单独的第一卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified Linear Unit，ReLU)，线性整流函数在结构上具有模仿人脑神经元的特点，因此能够符合实际生物学对模拟神经网络的期望，K＝64，P₁中的每幅特征图的宽度为W、高度为H。

对于特征提取网络框架，其包括4个特征提取网络块，第1个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identity block(Identity网络块)组成，第2个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和3个现有的Identity block(Identity网络块)组成，第3个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和5个现有的Identity block(Identity网络块)组成，第4个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identityblock(Identity网络块)组成，其中，第1个特征提取网络块中的Conv block和Identityblock各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256，第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512，第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024，第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048。

在此，Conv block和Identity block这两种网络块通过对输入的特征图融合不同层次的特征信息，有效保证了神经网络的深度，有利于特征提取；Conv block主要由4个卷积层(包括主支的3个卷积层和旁支的1个卷积层，分别作为第1个卷积层至第4个卷积层)、1个现有的Add融合层组成，主支的第1个卷积层和第3个卷积层的卷积核尺寸为1×1，主支的第2个卷积层的卷积核尺寸为3×3，旁支的卷积层的卷积核尺寸为3×3，主支的3个卷积层的步长为2，使得输出的特征图的尺寸为输入的尺寸的将输入分别送入主支和旁支并将两支的输出通过现有的Add融合层即实现了Conv block的操作；Identity block主要由3个卷积层以及1个现有的Add融合层组成，第1个卷积层和第3个卷积层的卷积核尺寸为1×1，第2个卷积层的卷积核尺寸为3×3，将第3个卷积层的输入与输入通过现有的Add融合层融合即实现了Identity block的操作，Identity block主要通过融合特征图扩大输出特征图的幅数。

对于尺度恢复网络框架，其包括4个上采样块和4个连接层，每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成，其中，每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数，第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512，第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256，第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128，第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64，每个上采样块中的上采样层的恢复尺度值为2，上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍；在此，通过在上采样过程中加入现有的Identity block，增加了神经网络的深度，有效利用了尺度恢复阶段的特征信息。

对于尺度恢复网络框架，第1个上采样块的输入端接收P₅中的所有特征图，第1个上采样块的输出端输出2K'幅特征图，将2K'幅特征图构成的集合记为U₁，其中，K'＝256，U₁中的每幅特征图的宽度为高度为第1个连接层的输入端接收U₁中的所有特征图和P₄中的所有特征图，第1个连接层通过现有的Concatence方式连接U₁和P₄得到集合U_1*，第1个连接层的输出端输出U_1*，其中，U_1*中的每幅特征图的宽度为高度为U_1*中包含的特征图的总幅数为2K'+4K'；第2个上采样块的输入端接收U_1*中的所有特征图，第2个上采样块的输出端输出K'幅特征图，将K'幅特征图构成的集合记为U₂，其中，K'＝256，U₂中的每幅特征图的宽度为高度为第2个连接层的输入端接收U₂中的所有特征图和P₃中的所有特征图，第2个连接层通过现有的Concatence方式连接U₂和P₃得到集合U_2*，第2个连接层的输出端输出U_2*，其中，U_2*中的每幅特征图的宽度为高度为U_2*中包含的特征图的总幅数为K'+2K'；第3个上采样块的输入端接收U_2*中的所有特征图，第3个上采样块的输出端输出2K幅特征图，将2K幅特征图构成的集合记为U₃，其中，K＝64，U₃中的每幅特征图的宽度为高度为第3个连接层的输入端接收U₃中的所有特征图和P₂中的所有特征图，第3个连接层通过现有的Concatence方式连接U₃和P₂得到集合U_3*，第3个连接层的输出端输出U_3*，其中，U_3*中的每幅特征图的宽度为高度为U_3*中包含的特征图的总幅数为2K+K'；第4个上采样块的输入端接收U_3*中的所有特征图，第4个上采样块的输出端输出K幅特征图，将K幅特征图构成的集合记为U₄，其中，K＝64，U₄中的每幅特征图的宽度为W、高度为H；第4个连接层的输入端接收U₄中的所有特征图和P₁中的所有特征图，第4个连接层通过现有的Concatence方式连接U₄和P₁得到集合U_4*，第4个连接层的输出端输出U_4*，其中，U_4*中的每幅特征图的宽度为W、高度为H，U_4*中包含的特征图的总幅数为K+K。

对于单独的第二卷积层，单独的第二卷积层的输入端接收U_4*中的所有特征图，单独的第二卷积层的输出端输出K幅特征图，将K幅特征图构成的集合记为U，其中，单独的第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified LinearUnit，ReLU)，线性整流函数在结构上具有模仿人脑神经元的特点，因此能够符合实际生物学对模拟神经网络的期望，K＝64，U中的每幅特征图的宽度为W、高度为H。

对于金字塔池化模块，其包括4个池化块和1个连接层，每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成，其中，第1个池化块中的平均池化层的池化尺寸为1×1，第2个池化块中的平均池化层的池化尺寸为2×2，第3个池化块中的平均池化层的池化尺寸为3×3，第4个池化块中的平均池化层的池化尺寸为6×6，每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个，第1个池化块中的插孔卷积层的膨胀率(Dilation Rate)为1×1，第2个池化块中的插孔卷积层的膨胀率为2×2，第3个池化块中的插孔卷积层的膨胀率为3×3，第4个池化块中的插孔卷积层的膨胀率为6×6，每个池化块中的上采样层的恢复尺度值为16，上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍。

对于金字塔池化模块，第1个池化块的输入端接收P₅中的所有特征图，第1个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₁，其中，K＝64，A₁中的每幅特征图的宽度为W、高度为H；第2个池化块的输入端接收A₁中的所有特征图，第2个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₂，其中，K＝64，A₂中的每幅特征图的宽度为W、高度为H；第3个池化块的输入端接收A₂中的所有特征图，第3个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₃，其中，K＝64，A₃中的每幅特征图的宽度为W、高度为H；第4个池化块的输入端接收A₃中的所有特征图，第4个池化块的输出端输出K幅特征图，将K幅特征图构成的集合记为A₄，其中，K＝64，A₄中的每幅特征图的宽度为W、高度为H；连接层的输入端接收A₁、A₂、A₃、A₄中的所有特征图，连接层通过现有的Concatence方式连接A₁、A₂、A₃、A₄得到集合B，连接层的输出端输出B，其中，B中的每幅特征图的宽度为W、高度为H，B中包含的特征图的总幅数为K+K+K+K；将P₅输入到现有的金字塔池化模块中，通过设置不同尺寸的平均池化层对P₅进行场景解析，能够有效的利用上下文信息，有利于降低深度估计的误差。

对于单独的连接层，单独的连接层的输入端接收U中的所有特征图和B中的所有特征图，单独的连接层通过现有的Concatence方式连接U和B得到集合C，单独的连接层的输出端输出C，其中，C中的每幅特征图的宽度为W、高度为H，C中包含的特征图的总幅数为K+K+K+K+K。

对于输出层，其包括1个卷积层，其中，卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数；输出层的输入端接收C中的所有特征图，输出层的输出端输出一幅原始输入图像对应的预测深度图像。

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的预测深度图像，将{I^q(i,j)}对应的预测深度图像记为其中，表示中坐标位置为(i,j)的像素点的像素值。

步骤1_4：计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值，将与之间的损失函数值记为采用对数空间下的均方根误差获得：

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的神经网络模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待预测的单目图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值。

为了验证本发明方法的可行性与有效性，进行如下实验。

选用KITTI官网提供的数据集作为测试集，将测试集中的每幅待预测的单目图像输入到训练好的神经网络模型中，并利用W^best和b^best进行预测，输出预测深度图像。通过6个评测指标比较预测深度图像与真实深度图像之间的关联性，这6个评测指标分别为：均方根误差(Root Mean Square Error，RMSE)、对数平均误差(Average lg10Error，Log10)、对数均方根误差(Log Root Mean Square Error，Log_rms)以及阈值下的精确度值：δ₁、δ₂、δ₃；其中，均方根误差、对数平均误差和对数均方根误差反应的是预测深度图像与真实深度图像之间的误差，越小越好；阈值下的精确度值δ₁、δ₂、δ₃反应的是预测深度图像的精度，越大越好。

6个评测指标的计算公式如下：的阈值下的精确度值：δ_a＝1.25^a,a＝1,2,3；其中，符号“||”为取绝对值符号，T表示所有预测深度图像中的像素点的总个数，即T＝W×H，max()为取最大值函数，y表示待预测的单目图像对应的真实深度图像中的像素点的像素值，表示待预测的单目图像对应的预测深度图像中的像素点的像素值。

表1给出了利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性，从表1中可以看出，本发明方法有效降低了预测深度图像与真实深度图像之间的误差，精度也有所提高，可以较好地实现单目图像深度预测。

表1利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性

评测指标结果	RMSE	Log10	Log_rms	δ<sub>1</sub>	δ<sub>2</sub>	δ<sub>3</sub>
								2.3504	0.120	0.230	0.684	0.949	0.975

Claims

1.一种基于金字塔池化模块的单目图像深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的基于金字塔池化模块的单目图像深度估计方法，其特征在于所述的步骤1_4中，采用对数空间下的均方根误差获得：