CN109410261B - 基于金字塔池化模块的单目图像深度估计方法 - Google Patents

基于金字塔池化模块的单目图像深度估计方法 Download PDF

Info

Publication number
CN109410261B
CN109410261B CN201811167195.3A CN201811167195A CN109410261B CN 109410261 B CN109410261 B CN 109410261B CN 201811167195 A CN201811167195 A CN 201811167195A CN 109410261 B CN109410261 B CN 109410261B
Authority
CN
China
Prior art keywords
layer
block
convolution
input
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811167195.3A
Other languages
English (en)
Other versions
CN109410261A (zh
Inventor
周武杰
潘婷
顾鹏笠
钱亚冠
楼宋江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811167195.3A priority Critical patent/CN109410261B/zh
Publication of CN109410261A publication Critical patent/CN109410261A/zh
Application granted granted Critical
Publication of CN109410261B publication Critical patent/CN109410261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于金字塔池化模块的单目图像深度估计方法,其在训练阶段,先构建神经网络,其包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;再将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,并通过计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,得到训练好的神经网络模型的最优权值矢量和最优偏置项;在测试阶段,将待预测的单目图像输入到神经网络模型中,并利用最优权值矢量和最优偏置项进行预测,得到预测深度图像;优点是其预测精度高,且计算复杂度低。

Description

基于金字塔池化模块的单目图像深度估计方法
技术领域
本发明涉及一种图像深度估计技术,尤其是涉及一种基于金字塔池化模块的单目图像深度估计方法。
背景技术
深度估计是使用一幅或多幅图像来预测场景的深度图的过程。深度信息是理解场景中几何关系的重要线索,可应用于多种场景如3D模型重建、立体匹配、人类姿势估计等。深度信息可以从包含左、右视点的立体图像或运动序列中获得,它们分别从空间上和时间上为理解深度信息提供了相对丰富的信息。相比之下,从单目图像中估计深度的难度更大,也更模糊,因为它不允许在立体图像的空间上或者运动序列的时间上进行匹配。2016年,Laina I等人提出全卷积残差网络(Fully Convolutional Residual Networks,FCRN)框架,其通过将图像尺寸变小再通过恢复的方式较好地实现了深度估计,但是由于结构较为简单,对于神经网络提取的高级特征没有充分利用,因此预测精度仍然存在改进的空间。
发明内容
本发明所要解决的技术问题是提供一种基于金字塔池化模块的单目图像深度估计方法,其预测精度高,且计算复杂度低。
本发明解决上述技术问题所采用的技术方案为:一种基于金字塔池化模块的单目图像深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为
Figure BDA0001821393730000025
其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和
Figure BDA0001821393730000021
的宽度,H表示{Iq(i,j)}和
Figure BDA0001821393730000022
的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001821393730000023
表示
Figure BDA0001821393730000024
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,P1中的每幅特征图的宽度为W、高度为H;
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成,第3个特征提取网络块由依次设置的1个Convblock和5个Identity block组成,第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,其中,第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048;
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为
Figure BDA0001821393730000031
高度为
Figure BDA0001821393730000032
符号
Figure BDA0001821393730000033
为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为
Figure BDA0001821393730000034
高度为
Figure BDA0001821393730000035
第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为
Figure BDA0001821393730000036
高度为
Figure BDA0001821393730000037
第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为
Figure BDA0001821393730000041
高度为
Figure BDA0001821393730000042
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为
Figure BDA0001821393730000043
高度为
Figure BDA0001821393730000044
第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为
Figure BDA0001821393730000045
高度为
Figure BDA0001821393730000046
U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为
Figure BDA0001821393730000047
高度为
Figure BDA0001821393730000048
第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为
Figure BDA0001821393730000051
高度为
Figure BDA0001821393730000052
U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为
Figure BDA0001821393730000053
高度为
Figure BDA0001821393730000054
第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为
Figure BDA0001821393730000055
高度为
Figure BDA0001821393730000056
U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K;
对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,U中的每幅特征图的宽度为W、高度为H;
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍;
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K;
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为
Figure BDA0001821393730000071
其中,
Figure BDA0001821393730000072
表示
Figure BDA0001821393730000073
中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001821393730000074
Figure BDA0001821393730000075
之间的损失函数值记为
Figure BDA0001821393730000076
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001821393730000077
表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001821393730000078
的宽度,H'表示
Figure BDA0001821393730000079
的高度,
Figure BDA00018213937300000710
表示
Figure BDA00018213937300000711
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure BDA00018213937300000712
输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00018213937300000713
对应的预测深度图像,记为
Figure BDA00018213937300000714
其中,
Figure BDA00018213937300000715
表示
Figure BDA0001821393730000081
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_4中,
Figure BDA0001821393730000082
采用对数空间下的均方根误差获得:
Figure BDA0001821393730000083
与现有技术相比,本发明的优点在于:
1)本发明方法在构建神经网络时,设置了特征提取网络框架、尺度恢复网络框架和金字塔池化模块,特征提取网络框架中的4个特征提取网络块均由Conv block和Identity block两种残差网络块组成,即本发明方法利用残差网络块的组合提取出特征,再通过尺度恢复网络框架中的4个上采样块将图像恢复到原始尺寸,并通过金字塔池化模块中的池化块利用池化操作变换到不同尺寸中以获取更精细的特征信息,利用该神经网络经训练后得到的神经网络模型预测单目图像的深度图像,可有效提高深度估计的精度。
2)本发明方法对于高级特征引入了金字塔池化模块中的池化块,通过多种尺度的池化操作对于每一个像素点的深度信息都能起到较好的估计效果,在金字塔池化模块中的池化块中,通过加入插孔卷积扩大了卷积层的感受野,有效减少了计算的参数量,从而有效降低了计算复杂度。
3)本发明方法在上采样阶段采用上采样块的形式,通过扩大上采样神经网络的深度有效提高了深度估计的精度。
4)本发明方法通过利用特征提取网络框架和金字塔池化模块的特征提取能力,充分利用了高级和低级特征信息,从多个尺度考虑融合特征信息,从而获得了较好的预测结果,提高了深度估计的精度也尽可能降低了误差。
附图说明
图1为本发明方法的总体实现框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于金字塔池化模块的单目图像深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为
Figure BDA0001821393730000091
其中,Q为正整数,Q≥200,如取Q=4000,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和
Figure BDA0001821393730000092
的宽度,H表示{Iq(i,j)}和
Figure BDA0001821393730000093
的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001821393730000094
表示
Figure BDA0001821393730000095
中坐标位置为(i,j)的像素点的像素值;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块(Pyramid Pooling Module)、单独的连接层。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified Linear Unit,ReLU),线性整流函数在结构上具有模仿人脑神经元的特点,因此能够符合实际生物学对模拟神经网络的期望,K=64,P1中的每幅特征图的宽度为W、高度为H。
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identity block(Identity网络块)组成,第2个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和3个现有的Identity block(Identity网络块)组成,第3个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和5个现有的Identity block(Identity网络块)组成,第4个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identityblock(Identity网络块)组成,其中,第1个特征提取网络块中的Conv block和Identityblock各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048。
在此,Conv block和Identity block这两种网络块通过对输入的特征图融合不同层次的特征信息,有效保证了神经网络的深度,有利于特征提取;Conv block主要由4个卷积层(包括主支的3个卷积层和旁支的1个卷积层,分别作为第1个卷积层至第4个卷积层)、1个现有的Add融合层组成,主支的第1个卷积层和第3个卷积层的卷积核尺寸为1×1,主支的第2个卷积层的卷积核尺寸为3×3,旁支的卷积层的卷积核尺寸为3×3,主支的3个卷积层的步长为2,使得输出的特征图的尺寸为输入的尺寸的
Figure BDA0001821393730000111
将输入分别送入主支和旁支并将两支的输出通过现有的Add融合层即实现了Conv block的操作;Identity block主要由3个卷积层以及1个现有的Add融合层组成,第1个卷积层和第3个卷积层的卷积核尺寸为1×1,第2个卷积层的卷积核尺寸为3×3,将第3个卷积层的输入与输入通过现有的Add融合层融合即实现了Identity block的操作,Identity block主要通过融合特征图扩大输出特征图的幅数。
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为
Figure BDA0001821393730000112
高度为
Figure BDA0001821393730000113
符号
Figure BDA0001821393730000114
为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为
Figure BDA0001821393730000115
高度为
Figure BDA0001821393730000116
第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为
Figure BDA0001821393730000117
高度为
Figure BDA0001821393730000118
第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为
Figure BDA0001821393730000119
高度为
Figure BDA00018213937300001110
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;在此,通过在上采样过程中加入现有的Identity block,增加了神经网络的深度,有效利用了尺度恢复阶段的特征信息。
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为
Figure BDA0001821393730000121
高度为
Figure BDA0001821393730000122
第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过现有的Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为
Figure BDA0001821393730000123
高度为
Figure BDA0001821393730000124
U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为
Figure BDA0001821393730000125
高度为
Figure BDA0001821393730000126
第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过现有的Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为
Figure BDA0001821393730000131
高度为
Figure BDA0001821393730000132
U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为
Figure BDA0001821393730000133
高度为
Figure BDA0001821393730000134
第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过现有的Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为
Figure BDA0001821393730000135
高度为
Figure BDA0001821393730000136
U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过现有的Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K。
对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified LinearUnit,ReLU),线性整流函数在结构上具有模仿人脑神经元的特点,因此能够符合实际生物学对模拟神经网络的期望,K=64,U中的每幅特征图的宽度为W、高度为H。
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率(Dilation Rate)为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍。
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过现有的Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;将P5输入到现有的金字塔池化模块中,通过设置不同尺寸的平均池化层对P5进行场景解析,能够有效的利用上下文信息,有利于降低深度估计的误差。
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过现有的Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K。
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像。
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为
Figure BDA0001821393730000151
其中,
Figure BDA0001821393730000152
表示
Figure BDA0001821393730000153
中坐标位置为(i,j)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001821393730000154
Figure BDA0001821393730000155
之间的损失函数值记为
Figure BDA0001821393730000156
采用对数空间下的均方根误差获得:
Figure BDA0001821393730000157
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001821393730000161
表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001821393730000162
的宽度,H'表示
Figure BDA0001821393730000163
的高度,
Figure BDA0001821393730000164
表示
Figure BDA0001821393730000165
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA0001821393730000166
输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0001821393730000167
对应的预测深度图像,记为
Figure BDA0001821393730000168
其中,
Figure BDA0001821393730000169
表示
Figure BDA00018213937300001610
中坐标位置为(i',j')的像素点的像素值。
为了验证本发明方法的可行性与有效性,进行如下实验。
选用KITTI官网提供的数据集作为测试集,将测试集中的每幅待预测的单目图像输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,输出预测深度图像。通过6个评测指标比较预测深度图像与真实深度图像之间的关联性,这6个评测指标分别为:均方根误差(Root Mean Square Error,RMSE)、对数平均误差(Average lg10Error,Log10)、对数均方根误差(Log Root Mean Square Error,Log_rms)以及阈值下的精确度值:δ1、δ2、δ3;其中,均方根误差、对数平均误差和对数均方根误差反应的是预测深度图像与真实深度图像之间的误差,越小越好;阈值下的精确度值δ1、δ2、δ3反应的是预测深度图像的精度,越大越好。
6个评测指标的计算公式如下:
Figure BDA00018213937300001611
Figure BDA00018213937300001612
Figure BDA00018213937300001613
的阈值下的精确度值:
Figure BDA00018213937300001614
δa=1.25a,a=1,2,3;其中,符号“||”为取绝对值符号,T表示所有预测深度图像中的像素点的总个数,即T=W×H,max()为取最大值函数,y表示待预测的单目图像对应的真实深度图像中的像素点的像素值,
Figure BDA0001821393730000171
表示待预测的单目图像对应的预测深度图像中的像素点的像素值。
表1给出了利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性,从表1中可以看出,本发明方法有效降低了预测深度图像与真实深度图像之间的误差,精度也有所提高,可以较好地实现单目图像深度预测。
表1利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性
评测指标结果 RMSE Log10 Log_rms δ<sub>1</sub> δ<sub>2</sub> δ<sub>3</sub>
2.3504 0.120 0.230 0.684 0.949 0.975

Claims (2)

1.一种基于金字塔池化模块的单目图像深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为
Figure FDA0003152171080000011
其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和
Figure FDA0003152171080000012
的宽度,H表示{Iq(i,j)}和
Figure FDA0003152171080000013
的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0003152171080000014
表示
Figure FDA0003152171080000015
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,P1中的每幅特征图的宽度为W、高度为H;
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成,第3个特征提取网络块由依次设置的1个Convblock和5个Identity block组成,第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,其中,Conv block由4个卷积层和1个Add融合层组成,4个卷积层分别为主支的3个卷积层和旁支的1个卷积层,主支的3个卷积层按序分别作为Conv block的第1个卷积层至第3个卷积层,旁支的1个卷积层作为Conv block的第4个卷积层,Convblock的第1个卷积层和第3个卷积层的卷积核尺寸为1×1,Conv block的第2个卷积层的卷积核尺寸为3×3,Conv block的第4个卷积层的卷积核尺寸为3×3,Conv block的第1个卷积层至第3个卷积层的步长为2,使得输出的特征图的尺寸为输入的尺寸的
Figure FDA0003152171080000021
将Convblock的输入分别送入主支和旁支并将两支的输出通过Add融合层即实现了Conv block的操作;Identity block由3个卷积层以及1个Add融合层组成,第1个卷积层和第3个卷积层的卷积核尺寸为1×1,第2个卷积层的卷积核尺寸为3×3,将第3个卷积层的输入与Identityblock的输入通过Add融合层融合即实现了Identity block的操作;第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048;
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为
Figure FDA0003152171080000031
高度为
Figure FDA0003152171080000032
符号
Figure FDA0003152171080000033
为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为
Figure FDA0003152171080000034
高度为
Figure FDA0003152171080000035
第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为
Figure FDA0003152171080000036
高度为
Figure FDA0003152171080000037
第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为
Figure FDA0003152171080000038
高度为
Figure FDA0003152171080000039
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为
Figure FDA0003152171080000041
高度为
Figure FDA0003152171080000042
第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过Concatence方式连接U1和P4得到集合
Figure FDA00031521710800000413
第1个连接层的输出端输出
Figure FDA00031521710800000414
其中,
Figure FDA00031521710800000415
中的每幅特征图的宽度为
Figure FDA0003152171080000043
高度为
Figure FDA0003152171080000044
Figure FDA00031521710800000416
中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收
Figure FDA00031521710800000417
中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为
Figure FDA0003152171080000045
高度为
Figure FDA0003152171080000046
第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过Concatence方式连接U2和P3得到集合
Figure FDA00031521710800000418
第2个连接层的输出端输出
Figure FDA00031521710800000419
其中,
Figure FDA00031521710800000420
中的每幅特征图的宽度为
Figure FDA0003152171080000047
高度为
Figure FDA0003152171080000048
Figure FDA00031521710800000421
中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收
Figure FDA00031521710800000422
中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为
Figure FDA0003152171080000049
高度为
Figure FDA00031521710800000410
第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过Concatence方式连接U3和P2得到集合
Figure FDA00031521710800000423
第3个连接层的输出端输出
Figure FDA00031521710800000424
其中,
Figure FDA00031521710800000425
中的每幅特征图的宽度为
Figure FDA00031521710800000411
高度为
Figure FDA00031521710800000412
Figure FDA00031521710800000426
中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收
Figure FDA00031521710800000427
中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过Concatence方式连接U4和P1得到集合
Figure FDA0003152171080000051
第4个连接层的输出端输出
Figure FDA0003152171080000052
其中,
Figure FDA0003152171080000053
中的每幅特征图的宽度为W、高度为H,
Figure FDA0003152171080000054
中包含的特征图的总幅数为K+K;
对于单独的第二卷积层,单独的第二卷积层的输入端接收
Figure FDA0003152171080000055
中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,U中的每幅特征图的宽度为W、高度为H;
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍;
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K;
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为
Figure FDA0003152171080000061
其中,
Figure FDA0003152171080000062
表示
Figure FDA0003152171080000063
中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将
Figure FDA0003152171080000064
Figure FDA0003152171080000065
之间的损失函数值记为
Figure FDA0003152171080000071
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0003152171080000072
表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA0003152171080000073
的宽度,H'表示
Figure FDA0003152171080000074
的高度,
Figure FDA0003152171080000075
表示
Figure FDA0003152171080000076
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure FDA0003152171080000077
输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到
Figure FDA0003152171080000078
对应的预测深度图像,记为
Figure FDA0003152171080000079
其中,
Figure FDA00031521710800000710
表示
Figure FDA00031521710800000711
中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的基于金字塔池化模块的单目图像深度估计方法,其特征在于所述的步骤1_4中,
Figure FDA00031521710800000712
采用对数空间下的均方根误差获得:
Figure FDA00031521710800000713
CN201811167195.3A 2018-10-08 2018-10-08 基于金字塔池化模块的单目图像深度估计方法 Active CN109410261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811167195.3A CN109410261B (zh) 2018-10-08 2018-10-08 基于金字塔池化模块的单目图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811167195.3A CN109410261B (zh) 2018-10-08 2018-10-08 基于金字塔池化模块的单目图像深度估计方法

Publications (2)

Publication Number Publication Date
CN109410261A CN109410261A (zh) 2019-03-01
CN109410261B true CN109410261B (zh) 2021-12-10

Family

ID=65466848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811167195.3A Active CN109410261B (zh) 2018-10-08 2018-10-08 基于金字塔池化模块的单目图像深度估计方法

Country Status (1)

Country Link
CN (1) CN109410261B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948689B (zh) * 2019-03-13 2022-06-03 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110009700B (zh) * 2019-03-13 2020-10-20 浙江科技学院 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN110032985A (zh) * 2019-04-22 2019-07-19 清华大学深圳研究生院 一种血细胞自动检测识别方法
CN110110666A (zh) * 2019-05-08 2019-08-09 北京字节跳动网络技术有限公司 目标检测方法和装置
CN110378943A (zh) * 2019-06-21 2019-10-25 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN110322499B (zh) * 2019-07-09 2021-04-09 浙江科技学院 一种基于多层特征的单目图像深度估计方法
CN110415284B (zh) * 2019-07-31 2022-04-19 中国科学技术大学 一种单视彩色图像深度图获得方法及装置
CN110414674B (zh) * 2019-07-31 2021-09-10 浙江科技学院 一种基于残差网络及局部细化的单目深度估计方法
CN110728682B (zh) * 2019-09-09 2022-03-29 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110942484B (zh) * 2019-11-26 2022-07-12 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111629194B (zh) * 2020-06-10 2021-01-26 北京中科深智科技有限公司 一种基于神经网络的全景视频转6dof视频的方法及系统
CN112396645B (zh) * 2020-11-06 2022-05-31 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和系统
CN112669270A (zh) * 2020-12-21 2021-04-16 北京金山云网络技术有限公司 视频质量的预测方法、装置及服务器
CN113313742A (zh) * 2021-05-06 2021-08-27 Oppo广东移动通信有限公司 图像深度估计方法、装置、电子设备及计算机存储介质
CN113298861B (zh) * 2021-05-21 2022-09-16 南京邮电大学 一种基于ASPP-CycleGAN的深度估计系统及其算法
CN114170438A (zh) * 2021-11-05 2022-03-11 五邑大学 神经网络训练的方法、电子设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9161010B2 (en) * 2011-12-01 2015-10-13 Sony Corporation System and method for generating robust depth maps utilizing a multi-resolution procedure
CN103903256B (zh) * 2013-09-22 2017-01-25 四川虹微技术有限公司 一种基于相对高度深度线索的深度估计方法
CN103559701A (zh) * 2013-09-26 2014-02-05 哈尔滨商业大学 基于dct系数熵的二维单视图像深度估计方法
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
CN105069808B (zh) * 2015-08-31 2017-09-26 四川虹微技术有限公司 基于图像分割的视频图像深度估计方法
CN107945185B (zh) * 2017-11-29 2020-02-07 北京工商大学 基于宽残差金字塔池化网络的图像分割方法及系统

Also Published As

Publication number Publication date
CN109410261A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109410261B (zh) 基于金字塔池化模块的单目图像深度估计方法
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN111145116B (zh) 一种基于生成对抗网络的海面雨天图像样本增广方法
US20200265597A1 (en) Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN111080567A (zh) 基于多尺度动态卷积神经网络的遥感图像融合方法及系统
CN110969250A (zh) 一种神经网络训练方法及装置
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN114333074B (zh) 基于动态轻量高分辨率网络的人体姿态估计方法
CN105513033B (zh) 一种非局部联合稀疏表示的超分辨率重建方法
CN109859166A (zh) 一种基于多列卷积神经网络的无参3d图像质量评估方法
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
CN114494015B (zh) 基于盲超分辨率网络的图像重建方法
CN114283495A (zh) 一种基于二值化神经网络的人体姿态估计方法
CN111127331A (zh) 基于像素级全局噪声估计编解码网络的图像去噪方法
CN107154064A (zh) 基于深度稀疏编码的自然图像压缩感知重建方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN108259893B (zh) 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant