CN109410261A - 基于金字塔池化模块的单目图像深度估计方法 - Google Patents
基于金字塔池化模块的单目图像深度估计方法 Download PDFInfo
- Publication number
- CN109410261A CN109410261A CN201811167195.3A CN201811167195A CN109410261A CN 109410261 A CN109410261 A CN 109410261A CN 201811167195 A CN201811167195 A CN 201811167195A CN 109410261 A CN109410261 A CN 109410261A
- Authority
- CN
- China
- Prior art keywords
- width
- block
- characteristic pattern
- layer
- pond
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于金字塔池化模块的单目图像深度估计方法,其在训练阶段,先构建神经网络,其包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;再将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,并通过计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,得到训练好的神经网络模型的最优权值矢量和最优偏置项;在测试阶段,将待预测的单目图像输入到神经网络模型中,并利用最优权值矢量和最优偏置项进行预测,得到预测深度图像;优点是其预测精度高,且计算复杂度低。
Description
技术领域
本发明涉及一种图像深度估计技术,尤其是涉及一种基于金字塔池化模块的单目图像深度估计方法。
背景技术
深度估计是使用一幅或多幅图像来预测场景的深度图的过程。深度信息是理解场景中几何关系的重要线索,可应用于多种场景如3D模型重建、立体匹配、人类姿势估计等。深度信息可以从包含左、右视点的立体图像或运动序列中获得,它们分别从空间上和时间上为理解深度信息提供了相对丰富的信息。相比之下,从单目图像中估计深度的难度更大,也更模糊,因为它不允许在立体图像的空间上或者运动序列的时间上进行匹配。2016年,Laina I等人提出全卷积残差网络(Fully Convolutional Residual Networks,FCRN)框架,其通过将图像尺寸变小再通过恢复的方式较好地实现了深度估计,但是由于结构较为简单,对于神经网络提取的高级特征没有充分利用,因此预测精度仍然存在改进的空间。
发明内容
本发明所要解决的技术问题是提供一种基于金字塔池化模块的单目图像深度估计方法,其预测精度高,且计算复杂度低。
本发明解决上述技术问题所采用的技术方案为:一种基于金字塔池化模块的单目图像深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和的宽度,H表示{Iq(i,j)}和的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,P1中的每幅特征图的宽度为W、高度为H;
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成,第3个特征提取网络块由依次设置的1个Convblock和5个Identity block组成,第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,其中,第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048;
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为高度为符号为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为高度为第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为高度为第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为高度为
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为高度为第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为高度为U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为高度为第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为高度为U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为高度为第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为高度为U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K;
对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,U中的每幅特征图的宽度为W、高度为H;
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍;
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K;
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为其中,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到对应的预测深度图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_4中,采用对数空间下的均方根误差获得:
与现有技术相比,本发明的优点在于:
1)本发明方法在构建神经网络时,设置了特征提取网络框架、尺度恢复网络框架和金字塔池化模块,特征提取网络框架中的4个特征提取网络块均由Conv block和Identity block两种残差网络块组成,即本发明方法利用残差网络块的组合提取出特征,再通过尺度恢复网络框架中的4个上采样块将图像恢复到原始尺寸,并通过金字塔池化模块中的池化块利用池化操作变换到不同尺寸中以获取更精细的特征信息,利用该神经网络经训练后得到的神经网络模型预测单目图像的深度图像,可有效提高深度估计的精度。
2)本发明方法对于高级特征引入了金字塔池化模块中的池化块,通过多种尺度的池化操作对于每一个像素点的深度信息都能起到较好的估计效果,在金字塔池化模块中的池化块中,通过加入插孔卷积扩大了卷积层的感受野,有效减少了计算的参数量,从而有效降低了计算复杂度。
3)本发明方法在上采样阶段采用上采样块的形式,通过扩大上采样神经网络的深度有效提高了深度估计的精度。
4)本发明方法通过利用特征提取网络框架和金字塔池化模块的特征提取能力,充分利用了高级和低级特征信息,从多个尺度考虑融合特征信息,从而获得了较好的预测结果,提高了深度估计的精度也尽可能降低了误差。
附图说明
图1为本发明方法的总体实现框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于金字塔池化模块的单目图像深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为其中,Q为正整数,Q≥200,如取Q=4000,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和的宽度,H表示{Iq(i,j)}和的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块(Pyramid Pooling Module)、单独的连接层。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified Linear Unit,ReLU),线性整流函数在结构上具有模仿人脑神经元的特点,因此能够符合实际生物学对模拟神经网络的期望,K=64,P1中的每幅特征图的宽度为W、高度为H。
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identity block(Identity网络块)组成,第2个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和3个现有的Identity block(Identity网络块)组成,第3个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和5个现有的Identity block(Identity网络块)组成,第4个特征提取网络块由依次设置的1个现有的Conv block(Conv网络块)和2个现有的Identityblock(Identity网络块)组成,其中,第1个特征提取网络块中的Conv block和Identityblock各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048。
在此,Conv block和Identity block这两种网络块通过对输入的特征图融合不同层次的特征信息,有效保证了神经网络的深度,有利于特征提取;Conv block主要由4个卷积层(包括主支的3个卷积层和旁支的1个卷积层,分别作为第1个卷积层至第4个卷积层)、1个现有的Add融合层组成,主支的第1个卷积层和第3个卷积层的卷积核尺寸为1×1,主支的第2个卷积层的卷积核尺寸为3×3,旁支的卷积层的卷积核尺寸为3×3,主支的3个卷积层的步长为2,使得输出的特征图的尺寸为输入的尺寸的将输入分别送入主支和旁支并将两支的输出通过现有的Add融合层即实现了Conv block的操作;Identity block主要由3个卷积层以及1个现有的Add融合层组成,第1个卷积层和第3个卷积层的卷积核尺寸为1×1,第2个卷积层的卷积核尺寸为3×3,将第3个卷积层的输入与输入通过现有的Add融合层融合即实现了Identity block的操作,Identity block主要通过融合特征图扩大输出特征图的幅数。
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为高度为符号为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为高度为第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为高度为第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为高度为
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;在此,通过在上采样过程中加入现有的Identity block,增加了神经网络的深度,有效利用了尺度恢复阶段的特征信息。
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为高度为第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过现有的Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为高度为U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为高度为第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过现有的Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为高度为U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为高度为第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过现有的Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为高度为U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过现有的Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K。
对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数(Rectified LinearUnit,ReLU),线性整流函数在结构上具有模仿人脑神经元的特点,因此能够符合实际生物学对模拟神经网络的期望,K=64,U中的每幅特征图的宽度为W、高度为H。
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率(Dilation Rate)为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍。
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过现有的Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;将P5输入到现有的金字塔池化模块中,通过设置不同尺寸的平均池化层对P5进行场景解析,能够有效的利用上下文信息,有利于降低深度估计的误差。
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过现有的Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K。
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用现有的线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像。
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为其中,表示中坐标位置为(i,j)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为采用对数空间下的均方根误差获得:
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到对应的预测深度图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了验证本发明方法的可行性与有效性,进行如下实验。
选用KITTI官网提供的数据集作为测试集,将测试集中的每幅待预测的单目图像输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,输出预测深度图像。通过6个评测指标比较预测深度图像与真实深度图像之间的关联性,这6个评测指标分别为:均方根误差(Root Mean Square Error,RMSE)、对数平均误差(Average lg10Error,Log10)、对数均方根误差(Log Root Mean Square Error,Log_rms)以及阈值下的精确度值:δ1、δ2、δ3;其中,均方根误差、对数平均误差和对数均方根误差反应的是预测深度图像与真实深度图像之间的误差,越小越好;阈值下的精确度值δ1、δ2、δ3反应的是预测深度图像的精度,越大越好。
6个评测指标的计算公式如下: 的阈值下的精确度值:δa=1.25a,a=1,2,3;其中,符号“||”为取绝对值符号,T表示所有预测深度图像中的像素点的总个数,即T=W×H,max()为取最大值函数,y表示待预测的单目图像对应的真实深度图像中的像素点的像素值,表示待预测的单目图像对应的预测深度图像中的像素点的像素值。
表1给出了利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性,从表1中可以看出,本发明方法有效降低了预测深度图像与真实深度图像之间的误差,精度也有所提高,可以较好地实现单目图像深度预测。
表1利用本发明方法得到的预测深度图像与真实深度图像之间的误差和相关性
评测指标结果 | RMSE | Log10 | Log_rms | δ<sub>1</sub> | δ<sub>2</sub> | δ<sub>3</sub> |
2.3504 | 0.120 | 0.230 | 0.684 | 0.949 | 0.975 |
Claims (2)
1.一种基于金字塔池化模块的单目图像深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和的宽度,H表示{Iq(i,j)}和的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于单独的第一卷积层,单独的第一卷积层的输入端接收输入层的输出端输出的原始输入图像,单独的第一卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为P1,其中,单独的第一卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,P1中的每幅特征图的宽度为W、高度为H;
对于特征提取网络框架,其包括4个特征提取网络块,第1个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,第2个特征提取网络块由依次设置的1个Conv block和3个Identity block组成,第3个特征提取网络块由依次设置的1个Convblock和5个Identity block组成,第4个特征提取网络块由依次设置的1个Conv block和2个Identity block组成,其中,第1个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为64、第2个卷积层的卷积核的个数为64、第3个卷积层的卷积核的个数为256,第2个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为128、第2个卷积层的卷积核的个数为128、第3个卷积层的卷积核的个数为512,第3个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为256、第2个卷积层的卷积核的个数为256、第3个卷积层的卷积核的个数为1024,第4个特征提取网络块中的Conv block和Identity block各自中的第1个卷积层的卷积核的个数为512、第2个卷积层的卷积核的个数为512、第3个卷积层的卷积核的个数为2048;
对于特征提取网络框架,第1个特征提取网络块的输入端接收P1中的所有特征图,第1个特征提取网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为P2,其中,K'=256,P2中的每幅特征图的宽度为高度为符号为向下取整运算符号;第2个特征提取网络块的输入端接收P2中的所有特征图,第2个特征提取网络块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为P3,其中,K'=256,P3中的每幅特征图的宽度为高度为第3个特征提取网络块的输入端接收P3中的所有特征图,第3个特征提取网络块的输出端输出4K'幅特征图,将4K'幅特征图构成的集合记为P4,其中,K'=256,P4中的每幅特征图的宽度为高度为第4个特征提取网络块的输入端接收P4中的所有特征图,第4个特征提取网络块的输出端输出8K'幅特征图,将8K'幅特征图构成的集合记为P5,其中,K'=256,P5中的每幅特征图的宽度为高度为
对于尺度恢复网络框架,其包括4个上采样块和4个连接层,每个上采样块由依次设置的第一卷积层、Identity block、第二卷积层、上采样层组成,其中,每个上采样块中的第一卷积层和第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为512,第2个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为256,第3个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为128,第4个上采样块中的Identity block中的第1个卷积层、第2个卷积层、第3个卷积层的卷积核的个数均为64,每个上采样块中的上采样层的恢复尺度值为2,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的2倍;
对于尺度恢复网络框架,第1个上采样块的输入端接收P5中的所有特征图,第1个上采样块的输出端输出2K'幅特征图,将2K'幅特征图构成的集合记为U1,其中,K'=256,U1中的每幅特征图的宽度为高度为第1个连接层的输入端接收U1中的所有特征图和P4中的所有特征图,第1个连接层通过Concatence方式连接U1和P4得到集合U1*,第1个连接层的输出端输出U1*,其中,U1*中的每幅特征图的宽度为高度为U1*中包含的特征图的总幅数为2K'+4K';第2个上采样块的输入端接收U1*中的所有特征图,第2个上采样块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为U2,其中,K'=256,U2中的每幅特征图的宽度为高度为第2个连接层的输入端接收U2中的所有特征图和P3中的所有特征图,第2个连接层通过Concatence方式连接U2和P3得到集合U2*,第2个连接层的输出端输出U2*,其中,U2*中的每幅特征图的宽度为高度为U2*中包含的特征图的总幅数为K'+2K';第3个上采样块的输入端接收U2*中的所有特征图,第3个上采样块的输出端输出2K幅特征图,将2K幅特征图构成的集合记为U3,其中,K=64,U3中的每幅特征图的宽度为高度为第3个连接层的输入端接收U3中的所有特征图和P2中的所有特征图,第3个连接层通过Concatence方式连接U3和P2得到集合U3*,第3个连接层的输出端输出U3*,其中,U3*中的每幅特征图的宽度为高度为U3*中包含的特征图的总幅数为2K+K';第4个上采样块的输入端接收U3*中的所有特征图,第4个上采样块的输出端输出K幅特征图,将K幅特征图构成的集合记为U4,其中,K=64,U4中的每幅特征图的宽度为W、高度为H;第4个连接层的输入端接收U4中的所有特征图和P1中的所有特征图,第4个连接层通过Concatence方式连接U4和P1得到集合U4*,第4个连接层的输出端输出U4*,其中,U4*中的每幅特征图的宽度为W、高度为H,U4*中包含的特征图的总幅数为K+K;
对于单独的第二卷积层,单独的第二卷积层的输入端接收U4*中的所有特征图,单独的第二卷积层的输出端输出K幅特征图,将K幅特征图构成的集合记为U,其中,单独的第二卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,K=64,U中的每幅特征图的宽度为W、高度为H;
对于金字塔池化模块,其包括4个池化块和1个连接层,每个池化块由依次设置的平均池化层、插孔卷积层、上采样层组成,其中,第1个池化块中的平均池化层的池化尺寸为1×1,第2个池化块中的平均池化层的池化尺寸为2×2,第3个池化块中的平均池化层的池化尺寸为3×3,第4个池化块中的平均池化层的池化尺寸为6×6,每个池化块中的插孔卷积层的卷积核尺寸为3×3、卷积核个数为K个,第1个池化块中的插孔卷积层的膨胀率为1×1,第2个池化块中的插孔卷积层的膨胀率为2×2,第3个池化块中的插孔卷积层的膨胀率为3×3,第4个池化块中的插孔卷积层的膨胀率为6×6,每个池化块中的上采样层的恢复尺度值为16,上采样层用于使其输出的图像的尺寸为其输入的图像的尺寸的16倍;
对于金字塔池化模块,第1个池化块的输入端接收P5中的所有特征图,第1个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为W、高度为H;第2个池化块的输入端接收A1中的所有特征图,第2个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为W、高度为H;第3个池化块的输入端接收A2中的所有特征图,第3个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A3,其中,K=64,A3中的每幅特征图的宽度为W、高度为H;第4个池化块的输入端接收A3中的所有特征图,第4个池化块的输出端输出K幅特征图,将K幅特征图构成的集合记为A4,其中,K=64,A4中的每幅特征图的宽度为W、高度为H;连接层的输入端接收A1、A2、A3、A4中的所有特征图,连接层通过Concatence方式连接A1、A2、A3、A4得到集合B,连接层的输出端输出B,其中,B中的每幅特征图的宽度为W、高度为H,B中包含的特征图的总幅数为K+K+K+K;
对于单独的连接层,单独的连接层的输入端接收U中的所有特征图和B中的所有特征图,单独的连接层通过Concatence方式连接U和B得到集合C,单独的连接层的输出端输出C,其中,C中的每幅特征图的宽度为W、高度为H,C中包含的特征图的总幅数为K+K+K+K+K;
对于输出层,其包括1个卷积层,其中,卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数;输出层的输入端接收C中的所有特征图,输出层的输出端输出一幅原始输入图像对应的预测深度图像;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的预测深度图像,将{Iq(i,j)}对应的预测深度图像记为其中,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的神经网络模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待预测的单目图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将输入到训练好的神经网络模型中,并利用Wbest和bbest进行预测,得到对应的预测深度图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的基于金字塔池化模块的单目图像深度估计方法,其特征在于所述的步骤1_4中,采用对数空间下的均方根误差获得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811167195.3A CN109410261B (zh) | 2018-10-08 | 2018-10-08 | 基于金字塔池化模块的单目图像深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811167195.3A CN109410261B (zh) | 2018-10-08 | 2018-10-08 | 基于金字塔池化模块的单目图像深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109410261A true CN109410261A (zh) | 2019-03-01 |
CN109410261B CN109410261B (zh) | 2021-12-10 |
Family
ID=65466848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811167195.3A Active CN109410261B (zh) | 2018-10-08 | 2018-10-08 | 基于金字塔池化模块的单目图像深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410261B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948689A (zh) * | 2019-03-13 | 2019-06-28 | 北京达佳互联信息技术有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110032985A (zh) * | 2019-04-22 | 2019-07-19 | 清华大学深圳研究生院 | 一种血细胞自动检测识别方法 |
CN110110666A (zh) * | 2019-05-08 | 2019-08-09 | 北京字节跳动网络技术有限公司 | 目标检测方法和装置 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110378943A (zh) * | 2019-06-21 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN110415284A (zh) * | 2019-07-31 | 2019-11-05 | 中国科学技术大学 | 一种单视彩色图像深度图获得方法及装置 |
CN110414674A (zh) * | 2019-07-31 | 2019-11-05 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN110728682A (zh) * | 2019-09-09 | 2020-01-24 | 浙江科技学院 | 一种基于残差金字塔池化神经网络的语义分割方法 |
CN110942484A (zh) * | 2019-11-26 | 2020-03-31 | 福州大学 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112396645A (zh) * | 2020-11-06 | 2021-02-23 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和系统 |
CN112669270A (zh) * | 2020-12-21 | 2021-04-16 | 北京金山云网络技术有限公司 | 视频质量的预测方法、装置及服务器 |
CN113298861A (zh) * | 2021-05-21 | 2021-08-24 | 南京邮电大学 | 一种基于ASPP-CycleGAN的深度估计系统及其算法 |
CN113313742A (zh) * | 2021-05-06 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及计算机存储介质 |
WO2023077809A1 (zh) * | 2021-11-05 | 2023-05-11 | 五邑大学 | 神经网络训练的方法、电子设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139469A (zh) * | 2011-12-01 | 2013-06-05 | 索尼公司 | 利用多分辨率过程生成鲁棒深度图的系统和方法 |
CN103559701A (zh) * | 2013-09-26 | 2014-02-05 | 哈尔滨商业大学 | 基于dct系数熵的二维单视图像深度估计方法 |
CN103903256A (zh) * | 2013-09-22 | 2014-07-02 | 四川虹微技术有限公司 | 一种基于相对高度深度线索的深度估计方法 |
CN105069808A (zh) * | 2015-08-31 | 2015-11-18 | 四川虹微技术有限公司 | 基于图像分割的视频图像深度估计方法 |
US20160247290A1 (en) * | 2015-02-23 | 2016-08-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Labeling Images of Street Scenes |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
-
2018
- 2018-10-08 CN CN201811167195.3A patent/CN109410261B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139469A (zh) * | 2011-12-01 | 2013-06-05 | 索尼公司 | 利用多分辨率过程生成鲁棒深度图的系统和方法 |
CN103903256A (zh) * | 2013-09-22 | 2014-07-02 | 四川虹微技术有限公司 | 一种基于相对高度深度线索的深度估计方法 |
CN103559701A (zh) * | 2013-09-26 | 2014-02-05 | 哈尔滨商业大学 | 基于dct系数熵的二维单视图像深度估计方法 |
US20160247290A1 (en) * | 2015-02-23 | 2016-08-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Labeling Images of Street Scenes |
CN105069808A (zh) * | 2015-08-31 | 2015-11-18 | 四川虹微技术有限公司 | 基于图像分割的视频图像深度估计方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948689B (zh) * | 2019-03-13 | 2022-06-03 | 北京达佳互联信息技术有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN109948689A (zh) * | 2019-03-13 | 2019-06-28 | 北京达佳互联信息技术有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110009700B (zh) * | 2019-03-13 | 2020-10-20 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110032985A (zh) * | 2019-04-22 | 2019-07-19 | 清华大学深圳研究生院 | 一种血细胞自动检测识别方法 |
CN110110666A (zh) * | 2019-05-08 | 2019-08-09 | 北京字节跳动网络技术有限公司 | 目标检测方法和装置 |
US11361459B2 (en) * | 2019-06-21 | 2022-06-14 | Beijing Dajia Internet Information Technology Co., Ltd. | Method, device and non-transitory computer storage medium for processing image |
CN110378943A (zh) * | 2019-06-21 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110322499B (zh) * | 2019-07-09 | 2021-04-09 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110415284A (zh) * | 2019-07-31 | 2019-11-05 | 中国科学技术大学 | 一种单视彩色图像深度图获得方法及装置 |
CN110414674A (zh) * | 2019-07-31 | 2019-11-05 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN110415284B (zh) * | 2019-07-31 | 2022-04-19 | 中国科学技术大学 | 一种单视彩色图像深度图获得方法及装置 |
CN110414674B (zh) * | 2019-07-31 | 2021-09-10 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN110728682B (zh) * | 2019-09-09 | 2022-03-29 | 浙江科技学院 | 一种基于残差金字塔池化神经网络的语义分割方法 |
CN110728682A (zh) * | 2019-09-09 | 2020-01-24 | 浙江科技学院 | 一种基于残差金字塔池化神经网络的语义分割方法 |
CN110942484A (zh) * | 2019-11-26 | 2020-03-31 | 福州大学 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
CN110942484B (zh) * | 2019-11-26 | 2022-07-12 | 福州大学 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112396645A (zh) * | 2020-11-06 | 2021-02-23 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和系统 |
CN112396645B (zh) * | 2020-11-06 | 2022-05-31 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和系统 |
CN112669270A (zh) * | 2020-12-21 | 2021-04-16 | 北京金山云网络技术有限公司 | 视频质量的预测方法、装置及服务器 |
CN113313742A (zh) * | 2021-05-06 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及计算机存储介质 |
CN113298861A (zh) * | 2021-05-21 | 2021-08-24 | 南京邮电大学 | 一种基于ASPP-CycleGAN的深度估计系统及其算法 |
CN113298861B (zh) * | 2021-05-21 | 2022-09-16 | 南京邮电大学 | 一种基于ASPP-CycleGAN的深度估计系统及其算法 |
WO2023077809A1 (zh) * | 2021-11-05 | 2023-05-11 | 五邑大学 | 神经网络训练的方法、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109410261B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410261A (zh) | 基于金字塔池化模块的单目图像深度估计方法 | |
CN110119780B (zh) | 基于生成对抗网络的高光谱图像超分辨重建方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN110175986A (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN102332153B (zh) | 基于核回归的图像压缩感知重构方法 | |
CN110728682A (zh) | 一种基于残差金字塔池化神经网络的语义分割方法 | |
CN104657962B (zh) | 基于级联线性回归的图像超分辨重建方法 | |
CN112184554A (zh) | 一种基于残差混合膨胀卷积的遥感图像融合方法 | |
CN110059728A (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN105981050A (zh) | 用于从人脸图像的数据提取人脸特征的方法和系统 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN113450288A (zh) | 基于深度卷积神经网络单图像去雨方法、系统和存储介质 | |
CN110135227A (zh) | 一种基于机器学习的激光点云室外场景自动分割方法 | |
CN110852935A (zh) | 一种人脸图像随年龄变化的图像处理方法 | |
CN114283495A (zh) | 一种基于二值化神经网络的人体姿态估计方法 | |
CN108259893B (zh) | 基于双流卷积神经网络的虚拟现实视频质量评价方法 | |
CN114333074A (zh) | 基于动态轻量高分辨率网络的人体姿态估计方法 | |
CN106097250A (zh) | 一种基于鉴别典型相关的超分辨率稀疏重构方法 | |
CN114283320A (zh) | 基于全卷积的无分支结构目标检测方法 | |
CN112818958B (zh) | 动作识别方法、装置及存储介质 | |
CN109448039A (zh) | 一种基于深度卷积神经网络的单目视觉深度估计方法 | |
CN110543845B (zh) | 一种三维人脸的人脸级联回归模型训练方法及重建方法 | |
CN113096015A (zh) | 基于渐进式感知和超轻量级网络的图像超分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |