CN109448039B - 一种基于深度卷积神经网络的单目视觉深度估计方法 - Google Patents
一种基于深度卷积神经网络的单目视觉深度估计方法 Download PDFInfo
- Publication number
- CN109448039B CN109448039B CN201811229351.4A CN201811229351A CN109448039B CN 109448039 B CN109448039 B CN 109448039B CN 201811229351 A CN201811229351 A CN 201811229351A CN 109448039 B CN109448039 B CN 109448039B
- Authority
- CN
- China
- Prior art keywords
- block
- convolution
- layer
- identity
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的单目视觉深度估计方法,其先构建深度卷积神经网络,其包括输入层、隐层和输出层;隐层包括编码框架和译码框架;然后使用训练集中的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度卷积神经网络训练模型及最优权值矢量和最优偏置项;再将待预测的单目图像输入到深度卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项,预测得到对应的预测深度图像;优点是其预测精度高。
Description
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度卷积神经网络的单目视觉深度估计方法。
背景技术
经济的高速发展带来了人们生活水平的不断提升,随着人们对好的生活质量的要求逐渐增强,交通的便利性也越来越好。汽车作为交通中的重要一环,其发展更加被重视。这几年人工智能大火,无人驾驶也是近年来较为热门的话题之一,并且在百度宣布无人驾驶车进入批量生产即将投入使用之后,无人驾驶的热潮持续提高。车前的单目视觉深度估计是无人驾驶领域的一部分,它可以有效的保障汽车行驶过程中的安全。
单目视觉深度估计的方法主要分为传统的方法和深度学习的方法。传统的方法使用在深度预测的领域并没有取得令人满意的结果,其估计精度远低于实际应用中所需要的要求;深度学习的出现给予了单目视觉深度预测极大的帮助,借助于深度学习的方法,通过端到端训练,在使用大量数据集后机器可以不停的学到深度预测所需要的特征信息,进而不断提高它的结果精度,使得单目视觉深度预测的实际应用可以得到实现。如:Eigen等人首次将深度学习应用到了单目视觉深度估计任务中,其提出结合两个深度网络:粗规模网络预测全局深度分布和精细规模网络以局部细化深度图,粗规模网络首先在全局级别预测场景的深度,然后通过精细规模网络在局部区域内进行细化。该方法的两个尺度的输入都是原始图像,此外,粗规模网络的输出作为附加的第一层图像特征传递到精细规模网络,但是这种结合粗规模网络和精细规模网络的神经网络没有足够的深度来提取更多的深度信息以获得准确性更高的深度特征。
发明内容
本发明所要解决的技术问题是提供一种基于深度卷积神经网络的单目视觉深度估计方法,其预测精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和的宽度,L表示Qn(x,y)和的高度,R和L均能被2整除;
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为高度为第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为高度为第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为高度为第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为高度为第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为高度为第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为高度为第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为高度为第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为高度为第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为高度为第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为高度为第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为高度为
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu;
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一dense block网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为高度为第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为高度为第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为高度为第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为高度为第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为高度为第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为高度为第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为高度为第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度;
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
与现有技术相比,本发明的优点在于:
1)本发明方法构建深度卷积神经网络,并采用Resnet中的conv_block网络块和identity_block网络块组合成编码框架来提取特征图,采用Densenet中的dense block网络块和transitionup网络块组成译码框架,这样的神经网络结构具有足够的深度,不仅可以提取到丰富而准确的特征信息,而且由于编码框架提取的部分特征与译码框架中输出的对应尺寸的特征的融合,因此能生成精度很高的估计深度图像,提高了测试阶段的预测精度。
2)本发明方法采用的深度卷积神经网络框架主要是由Resnet和Densenet中的网络块组成的,由于网络块的内部结构中的分步融合和网络块之间输出与输入的融合都充分发挥了残差属性的优势,因此利用得到的深度卷积神经网络训练模型预测的结果会更为精确。
3)本发明方法对于实现层间信息的融合的方式采用了两种不同的融合方法,一种是Add融合层,另外一种是Concatenate融合层,跳层融合的使用结合了残差的结构,有助于对一些原始浅层特征信息缺失的补全。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法中使用的conv_block网络块的内部结构图;
图3为本发明方法中使用的identity_block网络块的内部结构图;
图4为本发明方法中使用的dense block网络块网络块的内部结构图;
图5为本发明方法中使用的dense block网络块网络块中的Layer层的内部结构图;
图6为本发明方法中使用的transitionup网络块的内部结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度卷积神经网络的单目视觉深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为其中,N为正整数,N≥1000,如取N=4000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和的宽度,L表示Qn(x,y)和的高度,R和L均能被2整除;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。
对于编码框架,其由依次设置的第一卷积层、第一批规范化层(BatchNormalization)、第一激活层、第一最大池化层、第一conv_block网络块(现有的ResNet中的conv_block网络块网络块)、第一identity_block网络块(现有的ResNet中的identity_block网络块网络块)、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一卷积层是对图像做卷积运算,可当成是加权求和的过程,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一激活层的作用是借助激活函数来增加深度卷积神经网络的非线性,ReLu激活函数的优点是在训练过程中得到的SGD的收敛速度要远快于sigmoid/tanh激活函数,同时该函数仅仅只要得到一个阈值就能够获得激活值,进而不需要进行大量的复杂的数学运算,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值。
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为高度为第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为高度为第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为高度为第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为高度为第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为高度为第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为高度为第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为高度为第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为高度为第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为高度为第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为高度为第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为高度为
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu。
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一dense block网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为高度为第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为高度为第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为高度为第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为高度为第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为高度为第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为高度为第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为高度为第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L。
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度。
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度卷积神经网络训练模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10 error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
Claims (2)
1.一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和的宽度,L表示Qn(x,y)和的高度,R和L均能被2整除;
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为高度为第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为高度为第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为高度为第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为高度为第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为高度为第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为高度为第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为高度为第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为高度为第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为高度为第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为高度为第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为高度为
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu;
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一denseblock网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为高度为第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为高度为第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为高度为第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为高度为第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为高度为第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为高度为第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为高度为第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度;
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811229351.4A CN109448039B (zh) | 2018-10-22 | 2018-10-22 | 一种基于深度卷积神经网络的单目视觉深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811229351.4A CN109448039B (zh) | 2018-10-22 | 2018-10-22 | 一种基于深度卷积神经网络的单目视觉深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448039A CN109448039A (zh) | 2019-03-08 |
CN109448039B true CN109448039B (zh) | 2021-12-10 |
Family
ID=65548125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811229351.4A Active CN109448039B (zh) | 2018-10-22 | 2018-10-22 | 一种基于深度卷积神经网络的单目视觉深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448039B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414674B (zh) * | 2019-07-31 | 2021-09-10 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN110543872B (zh) * | 2019-09-12 | 2023-04-18 | 云南省水利水电勘测设计研究院 | 一种基于全卷积神经网络的无人机影像建筑物屋顶提取方法 |
CN110738697B (zh) * | 2019-10-10 | 2023-04-07 | 福州大学 | 基于深度学习的单目深度估计方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023220A (zh) * | 2016-05-26 | 2016-10-12 | 史方 | 一种基于深度学习的车辆外观部件图像分割方法 |
CN107766934A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种基于并列卷积单元的深度卷积神经网络方法 |
CN108140141A (zh) * | 2015-08-15 | 2018-06-08 | 易享信息技术有限公司 | 采用3d批归一化的三维(3d)卷积 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7460696B2 (en) * | 2004-06-01 | 2008-12-02 | Lumidigm, Inc. | Multispectral imaging biometrics |
US10002415B2 (en) * | 2016-04-12 | 2018-06-19 | Adobe Systems Incorporated | Utilizing deep learning for rating aesthetics of digital images |
-
2018
- 2018-10-22 CN CN201811229351.4A patent/CN109448039B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140141A (zh) * | 2015-08-15 | 2018-06-08 | 易享信息技术有限公司 | 采用3d批归一化的三维(3d)卷积 |
CN106023220A (zh) * | 2016-05-26 | 2016-10-12 | 史方 | 一种基于深度学习的车辆外观部件图像分割方法 |
CN107766934A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种基于并列卷积单元的深度卷积神经网络方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109448039A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146944B (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN111882040B (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN109448039B (zh) | 一种基于深度卷积神经网络的单目视觉深度估计方法 | |
CN109460815B (zh) | 一种单目视觉深度估计方法 | |
CN110782462A (zh) | 一种基于双流特征融合的语义分割方法 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
CN110930342B (zh) | 一种基于彩色图引导的深度图超分辨率重建网络构建方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113159051A (zh) | 一种基于边缘解耦的遥感图像轻量化语义分割方法 | |
CN110349185B (zh) | 一种rgbt目标跟踪模型的训练方法及装置 | |
CN113344188A (zh) | 基于通道注意力模块的轻量级神经网络模型 | |
CN106780588A (zh) | 一种基于稀疏激光观测的图像深度估计方法 | |
CN110009700B (zh) | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 | |
CN109740451B (zh) | 基于重要性加权的道路场景图像语义分割方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN112884059B (zh) | 一种融合先验知识的小样本雷达工作模式分类方法 | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
CN110210492B (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN113408340B (zh) | 基于增强型特征金字塔的双极化sar小型船只检测方法 | |
CN110852417B (zh) | 面向物联网应用的单深度神经网络模型鲁棒性提升方法 | |
CN111179187A (zh) | 基于循环生成对抗网络的单幅图像去雨方法 | |
CN112819096A (zh) | 一种基于复合卷积神经网络的化石图像分类模型的构建方法 | |
CN111694974A (zh) | 一种融合注意力机制的深度哈希车辆图像检索方法 | |
CN111694977A (zh) | 一种基于数据增强的车辆图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |