CN109448039B - 一种基于深度卷积神经网络的单目视觉深度估计方法 - Google Patents

一种基于深度卷积神经网络的单目视觉深度估计方法 Download PDF

Info

Publication number
CN109448039B
CN109448039B CN201811229351.4A CN201811229351A CN109448039B CN 109448039 B CN109448039 B CN 109448039B CN 201811229351 A CN201811229351 A CN 201811229351A CN 109448039 B CN109448039 B CN 109448039B
Authority
CN
China
Prior art keywords
block
convolution
layer
identity
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811229351.4A
Other languages
English (en)
Other versions
CN109448039A (zh
Inventor
周武杰
袁建中
吕思嘉
钱亚冠
何成
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811229351.4A priority Critical patent/CN109448039B/zh
Publication of CN109448039A publication Critical patent/CN109448039A/zh
Application granted granted Critical
Publication of CN109448039B publication Critical patent/CN109448039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的单目视觉深度估计方法,其先构建深度卷积神经网络,其包括输入层、隐层和输出层;隐层包括编码框架和译码框架;然后使用训练集中的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度卷积神经网络训练模型及最优权值矢量和最优偏置项;再将待预测的单目图像输入到深度卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项,预测得到对应的预测深度图像;优点是其预测精度高。

Description

一种基于深度卷积神经网络的单目视觉深度估计方法
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度卷积神经网络的单目视觉深度估计方法。
背景技术
经济的高速发展带来了人们生活水平的不断提升,随着人们对好的生活质量的要求逐渐增强,交通的便利性也越来越好。汽车作为交通中的重要一环,其发展更加被重视。这几年人工智能大火,无人驾驶也是近年来较为热门的话题之一,并且在百度宣布无人驾驶车进入批量生产即将投入使用之后,无人驾驶的热潮持续提高。车前的单目视觉深度估计是无人驾驶领域的一部分,它可以有效的保障汽车行驶过程中的安全。
单目视觉深度估计的方法主要分为传统的方法和深度学习的方法。传统的方法使用在深度预测的领域并没有取得令人满意的结果,其估计精度远低于实际应用中所需要的要求;深度学习的出现给予了单目视觉深度预测极大的帮助,借助于深度学习的方法,通过端到端训练,在使用大量数据集后机器可以不停的学到深度预测所需要的特征信息,进而不断提高它的结果精度,使得单目视觉深度预测的实际应用可以得到实现。如:Eigen等人首次将深度学习应用到了单目视觉深度估计任务中,其提出结合两个深度网络:粗规模网络预测全局深度分布和精细规模网络以局部细化深度图,粗规模网络首先在全局级别预测场景的深度,然后通过精细规模网络在局部区域内进行细化。该方法的两个尺度的输入都是原始图像,此外,粗规模网络的输出作为附加的第一层图像特征传递到精细规模网络,但是这种结合粗规模网络和精细规模网络的神经网络没有足够的深度来提取更多的深度信息以获得准确性更高的深度特征。
发明内容
本发明所要解决的技术问题是提供一种基于深度卷积神经网络的单目视觉深度估计方法,其预测精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为
Figure GDA0003061903870000021
其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和
Figure GDA0003061903870000022
的宽度,L表示Qn(x,y)和
Figure GDA0003061903870000023
的高度,R和L均能被2整除;
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure GDA0003061903870000051
高度为
Figure GDA0003061903870000052
第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure GDA0003061903870000053
高度为
Figure GDA0003061903870000054
第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为
Figure GDA0003061903870000055
高度为
Figure GDA0003061903870000056
第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为
Figure GDA0003061903870000057
高度为
Figure GDA0003061903870000058
第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为
Figure GDA0003061903870000059
高度为
Figure GDA00030619038700000510
第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为
Figure GDA00030619038700000511
高度为
Figure GDA00030619038700000512
第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为
Figure GDA00030619038700000513
高度为
Figure GDA00030619038700000514
第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为
Figure GDA0003061903870000061
高度为
Figure GDA0003061903870000062
第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为
Figure GDA0003061903870000063
高度为
Figure GDA0003061903870000064
第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为
Figure GDA0003061903870000065
高度为
Figure GDA0003061903870000066
第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为
Figure GDA0003061903870000067
高度为
Figure GDA0003061903870000068
第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为
Figure GDA0003061903870000069
高度为
Figure GDA00030619038700000610
第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为
Figure GDA00030619038700000611
高度为
Figure GDA00030619038700000612
第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为
Figure GDA00030619038700000613
高度为
Figure GDA00030619038700000614
第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为
Figure GDA00030619038700000615
高度为
Figure GDA00030619038700000616
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu;
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一dense block网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为
Figure GDA0003061903870000071
高度为
Figure GDA0003061903870000072
第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为
Figure GDA0003061903870000073
高度为
Figure GDA0003061903870000074
第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为
Figure GDA0003061903870000075
高度为
Figure GDA0003061903870000076
第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为
Figure GDA0003061903870000077
高度为
Figure GDA0003061903870000078
第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为
Figure GDA0003061903870000079
高度为
Figure GDA00030619038700000710
第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为
Figure GDA00030619038700000711
高度为
Figure GDA00030619038700000712
第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为
Figure GDA0003061903870000081
高度为
Figure GDA0003061903870000082
第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将Qn(x,y)对应的估计深度图像记为
Figure GDA0003061903870000083
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure GDA0003061903870000084
Figure GDA0003061903870000085
之间的损失函数值记为
Figure GDA0003061903870000086
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度;
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
所述的步骤1_4中,
Figure GDA0003061903870000091
采用均方误差函数获得。
与现有技术相比,本发明的优点在于:
1)本发明方法构建深度卷积神经网络,并采用Resnet中的conv_block网络块和identity_block网络块组合成编码框架来提取特征图,采用Densenet中的dense block网络块和transitionup网络块组成译码框架,这样的神经网络结构具有足够的深度,不仅可以提取到丰富而准确的特征信息,而且由于编码框架提取的部分特征与译码框架中输出的对应尺寸的特征的融合,因此能生成精度很高的估计深度图像,提高了测试阶段的预测精度。
2)本发明方法采用的深度卷积神经网络框架主要是由Resnet和Densenet中的网络块组成的,由于网络块的内部结构中的分步融合和网络块之间输出与输入的融合都充分发挥了残差属性的优势,因此利用得到的深度卷积神经网络训练模型预测的结果会更为精确。
3)本发明方法对于实现层间信息的融合的方式采用了两种不同的融合方法,一种是Add融合层,另外一种是Concatenate融合层,跳层融合的使用结合了残差的结构,有助于对一些原始浅层特征信息缺失的补全。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法中使用的conv_block网络块的内部结构图;
图3为本发明方法中使用的identity_block网络块的内部结构图;
图4为本发明方法中使用的dense block网络块网络块的内部结构图;
图5为本发明方法中使用的dense block网络块网络块中的Layer层的内部结构图;
图6为本发明方法中使用的transitionup网络块的内部结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度卷积神经网络的单目视觉深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为
Figure GDA0003061903870000101
其中,N为正整数,N≥1000,如取N=4000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和
Figure GDA0003061903870000102
的宽度,L表示Qn(x,y)和
Figure GDA0003061903870000103
的高度,R和L均能被2整除;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。
对于编码框架,其由依次设置的第一卷积层、第一批规范化层(BatchNormalization)、第一激活层、第一最大池化层、第一conv_block网络块(现有的ResNet中的conv_block网络块网络块)、第一identity_block网络块(现有的ResNet中的identity_block网络块网络块)、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一卷积层是对图像做卷积运算,可当成是加权求和的过程,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一激活层的作用是借助激活函数来增加深度卷积神经网络的非线性,ReLu激活函数的优点是在训练过程中得到的SGD的收敛速度要远快于sigmoid/tanh激活函数,同时该函数仅仅只要得到一个阈值就能够获得激活值,进而不需要进行大量的复杂的数学运算,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值。
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure GDA0003061903870000131
高度为
Figure GDA0003061903870000132
第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure GDA0003061903870000133
高度为
Figure GDA0003061903870000134
第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为
Figure GDA0003061903870000135
高度为
Figure GDA0003061903870000136
第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为
Figure GDA0003061903870000137
高度为
Figure GDA0003061903870000138
第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为
Figure GDA0003061903870000139
高度为
Figure GDA0003061903870000141
第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为
Figure GDA0003061903870000142
高度为
Figure GDA0003061903870000143
第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为
Figure GDA0003061903870000144
高度为
Figure GDA0003061903870000145
第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为
Figure GDA0003061903870000146
高度为
Figure GDA0003061903870000147
第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为
Figure GDA0003061903870000148
高度为
Figure GDA0003061903870000149
第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为
Figure GDA00030619038700001410
高度为
Figure GDA00030619038700001411
第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为
Figure GDA00030619038700001412
高度为
Figure GDA00030619038700001413
第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为
Figure GDA00030619038700001414
高度为
Figure GDA00030619038700001415
第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为
Figure GDA00030619038700001416
高度为
Figure GDA00030619038700001417
第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为
Figure GDA0003061903870000151
高度为
Figure GDA0003061903870000152
第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为
Figure GDA0003061903870000153
高度为
Figure GDA0003061903870000154
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu。
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一dense block网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为
Figure GDA0003061903870000155
高度为
Figure GDA0003061903870000156
第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为
Figure GDA0003061903870000157
高度为
Figure GDA0003061903870000158
第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为
Figure GDA0003061903870000159
高度为
Figure GDA00030619038700001510
第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为
Figure GDA00030619038700001511
高度为
Figure GDA0003061903870000161
第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为
Figure GDA0003061903870000162
高度为
Figure GDA0003061903870000163
第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为
Figure GDA0003061903870000164
高度为
Figure GDA0003061903870000165
第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为
Figure GDA0003061903870000166
高度为
Figure GDA0003061903870000167
第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L。
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L。
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将Qn(x,y)对应的估计深度图像记为
Figure GDA0003061903870000168
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure GDA0003061903870000169
Figure GDA00030619038700001610
之间的损失函数值记为
Figure GDA0003061903870000171
Figure GDA0003061903870000172
采用均方误差函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度。
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度卷积神经网络训练模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10 error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
Figure GDA0003061903870000181

Claims (2)

1.一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为Qn(x,y),将训练集中与Qn(x,y)对应的真实深度图像记为
Figure FDA0003061903860000011
其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示Qn(x,y)和
Figure FDA0003061903860000012
的宽度,L表示Qn(x,y)和
Figure FDA0003061903860000013
的高度,R和L均能被2整除;
步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;
对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure FDA0003061903860000041
高度为
Figure FDA0003061903860000042
第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure FDA0003061903860000043
高度为
Figure FDA0003061903860000044
第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为
Figure FDA0003061903860000045
高度为
Figure FDA0003061903860000046
第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为
Figure FDA0003061903860000047
高度为
Figure FDA0003061903860000048
第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为
Figure FDA0003061903860000049
高度为
Figure FDA00030619038600000410
第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为
Figure FDA00030619038600000411
高度为
Figure FDA00030619038600000412
第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为
Figure FDA00030619038600000413
高度为
Figure FDA00030619038600000414
第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为
Figure FDA00030619038600000415
高度为
Figure FDA00030619038600000416
第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为
Figure FDA0003061903860000051
高度为
Figure FDA0003061903860000052
第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为
Figure FDA0003061903860000053
高度为
Figure FDA0003061903860000054
第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为
Figure FDA0003061903860000055
高度为
Figure FDA0003061903860000056
第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为
Figure FDA0003061903860000057
高度为
Figure FDA0003061903860000058
第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为
Figure FDA0003061903860000059
高度为
Figure FDA00030619038600000510
第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为
Figure FDA00030619038600000511
高度为
Figure FDA00030619038600000512
第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为
Figure FDA00030619038600000513
高度为
Figure FDA00030619038600000514
对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu;
对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一denseblock网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为
Figure FDA0003061903860000061
高度为
Figure FDA0003061903860000062
第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为
Figure FDA0003061903860000063
高度为
Figure FDA0003061903860000064
第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为
Figure FDA0003061903860000065
高度为
Figure FDA0003061903860000066
第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为
Figure FDA0003061903860000067
高度为
Figure FDA0003061903860000068
第三dense block网络块的输入端接收T2中的所有特征图,第三dense block网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为
Figure FDA0003061903860000069
高度为
Figure FDA00030619038600000610
第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为
Figure FDA00030619038600000611
高度为
Figure FDA00030619038600000612
第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为
Figure FDA00030619038600000613
高度为
Figure FDA0003061903860000071
第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将Qn(x,y)对应的估计深度图像记为
Figure FDA0003061903860000072
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure FDA0003061903860000073
Figure FDA0003061903860000074
之间的损失函数值记为
Figure FDA0003061903860000075
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令Q(x',y')表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示Q(x',y')的宽度,L'表示Q(x',y')的高度;
步骤2_2:将Q(x',y')输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到Q(x',y')对应的预测深度图像,记为Qdepth(x',y')。
2.根据权利要求1所述的一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于所述的步骤1_4中,
Figure FDA0003061903860000081
采用均方误差函数获得。
CN201811229351.4A 2018-10-22 2018-10-22 一种基于深度卷积神经网络的单目视觉深度估计方法 Active CN109448039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811229351.4A CN109448039B (zh) 2018-10-22 2018-10-22 一种基于深度卷积神经网络的单目视觉深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811229351.4A CN109448039B (zh) 2018-10-22 2018-10-22 一种基于深度卷积神经网络的单目视觉深度估计方法

Publications (2)

Publication Number Publication Date
CN109448039A CN109448039A (zh) 2019-03-08
CN109448039B true CN109448039B (zh) 2021-12-10

Family

ID=65548125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811229351.4A Active CN109448039B (zh) 2018-10-22 2018-10-22 一种基于深度卷积神经网络的单目视觉深度估计方法

Country Status (1)

Country Link
CN (1) CN109448039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414674B (zh) * 2019-07-31 2021-09-10 浙江科技学院 一种基于残差网络及局部细化的单目深度估计方法
CN110543872B (zh) * 2019-09-12 2023-04-18 云南省水利水电勘测设计研究院 一种基于全卷积神经网络的无人机影像建筑物屋顶提取方法
CN110738697B (zh) * 2019-10-10 2023-04-07 福州大学 基于深度学习的单目深度估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106023220A (zh) * 2016-05-26 2016-10-12 史方 一种基于深度学习的车辆外观部件图像分割方法
CN107766934A (zh) * 2017-10-31 2018-03-06 天津大学 一种基于并列卷积单元的深度卷积神经网络方法
CN108140141A (zh) * 2015-08-15 2018-06-08 易享信息技术有限公司 采用3d批归一化的三维(3d)卷积

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7460696B2 (en) * 2004-06-01 2008-12-02 Lumidigm, Inc. Multispectral imaging biometrics
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140141A (zh) * 2015-08-15 2018-06-08 易享信息技术有限公司 采用3d批归一化的三维(3d)卷积
CN106023220A (zh) * 2016-05-26 2016-10-12 史方 一种基于深度学习的车辆外观部件图像分割方法
CN107766934A (zh) * 2017-10-31 2018-03-06 天津大学 一种基于并列卷积单元的深度卷积神经网络方法

Also Published As

Publication number Publication date
CN109448039A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109146944B (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN111882040B (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN109448039B (zh) 一种基于深度卷积神经网络的单目视觉深度估计方法
CN109460815B (zh) 一种单目视觉深度估计方法
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN110930342B (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN113159051A (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN113344188A (zh) 基于通道注意力模块的轻量级神经网络模型
CN106780588A (zh) 一种基于稀疏激光观测的图像深度估计方法
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN109740451B (zh) 基于重要性加权的道路场景图像语义分割方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112884059B (zh) 一种融合先验知识的小样本雷达工作模式分类方法
CN106339753A (zh) 一种有效提升卷积神经网络稳健性的方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN113408340B (zh) 基于增强型特征金字塔的双极化sar小型船只检测方法
CN110852417B (zh) 面向物联网应用的单深度神经网络模型鲁棒性提升方法
CN111179187A (zh) 基于循环生成对抗网络的单幅图像去雨方法
CN112819096A (zh) 一种基于复合卷积神经网络的化石图像分类模型的构建方法
CN111694974A (zh) 一种融合注意力机制的深度哈希车辆图像检索方法
CN111694977A (zh) 一种基于数据增强的车辆图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant