CN109146944B - 一种基于深度可分卷积神经网络的视觉深度估计方法 - Google Patents

一种基于深度可分卷积神经网络的视觉深度估计方法 Download PDF

Info

Publication number
CN109146944B
CN109146944B CN201811276559.1A CN201811276559A CN109146944B CN 109146944 B CN109146944 B CN 109146944B CN 201811276559 A CN201811276559 A CN 201811276559A CN 109146944 B CN109146944 B CN 109146944B
Authority
CN
China
Prior art keywords
output
layer
feature maps
height
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811276559.1A
Other languages
English (en)
Other versions
CN109146944A (zh
Inventor
周武杰
袁建中
吕思嘉
钱亚冠
向坚
张宇来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Muye Micro (Shanghai) Semiconductor Technology Co.,Ltd.
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811276559.1A priority Critical patent/CN109146944B/zh
Publication of CN109146944A publication Critical patent/CN109146944A/zh
Application granted granted Critical
Publication of CN109146944B publication Critical patent/CN109146944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度可分卷积神经网络的视觉深度估计方法,其先构建深度可分卷积神经网络,其隐层包括卷积层、批规范化层、激活层、最大池化层、conv_block网络块、深度可分卷积网络块、Concatanate融合层、Add融合层、反卷积层、可分离卷积层;然后使用训练集中的单目图像作为原始输入图像,输入到深度可分卷积神经网络中进行训练,得到单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度可分卷积神经网络训练模型及最优权值矢量;再将待预测的单目图像输入到深度可分卷积神经网络训练模型中,并利用最优权值矢量,预测得到对应的预测深度图像;优点是其预测精度高。

Description

一种基于深度可分卷积神经网络的视觉深度估计方法
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度可分卷积神经网络的视觉深度估计方法。
背景技术
在如今飞速发展时代的大环境下,伴随着社会的物质生活水平的不断提升。人工智能技术应用于人们的日常生活中的方面越来越多。计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,作为计算机视觉任务之一的单目视觉深度估计,在汽车辅助驾驶技术中显得越发重要。
汽车是现今人们出行必不可少的交通工具之一,其发展一直备受社会的重视。特别是伴随着人工智能技术的越来越成熟,无人驾驶这一具有代表性的人工智能技术也成为了近几年热门话题之一。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全,是无人驾驶技术领域重要的一环。
在深度学习提出之前,单目视觉深度估计一直是使用传统方法来提取手工特征预测深度结果的。由于限制于数据集的大小和手工特征的精度,传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习被提出后,其在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言,深度学习给予了很大的帮助,它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息,这使得单目视觉深度估计的结果精度不断地得到提升,从而实现其在实际需求中的应用与推广。
Laina等人基于全卷积残差网络提出了一种深度估计神经网络模型,该模型自原始图像输入到预测深度图输出的整个过程都是单程的,虽然深度估计神经网络的深度足够深并且采集了一些准确度较高的特征信息,但是这些高准确度的特征信息占总体特征信息的份额却是很少的,而且由于该模型的单一性,因此导致该模型提取的特征的多样性也不足,单程且又长的特征采集过程中会出现图像中物体边缘信息的丢失,反而可能导致整体的预测精度的下降。
发明内容
本发明所要解决的技术问题是提供一种基于深度可分卷积神经网络的视觉深度估计方法,其深度估计准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为
Figure BDA0001847117830000021
其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和
Figure BDA0001847117830000022
的宽度,L表示{Qn(x,y)}和
Figure BDA0001847117830000023
的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0001847117830000024
表示
Figure BDA0001847117830000025
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure BDA0001847117830000041
高度为
Figure BDA0001847117830000042
第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为
Figure BDA0001847117830000043
高度为
Figure BDA0001847117830000044
第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为
Figure BDA0001847117830000045
高度为
Figure BDA0001847117830000046
第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为
Figure BDA0001847117830000047
高度为
Figure BDA0001847117830000048
第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为
Figure BDA0001847117830000049
高度为
Figure BDA00018471178300000410
第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为
Figure BDA00018471178300000411
高度为
Figure BDA00018471178300000412
第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为
Figure BDA0001847117830000051
高度为
Figure BDA0001847117830000052
第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为
Figure BDA0001847117830000053
高度为
Figure BDA0001847117830000054
第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为
Figure BDA0001847117830000055
高度为
Figure BDA0001847117830000056
第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为
Figure BDA0001847117830000057
高度为
Figure BDA0001847117830000058
第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为
Figure BDA0001847117830000059
高度为
Figure BDA00018471178300000510
第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为
Figure BDA00018471178300000511
高度为
Figure BDA00018471178300000512
第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为
Figure BDA00018471178300000513
高度为
Figure BDA00018471178300000514
第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为
Figure BDA0001847117830000061
高度为
Figure BDA0001847117830000062
第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为
Figure BDA0001847117830000063
高度为
Figure BDA0001847117830000064
Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure BDA0001847117830000065
高度为
Figure BDA0001847117830000066
第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为
Figure BDA0001847117830000067
高度为
Figure BDA0001847117830000068
第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为
Figure BDA0001847117830000069
高度为
Figure BDA00018471178300000610
第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为
Figure BDA00018471178300000611
高度为
Figure BDA00018471178300000612
第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为
Figure BDA00018471178300000613
高度为
Figure BDA00018471178300000614
第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为
Figure BDA00018471178300000615
高度为
Figure BDA00018471178300000616
第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为
Figure BDA0001847117830000071
高度为
Figure BDA0001847117830000072
第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为
Figure BDA0001847117830000073
高度为
Figure BDA0001847117830000074
第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为
Figure BDA0001847117830000075
高度为
Figure BDA0001847117830000076
第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为
Figure BDA0001847117830000077
高度为
Figure BDA0001847117830000078
第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为
Figure BDA0001847117830000079
高度为
Figure BDA00018471178300000710
第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为
Figure BDA00018471178300000711
高度为
Figure BDA00018471178300000712
第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为
Figure BDA00018471178300000713
高度为
Figure BDA00018471178300000714
第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为
Figure BDA00018471178300000715
高度为
Figure BDA00018471178300000716
第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为
Figure BDA0001847117830000081
高度为
Figure BDA0001847117830000082
第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为
Figure BDA0001847117830000083
高度为
Figure BDA0001847117830000084
第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为
Figure BDA0001847117830000085
高度为
Figure BDA0001847117830000086
第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为
Figure BDA0001847117830000091
其中,
Figure BDA0001847117830000092
表示
Figure BDA0001847117830000093
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001847117830000094
Figure BDA0001847117830000095
之间的损失函数值记为
Figure BDA0001847117830000096
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
所述的步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为
Figure BDA0001847117830000101
高度为
Figure BDA0001847117830000102
第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为
Figure BDA0001847117830000103
高度为
Figure BDA0001847117830000104
第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为
Figure BDA0001847117830000105
高度为
Figure BDA0001847117830000106
第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为
Figure BDA0001847117830000107
高度为
Figure BDA0001847117830000108
第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为
Figure BDA0001847117830000109
高度为
Figure BDA00018471178300001010
带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为
Figure BDA00018471178300001011
高度为
Figure BDA00018471178300001012
第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为
Figure BDA0001847117830000111
高度为
Figure BDA0001847117830000112
第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为
Figure BDA0001847117830000113
高度为
Figure BDA0001847117830000114
第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为
Figure BDA0001847117830000115
高度为
Figure BDA0001847117830000116
第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为
Figure BDA0001847117830000117
高度为
Figure BDA0001847117830000118
Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为
Figure BDA0001847117830000119
高度为
Figure BDA00018471178300001110
第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为
Figure BDA00018471178300001111
高度为
Figure BDA00018471178300001112
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为
Figure BDA00018471178300001113
高度为
Figure BDA00018471178300001114
第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为
Figure BDA00018471178300001115
高度为
Figure BDA00018471178300001116
第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为
Figure BDA0001847117830000121
高度为
Figure BDA0001847117830000122
第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为
Figure BDA0001847117830000123
高度为
Figure BDA0001847117830000124
第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为
Figure BDA0001847117830000125
高度为
Figure BDA0001847117830000126
带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为
Figure BDA0001847117830000127
高度为
Figure BDA0001847117830000128
第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为
Figure BDA0001847117830000129
高度为
Figure BDA00018471178300001210
第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为
Figure BDA00018471178300001211
高度为
Figure BDA00018471178300001212
第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为
Figure BDA00018471178300001213
高度为
Figure BDA00018471178300001214
第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为
Figure BDA00018471178300001215
高度为
Figure BDA00018471178300001216
Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为
Figure BDA0001847117830000131
高度为
Figure BDA0001847117830000132
第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为
Figure BDA0001847117830000133
高度为
Figure BDA0001847117830000134
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为
Figure BDA0001847117830000135
高度为
Figure BDA0001847117830000136
第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为
Figure BDA0001847117830000137
高度为
Figure BDA0001847117830000138
第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为
Figure BDA0001847117830000139
高度为
Figure BDA00018471178300001310
第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为
Figure BDA00018471178300001311
高度为
Figure BDA00018471178300001312
第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为
Figure BDA00018471178300001313
高度为
Figure BDA00018471178300001314
带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为
Figure BDA0001847117830000141
高度为
Figure BDA0001847117830000142
第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为
Figure BDA0001847117830000143
高度为
Figure BDA0001847117830000144
第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为
Figure BDA0001847117830000145
高度为
Figure BDA0001847117830000146
第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为
Figure BDA0001847117830000147
高度为
Figure BDA0001847117830000148
第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为
Figure BDA0001847117830000149
高度为
Figure BDA00018471178300001410
Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为
Figure BDA00018471178300001411
高度为
Figure BDA00018471178300001412
第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为
Figure BDA00018471178300001413
高度为
Figure BDA00018471178300001414
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为
Figure BDA00018471178300001415
高度为
Figure BDA00018471178300001416
第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为
Figure BDA0001847117830000151
高度为
Figure BDA0001847117830000152
第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为
Figure BDA0001847117830000153
高度为
Figure BDA0001847117830000154
第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为
Figure BDA0001847117830000155
高度为
Figure BDA0001847117830000156
第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为
Figure BDA0001847117830000157
高度为
Figure BDA0001847117830000158
带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为
Figure BDA0001847117830000159
高度为
Figure BDA00018471178300001510
第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为
Figure BDA00018471178300001511
高度为
Figure BDA00018471178300001512
第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为
Figure BDA00018471178300001513
高度为
Figure BDA00018471178300001514
第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为
Figure BDA00018471178300001515
高度为
Figure BDA00018471178300001516
第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为
Figure BDA0001847117830000161
高度为
Figure BDA0001847117830000162
Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为
Figure BDA0001847117830000163
高度为
Figure BDA0001847117830000164
第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为
Figure BDA0001847117830000165
高度为
Figure BDA0001847117830000166
所述的步骤1_4中,
Figure BDA0001847117830000167
采用均方误差函数获得。
与现有技术相比,本发明的优点在于:
1)本发明方法将深度方向上的可分离卷积层(SeparableConv2D层,即深度可分卷积层)应用到卷积神经网络模型中,这样不仅可以保证本发明方法创建的深度可分卷积神经网络在卷积神经网络原有的性能的基础上减少了卷积神经网络的参数,而且可以获得更加准确的深度特征信息,使得创建的深度可分卷积神经网络可以拥有多样而丰富的特征信息,从而可以提高利用训练得到的深度可分卷积神经网络训练模型进行预测,得到的预测深度图像的准确度。
2)本发明方法参考Resnet中的block块的结构,搭建了与Resnet中的conv_block网络块相似的结构的深度可分卷积网络块,并与Resnet中的conv_block网络块结合在一起作为深度可分卷积神经网络提取特征信息的一部分,这样保证了深度可分卷积神经网络训练模型具有足够的深度来提取到丰富的特征信息,使得深度可分卷积神经网络训练模型变得更加的精确,能够预测得到更加准确的预测深度图像。
3)本发明方法借助于跳层连接即Concatenate融合层和Add融合层的特性,不仅补全了Concatenate融合层之后特征所缺失的原始物体的边缘信息,而且结合深度可分卷积网络块在原始信息的基础上进一步地提供了其深度信息,这更有益于深度可分卷积神经网络训练模型的输出变得精准。
附图说明
图1为本发明方法构建的深度可分卷积神经网络的组成结构示意图;
图2为本发明方法构建的深度可分卷积神经网络中的conv_block网络块的内部结构图;
图3为本发明方法构建的深度可分卷积神经网络中的深度可分卷积网络块的内部结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度可分卷积神经网络的视觉深度估计方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为
Figure BDA0001847117830000171
其中,N为正整数,N≥1000,如取N=4000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和
Figure BDA0001847117830000172
的宽度,L表示{Qn(x,y)}和
Figure BDA0001847117830000173
的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0001847117830000174
表示
Figure BDA0001847117830000175
中坐标位置为(x,y)的像素点的像素值;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:如图1所示,构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块(现有的ResNet中的conv_block网络块网络块)、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,conv_block网络块的内部结构如图2所示,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,深度可分卷积网络块的内部结构如图3所示,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16。
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure BDA0001847117830000191
高度为
Figure BDA0001847117830000192
第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为
Figure BDA0001847117830000193
高度为
Figure BDA0001847117830000194
第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为
Figure BDA0001847117830000195
高度为
Figure BDA0001847117830000196
第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为
Figure BDA0001847117830000201
高度为
Figure BDA0001847117830000202
第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为
Figure BDA0001847117830000203
高度为
Figure BDA0001847117830000204
第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为
Figure BDA0001847117830000205
高度为
Figure BDA0001847117830000206
第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为
Figure BDA0001847117830000207
高度为
Figure BDA0001847117830000208
第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为
Figure BDA0001847117830000209
高度为
Figure BDA00018471178300002010
第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为
Figure BDA00018471178300002011
高度为
Figure BDA00018471178300002012
第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为
Figure BDA00018471178300002013
高度为
Figure BDA00018471178300002014
第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为
Figure BDA00018471178300002015
高度为
Figure BDA00018471178300002016
第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为
Figure BDA0001847117830000211
高度为
Figure BDA0001847117830000212
第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为
Figure BDA0001847117830000213
高度为
Figure BDA0001847117830000214
第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为
Figure BDA0001847117830000215
高度为
Figure BDA0001847117830000216
第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为
Figure BDA0001847117830000217
高度为
Figure BDA0001847117830000218
Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure BDA0001847117830000219
高度为
Figure BDA00018471178300002110
第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为
Figure BDA00018471178300002111
高度为
Figure BDA00018471178300002112
第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为
Figure BDA00018471178300002113
高度为
Figure BDA00018471178300002114
第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为
Figure BDA00018471178300002115
高度为
Figure BDA0001847117830000221
第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为
Figure BDA0001847117830000222
高度为
Figure BDA0001847117830000223
第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为
Figure BDA0001847117830000224
高度为
Figure BDA0001847117830000225
第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为
Figure BDA0001847117830000226
高度为
Figure BDA0001847117830000227
第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为
Figure BDA0001847117830000228
高度为
Figure BDA0001847117830000229
第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为
Figure BDA00018471178300002210
高度为
Figure BDA00018471178300002211
第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为
Figure BDA00018471178300002212
高度为
Figure BDA00018471178300002213
第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为
Figure BDA00018471178300002214
高度为
Figure BDA00018471178300002215
第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为
Figure BDA0001847117830000231
高度为
Figure BDA0001847117830000232
第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为
Figure BDA0001847117830000233
高度为
Figure BDA0001847117830000234
第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为
Figure BDA0001847117830000235
高度为
Figure BDA0001847117830000236
第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为
Figure BDA0001847117830000237
高度为
Figure BDA0001847117830000238
第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为
Figure BDA0001847117830000239
高度为
Figure BDA00018471178300002310
第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为
Figure BDA00018471178300002311
高度为
Figure BDA00018471178300002312
第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L。
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L。
在本实施例中,步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为
Figure BDA0001847117830000241
高度为
Figure BDA0001847117830000242
第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为
Figure BDA0001847117830000243
高度为
Figure BDA0001847117830000244
第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为
Figure BDA0001847117830000251
高度为
Figure BDA0001847117830000252
第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为
Figure BDA0001847117830000253
高度为
Figure BDA0001847117830000254
第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为
Figure BDA0001847117830000255
高度为
Figure BDA0001847117830000256
带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为
Figure BDA0001847117830000257
高度为
Figure BDA0001847117830000258
第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为
Figure BDA0001847117830000259
高度为
Figure BDA00018471178300002510
第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为
Figure BDA00018471178300002511
高度为
Figure BDA00018471178300002512
第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为
Figure BDA00018471178300002513
高度为
Figure BDA00018471178300002514
第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为
Figure BDA00018471178300002515
高度为
Figure BDA0001847117830000261
Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为
Figure BDA0001847117830000262
高度为
Figure BDA0001847117830000263
第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为
Figure BDA0001847117830000264
高度为
Figure BDA0001847117830000265
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为
Figure BDA0001847117830000266
高度为
Figure BDA0001847117830000267
第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为
Figure BDA0001847117830000268
高度为
Figure BDA0001847117830000269
第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为
Figure BDA00018471178300002610
高度为
Figure BDA00018471178300002611
第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为
Figure BDA00018471178300002612
高度为
Figure BDA00018471178300002613
第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为
Figure BDA00018471178300002614
高度为
Figure BDA00018471178300002615
带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为
Figure BDA0001847117830000271
高度为
Figure BDA0001847117830000272
第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为
Figure BDA0001847117830000273
高度为
Figure BDA0001847117830000274
第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为
Figure BDA0001847117830000275
高度为
Figure BDA0001847117830000276
第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为
Figure BDA0001847117830000277
高度为
Figure BDA0001847117830000278
第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为
Figure BDA0001847117830000279
高度为
Figure BDA00018471178300002710
Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为
Figure BDA00018471178300002711
高度为
Figure BDA00018471178300002712
第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为
Figure BDA00018471178300002713
高度为
Figure BDA00018471178300002714
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为
Figure BDA00018471178300002715
高度为
Figure BDA00018471178300002716
第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为
Figure BDA0001847117830000281
高度为
Figure BDA0001847117830000282
第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为
Figure BDA0001847117830000283
高度为
Figure BDA0001847117830000284
第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为
Figure BDA0001847117830000285
高度为
Figure BDA0001847117830000286
第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为
Figure BDA0001847117830000287
高度为
Figure BDA0001847117830000288
带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为
Figure BDA0001847117830000289
高度为
Figure BDA00018471178300002810
第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为
Figure BDA00018471178300002811
高度为
Figure BDA00018471178300002812
第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为
Figure BDA00018471178300002813
高度为
Figure BDA00018471178300002814
第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为
Figure BDA00018471178300002815
高度为
Figure BDA00018471178300002816
第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为
Figure BDA0001847117830000291
高度为
Figure BDA0001847117830000292
Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为
Figure BDA0001847117830000293
高度为
Figure BDA0001847117830000294
第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为
Figure BDA0001847117830000295
高度为
Figure BDA0001847117830000296
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为
Figure BDA0001847117830000297
高度为
Figure BDA0001847117830000298
第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为
Figure BDA0001847117830000299
高度为
Figure BDA00018471178300002910
第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为
Figure BDA00018471178300002911
高度为
Figure BDA00018471178300002912
第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为
Figure BDA00018471178300002913
高度为
Figure BDA00018471178300002914
第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为
Figure BDA0001847117830000301
高度为
Figure BDA0001847117830000302
带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为
Figure BDA0001847117830000303
高度为
Figure BDA0001847117830000304
第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为
Figure BDA0001847117830000305
高度为
Figure BDA0001847117830000306
第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为
Figure BDA0001847117830000307
高度为
Figure BDA0001847117830000308
第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为
Figure BDA0001847117830000309
高度为
Figure BDA00018471178300003010
第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为
Figure BDA00018471178300003011
高度为
Figure BDA00018471178300003012
Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为
Figure BDA00018471178300003013
高度为
Figure BDA00018471178300003014
第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为
Figure BDA00018471178300003015
高度为
Figure BDA00018471178300003016
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为
Figure BDA0001847117830000311
其中,
Figure BDA0001847117830000312
表示
Figure BDA0001847117830000313
中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001847117830000314
Figure BDA0001847117830000315
之间的损失函数值记为
Figure BDA0001847117830000316
采用均方误差函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度可分卷积神经网络训练模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
Figure BDA0001847117830000321

Claims (3)

1.一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为
Figure FDA0001847117820000011
其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和
Figure FDA0001847117820000012
的宽度,L表示{Qn(x,y)}和
Figure FDA0001847117820000013
的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure FDA0001847117820000014
表示
Figure FDA0001847117820000015
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为
Figure FDA0001847117820000031
高度为
Figure FDA0001847117820000032
第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为
Figure FDA0001847117820000033
高度为
Figure FDA0001847117820000034
第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为
Figure FDA0001847117820000035
高度为
Figure FDA0001847117820000036
第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为
Figure FDA0001847117820000037
高度为
Figure FDA0001847117820000038
第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为
Figure FDA0001847117820000039
高度为
Figure FDA00018471178200000310
第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为
Figure FDA00018471178200000311
高度为
Figure FDA00018471178200000312
第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为
Figure FDA00018471178200000313
高度为
Figure FDA00018471178200000314
第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为
Figure FDA0001847117820000041
高度为
Figure FDA0001847117820000042
第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为
Figure FDA0001847117820000043
高度为
Figure FDA0001847117820000044
第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为
Figure FDA0001847117820000045
高度为
Figure FDA0001847117820000046
第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为
Figure FDA0001847117820000047
高度为
Figure FDA0001847117820000048
第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为
Figure FDA0001847117820000049
高度为
Figure FDA00018471178200000410
第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为
Figure FDA00018471178200000411
高度为
Figure FDA00018471178200000412
第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为
Figure FDA00018471178200000413
高度为
Figure FDA00018471178200000414
第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为
Figure FDA00018471178200000415
高度为
Figure FDA00018471178200000416
Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure FDA0001847117820000051
高度为
Figure FDA0001847117820000052
第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为
Figure FDA0001847117820000053
高度为
Figure FDA0001847117820000054
第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为
Figure FDA0001847117820000055
高度为
Figure FDA0001847117820000056
第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为
Figure FDA0001847117820000057
高度为
Figure FDA0001847117820000058
第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为
Figure FDA0001847117820000059
高度为
Figure FDA00018471178200000510
第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为
Figure FDA00018471178200000511
高度为
Figure FDA00018471178200000512
第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为
Figure FDA00018471178200000513
高度为
Figure FDA00018471178200000514
第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为
Figure FDA00018471178200000515
高度为
Figure FDA00018471178200000516
第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为
Figure FDA0001847117820000061
高度为
Figure FDA0001847117820000062
第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为
Figure FDA0001847117820000063
高度为
Figure FDA0001847117820000064
第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为
Figure FDA0001847117820000065
高度为
Figure FDA0001847117820000066
第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为
Figure FDA0001847117820000067
高度为
Figure FDA0001847117820000068
第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为
Figure FDA0001847117820000069
高度为
Figure FDA00018471178200000610
第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为
Figure FDA00018471178200000611
高度为
Figure FDA00018471178200000612
第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为
Figure FDA00018471178200000613
高度为
Figure FDA00018471178200000614
第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为
Figure FDA00018471178200000615
高度为
Figure FDA0001847117820000071
第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为
Figure FDA0001847117820000072
高度为
Figure FDA0001847117820000073
第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为
Figure FDA0001847117820000081
其中,
Figure FDA0001847117820000082
表示
Figure FDA0001847117820000083
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure FDA0001847117820000084
Figure FDA0001847117820000085
之间的损失函数值记为
Figure FDA0001847117820000086
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于所述的步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为
Figure FDA0001847117820000091
高度为
Figure FDA0001847117820000092
第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为
Figure FDA0001847117820000093
高度为
Figure FDA0001847117820000094
第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为
Figure FDA0001847117820000095
高度为
Figure FDA0001847117820000096
第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为
Figure FDA0001847117820000097
高度为
Figure FDA0001847117820000098
第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为
Figure FDA0001847117820000099
高度为
Figure FDA00018471178200000910
带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为
Figure FDA00018471178200000911
高度为
Figure FDA00018471178200000912
第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为
Figure FDA00018471178200000913
高度为
Figure FDA00018471178200000914
第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为
Figure FDA0001847117820000101
高度为
Figure FDA0001847117820000102
第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为
Figure FDA0001847117820000103
高度为
Figure FDA0001847117820000104
第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为
Figure FDA0001847117820000105
高度为
Figure FDA0001847117820000106
Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为
Figure FDA0001847117820000107
高度为
Figure FDA0001847117820000108
第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为
Figure FDA0001847117820000109
高度为
Figure FDA00018471178200001010
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为
Figure FDA00018471178200001011
高度为
Figure FDA00018471178200001012
第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为
Figure FDA00018471178200001013
高度为
Figure FDA00018471178200001014
第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为
Figure FDA00018471178200001015
高度为
Figure FDA00018471178200001016
第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为
Figure FDA0001847117820000111
高度为
Figure FDA0001847117820000112
第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为
Figure FDA0001847117820000113
高度为
Figure FDA0001847117820000114
带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为
Figure FDA0001847117820000115
高度为
Figure FDA0001847117820000116
第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为
Figure FDA0001847117820000117
高度为
Figure FDA0001847117820000118
第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为
Figure FDA0001847117820000119
高度为
Figure FDA00018471178200001110
第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为
Figure FDA00018471178200001111
高度为
Figure FDA00018471178200001112
第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为
Figure FDA00018471178200001113
高度为
Figure FDA00018471178200001114
Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为
Figure FDA00018471178200001115
高度为
Figure FDA00018471178200001116
第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为
Figure FDA0001847117820000121
高度为
Figure FDA0001847117820000122
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为
Figure FDA0001847117820000123
高度为
Figure FDA0001847117820000124
第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为
Figure FDA0001847117820000125
高度为
Figure FDA0001847117820000126
第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为
Figure FDA0001847117820000127
高度为
Figure FDA0001847117820000128
第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为
Figure FDA0001847117820000129
高度为
Figure FDA00018471178200001210
第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为
Figure FDA00018471178200001211
高度为
Figure FDA00018471178200001212
带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为
Figure FDA00018471178200001213
高度为
Figure FDA00018471178200001214
第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为
Figure FDA00018471178200001215
高度为
Figure FDA00018471178200001216
第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为
Figure FDA0001847117820000131
高度为
Figure FDA0001847117820000132
第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为
Figure FDA0001847117820000133
高度为
Figure FDA0001847117820000134
第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为
Figure FDA0001847117820000135
高度为
Figure FDA0001847117820000136
Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为
Figure FDA0001847117820000137
高度为
Figure FDA0001847117820000138
第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为
Figure FDA0001847117820000139
高度为
Figure FDA00018471178200001310
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为
Figure FDA00018471178200001311
高度为
Figure FDA00018471178200001312
第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为
Figure FDA00018471178200001313
高度为
Figure FDA00018471178200001314
第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为
Figure FDA0001847117820000141
高度为
Figure FDA0001847117820000142
第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为
Figure FDA0001847117820000143
高度为
Figure FDA0001847117820000144
第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为
Figure FDA0001847117820000145
高度为
Figure FDA0001847117820000146
带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为
Figure FDA0001847117820000147
高度为
Figure FDA0001847117820000148
第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为
Figure FDA0001847117820000149
高度为
Figure FDA00018471178200001410
第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为
Figure FDA00018471178200001411
高度为
Figure FDA00018471178200001412
第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为
Figure FDA00018471178200001413
高度为
Figure FDA00018471178200001414
第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为
Figure FDA00018471178200001415
高度为
Figure FDA00018471178200001416
Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为
Figure FDA0001847117820000151
高度为
Figure FDA0001847117820000152
第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为
Figure FDA0001847117820000153
高度为
Figure FDA0001847117820000154
3.根据权利要求1或2所述的一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于所述的步骤1_4中,
Figure FDA0001847117820000155
采用均方误差函数获得。
CN201811276559.1A 2018-10-30 2018-10-30 一种基于深度可分卷积神经网络的视觉深度估计方法 Active CN109146944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811276559.1A CN109146944B (zh) 2018-10-30 2018-10-30 一种基于深度可分卷积神经网络的视觉深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811276559.1A CN109146944B (zh) 2018-10-30 2018-10-30 一种基于深度可分卷积神经网络的视觉深度估计方法

Publications (2)

Publication Number Publication Date
CN109146944A CN109146944A (zh) 2019-01-04
CN109146944B true CN109146944B (zh) 2020-06-26

Family

ID=64806802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811276559.1A Active CN109146944B (zh) 2018-10-30 2018-10-30 一种基于深度可分卷积神经网络的视觉深度估计方法

Country Status (1)

Country Link
CN (1) CN109146944B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009700B (zh) * 2019-03-13 2020-10-20 浙江科技学院 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN110175986B (zh) * 2019-04-23 2021-01-08 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN112258565B (zh) * 2019-07-22 2023-03-28 华为技术有限公司 图像处理方法以及装置
US11157774B2 (en) 2019-11-14 2021-10-26 Zoox, Inc. Depth data model training with upsampling, losses, and loss balancing
CN114981834A (zh) * 2019-11-14 2022-08-30 祖克斯有限公司 使用上采样、损失与损失平衡进行深度数据模型训练
CN111340141A (zh) * 2020-04-20 2020-06-26 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于深度学习的作物幼苗与杂草检测方法及系统
CN111629194B (zh) * 2020-06-10 2021-01-26 北京中科深智科技有限公司 一种基于神经网络的全景视频转6dof视频的方法及系统
CN112990279B (zh) * 2021-02-26 2021-11-30 西安电子科技大学 基于自动编码器的雷达高分辨距离像库外目标拒判方法
GB2611765B (en) * 2021-10-08 2024-01-31 Samsung Electronics Co Ltd Method, system and apparatus for monocular depth estimation
CN117616457A (zh) * 2022-06-20 2024-02-27 北京小米移动软件有限公司 一种图像深度预测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750702A (zh) * 2012-06-21 2012-10-24 东华大学 基于优化bp神经网络模型的单目红外图像深度估计方法
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN108428227A (zh) * 2018-02-27 2018-08-21 浙江科技学院 基于全卷积神经网络的无参考图像质量评价方法
CN108665460A (zh) * 2018-05-23 2018-10-16 浙江科技学院 基于组合神经网络和分类神经网络的图像质量评价方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891541B2 (en) * 2016-05-16 2021-01-12 Canon Kabushiki Kaisha Devices, systems, and methods for feature encoding
CN108304916B (zh) * 2018-01-10 2020-06-09 湖北工业大学 结合注意机制与深度可分解卷积的卷积神经网络优化方法
CN108416370B (zh) * 2018-02-07 2022-03-22 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750702A (zh) * 2012-06-21 2012-10-24 东华大学 基于优化bp神经网络模型的单目红外图像深度估计方法
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN108428227A (zh) * 2018-02-27 2018-08-21 浙江科技学院 基于全卷积神经网络的无参考图像质量评价方法
CN108665460A (zh) * 2018-05-23 2018-10-16 浙江科技学院 基于组合神经网络和分类神经网络的图像质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Binocular responses for no-reference 3D image quality assessment;Wujie Zhou等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20160630;第18卷(第6期);全文 *
基于结构化深度学习的单目图像深度估计;李耀宇等;《机器人》;20171130;第39卷(第6期);全文 *

Also Published As

Publication number Publication date
CN109146944A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109146944B (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN110738146B (zh) 一种目标重识别神经网络及其构建方法和应用
CN110930342B (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN110322499B (zh) 一种基于多层特征的单目图像深度估计方法
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111178316A (zh) 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法
CN109460815B (zh) 一种单目视觉深度估计方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112819096B (zh) 一种基于复合卷积神经网络的化石图像分类模型的构建方法
CN115205633A (zh) 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN109448039B (zh) 一种基于深度卷积神经网络的单目视觉深度估计方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN111414988B (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
CN112905828A (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN116206214A (zh) 一种基于轻量化卷积神经网络和双注意力的自动识别滑坡方法、系统、设备及介质
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN114581789A (zh) 一种高光谱图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221008

Address after: Room 726, Floor 7, Building 1, No. 180, Huashen Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Muye Micro (Shanghai) Semiconductor Technology Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY