CN109146944A - 一种基于深度可分卷积神经网络的视觉深度估计方法 - Google Patents
一种基于深度可分卷积神经网络的视觉深度估计方法 Download PDFInfo
- Publication number
- CN109146944A CN109146944A CN201811276559.1A CN201811276559A CN109146944A CN 109146944 A CN109146944 A CN 109146944A CN 201811276559 A CN201811276559 A CN 201811276559A CN 109146944 A CN109146944 A CN 109146944A
- Authority
- CN
- China
- Prior art keywords
- width
- characteristic patterns
- output
- characteristic
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度可分卷积神经网络的视觉深度估计方法,其先构建深度可分卷积神经网络,其隐层包括卷积层、批规范化层、激活层、最大池化层、conv_block网络块、深度可分卷积网络块、Concatanate融合层、Add融合层、反卷积层、可分离卷积层;然后使用训练集中的单目图像作为原始输入图像,输入到深度可分卷积神经网络中进行训练,得到单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度可分卷积神经网络训练模型及最优权值矢量;再将待预测的单目图像输入到深度可分卷积神经网络训练模型中,并利用最优权值矢量,预测得到对应的预测深度图像;优点是其预测精度高。
Description
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度可分卷积神经网络的视觉深度估计方法。
背景技术
在如今飞速发展时代的大环境下,伴随着社会的物质生活水平的不断提升。人工智能技术应用于人们的日常生活中的方面越来越多。计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,作为计算机视觉任务之一的单目视觉深度估计,在汽车辅助驾驶技术中显得越发重要。
汽车是现今人们出行必不可少的交通工具之一,其发展一直备受社会的重视。特别是伴随着人工智能技术的越来越成熟,无人驾驶这一具有代表性的人工智能技术也成为了近几年热门话题之一。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全,是无人驾驶技术领域重要的一环。
在深度学习提出之前,单目视觉深度估计一直是使用传统方法来提取手工特征预测深度结果的。由于限制于数据集的大小和手工特征的精度,传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习被提出后,其在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言,深度学习给予了很大的帮助,它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息,这使得单目视觉深度估计的结果精度不断地得到提升,从而实现其在实际需求中的应用与推广。
Laina等人基于全卷积残差网络提出了一种深度估计神经网络模型,该模型自原始图像输入到预测深度图输出的整个过程都是单程的,虽然深度估计神经网络的深度足够深并且采集了一些准确度较高的特征信息,但是这些高准确度的特征信息占总体特征信息的份额却是很少的,而且由于该模型的单一性,因此导致该模型提取的特征的多样性也不足,单程且又长的特征采集过程中会出现图像中物体边缘信息的丢失,反而可能导致整体的预测精度的下降。
发明内容
本发明所要解决的技术问题是提供一种基于深度可分卷积神经网络的视觉深度估计方法,其深度估计准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为高度为Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为高度为第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为高度为第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
所述的步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为高度为第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为高度为第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为高度为Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为高度为第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为高度为
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为高度为第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为高度为第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为高度为Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为高度为第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为高度为
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为高度为第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为高度为第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为高度为Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为高度为第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为高度为
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为高度为第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为高度为第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为高度为Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为高度为第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为高度为
所述的步骤1_4中,采用均方误差函数获得。
与现有技术相比,本发明的优点在于:
1)本发明方法将深度方向上的可分离卷积层(SeparableConv2D层,即深度可分卷积层)应用到卷积神经网络模型中,这样不仅可以保证本发明方法创建的深度可分卷积神经网络在卷积神经网络原有的性能的基础上减少了卷积神经网络的参数,而且可以获得更加准确的深度特征信息,使得创建的深度可分卷积神经网络可以拥有多样而丰富的特征信息,从而可以提高利用训练得到的深度可分卷积神经网络训练模型进行预测,得到的预测深度图像的准确度。
2)本发明方法参考Resnet中的block块的结构,搭建了与Resnet中的conv_block网络块相似的结构的深度可分卷积网络块,并与Resnet中的conv_block网络块结合在一起作为深度可分卷积神经网络提取特征信息的一部分,这样保证了深度可分卷积神经网络训练模型具有足够的深度来提取到丰富的特征信息,使得深度可分卷积神经网络训练模型变得更加的精确,能够预测得到更加准确的预测深度图像。
3)本发明方法借助于跳层连接即Concatenate融合层和Add融合层的特性,不仅补全了Concatenate融合层之后特征所缺失的原始物体的边缘信息,而且结合深度可分卷积网络块在原始信息的基础上进一步地提供了其深度信息,这更有益于深度可分卷积神经网络训练模型的输出变得精准。
附图说明
图1为本发明方法构建的深度可分卷积神经网络的组成结构示意图;
图2为本发明方法构建的深度可分卷积神经网络中的conv_block网络块的内部结构图;
图3为本发明方法构建的深度可分卷积神经网络中的深度可分卷积网络块的内部结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度可分卷积神经网络的视觉深度估计方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,如取N=4000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;在此,原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。
步骤1_2:如图1所示,构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块(现有的ResNet中的conv_block网络块网络块)、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块。
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,conv_block网络块的内部结构如图2所示,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,深度可分卷积网络块的内部结构如图3所示,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16。
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为高度为Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为高度为第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为高度为第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L。
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L。
在本实施例中,步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为高度为第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为高度为第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为高度为Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为高度为第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为高度为
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为高度为第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为高度为第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为高度为Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为高度为第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为高度为
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为高度为第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为高度为第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为高度为Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为高度为第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为高度为
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为高度为第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为高度为第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为高度为Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为高度为第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为高度为
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为其中,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为采用均方误差函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度可分卷积神经网络训练模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
Claims (3)
1.一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;
对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;
对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;
对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为高度为Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为高度为第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为高度为第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L;
对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;
步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于所述的步骤1_2中,对于第1个深度可分卷积网络块,卷积层的输入端接收B1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J11,其中,J11中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J11中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K11,其中,K11中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K11中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P12,其中,P12中的每幅特征图的宽度为高度为第1个激活层的输入端接收P12中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H11,其中,H11中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H11中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L11,其中,L11中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L11中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P13,其中,P13中的每幅特征图的宽度为高度为第2个激活层的输入端接收P13中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H12,其中,H12中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H12中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K12,其中,K12中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K12中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P14,其中,P14中的每幅特征图的宽度为高度为Add融合层的输入端接收P11中的所有特征图和P14中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A11,其中,A11中的每幅特征图的宽度为高度为第3个激活层的输入端接收A11中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H13,将H13作为S1,其中,H13中的每幅特征图的宽度为高度为
对于第2个深度可分卷积网络块,卷积层的输入端接收S1中的所有特征图,卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J21,其中,J21中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J21中的所有特征图,第1个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P21,其中,P21中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S1中的所有特征图,第1个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K21,其中,K21中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K21中的所有特征图,第2个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P22,其中,P22中的每幅特征图的宽度为高度为第1个激活层的输入端接收P22中的所有特征图,第1个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H21,其中,H21中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H21中的所有特征图,带孔可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为L21,其中,L21中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L21中的所有特征图,第3个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P23,其中,P23中的每幅特征图的宽度为高度为第2个激活层的输入端接收P23中的所有特征图,第2个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H22,其中,H22中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H22中的所有特征图,第2个可分离卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为K22,其中,K22中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K22中的所有特征图,第4个批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P24,其中,P24中的每幅特征图的宽度为高度为Add融合层的输入端接收P21中的所有特征图和P24中的所有特征图,Add融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A21,其中,A21中的每幅特征图的宽度为高度为第3个激活层的输入端接收A21中的所有特征图,第3个激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H23,将H23作为S2,其中,H23中的每幅特征图的宽度为高度为
对于第3个深度可分卷积网络块,卷积层的输入端接收B2中的所有特征图,卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为J31,其中,J31中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J31中的所有特征图,第1个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P31,其中,P31中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收B2中的所有特征图,第1个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K31,其中,K31中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K31中的所有特征图,第2个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P32,其中,P32中的每幅特征图的宽度为高度为第1个激活层的输入端接收P32中的所有特征图,第1个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H31,其中,H31中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H31中的所有特征图,带孔可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为L31,其中,L31中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L31中的所有特征图,第3个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P33,其中,P33中的每幅特征图的宽度为高度为第2个激活层的输入端接收P33中的所有特征图,第2个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H32,其中,H32中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H32中的所有特征图,第2个可分离卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K32,其中,K32中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K32中的所有特征图,第4个批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P34,其中,P34中的每幅特征图的宽度为高度为Add融合层的输入端接收P31中的所有特征图和P34中的所有特征图,Add融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A31,其中,A31中的每幅特征图的宽度为高度为第3个激活层的输入端接收A31中的所有特征图,第3个激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H33,将H33作为S3,其中,H33中的每幅特征图的宽度为高度为
对于第4个深度可分卷积网络块,卷积层的输入端接收S3中的所有特征图,卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为J41,其中,J41中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收J41中的所有特征图,第1个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P41,其中,P41中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收S3中的所有特征图,第1个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K41,其中,K41中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收K41中的所有特征图,第2个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P42,其中,P42中的每幅特征图的宽度为高度为第1个激活层的输入端接收P42中的所有特征图,第1个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H41,其中,H41中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收H41中的所有特征图,带孔可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为L41,其中,L41中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收L41中的所有特征图,第3个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P43,其中,P43中的每幅特征图的宽度为高度为第2个激活层的输入端接收P43中的所有特征图,第2个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H42,其中,H42中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H42中的所有特征图,第2个可分离卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K42,其中,K42中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收K42中的所有特征图,第4个批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P44,其中,P44中的每幅特征图的宽度为高度为Add融合层的输入端接收P41中的所有特征图和P44中的所有特征图,Add融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A41,其中,A41中的每幅特征图的宽度为高度为第3个激活层的输入端接收A41中的所有特征图,第3个激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H43,将H43作为S4,其中,H43中的每幅特征图的宽度为高度为
3.根据权利要求1或2所述的一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于所述的步骤1_4中,采用均方误差函数获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811276559.1A CN109146944B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度可分卷积神经网络的视觉深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811276559.1A CN109146944B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度可分卷积神经网络的视觉深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109146944A true CN109146944A (zh) | 2019-01-04 |
CN109146944B CN109146944B (zh) | 2020-06-26 |
Family
ID=64806802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811276559.1A Active CN109146944B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度可分卷积神经网络的视觉深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109146944B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN111340141A (zh) * | 2020-04-20 | 2020-06-26 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于深度学习的作物幼苗与杂草检测方法及系统 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112258565A (zh) * | 2019-07-22 | 2021-01-22 | 华为技术有限公司 | 图像处理方法以及装置 |
WO2021096806A1 (en) * | 2019-11-14 | 2021-05-20 | Zoox, Inc | Depth data model training with upsampling, losses, and loss balancing |
CN112990279A (zh) * | 2021-02-26 | 2021-06-18 | 西安电子科技大学 | 基于自动编码器的雷达高分辨距离像库外目标拒判方法 |
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
GB2611765A (en) * | 2021-10-08 | 2023-04-19 | Samsung Electronics Co Ltd | Method, system and apparatus for monocular depth estimation |
WO2023245321A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 一种图像深度预测方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750702A (zh) * | 2012-06-21 | 2012-10-24 | 东华大学 | 基于优化bp神经网络模型的单目红外图像深度估计方法 |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
US20170330068A1 (en) * | 2016-05-16 | 2017-11-16 | Canon Kabushiki Kaisha | Devices, systems, and methods for feature encoding |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN108304916A (zh) * | 2018-01-10 | 2018-07-20 | 湖北工业大学 | 结合注意机制与深度可分解卷积的卷积神经网络优化方法 |
CN108416370A (zh) * | 2018-02-07 | 2018-08-17 | 深圳大学 | 基于半监督深度学习的图像分类方法、装置和存储介质 |
CN108428227A (zh) * | 2018-02-27 | 2018-08-21 | 浙江科技学院 | 基于全卷积神经网络的无参考图像质量评价方法 |
CN108665460A (zh) * | 2018-05-23 | 2018-10-16 | 浙江科技学院 | 基于组合神经网络和分类神经网络的图像质量评价方法 |
-
2018
- 2018-10-30 CN CN201811276559.1A patent/CN109146944B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750702A (zh) * | 2012-06-21 | 2012-10-24 | 东华大学 | 基于优化bp神经网络模型的单目红外图像深度估计方法 |
US20170330068A1 (en) * | 2016-05-16 | 2017-11-16 | Canon Kabushiki Kaisha | Devices, systems, and methods for feature encoding |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN108304916A (zh) * | 2018-01-10 | 2018-07-20 | 湖北工业大学 | 结合注意机制与深度可分解卷积的卷积神经网络优化方法 |
CN108416370A (zh) * | 2018-02-07 | 2018-08-17 | 深圳大学 | 基于半监督深度学习的图像分类方法、装置和存储介质 |
CN108428227A (zh) * | 2018-02-27 | 2018-08-21 | 浙江科技学院 | 基于全卷积神经网络的无参考图像质量评价方法 |
CN108665460A (zh) * | 2018-05-23 | 2018-10-16 | 浙江科技学院 | 基于组合神经网络和分类神经网络的图像质量评价方法 |
Non-Patent Citations (2)
Title |
---|
WUJIE ZHOU等: "Binocular responses for no-reference 3D image quality assessment", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
李耀宇等: "基于结构化深度学习的单目图像深度估计", 《机器人》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110009700B (zh) * | 2019-03-13 | 2020-10-20 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110175986B (zh) * | 2019-04-23 | 2021-01-08 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN112258565A (zh) * | 2019-07-22 | 2021-01-22 | 华为技术有限公司 | 图像处理方法以及装置 |
CN112258565B (zh) * | 2019-07-22 | 2023-03-28 | 华为技术有限公司 | 图像处理方法以及装置 |
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
WO2021096806A1 (en) * | 2019-11-14 | 2021-05-20 | Zoox, Inc | Depth data model training with upsampling, losses, and loss balancing |
US11681046B2 (en) | 2019-11-14 | 2023-06-20 | Zoox, Inc. | Depth data model training with upsampling, losses and loss balancing |
CN111340141A (zh) * | 2020-04-20 | 2020-06-26 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于深度学习的作物幼苗与杂草检测方法及系统 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112990279A (zh) * | 2021-02-26 | 2021-06-18 | 西安电子科技大学 | 基于自动编码器的雷达高分辨距离像库外目标拒判方法 |
GB2611765A (en) * | 2021-10-08 | 2023-04-19 | Samsung Electronics Co Ltd | Method, system and apparatus for monocular depth estimation |
GB2611765B (en) * | 2021-10-08 | 2024-01-31 | Samsung Electronics Co Ltd | Method, system and apparatus for monocular depth estimation |
WO2023245321A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 一种图像深度预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109146944B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146944A (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN110175986A (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN110490082A (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN109064507A (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN109460815A (zh) | 一种单目视觉深度估计方法 | |
CN110059741A (zh) | 基于语义胶囊融合网络的图像识别方法 | |
CN109635642A (zh) | 一种基于残差网络和扩张卷积的道路场景分割方法 | |
CN109410261A (zh) | 基于金字塔池化模块的单目图像深度估计方法 | |
CN110490205A (zh) | 基于全残差空洞卷积神经网络的道路场景语义分割方法 | |
CN106023154B (zh) | 基于双通道卷积神经网络的多时相sar图像变化检测方法 | |
CN110321874A (zh) | 一种轻量化的卷积神经网络行人识别方法 | |
CN106203354A (zh) | 基于混合深度结构的场景识别方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN110263813A (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN110197152A (zh) | 一种用于自动驾驶系统的道路目标识别方法 | |
CN110009700A (zh) | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 | |
CN110188733A (zh) | 基于3d区域卷积神经网络的时序行为检测方法及系统 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN109685724A (zh) | 一种基于深度学习的对称感知人脸图像补全方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN108564120A (zh) | 基于深度神经网络的特征点提取方法 | |
CN110458178A (zh) | 多模态多拼接的rgb-d显著性目标检测方法 | |
CN110263603A (zh) | 基于中心损失和残差视觉仿真网络的人脸识别方法及装置 | |
CN113298736B (zh) | 一种基于面部样式的人脸图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221008 Address after: Room 726, Floor 7, Building 1, No. 180, Huashen Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Muye Micro (Shanghai) Semiconductor Technology Co.,Ltd. Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY |
|
TR01 | Transfer of patent right |