CN110009700A - 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 - Google Patents
基于rgb图和梯度图的卷积神经网络视觉深度估计方法 Download PDFInfo
- Publication number
- CN110009700A CN110009700A CN201910186750.5A CN201910186750A CN110009700A CN 110009700 A CN110009700 A CN 110009700A CN 201910186750 A CN201910186750 A CN 201910186750A CN 110009700 A CN110009700 A CN 110009700A
- Authority
- CN
- China
- Prior art keywords
- layer
- input
- output
- network block
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008447 perception Effects 0.000 title abstract 2
- 230000004927 fusion Effects 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims description 99
- 238000011176 pooling Methods 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 241000287196 Asthenes Species 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 abstract description 2
- 239000008199 coating composition Substances 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其在训练阶段构建卷积神经网络,隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由18个并联卷积网络块、4个最大池化层、1个卷积层、1个批规范化层组成,梯度图特征提取框架由4个卷积层、4个批规范化层、4个激活层组成,特征融合框架由4个Add融合层、4个transitionup网络块、4个卷积层、4个批规范化层、5个激活层组成;将训练集中的单目RGB图像及梯度图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;在测试阶段,将待测试的单目RGB图像及梯度图像输入到卷积神经网络训练模型中进行预测,得到预测深度图像;优点是预测精度高。
Description
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法。
背景技术
经济的快速腾飞促使了技术的蓬勃发展,人工智能响应着时代的需求应运而生,并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多的人们的关注,计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,视觉深度估计技术是基本的计算机视觉任务之一,它在机器人和无人驾驶等中显得越发的重要。
无人驾驶的提出是人工智能实际应用的一种重要表现,成熟的无人驾驶技术是人们一直追寻的,行车安全的保障则是无人驾驶中最重要的环节。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全,构成了无人驾驶技术领域重要的一环。
在深度学习和端到端训练框架被提出来之前,单目视觉深度估计主要依靠于传统方法提取的手工特征来生成最终的预测深度结果的,但是,手工特征的精度很低,导致该项技术没有得到实质的进展,从而导致传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习和端到端训练框架被提出之后,立即在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言,深度学习给予了很大的帮助,它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息,这使得单目视觉深度估计的结果精度不断地得到了提升,从而实现了单目视觉深度估计在实际需求中的应用与推广。
Li等人提出了一种快速训练的双流卷积神经网络模型,该模型可以预测深度和深度梯度,然后将它们融合在一起形成精确而详细的深度图。虽然该模型融合了深度和深度梯度的信息来生成最终的预测深度图,但是卷积神经网络在预测深度图过程中提取的特征信息已包含了梯度信息,再次融合深度梯度会导致梯度特征显示覆盖掉其它具有重要深度信息的特征而导致最终结果精度的下降。
发明内容
本发明所要解决的技术问题是提供一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其视觉深度估计精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将{Li(p,q)}对应的梯度图像记为再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、和的宽度,H表示{Li(p,q)}、和的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu;
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H;
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H;
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P1;
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A4;
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为其中,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为采用均方误差函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值;
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256;
在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16;
在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端;
在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端;
在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端;
在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了使用单目RGB图像及其对应的梯度图像作为两个输入的双流卷积神经网络,加入梯度图像输入到卷积神经网络中,可使得卷积神经网络能够通过梯度图像来获取在单目RGB图像特征提取过程中丢失的梯度信息,从而可以使得训练得到的卷积神经网络训练模型的预测结果变得更加的准确。
2)本发明方法结合两个深度可分离卷积层、一个常规的卷积层以及三个批规范化层、一个激活层和一个Add融合层搭建了一个并联卷积网络块,并联的结构使得两个深度可分离卷积层、一个常规的卷积层提取到的特征互不影响,再使用Add融合层融合来自这三个层的输出特征,这保证了并联卷积网络块可以提取到多样而丰富的特征信息,这有利于使用卷积神经网络训练模型预测得到的预测深度图像的精确性。
3)本发明方法使用了Add融合层和Concatenate融合层,Add融合层主要融合来自梯度流提取到的特征信息,实现了对提取信息的充分利用;Concatenate融合层使用在transitionup网络块中,主要用来融合转置卷积层的输出和RGB流过程中提取到的对应尺寸相同的特征信息,这提供了单目RGB图像中的低级特征信息,两种融合层的配合更有益于提高卷积神经网络训练模型的预测精度。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法中构建的卷积神经网络的组成结构示意图;
图3为本发明方法中构建的卷积神经网络中的并联卷积网络块的组成结构示意图;
图4为本发明方法中构建的卷积神经网络中的transitionup网络块的组成结构示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将{Li(p,q)}对应的梯度图像记为再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,在本申请的技术方案的基础上通过大量实验发现选取1000幅以上原始的单目RGB图像均能使得训练后得到的模型的预测结果很好,考虑到计算复杂度取M=4000时预测结果最佳,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、和的宽度,H表示{Li(p,q)}、和的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,梯度化处理可以采用现有的任何一种梯度化处理方法,如可选用最常用的梯度化处理方法。
步骤1_2:构建卷积神经网络:如图2所示,卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块(Jégou S,Drozdzal M,Vazquez D,etal.The one hundred layers tiramisu:Fully convolutional densenets for semanticsegmentation[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops.2017:11-19.(一百层Tiramisu:用于语义分割的完全卷积密集网络,计算机视觉和模式识别研讨会))、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu。
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H。
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H。
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P1。
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A4。
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图。
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H。
在此具体实施例中,如图3所示,所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256。在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,接收同一个集合中的所有特征图,如对于第6个并联卷积网络块,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端均接收Z2中的所有特征图,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
在此具体实施例中,如图4所示,所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16。在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端。在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端。在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端。在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为其中,表示中坐标位置为(p,q)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为采用均方误差函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值。
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的原始的单目RGB图像和用于测试的单目RGB图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目RGB图像作为待测试的单目RGB图像,将待测试的单目RGB图像及其对应的梯度图像输入到卷积神经网络训练模型中,再载入训练阶段得到的最优权值矢量Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10 error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这充分说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。
Claims (3)
1.一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将对应的梯度图像记为再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、和的宽度,H表示{Li(p,q)}、和的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu;
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H;
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H;
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P1;
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A4;
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为其中,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将与之间的损失函数值记为采用均方误差函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值;
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
2.根据权利要求1所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256;
在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
3.根据权利要求1或2所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16;
在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端;
在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端;
在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端;
在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186750.5A CN110009700B (zh) | 2019-03-13 | 2019-03-13 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186750.5A CN110009700B (zh) | 2019-03-13 | 2019-03-13 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110009700A true CN110009700A (zh) | 2019-07-12 |
CN110009700B CN110009700B (zh) | 2020-10-20 |
Family
ID=67166851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910186750.5A Active CN110009700B (zh) | 2019-03-13 | 2019-03-13 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009700B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414674A (zh) * | 2019-07-31 | 2019-11-05 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN111104532A (zh) * | 2019-12-30 | 2020-05-05 | 华南理工大学 | 一种基于双流网络的rgbd图像联合恢复方法 |
CN111160441A (zh) * | 2019-12-24 | 2020-05-15 | 上海联影智能医疗科技有限公司 | 分类方法、计算机设备和存储介质 |
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
CN114049434A (zh) * | 2021-11-05 | 2022-02-15 | 成都艾特能电气科技有限责任公司 | 一种基于全卷积神经网络的3d建模方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146944A (zh) * | 2018-10-30 | 2019-01-04 | 浙江科技学院 | 一种基于深度可分卷积神经网络的视觉深度估计方法 |
CN109272447A (zh) * | 2018-08-03 | 2019-01-25 | 天津大学 | 一种深度图超分辨率方法 |
CN109410261A (zh) * | 2018-10-08 | 2019-03-01 | 浙江科技学院 | 基于金字塔池化模块的单目图像深度估计方法 |
CN109446933A (zh) * | 2018-10-12 | 2019-03-08 | 浙江科技学院 | 一种基于卷积神经网络的道路场景语义分割方法 |
-
2019
- 2019-03-13 CN CN201910186750.5A patent/CN110009700B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272447A (zh) * | 2018-08-03 | 2019-01-25 | 天津大学 | 一种深度图超分辨率方法 |
CN109410261A (zh) * | 2018-10-08 | 2019-03-01 | 浙江科技学院 | 基于金字塔池化模块的单目图像深度估计方法 |
CN109446933A (zh) * | 2018-10-12 | 2019-03-08 | 浙江科技学院 | 一种基于卷积神经网络的道路场景语义分割方法 |
CN109146944A (zh) * | 2018-10-30 | 2019-01-04 | 浙江科技学院 | 一种基于深度可分卷积神经网络的视觉深度估计方法 |
Non-Patent Citations (1)
Title |
---|
JUN LI 等: "A Two-Streamed Network for Estimating Fine-Scaled Depth Maps from Single RGB Images", 《ARXIV》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414674A (zh) * | 2019-07-31 | 2019-11-05 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
CN110414674B (zh) * | 2019-07-31 | 2021-09-10 | 浙江科技学院 | 一种基于残差网络及局部细化的单目深度估计方法 |
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
US11681046B2 (en) | 2019-11-14 | 2023-06-20 | Zoox, Inc. | Depth data model training with upsampling, losses and loss balancing |
CN111160441A (zh) * | 2019-12-24 | 2020-05-15 | 上海联影智能医疗科技有限公司 | 分类方法、计算机设备和存储介质 |
CN111160441B (zh) * | 2019-12-24 | 2024-03-26 | 上海联影智能医疗科技有限公司 | 分类方法、计算机设备和存储介质 |
CN111104532A (zh) * | 2019-12-30 | 2020-05-05 | 华南理工大学 | 一种基于双流网络的rgbd图像联合恢复方法 |
CN111104532B (zh) * | 2019-12-30 | 2023-04-25 | 华南理工大学 | 一种基于双流网络的rgbd图像联合恢复方法 |
CN114049434A (zh) * | 2021-11-05 | 2022-02-15 | 成都艾特能电气科技有限责任公司 | 一种基于全卷积神经网络的3d建模方法及系统 |
CN114049434B (zh) * | 2021-11-05 | 2024-08-23 | 成都艾特能电气科技有限责任公司 | 一种基于全卷积神经网络的3d建模方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110009700B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009700B (zh) | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 | |
CN109146944B (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN109410261B (zh) | 基于金字塔池化模块的单目图像深度估计方法 | |
CN110930342B (zh) | 一种基于彩色图引导的深度图超分辨率重建网络构建方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN111275618A (zh) | 一种基于双支感知的深度图超分辨率重建网络构建方法 | |
CN110349185B (zh) | 一种rgbt目标跟踪模型的训练方法及装置 | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113421237B (zh) | 基于深度特征迁移学习的无参考图像质量评价方法 | |
CN109460815B (zh) | 一种单目视觉深度估计方法 | |
CN110991349B (zh) | 一种基于度量学习的轻量级车辆属性识别方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN109635662A (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN111127331A (zh) | 基于像素级全局噪声估计编解码网络的图像去噪方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
CN112750125A (zh) | 一种基于端到端关键点检测的玻璃绝缘子片定位方法 | |
CN112819096A (zh) | 一种基于复合卷积神经网络的化石图像分类模型的构建方法 | |
CN110728186B (zh) | 一种基于多网融合的火灾检测方法 | |
CN109448039B (zh) | 一种基于深度卷积神经网络的单目视觉深度估计方法 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |