CN110009700B - 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 - Google Patents

基于rgb图和梯度图的卷积神经网络视觉深度估计方法 Download PDF

Info

Publication number
CN110009700B
CN110009700B CN201910186750.5A CN201910186750A CN110009700B CN 110009700 B CN110009700 B CN 110009700B CN 201910186750 A CN201910186750 A CN 201910186750A CN 110009700 B CN110009700 B CN 110009700B
Authority
CN
China
Prior art keywords
layer
input
output
convolution
network block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910186750.5A
Other languages
English (en)
Other versions
CN110009700A (zh
Inventor
周武杰
袁建中
吕思嘉
雷景生
钱亚冠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910186750.5A priority Critical patent/CN110009700B/zh
Publication of CN110009700A publication Critical patent/CN110009700A/zh
Application granted granted Critical
Publication of CN110009700B publication Critical patent/CN110009700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其在训练阶段构建卷积神经网络,隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由18个并联卷积网络块、4个最大池化层、1个卷积层、1个批规范化层组成,梯度图特征提取框架由4个卷积层、4个批规范化层、4个激活层组成,特征融合框架由4个Add融合层、4个transitionup网络块、4个卷积层、4个批规范化层、5个激活层组成;将训练集中的单目RGB图像及梯度图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;在测试阶段,将待测试的单目RGB图像及梯度图像输入到卷积神经网络训练模型中进行预测,得到预测深度图像;优点是预测精度高。

Description

基于RGB图和梯度图的卷积神经网络视觉深度估计方法
技术领域
本发明涉及一种单目视觉深度估计技术,尤其是涉及一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法。
背景技术
经济的快速腾飞促使了技术的蓬勃发展,人工智能响应着时代的需求应运而生,并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多的人们的关注,计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,视觉深度估计技术是基本的计算机视觉任务之一,它在机器人和无人驾驶等中显得越发的重要。
无人驾驶的提出是人工智能实际应用的一种重要表现,成熟的无人驾驶技术是人们一直追寻的,行车安全的保障则是无人驾驶中最重要的环节。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全,构成了无人驾驶技术领域重要的一环。
在深度学习和端到端训练框架被提出来之前,单目视觉深度估计主要依靠于传统方法提取的手工特征来生成最终的预测深度结果的,但是,手工特征的精度很低,导致该项技术没有得到实质的进展,从而导致传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习和端到端训练框架被提出之后,立即在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言,深度学习给予了很大的帮助,它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息,这使得单目视觉深度估计的结果精度不断地得到了提升,从而实现了单目视觉深度估计在实际需求中的应用与推广。
Li等人提出了一种快速训练的双流卷积神经网络模型,该模型可以预测深度和深度梯度,然后将它们融合在一起形成精确而详细的深度图。虽然该模型融合了深度和深度梯度的信息来生成最终的预测深度图,但是卷积神经网络在预测深度图过程中提取的特征信息已包含了梯度信息,再次融合深度梯度会导致梯度特征显示覆盖掉其它具有重要深度信息的特征而导致最终结果精度的下降。
发明内容
本发明所要解决的技术问题是提供一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其视觉深度估计精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为
Figure BDA0001993080380000021
然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将{Li(p,q)}对应的梯度图像记为
Figure BDA0001993080380000022
再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、
Figure BDA0001993080380000023
Figure BDA0001993080380000024
的宽度,H表示{Li(p,q)}、
Figure BDA0001993080380000025
Figure BDA0001993080380000026
的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,
Figure BDA0001993080380000027
表示
Figure BDA0001993080380000028
中坐标位置为(p,q)的像素点的像素值,
Figure BDA0001993080380000029
表示
Figure BDA00019930803800000210
中坐标位置为(p,q)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu;
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H;
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H;
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为
Figure BDA0001993080380000031
且高度为
Figure BDA0001993080380000032
的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000033
且高度为
Figure BDA0001993080380000034
的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000035
且高度为
Figure BDA0001993080380000036
的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000041
且高度为
Figure BDA0001993080380000042
的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为
Figure BDA0001993080380000043
且高度为
Figure BDA0001993080380000044
的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为
Figure BDA0001993080380000045
且高度为
Figure BDA0001993080380000046
的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为
Figure BDA0001993080380000047
且高度为
Figure BDA0001993080380000048
的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为
Figure BDA0001993080380000049
且高度为
Figure BDA00019930803800000410
的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800000411
且高度为
Figure BDA00019930803800000412
的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800000413
且高度为
Figure BDA00019930803800000414
的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为
Figure BDA00019930803800000415
且高度为
Figure BDA00019930803800000416
的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为
Figure BDA00019930803800000417
且高度为
Figure BDA0001993080380000051
的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000052
且高度为
Figure BDA0001993080380000053
的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000054
且高度为
Figure BDA0001993080380000055
的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000056
且高度为
Figure BDA0001993080380000057
的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000058
且高度为
Figure BDA0001993080380000059
的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为
Figure BDA00019930803800000510
且高度为
Figure BDA00019930803800000511
的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为
Figure BDA00019930803800000512
且高度为
Figure BDA00019930803800000513
的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为
Figure BDA00019930803800000514
且高度为
Figure BDA00019930803800000515
的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为
Figure BDA00019930803800000516
且高度为
Figure BDA00019930803800000517
的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为
Figure BDA0001993080380000061
且高度为
Figure BDA0001993080380000062
的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为
Figure BDA0001993080380000063
且高度为
Figure BDA0001993080380000064
的特征图,将输出的所有特征图构成的集合记为P1
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为
Figure BDA0001993080380000065
且高度为
Figure BDA0001993080380000066
的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为
Figure BDA0001993080380000067
且高度为
Figure BDA0001993080380000068
的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为
Figure BDA0001993080380000069
且高度为
Figure BDA00019930803800000610
的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为
Figure BDA00019930803800000611
且高度为
Figure BDA00019930803800000612
的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为
Figure BDA00019930803800000613
且高度为
Figure BDA00019930803800000614
的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为
Figure BDA00019930803800000615
且高度为
Figure BDA00019930803800000616
的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为
Figure BDA00019930803800000617
且高度为
Figure BDA00019930803800000618
的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为
Figure BDA0001993080380000071
且高度为
Figure BDA0001993080380000072
的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为
Figure BDA0001993080380000073
且高度为
Figure BDA0001993080380000074
的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为
Figure BDA0001993080380000075
且高度为
Figure BDA0001993080380000076
的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为
Figure BDA0001993080380000077
且高度为
Figure BDA0001993080380000078
的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为
Figure BDA0001993080380000079
且高度为
Figure BDA00019930803800000710
的特征图,将输出的所有特征图构成的集合记为A4
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为
Figure BDA00019930803800000711
且高度为
Figure BDA00019930803800000712
的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为
Figure BDA00019930803800000713
且高度为
Figure BDA00019930803800000714
的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为
Figure BDA00019930803800000715
且高度为
Figure BDA00019930803800000716
的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为
Figure BDA0001993080380000081
且高度为
Figure BDA0001993080380000082
的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为
Figure BDA0001993080380000083
且高度为
Figure BDA0001993080380000084
的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为
Figure BDA0001993080380000085
且高度为
Figure BDA0001993080380000086
的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为
Figure BDA0001993080380000087
且高度为
Figure BDA0001993080380000088
的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为
Figure BDA0001993080380000089
且高度为
Figure BDA00019930803800000810
的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为
Figure BDA00019930803800000811
且高度为
Figure BDA00019930803800000812
的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为
Figure BDA00019930803800000813
且高度为
Figure BDA00019930803800000814
的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为
Figure BDA00019930803800000815
且高度为
Figure BDA00019930803800000816
的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为
Figure BDA00019930803800000817
且高度为
Figure BDA00019930803800000818
的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为
Figure BDA0001993080380000091
且高度为
Figure BDA0001993080380000092
的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为
Figure BDA0001993080380000093
且高度为
Figure BDA0001993080380000094
的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为
Figure BDA0001993080380000095
且高度为
Figure BDA0001993080380000096
的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为
Figure BDA0001993080380000097
且高度为
Figure BDA0001993080380000098
的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为
Figure BDA0001993080380000099
且高度为
Figure BDA00019930803800000910
的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为
Figure BDA0001993080380000101
其中,
Figure BDA0001993080380000102
表示
Figure BDA0001993080380000103
中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001993080380000104
Figure BDA0001993080380000105
之间的损失函数值记为
Figure BDA0001993080380000106
采用均方误差函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值;
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256;
在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16;
在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端;
在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端;
在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端;
在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了使用单目RGB图像及其对应的梯度图像作为两个输入的双流卷积神经网络,加入梯度图像输入到卷积神经网络中,可使得卷积神经网络能够通过梯度图像来获取在单目RGB图像特征提取过程中丢失的梯度信息,从而可以使得训练得到的卷积神经网络训练模型的预测结果变得更加的准确。
2)本发明方法结合两个深度可分离卷积层、一个常规的卷积层以及三个批规范化层、一个激活层和一个Add融合层搭建了一个并联卷积网络块,并联的结构使得两个深度可分离卷积层、一个常规的卷积层提取到的特征互不影响,再使用Add融合层融合来自这三个层的输出特征,这保证了并联卷积网络块可以提取到多样而丰富的特征信息,这有利于使用卷积神经网络训练模型预测得到的预测深度图像的精确性。
3)本发明方法使用了Add融合层和Concatenate融合层,Add融合层主要融合来自梯度流提取到的特征信息,实现了对提取信息的充分利用;Concatenate融合层使用在transitionup网络块中,主要用来融合转置卷积层的输出和RGB流过程中提取到的对应尺寸相同的特征信息,这提供了单目RGB图像中的低级特征信息,两种融合层的配合更有益于提高卷积神经网络训练模型的预测精度。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法中构建的卷积神经网络的组成结构示意图;
图3为本发明方法中构建的卷积神经网络中的并联卷积网络块的组成结构示意图;
图4为本发明方法中构建的卷积神经网络中的transitionup网络块的组成结构示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为
Figure BDA0001993080380000131
然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将{Li(p,q)}对应的梯度图像记为
Figure BDA0001993080380000132
再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,在本申请的技术方案的基础上通过大量实验发现选取1000幅以上原始的单目RGB图像均能使得训练后得到的模型的预测结果很好,考虑到计算复杂度取M=4000时预测结果最佳,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、
Figure BDA0001993080380000133
Figure BDA0001993080380000134
的宽度,H表示{Li(p,q)}、
Figure BDA0001993080380000135
Figure BDA0001993080380000136
的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,
Figure BDA0001993080380000137
表示
Figure BDA0001993080380000138
中坐标位置为(p,q)的像素点的像素值,
Figure BDA0001993080380000139
表示
Figure BDA00019930803800001310
中坐标位置为(p,q)的像素点的像素值,梯度化处理可以采用现有的任何一种梯度化处理方法,如可选用最常用的梯度化处理方法。
步骤1_2:构建卷积神经网络:如图2所示,卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块(Jégou S,Drozdzal M,Vazquez D,etal.The one hundred layers tiramisu:Fully convolutional densenets for semanticsegmentation[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops.2017:11-19.(一百层Tiramisu:用于语义分割的完全卷积密集网络,计算机视觉和模式识别研讨会))、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu。
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H。
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H。
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为
Figure BDA0001993080380000141
且高度为
Figure BDA0001993080380000142
的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000151
且高度为
Figure BDA0001993080380000152
的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000153
且高度为
Figure BDA0001993080380000154
的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为
Figure BDA0001993080380000155
且高度为
Figure BDA0001993080380000156
的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为
Figure BDA0001993080380000157
且高度为
Figure BDA0001993080380000158
的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为
Figure BDA0001993080380000159
且高度为
Figure BDA00019930803800001510
的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800001511
且高度为
Figure BDA00019930803800001512
的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800001513
且高度为
Figure BDA00019930803800001514
的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800001515
且高度为
Figure BDA00019930803800001516
的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为
Figure BDA00019930803800001517
且高度为
Figure BDA0001993080380000161
的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为
Figure BDA0001993080380000162
且高度为
Figure BDA0001993080380000163
的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000164
且高度为
Figure BDA0001993080380000165
的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000166
且高度为
Figure BDA0001993080380000167
的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为
Figure BDA0001993080380000168
且高度为
Figure BDA0001993080380000169
的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为
Figure BDA00019930803800001610
且高度为
Figure BDA00019930803800001611
的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为
Figure BDA00019930803800001612
且高度为
Figure BDA00019930803800001613
的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为
Figure BDA00019930803800001614
且高度为
Figure BDA00019930803800001615
的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为
Figure BDA00019930803800001616
且高度为
Figure BDA00019930803800001617
的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为
Figure BDA0001993080380000171
且高度为
Figure BDA0001993080380000172
的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为
Figure BDA0001993080380000173
且高度为
Figure BDA0001993080380000174
的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为
Figure BDA0001993080380000175
且高度为
Figure BDA0001993080380000176
的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为
Figure BDA0001993080380000177
且高度为
Figure BDA0001993080380000178
的特征图,将输出的所有特征图构成的集合记为P1
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为
Figure BDA0001993080380000179
且高度为
Figure BDA00019930803800001710
的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为
Figure BDA00019930803800001711
且高度为
Figure BDA00019930803800001712
的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为
Figure BDA00019930803800001713
且高度为
Figure BDA00019930803800001714
的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为
Figure BDA00019930803800001715
且高度为
Figure BDA00019930803800001716
的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为
Figure BDA0001993080380000181
且高度为
Figure BDA0001993080380000182
的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为
Figure BDA0001993080380000183
且高度为
Figure BDA0001993080380000184
的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为
Figure BDA0001993080380000185
且高度为
Figure BDA0001993080380000186
的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为
Figure BDA0001993080380000187
且高度为
Figure BDA0001993080380000188
的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为
Figure BDA0001993080380000189
且高度为
Figure BDA00019930803800001810
的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为
Figure BDA00019930803800001811
且高度为
Figure BDA00019930803800001812
的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为
Figure BDA00019930803800001813
且高度为
Figure BDA00019930803800001814
的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为
Figure BDA00019930803800001815
且高度为
Figure BDA00019930803800001816
的特征图,将输出的所有特征图构成的集合记为A4
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为
Figure BDA00019930803800001817
且高度为
Figure BDA00019930803800001818
的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为
Figure BDA0001993080380000191
且高度为
Figure BDA0001993080380000192
的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为
Figure BDA0001993080380000193
且高度为
Figure BDA0001993080380000194
的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为
Figure BDA0001993080380000195
且高度为
Figure BDA0001993080380000196
的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为
Figure BDA0001993080380000197
且高度为
Figure BDA0001993080380000198
的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为
Figure BDA0001993080380000199
且高度为
Figure BDA00019930803800001910
的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为
Figure BDA00019930803800001911
且高度为
Figure BDA00019930803800001912
的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为
Figure BDA00019930803800001913
且高度为
Figure BDA00019930803800001914
的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为
Figure BDA00019930803800001915
且高度为
Figure BDA00019930803800001916
的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为
Figure BDA00019930803800001917
且高度为
Figure BDA00019930803800001918
的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为
Figure BDA0001993080380000201
且高度为
Figure BDA0001993080380000202
的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为
Figure BDA0001993080380000203
且高度为
Figure BDA0001993080380000204
的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为
Figure BDA0001993080380000205
且高度为
Figure BDA0001993080380000206
的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为
Figure BDA0001993080380000207
且高度为
Figure BDA0001993080380000208
的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为
Figure BDA0001993080380000209
且高度为
Figure BDA00019930803800002010
的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为
Figure BDA00019930803800002011
且高度为
Figure BDA00019930803800002012
的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为
Figure BDA00019930803800002013
且高度为
Figure BDA00019930803800002014
的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图。
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H。
在此具体实施例中,如图3所示,所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256。在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,接收同一个集合中的所有特征图,如对于第6个并联卷积网络块,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端均接收Z2中的所有特征图,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
在此具体实施例中,如图4所示,所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16。在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端。在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端。在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端。在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为
Figure BDA0001993080380000221
其中,
Figure BDA0001993080380000222
表示
Figure BDA0001993080380000223
中坐标位置为(p,q)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure BDA0001993080380000224
Figure BDA0001993080380000225
之间的损失函数值记为
Figure BDA0001993080380000226
采用均方误差函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值。
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的原始的单目RGB图像和用于测试的单目RGB图像均由KITTI官方网站给出,因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目RGB图像作为待测试的单目RGB图像,将待测试的单目RGB图像及其对应的梯度图像输入到卷积神经网络训练模型中,再载入训练阶段得到的最优权值矢量Wbest,获得对应的预测深度图像。
在此,采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标,即:均方根误差(root mean squared error,rms)、对数均方根误差(log_rms)、平均对数误差(average log10 error,log10)、阈值准确性(thr):δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近,δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。
表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标
Figure BDA0001993080380000241
从表1所列的数据可知,按本发明方法获得的预测深度图像与真实深度图像之间的差别很小,这充分说明了本发明方法的预测结果的精度很高,体现了本发明方法的可行性和有效性。

Claims (3)

1.一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像,将第i幅原始的单目RGB图像记为{Li(p,q)},将{Li(p,q)}对应的真实深度图像记为
Figure FDA0001993080370000011
然后对每幅原始的单目RGB图像进行梯度化处理,得到每幅原始的单目RGB图像对应的梯度图像,将
Figure FDA0001993080370000012
对应的梯度图像记为
Figure FDA0001993080370000013
再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集;其中,M为正整数,M≥1000,i为正整数,i的初始值为1,1≤i≤M,1≤p≤W,1≤q≤H,W表示{Li(p,q)}、
Figure FDA0001993080370000014
Figure FDA0001993080370000015
的宽度,H表示{Li(p,q)}、
Figure FDA0001993080370000016
Figure FDA0001993080370000017
的高度,W和H均能被2整除,Li(p,q)表示{Li(p,q)}中坐标位置为(p,q)的像素点的像素值,
Figure FDA0001993080370000018
表示
Figure FDA0001993080370000019
中坐标位置为(p,q)的像素点的像素值,
Figure FDA00019930803700000110
表示
Figure FDA00019930803700000111
中坐标位置为(p,q)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图输入层和梯度图输入层;隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架,RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成,梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成,特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成;其中,4个最大池化层的池化步长均为2×2,第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2,第1个卷积层的卷积核个数为128,第2个卷积层的卷积核个数为16,第3个卷积层的卷积核个数为32,第4个卷积层的卷积核个数为64,第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第5个卷积层的卷积核个数为128,第6个卷积层的卷积核个数为64,第7个卷积层的卷积核个数为32,第8个卷积层的卷积核个数为16,第9个卷积层的卷积核个数为1,9个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu;
对于RGB图输入层,其输入端接收一幅RGB输入图像,其输出端输出RGB图像给隐层;其中,要求RGB输入图像的宽度为W且高度为H;
对于梯度图输入层,其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像,其输出端输出梯度图像给隐层;其中,梯度图像的宽度为W且高度为H;
对于RGB图特征提取框架,第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像,第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D1;第2个并联卷积网络块的输入端接收D1中的所有特征图,第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为D2;第1个最大池化层的输入端接收D2中的所有特征图,第1个最大池化层的输出端输出16幅宽度为
Figure FDA0001993080370000021
且高度为
Figure FDA0001993080370000022
的特征图,将输出的所有特征图构成的集合记为Z1;第3个并联卷积网络块的输入端接收Z1中的所有特征图,第3个并联卷积网络块的输出端输出32幅宽度为
Figure FDA0001993080370000023
且高度为
Figure FDA0001993080370000024
的特征图,将输出的所有特征图构成的集合记为D3;第4个并联卷积网络块的输入端接收D3中的所有特征图,第4个并联卷积网络块的输出端输出32幅宽度为
Figure FDA0001993080370000025
且高度为
Figure FDA0001993080370000026
的特征图,将输出的所有特征图构成的集合记为D4;第5个并联卷积网络块的输入端接收D4中的所有特征图,第5个并联卷积网络块的输出端输出32幅宽度为
Figure FDA0001993080370000027
且高度为
Figure FDA0001993080370000028
的特征图,将输出的所有特征图构成的集合记为D5;第2个最大池化层的输入端接收D5中的所有特征图,第2个最大池化层的输出端输出32幅宽度为
Figure FDA0001993080370000029
且高度为
Figure FDA00019930803700000210
的特征图,将输出的所有特征图构成的集合记为Z2;第6个并联卷积网络块的输入端接收Z2中的所有特征图,第6个并联卷积网络块的输出端输出64幅宽度为
Figure FDA0001993080370000031
且高度为
Figure FDA0001993080370000032
的特征图,将输出的所有特征图构成的集合记为D6;第7个并联卷积网络块的输入端接收D6中的所有特征图,第7个并联卷积网络块的输出端输出64幅宽度为
Figure FDA0001993080370000033
且高度为
Figure FDA0001993080370000034
的特征图,将输出的所有特征图构成的集合记为D7;第8个并联卷积网络块的输入端接收D7中的所有特征图,第8个并联卷积网络块的输出端输出64幅宽度为
Figure FDA0001993080370000035
且高度为
Figure FDA0001993080370000036
的特征图,将输出的所有特征图构成的集合记为D8;第9个并联卷积网络块的输入端接收D8中的所有特征图,第9个并联卷积网络块的输出端输出64幅宽度为
Figure FDA0001993080370000037
且高度为
Figure FDA0001993080370000038
的特征图,将输出的所有特征图构成的集合记为D9;第10个并联卷积网络块的输入端接收D9中的所有特征图,第10个并联卷积网络块的输出端输出64幅宽度为
Figure FDA0001993080370000039
且高度为
Figure FDA00019930803700000310
的特征图,将输出的所有特征图构成的集合记为D10;第3个最大池化层的输入端接收D10中的所有特征图,第3个最大池化层的输出端输出64幅宽度为
Figure FDA00019930803700000311
且高度为
Figure FDA00019930803700000312
的特征图,将输出的所有特征图构成的集合记为Z3;第11个并联卷积网络块的输入端接收Z3中的所有特征图,第11个并联卷积网络块的输出端输出128幅宽度为
Figure FDA00019930803700000313
且高度为
Figure FDA00019930803700000314
的特征图,将输出的所有特征图构成的集合记为D11;第12个并联卷积网络块的输入端接收D11中的所有特征图,第12个并联卷积网络块的输出端输出128幅宽度为
Figure FDA00019930803700000315
且高度为
Figure FDA00019930803700000316
的特征图,将输出的所有特征图构成的集合记为D12;第13个并联卷积网络块的输入端接收D12中的所有特征图,第13个并联卷积网络块的输出端输出128幅宽度为
Figure FDA0001993080370000041
且高度为
Figure FDA0001993080370000042
的特征图,将输出的所有特征图构成的集合记为D13;第14个并联卷积网络块的输入端接收D13中的所有特征图,第14个并联卷积网络块的输出端输出128幅宽度为
Figure FDA0001993080370000043
且高度为
Figure FDA0001993080370000044
的特征图,将输出的所有特征图构成的集合记为D14;第15个并联卷积网络块的输入端接收D14中的所有特征图,第15个并联卷积网络块的输出端输出128幅宽度为
Figure FDA0001993080370000045
且高度为
Figure FDA0001993080370000046
的特征图,将输出的所有特征图构成的集合记为D15;第4个最大池化层的输入端接收D15中的所有特征图,第4个最大池化层的输出端输出128幅宽度为
Figure FDA0001993080370000047
且高度为
Figure FDA0001993080370000048
的特征图,将输出的所有特征图构成的集合记为Z4;第16个并联卷积网络块的输入端接收Z4中的所有特征图,第16个并联卷积网络块的输出端输出256幅宽度为
Figure FDA0001993080370000049
且高度为
Figure FDA00019930803700000410
的特征图,将输出的所有特征图构成的集合记为D16;第17个并联卷积网络块的输入端接收D16中的所有特征图,第17个并联卷积网络块的输出端输出256幅宽度为
Figure FDA00019930803700000411
且高度为
Figure FDA00019930803700000412
的特征图,将输出的所有特征图构成的集合记为D17;第18个并联卷积网络块的输入端接收D17中的所有特征图,第18个并联卷积网络块的输出端输出256幅宽度为
Figure FDA00019930803700000413
且高度为
Figure FDA00019930803700000414
的特征图,将输出的所有特征图构成的集合记为D18;第1个卷积层的输入端接收D18中的所有特征图,第1个卷积层的输出端输出128幅宽度为
Figure FDA00019930803700000415
且高度为
Figure FDA00019930803700000416
的特征图,将输出的所有特征图构成的集合记为G1;第1个批规范化层的输入端接收G1中的所有特征图,第1个批规范化层的输出端输出128幅宽度为
Figure FDA00019930803700000417
且高度为
Figure FDA00019930803700000418
的特征图,将输出的所有特征图构成的集合记为P1
对于梯度图特征提取框架,第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像,第1个卷积层的输出端输出16幅宽度为
Figure FDA0001993080370000051
且高度为
Figure FDA0001993080370000052
的特征图,将输出的所有特征图构成的集合记为G2;第2个批规范化层的输入端接收G2中的所有特征图,第2个批规范化层的输出端输出16幅宽度为
Figure FDA0001993080370000053
且高度为
Figure FDA0001993080370000054
的特征图,将输出的所有特征图构成的集合记为P2;第1个激活层的输入端接收P2中的所有特征图,第1个激活层的输出端输出16幅宽度为
Figure FDA0001993080370000055
且高度为
Figure FDA0001993080370000056
的特征图,将输出的所有特征图构成的集合记为A1;第3个卷积层的输入端接收A1中的所有特征图,第3个卷积层的输出端输出32幅宽度为
Figure FDA0001993080370000057
且高度为
Figure FDA0001993080370000058
的特征图,将输出的所有特征图构成的集合记为G3;第3个批规范化层的输入端接收G3中的所有特征图,第3个批规范化层的输出端输出32幅宽度为
Figure FDA0001993080370000059
且高度为
Figure FDA00019930803700000510
的特征图,将输出的所有特征图构成的集合记为P3;第2个激活层的输入端接收P3中的所有特征图,第2个激活层的输出端输出32幅宽度为
Figure FDA00019930803700000511
且高度为
Figure FDA00019930803700000512
的特征图,将输出的所有特征图构成的集合记为A2;第4个卷积层的输入端接收A2中的所有特征图,第4个卷积层的输出端输出64幅宽度为
Figure FDA00019930803700000513
且高度为
Figure FDA00019930803700000514
的特征图,将输出的所有特征图构成的集合记为G4;第4个批规范化层的输入端接收G4中的所有特征图,第4个批规范化层的输出端输出64幅宽度为
Figure FDA00019930803700000515
且高度为
Figure FDA00019930803700000516
的特征图,将输出的所有特征图构成的集合记为P4;第3个激活层的输入端接收P4中的所有特征图,第3个激活层的输出端输出64幅宽度为
Figure FDA00019930803700000517
且高度为
Figure FDA00019930803700000518
的特征图,将输出的所有特征图构成的集合记为A3;第5个卷积层的输入端接收A3中的所有特征图,第5个卷积层的输出端输出128幅宽度为
Figure FDA0001993080370000061
且高度为
Figure FDA0001993080370000062
的特征图,将输出的所有特征图构成的集合记为G5;第5个批规范化层的输入端接收G5中的所有特征图,第5个批规范化层的输出端输出128幅宽度为
Figure FDA0001993080370000063
且高度为
Figure FDA0001993080370000064
的特征图,将输出的所有特征图构成的集合记为P5;第4个激活层的输入端接收P5中的所有特征图,第4个激活层的输出端输出128幅宽度为
Figure FDA0001993080370000065
且高度为
Figure FDA0001993080370000066
的特征图,将输出的所有特征图构成的集合记为A4
对于特征融合框架,第1个Add融合层的输入端接收P1中的所有特征图和A4中的所有特征图,第1个Add融合层的输出端输出128幅宽度为
Figure FDA0001993080370000067
且高度为
Figure FDA0001993080370000068
的特征图,将输出的所有特征图构成的集合记为Add1;第5个激活层的输入端接收Add1中的所有特征图,第5个激活层的输出端输出128幅宽度为
Figure FDA0001993080370000069
且高度为
Figure FDA00019930803700000610
的特征图,将输出的所有特征图构成的集合记为A5;第1个transitionup网络块的输入端接收A5中的所有特征图和D15中的所有特征图,第1个transitionup网络块的输出端输出256幅宽度为
Figure FDA00019930803700000611
且高度为
Figure FDA00019930803700000612
的特征图,将输出的所有特征图构成的集合记为T1;第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出64幅宽度为
Figure FDA00019930803700000613
且高度为
Figure FDA00019930803700000614
的特征图,将输出的所有特征图构成的集合记为G6;第6个批规范化层的输入端接收G6中的所有特征图,第6个批规范化层的输出端输出64幅宽度为
Figure FDA00019930803700000615
且高度为
Figure FDA00019930803700000616
的特征图,将输出的所有特征图构成的集合记为P6;第2个Add融合层的输入端接收P6中的所有特征图和A3中的所有特征图,第2个Add融合层的输出端输出64幅宽度为
Figure FDA0001993080370000071
且高度为
Figure FDA0001993080370000072
的特征图,将输出的所有特征图构成的集合记为Add2;第6个激活层的输入端接收Add2中的所有特征图,第6个激活层的输出端输出64幅宽度为
Figure FDA0001993080370000073
且高度为
Figure FDA0001993080370000074
的特征图,将输出的所有特征图构成的集合记为A6;第2个transitionup网络块的输入端接收A6中的所有特征图和D10中的所有特征图,第2个transitionup网络块的输出端输出128幅宽度为
Figure FDA0001993080370000075
且高度为
Figure FDA0001993080370000076
的特征图,将输出的所有特征图构成的集合记为T2;第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出32幅宽度为
Figure FDA0001993080370000077
且高度为
Figure FDA0001993080370000078
的特征图,将输出的所有特征图构成的集合记为G7;第7个批规范化层的输入端接收G7中的所有特征图,第7个批规范化层的输出端输出32幅宽度为
Figure FDA0001993080370000079
且高度为
Figure FDA00019930803700000710
的特征图,将输出的所有特征图构成的集合记为P7;第3个Add融合层的输入端接收P7中的所有特征图和A2中的所有特征图,第3个Add融合层的输出端输出32幅宽度为
Figure FDA00019930803700000711
且高度为
Figure FDA00019930803700000712
的特征图,将输出的所有特征图构成的集合记为Add3;第7个激活层的输入端接收Add3中的所有特征图,第7个激活层的输出端输出32幅宽度为
Figure FDA00019930803700000713
且高度为
Figure FDA00019930803700000714
的特征图,将输出的所有特征图构成的集合记为A7;第3个transitionup网络块的输入端接收A7中的所有特征图和D5中的所有特征图,第3个transitionup网络块的输出端输出64幅宽度为
Figure FDA00019930803700000715
且高度为
Figure FDA00019930803700000716
的特征图,将输出的所有特征图构成的集合记为T3;第8个卷积层的输入端接收T3中的所有特征图,第8个卷积层的输出端输出16幅宽度为
Figure FDA00019930803700000717
且高度为
Figure FDA0001993080370000081
的特征图,将输出的所有特征图构成的集合记为G8;第8个批规范化层的输入端接收G8中的所有特征图,第8个批规范化层的输出端输出16幅宽度为
Figure FDA0001993080370000082
且高度为
Figure FDA0001993080370000083
的特征图,将输出的所有特征图构成的集合记为P8;第4个Add融合层的输入端接收P8中的所有特征图和A1中的所有特征图,第4个Add融合层的输出端输出16幅宽度为
Figure FDA0001993080370000084
且高度为
Figure FDA0001993080370000085
的特征图,将输出的所有特征图构成的集合记为Add4;第8个激活层的输入端接收Add4中的所有特征图,第8个激活层的输出端输出16幅宽度为
Figure FDA0001993080370000086
且高度为
Figure FDA0001993080370000087
的特征图,将输出的所有特征图构成的集合记为A8;第4个transitionup网络块的输入端接收A8中的所有特征图和D2中的所有特征图,第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为T4;第9个卷积层的输入端接收T4中的所有特征图,第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图;第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图,第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图;第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图,第9个激活层的输出端输出1幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第9个激活层的输出端输出的特征图,其输出端输出一幅RGB输入图像对应的估计深度图像;其中,估计深度图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的单目RGB图像作为RGB输入图像,将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目RGB图像对应的估计深度图像,将{Li(p,q)}对应的估计深度图像记为
Figure FDA0001993080370000088
其中,
Figure FDA0001993080370000089
表示
Figure FDA00019930803700000810
中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将
Figure FDA0001993080370000091
Figure FDA0001993080370000092
之间的损失函数值记为
Figure FDA0001993080370000093
采用均方误差函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,训练得到卷积神经网络训练模型,并共得到M×V个损失函数值;然后从M×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{L(p',q')}表示待测试的单目RGB图像;然后对{L(p',q')}进行梯度化处理,得到{L(p',q')}对应的梯度图像,记为{Lgradient(p',q')};其中,1≤p'≤W',1≤q'≤H',W'表示{L(p',q')}和{Lgradient(p',q')}的宽度,H'表示{L(p',q')}和{Lgradient(p',q')}的高度,L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值,Lgradient(p',q')表示{Lgradient(p',q')}中坐标位置为(p',q')的像素点的像素值;
步骤2_2:将{L(p',q')}和{Lgradient(p',q')}输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{L(p',q')}对应的预测深度图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
2.根据权利要求1所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成,第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块,卷积层和第2个批规范化层依次设置构成第二输入块,第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块;所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值,所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值,第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16,第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32,第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64,第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128,第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256;
在并联卷积网络块中,第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端,第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图,第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图,第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图,Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图,激活层的输入端接收Add融合层的输出端输出的所有特征图,激活层的输出端作为并联卷积网络块的输出端。
3.根据权利要求1或2所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法,其特征在于所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成;所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2,第1个transitionup网络块中的转置卷积层的卷积核个数为128,第2个transitionup网络块中的转置卷积层的卷积核个数为64,第3个transitionup网络块中的转置卷积层的卷积核个数为32,第4个transitionup网络块中的转置卷积层的卷积核个数为16;
在第1个transitionup网络块中,转置卷积层的输入端接收A5中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D15中的所有特征图,Concatanate融合层的输出端作为第1个transitionup网络块的输出端;
在第2个transitionup网络块中,转置卷积层的输入端接收A6中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D10中的所有特征图,Concatanate融合层的输出端作为第2个transitionup网络块的输出端;
在第3个transitionup网络块中,转置卷积层的输入端接收A7中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D5中的所有特征图,Concatanate融合层的输出端作为第3个transitionup网络块的输出端;
在第4个transitionup网络块中,转置卷积层的输入端接收A8中的所有特征图,Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D2中的所有特征图,Concatanate融合层的输出端作为第4个transitionup网络块的输出端。
CN201910186750.5A 2019-03-13 2019-03-13 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 Active CN110009700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910186750.5A CN110009700B (zh) 2019-03-13 2019-03-13 基于rgb图和梯度图的卷积神经网络视觉深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186750.5A CN110009700B (zh) 2019-03-13 2019-03-13 基于rgb图和梯度图的卷积神经网络视觉深度估计方法

Publications (2)

Publication Number Publication Date
CN110009700A CN110009700A (zh) 2019-07-12
CN110009700B true CN110009700B (zh) 2020-10-20

Family

ID=67166851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186750.5A Active CN110009700B (zh) 2019-03-13 2019-03-13 基于rgb图和梯度图的卷积神经网络视觉深度估计方法

Country Status (1)

Country Link
CN (1) CN110009700B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414674B (zh) * 2019-07-31 2021-09-10 浙江科技学院 一种基于残差网络及局部细化的单目深度估计方法
US11157774B2 (en) * 2019-11-14 2021-10-26 Zoox, Inc. Depth data model training with upsampling, losses, and loss balancing
CN111160441B (zh) * 2019-12-24 2024-03-26 上海联影智能医疗科技有限公司 分类方法、计算机设备和存储介质
CN111104532B (zh) * 2019-12-30 2023-04-25 华南理工大学 一种基于双流网络的rgbd图像联合恢复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146944A (zh) * 2018-10-30 2019-01-04 浙江科技学院 一种基于深度可分卷积神经网络的视觉深度估计方法
CN109272447A (zh) * 2018-08-03 2019-01-25 天津大学 一种深度图超分辨率方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109446933A (zh) * 2018-10-12 2019-03-08 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272447A (zh) * 2018-08-03 2019-01-25 天津大学 一种深度图超分辨率方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109446933A (zh) * 2018-10-12 2019-03-08 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN109146944A (zh) * 2018-10-30 2019-01-04 浙江科技学院 一种基于深度可分卷积神经网络的视觉深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Two-Streamed Network for Estimating Fine-Scaled Depth Maps from Single RGB Images;Jun Li 等;《arXiv》;20171204;正文第1-9页 *

Also Published As

Publication number Publication date
CN110009700A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN109146944B (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110930342B (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110046550B (zh) 基于多层特征学习的行人属性识别系统及方法
CN111275618A (zh) 一种基于双支感知的深度图超分辨率重建网络构建方法
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110458084B (zh) 一种基于倒置残差网络的人脸年龄估计方法
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
US20230401833A1 (en) Method, computer device, and storage medium, for feature fusion model training and sample retrieval
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN112750125B (zh) 一种基于端到端关键点检测的玻璃绝缘子片定位方法
CN111127331A (zh) 基于像素级全局噪声估计编解码网络的图像去噪方法
CN113421237B (zh) 基于深度特征迁移学习的无参考图像质量评价方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112819096A (zh) 一种基于复合卷积神经网络的化石图像分类模型的构建方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN109523558A (zh) 一种人像分割方法及系统
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN109448039B (zh) 一种基于深度卷积神经网络的单目视觉深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant