CN110009700B

CN110009700B - 基于rgb图和梯度图的卷积神经网络视觉深度估计方法

Info

Publication number: CN110009700B
Application number: CN201910186750.5A
Authority: CN
Inventors: 周武杰; 袁建中; 吕思嘉; 雷景生; 钱亚冠
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2020-10-20
Anticipated expiration: 2039-03-13
Also published as: CN110009700A

Abstract

本发明公开了一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其在训练阶段构建卷积神经网络，隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架，RGB图特征提取框架由18个并联卷积网络块、4个最大池化层、1个卷积层、1个批规范化层组成，梯度图特征提取框架由4个卷积层、4个批规范化层、4个激活层组成，特征融合框架由4个Add融合层、4个transitionup网络块、4个卷积层、4个批规范化层、5个激活层组成；将训练集中的单目RGB图像及梯度图像输入到卷积神经网络中进行训练，得到卷积神经网络训练模型；在测试阶段，将待测试的单目RGB图像及梯度图像输入到卷积神经网络训练模型中进行预测，得到预测深度图像；优点是预测精度高。

Description

基于RGB图和梯度图的卷积神经网络视觉深度估计方法

技术领域

本发明涉及一种单目视觉深度估计技术，尤其是涉及一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法。

背景技术

经济的快速腾飞促使了技术的蓬勃发展，人工智能响应着时代的需求应运而生，并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多的人们的关注，计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视，视觉深度估计技术是基本的计算机视觉任务之一，它在机器人和无人驾驶等中显得越发的重要。

无人驾驶的提出是人工智能实际应用的一种重要表现，成熟的无人驾驶技术是人们一直追寻的，行车安全的保障则是无人驾驶中最重要的环节。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全，构成了无人驾驶技术领域重要的一环。

在深度学习和端到端训练框架被提出来之前，单目视觉深度估计主要依靠于传统方法提取的手工特征来生成最终的预测深度结果的，但是，手工特征的精度很低，导致该项技术没有得到实质的进展，从而导致传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习和端到端训练框架被提出之后，立即在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言，深度学习给予了很大的帮助，它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息，这使得单目视觉深度估计的结果精度不断地得到了提升，从而实现了单目视觉深度估计在实际需求中的应用与推广。

Li等人提出了一种快速训练的双流卷积神经网络模型，该模型可以预测深度和深度梯度，然后将它们融合在一起形成精确而详细的深度图。虽然该模型融合了深度和深度梯度的信息来生成最终的预测深度图，但是卷积神经网络在预测深度图过程中提取的特征信息已包含了梯度信息，再次融合深度梯度会导致梯度特征显示覆盖掉其它具有重要深度信息的特征而导致最终结果精度的下降。

发明内容

本发明所要解决的技术问题是提供一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其视觉深度估计精度高。

本发明解决上述技术问题所采用的技术方案为：一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取M幅原始的单目RGB图像及每幅原始的单目RGB图像对应的真实深度图像，将第i幅原始的单目RGB图像记为{Lⁱ(p,q)}，将{Lⁱ(p,q)}对应的真实深度图像记为

然后对每幅原始的单目RGB图像进行梯度化处理，得到每幅原始的单目RGB图像对应的梯度图像，将{Lⁱ(p,q)}对应的梯度图像记为

再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集；其中，M为正整数，M≥1000，i为正整数，i的初始值为1，1≤i≤M，1≤p≤W，1≤q≤H，W表示{Lⁱ(p,q)}、

和

的宽度，H表示{Lⁱ(p,q)}、

和

的高度，W和H均能被2整除，Lⁱ(p,q)表示{Lⁱ(p,q)}中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值；

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；输入层包括RGB图输入层和梯度图输入层；隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架，RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成，梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成，特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成；其中，4个最大池化层的池化步长均为2×2，第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2，第1个卷积层的卷积核个数为128，第2个卷积层的卷积核个数为16，第3个卷积层的卷积核个数为32，第4个卷积层的卷积核个数为64，第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值，第5个卷积层的卷积核个数为128，第6个卷积层的卷积核个数为64，第7个卷积层的卷积核个数为32，第8个卷积层的卷积核个数为16，第9个卷积层的卷积核个数为1，9个批规范化层的参数均采用默认值，9个激活层的激活函数均采用ReLu；

对于RGB图输入层，其输入端接收一幅RGB输入图像，其输出端输出RGB图像给隐层；其中，要求RGB输入图像的宽度为W且高度为H；

对于梯度图输入层，其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像，其输出端输出梯度图像给隐层；其中，梯度图像的宽度为W且高度为H；

对于RGB图特征提取框架，第1个并联卷积网络块的输入端接收RGB图输入层的输出端输出的RGB图像，第1个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为D₁；第2个并联卷积网络块的输入端接收D₁中的所有特征图，第2个并联卷积网络块的输出端输出16幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为D₂；第1个最大池化层的输入端接收D₂中的所有特征图，第1个最大池化层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Z₁；第3个并联卷积网络块的输入端接收Z₁中的所有特征图，第3个并联卷积网络块的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₃；第4个并联卷积网络块的输入端接收D₃中的所有特征图，第4个并联卷积网络块的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₄；第5个并联卷积网络块的输入端接收D₄中的所有特征图，第5个并联卷积网络块的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₅；第2个最大池化层的输入端接收D₅中的所有特征图，第2个最大池化层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Z₂；第6个并联卷积网络块的输入端接收Z₂中的所有特征图，第6个并联卷积网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₆；第7个并联卷积网络块的输入端接收D₆中的所有特征图，第7个并联卷积网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₇；第8个并联卷积网络块的输入端接收D₇中的所有特征图，第8个并联卷积网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₈；第9个并联卷积网络块的输入端接收D₈中的所有特征图，第9个并联卷积网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₉；第10个并联卷积网络块的输入端接收D₉中的所有特征图，第10个并联卷积网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₀；第3个最大池化层的输入端接收D₁₀中的所有特征图，第3个最大池化层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Z₃；第11个并联卷积网络块的输入端接收Z₃中的所有特征图，第11个并联卷积网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₁；第12个并联卷积网络块的输入端接收D₁₁中的所有特征图，第12个并联卷积网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₂；第13个并联卷积网络块的输入端接收D₁₂中的所有特征图，第13个并联卷积网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₃；第14个并联卷积网络块的输入端接收D₁₃中的所有特征图，第14个并联卷积网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₄；第15个并联卷积网络块的输入端接收D₁₄中的所有特征图，第15个并联卷积网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₅；第4个最大池化层的输入端接收D₁₅中的所有特征图，第4个最大池化层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Z₄；第16个并联卷积网络块的输入端接收Z₄中的所有特征图，第16个并联卷积网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₆；第17个并联卷积网络块的输入端接收D₁₆中的所有特征图，第17个并联卷积网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₇；第18个并联卷积网络块的输入端接收D₁₇中的所有特征图，第18个并联卷积网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为D₁₈；第1个卷积层的输入端接收D₁₈中的所有特征图，第1个卷积层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₁；第1个批规范化层的输入端接收G₁中的所有特征图，第1个批规范化层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁；

对于梯度图特征提取框架，第2个卷积层的输入端接收梯度图输入层的输出端输出的梯度图像，第1个卷积层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₂；第2个批规范化层的输入端接收G₂中的所有特征图，第2个批规范化层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₂；第1个激活层的输入端接收P₂中的所有特征图，第1个激活层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₁；第3个卷积层的输入端接收A₁中的所有特征图，第3个卷积层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₃；第3个批规范化层的输入端接收G₃中的所有特征图，第3个批规范化层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₃；第2个激活层的输入端接收P₃中的所有特征图，第2个激活层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₂；第4个卷积层的输入端接收A₂中的所有特征图，第4个卷积层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₄；第4个批规范化层的输入端接收G₄中的所有特征图，第4个批规范化层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₄；第3个激活层的输入端接收P₄中的所有特征图，第3个激活层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₃；第5个卷积层的输入端接收A₃中的所有特征图，第5个卷积层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₅；第5个批规范化层的输入端接收G₅中的所有特征图，第5个批规范化层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₅；第4个激活层的输入端接收P₅中的所有特征图，第4个激活层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₄；

对于特征融合框架，第1个Add融合层的输入端接收P₁中的所有特征图和A₄中的所有特征图，第1个Add融合层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Add₁；第5个激活层的输入端接收Add₁中的所有特征图，第5个激活层的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₅；第1个transitionup网络块的输入端接收A₅中的所有特征图和D₁₅中的所有特征图，第1个transitionup网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为T₁；第6个卷积层的输入端接收T₁中的所有特征图，第6个卷积层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₆；第6个批规范化层的输入端接收G₆中的所有特征图，第6个批规范化层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₆；第2个Add融合层的输入端接收P₆中的所有特征图和A₃中的所有特征图，第2个Add融合层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Add₂；第6个激活层的输入端接收Add₂中的所有特征图，第6个激活层的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₆；第2个transitionup网络块的输入端接收A₆中的所有特征图和D₁₀中的所有特征图，第2个transitionup网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为T₂；第7个卷积层的输入端接收T₂中的所有特征图，第7个卷积层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₇；第7个批规范化层的输入端接收G₇中的所有特征图，第7个批规范化层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₇；第3个Add融合层的输入端接收P₇中的所有特征图和A₂中的所有特征图，第3个Add融合层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Add₃；第7个激活层的输入端接收Add₃中的所有特征图，第7个激活层的输出端输出32幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₇；第3个transitionup网络块的输入端接收A₇中的所有特征图和D₅中的所有特征图，第3个transitionup网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为T₃；第8个卷积层的输入端接收T₃中的所有特征图，第8个卷积层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为G₈；第8个批规范化层的输入端接收G₈中的所有特征图，第8个批规范化层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₈；第4个Add融合层的输入端接收P₈中的所有特征图和A₁中的所有特征图，第4个Add融合层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为Add₄；第8个激活层的输入端接收Add₄中的所有特征图，第8个激活层的输出端输出16幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₈；第4个transitionup网络块的输入端接收A₈中的所有特征图和D₂中的所有特征图，第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为T₄；第9个卷积层的输入端接收T₄中的所有特征图，第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图；第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图，第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图；第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图，第9个激活层的输出端输出1幅宽度为W且高度为H的特征图；

对于输出层，其输入端接收第9个激活层的输出端输出的特征图，其输出端输出一幅RGB输入图像对应的估计深度图像；其中，估计深度图像的宽度为W且高度为H；

步骤1_3：将训练集中的每幅原始的单目RGB图像作为RGB输入图像，将RGB输入图像及其对应的梯度图像输入到卷积神经网络中进行训练，得到训练集中的每幅原始的单目RGB图像对应的估计深度图像，将{Lⁱ(p,q)}对应的估计深度图像记为

其中，

表示

中坐标位置为(p,q)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目RGB图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，将

与

之间的损失函数值记为

采用均方误差函数获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，训练得到卷积神经网络训练模型，并共得到M×V个损失函数值；然后从M×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令{L(p',q')}表示待测试的单目RGB图像；然后对{L(p',q')}进行梯度化处理，得到{L(p',q')}对应的梯度图像，记为{L_gradient(p',q')}；其中，1≤p'≤W'，1≤q'≤H'，W'表示{L(p',q')}和{L_gradient(p',q')}的宽度，H'表示{L(p',q')}和{L_gradient(p',q')}的高度，L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值，L_gradient(p',q')表示{L_gradient(p',q')}中坐标位置为(p',q')的像素点的像素值；

步骤2_2：将{L(p',q')}和{L_gradient(p',q')}输入到卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到{L(p',q')}对应的预测深度图像，记为{L_predctio_n(p',q')}；其中，L_predctio_n(p',q')表示{L_predctio_n(p',q')}中坐标位置为(p',q')的像素点的像素值。

所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成，第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块，卷积层和第2个批规范化层依次设置构成第二输入块，第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块；所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值，所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值，第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16，第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32，第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64，第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128，第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256；

在并联卷积网络块中，第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端，第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图，第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图，第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图，Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图，激活层的输入端接收Add融合层的输出端输出的所有特征图，激活层的输出端作为并联卷积网络块的输出端。

所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成；所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2，第1个transitionup网络块中的转置卷积层的卷积核个数为128，第2个transitionup网络块中的转置卷积层的卷积核个数为64，第3个transitionup网络块中的转置卷积层的卷积核个数为32，第4个transitionup网络块中的转置卷积层的卷积核个数为16；

在第1个transitionup网络块中，转置卷积层的输入端接收A₅中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₁₅中的所有特征图，Concatanate融合层的输出端作为第1个transitionup网络块的输出端；

在第2个transitionup网络块中，转置卷积层的输入端接收A₆中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₁₀中的所有特征图，Concatanate融合层的输出端作为第2个transitionup网络块的输出端；

在第3个transitionup网络块中，转置卷积层的输入端接收A₇中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₅中的所有特征图，Concatanate融合层的输出端作为第3个transitionup网络块的输出端；

在第4个transitionup网络块中，转置卷积层的输入端接收A₈中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₂中的所有特征图，Concatanate融合层的输出端作为第4个transitionup网络块的输出端。

与现有技术相比，本发明的优点在于：

1)本发明方法构建了使用单目RGB图像及其对应的梯度图像作为两个输入的双流卷积神经网络，加入梯度图像输入到卷积神经网络中，可使得卷积神经网络能够通过梯度图像来获取在单目RGB图像特征提取过程中丢失的梯度信息，从而可以使得训练得到的卷积神经网络训练模型的预测结果变得更加的准确。

2)本发明方法结合两个深度可分离卷积层、一个常规的卷积层以及三个批规范化层、一个激活层和一个Add融合层搭建了一个并联卷积网络块，并联的结构使得两个深度可分离卷积层、一个常规的卷积层提取到的特征互不影响，再使用Add融合层融合来自这三个层的输出特征，这保证了并联卷积网络块可以提取到多样而丰富的特征信息，这有利于使用卷积神经网络训练模型预测得到的预测深度图像的精确性。

3)本发明方法使用了Add融合层和Concatenate融合层，Add融合层主要融合来自梯度流提取到的特征信息，实现了对提取信息的充分利用；Concatenate融合层使用在transitionup网络块中，主要用来融合转置卷积层的输出和RGB流过程中提取到的对应尺寸相同的特征信息，这提供了单目RGB图像中的低级特征信息，两种融合层的配合更有益于提高卷积神经网络训练模型的预测精度。

附图说明

图1为本发明方法的总体实现框图；

图2为本发明方法中构建的卷积神经网络的组成结构示意图；

图3为本发明方法中构建的卷积神经网络中的并联卷积网络块的组成结构示意图；

图4为本发明方法中构建的卷积神经网络中的transitionup网络块的组成结构示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

再将所有原始的单目RGB图像及对应的真实深度图像和对应的梯度图像构成训练集；其中，M为正整数，M≥1000，在本申请的技术方案的基础上通过大量实验发现选取1000幅以上原始的单目RGB图像均能使得训练后得到的模型的预测结果很好，考虑到计算复杂度取M＝4000时预测结果最佳，i为正整数，i的初始值为1，1≤i≤M，1≤p≤W，1≤q≤H，W表示{Lⁱ(p,q)}、

和

的宽度，H表示{Lⁱ(p,q)}、

和

表示

中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值，梯度化处理可以采用现有的任何一种梯度化处理方法，如可选用最常用的梯度化处理方法。

步骤1_2：构建卷积神经网络：如图2所示，卷积神经网络包括输入层、隐层和输出层；输入层包括RGB图输入层和梯度图输入层；隐层包括RGB图特征提取框架、梯度图特征提取框架、特征融合框架，RGB图特征提取框架由第1个至第18个并联卷积网络块、第1个至第4个最大池化层、第1个卷积层、第1个批规范化层组成，梯度图特征提取框架由第2个至第5个卷积层、第2个至第5个批规范化层、第1个至第4个激活层组成，特征融合框架由第1个至第4个Add融合层、第1个至第4个transitionup网络块(Jégou S,Drozdzal M,Vazquez D,etal.The one hundred layers tiramisu:Fully convolutional densenets for semanticsegmentation[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops.2017:11-19.(一百层Tiramisu：用于语义分割的完全卷积密集网络，计算机视觉和模式识别研讨会))、第6个至第9个卷积层、第6个至第9个批规范化层、第5个至第9个激活层组成；其中，4个最大池化层的池化步长均为2×2，第1个至第4个卷积层的卷积核大小均为3×3、卷积步长均设置为2×2，第1个卷积层的卷积核个数为128，第2个卷积层的卷积核个数为16，第3个卷积层的卷积核个数为32，第4个卷积层的卷积核个数为64，第5个至第9个卷积层的卷积核大小均为1×1、卷积步长均采用默认值，第5个卷积层的卷积核个数为128，第6个卷积层的卷积核个数为64，第7个卷积层的卷积核个数为32，第8个卷积层的卷积核个数为16，第9个卷积层的卷积核个数为1，9个批规范化层的参数均采用默认值，9个激活层的激活函数均采用ReLu。

对于RGB图输入层，其输入端接收一幅RGB输入图像，其输出端输出RGB图像给隐层；其中，要求RGB输入图像的宽度为W且高度为H。

对于梯度图输入层，其输入端接收RGB图输入层的输入端接收的RGB输入图像对应的梯度图像，其输出端输出梯度图像给隐层；其中，梯度图像的宽度为W且高度为H。

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁。

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₄。

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₈；第4个transitionup网络块的输入端接收A₈中的所有特征图和D₂中的所有特征图，第4个transitionup网络块的输出端输出32幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为T₄；第9个卷积层的输入端接收T₄中的所有特征图，第9个卷积层的输出端输出1幅宽度为W且高度为H的特征图；第9个批规范化层的输入端接收第9个卷积层的输出端输出的特征图，第9个批规范化层的输出端输出1幅宽度为W且高度为H的特征图；第9个激活层的输入端接收第9个批规范化层的输出端输出的特征图，第9个激活层的输出端输出1幅宽度为W且高度为H的特征图。

对于输出层，其输入端接收第9个激活层的输出端输出的特征图，其输出端输出一幅RGB输入图像对应的估计深度图像；其中，估计深度图像的宽度为W且高度为H。

在此具体实施例中，如图3所示，所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成，第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块，卷积层和第2个批规范化层依次设置构成第二输入块，第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块；所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值，所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值，第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16，第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32，第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64，第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128，第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256。在并联卷积网络块中，第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端相连接作为并联卷积网络块的输入端，接收同一个集合中的所有特征图，如对于第6个并联卷积网络块，第1个深度可分离卷积层的输入端、卷积层的输入端、第2个深度可分离卷积层的输入端均接收Z₂中的所有特征图，第1个批规范化层的输入端接收第1个深度可分离卷积层的输出端输出的所有特征图，第2个批规范化层的输入端接收卷积层的输出端输出的所有特征图，第3个批规范化层的输入端接收第2个深度可分离卷积层的输出端输出的所有特征图，Add融合层的输入端接收第1个批规范化层的输出端输出的所有特征图、第2个批规范化层的输出端输出的所有特征图、第3个批规范化层的输出端输出的所有特征图，激活层的输入端接收Add融合层的输出端输出的所有特征图，激活层的输出端作为并联卷积网络块的输出端。

在此具体实施例中，如图4所示，所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成；所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2，第1个transitionup网络块中的转置卷积层的卷积核个数为128，第2个transitionup网络块中的转置卷积层的卷积核个数为64，第3个transitionup网络块中的转置卷积层的卷积核个数为32，第4个transitionup网络块中的转置卷积层的卷积核个数为16。在第1个transitionup网络块中，转置卷积层的输入端接收A₅中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₁₅中的所有特征图，Concatanate融合层的输出端作为第1个transitionup网络块的输出端。在第2个transitionup网络块中，转置卷积层的输入端接收A₆中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₁₀中的所有特征图，Concatanate融合层的输出端作为第2个transitionup网络块的输出端。在第3个transitionup网络块中，转置卷积层的输入端接收A₇中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₅中的所有特征图，Concatanate融合层的输出端作为第3个transitionup网络块的输出端。在第4个transitionup网络块中，转置卷积层的输入端接收A₈中的所有特征图，Concatanate融合层的输入端接收转置卷积层的输出端输出的所有特征图和D₂中的所有特征图，Concatanate融合层的输出端作为第4个transitionup网络块的输出端。

其中，

表示

中坐标位置为(p,q)的像素点的像素值。

与

之间的损失函数值记为

采用均方误差函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，训练得到卷积神经网络训练模型，并共得到M×V个损失函数值；然后从M×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令{L(p',q')}表示待测试的单目RGB图像；然后对{L(p',q')}进行梯度化处理，得到{L(p',q')}对应的梯度图像，记为{L_gradient(p',q')}；其中，1≤p'≤W'，1≤q'≤H'，W'表示{L(p',q')}和{L_gradient(p',q')}的宽度，H'表示{L(p',q')}和{L_gradient(p',q')}的高度，L(p',q')表示{L(p',q')}中坐标位置为(p',q')的像素点的像素值，L_gradient(p',q')表示{L_gradient(p',q')}中坐标位置为(p',q')的像素点的像素值。

步骤2_2：将{L(p',q')}和{L_gradient(p',q')}输入到卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到{L(p',q')}对应的预测深度图像，记为{L_predction(p',q')}；其中，L_predction(p',q')表示{L_predction(p',q')}中坐标位置为(p',q')的像素点的像素值。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

在此，本发明方法中构成训练集的原始的单目RGB图像和用于测试的单目RGB图像均由KITTI官方网站给出，因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目RGB图像作为待测试的单目RGB图像，将待测试的单目RGB图像及其对应的梯度图像输入到卷积神经网络训练模型中，再载入训练阶段得到的最优权值矢量W^best，获得对应的预测深度图像。

在此，采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标，即：均方根误差(root mean squared error，rms)、对数均方根误差(log_rms)、平均对数误差(average log₁₀ error，log10)、阈值准确性(thr)：δ₁、δ₂、δ₃。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近，δ₁、δ₂、δ₃的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ₁、δ₂、δ₃的结果如表1所列。

表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标

从表1所列的数据可知，按本发明方法获得的预测深度图像与真实深度图像之间的差别很小，这充分说明了本发明方法的预测结果的精度很高，体现了本发明方法的可行性和有效性。

Claims

1.一种基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

然后对每幅原始的单目RGB图像进行梯度化处理，得到每幅原始的单目RGB图像对应的梯度图像，将

对应的梯度图像记为

和

的宽度，H表示{Lⁱ(p,q)}、

和

表示

中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值；

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁；

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为A₄；

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

其中，

表示

中坐标位置为(p,q)的像素点的像素值；

与

之间的损失函数值记为

采用均方误差函数获得；

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其特征在于所有并联卷积网络块均由2个深度可分离卷积层、1个卷积层、3个批规范化层、1个Add融合层、1个激活层组成，第1个深度可分离卷积层和第1个批规范化层依次设置构成第一输入块，卷积层和第2个批规范化层依次设置构成第二输入块，第2个深度可分离卷积层和第3个批规范化层依次设置构成第三输入块；所有并联卷积网络块中的卷积层的卷积核大小均为3×3、卷积步长均采用默认值，所有并联卷积网络块中的深度可分离卷积层的卷积核大小均为1×1、卷积步长均采用默认值，第1个和第2个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为16，第3个至第5个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为32，第6个至第10个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为64，第11个至第15个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为128，第16个至第18个并联卷积网络块中的卷积层和深度可分离卷积层的卷积核个数为256；

3.根据权利要求1或2所述的基于RGB图和梯度图的卷积神经网络视觉深度估计方法，其特征在于所有transitionup网络块均由1个转置卷积层和1个Concatanate融合层组成；所有transitionup网络块中的转置卷积层的卷积核大小均采用默认值、卷积步长均为2×2，第1个transitionup网络块中的转置卷积层的卷积核个数为128，第2个transitionup网络块中的转置卷积层的卷积核个数为64，第3个transitionup网络块中的转置卷积层的卷积核个数为32，第4个transitionup网络块中的转置卷积层的卷积核个数为16；