CN112396645B

CN112396645B - 一种基于卷积残差学习的单目图像深度估计方法和系统

Info

Publication number: CN112396645B
Application number: CN202011221345.1A
Authority: CN
Inventors: 胡静; 张美琦; 张旭阳; 陈智勇; 沈宜帆; 高翔
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2022-05-31
Anticipated expiration: 2040-11-06
Also published as: CN112396645A

Abstract

本发明公开了一种基于卷积残差学习的单目图像深度估计方法和系统，属于图像处理领域。利用预训练的致密神经网络对单目二维图像进行多尺度特征提取；将提取的多尺度特征通过特征金字塔结构和反卷积操作进行融合；将融合得到的多尺度特征通过上采样得到初始深度图；最后将初始深度图和原始参考图像串接进行卷积操作学习深度残差，生成细化的深度预测图像。本发明在深度图估计中引入特征金字塔结构，充分考虑图像的多尺度特征，利用反卷积操作对多尺度特征进行上采样。另外，将通过反卷积得到的初始深度图像和原始的参考图像连接来学习深度残差，然后再将初始深度图添加回来以生成细化的深度信息图，使得到的预测深度图像信息更丰富，细节更明显。

Description

一种基于卷积残差学习的单目图像深度估计方法和系统

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于卷积残差学习的单目图像深度估计方法和系统。

背景技术

通过从深度图中重建模型网格，是目前深度图融合算法中重建效果最好的方法之一。对每个运动视角下捕获的RGB图像估计其对应深度值，直接影响到基于深度图融合的三维目标重建的效果，因此，利用构建一个高效准确的深度图预测网络框架进行三维目标重建具有很大的研究意义。

全卷积网络模型简单来说，就是包含编码-解码(Encoder-Decoder)两个模块，通过编码网络模块对单目图像提取特征，再利用一系列串联的上反卷积层作为解码网络预测图像深度信息。因此，在全卷积网络中如何从二维RGB图像中提取足够的结构特征信息和准确预测像素深度信息是图像深度估计尤其关键的步骤。

王泉德等人2020年提出一种端对端训练的单目图像深度估计网络模型，该模型加入了由图像编码器各层到对应图像解码器各层的跳层结构，实现多尺度的特征融合。但是其使用跳层结构进行多尺度特征融合，并直接利用反卷积得到深度图，该方法存在结构细节信息丢失、预测误差大等问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于卷积残差学习的单目图像深度估计方法和系统，其目的在于通过将反卷积得到的初始深度图像和大小调整后的参考图像连接来学习深度残差，然后再将初始深度图添加回来以生成细化的深度信息图。

为实现上述目的，按照本发明的第一方面，提供了一种基于卷积残差学习的单目图像深度估计方法，该方法包括：

训练阶段：采用训练集训练深度估计模型，所述训练集中的训练样本为单目图像，标签为对应深度图；所述深度估计模型包括：

致密神经网络，用于提取多尺度特征，其输入为单目图像，输出为N个尺度不同、通道数不同的特征图，N个特征图按照特征尺度从大到小依次为第一特征图C₁、第二特征图C₂、…、第N特征图C_N，这些特征图由下而上，通道增加一倍并且尺度减小一倍；

多尺度特征融合模块，用于利用特征金字塔对N个特征图进行融合，其输入为N个尺度不同、通道数不同的特征图，输出为多尺度融合特征图；

上采样优化模块，用于利用反卷积层对多尺度融合特征图进行上采样操作，其输入为多尺度融合特征图和原始单目图像，输出为与原始单目图像尺度相同的初始深度图像；

卷积残差学习模块，用于将初始深度图像和原始单目图像连接为特征向量，利用四个串联的卷积层对连接后的特征向量进行深度残差学习，得到轮廓特征图，然后将初始深度图与轮廓特征图相同位置的像素直接相加，其输入为初始深度图像和原始单目图像，输出为相加得到的优化深度图；

应用阶段：将目标单目图像输入至训练好的深度估计模型，得到目标单目图像的优化深度图。

有益效果：致密神经网络通过卷积神经网络从输入二维图像抽取足够支持后续建模的低层特征向量；多尺度特征融合模块利用特殊结构进行多尺度融合强化特征的空间结构信息；上采样优化模块为了获取每个像素的深度估计值，利用反卷积操作对特征图进行上采样，得到与输入原始图像尺寸大小相同的深度估计图；卷积残差学习模块通过重建深度图的边缘细节信息，使最终输出的深度图像的深度值更加准确，纹理更加丰富。

优选地，所述多尺度特征融合模块包括：

特征金字塔网络，其输入为N个尺度不同、通道数不同的特征图C₁～C_N，输出为N个通道数相同、尺度不同的特征图，金字塔自下而上依次为第一金字塔融合特征图P₁、第二金字塔融合特征图P₂、…第N金字塔融合特征图P_N；

反卷积特征融合模块，用于利用反卷积层对每个金字塔融合特征图进行上采样操作，得到N个通道数相同、尺度相同的反卷积融合特征图S₁、S₂…S_N后，将反卷积融合特征图S₁、S₂…S_N沿特征通道维度进行连接，并利用卷积层对连接后的特征图进行平滑操作，其输入为N个金字塔融合特征图，输出为平滑得到的1个指定通道数的多尺度融合特征图。

有益效果：利用两次融合方式，更适用于二维图像的深度信息估计，既保留了图像特征的细节信息，又具有较好的特征分辨率。

优选地，卷积残差学习模块中的四个串联的卷积层，前面三个卷积层均为conv+BN+ReLU，stride＝1，最后一个卷积层为conv，stride＝1。

有益效果：最后一层卷积层不包含BN层和ReLu单元的目的是为了学习负残差，轮廓信息丰富。

优选地，所述致密神经网络采用DenseNet121网络。

有益效果：既能降维减少计算量，又可以融合各个通道的特征。

优选地，所述致密神经网络末端不包含池化层和全连接层。

有益效果：通过直接把四个Des_block网络块的输出特征作为多尺度特征融合模块的输入，从左到右，原始的RGB图像每经过一个Des_block网络块，特征通道增加一倍、图像尺度减小一倍；最后一层不包含池化层和全连接层，从而将输出特征图当作多尺度特征融合模块的输入。

优选地，输入的单目图像为单目二维RGB图或者灰度图。

为实现上述目的，按照本发明的第二方面，提供了一种基于卷积残差学习的单目图像深度估计系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于卷积残差学习的单目图像深度估计方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

相比直接利用反卷积层得到的初始深度图，本发明在网络结构最后应用了一个深度残差学习优化网络，由于输入的原始参考图像中包含着丰富的边界信息，将通过反卷积得到的初始深度图像和大小调整后的参考图像连接来学习深度残差，然后再将初始深度图添加回来以生成细化的深度信息图，既得到较好的预测误差结果，又保留了图像特征的底层细节信息。

附图说明

图1为本发明提供的一种基于卷积残差学习的单目图像深度估计方法流程图；

图2为本发明提供的基于卷积残差学习的单目图像深度估计模型结构示意图；

图3为本发明提供的致密神经网络结构示意图；

图4为本发明提供的卷积残差学习模块结构示意图；

图5(a)为本发明实施例提供的RGB单目图像；

图5(b)为本发明实施例提供的深度预测实验结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明公开了一种基于卷积残差学习的单目图像深度估计方法，该方法包括：

训练阶段：采用训练集训练深度估计模型，所述训练集中的训练样本为单目图像，标签为对应深度图。优选地，输入的单目图像为单目二维RGB图或者灰度图。本实施例采用NYU Depth V2作为图像深度估计数据集。NYU Depth V2利用Kinect深度传感器采集了约40万张场景范围小于10米的室内场景RGB图像与对应的深度图，总共包含了464个不同的室内场景。

如图2所示，所述深度估计模型包括：

致密神经网络，用于提取多尺度特征，其输入为单目图像，输出为N个尺度不同、通道数不同的特征图，N个特征图按照特征尺度从大到小依次为第一特征图C₁、第二特征图C₂、…、第N特征图C_N，这些特征图由下而上，通道增加一倍并且尺度减小一倍。

优选地，所述致密神经网络采用DenseNet121网络。整个网络共包含4个致密连接网络块，每个Des_block网络块包含2个卷积层，卷积核分别为1和3，在3*3的卷积层前面添加一个1*1的卷积操作，既能降维减少计算量，又可以融合各个通道的特征。随着信息的不断传递，特征图的大小每经过一个卷积网络块就减小一倍，从而得到不同尺度的特征图。transitionlayer包含一个1*1的卷积层，因为每个Des_block输出的channel个数很多，放在两个Des_block模块之间可以起到降维的作用。

如图3所示，优选地，所述致密神经网络末端不包含池化层和全连接层。

多尺度特征融合模块，用于利用特征金字塔对N个特征图进行融合，其输入为N个尺度不同、通道数不同的特征图，输出为多尺度融合特征图。

优选地，所述多尺度特征融合模块包括：

特征金字塔网络，其输入为N个尺度不同、通道数不同的特征图C₁～C_N，输出为N个通道数相同、尺度不同的特征图，金字塔自下而上依次为第一金字塔融合特征图P₁、第二金字塔融合特征图P₂、…第N金字塔融合特征图P_N。

反卷积特征融合模块，用于利用反卷积层对每个金字塔融合特征图进行上采样操作，得到N个通道数相同、尺度相同的反卷积融合特征图S₁、S₂…S_N后，将反卷积融合特征图S₁、S₂…S_N沿特征通道维度进行连接(concat)，并利用卷积层对连接后的特征图进行平滑操作，其输入为N个金字塔融合特征图，输出为平滑得到的1个指定通道数的多尺度融合特征图。本实施例中，指定通道数为1。

上采样优化模块，用于利用反卷积层对多尺度融合特征图进行上采样操作，其输入为多尺度融合特征图和原始单目图像，输出为与原始单目图像尺度相同的初始深度图像。

上采样优化模块通过反卷积进行上采样：先通过上池化层，将得到的特征图没有值的地方补0，再经过卷积操作，使所有有0的地方都能被卷积。

卷积残差学习模块，用于将初始深度图像和原始单目图像连接为特征向量(四通道)，利用四个串联的卷积层对连接后的特征向量进行深度残差学习，得到轮廓特征图，然后将初始深度图与轮廓特征图相同位置的像素直接相加，其输入为初始深度图像和原始单目图像，输出为相加得到的优化深度图。

本实施例将初始深度图和尺度大小一致的原始RGB图像连接成一个特征通道为4的特征向量；然后将其作为深度优化模块的输入，通过4个卷积层来学习深度残差，最后将初始深度图添加到优化模块的输出以生成优化的深度图像。

如图4所示，优选地，卷积残差学习模块中的四个串联的卷积层，前面三个卷积层均为conv+BN+ReLU，stride＝1，最后一个卷积层为conv，stride＝1。

致密神经网络经过预训练，整个模型的训练是端到端训练。本实施例使用真实深度图和估计深度图的BerHu损失作为训练的监督损失：

Loss＝∑(L_p+λL_r)

其中，L_p为初始深度图的BerHu损失，L_r为优化深度图的BerHu损失，权值参数λ设为1。

其中，

为深度预测值，

为深度图真值，c为阈值，具体数值为

即全图残差最大值的0.2倍。

图5(a)为原始RGB参考图像，生成优化的深度图像如图5(b)所示，可见本发明提出的单目图像深度估计方法，在处理纹理信息丰富、环境较复杂的图像时，能获得更加精细的深度信息，不论在误差、准确度，还是总体可视化结果上，都具有明显的优势。

本发明公开了一种基于卷积残差学习的单目图像深度估计系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述基于卷积残差学习的单目图像深度估计方法。

为进一步验证本发明的评价效果，在涵盖不同背景、不同目标等多种情况的NYUDepth V2数据集上，采用4个评价指标：rel、rmse、Iog₁₀和δ对基于多尺度特征融合的全卷积网络深度图预测方法与当前流行算法包括Eigen等人提出方法(即文献David E,ChristianP,Rob F.“Depth map prediction from a single image using a multi-scale deepnetwork”in 28th Conference on Neural Information Processing Systems)，Laina等人提出的方法(即文献Laina I,Rupprecht C,Belagiannis V,et al.“Deeper DepthPrediction with Fully Convolutional Residual Networks”in IEEE ComputerSociety Fourth International Conference on 3d Vision,2016)进行实验验证。

实验结果表明基于多尺度特征融合的全卷积网络深度图预测方法的预测结果更符合误差更小，准确率更高。对于多个算法的评价指标如表1所示：

表1

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积残差学习的单目图像深度估计方法，其特征在于，该方法包括：

多尺度特征融合模块，用于对N个特征图进行融合，其输入为N个尺度不同、通道数不同的特征图C₁～C_N，输出为多尺度融合特征图，具体包括：

反卷积特征融合模块，用于利用反卷积层对每个金字塔融合特征图进行上采样操作，得到N个通道数相同、尺度相同的反卷积融合特征图S₁、S₂…S_N后，将反卷积融合特征图S₁、S₂…S_N沿特征通道维度进行连接，并利用卷积层对连接后的特征图进行平滑操作，其输入为N个金字塔融合特征图，输出为平滑得到的1个指定通道数的多尺度融合特征图；

2.如权利要求1所述的方法，其特征在于，所述致密神经网络采用DenseNet121网络。

3.如权利要求1或2所述的方法，其特征在于，所述致密神经网络末端不包含池化层和全连接层。

4.如权利要求1或2所述的方法，其特征在于，卷积残差学习模块中的四个串联的卷积层，前面三个卷积层均为conv+BN+ReLU，stride＝1，最后一个卷积层为conv，stride＝1。

5.如权利要求1或2所述的方法，其特征在于，输入的单目图像为单目二维RGB图或者灰度图。

6.一种基于卷积残差学习的单目图像深度估计系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至5任一项所述的基于卷积残差学习的单目图像深度估计方法。