CN115620023A

CN115620023A - 一种融合全局特征的实时单目深度估计方法

Info

Publication number: CN115620023A
Application number: CN202211191954.6A
Authority: CN
Inventors: 李俊; 刘希豪; 刘成
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-17

Abstract

本发明涉及基于深度学习的单目深度估计算法领域，公开了一种融合全局特征的实时单目深度估计方法，其包括如下步骤：三通道彩色图片输入进基于分块嵌入层的多尺度特征提取器进行特征提取，图像在多尺度特征提取器中逐步被分成四个尺度，在每个尺度下通过标准卷积层提取图像的基本特征，获得特征图一，使用分块嵌入层进行下采样，减少了提取网络的参数量，在分块嵌入层后跟了由两层标准卷积和一个加法短接组成的残差块进行信息融合。本发明由于采用少量卷积层数的设计，该特征提取器具有低延迟的特点，能够较快地完成4个尺度下的特征提取。

Description

一种融合全局特征的实时单目深度估计方法

技术领域

本发明涉及基于深度学习的单目深度估计算法技术领域，具体涉及一种融合全局特征的实时单目深度估计方法。

背景技术

目前，深度估计作为计算机视觉的基本任务之一，在自动驾驶、3D场景重建、AR、机器人和物联网领域有重要应用。目前获取深度信息的有效方式有激光雷达、深度相机、基于专门算法和相机的深度估计。激光雷达和深度相机作为主动传感器需要依赖专用的硬件组件，其造价成本较高，相比之下利用单目相机的深度估计算法的造价成本更低。单目深度估计得方法能够在成本相对低廉的设备上运行，但深度估计的精确度受到限制，且在现实的应用中，对深度估计的准确度与估计速度都有较高要求。因此在内存或功耗受限设备上实现高精度、轻量化、实时的单目深度估计算法的研究，具有重要的现实意义。传统单目深度估计算法利用了多视图几何理论来进行深度估计，由于单张图片缺乏物体的几何信息，传统方法无法从不相连的物体中预测出准确的深度。近年来，随着深度卷积网络表现出强大的特征提取能力，能够提取高维的特征信息，卷积神经网络在高层视觉任务中的成功推动了基于深度学习的单眼深度估计的进展。然而，由于目前高精度的单目深度估计算法往往存在计算代价大，功耗高、延迟等问题，因此现在的方法很难被实时部署到功耗或者内存受限的设备上。

现有实时单目深度估计算法中，应用了低延迟、高精度的分类网络骨干。例如Wofk等人在英伟达Jetson TX2嵌入式设备上实现了实时的单目深度估计，此方法在基于Mobilenet分类网络，改进了解码器，重新搭建了一种轻量的深度估计算法(参考D.Wofk,F.Ma,T.-J.Yang,S.Karaman and V.Sze,“FastDepth:Fast Monocular Depth Estimationon Embedded Systems,”in Proc.Int.Conf.Robots Autom.,Montreal,QC,Canada,2019,pp.6101-6108)；Yucel等人则使用了辅助网络学习的子网络，并通过一种像素级别的回归损失，来减少网络中间预测层的损失，引导网络输出准确性更高的深度图(参考M.K.Yucel,V.Dimaridou,A.Drosou and A.Saa-Garriga,“Real-time Monocular Depth Estimationwith Sparse Supervision on Mobile,”in Proc.IEEE/CVF Conf.Comput.Vis.PatternRecognit.,Nashville,TN,USA,2021,pp.2428-2437)。目前基于卷积神经网络的单目深度估计算法，可以嵌入式设备上达到一定精度的实时推理，但由于在图像处理过程中，图像经过多尺度的卷积层处理将丢失更多空间和通道信息，此外卷积有限的感受野，将割裂全局图像，只能提取图像局部的特征，因此基于卷积神经网络的实时单目深度估计方法在精度上的提升空间比较小了。而最近在计算机视觉新兴的方法中，Transformer能够在全局感受野下处理图像，且其效果在图像分类任务中能优于以往的卷积神经网络(参考A.Dosovitskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M.Minderer,G.Heigold,S.Gelly,J.Uszkoreit and N.Houlsby,“An imageis worth 16x16 words:Transformers for image recognition at scale,”2020,arXiv:2010.11929)。Mehta等人则利用了Transformer高精度和卷积网络低延迟的优势，提出了一种将局部和全局信息融合的方法完，此方法能够较好地达到精度和速度的平衡。但是上述方法仍然不能在功耗或者内存受限的设备上达到理想的运行效果。

综上所述，现有技术的缺点在以下几方面：

(1)大多数现有的单目深度估计方法仅通过卷积网络实现，深层的卷积网络通常会丢失更多图像的特征信息；

(2)大多数现有的单目深度估计方法需要较长的推理时间，在边缘设备上无法实时运行；

(3)现有的实时算法无法在推理速度和精度方面做一个很好的权衡，无法满足在边缘设备上生成精确度更高的深度图，为此我们提出了一种融合全局特征的实时单目深度估计方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供的一种融合全局特征的实时单目深度估计方法，以解决上述的问题。

(二)技术方案

为实现上述所述目的，本发明提供如下技术方案：

一种融合全局特征的实时单目深度估计方法，包括以下步骤：

第一步：三通道彩色图片输入进基于分块嵌入层的多尺度特征提取器进行特征提取，图像在多尺度特征提取器中逐步被分成四个尺度，在每个尺度下通过标准卷积层提取图像的基本特征，获得特征图一；

第二步：语义特征提取器接收特征图一，在不同的感受野下进行特征的提取，多层空洞卷积提取的特征拼接合拼，通过通道注意力分配特征权重，同时，将所得权重与特征矩阵相乘，获得特征二；

第三步：全局特征提取器接收特征二，将局部特征与全局特征进行融合，在全局特征提取器中，三维特征矩阵通过展平处理和折叠处理变换维度，以便在Transformer下进行全局特征的提取，此外，局部特征通过跳连与全局特征相拼接，同时通过标准卷积进行融合，得到特征图三；

第四步：解码器通过上采样将语义特征提取器所提取的低分辨率特征还原成输入图片的分辨率，同时，解码器合并多尺度特征提取器所提取的基本特征，进行图像重建并完成深度分配，输出得到最终的深度图。

优选的，所述第一步中的特征提取器的骨干由1个分块嵌入层和2个3×3卷积层组成，分别在原图1/16、1/8、1/4和1/2的分辨率下进行特征提取，并生成原图1/16、1/8、1/4和1/2分辨率的粗糙特征图。

优选的，所述第二步中的语义特征提取器包括一个自适应的池化层、1个1×1的卷积层和3个空洞卷积层。

优选的，所述第三步中的全局特征提取器包括标准卷积、特征块展平以及折叠和Transformer，特征矩阵首先经过1×1的卷积层，特征矩阵进行展开操作后，送入Transformer模块中进行全局感受野下的特征提取，而后特征再经折叠操作，还原成原来的维度，再送入1个5×5的标准卷积进行局部和全局信息的融合。

优选的，所述展开和折叠部分中，输入特征的分辨率为H×W，图片块的分辨率为h×w极左N，维度C和P分别是特征块的通道和图片块的数量，折叠是与展开相反的操作。

优选的，所述第四步中的解码器由4个解码器基础骨干组成，骨干由1个双线性插值和1个5×5的卷积层组成，在双线性插值完成后，将接入多尺度特征提取器所获取的特征，再进行特征融合，以减少卷积带来的信息损失，最后1个基础骨干中的5×5的卷积层，用1×1的卷积层代替，直接输出最终的深度图。

优选的，所述使用了组合损失函数进行网络的学习训练，此损失函数组合的总表达式为：

其中α＝0.1，x为一个像素点的深度预测值，

为一个像素点的深度真实值，L_depth表示平均绝对误差，是预测的深度值与真实深度值间差值的绝对平均值，L_SSIM则为SSIM损失函数。

优选的，损失函数是预测值与真实值在亮度、对比度和结构三个维度上进行相似度比较所得出的。

(三)有益效果

与现有技术相比，本发明提供的融合全局特征的实时单目深度估计方法，具备以下有益效果：

1、该融合全局特征的实时单目深度估计方法，使用分块嵌入层进行下采样，减少了提取网络的参数量，在分块嵌入层后跟了由两层标准卷积和一个加法短接组成的残差块进行信息融合。由于其少量卷积层数的设计，该特征提取器具有低延迟的特点，能够较快地完成4个尺度下的特征提取。

2、该融合全局特征的实时单目深度估计方法，提出了将空洞卷积组与通道注意力组合的方法来将语义特征更好地融入网络。空洞卷积组在不同的感受野下提取图像大面积的图像特征，通道注意力则将给合并的特征分配权重，选择网络更感兴趣的语义特征，进而提高深度估计的精度。

3、该融合全局特征的实时单目深度估计方法，网络将原图1/16分辨率的特征输入全局特征提取器，在低延迟的情况下提升了深度估计的精度。大量减少了全局特征提取的参数量，融合了局部和全局的特征，提高了网络对图片细节部分的敏感度。

4、该融合全局特征的实时单目深度估计方法，4个基础骨干下能够迅速上采样到原图的分辨率并完成深度的分配，此外，解码器融合了多尺度特征提取器中的基本特征，减少了卷积层所带来的信息损失，提高了网络的准确性。本发明在NYU Depth v2室内数据集上能够达到一定的精度，评价指标RMSE和δ1分别达到了0.554和78％。在功率或者内存受限的边缘设备上(例如NVIDIA Jetson Nano)，本发明能够实时进行视差估计，这在自动驾驶、机器人、智能家居、智能城市和物联网等领域有着重要意义。

附图说明

图1是本发明实施例的融合全局特征的实时单目深度估计方法的整体组成与流程图；

图2是本发明实施例的基于分块嵌入层的多尺度特征提取器的基础骨干，提取1/16、1/8、1/4和1/2分辨率的特征示意图；

图3是本发明实施例的基于MobileViT的全局特征提取器的具体细节流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1-3，本发明实施例提供的融合全局特征的实时单目深度估计方法，整体组成框架与流程如图1所示。该方法是一种编码器跟解码器的U型结构，分为4个阶段来提取特征、融合特征、还原场景和分配深度，最终得到深度图。

在第1阶段中，网络使用基于分块嵌入层的多尺度特征提取器，分别在原图1/16、1/8、1/4和1/2的分辨率下进行特征提取。由于多尺度特征提取器具有14层卷积运算，第1阶段的运行时间非常小。

在第2阶段中，语义特征提取器接收来自第1阶段获得的特征图，它被送入ASPP模块中，在不同尺度的感受野下进行特征提取，而后再送入标准卷积和通道注意力中进一步筛选网络感兴趣的语义特征。

在第3阶段中，全局特征提取器接收来自第2阶段获得的特征图，特征经过维度转换后送入Transformer模块中进行全局感受野下的特征提取，而后特征再经维度转换，还原成原来的维度，再送入标准卷积进行局部和全局信息的融合。

在第4阶段中，解码器接收来自第3阶段获得的特征图，特征在4个基础骨干下上采样到原图的分辨率并完成深度的分配，最终输出深度图。

具体包括以下几个步骤：

1)搭建基于分块嵌入层的多尺度特征提取器

本发明提出了一个轻量化和高精度的多尺度特征提取网络，如图2所示。特征提取器的骨干由1个分块嵌入层和2个3×3卷积层组成。其中分块嵌入层将分辨率为n*n的输入图片分成n/2个图像块，再将这n/2个图像块送入2D卷积进行运算得到特征矩阵，同时增加特征矩阵的通道数量；2个3×3卷积则进一步融合特征矩阵中的空间特征，并使用加法捷径来减少卷积滤波器的信息损失特征。多尺度特征提取器使用4块骨干，每块骨干分别在原图1/16、1/8、1/4和1/2的分辨率下进行特征提取。此外为了增加更多空间特征，最后一块骨干中多加入了2个3×3卷积层。

2)搭建基于ASPP模块的语义特征提取器

本发明提出了一个用来捕捉大感受野下的图像特征，并通过通道注意力来筛选特征的特征提取器，如图1所示。ASPP模块是一个并行的结构，包括一个自适应的池化层，1个1×1的卷积层和3个空洞卷积层。此外，网络采用6，12，18的比例设置3个不同感受野的空洞卷积。此特征提取器在合并的特征后增加了1个1×1的卷积层和1个通道注意力，筛选大感受野下提取的图像特征。网络通过融合语义特征，能够为场景重建提供更多信息从而提高深度估计的精度。

3)搭建基于MobileViT的全局特征提取器

本发明提供的搭建基于MobileViT的全局特征提取器由三部分组成：标准卷积，特征块展平、折叠和Transformer。如图4所示，特征矩阵首先经过1×1的卷积层，减少通道。特征矩阵进行展开操作后，送入Transformer模块中进行全局感受野下的特征提取，而后特征再经折叠操作，还原成原来的维度，再送入1个5×5的标准卷积进行局部和全局信息的融合。在展开和折叠部分中，输入特征的分辨率为H×W，图片块的分辨率为h×w极左N，维度C和P分别是特征块的通道和图片块的数量，此外，折叠是与展开相反的操作。网络通过融合局部与全局的特征，提高了网络对细节信息的敏感度，从而进一步提高了深度估计的精度。

4)搭建解码器

本发明提供的解码器，能在保持一定精确度的条件下，迅速上采样还原输入图像场景。如图1所示，该解码器由4个解码器基础骨干组成，骨干由1个双线性插值和1个5×5的卷积层组成，此外，在双线性插值完成后，将接入多尺度特征提取器所获取的特征，再进行特征融合，以减少卷积带来的信息损失。最后1个基础骨干中的5×5的卷积层，用1×1的卷积层代替，直接输出最终的深度图。

5)损失函数

由于单使用L1损失函数，网络比较难获得最优解，其深度的准确度也有一定减少。本发明使用了一种损失函数的组合，进行网络的学习训练，可以提高网络的精度，且使输出深度图的观感更符合人眼。此损失函数组合的总表达式为：

其中α＝0.1，x为一个像素点的深度预测值，

为一个像素点的深度真实值，L_depth表示平均绝对误差，是预测的深度值与真实深度值间差值的绝对平均值，L_SSIM则为SSIM损失函数，是预测值与真实值在亮度、对比度和结构三个维度上进行相似度比较所得出的。

综上所述，本专利提出了提供一种高效的编码器-解码器单目深度预测网络，用于嵌入式设备的实时深度估计。所提出的方法利用语义特征提取器和全局特征提取器来获得场景的关键特征，从而进行有效的深度预测。全局特征提取器的自注意力提供了全局感受野的特征增强，以改善深度估计的细节。本专利提出的基于分块嵌入层多尺度特征提取器和解码器的轻量级结构减少了整个网络的运行时间。此外，本专利通过联合损失策略训练提高了可视化的质量和精确度。

大部分现有的技术通常不能在功率或者内存受限的设备上进行快速并且高精度的视差估计。相比之下，本发明能够在资源受限的边缘设备上(NVIDIA Jetson Nano)进行实时部署，并且以较高的精度进行深度估计。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合全局特征的实时单目深度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合全局特征的实时单目深度估计方法，其特征在于：所述第一步中的特征提取器的骨干由1个分块嵌入层和2个3×3卷积层组成，分别在原图1/16、1/8、1/4和1/2的分辨率下进行特征提取，并生成原图1/16、1/8、1/4和1/2分辨率的粗糙特征图。

3.根据权利要求1所述的融合全局特征的实时单目深度估计方法，其特征在于：所述第二步中的语义特征提取器包括一个自适应的池化层、1个1×1的卷积层和3个空洞卷积层。

4.根据权利要求1所述的融合全局特征的实时单目深度估计方法，其特征在于：所述第三步中的全局特征提取器包括标准卷积、特征块展平以及折叠和Transformer，特征矩阵首先经过1×1的卷积层，特征矩阵进行展开操作后，送入Transformer模块中进行全局感受野下的特征提取，而后特征再经折叠操作，还原成原来的维度，再送入1个5×5的标准卷积进行局部和全局信息的融合。

5.根据权利要求4所述的融合全局特征的实时单目深度估计方法，其特征在于：所述展开和折叠部分中，输入特征的分辨率为H×W，图片块的分辨率为h×w极左N，维度C和P分别是特征块的通道和图片块的数量，折叠是与展开相反的操作。

6.根据权利要求1所述的融合全局特征的实时单目深度估计方法，其特征在于：所述第四步中的解码器由4个解码器基础骨干组成，骨干由1个双线性插值和1个5×5的卷积层组成，在双线性插值完成后，将接入多尺度特征提取器所获取的特征，再进行特征融合，以减少卷积带来的信息损失，最后1个基础骨干中的5×5的卷积层，用1×1的卷积层代替，直接输出最终的深度图。

7.根据权利要求1所述的融合全局特征的实时单目深度估计方法，其特征在于：使用了组合损失函数进行网络的学习训练，此损失函数组合的总表达式为：

其中α＝0.1，x为一个像素点的深度预测值，

8.根据权利要求7所述的融合全局特征的实时单目深度估计方法，其特征在于：损失函数是预测值与真实值在亮度、对比度和结构三个维度上进行相似度比较所得出的。