CN112819876A

CN112819876A - 一种基于深度学习的单目视觉深度估计方法

Info

Publication number: CN112819876A
Application number: CN202110185998.7A
Authority: CN
Inventors: 张怡; 程泽宇; 唐成凯; 张玲玲; 宋哲; 孙品先
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-02-13
Filing date: 2021-02-13
Publication date: 2021-05-18
Anticipated expiration: 2041-02-13
Also published as: CN112819876B

Abstract

本发明提出一种基于深度学习的视觉深度估计的方法，通过在现有的深度学习深度估计的网络上添加注意力机制，使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息，以提高网络对视觉信息的理解能力，从而提高了深度估计的准确性以及深度场景还原的清晰度，在确定好图像的深度之后，可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。

Description

一种基于深度学习的单目视觉深度估计方法

技术领域

本发明属于视觉导航领域，具体涉及一种基于深度学习的单目视觉深度估计方法。

背景技术

计算机、5G通信等技术的发展，视觉即时定位与构图(VSLAM)已经受到了越来越多工业界和学术界人的关注。近些年来，基于物理模型和几何方法的VSLAM已经取得了巨大的成果和出色的表现，例如ORB-SLAM(Mur-Artal R,Tardos J D.ORB-SLAM2:an Open-SourceSLAM System for Monocular,Stereo and RGB-D Cameras[J].IEEE Transactions onRobotics,2017,33(5):1255-1262)，RTABMAP(Labbé,Mathieu,Michaud,

RTAB-Mapas an open-source lidar and visual simultaneous localization and mappinglibrary for large-scale and long-term online operation:LABB and MICHAUD[J].Journal of Field Robotics,2018,36.)，Vins-Mono(Tong Q,Peiliang L,ShaojieS.VINS-Mono:A Robust and Versatile Monocular Visual-Inertial State Estimator[J].IEEE Transactions on Robotics,2017,PP(99):1-17.)，Open-Vins(Geneva P,Eckenhoff K,Lee W,et al.OpenVINS:A Research Platform for Visual-InertialEstimation[C]//Proc.of the IEEE International Conference on Robotics andAutomation.IEEE,2020.)等，并且已经初步应用于增强现实技术(AR)，虚拟现实技术(VR)，旋翼无人机控制，自动驾驶等与人工智能相关的新兴领域，取得了较为不错的效果。随着近些年半导体技术突飞猛进地发展，以深度学习的基础的视觉定位与构图技术同样得到了广泛的关注，得益于庞大的数据量和半导体发展带来的高计算能力，这项技术正在快速发展为一个利用数据驱动来定位和估计真实场景结构的新领域。与传统几何方法相比，基于深度学习的方法不需要手动设置物理、数学的几何规则来进行定位和构图，单纯依靠数据驱动模型，并且具有自我学习的能力。而且单目相机由于成本低、功耗低、体积小等优点，广泛使用在手机，移动机器人，旋翼无人机等小型设备上。因此，基于深度学习的单目视觉定位构图技术对于自动驾驶，AR，VR等与人工智能相关的新兴领域同样具有重要意义。

发明内容

由于利用深度学习来解决视觉即时定位与构图属于新兴领域，所以目前还存在多方面的问题，例如估计精度较低，动态场景误差较大，深度还原模糊，模型泛化性较低等。本发明提出了一种基于深度学习的单目视觉深度估计方法，该方法通过在现有的深度学习深度估计的网络上添加注意力机制，使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息，以提高网络对视觉信息的理解能力，从而提高了深度估计的准确性以及深度场景还原的清晰度，在确定好图像的深度之后，可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。

本发明的技术方案为：

一种基于深度学习的单目视觉深度估计方法，包括以下步骤：

步骤1：将待估计图像输入编码网络；

所述编码网络包括卷积层1、注意力机制模块、最大池化层、N个卷积块；

所述注意力机制模块由通道注意力模块和空间注意力模块组成；其中通道注意力模块为一个一维的映射H_c∈R^C×1×1，空间注意力模块为一个二维映射H_s∈R^1×H×W；

待估计图像经过卷积层1之后输出特征图A∈R^C×H×W，其中C为通道数，H和W为特征图的高和宽；特征图A经过注意力机制模块后输出A″：

式中

表示逐元素相乘，在相乘的过程中，通道注意力值沿着空间维度传播，空间注意力的值沿着通道维度传播；

特征图A″依次通过最大池化层和N个卷积块，最终得到编码网络输出A″′；

步骤2：将编码网络输出A″′输入解码网络；

所述解码网络包括N+1个解码块；每个解码块又分别由各自的卷积层A，卷积层B构成；

编码网络最终输出的A″′进入解码网络之后，首先进入解码块1，经过解码块1中的卷积层A将通道数降低，再与编码网络中卷积块N-1输出的特征图进行通道维度的拼接操作，再进入解码块1中的卷积层B，处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图；

解码块1的输出再进入解码块2，经过解码块2中的卷积层A将通道数降低，再与编码网络中卷积块N-2输出的特征图进行通道维度的拼接操作，再进入解码块2中的卷积层B，处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图；

依次类推，解码块N-1的输出再进入解码块N，经过解码块N中的卷积层A将通道数降低，再与编码网络中卷积层1输出的特征图进行通道维度的拼接操作，再进入解码块N中的卷积层B，处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图；

解码块N的输出再进入解码块N+1，经过解码块N+1中的卷积层A将通道数降低，再进入解码块N+1中的卷积层B，处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图；

共得到N+1个尺度的深度图；

步骤3：将步骤2得到的N+1个尺度的深度图分别插值到图像原有的尺度大小，并根据

计算损失，其中D′为根据估计出的深度图以及图像与参考帧之间的相对位姿变换矩阵得出的变换深度图，D″为根据D′的像素坐标以及参考帧估计的深度图插值得到的插值深度图，p为像素，V为图像的像素数量；通过上述公式计算不同尺度下的损失之后，再将这些损失相加就得到了最终的损失值loss；

步骤4：通过最小化损失值使得整个网络形成闭环，进行迭代训练，最终得到训练完成的编解码网络，并采用训练好的编解码网络进行单目视觉深度估计。

进一步的，在所述通道注意力模块中，输入的特征图A分成两路分别进行平均池化和最大池化操作，特征图大小变为R^C×1×1；再经过多层感知机后，特征图大小变为R^C/r×1×1，r为减少率；之后两路数据经过⊙处理，所述⊙处理是指经过一个对应位置相加的操作以及一个sigmoid函数；所述通道注意力模块中的整体处理过程表示为

H_c(A)＝σ(MLP(AvgPool(A))+MLP(MaxPool(A)))

其中σ为sigmoid函数，AvgPool表示平均池化，MaxPool表示最大池化，MLP表示多层感知机操作。

进一步的，在所述空间注意力模块中，输入的特征图A′先经过一个卷积层a，将特征图的通道数减半；再分成两路分别进行通道维度上的平均池化和最大池化的操作，将通道的数量降为1，特征图大小分别为R^1×H×W；再将两路数据进行通道维度上的拼接，最后再经过一个卷积层b以及sigmoid函数，得到最终空间注意力模块的处理结果H_s(A′)；所述空间注意力模块中的整体处理过程表示为

其中σ为sigmoid函数，

为核函数为1×1的卷积层a，

为核函数为7×7的卷积层b。

进一步的，所述最大池化层和N个卷积块的结构为：

其中最大池化层的池化窗口为3×3，步长为2；卷积块1中的

表示输入的该卷积块的特征图分别经过卷积核大小以及通道数分别为1×1,64，3×3,64，1×1,256的卷积层，再与输入的特征图尺度统一后相加输出，并且重复3次。

进一步的，所述解码网络中，各个解码块的具体结构为：

其中卷积层A和B的卷积核大小均为3×3，卷积层A和B下面对应的数字表示输入和输出的通道数。

进一步的，所述解码网络的整体处理过程表示为

F₁＝C_1B([upsample(C_1A(A″′))；J₃])

F₂＝C_2B([upsample(C_2A(F₁))；J₂])

F₃＝C_3B([upsample(C_3A(F₂))；J₁])

F₄＝C_4B([upsample(C_4A(F₃))；A])

F₅＝C_5B(upsample(C_5A(F₄)))

D₁＝1/(α·σ(Conv1(F₁))+β)

D₂＝1/(α·σ(Conv2(F₂))+β)

D₃＝1/(α·σ(Conv3(F₃))+β)

D₄＝1/(α·σ(Conv4(F₄))+β)

D₅＝1/(α·σ(Conv5(F₅))+β)

其中F₁，F₂，F₃，F₄，F₅为解码块1到解码块5的输出特征图，D₁，D₂，D₃，D₄，D₅为解码块1到解码块5得到的不同尺度的深度图，C以及对应下标分别表示每个解码块中的卷积层A、B，J₁，J₂，J₃分别表示编码网络中经过卷积块1，卷积块2，卷积块3的输出特征图；upsample表示对特征图尺度统一处理；Conv表示一个卷积操作，输入通道数与对应解码块输出的通道数相同，输出通道数为1；σ为sigmoid函数，α和β为设定常数。

有益效果

本发明提出一种基于深度学习的视觉深度估计的方法，通过在网络结构内增加注意力机制的方法使得深度学习网络重点关注注意力机制所筛选出来的图像中的关键信息，从而进一步提高了深度估计的精度以及恢复出的深度图像的质量。相对于现有技术，如(Bian J W,Li Z,Wang N,et al.Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video[J].2019.)(以下简称文献5)，本发明在绝对相对误差，均方根误差，对数均方根误差和精确度上均占优。与背景技术中相关现有技术所恢复出的深度图相比，本发明提出的方法所恢复出的深度图更为清晰，细节内容更为丰富，具体见图6对比，图6中A1，B1为原始图像，A2，B2为利用文献(He K,Zhang X,Ren S,etal.Deep Residual Learning for Image Recognition[C]//IEEE Conference onComputer Vision&Pattern Recognition.IEEE Computer Society,2016.)(以下简称文献6)中框架SC-SfMLearner恢复出的深度图，A3，B3为本发明所提出的方法恢复出的深度图。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1基于深度学习的单目视觉深度估计整体结构

图2编码网络结构

图3通道注意力模块

图4空间注意力模块

图5解码网络结构

图6深度图对比

具体实施方式

本发明提出一种基于深度学习的单目视觉深度估计的方法，通过对现有的深度学习深度估计的方案添加注意力机制，使得网络确定视觉信息中当前关键信息在图像中的位置和内容，以提高网络对视觉信息的理解能力，从而提高了深度估计的准确性以及深度场景还原的清晰度。

具体而言，在基于深度学习的深度估计框架中添加注意力机制模块，整个注意力机制模块分为两部分，分别为通道注意力模块和空间注意力模块，对输入图像特征进行处理并输出处理后的图像特征，整个基于深度学习的单目视觉深度估计系统的结构如图1所示。整个系统为一个编码-解码的网络，总图分为编码，解码和损失函数三个部分，图像通过编码网络变为多通道的小尺度特征图，再通过解码网络将小尺度的特征图还原，并在不同尺度中计算出深度图，再将深度图代入损失函数中计算损失值，最后通过最小化损失使得整个网络形成闭环，推动迭代训练。下面具体介绍网络的各个部分。

步骤一：编码网络

编码网络是以SC-SfMLearner网络结构的编码网络部分为基础的，整体上是一个ResNet网络结构，如图2所示，图像输入编码网络，经过卷积层1，之后进入注意力机制模块。这里设图像经过卷积层1之后的量为A∈R^C×H×W，该输入叫做特征图。其中C为通道数，H和W为特征图的高和宽。在注意力机制模块中，通道注意力模块为一个一维的映射H_c∈R^C×1×1，空间注意力模块为一个二维映射H_s∈R^1×H×W。整个注意力机制模块可以总结为(1)式。

式中

表示逐元素相乘，在相乘的过程中，通道注意力值会沿着空间维度传播，空间注意力的值会沿着通道维度传播。A″为注意力机制最终的输出值。下面分别来介绍通道注意力模块、空间注意力模块。

1)通道注意力模块

在通道注意力模块中，将之前卷积层1处理过的信息作为输入特征图进行处理。在特征图中每一个通道都当做一个特征检测器，通道注意力模块重点关注的是图中的关键信息是什么。具体结构如图3所示，首先，输入的特征图分别经过平均池化层(AvgPool)和最大池化层(MaxPool)，经过池化层之后，特征图大小变为R^C×1×1；随后再经过多层感知机(MLP)，在这里多层感知机有一个隐藏层，经过隐藏层特征图大小变为R^C/r×1×1，r为减少率；之后数据在经过⊙处理，⊙是指经过一个对应位置相加的操作以及一个sigmoid函数。整体处理过程可以总结为(2)式

H_c(A)＝σ(MLP(AvgPool(A))+MLP(MaxPool(A))) (2)

其中σ为sigmoid函数，并且在池化层之后都会有一个ReLU激活函数进行处理。

2)空间注意力模块

空间注意力模块是利用特征图中特征之间的空间关系来生成空间注意力图的，与通道注意力不同，空间注意力关注的是关键信息的位置，与通道注意力配合起来就能明确特征图中的关键信息。具体结构如图4所示。首先经过一个卷积层，将特征图的通道数减半；再分别进行通道维度上的平均池化和最大池化的操作，将通道的数量降为1，此时特征图大小分别为R^1×H×W；再将两部分进行通道维度上的拼接，最后再经过一个卷积层以及sigmoid函数，得到最终空间注意力模块的处理结果。整体处理过程可以总结为(3)式

其中σ为sigmoid函数，

为核函数为1×1的卷积层，

为核函数为7×7的卷积层。

3)编码网络剩余部分

在经过注意力机制模块之后，A″进入剩下的ResNet残差网络(该ResNet残差网络在文献He K,Zhang X,Ren S,et al.Deep Residual Learning for Image Recognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE ComputerSociety,2016.中有详细介绍)中，剩余部分主要分为一个最大池化层和四个卷积块，由于本实施例是以深度为50的ResNet来进行的，所以这里以ResNet50为基础介绍剩余网络的结构，具体结构如表1所示，表中最大池化层的池化窗口为3×3，步长为2。卷积块中，

表示特征图分别经过卷积核大小以及通道数分别为1×1,64，3×3,64，1×1,256的卷积层，再与输入的特征图尺度统一后相加输出，并且重复3次。以此类推经过4个卷积块，而且经过每个卷积块特征图尺度都变为原来的一半。最终输出A″′。

表1

步骤二解码网络

解码网络实际上是一个特征图尺度加倍的过程，具体结构如图5所示，整体结构由五个解码块组成，每个解码块又分别由各自的卷积层A，卷积层B构成，解码块具体结构如表2所示。所有卷积层的卷积核大小均为3×3，卷积层A和B下面对应的数字表示输入和输出的通道数。与编码网络对应，解码网络每经过一个解码块，特征图的尺度都加倍。编码网络最终输出的A″′进入解码网络之后，首先进入解码块1，经过解码块1中的卷积层A将通道数降低，再与编码网络中卷积块3输出的特征图进行通道维度的拼接操作，再进入解码块1中的卷积层B，处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图。解码块1的输出再进入解码块2，重复同样的操作。设每个解码块得到深度图为D₁，D₂，D₃，D₄，D₅。解码块1到解码块5的输出特征图分别为F₁，F₂，F₃，F₄，F₅。则整个过程可以总结为(4)(5)式

(4)式中，C以及对应下标分别表示每个解码块中的卷积层A、B，J₁，J₂，J₃分别表示编码网络中经过卷积块1，卷积块2，卷积块3的输出特征图。upsample表示对特征图尺度统一处理。(5)式中，Conv表示一个卷积操作，输入通道数与当时解码块输出的通道数相同，输出通道数为1；σ为sigmoid函数，α和β为常数。

表2

步骤三：损失函数

D₁，D₂，D₃，D₄，D₅为不同尺度下得到的深度图，将这些深度图分别插值到图像原有的尺度大小，再分别经过式(6)与(7)计算损失

(6)式中D′为根据估计出的深度图以及该图像与参考帧之间的相对位姿变换矩阵得出的变换深度图，D″为根据D′的像素坐标以及参考帧估计的深度图插值得到的插值深度图。(6)式是逐像素进行计算的，p为像素。(7)式中V为图像的像素数量。在计算完成不同尺度下的损失之后，再将这些损失相加就得到了最终的损失值loss。最后通过最小化损失值使得整个网络形成闭环，推动迭代训练。

下面结合具体实施例描述本发明：

本实施例采用的系统平台为Ubuntu16.04，软件平台为Python 3.7.9，Pytorch1.8.0以及CUDA 11.0。硬件平台为Intel 10700KF，NVIDIA RTX 3090。为了保证实验结果的精度并且避免网络结构过于复杂，采用ResNet50网络结构。每次训练的样本数设置为4，一次迭代所包含的训练次数设置为1000，迭代次数设置为200，训练序列长度设置为3。训练数据集为KITTI公开数据集kitti_256，测试数据集。测试数据集分别为kitti_depth_test和kitti_vo_test中的sequences09用来分别对于深度估计精度以及深度图恢复分别测试。数据集中的图像分辨率为256×832。这里以单次图像输入网络为例进行介绍。

设数据集中的一张图像为F∈R^C×H×W，其中C＝3，H＝256，W＝832。首先，F输入编码部分ResNet50中，经过卷积层1，卷积层1为ResNet的第一层卷积操作，其输入输出通道数分别为3和64，核函数(kernel size)大小为7×7，步长(stride)为2，填充值(padding)为3；随后再经过一个归一化处理，处理之后的值为

此时，C₁＝64，H₁＝128，W₁＝416。此时的A就是公式(1)中所提到的A。随后进入注意力机制模块，首先是通道注意力模块H_c，根据图3，A分别经过平均池化层(AvgPool)，最大池化层(MaxPool)，经过多层感知机(MLP)后对应元素求和，最后经过sigmoid函数处理得到H_c(A),再与A做乘法得到

这里多层感知机中的参数r设置为16。A′再进入空间注意力模块，如图4所示，首先经过卷积层，该卷积层输入输出通道数分别为64和32，核函数(kernel size)大小为1×1，填充值(padding)为3，步长(stride)为1。再分别在通道维度上进行平均池化和最大池化的操作，使得通道数降为1，再将处理完成的两个数据块按照通道维度拼接，此时数据大小为R^2×H×W。再经过卷积层2，该卷积层输入输出通道数分别为2和1，核函数(kernel size)大小为7×7，填充值(padding)为3，步长(stride)为1，最后经过sigmoid函数得到H_s(A′)，再与A′相乘得到

经过注意力机制模块之后，如图2所示，又经过了最大池化层以及四个卷积块，其具体参数如表1所示，最终输出

其中C₂＝2048，H₂＝8，W₂＝26。

随后进入解码网络，其具体解码块的参数如表2所示，具体处理过程如(4)(5)式，常数α＝10，β＝0.01。经过解码块1后，输出

输出深度图

其中C₃＝256，H₃＝16，W₃＝52；经过解码块2后，输出

输出深度图

其中C₄＝128，H₄＝32，W₄＝104；经过解码块3后，输出

输出深度图

其中C₅＝64，H₅＝64，W₅＝208；经过解码块4后，输出

输出深度图

其中C₆＝32，H₆＝128，W₆＝416；经过解码块5后，输出

输出深度图

其中C₇＝16，H₇＝256，W₇＝832。得到5个不同尺度的深度图之后，将深度图通过插值的方法统一调整为

的大小，再通过(6)(7)计算损失，再将各自计算的损失值相加的到最终的损失loss，最后通过最小化损失使得整个网络形成闭环，推动迭代训练。

利用KITTI数据集进行训练的时间约为43个小时，最终将训练好的模型利用kitti_depth_test数据集进行精度测试，得到深度估计的结果，将此结果与文献5的结果对比如表3所示；将训练好的模型利用kitti_vo_test数据集进行深度图恢复测试，并与文献6的结果进行对比，如图6所示。

表3深度估计指标对比

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的单目视觉深度估计方法，其特征在于：包括以下步骤：

步骤1：将待估计图像输入编码网络；

式中

步骤2：将编码网络输出A″′输入解码网络；

共得到N+1个尺度的深度图；

2.根据权利要求1所述一种基于深度学习的单目视觉深度估计方法，其特征在于：在所述通道注意力模块中，输入的特征图A分成两路分别进行平均池化和最大池化操作，特征图大小变为R^C×1×1；再经过多层感知机后，特征图大小变为R^C/r×1×1，r为减少率；之后两路数据经过⊙处理，所述⊙处理是指经过一个对应位置相加的操作以及一个sigmoid函数；所述通道注意力模块中的整体处理过程表示为

H_c(A)＝σ(MLP(AvgPool(A))+MLP(MaxPool(A)))

3.根据权利要求1或2所述一种基于深度学习的单目视觉深度估计方法，其特征在于：在所述空间注意力模块中，输入的特征图A′先经过一个卷积层a，将特征图的通道数减半；再分成两路分别进行通道维度上的平均池化和最大池化的操作，将通道的数量降为1，特征图大小分别为R^1×H×W；再将两路数据进行通道维度上的拼接，最后再经过一个卷积层b以及sigmoid函数，得到最终空间注意力模块的处理结果H_s(A′)；所述空间注意力模块中的整体处理过程表示为