CN112819876A - 一种基于深度学习的单目视觉深度估计方法 - Google Patents

一种基于深度学习的单目视觉深度估计方法 Download PDF

Info

Publication number
CN112819876A
CN112819876A CN202110185998.7A CN202110185998A CN112819876A CN 112819876 A CN112819876 A CN 112819876A CN 202110185998 A CN202110185998 A CN 202110185998A CN 112819876 A CN112819876 A CN 112819876A
Authority
CN
China
Prior art keywords
convolution
decoding
output
network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110185998.7A
Other languages
English (en)
Other versions
CN112819876B (zh
Inventor
张怡
程泽宇
唐成凯
张玲玲
宋哲
孙品先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110185998.7A priority Critical patent/CN112819876B/zh
Publication of CN112819876A publication Critical patent/CN112819876A/zh
Application granted granted Critical
Publication of CN112819876B publication Critical patent/CN112819876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于深度学习的视觉深度估计的方法,通过在现有的深度学习深度估计的网络上添加注意力机制,使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息,以提高网络对视觉信息的理解能力,从而提高了深度估计的准确性以及深度场景还原的清晰度,在确定好图像的深度之后,可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。

Description

一种基于深度学习的单目视觉深度估计方法
技术领域
本发明属于视觉导航领域,具体涉及一种基于深度学习的单目视觉深度估计方法。
背景技术
计算机、5G通信等技术的发展,视觉即时定位与构图(VSLAM)已经受到了越来越多工业界和学术界人的关注。近些年来,基于物理模型和几何方法的VSLAM已经取得了巨大的成果和出色的表现,例如ORB-SLAM(Mur-Artal R,Tardos J D.ORB-SLAM2:an Open-SourceSLAM System for Monocular,Stereo and RGB-D Cameras[J].IEEE Transactions onRobotics,2017,33(5):1255-1262),RTABMAP(Labbé,Mathieu,Michaud,
Figure BDA0002943074150000011
RTAB-Mapas an open-source lidar and visual simultaneous localization and mappinglibrary for large-scale and long-term online operation:LABB and MICHAUD[J].Journal of Field Robotics,2018,36.),Vins-Mono(Tong Q,Peiliang L,ShaojieS.VINS-Mono:A Robust and Versatile Monocular Visual-Inertial State Estimator[J].IEEE Transactions on Robotics,2017,PP(99):1-17.),Open-Vins(Geneva P,Eckenhoff K,Lee W,et al.OpenVINS:A Research Platform for Visual-InertialEstimation[C]//Proc.of the IEEE International Conference on Robotics andAutomation.IEEE,2020.)等,并且已经初步应用于增强现实技术(AR),虚拟现实技术(VR),旋翼无人机控制,自动驾驶等与人工智能相关的新兴领域,取得了较为不错的效果。随着近些年半导体技术突飞猛进地发展,以深度学习的基础的视觉定位与构图技术同样得到了广泛的关注,得益于庞大的数据量和半导体发展带来的高计算能力,这项技术正在快速发展为一个利用数据驱动来定位和估计真实场景结构的新领域。与传统几何方法相比,基于深度学习的方法不需要手动设置物理、数学的几何规则来进行定位和构图,单纯依靠数据驱动模型,并且具有自我学习的能力。而且单目相机由于成本低、功耗低、体积小等优点,广泛使用在手机,移动机器人,旋翼无人机等小型设备上。因此,基于深度学习的单目视觉定位构图技术对于自动驾驶,AR,VR等与人工智能相关的新兴领域同样具有重要意义。
发明内容
由于利用深度学习来解决视觉即时定位与构图属于新兴领域,所以目前还存在多方面的问题,例如估计精度较低,动态场景误差较大,深度还原模糊,模型泛化性较低等。本发明提出了一种基于深度学习的单目视觉深度估计方法,该方法通过在现有的深度学习深度估计的网络上添加注意力机制,使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息,以提高网络对视觉信息的理解能力,从而提高了深度估计的准确性以及深度场景还原的清晰度,在确定好图像的深度之后,可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。
本发明的技术方案为:
一种基于深度学习的单目视觉深度估计方法,包括以下步骤:
步骤1:将待估计图像输入编码网络;
所述编码网络包括卷积层1、注意力机制模块、最大池化层、N个卷积块;
所述注意力机制模块由通道注意力模块和空间注意力模块组成;其中通道注意力模块为一个一维的映射Hc∈RC×1×1,空间注意力模块为一个二维映射Hs∈R1×H×W
待估计图像经过卷积层1之后输出特征图A∈RC×H×W,其中C为通道数,H和W为特征图的高和宽;特征图A经过注意力机制模块后输出A″:
Figure BDA0002943074150000021
Figure BDA0002943074150000022
式中
Figure BDA0002943074150000023
表示逐元素相乘,在相乘的过程中,通道注意力值沿着空间维度传播,空间注意力的值沿着通道维度传播;
特征图A″依次通过最大池化层和N个卷积块,最终得到编码网络输出A″′;
步骤2:将编码网络输出A″′输入解码网络;
所述解码网络包括N+1个解码块;每个解码块又分别由各自的卷积层A,卷积层B构成;
编码网络最终输出的A″′进入解码网络之后,首先进入解码块1,经过解码块1中的卷积层A将通道数降低,再与编码网络中卷积块N-1输出的特征图进行通道维度的拼接操作,再进入解码块1中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
解码块1的输出再进入解码块2,经过解码块2中的卷积层A将通道数降低,再与编码网络中卷积块N-2输出的特征图进行通道维度的拼接操作,再进入解码块2中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
依次类推,解码块N-1的输出再进入解码块N,经过解码块N中的卷积层A将通道数降低,再与编码网络中卷积层1输出的特征图进行通道维度的拼接操作,再进入解码块N中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
解码块N的输出再进入解码块N+1,经过解码块N+1中的卷积层A将通道数降低,再进入解码块N+1中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
共得到N+1个尺度的深度图;
步骤3:将步骤2得到的N+1个尺度的深度图分别插值到图像原有的尺度大小,并根据
Figure BDA0002943074150000031
Figure BDA0002943074150000032
计算损失,其中D′为根据估计出的深度图以及图像与参考帧之间的相对位姿变换矩阵得出的变换深度图,D″为根据D′的像素坐标以及参考帧估计的深度图插值得到的插值深度图,p为像素,V为图像的像素数量;通过上述公式计算不同尺度下的损失之后,再将这些损失相加就得到了最终的损失值loss;
步骤4:通过最小化损失值使得整个网络形成闭环,进行迭代训练,最终得到训练完成的编解码网络,并采用训练好的编解码网络进行单目视觉深度估计。
进一步的,在所述通道注意力模块中,输入的特征图A分成两路分别进行平均池化和最大池化操作,特征图大小变为RC×1×1;再经过多层感知机后,特征图大小变为RC/r×1×1,r为减少率;之后两路数据经过⊙处理,所述⊙处理是指经过一个对应位置相加的操作以及一个sigmoid函数;所述通道注意力模块中的整体处理过程表示为
Hc(A)=σ(MLP(AvgPool(A))+MLP(MaxPool(A)))
其中σ为sigmoid函数,AvgPool表示平均池化,MaxPool表示最大池化,MLP表示多层感知机操作。
进一步的,在所述空间注意力模块中,输入的特征图A′先经过一个卷积层a,将特征图的通道数减半;再分成两路分别进行通道维度上的平均池化和最大池化的操作,将通道的数量降为1,特征图大小分别为R1×H×W;再将两路数据进行通道维度上的拼接,最后再经过一个卷积层b以及sigmoid函数,得到最终空间注意力模块的处理结果Hs(A′);所述空间注意力模块中的整体处理过程表示为
Figure BDA0002943074150000041
其中σ为sigmoid函数,
Figure BDA0002943074150000042
为核函数为1×1的卷积层a,
Figure BDA0002943074150000043
为核函数为7×7的卷积层b。
进一步的,所述最大池化层和N个卷积块的结构为:
Figure BDA0002943074150000044
其中最大池化层的池化窗口为3×3,步长为2;卷积块1中的
Figure BDA0002943074150000045
表示输入的该卷积块的特征图分别经过卷积核大小以及通道数分别为1×1,64,3×3,64,1×1,256的卷积层,再与输入的特征图尺度统一后相加输出,并且重复3次。
进一步的,所述解码网络中,各个解码块的具体结构为:
Figure BDA0002943074150000046
其中卷积层A和B的卷积核大小均为3×3,卷积层A和B下面对应的数字表示输入和输出的通道数。
进一步的,所述解码网络的整体处理过程表示为
F1=C1B([upsample(C1A(A″′));J3])
F2=C2B([upsample(C2A(F1));J2])
F3=C3B([upsample(C3A(F2));J1])
F4=C4B([upsample(C4A(F3));A])
F5=C5B(upsample(C5A(F4)))
D1=1/(α·σ(Conv1(F1))+β)
D2=1/(α·σ(Conv2(F2))+β)
D3=1/(α·σ(Conv3(F3))+β)
D4=1/(α·σ(Conv4(F4))+β)
D5=1/(α·σ(Conv5(F5))+β)
其中F1,F2,F3,F4,F5为解码块1到解码块5的输出特征图,D1,D2,D3,D4,D5为解码块1到解码块5得到的不同尺度的深度图,C以及对应下标分别表示每个解码块中的卷积层A、B,J1,J2,J3分别表示编码网络中经过卷积块1,卷积块2,卷积块3的输出特征图;upsample表示对特征图尺度统一处理;Conv表示一个卷积操作,输入通道数与对应解码块输出的通道数相同,输出通道数为1;σ为sigmoid函数,α和β为设定常数。
有益效果
本发明提出一种基于深度学习的视觉深度估计的方法,通过在网络结构内增加注意力机制的方法使得深度学习网络重点关注注意力机制所筛选出来的图像中的关键信息,从而进一步提高了深度估计的精度以及恢复出的深度图像的质量。相对于现有技术,如(Bian J W,Li Z,Wang N,et al.Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video[J].2019.)(以下简称文献5),本发明在绝对相对误差,均方根误差,对数均方根误差和精确度上均占优。与背景技术中相关现有技术所恢复出的深度图相比,本发明提出的方法所恢复出的深度图更为清晰,细节内容更为丰富,具体见图6对比,图6中A1,B1为原始图像,A2,B2为利用文献(He K,Zhang X,Ren S,etal.Deep Residual Learning for Image Recognition[C]//IEEE Conference onComputer Vision&Pattern Recognition.IEEE Computer Society,2016.)(以下简称文献6)中框架SC-SfMLearner恢复出的深度图,A3,B3为本发明所提出的方法恢复出的深度图。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1基于深度学习的单目视觉深度估计整体结构
图2编码网络结构
图3通道注意力模块
图4空间注意力模块
图5解码网络结构
图6深度图对比
具体实施方式
本发明提出一种基于深度学习的单目视觉深度估计的方法,通过对现有的深度学习深度估计的方案添加注意力机制,使得网络确定视觉信息中当前关键信息在图像中的位置和内容,以提高网络对视觉信息的理解能力,从而提高了深度估计的准确性以及深度场景还原的清晰度。
具体而言,在基于深度学习的深度估计框架中添加注意力机制模块,整个注意力机制模块分为两部分,分别为通道注意力模块和空间注意力模块,对输入图像特征进行处理并输出处理后的图像特征,整个基于深度学习的单目视觉深度估计系统的结构如图1所示。整个系统为一个编码-解码的网络,总图分为编码,解码和损失函数三个部分,图像通过编码网络变为多通道的小尺度特征图,再通过解码网络将小尺度的特征图还原,并在不同尺度中计算出深度图,再将深度图代入损失函数中计算损失值,最后通过最小化损失使得整个网络形成闭环,推动迭代训练。下面具体介绍网络的各个部分。
步骤一:编码网络
编码网络是以SC-SfMLearner网络结构的编码网络部分为基础的,整体上是一个ResNet网络结构,如图2所示,图像输入编码网络,经过卷积层1,之后进入注意力机制模块。这里设图像经过卷积层1之后的量为A∈RC×H×W,该输入叫做特征图。其中C为通道数,H和W为特征图的高和宽。在注意力机制模块中,通道注意力模块为一个一维的映射Hc∈RC×1×1,空间注意力模块为一个二维映射Hs∈R1×H×W。整个注意力机制模块可以总结为(1)式。
Figure BDA0002943074150000071
Figure BDA0002943074150000072
式中
Figure BDA0002943074150000073
表示逐元素相乘,在相乘的过程中,通道注意力值会沿着空间维度传播,空间注意力的值会沿着通道维度传播。A″为注意力机制最终的输出值。下面分别来介绍通道注意力模块、空间注意力模块。
1)通道注意力模块
在通道注意力模块中,将之前卷积层1处理过的信息作为输入特征图进行处理。在特征图中每一个通道都当做一个特征检测器,通道注意力模块重点关注的是图中的关键信息是什么。具体结构如图3所示,首先,输入的特征图分别经过平均池化层(AvgPool)和最大池化层(MaxPool),经过池化层之后,特征图大小变为RC×1×1;随后再经过多层感知机(MLP),在这里多层感知机有一个隐藏层,经过隐藏层特征图大小变为RC/r×1×1,r为减少率;之后数据在经过⊙处理,⊙是指经过一个对应位置相加的操作以及一个sigmoid函数。整体处理过程可以总结为(2)式
Hc(A)=σ(MLP(AvgPool(A))+MLP(MaxPool(A))) (2)
其中σ为sigmoid函数,并且在池化层之后都会有一个ReLU激活函数进行处理。
2)空间注意力模块
空间注意力模块是利用特征图中特征之间的空间关系来生成空间注意力图的,与通道注意力不同,空间注意力关注的是关键信息的位置,与通道注意力配合起来就能明确特征图中的关键信息。具体结构如图4所示。首先经过一个卷积层,将特征图的通道数减半;再分别进行通道维度上的平均池化和最大池化的操作,将通道的数量降为1,此时特征图大小分别为R1×H×W;再将两部分进行通道维度上的拼接,最后再经过一个卷积层以及sigmoid函数,得到最终空间注意力模块的处理结果。整体处理过程可以总结为(3)式
Figure BDA0002943074150000081
其中σ为sigmoid函数,
Figure BDA0002943074150000082
为核函数为1×1的卷积层,
Figure BDA0002943074150000083
为核函数为7×7的卷积层。
3)编码网络剩余部分
在经过注意力机制模块之后,A″进入剩下的ResNet残差网络(该ResNet残差网络在文献He K,Zhang X,Ren S,et al.Deep Residual Learning for Image Recognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE ComputerSociety,2016.中有详细介绍)中,剩余部分主要分为一个最大池化层和四个卷积块,由于本实施例是以深度为50的ResNet来进行的,所以这里以ResNet50为基础介绍剩余网络的结构,具体结构如表1所示,表中最大池化层的池化窗口为3×3,步长为2。卷积块中,
Figure BDA0002943074150000084
表示特征图分别经过卷积核大小以及通道数分别为1×1,64,3×3,64,1×1,256的卷积层,再与输入的特征图尺度统一后相加输出,并且重复3次。以此类推经过4个卷积块,而且经过每个卷积块特征图尺度都变为原来的一半。最终输出A″′。
表1
Figure BDA0002943074150000085
步骤二 解码网络
解码网络实际上是一个特征图尺度加倍的过程,具体结构如图5所示,整体结构由五个解码块组成,每个解码块又分别由各自的卷积层A,卷积层B构成,解码块具体结构如表2所示。所有卷积层的卷积核大小均为3×3,卷积层A和B下面对应的数字表示输入和输出的通道数。与编码网络对应,解码网络每经过一个解码块,特征图的尺度都加倍。编码网络最终输出的A″′进入解码网络之后,首先进入解码块1,经过解码块1中的卷积层A将通道数降低,再与编码网络中卷积块3输出的特征图进行通道维度的拼接操作,再进入解码块1中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图。解码块1的输出再进入解码块2,重复同样的操作。设每个解码块得到深度图为D1,D2,D3,D4,D5。解码块1到解码块5的输出特征图分别为F1,F2,F3,F4,F5。则整个过程可以总结为(4)(5)式
Figure BDA0002943074150000091
Figure BDA0002943074150000092
(4)式中,C以及对应下标分别表示每个解码块中的卷积层A、B,J1,J2,J3分别表示编码网络中经过卷积块1,卷积块2,卷积块3的输出特征图。upsample表示对特征图尺度统一处理。(5)式中,Conv表示一个卷积操作,输入通道数与当时解码块输出的通道数相同,输出通道数为1;σ为sigmoid函数,α和β为常数。
表2
Figure BDA0002943074150000093
步骤三:损失函数
D1,D2,D3,D4,D5为不同尺度下得到的深度图,将这些深度图分别插值到图像原有的尺度大小,再分别经过式(6)与(7)计算损失
Figure BDA0002943074150000101
Figure BDA0002943074150000102
(6)式中D′为根据估计出的深度图以及该图像与参考帧之间的相对位姿变换矩阵得出的变换深度图,D″为根据D′的像素坐标以及参考帧估计的深度图插值得到的插值深度图。(6)式是逐像素进行计算的,p为像素。(7)式中V为图像的像素数量。在计算完成不同尺度下的损失之后,再将这些损失相加就得到了最终的损失值loss。最后通过最小化损失值使得整个网络形成闭环,推动迭代训练。
下面结合具体实施例描述本发明:
本实施例采用的系统平台为Ubuntu16.04,软件平台为Python 3.7.9,Pytorch1.8.0以及CUDA 11.0。硬件平台为Intel 10700KF,NVIDIA RTX 3090。为了保证实验结果的精度并且避免网络结构过于复杂,采用ResNet50网络结构。每次训练的样本数设置为4,一次迭代所包含的训练次数设置为1000,迭代次数设置为200,训练序列长度设置为3。训练数据集为KITTI公开数据集kitti_256,测试数据集。测试数据集分别为kitti_depth_test和kitti_vo_test中的sequences09用来分别对于深度估计精度以及深度图恢复分别测试。数据集中的图像分辨率为256×832。这里以单次图像输入网络为例进行介绍。
设数据集中的一张图像为F∈RC×H×W,其中C=3,H=256,W=832。首先,F输入编码部分ResNet50中,经过卷积层1,卷积层1为ResNet的第一层卷积操作,其输入输出通道数分别为3和64,核函数(kernel size)大小为7×7,步长(stride)为2,填充值(padding)为3;随后再经过一个归一化处理,处理之后的值为
Figure BDA0002943074150000103
此时,C1=64,H1=128,W1=416。此时的A就是公式(1)中所提到的A。随后进入注意力机制模块,首先是通道注意力模块Hc,根据图3,A分别经过平均池化层(AvgPool),最大池化层(MaxPool),经过多层感知机(MLP)后对应元素求和,最后经过sigmoid函数处理得到Hc(A),再与A做乘法得到
Figure BDA0002943074150000111
这里多层感知机中的参数r设置为16。A′再进入空间注意力模块,如图4所示,首先经过卷积层,该卷积层输入输出通道数分别为64和32,核函数(kernel size)大小为1×1,填充值(padding)为3,步长(stride)为1。再分别在通道维度上进行平均池化和最大池化的操作,使得通道数降为1,再将处理完成的两个数据块按照通道维度拼接,此时数据大小为R2×H×W。再经过卷积层2,该卷积层输入输出通道数分别为2和1,核函数(kernel size)大小为7×7,填充值(padding)为3,步长(stride)为1,最后经过sigmoid函数得到Hs(A′),再与A′相乘得到
Figure BDA0002943074150000112
经过注意力机制模块之后,如图2所示,又经过了最大池化层以及四个卷积块,其具体参数如表1所示,最终输出
Figure BDA0002943074150000113
其中C2=2048,H2=8,W2=26。
随后进入解码网络,其具体解码块的参数如表2所示,具体处理过程如(4)(5)式,常数α=10,β=0.01。经过解码块1后,输出
Figure BDA0002943074150000114
输出深度图
Figure BDA0002943074150000115
其中C3=256,H3=16,W3=52;经过解码块2后,输出
Figure BDA0002943074150000116
输出深度图
Figure BDA0002943074150000117
其中C4=128,H4=32,W4=104;经过解码块3后,输出
Figure BDA0002943074150000118
输出深度图
Figure BDA0002943074150000119
其中C5=64,H5=64,W5=208;经过解码块4后,输出
Figure BDA00029430741500001110
输出深度图
Figure BDA00029430741500001111
其中C6=32,H6=128,W6=416;经过解码块5后,输出
Figure BDA00029430741500001112
输出深度图
Figure BDA00029430741500001113
其中C7=16,H7=256,W7=832。得到5个不同尺度的深度图之后,将深度图通过插值的方法统一调整为
Figure BDA00029430741500001114
的大小,再通过(6)(7)计算损失,再将各自计算的损失值相加的到最终的损失loss,最后通过最小化损失使得整个网络形成闭环,推动迭代训练。
利用KITTI数据集进行训练的时间约为43个小时,最终将训练好的模型利用kitti_depth_test数据集进行精度测试,得到深度估计的结果,将此结果与文献5的结果对比如表3所示;将训练好的模型利用kitti_vo_test数据集进行深度图恢复测试,并与文献6的结果进行对比,如图6所示。
表3深度估计指标对比
Figure BDA0002943074150000121
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于深度学习的单目视觉深度估计方法,其特征在于:包括以下步骤:
步骤1:将待估计图像输入编码网络;
所述编码网络包括卷积层1、注意力机制模块、最大池化层、N个卷积块;
所述注意力机制模块由通道注意力模块和空间注意力模块组成;其中通道注意力模块为一个一维的映射Hc∈RC×1×1,空间注意力模块为一个二维映射Hs∈R1×H×W
待估计图像经过卷积层1之后输出特征图A∈RC×H×W,其中C为通道数,H和W为特征图的高和宽;特征图A经过注意力机制模块后输出A″:
Figure FDA0002943074140000011
Figure FDA0002943074140000012
式中
Figure FDA0002943074140000013
表示逐元素相乘,在相乘的过程中,通道注意力值沿着空间维度传播,空间注意力的值沿着通道维度传播;
特征图A″依次通过最大池化层和N个卷积块,最终得到编码网络输出A″′;
步骤2:将编码网络输出A″′输入解码网络;
所述解码网络包括N+1个解码块;每个解码块又分别由各自的卷积层A,卷积层B构成;
编码网络最终输出的A″′进入解码网络之后,首先进入解码块1,经过解码块1中的卷积层A将通道数降低,再与编码网络中卷积块N-1输出的特征图进行通道维度的拼接操作,再进入解码块1中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
解码块1的输出再进入解码块2,经过解码块2中的卷积层A将通道数降低,再与编码网络中卷积块N-2输出的特征图进行通道维度的拼接操作,再进入解码块2中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
依次类推,解码块N-1的输出再进入解码块N,经过解码块N中的卷积层A将通道数降低,再与编码网络中卷积层1输出的特征图进行通道维度的拼接操作,再进入解码块N中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
解码块N的输出再进入解码块N+1,经过解码块N+1中的卷积层A将通道数降低,再进入解码块N+1中的卷积层B,处理完成后经过一个输出通道为1的卷积操作得到当前尺度的深度图;
共得到N+1个尺度的深度图;
步骤3:将步骤2得到的N+1个尺度的深度图分别插值到图像原有的尺度大小,并根据
Figure FDA0002943074140000021
Figure FDA0002943074140000022
计算损失,其中D′为根据估计出的深度图以及图像与参考帧之间的相对位姿变换矩阵得出的变换深度图,D″为根据D′的像素坐标以及参考帧估计的深度图插值得到的插值深度图,p为像素,V为图像的像素数量;通过上述公式计算不同尺度下的损失之后,再将这些损失相加就得到了最终的损失值loss;
步骤4:通过最小化损失值使得整个网络形成闭环,进行迭代训练,最终得到训练完成的编解码网络,并采用训练好的编解码网络进行单目视觉深度估计。
2.根据权利要求1所述一种基于深度学习的单目视觉深度估计方法,其特征在于:在所述通道注意力模块中,输入的特征图A分成两路分别进行平均池化和最大池化操作,特征图大小变为RC×1×1;再经过多层感知机后,特征图大小变为RC/r×1×1,r为减少率;之后两路数据经过⊙处理,所述⊙处理是指经过一个对应位置相加的操作以及一个sigmoid函数;所述通道注意力模块中的整体处理过程表示为
Hc(A)=σ(MLP(AvgPool(A))+MLP(MaxPool(A)))
其中σ为sigmoid函数,AvgPool表示平均池化,MaxPool表示最大池化,MLP表示多层感知机操作。
3.根据权利要求1或2所述一种基于深度学习的单目视觉深度估计方法,其特征在于:在所述空间注意力模块中,输入的特征图A′先经过一个卷积层a,将特征图的通道数减半;再分成两路分别进行通道维度上的平均池化和最大池化的操作,将通道的数量降为1,特征图大小分别为R1×H×W;再将两路数据进行通道维度上的拼接,最后再经过一个卷积层b以及sigmoid函数,得到最终空间注意力模块的处理结果Hs(A′);所述空间注意力模块中的整体处理过程表示为
Figure FDA0002943074140000031
其中σ为sigmoid函数,
Figure FDA0002943074140000032
为核函数为1×1的卷积层a,
Figure FDA0002943074140000033
为核函数为7×7的卷积层b。
4.根据权利要求3所述一种基于深度学习的单目视觉深度估计方法,其特征在于:所述最大池化层和N个卷积块的结构为:
Figure FDA0002943074140000034
其中最大池化层的池化窗口为3×3,步长为2;卷积块1中的
Figure FDA0002943074140000035
表示输入的该卷积块的特征图分别经过卷积核大小以及通道数分别为1×1,64,3×3,64,1×1,256的卷积层,再与输入的特征图尺度统一后相加输出,并且重复3次。
5.根据权利要求4所述一种基于深度学习的单目视觉深度估计方法,其特征在于:所述解码网络中,各个解码块的具体结构为:
Figure FDA0002943074140000036
其中卷积层A和B的卷积核大小均为3×3,卷积层A和B下面对应的数字表示输入和输出的通道数。
6.根据权利要求5所述一种基于深度学习的单目视觉深度估计方法,其特征在于:所述解码网络的整体处理过程表示为
F1=C1B([upsample(C1A(A″′));J3])
F2=C2B([upsample(C2A(F1));J2])
F3=C3B([upsample(C3A(F2));J1])
F4=C4B([upsample(C4A(F3));A])
F5=C5B(upsample(C5A(F4)))
D1=1/(α·σ(Conv1(F1))+β)
D2=1/(α·σ(Conv2(F2))+β)
D3=1/(α·σ(Conv3(F3))+β)
D4=1/(α·σ(Conv4(F4))+β)
D5=1/(α·σ(Conv5(F5))+β)
其中F1,F2,F3,F4,F5为解码块1到解码块5的输出特征图,D1,D2,D3,D4,D5为解码块1到解码块5得到的不同尺度的深度图,C以及对应下标分别表示每个解码块中的卷积层A、B,J1,J2,J3分别表示编码网络中经过卷积块1,卷积块2,卷积块3的输出特征图;upsample表示对特征图尺度统一处理;Conv表示一个卷积操作,输入通道数与对应解码块输出的通道数相同,输出通道数为1;σ为sigmoid函数,α和β为设定常数。
CN202110185998.7A 2021-02-13 2021-02-13 一种基于深度学习的单目视觉深度估计方法 Active CN112819876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110185998.7A CN112819876B (zh) 2021-02-13 2021-02-13 一种基于深度学习的单目视觉深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110185998.7A CN112819876B (zh) 2021-02-13 2021-02-13 一种基于深度学习的单目视觉深度估计方法

Publications (2)

Publication Number Publication Date
CN112819876A true CN112819876A (zh) 2021-05-18
CN112819876B CN112819876B (zh) 2024-02-27

Family

ID=75865324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110185998.7A Active CN112819876B (zh) 2021-02-13 2021-02-13 一种基于深度学习的单目视觉深度估计方法

Country Status (1)

Country Link
CN (1) CN112819876B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223181A (zh) * 2021-06-02 2021-08-06 广东工业大学 一种弱纹理物体位姿估计方法
CN113470097A (zh) * 2021-05-28 2021-10-01 浙江大学 一种基于时域关联与姿态注意力的单目视频深度估计方法
CN113689543A (zh) * 2021-08-02 2021-11-23 华东师范大学 一种极线约束的稀疏注意力机制医学影像三维重建方法
CN113705432A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 一种模型训练、三维目标检测方法、装置、设备及介质
CN114119698A (zh) * 2021-06-18 2022-03-01 湖南大学 基于注意力机制的无监督单目深度估计方法
CN115035173A (zh) * 2022-06-08 2022-09-09 山东大学 基于帧间相关性的单目深度估计方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
CN111539922A (zh) * 2020-04-17 2020-08-14 中山大学 基于多任务网络的单目深度估计与表面法向量估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112132880A (zh) * 2020-09-02 2020-12-25 东南大学 一种基于稀疏测量和单目rgb图像的实时稠密深度估计方法
CN112365501A (zh) * 2021-01-13 2021-02-12 南京理工大学 一种基于卷积神经网络的焊件轮廓检测算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
CN111539922A (zh) * 2020-04-17 2020-08-14 中山大学 基于多任务网络的单目深度估计与表面法向量估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112132880A (zh) * 2020-09-02 2020-12-25 东南大学 一种基于稀疏测量和单目rgb图像的实时稠密深度估计方法
CN112365501A (zh) * 2021-01-13 2021-02-12 南京理工大学 一种基于卷积神经网络的焊件轮廓检测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEE, SEUNGHOON: "Multi-level Feature Maps Attention for Monocular Depth Estimation", 《2021 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS-ASIA (ICCE-ASIA)》, 1 January 2021 (2021-01-01) *
岑仕杰: "结合注意力与无监督深度学习的单目深度估计", 《广东工业大学学报》, vol. 37, no. 4, 31 July 2020 (2020-07-31) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470097A (zh) * 2021-05-28 2021-10-01 浙江大学 一种基于时域关联与姿态注意力的单目视频深度估计方法
CN113470097B (zh) * 2021-05-28 2023-11-24 浙江大学 一种基于时域关联与姿态注意力的单目视频深度估计方法
CN113223181A (zh) * 2021-06-02 2021-08-06 广东工业大学 一种弱纹理物体位姿估计方法
CN113223181B (zh) * 2021-06-02 2022-12-23 广东工业大学 一种弱纹理物体位姿估计方法
CN114119698A (zh) * 2021-06-18 2022-03-01 湖南大学 基于注意力机制的无监督单目深度估计方法
CN113689543A (zh) * 2021-08-02 2021-11-23 华东师范大学 一种极线约束的稀疏注意力机制医学影像三维重建方法
CN113689543B (zh) * 2021-08-02 2023-06-27 华东师范大学 一种极线约束的稀疏注意力机制医学影像三维重建方法
CN113705432A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 一种模型训练、三维目标检测方法、装置、设备及介质
CN115035173A (zh) * 2022-06-08 2022-09-09 山东大学 基于帧间相关性的单目深度估计方法及系统

Also Published As

Publication number Publication date
CN112819876B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN112819876B (zh) 一种基于深度学习的单目视觉深度估计方法
CN113920013B (zh) 一种基于超分辨率的小图像多目标检测方法
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
WO2022206020A1 (zh) 图像场景深度的估计方法、装置、终端设备和存储介质
CN113962858B (zh) 一种多视角深度获取方法
CN116664450A (zh) 基于扩散模型的图像增强方法、装置、设备及存储介质
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN113592927B (zh) 一种结构信息引导的跨域图像几何配准方法
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN111294614B (zh) 用于数字图像、音频或视频数据处理的方法和设备
CN112163990A (zh) 360度图像的显著性预测方法及系统
Durasov et al. Double refinement network for efficient monocular depth estimation
CN114723787A (zh) 一种光流计算方法及系统
CN116051609B (zh) 一种基于带限变形傅里叶网络的无监督医学图像配准方法
CN115761594A (zh) 一种基于全局与局部耦合的光流计算方法
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
CN113850719B (zh) 基于联合隐式图像函数的rgb图像引导深度图超分辨率方法
CN115131414A (zh) 基于深度学习的无人机图像对齐方法、电子设备和存储介质
CN114841870A (zh) 图像处理方法、相关装置和系统
CN114663307A (zh) 基于不确定性网络的集成图像去噪系统
Wang et al. E-HANet: Event-based hybrid attention network for optical flow estimation
CN114372944B (zh) 一种多模态和多尺度融合的候选区域生成方法及相关装置
CN115631115B (zh) 基于递归Transformer的动态图像复原方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant