CN114170286B - 一种基于无监督深度学习的单目深度估计方法 - Google Patents

一种基于无监督深度学习的单目深度估计方法 Download PDF

Info

Publication number
CN114170286B
CN114170286B CN202111297537.5A CN202111297537A CN114170286B CN 114170286 B CN114170286 B CN 114170286B CN 202111297537 A CN202111297537 A CN 202111297537A CN 114170286 B CN114170286 B CN 114170286B
Authority
CN
China
Prior art keywords
convolution
feature map
channels
network
depth estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111297537.5A
Other languages
English (en)
Other versions
CN114170286A (zh
Inventor
宋霄罡
胡浩越
梁莉
黑新宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111297537.5A priority Critical patent/CN114170286B/zh
Publication of CN114170286A publication Critical patent/CN114170286A/zh
Application granted granted Critical
Publication of CN114170286B publication Critical patent/CN114170286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督深度学习的单目深度估计方法,首先构建基于无监督深度学习的深度估计以及位姿估计网络框架;然后将建立的神经网络进行训练;最后将训练好的网络进行测试;本发明的一种基于无监督深度学习的单目深度估计方法在保证良好精度的基础上,解决监督学习在实际应用中的局限性。

Description

一种基于无监督深度学习的单目深度估计方法
技术领域
本发明属于机器视觉技术领域,涉及一种基于无监督深度学习的单目深度估计方法。
背景技术
深度估计是机器视觉中的经典问题,对场景的三维重建、增强现实中的遮挡及光照处理具有重要意义。近年来随着深度学习的迅速发展,基于深度学习的单目深度估计得到广泛的研究,并且取得良好精度。单目深度估计通常利用单一视角的图像数据作为输入,利用端到端的方式预测图像中每个像素对应的深度值,深度值是指从图像采集器到场景中各点的距离。对于基于有监督深度学习的单目深度估计方法,要求每幅RGB图像都有对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵,而采集的原始深度标签通常是一些稀疏的点,不能与原图很好的匹配。
发明内容
本发明的目的是提供一种基于无监督深度学习的单目深度估计方法,在保证良好精度的基础上,解决监督学习在实际应用中的局限性。
本发明所采用的技术方案是,一种基于无监督深度学习的单目深度估计方法,具体按以下步骤实施:
步骤1,构建基于无监督深度学习的深度估计以及位姿估计网络框架;
步骤2,将经步骤1建立的神经网络进行训练;
步骤3,将经步骤2训练好的网络进行测试。
本发明的特点还在于:
其中步骤1中构建过程为特征编码模块与特征解码模块,具体按以下步骤实施:
步骤1.1,构建深度估计网络的编解码结构;
步骤1.2,构建位姿估计网络的编解码结构;
其中步骤1.1中深度估计网络的编解码结构构建具体按以下步骤实施:
步骤1.1.1,图片输入,进行一次普通的7*7卷积操作,并将图片通道数调整为64通道,进行批量归一化与Relu激活;
步骤1.1.2,将步骤1.1.1中所得特征图FM1进行最大池化操作后传入残差块中,得到通道数为256的特征图FM2
步骤1.1.3,将步骤1.1.2中所得特征图FM2传入残差块中,得到通道数为512的特征图FM3
步骤1.1.4,将步骤1.1.3中所得特征图FM3传入残差块中,得到通道数为1024的特征图FM4
步骤1.1.5,将步骤1.1.4中所得特征图FM4传入残差块中,得到通道数为2048的特征图FM5
步骤1.1.6,将FM5输入,进行上采样恢复至FM4尺寸称为FM5’,然后将FM4和FM5’进行特征融合后生成的特征图称为FM45,再进行卷积操作后,输出估计的视差图Disparity1,再将FM45作为输入,之后不断重复上述操作,分别生成不同尺度深度图Disparity2、Disparity3以及Disparity4作为深度估计网络的输出;
其中深度估计网络的编解码结构构建过程中残差块构造具体为:输入特征图,经过一个1*1卷积进行降维操作,调整通道个数,进行批量归一化与Relu激活;之后经过蓝图深度卷积模块对输入进行卷积操作,进行批量归一化与Relu激活;再进行一次1*1卷积,调整通道个数;然后经过通道注意力模块学习通道之间的相关性,筛选出针对通道的注意力;将最初的输入特征图与经过通道注意力后的输出进行近路连接后使用Relu激活;
其中蓝图深度卷积模块构造过程为:
进行逐点卷积,将特征图在深度方向上进行加权组合,卷积核的尺寸为1*1*M,M为上一层通道数,输出通道数为M*p,p为缩放参数,此处p=0.5;再进行逐点卷积,卷积核尺寸为1*1*M*p,将上层输出特征图在深度方向上再次进行加权组合,输出通道数为M;最后进行逐通道卷积,其中卷积操作使用空洞卷积,卷积核为3*3,四层不同的残差块中分别设置注入空洞为1,1,2,3;
其中通道注意力模块构造过程为:
设输入特征图大小为W*H*C,其中W、H、C分别代表特征图的宽、高、通道数;第一步是压缩操作,经过一个全局平均池化,特征图被压缩为1*1*C向量;然后进行激励操作,经过一个全连接层,卷积核尺寸为1*1,有C*R个神经元,其中R为一个缩放参数,输出为1*1*C*R;再经过一个全连接层,输入为1*1*C*R,输出为1*1*C;最后对上述输入特征图进行通道权重相乘,原有特征向量为W*H*C,将经过通道注意力模块计算出的各通道权重值向量1*1*C与原特征图对应通道的二维矩阵相乘,得到结果输出;
其中步骤1.2中位姿估计网络的编解码结构具体按以下步骤实施:
步骤1.2.1,输入两张图片,进行一次普通的7*7卷积操作,并将图片通道数调整为64通道,进行批量归一化与Relu激活;
步骤1.2.2,将步骤1.2.1中所得特征图FM1进行最大池化操作后传入残差块中,得到通道数为64的特征图FM2
步骤1.2.3,将步骤1.2.2中所得特征图FM2传入残差块中,得到通道数为128的特征图FM3
步骤1.2.4,将步骤1.2.3中所得特征图FM3传入残差块中,得到通道数为256的特征图FM4
步骤1.2.5,将步骤1.2.4中所得特征图FM4传入残差块中,得到通道数为512的特征图FM5
步骤1.2.6,将FM5输入,使用1*1卷积改变通道数为256,之后使用Relu函数激活得到特征图FM6
步骤1.2.7,对FM6使用3*3*256卷积操作提取特征输出FM7
步骤1.2.8,对FM7使用3*3*256卷积操作提取特征输出FM8
步骤1.2.9,对FM8使用1*1卷积改变特征图通道数为6输出FM9
步骤1.2.10,对FM9的第二维度和第三维度求平均值,则变换维度生成一个形状为[4,6]的向量,该向量为相邻帧的相对相机位姿变化;
其中位姿估计网络的编解码结构构建过程中残差块构造步骤为:
输入特征图W*H*C,经过一个3*3卷积,进行特征提取并且改变通道数输出为W*H*2C,之后进行批量归一化与Relu激活;再次经过一个3*3卷积进行特征提取,输出为W*H*2C,之后进行批量归一化处理;
其中步骤2中网络训练具体为利用KITTI数据集对网络进行训练,具体按以下步骤实施:
步骤2.1,将数据集打乱,生成训练样本和测试样本;
步骤2.2,获取预训练权重;
步骤2.3,使用Adam优化器,初始学习率定为1e-4,训练过程中学习率自动下降,β1=0.9,β2=0.999;
步骤2.3,每个epoch之后计算训练损失以及验证损失;
步骤2.5,比较每个epoch的验证损失,保存验证损失最小的模型参数;
其中步骤3中网络测试的具体过程为:
将测试图像输入网络,得到深度估计结果,并计算深度估计的评价指标中各个损失以及准确率,对网络性能进行评估。
本发明的有益效果是:
本发明的一种基于无监督深度学习的单目深度估计方法针对有监督深度学习方法下标签的获取范围受限、成本昂贵以及采集的原始深度标签的稀疏性无法与原图中像素点很好的匹配问题,提出使用光度损失函数代替标签作为约束训练网络,在保证预测深度图的准确度的同时,忽略采集标签造成的麻烦。在网络结构中采用了注意力机制,强调目标处理对象的重要信息,抑制一些无关信息,产生更具分辨性的特征表示。采用跳跃连接,使得不仅能够利用高层特征中更强的语义信息还能融入低层特征的更多位置、细节信息,提升模型性能。采用蓝图可分离卷积,保证模型效果的同时,大大降低参数量。
附图说明
图1是本发明的一种基于无监督深度学习的单目深度估计方法的框架示意图;
图2是本发明的一种基于无监督深度学习的单目深度估计方法中的深度估计网络模型结构示意图;
图3是本发明的一种基于无监督深度学习的单目深度估计方法中的位姿估计网络模型结构示意图;
图4是本发明的一种基于无监督深度学习的单目深度估计方法中的深度估计网络模型结构中稠密残差块的结构示意图;
图5是本发明的一种基于无监督深度学习的单目深度估计方法中的通道注意力机制模块的结构示意图;
图6是本发明的一种基于无监督深度学习的单目深度估计方法中的蓝图深度卷积的结构示意图;
图7是本发明的一种基于无监督深度学习的单目深度估计方法中估计的深度图结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种基于无监督学习的单目深度估计方法,具体按以下步骤实施:
步骤1,构建基于无监督学习的单目深度估计方法框架,如图1所示,框架包含两个网络结构:深度估计网络和位姿估计网络,如图2、图3所示,两个网络都是编解码结构,通过特征编码器提取多尺度图像特征,将特征传入解码器中输出估计的深度图和位姿;
其中深度估计网络,编码结构以Resnet50编码器为主干,嵌入3个模块:1)稠密残差块;2)通道注意力模块;3)蓝图深度卷积;解码结构包含2个模块:4)上采样模块;5)特征融合模块;
其中位姿估计网络,编码结构是Resnet18编码器,解码部分通过三层1*1卷积操作改变通道数,最终输出6D位姿;
输入两个相邻帧,记作Ia和Ib,两帧依次输入深度估计网络,通过编码器提取多尺度特征得到5个不同尺度特征图FM1,FM2,FM3,FM4,FM5;将五个特征图传入解码器中,首先将FM5输入,进行上采样恢复至FM4尺寸称为FM5’,然后将FM4和FM5’进行特征融合后生成的特征图称为FM45,再进行卷积操作后,输出估计的深度图结果Depth1,再将FM45作为输入,之后不断重复上述操作,分别生成不同尺度深度图Depth2、Depth3以及Depth4作为深度估计网络的输出;若是训练状态,则将4张不同尺度的深度图通过双线性插值恢复至同一高分辨率,计算同一尺度下深度图的损失函数共同训练,对目标图像进行精确的高分辨率重建。若是测试状态,则直接输出深度图Depth4
同时,两帧一起输入位姿估计网络,经过编码器提取特征,将最高层特征图FM5传入解码器中,最终输出估计出的两帧之间的6D位姿;
1)稠密残差块
残差块分为两部分直接映射部分和残差部分,Resnet模型的核心就是通过建立前面层与后面层之间的“短路连接”,保证L+1层的网络一定比L层包含更多的图像信息,避免了随着网络层数加深,特征图包含图像信息逐层减少而导致的网络退化问题。而稠密残差块的思路与Resnet一致,但它建立的是前面所有层与后面层的密集连接,如图4所示,由两个部分组成分别是Denseblock和Transition。
在Denseblock中,设置3层,各个层的特征图大小一致,可以在channel维度上连接。Denseblock中的非线性组合函数采用的是BatchNormalization+Relu+3*3Conv的结构,所有Denseblock中各个层卷积之后均输出K个特征图,即得到的特征图通道数数为K。K是个超参,此处设置为256。由于特征不断重用,后面层的输入非常大,为了减少计算量,Denseblock内部采用bottleneck层,在结构中增加1*1Conv。
对于Transition层,它主要是连接两个相邻block,结构为BatchNormalization+Relu+1*1Conv,主要起到压缩模型的作用;
2)通道注意力模块
卷积核通常是在局部感受野上将空间信息和特征维度的信息进行聚合最后获得全局信息。通道注意力模块的核心是从特征通道之间的关系上,显式的建模通道之间的相互依赖关系,具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,利用全局信息有选择的增强有益通道并抑制无用通道,从而实现特征图通道自适应校准。
输入特征图,经过一个全局平均池化进行特征压缩操作,特征图被压缩为1*1*C向量,其中C为通道维度。压缩操作把每个二维的特征通道变为一个实数,这个实数某种程度上具有全局感受野,它表征着在特征通道上相应的全局分布。接下来是激励操作,经过一个全连接层,卷积核尺寸为1*1,有C*R个神经元,其中R为一个缩放参数,这个参数的目的是为了减少通道个数从而降低计算量,输出为1*1*C*R;再经过一个全连接层,输入为1*1*C*R,输出为1*1*C。最后就是对上述输入特征图进行通道权重相乘,逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。
3)蓝图深度卷积
在一些轻量级网络中,会有用深度可分离卷积用来提取特征,相比常规的卷积操作,其参数数量和运算成本较低,而深度可分离卷积依赖于跨内核的相关性,但研究发现内核内部的相关性占主导地位,可以更有效的分离标准卷积。由Depthwise和Pointwise两个部分组成:
首先输入特征图,进行逐点卷积,将特征图在深度方向上进行加权组合,卷积核的尺寸为1*1*M,M为上一层通道数,输出通道数为M*p,p为缩放参数,此处p=0.5,这个参数目的是为了减少通道数从而降低计算量;再进行逐点卷积,卷积核尺寸为1*1*M*p,将上层输出特征图在深度方向上再次进行加权组合,输出通道数为M;最后进行逐通道卷积,其中卷积操作使用空洞卷积,卷积核为3*3,四层不同的残差块中分别设置注入空洞为1,1,2,3,以此在保证不损失信息的前提下增大感受野。
步骤2,网络训练:本发明使用Pytorch框架搭建网络结构,使用Adam算法优化训练参数,使用KITTI数据集对网络进行训练,训练过程中使用加权的光度损失函数、光滑损失函数和几何一致性损失共同作为监督信号,最终保存验证损失最小的模型参数作为最佳模型:
其中损失函数具体定义如下:
L=αLM P+βLs+ΓLGC (1)
式中,LM p为使用掩膜M的加权光度损失函数(Lp),Ls表示平滑损失,LGC为几何一致性损失,通过正向和反向训练网络最大化数据使用;
其中光度损失函数根据光度一致性原理,使用估计的深度图Da和相对位姿Pab,利用可微双线性插值将图Ib转化微Ia',对于合成的Ia'与相应图Ia,形成如下目标函数:
Figure GDA0003924357310000091
式中,V代表从Ia成功投影到Ib的有效点,对于其异常值的鲁棒性使用L1损失,为了应对真实情况中存在的光照改变的影响,添加了相似度损失SSIM,对像素亮度进行标准化,光度损失函数变为如下:
Figure GDA0003924357310000101
式中,λi=0.15,λs=0.85;
平滑损失函数根据平滑度先验条件,对于亮度损失在低纹理地区或重复特征区域的失效进行调整,使用边缘一致的平滑度损失,定义如下:
Figure GDA0003924357310000102
式中,
Figure GDA0003924357310000103
为空间方向上的一阶导数,确保了图像边缘的平滑度;
几何一致性函数损失具体定义如下:
Figure GDA0003924357310000104
通过最小化每个连续图像对之间预测的深度值之间的几何距离以促进它们尺度的一致性,在训练时,一致性能够传递给整个视频序列;
其中Ddiff定义如下:
Figure GDA0003924357310000105
Db a是使用两帧之间估计得到的位姿Pa b扭曲估计得到的Ia的深度图Da变化得到的Ib的深度图,D’b是估计得到的插值深度图;
掩码定义如下:
Figure GDA0003924357310000111
利用逐像素的auto_mask,有选择的加权像素,当相机和另一个物体都以相似的速度移动时,auto_mask会过滤掉这些静止像素。
M=1-Ddiff (8)
通过掩膜M,降低移动物体和遮挡部分区域的权重,减轻这部分区域在计算损失时的不利影响;
步骤3,网络测试:加载训练时保存的最佳模型参数,将测试图片输入,得到深度估计的结果,并计算相对误差、平方相对误差、均方根误差、对数均方根误差以及精确度对网络性能进行评估;各评价指标具体定义如下:
(1)相对误差:
Figure GDA0003924357310000112
(2)平方相对误差:
Figure GDA0003924357310000113
(3)均方根误差:
Figure GDA0003924357310000114
(4)对数均方根误差:
Figure GDA0003924357310000115
(5)精确度:
Figure GDA0003924357310000116
其中N为像素总数,Di为第i像素的估计深度值,
Figure GDA0003924357310000117
第i个像素对应的真实深度值;
步骤3,将经步骤2训练好的网络进行测试:
步骤3.1,加载模型并读取数据集;
步骤3.2,将数据集图像传入深度估计模型和位姿估计模型中,计算两帧之间的位姿以及每帧的像素点深度得到深度图;
步骤3.3,使用深度估计评价指标计算估计出的深度图与标签之间的各种损失以及准确率。
本发明在KITTI数据集上,输入图片尺寸为128*416,评价指标中各项损失以及精确度与其他监督学习算法对比如表1所示,其中Depth代表使用深度标签监督,Stereo代表使用双目,Mono代表使用单目,L代表使用语义标签,F表示加入光流信息。
表1深度估计方法性能对比
Figure GDA0003924357310000121
本发明提出的一种基于无监督学习的单目深度估计方法,达到了无监督学习完成单目深度估计的目的,消除了监督学习中真值标签获取困难的影响;本发明在深度估计网络中引入注意机制,在编码器结构中加入注意力机制,可以获得更丰富的上下文信息,并在信道维度上捕获特征之间的相关性。为了充分利用这些特征,将密集块集成到网络中;用蓝图分离卷积代替瓶颈结构中的普通卷积,达到减少参数的目的;在视图合成中,我们使用单尺度图像完成视图合成,并使用合成图像计算损失;对于单目深度估计中存在的遮挡、动态物体等疾病区域问题,两个掩模的联合作用可以更好地处理。在KITTI数据集上的实验表明,本发明对视频帧的处理速度可以达到59FPS,各评价指标绝对相对误差、平方相对误差、均方根误差、对数均方根误差以及不同阈值的精确度分别为:0.122、0.934、4.885、0.197、0.866、0.955、0.980,与其他先进的性能方法相比,我们的方法在深度估计任务中取得了更高的性能,使用几何一致性损失,位姿估计网络可以获得全局尺度一致的轨迹,由此产生精度与立体视频训练的模型相比也是具有竞争力的。

Claims (6)

1.一种基于无监督深度学习的单目深度估计方法,其特征在于,具体按以下步骤实施:
步骤1,构建基于无监督深度学习的深度估计以及位姿估计网络框架;构建过程为特征编码模块与特征解码模块,具体按以下步骤实施:
步骤1.1,构建深度估计网络的编解码结构:
具体按以下步骤实施:
步骤1.1.1,图片输入,进行一次普通的7*7卷积操作,并将图片通道数调整为64通道,进行批量归一化与Relu激活;
步骤1.1.2,将步骤1.1.1中所得特征图FM1进行最大池化操作后传入残差块中,得到通道数为256的特征图FM2
步骤1.1.3,将步骤1.1.2中所得特征图FM2传入残差块中,得到通道数为512的特征图FM3
步骤1.1.4,将步骤1.1.3中所得特征图FM3传入残差块中,得到通道数为1024的特征图FM4
步骤1.1.5,将步骤1.1.4中所得特征图FM4传入残差块中,得到通道数为2048的特征图FM5
步骤1.1.6,将FM5输入,进行上采样恢复至FM4尺寸称为FM5’,然后将FM4和FM5’进行特征融合后生成的特征图称为FM45,再进行卷积操作后,输出估计的视差图Disparity1,再将FM45作为输入,之后不断重复上述操作,分别生成不同尺度深度图Disparity2、Disparity3以及Disparity4作为深度估计网络的输出;
步骤1.2,构建位姿估计网络的编解码结构;
步骤2,将经步骤1建立的神经网络进行训练,网络训练具体为利用KITTI数据集对网络进行训练,具体按以下步骤实施:
步骤2.1,将数据集打乱,生成训练样本和测试样本:
步骤2.2,获取预训练权重;
步骤2.3,使用Adam优化器,初始学习率定为1e-4,训练过程中学习率自动下降,β1=0.9,β2=0.999;
步骤2.4,每个epoch之后计算训练损失以及验证损失;
步骤2.5,比较每个epoch的验证损失,保存验证损失最小的模型参数;
步骤3,将经步骤2训练好的网络进行测试:将测试图像输入网络,得到深度估计结果,并计算深度估计的评价指标中各个损失以及准确率,对网络性能进行评估。
2.根据权利要求1所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述深度估计网络的编解码结构构建过程中残差块构造具体为:输入特征图,经过一个1*1卷积进行降维操作,调整通道个数,进行批量归一化与Relu激活;之后经过蓝图深度卷积模块对输入进行卷积操作,进行批量归一化与Relu激活;再进行一次1*1卷积,调整通道个数;然后经过通道注意力模块学习通道之间的相关性,筛选出针对通道的注意力;将最初的输入特征图与经过通道注意力后的输出进行近路连接后使用Relu激活。
3.根据权利要求2所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述蓝图深度卷积模块构造过程为:
进行逐点卷积,将特征图在深度方向上进行加权组合,卷积核的尺寸为1*1*M,M为上一层通道数,输出通道数为M*p,p为缩放参数,此处p=0.5;再进行逐点卷积,卷积核尺寸为1*1*M*p,将上层输出特征图在深度方向上再次进行加权组合,输出通道数为M;最后进行逐通道卷积,其中卷积操作使用空洞卷积,卷积核为3*3,四层不同的残差块中分别设置注入空洞为1,1,2,3。
4.根据权利要求2所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述通道注意力模块构造过程为:
设输入特征图大小为W*H*C,其中W、H、C分别代表特征图的宽、高、通道数;第一步是压缩操作,经过一个全局平均池化,特征图被压缩为1*1*C向量;然后进行激励操作,经过一个全连接层,卷积核尺寸为1*1,有C*R个神经元,其中R为一个缩放参数,输出为1*1*C*R;再经过一个全连接层,输入为1*1*C*R,输出为1*1*C;最后对上述输入特征图进行通道权重相乘,原有特征向量为W*H*C,将经过通道注意力模块计算出的各通道权重值向量1*1*C与原特征图对应通道的二维矩阵相乘,得到结果输出。
5.根据权利要求1所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述步骤1.2中位姿估计网络的编解码结构具体按以下步骤实施:
步骤1.2.1,输入两张图片,进行一次普通的7*7卷积操作,并将图片通道数调整为64通道,进行批量归一化与Relu激活;
步骤1.2.2,将步骤1.2.1中所得特征图FM1进行最大池化操作后传入残差块中,得到通道数为64的特征图FM2
步骤1.2.3,将步骤1.2.2中所得特征图FM2传入残差块中,得到通道数为128的特征图FM3
步骤1.2.4,将步骤1.2.3中所得特征图FM3传入残差块中,得到通道数为256的特征图FM4
步骤1.2.5,将步骤1.2.4中所得特征图FM4传入残差块中,得到通道数为512的特征图FM5
步骤1.2.6,将FM5输入,使用1*1卷积改变通道数为256,之后使用Relu函数激活得到特征图FM6
步骤1.2.7,对FM6使用3*3*256卷积操作提取特征输出FM7
步骤1.2.8,对FM7使用3*3*256卷积操作提取特征输出FM8
步骤1.2.9,对FM8使用1*1卷积改变特征图通道数为6输出FM9
步骤1.2.10,对FM9的第二维度和第三维度求平均值,则变换维度生成一个形状为[4,6]的向量,该向量为相邻帧的相对相机位姿变化。
6.根据权利要求5所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述位姿估计网络的编解码结构构建过程中残差块构造步骤为:
输入特征图W*H*C,其中W、H、C分别代表特征图的宽、高、通道数;经过一个3*3卷积,进行特征提取并且改变通道数输出为W*H*2C,之后进行批量归一化与Relu激活;再次经过一个3*3卷积进行特征提取,输出为W*H*2C,之后进行批量归一化处理。
CN202111297537.5A 2021-11-04 2021-11-04 一种基于无监督深度学习的单目深度估计方法 Active CN114170286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111297537.5A CN114170286B (zh) 2021-11-04 2021-11-04 一种基于无监督深度学习的单目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111297537.5A CN114170286B (zh) 2021-11-04 2021-11-04 一种基于无监督深度学习的单目深度估计方法

Publications (2)

Publication Number Publication Date
CN114170286A CN114170286A (zh) 2022-03-11
CN114170286B true CN114170286B (zh) 2023-04-28

Family

ID=80478016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111297537.5A Active CN114170286B (zh) 2021-11-04 2021-11-04 一种基于无监督深度学习的单目深度估计方法

Country Status (1)

Country Link
CN (1) CN114170286B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998411B (zh) * 2022-04-29 2024-01-09 中国科学院上海微系统与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
WO2023245321A1 (zh) * 2022-06-20 2023-12-28 北京小米移动软件有限公司 一种图像深度预测方法、装置、设备及存储介质
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354030B (zh) * 2020-02-29 2023-08-04 同济大学 嵌入SENet单元的无监督单目图像深度图生成方法
CN111739082B (zh) * 2020-06-15 2022-11-18 大连理工大学 一种基于卷积神经网络的立体视觉无监督深度估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法

Also Published As

Publication number Publication date
CN114170286A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN111784602B (zh) 一种生成对抗网络用于图像修复的方法
CN110992275B (zh) 一种基于生成对抗网络的细化单幅图像去雨方法
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN111739078A (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110782490A (zh) 一种具有时空一致性的视频深度图估计方法及装置
Hu et al. Underwater image restoration based on convolutional neural network
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN111354030B (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
CN113284061B (zh) 一种基于梯度网络的水下图像增强方法
CN114881871A (zh) 一种融合注意力单幅图像去雨方法
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN112767283A (zh) 一种基于多图像块划分的非均匀图像去雾方法
CN113034563A (zh) 基于特征共享的自监督式单目深度估计方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN115035010A (zh) 一种由卷积网络引导模型映射的水下图像增强方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN112270691B (zh) 一种基于动态滤波器网络的单目视频结构和运动预测方法
CN113610912A (zh) 三维场景重建中低分辨率图像单目深度估计系统及方法
CN112446245A (zh) 一种基于运动边界小位移的高效运动表征方法及装置
CN115631223A (zh) 基于自适应学习和聚合的多视图立体重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant