CN115546505A - 一种基于深度学习的无监督单目图像深度估计方法 - Google Patents

一种基于深度学习的无监督单目图像深度估计方法 Download PDF

Info

Publication number
CN115546505A
CN115546505A CN202211113425.4A CN202211113425A CN115546505A CN 115546505 A CN115546505 A CN 115546505A CN 202211113425 A CN202211113425 A CN 202211113425A CN 115546505 A CN115546505 A CN 115546505A
Authority
CN
China
Prior art keywords
resolution
depth
boundary
map
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211113425.4A
Other languages
English (en)
Inventor
杨柏林
陈庆杰
宋超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202211113425.4A priority Critical patent/CN115546505A/zh
Publication of CN115546505A publication Critical patent/CN115546505A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的无监督单目图像深度估计方法,首先使用编码器实现局部特征信息和全局特征信息的融合,并在所有不同阶段生成的具有相同尺度的特征进行特征融合。其次在解码器中引入拉普拉斯金字塔,用于提取输入图像的边界特征并加入模型中;并在解码器中使用特征再结合模块,丰富输出的深度特征。然后使用不同的上采样算法恢复不同区域的深度信息,并在训练中加入新的边界损失。最后对模型进行训练,并使用已经训练完成的模型对测试集进行预测得到最终的深度图。本发明有效的改善了光度损失产生过平滑效果而导致的边界模糊问题,并且提高了预测深度图的准确性。

Description

一种基于深度学习的无监督单目图像深度估计方法
技术领域
本发明属于单目深度估计领域,具体涉及一种基于深度学习的无监督单目图像深度估计算法。
背景技术
深度估计作为计算机视觉领域一个非常经典且重要的任务,其长期以来,应用于许多实际的场景中。例如,在3D重建、虚拟视点、增强现实(AR)、自动驾驶等应用领域具有十分重要的作用。所谓深度估计是指能从一张RGB图中估计出深度图,深度图的值是指对于给定单张RGB图的每个像素,其对应的深度图上都有一个对应的深度值,该值代表RGB图中该点的像素对应的场景到摄像机平面的距离,因此深度图使得一张平面图像拥有了三维空间的信息,这具有重要的意义和价值。
传统的深度估计一般通过几何关系和视觉线索来估计深度图,例如,通过双目摄像机,获取左右视图进行立体匹配以得到视差图,因为相机焦距和相机之间的基线已知,最后通过公式得到有尺度信息的深度图。但是此方法使用条件苛刻,并且需要图像对。近年来随着深度学习的快速发展,基于深度学习的单目深度估计取得了显著的成果。对于基于有监督的深度学习的单目深度估计方法,利用深度相机等仪器获得的真实深度图作为监督标签,从整体上来讲此类的单目深度估计通常被视为是一类回归任务,虽然该方法能获得更好的精度,但是由于受到监督标签训练集的限制,这些训练集难以获取且成本高昂。而无监督的单目深度估计方法,可以使用单目图像序列进行训练,从目标视图中预测视差图,再让源视图利用生成的视差图合成目标视图,并使用相机姿态网络估计相对参数用于矫正合成的目标视图,最后计算生成的目标视图与原本的目标视图之间的重投影损失,用于几何约束训练。但是,现有的光度损失往往产生过平滑的结果,跨越不同物体边界,从而造成不同物体之间边界模糊的问题,而且不能明确地处理遮挡,这对图像深度图的估计精度会造成很大的影响。
发明内容
针对上述问题,本发明提出了一种基于深度学习的无监督单目图像深度估计方法,利用拉普拉斯金字塔提取的边界特征和多种上采样算法,并使用特征再结合模块增强编码器的输出,同时利用拉普拉斯金字塔提取的高维信息引入了一种新的边界损失,改进了深度边界模糊问题,提高了网络对边界处深度的预测精度。
本发明包含以下具体步骤:
步骤1,使用图像数据集对其进行预处理,并划分作为训练集、验证集和测试集。
步骤2,使用HRFormer编码器实现局部特征信息和全局特征信息的融合,并在所有不同阶段生成的,具有相同尺度的特征进行特征融合,构建出多尺度特征模块。
步骤3,在解码器中引入拉普拉斯金字塔,其主要用于提取输入图像的边界特征并加入模型中,来强化网络学习边界信息。
步骤4,在解码器中使用特征再结合模块,以进一步丰富输出的深度特征。
步骤5,使用不同的上采样算法恢复不同区域的深度信息。
步骤6,利用拉普拉斯金字塔提取的高频信息,在训练中加入新的边界损失。
步骤7,对模型进行训练,并使用已经训练完成的模型对测试集进行预测得到最终的深度图。
具体来说,其中步骤1使用图像数据集对其进行预处理,并划分作为本方法的训练集、验证集和测试集,具体按以下步骤实施:
步骤1.1,使用图像数据集划分作为本发明的训练集、验证集和测试集,并对其进行数据预处理。
其中步骤2的使用HRFormer编码器实现局部特征信息和全局特征信息的融合,并在所有不同阶段生成的,具有相同尺度的特征进行特征融合,构建出多尺度特征模块,具体按以下步骤实施:
步骤2.1,对输入的图像,进行两次3x3卷积、归一化和Relu激活函数的操作,得到第一阶段通道数为64的特征图,然后传入残差块中,得到通道数为256的特征图并进行分流操作,生成两个通道数分别为18和36的新特征图,分辨率分别为输入图像的1/4和1/8。
步骤2.2,将步骤2.1所得的两个通道数为18和36的新特征图作为输入,使用local-window自注意力机制对每个多分辨率特征图进行更新,即把输入的特征图X∈RN×D划分成一组不重叠的窗口,X→{X1,X2,...,XP},其中D表示通道数,N表示输入分辨率,R表示特征权重的集合,每个窗口的边长为K,大小为K×K;然后在每个窗口内独立执行多头自注意力(MHSA),在每个窗口中聚合信息,得到多个不同分辨率的特征图。其中第p个窗口XP上的多头自注意力(MHSA)的公式如下:
Figure BDA0003844503780000031
Figure BDA0003844503780000032
Figure BDA0003844503780000033
其中,Wo∈RD×D是自注意力输出的权重矩阵,
Figure BDA0003844503780000034
是自注意力中查询矩阵的权重矩阵,
Figure BDA0003844503780000035
自注意力中键矩阵的权重矩阵,
Figure BDA0003844503780000036
Figure BDA0003844503780000037
是自注意力中值矩阵的权重,h∈{1,2,...,H},H表示Head数,
Figure BDA0003844503780000038
表示MHSA的输出表示。
步骤2.3,对于步骤2.2得到的多个不同分辨率特征图通过卷积多尺度融合模块反复交换,并进行相互拼接来丰富特征信息,且生成新的多分辨率特征图,此为第二阶段。之后将第二阶段的输出作为步骤2.2的输入,并重复步骤2.3的操作,得到第三阶段的多分辨率特征图。再次将第三阶段的输出作为步骤2.2的输入,重复步骤2.3的操作,得到第四阶段的多分辨率特征图。在各个阶段都能得到一组多分辨率特征图。
步骤2.4,将各个阶段所生成的多分辨率特征图,按照分辨率大小在通道维度上进行拼接组合,作为编码器的输出。
其中步骤3,在解码器中引入拉普拉斯金字塔,用于提取输入图像的边界特征并加入模型中,来强化网络学习边界信息,具体步骤按以下实施:
步骤3.1,在解码器中引入拉普拉斯金字塔去提取输入图像中的边界信息,用于强化网络对图像边界信息的学习,即取步骤2.1的输入图像进行多次下采样操作,得到5个被缩小的图像分别为输入图像大小的1/2、1/4、1/8、1/16和1/32倍,然后将1/32倍的图像进行多次上采样操作,也得到5个被放大的图像分别为输入图像大小的1/16、1/8、1/4、1/2和1倍(对应原本的输入图像大小),将上述由下采样得到1/16、1/8、1/4、1/2的图像和原本输入图像,与上采样得到5个图像进行相减得到5个拉普拉斯金字塔残差块,即边界特征。
步骤3.2,在解码器中对步骤2.4所得的输出进行处理,将编码器输出的多分辨率特征图中通道数最大的特征图嵌入空洞空间金字塔池化模块,获得更大特征图感受野,充分提取特征,然后执行1x1卷积来添加非线性特性。
步骤3.3,将步骤3.2得到的多分辨率特征图进行上采样操作,得到与上一层相同分辨率大小的特征图,然后将得到的特征图、上一层特征图和相同分辨率大小的边界特征图在通道维度上进行拼接,然后通过通道注意力模块、3x3卷积,得到增强后的特征图,其通道维度变为预先设置的256,然后将得到增强后的特征图,再次作为此步骤3.3的输入,重复此过程,最终得到5个增强后的特征图其通道维度分别是16、32、64、128、256。
其中步骤4,在解码器中使用特征再结合模块,以进一步丰富输出的深度特征,具体步骤按以下实施:
步骤4.1,对步骤3.3中得到的5个增强后的特征图,再次进行特征图间通道维度上的拼接并且加入分辨率一致的边界特征图,即对步骤3.3中通道数为256的特征图先进行上采样使分辨率与通道数为128的特征图相同,同时让这两个特征图与分辨率与其一致的边界特征图在通道维度上进行拼接,然后通过一个1x1卷积得到新的通道数为128的特征图,之后再让新得到的通道数为128的特征图作为此步骤4.1的输入,重复这个过程最终得到4个深度增强后的特征图其通道维度分别是16、32、64、128。
其中步骤5,使用不同的上采样算法恢复不同区域的深度信息,具体步骤按以下实施:
步骤5.1,对步骤4.1中得到的4个深度增强后的特征图和步骤3.3中通道数为256的特征图,分别通过一个3x3卷积将通道维度变为1维;加入步骤3.1得到边界特征图令其在通道维度执行平均化得到1维的边界特征图;把上述通道数通过3x3卷积变为1维的特征图通过反卷积使特征图的分辨率变为原来的两倍;把上述在分辨率上相同的三种1维特征图进行相加,通过sigmoid激活函数激活得到4个不同分辨率的视差图。
其中步骤6,在训练中使用新的边界损失和以进一步约束物体之间的边界,具体步骤按以下实施:
步骤6.1,此步骤用于获得二进制掩码来区分哪些像素属于高频信息,并用于模型的训练阶段。即在解码器中,使用步骤3.1中获得的拉普拉斯金字塔残差块即边界特征。首先将这些残差块的分辨率缩放到模型输入图像的分辨率大小,然后在通道维度上选择像素值最大的像素点作为新的残差块。然后对它进行平均得到一个平均值,并使用鉴别器在进一步选择大于平均值的像素值作为高频信息即边界信息。
步骤6.2,对步骤6.1进行处理后,将高频信息像素点标记为1其余为0,得到一个二进制掩码M,M∈[0,1],以挑选出具有高频信息的像素点,使用berhu损失来进一步进行边界信息的训练,得到一个边界损失函数其公式如下:
Figure BDA0003844503780000051
其中,M是高频频率信息的二进制掩码,It是目标帧,I′t是合成帧,c是一批视图之间最大的绝对差值的20%。结合了新的边界损失的总损失如下所示:
L=μ[min(Lphot(It,I′t)+λLb)]+λ2Lsm
其中,μ[·]是过滤不恰当像素的自动掩蔽,min(·)是取最小重投影损失,Lsm是边缘感知平滑损失函数,Lphot是光度损失函数,λ是边界损失项的权重,λ2是平滑正则化项的权重。
其中步骤7,对模型进行训练,并使用已经训练完成的模型对测试集进行预测得到最终的深度图,具体步骤按以下实施:
步骤7.1,对模型使用步骤1.1中划分出的训练集、验证集和步骤6.2中总的损失函数,并利用Adam优化器进行训练。
步骤7.2,将已经训练完成的模型对步骤1.1中划分出的测试集进行估计其图像的深度。首先模型输出这些测试图像的视差图即深度的倒数,通过取视差图的倒数,得到一个被缩放的深度图,然后通过测试图的深度图的像素值中位数与本发明得到的深度图的像素值中位数进行相除得到一个缩放因子,然后将此缩放因子乘于本发明得到的深度图,得到最终可用的深度图。
本发明的有益效果:
本发明针对之前无监督单目深度估计方法中使用的光度损失产生过平滑效果而导致的边界模糊问题,提出了使用拉普拉斯金字塔提取的边界特征,来约束网络对物体边界的学习,不仅保证提高了预测深度图的准确性,且不需要引入多余网络去学习识别边界信息,同时也改善了光度损失所产生的边界问题。在解码器中使用了特征再结合模块,进一步丰富了输出的深度特征,同时使用不同的上采样方法来恢复低频信息即图像平坦区域和高频信息即图像边界区域,本发明还通过拉普拉斯金字塔提取的高维特征引入了一个新的边界损失函数。本发明能更进一步去约束网络对图像中物体边界信息的学习,从而获得更好的深度估计效果。
附图说明
图1是本发明的网络结构示意图;
图2是本发明的HRFormer编码器结构示意图;
图3是本发明的基于拉普拉斯金字塔的解码器示意图;
图4是本发明的基于拉普拉斯金字塔所提取的简单的高频信息;
图5是本发明的视差预测效果对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的一种基于深度学习的无监督单目图像深度估计方法具体按以下步骤实施:
步骤1,使用KITTI数据集对其进行预处理,并划分作为本方法的训练集、验证集和测试集,分别为39810张、4424张和697张。
步骤2,HRFormer编码器采用特征多分辨率并行设计,相比于Resnet编码器其结合了卷积和自注意力模块的优点,并且减少了网络参数的数量。
通过使用卷积获取局部特征信息图,并引入local-window自注意力机制对每个不同的分辨率特征图进行更新,以得到全局特征信息。实现了局部特征信息和全局特征信息的融合。
步骤2.1,HRFormer编码器如图2所示,可分为四个阶段,首先对输入图像进行两次3x3卷积,得到64通道的特征图F11其分辨率为输入图像的1/4,为第一阶段的特征图。然后传入残差块中得到256通道的特征图并进行分流操作,生成两个通道数分别为18和36的新特征图,分辨率分别为输入图像的1/4和1/8。
步骤2.2,对步骤2.1所得的两个通道数为18和36的新特征图作为输入,使用local-window自注意力机制对每个多分辨率特征图进行更新,即把输入特征图X∈RN×D划分成一组不重叠的窗口,X→{X1,X2,...,XP},其中D表示通道数,N表示输入分辨率,R表示特征权重的集合,每个窗口的边长为K,大小为K×K,然后在每个窗口内独立执行多头自注意力(MHSA),在每个窗口中聚合信息。其中第p个窗口XP上的多头自注意力(MHSA)的公式如下:
Figure BDA0003844503780000071
Figure BDA0003844503780000072
Figure BDA0003844503780000073
其中,Wo∈RD×D是自注意力输出的权重矩阵,
Figure BDA0003844503780000074
是自注意力中查询矩阵的权重矩阵,
Figure BDA0003844503780000075
自注意力中键矩阵的权重矩阵,
Figure BDA0003844503780000076
Figure BDA0003844503780000077
是自注意力中值矩阵的权重,h∈{1,2,...,H},H表示Head数,
Figure BDA0003844503780000078
表示MHSA的输出表示;
步骤2.3,经过上述步骤2.1得到的第一阶段的特征图后,第二阶段利用步骤2.1中生成的通道数分别为18和36的两个新特征图,开始使用步骤2.2中自注意力机制对每个不同的分辨率特征图进行独立更新,并让跨分辨率的信息通过卷积多尺度融合模块反复交换,进行相互拼接来丰富特征信息,再次生成新的通道数为18和36的特征图,如图2中的特征图F12和F21,此为第二阶段,此外通过通道数为36的新特征图,还生成一个通道数72的特征图其分辨率为输入图像的1/16;第三阶段重复第二阶段的操作分别生成通过数为18、36和72的新特征图,如图2所示分别为特征图F13、F22和F31,然后通过通道数为72的新特征图,还生成一个通道数144的特征图其分辨率为输入图像的1/32;第四阶段也重复第二阶段的操作,分别生成通过数为18、36、72和144的新特征图,如图2所示分别为特征图F14、F23、F32和F41。
步骤2.4,对各个阶段所得到的特征图,在分辨率相同的层次上进行通道维度间的拼接组合,此外将步骤2.1中进行了一次3x3卷积的特征图也进行组合其分辨率为输入图像的1/2,则各个组合的特征图分辨率详细为96x320、48x160,24x80、12x40、6x20,得到一组多尺度分辨率输出特征模块,作为HRFormer编码器的输出,如图1(a)部分和图2编码器所示,为X0、X1、X2、X3和X4。
步骤3,在解码器中引入拉普拉斯金字塔,其提取图像边界的特征并加入模型中,如图3所示。其目的在于约束模型对物体边界的学习,使其深度估计效果更好,这可以从下列表1的指标数值和图5展现的例子所表现出来。
具体地,在步骤3.1中对输入图像先进行下采样操作,从原本192x640的分辨率缩小2倍,并执行5次此操作,得到96x320至6x20的下采样图像。然后再通过上采样操作,将得到6x20上采样图像也执行5次,得到12x40至192x640的图像。将上述由下采样得到12x40、24x80、48x160、96x320的图像和原本输入图像(192x640),与上采样得到5个图像进行相减得到5个图像边界的特征,如图3所示边界特征分辨率从大到小分别L1、L2、L3、L4和L5,其公式如下所示:
Figure BDA0003844503780000081
Lk+1表示第k+1个图像边界的特征,Ik+1表示对第k+1个图像进行下采样得到的图像,Up(·)表示上采样函数,I表示输入图像。
之后在步骤3.2中,对之前步骤2.4得到多尺度分辨率输出特征模块进行处理,共有5层特征图模块。首先对最后一层尺度为144x6x20的特征图嵌入空洞空间金字塔池化模块,即图3中的ASPP模块,获得更大特征图感受野,充分提取特征,然后执行1x1卷积来添加非线性特性。
步骤3.3中,将步骤3.2得到的新的多分辨率特征图执行上采样操作,放大得到分辨率为144x12x40特征图,然后让该144x12x40特征图、其上一层分辨率为72x12x40的特征图和分辨率为3x12x40的边界特征图(图3中的L5)一起送入注意力模块中(图3所示),该注意力模块首先对分辨率为72x12x40的特征图执行1x1卷积添加非线性特性,然后将分辨率分别为144x12x40、72x12x40和3x12x40的特征图在通道维度上进行拼接后,使用通道注意力模块进行增强,送入一个3x3卷积中,其维度将变为256x12x40,如图3的F5所示。将上述得到增强后的特征图与相应的边界特征图和上一层特征图,再作为下一个注意力模块的输入,之后不断重复此过程,最终得到5个增强后的特征图其维度分别是16x192x640、32x96x320、64x48x160、128x24x80和256x12x40,即图3中对应的F1、F2、F3、F4和F5
步骤4中,解码器中使用特征再结合模块,以进一步丰富输出的深度特征。
具体而言在步骤4.1中,对步骤3.3中得到的5个增强后的特征图,再次进行特征图间通道维度上的拼接并且加入分辨率一致的边界特征图,即对步骤3.3中通道数为256的特征图F5、通道数为128的特征图F4和边界特征L4,一起送入特征再结合模块中即图3所示,首先对高维特征图F5进行上采样得到分辨率与F4相同的特征图,然后将三者在通道维度上进行拼接,然后通过一个1x1卷积得到新的通道数为128的特征图128x24x80,之后再让新得到的通道数为128的特征图作为此步骤4.1的输入,重复这个过程最终得到4个深度增强后的特征图其通道维度分别是16x192x640、32x96x320、64x48x160和128x24x80,即图3中对应的P1、P2、P3和P4
步骤5中,使用不同的上采样算法恢复不同区域的深度信息。
具体而言在步骤5.1中,对步骤3.1得到边界特征图令其在通道维度执行均值化,得到通道数为1维的边界特征图即图3中L1(mean)、L2(mean)、L3(mean)和L4(mean)分辨率分别为1x192x640、1x96x320、1x48x160和1x24x80。将步骤4.1中得到的4个增强后的特征图作为P1、P2、P3和P4,步骤3.3中得到的特征图F5作为P5。将P4、P5和L4(mean)作为图3所示反卷积模块的输入,其内部步骤为首先将P4和P5分别通过一个3x3卷积将其通道维度变为1维,然后将P5通过反卷积放大到原来分辨率的两倍,得到的特征图其分辨率与P4相同为1x24x80,此反卷积主要去恢复图像的高频信息即边缘区域信息,普通的上采样函数已在步骤3.3中使用来恢复图像的低频信息即平坦区域信息,然后把P4、反卷积后的P5和L4(mean)进行相加,通过sigmoid激活函数激活得到1个分辨率为1x24x80的视差图Disp1。之后不断重复此过程,即将P3、P4和L3(mean)通过反卷积模块生成1个分辨率为1x48x160的视差图Disp2,P2、P3和L2(mean)通过反卷积模块生成1个分辨率为1x96x320的视差图Disp3,P1、P2和L1(mean)通过反卷积模块生成1个分辨率为1x192x640的视差图Disp4,如图3所示。
步骤6中,利用拉普拉斯金字塔提取的高维信息在训练中加入新的边界损失,以进一步约束物体之间的边界。
步骤6.1,此步骤用于获得二进制掩码来区分哪些像素属于高频信息,并用于模型的训练阶段,即在解码器中,使用步骤3.1中获得的拉普拉斯金字塔残差块即边界特征。首先将这些残差块的分辨率缩放到模型输入图像的分辨率大小,然后在通道维度上选择像素值最大的像素点作为新的残差块,即4个新的残差块其分辨率都为1x192x640。然后对它进行平均,并使用鉴别器进一步选择大于平均值的像素值作为高频信息,即边界信息,如图4所示白色的像素点是得到的高维像素点。
步骤6.2,对步骤6.1进行处理后,将高频信息像素点标记为1其余为0,得到一个二进制掩码M,M∈[0,1],以挑选出具有高频信息的像素点,使用berhu损失来使用该掩码进一步对边界信息进行训练,得到一个边界损失函数其公式如下:
Figure BDA0003844503780000101
其中,M是高频频率信息的二进制掩码,It是目标帧,I′t是合成帧,c是一批视图之间最大的绝对差值的20%。结合了新的边界损失的总损失如下所示:
L=μ[min(Lphot(It,I′t)+λLb)]+λ2Lsm
其中,μ[·]是过滤不恰当像素的自动掩蔽,min(·)是取最小重投影损失,Lsm是边缘感知平滑损失函数,Lphot是光度损失函数,λ是边界损失项的权重,λ2是平滑正则化项的权重。
步骤7中,对模型进行训练,并使用已经训练完成的模型对KITTI的测试集进行预测得到最终的深度图。
步骤7.1,对模型使用步骤1.1中KITTI数据集划分出的训练集、验证集和步骤6.2中总的损失函数进行训练,并利用Adam优化器进行训练。具体而言,与大多数的自监督单眼深度估计方法相似,将It作为目标帧,并将源帧设置为Is,s∈(t-1,t+1)。为了计算总的损失函数,通过同时训练深度网络和姿态网络对Is进行重投影重建为I′t,即合成帧。本发明的模型以It为输入图像,预测深度图d(It),并通过图1(b)中的姿态网络,输入目标帧It与源帧Is的图像来进行相对姿态预测,得到具有6自由度的相对姿态矩阵Tt->s。利用得到的深度图d(It),相对姿态矩阵Tt->s使用双线性插值对源图像Is进行采样得到合成帧I′t。使用目标帧It和合成帧I′t计算步骤6.2中的总损失即图1中光度损失和本发明提出的边界损失,并利用Adam优化器来训练网络20个周期。
步骤7.2,将步骤7.1中已经训练完成的模型对步骤1.1中KITTI数据集划分出的测试集进行估计其图像的深度。首先模型输出这些测试图像的视差图即深度的倒数,于是通过取视差图的倒数得到一个被缩放的深度图,然后通过测试图的深度图的像素值中位数与本发明得到的深度图的像素值中位数进行相除得到一个缩放因子,将此缩放因子乘于本发明得到的深度图,得到最终可用的深度图。
本发明使用KITTI数据集中的数据对提出的基于深度学习的单目深度估计方法进行实验,KITTI数据集是计算机视觉子任务中最大和最常用的数据集,包含农村、城市户外的图像,也是无监督和半监督单目深度估计中最常见的基准和主要训练数据集,由车载相机和雷达进行采集。
本发明通过各个单目深度估计所常用得指标,例如AbsRel绝对相对误差、SqRel平方相对误差、RMSE均方根误差、RMSElog对数均方根误差、精确度指标来评估本发明提出得网络与其他基于深度学习的单目算法的性能。其中精确度指标包含三个阈值分别为1.25、1.252和1.253
表1统计了本发明的方法与最近的其它方法在KITTI数据集下上述各个指标的比较情况。从表1中可以看出,本发明的方法在大多数指标上都取得了优秀的结果,且对深度图估计的精度有一定的提升。本发明的方法与近年最好的方法相比,在绝大多数指标上取得了最好的成绩。尤其体现在精确度阈值为1.25的指标上比FSRE-Depth提升了1.2%,获得了绝对的优势。这可以看出本发明具有明显的优势。
表1
Figure BDA0003844503780000111
图5表示的是本发明与基线方法在视差图预测上的结果对比图,图5中的第1行是输入图像,第2行是本发明预测的视差图,第3行是基线模型预测的视差图。从图5中可以看出本发明的方法,不仅在视差图的预测方面更加得准确,而且物体边缘信息,也如本发明所想要得效果一样,显得更加清晰且分明,如图5中白色方框区域所示。
综上,本发明提出的一种基于深度学习的单目深度估计方法,有效的改善了光度损失产生过平滑效果而导致的边界模糊问题。本发明使用了具有局部特征信息和全局特征信息的融合的编码器结构,用于获得更丰富的图像上下文信息。为了最大化使用这些特征,将编码器中各个阶段提取出来的特征图,在相同的分辨率下进行通道维度上拼接作为编码器的最终输出;在解码器中使用拉普拉斯金字塔用于提取的边缘特征,融入特征图中用于约束网络对边界的学习,此外加入特征再结合模块来丰富最终的深度特征图,在最终输出上使用不同的上采样方法用于恢复不同频率的信息区域,该方法还利用拉普拉斯金字塔提取的高维特征,提出了新的边界损失函数用于进一步对物体之间的边界信息进行约束学习。并在KITTI数据集上的实验表明,本发明在各评价指标上与其他最先进的方法进行性能比较,本发明在绝大多数指标上取得了最好的效果。

Claims (4)

1.一种基于深度学习的无监督单目图像深度估计方法,其特征在于包括以下步骤:
步骤1,对图像数据集进行预处理,并划分为训练集、验证集和测试集;
步骤2,使用HRFormer编码器,在所有不同阶段生成的,具有相同尺度的特征进行特征融合,构建出多尺度特征模块;
步骤3,在解码器中引入拉普拉斯金字塔,强化网络学习边界信息;
步骤3.1,在解码器中引入拉普拉斯金字塔,取步骤2的输入图像进行多次下采样操作,得到五个图像,其大小分别为输入图像大小的1/2倍、1/4倍、1/8倍、1/16倍和1/32倍;
然后将1/32倍的图像进行多次上采样操作,得到五个图像,其大小分别为输入图像大小的1/16倍、1/8倍、1/4倍、1/2倍和1倍;
将上述由下采样得到1/16倍、1/8倍、1/4倍、1/2倍的图像和输入图像,与上采样得到五个图像进行相减,得到五个拉普拉斯金字塔残差块,即边界特征;
步骤3.2,将步骤2编码器输出的多分辨率特征图中通道数最大的特征图,嵌入空洞空间金字塔池化模块,再执行1x1卷积;
步骤3.3,将步骤3.2得到的多分辨率特征图进行上采样操作,然后与上一层特征图、相同分辨率大小的边界特征,在通道维度上进行拼接,并通过通道注意力模块和卷积操作,得到增强后的特征图;将增强后的特征图,再次作为步骤3.3的输入,重复此过程,得到五个增强后的特征图;
步骤4,在解码器中使用特征再结合模块;即对步骤3.3中得到的五个增强后的特征图,进行特征图间通道维度上的拼接,并且加入分辨率一致的边界特征,重复这个过程得到四个深度增强后的特征图;
步骤5,使用不同的上采样算法恢复不同区域的深度信息;
步骤5.1,对步骤4中得到的四个深度增强后的特征图和步骤3.3中得到的通道数最大的特征图,分别通过一个3x3卷积将通道维度变为一维;将步骤3.1得到边界特征在通道维度执行平均化,得到一维边界特征;把上述通道数通过3x3卷积变为一维的特征图通过反卷积,使特征图的分辨率变为原来的两倍;
将上述在分辨率上相同的三种一维特征图进行相加,通过sigmoid激活函数激活得到四个不同分辨率的视差图;
步骤6,利用拉普拉斯金字塔提取的高频信息,在训练中加入新的边界损失;
步骤6.1,在解码器中,使用步骤3.1中获得的拉普拉斯金字塔残差块;首先将这些残差块的分辨率缩放到模型输入图像的分辨率大小,其次在通道维度上选择像素值最大的像素点作为新的残差块;最后对它进行平均得到一个平均值,并使用鉴别器再进一步选择大于平均值的像素值作为高频信息即边界信息;
步骤6.2,将高频信息像素点标记为1其余为0,得到一个二进制掩码映射M,M∈[0,1];
使用berhu损失进行边界信息的训练,得到一个边界损失函数,其公式如下:
Figure FDA0003844503770000021
其中,M是高频信息的二进制掩码,It是目标帧,It′是合成帧,c是一批视图之间最大的绝对差值的20%;结合了新的边界损失的总损失如下所示:
L=μ[min(Lphot(It,It′)+λLb)]+λ2Lsm
其中,μ[·]是过滤不恰当像素的自动掩蔽,min(·)是取最小重投影损失,Lsm是边缘感知平滑损失函数,Lphot是光度损失函数,λ是边界损失项的权重,λ2是平滑正则化项的权重;
步骤7,对模型进行训练,并使用已经训练完成的模型对测试集进行预测,得到深度图。
2.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法,其特征在于:步骤2具体过程如下:
步骤2.1,对输入图像,进行两次卷积、归一化和Relu激活函数的操作得到第一阶段的多分辨率特征图,然后传入残差块中,再进行分流操作,生成两个新特征图,分辨率分别为输入图像的1/4和1/8;
步骤2.2,将步骤2.1所得的两个新特征图作为输入X,划分成一组不重叠的窗口,X→{X1,X2,...,XP},每个窗口的边长为K,大小为K×K;
在每个窗口内独立执行多头自注意力,聚合信息,得到多个不同分辨率的特征图;
步骤2.3,将步骤2.2得到的多个不同分辨率的特征图通过卷积多尺度融合模块反复交换,并进行相互拼接,得到第二阶段的多分辨率特征图;
之后将第二阶段的输出作为步骤2.2的输入,重复步骤2.3的操作,得到第三阶段的多分辨率特征图;再次将第三阶段的输出作为步骤2.2的输入,重复步骤2.3的操作,得到第四阶段的多分辨率特征图;
步骤2.4,将各阶段所生成的多分辨率特征图,按照分辨率大小在通道维度上进行拼接组合,作为编码器的输出。
3.根据权利要求2所述的一种基于深度学习的无监督单目图像深度估计方法,其特征在于:步骤2.4中的输出还包括步骤2.1中进行了一次卷积的特征图,其分辨率为输入图像的1/2。
4.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法,其特征在于:步骤7具体过程如下:
步骤7.1,对模型使用训练集、验证集和步骤6.2中总损失函数,并利用Adam优化器进行训练;
步骤7.2,对已经训练完成的模型,使用测试集估计其图像的深度;
首先模型输出测试图像的视差图,即深度的倒数,通过取视差图的倒数,得到一个被缩放的深度图;
其次通过测试图像的深度图的像素值中位数,与模型预测得到的深度图的像素值中位数进行相除,得到一个缩放因子;
将缩放因子乘于模型预测得到的深度图,得到最终可用的深度图。
CN202211113425.4A 2022-09-14 2022-09-14 一种基于深度学习的无监督单目图像深度估计方法 Pending CN115546505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113425.4A CN115546505A (zh) 2022-09-14 2022-09-14 一种基于深度学习的无监督单目图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113425.4A CN115546505A (zh) 2022-09-14 2022-09-14 一种基于深度学习的无监督单目图像深度估计方法

Publications (1)

Publication Number Publication Date
CN115546505A true CN115546505A (zh) 2022-12-30

Family

ID=84728568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113425.4A Pending CN115546505A (zh) 2022-09-14 2022-09-14 一种基于深度学习的无监督单目图像深度估计方法

Country Status (1)

Country Link
CN (1) CN115546505A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503461A (zh) * 2023-06-28 2023-07-28 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN116703786A (zh) * 2023-08-09 2023-09-05 天津工业大学 一种基于改进UNet网络的图像去模糊方法和系统
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503461A (zh) * 2023-06-28 2023-07-28 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN116503461B (zh) * 2023-06-28 2023-10-31 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN116703786A (zh) * 2023-08-09 2023-09-05 天津工业大学 一种基于改进UNet网络的图像去模糊方法和系统
CN116703786B (zh) * 2023-08-09 2023-10-20 天津工业大学 一种基于改进UNet网络的图像去模糊方法和系统
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备
CN117268345B (zh) * 2023-11-20 2024-03-29 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Li et al. Underwater scene prior inspired deep underwater image and video enhancement
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
Huang et al. Deep hyperspectral image fusion network with iterative spatio-spectral regularization
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
Cheng et al. Zero-shot image super-resolution with depth guided internal degradation learning
CN111259945A (zh) 引入注意力图谱的双目视差估计方法
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN113284061B (zh) 一种基于梯度网络的水下图像增强方法
CN113762358A (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN109934793B (zh) 一种基于整数dct变换的实时图像融合方法
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN111626968B (zh) 一种基于全局信息和局部信息的像素增强设计方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115272437A (zh) 一种基于全局与局部特征的图像深度估计方法及装置
CN115272438A (zh) 一种面向三维场景重建的高精度单目深度估计系统及方法
CN117197627B (zh) 一种基于高阶退化模型的多模态图像融合方法
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置
CN115631223A (zh) 基于自适应学习和聚合的多视图立体重建方法
CN112734655B (zh) 一种基于卷积神经网络图像对crm增强的低光图像增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination