CN115115686B - 基于细粒度多特征融合的矿井图像无监督单目深度估计方法 - Google Patents

基于细粒度多特征融合的矿井图像无监督单目深度估计方法 Download PDF

Info

Publication number
CN115115686B
CN115115686B CN202211004903.8A CN202211004903A CN115115686B CN 115115686 B CN115115686 B CN 115115686B CN 202211004903 A CN202211004903 A CN 202211004903A CN 115115686 B CN115115686 B CN 115115686B
Authority
CN
China
Prior art keywords
layer
network
output
decoder
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211004903.8A
Other languages
English (en)
Other versions
CN115115686A (zh
Inventor
程德强
徐帅
寇旗旗
徐飞翔
王晓艺
韩成功
张皓翔
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211004903.8A priority Critical patent/CN115115686B/zh
Publication of CN115115686A publication Critical patent/CN115115686A/zh
Application granted granted Critical
Publication of CN115115686B publication Critical patent/CN115115686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法,包括以下步骤:步骤1:对原图多次采样,将不同尺度的图像输入到编码器网络;步骤2:将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络;步骤3:将解码器网络输出的视差图进行多尺度融合;步骤4:重建视图;通过采用多尺度图像输入到网络,同时将解码器输出的视差图进行逐层的尺度融合,加强弱纹理区域的深度估计效果,并且增加中间扩展卷积模块,加大对全局信息的理解。

Description

基于细粒度多特征融合的矿井图像无监督单目深度估计方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法。
背景技术
随着智慧矿山等概念的提出,如何获取井下的三维信息,从而完成巷道三维重建,达到井下生产的可视化,为矿井的安全生产提供强有力的技术保障是亟待解决的问题。对矿井图像的深度估计是实现三维重建的重要部分。深度估计在机器人、增强现实和自动驾驶车辆等方面有着广泛的应用,早期的深度估计采用成像设备的传感器来测量目标物体的深度信息,在矿井中配备这种成像设备需要高额的成本且需要连续运行,使得其使用受到了限制。单目深度估计可以在不进行额外测量的情况下估计2D图像中像素的深度,许多现有的单目深度估计方法使用合成数据或深度传感器估计的标签来训练其网络,尽管这些方法在深度估计方面有了显著的改进,但它们仍然存在多个问题,标记和获取像素深度标签的成本高、对于矿井图像的可用的地面真实深度数据有限、采样数据的深度范围有限以及深度值中的存在较多噪声。因此,面对矿井图像的无监督单目深度估计受到了研究人员的广泛关注。
无监督单目深度估计:是以多幅彩色图像为输入,不使用地面真值数据作为监督指导,而是根据图像对之间的几何关系重建出对应的图像,从而通过图像重建损失监督网络的训练,在测试时使用单幅图像作为输入,通过训练的网络模型预测出图像的深度值。
目前无监督单目深度估计使用的方法有基于立体视觉的方法、基于运动恢复结构的方法、结合对抗性网络的方法、基于序数关系的方法、结合不确定性关系的方法等。最近的FSRE-depth采用了基于运动恢复结构的方法,取得了相当不错的效果。基于运动恢复结构的方法是将深度估计问题转换为图像重建问题。这种方法是使用图像的当前帧以及该帧的前一帧图像和后一帧图像或者前两帧图像和后两帧图像作为训练网络的输入,利用输出的深度图和相对位姿变换来实现图像重建。这种方法通常使用单目图像序列作为训练的输入数据。FSRE-depth利用连续帧的集合作为输入训练深度估计网络、位姿估计网络以及语义分割网络。采用的是将语义分割网络得到的语义特征作为辅助信息来优化深度估计。
现有技术中还存在一些问题:第一,FSRE-depth采用传统的U-Net网络,仅在单一尺度上进行预测,不能很好的处理尺度变化的问题,而且这种网络每一层能捕获的信息有限,难以获得更多的纹理信息,因此在弱纹理区域深度估计效果较差。采用加深网络的方法又会导致梯度不稳定、网络退化等问题。
第二,深度估计网络和语义分割网络的结构是将编码器的输出特征信息直接输入到解码器,使得两个网络对输入图像的全剧感受野较浅,对全局信息理解不全。
发明内容
本发明的目的是提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法,通过对构建的U-Net网络进行改进,采用多尺度图像输入到网络,同时将解码器输出的视差图进行逐层的尺度融合,从而实现多尺度图像的输入并且加强弱纹理区域的深度估计效果;同时增加中间扩展卷积模块,加大对全局信息的理解;从而解决了背景技术中深度估计效果差、对全局信息理解不全的问题。
本发明提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法,包括以下步骤:
步骤1:对原图多次采样,将不同尺度的图像输入到编码器网络;
步骤1.1:将原图像It多次下采样得到It1、It2、It3、It4
步骤1.2:把经过编码器第一层的原图像以及一次下采样的It1融合后输入到编码器的第二层;
步骤1.3:按照步骤1.2流程依次将不同尺度的图像输入到编码器的第三层、第四层、第五层;
步骤2:将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络;
步骤2.1:将编码器的输出通过空洞空间卷积池化金字塔,以不同的采样率的空洞卷积进行采样;
步骤2.2:将采样后的信息特征传输到扩展卷积模块,通过不同感受野的路径后再进行特征融合;扩展卷积模块采用并联和级联的方式,采用1、2、4、8的扩展卷积层;不同的感受野路径至少设有五条,感受野路径之间并行设置;
步骤2.3:将经过扩展卷积模块的特征信息输入到解码器内;
步骤3:将解码器网络输出的视差图进行多尺度融合;
步骤3.1:将解码器第二层输出的视差图disp3上采样后与第三层输出的视差图特征融合作为解码器第三层最终输出的视差图disp2;
步骤3.2:按照步骤3.1流程将不同尺度的视差图特征融合作为解码器第四层、第五层的输出disp1、disp0;
步骤4:重建视图。
进一步改进在于:步骤4中,通过步骤1到步骤3构建的深度估计网络得到的深度图Zt,再通过位姿估计网络得到相对位姿信息Tt→t-1,两者结合构建出原视图It的重建视图It’;
p′=KTt→t-1ZtK-1p
I′t=Wt(It-1,p′)
其中,K是相机内参矩阵,p是像素的齐次坐标;p′是p经过Tt→t-1变换后的坐标,W(·)是一个可微双线性采样器,用于获取It-1中p′处的像素并在It中的p处制定线性插值像素。
进一步改进在于:对得到的视图It’通过结构相似性指标结合L1损失作为光度损失Lph来进行约束;
其中α取0.75。
本发明的有益效果:1、本发明通过构建改进的U-Net网络,现有的深度估计网络多采用传统的U-Net网络,或者采用加深网络的方式,这容易导致网络梯度不稳定、网络退化;本申请通过在网络输入和输出的地方加以改进,使网络加宽,输入时通过将原图像进行多次采样,将不同尺度的图像输入到编码器网络,输出时将解码器网络输出的视差图进行逐层的尺度融合,从而实现了多尺度图像的输入,可以让每一层网络都学习到更加丰富的特征,特别是提高了对纹理特征的学习,有效的加强了弱纹理区域的深度估计效果。
2、本发明通过在编码器和解码器之间增加中间扩展卷积模块,通过扩展卷积的加入可以在不改变原始分辨率的情况下实现不同尺度特征的融合;通过使用多条感受野路径,增强了全局感受野的同时保留了全部的空间信息,加大了对全局信息的理解。
附图说明
图1为整体网络框架结构示意图。
图2为改进的u-net网络结构示意图。
图3为扩展卷积模块结构示意图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1-3所示,本实施例提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法,包括以下步骤:
步骤1:对原图多次采样,将不同尺度的图像输入到编码器网络。
步骤1.1:将原图像It多次下采样得到It1、It2、It3、It4
步骤1.2:把经过编码器第一层的原图像以及一次下采样的It1融合后输入到编码器的第二层;
步骤1.3:按照步骤1.2流程依次将不同尺度的图像输入到编码器的第三层、第四层、第五层。
步骤2:将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络。
步骤2.1:将编码器的输出通过空洞空间卷积池化金字塔,以不同的采样率的空洞卷积进行采样;
步骤2.2:将采样后的信息特征传输到扩展卷积模块,通过不同感受野的路径后再进行特征融合;
步骤2.3:将经过扩展卷积模块的特征信息输入到解码器内。
所述扩展卷积模块采用并联和级联的方式,采用1、2、4、8的扩展卷积层;不同的感受野路径至少设有五条,感受野路径之间并行设置,通过结合不同尺度的特征扩大感受野,加大了对全局信息的理解。
步骤3:将解码器网络输出的视差图进行多尺度融合。
步骤3.1:将解码器第二层输出的视差图disp3上采样后与第三层输出的视差图特征融合作为解码器第三层最终输出的视差图disp2;
步骤3.2:按照步骤3.1流程将不同尺度的视差图特征融合作为解码器第四层、第五层的输出disp1、disp0。
通过步骤1-3完成网络模块的构建,语义分割网络和深度估计网络只有在编码模块获得的信息不同,为了减少网络的复杂性和计算,采用一个共享的编码器和两个独立的解码器,并且联合训练这两个任务。
获得语义分割图St;
将原图像It输入到语义分割网络中,语义分割网络采用传统的编码器-解码器结构,用于提取特征并对其进行上采样以进行密集预测,编码器部分采用Resnet18作为主干网络;去除了Resnet18最后的平均池化层和全连接层,分别在最大池化层、layer2、layer3、layer4、layer5获得语义特征seg_feature。同时图像经过整个网络后输出语义分割图St。
在训练中使用现成的分割模型生成的伪标签来训练语义分割,使用交叉熵损失Lp-ce进行训练,交叉熵损失Lp-ce的基于(1-Pt)j的泰勒展开式为:
此损失函数用于训练语义分割,取ε1=-1。
获得深度图及深度特征图;
将原图像It输入到深度估计网络中,深度估计网络采用编码器-解码器结构,这种结构和语义分割网络结构类似,基本特征都是在解码器部分被提取,因此与语义分割网络共享解码器部分,经过解码器输出深度特征depth_feature。在此处加入跨任务多头注意力模块,该模块位于每一个解码器层的中间。通过表示子空间生成语义感知的深度特征,并利用它们来优化深度预测,也就是将深度特征depth_feature与第一部分的分割特征seg_feature分别作为参考特征和目标特征/>该模块将会使用参考特征细化目标特征,如此来实现双向特征的增强。首先将跨任务相似性定义为/>其中i是每个特征图的空间索引,Fl是C维特征向量,这表示每个深度特征隐式引用的语义表示的数量。然后根据任务的不同性质,应用线性投影φ,将输入特征从原始维度C转换为C′,通过表示子空间间接计算跨任务相似度,最后得细化的深度特征图/>计算如下:
ρ是输入的归一化因子,采用三个独立的线性嵌入,每个嵌入充当查询(Φq)、键(Φk)、值(Φv)。目标特征成为键和值嵌入的输入,参考特征映射/>成为查询嵌入的输入。
经过编码器后得到的细化特征传输到扩展卷积模块,首先经过空洞空间卷积池化金字塔对所给定的输入以不同采样率的空洞卷积并行采样,再通过扩展卷积模块。中间的扩展卷积采用并联和级联的方式,使用了1、2、4、8的扩展卷积层,并且采用五条路径并行的方式,最后在融合输入到解码器部分,图像通过整个网络后输出深度图Zt和深度特征图Fd’,利用分割伪标签计算语义特征的三元损失,并利用语义引导优化L2归一化深度特征图Fd’。步骤4:重建视图。
将相邻帧图像It、It-1输入到位姿估计网络,计算出六自由度相对位姿信息Tt→t-1。结合深度估计网络得到的深度图Zt构建出原视图It的重建视图It’。
p′=KTt→t-1ZtK-1p
I′t=Wt(It-1,p′)
其中,K是相机内参矩阵,p是像素的齐次坐标;p′是p经过Tt→t-1变换后的坐标,W(·)是一个可微双线性采样器,用于获取It-1中p′处的像素并在It中的p处制定线性插值像素。
利用结构相似性指标结合L1损失作为光度损失Lph来约束重建视图,损失函数可以表示为:
其中α取0.75。
表1为深度估计方法性能对比图。
由表1得知,通过构建语义分割网络,将原图像多次采样后采用多尺度图像输入到网络,同时将解码器输出的视差图进行逐层的尺度融合,从而实现多尺度图像的输入并且加强弱纹理区域的深度估计效果;并且在编码器后加入扩展卷积模块,结合不同尺度的特征扩大感受野,加大了对全局信息的理解。

Claims (3)

1.基于细粒度多特征融合的矿井图像无监督单目深度估计方法,其特征在于:包括以下步骤:
步骤1:对原图多次采样,将不同尺度的图像输入到编码器网络;
步骤1.1:将原图像It多次下采样得到It1、It2、It3、It4;
步骤1.2:把经过编码器第一层的原图像以及一次下采样的It1融合后输入到编码器的第二层;
步骤1.3:按照步骤1.2流程依次将不同尺度的图像输入到编码器的第三层、第四层、第五层;
步骤2:将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络;步骤2.1:将编码器的输出通过空洞空间卷积池化金字塔,以不同的采样率的空洞卷积进行采样;
步骤2.2:将采样后的信息特征传输到扩展卷积模块,通过不同感受野的路径后再进行特征融合;所述扩展卷积模块采用并联和级联的方式,采用1、2、4、8的扩展卷积层;不同的感受野路径至少设有五条,感受野路径之间并行设置;
步骤2.3:将经过扩展卷积模块的特征信息输入到解码器内;
步骤3:将解码器网络输出的视差图进行多尺度融合;
步骤3.1:将解码器第二层输出的视差图disp3上采样后与第三层输出的视差图特征融合作为解码器第三层最终输出的视差图disp2;
步骤3.2:按照步骤3.1流程将不同尺度的视差图特征融合作为解码器第四层、第五层的输出disp1、disp0;
步骤4:重建视图。
2.如权利要求1所述的基于细粒度多特征融合的矿井图像无监督单目深度估计方法,其特征在于:步骤4中,通过步骤1到步骤3构建的深度估计网络得到的深度图Zt,再通过位姿估计网络得到相对位姿信息Tt→t-1,两者结合构建出原视图It的重建视图It’;
p′=KTt→t-1ZtK-1p
I’t=Wt(It-1,p)
其中,K是相机内参矩阵,p是像素的齐次坐标;p’是p经过Tt→t-1变换后的坐标,W(·)是一个可微双线性采样器,用于获取It-1中p处的像素并在It中的p处制定线性插值像素。
3.如权利要求2所述的基于细粒度多特征融合的矿井图像无监督单目深度估计方法,其特征在于:对得到的视图It’利用结构相似性指标结合L1损失作为光度损失Lph来进行约束;
其中α取0.75。
CN202211004903.8A 2022-08-22 2022-08-22 基于细粒度多特征融合的矿井图像无监督单目深度估计方法 Active CN115115686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211004903.8A CN115115686B (zh) 2022-08-22 2022-08-22 基于细粒度多特征融合的矿井图像无监督单目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211004903.8A CN115115686B (zh) 2022-08-22 2022-08-22 基于细粒度多特征融合的矿井图像无监督单目深度估计方法

Publications (2)

Publication Number Publication Date
CN115115686A CN115115686A (zh) 2022-09-27
CN115115686B true CN115115686B (zh) 2023-07-18

Family

ID=83336109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211004903.8A Active CN115115686B (zh) 2022-08-22 2022-08-22 基于细粒度多特征融合的矿井图像无监督单目深度估计方法

Country Status (1)

Country Link
CN (1) CN115115686B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230188696A1 (en) * 2020-04-24 2023-06-15 Visionary Machines Pty Ltd Systems And Methods For Generating And/Or Using 3-Dimensional Information With Camera Arrays
CN113870335A (zh) * 2021-10-22 2021-12-31 重庆邮电大学 一种基于多尺度特征融合的单目深度估计方法
CN114119694A (zh) * 2021-11-10 2022-03-01 中国石油大学(华东) 一种基于改进U-Net的自监督单目深度估计算法

Also Published As

Publication number Publication date
CN115115686A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Xu et al. Cobevt: Cooperative bird's eye view semantic segmentation with sparse transformers
CN111402310B (zh) 一种基于深度估计网络的单目图像深度估计方法及系统
Lin et al. Depth estimation from monocular images and sparse radar data
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
AU2021103300A4 (en) Unsupervised Monocular Depth Estimation Method Based On Multi- Scale Unification
Maslov et al. Online supervised attention-based recurrent depth estimation from monocular video
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN112184780A (zh) 一种运动物体实例分割方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
He et al. Learning scene dynamics from point cloud sequences
CN114972378A (zh) 一种基于掩码注意力机制的脑肿瘤mri图像分割方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
Yang et al. SAM-Net: Semantic probabilistic and attention mechanisms of dynamic objects for self-supervised depth and camera pose estimation in visual odometry applications
Hwang et al. Self-supervised monocular depth estimation using hybrid transformer encoder
CN115100090A (zh) 一种基于时空注意的单目图像深度估计系统
Yang et al. Mixed-scale UNet based on dense atrous pyramid for monocular depth estimation
CN115115686B (zh) 基于细粒度多特征融合的矿井图像无监督单目深度估计方法
Wang et al. Geometric pretraining for monocular depth estimation
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN116597135A (zh) Rgb-d多模态语义分割方法
CN115147806A (zh) 一种基于关键点检测车辆伪3d边界框的方法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
Zheng et al. DCU-NET: Self-supervised monocular depth estimation based on densely connected U-shaped convolutional neural networks
Mathew et al. Monocular depth estimation with SPN loss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant