CN115115686B

CN115115686B - 基于细粒度多特征融合的矿井图像无监督单目深度估计方法

Info

Publication number: CN115115686B
Application number: CN202211004903.8A
Authority: CN
Inventors: 程德强; 徐帅; 寇旗旗; 徐飞翔; 王晓艺; 韩成功; 张皓翔; 吕晨
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2023-07-18
Anticipated expiration: 2042-08-22
Also published as: CN115115686A

Abstract

本发明提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法，包括以下步骤：步骤1：对原图多次采样，将不同尺度的图像输入到编码器网络；步骤2：将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络；步骤3：将解码器网络输出的视差图进行多尺度融合；步骤4：重建视图；通过采用多尺度图像输入到网络，同时将解码器输出的视差图进行逐层的尺度融合，加强弱纹理区域的深度估计效果，并且增加中间扩展卷积模块，加大对全局信息的理解。

Description

基于细粒度多特征融合的矿井图像无监督单目深度估计方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法。

背景技术

随着智慧矿山等概念的提出,如何获取井下的三维信息,从而完成巷道三维重建,达到井下生产的可视化,为矿井的安全生产提供强有力的技术保障是亟待解决的问题。对矿井图像的深度估计是实现三维重建的重要部分。深度估计在机器人、增强现实和自动驾驶车辆等方面有着广泛的应用，早期的深度估计采用成像设备的传感器来测量目标物体的深度信息，在矿井中配备这种成像设备需要高额的成本且需要连续运行，使得其使用受到了限制。单目深度估计可以在不进行额外测量的情况下估计2D图像中像素的深度，许多现有的单目深度估计方法使用合成数据或深度传感器估计的标签来训练其网络，尽管这些方法在深度估计方面有了显著的改进，但它们仍然存在多个问题，标记和获取像素深度标签的成本高、对于矿井图像的可用的地面真实深度数据有限、采样数据的深度范围有限以及深度值中的存在较多噪声。因此，面对矿井图像的无监督单目深度估计受到了研究人员的广泛关注。

无监督单目深度估计：是以多幅彩色图像为输入，不使用地面真值数据作为监督指导，而是根据图像对之间的几何关系重建出对应的图像，从而通过图像重建损失监督网络的训练，在测试时使用单幅图像作为输入，通过训练的网络模型预测出图像的深度值。

目前无监督单目深度估计使用的方法有基于立体视觉的方法、基于运动恢复结构的方法、结合对抗性网络的方法、基于序数关系的方法、结合不确定性关系的方法等。最近的FSRE-depth采用了基于运动恢复结构的方法，取得了相当不错的效果。基于运动恢复结构的方法是将深度估计问题转换为图像重建问题。这种方法是使用图像的当前帧以及该帧的前一帧图像和后一帧图像或者前两帧图像和后两帧图像作为训练网络的输入，利用输出的深度图和相对位姿变换来实现图像重建。这种方法通常使用单目图像序列作为训练的输入数据。FSRE-depth利用连续帧的集合作为输入训练深度估计网络、位姿估计网络以及语义分割网络。采用的是将语义分割网络得到的语义特征作为辅助信息来优化深度估计。

现有技术中还存在一些问题：第一，FSRE-depth采用传统的U-Net网络，仅在单一尺度上进行预测，不能很好的处理尺度变化的问题，而且这种网络每一层能捕获的信息有限，难以获得更多的纹理信息，因此在弱纹理区域深度估计效果较差。采用加深网络的方法又会导致梯度不稳定、网络退化等问题。

第二，深度估计网络和语义分割网络的结构是将编码器的输出特征信息直接输入到解码器，使得两个网络对输入图像的全剧感受野较浅，对全局信息理解不全。

发明内容

本发明的目的是提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法，通过对构建的U-Net网络进行改进，采用多尺度图像输入到网络，同时将解码器输出的视差图进行逐层的尺度融合，从而实现多尺度图像的输入并且加强弱纹理区域的深度估计效果；同时增加中间扩展卷积模块，加大对全局信息的理解；从而解决了背景技术中深度估计效果差、对全局信息理解不全的问题。

本发明提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法，包括以下步骤：

步骤1：对原图多次采样，将不同尺度的图像输入到编码器网络；

步骤1.1：将原图像I_t多次下采样得到I_t1、I_t2、I_t3、I_t4；

步骤1.2：把经过编码器第一层的原图像以及一次下采样的I_t1融合后输入到编码器的第二层；

步骤1.3：按照步骤1.2流程依次将不同尺度的图像输入到编码器的第三层、第四层、第五层；

步骤2：将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络；

步骤2.1：将编码器的输出通过空洞空间卷积池化金字塔，以不同的采样率的空洞卷积进行采样；

步骤2.2：将采样后的信息特征传输到扩展卷积模块，通过不同感受野的路径后再进行特征融合；扩展卷积模块采用并联和级联的方式，采用1、2、4、8的扩展卷积层；不同的感受野路径至少设有五条，感受野路径之间并行设置；

步骤2.3：将经过扩展卷积模块的特征信息输入到解码器内；

步骤3：将解码器网络输出的视差图进行多尺度融合；

步骤3.1：将解码器第二层输出的视差图disp3上采样后与第三层输出的视差图特征融合作为解码器第三层最终输出的视差图disp2；

步骤3.2：按照步骤3.1流程将不同尺度的视差图特征融合作为解码器第四层、第五层的输出disp1、disp0；

步骤4：重建视图。

进一步改进在于：步骤4中，通过步骤1到步骤3构建的深度估计网络得到的深度图Zt，再通过位姿估计网络得到相对位姿信息T_t→t-1，两者结合构建出原视图It的重建视图It’；

p′＝KT_t→t-1Z_tK^-1p

I′_t＝W_t(I_t-1，p′)

其中，K是相机内参矩阵，p是像素的齐次坐标；p′是p经过T_t→t-1变换后的坐标，W(·)是一个可微双线性采样器，用于获取I_t-1中p′处的像素并在I_t中的p处制定线性插值像素。

进一步改进在于：对得到的视图It’通过结构相似性指标结合L1损失作为光度损失L_ph来进行约束；

其中α取0.75。

本发明的有益效果：1、本发明通过构建改进的U-Net网络，现有的深度估计网络多采用传统的U-Net网络，或者采用加深网络的方式，这容易导致网络梯度不稳定、网络退化；本申请通过在网络输入和输出的地方加以改进，使网络加宽，输入时通过将原图像进行多次采样，将不同尺度的图像输入到编码器网络，输出时将解码器网络输出的视差图进行逐层的尺度融合，从而实现了多尺度图像的输入，可以让每一层网络都学习到更加丰富的特征，特别是提高了对纹理特征的学习，有效的加强了弱纹理区域的深度估计效果。

2、本发明通过在编码器和解码器之间增加中间扩展卷积模块，通过扩展卷积的加入可以在不改变原始分辨率的情况下实现不同尺度特征的融合；通过使用多条感受野路径，增强了全局感受野的同时保留了全部的空间信息，加大了对全局信息的理解。

附图说明

图1为整体网络框架结构示意图。

图2为改进的u-net网络结构示意图。

图3为扩展卷积模块结构示意图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明作进一步详述，该实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

如图1-3所示，本实施例提供一种基于细粒度多特征融合的矿井图像无监督单目深度估计方法，包括以下步骤：

步骤1：对原图多次采样，将不同尺度的图像输入到编码器网络。

步骤1.1：将原图像I_t多次下采样得到I_t1、I_t2、I_t3、I_t4；

步骤1.3：按照步骤1.2流程依次将不同尺度的图像输入到编码器的第三层、第四层、第五层。

步骤2：将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络。

步骤2.2：将采样后的信息特征传输到扩展卷积模块，通过不同感受野的路径后再进行特征融合；

步骤2.3：将经过扩展卷积模块的特征信息输入到解码器内。

所述扩展卷积模块采用并联和级联的方式，采用1、2、4、8的扩展卷积层；不同的感受野路径至少设有五条，感受野路径之间并行设置，通过结合不同尺度的特征扩大感受野，加大了对全局信息的理解。

步骤3：将解码器网络输出的视差图进行多尺度融合。

步骤3.2：按照步骤3.1流程将不同尺度的视差图特征融合作为解码器第四层、第五层的输出disp1、disp0。

通过步骤1-3完成网络模块的构建，语义分割网络和深度估计网络只有在编码模块获得的信息不同，为了减少网络的复杂性和计算，采用一个共享的编码器和两个独立的解码器，并且联合训练这两个任务。

获得语义分割图St；

将原图像It输入到语义分割网络中，语义分割网络采用传统的编码器-解码器结构，用于提取特征并对其进行上采样以进行密集预测，编码器部分采用Resnet18作为主干网络；去除了Resnet18最后的平均池化层和全连接层，分别在最大池化层、layer2、layer3、layer4、layer5获得语义特征seg_feature。同时图像经过整个网络后输出语义分割图St。

在训练中使用现成的分割模型生成的伪标签来训练语义分割，使用交叉熵损失Lp-ce进行训练，交叉熵损失Lp-ce的基于(1-_Pt)^j的泰勒展开式为：

此损失函数用于训练语义分割，取ε₁＝-1。

获得深度图及深度特征图；

将原图像It输入到深度估计网络中，深度估计网络采用编码器-解码器结构，这种结构和语义分割网络结构类似，基本特征都是在解码器部分被提取，因此与语义分割网络共享解码器部分，经过解码器输出深度特征depth_feature。在此处加入跨任务多头注意力模块，该模块位于每一个解码器层的中间。通过表示子空间生成语义感知的深度特征，并利用它们来优化深度预测，也就是将深度特征depth_feature与第一部分的分割特征seg_feature分别作为参考特征和目标特征/>该模块将会使用参考特征细化目标特征，如此来实现双向特征的增强。首先将跨任务相似性定义为/>其中i是每个特征图的空间索引，F^l是C维特征向量，这表示每个深度特征隐式引用的语义表示的数量。然后根据任务的不同性质，应用线性投影φ，将输入特征从原始维度C转换为C′，通过表示子空间间接计算跨任务相似度，最后得细化的深度特征图/>计算如下：

ρ是输入的归一化因子，采用三个独立的线性嵌入，每个嵌入充当查询(Φ_q)、键(Φ_k)、值(Φ_v)。目标特征成为键和值嵌入的输入，参考特征映射/>成为查询嵌入的输入。

经过编码器后得到的细化特征传输到扩展卷积模块，首先经过空洞空间卷积池化金字塔对所给定的输入以不同采样率的空洞卷积并行采样，再通过扩展卷积模块。中间的扩展卷积采用并联和级联的方式，使用了1、2、4、8的扩展卷积层，并且采用五条路径并行的方式，最后在融合输入到解码器部分，图像通过整个网络后输出深度图Zt和深度特征图Fd’，利用分割伪标签计算语义特征的三元损失，并利用语义引导优化L2归一化深度特征图Fd’。步骤4：重建视图。

将相邻帧图像It、It-1输入到位姿估计网络，计算出六自由度相对位姿信息T_t→t-1。结合深度估计网络得到的深度图Zt构建出原视图It的重建视图It’。

p′＝KT_t→t-1Z_tK^-1p

I′_t＝W_t(I_t-1，p′)

利用结构相似性指标结合L1损失作为光度损失Lph来约束重建视图，损失函数可以表示为：

其中α取0.75。

表1为深度估计方法性能对比图。

由表1得知，通过构建语义分割网络，将原图像多次采样后采用多尺度图像输入到网络，同时将解码器输出的视差图进行逐层的尺度融合，从而实现多尺度图像的输入并且加强弱纹理区域的深度估计效果；并且在编码器后加入扩展卷积模块，结合不同尺度的特征扩大感受野，加大了对全局信息的理解。

Claims

1.基于细粒度多特征融合的矿井图像无监督单目深度估计方法，其特征在于：包括以下步骤：

步骤1.1：将原图像It多次下采样得到It1、It2、It3、It4；

步骤1.2：把经过编码器第一层的原图像以及一次下采样的It1融合后输入到编码器的第二层；

步骤2：将编码器的输出通过扩展卷积模块进行融合并输入到解码器网络；步骤2.1：将编码器的输出通过空洞空间卷积池化金字塔，以不同的采样率的空洞卷积进行采样；

步骤2.2：将采样后的信息特征传输到扩展卷积模块，通过不同感受野的路径后再进行特征融合；所述扩展卷积模块采用并联和级联的方式，采用1、2、4、8的扩展卷积层；不同的感受野路径至少设有五条，感受野路径之间并行设置；

步骤2.3：将经过扩展卷积模块的特征信息输入到解码器内；

步骤3：将解码器网络输出的视差图进行多尺度融合；

步骤4：重建视图。

2.如权利要求1所述的基于细粒度多特征融合的矿井图像无监督单目深度估计方法，其特征在于：步骤4中，通过步骤1到步骤3构建的深度估计网络得到的深度图Zt，再通过位姿估计网络得到相对位姿信息T_t→t-1，两者结合构建出原视图It的重建视图It’；

p′＝KT_t→t-1Z_tK^-1p

I’_t＝W_t(I_t-1，p)

其中，K是相机内参矩阵，p是像素的齐次坐标；p’是p经过T_t→t-1变换后的坐标，W(·)是一个可微双线性采样器，用于获取I_t-1中p处的像素并在I_t中的p处制定线性插值像素。

3.如权利要求2所述的基于细粒度多特征融合的矿井图像无监督单目深度估计方法，其特征在于：对得到的视图It’利用结构相似性指标结合L1损失作为光度损失L_ph来进行约束；

其中α取0.75。