CN115294282A

CN115294282A - 三维场景重建中增强特征融合的单目深度估计系统及其方法

Info

Publication number: CN115294282A
Application number: CN202211003081.1A
Authority: CN
Inventors: 陈俊辉; 程德强; 寇旗旗; 徐飞翔; 王晓艺; 韩成功; 张皓翔; 吕晨
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-04

Abstract

本发明公开了一种三维场景重建中增强特征融合的单目深度估计系统，该系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；单目深度估计网络包括深度估计网络和位姿预测网络，深度估计网络用于帮助目标图像恢复深度；位姿预测网络用于输出邻帧间运动量；深度估计网络包括深度编码器和深度解码器；深度编码器接用于提取输入图像的深度信息特征；深度解码器生成各尺度的深度预测图；深度编码器与深度解码器采用全尺度跳跃连接，获得全尺度的编、解码器特征信息，并将其融合。本发明通过深度编码器和深度解码器采用全尺度跳跃连接，优化学习分配各层特征信息的参数权重，得到精确的深度边界与预测精度。

Description

三维场景重建中增强特征融合的单目深度估计系统及其方法

技术领域

本发明属于图像处理技术领域，具体涉及三维场景重建中增强特征融合的单目深度估计系统及其方法。

背景技术

随着深度学习技术的兴起，计算机视觉领域取得了巨大的进步和丰硕的成果。对于当下的三维场景重建领域而言，深度估计(Depth Estimation)任务对从二维图像到三维空间的映射起着重要作用，它帮助计算机理解和感知现实中的三维场景。实际上，该任务在自动驾驶以及增强现实等领域都有着丰富的应用。一般真实的深度通常可以利用激光测距仪等各种昂贵的设备去获取物体表面上一定数量点的深度，然而这样的方式并不适用于普遍场景。而通过摄像头获取二维图像，然后应用深度学习技术，从二维图像估计深度的方式则使用设备简单，成本廉价。因此，从二维图像上进行深度的估计，是目前研究热点。

深度学习中的单目深度估计以监督方式划分可分为：监督学习，半监督学习以及自监督学习。监督学习使用真实深度信息进行训练；半监督学习引入了其他信息与真实深度信息结合，减少了对真实深度信息的依赖；自监督学习则不需要深度标注信息，由于自然界都是大量的无标签数据，自监督更适用现实情况。近年来，自监督的方式受到了广泛关注，并且在基准数据集上都取得了不错的结果。

目前的单目深度估计自监督方法中仍存在以下缺陷：第一、编、解码器在下采样与上采样的操作中是不可逆的，特征信息不可避免地会出现丢失的现象。为解决各尺度解码器特征信息的缺失，当前主流方法只是简单地连接了编、解码器对应层的特征信息，没有解决深度网中特征信息丢失的问题；第二、在深度估计网络结构中，中间多层特征图的特征信息在解码器进行深度预测时没有得到利用，导致预测的深度图在物体边界、无纹理与弱纹理的区域出现深度模糊的现象，深度估计网络的性能受到限制。

发明内容

本发明针对上述的不足之处提供一种根据不同层的特征信息对于恢复深度图的重要程度，可以自己去优化学习分配各层特征信息的参数权重，得到更精确的深度边界与预测精度的三维场景重建中增强特征融合的单目深度估计系统及其方法。

本发明目的是这样实现的：三维场景重建中增强特征融合的单目深度估计系统，其特征在于：所述该系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；

所述单目深度估计网络基于MonoDepth2的网络框架；

所述单目深度估计网络包括深度估计网络和位姿预测网络，深度估计网络用于帮助目标图像恢复深度；

所述位姿预测网络用于输出邻帧间运动量。

优选的，所述深度估计网络包括深度编码器和深度解码器；

所述深度编码器接用于提取输入图像的深度信息特征；

所述深度解码器生成各尺度的深度预测图；

所述深度编码器与深度解码器采用全尺度跳跃连接，获得全尺度的编、解码器特征信息，并将其融合。

优选的，所述自监督方式优化网络包括损失函数，损失函数包括最小重投影损失函数与边缘平滑度损失函数；

所述最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值；

所述边缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。

三维场景重建中增强特征融合的单目深度估计方法，其特征在于：所述该方法包括以下步骤：

步骤1：构建KITTI数据集；

步骤2：构建单目深度估计网络的深度估计网络，通过深度编码器提取输入图像的深度信息特征，深度解码器生成各尺度的深度预测图；

步骤3：构建单目深度估计网络的位姿预测网络，通过相机邻帧间运动位姿的估计重投影到目标图像的光度损失作为主要深度监督信号；

步骤4：构建自监督方式优化网络，通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络。

优选的，所述构建KITTI数据集采用对应应用场景图片，将数据集内九层图片作为训练集，剩下一层图片作为验证集，统一将训练照片缩放到分辨率的大小，以单目视频序列作为训练方式，对数据集手工挑选去掉静态帧后，以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。

优选的，所述深度编码器与深度解码器采用全尺度跳跃连接，采用尺度跳跃连接后，深度估计网络的具体步骤为：

步骤2-1：将图片尺寸为640*192、3通道的图像输入到深度编码器中，经过第一层的卷积层，输出尺寸缩减为原尺寸的

通道数变为64的特征图；经过第二层的卷积层，输出尺寸缩减为原尺寸的

通道数为64的特征图；经过第三层的卷积层，输出尺寸缩减为原尺寸的

通道数为128的特征图；经过第四层的卷积层，输出尺寸缩减为原尺寸的

通道数为256的特征图；经过第五层的卷积层，输出尺寸缩减为原尺寸的

通道数为512的特征图；第四层解码器首先接收第五层输出特征图，将其上采样至原尺寸的

后，通过一个卷积层将其通道数变为32；

步骤2-2：将另四层深度编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的

后、通道数变为32的四个特征图；

步骤2-3：沿着通道数的维度拼接融合这五个通道数为32的特征图，得到大小为原尺寸的

通道数为160的特征图；通过两次不改变尺寸和通道的卷积后，作为第四层解码器的输出；

步骤2-4：第三层解码器首先将尺寸缩减为原尺寸的

通道数为64、64、128的深度编码器输出经过上述类似的操作，转化成尺寸为原尺寸的

通道数为32的三个特征图；

步骤2-5：将上两层解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的

通道数为32的两个特征图，沿着通道数的维度拼接融合这五个通道数为32的特征图，得到大小为原尺寸的

通道数为160的特征图，通过两次不改变尺寸和通道的卷积后，作为第三层解码器的输出。

优选的，所述深度解码器输出的多尺度特征图转化为多尺度视差图的过程中，添加个轻量级的卷积注意力模块，基于全尺度跳跃连接深度编码器、解码器的特征图进行自适应的特征细化选择，强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息；

首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块，然后将两个特征块经过一个共享权重的MLP运算聚集通道信息，最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块；将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′；通道注意力块的计算如下式1所示：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)

其中F是输入特征图，σ(.)是Sigmoid(.)计算；

其次，以中间特征图F′为输入，首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为1，尺寸为80x24的特征块；沿通道数连接上述生成的两个特征块，并将其送入一个标准卷积层，通过Sigmoid(.)激活函数生成空间注意力特征块；将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F″；空间注意力块的计算如下式2所示，其中F′是输入的通道注意力特征图，f^7×7(.)是经过一个卷积核为7的卷积运算：

M_s(F′)＝σ(f^7×7([AvgPool(F′)；MaxPool(F′)])) (2)

运用注意力机制的整体运算如下式3、4所示：

其中

是按元素广播相乘运算；

将上述的解码器输出特征图F、通道注意力特征块F′、空间注意力特征图F″沿通道维度堆叠成输出的细化特征图；

最后将细化特征图通过一次卷积以及Sigmoid(.)激活函数运算后得到该尺度对应的视差图。

优选的，所述步骤4中通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络的操作如下：

最小重投影损失函数L_p的计算由光度误差函数pe(.)在源图像t'时刻投影到目标图像t时刻的最小值组成，即计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值，如下式5所示：

L_p＝min_t′pe(I_t,I_t′→t) (5)

光度误差函数pe(.)由计算源图像与目标图像间的SSIM(.)结构相似一致性与L₁范数相加组成，如下式6所示：

其中α＝0.85，是光度误差中的超参数权重；SSIM(.)是衡量两幅图像相似度的指标，具体计算如下式7所示：

SSIM(I_a,I_b)＝[l(I_a,I_b)]^α[c(I_a,I_b)]^β[s(I_a,I_b)]^γ (7)

其中l(I_a,I_b)是亮度对比、c(I_a,I_b)是对比度对比、s(I_a,I_b)是结构比较；

边缘平滑度损失函数L_s由目标图像沿两个坐标轴方向的梯度

与所预测的视差平均归一化值

组成，如下式8所示：

深度估计方法在计算最小重投影损失时需乘以一个掩模矩阵，自动掩模μ的计算如下式9所示：

μ＝[min_t′pe(I_t,I_t′→t)＜min_t′pe(I_t,I_t′)] (9)

其中[.]运算为满足式中条件时，取1；否则取0；

总损失函数如下式10所示：

L＝μL_p+λL_s (10)

其中λ＝0.001，是总损失中的超参数权重。

与现有技术相比，本发明的有益效果：1、通过将深度编码器和深度解码器采用全尺度跳跃连接，增强融合无监督单目深度估计中深度编码器、深度解码器的特征信息，提高网络深度预测的精度；在单目深度估计网络添加全尺度跳跃连接后，对整体的深度估计网络结构进行了重新构建，利用融合全尺度特征图后的解码器输出的特征，可以更好地优化网络参数。

2、通过在生成视差图时添加了一个轻量级的卷积注意力模块，使基于全尺度跳跃连接深度编码器、深度解码器的特征图可以进行自适应的特征细化，强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征，使网络恢复的深度信息更丰富。

3、通过使用自监督方式优化训练单目深度估计网络，提出的无监督约束作为监督信号，深度解码器输出特征后联合位姿预测网络输出的帧间运动量，以全尺度的最小重投影损失以及边缘平滑度损失作为监督信号训练优化网络。

附图说明

图1为本发明的方法流程图。

图2为改进的深度网络图。

图3为深度解码器特征融合网络图。

图4为注意力细化特征网络图。

具体实施方式

以下结合附图对本发明做进一步概述。

本发明基于MonoDepth2的网络框架上，提出的利用全尺度特征增强融合的单目深度估计网络结构，使得深度网中每一层解码器都能获得各尺度下的深度编码器和其他层深度解码器的特征信息；各尺度深度的预测都充分利用了全尺度特征图的信息，增强了深度估计网络对边界、语义与空间特征的融合，最终提高深度估计网络的预测精度。

如图1所示，三维场景重建中增强特征融合的单目深度估计系统，系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；

单目深度估计网络包括深度估计网络和位姿预测网络，深度估计网络用于帮助目标图像恢复到深度度；深度估计网络包括深度编码器和深度解码器；深度编码器与深度解码器采用全尺度跳跃连接，获得全尺度的编、解码器特征信息，并将其融合。

自监督方式优化网络，通过最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值；缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。

三维场景重建中增强特征融合的单目深度估计方法，方法包括以下步骤：

步骤1：构建KITTI数据集；

构建KITTI数据集采用对应应用场景图片，在获取KITTI原始数据集的44234张图片后，将其中九成图片39810张分为训练集，余下一成4424张图片作为验证集。统一将训练照片缩放到分辨率的大小，以单目视频序列作为训练方式，对数据集手工挑选去掉静态帧后，以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。

如图2所示，步骤2：构建单目深度估计网络的深度估计网络，通过深度编码器提取输入图像的深度信息特征，深度解码器生成各尺度的深度预测图

采用全尺度的跳跃连接深度编码器与深度解码器，添加全尺度跳跃连接后，深度估计网络流程，具体步骤为：

将图片尺寸为640*192、3通道的图像输入到深度编码器中，经过第一层的卷积层，输出尺寸缩减为原尺寸的

通道数为512的特征图；第四层深度解码器首先接收第五层输出特征图，将其上采样至原尺寸的

后，通过一个卷积层将其通道数变为32；

将另四层深度编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的

后、通道数变为32的四个特征图。

沿着通道数的维度拼接融合这五个通道数为32的特征图，得到大小为原尺寸的

通道数为160的特征图；通过两次不改变尺寸和通道的卷积后，作为第四层深度解码器的输出；

第三层深度解码器首先将尺寸缩减为原尺寸的

通道数为32的三个特征图；

将上两层深度解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的

通道数为160的特征图，通过两次不改变尺寸和通道的卷积后，作为第三层深度解码器的输出；同理，其他上层解码器经过上述相同处理，输出对应各层尺寸、通道数为160的特征图作为输出。

如图3所示，其他层深度解码器的特征图也做类似的处理，深度解码器每一层的特征图都接收、融合了全尺度层间编、深度解码器的所有特征图，提高了网络对各层特征的利用率。网络在推理阶段时，在最后一层深度解码器在上采样至尺寸为640*192、通道数为160后，通过注意力细化特征层和卷积层将其恢复为网络最后所估计的视差图，深度图即为视差图的倒数。在训练阶段时，网络可选择使用多个尺度的深度解码器输出，通过注意力细化特征层与卷积层恢复相应尺度的视差图，参与到网络的损失计算中。

在深度估计网络深度解码器输出的多尺度特征图转化为多尺度视差图的过程中，添加了一个轻量级的卷积注意力模块，使基于全尺度跳跃连接编、深度解码器的特征图可以进行自适应的特征细化选择，强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息，使恢复的深度信息更丰富。

以第三层深度解码器输出的尺寸为80*24、通道数为160的特征图F作为输入举例。第一步首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块，然后将两个特征块经过一个共享权重的MLP运算聚集通道信息，最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块。将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′。通道注意力块的计算如下式1所示，其中F是输入特征图，σ(.)是Sigmoid(.)计算。

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)

第二步以中间特征图F′为输入，首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为1，尺寸为80*24的特征块。然后沿通道数连接上述生成的两个特征块，并将其送入一个标准卷积层，通过Sigmoid(.)激活函数生成空间注意力特征块。将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F″。空间注意力块的计算如下式2所示，其中F′是输入的通道注意力特征图，f^7×7(.)是经过一个卷积核为7的卷积运算。

M_s(F′)＝σ(f^7×7([AvgPool(F′)；MaxPool(F′)])) (2)

运用注意力机制的整体运算如下式3、4所示：

其中

是按元素广播相乘运算。

第三步将上述的深度解码器输出特征图F、通道注意力特征块F′、空间注意力特征图F″沿通道维度堆叠成输出的细化特征图。

最后将细化特征图通过一次卷积以及Sigmoid(.)激活函数运算后得到该尺度对应的视差图。其他尺度的深度解码器输出按上述操作亦可生成对应尺度的视差图。此方法生成的视差图可以自适应地从细化特征中关注学习重要特征，抑制不必要的特征信息，使网络恢复的深度信息更丰富。

深度估计方法中的无监督约束可选择地利用多个尺度的视差图，将其上采样至原图尺寸再计算损失，减少视觉伪影。损失函数主要包含两个部分，最小重投影损失函数与边缘平滑度损失函数。

L_p＝min_t′pe(I_t,I_t′→t) (5)

SSIM(I_a,I_b)＝[l(I_a,I_b)]^α[c(I_a,I_b)]^β[s(I_a,I_b)]^γ (7)

其中l(I_a,I_b)是亮度对比、c(I_a,I_b)是对比度对比、s(I_a,I_b)是结构比较。

边缘平滑度损失函数L_s由目标图像沿两个坐标轴方向的梯度

与所预测的视差平均归一化值

组成，如下式8所示：

为解决在相机坐标系中静态物体具有无穷大深度的问题，深度估计方法在计算最小重投影损失时需乘以一个掩模矩阵，自动掩模μ的计算如下式9所示：

μ＝[min_t′pe(I_t,I_t′→t)＜min_t′pe(I_t,I_t′)] (9)

其中[.]运算为满足式中条件时，取1；否则取0。

总损失函数如下式10所示：

L＝μL_p+λL_s (10)

其中λ＝0.001，是总损失中的超参数权重。

工作原理：如图1所示，本发明的整体网络以MonoDepth2单目深度估计的架构为基础，首先以MonoDepth2网络架构为基础，构建位姿预测网络以及深度估计网络。当一组数据输入到网络中时，其中目标帧图像输入深度估计网络恢复深度图，而目标帧图像与其上下帧图像分别输入位姿预测网络输出两帧间运动量。后续网络将结合两者输出优化网络权重参数。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.三维场景重建中增强特征融合的单目深度估计系统，其特征在于：所述该系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；

所述单目深度估计网络基于MonoDepth2的网络框架；

所述位姿预测网络用于输出邻帧间运动量。

2.根据权利要求1所述的单目深度估计系统，其特征在于：所述深度估计网络包括深度编码器和深度解码器；

所述深度编码器接用于提取输入图像的深度信息特征；

所述深度解码器生成各尺度的深度预测图；

3.根据权利要求1所述的单目深度估计方法，其特征在于：所述自监督方式优化网络包括损失函数，损失函数包括最小重投影损失函数与边缘平滑度损失函数；

4.利用权利要求1-3任意一项所述的单目深度估计系统形成的单目深度估计方法，其特征在于：所述该方法包括以下步骤：

步骤1：构建KITTI数据集；

5.根据权利要求4所述的单目深度估计方法，其特征在于：所述构建KITTI数据集采用对应应用场景图片，将数据集内九层图片作为训练集，剩下一层图片作为验证集，统一将训练照片缩放到分辨率的大小，以单目视频序列作为训练方式，对数据集手工挑选去掉静态帧后，以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。

6.根据权利要求4所述的单目深度估计方法，其特征在于：所述深度编码器与深度解码器采用全尺度跳跃连接，采用尺度跳跃连接后，深度估计网络的具体步骤为：

步骤2-1：将图片尺寸为640*192、3通道的图像输入到编码器中，经过第一层的卷积层，输出尺寸缩减为原尺寸的