CN114881849A

CN114881849A - 一种联合单目深度估计的深度图像超分辨率重建方法

Info

Publication number: CN114881849A
Application number: CN202110803976.2A
Authority: CN
Inventors: 丛润民; 唐麒; 盛荣晖; 张晨; 何凌志; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-08-09

Abstract

本发明属于图像处理技术领域，涉及一种联合单目深度估计的深度图像超分辨率重建方法，包括：S1、将低分辨率深度图像输入深度图像超分辨率重建子网络，将相应于低分辨率深度图像的高分辨率彩色图像输入单目深度估计子网络；S2、对深度图像超分辨率重建子网络和单目深度估计子网络同时训练；S3、深度图像超分辨率重建子网络输出高分辨率重建深度图像，单目深度估计子网络输出高分辨率估计深度图像。本申请从单目深度估计子网络中选择高频信息引导深度图像超分辨率重建子网络，通过抑制冗余避免纹理复制。在不引入其他监督信息的情况下，本发明的方法在多个公开基准数据集上均达到具有竞争力的性能，能够准确恢复出深度图像的细节。

Description

一种联合单目深度估计的深度图像超分辨率重建方法

技术领域

本发明属于图像处理技术领域，涉及一种联合单目深度估计的深度图像超分辨率重建方法。

背景技术

便携式消费级深度相机的出现和普及，为准确快速地获取场景深度提供了极大的便利。但是，由于当前深度相机成像能力的限制，深度图像的分辨率通常较低。面对诸多应用领域对高质量深度图像的需求，深度图像超分辨率重建技术作为解决方案获得了广泛关注。深度图像超分辨率重建是在不改变深度相机的前提下，通过算法恢复出相机截止频率以外的高频信息，同时改善成像时的模糊现象，并有效抑制图像中的随机噪声，从而重建出高质量和高分辨率的深度图像。近年来，随着深度学习的快速发展，该任务的性能得到了很大提升。在实际应用中，高分辨率的彩色图像易于获得，且与深度图像具有很强的结构相似性，因而可以为深度图像超分辨率重建提供一些先验信息。Hui等^[1]设计了多尺度引导的卷积神经网络，将从彩色图像中提取的丰富层次特征用于改善深度图像超分辨率重建过程中图像的模糊现象。Huang等^[2]提出了一种具有金字塔结构的深层稠密残差网络，通过密集连接和残差学习，充分利用了多尺度特征来预测高频残差，实现了深度图像的超分辨率重建。Guo等^[3]提出了一种层次化特征驱动的残差学习深度图像超分辨重建方法，借助层次化的颜色引导，并通过残差U-Net结构提取深度图像的多级层次化特征表示，实现了深度图像的超分辨重建。Wen等^[4]提出了一种颜色引导的由粗到细的深度图像超分辨率重建网络，主要包括：颜色引导信息预处理模块、粗糙级深度图像超分辨率重建模块和精细级深度图像超分辨率重建模块。Zuo等^[5]提出了一种基于全局和局部残差学习的深度图像超分辨率重建网络，在高分辨率强度图像的指导下，在多个尺度逐步对低分辨率深度图像进行上采样重建。Ye等^[6]提出了渐进的多分支聚合网络，通过重建分支和引导分支融合的方式逐步优化反卷积得到的高分辨率深度图像。Wang等^[7]提出了边缘引导的深度图像超分辨率重建网络，借助从彩色图像学习得到的边缘图像对深度图像进行上采样。Song等^[8]提出了基于通道注意的迭代残差深度图像超分辨率重建网络，采用通道注意力策略以增强具有丰富高频分量的特征通道。

在现有技术中存在以下缺点和不足：(1)现有方法多数在残差框架和彩色图像的指导下来学习深度图像的重建特征，实现深度图像超分辨率重建，但是跨模态的重建特征会存在一定的不一致性问题，而且学习得到的特征往往存在一定的信息冗余；(2)在现有的面向深度图像的多任务学习框架中，通常会引入额外的训练标签(如语义标签)，这显然会降低算法的通用性。

本发明旨在通过联合学习的方法将单目深度估计与深度图像超分辨率重建进行关联，以单目深度估计网络代替颜色引导的深度图像超分辨率重建方法中的彩色分支。由于单目深度估计可以在连续的训练和学习过程中实现从彩色图像到深度图像的跨模态信息转换，因而面向单目深度估计学习到的彩色图像特征更贴近深度模态。与直接的特征引导或边缘特征引导相比，单目深度估计学习到的特征更适合指导深度图像超分辨率重建，从而可以避免明显的伪影，并实现更好的重建性能。

关键术语定义列表

1、深度图像超分辨率重建：是在深度相机不变的前提下，通过算法重建出高质量、高分辨率的深度图像，并有效抑制成像过程中的模糊现象和随机噪声。

2、单目深度估计：是利用一张或者唯一视角下的彩色图像，估计图像中每个像素相对拍摄源的距离。

发明内容

本发明旨在探索深度图像超分辨率重建任务中的颜色引导、细节恢复和模态交互等问题的解决方案。具体地，从多任务学习的角度出发，研究一种联合单目深度估计的深度图像超分辨率网络，将单目深度估计和深度图像超分辨率纳入一个统一的框架中，并探索两个任务之间的交互指导关系，以达到相互促进、互利共赢的效果，具体技术方案如下：

一种联合单目深度估计的深度图像超分辨率重建方法，所述联合单目深度估计的深度图像超分辨率重建方法基于联合单目深度估计的深度图像超分辨率重建网络；

所述联合单目深度估计的深度图像超分辨率重建网络包括：两个子网络；

所述两个子网络为：单目深度估计子网络和深度图像超分辨率重建子网络；

所述单目深度估计子网络和深度图像超分辨率重建子网络的关联通过桥接器实现；

所述联合单目深度估计的深度图像超分辨率重建方法包括以下步骤：

S1、将低分辨率深度图像输入所述深度图像超分辨率重建子网络，将相应于低分辨率深度图像对应的的高分辨率彩色图像输入所述单目深度估计子网络；

S2、对所述深度图像超分辨率重建子网络和所述单目深度估计子网络同时进行训练；

将两个子网络集成到一个统一的框架中进行联合学习；

S3、所述深度图像超分辨率重建子网络输出高分辨率重建深度图像，并将所述高分辨率重建深度图像作为最终输出。

在上述技术方案的基础上，所述单目深度估计子网络和深度图像超分辨率重建子网络均采用编码器-解码器的结构形式，可以采用现有的网络模型作为基线；

所述桥接器包括：高频注意力桥接器和内容引导桥接器；

所述高频注意力桥接器应用于两个子网络的编码器的编码阶段；

所述内容引导桥接器应用于两个子网络的解码器的解码阶段，以实现不同的信息交互和引导；

单目深度估计子网络将从高分辨率彩色图像学习到的高频信息通过高频注意力桥接器，为深度图像超分辨率重建子网络提供更贴近深度模态的颜色指导；

深度图像超分辨率重建子网络在深度特征空间通过内容引导桥接器为单目深度估计子网络提供内容引导。

回顾现有的颜色指导的深度图像超分辨率重建的方法可以发现，彩色图像的指导主要包括：对应特征的直接引导或边缘细节的引导两种方式。尽管彩色图像和深度图像具有很强的结构相似性，但是彩色图像丰富的纹理和边缘并不总是与深度图像一致，因此这些方法可能会导致纹理复制和深度流失等问题。单目深度估计以彩色图像作为输入，将场景从光度表示映射到几何表示，从而生成对应的深度图像。因此，由单目深度估计编码器提供的彩色图像的特征更接近于深度模态的特征表示，进而可以用其对深度图像超分辨率重建任务进行指导，避免明显的伪影。

换句话说，在两个子任务的编码器交互阶段，本发明拟利用单目深度估计特征对深度图像超分辨率重建特征进行指导。在明确了指导信息的传递方向之后，接下来需要思考的问题便是如何有效地实现信息交互和指导。最简单直观的方法是通过级联或相加将单目深度估计子网络相应层的特征直接传递到深度图像超分辨率重建子网络中，但这显然不是一种明智的选择。在单目深度估计子网络的编码器中，随着网络的深入，特征图的分辨率逐渐降低，其中高层特征具有丰富的语义信息，而低层特征则具有更多的结构信息。由于低分辨率深度图像包含的高频信息较少，因此高分辨率的彩色图像可以为深度图像超分辨率重建提供更为重要的高频信息(例如边缘细节)，而不是图像的语义信息。

在上述技术方案的基础，所述高频注意力桥接器利用注意力机制，从单目深度估计子网络的原始特征(即编码器提取的特征)中筛选出有价值的高频信息，得到引导特征，对深度图像超分辨率重建子网络的编码器特征进行指导。

在上述技术方案的基础，所述得到引导特征的具体步骤如下：

首先，使用平均池化和反卷积运算对单目深度估计子网络的原始特征进行模糊操作，如式(1)所示，

其中，

为单目深度估计子网络的编码器第i层的原始特征，

为单目深度估计子网络的编码器第i层的模糊特征，

表示：对

进行平均池化操作，

表示：对

进行反卷积操作；

然后，通过将原始特征与模糊特征相减，以获得高频信息，进而生成高频信息的注意力，如式(2)所示，

其中，

为单目深度估计子网络的编码器第i层的高频注意力，

表示：对

进行带参数的修正线性单元变换操作，即激活函数；

接着，使用获得的高频注意力对单目深度估计子网络的原始特征进行修正和优化，通过残差连接，最终得到优化后的引导特征，如式(3)所示，

其中，

为单目深度估计子网络的编码器第i层优化后的引导特征。

定义上述操作的原因是要在单目深度估计子网络的原始特征中突显高频信息，以便低分辨率深度图像可以在特征融合时，最大化地利用其中的高频信息。

在上述技术方案的基础，为了利用来自单目深度估计子网络的编码器优化后的引导特征，对深度图像超分辨率重建子网络的编码器特征进行指导的具体步骤如下：

首先，将引导特征与深度图像超分辨率重建子网络的编码器相应层的特征在通道维度级联，以生成编码器该层的复合特征

上述简单的特征融合在空间维度和通道维度上会有很多冗余，因此，然后，引入一个注意力块，以增强特征融合能力；

所述注意力块包括：一个通道注意力和一个空间注意力；

所述通道注意力用于：学习每个特征通道的重要性；

所述空间注意力用于：突出显示特征图中的重要位置，上述过程表述为式(4)和式(5)，

其中，

为深度图像超分辨率重建子网络的编码器第i层的特征，

为深度图像超分辨率重建子网络的编码器第i层融合高频信息后的特征，CA为通道注意力，SA为空间注意力，conv_1×1为卷积核大小为1×1的卷积层，

表示：对

和

进行通道维度的级联；

将融合了高频信息的特征

作为深度图像超分辨率重建子网络的编码器下一层的输入。

对于深度图像超分辨率重建子网络和单目深度估计子网络的特征解码阶段，它们的作用是进一步提取面向任务的特征，以分别完成超分辨率重建和深度估计，最终可以从两个子网络获得相应的估计或超分辨率重建的深度图像。两个任务相较而言，单目深度估计由于其尺度的模糊性，而被广泛认知为不适定的逆问题。例如，世界上观察到的许多三维场景可以对应于完全相同的二维平面，也就是说，它们之间不是一一对应的。因此，训练一个可以很好地从彩色图像映射到深度图像的模型是一项非常困难的任务。尽管深度图像超分辨率重建也是一个不适定的问题，但它仍在相同的域中学习映射关系，并专注于恢复图像的细节，这相对单目深度估计而言要简单。考虑到两个任务的难易程度差异，单目深度估计子网络的解码器生成的特征不再适合为深度图像超分辨率重建子网络的解码器提供指导信息。遵循简单任务指导困难任务的原则，本发明拟在解码阶段交换两个子网络的指导身份，即让深度图像超分辨率重建子网络在深度特征空间为单目深度估计子网络提供内容引导。

在上述技术方案的基础，通过两个子网络的解码器特征获得相应的深度图像。

在上述技术方案的基础，深度图像超分辨率重建子网络在深度特征空间通过内容引导桥接器为单目深度估计子网络提供内容引导的具体步骤如下：

首先，采用卷积核大小为1×1的卷积层分别作用于深度图像超分辨率重建子网络和单目深度估计子网络的解码器，从而获得超分辨率重建的深度图像和估计的深度图像，如式(6)和(7)所示，

其中，

为深度图像超分辨率重建子网络的解码器第i层生成的重建深度图像，

为单目深度估计子网络的解码器第i层生成的估计深度图像，

和

分别为深度图像超分辨率重建子网络和单目深度估计子网络解码器第i层的特征；

然后，计算得到重建深度图像

与估计深度图像

之间的差异图，差异图突出显示了估计的深度图像中相对于超分辨重建的深度图像需要进一步优化的位置，并希望这种差异会随着网络的训练越来越小；

接着，通过对差异图应用卷积运算和softmax激活来学习差异权重，从而为单目深度估计子网络提供内容引导，上述操作被描述为：式(8)和式(9)，

其中，

为差异权重，

为第i层的内容引导特征，softmax为softmax激活函数；

最后，引入一个注意力块，以优化解码器该层的复合特征

所述注意力块包括：一个通道注意力和空间注意力；

上述过程如式(10)和式(11)所示，

其中，CA为通道注意力，SA为空间注意力，

表示：对

和

进行通道维度的级联，

为优化后的特征；

将优化后的特征

作为单目深度估计子网络的解码器中下一层的输入。

与其他多任务学习的损失函数为所有分支损失函数的加权和不同，本发明分别为深度图像超分辨率重建和单目深度估计的损失函数分配了不同的优化器。这是因为深度图像超分辨率重建和单目深度估计的学习难度大不相同，导致两个任务的收敛速度不同，从而很难找到合适的权重设置来确保两个任务都达到最佳性能。因此，在损失函数的设计方面，本发明提出分别对深度图像超分辨率重建和单目深度估计相关部分进行优化的策略。

在上述技术方案的基础上，分别对深度图像超分辨率重建任务和单目深度估计任务进行优化的损失函数分别如式(12)和式(13)所示，

其中，

和

分别为深度图像超分辨率重建任务和单目深度估计任务的逐像素L₁损失；D_SR和D_DE分别为深度图像超分辨率重建子网络和单目深度估计子网络的输出，即分别为：高分辨率的重建深度图像和高分辨率的估计深度图像，D_HR为两个子网络输入图像对应的高分辨率深度图像；

所述逐像素L₁损失是指：逐像素比较差异的损失；||D_SR-D_HR||₁表示：对深度图像超分辨率重建子网络的输出与输入图像对应的高分辨率深度图像的差求1范数；||D_DE-D_HR||₁表示：对单目深度估计子网络的输出与输入图像对应的高分辨率深度图像的差求1范数。

本发明的有益技术效果如下：

彩色图像的纹理和边缘由于跨模态的原因，并不总是与深度图像一致，因此直接的特征或边缘引导可能导致纹理复制等问题。对于单目深度估计任务，网络将彩色图像映射为对应的深度图像，可以从彩色图像中学习与场景深度相关的特征，并削弱无关纹理的影响。换句话说，在单目深度估计任务中学到的颜色特征更接近于深度模态，可以在其指导下减轻明显的伪影。然而，简单的交互方法(如损失函数约束)不足以有效实现多任务学习。因此，高频注意力桥接器旨在从单目深度估计子网络中选择更有价值的高频信息来引导深度图像超分辨率重建子网络，从而通过抑制不必要的冗余来避免纹理复制。

在不引入其他监督信息的情况下，本发明的方法在多个公开基准数据集上均达到了具有竞争力的性能。本发明方法能够准确地恢复出深度图像的细节。

附图说明

本发明有如下附图：

图1是联合单目深度估计的深度图像超分辨率重建网络的整体架构示意图；

图2是本发明所述方法应用的可视化实例示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行更详细的说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

如图1所示，联合单目深度估计的深度图像超分辨率重建网络由两个子网络(即深度图像超分辨率重建子网络和单目深度估计子网络)和两个桥接器(即高频注意力桥接器和内容引导桥接器)组成。将深度图像超分辨率重建子网络(DSRNet)和单目深度估计子网络(MDENet)集成到一个统一的框架中，以实现深度图像超分辨率重建和单目深度估计的联合学习，并将高频注意力桥接器(HABdg)应用于两个子网络的编码器，将内容引导桥接器(CGBdg)应用于两个子网络的解码器，以将两个任务(即单目深度估计任务和深度图像超分辨率重建任务)桥接在一起。

彩色图像的纹理和边缘由于跨模态的原因，并不总是与深度图像一致，因此直接的特征或边缘引导可能导致纹理复制等问题。对于单目深度估计任务，单目深度估计子网络将彩色图像映射为对应的深度图像，可以从彩色图像中学习与场景深度相关的特征，并削弱无关纹理的影响。换句话说，单目深度估计任务中学到的颜色特征更接近于深度模态，可以在其指导下减轻明显的伪影。然而，简单的交互方法(如损失函数约束)不足以有效实现多任务学习。因此，高频注意力桥接器旨在从单目深度估计子网络中选择更有价值的高频信息来引导深度图像超分辨率重建子网络，从而通过抑制不必要的冗余来避免纹理复制。

在不引入其他监督信息的情况下，本发明的方法在多个公开基准数据集上均达到了具有竞争力的性能。如图2所示，给出了本发明技术方法的可视化实例。第一列为彩色图像，第二列为低分辨率深度(为了获得更加清晰的可视化结果，深度图像经过了放大)图像，第三列为通过本发明的方法重建，得到的高分辨率深度图像，第四列为高分辨率深度图像的真值。从结果可以看出，本发明方法能够准确地恢复出深度图像的细节。例如，Doll图像(第一行)中的玩具头部轮廓更准确，Laundry图像(第二行)中微小物体的边缘更加分明。

本发明的关键点和欲保护点如下：

(1)本发明在联合学习网络中将深度图像超分辨率重建任务和单目深度估计任务相关联，以提升深度图像超分辨率重建的性能。本发明提出的联合学习网络包括：深度图像超分辨率重建子网络(DSRNet)和单目深度估计子网络(MDENet)，以及两个用于联合学习的桥接器，即高频注意力桥接器(HABdg)和内容引导桥接器(CGBdg)。本发明的整个网络结构具有高度的可移植性，可以为关联深度图像超分辨率重建和单目深度估计任务提供范例。此外，与其他多任务学习不同，本发明用于联合学习的两个任务不需要引入其他的监督信息。

(2)特征编码阶段中的高频注意力桥接器(HABdg)将从单目深度估计子网络学习到的彩色高频信息传输到深度图像超分辨率重建子网络，从而可以提供更接近深度模态的颜色引导信息。遵循简单任务指导困难任务的原则，本发明在特征解码阶段切换了两个任务的指导角色，并提出了内容引导桥接器(CGBdg)，从而可以让深度图像超分辨率重建子网络在深度特征空间为单目深度估计子网络提供内容引导。

参考文献(如专利/论文/标准)如下所列：

[1]Hui T W,Loy C C,Tang X.Depth map super-resolution by deep multi-scale guidance[C]//European conference on computer vision.Springer,Cham,2016:353-369.

[2]L.Huang,J.Zhang,Y.Zuo and Q.Wu,“Pyramid-structured depth mapsuper-resolution based on deep dense-residual network,”IEEE SignalProcess.Lett.,2019,vol.26,no.12,pp.1723–1727.

[3]C.Guo,C.Li,J.Guo,R.Cong,H.Fu and P.Han,“Hierarchical featuresdriven residual learning for depth map super-resolution,”IEEE Trans.ImageProcess.,2019,vol.28,no.5,pp.2545–2557.

[4]Y.Wen,B.Sheng,P.Li,W.Lin and D.D.Feng,“Deep color guided coarse-to-fine convolutional network cascade for depth image super-resolution,”IEEETrans.Image Process.,2019,vol.28,no.2,pp.994–1006.

[5]Y.Zuo,Q.Wu,Y.Fang,P.An,L.Huang and Z.Chen,“Multi-scale frequencyreconstruction for guided depth map super-resolution via deep residualnetwork,”IEEE Trans.Circuits Syst.Video Techn.,2020,vol.30,no.2,pp.297–306.

[6]X.Ye,B.Sun and Z.Wang,“Pmbanet:Progressive multi-branchaggregation network for scene depth super-resolution,”IEEE Trans.ImageProcess,2020,vol.29,pp.7427-7442.

[7]Z.Wang,X.Ye and B.Sun,“Depth upsampling based on deep edge-awarelearning,”Pattern Recognit.,2020,vol.103,pp.107274.

[8]X.Song,Y.Dai and D.Zhou,“Channel attention based iterativeresidual learning for depth map super-resolution,”in CVPR,2020,pp.5631-5640.

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。