CN112001914A

CN112001914A - 深度图像补全的方法和装置

Info

Publication number: CN112001914A
Application number: CN202010900253.XA
Authority: CN
Inventors: 樊明明; 吕朝晖; 张伟嘉
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-27
Anticipated expiration: 2040-08-31
Also published as: KR20220029335A; CN112001914B

Abstract

提供一种深度图像补全的方法和装置，所述方法包括：获取原始彩色图像和对应的原始深度图像；基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像；基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像；通过将第一深度图像和第二深度图像合并，获得最终深度图像。

Description

深度图像补全的方法和装置

技术领域

本公开涉及图像处理领域，更具体地说，涉及一种深度图像补全的方法和装置。

背景技术

高质量的完整的深度图像信息在许多基于深度信息的应用上，如三维重建、自动驾驶、增强现实、机器人领域等，都起着至关重要的作用。然而目前消费级的深度相机都存在图像质量差、深度图像稀疏或存在空洞等深度值缺失的问题。对于这一现存的问题，目前的深度图补全算法主要分为两类，一类是基于滤波的传统类方法，另一类是通过构建回归模型进行深度值填充的深度学习类方法。

传统类方法主要基于滤波以及马尔科夫随机场模型等对深度图像进行膨胀与填充并借助边缘等纹理信息进行约束，得到完整的深度图像，这类方法需要手工设计大量特征，这限制了传统方法的发展。

深度学习类方法主要通过构建回归模型，通过模型建立从原始深度图像到完整深度图像的映射。这类方法存在输出的图像模糊、边缘不清晰、对边缘部分及大范围深度缺失部分的效果不能令人满意。

发明内容

本公开的示例性实施例可至少解决上述问题，也可不解决上述问题。

根据本公开的一方面，提供一种深度图像补全的方法，包括：获取原始彩色图像和对应的原始深度图像；基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像；基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像；通过将第一深度图像和第二深度图像合并，获得最终深度图像。

可选地，第一深度神经网络可包括N层具有残差结构的第一编码器网络和第一解码器网络，其中，N为大于1的整数；其中，第二深度神经网络可包括N层具有残差结构的第二编码器网络和第二解码器网络；其中，所述获得第二深度图像，可包括：基于第一编码器网络和第二编码器网络的输出、第一解码器网络的中间特征图像和第二编码器网络的中间特征图像，利用第二解码器网络进行特征解码。

可选地，所述获得第二深度图像，可包括：基于所述原始深度图像以及第一编码器网络的中间特征图像，利用第二深度神经网络的第二编码器网络进行特征编码。

可选地，第一深度神经网络还可包括：在第一编码器网络和第一解码器网络之前的第一预处理网络以及在第一编码器网络和第一解码器网络之后的第一深度预测网络，其中，所述获得第一深度图像，可包括：利用第一预处理网络，将所述原始彩色图像变换为适于深度神经网络处理的第一特征图像，并将所述第一特征图像输入到第一编码器网络，利用第一深度预测网络，将第一解码器网络输出的特征图像合成为第一深度图像；其中，第二深度神经网络还可包括：在第二编码器网络和第二解码器网络之前的第二预处理网络和在第二编码器网络和第二解码器网络之后的第二深度预测网络，其中，所述获得第二深度图像，可包括：利用第二预处理网络，将所述原始深度图像变换为适于深度神经网络处理的第二特征图像，并将所述第二特征图像输入到第二编码器网络，利用第二深度预测网络，将第一解码器网络和第二解码器网络输出的特征图像以及所述第二特征图像融合的特征图像合成为第二深度图像。

可选地，第二解码器网络中的第一层解码单元的输入可为第二编码器网络输出的特征图像与第一编码器网络输出的特征图像之和；第二解码器网络中的第二层至第N层解码单元的每一层解码单元的输入可为利用SE块的方式将上一层解码单元输出的特征图像、第一解码器网络中的对应层解码单元输出的特征图像、第二编码器网络中的对应层编码单元输出的特征图像融合所获得的特征图像；第二深度预测网络的输入可为利用SE块的方式将第二解码器网络输出的特征图像、第一解码器网络输出的特征图像与所述第二特征图像融合所获得的特征图像。

可选地，第二编码器网络中的第一层编码单元的输入可为所述第一特征图像与所述第二特征图像之和；第二编码器网络中的第二层至第N层编码单元的每一层编码单元的输入可为上一层编码单元输出的特征图像与第一编码器网络中的对应层编码单元输出的特征图像之和。

可选地，第二编码器网络和第二解码器网络中的每个残差块可在执行每次卷积处理之后，执行一次门控处理。

可选地，所述通过将第一深度图像和第二深度图像合并，获得最终深度图像，可包括：利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图；基于第一像素权重地图和第二像素权重地图，将第一深度图像和第二深度图像加权求和，获得所述最终深度图像。

可选地，所述方法还可包括：在使用第一深度神经网络和第二深度神经网络和/或注意力网络之前，利用损失函数对第一深度神经网络和第二深度神经网络和/或注意力网络进行训练；其中，所述损失函数是考虑第一深度图像与真实深度图像的第一均方误差损失、第二深度图像与真实深度图像的第二均方误差损失、最终深度图像与真实深度图像的第三均方误差损失、以及最终深度图像与真实深度图像的结构损失而产生的，其中，所述结构损失＝1-结构相似性指数。

可选地，所述损失函数可通过对第一均方误差损失、第二均方误差损失、第三均方误差损失和所述结构损失加权求和而获得。

可选地，所述获取原始彩色图像和对应的原始深度图像，可包括：当不存在所述对应的原始深度图像时，获取具有零像素值的深度图像作为对应的原始深度图像。

根据本公开的另一方面，提供一种深度图像补全的装置，包括：图像获取模块，被配置为获取原始彩色图像和对应的原始深度图像；彩色分支模块，被配置为基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像；深度分支模块，被配置为基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像；图像合并模块，被配置为通过将第一深度图像和第二深度图像合并，获得最终深度图像。

可选地，第一深度神经网络可包括N层具有残差结构的第一编码器网络和第一解码器网络，其中，N为大于1的整数；其中，第二深度神经网络可包括N层具有残差结构的第二编码器网络和第二解码器网络；其中，深度分支模块可被配置为：基于第一编码器网络和第二编码器网络的输出、第一解码器网络的中间特征图像和第二编码器网络的中间特征图像，利用第二解码器网络进行特征解码。

可选地，深度分支模块可被配置为：基于所述原始深度图像以及第一编码器网络的中间特征图像，利用第二深度神经网络的第二编码器网络进行特征编码。

可选地，第一深度神经网络还可包括：在第一编码器网络和第一解码器网络之前的第一预处理网络和在第一编码器网络和第一解码器网络之后的第一深度预测网络，其中，彩色分支模块可被配置为：利用第一预处理网络，将所述原始彩色图像变换为适于深度神经网络处理的第一特征图像，并将所述第一特征图像输入到第一编码器网络，利用第一深度预测网络，将第一解码器网络输出的特征图像合成为第一深度图像；其中，第二深度神经网络还可包括：在第二编码器网络和第二解码器网络之前的第二预处理网络和在第二编码器网络和第二解码器网络之后的第二深度预测网络，其中，深度分支模块可被配置为：利用第二预处理网络，将所述原始深度图像变换为适于深度神经网络处理的第二特征图像，并将所述第二特征图像输入到第二编码器网络，利用第二深度预测网络，将第一解码器网络和第二解码器网络输出的特征图像以及所述第二特征图像融合的特征图像合成为第二深度图像。

可选地，图像合并模块可被配置为：利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图；基于第一像素权重地图和第二像素权重地图，将第一深度图像和第二深度图像加权求和，获得所述最终深度图像。

可选地，所述装置还可包括：训练模块，被配置为：在使用第一深度神经网络和第二深度神经网络和/或注意力网络之前，利用损失函数对第一深度神经网络和第二深度神经网络和/或注意力网络进行训练；其中，所述损失函数是考虑第一深度图像与真实深度图像的第一均方误差损失、第二深度图像与真实深度图像的第二均方误差损失、最终深度图像与真实深度图像的第三均方误差损失、以及最终深度图像与真实深度图像的结构损失而产生的，其中，所述结构损失＝1-结构相似性指数。

可选地，所述图像获取模块可被配置为：当不存在所述对应的原始深度图像时，获取具有零像素值的深度图像作为对应的原始深度图像。

根据本公开的另一方面，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现本公开的深度图像补全的方法。

根据本公开的另一方面，提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行本公开的深度图像补全的方法。

根据本公开的深度图像补全的方法和装置，通过彩色分支网络通过使用原始彩色图像进行深度估计以学习从彩色图像到完整深度图像的映射，并通过深度分支网络使用原始深度图像以及彩色分支网络中的一些中间层特征图像进行深度推理(预测)以充分挖掘并利用彩色图像信息以帮助深度图像进行补全，使得模型即使在原始深度图像非常稀疏(甚至不存在原始深度图像)的情况下也能稳定的生成质量较高的完整深度图像，在深度空洞填充与稀疏深度稠密化两种任务上都可取得较好的效果。

此外，根据本公开的深度图像补全的方法和装置，通过深度分支网络中使用门卷积的方式来传递掩码信息以有效地区分图像中的有效像素与无效像素，使生成的深度图像很好地保留原始的深度信息。

此外，根据本公开的深度图像补全的方法和装置，在训练模型时辅以结构相似性SSIM相关的结构损失监督，使最终生成的深度图像细节信息丰富，边缘质量高。

此外，根据本公开的深度图像补全的方法和装置，可端到端地进行模型训练，避免了使用中间特征的方式，有效的规避了中间特征的质量差的风险。

附图说明

通过结合附图，从实施例的下面描述中，本公开这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：

图1A是示出根据本公开的示例性实施例的深度图像补全模型的示意图。

图1B是示出根据本公开的另一示例性实施例的深度图像补全模型的示意图。

图2是示出根据本公开的示例性实施例的SE块融合方法的示意图。

图3是示出根据本公开的示例性实施例的基于注意力机制的融合方法的示意图。

图4示出两种模式的深度图像。

图5是示出根据本公开的示例性实施例的损失函数的示意图。

图6是示出根据本公开的示例性实施例的深度图像补全的方法的流程图。

图7是示出根据本公开的示例性实施例的深度图像补全的装置的框图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

目前基于深度学习的深度图像补全方法取得了一定的进步。根据是否借助RGB图像信息，这些方法又可以分成两类：使用RGB图像进行指导与不使用RGB图像进行指导。不使用RGB图像指导的方法通常使用编解码器，生成式对抗网络等方法建立回归模型，这类建立单一回归模型的方法在彩色图像修复领域已经获得了明显的成果，但是由于深度恢复要求精确的深度值，而这类方法往往存在简单插值或复制临近像素的问题，导致输出的图像模糊，边缘不清晰。使用RGB图像进行指导的方法通过特征编码、特征融合，尝试对RGB图像信息进行挖掘，并用于指导深度补全的过程，取得了一定的精度提升，但是边缘部分及大范围深度缺失的部分效果依旧不能令人满意。

现有的基于深度学习的方法存在的问题主要体现在以下几个方面：

1、不采用中间表示的方法中，现有方法进行特征融合的方式过于简单，不能将彩色图像与深度图像进行有效地融合，导致生成的深度图像效果不理想。例如，在输入阶段或者特征阶段进行简单的图像拼接或者按像素相加，导致信息融合不充分；又例如，使用金字塔网络分别提取深度图与RGB图的多级特征，在解码器的输入部分进行融合，得到的效果依然不理想，边缘质量不高，纹理还原度不高，结构不完整的问题。

2、采用中间表示的方法中，现有方法通过深度网络将彩色图像转换为中间表示，再通过中间表示生成深度图像的方式来简化网络预测的难度，从而达到提高深度图像质量的目的。例如，在提出表面法线(Surface Normal)，遮挡边缘(Occlusion Boundary)等作为中间表示，来简化每个阶段网络预测的难度，最后通过全局优化对原始深度图进行补全；又例如，提出一个分支网络来学习中间特征的表示，再将中间特征与RGB图像及深度图像拼接起来进行深度预测。这样的方式导致深度补全的效果依赖于手工提取特征或中间表示生成的质量以及这些特征的融合策略。

3、现有的深度图像补全方法大都针对特定单一的深度补全目标，例如，DeepLiDAR方法、多尺度级联沙漏网络等都只涉及了从稀疏到密集的深度补全方法。又例如，基于空洞图像的深度补全方法。现有的方法不具有通用性和鲁棒性。

为了解决上述现在技术存在的问题，提高深度图像补全的效果，本公开提供一种基于深度学习的利用彩色图像指导的深度图像补全的方法。具体地说，该方法使用的深度图像补全模型可包括两个分支网络，即，彩色分支网络和深度分支网络，其中，彩色分支网络通过使用原始彩色图像进行深度估计以获得一张完整的深度图像，深度分支网络通过使用原始深度图像以及彩色分支网络中的一些中间层特征图像进行推理以获得另一张完整的深度图像，将这两张完整的深度图像融合以生成最终的补全后的深度图像。该方法通过网络学习从彩色图像到完整深度图像的映射，并充分挖掘并利用彩色图像信息以帮助深度图像进行补全，使得模型即使在原始深度图像非常稀疏(甚至不存在原始深度图像)的情况下也能稳定的生成质量较高的完整深度图像，在深度空洞填充与稀疏深度稠密化两种任务上都可取得较好的效果。此外，为了使网络能够区分图像中的有效像素与无效像素，使生成的深度图像很好地保留原始的深度信息，深度分支网络中使用门卷积(Gated-Convolution)的方式来传递掩码信息，其中，门卷积中的门操作能够有效标识有效像素与无效像素的位置，有效像素的权重会高于无效像素的权重。此外，为了使最终生成的深度图像细节信息丰富，边缘质量高，训练本公开的深度学习网络模型可辅以结构相似性SSIM(Structural Similarity Index Measure)相关的结构损失监督。此外，本公开的深度图像补全模型可端到端地进行训练，避免了使用中间特征的方式，有效的规避了中间特征的质量差的风险。

下面，将参照图1至图7详细地描述根据本公开的示例性实施例的深度图像补全的方法和装置。

图1A是示出根据本公开的示例性实施例的深度图像补全模型的示意图。图1B是示出根据本公开的另一示例性实施例的深度图像补全模型的示意图。

参照图1A和图1B，根据本公开的示例性实施例的深度图像补全模型100可包括第一深度神经网络(即，彩色分支网络)110、第二深度神经网络(即，深度分支网络)120和融合模块130。

具体地说，第一深度神经网络110用于基于原始彩色图像(例如，RGB图像等)执行深度估计以获得深度图像，因此，第一深度神经网络110的输入可为原始彩色图像，输出可为深度图像。第二深度神经网络120用于基于原始深度图像以及第一深度神经网络110中的一些中间层特征图像进行推理以获得深度图像，因此，第二深度神经网络120的输入可为原始深度图像，中间层的输入可以为第一深度神经网络110的中间层输出的特征图像，第二深度神经网络120的输出可为深度图像。融合模块130可用于将第一深度神经网络110输出的深度图像与第二深度神经网络120输出的深度图像融合以产生最终的补全后的深度图像。这里，原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄，然后将所得的两种图像进行配准而得到，或者根据需要从本地存储器或本地数据库被获取，或者通过输入装置或传输媒介而从外部数据源(例如，互联网、服务器、数据库等)被接收，等等。原始彩色图像和原始深度图像是相互对应的图像，例如，可通过图像配准，将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中，使得两种图像像素一一对应。

根据本公开的示例性实施例，第一深度神经网络110的主要结构可由残差块堆叠而成的编解码器网络(Encoder-Decoder Network)构成。残差结构可有效保证网络低层特征向高层传递的效果，使得网络能够保留低层特征中的纹理信息与结构信息。例如，第一深度神经网络110可包括N层具有残差结构的第一编码器网络112和第一解码器网络113，其中，N为大于1的整数。此外，第一深度神经网络110还可包括在编解码器网络(例如，第一编码器网络112和第一解码器网络113)之前的第一预处理网络111、以及在编解码器网络(例如，第一编码器网络112和第一解码器网络113)之后的第一深度预测网络114。此外，第一深度神经网络110中的第一预处理网络111、第一编码器网络112和第一解码器网络113中的至少一个输出的特征图像可被保留下来并行地输入到第二深度神经网络120对应的层进行特征融合，这将在后面会详细描述。

具体地说，第一预处理网络111可用于将输入的原始彩色图像变换为适于深度神经网络处理的第一特征图像，并将所述第一特征图像输入到第一编码器网络112。例如，第一预处理网络111可由至少一层卷积层构成。第一预处理网络111可仅对原始彩色图像进行卷积处理，而不改变尺寸。

第一编码器网络112可经由级联的N层具有残差结构的编码单元对所述第一特征图像进行特征编码，其中，N为大于1的整数。

第一编码器网络112中的每一层编码单元可包括级联的若干个残差块(ResidualBlock)，每个残差块对输入的特征图像进行至少一次卷积处理，最后一个残差块对输入的特征图像进行至少一次卷积处理和一次下采样处理。这里，本公开对N的值以及残差块的数量，残差块执行的卷积次数不作限制。例如，第一编码器网络112可包括四个编码单元，每个编码单元可包括两个残差块，每个残差块可包括两个卷积层，最后一个残差块可包括两个卷积层和一个下采样层(例如，下采样系数为1/2)，因此，第一编码器网络112输出的特征图像的分辨率可变为输入的特征图像的1/16。因此，输入的原始彩色图像的分辨率可为16的整倍数，例如，304×224。此外，每个残差块还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对输入的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化。

第一解码器网络113可由级联的N层具有残差结构的解码单元对第一编码器网络112输出的特征图像进行特征解码。也就是说，第一解码器网络113可采样同样的残差结构，通过对应次数的反卷积操作(通过上采样和卷积实现)来将图像的分辨率恢复至原始分辨率。

具体地说，第一解码器网络113的每一层解码单元包括级联的若干个残差块，每个残差块对输入的特征图像进行至少一次卷积处理，第一个残差块对输入的特征图像进行一次上采样处理和至少一次卷积处理。这里，本公开对N的值以及残差块的数量，残差块执行的卷积次数不作限制。例如，第一解码器网络113可包括对应的四个解码单元，每个解码单元可包括两个残差块，每个残差块可包括两个卷积层，第一个残差块可包括一个上采样层(例如，上采样系数为2)和两个卷积层，因此，第一解码器网络113输出的特征图像的分辨率可恢复成原始分辨率。此外，每个残差块还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对输入的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化。

第一深度预测网络114可将第一解码器网络113输出的特征图像合成为单个深度图像(例如，可称为第一深度图像)。由于原始彩色图像经过第一预处理网络111、第一编码器网络112、第一解码器网络113的卷积处理之后，可转换成C个通道的特征图像。例如，C可以为32、64、128等。因此，第一深度预测网络114需要将这C个通道的特征图像合成为单个通道的深度图像。例如，第一深度预测网络114可包括两个卷积层以将C个通道的特征图像合成为单个通道的深度图像，第一个卷积层可将特征通道下降为原来的一半，即，C/2，第二个卷积层可将C/2个通道的特征图像压缩为单个通道的深度图像。此外，在第一个卷积层和第二个卷积层之间还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对第一个卷积层输出的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化，并输出到第二个卷积层。

根据本公开的示例性实施例，第二深度神经网络120的结构与第一深度神经网络110的结构基本一致，其主要结构也可由残差块堆叠而成的编解码器网络构成。例如，第二深度神经网络可包括N层具有残差结构的第二编码器网络122和第二解码器网络123。此外，第二深度神经网络120还可包括在编解码器网络(例如，第二编码器网络122和第二解码器网络123)之前的第二预处理网络121、以及在编解码器网络(例如，第二编码器网络122和第二解码器网络123)之后的第二深度预测网络124。第二预处理网络121、第二编码器网络122、第二解码器网络123和第二深度预测网络124中的每个网络执行第一深度神经网络110中对应网络相同的功能。区别可在于：在第二解码器网络123的解码阶段，每个解码单元的输入可采用SE块(Squeeze-and-Excitation Block)的方式来融合上一层输出的特征图像、第一深度神经网络110中对应层输出的特征图像和第二编码器网络122的编码阶段对应层输出的特征图像。此外，区别还可在于：在第二编码器网络122的编码阶段，每个编码单元的输入可采用直接相加的方式融合上一层输出的特征图像与第一深度神经网络110中对应层输出的特征图像。此外，区别还可在于：第二编码器网络122和第二解码器网络123中的每个残差块都采用门卷积，即，在每个卷积层后增加门控(Gate)操作。

具体地说，第二预处理网络121可用于将输入的原始深度图像变换为适于深度神经网络处理的第二特征图像。例如，第二预处理网络121可由至少一层卷积层构成。第二预处理网络121可仅对原始深度图像进行卷积处理，而不改变尺寸。

根据本公开的示例性实施例，第二编码器网络122可仅经由级联的N层具有残差结构的编码单元基于原始深度图像进行特征编码。例如，如图1A所示，第二编码器网络122可经由级联的N层具有残差结构的编码单元对第二预处理网络121输出的第二特征图像进行特征编码。

根据本公开的另示例性实施例，第二编码器网络122可经由级联的N层具有残差结构的编码单元基于原始深度图像以及第一编码网络的各中间层输出的中间特征图像进行特征编码。例如，如图1B所示，第二编码器网络122可基于第二特征图像、第一特征图像以及第一编码器网络112的各中间层输出的特征图像进行特征编码。如上所述，第一深度神经网络110中的第一预处理网络111、第一编码器网络112和第一解码器网络113中的至少一个输出的特征图像可被保留下来并行地输入到第二深度神经网络120对应的层进行特征融合。例如，如图1B所示，符号

表示直接相加。可见，第二编码器网络中的第一层编码单元的输入为第一预处理网络111输出的第一特征图像与第二预处理网络121输出的第二特征图像直接相加获得的特征图像，第二编码器网络中的第二层至第N层编码单元的每一层编码单元的输入为上一层编码单元输出的特征图像与第一编码器网络112中的对应层编码单元输出的特征图像直接相加获得的特征图像，例如，第二编码器网络122中的每二层编码单元的输入为第二编码器网络122中的第一层编码单元输出的特征图像与第一编码器网络112中的第一层编码单元输出的特征图像直接相加获得的特征图像，以此类推。

第二编码器网络122中的每一层编码单元可包括级联的若干个残差块，每个残差块对输入的特征图像进行至少一次卷积处理，最后一个残差块对输入的特征图像进行至少一次卷积处理和一次下采样处理。这里，本公开对N的值以及残差块的数量，残差块执行的卷积次数不作限制。此外，每个残差块在执行每次卷积处理之后，执行一次门控处理，这将在下面具体描述。例如，第二编码器网络122可包括四个编码单元，每个编码单元可包括两个残差块，每个残差块可包括两个卷积层，最后一个残差块可包括两个卷积层和一个下采样层(例如，下采样系数为1/2)，因此，第二编码器网络122输出的特征图像的分辨率可变为输入的特征图像的1/16。因此，输入的原始深度图像的分辨率可为16的整倍数，例如，304×224。此外，第二编码器网络122中的每个残差块还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对输入的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化。

根据本公开的示例性实施例，第二解码器网络123可经由级联的N层具有残差结构的解码单元基于第二编码器网络输出的特征图像、第一编码器网络输出的特征图像、第二编码器网络各中间层输出的特征图像以及第一解码器网络各中间层输出的特征图像进行特征解码。如上所述，第一深度神经网络110中的第一预处理网络111、第一编码器网络112和第一解码器网络113输出的特征图像可被保留下来并行地输入到第二深度神经网络120对应的层进行特征融合。例如，如图1A和图1B所示，符号

表示直接相加，符号

表示以SE块的方式融合，这将在下面详细描述。可见，第二解码器网络123中的第一层解码单元的输入为第二编码器网络122输出的特征图像与第一编码器网络112输出的特征图像直接相加获得的特征图像。第二解码器网络123中的第二层至第N层解码单元的每一层解码单元的输入为利用SE块的方式将上一层解码单元输出的特征图像、第一解码器网络113中的对应层解码单元输出的特征图像、第二编码器网络122中的对应层编码单元输出的特征图像融合所获得的特征图像。例如，第二解码器网络123中的第二层解码单元的输入为利用SE块的方式将第二解码器网络123中的第一层解码单元输出的特征图像、第一解码器网络113中的第一层解码单元输出的特征图像、第二编码器网络122中的第N-1层编码单元输出的特征图像融合所获得的特征图像，以此类推。

第二解码器网络123的每一层解码单元包括级联的若干个残差块，每个残差块对输入的特征图像进行至少一次卷积处理，第一个残差块对输入的特征图像进行一次上采样处理和至少一次卷积处理。这里，本公开对N的值以及残差块的数量，残差块执行的卷积次数不作限制。此外，每个残差块在执行每次卷积处理之后，执行一次门控处理，这将在下面具体描述。例如，第一解码器网络113可包括对应的四个解码单元，每个解码单元可包括两个残差块，每个残差块可包括两个卷积层，第一个残差块可包括一个上采样层(例如，上采样系数为2)和两个卷积层，因此，第一解码器网络113输出的特征图像的分辨率可恢复成原始分辨率。此外，每个残差块还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对输入的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化。

第二深度预测网络124可将第二解码器网络123输出的特征图像、第一解码器113网络输出的特征图像与第二预处理网络121输出的第二特征图像融合而成的特征图像合成为单个深度图像(例如，可称为第二深度图像)。例如，如图1A和图1B所示，符号

表示以SE块的方式融合，这将在下面详细描述。可见，第二深度预测网络124的输入为利用SE块的方式将第二解码器网络123输出的特征图像、第一解码器网络113输出的特征图像与第二预处理网络121输出的第二特征图像融合所获得的特征图像。由于原始深度图像经过第二预处理网络121、第二编码器网络122、第二解码器网络123之后，可转换成C个通道的特征图像。例如，C可以为32、64、128等。因此，第二深度预测网络124需要将这C个通道的特征图像合成为单个通道的深度图像。例如，第一深度预测网络114可包括两个卷积层以将C个通道的特征图像合成为单个通道的深度图像，第一个卷积层可将特征通道下降为原来的一半，即，C/2，第二个卷积层可将C/2个通道的特征图像压缩为单个通道的深度图像。此外，在第一个卷积层和第二个卷积层之间还可包括一个归一化层(例如，批归一化层)和激活层(例如，PReLU层)，归一化层可对第一个卷积层输出的特征图像进行归一化操作，使输出的特征具有相同的尺度，激活层可对经过归一化的特征图像进行非线性化，并输出到第二个卷积层。

下面，将详细介绍第二深度神经网络120中使用到的SE块和门卷积。

SE块(Squeeze-and-Excitation Block)

SE块的核心思想在于当需要将例如C2个通道特征压缩为C1个通道特征(C2可为C1的整倍数)时，通过网络自动学习每个通道的特征权重，使有效特征的权重放大，无效或者低效特征的权重减小，从而使网络能有选择的使用不同的特征。在第二深度神经网络120中，SE块用于学习不同特征的权重并以学习到的权重进行特征融合。

如图2所示，例如，针对第二解码器网络123中的第二层解码单元，可首先将第二解码器网络123中的第一层解码单元输出的C个通道的特征图像(深度特征)、第一解码器网络113中的第一层解码单元输出的C个通道的特征图像(彩色特征)、第二编码器网络122中的第N-1层编码单元输出的C个通道的特征图像(编码器特征)进行拼接得到一个3C通道的特征向量(拼接特征)；随后，将3C通道的特征向量通过SE块生成一个数量为3C的权重图；随后，将所得的权重图按照原来的顺序拆分成三个通道为C的权重向量(深度特征权重、彩色特征权重、编码器特征权重)，每个权重范围为0-1；随后，按照通道相乘的方式对原来的三个C通道的特征图像进行加权，产生加权后的三个C通道的特征图像(加权深度特征、加权彩色特征、加权编码器特征)；最后，按照通道相加的方式生成最终的单个C通道的特征图像(融合特征图像)，作为第二解码器网络123中的第二层解码单元的输入。对于第二深度神经网络120中使用到SE块融合方法的其它模块(例如，第二解码器网络123中的其它层解码单元、第二深度预测网络124)，按上述相同的方式产生输入。

门卷积

门卷积是用来解决普通卷积将所有输入都当作有效像素来处理的问题。换句话说，普通卷积无法区分图像中的无效像素，而门卷积在普通卷积的基础上多加了一路门控操作，通过可参数可学习的模块生成相应的权重，最后通过权重对原始的输出进行抑制。

例如，原始的图像修复任务中使用0/1掩码来标记无效像素与有效像素，但是因为卷积过程类似于局部滤波，会使用到周围像素的信息。如果单纯用0/1掩码标记无法体现像素的置信度。

例如，原始图像为：

2	0	1
			1	2	3
0	0	1

其对应的掩码为：

1	0	1
			1	1	1
0	0	1

当经过权重全为1的3×3卷积核之后，变为一个像素：

10

其对应的掩码变为：

1

即网络认为输出的值都是有效值，而忽略了原图像中包括的0，经过加权后，输出仍然为10。然而，加入门卷积后，通过门控操作，可生成对应的权重0.6，则可输出加权值为6。因此，网络认为原始的输入图像中不是所有信息都是有效值，通过加权输出变为6，从而抑制了此位置的输出。原始图像中的0越多，这个值就越小，当原始输入全为0的时候，掩码也变为0，从而输出的置信度也变为0。通过这样的机制来对网络的输出进行加权。

由于原始深度图像存在缺失，当在第二深度神经网络120中的卷积操作之后加入门控操作，可通过有效地标识有效像素与无效像素的位置，将有效像素的权重设置为高于无效像素的权重，来对输出特征图像进行空间上的监督，增强网络对于缺失图像的处理能力。

返回参照图1，融合模块130可通过将第一深度神经网络110输出的第一深度图像和第二深度神经网络120输出的第二深度图像合并，获得最终的补全后的深度图像(即，最终深度图像)。

根据本公开的示例性实施例，融合模块130可通过注意力模块来实现。当然，融合模块130还可以通过任何可行的方式实现，本公开对融合模块130的实现方式不作限制。下面，具体描述通过注意力模块来实现融合模块130的方法。

注意力模块可通过一个可学习的网络模块针对输入的两个深度图像生成两张权重图，将权重图加权乘回到原来的深度图像，并将加权后的深度图像相加，获得一个最终的深度图像。注意力模块在空间位置上进行监督，即，对深度图像中的每个像素都输出相应的权重，即，输出的权重图与深度图像具有完全相同的分辨率，例如，深度图像的尺寸为H×W，权重图的尺寸也为H×W。

如图3所示，首先，输入第一深度图像和第二深度图像(例如，D1和D2)，随后将第一深度图像和第二深度图像拼接，将拼接后的深度图像输入到注意力模块，产生拼接后的深度图像中的每个像素的权重以产生对应的权重图，将所得的权重图按照原来的顺序拆分成两个分别与第一深度图像和第二深度图像对应的权重图(例如，W1和W2)，并按像素将这两个权重图分别与第一深度图像和第二深度图像相乘，以获得加权后的第一深度图像和加权后的第二深度图像，再按像素将加权后的第一深度图像和加权后的第二深度图像相加获得最终的深度图像(例如，D)。此过程可以表示：

D＝D1⊙W1+D2⊙W2

其中，D1表示第一深度神经网络110输出的第一深度图像，D2表示第二深度神经网络120输出的第二深度图像，W1与W2分别表示深度图对应的权重，⊙表示按对应像素相乘。

返回参照图1，上述深度图像补全模型100包括以下优势：(1)在深度补全任务中引入了利用彩色图像执行深度估计的方法，通过有监督的训练(Supervised Training)，彩色分支能够学习到从彩色图像到深度图像的映射，由于彩色图像的高分辨率与丰富的纹理信息，深度估计得到的深度图像细节信息丰富，边缘锐利，具备良好的视觉效果。(2)深度图像补全模型100能够端到端的进行训练，不依赖任何的中间表示与手工设计特征，使得网络在训练过程中规避了其他特征质量差带来的风险，并且训练的速度得以提升。(3)深度估计网络(即，第一深度神经网络110)与深度预测网络(第二深度神经网络120)独立，所以即使在原始的深度图像非常稀疏甚至缺失的情况下，网络也能够稳定输出对应的深度图像。这种设计使深度图像补全模型100在空洞补全与稀疏深度稠密化(如图4所示)两种任务上都表现出了良好的效果。图4示出两种模式的深度图像。如图4所示，图4中的(a)示出带有连续缺失值的深度图像，除了空洞之外的区域，深度值是连续而且密集的。图4中的(b)示出稀疏的深度图像，其中的白色点表示有深度值的地方，黑色区域表示没有观察到深度值，其中，白色亮度表示距离远近，越高表示距离越远，越暗表示距离越近。针对空洞补全任务，可利用如图4中的(a)所示的带有空间缺失的深度图像作为训练样本，对深度图像补全模型100进行训练。针对稀疏深度稠密化任务，可利用如图4中的(b)所示的稀疏的深度图像作为训练样本，对深度图像补全模型100进行训练。

下面，详细介绍根据本公开的示例性实施例的对深度图像补全模型100进行训练的方法。

首先，需要准备训练样本。训练样本涉及原始彩色图像和原始深度图像，这里，原始彩色图像和原始深度图像是相互对应的图像，可通过图像配准，将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中，使得两种图像像素一一对应。

根据本公开的示例性实施例，如果训练样本匮乏，可通过一些数据增广操作来进行数据扩充，如随机水平翻转(Random Horizontal Flip)、随机垂直翻转(RandomVertical Flip)、色彩抖动(Color Jitter)等。这样操作使得网络能够学习到更多的场景以及不同环境下的对应关系，模型鲁棒性得到很好地增强。

根据本公开的示例性实施例，针对空洞补全任务，训练样本可包括多个原始彩色图像和原始深度图像对。这里的原始深度图像可为带有空洞缺失的深度图像。针对稀疏深度稠密化任务，训练样本可包括多个原始彩色图像和稀疏深度图像对。这里的稀疏深度图像可通过包括稀疏深度图像的数据库获得，或者可通过对深度图像地面真值或密集的深度图像执行稀疏采样而获得。例如，当原始深度图像为带有空洞缺失的深度图像时，可通过对原始深度图像进行填充以获得深度图像地面真值，再对深度图像地面真值执行稀疏采样来获得稀疏深度图像。此外，通过既包括多个原始彩色图像和原始深度图像对又包括多个原始彩色图像和稀疏深度图像对的训练样本来对深度图像补全模型100进行训练，以达到同时满足空洞补全任务和稀疏深度稠密化任务的目的也是有可能的。

其次，需要构建损失函数。模型训练就是在损失函数的监督下，使用Adam优化器，通过反向传播不断更新网络中的参数，使网络能更好地拟合输入的数据，以此来减小预测的深度图像与真实深度图像之间的差异。

根据本公开的示例性实施例，除了采用预测深度像素与真实深度图像的像素值的均方误差(Mean Square Error，MSE)作为损失函数之外，还引入基于预测深度像素与真实深度图像的结构相似性指数(Structural Similarity Index Measure，SSIM)而获得的结构损失作为损失函数，以提高获得的最终深度图像的质量并消除网络中的噪声与棋盘效应，使得获得的最终深度图像细节信息丰富，边缘质量高。

图5是示出根据本公开的示例性实施例的损失函数的示意图。

如图5所示，为了使彩色分支能学习到彩色图像与深度图像之间的映射关系，在彩色分支的深度预测部分使用MSE损失(MSE1)做监督；同样的，为了学习原始深度图像与补全的深度图像间的关系，在深度分支的深度预测部分也使用了MSE损失函数(MSE2)；针对最终的深度融合部分，使用MSE与SSIM作为损失函数(MSE3和SSIM)来监督最终的深度图像。

MSE损失函数如下所示：

其中，N为图像中的有效像素点的个数，D为预测的深度值，D*为真实的深度值。

SSIM损失函数如下所示：

L_SSIM＝1-SSIM(x，y)

其中，SSIM为结构相似性指数，x和y分别表示预测深度图像和直实深度图像。SSIM可表示为：

其中，μ_x是x图像的像素值的均值，μ_y是y图像的像素值的均值，

是x图像的像素值的方差，

是y图像的像素值的方差，σ_xy是x图像和y图像的像素值的协方差，c₁和c₂为常数。结构相似性的范围为0～1。

根据本公开的示例性实施例的损失函数可表示如下：

其中，

为损失权重系数向量，代表了不同的损失函数在实际中的惩罚作用大小，例如，但不限于，

为四种损失(例如，MSE3、SSIM、MSE2、MSE1)组成的损失向量。l_out表示最终深度图像的均方误差损失，l_ssim表示最终深度图的结构损失，l_D与l_C分别表示深度预测分支与深度估计分支的均方误差损失。

参照图6，在步骤601，获取原始彩色图像和对应的原始深度图像。这里，原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄，然后将所得的两种图像进行配准而得到，或者根据需要从本地存储器或本地数据库被获取，或者通过输入装置或传输媒介而从外部数据源(例如，互联网、服务器、数据库等)被接收，等等。原始彩色图像和原始深度图像是相互对应的图像，例如，可通过图像配准，将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中，使得两种图像像素一一对应。

根据本公开的示例性实施例，当不存在所述对应的原始深度图像时，可获取具有零像素值的深度图像作为对应的原始深度图像。

在步骤602，基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像。这里，可通过上述的深度图像补全模型100中的第一深度神经网络110来第一深度神经网络。

在步骤603，基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像。这里，可通过上述的深度图像补全模型100中的第二深度神经网络120来第二深度神经网络。

例如，所述获得第二深度图像，可包括：基于第一编码器网络112和第二编码器网络122的输出、第一解码器网络113的中间特征图像和第二编码器网络122的中间特征图像，利用第二解码器网络123进行特征解码。这里，第二解码器网络123中的第一层解码单元的输入可为第二编码器网络122输出的特征图像与第一编码器网络112输出的特征图像之和；第二解码器网络123中的第二层至第N层解码单元的每一层解码单元的输入为利用SE块的方式将上一层解码单元输出的特征图像、第一解码器网络113中的对应层解码单元输出的特征图像、第二编码器网络122中的对应层编码单元输出的特征图像融合所获得的特征图像。

又例如，所述获得第二深度图像，可包括：基于原始深度图像以及第一编码器网络112的中间特征图像，利用第二深度神经网120的第二编码器网络122进行特征编码。这里，第二编码器网络122中的第一层编码单元的输入为第一预处理器网络111输出的第一特征图像与第二预处理器网络121输出的第二特征图像之和；第二编码器网络122中的第二层至第N层编码单元的每一层编码单元的输入为上一层编码单元输出的特征图像与第一编码器网络112中的对应层编码单元输出的特征图像之和。

又例如，所述获得第二深度图像，可包括：利用第二预处理网络121，将所述原始深度图像变换为适于深度神经网络处理的第二特征图像，并将所述第二特征图像输入到第二编码器网络122；利用第二深度预测网络124，将第一解码器网络113和第二解码器网络123输出的特征图像以及所述第二特征图像融合的特征图像合成为第二深度图像。这里，第二深度预测网络124的输入为利用SE块的方式将第二解码器网络123输出的特征图像、第一解码器网络113输出的特征图像与第二预处理器网络121输出的第二特征图像融合所获得的特征图像。

在步骤604，通过将第一深度图像和第二深度图像合并，获得最终深度图像。这里，可通过上述的深度图像补全模型100中的融合模块130来执行通过将第一深度图像和第二深度图像合并，获得最终深度图像的步骤。

根据本公开的示例性实施例，可通过注意力网络来实现融合模块130。在这种情况下，可利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图；基于第一像素权重地图和第二像素权重地图，将第一深度图像和第二深度图像加权求和，获得所述最终深度图像。

根据本公开的示例性实施例，所述方法还可包括：在使用第一深度神经网络和第二深度神经网络和/或注意力网络之前，利用损失函数对第一深度神经网络和第二深度神经网络和/或注意力网络进行训练。可通过上面介绍的对深度图像补全模型100进行训练的方法来执行训练。

根据本公开的示例性实施例，损失函数可通过考虑第一深度图像与真实深度图像的第一均方误差损失(MSE1)、第二深度图像与真实深度图像的第二均方误差损失(MSE2)、最终深度图像与真实深度图像的第三均方误差损失(MSE3)、以及最终深度图像与真实深度图像的结构损失(SSIM)而产生的，其中，所述结构损失＝1-结构相似性指数。例如，可将第一均方误差损失、第二均方误差损失、第三均方误差损失和结构损失加权求和来获得所述损失函数。

参照图7，根据本公开的示例性实施例的深度图像补全的装置700可包括图像获取模块701、彩色分支模块702、深度分支模块703和图像合并模块704。

图像获取模块701可获取原始彩色图像和对应的原始深度图像。这里，原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄，然后将所得的两种图像进行配准而得到，或者根据需要从本地存储器或本地数据库被获取，或者通过输入装置或传输媒介而从外部数据源(例如，互联网、服务器、数据库等)被接收，等等。原始彩色图像和原始深度图像是相互对应的图像，例如，可通过图像配准，将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中，使得两种图像像素一一对应。

根据本公开的示例性实施例，当不存在所述对应的原始深度图像时，图像获取模块701可获取具有零像素值的深度图像作为对应的原始深度图像。

彩色分支模块702可基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像。这里，可通过上述的深度图像补全模型100中的第一深度神经网络110来第一深度神经网络。

深度分支模块703可基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像。这里，可通过上述的深度图像补全模型100中的第二深度神经网络120来第二深度神经网络。

例如，深度分支模块703可被配置为：基于第一编码器网络112和第二编码器网络122的输出、第一解码器网络113的中间特征图像和第二编码器网络122的中间特征图像，利用第二解码器网络123进行特征解码。这里，第二解码器网络123中的第一层解码单元的输入可为第二编码器网络122输出的特征图像与第一编码器网络112输出的特征图像之和；第二解码器网络123中的第二层至第N层解码单元的每一层解码单元的输入为利用SE块的方式将上一层解码单元输出的特征图像、第一解码器网络113中的对应层解码单元输出的特征图像、第二编码器网络122中的对应层编码单元输出的特征图像融合所获得的特征图像。

又例如，深度分支模块703还可被配置为：基于原始深度图像以及第一编码器网络112的中间特征图像，利用第二深度神经网120的第二编码器网络122进行特征编码。这里，第二编码器网络122中的第一层编码单元的输入为第一预处理器网络111输出的第一特征图像与第二预处理器网络121输出的第二特征图像之和；第二编码器网络122中的第二层至第N层编码单元的每一层编码单元的输入为上一层编码单元输出的特征图像与第一编码器网络112中的对应层编码单元输出的特征图像之和。

又例如，深度分支模块703还可被配置为：利用第二预处理网络121，将所述原始深度图像变换为适于深度神经网络处理的第二特征图像，并将所述第二特征图像输入到第二编码器网络122；利用第二深度预测网络124，将第一解码器网络113和第二解码器网络123输出的特征图像以及所述第二特征图像融合的特征图像合成为第二深度图像。这里，第二深度预测网络124的输入为利用SE块的方式将第二解码器网络123输出的特征图像、第一解码器网络113输出的特征图像与第二预处理器网络121输出的第二特征图像融合所获得的特征图像。

图像合并模块704可通过将第一深度图像和第二深度图像合并，获得最终深度图像。这里，可通过上述的深度图像补全模型100中的融合模块130来执行通过将第一深度图像和第二深度图像合并，获得最终深度图像的步骤。

根据本公开的示例性实施例，可通过注意力网络来实现融合模块130。在这种情况下，图像合并模块704可利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图；基于第一像素权重地图和第二像素权重地图，将第一深度图像和第二深度图像加权求和，获得所述最终深度图像。

根据本公开的示例性实施例，根据本公开的示例性实施例的深度图像补全的装置700还可包括训练模块(未示出)，或者，训练模块被包括在可与装置700通信的另一实体或分布式网络中。训练模块可在第一深度神经网络和第二深度神经网络和/或注意力网络被使用之前，利用损失函数对第一深度神经网络和第二深度神经网络和/或注意力网络进行训练。可通过上面介绍的对深度图像补全模型100进行训练的方法来执行训练。

下面，将详细描述根据本公开的示例性实施例的深度图像补全方法，基于NYU-Depth-V2(下面，统一简称NYU)数据库，实施稀疏深度稠密化任务的实施例。

第一步，数据预处理以准备训练样本。NYU数据库提供了在465个室内场景下由Kinect采集的深度图像，彩色相机采集的RGB图像，其中249个场景作为训练场景，216个场景作为验证场景，同时提供了654张经过标注的图像作为测试集合。同时，官方提供了相机参数和数据预处理工具。数据预处理流程如下：

(1)使用官方提供的工具，首先对原始数据进行匹配，投影，以及裁剪，得到分辨率相同的经过配对的原始图像数据，总数约500K；其中训练场景约220K，测试场景约280K。

(2)由于原始的图像仅提供部分深度图像的地面真值，对于其它没有提供深度图像的地面真值(Ground Truth)的深度图像，使用官方介绍的Colorization方法对所有的深度图像进行了填充，得到所有深度图像的地面真值。

(3)为了与传统方法进行比较，从训练场景中随机抽取50K配对的图像以用于训练深度图像补全模型100。

(4)将所有训练图像缩放到例如304x224的大小，当然，训练图像的尺寸不限于此。

(5)对第(2)步骤得到的所有深度图像的地面真值进行稀疏采样，例如，从深度图像的地面真值中随机选取500个有效像素，生成稀疏的深度图像。

(6)随机进行深度图像水平翻转、垂直翻转和色彩抖动，增加数据的多样性。

(7)将深度图像转为张量输入深度图像补全模型100进行处理。

第二步，利用准确好的训练样本，通过参照图5所描述的损失函数，对深度图像补全模型100进行训练。训练过程中，使用批量大小(Batch Size)为4，初始学习率使用0.001，每5个轮(epochs)下降1/2，总共训练50个epochs。

第三步，在完成训练之后，固定深度图像补全模型100的参数，此时的深度图像补全模型100已经学习到了训练数据中从原始深度图像和原始彩色图像到完整深度图像的映射关系。将一对新的测试数据送入深度图像补全模型100中，深度图像补全模型100就可以推理得到一张经过补全的深度图像。

类似地，还可根据本公开的示例性实施例的深度图像补全方法，基于NYU数据库，实施空洞深度补全任务，这里不再详细描述。

实施证明，本公开的示例性实施例的深度图像补全方法与现有方法相比，在空洞深度补全任务和稀疏深度稠密化任务都取得了更好的效果。

(1)空洞深度补全任务

针对NYU数据库，所有没有给出地面真值的深度图像对的数据集(约500K)来作为训练集，测试过程使用官方的1449张带有完整深度图的图像对作为测试集验证最终的精度。

通过复现DeepLiDAR的开源代码进行训练并测试得到其空洞深度补全数据。如表1所示，根据本公开的示例性实施例的深度图像补全方法在各种指标(例如，均方根误差(RMSE)、平均绝对误差(MAE)、反转均方根误差(iRMSE)、反转平均绝对误差(iMAE))上都明显优于DeepLiDAR。

表1在NYU数据集上的空洞深度补全性能对比(单位mm)

算法	RMSE	MAE	iRMSE	iMAE
					DeepLiDAR	82.033001	49.314480	16.459752	9.298696
DepthNet(模型100)	36.783371	12.827534	5.660427	1.995547

2)稀疏深度补全任务

按照上述数据配置，训练集是在官方划分的训练集(大约220K)中随机选取的50K配对的深度图像并使用数据增广方法进行扩充，测试过程使用官方的654个图像对作为测试集验证最终的精度。

测试结果同样基于NYU-Depth-V2数据集的测试集，所有的输入图像通过在对应的地面真值深度图像中进行随机采样，得到500个有效点的稀疏采样图像，然后进行稀疏到密集的深度补全测试。如表2所示，通根据本公开的示例性实施例的深度图像补全方法在各种指标(例如，均方根误差(RMSE)、相对误差(REL))上都是优于现有的网络。

表2在NYU数据集上的稀疏深度补全性能对比(单位mm)

算法	RMSE	REL
			Dfusenet	219.5	0.0441
Sparse-to-dense	200	0.038
			CSPN++	115.0
DeepLiDAR	115.0	0.022
			DepthNet(模型100)	105.65	0.015

通过两种任务的结果的对比可以看出来，本公开在两种任务上都具有良好的表现，特别是在稀疏深度补全的任务上，本公开的性能明显优于当前的业界最前沿的方法。实验结果证明了根据本公开的模型具有很好的鲁棒性，对于不同的缺失模式，根据本公开的模型能都能够通过基于彩色图像的深度估计网络产生的完整的深度图，在将产生的深度图像域深度预测分支产生的深度图像进行融合，保证了即使在深度图像缺失的情况下，根据本公开的模型也能输出一个较为合理的深度图像。

根据本公开的示例性实施例，提供了一种计算装置，包括处理器和存储器。其中，存储器存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的深度图像补全的方法。

根据本公开的示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的示例性实施例的深度图像补全的方法。

以上已参照图1至图7描述了根据本公开示例性实施例的本公开的深度图像补全的方法和装置。

图7所示出的本公开的深度图像补全的装置中的各个模块可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个模块可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个模块所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图6所描述的本公开的深度图像补全的方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的本公开的深度图像补全的方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图6进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的深度图像补全的装置中的各个模块可完全依赖计算机程序的运行来实现相应的功能，即，各个模块在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图7所示的各个模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本公开的示例性实施例的深度图像补全的方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的深度图像补全的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的深度图像补全的方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图6所描述的深度图像补全的方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。

根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的用于执行深度图像补全的方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图6所描述的深度图像补全的方法。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种深度图像补全的方法，包括：

获取原始彩色图像和对应的原始深度图像；

基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像；

基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像；

通过将第一深度图像和第二深度图像合并，获得最终深度图像。

2.如权利要求1所述的方法，其中，第一深度神经网络包括N层具有残差结构的第一编码器网络和第一解码器网络，其中，N为大于1的整数；

其中，第二深度神经网络包括N层具有残差结构的第二编码器网络和第二解码器网络；

其中，所述获得第二深度图像，包括：

基于第一编码器网络和第二编码器网络的输出、第一解码器网络的中间特征图像和第二编码器网络的中间特征图像，利用第二解码器网络进行特征解码。

3.如权利要求2所述的方法，其中，所述获得第二深度图像，包括：

基于所述原始深度图像以及第一编码器网络的中间特征图像，利用第二深度神经网络的第二编码器网络进行特征编码。

4.如权利要求2或3所述的方法，其中，第一深度神经网络还包括：在第一编码器网络和第一解码器网络之前的第一预处理网络以及在第一编码器网络和第一解码器网络之后的第一深度预测网络，

其中，所述获得第一深度图像，包括：

利用第一预处理网络，将所述原始彩色图像变换为适于深度神经网络处理的第一特征图像，并将所述第一特征图像输入到第一编码器网络，

利用第一深度预测网络，将第一解码器网络输出的特征图像合成为第一深度图像；

其中，第二深度神经网络还包括：在第二编码器网络和第二解码器网络之前的第二预处理网络和在第二编码器网络和第二解码器网络之后的第二深度预测网络，

其中，所述获得第二深度图像，包括：

利用第二预处理网络，将所述原始深度图像变换为适于深度神经网络处理的第二特征图像，并将所述第二特征图像输入到第二编码器网络，

利用第二深度预测网络，将第一解码器网络和第二解码器网络输出的特征图像以及所述第二特征图像融合的特征图像合成为第二深度图像。

5.如权利要求4所述的方法，其中，

第二解码器网络中的第一层解码单元的输入为第二编码器网络输出的特征图像与第一编码器网络输出的特征图像之和；

第二解码器网络中的第二层至第N层解码单元的每一层解码单元的输入为利用SE块的方式将上一层解码单元输出的特征图像、第一解码器网络中的对应层解码单元输出的特征图像、第二编码器网络中的对应层编码单元输出的特征图像融合所获得的特征图像；

第二深度预测网络的输入为利用SE块的方式将第二解码器网络输出的特征图像、第一解码器网络输出的特征图像与所述第二特征图像融合所获得的特征图像。

6.如权利要求5所述的方法，其中，第二编码器网络中的第一层编码单元的输入为所述第一特征图像与所述第二特征图像之和；

第二编码器网络中的第二层至第N层编码单元的每一层编码单元的输入为上一层编码单元输出的特征图像与第一编码器网络中的对应层编码单元输出的特征图像之和。

7.如权利要求2或3所述的方法，其中，第二编码器网络和第二解码器网络中的每个残差块在执行每次卷积处理之后，执行一次门控处理。

8.一种深度图像补全的装置，包括：

图像获取模块，被配置为获取原始彩色图像和对应的原始深度图像；

彩色分支模块，被配置为基于所述原始彩色图像，利用第一深度神经网络，获得第一深度图像；

深度分支模块，被配置为基于所述原始深度图像以及由第一深度神经网络的各中间层产生的中间特征图像，利用第二深度神经网络，获得第二深度图像；

图像合并模块，被配置为通过将第一深度图像和第二深度图像合并，获得最终深度图像。

9.一种计算装置，包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-7中的任意一项所述的深度图像补全的方法。

10.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的深度图像补全的方法。