CN113538278B

CN113538278B - 基于可变形卷积的深度图补全方法

Info

Publication number: CN113538278B
Application number: CN202110810607.6A
Authority: CN
Inventors: 童超; 杨冠群
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-06-27
Anticipated expiration: 2041-07-16
Also published as: CN113538278A

Abstract

提供了基于可变形卷积的深度图补全方法。本发明设计的基于可变形卷积的RGB图像数据引导的深度补全模型，该模型基于ENet的基本结构，从改进模型结构、增加可变形卷积、添加额外的监督信息三个方面提出了一种改进的深度补全模型，实验表明，这种改进的深度补全网络模型具有比ENet更高的补全精度以及相同的速度。

Description

基于可变形卷积的深度图补全方法

技术领域

本发明提出基于可变形卷积的深度补全模型，属于图像数据处理_(G06T)及图像增强_(G06T5)领域。

背景技术

深度补全任务是计算机视觉中的一项基础研究，它对于许多应用来说是至关重要的，包括机器人、增强现实、三维重建和SLAM等等。它的主要目标是利用高分辨率的RGB图像信息进行引导，从一张稀疏的深度图中预测出稠密的深度图。在实际场景中，深度图一般可以通过3D激光雷达或者立体相机获得，通过立体相机获得的深度信息依赖立体视觉算法，目前的立体视觉算法很难获得高精度信息。通过激光雷达获得的数据更加精确能够达到厘米级，所以像自动驾驶等这种户外场景的应用往往会采用3D激光雷达。然而，由于3D激光雷达的内在缺陷，获得的深度信息往往是离散分布的，这会导致的噪声以及物体边缘的不完整性。

为了解决这个问题，出现了一系列深度补全的方法。最近深度神经网络的发展，许多非常有效的方法都被提出来。这些方法中，主要分为带有图像引导和不带有图像引导两种。因为前者可以利用引导图像中包含的物体结构信息来获得更好的补全效果，因此受到了更广泛的研究和关注。带有图像引导的深度补全任务有两个具体的问题，包括1)引导图像的准确特征信息难以获得，尤其图像中不规则物体的边缘特征信息；2)补全任务的监督信息过于单一，过去的监督信息只包括深度补全结果与真实深度标签的均方误差损失，额外的监督信息难以获取。为了解决这些问题，最近的一些方法采用了多尺度特征，表面法向量，语义信息，上下文关联等方式进一步利用引导图像的特征，例如huang等人(https://ieeexplore.ieee.org/abstract/document/8946876/)采用了多尺度特征，qiu等人(https://openaccess.thecvf.com/content_CVPR_2019/html/Qiu_DeepLiDAR_Deep_Surface_Normal_Guided_Depth_Prediction_for_Outdoor_Scene_CVPR_2019_paper.html)引入了表面法向量信息，jaritz等人(https://ieeexplore.ieee.org/abstract/document/8490955)使用了图像的语义信息，Cheng等人(https://openaccess.thecvf.com/content_ECCV_2018/html/Xinjing_Cheng_Depth_Estimation_via_ECCV_2018_paper.html)使用了图像上下文的亲和性。

Gu等人在(https://ieeexplore.ieee.org/abstract/document/9357967)中添加了额外的结构损失，Chen等人(https://openaccess.thecvf.com/content_ICCV_2019/html/Chen_Learning_Joint_2D-3D_Representations_for_Depth_Completion_ICCV_2019_paper.html)将L2损失和smooth L1损失组合使用。此外，Uhrig等人(https://ieeexplore.ieee.org/abstract/document/8374553/)利用不同的稀疏稀疏不变性卷积，Eldesokey等人(https://openaccess.thecvf.com/content_CVPR_2020/html/Eldesokey_Uncertainty-Aware_CNNs_for_Depth_Completion_Uncertainty_from_Beginning_to_End_CVPR_2020_paper.html)增加了不确定性的探索，Tang等人(https://ieeexplore.ieee.org/abstract/document/9286883)改进多模态融合策略等也进一步提升了性能。

KITTI(https://www.shapenet.org/)是目前深度补全领域最为权威的数据集之一，它包含了超过93000张深度图以及其相对应的雷达扫描信息和RGB图像信息，并且也提供了每张图像的相对应相机参数，因此可利用该数据集RGB图像数据信息，实现RGB图像数据引导下的深度补全。

发明内容

本发明的目的是基于深度学习的理论与方法，研究新型的、RGB图像数据引导下的稀疏图像深度补全模型，能够利用RGB图像数据引导稀疏图像深度补全为密集深度，同时引入了可变形卷积和额外的监督信息，且该模型的运算速度与最快的ENet模型(https://arxiv.org/abs/2103.00783)相同，补全准确率较ENet更高。

本发明设计了一种基于可变形卷积的RGB图像数据引导的深度补全模型，该模型基于ENet的基本结构，从改进模型结构、增加可变形卷积、添加额外的监督信息三个方面提出了一种改进的深度补全模型，实验表明，这种改进的深度补全网络模型具有比ENet更高的补全精度以及相同的速度。

本发明采用上述深度补全网络模型，首先对KITTI数据集中的RGB图像数据、稀疏深度数据和真实深度标签进行预处理，构建训练数据，然后训练可变形卷积的RGB引导深度补全模型，最后通过该深度补全网络模型生成稀疏深度数据对应的密集深度图。

本发明包括下列步骤：

步骤1、数据准备：

1.根据KITTI数据集的标准数据划分方式，86000组数据用来训练模型，1000组数据用来验证模型，同时另有1000组数据用来对模型进行测试。其中除测试数据外，其余每组数据均包含RGB图像数据、稀疏深度数据和通过激光雷达扫描获取的真实深度标签，而测试数据仅包含RGB图像数据和稀疏深度数据。

步骤2、训练深度补全模型：

1.构建用于深度补全的网络模型，所述网络模型分为四个部分。1)第一部分为RGB图像数据特征提取模块，用于提取输入的RGB图像数据的特征，该模块的网络主体架构为ResNet-50架构(https://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html)，RGB图像从网络输入层开始，依次经过1个常规卷积层和10个残差卷积模块，每个残差卷积模块包含2个卷积层。残差卷积模块中的常规卷积替换为可变形卷积，可变形卷积原理(如图3)，以保证物体边缘深度补全的准确性(如图4)。2)第二部分为稀疏深度数据特征提取模块，该部分的网络结构包括1个常规卷积层和10个残差卷积模块，每个残差卷积模块包含2个卷积层，残差卷积模块中的卷积为常规卷积。第一部分的RGB图像数据经过各层各模块后，最终生成的特征图与第二部分最终生成的特征图直接相加融合，融合后的特征图尺寸大小为38×11×1024(横向长度、纵向长度、通道方向深度)。3)第三部分为RGB图像特征反卷积模块，由第一、二部分输出的融合后的特征依次经过5层反卷积层，分别得到76×22×512、152×44×256、304×88×128、608×176×64、1216×352×32尺寸大小的特征图，再经过一个常规卷积层得到1216×352×2大小的输出，分别为1216×352×1大小的深度补全中间结果和1216×352×1大小的置信权重。4)第四部分为深度增强模块，用以对第三部分生成的深度补全中间结果进行增强，该部分的输入为第三部分产生的深度补全中间结果和稀疏深度数据的按通道方向进行拼接的结果，输出为深度补全增强结果和置信权重。深度增强模块的结构，包括依次串连的1个常规卷积层、10个残差卷积模块、5个反卷积模块和1个常规卷积层。第三部分第五至第一层得到的特征图分别与该部分常规卷积层及编码器的第二、第四、第六、第八层按通道方向进行特征拼接，用以丰富深度增强的特征层次，第四部分的输出与第三部分得到的输出进行加权融合，得到最终的深度预测结果。

2.设置损失函数权重参数，深度补全网络模型的损失函数由深度补全最终结果与深度标签的均方误差、深度补全中间结果与深度标签均方误差的0.2倍以及深度补全增强结果与深度标签均方误差的0.2倍组成，具体计算方式如下：

L＝L(D)+λ₁L(D_c)+λ₂L(D_r)

其中，L(D)为最终深度补全结果与深度标签的均方误差，L(D_c)和L(D_r)分别为深度补全中间结果与深度标签均方误差及深度补全增强结果与深度标签均方误差，λ₁＝λ₂＝0.2。

3.设置训练参数，其中训练参数包括模型学习优化方式、学习率及最大迭代次数等。本模型采用Adam优化方法，β₁和β₂分别设置为0.9和0.99，权重衰减为0.000001。共迭代30次，初始学习率设置为0.001，在第10、15和25个迭代，学习率分别衰减为原来的1/2，1/5和1/10。

4.读取一个批次的数据(RGB图像数据、稀疏深度数据、真实深度标签)，将RGB图像数据和稀疏深度数据输入深度补全网络模型，得到的结果与真实深度标签计算损失并反向传播梯度。

5.学习率0.001情况下训练10轮，之后更改学习率为0.0005训练5轮，更改学习率为0.0001训练10轮，最后更改学习旅为0.00001训练5轮，保存在验证集中表现最好的模型。

步骤3、训练自编码模型：

1.自编码模型的网络结构与深度补全模型的网络结构一致。自编码模型的第一部分使用可变形卷积模块提取RGB图像数据特征；第二部分使用常规卷积提取真实深度标签的特征；第三部分将融合的RGB图像数据特征和真实深度标签的特征进行反卷积得到深度补全中间结果和置信权重；第四部分将深度补全中间结果和真实深度标签按通道方向拼接后作为输入，输出深度补全增强结果和置信权重，深度补全中间结果和深度补全增强结果按其对应的置信权重进行融合。

2.损失函数权重等各类参数的设置及训练方式，均与步骤二中相同，损失函数如下：

L＝L(D)+λ₁L(D_l)+λ₂L(D_r)

其中，L(D)为自编码补全结果与深度标签的均方误差，L(D_l)和L(D_r)分别为自编码补全中间结果与深度标签均方误差及自编码补全增强结果与深度标签均方误差，λ₁＝λ₂＝0.2。采用Adam优化方法，β₁和β₂分别设置为0.9和0.99，权重衰减为0.000001。共迭代30次，初始学习率设置为0.001，在第10、15和25个迭代，学习率分别衰减为原来的1/2，1/5和1/10。学习率0.001情况下训练10轮，之后更改学习率为0.0005训练5轮，更改学习率为0.0001训练10轮，最后更改学习旅为0.00001训练5轮，保存在验证集中表现最好的模型。

步骤4、利用判别器模型引入额外的监督信息：

1.构建判别器模型，该模型的主体架构为VGG-16(https://arxiv.org/abs/1409.1556)，输入为步骤2和步骤3中深度增强模块反卷积部分最后一个反卷积模块输出的特征，输入大小为B×1216×352×32，输出大小为B×1，其中B为一次输入一个批量的大小。

2.利用深度补全模型输出的特征与自编码模型输出的特征训练判别器模型。依次将真实数据(自编码模型特征)和假数据(深度补全模型特征)输入判别器模型，得到真实数据得分和假数据得分。损失函数由两部分组成：一个批量中假数据得分的均值和一个批量中真实数据得分均值的负值。

3.生成额外监督信息。将深度补全模型深度增强模块反卷积部分最后一个反卷积模块输出的特征，输入到训练好的判别器模型中，产生的得分负值加入到深度补全模型的损失函数，作为额外的监督信息。

本发明在充分分析深度补全模型特征不足的基础上，从改变网络结构、增加可变形卷积、引入额外的监督信息等三个方面提出了一种改进的深度补全模型，实验表明，这种改进模型在与ENet预测速度相同的情况下，具有更高的预测精度。

附图说明

图1为本发明的整体流程示意图；

图2为本发明提出的深度补全模型网络结构图；

图3为可变形卷积实现原理图；

图4为可变形卷积与常规卷积的深度补全效果对比图；

图5为双线性插值法应用于不同数据的对比图；

图6为深度补全结果；

图7判别器模型网络结构图；

图8反卷积部分特征图；

具体实施方案

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图对本发明作进一步详细描述。

根据本申请的实施例，提供了用于根据稀疏深度信息生成稠密深度图的深度补全模型。深度补全由例如计算机程序实现，并由处理器运行该计算机程序时，例化根据本申请实施例的深度补全模型。

参见图1，本发明用于深度补全时，其具体处理步骤如下：

1、数据准备。

训练本发明提出的深度补全模型所使用的数据集为KITTI开源数据集，该数据集提供了RGB图像数据以及相对应稀疏深度图，这些稀疏深度图是通过将3D激光雷达点投影到相对应的图像帧获得的。RGB图像数据的分辨率为1241×376，在稀疏深度图中大约有5％的的像素是有效的(深度值>0)而相对应的密集深度标签中有16％的像素是有效的。

该数据集包含86000例训练样本，7000例验证样本，1000例测试样本，且每例样本对应1张RGB图像数据，1张稀疏深度图数据，1张深度标签及相机参数(训练时随机从中选取5例样本及样本对应的相机参数作为输入)。

为了消除异常数据带来的影响，使用Python提供的Numpy库(https://numpy.org/doc/stable/reference/)分别对RGB图像数据和稀疏深度数据进行归一化操作，使RGB图像各像素值和各深度值的取值范围限定在[0,1]内。为了数据的多样化，对每例样本中的三种数据(RGB图像数据，稀疏深度数据，真实深度标签)进行同样大小的随机裁剪操作，使图像尺寸统一为1216×352。

2、搭建网络。

(1)利用PyTorch深度学习框架(https://proceedings.neurips.cc/paper/2019/hash/bdbca288fee7f92f2bfa9f7012727740-Abstract.html)，构建本发明提出的深度补全网络模型，如图2所示。本申请实施例的深度补全模型由RGB图像数据特征提取模块(图2左中部)、稀疏深度数据特征提取模块(图2左上部)、RGB图像反卷积模块(图2右上部)、深度增强模块(图2下部)。

RGB图像数据特征提取模块的网络主体架构基于ResNet-50(https://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html)，并将其中基本卷积模块的卷积层替换为可变形卷积，该部分需训练可变形卷积的偏置权重即卷积核权重。该部分的输入是数据准备过程中获得RGB图像数据，数据从网络输入层(输入1)开始，依次经过1层常规卷积层(3x3 Conv)和10个残差卷积模块(DC Res Block)。为了增强模型对RGB图像数据中物体不规则边缘的适应能力，将残差卷积模块中的常规卷积替换为可变形卷积(Deformable Convolution)，可变形卷积为每一个卷积采样点加上了一个偏移(也称为偏置)。例如，对于输入的一张特征图，假设要执行的卷积操作是3×3，在可变形卷积层中，除了原本要学习3×3大小的卷积核(卷积核(一))用于学习特征，还需要定义另外一个3×3的卷积核(卷积核(二))用于学习偏置，其与原特征图卷积输出结果的维度与原特征图的大小相同，通道数为2N(N为原特征图通道数)，如图3，该输出代表了一组原采样位置的偏置。在实际计算过程中，由于偏置可能不为整数，因此实际的采样位置可能位于相邻的四个特征值之间，在该情况下，可根据相邻四个特征值利用双线性插值法计算出实际特征值，该计算出的特征值与卷积核(一)进行卷积运算得到实际的特征。

可变形卷积的计算过程如下

其中p₀表示一个3x3大小特征图的中心特征点，p_n表示p₀周围的特征点，Δp_n表示相对于p_n的偏置，w(p_n)表示p_n对应的卷积核的权重，x(p₀)表示p₀位置的特征值，y(p₀)表示输出特征图p₀位置的特征值。

对于可变形卷积中使用的双线性插值法，有如下定义：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

其中p＝p₀+p_n+Δp_n，q表示p周围临近的四个特征点，且g(a,b)＝max(0,1-|a-b|)。

图4展示了可变形卷积与常规卷积的深度补全效果对比。图4的上半部分依次表示RGB图像数据、可变形卷积在RGB图像数据框选区域中的作用效果、使用可变形卷积的深度补全效果；下半部分依次表示RGB图像数据、常规卷积在RGB图像数据框选区域中的作用效果、使用常规卷积的深度补全效果。通过学习到的偏置，提取特征点的位置可以拟合RGB图像数据中物体形状的变换，保证物体边缘深度补全的准确性。

图5双线性插值法应用于不同数据的对比。图5的左图为稀疏深度数据，其中空白区域表示深度值缺失的像素(深度值为0)，在该情况下采用双线性插值法产生的数据是无效的，因此无法将可变形卷积应用于提取稀疏深度数据的特征；右图为RGB图像数据，其中的各个像素点都是有效数据，采用双线性插值法产生的数据同样有效，因此可以将可变形卷积应用于提取RGB图像数据的特征。

稀疏深度数据特征提取模块的网络主体架构与RGB图像特征提取模块相同，包括一个常规卷积层(3x3 Conv)和10个残差卷积模块，但由于使用双线性插值法的可变形卷积在离散深度数据中会产生误差，如图5，其残差卷积模块中的卷积层采用常规卷积。RGB图像数据特征提取模块的各层输出特征与稀疏深度数据特征提取模块的相应特征按元素相加，RGB图像数据依次经过第1个常规卷积层(图2中(12))、第2个残差卷积模块(图2中(14))、第4个残差卷积模块(图2中(16))、第6个残差卷积模块(图2中(18))、第8个残差卷积模块(图2中(20))和第10个残差卷积模块(图2中(22))后分别得到大小为1216×352×32、608×176×64、304×88×128、152×44×256、76×22×512、38×11×1024的特征图，此过程得到的特征图与稀疏深度数据产生特征图依次对应相加，其中(1)、(3)、(5)、(7)、(9)、(11)模块的输出为稀疏深度数据产生的特征图，即模块(1)与(12)的输出、(3)与(14)的输出、(5)与(16)的输出、(7)与(18)的输出、(9)与(20)的输出分别按元素相加，产生大小不变的新特征图，新特征图作为稀疏深度数据特征提取部分残差卷积模块的输入继续向前传播。

RGB图像特征反卷积模块，用于对融合后的RGB图像特征和稀疏深度特征进行升维，生成密集深度图。该部分的输入是RGB图像数据特征提取模块的输出(图2中(22)的输出)和稀疏深度数据特征提取模块的输出(图2中(11)的输出)按元素相加产生的特征图，其大小为38×11×1024，该特征图依次经过5个反卷积模块(图2中的(23)、(24)、(25)、(26)、(27))分别得到大小为76×22×512、152×44×256、304×88×128、608×176×64、1216×352×32的特征图，其中反卷积模块包含反卷积层、归一化层和激活层。此过程中得到的特征图(每一个DeConv模块的输出)依次与稀疏深度数据特征提取模块的第8个、第6个、第4个、第2个残差卷积模块及第一个常规卷积产生的特征相加，即图2中(1)与(27)的输出、(3)与(26)的输出、(5)与(25)的输出、(7)与(24)的输出、(9)与(23)的输出分别按元素相加。最终的特征图(图2中(27)的输出)经过1个常规卷积层(3x3 Conv)得到大小为1216×352×2的输出，输出包含大小为1216×352×1的深度补全中间结果和大小为1216×352×1的置信权重。

深度增强模块用于增强RGB图像反卷积模块得到深度补全中间结果，其网络结构包含深度增强模块特征提取部分(图2中((29)-(39))和深度增强模块反卷积部分(图2中(40)-(45))。深度增强模块的输入(图2中输入3)是上述得到深度补全中间结果(图2中(28)的输出)和离散深度数据(与输入1相同)按通道方向进行拼接，获得大小为1216×352×2的联合数据，该联合数据依次经过1个常规卷积层、10个残差卷积模块、5个反卷积模块和1个常规卷积层，得到大小为1216×352×2的输出(图2中(45)的输出)，输出包含大小为1216×352×1的深度补全增强结果和大小为1216×352×1的置信权重。

在深度增强模块特征提取部分，RGB图像特征反卷积模块第5至第1个反卷积模块产生的特征图分别与该部分第1个常规卷积层(3x3 Conv)及第2、4、6、8个残差卷积模块产生的特征按通道方向进行拼接(图2中(a)、(b)、(c)、(d)、(e)标识部分)，使特征层次更加丰富，保证了深度增强过程中特征完整性，其中残差卷积模块中的卷积为常规卷积层。

深度增强模块的反卷积部分与RGB图像特征反卷积部分相同，由以上两部分得到的密集深度图加权融合，得到最终的深度预测结果。

(2)自编码模型的结构与深度补全模型的结构完全相同，包括上述的RGB图像数据特征提取模块、稀疏深度特征提取模块、RGB图像反卷积模块和深度增强模块。

(3)判别器模型的主体架构为VGG-16模型(https://arxiv.org/abs/1409.1556)，如图7，依次包括2个常规卷积模块、最大池化层、2个常规卷积模块、最大池化层、3个常规卷积模块、最大池化层、三个常规卷积模块、最大池化层、三个常规卷积模块、最大池化层、3个全连接层。

2、损失函数设计。

深度补全模型与自编码模型的损失函数均是预测深度与实际深度标签的均方根误差，表示预测深度与实际深度标签中有效深度值的差距，可定义为：

其中P_v表示在实际深度标签中具有有效深度值的像素集合，p为单个像素，

表示实际深度标签(gt表示实际深度标签)，D_p表示预测深度。(‖X‖表示X的二范数)在补全模型训练过程中，实际使用的的损失为：

L＝L(D)+λ₁L(D_c)+λ₂L(D_r)

其中L(D)表示联合预测结果的损失，L(D_c)表示深度补全中间结果损失，L(D_r)表示深度补全增强结果损失。λ₁和λ₂均为超参数，在训练的初始阶段设置λ₁＝λ₂＝0.2，之后设置λ₁＝λ₂＝0。

为使深度补全模型中反卷积部分(图2中(44))输出的特征分布与真实特征分布更加接近，在判别器模型训练过程中采用Wasserstein distance评估数据分布之间的差异，实验结果如图8(从上到下依次是原始模型特征分布、引入额外监督后模型特征分布)。图8表示在使用判别器模型引入额外监督信息前后，深度增强模块反卷积部分最后一个反卷积模块输出的对比，其中上图为引入额外监督信息前的结果，下图为引入额外监督信息后的结果。

判别器模型损失定义如下：

其中，x_g和x_r分别为深度补全模型的特征和真实特征，N为一个批次输入数据的数量，f代表判别器模型；判别器训练完成后，将判别器的输出作为额外监督损失，额外监督损失定义如下：

在引入额外监督信息后，补全模型的完整损失函数表示为：

L＝L(D)+λ₁L(D_c)+λ₂L(D_r)+ηL_ex

其中η为额外监督信息的超参数，初始为η＝0.5，在训练的后期η＝0.1。

3、训练模型。

模型采用分阶段训练策略，首先分别独立训练深度补全模型和自编码模型，其中深度补全模型的输入为RGB图像数据和稀疏深度数据，输出的深部补全最终结果与实际深度标签按照上述定义的损失函数计算损失，并反向传播梯度以更新模型参数。学习率0.001情况下训练10轮，之后更改学习率为0.0005训练5轮，更改学习率为0.0001训练10轮，最后更改学习旅为0.00001训练5轮，保存在验证集中表现最好的模型。

自编码模型的输入为RGB图像数据和实际深度标签，输出的自编码结果与实际深度标签按照上述定义的损失函数计算损失，其训练参数及训练过程与深度补全模型相同。

训练判别器模型时，深度补全模型深度增强模块反卷积部分(图2中(44))的输出和自编码模型相应位置的输出依次作为判别器的输入，两组输出可由上述判别器损失公式计算损失，在固定深度补全模型和自编码模型参数的基础上采用Adam优化方法单独训练判别器20轮，β₁和β₂分别设置为0.5和0.9，学习率固定为0.0001。

4、引入额外的监督信息。

将深度补全模型中深度增强模块反卷积部分(图2中(44))的输出，输入到训练好的判别器模型中，产生的结果的负值加入到深度补全模型的损失函数，作为额外的监督信息(3中的L_ex)。

5、在数据集上对本发明的模型进行评估。

我们基于KITTI数据集对所提的三维重建模型进行评估。评价指标选用RMSE、MAE、iRMSE、iMAE(RMSE表示均方根误差，MAE表示平均绝对误差，iRMSE表示真实值与预测值误差倒数的均方根，iMAE表示真实值与预测值误差倒数的平均绝对值)，同时也评估模型在深度补全上的实际表现效果图，测试集划分采用Hu等人工作数据集划分策略(86000组数据用于训练模型，7000组数据用于验证模型，1000组数据用于测试模型)。我们将该根据本申请实施例的三维重建模型与之前工作GuideNet、ENet、NLSPN、CSPN++以及ACMNet等进行了对比。相较于未改进前重建模型ENet，改进后模型的RMSE指标降低了3.34，MAE降低了0.85，iRMSE降低了0.02，iMAE降低了0.01，运行时间消耗仅为GuideNet(0.14s)的14.2％。此外，我们还对比了这些模型在重建形状上的实际表现，如图6(从上到下依次是RGB图像数据、离散深度数据、实际深度标签、ENet模型补全结果、本模型补全结果)，我们的方法在大多样例中的表现优于改进前的ENet方法。

GuideNet、ENet、NLSPN、CSPN++以及ACMNet的工作与结果可从下列链接中获得：

GuideNet:https://ieeexplore.ieee.org/abstract/document/9286883

ENet:https://arxiv.org/pdf/2103.00783

NLSPN:https://arxiv.org/pdf/2007.10042v1

CSPN++:https://ojs.aaai.org/index.php/AAAI/article/view/6635/ 6489ACMNet:https://ieeexplore.ieee.org/abstract/document/9440471

本专利申请中，深度补全模型也称深度补全网络或深度补全网络模型，自编码模型也称为自编码网络或自编码网络模型，判别器模型也称为判别器网络或判别器网络模型。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于可变形卷积的深度补全方法，包括下列步骤：

步骤一、数据准备；

获取KITTI开源数据集，该数据集提供了RGB图像数据、相对应的稀疏深度数据以及真实深度标签；所述RGB图像数据的分辨率1241×376，稀疏深度数据中大约有5％的的像素数据是有效的，其深度值>0，而真实深度标签中有16％的像素数据是有效的；

所获取的KITTI开源数据集包含86000例训练样本，且每例样本对应1份RGB图像数据，1份稀疏深度数据与1份真实深度标签；

对所获取的KITTI开源数据集的RGB图像数据和稀疏深度数据进行归一化操作，使RGB图像数据各像素值和稀疏深度数据的各像素的深度值的取值范围限定在[0,1]内；

对每例样本中的三种数据进行同样大小的随机裁剪操作，使每例样本中的三种数据的尺寸统一为1216×352；

步骤二、对深度补全模型进行训练；

将步骤一获得的训练样本的裁剪后的RGB图像数据和稀疏深度数据作为深度补全模型的输入，其中步骤一获得的的深度标签用于计算损失；

所述深度补全模型包括：RGB图像数据特征提取模块、稀疏深度数据特征提取模块、RGB图像特征反卷积模块、深度增强模块以及融合模块；RGB图像特征提取模块包括依次串联的1个常规卷积层和10个残差卷积模块；稀疏深度数据特征提取模块包括依次串联的1个常规卷积层和10个残差卷积模块；RGB图像特征反卷积模块包括依次串联的5个反卷积模块和1个常规卷积层；深度增强模块包括依次串联的1个常规卷积层、10个残差卷积模块、5个反卷积模块和1个常规卷积层；其中RGB图像特征提取模块的残差卷积模块内包括的卷积层是可变形卷积，稀疏深度数据特征提取模块的残差卷积模块内包括的卷积层是常规卷积；

RGB图像特征反卷积模块的常规卷积层输出的深度补全中间结果与训练样本的稀疏深度数据按通道进行拼接，得到的联合数据再被送入的深度增强模块；

步骤一获得的训练样本裁剪后的RGB图像数据依次经过RGB图像特征提取模块的第1个常规卷积层、第2个残差卷积模块、第4个残差卷积模块、第6个残差卷积模块、第8个残差卷积模块和第10个残差卷积模块后分别得到大小为1216×352×32的第一特征图、608×176×64的第二特征图、304×88×128的第三特征图、152×44×256的第四特征图、76×22×512的第五特征图、38×11×1024的第六特征图；

步骤一获得的训练样本的裁剪后的稀疏深度数据依次经过稀疏深度数据特征提取模块的第1个常规卷积层、第2个残差卷积模块、第4个残差卷积模块、第6个残差卷积模块、第8个残差卷积模块和第10个残差卷积模块后分别得到大小为1216×352×32的特征图A、608×176×64的特征图B、304×88×128特征图C、152×44×256的特征图D、76×22×512的特征图E、38×11×1024的特征图F；

RGB图像特征提取模块处理输入的RGB图像数据得到的特征图与稀疏深度数据特征提取模块处理输入的稀疏深度数据产生的特征图对应按元素相加，其中RGB图像数据特征提取模块产生的第一特征图、第二特征图、第三特征图、第四特征图、第五特征图分别与稀疏深度数据特征提取模块产生的特征图A、特征图B、特征图C、特征图D、特征图E依次对应相加，产生大小不变的第一新特征图、第二新特征图、第三新特征图、第四新特征图、第五新特征图，这些新特征图分别作为稀疏深度数据特征提取模块的第1个残差卷积模块、第3个残差卷积模块、第5个残差卷积模块、第7个残差卷积模块和第9个残差卷积模块的输入继续参与向前传播；

RGB图像特征反卷积模块，用于对RGB图像数据特征提取模块与稀疏深度数据特征提取模块处理后的RGB图像数据特征和稀疏深度数据特征进行升维，生成待增强的深度补全中间结果；

RGB图像特征反卷积模块的输入是RGB图像数据特征提取模块产生的第六特征图和稀疏深度数据特征提取模块产生的特征图F按元素相加的产生的第六新特征图，其大小为38×11×1024，该第六新特征图依次经过RGB图像特征反卷积模块的5个反卷积模块分别得到大小为76×22×512、152×44×256、304×88×128、608×176×64、1216×352×32的第七特征图、第八特征图、第九特征图、第十特征图和第十一特征图，其中反卷积模块包含反卷积层、归一化层和激活层；此过程中得到的第七特征图、第八特征图、第九特征图、第十特征图和第十一特征图依次与稀疏深度数据特征提取模块输出的特征图E、特征图D、特征图C、特征图B及特征图A按元素相加，得到的第十一特征图经过RGB图像特征反卷积模块的常规卷积层得到大小为1216×352×2的输出，输出的深度补全中间结果包含大小为1216×352×1的深度补全中间结果和对应的大小为1216×352×1的置信权重；

深度增强模块用于增强RGB图像反卷积模块得到深度补全中间结果，深度增强模块的输入是深度补全中间结果和训练样本的稀疏深度数据按通道方向拼接得到的所述联合数据，所述联合数据大小为1216×352×2，所述联合数据依次经过深度增强模块的1个常规卷积层与10个残差卷积模块得到大小为38×11×1024的特征图f，特征图f与RGB图像数据特征提取模块产生的第六特征图和稀疏深度数据特征提取模块产生的特征图F的相加结果再次相加，得到的结果作为深度增强模块的第一反卷积模块的输入；

深度增强模块的第5至第1个反卷积模块产生的特征图分别与深度增强模块的第1个常规卷积层及第2、4、6、8个残差卷积模块产生的特征图a、特征图b、特征图c、特征图d、特征图e按通道方向做拼接，使特征层次更加丰富；深度增强模块得到大小为1216×352×2的输出，输出包含大小为1216×352×1的深度补全增强结果和对应的大小为1216×352×1的置信权重；

融合模块将深度补全中间结果和深度补全增强结果分别与各自的置信权重相加并对两个相加的结果再求和，得到深度补全模型输出的最终的深度预测结果；

深度补全模型的训练中，损失由三部分组成，分别为最终的深度预测结果与步骤一获得的训练样本的真实深度标签的均方误差、深度补全中间结果与训练样本的真实深度标签的均方误差的0.2倍以及深度补全增强结果与训练样本的真实深度标签的均方误差的0.2倍，三部分相加作为最终的损失；

步骤三、对自编码模型进行训练；

自编码模型的结构与所述深度补全模型的结构相同，自编码模型的输入为步骤一获得的训练样本的RGB图像数据和真实深度标签，以分别替代作为所述深度补全模型的输入的RGB图像数据和稀疏深度数据；

自编码模型输出为自编码结果，并与步骤一获得的训练样本的真实深度标签计算损失；自编码模型的训练参数设定及训练过程与深度补全模型也相同；

步骤四、对判别器模型进行训练；

判别器模型的主体架构为VGG-16，输入为步骤二深度补全模型中深度增强模块的第五反卷积模块输出的特征图和步骤三中自编码模型的深度增强模块的第五反卷积模块输出的特征图，输入的大小为B×1216×352×32，输出大小为B×1，其中B为一次训练输入批量训练样本的大小；

判别器模型输出的相应得分作为额外监督信息；

判别器模型的损失函数包括两部分：深度补全网络中深度增强模块的第五反卷积模块输出的特征图经过判别器输出的得分，以及自编码模型的深度增强模块的第五反卷积模块输出的特征图经过判别器输出得分的负值；

步骤五、加入额外监督信息联合进行训练；

在最终的训练阶段，损失函数的构成有两个部分，包括步骤二中最终的深度预测结果的损失以及步骤四中由判别器产生的额外监督信息；其中最终的深度预测结果的损失为即步骤一中的训练样本的RGB图像数据和稀疏深度数据输入到步骤二中深度补全网络后得到的最终的深度预测结果，与步骤一中获得的对应训练样本的真实深度标签的均方差损失；

步骤六、用训练好的深度补全模型补全稀疏深度图像；

将要补全深度信息的RGB图像数据和稀疏深度数据输入到步骤二所训练好的深度补全模型，深度补全模型的融合模块输出最终的深度预测结果。

2.根据权利要求1所述的方法，其中

在RGB图像数据特征提取模块中，第1个常规卷积层卷积核尺寸为5×5×3，第1至10个残差卷积模块各包括2个可变形卷积，稀疏深度特征提取模块的每个模块内卷积核大小相同分别为3×3×32，3×3×64，3×3×64，3×3×128，3×3×128，3×3×256，3×3×256，3×3×512，3×3×512，3×3×1024；

可变形卷积根据当前需要识别的特征图内容动态调整对特征图的采样位置的偏置；可变形卷积包含第一卷积层与第二卷积层，偏置是通过第一卷积层获得，第一卷积层的卷积核与普通卷积核一样，输出的偏置尺寸和输入的特征图尺寸一致，通道的维度是2N，其中N为输入的特征图的通道维度，对应着偏置方向的两个分量；第二卷积层用于学习输入的特征图进行偏置后的结果；

在稀疏深度特征提取模块中，第1个常规卷积层卷积核尺寸为5×5×1，第1至10个残差卷积模块的卷积层是常规卷积层，稀疏深度特征提取模块的每个残差卷积模块内卷积核大小相同分别为3×3×32，3×3×64，3×3×64，3×3×128，3×3×128，3×3×256，3×3×256，3×3×512，3×3×512，3×3×1024；

在深度增强模块中，第1个常规卷积层卷积核尺寸为5×5×2，其余的残差卷积模块的卷积核尺寸与与稀疏深度特征提取模块的各残差卷积模块的卷积核尺寸对应相同；

RGB图像反卷积模块包含5个反卷积模块，其卷积核大小分别为5×5×1024、5×5×512、5×5×256、5×5×128、5×5×64、5×5×32；

判别器模型依次包括2个常规卷积模块、最大池化层、2个常规卷积模块、最大池化层、3个常规卷积模块、最大池化层、三个常规卷积模块、最大池化层、三个常规卷积模块、最大池化层、3个全连接层。

3.根据权利要求2所述的方法，其中

深度补全模模型的训练中，损失由三部分组成，

将最终的深度预测结果与步骤一获得的训练样本的真实深度标签的均方误差称为联合损失；

将深度补全中间结果与训练样本的真实深度标签的均方误差称为深度补全中间结果损失；

将深度补全增强结果与训练样本的真实深度标签的均方误差称为深度补全增强结果损失；

深度补全模型的损失函数由深度补全中间结果损失、深度补全增强结果损失、联合损失3部分构成，分别设置初始权重为1、0.2、0.2；

深度补全模型的各损失函数均是预测深度与实际深度标签的均方根误差损失，表示预测深度与实际深度标签中有效深度值的差距，可表示为:

其中P_v表示在训练样本的真实深度标签中具有有效深度值的像素，

表示训练样本的真实深度标签，D_p表示深度补全模型的预测结果；在深度补全模型训练过程中，实际使用的损失为：

L＝L(D)+λ₁L(D_c)+λ₂L(D_r)

其中L(D)表示联合损失，L(D_c)表示深度补全中间结果损失，L(D_r)表示深度补全增强结果损失；λ₁和λ₂均为超参数，在训练的初始阶段设置λ₁＝λ₂＝0.2，在训练三个轮次之后设置λ₁＝λ₂＝0；

判别器模型中采用Wasserstein distance评估数据分布之间的差异，判别器损失定义如下：

其中，x_g和x_r分别为深度补全网络中深度增强模块的第五反卷积模块输出的特征图的像素值与自编码模型的深度增强模块的第五反卷积模块输出的特征图的像素值，N为一个批次输入数据的数量，其中N＝B，f代表判别器模型；判别器训练完成后，将判别器的输出作为额外监督损失，额外监督损失定义如下：

在引入额外监督信息后，补全模型的完整损失函数表示为：

L＝L(D)+λ₁L(D_c)+λ₂L(D_r)+ηL_ex

其中η为额外监督信息的超参数，初始为η＝0.5，在在训练三个轮次之后η＝0.1。

4.根据权利要求3所述的方法，其中

所述步骤二还包括，

使用Adam优化算法进行梯度更新，学习率0.001情况下训练10轮，之后更改学习率为0.0005训练5轮，更改学习率为0.0001训练10轮，最后更改学习率为0.00001训练5轮。

5.根据权利要求4所述的方法，其中

所述步骤四还包括，

使用Adam优化算法进行梯度更新，学习率设置为0.0001训练20次。

6.根据权利要求5所述的方法，其中

所述步骤五，还包括

使用Adam优化算法在学习率为0.000001的情况下训练40次。