CN114897955B

CN114897955B - 一种基于可微几何传播的深度补全方法

Info

Publication number: CN114897955B
Application number: CN202210437598.5A
Authority: CN
Inventors: 刘帅成; 陈才; 郑梓楠; 章程
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-04-18
Anticipated expiration: 2042-04-25
Also published as: CN114897955A

Abstract

本发明涉及计算机视觉和自动驾驶技术领域，公开了一种基于可微几何传播的深度补全方法，包括：步骤S1.采集稀疏深度图像数据并进行预处理，获取配对的彩色图像和稀疏深度图像；步骤S2.将配对的彩色图像和稀疏深度图像输入进初始估计模块进行训练，输出表面法线、置信度掩膜和深度不连续边缘；步骤S3.将稀疏深度图像、表面法线、置信度掩膜和深度不连续边缘输入进等深线追踪模块，生成并输出半稠密深度和置信度掩膜；步骤S4.将彩色图像和置信度掩膜输入进全局稠密优化模块，并将彩色图像和半稠密深度输入进编解码器进行学习，完成全局重建和全局稠密优化；步骤S5.输出稠密深度图像。

Description

一种基于可微几何传播的深度补全方法

技术领域

本发明涉及计算机视觉和自动驾驶技术领域，具体地说，是一种基于可微几何传播的深度补全方法，用于同时利用图像信息、几何表示和可微几何传播网络，对深度信息进行传播和优化，最终实现深度补全。

背景技术

深度信息在实际应用中意义重大，三维场景信息可以更好的赋能目标检测、语义分割、目标跟踪等传统视觉任务，并且在更高层面的一些应用发挥必不可少的作用，包括增强现实、自动驾驶、三维建模、机器人技术、场景理解、无人机等。在计算机视觉领域中，往往没有一些高精的物理测量仪器，因此，如何从二维图像中高效地得到准确的深度信息是值得深入研究的一项课题。

深度补全是获取高质量深度的一个重要任务途径。由于固有的信息缺乏和尺度模糊性，单从图像进行深度估计是非常困难的，最先进的模型在流行的大型室内数据集上仍然会有大于12%的平均误差，这种误差对于3D重建或跟踪等应用来说是不可行的。而对于Kinect这样较为廉价易用的深度传感器来说，采集的深度误差在室内大约为1%。所以相较投入更多科研精力到深度估计中去，利用廉价的深度传感器采集深度更有实际意义和可行性。然而这一类活动的传感器，还有譬如ToF相机、LiDAR、RGB-D和事件摄像机等，他们只能产生稀疏的输出。这种稀疏性通常是由于它们的主动感知造成的，这使得许多数据区域处于空白状态。因此，需要进一步处理来重建补全这些缺失区域，即用彩色（RGB）图像，配合主动深度传感器产生的配对的稀疏（Sparse）深度，从中估计重建出一个稠密（Dense）的深度图。不同传感器的稀疏度和数据模式不同，而当前热门的深度学习方法能够有足够的泛化性来处理不同的场景。

几何传播可以被广泛用于深度相关任务，例如等深线追踪（Iso-Depth Tracing，IDT），实现对深度信息在局部的准确传播扩散。几何传播的提出解决了深度学习在深度信息域与图像信息域的跨域问题，并进一步提供了几何意义的关系建模与一致性约束，是具有很强鲁棒性的传统方法。

可微网络层是近期深度学习领域热门的技巧性方法，实现将基于显示物理过程的传统方法用可微算子引入深度网络中，提供更强的先验知识，增强网络学习的表示能力，以及可解释性。几何传播在传统深度补全领域已有充分的发展，可微网络层在许多领域也很好的结合了传统方法与深度学习方法。然而，在高度依赖几何关系建模和一致性约束的深度补全任务中，仍缺少一种将几何传播和可微网络层相结合的方法。

因此，亟需一种基于可微几何传播的深度补全方法，能够实现可微几何传播网络，同时充分利用丰富的图像信息和几何表示，对深度信息进行传播和优化，最终实现深度补全。

发明内容

本发明的目的在于提供一种基于可微几何传播的深度补全方法，具有同时利用图像信息、几何表示和可微几何传播网络，对深度信息进行传播和优化，最终实现深度补全的效果。

本发明通过下述技术方案实现：一种基于可微几何传播的深度补全方法，包括以下步骤：

步骤S1.采集稀疏深度图像数据并进行预处理，获取配对的彩色图像和稀疏深度图像；

步骤S2.将所述配对的彩色图像和稀疏深度图像输入进初始估计模块进行训练，输出表面法线、置信度掩膜和深度不连续边缘；

步骤S3.将所述稀疏深度图像、所述表面法线、所述置信度掩膜和所述深度不连续边缘输入进等深线追踪模块，生成并输出半稠密深度和置信度掩膜；

步骤S4.将所述彩色图像和所述置信度掩膜输入进全局稠密优化模块，并将所述彩色图像和所述半稠密深度输入进编解码器进行学习，完成全局重建和全局稠密优化；

步骤S5.输出稠密深度图像。

为了更好地实现本发明，进一步地，步骤S1包括：

使用车载相机和激光雷达设备采集室外真实街道场景图片,每一帧场景图片都包括同场景下的稀疏深度图像和彩色图像；

根据激光雷达设备扫描出的三维点云和车载相机参数一起通过投影并用位姿关系转换生成验证测试集数据，利用立体视觉融合了当前场景图片的帧前后场景中的激光雷达稀疏深度信息，获取满足稠密度和图像分辨率的配对的彩色图像和稀疏深度图像。

为了更好地实现本发明，进一步地，步骤S2包括：

在输入的配对的彩色图像和稀疏深度图像中输出作为几何关系表示的表面法线、作为辅助引导的置信度掩膜和作为辅助约束的深度不连续边缘。

为了更好地实现本发明，进一步地，步骤S2还包括：

所述初始估计模块由两个基于卷积神经网络的编解码器组成。

为了更好地实现本发明，进一步地，步骤S3包括：

所述等深线追踪模块由一个无参数的可微网络层组成；

在等深线追踪模块中输入稀疏深度图像、所述表面法线、所述置信度掩膜和所述深度不连续边缘，利用可微的等深线追踪网络层，将深度信息进行几何传播，生成输出半稠密深度；

所述等深线追踪网络层利用表面法线将深度信息进行传播的同时，对生成的半稠密结果进行计算并监督损失，利用反向传播将梯度信息回传到所述初始估计模块。

为了更好地实现本发明，进一步地，步骤S4包括：

将所述彩色图像和所述半稠密深度输入进编解码器进行学习，将彩色图像为主的特征表达和几何表示的特征表达进行融合，完成全局重建；

将置信度掩膜一起输入进全局稠密优化模块，并通过一个空间传播网络进行处理，完成全局稠密优化。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明可以实现较准确的深度补全任务，同时本发明也可以实现高效的算法运行，其单次模型推理只需0.04s的时间成本；

（2）本发明能够实现可微几何传播网络，同时充分利用丰富的图像信息和几何表示，对深度信息进行传播和优化，最终实现深度补全。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明所提供的一种基于可微几何传播的深度补全方法中涉及的深度补全方法的工作流程图。

图2为本发明所提供的一种基于可微几何传播的深度补全方法中涉及的一种基于可微几何传播的多阶段优化网络框架结构示意图。

图3为本发明所提供的一种基于可微几何传播的深度补全方法中真实数据上的深度补全结果示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例的一种基于可微几何传播的深度补全方法，如图1所示，本发明提出了一个基于可微几何传播的多阶段优化网络，框架如图1所示。其主要从配对的彩色图像和稀疏深度图像输入中，基于等深线追踪这一运用显示几何关系的物理过程，并将其进一步可微实现，引入到一个多阶段的深层卷积神经网络中，通过几何中间表示和深度信息传播，最终估计出稠密的深度图像。该网络又被称为Iso-Depth Tracing Network（IDTNet）。

实施例2：

本实施例在实施例1的基础上做进一步优化，本发明所使用采集的KITTI数据集采用车载相机和激光雷达设备采集室外真实街道场景，最大深度约为90米。其中的每一帧都包含了同场景下的稀疏深度图像和彩色图像。它提供了86898对图像作为训练数据，以及1000对验证测试集数据，其中稀疏深度图仅含5%左右的有效深度值。每一对数据还包含了较为稠密的深度图像真值标签。它们是由激光雷达扫描的三维点云和相机参数一起通过投影并用位姿关系转换生成的，同时还利用立体视觉融合了当前场景的帧前后11个场景中的激光雷达稀疏深度信息，最终达到16%的稠密度。其图像分辨率为352×1216。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，本实施例首先使用初始估计模块，从输入稀疏深度图像和配对彩色图像中估计作为几何关系表示的表面法线（SurfaceNormal）、作为辅助引导的置信度掩膜（Confidence）、作为辅助约束的深度不连续边缘（Boundary）。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上做进一步优化，在本实施例中，初始估计模块由两个基于卷积神经网络的编解码器（Encoder-Decoder Network）组成，主要功能是提供深度不连续边缘、表面法线及其置信度掩膜这两部分的估计。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项基础上做进一步优化，在本实施例中，等深线追踪模块输入稀疏深度和表面法线，以及作为辅助的深度不连续边缘和置信度掩膜，利用可微的等深线追踪网络层，将深度信息进行几何传播，生成输出半稠密（Semi-Dense）深度。该网络在如传统追踪算法一样利用表面法线将深度信息进行有效的传播的同时，还可以将生成的半稠密结果计算监督损失，并利用反向传播将梯度信息回传到前面的初始估计模块，使得初始估计的表面法线变得更加准确，进而修正深度几何传播的信息，形成一个正反馈，并通过迭代学习达到收敛。同时，网络根据表面法线的估计预测了一个置信度掩膜，作用于深度追踪过程，通过置信度加权降低不确定区域的信息传播权重。而由于深度不连续边缘网络最容易学习，并且即使只给出不够精确的区域性信息，网络也可以将边缘信息进一步锐化，故为了使更好的控制网络收敛，将IDTNet的反向传播在深度不连续边缘输入处切断（Detach）。

等深线追踪模块主要功能是利用可微算子在网络中近似实现等深度追踪这一显示几何传播过程，估计出局部较准确的半稠密深度。同时，还实现特征信息前向推理和梯度信息反向传播，这样既可以指导前序几何表示基于初始估计的加深优化，又可以配合进一步端到端的进行全局稠密优化，使得最终稠密估计更加准确。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项基础上做进一步优化，在本实施例中，全局稠密优化阶段将将彩色图像信息再输入，和半稠密估计结果一起经过一个编解码器的学习，实现彩色图像为主的特征表达和几何表示的特征表达进行较好的融合，来进行最终全局重建。同时，本模块也将置信度掩膜一起输入利用到全局优化中，实现对网络的特征学习提供不确定性，使网络对置信度低的区域投入更深层的特征表达。最后，通过一个空间传播网络（Convolution Spatial Propagation Network，CSPN）处理，最终完成全局稠密优化。

全局稠密优化模块的主要功能是在半稠密深度基础上进一步估计出完整稠密深度，同时利用全局信息达到对局部有更细致优化的效果。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项基础上做进一步优化，如图2-图3所示，本发明的实现主要用到合成数据用于初识估计模块的预训练，例如Carla等，真实数据用于整体网络的训练，例如KITTI DC等。本发明提出的网络采用阶段式训练，保证本章提出网络中的多种表示能达到对齐的效果，且同样有利于不同表示空间参数更好的收敛优化。第一阶段也用到表面法线进行几何表示，在合成数据上预训练表面法线模型，并且还要用类似方法，在合成数据上预训练一个边缘检测编解码器模型，至此完成第一阶段训练。接着固定第一阶段的边缘检测编解码器模型参数，在真实数据上训练第二阶段迭代优化更新表面法线的编解码器参数，训练收敛后也固定其参数。最后，在真实数据上进行第三个全局优化阶段训练，更新全局优化的编解码器参数。一个阶段的损失函数为初始损失（Init Loss），由一个L2形式的边缘估计损失和一个cosine形式的法线估计损失组成。第二个阶段损失函数为半稠密损失（Semi-Dense Loss），由一个负对数形式的置信度损失和一个L2形式的半稠密深度重建损失组成。最后，全局阶段损失函数为最终稠密损失（Final Dense Loss），由一个L2形式的稠密深度重建损失组成。

如图3所示，本发明可以实现较准确的深度补全任务，同时本发明也可以实现高效的算法运行，其单次模型推理只需0.04s的时间成本。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于可微几何传播的深度补全方法，其特征在于，包括以下步骤：

步骤S3.将所述稀疏深度图像、所述表面法线、所述置信度掩膜和所述深度不连续边缘输入进等深线追踪模块，生成并输出半稠密深度；

步骤S3包括：所述等深线追踪模块由一个无参数的可微网络层组成；在等深线追踪模块中输入稀疏深度图像、所述表面法线、所述置信度掩膜和所述深度不连续边缘，利用可微的等深线追踪网络层，将深度信息进行几何传播，生成输出半稠密深度；所述等深线追踪网络层利用表面法线将深度信息进行传播的同时，对生成的半稠密结果进行计算并监督损失，利用反向传播将梯度信息回传到所述初始估计模块；所述等深线追踪网络层根据所述表面法线预测一个置信度掩膜用于深度追踪；

步骤S4.将所述彩色图像和步骤S2中的所述置信度掩膜输入进全局稠密优化模块，并将所述彩色图像和所述半稠密深度输入进编解码器进行学习，完成全局重建和全局稠密优化；

全局稠密优化模块包括编解码器和空间传播网络；

所述步骤S4包括：将所述彩色图像和所述半稠密深度输入进编解码器进行学习，将彩色图像为主的特征表达和几何表示的特征表达进行融合，完成全局重建；将置信度掩膜一起输入进全局稠密优化模块，并通过一个空间传播网络进行处理，完成全局稠密优化；

步骤S5.输出稠密深度图像。

2.根据权利要求1所述的一种基于可微几何传播的深度补全方法，其特征在于，所述步骤S1包括：使用车载相机和激光雷达设备采集室外真实街道场景图片,每一帧场景图片都包括同场景下的稀疏深度图像和彩色图像；根据激光雷达设备扫描出的三维点云和车载相机参数一起通过投影并用位姿关系转换生成验证测试集数据，利用立体视觉融合了当前场景图片的帧前后场景中的激光雷达稀疏深度信息，获取满足稠密度和图像分辨率的配对的彩色图像和稀疏深度图像。

3.根据权利要求1所述的一种基于可微几何传播的深度补全方法，其特征在于，所述步骤S2包括：在输入的配对的彩色图像和稀疏深度图像中输出作为几何关系表示的表面法线、作为辅助引导的置信度掩膜和作为辅助约束的深度不连续边缘。

4.根据权利要求1所述的一种基于可微几何传播的深度补全方法，其特征在于，所述步骤S2还包括：所述初始估计模块由两个基于卷积神经网络的编解码器组成。