CN113077505B

CN113077505B - 一种基于对比学习的单目深度估计网络的优化方法

Info

Publication number: CN113077505B
Application number: CN202110417560.7A
Authority: CN
Inventors: 张敏; 李建华; 卢湖川
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2023-11-17
Anticipated expiration: 2041-04-19
Also published as: CN113077505A

Abstract

本发明提供了一种基于对比学习的单目深度估计网络的优化方法，包括以下步骤：数据集组织；采用无监督的深度估计网络预测得到初始深度图；对初始深度图进行数据预处理；使用时序参考网络对初始深度图进行优化；计算损失函数，根据对比学习的思想设计一致性损失函数，优化整个网络。在网络训练方面，本发明通过参考对比学习的训练思想，设计了一致性损失函数，通过对不同信源的输出进行一致性约束，增加了网络的特征表达，提升了深度估计的准确性。

Description

一种基于对比学习的单目深度估计网络的优化方法

技术领域

本发明涉及基于卷积神经网络的计算机视觉领域，特别是涉及一种基于对比学习的单目深度估计网络的优化方法。

背景技术

近几年，随着深度学习相关理论趋于成熟以及移动拍照设备的普及，计算机视觉领域的相关应用得到了突飞猛进的进展。与此同时，人们对视觉领域的需求也越来越高。人们开始不满足于捕捉二维图像中的场景，而是希望能够对图像所表达的立体场景有更加生动的理解。深度估计任务就是立体视觉领域一个十分重要的基础任务，他旨在恢复二维图像成像过程中损失的距离信息。不仅如此，距离信息的准确程度会直接影响他的下游任务，例如深度图是诸多三维任务中必不可少的输入信源之一，如机器人、自动驾驶、三维重建等等。

基于卷积神经网络的深度估计方法，在近几年得到了令人瞩目的进展。由于二维图像缺少绝对的尺度信息，所以传统方法使用多视角图像作为输入，经过匹配点算法得到深度信息。基于卷积神经网络的方法，对数据分布进行拟合，可直接对单帧图像预测深度。这种方法还避免了传统方法在低纹理区域难以匹配的问题。由于基于深度学习的单目深度估计本身就是一个尺度未定的问题，这个任务的关键在于如何设计合理的算法得到有效的特征，得到准确的预测结果。目前的方法都是通过对单帧图像进行特征提取，在训练阶段以深度图真值作为监督训练网络，在测试阶段直接对给定的输入图像给出深度图的预测。虽然单帧图像也有很多可以帮助网络判断得到深度值的信息，但是仍然不能准确恢复出绝对的尺度，而且单帧图像所能提供的特征十分有限。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于对比学习的单目深度估计网络的优化方法，使用无机监督的方法降低数据成本，基于对比学习的网络训练方法，提升特征的表达能力，具有较高的预测准确性。

为了达到上述目的，本发明所采用的具体技术方案如下：

一种基于对比学习的单目深度估计网络的优化方法，具体包括以下步骤：

S1，数据集组织，按照训练和测试集划分方法，从场景类别中选取部分原始数据进行训练，设置原始数据的参数，组织输入数据；

S2，采用无监督的深度估计网络预测得到初始深度图，利用连续视频图像之间的重投影关系作为约束去联合训练深度估计和相机位姿两部分网络；

S3，对初始深度图进行数据预处理，对时序上相邻的深度图进行重采样，以保持相邻帧和目标帧在像素位置上保持对齐；

S4，使用时序参考网络对初始深度图进行优化，使用基于时序的深度估计模型，对重采样的初始深度图之间的深度值变化关系进行建模；

S5，计算损失函数，根据对比学习的思想设计一致性损失函数，优化整个网络。

优选的，步骤S1中设置原始数据的参数，组织输入数据具体指的是，将每三帧连续的图像作为一段时序数据，作为输入数据，记为{I_t，t∈{t-1，t，t+1}}，取t时刻作为目标时刻，t-1时刻和t+1时刻作为参考帧。

优选的，步骤S2具体包括以下步骤

无监督深度估计网络的输入是一张RGB图像I_t，输出对应的深度图D_t，表示为F_D：I_t→D_t；相机位姿估计模型为F_T：(I_t，I_t′)→T_t→t′；目标帧I_t与相邻帧I_t′RGB图像之间的重投影关系可以表示为：p_t′＝KT_t→t′D_t(p_t)K^-1p_t；其中，K表示相机内参，K^-1表示相机内参矩阵的逆矩阵，D_t(p_t)表示预测深度图D_t在p_t像素位置的深度值，p_t′表示重投影之后的像素位置，T_t→t′表示从目标帧到参考帧相机的位姿变换矩阵；

根据重投影得到的位置对应关系，使用视频序列对目标帧的RGB图像进行重构，这个过程表示为I′_t(p_t)＝I_t′<p_t′>；

通过最小化原始RGB图像I_t和重构的RGB图像I′_t之间的误差来联合优化单目深度估计和相机位姿网络，计算公式为其中，I_t表示原始RGB图像，I′_t表示经过重投影关系重构的RGB图像，SSIM为图间相似度，λ为权重因子。

优选的，λ为0.85。

优选的，步骤S3中对时序上相邻的深度图进行重采样，具体技术方法为D′_t′(p_t)＝D_t′<p_t′>，其中D′_t′表示经过重采样的初始深度图。

优选的，步骤S4具体包括以下步骤：

基于时序的深度估计模型以ResNet18作为特征提取骨干网络，配合跳转链接和四个连续的上采样保证输出深度图的大小和输入图像的分辨率保持一致；

基于时序的深度估计模型，以经过重采样的初始深度图{D′_t′，t′∈{t-1，t+1}}作为输入，输出两个表示权重的掩膜,{M_t，t∈{t-1，t+1}}，掩膜上每一个像素的数值表示匹配点在不同时刻的深度值在重构目标帧时的参与程度。

利用重投影关系将单目深度网络的预测映射到目标帧，保持匹配点在物理位置上的对齐；将两帧经过对齐的深度图输入基于时序的深度估计模型，得到两个对应的权重掩膜；将重采样的初始深度图与对应的权重掩膜进行逐像素的加权和，得到目标帧的深度预测结果。

优选的，步骤S5中一致性损失函数的计算公式为

本发明的有益效果在于：

本发明所提出的时序参考网络有效的利用了视频数据，在不增加显存占用的前提下提升了训练效率。在网络训练方面，本发明通过参考对比学习的训练思想，设计了一致性损失函数，通过对不同信源的输出进行一致性约束，增加了网络的特征表达，提升了深度估计的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于对比学习的单目深度估计网络的优化方法的流程图；

图2是本发明一种基于对比学习的单目深度估计网络在单帧数据上的实验结果图；

图3是本发明在视频数据上定性的测试结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明提出了一种基于对比学习的单目深度估计网络的优化方法，具体包括以下步骤：

重采样过程需要相机内参和视频数据，所以需要选取符合条件的数据集。将每三帧连续的图像作为一段时序数据，作为输入数据，记为{I_t，t∈{t-1，t，t+1}}，取t时刻作为目标时刻，t-1时刻和t+1时刻作为参考帧。

具体的，本发明选取了KITTI数据集作为实验数据集。该数据集由激光雷达传感器和车载摄像头拍摄的几个户外场景组成。为了对比公平，本发明采用与其他方法一致的训练和测试集划分方法，从“城市”、“行人”和“道路”类别中选取的部分原始数据进行训练，其中包括28个场景中的约22k幅图像，并对从28个场景中选取的697幅图像进行评估，并且测试数据所在的视频序列中的数据全都未出现在训练数据中。KITTI数据集的原始分辨率为375×1242，为了提升训练效率本发明将图像大小统一下采样为128*416。由于点云投影的目标深度图是稀疏的，本发明对其进行掩模处理，只在训练和测试阶段的有效点上评估损失。考虑到显存和重投影关系，本发明设置时间步长为3，选取中间帧作为目标帧，前一帧和后一帧作为参考帧。

无监督深度估计网络是一个具有可训练参数的卷积神经网络，输入是单帧的RGB图像，输出是对应的深度图。本发明使用无监督的方法对这部分卷积神经网络进行训练。无监督的深度估计方法核心思想都是利用连续视频图像之间的重投影关系作为约束去联合训练深度估计和相机位姿两部分网络。

通过最小化原始RGB图像I_t和重构的RGB图像I′_t之间的误差来联合优化单目深度估计和相机位姿网络，计算公式为其中，I_t表示原始RGB图像，I′_t表示经过重投影关系重构的RGB图像，SSIM为图间相似度，λ为权重因子。本发明中λ为0.85。

具体的，单目深度网络的输入是一张RGB图像I_t，输出对应的深度图D_t，其中t∈{t-1，t，t+1}。本发明采用了ResNet18作为特征提取部分的结构，后接四个连续的上采样，配合跳转连接保留一些低级的语义特征以帮助特征图恢复成与输入一致的分辨率。相机位姿网络T_t→t+1使用的是ResNet18后接两个全连接层，直接对6-DoF格式的相机位姿进行拟合。

在视频数据的采集过程中，由于相机自身在拍摄的过程中在运动，所拍摄的前景也会有自身的位移，所以就需要对相机拍摄的匹配点进行人为的对齐。上述提到的重采样过程，可以通过深度和相机位姿确定不同帧之间的匹配点的RGB像素的位置关系，同样的规律也适用于深度图。本发明对时序上相邻的深度图进行了重采样，保持了相邻帧和目标帧在像素位置上保持对齐。

由于视频数据的拍摄过程中相机位置和拍摄场景都会发生改变而卷积核的大小有限，本发明使用重采样对相邻帧的深度图进行对齐。如前所述，在已知深度和相机位姿时，重采样关系可以找到相邻帧间的匹配点的对应关系。对时序上相邻的深度图进行重采样，具体技术方法为D′_t′(p_t)＝D_t′<p_t′>，其中D′_t′表示经过重采样的初始深度图。

综上，这个时序参考网络的主要完成的功能有：第一，在测试阶段，该网络可以根据时序上的深度值的变化规律来对目标帧的深度图进行预测；第二，在训练阶段，这种通过利用时序信息生成的预测结果可以作为外额外的监督来辅助单目深度网络。

使用时序参考网络对初始深度图进行优化。这部分的网络结构与单目深度网络一致。时序参考网络的输入是两张经过重采样的单目深度网络预测结果{D′_t′，t′∈{t-1，t+1}}，他们在时序上分别为目标帧的前后帧。时序参考网络的输出是两个表示权重的掩膜{M_t′，t′∈{t-1，t+1}}，分别表示时序上相邻的深度值到目标帧的线性转换关系。掩膜上的数值表示了相邻帧匹配点的深度值在重构目标时刻深度图的参与程度，用于重建目标时刻的深度图将经过对齐的相邻帧深度图组合在一起送入时序参考网络，得到对应的掩膜。最后，对相邻帧的深度视频和对应的掩膜进行加权和，就得到了优化后的目标时刻的深度图，这一过程可以表示为：/>其中α和β为超参，可根据实际实验效果进行调整，本发明中都默认为1。

对比学习的本质为自监督学习，主要关注特征表示和偏好学习。该方法认为只要学好了样本的表示，网络根据这种具有足够表征能力的高级语义就可以得到不错的预测结果，本发明借鉴了对比学习的这种思想对整个网络进行训练。经过观察发现，用于对深度预测的信源有多种多样，单帧的图像可以根据物体在场景中的相对大小或者亮度等信息做出判断，双目图像可以通过匹配点的视差进行预测等等，这些丰富的信息为网络做出最终的预测提供了充足的深度信息。理论上来说这些特征在一定程度上是可以相互补充的，但是受限于输入数据的形式不同才难以统一在一个网络中。

本发明选用了两种形式的输入数据：单目深度估计网络提取单一图像中的特征，时序参考网络提取相邻帧的深度值之间的变化关系。这两种不同信源的输出经过相互监督，将来自不同信源的特征通过一致性监督整合在一起，提升网络的特征表达能力，测试阶段得到彼此独立的准确深度图预测结果。

单目深度估计网络和时序参考网络的输入不一样，他们的输出应该是一致的。为了保证这种一致性关系，本发明设计了一个时序一致性损失函数。他不仅在训练阶段保证该发明中两种方法生成的深度图保持一致，同时可以有效的改善深度估计网络在时序上的抖动问题，辅助网络的收敛得到更加准确得深度预测结果。由于单目深度估计网络和时序参考网络的输出差异十分微小同时考虑到深度值的尺度，所以并没有直接采用L1距离，而是采用了相对大小关系来表示他们之间的不同。一致性损失函数的计算公式为

本发明的反向传播主要取决于于三类损失函数。第一部分，图像光度损失函数。为避免受到数据真值的限制，本发明使用重投影关系作为约束联合优化单目深度估计网络和相机位姿估计网络。重投影关系利用深度图和相机位姿可以得到目标帧像素在参考帧中的位置，进而使用参考帧的像素重构目标帧。光度损失函数计算了重构的目标时刻的RGB图像和原始RGB图像之间的差异。

第二部分，平滑损失函数。为了得到视觉平滑的深度图，计算了基于RGB图像边缘先验的平滑度约束。保证在非边缘区域预测的深度值不发生跃变。计算方法为其中，/>表示分别计算图像在x、y方向上的梯度。第三部分，时序一致性损失函数。保持两份网络输出的一致性，本发明对两种方法生成的深度图做一致性约束，在保证了准确性的同时提升了特征的表达能力。

在测试阶段，当输入为单帧RGB图时，本发明可以使用训练好的单目无监督深度估计网络处理单帧RGB图像，输出预测结果。当输入数据为连续的视频图像时，使用单目深度估计网络逐帧的对视频数据预测得到深度图。然后对参考帧的深度图做重采样，将重采样之后的结果送入时序参考网络。该网络预测得到帧间匹配点深度值的线性变化关系，通过计算对重采样的深度图和他们之间的线性变换进行加权和，得到更加准确的目标时刻深度图。

最终的实验结果证明，本发明可以得到准确的深度图。本发明的单帧实验结果见附图2，第一列为输入的目标帧RGB图像，“方法一”、“方法二”、“方法三”、“方法四”分别表示Zhou、CC、Bian、本发明输出的深度图。方法一仅使用了无监督的深度估计模型，本发明中的时序参考网络按照逐像素的方式对细节信息的处理更多，能在边缘处获得更加准确的结果。对比方法二，本发明的特征表达程度更高，所以可以在很多低纹理的部分仍有很好的预测结果，如附图2中第五行图像中的广告牌。此外，本发明在非刚性区域有较好的表现，如附图2中第九行图像中的车，本发明在该区域得到了合理的预测结果，而方法三的预测结果在该区域发生了明显的缺失。此外，本发明充分的利用了时序的信息获得了帧间稳定的预测结果。附图3中第一列为输入的视频RGB图像，“方法一”、“方法二”、“方法三”、“方法四”分别表示Zhou、CC、Bian、本发明对视频数据的预测结果。可以发现，当输入数据为视频数据时，本发明的输出结果几乎没有出现帧间跃变现象，如附图3中的方法二在第三、四帧之间和第十、十一帧之间明显的尺度抖动，本发明在时序上保持了较高的一致性。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，本领域技术人员完全可以在不偏离本发明技术思想的范围内，进行多样的变更以及修改。本发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求书范围来确定其技术性范围。

Claims

1.一种基于对比学习的单目深度估计网络的优化方法，其特征在于，具体包括以下步骤：

无监督深度估计网络的输入是一张原始RGB图像I_t，输出对应的深度图D_t，表示为F_D：I_t→D_t；相机位姿估计模型为F_T：(I_t，I_t′)→T_t→t′；目标帧与相邻帧RGB图像之间的重投影关系可以表示为：p_t′＝KT_t→t′D_t(p_t)K^-1p_t；其中，K表示相机内参，K^-1表示相机内参矩阵的逆矩阵，D_t(p_t)表示预测深度图D_t在p_t像素位置的深度值，p_t′表示重投影之后的像素位置，T_t→t′表示从目标帧到参考帧相机的位姿变换矩阵；

通过最小化原始RGB图像I_t和重构的RGB图像I′_t之间的误差来联合优化单目深度估计和相机位姿网络，计算公式为其中，I_t表示原始RGB图像，I′_t表示经过重投影关系重构的RGB图像，SSIM为图间相似度，λ为权重因子；

基于时序的深度估计模型，以经过重采样的初始深度图{D′_t′，t′∈{t-1，t+1}}作为输入，输出两个表示权重的掩膜，{M_t，t∈{t-1，t+1}}，掩膜上每一个像素的数值表示匹配点在不同时刻的深度值在重构目标帧时的参与程度；

利用重投影关系将单目深度网络的预测映射到目标帧，保持匹配点在物理位置上的对齐；将两帧经过对齐的深度图输入基于时序的深度估计模型，得到两个对应的权重掩膜；将重采样的初始深度图与对应的权重掩膜进行逐像素的加权和，得到目标帧的深度预测结果；

S5，计算损失函数，采用对比学习构建一致性损失函数，优化整个网络。

2.根据权利要求1所述的一种基于对比学习的单目深度估计网络的优化方法，其特征在于，步骤S1中设置原始数据的参数，组织输入数据具体指的是，将每三帧连续的图像作为一段时序数据，作为输入数据，记为{I_t，t∈{t-1，t，t+1}}，取t时刻作为目标时刻，t-1时刻和t+1时刻作为参考帧。

3.根据权利要求1所述的一种基于对比学习的单目深度估计网络的优化方法，其特征在于，λ为0.85。

4.根据权利要求1所述的一种基于对比学习的单目深度估计网络的优化方法，其特征在于，步骤s3中对时序上相邻的深度图进行重采样，具体技术方法为D′_t′(p_t)＝D_t′<p_t′>，其中D′_t′表示经过重采样的初始深度图。

5.根据权利要求1所述的一种基于对比学习的单目深度估计网络的优化方法，其特征在于，步骤S5中一致性损失函数的计算公式为