CN113724155B

CN113724155B - 用于自监督单目深度估计的自提升学习方法、装置及设备

Info

Publication number: CN113724155B
Application number: CN202110894275.4A
Authority: CN
Inventors: 李冠彬; 黄日聪
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-09-05
Anticipated expiration: 2041-08-05
Also published as: CN113724155A

Abstract

本发明公开了用于自监督单目深度估计的自提升学习方法、装置及设备，本发明通过不断地迭代使得用于监督网络训练的伪标签中的噪声数据得到有效剔除，从而训练得到一个收敛的深度网络，进一步利用了深度网络对噪声数据的去噪能力，使得深度网络可以在其本身通过自监督方法产生的带有噪声的伪标签中进一步提升自我的性能，且与现有的自监督训练方法相结合构成用于自监督单目深度估计的自提升学习方法，从而能够进一步提升网络的输出性能。

Description

用于自监督单目深度估计的自提升学习方法、装置及设备

技术领域

本发明涉及场景的深度信息估算技术领域，尤其涉及用于自监督单目深度估计的自提升学习方法、装置及设备。

背景技术

场景的深度信息在当下许多应用中都有着非常重要的作用，如自动驾驶、机器人导航、虚拟现实等。相比于使用激光雷达等设备获取场景的深度信息，从RGB图像当中进行场景深度的估计，可以通过更低的成本获得稠密的深度信息。近年来，深度学习方法在许多计算机视觉任务中取得了很大的成功。基于自监督学习的单目深度估计方法在不需要大量有真实深度值标注的图片，仅使用单目视频的情况下，就可以训练出一个神经网络来进行深度估计。

目前，基于单目视频的自监督深度估计方法同时使用了两个网络(深度网络和位姿网络)来分别估计目标帧的深度以及视频序列中目标帧到相邻帧相机位姿的变化，利用两个网络的输出合成相邻帧到目标帧的重建图，以重建图和目标帧图像之间的光度差作为损失来监督两个网络的训练。

基于单目视频的自监督深度估计方法需要满足以下的假设：

1)相机是运动的，场景是静止的且没有运动物体存在；

2)在目标帧和相邻帧之间不存在遮挡的现象；

3)物体表面是朗伯的，以保证光度差有效。

然而现实场景是复杂的，这些假设并不能得到完全的满足。

由于现有的自监督单目深度估计方法，如Monodepth2等，在训练过程中使用重建图像和目标帧之间的光度差作为监督信号来联合训练两个网络，但就像前文中提到的，在这个过程中，需要满足一定的假设才能使得光度差有效，而这是不容易满足的。于是，就导致网络的输出带有噪声，并不是十分精确。

发明内容

为了克服上述现有技术的不足，本发明的发明目的在于，提出用于自监督单目深度估计的自提升学习方法、装置及设备，使得深度网络的输出精确度有所提高。

为了达到上述发明目的，本发明采用如下技术方案：

第一方面，本发明提供了用于自监督单目深度估计的自提升学习方法，包括：

S1：将训练数据集输入到已训练好的深度网络中，输出相应的第一深度结果，根据所述第一深度结果生成伪标签；

S2：使用当前的伪标签对目标深度网络进行监督训练，并将所述训练数据集输入到训练好的目标深度网络中，输出相应的第二深度结果；

S3：根据当前输出的第二深度结果作为新的伪标签，重复步骤S2，直至所述目标深度网络收敛。

根据本发明第一方面的一种能够实现的方式，所述根据所述第一深度结果生成伪标签，包括：

对所述第一深度结果进行后处理，将经过后处理的第一深度结果作为伪标签。

根据本申请第一方面的一种能够实现的方式，将所述训练数据集输入到训练好的目标深度网络之前，所述方法还包括：

对训练好的目标深度网络的网络参数进行微调。

根据本申请第一方面的一种能够实现的方式，所述已训练好的深度网络通过改进的自监督训练方法训练得到，所述改进的自监督训练方法的训练步骤包括：

选取目标帧与相邻帧获取的图像光度差的最小值建立第一损失函数，根据所述第一损失函数对深度网络进行训练，得到第一级深度网络；

建立用于使得图像相似区域的深度趋于一致的第二损失函数，根据所述第二损失函数对第一级深度网络进行训练，得到第二级深度网络；

建立用于使得深度网络能够对翻转图像输出一致深度结果的第三损失函数，根据所述第三损失函数对所述第二级深度网络进行训练，得到训练好的深度网络。

根据本发明第一方面的一种能够实现的方式，所述第三损失函数的计算公式为：

式中，D(I_t)表示目标帧图像输入到未训练的深度网络中得到的深度结果，表示水平翻转后的目标帧图像输入到未训练的深度网络中得到的深度结果，/>表示将进行水平翻转后的结果。

根据本发明第一方面的一种能够实现的方式，所述使用当前的伪标签对目标深度网络进行监督训练，包括：

引入一致性掩膜M_con；

采用Berhu损失算法计算监督损失，所述监督损失可表示为：

L_pse＝M_con⊙L_Berhu

式中，M_con表示一致性掩膜，表示深度网络的输出结果，d^p表示伪标签，x表示像素点的坐标位置，/>是分别对深度图像中的每个像素点进行计算，计算结果看成一个矩阵，/>是指选取这个矩阵所有元素中的最大值；

通过监督损失来训练新的深度网络。

根据本发明第一方面的一种能够实现的方式，所述深度网络和/或目标深度网络的结构为改进的HRNet结构，所述改进的HRNet结构是将HRNet结构中最高层的特征分支去除而构建出的新的深度网络结构。

第二方面，本申请提供了用于自监督单目深度估计的自提升学习装置，包括：

第一模块，用于将训练数据集输入到已训练好的深度网络中，输出相应的第一深度结果，并根据所述第一深度结果生成伪标签；

第二模块，用于使用当前的伪标签对目标深度网络进行监督训练，并将所述训练数据集输入到训练好的目标深度网络中，输出相应的第二深度结果；

循环模块，用于根据当前输出的第二深度结果作为新的伪标签，重复输入第二模块，直至所述目标深度网络收敛。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现执行上述任一项实施例的用于自监督单目深度估计的自提升学习方法。

与现有技术相比，本发明产生的有益技术效果如下：

本发明所述的用于自监督单目深度估计的自提升学习方法、装置及设备进一步利用了深度网络对噪声数据的去噪能力，使得深度网络可以在其本身通过自监督方法产生的带有噪声的伪标签中进一步提升自我的性能，提高输出精确度。

附图说明

图1为本发明所述用于自监督单目深度估计的自提升学习方法较优选实施例的流程图；

图2为本发明所述用于自监督单目深度估计的自提升学习装置较优选实施例的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，应当理解的是，本文中的编号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有者技术含义，不能理解为规定或者暗示所描述的对象的重要性。

图1所示为本发明提供的用于自监督单目深度估计的自提升学习方法的一个优选实施例的流程示意图。

如图1所示，所述方法包括：

S1：将训练数据集输入到已训练好的深度网络中，得到相应的第一深度结果，根据所述第一深度结果生成伪标签。

其中，训练数据集也就是单目相机拍摄的视频经过处理后得到的多幅RGB图像，用于作为深度网络的输入。

其中，已训练好的深度网络可以通过多种方式训练得到，比如，可以是自监督训练得到也可以是监督训练得到，还可以是半监督训练得到。

其中，深度结果在这里表示为相机到场景中各点的距离的倒数，比如，相机到场景中某一点的距离为3，那么该点的深度结果在这里就表示为

其中，伪标签顾名思义就是非真实标签，该标签不是训练数据集的真实标签，是通过使用无标签的训练数据集输入到训练好的深度网络中得到的输出，将输出作为训练数据集的标签，可以用于监督训练新的深度网路。

在一个实施例中，所述根据所述第一深度结果生成伪标签，包括：

其中，将训练数据集中的目标帧图像I_t输入到已训练好的深度网络中得到的第一深度结果为B(I_t)，将目标帧图像经过水平翻转后的图像输入到已训练好的深度网络中得到的第一深度结果/>将/>进行水平翻转后得到/>

所述后处理操作生成的伪标签可以看成是将所述和所述B(I_t)进行加权求和得到的，具体为：

将第一深度结果可视化为深度彩色效果图，则伪标签为经过后处理操作的深度彩色效果图，伪标签所对应的深度彩色效果图左边5％的数据取自于左边5％的数据，伪标签所对应的深度彩色效果图右边5％的数据取自于B(I_t)右边5％的数据，伪标签所对应的深度彩色效果图中间90％的数据取自于/>中间90％的数据和B(I_t)中间90％的数据的平均值。

在本实施例中，将经过后处理的第一深度结果作为伪标签，能够有效剔除伪标签中的噪声，使得伪标签更接近于训练数据集中的真实标签。

在一实施例中，所述已训练好的深度网络通过改进的自监督训练方法训练得到，所述改进的自监督训练方法的训练步骤包括：

将训练集中t时刻的目标帧图像I_t输入到未训练的深度网络中得到相应的深度结果D(I_t)，又因为深度结果在这里表示为相机到场景中各点的距离的倒数，所以用表示相机到目标帧的场景中各点的距离，所以有/>将目标帧图像I_t和相邻帧图像I_t′输入至未经训练的位姿网络中得到相机由目标帧到相邻帧的位姿变化T_t→t′，借助视图投影函数，可以得到目标帧的像素点的坐标p_t对应在相邻帧上的像素点的坐标p_t′为：

式中，K表示相机内参矩阵。

又因为计算的结果包含着各种误差，所以得到在相邻帧上的像素点坐标p_t′可能不是一个整数坐标，又因为只有整数坐标的位置才有像素值，所以在这里利用双线性差值算法，通过利用距离p_t′最近的四个坐标点的像素值差值出来一个像素值作为该p_t′点的像素m，将求取的像素m用于替换替换掉I_t上原位置p_t的像素值，最后I_t上的大部分像素点的像素值都被以上形式进行替换，最终形成了目标帧的重构图像I_t→t′，所以I_t→t′(p_t)＝I_t′(<p_t′>)。

使用SSIM和L1损失来构建目标帧与目标帧的重构图像之间的光度差，所述光度差可以用来衡量目标帧图像和重构图像之间的相似程度，计算方式如下：

式中，SSIM为恒量两图像之间相似度的相关指标，α＝0.85为两项指标之间的相对权重。

为了减少遮挡问题的影响，选取目标帧与t-1时刻以及t+1时刻对应的帧获得的重构图像的光度差的最小值建立第一损失函数。又因为在相机相对场景静止或者运动物体和相机保持相对静止时，目标帧图像和相邻帧图像在某些区域(光度差是逐像素点计算的)就基本是一样的，计算出来的光度差就会趋近于0，所以在建立第一损失函数时添加了自动掩膜，如果目标图像和相邻图像在某一区域的光度差不大于目标图像和重建图像之间的光度差，就说明这一区域不满足相机是相对场景运动的，所以就不计算该区域的光度差损失，直接令其为0，否则为1。

综上，所述第一损失函数的计算方式如下：

式中，⊙表示对应位置的元素相乘，[*]表示满足*条件时返回1，否则返回0，*条件表示M_auto表示自动掩膜，I_t表示t时刻的目标帧图像，I_t′→t表示目标帧的重构图像，I_t′表示目标帧的相邻帧图像，L_ph(I_t,I_t′→t)表示目标帧与目标帧的重构图像的光度差，L_ph(I_t,I_t′)表示目标帧与相邻帧图像的光度差。

其中，所述第二损失函数，通过以下公式得到：

式中，表示在水平方向求导，/>表示在竖直方向上求导，/>表示平均归一化的逆深度，/>

在一实施例中，所述第三损失函数的计算公式为：

式中，D(I_t)表示将训练集中t时刻的目标帧图像I_t输入到未训练的深度网络中得到的相应深度结果，表示水平翻转后的目标帧图像输入到未训练的深度网络中得到的相应深度结果，/>表示将/>进行水平翻转后的结果。

在本实施例中，使用L1损失来计算一致性损失，在自监督训练方法中的损失函数的基础上，该一致性损失函数能够有效增强深度网络能力使得深度网络能够对水平翻转的图像也能输出一致的深度结果。

S2：使用当前的伪标签对目标深度网络进行监督训练，并将所述训练数据集输入到训练好的目标深度网络中，输出相应的第二深度结果。

其中，在使用当前的伪标签对目标深度网络进行监督训练之前的目标深度网络是未经训练的深度网络。

在一实施例中，将所述训练数据集输入到训练好的目标深度网络之前，所述方法还包括：

对训练好的目标深度网络的网络参数进行微调。

其中，微调可以看成是对训练好的第二深度网络中的网络参数进行小幅度的调整，调整范围可以在±0.01％之内，将已训练好的第二深度网络进行网络参数的微调能够进一步提高网络的输出精确度。

在一实施例中，所述使用当前的伪标签对目标深度网络进行监督训练，包括：

引入一致性掩膜M_con；

采用Berhu损失算法计算监督损失，所述监督损失可表示为：

L_pse＝M_con⊙L_Berhu

通过监督损失来训练新的深度网络。

其中，所述一致性掩膜M_con跟某一位置的一致性损失值有关，所述某一位置的一致性损失值可以通过所述第三损失函数计算得到，通过大律法确定一个阈值，当某一位置的一致性损失值大于通过大律法确定的阈值时，说明网络对该位置的不确定度比较大，该位置很有可能是噪声点，为了使得监督训练的网络更加精确，在计算监督损失时，不计算该位置的损失值，通过引入的一致性掩膜令该位置的监督损失值为0，否则为1，以此来进一步减少噪声的干扰。

在本实施例中，构建监督损失的时候引入一致性掩膜，筛选出可能极大可能是噪声点的位置，通过不计算该位置的监督损失值来进一步减少噪声点的干扰。

每循环一次得到的训练好的目标深度网络的精确度相较于前一次训练好的目标深度网络来说精确度应该是有所提升的，当某一次循环之后得到的训练好的目标深度网络相较于前一次训练好的目标深度网络的精确度不再提升时，说明训练得到的目标深度网络达到了收敛的状态。

在本实施例中，进一步利用了深度网络对噪声数据的去噪能力，使得深度网络可以在其本身通过自监督方法产生的带有噪声的伪标签中进一步提升自我的性能，提高深度网络的输出精确度。

在一个实施例中，所述深度网络和/或目标深度网络的结构为改进的HRNet结构，所述改进的HRNet结构是将HRNet结构中最高层的特征分支去除而构建出的新的深度网络结构。

下表为改进的HRNet结构的设计。

表1

表1中k表示卷积核的大小，s表示卷积步长。括号内的xn表示操作循环执行n次，B、R、S分别表示批标准化操作、ReLU和Sigmoid函数。↑表示双线性插值操作，用来增大分辨率，↓表示一个或多个卷积步长为2的3×3卷积，用来降低分辨率。C和C′表示通道数量，H和W表示高度和宽度。

结合上表，通过如下步骤来介绍所述改进的HRNet结构：

首先，使用2个卷积步长为2的3×3卷积来从输入的图像中得到一个分辨率为输入图像分辨率的的特征，随后这个特征的分辨率在网络的上层分支主体结构中维持不变；随后的网络由3个阶段组成，分别包含1，1，7个模块；第一个阶段包含4个残差单元，每一个单元包含一个瓶颈层，会将输入特征的通道数量先变为64然后在输出时增大到256；在第二和第三阶段的每一个模块中，每一分支包含4个残差单元，每一个单元包含2个3×3卷积，每一个卷积之后是批标准化操作和非线性激活ReLU；

之后不同分支的特征之间会进行融合，以3个分支为例，有3个不同分辨率大小的特征，分别用A、B、C表示，其中A的分辨率最大，B第二大，C最小，对A进行特征融合时，先通过一个1×1的卷积来调整B和C的通道数量使得和A的通道数量一致，然后再使用双线性插值调整分辨率与A的分辨率一致，得到特征BA和CA，然后将A与BA、CA采取逐像素相加的方式，就得到融合后的特征A′；对B进行特征融合时，先对A使用一个卷积步长为2的3×3卷积同时调整通道数量和分辨率，得到AB，然后对C进行1×1卷积和双线性插值调整通道数量和分辨率得到CB，将B与AB、CB逐像素相加得到融合后的特征B′；对C进行特征融合时，对A使用2个卷积步长为2的3×3卷积来逐步减半分辨率并调整通道数量，得到AC，对B使用一个卷积步长为2的3×3卷积同时调整通道数量和分辨率，得到BC，将C与AC、BC逐像素相加得到融合后的特征C′；其余融合过程都是类似的；

在阶段转换时，网络当中会增加一个新的分支，新分支的特征通过对上一层分支的特征进行一个卷积步长为2的3×3卷积得到。在第二阶段到第三阶段的转换中，前两个特征不做处理，直接保留前一阶段输出的特征；

最后通过sigmoid函数输出一个范围在[0,1]之间的比例因子s的张量，最终输出的深度结果为D(I_t)＝0.01+(10-0.01)*s。

在本实施例中，提出改进的HRNet结构在保持了高分辨率特征的同时，具备更少的计算量和更好的训练效率。

图2为本发明一实施例中用于自监督单目深度估计的自提升学习装置的结构框图，所述装置能够实现上述任一实施例所述的用于自监督单目深度估计的自提升学习方法的全部流程。

参照图2，一种用于自监督单目深度估计的自提升学习装置包括：

第一模块201，用于将训练数据集输入到已训练好的深度网络中，输出相应的第一深度结果，并根据所述第一深度结果生成伪标签；

第二模块202，用于使用当前的伪标签对目标深度网络进行监督训练，并将所述训练数据集输入到训练好的目标深度网络中，输出相应的第二深度结果；

循环模块203，用于根据当前输出的第二深度结果作为新的伪标签，重复输入第二模块，直至所述目标深度网络收敛。

在一个实施例中，所述第一模块201还用于对所述第一深度结果进行后处理，将经过后处理的第一深度结果作为伪标签。

在一个实施例中，所述第二模块202还用于对训练好的目标深度网络的网络参数进行微调。

在一个实施例中，所述第一模块201还包括：

第一损失函数单元，用于选取目标帧与相邻帧获取的图像光度差的最小值建立第一损失函数，根据所述第一损失函数对深度网络进行训练，得到第一级深度网络；

第二损失函数单元，用于建立使得图像相似区域的深度趋于一致的第二损失函数，根据所述第二损失函数对第一级深度网络进行训练，得到第二级深度网络；

第三损失函数单元，用于建立使得深度网络能够对翻转图像输出一致深度结果的第三损失函数，根据所述第三损失函数对所述第二级深度网络进行训练，输出训练好的深度网络。

在一个实施例中，所述第二模块202还包括：

一致性掩膜单元，用于引入一致性掩膜M_con；

监督损失计算单元，用于采用Berhu损失算法计算监督损失；

训练单元，用于通过监督损失来训练新的深度网络。

在一个实施例中，提供了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述用于自监督单目深度估计的自提升学习方法。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种用于自监督单目深度估计的自提升学习方法，其特征在于，包括：

S1：将训练数据集输入到已训练好的深度网络中，输出相应的第一深度结果，根据所述第一深度结果生成伪标签；其中，训练数据集是单目相机拍摄的视频经过处理后得到的多幅RGB图像；

S3：根据当前输出的第二深度结果作为新的伪标签，重复步骤S2，直至所述目标深度网络收敛；

所述已训练好的深度网络通过改进的自监督训练方法训练得到，所述改进的自监督训练方法的训练步骤包括：

建立用于使得深度网络能够对翻转图像输出一致深度结果的第三损失函数，根据所述第三损失函数对所述第二级深度网络进行训练，得到训练好的深度网络；

所述使用当前的伪标签对目标深度网络进行监督训练，包括：

引入一致性掩膜；

采用Berhu损失算法计算监督损失，所述监督损失可表示为：

式中，表示一致性掩膜，/>表示深度网络的输出结果，/>表示伪标签，x表示像素点的坐标位置，/>是分别对深度图像中的每个像素点进行计算，计算结果看成一个矩阵，/>是指选取这个矩阵所有元素中的最大值；

通过监督损失来训练新的深度网络。

2.根据权利要求1所述的用于自监督单目深度估计的自提升学习方法，其特征在于，所述根据所述第一深度结果生成伪标签，包括：

3.根据权利要求1所述的用于自监督单目深度估计的自提升学习方法，其特征在于，将所述训练数据集输入到训练好的目标深度网络之前，所述方法还包括：

对训练好的目标深度网络的网络参数进行微调。

4.根据权利要求1所述的用于自监督单目深度估计的自提升学习方法，其特征在于，所述第三损失函数的计算公式为：

式中，表示目标帧图像输入到未训练的深度网络中得到的深度结果，/>表示水平翻转后的目标帧图像输入到未训练的深度网络中得到的深度结果，/>表示将进行水平翻转后的结果。

5.根据权利要求1所述的用于自监督单目深度估计的自提升学习方法，其特征在于，所述深度网络和/或目标深度网络的结构为改进的HRNet结构，所述改进的HRNet结构是将HRNet结构中最高层的特征分支去除而构建出的新的深度网络结构。

6.一种用于自监督单目深度估计的自提升学习装置，其特征在于，包括：

第一模块，用于将训练数据集输入到已训练好的深度网络中，输出相应的第一深度结果，并根据所述第一深度结果生成伪标签；其中，训练数据集是单目相机拍摄的视频经过处理后得到的多幅RGB图像；

循环模块，用于根据当前输出的第二深度结果作为新的伪标签，重复输入第二模块，直至所述目标深度网络收敛；

所述第一模块还包括：

第三损失函数单元，用于建立使得深度网络能够对翻转图像输出一致深度结果的第三损失函数，根据所述第三损失函数对所述第二级深度网络进行训练，输出训练好的深度网络；

在一个实施例中，所述第二模块还包括：

一致性掩膜单元，用于引入一致性掩膜；

监督损失计算单元，用于采用Berhu损失算法计算监督损失；所述监督损失可表示为：

训练单元，用于通过监督损失来训练新的深度网络。

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的用于自监督单目深度估计的自提升学习方法。