CN116468769A

CN116468769A - 一种基于图像的深度信息估计方法

Info

Publication number: CN116468769A
Application number: CN202310217308.0A
Authority: CN
Inventors: 宛传兵; 金福生; 徐源; 袁野; 王国仁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-07-21

Abstract

本发明提供了一种基于图像的深度信息估计方法，包括：将同一场景的无标注图像序列输入至深度神经网络，提取图像特征；依次利用通道注意力机制和空间注意力机制对图像特征进行自适应特征优化；利用双线性差值进行上采样恢复图像分辨率；对恢复后的特征图像作为目标图像进行深度信息预测，根据预测的深度信息和相邻帧重建目标图像；计算目标图像与重建图像在多尺度下的光度误差和平滑误差，获得损失函数；进行无监督模型训练，根据损失函数更新模型参数，得到训练后的模型；利用训练后的模型对输入的场景图像进行深度信息预测。本发明可以充分利用输入图像的局部相关性和远程关系依赖提升低纹理区域的预测效果。

Description

一种基于图像的深度信息估计方法

技术领域

本发明属于智能深度估计技术领域，涉及一种根据图像预测对应深度信息的方法。

背景技术

普通的摄像机在拍摄图片时，只能记录下场景的颜色信息，在三维空间投射到二维图片时丢失了场景到摄像机的距离即深度信息。场景的深度信息获取是计算机视觉的重要分支，也是三维重建、自动驾驶和机器人定位等应用中的重要环节。更具体地说，对于给定的RGB图像中的每个像素，我们需要估计一个度量的深度值。传统的深度信息获取方法是通过硬件设备进行。最为常见的设备是激光雷达，激光雷达通过测量激光在物体表面反射时间来预估深度信息，但是激光雷达设备价格较为昂贵，并且需要较高的人力成本去获取去高精度稠密的深度信息。难以在生活场景中进行大量的应用。另一种常见的硬件设备是深度相机，深度相机基于TOF(time offlight)技术获得场景的深度信息，通过给目标连续发送光脉冲，然后用传感器接收从物体返回的光，通过探测这些发射和接收光脉冲的飞行(往返)时间来得到目标物距离。传感器通过计算光线发射和反射时间差或相位差，来换算被拍摄景物的距离，以产生深度信息，此外再结合传统的相机拍摄，就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来，但是由于其测距传感器量程较短，且对场景环境要求较高，限制了其在室外环境的使用范围。

相较于传统硬件度量方法，基于图像的深度估计方法只需要拍摄图像，对硬件的要求不高，因此在实际场景中有着更高的应用价值。基于图像的深度估计方法可以分为单目深度估计和多目深度估计，多目深度估计通常需要两个摄像头拍摄的同一个场景的两张图像，通过一致的相机参数-基线和焦距，基于立体视觉技术对两幅图像进行匹配从而获取深度信息，但是当场景中的纹理较少或没有时，很难在图像中捕捉到足够的特征来进行匹配，所以局限性较大。而单目深度估计只使用一个摄像机来获得图像或视频序列，这不需要额外的复杂设备和专业技术。在大多数情况下只需一台摄像机就能实现深度估计，因此具由广泛的应用价值和重要研究意义。

因此，如何提供一种基于单目拍摄图像的深度信息估计方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提出了一种基于图像的深度信息估计方法，解决现有技术中的技术问题。

为了实现上述目的，本发明采用如下技术方案：

本发明公开了一种基于图像的深度信息估计方法，包括构建模型步骤和预测深度信息步骤：

所述构建模型步骤包括：

S1：将同一场景的无标注图像序列输入至深度神经网络，提取图像特征，包括局部特征和全局特征。

S2：依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化。

S3：将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率。

S4：对S3恢复后的特征图像作为目标图像进行深度信息预测，计算当前特征图像的相对位姿变化；利用所述深度信息和所述相对位姿变化重建目标图像，即重建图像。

S5：计算目标图像与重建图像在多尺度下的光度误差和平滑误差，进一步获得损失函数；

S6：重复S2-S6进行无监督模型训练，根据损失函数更新模型参数，得到训练后的模型；

所述预测深度信息步骤包括：

S7：利用训练后的模型对输入的场景图像进行深度信息预测。

优选的，所述S1包括：

S11：将同一场景的无标注图像序列输入到深度网络，将图像划分成相同大小的patch；

S12：利用CNN提取局部特征，利用Transformer提取全局特征；

S13：将所述局部特征和所述全局特征通过级联拼接在一起，再通过卷积进行输出。

优选的，所述S2包括：

S21：对所述图像特征利用通道注意力机制计算不同通道之间的依赖关系并得到对应的注意力权值，输出通道注意力图；

S22：利用空间注意力机制增强对将所述通道注意力图关键区域的关注度并提取关键信息，得到优化后的图像特征。

优选的，所述S2具体执行步骤包括：

将所述图像特征通过最大池化层和平均池化层进行空间压缩得到两个张量一；

将所述张量一分别送入多层感知机输出中间特征；

将所述中间特征进行相加并通过sigmoid得到通道注意力图；

将所述通道注意力图依次经过最大池化层和平均池化层得到一个张量二；

将所述张量二通过卷积层和sigmoid计算空间注意力，得到优化后的图像特征。

优选的，所述S3包括：

将所述优化后的图像特征在x方向和y方向依次进行线性插值，通过上采样进行尺度恢复。

优选的，所述S4包括：

S41：深度网络接受目标视图I_t作为输入，并预测出对应n个尺度的深度图d，n≥4；

S42：姿态网络将目标视图I_t和相邻帧源视图I_t-1,I_t+1作为输入，并输出相对位姿变化T_t→t't'∈{t-1,t+1}；

S43：基于拍摄场景是静止的并且视图的变化只由移动相机引起的假设，则可以利用相邻帧源视图、深度图与位姿变化重建目标图像。

优选的，所述S41的具体执行步骤包括：

利用深度网络对预测深度图，深度网络包括编码器和解码器；

编码器用于对输入图像进行特征提取，包括多个编码器块，每经历一个编码器块，图像的大小降为输入的一半；

解码器用于对提取的特征进行尺度恢复并输出不同尺寸的深度图，构建多尺度特征；解码器块使用上采样恢复尺寸，每个解码器块的输出为输入的两倍，解码器的输入包括两部分，第一部分来自于上一阶段的解码器的输出，第二部分来对应编码器块的输出。

优选的，所述S43的具体执行步骤包括：

I_t'→t＝I_t'[proj(reproj(I_t,d,T_t→t'),K)]

T_t→t'＝Θ_pose(I_t,I_t'),t∈{t-1,t+1}

其中，I_t'→t为重建图像，K是已知的相机内在参数，[]是采样算子，reproj返回相机t'的3D点云，proj输出将点云投影到I_t'的2D坐标，T_t→t'为相对位姿变化，Θ_pose为姿势网络。

优选的，所述S5包括：

使用结构相似度SSIM来计算重建图像和目标图像之间的相似度；

将所述的相似度叠加L1范数得到光度误差l_p(I_t,I_t'→t)；

通过图像梯度对深度信息进行加权得到平滑误差l_smooth(d)；

在n个尺度分别重复操作获得光度误差和平滑误差并计算其加权和，获得损失函数，n≥4：

其中，u为掩码，为最小光度损失，β是光度损失和平滑损失l_smooth之间的加权系数；

u＝[min(l_p(I_t,I_t'→t))<min(l_p(I_t,I_t'))]t'∈{t-1,t+1}

优选的，通过自动掩码方法忽略掉图像序列中相邻帧不发生改变的像素，将掩码设置为二进制。

经由上述的技术方案可知，与现有技术相比，本发明的有益效果包括：

本发明可以在网络训练完成的前提下预测出更精确的深度信息，对比已有深度学习技术，可以充分利用输入图像的局部相关性和远程关系依赖提升低纹理区域的预测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图；

图1为本发明一种实施例提供的基于图像的深度信息估计方法的流程图；

图2为本发明一种实施例提供的训练图像序列数据示意图；

图3为本发明一种实施例提供的提取特征图像序列示意图；

图4为本发明一种实施例提供的深度信息预测对比示意图；

图5为本发明一种实施例提供的基于图像的深度信息估计方法的网络架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于图像的深度信息估计方法，包括构建模型步骤和预测深度信息步骤：

构建模型步骤包括：

本步骤在具体实施时，使用图像序列的原因是建立数据集，训练数据集体现同一相机拍摄的多幅图像，用于模型的无监督训练，输入图像为同一场景的三幅相邻帧，具体示例参见附图2所示，为训练图像序列数据示意图，其中，I_t、I_t-1、I_t+1是S1输入的图像序列。

在一个实施例中，图像特征提取步骤如下：

将图像输入到深度网络模型，将图像划分成相同大小的patch；

利用CNN和Transformer对输入图像进行编码，得到提取的局部相关性和远程关系依赖；

将上述视觉特征通过级联拼接在一起，通过卷积输出特征。

在具体执行时：对于图像特征，使用在ImageNet上预训练的MpViT模型，将图像划分成若干个patch，利用CNN的局部特征提取能力与Transformer的全局特征提取能力实现有效的特征提取；

其中，使用CNN模块提取局部特征L∈R^H×W×C，使用Transformer模块提取全局特征G∈R^H×W×C。

最后，将局部特征L和全局特征G通过级联拼接在一起，再通过卷积进行输出。如下所示：

X＝Concat([L,G])

X′＝H(X)

其中，X表示经过局部特征和全局特征级联拼接后的特征，H(·)代表学习函数，将拼接后的特征X映射成最终的特征X′。H(·)函数通过使用1×1的卷积实现。

如图3所示，为根据输入图像序列进行特征提取后的特征图像。衡量深度估计模型的优劣除了定性的评估度量和可视化的深度图像以外，中间特征图也是一个直观的展示模型提取信息能力的指标。本实施例将中间特征图与输入图像进行叠加以便观察。如图4所示，从下到下依次为输入图像，本实施例特征图，其他方法特征图，本实施例预测深度图，其他方法预测深度图。可以看出，本发明方法在能够提取到更多的物体细节，从而得到更清晰的深度图。

S2：依次利用通道注意力机制和空间注意力机制对图像特征进行自适应特征优化。

在一个实施例中，通道注意力模块的目的是计算不同颜色通道之间的依赖关系并得到对应的注意力权值，输入的特征通过最大池化层(MaxPool)和平均池化层(AvgPool)进行空间压缩得到两个张量，记为张量一；然后将其送入多层感知机(MLP，Multi layerPerceptron)，最后将通道注意力图依次经过最大池化层和平均池化层得到一个张量，记为张量二；将张量二进行相加并通过sigmoid得到通道注意力图Att^C，空间注意力模块的目的是增强对重要区域的关注度从而提取关键信息，输入的特征依次经过最大池化层和平均池化层，最后通过卷积层和sigmoid获得空间注意力图Att^S。最终的特征可以描述为Y＝Att^S(Att^C(X))，X与Y分别代表输入特征和输出特征。

在一个实施例中，将输入特征图通过双线性差值进行上采样恢复分辨率，可以使用torch.nn.functional.grid_sample函数实现。

S4：对S3恢复后的特征图像作为目标图像进行深度信息预测，计算当前特征图像的相对位姿变化；利用深度信息和相对位姿变化重建目标图像，即重建图像，以无监督的方式训练网络。

在一个实施例中，首先利用深度网络对目标图像进行深度信息预测，基于自编码器架构设计深度网络Θdepth，深度网络分为编码器和解码器两部分，编码器对输入图像进行特征提取，由五个编码器模块组成，解码器负责对提取的特征进行尺度恢复并输出不同尺寸的深度图，构建多尺度特征。每经历一个编码器模块，特征图的大小降为输入的一半。编码器含有5个编码器块，每个编码器块的输出尺寸分别为(H/2,W/2)、(H/4,W/4)、(H/8,W/8)、(H/16,W/16)、(H/32,W/32)。解码器块使用上采样恢复尺寸，每个解码器块的输出为输入的两倍，解码器的输入由两部分组成，第一部分来自于上一阶段的解码器的输出之外，第二部分来对应编码器的输出，通过不同尺度特征图的融合来增强解码器输出特征图的细节。

解码器预测出对应深度图d，同时姿势网络Θ_pose将目标视图I_t和附近源视图I'_t,t'∈{t-1,t+1}为输入，并输出相对位姿变化T_t→t'＝Θ_pose(I_t,I_t'),t∈{t-1,t+1}。基于拍摄场景是静止的并且视图的变化只由移动相机引起的假设，则可以使用源视图I_t',t'∈{t-1,t+1}的像素来重建目标视图I_t，将目标视图I_t和相邻帧源视图I'_t,t'∈{t-1,t+1}为输入。此处构建可概述为以下公式：

I_t'→t＝I_t'[proj(reproj(I_t,d,T_t→t'),K)]

其中，d为预测深度信息，T_t→t'代表位姿变化，K是已知的相机内在参数，[]是采样算子，reproj返回相机t'的3D点云，proj输出将点云投影到I_t'的2D坐标，最后得到重建图像I_t'→t。

S5：计算目标图像与重建图像在多尺度下的光度误差和平滑误差，进一步获得损失函数。

在一个实施例中，给定输入目标图像I_t和重建图像I_t'→t，使用结构相似度SSIM(structural similarity index measure)来计算重建图像和目标图像之间的相似度，然后叠加L1范数，得到光度误差：其中，α为权重参数，实验时设置为0.85。

由于深度不连续经常发生在图像梯度处，通过对视差梯度的L1惩罚来鼓励视差局部平滑，得到平滑误差：

其中，和/>分别代表x方向与y方向的深度梯度；/>d_t是与I_t对应的深度值。

为了防止在训练过程中陷入局部最小值，将光度误差和平滑误差以多尺度误差形式计算其加权和。

在一个实施例中，通过自动掩码技术忽略掉序列中相邻帧不发生改变的像素。将掩码u设置为二进制：

u＝[min(l_p(I_t,I_t'→t))<min(l_p(I_t,I_t'))]t'∈{t-1,t+1}

并与光度损失相乘得到最终误差。

本实施例采用的损失为多尺度损失，由两部分组成，光度误差和平滑误差，为了最小化损失函数可以达到预测高精度深度信息的目的，设计损失函数如下：

其中u为掩码，为最小光度损失，

β是光度损失和平滑损失l_smooth之间的加权系数。

本实施例中，网络模型在训练时将会产生4个尺度的输出，输出的尺寸依次为输入突出尺寸的1/8，1/4，1/2，1，因此我们最终的损失为4个尺度的损失平均和。

S6：重复S2-S5进行无监督模型训练，根据损失函数更新模型参数，得到训练后的模型。

本实施例采用的方法为无监督学习，在训练时无需真实深度值作为监督信号，每次输入的图像为3张相邻帧。每次重复执行到S2和S5时，根据训练机器GPU现存的大小处理一部分数据，每次循环根据损失函数反向传播来更新模型参数，将全部数据送入网络一次后记为迭代一次，直到达到指定迭代轮次后停止训练。本实施例将每次训练处理的图像数设置为16，训练一共持续22轮。并且采用动态学习率防止学习不稳定，学习率初始化为1×10^-4，并且在随后的18个epoch衰减成原来的一半，平滑损失的权重β设置为0.001。每轮训练训练结束后都会在一个验证集上进行验证，最后悬链完成后选择验证集上表现最好的模型作为最后的训练结果。

预测深度信息步骤包括：

在一个实施例中，对模型进行测试即是模拟模型在实际使用中的表现。选择在训练集以外的图像作为模型输入，模型的输出为：对应图像的每一个像素的深度信息。

为了证明本发明预测效果的优异性，下面结合具体图像预测结果进行说明：

图4上图为输入图像序列，下图为根据输入图像预测的深度信息，经过彩色可视化后展现为深度图，图中颜色越偏向黑色表示距离越远，颜色越偏向黄色表示距离越近。可以看出本发明在物体的细节和边缘特征处表现更加优秀，比如路灯的灯杆和树冠，都能够清晰的预测出轮廓。

以上对本发明所提供的基于图像的深度信息估计方法进行了详细介绍，本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本实施例所示的这些实施例，而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图像的深度信息估计方法，其特征在于，包括构建模型步骤和预测深度信息步骤：

所述构建模型步骤包括：

S1：将同一场景的无标注图像序列输入至深度神经网络，提取图像特征，包括局部特征和全局特征；

S2：依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化；

S3：将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率；

S4：对S3恢复后的特征图像作为目标图像进行深度信息预测，计算当前特征图像的相对位姿变化；利用所述深度信息和所述相对位姿变化重建目标图像，即重建图像；

所述预测深度信息步骤包括：

2.根据权利要求1所述的一种基于图像的深度信息估计方法，其特征在于，所述S1包括：

S12：利用CNN提取局部特征，利用Transformer提取全局特征；

3.根据权利要求1所述的一种基于图像的深度信息估计方法，其特征在于，所述S2包括：

4.根据权利要求1所述的一种基于图像的深度信息估计方法，其特征在于，所述S2具体执行步骤包括：

将所述张量一分别送入多层感知机输出中间特征；

将所述中间特征进行相加并通过sigmoid得到通道注意力图；

5.根据权利要求1所述的一种基于图像的深度信息估计方法，其特征在于，所述S3包括：

6.根据权利要求1所述的一种基于图像的深度信息估计方法，其特征在于，所述S4包括：

S43：利用相邻帧源视图、深度图与位姿变化重建目标图像。

7.根据权利要求6所述的一种基于图像的深度信息估计方法，其特征在于，所述S41的具体执行步骤包括：

8.根据权利要求6所述的一种基于图像的深度信息估计方法，其特征在于，所述S43的具体执行步骤包括：

I_t'→t＝I_t'[proj(reproj(I_t,d,T_t→t'),K)]

T_t→t'＝Θ_pose(I_t,I_t'),t∈{t-1,t+1}

9.根据权利要求6所述的一种基于图像的深度信息估计方法，其特征在于，所述S5包括：

将所述的相似度叠加L1范数得到光度误差l_p(I_t,I_t'→t)；

通过图像梯度对深度信息进行加权得到平滑误差l_smooth(d)；

在n个尺度分别重复操作获得光度误差和平滑误差并计算其加权和，获得损失函数：

u＝[min(l_p(I_t,I_t'→t))<min(lp(I_t,I_t'))]t'∈{t-1,t+1}

10.根据权利要求9所述的一种基于图像的深度信息估计方法，其特征在于，通过自动掩码方法忽略掉图像序列中相邻帧不发生改变的像素，将掩码设置为二进制。