CN116342675B

CN116342675B - 一种实时单目深度估计方法、系统、电子设备及存储介质

Info

Publication number: CN116342675B
Application number: CN202310609609.8A
Authority: CN
Inventors: 张聪炫; 冯诚; 陈震; 葛利跃; 卢锋; 陈昊; 胡卫明
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-11
Anticipated expiration: 2043-05-29
Also published as: CN116342675A

Abstract

本发明公开一种实时单目深度估计方法、系统、电子设备及存储介质，涉及单目图像深度估计领域，方法包括获取参考图像；利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图；利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果。本发明能在保持深度估计的同时优化计算速度和降低功耗。

Description

一种实时单目深度估计方法、系统、电子设备及存储介质

技术领域

本发明涉及单目图像深度估计领域，特别是涉及一种实时单目深度估计方法、系统、电子设备及存储介质。

背景技术

在室外场景中获取深度信息是一项重要的计算机视觉任务，深度信息可以提供大量关于不同物体之间的空间和逻辑关系。基于点云的或基于立体匹配的方法都是获取场景深度信息的重要手段，已经有许多工作进行了相应的研究。但是此类技术需要特定的设备与数据输入，大多数应用场景中，这些方法所需要的数据都无法轻易获得，同时达到实时计算所需计算资源要求较高限制了此类技术的大规模应用。近年来，由于单目相机成本低、数据获取简单等优点，研究成果被广泛应用于自动驾驶、三维重建和障碍物检测等更高级视觉任务。

目前，基于卷积神经网络的单目深度估计技术是单目深度估计技术中最常采用的一类技术，该类方法通常构建大规模模型以得到更好的深度估计精度，计算速度慢、计算所需硬件要求较高，限制了此类方法在各个领域，特别是在搭载低功耗嵌入式平台的小型无人自助机器人上的应用。

发明内容

本发明的目的是提供一种实时单目深度估计方法、系统、电子设备及存储介质，可在保持深度估计的同时优化计算速度和降低功耗。

为实现上述目的，本发明提供了如下方案：

本发明提供一种实时单目深度估计方法，包括：

获取参考图像；

利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图；

利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；

利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果。

可选地，利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图，具体包括：

利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样，得到第一分辨率的图像特征图；

利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样，得到第二分辨率的图像特征图；

利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样，得到第三分辨率的图像特征图；

利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样，得到第四分辨率的图像特征图。

可选地，利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图，具体包括：

利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合，得到第三卷积融合图；

利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合，得到第二卷积融合图；

利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合，得到第一卷积融合图；

对所述第一卷积融合图进行上采样和卷积，得到融合特征图。

可选地，利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果，具体包括：

利用所述深度解码器的卷积层对所述融合特征图进行卷积，得到卷积结果；

利用所述深度解码器的Sigmoid激活层对所述卷积结果进行激活，得到深度估计结果。

本发明还提供一种实时单目深度估计系统，包括：

获取模块，用于获取参考图像；

特征提取模块，用于利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图；

特征融合模块，用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；

深度估计模块，用于利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果。

可选地，所述轻量化金字塔图像编码器包括依次连接的四个卷积块；每个卷积块用于输出一个图像特征图。

可选地，所述卷积块包括依次连接的三组卷积运算组；每组卷积运算组包括依次连接的卷积层和ReLU激活层。

可选地，所述深度解码器包括依次连接的卷积层和Sigmoid激活层。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述的方法。

本发明还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上述的方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明获取参考图像；利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图；利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果。本发明通过轻量化金字塔图像编码器和多尺度特征快速融合模块，优化模型计算速度，在保持深度估计精度的同时，可在低功耗嵌入式平台上进行实时单目深度估计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的实时单目深度估计方法流程图；

图2为深度估计模型结构示意图；

图3为卷积块结构示意图；

图4为上采样卷积块结构示意图；

图5为深度解码器结构示意图；

图6为输入道路场景下拍摄图像的一帧图像；

图7为深度估计结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1和图2所示，本发明提供的一种实时单目深度估计方法，包括：

步骤101：获取参考图像。

步骤102：利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图。

基于单目图像的深度估计模型包含一个轻量化金字塔图像编码器、一个多尺度特征快速融合模块和一个深度解码器。轻量化金字塔图像编码器由十二层卷积层组成，用于提取图像特征，接收一张彩色图像为输入，输出多尺度图像特征图。其中，多尺度图像特征图为不同分辨率的图像特征图。

如图3所示，步骤102具体包括：利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样，得到第一分辨率的图像特征图F₁；利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样，得到第二分辨率的图像特征图F₂；利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样，得到第三分辨率的图像特征图F₃；利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样，得到第四分辨率的图像特征图F₄。每个卷积块包括依次连接的三组卷积运算组，每组卷积运算组包括依次连接的卷积层和ReLU激活层。卷积层均为3×3卷积层。

选择待进行深度估计的参考图像，并向所构建模型输入参考图像/>，以进行深度估计，具体过程如下：

利用轻量化金字塔图像编码器对参考图像进行特征金字塔下采样分层，在每层金字塔分别进行三次卷积运算操作，获取四层分辨率不同的图像特征图/>，计算方式如下：

(1)

其中，是输入的参考图像；运算符号/>代表了卷积运算操作，其中/>和均是步长为1的/>卷积运算操作，/>是步长为2的/>卷积运算操作；是特征金字塔输出的图像特征图。/>为第i层金字塔所获图像特征图，为第i-1层金字塔所获图像特征图，i为金字塔层数索引。

步骤103：利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图。多尺度特征快速融合模块由四层卷积层组成，用于融合多尺度图像特征图，接收轻量化金字塔图像编码器输出的多尺度图像特征图作为输入，输出融合特征图。如图4所示，多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块。其中，每个卷积融合组包括依次连接的上采样卷积块和融合操作。每个上采样卷积块包括依次连接的上采样、卷积层和ReLU激活层。图2中的融合操作3与融合操作2为矩阵逐点相加运算，融合操作1为特征通道拼接操作，多尺度特征快速融合模块中前两个融合操作为矩阵逐点相加运算，最后一个融合操作为特征通道拼接操作。

步骤103，具体包括：利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合，得到第三卷积融合图；利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合，得到第二卷积融合图；利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合，得到第一卷积融合图；对所述第一卷积融合图进行上采样和卷积，得到融合特征图。其中，对所述第一卷积融合图进行上采样和卷积，得到融合特征图利用的是多尺度特征快速融合模块的上采样卷积块。

利用多尺度特征快速融合模块对图像特征图进行反向遍历，对每层图像特征图进行上采样，并与上一层图像特征图进行融合，获取最终的融合特征图/>，计算方式如下：

(2)

式中：是融合特征图，运算符号/>代表了步长为1的/>卷积运算操作；运算符号/>代表了上采样操作；/>是轻量化金字塔图像编码器输出的图像特征图；/>是矩阵逐点相加运算；运算符号/>是通道叠加运算。/>为第i层融合特征图。

步骤104：利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果。深度解码器由一层卷积层组成，用于从融合特征图中计算最终的深度估计结果，接收多尺度特征快速融合模块输出的融合特征图作为输入，输出最终的深度估计结果。

如图5所示，步骤104，具体包括：利用所述深度解码器的卷积层对所述融合特征图进行卷积，得到卷积结果；利用所述深度解码器的Sigmoid激活层对所述卷积结果进行激活，得到深度估计结果。

为深度解码器输入融合后的融合特征图，输出最终深度估计结果/>，计算方式如下：

(3)

其中，是输入的参考图像/>的深度估计结果；/>是步长为1的/>卷积运算操作；/>是多尺度特征快速融合模块输出的融合特征图。

对深度估计模型采用采集到的连续图像序列数据集进行自监督训练，具体过程如下：

在每一次迭代过程中，从数据集中获取当前帧参考图像，上一帧参考图像/>，相机在上一帧到当前帧的相对位姿变化/>，相机内参矩阵/>。

为前述单目深度估计模型输入当前帧参考图像，得到前帧参考图像/>的深度估计结果/>。通过深度估计结果/>、相机在上一帧到当前帧的相对位姿变化/>、相机内参矩阵/>和上一帧参考图像/>，计算当前帧合成图像/>，计算方式如下：

(4)

其中，是可微分采样器；/>是返回上一帧参考图像/>中投影深度二维坐标的投影函数。

为了评估深度估计结果的准确性，计算当前帧合成图像/>和当前帧参考图像/>的差异性，计算方式如下：

(5)

其中，，为调整系数；/>是结构相似性评估函数；/>是L1距离计算函数。/>为最小化图像内容损失，/>为图像内容误差。

通过将作为损失函数对前述单目深度估计模型进行反向传播参数更新，并不断从数据集中获取数据样本，迭代该步骤，直至损失函数收敛，完成模型训练。

本发明适用于低功耗嵌入式平台的实时单目深度估计方法，采用轻量化金字塔图像编码器设计和快速特征融合结构设计，在低功耗嵌入式平台上具备更高的计算速度和较好的计算精度。

在实际应用中在深度估计模型中输入道路场景下拍摄的一帧图像如图6所示，输出深度估计结果如图7所示。

本发明通过对模型进行量化优化，并部署至低功耗嵌入式平台；选择输入参考图像；对输入参考图像进行特征金字塔下采样分层；在每层金字塔中对当前层中的图像特征进行上采样与特征融合，在到达金字塔顶层时，输出最终深度估计结果。本发明基于实时单目深度估计方法，采用轻量化金字塔图像编码器与多尺度特征快速融合模块设计，优化模型计算速度，在保持深度估计精度的同时，可在低功耗嵌入式平台上进行实时单目深度估计。

在图像编码器方面：不同于现有模型直接利用图像分类领域的骨干网络作为图像编码器的做法，本发明采用自主设计的轻量化的金字塔图像编码器，减少了金字塔特征编码器的计算深度，在计算分辨率到达1/16后就停止计算。同时，不在编码器中使用现有模型经常会使用的残差连接和归一化层技术（这些技术在嵌入式平台上的部署代码实现尚不成熟，需要大量计算资源，极大降低了计算效率），在保证精度的同时大大提升了计算效率。在特征融合方面：现有模型通常不考虑特征尺度，仅仅是对金字塔图像编码器提取到的不同尺度的图像特征进行拼接融合。本发明考虑到低维高分辨率特征包含更多空间特征，更少语义信息和更多噪声，而高维低分辨率特征包含更少空间特征，更多语义信息和更少噪声。因此直接在高维低分辨率使用加法融合会引入噪声，所以本发明只在前两个融合层（即融合操作3与融合操作2）使用加法融合以提高模型计算效率，在最后一层（即融合操作1）使用通道拼接融合，平衡速度与精度。

本发明还提供一种实时单目深度估计系统，包括：

获取模块，用于获取参考图像。

特征提取模块，用于利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图。

特征融合模块，用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图。

作为一种可选的实施方式，所述轻量化金字塔图像编码器包括依次连接的四个卷积块；每个卷积块用于输出一个图像特征图。

作为一种可选地实施方式，所述卷积块包括依次连接的三组卷积运算组；每组卷积运算组包括依次连接的卷积层和ReLU激活层。

作为一种可选地实施方式，所述深度解码器包括依次连接的卷积层和Sigmoid激活层。

本发明还提供一种电子设备，包括：

一个或多个处理器。

存储装置，其上存储有一个或多个程序。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实时单目深度估计方法，其特征在于，包括：

获取参考图像；

利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块；其中，每个卷积融合组包括依次连接的上采样卷积块和融合操作；每个上采样卷积块包括依次连接的上采样层、卷积层和ReLU激活层；

利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果；深度解码器由一层卷积层组成，用于从融合特征图中计算最终的深度估计结果，接收多尺度特征快速融合模块输出的融合特征图作为输入，输出最终的深度估计结果；

利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取，得到多个不同分辨率的图像特征图，具体包括：

利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样，得到第四分辨率的图像特征图；每个卷积块包括依次连接的三组卷积运算组，每组卷积运算组包括依次连接的卷积层和ReLU激活层；卷积层均为3×3卷积层；选择待进行深度估计的参考图像，并向所构建模型输入参考图像/>，以进行深度估计，具体过程如下：利用轻量化金字塔图像编码器对参考图像/>进行特征金字塔下采样分层，在每层金字塔分别进行三次卷积运算操作，获取四层分辨率不同的图像特征图；

利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图，具体包括：

2.根据权利要求1所述的实时单目深度估计方法，其特征在于，利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果，具体包括：

3.一种实时单目深度估计系统，其特征在于，包括：

获取模块，用于获取参考图像；

特征融合模块，用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合，得到融合特征图；多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块；其中，每个卷积融合组包括依次连接的上采样卷积块和融合操作；每个上采样卷积块包括依次连接的上采样层、卷积层和ReLU激活层；

深度估计模块，用于利用深度估计模型的深度解码器对所述融合特征图进行深度估计，得到深度估计结果；深度解码器由一层卷积层组成，用于从融合特征图中计算最终的深度估计结果，接收多尺度特征快速融合模块输出的融合特征图作为输入，输出最终的深度估计结果；所述轻量化金字塔图像编码器包括依次连接的四个卷积块；每个卷积块用于输出一个图像特征图；每个卷积块包括依次连接的三组卷积运算组，每组卷积运算组包括依次连接的卷积层和ReLU激活层；卷积层均为3×3卷积层；选择待进行深度估计的参考图像，并向所构建模型输入参考图像/>，以进行深度估计，具体过程如下：利用轻量化金字塔图像编码器对参考图像/>进行特征金字塔下采样分层，在每层金字塔分别进行三次卷积运算操作，获取四层分辨率不同的图像特征图；

利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样，得到第四分辨率的图像特征图；

4.根据权利要求3所述的实时单目深度估计系统，其特征在于，所述深度解码器包括依次连接的卷积层和Sigmoid激活层。

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至2中任意一项所述的方法。

6.一种存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述的方法。