CN115760944A

CN115760944A - 融合多尺度特征的无监督单目深度估计方法

Info

Publication number: CN115760944A
Application number: CN202211514742.7A
Authority: CN
Inventors: 于翠红; 韩成; 张超; 白志松
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-07

Abstract

本发明属于计算机视觉技术领域，具体涉及一种融合多尺度特征的无监督单目深度估计方法，利用编码器结构提取二维平面图像的不同尺度特征信息，通过融合多尺度特征建立不同层级信息之间的交叉关联关系，解码器结构借助于多尺度特征的上下文信息即可预测出单目深度估计信息。本发明旨在改善无监督单目深度估计信息存在的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题，为了增强无监督单目深度估计方法的图像特征信息提取能力，使用空洞卷积扩大卷积核对二维平面图像的特征感受野，通过融合上下文信息使不同尺度空间的特征信息之间建立起紧密联系，有效地提升深度神经网络对特征信息的提取能力和理解能力。

Description

融合多尺度特征的无监督单目深度估计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种融合多尺度特征的无监督单目深度估计方法。

背景技术

计算机视觉借助相机成像系统对生物视觉进行图像响应模拟，通过离线输入或实时采集图像信息来获取相应场景的二维视觉特征和三维空间信息。由于计算机视觉成像系统将三维空间信息映射为二维平面图像，使得三维空间信息的深度属性无法被体现于二维平面图像之中，从而导致三维空间信息的深度属性需要借助于其他间接信息得以表达。计算机视觉理解三维场景和空间关系通常以深度信息作为基础条件，深度信息直接反映了三维场景的几何表面形状以及三维结构特征，也就是说，深度信息的准确性必将直接影响计算机视觉对三维场景和空间关系的理解程度。正因如此，深度估计技术对三维重建、自主导航、视点绘制、人机交互、面部识别、场景理解等多个领域至关重要，利用单幅图像推断深度信息的单目深度估计成为了计算机视觉领域的重要研究课题。

最近几年，基于深度神经网络的计算机视觉任务取得了飞速发展，并已在图像分类、目标检测、语义分割、姿态估计、语音驱动、三维重建等科学方向表现出了极佳性能，与此同时，卷积神经网络(CNNs)、循环神经网络(RNNs)、变分自编码器(VAEs)、生成对抗网络(GANs)等多种网络结构已被证明它们对单目深度估计任务的有效性和鲁棒性。根据损失函数项的评测数据源和基准数据构建方式不同，单目深度估计主要划分为有监督单目深度估计方法、半监督单目深度估计方法、无监督单目深度估计方法。有监督单目深度估计方法将深度估计任务转换为回归预测问题，利用预测深度信息与真实深度信息之间的损失差异来监督神经网络训练，它决定了有监督单目深度估计方法需要使用具有真实深度信息的数据集才能进行模型参数训练，致使此类深度估计方法的适应场景和泛化能力受到了条件约束限定；半监督单目深度估计方法则利用稀疏深度信息或少量深度信息进行模型参数训练，此类深度估计方法虽然某种程度摆脱了真实深度信息的严苛束缚，但其依然需要与二维平面图像具有对应关系的真实深度信息作为训练数据。

鉴于有监督单目深度估计方法和半监督单目深度估计方法的数据集构造弊端，无监督单目深度估计方法将双目立体图像或帧序列图像的几何约束作为监督条件，根据深度信息预测生成图像与原始二维平面图像的纹理结构等建立损失差异，使得此类深度估计方法无需依赖真实深度信息即可监督模型参数训练。虽然多种无监督单目深度估计网络已经取得了较好的预期效果，但是它们会因连续卷积操作而导致尺度较小的低纹理区域出现特征缺失等现象，从而发生深度估计信息的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题，并且这些问题也会随着特征信息下采样结构的层级深度增加而逐渐变得突出。

发明内容

本发明目的在于提供一种融合多尺度特征的无监督单目深度估计方法，旨在改善无监督单目深度估计信息存在的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题。为了增强无监督单目深度估计方法的图像特征信息提取能力，本发明方法使用空洞卷积扩大卷积核对二维平面图像的特征感受野，通过融合上下文信息使不同尺度空间的特征信息之间建立起紧密联系，有效地提升深度神经网络对特征信息的提取能力和理解能力。

为了使无监督单目深度估计能够更好地适应于计算机视觉任务，不可避免地需要提升单目深度估计的精准度以及普适性，从而有利于计算机视觉任务更好地理解场景空间。

本发明提供一种融合多尺度特征的无监督单目深度估计方法，利用编码器结构提取二维平面图像的不同尺度特征信息，通过融合多尺度特征建立不同层级信息之间的交叉关联关系，解码器结构借助于多尺度特征的上下文信息即可更好地预测出单目深度估计信息。

对于融合多尺度特征的无监督单目深度估计方法而言，网络模型训练过程将使用标准无监督深度估计数据集，用于衡量模型参数调优效果的损失函数结合使用了加权光度损失、边缘感知损失、几何一致性损失，并且借助Adam优化器进行网络模型参数的梯度下降式优化。本发明方法的积极效果主要体现于网络模型的参数构建过程，其主干网络结构具体实现步骤如下：

步骤S1、使用非线性二维插值算法对原始二维平面图像进行尺寸缩放处理，以此产生深度估计网络模型的单目输入图像Pc，使得单目输入图像Pc的特征通道数为3，特征分辨率为(64×IRs)×(64×IRs)；

步骤S2、使用步长为2的7×7卷积核对单目输入图像Pc进行特征提取，而后顺序进行批量归一化、ReLU函数激活、最大池化处理得到高分辨率特征F0，并且使得高分辨率特征F0的特征通道数为CHs，特征分辨率为(32×IRs)×(32×IRs)；

步骤S3、使用步长为2的3×3卷积核对高分辨率特征F0进行特征提取，从而得到高分辨率特征F1，并且使得高分辨率特征F1的特征通道数为CHs，特征分辨率为(16×IRs)×(16×IRs)；

步骤S4、使用步长为2的3×3卷积核对高分辨率特征F1进行特征提取，从而得到中分辨率特征F2，并且使得中分辨率特征F2的特征通道数为2×CHs，特征分辨率为(8×IRs)×(8×IRs)；

步骤S5、使用步长为2的3×3卷积核对中分辨率特征F2进行特征提取，从而得到中分辨率特征F3，并且使得中分辨率特征F3的特征通道数为4×CHs，特征分辨率为(4×IRs)×(4×IRs)；

步骤S6、使用步长为2的3×3卷积核对中分辨率特征F3进行特征提取，从而得到低分辨率特征F4，并且使得低分辨率特征F4的特征通道数为8×CHs，特征分辨率为(2×IRs)×(2×IRs)；

步骤S7、使用步长为2的3×3卷积核对低分辨率特征F4进行特征提取，从而得到低分辨率特征F5，并且使得低分辨率特征F5的特征通道数为16×CHs，特征分辨率为IRs×IRs；

步骤S8、将低分辨率特征F5传递至多尺度特征信息融合模块MSFF，进而得到低分辨率融合特征U0，并且使得低分辨率融合特征U0的特征通道数为16×CHs，特征分辨率为IRs×IRs；

步骤S9、将高分辨率特征F0传递至卷积注意力模块CBAM，进而得到高分辨率注意力特征A0，并且使得高分辨率注意力特征A0的特征通道数为CHs，特征分辨率为(32×IRs)×(32×IRs)；

步骤S10、将高分辨率特征F1传递至卷积注意力模块CBAM，进而得到高分辨率注意力特征A1，并且使得高分辨率注意力特征A1的特征通道数为CHs，特征分辨率为(16×IRs)×(16×IRs)；

步骤S11、将中分辨率特征F2传递至卷积注意力模块CBAM，进而得到中分辨率注意力特征A2，并且使得中分辨率注意力特征A2的特征通道数为2×CHs，特征分辨率为(8×IRs)×(8×IRs)；

步骤S12、将中分辨率特征F3传递至卷积注意力模块CBAM，进而得到中分辨率注意力特征A3，并且使得中分辨率注意力特征A3的特征通道数为4×CHs，特征分辨率为(4×IRs)×(4×IRs)；

步骤S13、将低分辨率特征F4传递至卷积注意力模块CBAM，进而得到低分辨率注意力特征A4，并且使得低分辨率注意力特征A4的特征通道数为8×CHs，特征分辨率为(2×IRs)×(2×IRs)；

步骤S14、将低分辨率特征F5传递至卷积注意力模块CBAM，进而得到低分辨率注意力特征A5，并且使得低分辨率注意力特征A5的特征通道数为16×CHs，特征分辨率为IRs×IRs；

步骤S15、利用通道拼接方式将低分辨率融合特征U0与低分辨率注意力特征A5连接成低分辨率组合特征G0，以使低分辨率组合特征G0的特征通道数为32×CHs，特征分辨率为IRs×IRs，再使用步长为2的3×3卷积核对低分辨率组合特征G0进行反卷积而得到低分辨率融合特征U1，并且低分辨率融合特征U1的特征通道数为8×CHs，特征分辨率为(2×IRs)×(2×IRs)；

步骤S16、利用通道拼接方式将低分辨率融合特征U1与低分辨率注意力特征A4连接成低分辨率组合特征G1，以使低分辨率组合特征G1的特征通道数为16×CHs，特征分辨率为(2×IRs)×(2×IRs)，再使用步长为2的3×3卷积核对低分辨率组合特征G1进行反卷积而得到中分辨率融合特征U2，并且中分辨率融合特征U2的特征通道数为4×CHs，特征分辨率为(4×IRs)×(4×IRs)；

步骤S17、利用通道拼接方式将中分辨率融合特征U2与中分辨率注意力特征A3连接成中分辨率组合特征G2，以使中分辨率组合特征G2的特征通道数为8×CHs，特征分辨率为(4×IRs)×(4×IRs)，再使用步长为2的3×3卷积核对中分辨率组合特征G2进行反卷积而得到中分辨率融合特征U3，并且中分辨率融合特征U3的特征通道数为2×CHs，特征分辨率为(8×IRs)×(8×IRs)；

步骤S18、利用通道拼接方式将中分辨率融合特征U3与中分辨率注意力特征A2连接成中分辨率组合特征G3，以使中分辨率组合特征G3的特征通道数为4×CHs，特征分辨率为(8×IRs)×(8×IRs)，再使用步长为2的3×3卷积核对中分辨率组合特征G3进行反卷积而得到高分辨率融合特征U4，并且高分辨率融合特征U4的特征通道数为CHs，特征分辨率为(16×IRs)×(16×IRs)；

步骤S19、利用通道拼接方式将高分辨率融合特征U4与高分辨率注意力特征A1连接成高分辨率组合特征G4，以使高分辨率组合特征G4的特征通道数为2×CHs，特征分辨率为(16×IRs)×(16×IRs)，再使用步长为2的3×3卷积核对高分辨率组合特征G4进行反卷积而得到高分辨率融合特征U5，并且高分辨率融合特征U5的特征通道数为CHs，特征分辨率为(32×IRs)×(32×IRs)；

步骤S20、利用通道拼接方式将高分辨率融合特征U5与高分辨率注意力特征A0连接成高分辨率组合特征G5，以使高分辨率组合特征G5的特征通道数为2×CHs，特征分辨率为(32×IRs)×(32×IRs)，再使用步长为2的7×7卷积核对高分辨率组合特征G5进行反卷积，从而得到与单目输入图像Pc相对应的单目深度估计图像Pd，并且单目深度估计图像Pd的特征通道数为3，特征分辨率为(64×IRs)×(64×IRs)。

根据步骤S1至步骤S20的具体过程，即可构建出本发明方法的主干网络结构。对于无监督单目深度估计的主干网络结构而言，其具体构建过程结合了多尺度特征信息融合模块MSFF，其中：低分辨率特征F5为多尺度特征信息融合模块MSFF的输入特征信息，低分辨率融合特征U0为多尺度特征信息融合模块MSFF的输出特征信息。多尺度特征信息融合模块MSFF的网络结构具体实现步骤如下：

步骤PM1、使用扩张率为1的1×1空洞卷积核对模块输入特征Ms进行特征提取，而后顺序进行批量归一化、ELU函数激活处理得到无扩张特征H0，并且无扩张特征H0与模块输入特征Ms具有相同的特征通道数、特征分辨率；

步骤PM2、使用扩张率为6的3×3空洞卷积核对无扩张特征H0进行特征提取，而后顺序进行批量归一化、ELU函数激活处理得到小尺度扩张特征H1，并且小尺度扩张特征H1与模块输入特征Ms具有相同的特征通道数、特征分辨率；

步骤PM3、使用扩张率为12的3×3空洞卷积核对小尺度扩张特征H1进行特征提取，而后顺序进行批量归一化、ELU函数激活处理得到中尺度扩张特征H2，并且中尺度扩张特征H2与模块输入特征Ms具有相同的特征通道数、特征分辨率；

步骤PM4、使用扩张率为18的3×3空洞卷积核对中尺度扩张特征H2进行特征提取，而后顺序进行批量归一化、ELU函数激活处理得到大尺度扩张特征H3，并且大尺度扩张特征H3与模块输入特征Ms具有相同的特征通道数、特征分辨率；

步骤PM5、使用平均池化操作对模块输入特征Ms进行特征提取，从而得到平均池化特征H4，并且平均池化特征H4与模块输入特征Ms具有相同的特征通道数、特征分辨率；

步骤PM6、利用通道拼接方式将无扩张特征H0、小尺度扩张特征H1、中尺度扩张特征H2、大尺度扩张特征H3、平均池化特征H4连接成多尺度组合特征MGF，并且多尺度组合特征MGF的特征通道数等于模块输入特征Ms特征通道数的5倍，多尺度组合特征MGF的特征分辨率与模块输入特征Ms的特征分辨率相同；

步骤PM7、使用1×1卷积核对多尺度组合特征MGF进行特征通道调整而得到模块融合特征Mf，并且模块融合特征Mf与模块输入特征Ms具有相同的特征通道数、特征分辨率。

根据步骤PM1至步骤PM7的具体过程，即可构建出本发明方法中多尺度特征信息融合模块MSFF的网络结构。

通过以上步骤即可构建出无监督单目深度估计方法的主干网络结构，将网络结构参数模型加载至主干网络结构实例，从而实现原始彩色图像的端对端单目深度估计。

本发明的有益效果是：

本发明提供了一种融合多尺度特征的无监督单目深度估计方法，该方法通过融合多尺度特征信息来实现复杂场景的无监督单目深度估计，一定程度地提高了单目深度估计信息的预测准确性，与此同时，该方法充分利用了空洞卷积的扩大感受野特性，通过结合多尺度特征来增强单目深度估计网络对二维平面图像的全局信息理解，从而提高计算机视觉任务对复杂场景理解的精准程度。

当然，实施本发明的任一产品并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为融合多尺度特征的无监督单目深度估计方法的主干网络结构示意图；

其中：CBAM表示通道注意力与空间注意力相结合的卷积注意力模块；MSFF表示多尺度特征信息融合模块；

图2为多尺度特征信息融合模块的结构示意图；

其中：Conv表示卷积操作，BN表示批量归一化操作，ELU表示指数化线性单元激活函数，Pooling表示池化操作，Concat表示通道拼接操作。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

步骤S1、使用非线性二维插值算法对原始二维平面图像进行尺寸缩放处理，以此产生深度估计网络模型的单目输入图像Pc，使得单目输入图像Pc的特征通道数为3，特征分辨率为1024×1024；

步骤S2、使用步长为2的7×7卷积核对单目输入图像Pc进行特征提取，而后顺序进行批量归一化、ReLU函数激活、最大池化处理得到高分辨率特征F0，并且使得高分辨率特征F0的特征通道数为32，特征分辨率为512×512；

步骤S3、使用步长为2的3×3卷积核对高分辨率特征F0进行特征提取，从而得到高分辨率特征F1，并且使得高分辨率特征F1的特征通道数为32，特征分辨率为256×256；

步骤S4、使用步长为2的3×3卷积核对高分辨率特征F1进行特征提取，从而得到中分辨率特征F2，并且使得中分辨率特征F2的特征通道数为64，特征分辨率为128×128；

步骤S5、使用步长为2的3×3卷积核对中分辨率特征F2进行特征提取，从而得到中分辨率特征F3，并且使得中分辨率特征F3的特征通道数为128，特征分辨率为64×64；

步骤S6、使用步长为2的3×3卷积核对中分辨率特征F3进行特征提取，从而得到低分辨率特征F4，并且使得低分辨率特征F4的特征通道数为256，特征分辨率为32×32；

步骤S7、使用步长为2的3×3卷积核对低分辨率特征F4进行特征提取，从而得到低分辨率特征F5，并且使得低分辨率特征F5的特征通道数为512，特征分辨率为16×16；

步骤S8、将低分辨率特征F5传递至多尺度特征信息融合模块MSFF，进而得到低分辨率融合特征U0，并且使得低分辨率融合特征U0的特征通道数为512，特征分辨率为16×16；

步骤S9、将高分辨率特征F0传递至卷积注意力模块CBAM，进而得到高分辨率注意力特征A0，并且使得高分辨率注意力特征A0的特征通道数为32，特征分辨率为512×512；

步骤S10、将高分辨率特征F1传递至卷积注意力模块CBAM，进而得到高分辨率注意力特征A1，并且使得高分辨率注意力特征A1的特征通道数为32，特征分辨率为256×256；

步骤S11、将中分辨率特征F2传递至卷积注意力模块CBAM，进而得到中分辨率注意力特征A2，并且使得中分辨率注意力特征A2的特征通道数为64，特征分辨率为128×128；

步骤S12、将中分辨率特征F3传递至卷积注意力模块CBAM，进而得到中分辨率注意力特征A3，并且使得中分辨率注意力特征A3的特征通道数为128，特征分辨率为64×64；

步骤S13、将低分辨率特征F4传递至卷积注意力模块CBAM，进而得到低分辨率注意力特征A4，并且使得低分辨率注意力特征A4的特征通道数为256，特征分辨率为32×32；

步骤S14、将低分辨率特征F5传递至卷积注意力模块CBAM，进而得到低分辨率注意力特征A5，并且使得低分辨率注意力特征A5的特征通道数为512，特征分辨率为16×16；

步骤S15、利用通道拼接方式将低分辨率融合特征U0与低分辨率注意力特征A5连接成低分辨率组合特征G0，以使低分辨率组合特征G0的特征通道数为1024，特征分辨率为16×16，再使用步长为2的3×3卷积核对低分辨率组合特征G0进行反卷积而得到低分辨率融合特征U1，并且低分辨率融合特征U1的特征通道数为256，特征分辨率为32×32；

步骤S16、利用通道拼接方式将低分辨率融合特征U1与低分辨率注意力特征A4连接成低分辨率组合特征G1，以使低分辨率组合特征G1的特征通道数为512，特征分辨率为32×32，再使用步长为2的3×3卷积核对低分辨率组合特征G1进行反卷积而得到中分辨率融合特征U2，并且中分辨率融合特征U2的特征通道数为128，特征分辨率为64×64；

步骤S17、利用通道拼接方式将中分辨率融合特征U2与中分辨率注意力特征A3连接成中分辨率组合特征G2，以使中分辨率组合特征G2的特征通道数为256，特征分辨率为64×64，再使用步长为2的3×3卷积核对中分辨率组合特征G2进行反卷积而得到中分辨率融合特征U3，并且中分辨率融合特征U3的特征通道数为64，特征分辨率为128×128；

步骤S18、利用通道拼接方式将中分辨率融合特征U3与中分辨率注意力特征A2连接成中分辨率组合特征G3，以使中分辨率组合特征G3的特征通道数为128，特征分辨率为128×128，再使用步长为2的3×3卷积核对中分辨率组合特征G3进行反卷积而得到高分辨率融合特征U4，并且高分辨率融合特征U4的特征通道数为32，特征分辨率为256×256；

步骤S19、利用通道拼接方式将高分辨率融合特征U4与高分辨率注意力特征A1连接成高分辨率组合特征G4，以使高分辨率组合特征G4的特征通道数为64，特征分辨率为256×256，再使用步长为2的3×3卷积核对高分辨率组合特征G4进行反卷积而得到高分辨率融合特征U5，并且高分辨率融合特征U5的特征通道数为32，特征分辨率为512×512；

步骤S20、利用通道拼接方式将高分辨率融合特征U5与高分辨率注意力特征A0连接成高分辨率组合特征G5，以使高分辨率组合特征G5的特征通道数为64，特征分辨率为512×512，再使用步长为2的7×7卷积核对高分辨率组合特征G5进行反卷积，从而得到与单目输入图像Pc相对应的单目深度估计图像Pd，并且单目深度估计图像Pd的特征通道数为3，特征分辨率为1024×1024。

根据步骤PM1至步骤PM7的具体过程，即可构建出本发明方法中多尺度特征信息融合模块MSFF的网络结构。通过构建本发明中无监督单目深度估计方法的主干网络结构，将网络结构参数模型加载至主干网络结构实例，从而实现原始彩色图像的端对端单目深度估计。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.融合多尺度特征的无监督单目深度估计方法，其特征在于，利用编码器结构提取二维平面图像的不同尺度特征信息，通过融合多尺度特征建立不同层级信息之间的交叉关联关系，解码器结构借助于多尺度特征的上下文信息即可预测出单目深度估计信息。

2.根据权利要求1所述的融合多尺度特征的无监督单目深度估计方法，其特征在于：使用标准无监督深度估计数据集进行网络模型的参数构建，网络模型用于衡量模型参数调优效果的损失函数结合使用了加权光度损失、边缘感知损失、几何一致性损失，并且借助Adam优化器进行网络模型参数的梯度下降式优化。

3.根据权利要求2所述的融合多尺度特征的无监督单目深度估计方法，其特征在于，所述网络模型的参数构建过程中，其主干网络结构具体实现步骤如下：

4.根据权利要求3所述的融合多尺度特征的无监督单目深度估计方法，其特征在于：低分辨率特征F5为多尺度特征信息融合模块MSFF的输入特征信息，低分辨率融合特征U0为多尺度特征信息融合模块MSFF的输出特征信息。

5.根据权利要求4所述的融合多尺度特征的无监督单目深度估计方法，其特征在于，多尺度特征信息融合模块MSFF的网络结构具体实现步骤如下：

6.根据权利要求5所述的融合多尺度特征的无监督单目深度估计方法，其特征在于：主干网络构建完成后，将网络结构参数模型加载至主干网络，实现原始彩色图像的端对端单目深度估计。

7.根据权利要求6所述的融合多尺度特征的无监督单目深度估计方法，其特征在于：CBAM表示通道注意力与空间注意力相结合的卷积注意力模块，MSFF表示多尺度特征信息融合模块。

8.根据权利要求7所述的融合多尺度特征的无监督单目深度估计方法，其特征在于：ELU函数具体表示指数化线性单元激活函数。