CN110956655A

CN110956655A - 一种基于单目图像的稠密深度估计方法

Info

Publication number: CN110956655A
Application number: CN201911249403.9A
Authority: CN
Inventors: 裴欣; 胡坚明; 贾邵程; 田珊; 杨子; 岳云
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-03
Anticipated expiration: 2039-12-09
Also published as: CN110956655B

Abstract

本发明涉及一种基于单目图像的稠密深度估计方法，其特征在于包括以下步骤：1)构建多尺度混合深度神经网络结构，并对多尺度混合深度神经网络的网络参数进行初始化；2)对训练数据图像和测试图像进行数据预处理，生成训练数据和测试数据；3)利用步骤2)中的训练数据对构建的多尺度混合深度神经网络结构进行训练，得到训练后模型，保存训练后模型的参数；4)采用训练后模型对测试数据进行检测，得到测试图像的深度值。本发明可以广泛应用于单目图像的稠密深度估计领域。

Description

一种基于单目图像的稠密深度估计方法

技术领域

本发明属于计算机视觉技术领域，特别是涉及一种基于单目图像的稠密深度估计方法。

背景技术

随着深度神经网络理论的发展和计算能力的提高，计算机视觉技术已经在智能交通、机器人等领域发挥重要作用。特别地，基于单目图像的稠密深度估计技术为3D重建、交通安全和机器视觉等领域提供了重要信息。单目稠密深度估计任务即从单张RGB图中恢复出每个像素的深度值。由于图像是二维信息，深度是三维信息，从二维图像恢复出三维深度本身是困难的。这是因为，第一，目前的卷积神经网络技术提取到的特征是局部信息，不包含图像的整体信息；第二，像素点的深度信息不仅与局部特征有关，同时也和整体环境有关。

当前对单目稠密深度估计的研究中，通常有两种方法，一是利用条件随机场的方法将局部信息和整体信息进行融合，但是条件随机场方法计算复杂，优化困难，通常很难实现；二是将深度估计任务看做像素级分类任务，然而将深度估计任务看做像素级分类任务会消耗大量的时间训练和测试，计算量巨大。因此，无论采用当前何种方式都无法高效、高质量的完成单目稠密深度估计任务。

发明内容

针对上述问题，本发明的目的是提供一种基于单目图像的稠密深度估计方法，该方法将多尺度混合深度神经网络结构用于单目深度估计，并利用特征关联模块获取包含局部信息和全局信息的综合特征，有效提高了单目稠密深度估计的效率和质量。

为实现上述目的，本发明采取以下技术方案：一种基于单目图像的稠密深度估计方法，其包括以下步骤：

1)构建多尺度混合深度神经网络结构，并对多尺度混合深度神经网络的网络参数进行初始化；

2)对训练数据图像和测试图像进行数据预处理，生成训练数据和测试数据；

3)利用步骤2)中的训练数据对构建的多尺度混合深度神经网络结构进行训练，得到训练后模型，保存训练后模型的参数；

4)采用训练后模型对测试数据进行检测，得到测试图像的深度值。

进一步的，所述步骤1)中，构建多尺度混合深度神经网络结构，并对多尺度混合深度神经网络的网络参数进行初始化的方法，包括以下步骤：

1.1)构建多尺度混合深度神经网络；

1.2)设置优化器类型、并设置动量、权重衰减、初始学习率、学习率衰减策略、迭代次数、循环神经网络层数和隐藏层数目；

1.3)设置损失函数，并将损失逆传播更新参数。

进一步的，所述步骤1.1)中，所述多尺度混合深度神经网络包括卷积神经网络和循环神经网络；所述卷积神经网络用于对输入图像数据进行特征提取，得到多层特征图；所述循环神经网络结果用于根据多层特征图得到关联后特征图，并根据关联后特征图得到输入图像数据的预测深度图。

进一步的，所述卷积神经网络结构包括第一～第五共五个卷积块，各所述卷积块分别对输入该卷积块的图像数据进行特征提取，得到的多层特征图结果作为下一级卷积块的输入，且所述第二～第五卷积块得到的多层特征图还同时发送到所述循环神经网络。

进一步的，所述循环神经网络结构包括第一～第四特征关联模块、批归一化模块、第一注意力机制模块、多层循环神经网络和第二注意力机制模块；所述第一～第四特征关联模块的输入分别为第五～第二卷积块输出的多层特征图；所述第一特征关联模块的输出进行2倍上采样后和所述第二特征关联模块的输出进行重叠，得到第一次重叠结果；所述第一次重叠结果进行2倍上采样后和所述第三特征关联模块的输出结果进行重叠，得到第二次重叠结果；所述第二次重叠结果进行2倍上采样后和所述第四特征关联模块的输出进行重叠后，得到第三次重叠结果；所述批归一化模块对所述第三次重叠结果进行批归一化处理后，输出到所述第一注意力机制模块；所述第一注意力机制模块对输入数据进行特征选取，并将特征选取结果发送到所述多层循环神经网络；所述多层循环神经网络根据特征选取结果输出多层深度图；所述第二注意力机制模块对多层深度图进行选择，得到预测深度图。

进一步的，所述第一～第四特征关联模块结构相同，均包括卷积层、第一循环神经网络、第二循环神经网络、批归一化模块和注意力机制模块；所述卷积层的卷积核大小为1，用于将输入的多层稀疏特征图变为1层稠密特征层，并将稠密特征层分别发送到所述第一循环神经网络和第二循环神经网络；所述第一循环神经网络以双向长短时记忆模块为基本单元，以行向量为输入向量，用于从左到右、从右到左的扫描稠密特征层，得到两层特征图；所述第二循环神经网络也以双向长短时记忆模块为基本单元，并以列向量为输入向量，用于从上到下、从下到上的扫描稠密特征层，得到另两层特征图；所述批归一化模块对四层特征图进行批归一化处理，处理结果发送到所述注意力机制模块；所述注意力机制模块对所述处理结果进行特征选择，并输出单层关联后特征图。

进一步的，所述步骤1.3)中，所述损失函数为：

式中，

是实际深度值，

是预测深度值，

是实际归一化深度值，n是有效深度值的个数。

进一步的，所述步骤2)中，对训练数据图像和测试图像进行数据预处理，生成训练数据和测试数据的方法为：首先，根据多尺度混合深度神经网络要求的输入图像尺寸，将训练数据图像和测试图像中的各RGB图像尺寸通过裁剪、缩放、填充方式转换到网络输入图像尺寸；其次，对得到的各RGB图像的实际深度数值进行归一化操作，使得深度值分布满足均值为0。

进一步的，所述步骤4)中，采用训练后模型对测试数据进行检测，得到测试图像的深度值的方法，包括以下步骤：4.1)采用训练后模型对测试数据进行测试，输出测试图像的深度图；4.2)对训练后模型输出的深度图的归一化深度值进行逆归一化操作，得到测试图像的真实深度值。

本发明由于采取以上技术方案，其具有以下优点：本发明将多尺度混合深度神经网络结构用于单目深度估计，并利用特征关联模块获取包含局部信息和全局信息的综合特征，有效提高了单目稠密深度估计的效率和质量。因此，本发明可以广泛应用于单目图像的稠密深度估计领域。

附图说明

图1是本发明多尺度特征关联网络结构图；

图2是本发明特征关联模块结构图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明提出的一种基于单目图像的稠密深度估计方法，其包括以下步骤：

上述步骤1)中，构建多尺度混合深度神经网络结构，并对多尺度混合深度神经网络的网络参数进行初始化的方法，包括以下步骤：

1.1)如图1所示，构建多尺度混合深度神经网络，包含卷积神经网络和循环神经网络两种结构。

其中，卷积神经网络用于对输入图像数据进行特征提取，得到多层特征图；循环神经网络用于根据多层特征图得到关联后特征图，并根据关联后特征图得到输入图像数据的预测深度图。卷积神经网络和循环神经网络的具体结构介绍如下：

卷积神经网络结构包括第一～第五共五个卷积块，各卷积块分别对输入该卷积块的数据进行特征提取，得到的多层特征图结果作为下一级卷积块的输入，第二～第五卷积块得到的多层特征图还同时发送到循环神经网络。其中，本发明中设置的第一～第五卷积块输出的特征图的层数依次为64、256、512、1024和2048。

循环神经网络结构包括第一～第四特征关联模块FCL1～FCL4、批归一化模块(BN，Batch Normalization，批归一化)、第一注意力机制模块、多层循环神经网络和第二注意力机制模块。其中，第一～第四特征关联模块FCL1～FCL4的输入分别为第五～第二卷积块输出的多层特征图；第一特征关联模块FCL1的输出进行2倍上采样后和第二特征关联模块FCL2的输出进行重叠，得到第一次重叠结果；第一次重叠结果进行2倍上采样后和第三特征关联模块FCL3的输出结果进行重叠，得到第二次重叠结果；第二次重叠结果进行2倍上采样后和第四特征关联模块FCL4的输出进行重叠后，得到第三次重叠结果；第三次重叠结果输入到批归一化模块进行批归一化处理后，输出到第一注意力机制模块；第一注意力机制模块对输入数据进行特征选取，并将特征选取结果发送到多层循环神经网络；多层循环神经网络根据特征选取结果输出多层深度图；第二注意力机制模块对多层深度图进行选择，得到最后的预测深度图。优选的，多层循环神经网络以双向长短时记忆模块为基本单元。第一注意力机制模块和第二注意力机制模块均为各通道加权求和，加权系数为网络自动学习得到。多层循环神经网络、第一注意力机制模块和第二注意力机制模块的结构为本领域技术人员公知，本发明在此不再赘述。

如图2所示，第一～第四特征关联模块FCL1～FCL4结构相同，均包括卷积层、第一循环神经网络、第二循环神经网络、批归一化模块和注意力机制模块。其中，卷积层的卷积核大小为1，用于将输入的多层稀疏特征图变为1层稠密特征层，并将稠密特征层分别发送到第一循环神经网络和第二循环神经网络；第一循环神经网络以双向长短时记忆模块为基本单元，以行向量为输入向量，用于从左到右、从右到左的扫描稠密特征层，得到两层特征图；第二循环神经网络也以双向长短时记忆模块为基本单元，并以列向量为输入向量，用于从上到下、从下到上的扫描稠密特征层，得到另两层特征图；四层特征图经过批归一化处理，以避免过拟合，处理结果发送到注意力机制模块；注意力机制模块对四层特征图进行特征选择，并输出单层关联后特征图。

1.2)设置优化器类型、并设置动量、权重衰减、初始学习率、学习率衰减策略、迭代次数、循环神经网络层数和隐藏层数目。其中，设置各参数的方法为本领域技术人员公知技术，本发明在此不再赘述。

1.3)设置损失函数，并将损失逆传播更新参数，其中，参数更新过程为本领域技术人员公知，本发明在此不再赘述。

本发明中设置的损失函数为：

式中，

是实际深度值，

是预测深度值，

是实际归一化深度值，n是有效深度值的个数。

上述步骤2)中，对训练数据图像和测试图像进行数据预处理，是指对训练数据图像和测试图像进行尺寸缩放、填充或裁剪，以达到多尺度混合深度神经网络要求的尺寸大小，进而生成训练数据和测试数据，具体的方法为：

首先，根据多尺度混合深度神经网络要求的输入图像尺寸，将训练数据图像和测试图像中的各RGB图像尺寸通过裁剪、缩放、填充等方式转换到网络输入图像尺寸；

其次，对各RGB图像的实际深度数值进行归一化操作，以使得深度值分布尽可能满足均值为0。

上述步骤4)中，采用训练后模型对测试图像进行检测，得到测试图像的深度值的方法，包括以下步骤：

4.1)采用训练后模型对测试数据进行测试，输出测试图像的深度图；

4.2)对训练后模型输出的深度图的归一化深度值进行逆归一化操作，得到测试图像的真实深度值。

实施例一：

本实施例是对道路场景下的深度估计，步骤如下：

1)进行数据预处理：

设置网络输入图像尺寸为384x640，RGB图像大小为352x1216，则先在RGB图像上方用0填充至384，然后分别以左侧和右侧为基准裁剪图像尺寸为384x840作为输入图形。对深度值进行归一化操作，在本实施例中预测深度范围为0至80米，采用真实深度除以100，减去0.4后的值作为归一化的深度值。

2)根据网络结构搭建网络，并利用步骤1中的训练数据对网络进行训练，得到训练后模型，保存训练后参数。

具体的，包括以下步骤：

2.1)首先用Pytorch编程环境搭建如图1所示的网络框架。

2.2)设置优化器为随机梯度下降(SGD)优化器，并设置动量为0.9，权重衰减为0.0003，初始学习率为0.01并每21000次迭代训练后学习率乘以0.8，总共迭代次数为24.1万次。设置最后的输出循环神经网络层数为3层，其他特征关联模块中的循环神经网络层数为2层。所有循环神经网络隐藏层大小和输入大小一致。

2.3)设置损失函数为：

是实际深度值，

是预测深度值。

是实际归一化深度值。

2.4)训练完成后，存储模型参数，供测试时使用。

3)根据步骤2)中得到的训练后模型，对测试图像进行检测，得到测试图像的深度值。

具体的，包括以下步骤：

3.1)用Pytorch搭建跟训练网络相同的网络，将训练模式改为测试模式。

3.2)加载步骤2)中保存的训练好的模型参数，对测试图像就行测试，输出深度图。

3.3)把神经网络输出的归一化深度值还原为真实深度值。具体操作为归一化操作的逆过程。先加上0.4，再乘以100，得到真实的深度值。

以上给出一种具体的实施方式，但本发明不局限于所描述的实施方式。本发明的基本思路在于上述方案，对本领域普通技术人员而言，根据本发明的教导，设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变形仍落入本发明的保护范围内。

Claims

1.一种基于单目图像的稠密深度估计方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述步骤1)中，构建多尺度混合深度神经网络结构，并对多尺度混合深度神经网络的网络参数进行初始化的方法，包括以下步骤：

1.1)构建多尺度混合深度神经网络；

1.3)设置损失函数，并将损失逆传播更新参数。

3.如权利要求2所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述步骤1.1)中，所述多尺度混合深度神经网络包括卷积神经网络和循环神经网络；所述卷积神经网络用于对输入图像数据进行特征提取，得到多层特征图；所述循环神经网络结果用于根据多层特征图得到关联后特征图，并根据关联后特征图得到输入图像数据的预测深度图。

4.如权利要求3所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述卷积神经网络结构包括第一～第五共五个卷积块，各所述卷积块分别对输入该卷积块的图像数据进行特征提取，得到的多层特征图结果作为下一级卷积块的输入，且所述第二～第五卷积块得到的多层特征图还同时发送到所述循环神经网络。

5.如权利要求4所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述循环神经网络结构包括第一～第四特征关联模块、批归一化模块、第一注意力机制模块、多层循环神经网络和第二注意力机制模块；

所述第一～第四特征关联模块的输入分别为第五～第二卷积块输出的多层特征图；

所述第一特征关联模块的输出进行2倍上采样后和所述第二特征关联模块的输出进行重叠，得到第一次重叠结果；所述第一次重叠结果进行2倍上采样后和所述第三特征关联模块的输出结果进行重叠，得到第二次重叠结果；所述第二次重叠结果进行2倍上采样后和所述第四特征关联模块的输出进行重叠后，得到第三次重叠结果；

所述批归一化模块对所述第三次重叠结果进行批归一化处理后，输出到所述第一注意力机制模块；

所述第一注意力机制模块对输入数据进行特征选取，并将特征选取结果发送到所述多层循环神经网络；

所述多层循环神经网络根据特征选取结果输出多层深度图；

所述第二注意力机制模块对多层深度图进行选择，得到预测深度图。

6.如权利要求5所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述第一～第四特征关联模块结构相同，均包括卷积层、第一循环神经网络、第二循环神经网络、批归一化模块和注意力机制模块；

所述卷积层的卷积核大小为1，用于将输入的多层稀疏特征图变为1层稠密特征层，并将稠密特征层分别发送到所述第一循环神经网络和第二循环神经网络；

所述第一循环神经网络以双向长短时记忆模块为基本单元，以行向量为输入向量，用于从左到右、从右到左的扫描稠密特征层，得到两层特征图；

所述第二循环神经网络也以双向长短时记忆模块为基本单元，并以列向量为输入向量，用于从上到下、从下到上的扫描稠密特征层，得到另两层特征图；

所述批归一化模块对四层特征图进行批归一化处理，处理结果发送到所述注意力机制模块；

所述注意力机制模块对所述处理结果进行特征选择，并输出单层关联后特征图。

7.如权利要求2所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述步骤1.3)中，所述损失函数为：

式中，

是实际深度值，

是预测深度值，

是实际归一化深度值，n是有效深度值的个数。

8.如权利要求1所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述步骤2)中，对训练数据图像和测试图像进行数据预处理，生成训练数据和测试数据的方法为：

首先，根据多尺度混合深度神经网络要求的输入图像尺寸，将训练数据图像和测试图像中的各RGB图像尺寸通过裁剪、缩放、填充方式转换到网络输入图像尺寸；

其次，对得到的各RGB图像的实际深度数值进行归一化操作，使得深度值分布满足均值为0。

9.如权利要求1所述的一种基于单目图像的稠密深度估计方法，其特征在于：所述步骤4)中，采用训练后模型对测试数据进行检测，得到测试图像的深度值的方法，包括以下步骤：