CN113610912A

CN113610912A - 三维场景重建中低分辨率图像单目深度估计系统及方法

Info

Publication number: CN113610912A
Application number: CN202110931555.8A
Authority: CN
Inventors: 程德强; 韩成功; 赵佳敏; 寇旗旗; 陈亮亮; 赵凯
Original assignee: Jiangsu Huatu Mining Technology Co ltd; China University of Mining and Technology CUMT
Current assignee: Jiangsu Huatu Mining Technology Co ltd; China University of Mining and Technology CUMT
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-05
Anticipated expiration: 2041-08-13
Also published as: CN113610912B

Abstract

本发明是一种三维场景重建中低分辨率图像单目深度估计系统及方法，方法包括：步骤1、构建适合EDSR训练的数据库K‑DIV2K数据集；步骤2、采用数据集分别训练EDSR放大2倍、放大3倍和4倍模型，得到具有不同放大能力的超分辨率放大模块；步骤3、将得到的超分辨率放大模块进行多尺度深度预测，得到12个尺度的输入图片；步骤4、将步骤3中其中九个尺度的输入图片送到单目深度估计网络架构中，采用空洞卷积提取图像中的特征图，最终恢复出深度信息图。本发明提升了EDSR模型的泛化能力，使其能在KITTI数据集上得到较好的超分放大效果，提升了模型的在低分辨率输入图像下的特征提取能力和深度估计能力。

Description

三维场景重建中低分辨率图像单目深度估计系统及方法

技术领域

本发明涉及一种图像处理技术，具体的说是一种三维场景重建中低分辨率图像单目深度估计系统及方法。

背景技术

像素级的深度信息往往采用深度传感器等代价昂贵的仪器来获得。随着计算机算力的不断发展，基于大数据驱动的深度学习算法的信息挖掘能力不断的增强。使得单目自监督算法在深度估计上的部署成为一种可能。在计算机视觉领域，随着各种特征提取网络的深度和宽度不断的提升，使得研究人员可以不断的得到图像的高维信息。单幅图像的深度估计本质上是建立一个图像的像素值和实际场景的深度值之间的一个映射关系。其本身上是一个不适定问题，即我们无法像深度传感器一样得到物体间的绝对深度关系，只能得到视野中各物体的相对位置关系。而在实际应用中，得到物体之间的相对深度就足够计算出场景中各个物体的相对位置关系，从而满足视频三维重建的任务要求。而部署价格昂贵的深度传感器得到的绝对深度的性价比比只部署单目摄像头的性价比要低得多。所以单目深度估计依然在场景重建，三维物体检测，机器人视觉和自动驾驶中发挥着巨大的作用。

深度估计方向整体分为单目深度估计和双目深度估计两个方面，早期的深度估计采用传统方法通过立体匹配算法和运动恢复结构从立体图像或者图像序列中来推算深度信息，但是这些方法严重的依赖于输入的多视图几何图像，双目深度估计或者多视点方法大多数都可以得到相当精准的深度信息，这是因为在多个视角中确定三维空间某一点在二维平面上的投影，在已知相机内参和视角之间的位置关系后，这个问题就转变成了一个数学计算问题，所以目前双目深度估计的主要困难在于计算时间和内存需求方面。而单目深度估计的发展主要依赖于卷积神经网络强大的特征提取能力，单目深度估计根据运动恢复结构原理，在单目视频上首次采用前后帧作为自监督方法来处理训练视频中帧间运动过小的问题。SGDepth采用提前训练好的语义分割框架来对深度估计进行指导，从而改善视频中运动物体的深度估计问题。Hanhan Li等提出了一种1/2范数的剩余平移场正则化方法来作为约束方法，通过对视频中运动物体进行筛选来提升单目深度估计的性能。但是上述的这些方法都是在中等分辨率下进行实验，而当图像输入的分辨率降低后，图像估计的性能会得到明显的下降。

现有的深度信息恢复方法还存在如下缺陷：

第一、低分辨率图像由于图像尺寸较小，缺乏物体信息，相比于中等分辨率或高分辨的图像，在进行深度估计时会出现明显的效果降低现象，而传统的双线性插值等放大方法并不能有效的提升低分辨率图像的深度估计性能。

第二、由于双线性采样器的梯度局限性，为了防止训练目标陷入局部极小值，现有的单目深度模型采用多尺度深度预测的方法，但由于低分辨率图像尺寸较小，在进行尺度缩放时出现的最低尺度可能只包含几十个像素点，而这样的图片缺乏物体之间的位置关系从而不再具有训练的意义。

第三、原来的下采样和池化层会导致内部数据结构丢失，空间层化信息模糊，并且在处理小物体信息时会因为图像尺寸过小而丢失物体的语义信息。

发明内容

为了解决上述技术问题，本发明提出了一种基于超分辨EDSR的低分辨率图像单目深度估计方法，通过采用预训练的EDSR模型来代替原本算法中的插值放大模块，提升图像的细节特征，将原本算法中多尺度预测部分的4尺度改为9尺度，采用空洞卷积完成采样操作，在不减少感受野的前提下降低空间特征的损失，增加模型的特征提取能力。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种三维场景重建中低分辨率图像单目深度估计系统及方法，包括如下步骤：

步骤1、构建适合EDSR训练的数据库K-DIV2K数据集，所述K-DIV2K数据集由部分DIV2K数据集与KITTI数据集共同构成，在训练时将KITTI图片和EDSR原本的图片进行交替输入，提升EDSR模型的泛化能力，使其能在KITTI数据集上得到较好的超分放大效果。

步骤2、采用K-DIV2K数据集分别训练EDSR放大2倍、放大3倍和放大4倍模型，得到具有不同放大能力的超分辨率放大模块；

步骤3、将步骤2中得到的三种不同放大能力的超分辨率放大模块进行多尺度深度预测，得到12个输入图片，多尺度深度预测是通过增加输入图片的尺寸来增强模型的泛化能力，首先从磁盘读入原始图片，然后通过插值放大模块改变图片的尺寸，最后输入图片进行训练，目的是防止模型在训练过程中出现局部极小值，而本发明所采用的九尺度深度预测。

步骤4、将步骤3中其中九个尺度的输入图片送到单目深度估计网络架构中，采用空洞卷积提取图像中的特征图，最终恢复出深度信息图。

本发明的进一步改进在于：在所述步骤1中，由于KITTI数据集和DIV2K数据集本身是两个领域的不同数据集，为了使KITTI数据集能在EDSR模型上运行，本专利通过python脚本构建了一个K-DIV2K数据集，所述K-DIV2K数据集的构建包括如下步骤：

步骤1-1、将KITTI数据集中的图片统一缩放到1200×300大小；由于KITTI数据集本身大小就在1200×300左右，所以缩放不会导致图片丢失太多的场景信息，而图片的形变和扭曲对于信息的影响可以忽略不计

步骤1-2：缩放后对KITTI数据集进行等比例缩小两倍、缩小三倍和缩小四倍并在保存时打上标签以便于一一对应；

步骤1-3：将原本的DIV2K数据集提取一部分与KITTI数据集共同构成K-DIV2K数据集。

本发明的进一步改进在于：在所述步骤4中，所述单目深度估计网络架构由深度预测网络和位姿预测网络构成，所述深度预测网络是一个完全卷积的U-Net网络，通过编码器提取输入图像的多维特征，然后通过解码器恢复出原图的深度图，采用的原理是通过位姿网络得到俩帧之间的时差，而深度即为视差的倒数。

本发明的进一步改进在于：所述低分辨率图像单目深度估计方法采用重投影损失函数和光滑损失函数来作为训练过程的无监督约束。

重投影损失L_p由光度误差函数在Pe在t′时刻投影到t时刻的最小值，计算式如下：

L_p＝min_t′Pe(I_t，I_t′→t)；

所述光度误差函数由SSIM结构相似一致性和L1范数共同组成，表示为：

SSIM来比较两张图片的相似性，计算公式为：

SSIM(I_a，I_b)＝[l(I_a，I_b)]^α[c(I_a，I_b)]^β[s(I_a，I_b)]^γ

其中l(I_a，I_b)是亮度比较，c(I_a，I_b)时对比度比较，s(I_a，I_b)是结构比较，光滑损失的计算公式为：

其中

将计算出的视差值平均归一化以防止深度估计过程中的收缩和塌陷，

总损失L的计算公式为：

L＝μL_p+γL_s

其中参数μ的计算公式为：

μ＝[min_t′Pe(I_t，I_t′→t)＜min_t′Pe(I_t，I_t′)]。

掩模参数μ的作用是确定是判断重投影过程中是否存在误检的现象，当从t′时刻投影到t的光度误差已经小于在t′时刻的光度误差时，此时μ＝1，反之认为μ＝0，而参数γ为0.001。

本发明的有益效果是：

第一、通过KITTI数据集构建符合EDSR训练的数据集，在训练时将KITT I图片和EDSR原本的图片进行交替输入，提升EDSR模型的泛化能力，使其能在KITTI数据集上得到较好的超分放大效果，采用训练好的超分重建模型代替Monodepth2中的传统插值放大方法。

第二、Monodepth2中原本的多尺度为原图和三个不断缩小2倍的输入，共计四个尺度，在超分重建模块的帮助下，ED-Monodepth2通过放大两倍，放大三倍，放大四倍对原来的四个尺度进行放大后，共计得到12个尺度，ED-Monodepth2选取其中的9个尺度来进行多尺度深度预测，在保证计算量的前提下提升模型的深度估计能力。

第三、采用空洞卷积代替Monodepth2中的下采样，在不减少感受野的前提下降低空间特征的损失，增加模型的特征提取能力。

附图说明

图1是本发明EDSR训练过程图。

图2是本发明数据集的混合输入图。

图3是本发明Upsample结构图。

图4是原来的四尺度深度预测模型结构图。

图5是本发明多尺度深度预测模型结构图。

图6是本发明空洞卷积结构图。

图7是本发明深度预测网络图。

图8是本发明位姿预测网络图。

图9是本发明估计系统的结构示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本专利提出的ED-Monodepth2基于Monodepth2提出了两点改进，(1)采用超分放大模型来代替Monodepth2中的传统插值放大方法，低分辨率输入图片通过超分模块得到中高分辨率，通过卷积神经网络的特征提取能力，从图像尺寸上提升输入的特征数量，加强场景中的物体相对位置关系；(2)基于超分辨率放大模块将原本的图像多尺度深度预测从原来的4尺度改进为9尺度，通过超分的三个放大倍数，选取其中的九个来作为改进后的尺度，通过增加的尺度输入，改善了图像的纹理复制伪影，减少了重投影损失和光照损失，使得通过姿势网络和深度预测网络得到的图像与原图更加接近，从而提升图像的深度估计效果。(3)采用空洞卷积代替Monodepth2中的下采样，在不减少感受野的前提下降低空间特征的损失，增加模型的特征提取能力。

如图9所示，本发明是一种三维场景重建中低分辨率图像单目深度估计系统，该系统包括超分辨率放大模块、多尺度模块、深度预测模块和位姿预测模块，其中：超分辨率放大模块使用DIV2K和KITTI构成的数据库K-DIV2K训练，用于将低分辨率输入图像放大为三个不同尺寸的高分辨率图像并将其送入到多尺度模块；所述多尺度模块使用第一部分训练好的三种超分辨率放大模型计算并选出其中的九种尺寸并将其送入到深度预测模块和位姿预测模块；所述深度预测模块和位姿预测模块通过第二部分的多尺度图像输入，深度预测模块预测单幅图像的深度信息，位姿预测模块计算出帧间物体的运动轨迹和运动状态，从而对深度信息进行联合估计，最终输出深度信息图。

下面从EDSR模块训练和、多尺度预测、空洞卷积的应用和单目深度估计四个方面详细介绍本专利的实现步骤。

第一部分EDSR模块的训练

在超分重建的模块选择中，本发明选取了EDSR来作为超分放大的模块。EDSR是一种基于编码器解码器结构的有监督网络模型，通过去除掉批量标准化层来减少GPU内存的使用量。本发明由于只是采用超分重建作为预处理的一个过程，所以对于网络的参数量有着较大的要求，图像深度估计网络本身的参数量已经足够大，所以即使现在有较好的超分恢复算法，但由于其网络层数较多，网络较宽等导致的参数量巨大的问题，不适用与预处理，EDSR较小的GPU使用率是本发明选择EDSR作为超分辨率放大模块的的重要原因。

EDSR作为监督算法，在训练时需要真值的输入，即需要高分辨率图像和缩小2倍、缩小3倍和缩小4倍的低分辨率图像对应输入，在训练过程中我们将超分重建领域的数据集DIV2K和单目深度估计领域的数据集KITTI交替输入，以增强模型的泛化能力，EDSR训练过程如图1所示。

由于KITTI数据集和DIV2K数据集本身是两个领域的不同数据集，为了使KITTI数据集能在EDSR模型上运行，本发明通过python脚本构建了一个K-DIV2K数据集，首先将KITTI数据集中的图片统一缩放到1200×300大小，由于KITTI数据集本身大小就在1200×300左右，所以缩放不会导致图片丢失太多的场景信息，而图片的形变和扭曲对于信息的影响可以忽略不计，缩放后对KITTI数据集进行等比例缩小两倍、缩小三倍和缩小四倍并在保存时打上标签以便于一一对应，然后将原本的DIV2K数据集提取一部分与KITTI数据集共同构成K-DIV2K数据集。数据集的混合输入如图2所示。其中Upsample为上采样模块，上采样模块共有三种模式，分别对应着放大两倍、放大三倍和放大四倍，选择不同的放大倍数即可训练不同的EDSR放大模型Upsample如图3所示。

第二部分多尺度深度预测

原来的四尺度深度预测模型结构如图4所示，在从磁盘上读取到数据库的图片后，Monodepth2首先将图片缩放到指定的图片尺寸x，随后将图片尺寸x通过普通的插值方法缩小为原图的二分之一、四分之一和八分之一，然后将修改后的尺寸作为输入图片送入深度预测网路来进行训练。由于低分辨率图像本身就缺乏详细的纹理信息，在进行缩小后八分之一的尺寸会丢失更多的特征，此时再把这样尺寸的图片送入深度预测网络，会增加网络的负担，而性能确不会有明显的提升，甚至可能会因为图片尺寸过小，引入无关的背景噪声从而降低模型深度恢复的能力。

而本发明将训练好的超分模块来对低分辨率图像进行预先的超分重建，而在重建后选择了9个尺度来作为输入图片的尺寸。

在图中可以看到基于SRX4模块的放大尺寸只有4x一个，而基于SRX3放大的图像尺寸有3x、3/2x、4/3x和8/3x四种，基于SRX2放大的图像尺寸有2x、1/2x和1/4x三种，原图的尺寸选择不经过放大模块，直接由输入图像得到。在超分放大尺寸选择方面，虽然尺寸为2x的图像可以经过SRX4和SRX2共同得到，但是前者是先将原图尺寸x放大4倍，再缩小2倍，后者是直接放大2倍。

从图像数据的恢复结构来看后者不光计算量小，而且对于超分模块来说，放大倍数越大放大效果往往会变得越差，所以最终选择了后者；在尺寸选择方面，遵循计算量小，延迟低，效果好的特点，最终选择了9个尺度来作为改进后的多尺度深度预测方法。多尺度深度预测本质上是为了防止深度预测网络在训练过程中陷入局部极小值，所以在尺度方面保证每个图片的输入尺寸都是原来的整数倍，而改进后的九尺度深度预测在全尺寸的偶数位和奇数位都规律的保证了上一位尺寸的1/2，在增加尺寸的同时保持了原来四尺度的规律性；并且由于超分模块的放大效果，改进后的九尺度深度预测的最小尺度为原图尺寸的1/4，相比于原来的四尺度深度预测的最小尺寸1/8，整体扩大了2倍；在增加了输入图片尺度的前提下，提升了图片的利用效率，改善了模型对于小尺度输入图片的特征提取能力。

主要步骤：

(1)原图x通过SRX2、SRX3和SRX4三个超分辨率放大模块得到三种尺寸2x、3x和4x。

(2)对三种尺寸分别进行缩小2倍，缩小3倍和缩小4倍的尺寸改变。

(3)从上一步得到的12种尺寸中选择9个尺寸来作为输入图片的尺寸。

(4)将9个尺寸输入到送到深度预测网络和位姿预测网络中进行深度估计。

第三部分空洞卷积的应用

在解码器部分，我们采用不同采样率的空洞卷积来代替原本的下采样方法，相当于使用多个比例来捕捉输入图像的特征信息。原来的下采样和池化层会导致内部数据结构丢失，空间层化信息模糊，并且在处理小物体信息时会因为图像尺寸过小而丢失物体的语义信息。本发明主要针对的低分辨率图像下的深度信息估计，在低分辨率下，上述问题尤为明显，故采用空洞卷积来代替原本的下采样操作，空洞卷积可以在不做池化操作损失信息的前提下，加大了感受野，让每个卷积层都包含较大范围的信息，空洞卷积结构如图6所示。

第四部分单目深度估计

单目深度估计的网络架构包括深度预测网络，用于从单幅图像中恢复出场景中的深度信息，和位姿预测网络，用于预测训练视频中俩帧之间物体的运动关系。

本发明中的深度预测网络是一个完全卷积的U-Net网络，通过编码器提取输入图像的多维特征，然后通过解码器恢复出原图的深度图，采用的原理是通过位姿网络得到俩帧之间的时差，而深度即为视差的倒数。在深度估计领域，整体上可分为有监督和无监督两种算法，有监督采用激光雷达得到的深度真值来进行训练，而无监督单目深度估计采用位姿网络和深度预测网络联合训练，通过深度预测网络得到当前时刻I_t对应的深度图D_t。位姿网络输入当前时刻I_t和下一时刻I_t1，通过I_t和I_t1预测出这一时刻的物体运动情况，输出一个物体的运动参数矩阵，根据运动参数矩阵和深度图D_t计算出下一个时刻I_t1 ^*，然后计算I_t1 ^*和I_t1相似性，计算最小重投影损失和光滑损失来建立约束关系，实现无需真值的自监督单目深度估计算法。深度预测网络如图7所示。位姿预测网络如图8所示。

ED-Monodepth2采用重投影损失函数和光滑损失函数来作为训练过程的无监督约束。重投影损失L_p由光度误差函数在Pe在t′时刻投影到t时刻的最小值，如公式(5-3)所示。光度误差函数由SSIM结构相似一致性和L1范数共同组成如公式(5-1)所示。在计算过程中，取α＝0.85.而SSIM常用来比较两张图片的相似性，计算公式如图(5-2)所示.其中l(I_a，I_b)是亮度比较，c(I_a，I_b)时对比度比较，s(I_a，I_b)是结构比较。

SSIM(I_a，I_b)＝[l(I_a，I_b)]^α[c(I_a，I_b)]^β[s(I_a，I_b)]^γ (5-2)

L_p＝min_t′Pe(I_t，I_t′→t) (5-3)光滑损失计算公式如公式(5-4)所示，其中

将计算出的视差值平均归一化以防止深度估计过程中的收缩和塌陷。

总损失L的计算公式如图(5-6)所示，其中参数μ的计算公式如图(5-5)所示。掩模μ的作用是确定是判断重投影过程中是否存在误检的现象，当从t′时刻投影到t的光度误差已经小于在t′时刻的光度误差时，此时μ＝1，反之认为μ＝0。而参数γ为0.001。

μ＝[min_t′Pe(I_t，I_t′→t)＜min_t′Pe(I_t，I_t′)] (5-5)

L＝μL_p+γL_s (5-6)。

本发明将低分辨图像在进行深度估计之前进行超分重建，使用超分模块代替原本的插值放大方法，从而得到细节特征更加丰富的高分辨率的输入图像；对原本的对尺度深度预测做出改进，将原本的4尺度改为9尺度，由于前面尺度的放大，而改进后的9尺度的最低尺度是原来的2倍，增加的训练图片的有效性，减少计算过程中的了重投影损失和纹理复制伪影，采用空洞卷积采样，增加模型的特征提取能力。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种三维场景重建中低分辨率图像单目深度估计方法，其特征在于：所述低分辨率图像单目深度估计方法包括如下步骤：

步骤1、构建适合EDSR训练的数据库K-DIV2K数据集，所述K-DIV2K数据集由部分DIV2K数据集与KITTI数据集共同构成；

步骤2、采用K-DIV2K数据集分别训练EDSR放大2倍、放大3倍和放大4倍模型，得到具有不同放大能力的超分辨率放大模块，在训练时将KITTI图片和EDSR原本的图片进行交替输入；

步骤3、将步骤2中得到的三种不同放大能力的超分辨率放大模块进行多尺度深度预测，得到12个尺度的输入图片；

2.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：在所述步骤1中，所述K-DIV2K数据集的构建包括如下步骤：

步骤1-1、将KITTI数据集中的图片统一缩放到1200×300大小；

步骤1-2：缩放后对KITTI数据集进行等比例缩小两倍、缩小三倍和缩小四倍并在保存时打上标签；

3.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：在所述步骤3中，所述多尺度深度预测为九尺度深度预测。

4.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：在所述步骤4中，所述单目深度估计网络架构由深度预测网络和位姿预测网络构成。

5.根据权利要求4所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：所述深度预测网络是一个完全卷积的U-Net网络，通过编码器提取输入图像的多维特征，然后通过解码器恢复出原图的深度图，采用的原理是通过位姿网络得到俩帧之间的时差，而深度即为视差的倒数。

6.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：所述低分辨率图像单目深度估计方法采用重投影损失函数和光滑损失函数来作为训练过程的无监督约束。

7.根据权利要求6所述三维场景重建中低分辨率图像单目深度估计方法，其特征在于：所述步骤6中的重投影损失L_p由光度误差函数在Pe在t′时刻投影到t时刻的最小值，计算式如下：

L_p＝min_t′Pe(I_t，I_t′→t)；

SSIM来比较两张图片的相似性，计算公式为：

SSIM(I_a，I_b)＝[l(I_a，I_b)]^α[c(I_a，I_b)]^β[s(I_a，I_b)]^γ

其中l(I_a，I_b)是亮度比较，c(I_a，I_b)时对比度比较，s(I_a，I_b)是结构比较，

光滑损失的计算公式为：

其中

总损失L的计算公式为：

L＝μL_p+γL_s

其中参数μ的计算公式为：

μ＝[min_t′Pe(I_t，I_t′→t)＜min_t，Pe(I_t，I_t′)]。

8.根据权利要求1-7任一项所述三维场景重建中低分辨率图像单目深度估计系统，其特征在于：所述系统包括超分辨率放大模块、多尺度模块、深度预测模块和位姿预测模块，其中：

超分辨率放大模块使用DIV2K和KITTI构成的数据库K-DIV2K训练，用于将低分辨率输入图像放大为三个不同尺寸的高分辨率图像并将其送入到多尺度模块；

所述多尺度模块使用第一部分训练好的三种超分辨率放大模型计算并选出其中的九种尺寸并将其送入到深度预测模块和位姿预测模块；

所述深度预测模块和位姿预测模块通过第二部分的多尺度图像输入，深度预测模块预测单幅图像的深度信息，位姿预测模块计算出帧间物体的运动轨迹和运动状态，从而对深度信息进行联合估计，最终输出深度信息图。