CN114119694A

CN114119694A - 一种基于改进U-Net的自监督单目深度估计算法

Info

Publication number: CN114119694A
Application number: CN202111326701.0A
Authority: CN
Inventors: 郑秋梅; 于涛
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-03-01

Abstract

本发明提出基于U‑Net的自监督单目深度估计算法，解决U‑Net网络未充分利用全尺度特征图的问题，提高了网络对于边界处和遮挡处的深度预测精度，其包括以下步骤：1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征，充分利用不同尺度的特征信息；2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征，从而生成精密的深度图；3)通过将编码器的多通道信息分组连接到解码器，从而实现深层特征和浅层特征融合，以减少视觉伪影；4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。

Description

一种基于改进U-Net的自监督单目深度估计算法

技术领域

本发明提出一种基于改进U-Net的自监督单目深度估计算法，解决U-Net 网络没有充分利用全尺度特征度的问题，提高了对于特征图的深度预测的准确性。属于数字图像处理领域。

背景技术

在数字图像处理中，深度图是研究的关键问题之一。在自动驾驶等领域中，预测行人等周边环境距离车辆的远近是至关重要的，因此也突显出了本研究的重要性。

对于不具有大的无语义区域的图片，常规的深度估计方法可以取得很好的估计精度。但是对于具有大的无语义区域以及无清晰的边界的图片，以往的精度都不太理想。这些方法在KITTI、Make3D等数据集上的检测结果来看，对于其中的上述图片产生的深度图较为模糊，精度较低。由此可以说明此前方法对于边界以及大的无语义区域缺少更精确的估计。边界和无语义区域成为制约单目深度估计的关键问题，越来越多的学者对此展开了研究，通过研究卷积神经网络低层特征和高层特征的信息特点，使用不同层的特征输出其深度图，得出了不同特征层具有不同的贡献的结论，即高层特征可以表达整幅图像的语义环境和物体的边界等信息，而低层特征经过卷积之后，可以表达一些说不清的更抽象化的特征。本文发明主要针对此前的神经网络 U-Net过于简单，没有充分利用多层特征图的问题，提出了具有全连接的编码器和解码器，增强了网络对于不同层次特征的利用，并引入通道注意力模块增强重要通道的权重，从而提高了模型的预测精度，并可以产生更清晰的深度图。

发明内容

针对上述问题，本发明的是一种基于改进U-Net的自监督单目深度估计算法，通过使用ResNet网络改进U-Net网络无法利用全尺度特征的问题,增强网络对于不同层次特征的利用，利用通道注意力模块结合五个不同尺度的特征信息，充分利用不同特征图的信息，增强了网络对于边界等区域等的预测精确度，发明基本流程如图1所示。

本发明采取如下技术方案：一种基于改进U-Net的自监督单目深度估计算法包括如下步骤：

1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征，充分利用不同尺度的特征信息；

2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征，从而生成精密的深度图；

3)通过将编码器的多通道信息分组连接到解码器，从而实现深层特征和浅层特征融合，以减少视觉伪影；

4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。

本发明由于采取以上方法，其具有以下优点：

1、通过使用通道注意力模块增强重要通道信息的权重；

2、改进原有的编码器和解码器的结构，使解码器能充分利用多尺度特征图的信息。

3、在保证速度的同时有效提高检测精度，尤其是对语义边界不明显的图片。

附图说明

图1本发明基本流程图；

图2改进的U-Net结构；

图3本发明网络生成过程；

图4本发明网络整体改进后实验效果；

具体实施方式

下面结合说明书附图通过一个实例对本发明做进一步说明，本实例仅为本发明其中的一种应用实例。

步骤1)获取KITTI数据集的44234张图像，其中分为训练集39810张和测试集4424张，对所有图像使用相同的处理，将相机的主点设置为图像中心，焦距设置为KITTI中所有焦距的平均值。对于立体和混合训练(单目加立体)，将两个立体帧之间的转换设置为纯固定长度的水平平移。

本发明的编码器解码器网络是在U-Net的基础上改进，如图2所示，具体步骤为：

S11)将输入大小为640×192的特征图输入到编码器网络中，通过第一层3×3卷积，通道数变为64，图像大小变为320×96；通过第二层卷积通道数变为64，图像大小变为160×48；通过第三层卷积通道数变为128，图像大小变为80×24；通过第三层卷积通道数变为256，图像大小变为40×12；通过第四层卷积通道数变为512，图像大小变为20×6。

S12)如果输入为多张图片，即当采用单目视频序列时，图片数量为三张，分别为第0帧、第1帧和第2帧，当采用立体图像对为输入时，图片数量为两张，分别是左右图像对。此时初始输入通道数由3变为3×图片数量，并通过一层卷积核大小为7的卷积层。

步骤2)首先接收来自解码器端的大小为20×6，通道数为512的特征图；经过第一层卷积和上采样层通道数变为256，图像大小为40×12；经过第二层卷积和上采样层通道数变为128，图片大小为80×24；经过第三层卷积层和尚采样层通道数变为64，图片大小变为160×48；经过第四层卷积和上采样层通道数变为64，图片大小变为320×96；在经过两层卷积层和一层上采样层，输出和原图大小相同的深度图。

S31)因为考虑到浅层特征有更清晰的语义边界和边缘信息以及深层特征具有经过卷积后的特异特征，因此采用了全连接的网络架构方式。首先位于解码器端的大小为40×12的特征图首先接收来自解码器端第一层的特征，其经过一个通道注意力模块通道数由64变为16；再依此接受编码器端第二层、第三层、第四层和具有512通道的特征，并将它们都通过通道注意力模块将通道压缩为 16，因此位于解码器端的大小为40×12的特征图共接收了5个通道数为16的特征图，并将它们通过通道注意力模块在通道数这一维度结合起来，因此位于解码器端的大小为40×12的特征图具有16×5个通道。其他位于解码器端的特征图都做相应的处理。至此位于解码器端的每一个特征图都接收了编码器端的所有特征图。

S32)空间注意力模块由一个平局池化层、两层全连接层和一个卷积层组成，其通道注意力机制是通过先将输入的图像的大小改为1×1，再馈送到上述层中，从而实现了忽略空间对权重的影响。

S41)通过采用边缘逐像素平滑度损失让边缘处的像素数值呈梯度式的下降，从而降低了边缘处的误差。

S42)采用图像重投影损失，即训练过程中首先将当前帧图像输入深层卷积神经网络，通过网络得到预测的深度图，然后利用网络得到的深度图和输入的上一帧图像重建出当前帧图像，并计算重建当前帧与真实的当前帧之间的损失函数。

在PyTorch上实现我们的模型，并在一台2*tesla v100s显卡上训练它们。我们使用Adam Optimizer，β1＝0.9，β2＝0.999。deepthnet和PoseNet被训练了20个纪元，每批12个。两种网络的初始学习速率均为1×10-3，并在 15个周期后以10的倍数衰减。训练序列由三幅连续图像组成。我们将SSIM权重设为α＝0.85，平滑损失权重设为λ＝1×10-3。

通过整合以上所有改进，形成了本文的DenseMono2网络，本发明的实验对比了Monodepth2、Struct2depth等网络在KITTI数据集上的实验效果，通过 Abs rel，Sq Rel，MSE，RMSE_log,δ<1.25,δ<1.25²,δ<1.25³评价指标评估本发明提出的改进网络的性能，如图4所示。

本发明的保护范围也并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于改进U-Net的自监督单目深度估计算法，其特征在于，包含如下步骤：

2.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法，其特征在于：所述步骤1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征，充分利用不同尺度的特征信息，具体步骤为：

3.如权利要求1的一种基于改进U-Net的自监督单目深度估计算法，其特征在于：所述步骤2)，具体步骤为：首先接收来自解码器端的大小为20×6，通道数为512的特征图；经过第一层卷积和上采样层通道数变为256，图像大小为40×12；经过第二层卷积和上采样层通道数变为128，图片大小为80×24；经过第三层卷积层和尚采样层通道数变为64，图片大小变为160×48；经过第四层卷积和上采样层通道数变为64，图片大小变为320×96；在经过两层卷积层和一层上采样层，输出和原图大小相同的深度图。

4.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法，其特征在于：所述步骤3)，具体步骤为：

S31)因为考虑到浅层特征有更清晰的语义边界和边缘信息以及深层特征具有经过卷积后的特异特征，因此采用了全连接的网络架构方式。首先位于解码器端的大小为40×12的特征图首先接收来自解码器端第一层的特征，其经过一个通道注意力模块通道数由64变为16；再依此接受编码器端第二层、第三层、第四层和具有512通道的特征，并将它们都通过通道注意力模块将通道压缩为16，因此位于解码器端的大小为40×12的特征图共接收了5个通道数为16的特征图，并将它们通过通道注意力模块在通道数这一维度结合起来，因此位于解码器端的大小为40×12的特征图具有16×5个通道。其他位于解码器端的特征图都做相应的处理。至此位于解码器端的每一个特征图都接收了编码器端的所有特征图。

5.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法，其特征在于：所述步骤4)具体步骤为：