CN114119694A - 一种基于改进U-Net的自监督单目深度估计算法 - Google Patents
一种基于改进U-Net的自监督单目深度估计算法 Download PDFInfo
- Publication number
- CN114119694A CN114119694A CN202111326701.0A CN202111326701A CN114119694A CN 114119694 A CN114119694 A CN 114119694A CN 202111326701 A CN202111326701 A CN 202111326701A CN 114119694 A CN114119694 A CN 114119694A
- Authority
- CN
- China
- Prior art keywords
- layer
- channels
- image
- convolution
- becomes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出基于U‑Net的自监督单目深度估计算法,解决U‑Net网络未充分利用全尺度特征图的问题,提高了网络对于边界处和遮挡处的深度预测精度,其包括以下步骤:1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)通过将编码器的多通道信息分组连接到解码器,从而实现深层特征和浅层特征融合,以减少视觉伪影;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
Description
技术领域
本发明提出一种基于改进U-Net的自监督单目深度估计算法,解决U-Net 网络没有充分利用全尺度特征度的问题,提高了对于特征图的深度预测的准确性。属于数字图像处理领域。
背景技术
在数字图像处理中,深度图是研究的关键问题之一。在自动驾驶等领域中,预测行人等周边环境距离车辆的远近是至关重要的,因此也突显出了本研究的重要性。
对于不具有大的无语义区域的图片,常规的深度估计方法可以取得很好的估计精度。但是对于具有大的无语义区域以及无清晰的边界的图片,以往的精度都不太理想。这些方法在KITTI、Make3D等数据集上的检测结果来看,对于其中的上述图片产生的深度图较为模糊,精度较低。由此可以说明此前方法对于边界以及大的无语义区域缺少更精确的估计。边界和无语义区域成为制约单目深度估计的关键问题,越来越多的学者对此展开了研究,通过研究卷积神经网络低层特征和高层特征的信息特点,使用不同层的特征输出其深度图,得出了不同特征层具有不同的贡献的结论,即高层特征可以表达整幅图像的语义环境和物体的边界等信息,而低层特征经过卷积之后,可以表达一些说不清的更抽象化的特征。本文发明主要针对此前的神经网络 U-Net过于简单,没有充分利用多层特征图的问题,提出了具有全连接的编码器和解码器,增强了网络对于不同层次特征的利用,并引入通道注意力模块增强重要通道的权重,从而提高了模型的预测精度,并可以产生更清晰的深度图。
发明内容
针对上述问题,本发明的是一种基于改进U-Net的自监督单目深度估计算法,通过使用ResNet网络改进U-Net网络无法利用全尺度特征的问题,增强网络对于不同层次特征的利用,利用通道注意力模块结合五个不同尺度的特征信息,充分利用不同特征图的信息,增强了网络对于边界等区域等的预测精确度,发明基本流程如图1所示。
本发明采取如下技术方案:一种基于改进U-Net的自监督单目深度估计算法包括如下步骤:
1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息;
2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;
3)通过将编码器的多通道信息分组连接到解码器,从而实现深层特征和浅层特征融合,以减少视觉伪影;
4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
本发明由于采取以上方法,其具有以下优点:
1、通过使用通道注意力模块增强重要通道信息的权重;
2、改进原有的编码器和解码器的结构,使解码器能充分利用多尺度特征图的信息。
3、在保证速度的同时有效提高检测精度,尤其是对语义边界不明显的图片。
附图说明
图1本发明基本流程图;
图2改进的U-Net结构;
图3本发明网络生成过程;
图4本发明网络整体改进后实验效果;
具体实施方式
下面结合说明书附图通过一个实例对本发明做进一步说明,本实例仅为本发明其中的一种应用实例。
步骤1)获取KITTI数据集的44234张图像,其中分为训练集39810张和测试集4424张,对所有图像使用相同的处理,将相机的主点设置为图像中心,焦距设置为KITTI中所有焦距的平均值。对于立体和混合训练(单目加立体),将两个立体帧之间的转换设置为纯固定长度的水平平移。
本发明的编码器解码器网络是在U-Net的基础上改进,如图2所示,具体步骤为:
S11)将输入大小为640×192的特征图输入到编码器网络中,通过第一层3×3卷积,通道数变为64,图像大小变为320×96;通过第二层卷积通道数变为64,图像大小变为160×48;通过第三层卷积通道数变为128,图像大小变为80×24;通过第三层卷积通道数变为256,图像大小变为40×12;通过第四层卷积通道数变为512,图像大小变为20×6。
S12)如果输入为多张图片,即当采用单目视频序列时,图片数量为三张,分别为第0帧、第1帧和第2帧,当采用立体图像对为输入时,图片数量为两张,分别是左右图像对。此时初始输入通道数由3变为3×图片数量,并通过一层卷积核大小为7的卷积层。
步骤2)首先接收来自解码器端的大小为20×6,通道数为512的特征图;经过第一层卷积和上采样层通道数变为256,图像大小为40×12;经过第二层卷积和上采样层通道数变为128,图片大小为80×24;经过第三层卷积层和尚采样层通道数变为64,图片大小变为160×48;经过第四层卷积和上采样层通道数变为64,图片大小变为320×96;在经过两层卷积层和一层上采样层,输出和原图大小相同的深度图。
S31)因为考虑到浅层特征有更清晰的语义边界和边缘信息以及深层特征具有经过卷积后的特异特征,因此采用了全连接的网络架构方式。首先位于解码器端的大小为40×12的特征图首先接收来自解码器端第一层的特征,其经过一个通道注意力模块通道数由64变为16;再依此接受编码器端第二层、第三层、第四层和具有512通道的特征,并将它们都通过通道注意力模块将通道压缩为 16,因此位于解码器端的大小为40×12的特征图共接收了5个通道数为16的特征图,并将它们通过通道注意力模块在通道数这一维度结合起来,因此位于解码器端的大小为40×12的特征图具有16×5个通道。其他位于解码器端的特征图都做相应的处理。至此位于解码器端的每一个特征图都接收了编码器端的所有特征图。
S32)空间注意力模块由一个平局池化层、两层全连接层和一个卷积层组成,其通道注意力机制是通过先将输入的图像的大小改为1×1,再馈送到上述层中,从而实现了忽略空间对权重的影响。
S41)通过采用边缘逐像素平滑度损失让边缘处的像素数值呈梯度式的下降,从而降低了边缘处的误差。
S42)采用图像重投影损失,即训练过程中首先将当前帧图像输入深层卷积神经网络,通过网络得到预测的深度图,然后利用网络得到的深度图和输入的上一帧图像重建出当前帧图像,并计算重建当前帧与真实的当前帧之间的损失函数。
在PyTorch上实现我们的模型,并在一台2*tesla v100s显卡上训练它们。我们使用Adam Optimizer,β1=0.9,β2=0.999。deepthnet和PoseNet被训练了20个纪元,每批12个。两种网络的初始学习速率均为1×10-3,并在 15个周期后以10的倍数衰减。训练序列由三幅连续图像组成。我们将SSIM权重设为α=0.85,平滑损失权重设为λ=1×10-3。
通过整合以上所有改进,形成了本文的DenseMono2网络,本发明的实验对比了Monodepth2、Struct2depth等网络在KITTI数据集上的实验效果,通过 Abs rel,Sq Rel,MSE,RMSElog,δ<1.25,δ<1.252,δ<1.253评价指标评估本发明提出的改进网络的性能,如图4所示。
本发明的保护范围也并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于改进U-Net的自监督单目深度估计算法,其特征在于,包含如下步骤:
1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息;
2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;
3)通过将编码器的多通道信息分组连接到解码器,从而实现深层特征和浅层特征融合,以减少视觉伪影;
4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
2.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法,其特征在于:所述步骤1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息,具体步骤为:
S11)将输入大小为640×192的特征图输入到编码器网络中,通过第一层3×3卷积,通道数变为64,图像大小变为320×96;通过第二层卷积通道数变为64,图像大小变为160×48;通过第三层卷积通道数变为128,图像大小变为80×24;通过第三层卷积通道数变为256,图像大小变为40×12;通过第四层卷积通道数变为512,图像大小变为20×6。
S12)如果输入为多张图片,即当采用单目视频序列时,图片数量为三张,分别为第0帧、第1帧和第2帧,当采用立体图像对为输入时,图片数量为两张,分别是左右图像对。此时初始输入通道数由3变为3×图片数量,并通过一层卷积核大小为7的卷积层。
3.如权利要求1的一种基于改进U-Net的自监督单目深度估计算法,其特征在于:所述步骤2),具体步骤为:首先接收来自解码器端的大小为20×6,通道数为512的特征图;经过第一层卷积和上采样层通道数变为256,图像大小为40×12;经过第二层卷积和上采样层通道数变为128,图片大小为80×24;经过第三层卷积层和尚采样层通道数变为64,图片大小变为160×48;经过第四层卷积和上采样层通道数变为64,图片大小变为320×96;在经过两层卷积层和一层上采样层,输出和原图大小相同的深度图。
4.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法,其特征在于:所述步骤3),具体步骤为:
S31)因为考虑到浅层特征有更清晰的语义边界和边缘信息以及深层特征具有经过卷积后的特异特征,因此采用了全连接的网络架构方式。首先位于解码器端的大小为40×12的特征图首先接收来自解码器端第一层的特征,其经过一个通道注意力模块通道数由64变为16;再依此接受编码器端第二层、第三层、第四层和具有512通道的特征,并将它们都通过通道注意力模块将通道压缩为16,因此位于解码器端的大小为40×12的特征图共接收了5个通道数为16的特征图,并将它们通过通道注意力模块在通道数这一维度结合起来,因此位于解码器端的大小为40×12的特征图具有16×5个通道。其他位于解码器端的特征图都做相应的处理。至此位于解码器端的每一个特征图都接收了编码器端的所有特征图。
S32)空间注意力模块由一个平局池化层、两层全连接层和一个卷积层组成,其通道注意力机制是通过先将输入的图像的大小改为1×1,再馈送到上述层中,从而实现了忽略空间对权重的影响。
5.如权利要求1所述的一种基于改进U-Net的自监督单目深度估计算法,其特征在于:所述步骤4)具体步骤为:
S41)通过采用边缘逐像素平滑度损失让边缘处的像素数值呈梯度式的下降,从而降低了边缘处的误差。
S42)采用图像重投影损失,即训练过程中首先将当前帧图像输入深层卷积神经网络,通过网络得到预测的深度图,然后利用网络得到的深度图和输入的上一帧图像重建出当前帧图像,并计算重建当前帧与真实的当前帧之间的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326701.0A CN114119694A (zh) | 2021-11-10 | 2021-11-10 | 一种基于改进U-Net的自监督单目深度估计算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326701.0A CN114119694A (zh) | 2021-11-10 | 2021-11-10 | 一种基于改进U-Net的自监督单目深度估计算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114119694A true CN114119694A (zh) | 2022-03-01 |
Family
ID=80378085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111326701.0A Pending CN114119694A (zh) | 2021-11-10 | 2021-11-10 | 一种基于改进U-Net的自监督单目深度估计算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114119694A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972882A (zh) * | 2022-06-17 | 2022-08-30 | 西安交通大学 | 基于多注意力机制的磨损表面损伤深度估计方法及系统 |
CN115035171A (zh) * | 2022-05-31 | 2022-09-09 | 西北工业大学 | 基于自注意力导向特征融合的自监督单目深度估计方法 |
CN115115686A (zh) * | 2022-08-22 | 2022-09-27 | 中国矿业大学 | 基于细粒度多特征融合的矿井图像无监督单目深度估计方法 |
-
2021
- 2021-11-10 CN CN202111326701.0A patent/CN114119694A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035171A (zh) * | 2022-05-31 | 2022-09-09 | 西北工业大学 | 基于自注意力导向特征融合的自监督单目深度估计方法 |
CN114972882A (zh) * | 2022-06-17 | 2022-08-30 | 西安交通大学 | 基于多注意力机制的磨损表面损伤深度估计方法及系统 |
CN114972882B (zh) * | 2022-06-17 | 2024-03-01 | 西安交通大学 | 基于多注意力机制的磨损表面损伤深度估计方法及系统 |
CN115115686A (zh) * | 2022-08-22 | 2022-09-27 | 中国矿业大学 | 基于细粒度多特征融合的矿井图像无监督单目深度估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210390723A1 (en) | Monocular unsupervised depth estimation method based on contextual attention mechanism | |
CN110889895B (zh) | 一种融合单帧重建网络的人脸视频超分辨率重建方法 | |
CN114119694A (zh) | 一种基于改进U-Net的自监督单目深度估计算法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN114638836B (zh) | 基于高度有效驱动与多层级特征融合的城市街景分割方法 | |
CN115035171B (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN110992414B (zh) | 一种基于卷积神经网络的室内单目场景深度估计的方法 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN110246171B (zh) | 一种实时单目视频深度估计方法 | |
CN117152436A (zh) | 基于深度可分离卷积和金字塔池化的视频语义分割方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
Ma et al. | Cloud-egan: rethinking cyclegan from a feature enhancement perspective for cloud removal by combining cnn and transformer | |
CN109087247B (zh) | 一种对立体图像进行超分的方法 | |
CN115631223A (zh) | 基于自适应学习和聚合的多视图立体重建方法 | |
CN112396674B (zh) | 一种基于轻量生成对抗网络的快速事件图像填补方法及系统 | |
CN113724156A (zh) | 一种结合大气散射模型的生成对抗网络去雾方法和系统 | |
CN113538402A (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN116523743A (zh) | 一种基于循环神经网络的游戏超分辨率方法 | |
CN114119704A (zh) | 一种基于空间金字塔池化的光场图像深度估计方法 | |
CN112907641A (zh) | 一种基于细节信息保持的多视点视图深度估计方法 | |
CN110766732A (zh) | 一种鲁棒的单相机深度图估计方法 | |
Choudhary et al. | Mestereo-du2cnn: a novel dual channel CNN for learning robust depth estimates from multi-exposure stereo images for HDR 3d applications | |
CN113450249B (zh) | 一种面向不同液晶屏尺寸具有美学特征的视频重定向方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |