CN110322499B - 一种基于多层特征的单目图像深度估计方法 - Google Patents

一种基于多层特征的单目图像深度估计方法 Download PDF

Info

Publication number
CN110322499B
CN110322499B CN201910614788.8A CN201910614788A CN110322499B CN 110322499 B CN110322499 B CN 110322499B CN 201910614788 A CN201910614788 A CN 201910614788A CN 110322499 B CN110322499 B CN 110322499B
Authority
CN
China
Prior art keywords
layer
depth estimation
output
output end
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910614788.8A
Other languages
English (en)
Other versions
CN110322499A (zh
Inventor
周武杰
段婷
叶绿
何成
雷景生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910614788.8A priority Critical patent/CN110322499B/zh
Publication of CN110322499A publication Critical patent/CN110322499A/zh
Application granted granted Critical
Publication of CN110322499B publication Critical patent/CN110322499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Abstract

本发明公开了一种基于多层特征的单目图像深度估计方法。选取原始单目深度估计图像以及其对应已知的深度估计标签图并构成训练集,构建神经网络,将训练集输入到神经网络模型中进行训练,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值;不断迭代训练从而完成神经网络模型的训练;利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,输出获得对应的深度预测图。本发明实现了低、中、高层的特征图有效组合与不同层信息的有效互补,加快模型的运行速度,提高网络模型的效率,预测精确率提高,同时深度图的质量也进一步提升。

Description

一种基于多层特征的单目图像深度估计方法
技术领域
本发明涉及一种深度学习的深度预测方法,尤其是涉及一种基于多层特征的单目深度估计的方法。
背景技术
深度估计是计算机视觉一个重要的研究问题,深度估计是对图像深度信息的提取,深度信息反映了几何信息,是理解场景几何问题的重要组成部分,对三维场景重建起着重要的作用,目前获取深度信息主要有两种方法,即传统方法与深度学习,传统方法采用硬件设施进行提取,如激光测距仪、激光雷达等可以直接取得深度信息,设备价格较昂贵,且所测得的深度信息存在一定的误差,因此深度学习很大程度上解决了传统方法的问题,2014年,Eigen率先提出了利用卷积网络进行深度估计,其神经网络设计包含两个尺度,首先是对输入图片的全局深度进行粗估计,再经过局部细化部分,得到了精确的深度估计结果。其后,Eigen与Fergus等人又提出了新的网络模型,实现多任务统一,将深度估计、表面法线、语义标注体现在一个神经网络中,效果得到了明显的提升。
深度估计包括多目深度估计、双目深度估计以及单目深度估计,多目深度估计是通过对同一场景采用计算机阵列进行图像采集,利用视点图像之间出现冗余信息来进行深度信息的计算,能够获得较为准确的深度信息;双目深度估计是仿照人的双眼对深度感知,利用左右视差进行三角测距,而单目深度估计是基于单视点图像的深度估计,由于单视点图像在生活中应用广泛,因此单目深度估计更贴近于实际应用的需求,但单目深度估计的深度信息提取具有一定的难度,预测出的深度图,其准确性还需进一步提升。
发明内容
为了解决背景技术中存在的问题,本发明所要解决的技术问题是提供一种基于多层特征的单目图像深度估计方法,其预测出的深度图准确性较好。
本发明解决上述技术问题所采用的技术方案为:
步骤1_1:
选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图;深度估计标签图中的每个像素点代表为原始单目深度估计图像中对应位置相同的像素点的深度。
然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为
Figure BDA0002123578610000021
将第n幅原始单目图像对应的深度估计标签图记为
Figure BDA0002123578610000022
具体实施中的原始单目深度估计图为生活中道路上拍摄的图像,包括行人、车、树、行驶的车辆、房屋等。其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤x≤W,1≤y≤H,
Figure BDA0002123578610000023
表示坐标位置为(i,j)的像素点的像素值,
Figure BDA0002123578610000024
表示坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:
步骤1_3:将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练:训练过程中,将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图,记为
Figure BDA0002123578610000025
Figure BDA0002123578610000026
表示坐标位置为(i,j)的像素点的像素值,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值,即计算
Figure BDA0002123578610000027
Figure BDA0002123578610000028
之间的损失函数值,记为
Figure BDA0002123578610000029
采用Huber损失函数获得;不断迭代训练重复共V次,共得到N×V个损失函数值,然后从N×V个损失函数值中找出值最小的损失函数值作为模型参数,从而完成神经网络模型的训练;
步骤1_4:利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,待测的单目深度估计图像输入到神经网络模型中,输出获得对应的深度预测图,实现单目图像深度估计。
所述步骤1_2中,所述的卷积神经网络包含输入层、隐层和输出层,隐层包括编码部分和解码部分;
编码部分由一个Resnet50块组成,Resnet50块由ResNet50模型去除全连接层构成,在ResNet50模型中的每个残差块conv_block后面均增加Dropout层,ResNet50模型中的激活层和残差映射块identity_block后的输出五个不同尺寸的特征图,五个特征图按照特征图尺寸从大到小依次为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5);输出端三(C3)为中层特征图,输出端一(C1)和输出端二(C2)为低层特征图,输出端四(C4)和输出端五(C5)为高层特征图;
解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成;
解码部分有三个分支和后处理总支,三个分支分别为第一金字塔、第二金字塔和中层分支;第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成,通过第一金字塔将由Resnet50块输出的中层特征图经过不同大小的上采样与两种不同尺寸的低层特征图进行融合;第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成,通过第二金字塔将由Resnet50块输出的中层特征图经过不同大小的下采样与两种不同尺寸的高层特征图进行融合;中层分支由第一个卷积层构成;
第一个融合层接收输出端一(C1)、输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)和输出端二(C2)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一(C1)的特征图在第一个融合层进行融合F1、F2、F3,输出为特征图F12;
第二个融合层接收输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二(C2)的特征图在第二个融合层进行融合F32、F22,输出为特征图F13;
第三个融合层接收第一个融合层与第二个融合层输出的特征图,特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合F12、F23,输出为特征图AA;
再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层,第一个池化层为最大池化层,处理输出获得特征图AAA;
第四个融合层接收输出端三(C3)、输出端四(C4)的特征图,输出端三(C3)的特征图经过最大池化下采样和未经过最大池化下采样的输出端四(C4)的特征图在第四个融合层进行融合F34、F41,输出为特征图F44;
第五个融合层接收输出端三(C3)、输出端四(C4)、输出端五(C5)的特征图,输出端三(C3)和输出端四(C4)的特征图经过最大池化下采样和未经过最大池化下采样的输出端五(C5)的特征图在第五个融合层进行融合F35、F45、F51,输出为特征图F56;
第六个融合层接收第四个融合层和第五个融合层输出的特征图,特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合F46、F56,输出为特征图CC;
再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层,第一个池化层为最大池化层,处理输出获得特征图CCC;
第一个卷积层接收输出端三(C3)的特征图进行卷积处理,输出特征图BBB;
后处理总支包括第三个卷积层、第一个神经网络块和第三个反卷积层;
将出特征图AAA、出特征图BBB、出特征图CCC相加输入到第三个卷积层,第三个卷积层输出到第一个神经网络块;
第一个神经网络块主要由依次连接的块反卷积层、四个分支的不同块卷积层、块融合层、sigmoid层、上采样层组成,四个块卷积层均由两个卷积层依次连接构成,块反卷积层的输出分别输入到四个块卷积层中,四个块卷积层的输出一起输入到块融合层进行融合,再经过sigmoid层和一个上采样因子为2的上采样层输出特征图到第三个反卷积层,由第三个反卷积层输出到输出层。
所述的解码部分中,六个融合层的融合方式均为图像拼接Concatenate,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为线性整流函数(Rectified Linear Unit,ReLU),补零方式均为‘same’。
所述的输入层为输入一张彩色图像,即原始的单目深度估计图像,输入层的输出端输出单目深度估计图像图像给隐层,其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。三个通道对应为RGB颜色通道。
所述的输出层由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为线性整流函数(Rectified Linear Unit,ReLU);输出层接收隐层的第三个反卷积层中的所有特征图,输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。
具体实施中,还进行测试阶段,过程具体步骤为:
步骤2_1:令
Figure BDA0002123578610000041
待测试的单目深度估计图像,其中,1≤i′≤W′,1≤j′≤H′,W′表示
Figure BDA0002123578610000042
的宽度,H′表示
Figure BDA0002123578610000043
的高度,
Figure BDA0002123578610000044
表示
Figure BDA0002123578610000045
中坐标位置为(i′,j′)的像素点的像素值;
步骤2_2:将
Figure BDA0002123578610000046
输入到神经网络模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0002123578610000047
对应的单目深度估计预测图像,记为
Figure BDA0002123578610000048
其中,
Figure BDA0002123578610000049
表示
Figure BDA0002123578610000051
中坐标位置为(i′,j′)的像素点的像素值。
本发明提出了一种新的神经网络模型,用于单目深度图像的深度估计。该模型利用金字塔结构的思想将特征信息在不同层进行传递,再将传递的特征信息与中层进行融合,实现了低、中、高层的特征图有效组合与不同层信息的有效互补。同时添加了一个新的神经网络块,不仅可以进行上采样,而且可以加快模型的运行速度,提高网络模型的效率。
并且,本发明处理中保存了loss函数最小时的权重用于测试,预测精确率提高,同时深度图的质量也进一步提升。
与现有技术相比,本发明的优点在于:
1)本发明方法采用金字塔型结构将中层特征信息与不同分辨率的低层特征进行融合,实现了中层与低层的深度信息传递,同时也将中层特征信息与不同分辨率的高层特征进行融合,实现了中层到高层的深度信息传递,避免了特征信息的缺失,实现了特征的传递。
2)本发明方法通过融合不同层次的特征图,将上下文信息结合在一起,保留了全局信息与局部信息,使不同层的特征信息互补。
3)本发明方法提出了一个新的上采样模块,既具备上采样功能,同时用不同卷积核大小将提的取水平、垂直方向特征信息进行组合,由于该模块具有四个分支,能加快模型运行的速度。
附图说明
图1为本发明方法中的神经网络总体结构框图。
图2为第一个神经网络块的结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明的具体实施例及其实施过程如下:
具体实施过程包括训练阶段和测试阶段两个过程:
训练阶段过程的具体步骤为:
步骤1_1:选取N幅高度为H,宽度为W的原始单目深度估计图像以及原始单目深度估计对应的深度估计标签图;然后将所有原始单目深度估计图像图像、原始单目深度估计图像对应的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为
Figure BDA0002123578610000052
将训练集中与之对应的深度估计标签图记为
Figure BDA0002123578610000053
其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤x≤W,1≤y≤H,
Figure BDA0002123578610000061
表示
Figure BDA0002123578610000062
中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002123578610000063
表示
Figure BDA0002123578610000064
中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建神经网络:卷积神经网络包含输入层、隐层、输出层,隐层包括编码部分和解码部分,编码部分由第一个Resnet50块组成,解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成;解码的起始部分有三个分支,第一金字塔,第二金字塔、中层分支;第一个融合层、第二个融合层、第三个融合层构成第一金字塔,由中层依次经过不同大小的上采样与低层不同尺寸的特征图进行融合;第三个融合层与第四个融合层、第五个融合层构成第二金字塔,由中层依次经过不同大小的下采样与高层不同尺寸的特征图进行融合;中层分支由第一个卷积层构成;
①对于输入层,输入一张彩色图像,即原始立单目深度估计图像,输入层的输出端输出单目深度估计图像图像给隐层,其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。
②对于编码部分,由第一个Resnet50块构成,第一个Resnet50块由官方的ResNet50模型去除全连接层构成,其它参数不变,并且在每个conv_block后面都加入了Dropout层,其更新率设置为0.3,将激活层、identity_block后的输出特征图依次记为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5),输出端一输出的特征图大小,宽度为
Figure BDA0002123578610000065
高度为
Figure BDA0002123578610000066
输出端二输出的特征图大小,宽度为
Figure BDA0002123578610000067
高度为
Figure BDA0002123578610000068
输出端三输出的特征图大小,宽度为
Figure BDA0002123578610000069
高度为
Figure BDA00021235786100000610
输出端四输出的特征图大小,宽度为
Figure BDA00021235786100000611
高度为
Figure BDA00021235786100000612
输出端五输出的特征图大小,宽度为
Figure BDA00021235786100000613
高度为
Figure BDA00021235786100000614
③对于解码部分:第一、二、三、四、五、六融合层的融合方式都为‘Concatenate’,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为‘relu’,补零方式均为‘same’。第一个融合层接收输出端一、二、三的特征图,C3通过双线性插值上采样,上采样因子为4,将其输出记为F3,C2通过双线性插值上采样,上采样因子为2,将其输出记为F2,为了便于统一,将C1记为F1,即第一个融合层融合F1、F2、F3,将其输出记为F12,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000071
高度为
Figure BDA0002123578610000072
通道数为64;第二个融合层接受输出端二、三的特征图,C3通过双线性插值上采样,上采样因子为2,将其输出记为F32,为了便于统一,将C2记为F22,即第二个融合层融合F32、F22,将其输出记为F13,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000073
高度为
Figure BDA0002123578610000074
通道数为128;第三个融合层接受第一个融合层与第二个融合层的输出特征图,第二个融合层的输出通过双线性插值上采样,上采样因子为2,将其输出记为F23,即第三个融合层融合F12、F23,将其输出记为AA,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000075
高度为
Figure BDA0002123578610000076
通道数为64;第四个融合层接受输出端三、四的特征图,C3通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’,将其输出记为F34,为了便于统一,将C4记为F41,即第四个融合层融合F34、F41,其输出记为F44,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000077
高度为
Figure BDA0002123578610000078
通道数为256;第五个融合层接受输出端三、四、五的特征图,C3通过最大池化下采样,池化核的大小为3×3,步长为4,补零方式为‘same’,将其输出记为F35,C4通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’将其输出记为F45,为了便于统一,将C5记为F51,即第五个融合层融合F35、F45、F51,将其输出记为F56,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000079
高度为
Figure BDA00021235786100000710
通道数为512;第六个融合层接受第四个融合层和第五个融合层的输出,F44通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’将其输出记为F46,即第六个融合层融合F46、F56,将其输出记为CC,输出特征图的尺寸大小宽度为
Figure BDA0002123578610000081
高度为
Figure BDA0002123578610000082
通道数为512;再将第三个融合层的输出AA作为第二个卷积层的输入,卷积核大小均为3×3,步长为2,激活方式,为‘relu’,补零方式为‘same’,将其输出通过第一个池化层,第一个池化层为最大池化层,池化核的大小为3×3,步长为2,补零方式为‘same’,将其输出记为AAA,特征图的尺寸宽度为
Figure BDA0002123578610000083
高度为
Figure BDA0002123578610000084
通道数为128;
将第六个融合层的输出CC作为第一个反卷积层的输入,反卷积层的卷积核大小为2×2,步长为2,激活方式为‘relu’,补零方式为‘same’,输出的特征图大小再将其输出通过第二个反卷积层,反卷积层除通道数变为128,其它参数卷不变,输出特征图的尺寸宽度为
Figure BDA0002123578610000085
高度为
Figure BDA0002123578610000086
通道数为128,将其输出记为CCC;将C3通过第一个卷积层,卷积核大小均为3×3,步长为2,激活方式,为‘relu’,补零方式为‘same’,输出特征图的尺寸宽度为
Figure BDA0002123578610000087
高度为
Figure BDA0002123578610000088
通道数为128,将其输出记为BBB;再将AAA、BBB、CCC相加通过第三个卷积层,卷积核大小为1×1,输出特征图的尺寸宽度为
Figure BDA0002123578610000089
高度为
Figure BDA00021235786100000810
通道数为128;将其输出输入第一个神经网络块,第一个神经网络块从左至右有四个分支,且依次由反卷积层一、卷积层一、卷积层二、卷积层三、卷积层四、卷积层五、卷积层六、卷积层七、卷积层八、融合层一、激活层一、上采样层一组成,卷积层一、卷积层二为第一分支;卷积层三、卷积层四为第二分支;卷积层五、卷积层六为第三分支;卷积层七、卷积层八为第四分支;反卷积层一的卷积核大小为3×3,步长为2,补零方式为‘same’,每个分支的卷积层激活方式均为‘relu’,补零方式均为‘same’,且第一个分支2个卷积层的卷积核分别为1×7、7×1;第二个分支2个卷积层的卷积核分别为1×5、5×1;第三个分支2个卷积层的卷积核分别为1×3、3×1;第四个分支2个卷积层的卷积核均1×1;再将4个分支的输出进行融合,经过融合层一,融合的方式为Concatenate拼接,再经过激活层一,激活方式为‘sigmoid’;再通过一个上采样因子为2的上采样层一,输出特征图大小,宽度为
Figure BDA0002123578610000091
高度为
Figure BDA0002123578610000092
通道数为256;第三个反卷积层接收第一个神经网络块的输出,反卷积层的卷积核大小为2×2,步长为2,激活方式为‘relu’,补零方式为‘same’,输出的特征图大小为通道数量为32、宽度为W、高度为H。
④对于输出层,由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为‘relu’。
输出层接收第三个反卷积中的所有特征图,输出层的输出端输出单通道的深度预测图;
步骤1_3:将训练集中的每幅原始的单目深度估计图像输入层的输入图像,将其输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目深度估计图像对应深度预测图,将对应的深度预测图记为
Figure BDA0002123578610000093
Figure BDA0002123578610000094
表示
Figure BDA0002123578610000095
中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目深度估计图像对应深度预测图与单目深度估计图像对应的真实标签构成的的损失函数值,将
Figure BDA0002123578610000096
Figure BDA0002123578610000097
之间的损失函数值记为
Figure BDA0002123578610000098
其采用Huber损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,将神经网络模型训练好,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项作为模型的参数,对应记为Wbest和bbest;其中,V>1;
测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002123578610000099
待测试的单目深度估计图像,其中,1≤i′≤W′,1≤j′≤H′,W′表示
Figure BDA00021235786100000910
的宽度,H′表示
Figure BDA00021235786100000911
的高度,
Figure BDA00021235786100000912
表示
Figure BDA00021235786100000913
中坐标位置为(i′,j′)的像素点的像素值;
步骤2_2:将
Figure BDA00021235786100000914
输入到神经网络模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00021235786100000915
对应的单目深度估计预测图像,记为
Figure BDA00021235786100000916
其中,
Figure BDA00021235786100000917
表示
Figure BDA00021235786100000918
中坐标位置为(i′,j′)的像素点的像素值。
为了验证本发明方法的可行性和有效性,进行实验。
在此,使用基于ubuntu18.04、python编程语言环境下的Keras2.2.4框架搭建神经网络模型结构。采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办自动驾驶场景评测的数据集KITTI来分析本发明方法的准确性。这里,使用单目深度估计方法的6个常用客观参量作为评价指标来进行评测,即:即rms(Root Mean Squared Error,均方根误差)、log_rms(Root Mean Squared Log Error,均方根对数误差)、log10(AverageLog10Error,平均对数误差)以及阈值准确性:δ1,δ2,δ3,均方根误差、均方根对数误差、平均对数误差的值越小,表示误差越小,阈值准确性越高越好,表示预测的结果越好。
本发明方法对交通测试场景KITTI测试集中的每一幅图都进行预测,得到每幅KITTI测试集中图片对应的深度估计图像,充分体现本发明方法的深度估计性能指标,即均方根误差rms、均方根对数误差log_rms、平均对数误差log10、阈值准确性δ1,δ2,δ3如下表1所列。
表1利用本发明方法在测试集上的评测结果
rms 2.3900
Log_rms 0.227
Log10 0.112
δ<sub>1</sub> 0.702
δ<sub>2</sub> 0.955
δ<sub>3</sub> 0.979
依据表1可得,按照本发明方法得到得深度图结果是较好的,充分的表明了本发明方法进行单目深度估计预测的深度图精确度较好。

Claims (4)

1.一种基于多层特征的单目图像深度估计方法,其特征在于方法包括以下步骤:
步骤1_1:
选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图;
然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为
Figure FDA0002909044670000011
将第n幅原始单目图像对应的深度估计标签图记为
Figure FDA0002909044670000012
其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤i≤W,1≤j≤H,
Figure FDA0002909044670000013
表示坐标位置为(i,j)的像素点的像素值,
Figure FDA0002909044670000014
表示坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络;
所述步骤1_2中,所述的神经网络包含输入层、隐层和输出层,隐层包括编码部分和解码部分;
编码部分由一个Resnet50块组成,Resnet50块由ResNet50模型去除全连接层构成,在ResNet50模型中的每个残差块conv_block后面均增加Dropout层,ResNet50模型中的激活层和残差映射块identity_block后输出五个不同尺寸的特征图,五个特征图按照特征图尺寸从大到小依次为输出端一、输出端二、输出端三、输出端四、输出端五;
解码部分有三个分支和后处理总支,三个分支分别为第一金字塔、第二金字塔和中层分支;第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成,第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成,中层分支由第一个卷积层构成;
第一个融合层接收输出端一、输出端二、输出端三的特征图,输出端三和输出端二的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一的特征图在第一个融合层进行融合,输出为特征图F12;
第二个融合层接收输出端二、输出端三的特征图,输出端三的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二的特征图在第二个融合层进行融合,输出为特征图F13;
第三个融合层接收第一个融合层与第二个融合层输出的特征图,特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合,输出为特征图AA;
再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层,处理输出获得特征图AAA;
第四个融合层接收输出端三、输出端四的特征图,输出端三的特征图经过最大池化下采样和未经过最大池化下采样的输出端四的特征图在第四个融合层进行融合,输出为特征图F44;
第五个融合层接收输出端三、输出端四、输出端五的特征图,输出端三和输出端四的特征图经过最大池化下采样和未经过最大池化下采样的输出端五的特征图在第五个融合层进行融合,输出为特征图F56;
第六个融合层接收第四个融合层和第五个融合层输出的特征图,特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合,输出为特征图CC;
再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层,处理输出获得特征图CCC;
第一个卷积层接收输出端三的特征图进行卷积处理,输出特征图BBB;
后处理总支包括第三个卷积层、第一个神经网络块和第三个反卷积层;
将特征图AAA、特征图BBB、特征图CCC相加输入到第三个卷积层,第三个卷积层输出到第一个神经网络块;
第一个神经网络块主要由依次连接的块反卷积层、四个分支的不同块卷积层、块融合层、sigmoid层、上采样层组成,四个块卷积层均由两个卷积层依次连接构成,块反卷积层的输出分别输入到四个块卷积层中,四个块卷积层的输出一起输入到块融合层进行融合,再经过sigmoid层和一个上采样因子为2的上采样层输出特征图到第三个反卷积层,由第三个反卷积层输出到输出层;
步骤1_3:将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练:训练过程中,将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图,记为
Figure FDA0002909044670000021
Figure FDA0002909044670000022
表示坐标位置为(i,j)的像素点的像素值,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值,记为
Figure FDA0002909044670000031
采用Huber损失函数获得;不断迭代训练重复共V次,共得到N×V个损失函数值,然后从N×V个值中找出值最小的损失函数值作为模型参数,从而完成神经网络模型的训练;
步骤1_4:利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,输出获得对应的深度预测图,实现单目图像深度估计。
2.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的解码部分中,六个融合层的融合方式均为图像拼接Concatenate,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为线性整流函数,补零方式均为‘same’。
3.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的输入层为输入一张彩色图像,即原始的单目深度估计图像。
4.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的输出层由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为线性整流函数;输出层接收隐层的第三个反卷积层中的所有特征图,输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。
CN201910614788.8A 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法 Active CN110322499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614788.8A CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614788.8A CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Publications (2)

Publication Number Publication Date
CN110322499A CN110322499A (zh) 2019-10-11
CN110322499B true CN110322499B (zh) 2021-04-09

Family

ID=68123216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614788.8A Active CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Country Status (1)

Country Link
CN (1) CN110322499B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN110942484B (zh) * 2019-11-26 2022-07-12 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111161166A (zh) * 2019-12-16 2020-05-15 西安交通大学 一种基于深度多分辨率网络的图像摩尔纹消除方法
CN111223113B (zh) * 2020-01-07 2023-04-18 宁波大学 基于双重密集上下文感知网络的核磁共振海马体分割算法
CN111652921B (zh) * 2020-04-21 2023-04-28 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN112257746A (zh) * 2020-09-15 2021-01-22 深圳数联天下智能科技有限公司 痘痘类型识别模型训练方法、识别方法及相关装置
CN112396645B (zh) * 2020-11-06 2022-05-31 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和系统
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN112669270A (zh) * 2020-12-21 2021-04-16 北京金山云网络技术有限公司 视频质量的预测方法、装置及服务器
CN112712017A (zh) * 2020-12-29 2021-04-27 上海智蕙林医疗科技有限公司 一种机器人和一种单目深度估计方法、系统及存储介质
CN112669343A (zh) * 2021-01-04 2021-04-16 桂林电子科技大学 一种基于深度学习的壮族少数民族服饰分割方法
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN113158838B (zh) * 2021-03-29 2023-06-20 华南理工大学 基于全尺寸深度图监督的人脸表示攻击检测方法
CN116342675B (zh) * 2023-05-29 2023-08-11 南昌航空大学 一种实时单目深度估计方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011138472A1 (es) * 2010-05-07 2011-11-10 Telefonica, S.A. Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011138472A1 (es) * 2010-05-07 2011-11-10 Telefonica, S.A. Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Multi-Scale Architectures for Monocular Depth Estimation;M. Moukari等;《2018 25th IEEE International Conference on Image Processing (ICIP)》;20180906;2940-2944 *
基于金字塔型残差神经网络的红外图像深度估计;顾婷婷等;《红外技术》;20180531;第40卷(第5期);417-423 *

Also Published As

Publication number Publication date
CN110322499A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110322499B (zh) 一种基于多层特征的单目图像深度估计方法
CN109685842B (zh) 一种基于多尺度网络的稀疏深度稠密化方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110414674B (zh) 一种基于残差网络及局部细化的单目深度估计方法
CN112001960B (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN109146944B (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN108510535A (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN109741383A (zh) 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN112861729B (zh) 一种基于伪深度图引导的实时深度补全方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110378398B (zh) 一种基于多尺度特征图跳跃融合的深度学习网络改进方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN109460815B (zh) 一种单目视觉深度估计方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN115082674A (zh) 基于注意力机制的多模态数据融合三维目标检测方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN113343822A (zh) 一种基于3d卷积的光场显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant