CN114119698B - 基于注意力机制的无监督单目深度估计方法 - Google Patents
基于注意力机制的无监督单目深度估计方法 Download PDFInfo
- Publication number
- CN114119698B CN114119698B CN202110676865.XA CN202110676865A CN114119698B CN 114119698 B CN114119698 B CN 114119698B CN 202110676865 A CN202110676865 A CN 202110676865A CN 114119698 B CN114119698 B CN 114119698B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- image
- attention
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
基于注意力机制的无监督单目深度估计方法,包括以下步骤:步骤S1:将KITTI数据集调整至同一分辨率大小后,划分为训练数据集、验证数据集和测试数据集;步骤S2:对训练数据集和验证数据集中的数据进行数据增广;步骤S3:构建单目深度估计神经网络;步骤S4:利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置,即网络模型参数,将得到的网络模型参数代入验证数据集,保存使得验证数据集损失函数最小的网络模型参数;步骤S5:使用损失函数最小的网络模型参数,对测试数据集进行测试,得到测试数据集的预测值。本发明能有效提高单目深度估计的精度。
Description
技术领域
本发明涉及计算机视觉领域,具体是涉及一种基于注意力机制的无监督单目深度估计方法。
背景技术
图像深度估计在场景理解与重构、图像重聚焦等许多计算机视觉任务中起着非常重要的作用。与主动式深度测量装备(例如激光雷达、深度相机)相比,基于图像的深度估计方法具有更广的适用范围。在基于图像的深度估计方法中,单目深度估计的目标是从单张图片中估计场景的深度信息。相比双目和多目深度估计方法,单目深度估计由于只需要提供单个相机用于图像获取,系统搭建更为便捷。
近年来,随着深度学习技术的发展,使用深度卷积神经网络来进行单目深度估计受到了广泛的关注。有监督的深度神经网络的训练需要有大量的训练数据。构建足够大的训练数据集是非常耗时且昂贵的。越来越多的研究人员开始转向研究无监督(或称自监督)的单目深度估计方法,通过视频帧对或者双目图像对之间的视图重构损失为网络的训练提供监督信号,从而避免了真实深度标签的使用。
以基于双目图像对的单目深度估计技术为例:首先,将双目图像对分为源视图和目标视图,网络会对源视图进行视差估计;然后,根据估计出来的视差图和源视图合成目标视图;第三,根据合成的目标视图与真实的目标视图之间的重构误差来对网络进行训练;最后,根据已知的相机参数,可以将估计的视差转换为深度图。对于深度估计任务来说,单个像素的深度值与像素的上下文密切相关,因此需要足够大的感受野。在现有这些方法中,由于网络中卷积层受限于有限的卷积核大小,难以获得足够大的感受野范围,导致图像中一些细节区域的估计的精度不高。因此,需要设计一种能够解决上述问题的方法。
发明内容
本发明所要解决的技术问题是,克服上述背景技术的不足,提供一种基于注意力机制的无监督单目深度估计方法,能够捕获特征空间中的全局感受野,估计精度高。
本发明解决其技术问题采用的技术方案是,一种基于注意力机制的无监督单目深度估计方法,包括以下步骤:
步骤S1:将KITTI数据集调整至同一分辨率大小后,划分为训练数据集、验证数据集和测试数据集;
步骤S2:对训练数据集和验证数据集中的数据进行数据增广;
步骤S3:构建单目深度估计神经网络;
步骤S4:利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置,即网络模型参数,将得到的网络模型参数代入验证数据集,保存使得验证数据集损失函数最小的网络模型参数;
步骤S5:使用损失函数最小的网络模型参数,对测试数据集进行测试,得到测试数据集的预测值。
进一步,所述步骤S2中,对数据进行数据增广的方法如下:
步骤S2-1:图像水平翻转;概率为0.5;
步骤S2-2:图像伽马校正,校正系数范围为0.8-1.2;概率为0.5;
步骤S2-3:图像亮度偏移,偏移系数范围为0.5-2.0;概率为0.5;
步骤S2-4:图像RGB通道偏移,偏移系数范围为0.8-1.2;概率为0.5。
进一步,所述步骤S3中,构建的单目深度估计神经网络包括编码器和解码器,编码器与解码器相连,编码器包括第一卷积层、第一注意力层、Resnet50网络层,第一卷积层与第一注意力层相连,第一注意力层与Resnet50网络层相连;解码器包括第二注意力层、上采样层、第一卷积-上采样层、第二卷积-上采样层、第三卷积-上采样层、第四卷积-上采样层、第五卷积-上采样层和第二卷积层;第二注意力层与上采样层相连,上采样层与第一卷积-上采样层相连,第一卷积-上采样层与第二卷积-上采样层相连,第二卷积-上采样层与第三卷积-上采样层相连,第三卷积-上采样层与第四卷积-上采样层相连,第四卷积-上采样层与第五卷积-上采样层相连,第五卷积-上采样层与第二卷积层相连,Resnet50网络层与第二注意力层相连。
进一步,所述步骤S4,包括以下步骤:
步骤S4-1:设置初始化迭代次数I=0,最大迭代次数为Imax;使用Xavier初始化神经网络各层权重参数;
步骤S4-2:使用网络中编码器进行特征提取;
步骤S4-3:使用网络中解码器预测视差图;
步骤S4-4:通过扭曲操作,得到多次合成的视图;
步骤S4-5:计算网络损失函数;
步骤S4-6:计算使验证数据集损失函数最小的网络模型参数。
进一步,所述步骤S4-2,包括以下步骤:
步骤S4-2-1:第一卷积层对输入图像X进行处理,得到图像X1:
X1=conv1(X)
其中conv1代表第一卷积层,图像X的维度为3×H×W,即输入的三通道RGB图像,H为图像X的高度,W为图像X的宽度;X1的维度为C1×H×W,其中C1是第一卷积层中卷积核的个数;输入图像X是双目图像对中的左图Il;
步骤S4-2-2:第一注意力层对图像X1进行处理,输出Fout;
步骤S4-2-3:通过Resnet50网络层提取Fout中深度图的高层特征。
进一步,所述步骤S4-2-2,包括以下步骤:
步骤S4-2-2-1:图像X1输入到第一注意力层的通道注意力层,通道注意力层中,分两路分别对图像X1沿着空间维度进行全局平均池化和全局最大池化,生成两个通道描述子:Fc avg和Fc max;将两个通道描述子Fc avg、Fc max经过一个共享参数的两层卷积网络,并依次经过逐像素加法和非线性激活函数处理,得到通道注意力图Fc:
步骤S4-2-2-2:通道注意力图Fc与输入图像X进行逐像素相乘,得到通道注意特征图,通道注意特征图输入到第一注意力层的空间注意力层,空间注意力层中,分两路分别对通道注意特征图沿着空间维度进行全局平均池化和全局最大池化,生成两个空间描述子:Fs avg和Fs max;将两个空间描述子Fs avg、Fs max进行拼接,输入到一个卷积层中并通过非线性激活函数处理得到空间注意力图Fs:
Fs=σ(conv[Fs avg;Fs max])
步骤S4-2-2-3:空间注意力图Fs与通道注意特征图进行逐像素相乘,第一注意力层最终输出为:
进一步,所述步骤步骤S4-3,包括以下步骤:
步骤S4-3-1:通过解码器的第二注意力层对Fout中深度图的高层特征进行全局细化;
步骤S4-3-2:依次通过上采样层、第一卷积-上采样层、第二卷积-上采样层、第三卷积-上采样层、第四卷积-上采样层、第五卷积-上采样层、第二卷积层对全局细化后的高层特征进行低分辨率特征上采样,得到4个尺度下预测的四组视差图,每组视差图包括左视差图dl和右视差图dr;4个尺度对应4个分辨率;第三卷积-上采样层输出第一视差图,第四卷积-上采样层输出第二视差图,第五卷积-上采样层输出第三视差图,第二卷积层输出第四视差图,第四视差图为最终的输出视差图。
进一步,所述步骤步骤S4-4,通过扭曲操作,得到多次合成的视图的具体方法如下:
其中(x,y)为像素坐标;w(.)为扭曲函数,定义为:
w((x,y),d(x,y))=(x+d(x,y),y)
进一步,所述步骤步骤S4-5,包括以下步骤:
步骤S4-5-1:计算多层扭曲视图重构损失;
步骤S4-5-2:计算视差平滑损失:
步骤S4-5-3:计算视差图一致性损失:
左视差图一致性损失如下式所示:
右视差图一致性损失如下式所示:
对于每一个尺度s,整体损失函数如下式所示
其中λap,λds,λc是三个超参数权重;
步骤S4-5-4:计算网络最终的损失函数,网络最终的损失函数为4个尺度下的整体损失函数之和:
进一步,所述步骤步骤S4-6,计算使验证数据集损失函数最小的网络模型参数的具体方法如下:
使用Adam优化算法寻找网络损失函数的误差对每个网络权重参数的反向传播梯度,并通过参数更新过程获得新的网络权重参数,增加迭代次数I=I+1,保存使验证数据集损失函数最小的网络模型参数。
与现有技术相比,本发明的优点如下:
(1)本发明单目深度估计神经网络利用双目图像对进行训练,网络结构简洁易于理解,可以在没有深度标签的情况下完成网络的训练,具有更好的普适性。
(2)本发明设计了结合通道注意力和空间注意力的注意力层,能够灵活的整合到现有的网络中,同时有效捕获特征空间中的全局感受野。
(3)本发明多层重构策略对预测的视差图进行了进一步约束,进一步提高了深度估计的性能,估计精度高。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例单目深度估计神经网络的结构示意图。
图3是本发明实施例第一注意力层的结构示意图。
1—第一卷积层,2—第一注意力层,3—Resnet50网络层,4—第二注意力层,5—上采样层,6—第一卷积-上采样层,7—第二卷积-上采样层,8—第三卷积-上采样层,9—第四卷积-上采样层,10—第五卷积-上采样层,11—第二卷积层,12—第一视差图,13—第二视差图,14—第三视差图,15—第四视差图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细描述。
本发明实施例,如图1所示,包括以下步骤:
步骤S1:将KITTI数据集调整至同一分辨率大小后,划分为训练数据集、验证数据集和测试数据集;
KITTI数据集选用KITTI 2015数据集(KITTI Stereo 2015),KITTI 2015数据集一共有61个场景,包括多个双目图像对。本实施例使用通用的数据集划分方法。将覆盖29个场景的697个图像对作为测试数据集;剩下的32个场景,一共包含23488个双目图像对。选择覆盖32个场景的22600个图像对作为训练数据集,覆盖32个场景的888个图像对作为验证数据集。KITTI数据集中图像分辨率被统一调整为640*192,用于网络的输入。
步骤S2:对训练数据集和验证数据集中的数据进行数据增广;数据增广方法如下:
步骤S2-1:图像水平翻转;概率为0.5;
步骤S2-2:图像伽马校正,校正系数范围为0.8-1.2;概率为0.5;
步骤S2-3:图像亮度偏移,偏移系数范围为0.5-2.0;概率为0.5;
步骤S2-4:图像RGB通道偏移,偏移系数范围为0.8-1.2;概率为0.5。
步骤S3:构建单目深度估计神经网络;构建的单目深度估计神经网络如图2所示,包括编码器和解码器,编码器与解码器相连,编码器包括第一卷积层1、第一注意力层2、Resnet50网络层3,第一卷积层1与第一注意力层2相连,第一注意力层2与Resnet50网络层3相连;解码器包括第二注意力层4、上采样层5、第一卷积-上采样层6、第二卷积-上采样层7、第三卷积-上采样层8、第四卷积-上采样层9、第五卷积-上采样层10、第二卷积层11;第二注意力层4与上采样层5相连,上采样层5与第一卷积-上采样层6相连,第一卷积-上采样层6与第二卷积-上采样层7相连,第二卷积-上采样层7与第三卷积-上采样层8相连,第三卷积-上采样层8与第四卷积-上采样层9相连,第四卷积-上采样层9与第五卷积-上采样层10相连,第五卷积-上采样层10与第二卷积层11相连,Resnet50网络层3与第二注意力层4相连。第三卷积-上采样层8输出第一视差图12,第四卷积-上采样层9输出第二视差图13,第五卷积-上采样层10输出第三视差图14,第二卷积层11输出第四视差图15,第四视差图15为最终的输出视差图。
参照图3,第一注意力层2包括通道注意力层和空间注意力层,通道注意力层与空间注意力层连接,通道注意力层包括,通道注意力层首先从空间维度对输入特征分别进行全局最大池化和全局平均池化,两个池化之后的特征经过一个两层卷积网络scn后,进行逐像素相加与非线性激活函数处理得到通道注意力图。
步骤S4:利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置,即网络模型参数,将得到的网络模型参数代入验证数据集,保存使得验证数据集损失函数最小的网络模型参数;
步骤S4-1:设置初始化迭代次数I=0,最大迭代次数为Imax;使用Xavier初始化神经网络各层权重参数;
步骤S4-2:使用网络中编码器进行特征提取;具体包括:
步骤S4-2-1:第一卷积层1对输入图像X进行处理,得到图像X1:
X1=conv1(X)
其中conv1代表第一卷积层1,图像X的维度为3×H×W,即输入的三通道RGB图像,H为图像X的高度,W为图像X的宽度;X1的维度为C1×H×W,其中C1是第一卷积层1中卷积核的个数;输入图像X是双目图像对中的左图Il;
步骤S4-2-2:第一注意力层2对图像X1进行处理,输出Fout,具体为:
步骤S4-2-2-1:图像X1输入到第一注意力层2的通道注意力层,通道注意力层中,分两路分别对图像X1沿着空间维度进行全局平均池化(global average pool)和全局最大池化(global max pool)生成两个通道描述子:Fc avg和Fc max;将两个通道描述子Fc avg、Fc max经过一个共享参数的两层卷积网络,并依次经过逐像素加法和非线性激活函数处理,得到通道注意力图Fc:
步骤S4-2-2-2:通道注意力图Fc与输入图像X进行逐像素相乘后得到通道注意特征图,通道注意特征图输入到第一注意力层2的空间注意力层,空间注意力层中,分两路分别对通道注意特征图沿着空间维度进行全局平均池化(global average pool)和全局最大池化(global max pool)生成两个空间描述子:Fs avg和Fs max;将两个空间描述子Fs avg、Fs max进行拼接,输入到一个卷积层中并通过非线性激活函数处理得到空间注意力图Fs:
Fs=σ(conv[Fs avg;Fs max])
步骤S4-2-2-3:空间注意力图Fs与通道注意特征图进行逐像素相乘,第一注意力层2最终输出为:
步骤S4-2-3:通过Resnet50网络层3提取Fout中深度图的高层特征。
步骤S4-3:使用网络中解码器预测视差图;具体包括:
步骤S4-3-1:通过解码器的第二注意力层4对Fout中深度图的高层特征进行全局细化;
步骤S4-3-2:依次通过上采样层5、第一卷积-上采样层6、第二卷积-上采样层7、第三卷积-上采样层8、第四卷积-上采样层9、第五卷积-上采样层10、第二卷积层11对全局细化后的高层特征进行低分辨率特征上采样,得到4个尺度下预测的四组视差图,每组视差图包括左视差图dl和右视差图dr。4个尺度对应4个分辨率。第三卷积-上采样层8输出第一视差图12,第四卷积-上采样层9输出第二视差图13,第五卷积-上采样层10输出第三视差图14,第二卷积层11输出第四视差图15,第四视差图15为最终的输出视差图。第一视差图12的尺度为4,分辨率为原始输入分辨率的1/16,第二视差图13的尺度为3,分辨率为原始输入分辨率的1/8,第三视差图14的尺度为2,分辨率为原始输入分辨率的1/4,第四视差图15的尺度为1,分辨率为原始输入分辨率的1/1。
其中(x,y)为像素坐标;w(.)为扭曲函数,定义为:
w((x,y),d(x,y))=(x+d(x,y),y)
将二次合成的右图与预测的左视差图dl通过扭曲函数得到三次合成的左图,将三次合成的左图与预测的右视差图dr通过扭曲函数得到四次合成的右图;依次类推,通过对合成的视图进行扭曲操作,得到n次合成的视图。本实施例中,通过三次扭曲操作得到三次合成的视图,在具体应用中,实际扭曲操作的次数可以更多,n=2~5。
步骤S4-5:计算网络损失函数。对于每一个尺度,网络损失函数包含三个部分,分别计算每一个尺度下网络损失函数;
步骤S4-5-1:计算多层扭曲视图重构损失;
多层扭曲视图重构损失选用一次合成和三次合成的视图与对应的原始输入视图计算,包括一个绝对值偏差损失(L1损失)和结构相似性损失(SSIM):
步骤S4-5-2:计算视差平滑损失;
为了使得预测的视差图局部平滑,同时考虑到深度图的不连续性,对预测的视差图梯度施加带有边缘感知项的L1损失。
步骤S4-5-3:计算视差图一致性损失:
对网络预算的左/右视差图应用扭曲函数可以得到合成的右/左图。对预算的视差图与合成的视图之间应用L1损失,可以得到视差图一致性损失。
左视差图一致性损失如下式所示:
右视差图一致性损失如下式所示:
对于每一个尺度s,整体损失函数如下式所示
其中λap,λds,λc是三个超参数权重。
步骤S4-5-4:计算网络最终的损失函数,网络最终的损失函数为4个尺度下的整体损失函数之和:
步骤S4-6:使用Adam优化算法寻找网络损失函数的误差对每个网络权重参数的反向传播梯度,并通过参数更新过程获得新的网络权重参数,增加迭代次数I=I+1,保存使验证数据集损失函数最小的网络模型参数。
步骤S5:使用损失函数最小的的网络模型参数,对测试数据集进行测试,得到测试数据集的预测值。网络虽然使用双目图像对进行训练,但是只将双目图像对中的一张图片输入到网络中。双目图像对中的另一张图片仅用于网络损失函数的计算。因此,在测试阶段只需要输入单张图片即可求解对应的视差,根据已知的相机参数即可求解对应的深度。
本发明基于注意力机制的无监督单目深度估计方法,设计了一种无监督单目深度估计神经网络。使用容易获得的双目图像对对代替深度标签数据进行训练,能够有效的克服真实深度标签获取难度大的问题。设计了结合通道注意力和空间注意力的注意力层,对特征空间进行了多维度全范围的探索,提高了在图像细节方面的深度估计能力。通过构造多层扭曲重构视图,对网络估计的左右视差图施加了更强的约束,进一步提高了深度估计的精度。
将本实施例与其他方法进行定量结果比较,结果如表1所示。在KITTI数据集上进行了比较,选取了四种误差指标包括绝对相对误差(Abs Rel)、平方相对误差(Sq Rel)、均方根误差(RMSE)以及对数域下均方根域差(RMSE log),误差指标取值越低越好。精度指标如下式所示:
其中和分别是真实深度值和预测的深度值,i是像素的索引。三个精度指标分别对应t取1.25、1.252、1.253。从表一中可以看出,与其他方法相比,本发明方法在所有七个评估指标上均取得了最佳的性能,进一步验证了本发明方法的可靠性。
表一 本实施例与其他方法的定量对比结果
[1]C.Godard,O.Mac Aodha,and G.J.Brostow,“Unsupervised monocular depthestimation with left-right consistency,”in Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2017,pp.270–279.
[2]T.Zhou,M.Brown,N.Snavely,and D.G.Lowe,“Unsupervised learning ofdepth and ego-motion from video,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017,pp.1851–1858
[3]Z.Yin and J.Shi,“Geonet:Unsupervised learning of dense depth,optical flow and camera pose,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018,pp.1983–1992.
[4]Y.Zou,Z.Luo,and J.-B.Huang,“Df-net:Unsupervised joint learning ofdepth and flow using cross-task consistency,”in Proceedings of the Europeanconference on computer vision(ECCV),2018,pp.36–53
[5]M.Zhang,X.Ye,and X.Fan,“Unsupervised detail-preserving network forhigh quality monocular depth estimation,”Neurocomputing,vol.404,pp.1–13,2020
本领域的技术人员可以对本发明进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。
Claims (7)
1.一种基于注意力机制的无监督单目深度估计方法,其特征在于,包括以下步骤:
步骤S1:将KITTI数据集调整至同一分辨率大小后,划分为训练数据集、验证数据集和测试数据集;
步骤S2:对训练数据集和验证数据集中的数据进行数据增广;
步骤S3:构建单目深度估计神经网络;
步骤S4:利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置,即网络模型参数,将得到的网络模型参数代入验证数据集,保存使得验证数据集损失函数最小的网络模型参数;
步骤S5:使用损失函数最小的网络模型参数,对测试数据集进行测试,得到测试数据集的预测值;
所述步骤S4,包括以下步骤:
步骤S4-1:设置初始化迭代次数I=0,最大迭代次数为Imax;使用Xavier初始化神经网络各层权重参数;
步骤S4-2:使用网络中编码器进行特征提取;
步骤S4-3:使用网络中解码器预测视差图;
步骤S4-4:通过扭曲操作,得到多次合成的视图;
步骤S4-5:计算网络损失函数;
步骤S4-6:计算使验证数据集损失函数最小的网络模型参数;
所述步骤S4-4,通过扭曲操作,得到多次合成的视图的具体方法如下:
其中(x,y)为像素坐标;w(.)为扭曲函数,定义为:
w((x,y),d(x,y))=(x+d(x,y),y)
所述步骤S4-5,包括以下步骤:
步骤S4-5-1:计算多层扭曲视图重构损失;
步骤S4-5-2:计算视差平滑损失:
步骤S4-5-3:计算视差图一致性损失:
左视差图一致性损失如下式所示:
右视差图一致性损失如下式所示:
对于每一个尺度s,整体损失函数如下式所示
其中λap,λds,λc是三个超参数权重;
步骤S4-5-4:计算网络最终的损失函数,网络最终的损失函数为4个尺度下的整体损失函数之和:
2.如权利要求1所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S2中,对数据进行数据增广的方法如下:
步骤S2-1:图像水平翻转;概率为0.5;
步骤S2-2:图像伽马校正,校正系数范围为0.8-1.2;概率为0.5;
步骤S2-3:图像亮度偏移,偏移系数范围为0.5-2.0;概率为0.5;
步骤S2-4:图像RGB通道偏移,偏移系数范围为0.8-1.2;概率为0.5。
3.如权利要求1或2所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S3中,构建的单目深度估计神经网络包括编码器和解码器,编码器与解码器相连,编码器包括第一卷积层、第一注意力层、Resnet50网络层,第一卷积层与第一注意力层相连,第一注意力层与Resnet50网络层相连;解码器包括第二注意力层、上采样层、第一卷积-上采样层、第二卷积-上采样层、第三卷积-上采样层、第四卷积-上采样层、第五卷积-上采样层和第二卷积层;第二注意力层与上采样层相连,上采样层与第一卷积-上采样层相连,第一卷积-上采样层与第二卷积-上采样层相连,第二卷积-上采样层与第三卷积-上采样层相连,第三卷积-上采样层与第四卷积-上采样层相连,第四卷积-上采样层与第五卷积-上采样层相连,第五卷积-上采样层与第二卷积层相连,Resnet50网络层与第二注意力层相连。
4.如权利要求1所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S4-2,包括以下步骤:
步骤S4-2-1:第一卷积层对输入图像X进行处理,得到图像X1:
X1=conv1(X)
其中conv1代表第一卷积层,图像X的维度为3×H×W,即输入的三通道RGB图像,H为图像X的高度,W为图像X的宽度;X1的维度为C1×H×W,其中C1是第一卷积层中卷积核的个数;输入图像X是双目图像对中的左图Il;
步骤S4-2-2:第一注意力层对图像X1进行处理,输出Fout;
步骤S4-2-3:通过Resnet50网络层提取Fout中深度图的高层特征。
5.如权利要求4所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S4-2-2,包括以下步骤:
步骤S4-2-2-1:图像X1输入到第一注意力层的通道注意力层,通道注意力层中,分两路分别对图像X1沿着空间维度进行全局平均池化和全局最大池化,生成两个通道描述子:Fc avg和Fc max;将两个通道描述子Fc avg、Fc max经过一个共享参数的两层卷积网络,并依次经过逐像素加法和非线性激活函数处理,得到通道注意力图Fc:
步骤S4-2-2-2:通道注意力图Fc与输入图像X进行逐像素相乘,得到通道注意特征图,通道注意特征图输入到第一注意力层的空间注意力层,空间注意力层中,分两路分别对通道注意特征图沿着空间维度进行全局平均池化和全局最大池化,生成两个空间描述子:Fs avg和Fs max;将两个空间描述子Fs avg、Fs max进行拼接,输入到一个卷积层中并通过非线性激活函数处理得到空间注意力图Fs:
步骤S4-2-2-3:空间注意力图Fs与通道注意特征图进行逐像素相乘,第一注意力层最终输出为:
6.如权利要求1所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S4-3,包括以下步骤:
步骤S4-3-1:通过解码器的第二注意力层对Fout中深度图的高层特征进行全局细化;
步骤S4-3-2:依次通过上采样层、第一卷积-上采样层、第二卷积-上采样层、第三卷积-上采样层、第四卷积-上采样层、第五卷积-上采样层、第二卷积层对全局细化后的高层特征进行低分辨率特征上采样,得到4个尺度下预测的四组视差图,每组视差图包括左视差图dl和右视差图dr;4个尺度对应4个分辨率;第三卷积-上采样层输出第一视差图,第四卷积-上采样层输出第二视差图,第五卷积-上采样层输出第三视差图,第二卷积层输出第四视差图,第四视差图为最终的输出视差图。
7.如权利要求1所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S4-6,计算使验证数据集损失函数最小的网络模型参数的具体方法如下:
使用Adam优化算法寻找网络损失函数的误差对每个网络权重参数的反向传播梯度,并通过参数更新过程获得新的网络权重参数,增加迭代次数I=I+1,保存使验证数据集损失函数最小的网络模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110676865.XA CN114119698B (zh) | 2021-06-18 | 2021-06-18 | 基于注意力机制的无监督单目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110676865.XA CN114119698B (zh) | 2021-06-18 | 2021-06-18 | 基于注意力机制的无监督单目深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114119698A CN114119698A (zh) | 2022-03-01 |
CN114119698B true CN114119698B (zh) | 2022-07-19 |
Family
ID=80359322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110676865.XA Active CN114119698B (zh) | 2021-06-18 | 2021-06-18 | 基于注意力机制的无监督单目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114119698B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899295A (zh) * | 2020-06-06 | 2020-11-06 | 东南大学 | 一种基于深度学习的单目场景深度预测方法 |
CN112001960A (zh) * | 2020-08-25 | 2020-11-27 | 中国人民解放军91550部队 | 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5900017B2 (ja) * | 2012-02-28 | 2016-04-06 | カシオ計算機株式会社 | 奥行き推定装置、再構成画像生成装置、奥行き推定方法、再構成画像生成方法及びプログラム |
JP6359985B2 (ja) * | 2015-02-12 | 2018-07-18 | 株式会社デンソーアイティーラボラトリ | デプス推定モデル生成装置及びデプス推定装置 |
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN111739078B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN111739082B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于卷积神经网络的立体视觉无监督深度估计方法 |
CN112329778A (zh) * | 2020-10-23 | 2021-02-05 | 湘潭大学 | 一种引进特征交叉注意力机制的语义分割方法 |
AU2020103715A4 (en) * | 2020-11-27 | 2021-02-11 | Beijing University Of Posts And Telecommunications | Method of monocular depth estimation based on joint self-attention mechanism |
CN112819876B (zh) * | 2021-02-13 | 2024-02-27 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
-
2021
- 2021-06-18 CN CN202110676865.XA patent/CN114119698B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899295A (zh) * | 2020-06-06 | 2020-11-06 | 东南大学 | 一种基于深度学习的单目场景深度预测方法 |
CN112001960A (zh) * | 2020-08-25 | 2020-11-27 | 中国人民解放军91550部队 | 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114119698A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lim et al. | DSLR: Deep stacked Laplacian restorer for low-light image enhancement | |
CN108304755B (zh) | 用于图像处理的神经网络模型的训练方法和装置 | |
Piala et al. | Terminerf: Ray termination prediction for efficient neural rendering | |
CN112652058B (zh) | 人脸图像重演方法、装置、计算机设备及存储介质 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
Zuo et al. | Depth map enhancement by revisiting multi-scale intensity guidance within coarse-to-fine stages | |
CN114757862B (zh) | 用于红外光场设备的图像增强渐进式融合方法 | |
CN113538243A (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Guo et al. | Exploiting non-local priors via self-convolution for highly-efficient image restoration | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
Yue et al. | High iso jpeg image denoising by deep fusion of collaborative and convolutional filtering | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Deng et al. | Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution | |
CN110580726A (zh) | 基于动态卷积网络的自然场景下人脸素描生成模型及方法 | |
Hung et al. | Image interpolation using convolutional neural networks with deep recursive residual learning | |
CN112686830A (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN113096015A (zh) | 基于渐进式感知和超轻量级网络的图像超分辨率重建方法 | |
CN114119698B (zh) | 基于注意力机制的无监督单目深度估计方法 | |
CN116597142A (zh) | 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统 | |
Kumar et al. | Underwater image enhancement using deep learning | |
CN115909088A (zh) | 基于超分辨特征聚合的光学遥感图像目标检测方法 | |
CN115035170A (zh) | 基于全局纹理与结构的图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |