CN116342675B - 一种实时单目深度估计方法、系统、电子设备及存储介质 - Google Patents
一种实时单目深度估计方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116342675B CN116342675B CN202310609609.8A CN202310609609A CN116342675B CN 116342675 B CN116342675 B CN 116342675B CN 202310609609 A CN202310609609 A CN 202310609609A CN 116342675 B CN116342675 B CN 116342675B
- Authority
- CN
- China
- Prior art keywords
- convolution
- fusion
- image
- feature
- depth estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 149
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 20
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种实时单目深度估计方法、系统、电子设备及存储介质,涉及单目图像深度估计领域,方法包括获取参考图像;利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。本发明能在保持深度估计的同时优化计算速度和降低功耗。
Description
技术领域
本发明涉及单目图像深度估计领域,特别是涉及一种实时单目深度估计方法、系统、电子设备及存储介质。
背景技术
在室外场景中获取深度信息是一项重要的计算机视觉任务,深度信息可以提供大量关于不同物体之间的空间和逻辑关系。基于点云的或基于立体匹配的方法都是获取场景深度信息的重要手段,已经有许多工作进行了相应的研究。但是此类技术需要特定的设备与数据输入,大多数应用场景中,这些方法所需要的数据都无法轻易获得,同时达到实时计算所需计算资源要求较高限制了此类技术的大规模应用。近年来,由于单目相机成本低、数据获取简单等优点,研究成果被广泛应用于自动驾驶、三维重建和障碍物检测等更高级视觉任务。
目前,基于卷积神经网络的单目深度估计技术是单目深度估计技术中最常采用的一类技术,该类方法通常构建大规模模型以得到更好的深度估计精度,计算速度慢、计算所需硬件要求较高,限制了此类方法在各个领域,特别是在搭载低功耗嵌入式平台的小型无人自助机器人上的应用。
发明内容
本发明的目的是提供一种实时单目深度估计方法、系统、电子设备及存储介质,可在保持深度估计的同时优化计算速度和降低功耗。
为实现上述目的,本发明提供了如下方案:
本发明提供一种实时单目深度估计方法,包括:
获取参考图像;
利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;
利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;
利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。
可选地,利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图,具体包括:
利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样,得到第一分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样,得到第二分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样,得到第三分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样,得到第四分辨率的图像特征图。
可选地,利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图,具体包括:
利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合,得到第三卷积融合图;
利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合,得到第二卷积融合图;
利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合,得到第一卷积融合图;
对所述第一卷积融合图进行上采样和卷积,得到融合特征图。
可选地,利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果,具体包括:
利用所述深度解码器的卷积层对所述融合特征图进行卷积,得到卷积结果;
利用所述深度解码器的Sigmoid激活层对所述卷积结果进行激活,得到深度估计结果。
本发明还提供一种实时单目深度估计系统,包括:
获取模块,用于获取参考图像;
特征提取模块,用于利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;
特征融合模块,用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;
深度估计模块,用于利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。
可选地,所述轻量化金字塔图像编码器包括依次连接的四个卷积块;每个卷积块用于输出一个图像特征图。
可选地,所述卷积块包括依次连接的三组卷积运算组;每组卷积运算组包括依次连接的卷积层和ReLU激活层。
可选地,所述深度解码器包括依次连接的卷积层和Sigmoid激活层。
本发明还提供一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述的方法。
本发明还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述的方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明获取参考图像;利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。本发明通过轻量化金字塔图像编码器和多尺度特征快速融合模块,优化模型计算速度,在保持深度估计精度的同时,可在低功耗嵌入式平台上进行实时单目深度估计。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的实时单目深度估计方法流程图;
图2为深度估计模型结构示意图;
图3为卷积块结构示意图;
图4为上采样卷积块结构示意图;
图5为深度解码器结构示意图;
图6为输入道路场景下拍摄图像的一帧图像;
图7为深度估计结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种实时单目深度估计方法、系统、电子设备及存储介质,可在保持深度估计的同时优化计算速度和降低功耗。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1和图2所示,本发明提供的一种实时单目深度估计方法,包括:
步骤101:获取参考图像。
步骤102:利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图。
基于单目图像的深度估计模型包含一个轻量化金字塔图像编码器、一个多尺度特征快速融合模块和一个深度解码器。轻量化金字塔图像编码器由十二层卷积层组成,用于提取图像特征,接收一张彩色图像为输入,输出多尺度图像特征图。其中,多尺度图像特征图为不同分辨率的图像特征图。
如图3所示,步骤102具体包括:利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样,得到第一分辨率的图像特征图F1;利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样,得到第二分辨率的图像特征图F2;利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样,得到第三分辨率的图像特征图F3;利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样,得到第四分辨率的图像特征图F4。每个卷积块包括依次连接的三组卷积运算组,每组卷积运算组包括依次连接的卷积层和ReLU激活层。卷积层均为3×3卷积层。
选择待进行深度估计的参考图像,并向所构建模型输入参考图像/>,以进行深度估计,具体过程如下:
利用轻量化金字塔图像编码器对参考图像进行特征金字塔下采样分层,在每层金字塔分别进行三次卷积运算操作,获取四层分辨率不同的图像特征图/>,计算方式如下:
(1)
其中,是输入的参考图像;运算符号/>代表了卷积运算操作,其中/>和均是步长为1的/>卷积运算操作,/>是步长为2的/>卷积运算操作;是特征金字塔输出的图像特征图。/>为第i层金字塔所获图像特征图,为第i-1层金字塔所获图像特征图,i为金字塔层数索引。
步骤103:利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图。多尺度特征快速融合模块由四层卷积层组成,用于融合多尺度图像特征图,接收轻量化金字塔图像编码器输出的多尺度图像特征图作为输入,输出融合特征图。如图4所示,多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块。其中,每个卷积融合组包括依次连接的上采样卷积块和融合操作。每个上采样卷积块包括依次连接的上采样、卷积层和ReLU激活层。图2中的融合操作3与融合操作2为矩阵逐点相加运算,融合操作1为特征通道拼接操作,多尺度特征快速融合模块中前两个融合操作为矩阵逐点相加运算,最后一个融合操作为特征通道拼接操作。
步骤103,具体包括:利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合,得到第三卷积融合图;利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合,得到第二卷积融合图;利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合,得到第一卷积融合图;对所述第一卷积融合图进行上采样和卷积,得到融合特征图。其中,对所述第一卷积融合图进行上采样和卷积,得到融合特征图利用的是多尺度特征快速融合模块的上采样卷积块。
利用多尺度特征快速融合模块对图像特征图进行反向遍历,对每层图像特征图进行上采样,并与上一层图像特征图进行融合,获取最终的融合特征图/>,计算方式如下:
(2)
式中:是融合特征图,运算符号/>代表了步长为1的/>卷积运算操作;运算符号/>代表了上采样操作;/>是轻量化金字塔图像编码器输出的图像特征图;/>是矩阵逐点相加运算;运算符号/>是通道叠加运算。/>为第i层融合特征图。
步骤104:利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。深度解码器由一层卷积层组成,用于从融合特征图中计算最终的深度估计结果,接收多尺度特征快速融合模块输出的融合特征图作为输入,输出最终的深度估计结果。
如图5所示,步骤104,具体包括:利用所述深度解码器的卷积层对所述融合特征图进行卷积,得到卷积结果;利用所述深度解码器的Sigmoid激活层对所述卷积结果进行激活,得到深度估计结果。
为深度解码器输入融合后的融合特征图,输出最终深度估计结果/>,计算方式如下:
(3)
其中,是输入的参考图像/>的深度估计结果;/>是步长为1的/>卷积运算操作;/>是多尺度特征快速融合模块输出的融合特征图。
对深度估计模型采用采集到的连续图像序列数据集进行自监督训练,具体过程如下:
在每一次迭代过程中,从数据集中获取当前帧参考图像,上一帧参考图像/>,相机在上一帧到当前帧的相对位姿变化/>,相机内参矩阵/>。
为前述单目深度估计模型输入当前帧参考图像,得到前帧参考图像/>的深度估计结果/>。通过深度估计结果/>、相机在上一帧到当前帧的相对位姿变化/>、相机内参矩阵/>和上一帧参考图像/>,计算当前帧合成图像/>,计算方式如下:
(4)
其中,是可微分采样器;/>是返回上一帧参考图像/>中投影深度二维坐标的投影函数。
为了评估深度估计结果的准确性,计算当前帧合成图像/>和当前帧参考图像/>的差异性,计算方式如下:
(5)
其中,,为调整系数;/>是结构相似性评估函数;/>是L1距离计算函数。/>为最小化图像内容损失,/>为图像内容误差。
通过将作为损失函数对前述单目深度估计模型进行反向传播参数更新,并不断从数据集中获取数据样本,迭代该步骤,直至损失函数收敛,完成模型训练。
本发明适用于低功耗嵌入式平台的实时单目深度估计方法,采用轻量化金字塔图像编码器设计和快速特征融合结构设计,在低功耗嵌入式平台上具备更高的计算速度和较好的计算精度。
在实际应用中在深度估计模型中输入道路场景下拍摄的一帧图像如图6所示,输出深度估计结果如图7所示。
本发明通过对模型进行量化优化,并部署至低功耗嵌入式平台;选择输入参考图像;对输入参考图像进行特征金字塔下采样分层;在每层金字塔中对当前层中的图像特征进行上采样与特征融合,在到达金字塔顶层时,输出最终深度估计结果。本发明基于实时单目深度估计方法,采用轻量化金字塔图像编码器与多尺度特征快速融合模块设计,优化模型计算速度,在保持深度估计精度的同时,可在低功耗嵌入式平台上进行实时单目深度估计。
在图像编码器方面:不同于现有模型直接利用图像分类领域的骨干网络作为图像编码器的做法,本发明采用自主设计的轻量化的金字塔图像编码器,减少了金字塔特征编码器的计算深度,在计算分辨率到达1/16后就停止计算。同时,不在编码器中使用现有模型经常会使用的残差连接和归一化层技术(这些技术在嵌入式平台上的部署代码实现尚不成熟,需要大量计算资源,极大降低了计算效率),在保证精度的同时大大提升了计算效率。在特征融合方面:现有模型通常不考虑特征尺度,仅仅是对金字塔图像编码器提取到的不同尺度的图像特征进行拼接融合。本发明考虑到低维高分辨率特征包含更多空间特征,更少语义信息和更多噪声,而高维低分辨率特征包含更少空间特征,更多语义信息和更少噪声。因此直接在高维低分辨率使用加法融合会引入噪声,所以本发明只在前两个融合层(即融合操作3与融合操作2)使用加法融合以提高模型计算效率,在最后一层(即融合操作1)使用通道拼接融合,平衡速度与精度。
本发明还提供一种实时单目深度估计系统,包括:
获取模块,用于获取参考图像。
特征提取模块,用于利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图。
特征融合模块,用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图。
深度估计模块,用于利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果。
作为一种可选的实施方式,所述轻量化金字塔图像编码器包括依次连接的四个卷积块;每个卷积块用于输出一个图像特征图。
作为一种可选地实施方式,所述卷积块包括依次连接的三组卷积运算组;每组卷积运算组包括依次连接的卷积层和ReLU激活层。
作为一种可选地实施方式,所述深度解码器包括依次连接的卷积层和Sigmoid激活层。
本发明还提供一种电子设备,包括:
一个或多个处理器。
存储装置,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述的方法。
本发明还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种实时单目深度估计方法,其特征在于,包括:
获取参考图像;
利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;
利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块;其中,每个卷积融合组包括依次连接的上采样卷积块和融合操作;每个上采样卷积块包括依次连接的上采样层、卷积层和ReLU激活层;
利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果;深度解码器由一层卷积层组成,用于从融合特征图中计算最终的深度估计结果,接收多尺度特征快速融合模块输出的融合特征图作为输入,输出最终的深度估计结果;
利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图,具体包括:
利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样,得到第一分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样,得到第二分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样,得到第三分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样,得到第四分辨率的图像特征图;每个卷积块包括依次连接的三组卷积运算组,每组卷积运算组包括依次连接的卷积层和ReLU激活层;卷积层均为3×3卷积层;选择待进行深度估计的参考图像,并向所构建模型输入参考图像/>,以进行深度估计,具体过程如下:利用轻量化金字塔图像编码器对参考图像/>进行特征金字塔下采样分层,在每层金字塔分别进行三次卷积运算操作,获取四层分辨率不同的图像特征图;
利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图,具体包括:
利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合,得到第三卷积融合图;
利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合,得到第二卷积融合图;
利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合,得到第一卷积融合图;
对所述第一卷积融合图进行上采样和卷积,得到融合特征图。
2.根据权利要求1所述的实时单目深度估计方法,其特征在于,利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果,具体包括:
利用所述深度解码器的卷积层对所述融合特征图进行卷积,得到卷积结果;
利用所述深度解码器的Sigmoid激活层对所述卷积结果进行激活,得到深度估计结果。
3.一种实时单目深度估计系统,其特征在于,包括:
获取模块,用于获取参考图像;
特征提取模块,用于利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图;
特征融合模块,用于利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图;多尺度特征快速融合模块包括依次连接的三组卷积融合组和上采样卷积块;其中,每个卷积融合组包括依次连接的上采样卷积块和融合操作;每个上采样卷积块包括依次连接的上采样层、卷积层和ReLU激活层;
深度估计模块,用于利用深度估计模型的深度解码器对所述融合特征图进行深度估计,得到深度估计结果;深度解码器由一层卷积层组成,用于从融合特征图中计算最终的深度估计结果,接收多尺度特征快速融合模块输出的融合特征图作为输入,输出最终的深度估计结果;所述轻量化金字塔图像编码器包括依次连接的四个卷积块;每个卷积块用于输出一个图像特征图;每个卷积块包括依次连接的三组卷积运算组,每组卷积运算组包括依次连接的卷积层和ReLU激活层;卷积层均为3×3卷积层;选择待进行深度估计的参考图像,并向所构建模型输入参考图像/>,以进行深度估计,具体过程如下:利用轻量化金字塔图像编码器对参考图像/>进行特征金字塔下采样分层,在每层金字塔分别进行三次卷积运算操作,获取四层分辨率不同的图像特征图;
利用深度估计模型的轻量化金字塔图像编码器对所述参考图像进行特征提取,得到多个不同分辨率的图像特征图,具体包括:
利用所述轻量化金字塔图像编码器的第一卷积块对所述参考图像进行下采样,得到第一分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第二卷积块对所述第一分辨率的图像特征图进行下采样,得到第二分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第三卷积块对所述第二分辨率的图像特征图进行下采样,得到第三分辨率的图像特征图;
利用所述轻量化金字塔图像编码器的第四卷积块对所述第三分辨率的图像特征图进行下采样,得到第四分辨率的图像特征图;
利用深度估计模型的多尺度特征快速融合模块对所述图像特征图进行特征融合,得到融合特征图,具体包括:
利用所述多尺度特征快速融合模块的第三卷积融合组对所述第三分辨率的图像特征图和所述第四分辨率的图像特征图进行融合,得到第三卷积融合图;
利用所述多尺度特征快速融合模块的第二卷积融合组对所述第三卷积融合图和所述第二分辨率的图像特征图进行融合,得到第二卷积融合图;
利用所述多尺度特征快速融合模块的第一卷积融合组对所述第二卷积融合图和所述第一分辨率的图像特征图进行融合,得到第一卷积融合图;
对所述第一卷积融合图进行上采样和卷积,得到融合特征图。
4.根据权利要求3所述的实时单目深度估计系统,其特征在于,所述深度解码器包括依次连接的卷积层和Sigmoid激活层。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至2中任意一项所述的方法。
6.一种存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609609.8A CN116342675B (zh) | 2023-05-29 | 2023-05-29 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609609.8A CN116342675B (zh) | 2023-05-29 | 2023-05-29 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116342675A CN116342675A (zh) | 2023-06-27 |
CN116342675B true CN116342675B (zh) | 2023-08-11 |
Family
ID=86884475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310609609.8A Active CN116342675B (zh) | 2023-05-29 | 2023-05-29 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342675B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058474B (zh) * | 2023-10-12 | 2024-01-12 | 南昌航空大学 | 一种基于多传感器融合的深度估计方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN112396645A (zh) * | 2020-11-06 | 2021-02-23 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和系统 |
CN112785636A (zh) * | 2021-02-18 | 2021-05-11 | 上海理工大学 | 一种多尺度增强式的单目深度估计方法 |
WO2021164429A1 (zh) * | 2020-02-21 | 2021-08-26 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
CN113870335A (zh) * | 2021-10-22 | 2021-12-31 | 重庆邮电大学 | 一种基于多尺度特征融合的单目深度估计方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11315266B2 (en) * | 2019-12-16 | 2022-04-26 | Robert Bosch Gmbh | Self-supervised depth estimation method and system |
CN111739078B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
-
2023
- 2023-05-29 CN CN202310609609.8A patent/CN116342675B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
WO2021164429A1 (zh) * | 2020-02-21 | 2021-08-26 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN112396645A (zh) * | 2020-11-06 | 2021-02-23 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和系统 |
CN112785636A (zh) * | 2021-02-18 | 2021-05-11 | 上海理工大学 | 一种多尺度增强式的单目深度估计方法 |
CN113870335A (zh) * | 2021-10-22 | 2021-12-31 | 重庆邮电大学 | 一种基于多尺度特征融合的单目深度估计方法 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络的单目深度估计;王欣盛;张桂玲;;计算机工程与应用(第13期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116342675A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
US20210142095A1 (en) | Image disparity estimation | |
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
CN111325782A (zh) | 一种基于多尺度统一的无监督单目视图深度估计方法 | |
CN115861601B (zh) | 一种多传感器融合感知方法及装置 | |
CN112132770A (zh) | 图像修复的方法、装置、计算机可读介质及电子设备 | |
CN114596503A (zh) | 一种基于遥感卫星影像的道路提取方法 | |
CN110942512A (zh) | 基于元学习的室内场景重建方法 | |
Abdulwahab et al. | Monocular depth map estimation based on a multi-scale deep architecture and curvilinear saliency feature boosting | |
CN116188550A (zh) | 一种基于几何约束的自监督深度视觉里程计 | |
CN111311732B (zh) | 3d人体网格获取方法及装置 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN115830094A (zh) | 一种基于无监督的立体匹配方法 | |
CN115965783A (zh) | 一种基于点云和图像特征融合的非结构化道路分割方法 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN114693744A (zh) | 一种基于改进循环生成对抗网络的光流无监督估计方法 | |
CN112990215B (zh) | 图像去噪方法、装置、设备及存储介质 | |
Wei et al. | Dehazing algorithm for unmanned surface vessel based on GAN-U-Net++ network | |
CN117058474B (zh) | 一种基于多传感器融合的深度估计方法及系统 | |
Lee et al. | Radar Translation Network Between Sunny and Rainy Domains by Combination of KP-Convolution and CycleGAN | |
Xue et al. | An end-to-end multi-resolution feature fusion defogging network | |
CN117788296B (zh) | 基于异构组合深度网络的红外遥感图像超分辨率重建方法 | |
CN112288738B (zh) | 基于深度学习的单幅图像去雪花方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |