CN116245927B - 一种基于ConvDepth的自监督单目深度估计方法及系统 - Google Patents
一种基于ConvDepth的自监督单目深度估计方法及系统 Download PDFInfo
- Publication number
- CN116245927B CN116245927B CN202310116947.8A CN202310116947A CN116245927B CN 116245927 B CN116245927 B CN 116245927B CN 202310116947 A CN202310116947 A CN 202310116947A CN 116245927 B CN116245927 B CN 116245927B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- output
- network
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004821 distillation Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013519 translation Methods 0.000 claims abstract description 7
- 238000010606 normalization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 4
- 238000003706 image smoothing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 10
- 238000011084 recovery Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于ConvDepth的自监督单目深度估计方法及系统,本发明基于无结构单目视频的自监督单目深度估计,目标图像It经过depth网络生成视差图Dt(或深度图其中为Dt的倒数);连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;然后将目标图像反向warping,生成重建图像本发明基于运动结构恢复算法,极大程度的减少了训练网络的成本,具有极大的扩展性。本发明所提出的Depth网络结构,能够生成更加准确、细节更加丰富的深度图。本发明提出了鲁棒性自蒸馏损失,它更加准确的监督Depth网络的训练。本发明不仅将ConvNeXt骨干引入到自监督深度估计任务中,打破了现有技术中ResNet的“垄断”,而且设计了多层级细节增强模块和视差头,极大程度的激发了ConvNeXt骨干的潜力。
Description
技术领域
本发明属于数字图像处理、模式识别与机器学习技术、机器人以及自动驾驶技术领域,涉及一种自监督单目深度估计方法及系统,特别是涉及一种基于ConvDepth的自监督单目深度估计方法及系统。
背景技术
深度估计,顾名思义,就是利用一张或者多张、唯一或多个视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。然而,图像是立体场景的投影,只捕获了平面信息,这无疑使得深度估计具有挑战性。现有的深度估计方法为基于运动结构恢复(SFM)的传统双目或多视角深度估计以及基于深度学习的单目或双目深度估计。传统的方法能够通过匹配用几何方法直接计算出深度,但匹配精度受图像质量的限制很大,并且精度不高。相对于传统算法,基于深度学习的方法不仅精度更高,而且场景约束条件更低,更有希望能够替代现有的传感器方案。基于深度学习的双目深度估计,利用双目相机,构建代价体积,通过视差回归的方法回归深度。基于深度学习的单目深度估计根据像素关系反映深度关系,拟合一个函数把RGB图像映射成深度图,从单张图片中估计出具体的深度,也是一个从二维到三维的过程。
基于深度学习的深度估计算法,在现阶段可分为有监督的深度估计和自监督的深度估计。所谓有监督和自监督方法的主要区别,在于是否拥有真值标签监督网络训练,对于KITTI数据集,这种标签是雷达传感器所捕获的离散的深度图。有监督的方法可以通过标签来监督网络进行训练,然而自监督的网络却是通过光度损失这种弱信号来监督模型的学习。
自我监督单目图像深度估计,因其固有的场景约束,使得训练变得困难。而且基于深度学习的方法,其网络的先进性和损失函数的优化程度依旧是影响模型的最重要的原因之一。现有的工作多聚焦于解决场景假设问题,对于深度网络的表征学习能力并没有太大的进展,这种网络结构的落后,直接导致了预测的深度图细节严重缺失。
发明内容
有的基于深度学习的自监督单目深度估计方法,常常存在预测的深度图细节丢失、轮廓变形以及深度模糊等问题。本发明所提出了一种基于ConvDepth的自监督单目深度估计方法及系统,从网络模型的设计端出发,设计出更加先进的网络结构,来预测出更加精准的深度图。本发明还就自监督学习的方法设计了一种新颖的损失函数,为减小错误的训练信号对模型的影响。
本发明的方法所采用的技术方案是:一种基于ConvDepth的自监督单目深度估计方法,包括以下步骤:
步骤1:目标图像It经过Depth网络生成视差图Dt或深度图其中,/>为Dt的倒数;
步骤2:连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;
步骤3:将目标图像反向warping,生成重建图像
其中,K为相机内参矩阵,为It重建后的图像,x为2D空白网格点,interpolation为双线性插值方法,⊙表示逐像素相乘。
本发明的系统所采用的技术方案是:一种基于ConvDepth的自监督单目深度估计系统,包括以下模块:
模块1,用于目标图像It经过Depth网络生成视差图Dt或深度图其中,/>为Dt的倒数;
模块2,用于连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;
模块3,用于将目标图像反向warping,生成重建图像
其中,K为相机内参矩阵,为It重建后的图像,x为2D空白网格点,interpolation为双线性插值方法,⊙表示逐像素相乘。
本发明提出了一种ConvDepth的自监督单目深度估计算法,与现有方法相比,本发明具有以下优点:
①无需真值标签即可训练网络。本发明基于运动结构恢复算法,仅从单个无结构连续帧单目视频就能训练深度网络,极大程度的减少了训练网络的成本,具有极大的扩展性。
②模型的精度更高。本发明所提出的Depth网络结构,更加关注于全局信息的提取以及局部细节的增强,与现有方法相比,能够生成更加准确、细节更加丰富的深度图。
③损失函数更优。与现有方法相比,本发明提出了鲁棒性自蒸馏损失,我们在自蒸馏损失的基础上增加了自蒸馏损失中伪标签的鲁棒性,它更加准确的监督Depth网络的训练。
④网络结构更为先进。本发明不仅将ConvNeXt骨干引入到自监督深度估计任务中,打破了现有技术中ResNet的“垄断”,而且设计了多层级细节增强模块和视差头,极大程度的激发了ConvNeXt骨干的潜力。
附图说明
图1为本发明实施例的方法原理框图;
图2为本发明实施例的Depth网络结构图;
图3为本发明实施例的Conv-Decoder层结构图;
图4为本发明实施例的Disparity Head层结构图;
图5为本发明实施例的实验效果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于ConvDepth的自监督单目深度估计方法,包括以下步骤:
步骤1:目标图像It经过Depth网络生成视差图Dt或深度图其中,/>为Dt的倒数;
步骤2:连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;
步骤3:将目标图像反向warping,生成重建图像
其中,K为相机内参矩阵,为It重建后的图像,x为2D空白网格点,interpolation为双线性插值方法,⊙表示逐像素相乘。
重建图像会作为预测值与目标图像It进行逐像素残差运算,生成监督网络的弱信号。本实施例基线中的损失/>由光度损失/>和图像平滑损失/>所组成,共同组成弱监督信号。总损失如下公式所示:
其中,为预测的深度图,λ为/>和/>之间的加权系数。
光度损失由结构一致性损失(SSIM)损失和L1损失所组成,如下公式所示:
其中,为/>和L1之间的加权系数。
图像平滑损失如下所示:
其中,δx、δy分别为在图像的高度、宽度方向进行求导。
请见图2,本实施例的Depth网络,采用编码器-解码器结构,编码器为ConvNeXt骨干网络,解码器由Conv-Decoder层和Disparity Head层组成;
本实施例的ConvNeXt骨干网络由四层Stage组成,层数分别为(3,3,27,3),每层的维度分别为(128,256,512,1024);其中,第一层Stage由卷积核为4、步长为4的普通卷积,Layer Normalization(层归一化)以及ConvNeXt Block(ConvNeXt块)所组成;ConvNeXtBlock是类似ResNet中的基本块和对抗块,它同样继承了ResNet中的残差连接。具体的说,ConvNeXt Block首先将输入进过一个卷积核为7,填充为3的深度可分离卷积,之后经过层归一化和卷积核大小为1的普通卷积,然后经过GELU激活函数以及一层全连接层,最后进行残差连接;后三层Stage的操作大致相同,分别经过一层下采样层和同样的ConvNeXtBlock,其中下采样层由层归一化以及卷积核大小为2、步长为2的普通卷积组成;
请见图3,本实施例的Conv-Decoder层,分为4层Stage,每一层Stage层数为1,每一层中有相应的降维,每一个跳跃连接处均设置有一个可变行卷积ODConv1×1;每一层Stage输入都有两个,分别是上一层Stage的输出以及跳跃连接到编码器中的特征输出;首先特征输出经过由两层3×3的卷积所组成的残差连接Rsblock、1×1卷积embedding和SoftMax(Rsblock由两层3×3的卷积所组成的残差连接,embedding表示一个1×1卷积)所组成的特征注意力模块产生Att输出,同时将上一层的输出和特征输出进行逐像素相加产生Add输出,随后将Att和Add进行逐像素相乘并经过一个Rsblock生成Mul输出,最后将Mul输出和Add输出进行维度堆叠产生Cat输出,产生的Cat输出即为我们的多层级细节增强模块的输出;最后将Cat输出经过一层由ReLU函数激活的3×3卷积层Convblock(Convblock表示一层由ReLU函数激活的3×3卷积层)和上采样操作产生Conv-Decoder最终输出;
请见图4,本实施例的Disparity Head,将Conv-Decoder所产生的输出编译为视差图;Disparity Head由SoftMax激活函数、卷积核大小为3和填充为2的普通卷积、采样到原图尺寸的上采样以及视差回归所组成;其中视差回归将每一维度进行SoftMax并逐像素相乘相应维度的视差等级,最后将每一维度对应的像素点进行进行相加,生成大小为原图像尺寸,维度为1的视差图。
本发明探索了先进的网络结构对网络预测深度的能力的影响,为自监督单目深度估计重新设计了一个新颖的网络结构ConvDepth,它训练出的网络能够生成更加准确的精细的深度图。为减少错误信号对模型的影响,本发明还提出了一个新颖的损失函数,鲁棒性自蒸馏损失。
由于自监督所固有的假设,在某些场景下光度损失可能传递错误的监督信号,例如动态、无纹理和遮挡场景。为此本实施例设计一种鲁棒性自蒸馏损失代替光度损失中的L1损失作为网络的监督信号。该鲁棒性损失是许多损失函数常见的泛化,例如L1、L2、Geman-McClure、Welsch/Leclerc、Cauchy/Lorentzian and Charbonnier lossfunctions。在这种损失函数中,鲁棒性作为输入,可以让本实施例在合适的范围内自适应损失函数。
为增加伪标签的鲁棒性,训练过程中,将鲁棒性损失运用于Conv-Decoder的Stage4,即视差图D0(Disp0);对于Conv-Decoder的stage(1,2,3),运用自蒸馏损失/>将鲁棒自蒸馏损失/>代替光度损失/>中的L1损失,可以极大程度上减少光度损失在某些场景下传递错误信号的可能。
鲁棒性损失由以下公式给出:
其中,α,c为自适应参数,其参数大小可以通过学习得到;
对于其他网络层,即分辨率不足输入分辨率的视差图D1,2,3,对其进行上采样到原始输入图像分辨率,然后将D0作为伪标签,对D1,2,3进行自蒸馏;用D0作为监督信号,对其他分辨率进行监控;为中间视差图提供更加正确的监督信号,防止在光度损失产生的弱信号中错误且重复的学习。本实施例用单尺度自蒸馏损失代替多尺度损失,能够产生更多对网络有用的监督信号。自蒸馏损失由以下公式表示为:
其中,D0为Disp0,k为增益系数,当num_of_epoch<epochthr时,k=epoch/epochthr,除此之外k=1;num_of_epoch表示当前epoch,epochthr为epoch阈值,设置值为10;
则鲁棒自蒸馏损失为:
with:numscales=4;
其中,numscales为输出尺度数量。
本实施例ConvNeXt的设计初衷是为了将纯粹的Convnet的构架进行“现代化”,来测试Convnets类型网络所能达到的极限。ConvNeXt的设计基于标准的ResNet(如ResNet50),以构建一个分层次vision transformer。在Block设计方面,ConvNeXt采用了Inverted Bottleneck,并加大了卷积核的Kernel Sizes,采用了更加激进的深度可分离卷积,并增加了输入的通道,改用了GELU激活函数,用更少的层归一化。在整个网络层数,ConvNeXt沿用了Swim Transformer的层数设计,并类似将整个网络设计成4个stage,4个版本(T,S,B,L)。ConvNeXt在最终的ImageNet取得了优于ResNet的性能。
本实施例基于ConvNeXt骨干,设计了一种新颖的解码器。在原有解码器中,本实施例设计了一个能够关注局部细节和上下文细节的多层级细节增强模块MLDE。本实施例的模块包括特征注意力、特征融合、特征相乘和特征堆叠四个部分,对应encoder的四层stage,本实施例在解码器部分同样四层。本实施例沿用了U-net架构,分别将每一层stage,与对应的解码器进行跳跃连接。下列公式展示了本实施例解码器的架构:
Add=feature[i]+x
Mul=Rsblock(Add⊙Att)
Cat=Concat(Add,Mul)
其中,feature[i]表示对应encoder的第i层stage经过一层OD卷积后的输出特征,x表示解码器第i-1层stage经过一层Convblock后的输出特征,Convblock表示一层由ReLU函数激活的3×3卷积层,Rsblock由两层3×3的卷积所组成的残差连接,embedding表示一个1×1卷积,表示模块之间的连接。以上表示解码器第i层的四个特征处理部分,其最终结果由以下公式表示:
out=Convblock(cat)
out=upsample(out),with:scale_factor=2
其中,conv1×1由一层1×1的卷积组成,Convblock表示一层由ReLU函数激活的卷积层。
本实施例解码器的输出层连接一个disparity head用以回归视差,本实施例的视差回归的方法联合立体匹配的视差回归,将单个视差图的预测转换为视差图等级概率分布的预测,其回归方法公式如下所示:
其中,k为视差等级,将x在H×W上进行Softmax,disparity_level表示H×W大小的视差等级矩阵,⊙表示逐像素相乘。连接decoder输出的disparity head(DH),如下公式所示:
其中,Conv3×3是一个3×3卷积,out为decoder输出,表示模块之间的连接,Head表示两层3×3的普通卷积。
需要补充的是,在encoder-decoder中每一个跳跃连接处,本实施例都加入了一个ODConv1×1。ODConv利用一种新的多维注意机制,以对等的方式沿着核空间的所有四个维度学习卷积核的四种类型的注意。ODConv学习到的这四种类型的注意是互补的,将它们逐步应用到相应的卷积核中,可以大大增强CNN基本卷积操作的特征提取能力。本实施例将ODConv运用到连接处,可以提升网络的特征提取能力和模型的泛化能力。
图5为实验结果展示,在现有基础上本实施例依次加入相应模块,可以看出本发明的效果明显优于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于ConvDepth的自监督单目深度估计方法,其特征在于,包括以下步骤:
步骤1:目标图像It经过Depth网络生成视差图Dt或深度图其中,/>为Dt的倒数;
所述Depth网络采用编码器-解码器结构,所述编码器为ConvNeXt骨干网络,所述解码器由Conv-Decoder层和Disparity Head层组成;
所述ConvNeXt骨干网络由四层Stage组成,层数分别为(3,3,27,3),每层的维度分别为(128,256,512,1024);其中,第一层Stage由卷积核为4、步长为4的普通卷积,LayerNormalization以及ConvNeXt Block所组成;所述ConvNeXt Block首先将输入经过一个卷积核为7,填充为3的深度可分离卷积,之后经过层归一化和卷积核大小为1的普通卷积,然后经过GELU激活函数以及一层全连接层,最后进行残差连接;后三层Stage,分别经过一层下采样层和ConvNeXt Block,其中下采样层由层归一化以及卷积核大小为2、步长为2的普通卷积组成;
所述Conv-Decoder层,分为4层Stage,每一层Stage层数为1,每一层中有相应的降维,每一个跳跃连接处均设置有一个可变行卷积ODConv1×1;每一层Stage输入都有两个,分别是上一层Stage的输出以及跳跃连接到编码器中的特征输出;首先特征输出经过由两层3×3的卷积所组成的残差连接Rsblock、1×1卷积embedding和SoftMax所组成的特征注意力模块产生Att输出,同时将上一层的输出和特征输出进行逐像素相加产生Add输出,随后将Att和Add进行逐像素相乘并经过一个Rsblock生成Mul输出,最后将Mul输出和Add输出进行维度堆叠产生Cat输出;最后将Cat输出经过一层由ReLU函数激活的3×3卷积层Convblock和上采样操作产生Conv-Decoder最终输出;
所述Disparity Head,将Conv-Decoder所产生的输出编译为视差图;所述DisparityHead由SoftMax激活函数、卷积核大小为3和填充为2的普通卷积、采样到原图尺寸的上采样以及视差回归所组成;其中视差回归将每一维度进行SoftMax并逐像素相乘相应维度的视差等级,最后将每一维度对应的像素点进行进行相加,生成大小为原图像尺寸,维度为1的视差图;
步骤2:连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;
步骤3:将目标图像反向warping,生成重建图像
其中,K为相机内参矩阵,为It重建后的图像,x为2D空白网格点,interpolation为双线性插值方法,⊙表示逐像素相乘。
2.根据权利要求1所述的基于ConvDepth的自监督单目深度估计方法,其特征在于:步骤2中所述Pose网络为编码器-解码器结构,输入为连续两帧图像(Is,It)的堆叠,网络的编码器为ResNet 18,解码器由一个卷积核为1的普通卷积、两个卷积核为3填充为1的普通卷积以及一个卷积核为1的普通卷积所组成,网络的输出为6D旋转平移矩阵Tt→s。
3.根据权利要求1所述的基于ConvDepth的自监督单目深度估计方法,其特征在于:所述Depth网络,是训练好的Depth网络;为增加伪标签的鲁棒性,训练过程中,将鲁棒性损失运用于Conv-Decoder的Stage4;对于Conv-Decoder的stage(1,2,3),运用自蒸馏损失将鲁棒自蒸馏损失/>代替光度损失/>中的L1损失;
其中,
其中,α,c为自适应参数;
对于其他网络层,即分辨率不足输入分辨率的视差图D1,2,3,对其进行上采样到原始输入图像分辨率,然后将D0作为伪标签,对D1,2,3进行自蒸馏;用D0作为监督信号,对其他分辨率进行监控;自蒸馏损失由为:
其中,D0为Disp0,k为增益系数,当num_of_epoch<epochthr时,k=epoch/epochthr,除此之外k=1;num_of_epoch表示当前epoch,epochthr为epoch阈值;
则鲁棒自蒸馏损失为:
其中,numscales为输出尺度数量。
4.根据权利要求1-3任意一项所述的基于ConvDepth的自监督单目深度估计方法,其特征在于:所述Depth网络,是训练好的Depth网络;训练过程中,将重建图像作为预测值与目标图像It进行逐像素残差运算,生成监督网络的弱信号;
训练中采用的总损失函数为:
其中,为预测的深度图,λ为/>和/>之间的加权系数;
光度损失由结构一致性损失SSIM损失和L1损失所组成,如下公式所示:
其中,为/>和L1之间的加权系数;
图像平滑损失如下所示:
其中,δx、δy分别为在图像的高度、宽度方向进行求导。
5.一种基于ConvDepth的自监督单目深度估计系统,其特征在于,包括以下模块:
模块1,用于目标图像It经过Depth网络生成视差图Dt或深度图其中,/>为Dt的倒数;
所述Depth网络采用编码器-解码器结构,所述编码器为ConvNeXt骨干网络,所述解码器由Conv-Decoder层和Disparity Head层组成;
所述ConvNeXt骨干网络由四层Stage组成,层数分别为(3,3,27,3),每层的维度分别为(128,256,512,1024);其中,第一层Stage由卷积核为4、步长为4的普通卷积,LayerNormalization以及ConvNeXt Block所组成;所述ConvNeXt Block首先将输入经过一个卷积核为7,填充为3的深度可分离卷积,之后经过层归一化和卷积核大小为1的普通卷积,然后经过GELU激活函数以及一层全连接层,最后进行残差连接;后三层Stage,分别经过一层下采样层和ConvNeXt Block,其中下采样层由层归一化以及卷积核大小为2、步长为2的普通卷积组成;
所述Conv-Decoder层,分为4层Stage,每一层Stage层数为1,每一层中有相应的降维,每一个跳跃连接处均设置有一个可变行卷积ODConv1×1;每一层Stage输入都有两个,分别是上一层Stage的输出以及跳跃连接到编码器中的特征输出;首先特征输出经过由两层3×3的卷积所组成的残差连接Rsblock、1×1卷积embedding和SoftMax所组成的特征注意力模块产生Att输出,同时将上一层的输出和特征输出进行逐像素相加产生Add输出,随后将Att和Add进行逐像素相乘并经过一个Rsblock生成Mul输出,最后将Mul输出和Add输出进行维度堆叠产生Cat输出;最后将Cat输出经过一层由ReLU函数激活的3×3卷积层Convblock和上采样操作产生Conv-Decoder最终输出;
所述Disparity Head,将Conv-Decoder所产生的输出编译为视差图;所述DisparityHead由SoftMax激活函数、卷积核大小为3和填充为2的普通卷积、采样到原图尺寸的上采样以及视差回归所组成;其中视差回归将每一维度进行SoftMax并逐像素相乘相应维度的视差等级,最后将每一维度对应的像素点进行进行相加,生成大小为原图像尺寸,维度为1的视差图;
模块2,用于连续两帧图像(Is,It)的堆叠采用Pose网络预测6D旋转和平移矩阵Tt→s;
模块3,用于将目标图像反向warping,生成重建图像
其中,K为相机内参矩阵,为It重建后的图像,x为2D空白网格点,interpolation为双线性插值方法,⊙表示逐像素相乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310116947.8A CN116245927B (zh) | 2023-02-09 | 2023-02-09 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310116947.8A CN116245927B (zh) | 2023-02-09 | 2023-02-09 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116245927A CN116245927A (zh) | 2023-06-09 |
CN116245927B true CN116245927B (zh) | 2024-01-16 |
Family
ID=86627296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310116947.8A Active CN116245927B (zh) | 2023-02-09 | 2023-02-09 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245927B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118172555B (zh) * | 2024-05-09 | 2024-07-26 | 江西理工大学南昌校区 | 一种道路场景图像分割方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503680A (zh) * | 2019-08-29 | 2019-11-26 | 大连海事大学 | 一种基于非监督的卷积神经网络单目场景深度估计方法 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
CN110781776A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于预测和残差细化网络的道路提取方法 |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111739078A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN113034563A (zh) * | 2021-02-22 | 2021-06-25 | 苏州易航远智智能科技有限公司 | 基于特征共享的自监督式单目深度估计方法 |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113313732A (zh) * | 2021-06-25 | 2021-08-27 | 南京航空航天大学 | 一种基于自监督学习的前视场景深度估计方法 |
CN114170286A (zh) * | 2021-11-04 | 2022-03-11 | 西安理工大学 | 一种基于无监督深度学习的单目深度估计方法 |
WO2022174198A1 (en) * | 2021-03-18 | 2022-08-18 | Innopeak Technology, Inc. | Self-supervised depth estimation framework for indoor environments |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115082537A (zh) * | 2022-06-28 | 2022-09-20 | 大连海洋大学 | 单目自监督水下图像深度估计方法、装置及存储介质 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
WO2022241874A1 (zh) * | 2021-05-18 | 2022-11-24 | 烟台艾睿光电科技有限公司 | 一种红外热成像单目视觉测距方法及相关组件 |
-
2023
- 2023-02-09 CN CN202310116947.8A patent/CN116245927B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503680A (zh) * | 2019-08-29 | 2019-11-26 | 大连海事大学 | 一种基于非监督的卷积神经网络单目场景深度估计方法 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
CN110781776A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于预测和残差细化网络的道路提取方法 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111739078A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN113034563A (zh) * | 2021-02-22 | 2021-06-25 | 苏州易航远智智能科技有限公司 | 基于特征共享的自监督式单目深度估计方法 |
WO2022174198A1 (en) * | 2021-03-18 | 2022-08-18 | Innopeak Technology, Inc. | Self-supervised depth estimation framework for indoor environments |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
WO2022241874A1 (zh) * | 2021-05-18 | 2022-11-24 | 烟台艾睿光电科技有限公司 | 一种红外热成像单目视觉测距方法及相关组件 |
CN113313732A (zh) * | 2021-06-25 | 2021-08-27 | 南京航空航天大学 | 一种基于自监督学习的前视场景深度估计方法 |
CN114170286A (zh) * | 2021-11-04 | 2022-03-11 | 西安理工大学 | 一种基于无监督深度学习的单目深度估计方法 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115082537A (zh) * | 2022-06-28 | 2022-09-20 | 大连海洋大学 | 单目自监督水下图像深度估计方法、装置及存储介质 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
Non-Patent Citations (4)
Title |
---|
Digging Into Self-Supervised Monocular Depth Estimation;Cl´ement Godard 等;《Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)》;全文 * |
UnDEMoN: Unsupervised Deep Network for Depth and Ego-Motion Estimation;Madhu Babu V 等;《018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》;全文 * |
UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models;Varun Ravi Kumar 等;《2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》;全文 * |
基于深度学习特征点法的单目视觉里程计;熊炜 等;《计算机工程与科学》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116245927A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
WO2021013334A1 (en) | Depth maps prediction system and training method for such a system | |
CN109905624A (zh) | 一种视频帧插值方法、装置及设备 | |
CN110782490A (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN112164011B (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN116245927B (zh) | 一种基于ConvDepth的自监督单目深度估计方法及系统 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN113610912B (zh) | 三维场景重建中低分辨率图像单目深度估计系统及方法 | |
CN112529944A (zh) | 一种基于事件相机的端到端无监督光流估计方法 | |
CN112767283A (zh) | 一种基于多图像块划分的非均匀图像去雾方法 | |
CN102457724A (zh) | 一种图像运动检测系统及方法 | |
CN114638842B (zh) | 一种基于mlp的医学图像分割方法 | |
CN117576179A (zh) | 多尺度细节特征增强的矿井图像单目深度估计方法 | |
CN113724155A (zh) | 用于自监督单目深度估计的自提升学习方法、装置及设备 | |
CN115131418A (zh) | 一种基于Transformer的单目深度估计算法 | |
CN115004220B (zh) | 用于原始低光图像增强的神经网络 | |
Liu et al. | Multi-Scale Underwater Image Enhancement in RGB and HSV Color Spaces | |
CN117115786B (zh) | 一种联合分割跟踪的深度估计模型训练方法及使用方法 | |
CN111275751B (zh) | 一种无监督绝对尺度计算方法及系统 | |
CN117522937A (zh) | 面向全天候场景的自监督单目深度估计方法及装置 | |
CN112561979A (zh) | 一种基于深度学习的自监督单目深度估计方法 | |
CN117314990A (zh) | 一种基于遮挡解耦网络的无监督双目深度估计方法及系统 | |
KR102057395B1 (ko) | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |