CN115272438A - 一种面向三维场景重建的高精度单目深度估计系统及方法 - Google Patents

一种面向三维场景重建的高精度单目深度估计系统及方法 Download PDF

Info

Publication number
CN115272438A
CN115272438A CN202210999767.4A CN202210999767A CN115272438A CN 115272438 A CN115272438 A CN 115272438A CN 202210999767 A CN202210999767 A CN 202210999767A CN 115272438 A CN115272438 A CN 115272438A
Authority
CN
China
Prior art keywords
depth
network
depth estimation
estimation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210999767.4A
Other languages
English (en)
Inventor
程德强
王伟臣
寇旗旗
吕晨
王晓艺
徐飞翔
韩成功
张皓翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202210999767.4A priority Critical patent/CN115272438A/zh
Publication of CN115272438A publication Critical patent/CN115272438A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向三维场景重建的高精度单目深度估计系统及方法,属于图像处理技术领域,在编码器处通过引入Vision Transformers主干网络,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。

Description

一种面向三维场景重建的高精度单目深度估计系统及方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种面向三维场景重建的高精度单目深度估计系统及方法。
背景技术
在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视图的信息不完全,因此三维重建需要利用经验知识。而多视图的三维重建相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图象坐标系与世界坐标系的关系。然后利用多个二维图像中的信息重建出三维信息,在这个过程中,如何准确获得深度信息是能否从二维图像重建出三维信息的关键。然而大多数应用场景中,机器往往只有一个摄像机对三维场景图像进行采集。因此,单目深度估计技术在三维场景重建中显得至关重要。
单目深度估计技术在许多实时三维场景重建中有着广泛的应用,比如自动驾驶、虚拟现实、增强现实等,因此深度估计的精度与效率都很重要。目前大部分深度估计都是基于二维RGB图像到RGB-D图像的转化估计,虽然有很多设备可以直接获取像素级的地面真值深度,但是这些深度感知设备往往造价昂贵。早期的深度估计算法大多数有监督的,但训练这些算法需要获取成本很高的地面真值。随着计算机算力和深度学习算法挖掘信息能力的增强,单目深度估计的自监督算法在实现上具有了可能性。相比有监督算法,自监督算法不需要地面真值,只需部署普通的单目摄像头即可实现深度估计。需要注意的是,自监督算法虽然不像深度感知设备那样可以获得绝对深度信息,相对的深度信息已经足够感知周围事物的相对位置关系。近年来,自监督方法因其不需要地面真值进行训练,引起了许多关注,并取得了显著的成果。
单目深度估计涉及现有的所有密集预测体系结构几乎都是基于卷积网络的,遵循着从编码器到解码器的基本逻辑。大多数自监督单目深度估计的神经网络使用的是U-net架构,编码器和解码器层之间有跳过连接。该架构依然由标准的神经网络组件组成:卷积、加法、求和以及乘法。骨干架构的选择对整个模型的能力有很大的影响,因为在编码器中丢失的任何信息都不可能在编码器中恢复。编码器逐步向下采样提取多尺度特征。下采样可以扩大接收域,将低级特征分组抽象为高级特征,同时保证网络内存和计算需求易于处理。但是上述网络架构会造成特征分辨率和细粒度在模型较深阶段丢失,这对于图像分类任务可能无关紧要,但对于密集预测来说丢失特征和细粒度会造成预测性能的明显下降。
现有的深度信息恢复方法还存在以下缺陷:
编码器要通过对输入图片进行下采样来增加接收域,但在这个过程中会丢失图像的特征和细节,而这些特征和细节是在解码过程中无法恢复的。图像的边界往往含有丰富的深度信息,但是经过神经网络上采样解码之后这部分信息会有所弱化。性能优良的卷积神经网络解码器往往包含大量参数和浮点运算。
发明内容
为解决上述问题,本发明提供一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
一种面向三维场景重建的高精度单目深度估计方法,包括有以下步骤:
步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为
Figure 100002_DEST_PATH_IMAGE002
像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;
步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;
步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。
进一步改进在于,所述步骤一ViT主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。
进一步改进在于,所述步骤一在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
进一步改进在于,所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
进一步改进在于,所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构,自监督单目深度估计训练过程如下:
给定目标图像
Figure 100002_DEST_PATH_IMAGE004
和源图像
Figure 100002_DEST_PATH_IMAGE006
,联合训练系统预测目标图像的密集深度图
Figure 100002_DEST_PATH_IMAGE008
和目标到原图像的相对相机姿态
Figure 100002_DEST_PATH_IMAGE010
,然后构造光度重投影损失函数如下:
Figure 100002_DEST_PATH_IMAGE012
其中
Figure 100002_DEST_PATH_IMAGE014
表示光度重建误差,是L1和结构相似度(SSIM)损失的加权组合,定义为:
Figure 100002_DEST_PATH_IMAGE016
其中
Figure 100002_DEST_PATH_IMAGE018
是根据目标图像的深度扭曲到目标坐标系的源图像,取
Figure 100002_DEST_PATH_IMAGE020
;SSIM定量比较两张图片的相似性:
Figure 100002_DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE024
是转换函数,将目标图像的像素
Figure 100002_DEST_PATH_IMAGE026
映射到源图像
Figure 100002_DEST_PATH_IMAGE028
上,
Figure 100002_DEST_PATH_IMAGE030
Figure 100002_DEST_PATH_IMAGE032
是局部亚可微的双线性采样算子;K为相机内参,假设它固定不变;边缘平滑损失函数为:
Figure 100002_DEST_PATH_IMAGE034
其中
Figure 100002_DEST_PATH_IMAGE036
是平均归一化深度。
进一步改进在于,为进一步保证深度预测的一致性,在基础自监督损失函数的基础上引入了尺度一致损失:
Figure 100002_DEST_PATH_IMAGE038
其中
Figure 100002_DEST_PATH_IMAGE040
表示将源图像深度图
Figure 100002_DEST_PATH_IMAGE042
根据相机姿态
Figure 100002_DEST_PATH_IMAGE044
向目标深度图
Figure 100002_DEST_PATH_IMAGE046
扭曲投影后,再将像素网格对齐至
Figure 100002_DEST_PATH_IMAGE048
的深度图;
总损失函数L的计算公式如下
Figure 100002_DEST_PATH_IMAGE050
Figure 100002_DEST_PATH_IMAGE052
的作用是充当掩模,来判断重投影的光度误差是否小于原光度误差;若小于,则为1;反之为0;而参数
Figure 100002_DEST_PATH_IMAGE054
为0.001。
本发明的有益效果:本发明在编码器处通过引入Vision Transformers,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。而且高频分量是稀疏的,因此计算只需集中在某些边缘区域,从而节省网络的运算量。总之,通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。
本发明通过提升网络模型对全局特征和局部边缘特征的提取,提高现有自监督单目深度估计方法的精度。
本发明用ViT主干网络代替传统卷积网络的编码器,以获得更多的细节特征和全局感受野,从而增强模型的全局特征提取能力,提高单目深度估计的精度。
本发明解码时仅在瓶颈尺度上进行深度估计,输出深度图,并利用稀疏小波逆变换迭代上采样输出深度信息图,从而强化深度信息图的边缘信息,提高单目深度估计网络的精度。
本发明稀疏小波变换减少了解码时的计算量,提高单目深度估计网络的效率。
本发明在原有monodepth2损失函数的基础上,引入尺度一致性损失来进行更加严格的约束。
附图说明
图1是本发明的估计系统的结构示意图。
图2是本发明的ViT主干网络图。
图3是本发明的ViT网络中Reassemble模块结构图。
图4是本发明的小波逆变换解码器结构图。
图5是本发明深度预测网络图。
图6是本发明位姿预测网络图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步的详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1所示,本实施例提供一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
本实施例还提供一种面向三维场景重建的高精度单目深度估计方法,包括有以下步骤:
S1,在保持密集预测的编码器-解码器结构的基础上,将ViT作为主干网络;输入图像,ViT主干网络通过将输入的图像分割成所有大小为
Figure DEST_PATH_IMAGE056
像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;对具体应用来说,重要的是,转换器在所有计算中维护的标记的数量。由于标记与图像补丁具有一对一的对应关系,这意味着ViT编码器在所有转换器阶段都保持初始嵌入的空间分辨率。此外,多头自注意力本质上是一个全局的操作,因为每一个标记都可以关注并影响每一个其他标记。因此,在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
与大多数传统的U-net卷积网络不同,本发明选择使用视觉转换器作为主干网络。如图2所示,ViT主干网络将图片分割成大小为
Figure DEST_PATH_IMAGE058
像素的不重叠的正方形小块,称之为补丁。通过提取不重叠的补丁,然后对它们的平面化表示进行线性投影。经过线性投影后的补丁,变为具有特征映射的像素特征的标记。图像嵌入通过位置嵌入进行增强,并加入了与补丁无关的读出标记,标记通过多个转换器模块传递。我们将不同阶段的标记重新组合成不同分辨率的类似图像的表示。在本发明中,我们主要选择了原输入图片的1/2、1/4、1/8、1/16尺度作为重组的分辨率。ViT网络中Reassemble模块结构图如图3所示,标记以输入图像的1/s的空间分辨率重组成特征映射。这里我们将补丁大小都设置为
Figure DEST_PATH_IMAGE060
。转换器的层数也可以根据自己需要设置,这里我们设置为12层。
S2,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
S3,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
自监督单目深度估计的网络架构包括深度预测网络和位姿预测网络,前者用于从单幅图像中预测场景中物体之间的相对深度信息,后者用于预测两个视图或视频两帧之间的物体相对运动关系。深度预测网络如图5所示,位姿预测网络如图6所示。
自监督深度估计是一种新的视角合成问题,通过训练一个模型来从源图像的不同视点预测目标图像。利用深度映射作为桥接变量,对图像合成过程进行训练和约束。这样的系统既需要目标图像的深度预测图,又需要一对目标图像和源图像之间的估计相对位姿。
具体来说,给定目标图像
Figure 70934DEST_PATH_IMAGE004
和源图像
Figure 643867DEST_PATH_IMAGE006
,联合训练系统预测目标图像的密集深度图
Figure 954763DEST_PATH_IMAGE008
和目标到原图像的相对相机姿态
Figure 553234DEST_PATH_IMAGE010
,然后构造光度重投影损失函数如下:
Figure 760749DEST_PATH_IMAGE012
其中
Figure 114370DEST_PATH_IMAGE014
表示光度重建误差。它是L1和结构相似度(SSIM)损失的加权组合,定义为:
Figure 787928DEST_PATH_IMAGE016
其中
Figure 517987DEST_PATH_IMAGE018
是根据目标图像的深度扭曲到目标坐标系的源图像,计算过程中一般取
Figure 639395DEST_PATH_IMAGE020
;SSIM可以定量比较两张图片的相似性:
Figure 39284DEST_PATH_IMAGE022
Figure 59192DEST_PATH_IMAGE024
是转换函数,将目标图像的像素
Figure 451997DEST_PATH_IMAGE026
映射到源图像
Figure 444223DEST_PATH_IMAGE028
上,
Figure 529860DEST_PATH_IMAGE030
Figure 568223DEST_PATH_IMAGE032
是局部亚可微的双线性采样算子;K为相机内参,假设它固定不变;边缘平滑损失函数为:
Figure 249871DEST_PATH_IMAGE034
其中
Figure 83223DEST_PATH_IMAGE036
是平均归一化深度。
为进一步保证深度预测的一致性,基础自监督损失函数的基础上引入了尺度一致损失:
Figure 683968DEST_PATH_IMAGE038
其中
Figure 819414DEST_PATH_IMAGE040
表示将源图像深度图
Figure 429387DEST_PATH_IMAGE042
根据相机姿态
Figure 583157DEST_PATH_IMAGE044
向目标深度图
Figure 558066DEST_PATH_IMAGE046
扭曲投影后,再将像素网格对齐至
Figure 961235DEST_PATH_IMAGE048
的深度图;
总损失函数L的计算公式如下
Figure 250265DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE062
的作用是充当掩模,来判断重投影的光度误差是否小于原光度误差;若小于,则为1;反之为0;而参数
Figure DEST_PATH_IMAGE064
为0.001。
S4,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。如图4所示是小波逆变换解码器网络结构图,在解码器的每个阶段我们预测稀疏小波系数LH、HL、HH。这些从深度图捕获的高频细节,与从前一层解码器获取的低频深度图LL相结合,通过反离散小波变换(IDWT)生成一个分辨率为LL二倍的新深度图,这个过程不断迭代直到生成与输入图像相同分辨率的深度图。粗深度估计在输入尺度的1/16处进行,模型依次向前迭代生成了5个深度图集合,比例尺度分别为1/16,1/8,1/4,1/2,1。
对于分段平坦的深度图,高频系数图有少量非零值分布在深度边缘。所以在对图像进行全分辨率深度重建时,只需要部分像素位置在每个尺度上预测非零系数的分布值。这些像素位置可利用掩码由上一尺度估计的高频系数映射来确定。这种稀疏化策略能够在减少需要计算输出的像素位置的数量来减少浮点运算的同时,突出深度图的边缘信息。
本实施例在编码器处通过引入Vision Transformers,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。而且高频分量是稀疏的,因此计算只需集中在某些边缘区域,从而节省网络的运算量。总之,通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。通过提升网络模型对全局特征和局部边缘特征的提取,提高现有自监督单目深度估计方法的精度。用ViT主干网络代替传统卷积网络的编码器,以获得更多的细节特征和全局感受野,从而增强模型的全局特征提取能力,提高单目深度估计的精度。解码时仅在瓶颈尺度上进行深度估计,输出深度图,并利用稀疏小波逆变换迭代上采样输出深度信息图,从而强化深度信息图的边缘信息,提高单目深度估计网络的精度。稀疏小波变换减少了解码时的计算量,提高单目深度估计网络的效率。在原有monodepth2损失函数的基础上,引入尺度一致性损失来进行更加严格的约束。

Claims (7)

1.一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,其特征在于,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,包括有以下步骤:
步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为
Figure DEST_PATH_IMAGE002
像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;
步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;
步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。
3.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤一ViT主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。
4.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤一在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
5.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
6.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构,自监督单目深度估计训练过程如下:
给定目标图像
Figure DEST_PATH_IMAGE004
和源图像
Figure DEST_PATH_IMAGE006
,联合训练系统预测目标图像的密集深度图
Figure DEST_PATH_IMAGE008
和目标到原图像的相对相机姿态
Figure DEST_PATH_IMAGE010
,然后构造光度重投影损失函数如下:
Figure DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE014
表示光度重建误差,是L1和结构相似度(SSIM)损失的加权组合,定义为:
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE018
是根据目标图像的深度扭曲到目标坐标系的源图像,取
Figure DEST_PATH_IMAGE020
;SSIM定量比较两张图片的相似性:
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
是转换函数,将目标图像的像素
Figure DEST_PATH_IMAGE026
映射到源图像
Figure DEST_PATH_IMAGE028
上,
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
是局部亚可微的双线性采样算子;K为相机内参,假设它固定不变;边缘平滑损失函数为:
Figure DEST_PATH_IMAGE034
其中
Figure DEST_PATH_IMAGE036
是平均归一化深度。
7.如权利要求6所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,在基础
自监督损失函数的基础上引入了尺度一致损失:
Figure DEST_PATH_IMAGE038
其中
Figure DEST_PATH_IMAGE040
表示将源图像深度图
Figure DEST_PATH_IMAGE042
根据相机姿态
Figure DEST_PATH_IMAGE044
向目标深度图
Figure DEST_PATH_IMAGE046
扭曲投影后,再将像素网格对齐至
Figure DEST_PATH_IMAGE048
的深度图;
总损失函数L的计算公式如下
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
的作用是充当掩模,来判断重投影的光度误差是否小于原光度误差;若小于,则为1;反之为0;而参数
Figure DEST_PATH_IMAGE054
为0.001。
CN202210999767.4A 2022-08-19 2022-08-19 一种面向三维场景重建的高精度单目深度估计系统及方法 Pending CN115272438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210999767.4A CN115272438A (zh) 2022-08-19 2022-08-19 一种面向三维场景重建的高精度单目深度估计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210999767.4A CN115272438A (zh) 2022-08-19 2022-08-19 一种面向三维场景重建的高精度单目深度估计系统及方法

Publications (1)

Publication Number Publication Date
CN115272438A true CN115272438A (zh) 2022-11-01

Family

ID=83752373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210999767.4A Pending CN115272438A (zh) 2022-08-19 2022-08-19 一种面向三维场景重建的高精度单目深度估计系统及方法

Country Status (1)

Country Link
CN (1) CN115272438A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457101A (zh) * 2022-11-10 2022-12-09 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991450A (zh) * 2021-03-25 2021-06-18 武汉大学 一种基于小波的细节增强无监督深度估计方法
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991450A (zh) * 2021-03-25 2021-06-18 武汉大学 一种基于小波的细节增强无监督深度估计方法
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHAEL RAMAMONJISOA ET AL.: "Single image depth prediction with wavelet decomposition" *
RENE RANFTL ET AL.: "Vision Transformers for DensePrediction" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457101A (zh) * 2022-11-10 2022-12-09 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法
CN115457101B (zh) * 2022-11-10 2023-03-24 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法
CN116168067B (zh) * 2022-12-21 2023-11-21 东华大学 基于深度学习的有监督多模态光场深度估计方法

Similar Documents

Publication Publication Date Title
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN115601549B (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN111915530B (zh) 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法
CN115272438A (zh) 一种面向三维场景重建的高精度单目深度估计系统及方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
TW202117611A (zh) 電腦視覺訓練系統及訓練電腦視覺系統的方法
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN111986084A (zh) 一种基于多任务融合的多相机低光照图像质量增强方法
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN111950477A (zh) 一种基于视频监督的单图像三维人脸重建方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN111274936B (zh) 多光谱图像地物分类方法、系统、介质及终端
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
Zeng et al. \mathrm 3D^ 2Unet 3 D 2 U net: 3D Deformable Unet for Low-Light Video Enhancement
Liang et al. Multi-scale and multi-patch transformer for sandstorm image enhancement
CN111008555B (zh) 一种无人机图像弱小目标增强提取方法
CN113240589A (zh) 一种多尺度特征融合的图像去雾方法及系统
Zhang et al. A rapid dehazing model in USV imaging system based on end-to-end convolutional network
CN117274066B (zh) 一种图像合成模型、方法、设备及存储介质
Li et al. Hybrid Feature based Pyramid Network for Nighttime Semantic Segmentation.
LIU et al. A Lightweight and Efficient Infrared Pedestrian Semantic Segmentation Method
CN117808707A (zh) 多尺度图像去雾方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221101

RJ01 Rejection of invention patent application after publication