CN115272438A - 一种面向三维场景重建的高精度单目深度估计系统及方法 - Google Patents
一种面向三维场景重建的高精度单目深度估计系统及方法 Download PDFInfo
- Publication number
- CN115272438A CN115272438A CN202210999767.4A CN202210999767A CN115272438A CN 115272438 A CN115272438 A CN 115272438A CN 202210999767 A CN202210999767 A CN 202210999767A CN 115272438 A CN115272438 A CN 115272438A
- Authority
- CN
- China
- Prior art keywords
- depth
- network
- depth estimation
- estimation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000006798 recombination Effects 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005728 strengthening Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种面向三维场景重建的高精度单目深度估计系统及方法,属于图像处理技术领域,在编码器处通过引入Vision Transformers主干网络,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种面向三维场景重建的高精度单目深度估计系统及方法。
背景技术
在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视图的信息不完全,因此三维重建需要利用经验知识。而多视图的三维重建相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图象坐标系与世界坐标系的关系。然后利用多个二维图像中的信息重建出三维信息,在这个过程中,如何准确获得深度信息是能否从二维图像重建出三维信息的关键。然而大多数应用场景中,机器往往只有一个摄像机对三维场景图像进行采集。因此,单目深度估计技术在三维场景重建中显得至关重要。
单目深度估计技术在许多实时三维场景重建中有着广泛的应用,比如自动驾驶、虚拟现实、增强现实等,因此深度估计的精度与效率都很重要。目前大部分深度估计都是基于二维RGB图像到RGB-D图像的转化估计,虽然有很多设备可以直接获取像素级的地面真值深度,但是这些深度感知设备往往造价昂贵。早期的深度估计算法大多数有监督的,但训练这些算法需要获取成本很高的地面真值。随着计算机算力和深度学习算法挖掘信息能力的增强,单目深度估计的自监督算法在实现上具有了可能性。相比有监督算法,自监督算法不需要地面真值,只需部署普通的单目摄像头即可实现深度估计。需要注意的是,自监督算法虽然不像深度感知设备那样可以获得绝对深度信息,相对的深度信息已经足够感知周围事物的相对位置关系。近年来,自监督方法因其不需要地面真值进行训练,引起了许多关注,并取得了显著的成果。
单目深度估计涉及现有的所有密集预测体系结构几乎都是基于卷积网络的,遵循着从编码器到解码器的基本逻辑。大多数自监督单目深度估计的神经网络使用的是U-net架构,编码器和解码器层之间有跳过连接。该架构依然由标准的神经网络组件组成:卷积、加法、求和以及乘法。骨干架构的选择对整个模型的能力有很大的影响,因为在编码器中丢失的任何信息都不可能在编码器中恢复。编码器逐步向下采样提取多尺度特征。下采样可以扩大接收域,将低级特征分组抽象为高级特征,同时保证网络内存和计算需求易于处理。但是上述网络架构会造成特征分辨率和细粒度在模型较深阶段丢失,这对于图像分类任务可能无关紧要,但对于密集预测来说丢失特征和细粒度会造成预测性能的明显下降。
现有的深度信息恢复方法还存在以下缺陷:
编码器要通过对输入图片进行下采样来增加接收域,但在这个过程中会丢失图像的特征和细节,而这些特征和细节是在解码过程中无法恢复的。图像的边界往往含有丰富的深度信息,但是经过神经网络上采样解码之后这部分信息会有所弱化。性能优良的卷积神经网络解码器往往包含大量参数和浮点运算。
发明内容
为解决上述问题,本发明提供一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
一种面向三维场景重建的高精度单目深度估计方法,包括有以下步骤:
步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;
步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;
步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。
进一步改进在于,所述步骤一ViT主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。
进一步改进在于,所述步骤一在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
进一步改进在于,所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
进一步改进在于,所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构,自监督单目深度估计训练过程如下:
进一步改进在于,为进一步保证深度预测的一致性,在基础自监督损失函数的基础上引入了尺度一致损失:
总损失函数L的计算公式如下
本发明的有益效果:本发明在编码器处通过引入Vision Transformers,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。而且高频分量是稀疏的,因此计算只需集中在某些边缘区域,从而节省网络的运算量。总之,通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。
本发明通过提升网络模型对全局特征和局部边缘特征的提取,提高现有自监督单目深度估计方法的精度。
本发明用ViT主干网络代替传统卷积网络的编码器,以获得更多的细节特征和全局感受野,从而增强模型的全局特征提取能力,提高单目深度估计的精度。
本发明解码时仅在瓶颈尺度上进行深度估计,输出深度图,并利用稀疏小波逆变换迭代上采样输出深度信息图,从而强化深度信息图的边缘信息,提高单目深度估计网络的精度。
本发明稀疏小波变换减少了解码时的计算量,提高单目深度估计网络的效率。
本发明在原有monodepth2损失函数的基础上,引入尺度一致性损失来进行更加严格的约束。
附图说明
图1是本发明的估计系统的结构示意图。
图2是本发明的ViT主干网络图。
图3是本发明的ViT网络中Reassemble模块结构图。
图4是本发明的小波逆变换解码器结构图。
图5是本发明深度预测网络图。
图6是本发明位姿预测网络图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步的详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1所示,本实施例提供一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
本实施例还提供一种面向三维场景重建的高精度单目深度估计方法,包括有以下步骤:
S1,在保持密集预测的编码器-解码器结构的基础上,将ViT作为主干网络;输入图像,ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;对具体应用来说,重要的是,转换器在所有计算中维护的标记的数量。由于标记与图像补丁具有一对一的对应关系,这意味着ViT编码器在所有转换器阶段都保持初始嵌入的空间分辨率。此外,多头自注意力本质上是一个全局的操作,因为每一个标记都可以关注并影响每一个其他标记。因此,在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
与大多数传统的U-net卷积网络不同,本发明选择使用视觉转换器作为主干网络。如图2所示,ViT主干网络将图片分割成大小为像素的不重叠的正方形小块,称之为补丁。通过提取不重叠的补丁,然后对它们的平面化表示进行线性投影。经过线性投影后的补丁,变为具有特征映射的像素特征的标记。图像嵌入通过位置嵌入进行增强,并加入了与补丁无关的读出标记,标记通过多个转换器模块传递。我们将不同阶段的标记重新组合成不同分辨率的类似图像的表示。在本发明中,我们主要选择了原输入图片的1/2、1/4、1/8、1/16尺度作为重组的分辨率。ViT网络中Reassemble模块结构图如图3所示,标记以输入图像的1/s的空间分辨率重组成特征映射。这里我们将补丁大小都设置为。转换器的层数也可以根据自己需要设置,这里我们设置为12层。
S2,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
S3,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
自监督单目深度估计的网络架构包括深度预测网络和位姿预测网络,前者用于从单幅图像中预测场景中物体之间的相对深度信息,后者用于预测两个视图或视频两帧之间的物体相对运动关系。深度预测网络如图5所示,位姿预测网络如图6所示。
自监督深度估计是一种新的视角合成问题,通过训练一个模型来从源图像的不同视点预测目标图像。利用深度映射作为桥接变量,对图像合成过程进行训练和约束。这样的系统既需要目标图像的深度预测图,又需要一对目标图像和源图像之间的估计相对位姿。
为进一步保证深度预测的一致性,基础自监督损失函数的基础上引入了尺度一致损失:
总损失函数L的计算公式如下
S4,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。如图4所示是小波逆变换解码器网络结构图,在解码器的每个阶段我们预测稀疏小波系数LH、HL、HH。这些从深度图捕获的高频细节,与从前一层解码器获取的低频深度图LL相结合,通过反离散小波变换(IDWT)生成一个分辨率为LL二倍的新深度图,这个过程不断迭代直到生成与输入图像相同分辨率的深度图。粗深度估计在输入尺度的1/16处进行,模型依次向前迭代生成了5个深度图集合,比例尺度分别为1/16,1/8,1/4,1/2,1。
对于分段平坦的深度图,高频系数图有少量非零值分布在深度边缘。所以在对图像进行全分辨率深度重建时,只需要部分像素位置在每个尺度上预测非零系数的分布值。这些像素位置可利用掩码由上一尺度估计的高频系数映射来确定。这种稀疏化策略能够在减少需要计算输出的像素位置的数量来减少浮点运算的同时,突出深度图的边缘信息。
本实施例在编码器处通过引入Vision Transformers,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。而且高频分量是稀疏的,因此计算只需集中在某些边缘区域,从而节省网络的运算量。总之,通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。通过提升网络模型对全局特征和局部边缘特征的提取,提高现有自监督单目深度估计方法的精度。用ViT主干网络代替传统卷积网络的编码器,以获得更多的细节特征和全局感受野,从而增强模型的全局特征提取能力,提高单目深度估计的精度。解码时仅在瓶颈尺度上进行深度估计,输出深度图,并利用稀疏小波逆变换迭代上采样输出深度信息图,从而强化深度信息图的边缘信息,提高单目深度估计网络的精度。稀疏小波变换减少了解码时的计算量,提高单目深度估计网络的效率。在原有monodepth2损失函数的基础上,引入尺度一致性损失来进行更加严格的约束。
Claims (7)
1.一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,其特征在于,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;
所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;
所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,包括有以下步骤:
步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;
步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;
步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;
步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。
3.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤一ViT主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。
4.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤一在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
5.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
6.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构,自监督单目深度估计训练过程如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999767.4A CN115272438A (zh) | 2022-08-19 | 2022-08-19 | 一种面向三维场景重建的高精度单目深度估计系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999767.4A CN115272438A (zh) | 2022-08-19 | 2022-08-19 | 一种面向三维场景重建的高精度单目深度估计系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272438A true CN115272438A (zh) | 2022-11-01 |
Family
ID=83752373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210999767.4A Pending CN115272438A (zh) | 2022-08-19 | 2022-08-19 | 一种面向三维场景重建的高精度单目深度估计系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272438A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457101A (zh) * | 2022-11-10 | 2022-12-09 | 武汉图科智能科技有限公司 | 面向无人机平台的边缘保持多视图深度估计及测距方法 |
CN116168067A (zh) * | 2022-12-21 | 2023-05-26 | 东华大学 | 基于深度学习的有监督多模态光场深度估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991450A (zh) * | 2021-03-25 | 2021-06-18 | 武汉大学 | 一种基于小波的细节增强无监督深度估计方法 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
-
2022
- 2022-08-19 CN CN202210999767.4A patent/CN115272438A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991450A (zh) * | 2021-03-25 | 2021-06-18 | 武汉大学 | 一种基于小波的细节增强无监督深度估计方法 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
Non-Patent Citations (2)
Title |
---|
MICHAEL RAMAMONJISOA ET AL.: "Single image depth prediction with wavelet decomposition" * |
RENE RANFTL ET AL.: "Vision Transformers for DensePrediction" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457101A (zh) * | 2022-11-10 | 2022-12-09 | 武汉图科智能科技有限公司 | 面向无人机平台的边缘保持多视图深度估计及测距方法 |
CN115457101B (zh) * | 2022-11-10 | 2023-03-24 | 武汉图科智能科技有限公司 | 面向无人机平台的边缘保持多视图深度估计及测距方法 |
CN116168067A (zh) * | 2022-12-21 | 2023-05-26 | 东华大学 | 基于深度学习的有监督多模态光场深度估计方法 |
CN116168067B (zh) * | 2022-12-21 | 2023-11-21 | 东华大学 | 基于深度学习的有监督多模态光场深度估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN115272438A (zh) | 一种面向三维场景重建的高精度单目深度估计系统及方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
TW202117611A (zh) | 電腦視覺訓練系統及訓練電腦視覺系統的方法 | |
CN109389667B (zh) | 一种基于深度学习的高效全局光照明绘制方法 | |
CN111986084A (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
CN112529776B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN111950477A (zh) | 一种基于视频监督的单图像三维人脸重建方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN115546505A (zh) | 一种基于深度学习的无监督单目图像深度估计方法 | |
CN116645598A (zh) | 一种基于通道注意力特征融合的遥感图像语义分割方法 | |
CN111274936B (zh) | 多光谱图像地物分类方法、系统、介质及终端 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
Zeng et al. | \mathrm 3D^ 2Unet 3 D 2 U net: 3D Deformable Unet for Low-Light Video Enhancement | |
Liang et al. | Multi-scale and multi-patch transformer for sandstorm image enhancement | |
CN111008555B (zh) | 一种无人机图像弱小目标增强提取方法 | |
CN113240589A (zh) | 一种多尺度特征融合的图像去雾方法及系统 | |
Zhang et al. | A rapid dehazing model in USV imaging system based on end-to-end convolutional network | |
CN117274066B (zh) | 一种图像合成模型、方法、设备及存储介质 | |
Li et al. | Hybrid Feature based Pyramid Network for Nighttime Semantic Segmentation. | |
LIU et al. | A Lightweight and Efficient Infrared Pedestrian Semantic Segmentation Method | |
CN117808707A (zh) | 多尺度图像去雾方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221101 |
|
RJ01 | Rejection of invention patent application after publication |