CN116205962A - 基于完整上下文信息的单目深度估计方法及系统 - Google Patents

基于完整上下文信息的单目深度估计方法及系统 Download PDF

Info

Publication number
CN116205962A
CN116205962A CN202310490937.0A CN202310490937A CN116205962A CN 116205962 A CN116205962 A CN 116205962A CN 202310490937 A CN202310490937 A CN 202310490937A CN 116205962 A CN116205962 A CN 116205962A
Authority
CN
China
Prior art keywords
image
feature
features
depth estimation
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310490937.0A
Other languages
English (en)
Other versions
CN116205962B (zh
Inventor
张明亮
周大正
智昱旻
李彬
刘丽霞
张友梅
张瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202310490937.0A priority Critical patent/CN116205962B/zh
Publication of CN116205962A publication Critical patent/CN116205962A/zh
Application granted granted Critical
Publication of CN116205962B publication Critical patent/CN116205962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于完整上下文信息的单目深度估计方法及系统,涉及人工智能技术领域,该方法包括:将预处理后的待估计图像输入至深度估计网络中,进行深度估计,输出深度图像;所述深度估计网络采用跳跃连接的编码器‑解码器结构,编码器包括Transformer分支和卷积分支;Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,预测并输出深度图像,提高深度估计的准确性。

Description

基于完整上下文信息的单目深度估计方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于完整上下文信息的单目深度估计方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
深度估计是计算机视觉领域的一个基础性问题,目前大部分深度估计都是基于二维RGB(Red Green Blue,光学三原色)图像到RBG-D(Red Green Blue Depth,深度三原色)图像的转化估计,主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的方法,还包括结合SFM(Structure from motion,从运动恢复结构)和SLAM(SimultaneousLocalization And Mapping,即时定位与地图构建)等方式预测相机位姿的算法。
目前,虽然有很多设备可以直接获取深度,但是设备造价昂贵;也可以利用双目图形进行深度估计,但是由于双目图像需要利用立体匹配进行像素点对应和视差计算,因此计算复杂度也较高,而且对于低纹理场景的匹配效果不好。相对而言,单目深度估计的成本更低,更容易普及。
单目深度估计是指预测给定的单个RGB图像中每个像素的深度值,常应用在机器人导航、增强现实、三维重建、自动驾驶等领域。图像的单目深度估计方法主要包括传统方法和基于深度学习的方法。其中,传统方法主要是基于几何算法从立体图像对中进行深度估计,此类方法使用手工设计的特征获取图像特征信息,因此只能捕获图像的局部特征,最终影响深度估计结果的准确性;基于深度学习的方法主要分为两种思路:利用CNN(Convolutional Neural Network,卷积神经网络)框架和利用Transformer框架对目标进行深度估计。这两种思路广泛运用于各种深度估计算法,并取得了良好的效果,但是,基于这两种思路的方法均无法实现模拟全局相关的同时准确建模局部信息,导致深度估计缺乏全局相关性或者缺乏空间感知偏差,造成在深度估计任务中表现不理想。利用CNN(Convolutional Neural Network,卷积神经网络)框架和利用Transformer框架对目标进行深度估计,主要存在以下问题:
(1)基于CNN的方法能够准确建模局部信息,但由于接受域小、局部归纳偏差大,无法准确提取丰富的全局信息,导致在估计精度上虽然有些许提高,但依旧无法解决根本问题;
(2)基于Transformer的方法通常表现出优异的全局上下文建模,在网络的每一阶段都能提取全局特征,Transformer编码器能尽可能地减少网络底层的语义信息丢失,保证解码器能接收到尽可能完整的特征输入,但是,这一方法缺乏对于局部空间的感知。由于Transformer网络的是通过Token(即令牌)之间的交互来得到整体相关性,而在交互过程中往往忽略了局部特征;而且由于深度值一般遵循长尾分布,对于图形中的小型物体,基于Transformer的方法无法实现准确估计。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于完整上下文信息的单目深度估计方法及系统,通过结合CNN和Transformer的优势互补,实现提取目标图像的局部信息和全局信息,即提取完整的上下文信息;同时考虑到图像场景中底层信息对深度估计的重要性,通过设置底层信息提取模块在提取局部信息时获取图像的底层信息,以此增强特征的表征能力;最后通过窗口关注机制引入广域多尺度表示,实现多种尺度上下文信息的捕获,提高深度估计的准确性。
第一方面,本公开提供了一种基于完整上下文信息的单目深度估计方法。
一种基于完整上下文信息的单目深度估计方法,包括:
获取待估计图像,对待估计图像进行预处理;
将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
进一步的技术方案,所述预处理包括:
通过分区算子对输入的待估计图像进行分割,分割得到多个大小一致的图像块。
进一步的技术方案,所述Transformer分支包括多个依次连接的下采样层,每个下采样层包括补丁合并层和多个Transformer块,每个Transformer块包括一个多头自注意模块和一个多层感知器模块,以及两个归一化层。
进一步的技术方案,所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层,用于提取局部上下文信息。
进一步的技术方案,将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中,分别经过
Figure SMS_1
卷积后得到第一全局特征与第一局部特征;
第一全局特征经过自注意力模块得到第二全局特征,第一局部特征经过交叉注意力模块得到第二局部特征;其中,将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值,计算交叉注意力,建模亲和力;
第二全局特征和第二局部特征分别通过通道级联和
Figure SMS_2
卷积,将全局特征和第二全局特征、局部特征和第二局部特征结合起来,分别得到特征交互后的全局特征和局部特征。
进一步的技术方案,所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块;
所述纹理特征提取模块中,基于卷积编码层输出的原始特征图,利用一维量化和计算算子,以统计方式描述纹理信息,获取统计特征和量化特征;基于统计特征和量化特征,通过矩阵相乘,得到并输出纹理特征;
所述金字塔纹理特征提取模块中,将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图,对输入特征图从多个尺度上利用二维量化和计算算子,得到多尺度的共现统计特征;多尺度的共现统计特征分别通过多层感知机后进行上采样,将上采样的特征连接起来,得到并输出统计纹理特征。
进一步的技术方案,将输出的统计纹理特征与基于卷积编码层输出的原始特征融合,得到最终的局部特征。
进一步的技术方案,所述广域多尺度解码器采用空间金字塔池的结构与广域注意力协作,所述广域多尺度解码器由5个平行的分支组成,包括一个快捷连接分支、三个不同下采样率的广域注意力分支和一个图像池化分支;
所述广域注意力分支用于为局部窗口提供多个层次的感受野;所述图像池化分支用于通过全局池化层获得全局上下文信息,并通过线性转换和双线性上采样运算,匹配特征维度;所述快捷连接分支用于复制输入特征,并在所有上下文信息输出后粘贴所复制的输入特征。
进一步的技术方案,所有分支输出的特征连接后,通过一个学习的线性变换进行降维操作,生成最终的深度图像。
第二方面,本公开提供了一种基于完整上下文信息的单目深度估计系统。
一种基于完整上下文信息的单目深度估计系统,包括:
图像获取及预处理模块,用于获取待估计图像,对待估计图像进行预处理;
深度估计模块,用于将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
以上一个或多个技术方案存在以下有益效果:
1、本发明提供了一种基于完整上下文信息的单目深度估计方法及系统,将CNN与Transformer各自的优点融合应用于深度估计任务中,其中Transformer用于提取全局上下文信息,CNN用于保留局部上下文信息,从而使算法具备了提取场景中完整信息的能力,避免了CNN不能在有限的接受域内模拟全局相关以及Transformer建模时通常缺乏空间感知偏差的缺陷。
2、本发明中,针对场景中丰富的底层纹理信息,设计了底层信息提取模块,在卷积网络中加入直方图均衡化,利用均衡化后的掩膜乘以原始的特征,来增强特征的表征能力。
3、本发明中,考虑到Transformer缺乏多尺度的语境信息问题,设计了广域多尺度解码器,只产生少量位置混合操作引起的计算开销的同时能够捕捉到多种尺度的上下文信息,加强了深度估计的准确性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例所述基于完整上下文信息的单目深度估计方法的整体算法框架图;
图2为本发明实施例所述基于完整上下文信息的单目深度估计方法的整体算法流程图;
图3为本发明实施例中Transformer块的结构示意图;
图4为本发明实施例中特征交互模块的框架图;
图5为本发明实施例中底层信息提取模块的框架图;
图6为本发明实施例中广域注意力的框架图;
图7为本发明实施例中广域注意力的原理示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
正如背景技术所指出的现有基于深度学习的双目深度估计方法中存在的问题,本实施例提供了一种基于完整上下文信息的单目深度估计方法,提高单目深度估计的准确性和估计精度,实现更好的单目深度估计效果。
本实施例所述方案的整体思路为:提出一种用于单目深度估计的完整上下文信息提取算法,该算法通过搭建的深度估计网络实现,所搭建的深度估计网络的总体框架基于编码器-解码器结构,在编码器和解码器之间设有跳跃式连接,即所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支,分别用于捕获图像的全局上下文信息和局部上下文信息,然后将Transformer分支和卷积分支所提取的特征经过特征交互模块进行特征融合,最后通过解码器输出估计的深度图像。
如图1所示,本实施例所提出的一种基于完整上下文信息的单目深度估计方法,包括以下步骤:
获取待估计图像,对待估计图像进行预处理;
将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,所述下采样层依次为Trans.1、Trans.2、Trans.3、Trans.4,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
即,本实施例提出了一种深度估计网络框架,该框架由学习全局信息的Transformer分支和学习局部信息的卷积分支组成,Transformer分支用于捕获全局上下文信息(全局上下文信息在高级特征上语义丰富),以弥补基于CNN的方法的缺点,而卷积分支用于保留局部上下文信息(局部上下文信息在低级特征上空间精确且具有细粒度细节),避免低级特征仅被基于Transformer的网络冲刷掉;同时,卷积分支中还设置了一个额外的底层信息提取模块,用于强化网络对于细节的感知分析、增强学习能力;并且,为了解决Transformer缺乏多尺度的语境信息的问题,设置广域多尺度解码器来捕获多种尺度的上下文信息,以此提高单目深度估计得准确性及估计精度。
本实施例所提出的深度估计网络的总体框架基于编码器-解码器结构,在编码器和解码器之间设计跳跃式连接。其中,Transformer的方法通常表现出优秀的全局上下文建模,但是其潜在的瓶颈是缺乏细节和空间局部性的表示,主要原因在于基于Transformer的方法的特点是Token(令牌)之间的交互,而在交互过程中通常会忽略局部特征;同时,由于深度值一般遵循长尾分布,自然场景中有许多深度值较小的近距离物体,基于Transformer的方法不能很好地估计。而基于CNN的方法可以很好地表达局部上下文,但是由于接受域小、局部归纳偏差大,通常不足以提取语义丰富的全局上下文。因此,本实施例所述方案的关键思想在于利用CNN分支提取局部特征,以此补全Transformer分支的局部特征,从单张图像中准确估计深度图像。
在本实施例中,首先将预处理后的待估计图像输入至Transformer分支中,提取图像场景的全局特征。
具体而言,针对获取的待估计图像进行预处理,即通过分区算子(即patch算子)对输入图像进行分割,分割得到多个大小一致的图像块,将每个图像块作为一个令牌;然后,将预处理后的待估计图像输入至Transformer分支中,如图2所示,Transformer分支在编码部分包括多个依次连接的下采样层,在本实施例中设置4个下采样层,即包括4个阶段,如图3所示,每个下采样层(即阶段)包括补丁合并层和多个Transformer块,每个Transformer块包括一个多头自注意模块MSA和一个多层感知器模块MLP,以及两个归一化层(即规范层)。假设第
Figure SMS_3
个Transformer块后的输出特征为/>
Figure SMS_4
,则第/>
Figure SMS_5
个Transformer块后的输出特征
Figure SMS_6
表示为:
Figure SMS_7
其中,
Figure SMS_8
是层归一化,/>
Figure SMS_9
表示第/>
Figure SMS_10
个Transformer块中多头自注意模块MSA的输出特征,/>
Figure SMS_11
表示Transformer块的个数。
基于Transformer的方法的特点是Token(令牌)之间的交互,而在交互过程中往往忽略了局部特征,因此,在框架中引入卷积分支来对局部特征进行补充。在卷积分支中,由于基于CNN的模型通常主要在低层次的特征层提取局部信息,因此,只使用深度残差网络ResNet的前两层卷积层来精确地捕获空间和局部上下文信息。
在本实施例中,所述卷积分支中的卷积编码层为标准深度残差网络ResNet的前两层卷积层,用于提取局部上下文信息,这避免了低层特征被连续乘法洗掉,并大大减少了计算时间。通过设置卷积分支,可以避免Transformer分支丢弃关键的局部信息。
进一步的,将Transformer分支与卷积分支分别得到的全局特征和局部特征经过特征交互模块进行特征交互后,再输入至广域多尺度解码器,预测并输出深度图像。
在特征交互模块中,应用自注意力模块和交叉注意力模块来解决不同特征的直接融合。如图4所示,将Transformer分支输出的全局特征
Figure SMS_17
和卷积分支输出的局部特征/>
Figure SMS_14
输入至特征交互模块中,分别经过/>
Figure SMS_24
卷积分别得到第一全局特征/>
Figure SMS_18
与第一局部特征/>
Figure SMS_21
;之后,第一全局特征/>
Figure SMS_19
经过自注意力模块得到第二全局特征/>
Figure SMS_26
,第一局部特征/>
Figure SMS_28
经过交叉注意力模块得到第二局部特征/>
Figure SMS_30
,其中,将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值,以此计算交叉注意力,建模亲和力;最后,第二全局特征/>
Figure SMS_12
和第二局部特征/>
Figure SMS_23
分别通过通道级联和/>
Figure SMS_16
卷积,将全局特征/>
Figure SMS_27
和第二全局特征、局部特征/>
Figure SMS_22
和第二局部特征/>
Figure SMS_29
结合起来,分别得到特征交互后的全局特征/>
Figure SMS_15
与局部特征/>
Figure SMS_20
。上述过程实现了Transformer分支和卷积分支之间的亲和性建模和特征交互,分别得到特征交互后的全局特征/>
Figure SMS_13
和局部特征/>
Figure SMS_25
,将其共同输入到解码器中进行深度估计。
本实施例上述方案中,创新的将Transformer与CNN结合应用于单目深度估计任务,检测准确率优于已有的使用相同公共数据集的深度估计算法;使用卷积分支对局部特征进行补充,并只使用前两层卷积层来进行估计,在不增加计算复杂度情况下增强局部特征,提高深度估计的准确性,进而提高算法估计精度。相对于其他单目深度估计方法,本实施例上述方案的估计准确率实现了一定地提高。
进一步的,在卷积分支中还包括底层信息提取模块。基于卷积分支中卷积编码层输出的特征,获取图像的底层纹理信息,强化网络对于细节的感知分析及增强学习能力,通过底层细节纹理分析,增强深度估计的精度。
图像场景中的纹理信息包括两种:局部结构信息(卷积神经网络的提取)和全局统计信息(直方图等的统计信息)。在卷积网络中加入直方图均衡化,利用均衡化后的掩膜乘以原始特征,来增强特征的表征能力。针对上述问题,本实施例设计了两个算子,分别对应两个模块,即:一维量化和计数运算符,及其对应的纹理特征提取模块;二维量化和计数运算符,及其对应的金字塔纹理特征提取模块。其中,一维、二维量化和计数运算符被设计为以统计方式描述纹理信息;纹理特征提取模块,用于捕获与纹理有关的信息并增强纹理细节,提取纹理特征;金字塔纹理特征提取模块,用于有效地从多个尺度的纹理特征中提取统计纹理特征。
即,在本实施例中,所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块。所述纹理特征提取模块中,基于卷积编码层输出的原始特征图,利用一维量化和计算算子(即计数运算符),以统计方式描述纹理信息,获取统计特征和量化特征;基于统计特征和量化特征,通过矩阵相乘,得到并输出纹理特征。所述金字塔纹理特征提取模块中,将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图,对输入特征图从多个尺度上利用二维量化和计算算子,得到多尺度的共现统计特征;多尺度的共现统计特征分别通过多层感知机MLP后进行上采样,将上采样的特征图连接起来,得到并输出统计纹理特征。最后,将输出的统计纹理特征与基于卷积编码层输出的原始特征融合,得到最终的局部特征。
在底层信息提取模块中,设计一维量化和计算算子,以统计方式描述纹理信息。对输入的特征图
Figure SMS_31
(即卷积编码层输出的大小为/>
Figure SMS_32
的原始特征图,其中,/>
Figure SMS_33
、/>
Figure SMS_34
、/>
Figure SMS_35
分别表示通道数、分辨率的长、分辨率的宽),首先,利用全局平均池化获得平均特征g(向量形式),随后,计算空间上每个像素的特征(向量形式)与平均特征g的余弦相似度,得到相似度图S,相似度图S的每个位置/>
Figure SMS_36
的公式为:
Figure SMS_37
其中,
Figure SMS_38
表示特征图G中/>
Figure SMS_39
处像素的特征,/>
Figure SMS_40
表示向量的L2范数。
然后,直接对相似度图S进行量化统计,以提取类似于直方图的信息表征。首先,需要获得若干量化级,本实施例选用了一个简单的方法,直接在相似度图S的最小值和最大值之间均分N份,作为N个量化级。具体地,第n个量化级
Figure SMS_41
为:
Figure SMS_42
基于量化级L={
Figure SMS_44
},对相似度图S进行量化编码,得到量化编码后的特征E,相似度图S的每个像素/>
Figure SMS_48
量化编码为/>
Figure SMS_51
。具体的,相似度图S中的每个像素/>
Figure SMS_45
会被N个函数/>
Figure SMS_47
编码为一个N维向量/>
Figure SMS_49
,其中函数/>
Figure SMS_52
通过以下方式基于/>
Figure SMS_43
生成/>
Figure SMS_46
,函数/>
Figure SMS_50
的公式为:
Figure SMS_53
Figure SMS_54
N个结果进行级联,得到/>
Figure SMS_55
。通过上述编码方式,只有当/>
Figure SMS_56
被量化为/>
Figure SMS_57
,对应的/>
Figure SMS_58
才不为0,而N维向量/>
Figure SMS_59
上其他维度均为0。在设计上述函数时,综合考虑了以下几方面:1)这个函数必须能够在神经网络中实现反向传播而不会梯度消失;2)每个像素最好只被量化到一个级数,避免混淆问题的出现;3)梯度不能过大,避免梯度爆炸的问题。因此,本实施例采用了一个截断的设置,而不是直接使用一个超大梯度的函数使因变量在/>
Figure SMS_60
的区间范围内迅速从0变为1。
之后,基于量化编码后的特征E,获得具有统计意义的二维图
Figure SMS_61
,公式为:/>
Figure SMS_62
其中,C可以被看作是一个直方图,
Figure SMS_63
为concatenation,表示串联操作,/>
Figure SMS_64
为输入特征图分辨率的长宽相乘所得到像素点个数。其中第一个维度为N个量化级,第二个维度近似等于属于每个量化级的像素的数量(便于网络学习,经过了一个归一化处理)。
C本身已经是统计信息的表征了,但需要注意的是,为了在统计时保留高维信息,被统计的对象是一个相对值(与平均特征的余弦相似度)。因此,为了进一步获得绝对值的统计信息,将平均特征也加入进去,公式为:
Figure SMS_65
其中,
Figure SMS_66
表示通过一维量化和计算算子最终获取的统计特征。此外,上述特征E为量化特征。
一维量化和计算算子的输出反映了所有空间位置的特征分布。然而,它没有关于像素之间的空间关系的信息,这在描述纹理方面起着重要作用。为此,进一步提出了一种二维量化和计算算子来计算同时出现的像素特征的分布。二维量化和计算算子中的量化旨在计算输入特征图中像素之间的共同出现的空间关系,并且可以通过一维量化和计算算子中的量化来扩展。具体的,输入的特征图
Figure SMS_68
首先通过与一维量化和计算算子类似的过程,以获得量化编码映射/>
Figure SMS_70
和量化级别/>
Figure SMS_72
。对于每对相邻像素/>
Figure SMS_69
和/>
Figure SMS_71
,计算/>
Figure SMS_73
Figure SMS_74
的矩阵转置/>
Figure SMS_67
的乘积,公式为:
Figure SMS_75
其中,
Figure SMS_77
表示/>
Figure SMS_79
的矩阵转置,/>
Figure SMS_84
表示矩阵转置,只有当特征图G中/>
Figure SMS_78
处像素的特征/>
Figure SMS_80
被量化为/>
Figure SMS_82
并且特征图G中/>
Figure SMS_85
处像素的特征/>
Figure SMS_76
被量化为/>
Figure SMS_81
时,相应的
Figure SMS_83
不等于零。因此,/>
Figure SMS_86
可以表示每两个相邻像素的量化共现。
给定量化共现
Figure SMS_87
,生成三维映射/>
Figure SMS_88
,其中前两个维度表示每个可能的量化同现,第三个维度表示相应的归一化计数,则三维映射/>
Figure SMS_89
表示为:
Figure SMS_90
Figure SMS_91
其中,
Figure SMS_92
表示相邻像素的所有可能的量化级别对。
与一维量化和计算算子类似,加入平均特征,通过以下公式获得最终输出
Figure SMS_93
,公式为:/>
Figure SMS_94
其中,
Figure SMS_95
即为通过二维量化和计算算子最终获取的统计特征。
如图5所示,纹理特征提取模块是受到传统图像处理方法中直方图均衡化的启发,其旨在对每个灰度级进行重建,且在对某个级数进行重建的过程中需要感知其他级数的统计信息,这可以看作是一个直方图,因此,将其扩展到一个可学习的直方图来对每个量化级进行重建。在这个直方图中,节点是
Figure SMS_96
中所包含的每个量化级的统计信息。该直方图的实现方式是一个非常常规的图形推理:
Figure SMS_97
其中,
Figure SMS_98
为相邻矩阵,是手动定义的对角矩阵,/>
Figure SMS_99
、/>
Figure SMS_100
、/>
Figure SMS_101
是三个不同的/>
Figure SMS_102
卷积,Softmax是非线性归一化函数,/>
Figure SMS_103
即为重构的量化级。
最后,将重构后的量化级分配回每个像素。在一维量化和计算算子中,中间量
Figure SMS_104
能够反映每个像素具体被量化到了哪一级,因此,这个分配过程通过一个简单的矩阵乘法即可实现,公式为:
Figure SMS_105
最后,
Figure SMS_106
被重塑为/>
Figure SMS_107
,即纹理特征提取模块最终输出的纹理特征,纹理特征图的大小为/>
Figure SMS_108
×H×W,其中,/>
Figure SMS_109
表示该纹理特征图的通道数。
由纹理特征提取模块进一步提出了金字塔纹理特征提取模块,该模块旨在使用包含丰富纹理细节的特征图从多个尺度上挖掘纹理相关信息。首先描述了从每个处理区域捕获纹理特征的单元,然后引入金字塔结构来构建金字塔纹理特征提取模块。
纹理与关于像素之间的空间关系的统计信息高度相关。对于特征图的处理区域,首先将其输入到二维量化和计算算子中,以获得共现统计特征
Figure SMS_110
,其中,/>
Figure SMS_111
表示信道数量(即通道数),/>
Figure SMS_112
表示量化级别的数量。采用经过多层感知器MLP之后的水平平均值
Figure SMS_113
来生成处理区域的纹理特征Y,即:
Figure SMS_114
Figure SMS_115
多尺度特征有助于有效提高语义分割的性能和鲁棒性,这些特征可以通过金字塔结构(如空间金字塔池)捕获。因此,本实施例该模块采用金字塔结构从多个尺度刻画纹理特征。具体的,如图5所示,金字塔结构通过四个不同比例的平行分支传递输入特征图[1,2,4,8]。对于每个分支,特征图被分成不同数量的子区域,并且每个子区域都通过纹理特征提取单元以利用该区域的对应纹理表示;然后,通过最近插值将获得的每个分支的纹理特征图上采样到原始尺寸作为输入图,并将四个分支的输出连接起来,得到金字塔纹理特征提取模块的输出。
进一步的,针对视觉Transformer缺乏多尺度的语境信息,从而影响性能和效率的问题,本实施例所述方案还提出了一种新的解码器,即广域多尺度解码器,具体如图2右侧所示。该解码器包含一种新的窗口关注机制——广域关注。如图7所示,卷积池化金字塔为一般网络中所使用的金字塔结构,与一般解码器使用的卷积池化金字塔相比,本实施例中的解码器采用的是广域卷积池化金字塔,该广域卷积池化金字塔拥有更大的背景补丁以及包含全局上下文信息,具体的,该广域卷积池化金字塔允许本地窗口在仅有少量计算开销的情况下查询更大范围的上下文窗口,通过调节上下文区域与查询区域的比例,使广域关注能够捕捉到多种尺度的上下文信息。此外,还采用了空间金字塔池的框架来与广域注意力协作。
如图6和图7所示,广域关注将整个特征图均匀地分割成几个斑块,当广域注意力在图像上滑动时,允许当前的补丁查询更大的区域。广域关注中查询补丁表示为
Figure SMS_136
,把被查询的上下文背景补丁表示为/>
Figure SMS_145
,其中,/>
Figure SMS_149
是背景补丁大小与查询补丁大小的比率,/>
Figure SMS_118
是补丁的面积,/>
Figure SMS_128
表示通道数。由于注意力的计算复杂度为/>
Figure SMS_137
,当/>
Figure SMS_144
的空间大小增加/>
Figure SMS_139
倍时,计算复杂度增加到/>
Figure SMS_148
。在这种情况下,注意力的计算不限于
Figure SMS_121
的局部斑块,如果比率/>
Figure SMS_131
或输入分辨率非常大,甚至无法承受。为了保持原有的计算复杂性,将通道/>
Figure SMS_132
汇集成一个抽象的张量,其下采样率为/>
Figure SMS_141
(下采样率/>
Figure SMS_147
与上述比率/>
Figure SMS_150
并不冲突,如图6所示,背景补丁会池化下采样到查询补丁的大小,因此下采样率/>
Figure SMS_117
必须等同于背景补丁与查询补丁的比例/>
Figure SMS_126
,以此来减少计算复杂度),将上下文斑块的空间大小减少到
Figure SMS_123
。然而,上述简单的过程也存在一定的缺点。情境补丁的下采样不可避免地抛弃了/>
Figure SMS_127
和/>
Figure SMS_116
之间丰富的依赖关系,特别是当/>
Figure SMS_124
很大的时候。为了缓解注意力不集中的问题,采用多头机制让头的数量严格等于/>
Figure SMS_134
,从而将注意力矩阵从/>
Figure SMS_142
制定为/>
Figure SMS_138
。特别的,头的数量对计算复杂性没有影响。此外,图6中,/>
Figure SMS_146
、/>
Figure SMS_119
分别是查询补丁/>
Figure SMS_130
的长宽,4/>
Figure SMS_122
、4
Figure SMS_129
是背景补丁的长宽,背景补丁的长、宽分别是查询补丁/>
Figure SMS_135
的长、宽的4倍,/>
Figure SMS_143
是由于将池化后的背景补丁进行了变形,变形成了/>
Figure SMS_133
个/>
Figure SMS_140
×/>
Figure SMS_120
大小的单通道特征,其中/>
Figure SMS_125
是背景补丁的通道数。
通过一定的技术规范化头部子空间,多头注意力可以学习到所需的不同表征。考虑到下采样后空间信息变得抽象,因此,解码器将加强多头注意力的空间表征能力,在本实施例中,用位置混合多层感知器来加强空间表征能力。具体的,令牌混合
Figure SMS_151
与通道混合
Figure SMS_152
在收集空间知识方面是互补的,因此,在解码器中定义了一组针对头部的位置混合多层感知器/>
Figure SMS_153
。如图6所示,汇集的上下文补丁的每个头都被推入其相应的令牌与通道混合/>
Figure SMS_154
,同一头内的空间位置以相同的行为相互交流。所产生的语境称为位置混合语境补丁,并将其表示为/>
Figure SMS_155
,其计算方法为:
Figure SMS_156
/>
其中,
Figure SMS_159
表示/>
Figure SMS_164
的第/>
Figure SMS_168
个头,/>
Figure SMS_158
是加强第/>
Figure SMS_161
个头的空间表示的第/>
Figure SMS_165
个变换,/>
Figure SMS_169
表示平均汇集操作,Reshape函数为变形函数,将原本/>
Figure SMS_157
大小变换为与
Figure SMS_163
同样的大小,/>
Figure SMS_167
表示背景补丁,/>
Figure SMS_171
表示单个补丁的大小,/>
Figure SMS_160
为第/>
Figure SMS_162
个头。基于位置混合语境补丁/>
Figure SMS_166
,则可将多头关注/>
Figure SMS_170
机制的基本操作描述为:
Figure SMS_172
其中,
Figure SMS_174
是位置混合语境补丁/>
Figure SMS_177
的第/>
Figure SMS_179
个头,/>
Figure SMS_175
是学习到的线性变换,/>
Figure SMS_178
是学习到的权重,聚集了多个注意值,/>
Figure SMS_180
通常被设定为/>
Figure SMS_181
,/>
Figure SMS_173
是嵌入维度。同时,还有一个主要的问题是关于/>
Figure SMS_176
的开销,因此,对局部窗口注意和广域注意列出计算复杂性为:
Figure SMS_182
其中,
Figure SMS_183
和/>
Figure SMS_184
分别是整个图像的高度和宽度,/>
Figure SMS_185
是局部窗口的大小。由于/>
Figure SMS_186
通常设置为7或8,比高层特征中的/>
Figure SMS_187
小得多,所以/>
Figure SMS_188
引起的额外支出是可以合理忽略的。特别的,广域注意力的计算复杂性与比率/>
Figure SMS_189
无关。
因此,为了捕捉多尺度表征,如图2右侧所示,所述广域多尺度解码器采用空间金字塔池的结构来与广域注意力协作,得到全新的金字塔结构解码器,该解码器由5个平行的分支组成,包括一个快捷连接分支、三个不同下采样率
Figure SMS_190
的广域注意力分子和一个图像池化分支。广域注意力分支为局部窗口提供了三个层次的感受野,提供多尺度信息;图像池化分支使用全局池化层获得全局上下文信息,并将其推入线性转换,然后进行双线性上采样运算,以匹配特征维度;短路径(即快捷连接分支)复制输入特征,并在所有上下文信息输出后将其粘贴。所有产生的特征首先被连接起来,之后通过一个学习的线性变换执行降维,以生成最终的深度图像。
进一步的,在广域关注中启用了多头机制,在汇集上下文的同时,将头的数量严格设定为下采样率
Figure SMS_191
的平方,主要用于恢复查询和上下文之间被抛弃的依赖关系。在头的/>
Figure SMS_192
子空间上分别应用了/>
Figure SMS_193
位置混合操作,加强了多头注意的空间表示能力。因此,广域注意力中的补丁可以捕获任何尺度的上下文信息,且只产生了少量位置混合操作引起的计算开销。
通过本实施例上述单目深度估计方法,将CNN与Transformer各自的优点融合应用于深度估计任务中,其中Transformer用于提取全局上下文信息,CNN用于保留局部上下文信息,从而使算法具备了提取场景中完整信息的能力,避免了CNN不能在有限的接受域内模拟全局相关以及Transformer建模时通常缺乏空间感知偏差的缺陷;针对场景中丰富的底层纹理信息,设计了底层信息提取模块,在卷积网络中加入直方图均衡化,利用均衡化后的掩膜乘以原始的特征,来增强特征的表征能力;此外,考虑到Transformer缺乏多尺度的语境信息问题,设计了广域多尺度解码器,只产生少量位置混合操作引起的计算开销的同时能够捕捉到多种尺度的上下文信息,加强了深度估计的准确性。
实施例二
本实施例提供了一种基于完整上下文信息的单目深度估计系统,包括:
图像获取及预处理模块,用于获取待估计图像,对待估计图像进行预处理;
深度估计模块,用于将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于完整上下文信息的单目深度估计方法,其特征是,包括:
获取待估计图像,对待估计图像进行预处理;
将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
2.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述预处理包括:
通过分区算子对输入的待估计图像进行分割,分割得到多个大小一致的图像块。
3.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述Transformer分支包括多个依次连接的下采样层,每个下采样层包括补丁合并层和多个Transformer块,每个Transformer块包括一个多头自注意模块和一个多层感知器模块,以及两个归一化层。
4.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层,用于提取局部上下文信息。
5.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中,分别经过
Figure QLYQS_1
卷积后得到第一全局特征与第一局部特征;
第一全局特征经过自注意力模块得到第二全局特征,第一局部特征经过交叉注意力模块得到第二局部特征;其中,将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值,计算交叉注意力,建模亲和力;
第二全局特征和第二局部特征分别通过通道级联和
Figure QLYQS_2
卷积,将全局特征和第二全局特征、局部特征和第二局部特征结合起来,分别得到特征交互后的全局特征和局部特征。
6.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块;
所述纹理特征提取模块中,基于卷积编码层输出的原始特征图,利用一维量化和计算算子,以统计方式描述纹理信息,获取统计特征和量化特征;基于统计特征和量化特征,通过矩阵相乘,得到并输出纹理特征;
所述金字塔纹理特征提取模块中,将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图,对输入特征图从多个尺度上利用二维量化和计算算子,得到多尺度的共现统计特征;多尺度的共现统计特征分别通过多层感知机后进行上采样,将上采样的特征连接起来,得到并输出统计纹理特征。
7.如权利要求6所述的基于完整上下文信息的单目深度估计方法,其特征是,将输出的统计纹理特征与基于卷积编码层输出的原始特征融合,得到最终的局部特征。
8.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述广域多尺度解码器采用空间金字塔池的结构与广域注意力协作,所述广域多尺度解码器由5个平行的分支组成,包括一个快捷连接分支、三个不同下采样率的广域注意力分支和一个图像池化分支;
所述广域注意力分支用于为局部窗口提供多个层次的感受野;所述图像池化分支用于通过全局池化层获得全局上下文信息,并通过线性转换和双线性上采样运算,匹配特征维度;所述快捷连接分支用于复制输入特征,并在所有上下文信息输出后粘贴所复制的输入特征。
9.如权利要求8所述的基于完整上下文信息的单目深度估计方法,其特征是,所有分支输出的特征连接后,通过一个学习的线性变换进行降维操作,生成最终的深度图像。
10.一种基于完整上下文信息的单目深度估计系统,其特征是,包括:
图像获取及预处理模块,用于获取待估计图像,对待估计图像进行预处理;
深度估计模块,用于将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器-解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像。
CN202310490937.0A 2023-05-05 2023-05-05 基于完整上下文信息的单目深度估计方法及系统 Active CN116205962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310490937.0A CN116205962B (zh) 2023-05-05 2023-05-05 基于完整上下文信息的单目深度估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310490937.0A CN116205962B (zh) 2023-05-05 2023-05-05 基于完整上下文信息的单目深度估计方法及系统

Publications (2)

Publication Number Publication Date
CN116205962A true CN116205962A (zh) 2023-06-02
CN116205962B CN116205962B (zh) 2023-09-08

Family

ID=86517646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310490937.0A Active CN116205962B (zh) 2023-05-05 2023-05-05 基于完整上下文信息的单目深度估计方法及系统

Country Status (1)

Country Link
CN (1) CN116205962B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503461A (zh) * 2023-06-28 2023-07-28 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN117437272A (zh) * 2023-12-21 2024-01-23 齐鲁工业大学(山东省科学院) 一种基于自适应令牌聚合的单目深度估计方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620023A (zh) * 2022-09-28 2023-01-17 广州大学 一种融合全局特征的实时单目深度估计方法
CN115761594A (zh) * 2022-11-28 2023-03-07 南昌航空大学 一种基于全局与局部耦合的光流计算方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
WO2023068953A1 (en) * 2021-10-19 2023-04-27 Huawei Technologies Co., Ltd Attention-based method for deep point cloud compression

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023068953A1 (en) * 2021-10-19 2023-04-27 Huawei Technologies Co., Ltd Attention-based method for deep point cloud compression
CN115620023A (zh) * 2022-09-28 2023-01-17 广州大学 一种融合全局特征的实时单目深度估计方法
CN115761594A (zh) * 2022-11-28 2023-03-07 南昌航空大学 一种基于全局与局部耦合的光流计算方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAOTIAN YAN等: "Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention", 《ARXIV》, pages 1 - 11 *
LANYUN ZHU等: "Learning Statistical Texture for Semantic Segmentation", 《CVPR 2021》, pages 12537 - 12546 *
马成虎等: "一种基于深度学习的多尺度深度网络的场景标注算法", 《计算机工程与科学》, vol. 38, no. 07, pages 1356 - 1361 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503461A (zh) * 2023-06-28 2023-07-28 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN116503461B (zh) * 2023-06-28 2023-10-31 中国科学院空天信息创新研究院 单目图像深度估计方法、装置、电子设备及存储介质
CN117437272A (zh) * 2023-12-21 2024-01-23 齐鲁工业大学(山东省科学院) 一种基于自适应令牌聚合的单目深度估计方法及系统
CN117437272B (zh) * 2023-12-21 2024-03-08 齐鲁工业大学(山东省科学院) 一种基于自适应令牌聚合的单目深度估计方法及系统

Also Published As

Publication number Publication date
CN116205962B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
Wang et al. Multi-view stereo in the deep learning era: A comprehensive review
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN110910437B (zh) 一种复杂室内场景的深度预测方法
An et al. TR-MISR: Multiimage super-resolution based on feature fusion with transformers
Yuan et al. Single image dehazing via NIN-DehazeNet
Zhang Research on remote sensing image de‐haze based on GAN
Li et al. Image reflection removal using end‐to‐end convolutional neural network
Yuan et al. A novel deep pixel restoration video prediction algorithm integrating attention mechanism
Li et al. Two‐stage single image dehazing network using swin‐transformer
Jiang et al. Pixel-wise content attention learning for single-image deraining of autonomous vehicles
Huang et al. Underwater image enhancement via LBP‐based attention residual network
CN116258756B (zh) 一种自监督单目深度估计方法及系统
Cui et al. Remote sensing image recognition based on dual-channel deep learning network
CN116452793A (zh) 一种基于多视角和多层级的绿色编解码显著目标检测方法
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
Wan et al. Progressive convolutional transformer for image restoration
Zou et al. DiffCR: A fast conditional diffusion framework for cloud removal from optical satellite images
Nie et al. Binocular image dehazing via a plain network without disparity estimation
Zheng et al. DCU-NET: Self-supervised monocular depth estimation based on densely connected U-shaped convolutional neural networks
Zhu et al. HDRD-Net: High-resolution detail-recovering image deraining network
Kang et al. Lightweight Image Matting via Efficient Non-Local Guidance
Kumar et al. Underwater Image Enhancement using deep learning
Zhuang et al. Dimensional transformation mixer for ultra-high-definition industrial camera dehazing
Lei et al. A monocular image depth estimation method based on weighted fusion and point‐wise convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant