CN113470097A - 一种基于时域关联与姿态注意力的单目视频深度估计方法 - Google Patents

一种基于时域关联与姿态注意力的单目视频深度估计方法 Download PDF

Info

Publication number
CN113470097A
CN113470097A CN202110590232.7A CN202110590232A CN113470097A CN 113470097 A CN113470097 A CN 113470097A CN 202110590232 A CN202110590232 A CN 202110590232A CN 113470097 A CN113470097 A CN 113470097A
Authority
CN
China
Prior art keywords
depth
attitude
time domain
attention
domain correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110590232.7A
Other languages
English (en)
Other versions
CN113470097B (zh
Inventor
于慧敏
刘柏邑
龙阳祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110590232.7A priority Critical patent/CN113470097B/zh
Publication of CN113470097A publication Critical patent/CN113470097A/zh
Application granted granted Critical
Publication of CN113470097B publication Critical patent/CN113470097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于时域关联与姿态注意力的单目视频深度估计方法。该方法通过将姿态估计和深度估计分别在时域上引入关联,利用先前帧对当前帧进行时域上的约束,并利用姿态注意力将姿态特征与深度特征融合,实现对输入单目视频进行深度估计,并且生成深度图。不同于之前的深度估计方法,该方法使得姿态估计以及深度估计均保持时域稳定,并且利用注意力机制将姿态特征与深度特征融合,使得深度图在时域上保持平滑的同时大幅度提高深度估计的精度。

Description

一种基于时域关联与姿态注意力的单目视频深度估计方法
技术领域
本发明属于深度估计领域,特别地涉及一种基于时域关联与姿态注意力的单目视频深度估计方法。在算法设计和模型训练部分涉及了深度学习技术。
背景技术
深度估计能从图像中精确感知场景的几何结构,是许多上游应用的基础,在智能手机和机器人等领域中有广泛的应用。
深度估计使用较为广泛的方法之一是利用3D信息传感器来直接获取场景深度。这种方法简便且精准,但是只能在特定场景使用,无法大规模推广。因此,相机是深度估计中系统与环境进行信息交互的首选设备。
深度估计的方法根据使用相机数量的不同分为单目、双目、多目。相对于单目的方法,双目或多目方法对于相机参数标定的要求也比较高,实现存在一定难度。因此利用单目相机拍摄的视频来进行无监督的深度估计成为了一个比较主流的方法。
对于无监督单目深度估计来说,训练时使用连续视频帧,测试时使用单帧,这会导致视频帧的深度估计结果存在较为明显的跳变,这与客观的事实并不相符。因此如何让深度估计的结果在时域上保持稳定,减少抖动的情况,是深度估计问题的关键所在。而卷积长短时记忆网络给这个问题提供了良好的思路。通过让特征在时域上产生关联,能够让深度估计结果在时域上变得平滑、稳定。
发明内容
本发明的目的在于提供了一种基于时域关联与姿态注意力的单目视频深度估计方法。该方法通过引入时域关联,实现了深度估计在时域上的平滑与稳定,并提升了深度估计的精度。
为实现上述目的,本发明的技术方案为:一种基于时域关联与姿态注意力的单目视频深度估计。该方法为:处理姿态估计和深度估计的特征,使其在时域上产生关联。将姿态特征与深度特征利用注意力机制融合。利用融合过的特征通过解码器来进行深度图的估计,得到更平滑、稳定的深度图。
具体的,本发明方法包括如下步骤:
一种基于时域关联与姿态注意力的单目视频深度估计方法,该方法包括如下步骤:
步骤1:将连续视频帧数据{RGB图像Ii,RGB图像Ii+1}进行串联,其中i=-n,…0为视频帧编号,使用第一卷积神经网络对串联过后的视频帧进行特征提取,并得到所有相邻视频帧对应的姿态变换特征
Figure BDA0003089232930000021
其中HP、WP、CP分别为Pi→i+1的长、宽和通道数。
步骤2:将步骤1中得到的n组姿态变换特征Pi→i+1串联后送入姿态时域关联模块进行姿态时域关联,再均分成n组最终得到与P相同维度的姿态特征P′。
步骤3:基于连续视频帧数据{RGB图像Ij},其中j=-n+1,...0,1为视频帧编号,使用第二卷积神经网络对连续视频帧的每帧单独进行特征提取,得到所有每个视频帧对应的深度特征
Figure BDA0003089232930000022
其中
Figure BDA0003089232930000023
为Dj,s的长、宽和通道数,s是不同尺度的编号。
步骤4:将步骤3中得到的其中一尺度k对应的n组深度特征Dj,k串联后送入深度时域关联模块进行深度时域关联,再均分成n组最终得到与Dj,k相同维度的深度特征D′j,k
步骤5:将步骤2中得到的P′-1→0、P′0→1与步骤4中得到的D0,k′进行串联,并将串联的特征送入姿态注意力模块进行特征提取,得到注意力特征A0
步骤6:将步骤5得到的注意力特征A0与步骤4得到的D0,k′融合得到特征D0,k″,并将融合特征D0,k″与步骤3中得到的当前帧其他尺度对应的深度特征D0,m,m≠k,组合输入深度特征解码器即可得到当前视频帧深度估计Depth0
其中,所述姿态时域关联模块、深度时域关联模块采用循环神经网络。第一卷积神经网络、姿态时域关联模块、深度时域关联模块、第二卷积神经网络、姿态注意力模块、深度特征解码器通过联合一姿态特征解码器训练获得,具体如下:
使用姿态特征解码器处理步骤2中得到的P′,得到姿态变换矩阵
Figure BDA0003089232930000024
利用步骤6中的深度估计Depth0以及对应的当前视频帧I0,在姿态变换矩阵的作用下将当前视频帧转换为相邻帧的生成图像I′,并计算相邻帧的生成图像I′与真实图像I的光度损失完成网络的无监督训练。
进一步地,所述步骤2具体如下:
将{Pi→i+1}中n组姿态变换特征在通道的维度上进行串联输入到姿态时域关联模块中进行时域稳定的处理,最后输出特征
Figure BDA0003089232930000025
将其在通道的维度上均分为n个特征,最终得到n组姿态变换特征{P′i→i+1}。
进一步地,所述步骤4具体如下:
将{Dj}中n组深度特征在通道的维度上进行串联输入到深度时域关联中进行时域稳定的处理,最后输出特征
Figure BDA0003089232930000031
将其在通道的维度上均分为n个特征,最终得到深度特征{D′j}。
进一步地,所述步骤5具体如下:
将{P′-1→0,D′0,P′0→1}进行串联,使用姿态注意力模块对串联后的特征进行特征提取,得到A0,A0与D′0维度相同。
进一步地,步骤6中所述的特征融合具体如下:
D″0=D′0+A0
D′0与步骤5得到的A0注意力特征维度相同。
进一步地,所述姿态变换矩阵包括为当前视频帧I0与连续视频帧中其他任一帧的变换矩阵
Figure BDA0003089232930000032
进一步地,所述第一卷积神经网络、第二卷积神经网络、深度特征解码器、姿态特征解码器采用Monodepth2的Baseline。
进一步地,所述姿态时域关联模块、深度时域关联模块采用选自ST-CLSTM网络等。
本发明的有益效果是:
(1)通过将时域稳定引入姿态特征与深度特征,使最后深度估计的结果更为平滑,主观感觉更好
(2)通过姿态注意力模块使得姿态特征可以对深度特征在深度恢复的时候进行约束,大幅度提高深度估计的精度。
附图说明
图1为本发明实施例的基于时域关联与姿态注意力的单目视频深度估计方法的步骤流程图;
图2为本发明实施例的深度估计的结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。
参考图1所示为本发明实施例的基于时域关联与姿态注意力的单目视频深度估计的网络结构图。
对于相机获取的连续视频帧数据{RGB图像Ii},其中i=-n,...0,1为视频帧编号,对其进行以下步骤处理:
1.生成姿态特征。具体地:
(1.1)将连续视频帧数据{RGB图像Ii,RGB图像Ii+1}进行串联,其中i为视频帧编号,得到{Ii,i+1}
(1.2)使用第一卷积神经网络ResNet-Pose-Encoder对{Ii,i+11}进行特征提取,并得到相邻视频帧对应的姿态变换特征
Figure BDA0003089232930000041
其中HP、WP、CP分别为P的长、宽和通道数。
2.构建姿态时域关联(Pose-CLSTM)模块并得到经过时域稳定处理的姿态变换特征P′。
具体地:
(2.1)将{Pi→i+1}中n组姿态变换特征在通道的维度上进行串联,得到特征
Figure BDA0003089232930000042
其中T=HP×WP×(n*CP)。
(2.2)将Pconcat输入到Pose-CLSTM模块中,得到
Figure BDA0003089232930000043
其中T=HP×WP×(n*CP)
(2.3)将Pclstm在通道的维度上均分为n个特征,最终得到姿态变换特征
Figure BDA0003089232930000044
Figure BDA0003089232930000045
3.生成深度特征。具体地:
使用第二卷积神经网络ResNet-Depth-Encoder对连续视频帧{Ii}的每帧单独进行特征提取,得到每帧视频帧对应的深度特征
Figure BDA0003089232930000046
其中
Figure BDA0003089232930000047
为Dj,s的长、宽和通道数,本实施例中,s=1,2,3,4,5分别代表从大到小的5个尺度的特征编号。
4.构建深度时域关联(Depth-CLSTM)模块并得到经过时域稳定处理的深度特征D′。具体地:
(4.1)将{Dj,5}中n组深度特征在通道的维度上进行串联,得到特征
Figure BDA0003089232930000048
其中
Figure BDA0003089232930000049
(4.2)将Dconcat输入到Depth-CLSTM模块中,得到
Figure BDA00030892329300000410
其中
Figure BDA00030892329300000411
Figure BDA0003089232930000051
(4.3)将Dclstm在通道的维度上均分为n个特征,最终得到深度特征
Figure BDA0003089232930000052
其中
Figure BDA0003089232930000053
该步骤中,除{Dj,5}之外,也可以采用其他4个尺度的深度特征进行时域稳定处理。
5.姿态变换特征与深度特征形成注意力。具体地:
(5.1)步骤2中得到的{P′i→i+1}与D′0,5的维度相同,即
Figure BDA0003089232930000054
将{P′-1→0,D′0,5,P′0→1}进行串联,得到特征
Figure BDA0003089232930000055
其中
Figure BDA0003089232930000056
(5.2)使用姿态注意力(Pose-Attention)模块对PDP进行特征提取,得到注意力特征
Figure BDA0003089232930000057
其中
Figure BDA0003089232930000058
6.特征融合与深度图生成。具体地:
(6.1)步骤5中得到注意力特征
Figure BDA0003089232930000059
其中
Figure BDA00030892329300000510
与D′0,5维度相同。将A0,5与D′0,5融合,并用得到的特征替换{D′0,s}原有的D′0,5,新的{D′0,s}特征用{D″0,s}表示。融合特征如下所示。
D″0,5=D′0,5+A0,5
(6.2)将{D″0,s}输入深度特征解码器Depth-Decoder进行深度估计,得到视频帧编号为0的帧的深度图Depth0
7.训练网络。具体地:
(7.1)步骤2中得到的{P′i→i+1},输入到姿态特征解码器Pose-Decoder中得到姿态变换矩阵
Figure BDA00030892329300000511
通过矩阵相乘获得
Figure BDA00030892329300000512
(7.2)步骤6中得到的深度估计结果Depth0与RGB图像I0可以在姿态变换矩阵{T0→i}的作用下warp得到合成RGB图像I′i
(7.3)利用合成RGB图像{I′i}计算与{Ii}的损失,进行无监督训练。
(7.4)当网络收敛后,Depth-Decoder输出的深度估计即本方法需要的结果。
进一步地,所述步骤1中所使用的ResNet-Pose-Encoder、步骤3中所使用的ResNet-Depth-Encoder、步骤6中所使用的Depth-Decoder与步骤7中所使用的Pose-Decoder使用了Monodepth2的Baseline,该Baseline也可以更换为其他网络。
进一步地,步骤2所使用的Pose-CLSTM与步骤4所使用的Depth-CLSTM模块选自ST-CLSTM,ST-CLSTM属于RNN的一种,该种RNN也可以更换为其他种类的RNN。
进一步地,步骤5所使用的Pose-Attention模块的结构为4层卷积神经网络,由卷积层、池化层、ReLU激活函数构成。
图2的第一列代表原始视频帧,第二列代表本专利具体实施方式所用Baseline——MonoDepth2的深度估计结果,第三列代表本专利方法深度估计结果,白色框部分为本专利方法表现更好之处。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于时域关联与姿态注意力的单目视频深度估计方法,其特征在于,该方法包括如下步骤:
步骤1:将连续视频帧数据{RGB图像Ii,RGB图像Ii+1}进行串联,其中i=-n,…0为视频帧编号,使用第一卷积神经网络对串联过后的视频帧进行特征提取,并得到所有相邻视频帧对应的姿态变换特征
Figure FDA0003089232920000011
其中HP、WP、CP分别为Pi→i+1的长、宽和通道数。
步骤2:将步骤1中得到的n组姿态变换特征Pi→i+1串联后送入姿态时域关联模块进行姿态时域关联,再均分成n组最终得到与P相同维度的姿态特征P′。
步骤3:基于连续视频帧数据{RGB图像Ij},其中j=-n+1,…0,1为视频帧编号,使用第二卷积神经网络对连续视频帧的每帧单独进行特征提取,得到所有每个视频帧对应的深度特征
Figure FDA0003089232920000012
其中
Figure FDA0003089232920000013
为Dj,s的长、宽和通道数,s是不同尺度的编号。
步骤4:将步骤3中得到的其中一尺度k对应的n组深度特征Dj,k串联后送入深度时域关联模块进行深度时域关联,再均分成n组最终得到与Dj,k相同维度的深度特征D′j,k
步骤5:将步骤2中得到的P′-1→0、P′0→1与步骤4中得到的D0,k′进行串联,并将串联的特征送入姿态注意力模块进行特征提取,得到注意力特征A0
步骤6:将步骤5得到的注意力特征A0与步骤4得到的D0,k′融合得到特征D0,k″,并将融合特征D0,k″与步骤3中得到的当前帧其他尺度对应的深度特征D0,m,m≠k,组合输入深度特征解码器即可得到当前视频帧深度估计Depth0
其中,所述姿态时域关联模块、深度时域关联模块采用循环神经网络。第一卷积神经网络、姿态时域关联模块、深度时域关联模块、第二卷积神经网络、姿态注意力模块、深度特征解码器通过联合一姿态特征解码器训练获得,具体如下:
使用姿态特征解码器处理步骤2中得到的P′,得到姿态变换矩阵
Figure FDA0003089232920000014
利用步骤6中的深度估计Depth0以及对应的当前视频帧l0,在姿态变换矩阵的作用下将当前视频帧转换为相邻帧的生成图像I′,并计算相邻帧的生成图像I′与真实图像I的光度损失完成网络的无监督训练。
2.根据权利要求1所述的方法,其特征在于,所述步骤2具体如下:
将{Pi→i+1}中n组姿态变换特征在通道的维度上进行串联输入到姿态时域关联模块中进行时域稳定的处理,最后输出特征
Figure FDA0003089232920000021
将其在通道的维度上均分为n个特征,最终得到n组姿态变换特征{P′i→i+1}。
3.根据权利要求1所述的方法,其特征在于,所述步骤4具体如下:
将{Dj}中n组深度特征在通道的维度上进行串联输入到深度时域关联中进行时域稳定的处理,最后输出特征
Figure FDA0003089232920000022
将其在通道的维度上均分为n个特征,最终得到深度特征{D′j}。
4.根据权利要求1所述的方法,其特征在于,所述步骤5具体如下:
将{P′-1→0,D′0,P′0→1}进行串联,使用姿态注意力模块对串联后的特征进行特征提取,得到A0,A0与D′0维度相同。
5.根据权利要求1所述的方法,其特征在于,步骤6中所述的特征融合具体如下:
D″0=D′0+A0
D′0与步骤5得到的A0注意力特征维度相同。
6.根据权利要求1所述的方法,其特征在于,所述姿态变换矩阵包括为当前视频帧I0与连续视频帧中其他任一帧的变换矩阵
Figure FDA0003089232920000023
7.根据权利要求1所述的方法,其特征在于,所述第一卷积神经网络、第二卷积神经网络、深度特征解码器、姿态特征解码器采用Monodepth2的Baseline。
8.根据权利要求1所述的方法,其特征在于,所述姿态时域关联模块、深度时域关联模块采用选自ST-CLSTM网络等。
CN202110590232.7A 2021-05-28 2021-05-28 一种基于时域关联与姿态注意力的单目视频深度估计方法 Active CN113470097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110590232.7A CN113470097B (zh) 2021-05-28 2021-05-28 一种基于时域关联与姿态注意力的单目视频深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110590232.7A CN113470097B (zh) 2021-05-28 2021-05-28 一种基于时域关联与姿态注意力的单目视频深度估计方法

Publications (2)

Publication Number Publication Date
CN113470097A true CN113470097A (zh) 2021-10-01
CN113470097B CN113470097B (zh) 2023-11-24

Family

ID=77871658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110590232.7A Active CN113470097B (zh) 2021-05-28 2021-05-28 一种基于时域关联与姿态注意力的单目视频深度估计方法

Country Status (1)

Country Link
CN (1) CN113470097B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
US20190356905A1 (en) * 2018-05-17 2019-11-21 Niantic, Inc. Self-supervised training of a depth estimation system
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112819876A (zh) * 2021-02-13 2021-05-18 西北工业大学 一种基于深度学习的单目视觉深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
US20190356905A1 (en) * 2018-05-17 2019-11-21 Niantic, Inc. Self-supervised training of a depth estimation system
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112819876A (zh) * 2021-02-13 2021-05-18 西北工业大学 一种基于深度学习的单目视觉深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岑仕杰;何元烈;陈小聪: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, vol. 37, no. 004, pages 35 - 41 *

Also Published As

Publication number Publication date
CN113470097B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110049303B (zh) 立体图像的视觉风格化
CN111127304A (zh) 跨域图像转换
CN103702098B (zh) 一种时空域联合约束的三视点立体视频深度提取方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN112837215B (zh) 一种基于生成对抗网络的图像形状变换方法
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN115883764B (zh) 一种基于数据协同的水下高速视频插帧方法及其系统
CN110443874A (zh) 基于卷积神经网络的视点数据生成方法和装置
CN110188667A (zh) 一种基于三方对抗生成网络的人脸摆正方法
CN115965840A (zh) 图像风格迁移和模型训练方法、装置、设备和介质
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
Kim et al. Adversarial confidence estimation networks for robust stereo matching
CN113470097A (zh) 一种基于时域关联与姿态注意力的单目视频深度估计方法
KR102489890B1 (ko) 깊이 추정 시스템 및 깊이 추정 방법
Wang et al. Scene Prior Filtering for Depth Map Super-Resolution
CN114897955A (zh) 一种基于可微几何传播的深度补全方法
KR102563522B1 (ko) 사용자의 얼굴을 인식하는 장치, 방법 및 컴퓨터 프로그램
CN118470219B (zh) 一种基于无标定图像的多视角三维重建方法和系统
CN114119698B (zh) 基于注意力机制的无监督单目深度估计方法
Chen et al. Surface Consistent Light Field Extrapolation Over Stratified Disparity And Spatial Granularities
US20240202951A1 (en) Depth estimation method for small baseline-stereo camera through lidar sensor fusion
CN115941872B (zh) 一种水下高速移动目标的视频插帧方法及其系统
CN113609960B (zh) 一种目标图片的人脸驱动方法及装置
CN114782267A (zh) 一种视频去模糊方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant