CN112270692A - 一种基于超分辨的单目视频结构和运动预测的自监督方法 - Google Patents

一种基于超分辨的单目视频结构和运动预测的自监督方法 Download PDF

Info

Publication number
CN112270692A
CN112270692A CN202011100648.8A CN202011100648A CN112270692A CN 112270692 A CN112270692 A CN 112270692A CN 202011100648 A CN202011100648 A CN 202011100648A CN 112270692 A CN112270692 A CN 112270692A
Authority
CN
China
Prior art keywords
network
depth
interpretable
motion prediction
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011100648.8A
Other languages
English (en)
Other versions
CN112270692B (zh
Inventor
李帅
方嘉仪
高艳博
王帅
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011100648.8A priority Critical patent/CN112270692B/zh
Publication of CN112270692A publication Critical patent/CN112270692A/zh
Application granted granted Critical
Publication of CN112270692B publication Critical patent/CN112270692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于超分辨的单目视频结构和运动预测的自监督方法,包括以下步骤:步骤1:获取数据集并进行预处理;步骤2:构建单目视频结构和运动预测系统,包括深度估计网络、相机姿态估计网络和可解释行网络;步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练;步骤4:采用步骤3训练得到的神经网络分别进行深度和相机姿态的预测;本发明方法能够实现对不同尺度的深度结果图的监督,也可直接作为网络结构的一部分,对反卷积操作提供更多信息,得到更加准确的大尺度深度图片。

Description

一种基于超分辨的单目视频结构和运动预测的自监督方法
技术领域
本发明涉及图像视频处理技术领域,特别是一种基于超分辨的单目视频结构和运动预测的自监督方法。
背景技术
随着三维信息的应用越来越广,对深度信息的需求日益增加。单目深度估计通过基于单视点的深度估计以单目图像或视频序列为输入,经过深度估计系统,根据图中边界、雾化效果以及位置关系中隐藏的几何结构信息,得到与原图对应的深度图。基于单目视频的深度估计方法是在视点生成的基础之上实现其中神经网络的训练的。无监督的单目视频的深度估计,在训练过程中不需要额外的深度信息——神经网络训练过程中运用的是自监督模式,根据深度信息实现视点之间的转换,并将视点转换的准确程度作为深度估计的损失函数。
无监督的单目视频深度估计系统由三个网络组成:深度估计网络、相机姿态估计网络、可解释性网络。针对一段连续的视频,在估计每一帧的深度时,以单帧图片的作为深度估计网络的输入,输出则是对应的深度图片,网络利用的是编码-解码结构,实现像素到像素的深度估计。相机姿态估计网络则以相邻的两帧图片作为输入,输出两帧图片拍摄时的视角转换矩阵。至于可解释性网络则是在训练过程中需要用到的,其作用是根据两帧图片之间的变化判断图片中哪些部分的变化是仅由相机的运动而引发的。因此可解释性网络和相机姿态估计网络有共用的部分。整个系统采用的是自监督训练,所以损失函数采用的是视点合成的方式。用<I1,...,IN>表示训练集中的图片序列,以It表示目标帧,Is(1≤s≤N,s≠t)表示剩下的图片,那么视角生成的目标可以表示成以下形式:
Figure BDA0002725213920000021
这里的p表示像素坐标,而Is则是根据源图像Is,利用网络预测的深度和相机转换矩阵合成的目标视点上的影像,根据合成影像和真实影像之间的差别衡量网络得到的估计结果的准确性。
单目视频的深度估计利用了深度图片在视点合成的过程中起到的重要的作用,以合成视点的图片准确性作为整个系统的监督过程,从而实现无监督的深度估计。但这一流程涉及到视点之间的形变,因此必须同时获取相邻帧图片作为监督信息。于是这类监督信息只能用于单目深度估计网络的训练过程中,无法将其纳入神经网络中,成为网络结构的一部分。
发明内容
本发明所要解决的技术问题是提供一种基于超分辨的单目视频结构和运动预测的自监督方法,用于深度估计网络中,可以利用解码器结构对小尺度深度图片中的偏差进行修正,提高深度估计的准确性。
为解决上述技术问题,本发明采用的技术方案是:
一种基于超分辨的单目视频结构和运动预测的自监督方法,包括以下步骤:
步骤1:获取数据集并进行预处理
在处理单目视频结构和运动预测系统训练所需的数据集时,将平均光流运动幅度小于一个像素的视频序列归为静止,去除视频中的静止部分,并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点;
步骤2:构建单目视频结构和运动预测系统,包括深度估计网络、相机姿态估计网络和可解释行网络
单目视频结构和运动预测系统由三个网络组成:深度估计网络、相机姿态估计网络和可解释性网络;所述深度估计网络使用的是U-net结构,并根据输出的每个尺度深度图像完成超分辨任务,并将超分辨产生的误差链接到相应的特征图中,作为特征图的一部分;而相机姿态估计网络和可解释性网络共用的编码部分,并在编码部分处理完成后直接得到相机姿态变换矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜;
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动预测系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,并根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练;
步骤4:采用步骤3训练得到的神经网络分别进行深度和相机姿态的预测
将步骤3中训练得到的网络和其参数用于单目视频的深度和相机姿态的估计,联合或者独立采用步骤3中得到的深度网络和相机姿态估计网络进行估计;在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图像;在相机姿态估计过程中,以连续的三帧图片作为输入,相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。
进一步地,所述深度估计网络沿用DispNet架构,该架构基于带跳跃连接和多尺度预测的编解码器设计,除输出层外,所有conv层均随后进行非线性激活函数激活。
进一步地,所述相机姿态估计网络的输入是与所有源视图相邻的目标视图,输出是目标视图和每个源视图之间的相机姿态变换矩阵。
进一步地,所述相机姿态估计网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成,最后,将全局平均池化应用于所有空间位置的聚合预测,除了最后一层,所有conv层的激活函数都是非线性激活函数。
进一步地,所述可解释性网络与相机姿态估计网络共享前5个特征编码层,然后是5个反卷积层,除没有非线性激活的输出层外,所有卷积/反卷积层后面都是非线性激活函数,每个输出层的输出信道数为2*(N-1),每两个信道通过softmax获得一个掩膜,用以表示对应的源图片和目标图片对的可解释性预测。
进一步地,在步骤1中,训练时使用的视频序列的长度为3帧;对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
进一步地,在步骤3中,训练中采用
Figure BDA0002725213920000041
作为损失函数,其中Lvs为合成视点和原图的差别,Lsmooth为平滑约束,
Figure BDA0002725213920000042
则为对于可解释性掩膜的约束。λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化;优化器的初始学习率被设置为2×10-4,并在训练集识别准确率不再提升后衰减为原来的0.1;批处理尺寸被设置为4。
与现有技术相比,本发明的有益效果是:基于超分辨的单目视频结构和运动预测的自监督方法通过不同尺度之间图片的超分辨,能够实现对不同尺度的深度结果图的监督,并且由于超分辨过程仅需要单视点的图片即可完成,因此不仅可以在训练过程中作为监督,也可直接作为网络结构的一部分,对反卷积操作提供更多信息,得到更加准确的大尺度深度图片。本发明方法解决了单目深度估计过程中缺少基于单目图片的自监督问题,以超分辨任务的准确程度反应深度估计的质量,实现了深度图片在尺度之间误差纠正。
附图说明
图1是本发明中基于单目图片的深度估计网络。
图2是本发明中相机矩阵估计网络和掩膜估计网络。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明方法在单目深度估计的基础上,添加以超分辨任务为基础的自监督过程。其中,小尺度的图片在超分辨的过程中利用了深度图片提供细节信息,利用的方式为对双线性插值和最邻近插值的加权平均,其中权重由深度变化决定;
Figure BDA0002725213920000051
其中以i,j表示像素的位置坐标,d表示深度。
对于相机姿态估计和掩膜估计的网络则如图2所示,利用的也是编码-解码结构,其中编码器输出相机姿态估计结果,而掩膜估计则和相机姿态共用同一个编码器,并由解码器输出掩膜结果。
具体的,本发明方法包括以下步骤:
步骤1:获取深度估计数据集并进行预处理
超分辨的单目视频结构和运动预测的自监督系统去除视频中被认为是静止的部分,将平均光流运动幅度小于一个像素的视频序列归为静止的。训练时使用的视频序列的长度为3帧,在实际使用中这一数值是可以根据需求自己调节的。并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点。对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,从而得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
步骤2:构建单目视频结构和运动预测系统,包括深度估计网络、相机姿态估计网络和可解释行网络
单目视频结构和运动预测系统由三个网络组成:深度估计网络、相机姿态估计网络和可解释性网络;如图1和图2所示,所述深度估计网络使用的是U-net结构,并根据输出的每个尺度深度图像完成超分辨任务,并将超分辨产生的误差链接到相应的特征图中,作为特征图的一部分;而相机姿态估计网络和可解释性网络共用的编码部分,并在编码部分处理完成后直接得到相机姿态变换矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜。
其中深度估计网络沿用了DispNet架构,该架构主要基于带跳跃连接和多尺度预测的编解码器设计。除输出层外,所有conv层均随后进行ReLU激活,其中我们使用α=10和β=0.1的1/(α×sigmoid(x)+β)将预测深度限制在合理范围内始终为正值。
相机姿态估计网络的输入是与所有源视图(沿着颜色通道)相邻的目标视图,输出是目标视图和每个源视图之间的相机姿态变换矩阵。该网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成(对应每个源视图的3个欧拉角和空间中三个维度上的位移)。最后,将全局平均池化应用于所有空间位置的聚合预测。除了最后一层,所有conv层的激活函数都是非线性激活函数(ReLU)。
可解释性网络与相机姿态估计网络共享前5个特征编码层,然后是5个反卷积层。除没有非线性激活的输出层外,所有卷积/反卷积层后面都是ReLU。每个输出层的输出信道数为2*(N-1),每两个信道通过softmax获得一个掩膜,用以表示对应的源图片和目标图片对的可解释性预测。
在超分辨过程中对于深度信息的利用则是通过双线性插值和最邻近插值实现的,而两者结合的比例则是由深度信息决定的。这是因为在超分辨的过程中,双线性插值更擅长处理平滑区域的超分辨,而最邻近插值更能保留边界上的剧烈变化,因此将二者按照合适的比例结合起来,可以获得更加准确的超分辨结果。基于超分辨图片的跨尺度监督是结合小尺度的深度图片,从小尺度的彩色图片直接恢复出最大尺度的图片。具体来说就是,根据待复原像素的四个参照点的深度信息,确定大尺度图片上双线性插值法和最邻近插值法的比例。
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动预测系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,并根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练;
还可利用动态滤波器生成网络,根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数。最后,根据动态滤波器系数,生成滤波器,并对深度估计结果进行滤波处理。
训练中采用
Figure BDA0002725213920000071
作为损失函数,其中Lvs为合成视点和原图的差别,Lsmooth为平滑约束,
Figure BDA0002725213920000072
则为对于可解释性掩膜的约束。λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化;优化器的初始学习率被设置为2×10-4,并在训练集识别准确率不再提升后(连续20次不再提升)衰减为原来的0.1。批处理尺寸被设置为4。
步骤4:采用步骤3训练得到的神经网络进行深度值的预测
将步骤3中训练得到的网络和其参数用于单目视频的深度和相机姿态的估计,联合或者独立采用步骤3中得到的深度网络和相机姿态估计网络进行估计。在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图片。在相机姿态估计中,以连续的3帧图片作为输入,相机姿态估计网络的输出即为相邻帧之间的相机角度变换。为测试训练网络在实际应用中的准确率,本发明利用步骤1中准备的测试数据进行检测,实验结果表明深度估计的测试准确率为77.56%,相比不加入超分辨监督的73.40%准确率,本发明方法有显著提升。
以上具体实施方式和附图仅为本发明之常用实施例。显然,在不脱离权利要求书所界定的本发明精神和发明范围的前提下可以有各种增补、修改和替换。本领域技术人员应该理解,本发明在实际应用中可根据具体的环境和工作要求在不背离发明准则的前提下在形式、结构、布局、比例、材料、元素、组件及其它方面有所变化。因此,在此披露之实施例仅用于说明而非限制,本发明之范围由后附权利要求及其合法等同物界定,而不限于此前之描述。

Claims (7)

1.一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,包括以下步骤:
步骤1:获取数据集并进行预处理
在处理单目视频结构和运动预测系统训练所需的数据集时,将平均光流运动幅度小于一个像素的视频序列归为静止,去除视频中的静止部分,并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点;
步骤2:构建单目视频结构和运动预测系统,包括深度估计网络、相机姿态估计网络和可解释行网络
单目视频结构和运动预测系统由三个网络组成:深度估计网络、相机姿态估计网络和可解释性网络;所述深度估计网络使用的是U-net结构,并根据输出的每个尺度深度图像完成超分辨任务,并将超分辨产生的误差链接到相应的特征图中,作为特征图的一部分;而相机姿态估计网络和可解释性网络共用的编码部分,并在编码部分处理完成后直接得到相机姿态变换矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜;
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动预测系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,并根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练;
步骤4:采用步骤3训练得到的神经网络分别进行深度和相机姿态的预测
将步骤3中训练得到的网络和其参数用于单目视频的深度和相机姿态的估计,联合或者独立采用步骤3中得到的深度网络和相机姿态估计网络进行估计;在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图像;在相机姿态估计过程中,以连续的三帧图片作为输入,相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。
2.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,所述深度估计网络沿用DispNet架构,该架构基于带跳跃连接和多尺度预测的编解码器设计,除输出层外,所有conv层均随后进行非线性激活函数激活。
3.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,所述相机姿态估计网络的输入是与所有源视图相邻的目标视图,输出是目标视图和每个源视图之间的相机姿态变换矩阵。
4.根据权利要求3所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,所述相机姿态估计网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成,最后,将全局平均池化应用于所有空间位置的聚合预测,除了最后一层,所有conv层的激活函数都是非线性激活函数。
5.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,所述可解释性网络与相机姿态估计网络共享前5个特征编码层,然后是5个反卷积层,除没有非线性激活的输出层外,所有卷积/反卷积层后面都是非线性激活函数,每个输出层的输出信道数为2*(N-1),每两个信道通过softmax获得一个掩膜,用以表示对应的源图片和目标图片对的可解释性预测。
6.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,在步骤1中,训练时使用的视频序列的长度为3帧;对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
7.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法,其特征在于,
在步骤3中,训练中采用
Figure FDA0002725213910000031
作为损失函数,其中Lvs为合成视点和原图的差别,Lsmooth为平滑约束,
Figure FDA0002725213910000032
则为对于可解释性掩膜的约束;λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数;l和s则表示不同视点和不同尺度;并采用当前广泛应用的Adam优化器对网络的参数进行优化;优化器的初始学习率被设置为2×10-4,并在训练集识别准确率不再提升后衰减为原来的0.1;批处理尺寸被设置为4。
CN202011100648.8A 2020-10-15 2020-10-15 一种基于超分辨的单目视频结构和运动预测的自监督方法 Active CN112270692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011100648.8A CN112270692B (zh) 2020-10-15 2020-10-15 一种基于超分辨的单目视频结构和运动预测的自监督方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011100648.8A CN112270692B (zh) 2020-10-15 2020-10-15 一种基于超分辨的单目视频结构和运动预测的自监督方法

Publications (2)

Publication Number Publication Date
CN112270692A true CN112270692A (zh) 2021-01-26
CN112270692B CN112270692B (zh) 2022-07-05

Family

ID=74338900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011100648.8A Active CN112270692B (zh) 2020-10-15 2020-10-15 一种基于超分辨的单目视频结构和运动预测的自监督方法

Country Status (1)

Country Link
CN (1) CN112270692B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113091693A (zh) * 2021-04-09 2021-07-09 天津大学 一种基于图像超分辨率技术的单目视觉长程测距方法
CN113723163A (zh) * 2021-06-07 2021-11-30 东南大学 利用离散姿态学习物理约束的手部运动自监督重建方法
CN113780390A (zh) * 2021-08-31 2021-12-10 中国人民解放军战略支援部队信息工程大学 基于重构映射一致的无监督密集匹配方法及系统
WO2023168815A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 单目深度估计模型的训练方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110490919A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
US20200090359A1 (en) * 2018-09-14 2020-03-19 Toyota Research Institute, Inc. Systems and methods for depth estimation using monocular images
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090359A1 (en) * 2018-09-14 2020-03-19 Toyota Research Institute, Inc. Systems and methods for depth estimation using monocular images
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110490919A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KYLE LINDGREN: "BooM-VIO: Bootstrapped Monocular Visual-Inertial Odometry with Absolute Trajectory Estimation through Unsupervised Deep Learning", 《2019 19TH INTERNATIONAL CONFERENCE ON ADVANCED ROBOTICS (ICAR)》 *
VINCENT CASSER等: "Depth Prediction without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos", 《THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-19)》 *
张跟跟: "基于非监督的卷积神经网络单目场景深度估计方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113091693A (zh) * 2021-04-09 2021-07-09 天津大学 一种基于图像超分辨率技术的单目视觉长程测距方法
CN113091693B (zh) * 2021-04-09 2022-08-05 天津大学 一种基于图像超分辨率技术的单目视觉长程测距方法
CN113723163A (zh) * 2021-06-07 2021-11-30 东南大学 利用离散姿态学习物理约束的手部运动自监督重建方法
CN113723163B (zh) * 2021-06-07 2024-04-16 东南大学 利用离散姿态学习物理约束的手部运动自监督重建方法
CN113780390A (zh) * 2021-08-31 2021-12-10 中国人民解放军战略支援部队信息工程大学 基于重构映射一致的无监督密集匹配方法及系统
CN113780390B (zh) * 2021-08-31 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于重构映射一致的无监督密集匹配方法及系统
WO2023168815A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 单目深度估计模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112270692B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN112270692B (zh) 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN111667442B (zh) 一种基于事件相机的高质量高帧率图像重建方法
CN111311490B (zh) 基于多帧融合光流的视频超分辨率重建方法
US10593021B1 (en) Motion deblurring using neural network architectures
Lim et al. DSLR: Deep stacked Laplacian restorer for low-light image enhancement
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
WO2020037965A1 (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN111739078A (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN113837938B (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
CN112270691B (zh) 一种基于动态滤波器网络的单目视频结构和运动预测方法
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115187638A (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
Han et al. Hybrid high dynamic range imaging fusing neuromorphic and conventional images
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN115578255A (zh) 一种基于帧间亚像素块匹配的超分辨率重建方法
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
CN116152710A (zh) 一种基于跨帧实例关联的视频实例分割方法
Sun et al. Video snapshot compressive imaging using residual ensemble network
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
CN115565107A (zh) 一种基于双流架构的视频显著性预测方法
Aslahishahri et al. Darts: Double attention reference-based transformer for super-resolution
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
WO2022141660A1 (zh) 基于神经网络的高分辨率图像复原方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant