CN112270691B - 一种基于动态滤波器网络的单目视频结构和运动预测方法 - Google Patents
一种基于动态滤波器网络的单目视频结构和运动预测方法 Download PDFInfo
- Publication number
- CN112270691B CN112270691B CN202011100484.9A CN202011100484A CN112270691B CN 112270691 B CN112270691 B CN 112270691B CN 202011100484 A CN202011100484 A CN 202011100484A CN 112270691 B CN112270691 B CN 112270691B
- Authority
- CN
- China
- Prior art keywords
- network
- depth
- estimation
- dynamic filter
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000003287 optical effect Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000000889 atomisation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态滤波器网络的单目视频结构和运动预测方法,包括以下步骤:步骤1:获取深度估计数据集并进行预处理;步骤2:构建单目视频结构和运动估计系统,包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络;步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练;步骤4:采用步骤3训练得到的分别进行神经网络进行深度值的预测。本发明充分利用光学图像与深度图像之间的相关性,实现了对深度图片的自适应滤波,在深度估计任务中能够建立深度图和输入彩色图片之间的联系,对边界信息处理得也更好。
Description
技术领域
本发明涉及图像处理技术领域,特别是一种基于动态滤波器网络的单目视频结构和运动预测方法。
背景技术
随着三维信息的应用越来越广,对深度信息的需求日益增加。单目深度估计通过基于单视点的深度估计以单目图像或视频序列为输入,经过深度估计系统,根据图中边界、雾化效果以及位置关系中隐藏的几何结构信息,得到与原图对应的深度图。基于单目视频的深度估计方法是在视点生成的基础之上实现其中神经网络的训练的。无监督的单目视频的深度估计,在训练过程中不需要额外的深度信息——神经网络训练过程中运用的是自监督模式,根据深度信息实现视点之间的转换,并将视点转换的准确程度作为深度估计的损失函数。
无监督的单目视频深度估计系统由三个网络组成:深度估计网络、相机姿态估计网络、可解释性网络。针对一段连续的视频,在估计每一帧的深度时,以单帧图片的作为深度估计网络的输入,输出则是对应的深度图片。而相机姿态估计网络则以相邻的两帧图片作为输入,输出两帧图片拍摄时的视角转换矩阵。至于可解释性网络则是在训练过程中需要用到的,其作用是根据两帧图片之间的变化判断图片中哪些部分的变化是仅由相机的运动而引发的。因此可解释性网络和相机姿态估计网络有共用的部分。整个系统采用的是自监督训练,所以损失函数采用的是视点合成的方式。用<I1,...,IN>表示训练集中的图片序列,以It表示目标帧,Is(1≤s≤N,s≠t)表示剩下的图片,那么视角生成的目标可以表示成以下形式:
这里的p表示像素坐标,而Is则是根据源图像Is,利用网络预测的深度和相机转换矩阵合成的目标视点上的影像,根据合成影像和真实影像之间的差别衡量网络得到的估计结果的准确性。在深度估计过程中,深度图的平滑约束起到了很重要的作用,最近提出的动态滤波网络可以将单目深度估计中的平滑约束与彩色图片结合起来。
动态滤波模型包含两个部分,一是根据输入图片生成的滤波器系数,二是动态滤波层。这里的滤波系数在网络训练完成后,并不是固定的,而是会随着输入图片的变化而不同。动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中,进而得到最终的输出结果。这样的动态滤波系统不仅实现了对局部信息的提取,也同时能够利用整幅图片的信息。因为滤波系数和滤波器所运用的位置及图片相关。
用表示输入图片,其中h是图片的高度,ω是图片的宽度,cA是图片的通道数。网络的输出则是一个以为权值的滤波器。其中s是滤波器的大小,cB是图片B的通道数,n是滤波器的个数。d在动态卷积过程中为1,而在动态局部滤波中则为h×ω个。网络输出的滤波器然后会被运用到输入上,然后生成图片G=Fθ(IB),其中Fθ表示的是由网络输出决定的滤波器。滤波器感受野的尺度大小s可以根据实际使用情况确定。
在深度估计过程中,深度图的平滑约束起到了很重要的作用。因为单视点的深度估计本身是欠定问题,因此需要额外的先验信息对估计结果进一步约束,而对于深度图的平滑程度要求则是一种常用的先验知识。
现有的单目深度估计过程中对于深度图片的平滑处理都是在目标函数中以平滑项的形式出现的,虽然也有一些平滑约束能够将输入的彩色图片的纳入其中。但这类处理方式,并不能充分利用彩色图片的整体信息,只能利用彩色图片的局部变化信息。
发明内容
本发明所要解决的技术问题是提供一种基于动态滤波器网络的单目视频结构和运动预测方法,考虑到输入图像和深度图像之间有很高的相关性,在现有的深度估计方法中广泛使用与图像相关的平滑项,提高最后得到的深度图的结果。
为解决上述技术问题,本发明采用的技术方案是:
一种基于动态滤波器网络的单目视频结构和运动预测方法,包括以下步骤:
步骤1:获取深度估计数据集并进行预处理
在处理单目视频结构和运动估计系统训练所需的数据集时,将平均光流运动幅度小于一个像素的视频序列归为静止,去除视频中的静止部分,并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点;
步骤2:构建单目视频结构和运动估计系统,包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络
单目视频结构和运动估计系统由四个网络组成:深度估计网络、相机姿态估计网络、可解释性网络和动态滤波器生成网络;所述深度估计网络使用的是U-net结构,而相机姿态估计网络则和可解释性网络共用网络中的编码部分,并在编码部分处理完成后输出相机姿态估计矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜;动态滤波器生成网络是一个动态滤波网络,它根据输入的光学图像,由CNN计算平滑滤波器,然后对深度图像进行滤波;不同像素的滤波器适应光学图像的变化,将深度平滑度和输入图像联系起来;将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理,得到最终的深度结果图;
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动估计系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,再利用动态滤波器生成网络,根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数;最后,根据动态滤波器系数,生成滤波器,并对深度估计结果进行滤波处理;根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练;
步骤4:采用步骤3训练得到的分别进行神经网络进行深度值的预测
利用步骤3中训练得到的网络和其参数分别对单目视频的深度和相机姿态进行估计;同时使用或者独立使用步骤3中得到的深度网络和相机姿态估计网络进行估计;在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图像;在相机姿态估计过程中,以连续的3帧图片作为输入,相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。
进一步地,所述动态滤波器生成网络是一个动态滤波网络,其根据输入的光学图像,由CNN计算平滑滤波器,然后对深度图像进行滤波;不同像素的滤波器适应光学图像的变化,将深度平滑度和输入图像联系起来;将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理,得到最终的深度结果图;采用动态滤波网络中的动态局部滤波网络,从而同时利用图片的整体信息和局部变化和深度图自身的局部信息。
进一步地,所述动态滤波器生成网络的动态滤波模型包含两个部分,一是根据输入图片生成的滤波器系数,二是动态滤波层,所述滤波系数随着输入图片的变化而不同;动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中,进而得到最终的输出结果。
进一步地,所述动态滤波器生成网络输入彩色图片,对深度图优化,搭建深度图和彩色图片之间的联系。
进一步地,在步骤3中,训练中采用作为损失函数,其中Lvs为合成视点和原图的差别,Lsmooth为平滑约束,则为对于可解释性掩膜的约束。λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化;优化器的初始学习率被设置为2×10-4,并在训练集识别准确率不再提升后衰减为原来的0.1;批处理尺寸被设置为4。
进一步地,在步骤1中,训练时使用的视频序列的长度为3帧;对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
与现有技术相比,本发明的有益效果是:
1)基于动态滤波器网络对深度图像进行动态滤波的深度图后处理方式,以彩色图片为输入,合成针对深度图片的滤波器系数,充分利用光学图像与深度图像之间的相关性。
2)以平滑约束作为对深度图片的平滑处理方式,只能利用从局部的角度利用彩色图片和深度图片之间在变换程度上的相关性,无法从整幅图片出发,利用更大范围上的信息。对于物体的边界部分由于其彩色图片变换剧烈程度和深度图片之间实际上并不存在严格的比例关系。因此简单的通过线性函数将彩色图片的变化程度纳入深度图片的平滑约束中,并不能很好地对深度图片的边缘提供准确的监督信息。本发明方法以动态滤波器网络为基础,能够将彩色图片和深度图片之间的联系通过动态滤波器,同时建立局部到局部和局部到整体的联系,更加准确地利用彩色图片中的各类信息对于深度图片平滑性的影响,能够自适应地调整深度图片的平滑程度,提高网络估计的准确性。
附图说明
图1是本发明中基于单目图片的深度估计网络。
图2是本发明中相机矩阵估计网络和掩膜估计网络。
图3是本发明使用的动态滤波器网络。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明为了直接建立深度图和彩色图片之间的联系,采用了动态滤波网络中的动态局部滤波网络,从而同时利用彩色图片的整体信息和局部变化和深度图自身的局部信息。考虑到对于深度图的平滑处理主要是以彩色图片的变化为依据的,因此动态滤波器生成网络的输入位彩色图片。据此得到的动态滤波器被用于对深度图进一步优化,搭建起深度图和彩色图片之间的关系。如图3所示,动态滤波器中系数生成部分采用了编码-解码结构,其输入即为深度图对应的彩色图片,这样得到的系数即能利用彩色图片的整体信息和边界信息,判断深度图中的像素是否属于同一部分,从而确定他们之间是否应当存在剧烈的变化。在滤波器的应用上,采用了动态局部滤波层,也对深度图中不同的位置采用了不同的滤波器,从而充分利用细节信息,使滤波器本身和图片中的位置信息关联起来,充分适应深度和彩色图片的变化情况。
本发明一种基于动态滤波器网络的单目视频结构和运动预测方法具体如下:
步骤1:获取深度估计数据集并进行预处理
单目视频结构和运动估计系统去除了视频中被认为是静止的部分,将平均光流运动幅度小于一个像素的视频序列归为静止的。训练时使用的视频序列的长度为3帧,在实际使用中这一数值是可以根据需求自己调节的。并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点。对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,从而得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
步骤2:构建单目视频结构和运动估计系统,包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络
单目视频结构和运动估计系统由四个网络组成:深度估计网络、相机姿态估计网络、可解释性网络和动态滤波器生成网络;所述深度估计网络使用的是U-net结构,而相机姿态估计网络则和可解释性网络共用网络中的编码部分,并在编码部分处理完成后输出相机姿态估计矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜;动态滤波器生成网络是一个动态滤波网络,它根据输入的光学图像,由CNN计算平滑滤波器,然后对深度图像进行滤波;不同像素的滤波器适应光学图像的变化,将深度平滑度和输入图像联系起来;将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理,得到最终的深度结果图。
动态滤波器由动态滤波网络生成生成网络是一个动态滤波网络,它根据输入的光学图像,由CNN计算平滑滤波器,然后对深度图像进行滤波;不同像素的滤波器适应光学图像的变化,将深度图片的平滑度和输入图像联系起来;将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理,得到最终的深度结果图;
为了直接建立深度图和彩色图片之间的联系,采用了动态滤波网络中的动态局部滤波网络,从而同时利用彩色图片的整体信息和局部变化和深度图自身的局部信息。考虑到对于深度图的平滑处理主要是以彩色图片的变化为依据的,因此动态滤波器生成网络的输入是彩色图片。据此得到的动态滤波器被用于对深度图进一步优化,搭建深度图和彩色图片之间的联系。
动态滤波网络模型包含两个部分,一是根据输入图片生成的滤波器系数,二是动态滤波层。滤波器生成网络类似U-net由编码-解码两部分组成,其输出为W×H×S2的张量,其中W和H分别为输入图片的长和宽,S为滤波器的尺寸。根据滤波器的形态,可以生成一组和图片中的位置相对应的滤波器系数。这里的滤波系数在网络训练完成后,并不是固定的,而是会随着输入图片的变化而不同。动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中,进而得到最终的输出结果。这样的动态滤波系统不仅实现了对局部信息的提取,也同时能够利用整幅图片的信息。因为滤波系数和滤波器所运用的位置及图片相关。
在本本系统中采用的动态滤波模型中系数生成部分采用了编码-解码结构,其输入即为深度图对应的彩色图片,这样得到的系数即能利用彩色图片的整体信息和边界信息,判断深度图中的像素是否属于同一部分,从而确定他们之间是否应当存在剧烈的变化。在滤波器的应用上,采用了动态局部滤波层,也就是对深度图中不同的位置采用了不同的滤波器,只有这样才能充分利用细节信息,使滤波器本身和图片中的位置信息关联起来,充分适应深度和彩色图片的变化情况。
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动估计系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,再利用动态滤波器生成网络,根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数;最后,根据动态滤波器系数,生成滤波器,并对深度估计结果进行滤波处理;根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练。
vs合成视点和原图的差别,Lsmooth为平滑约束,则为对于可解释性掩膜的约束。λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化;优化器的初始学习率被设置为2×10-4,并在训练集识别准确率不再提升后(连续20次不再提升)衰减为原来的0.1。批处理尺寸被设置为4。
步骤4:采用步骤3训练得到的神经网络进行深度值的预测
利用步骤3中训练得到的网络和其参数分别对单目视频的深度和相机姿态进行估计;同时使用或者独立使用步骤3中得到的深度网络和相机姿态估计网络进行估计;在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图像;在相机姿态估计过程中,以连续的3帧图片作为输入,相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。为测试训练网络在实际应用中的准确率,本发明利用步骤1中准备的测试数据进行检测。实验结果表明深度估计的测试准确率为74.75%。相比不加入动态滤波器的73.40%准确率,本发明的方法有显著的提升。
Claims (5)
1.一种基于动态滤波器网络的单目视频结构和运动预测方法,其特征在于,包括以下步骤:
步骤1:获取深度估计数据集并进行预处理
在处理单目视频结构和运动估计系统训练所需的数据集时,将平均光流运动幅度小于一个像素的视频序列归为静止,去除视频中的静止部分,并把序列中最中间的一帧作为需要估计深度的目标帧,序列中除了中间那一帧以外全部作为源视点;
步骤2:构建单目视频结构和运动估计系统,包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络
单目视频结构和运动估计系统由四个网络组成:深度估计网络、相机姿态估计网络、可解释性网络和动态滤波器生成网络;所述深度估计网络使用的是U-net结构,而相机姿态估计网络则和可解释性网络共用网络中的编码部分,并在编码部分处理完成后输出相机姿态估计矩阵,可解释性网络则接着以解码部分继续处理,并最终输出一个同输入图片大小一致的掩膜;动态滤波器生成网络是一个动态滤波网络,它根据输入的光学图像,由CNN计算平滑滤波器,然后对深度图像进行滤波;不同像素的滤波器适应光学图像的变化,将深度平滑度和输入图像联系起来;将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理,得到最终的深度结果图;
步骤3:将步骤1得到的数据集输入到步骤2构建的神经网络中,并对其进行联合训练
在单目视频结构和运动估计系统处理过程中,分别使用深度估计网络和相机姿态估计网络,对视频中的深度信息和相机姿态变换矩阵做出预测,再利用动态滤波器生成网络,根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数;最后,根据动态滤波器系数,生成滤波器,并对深度估计结果进行滤波处理;根据可解释性网络输出的掩膜确定联合训练所用的损失函数,以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练;
在步骤3中,训练中采用作为损失函数,其中为合成视点和原图的差别,为平滑约束,则为对于可解释性掩膜的约束;λs和λe则为平滑约束和可解释性掩膜约束的惩罚系数;l和s则表示不同视点和不同尺度;并采用当前广泛应用的Adam优化器对网络的参数进行优化;
步骤4:采用步骤3训练得到的神经网络进行深度值的预测
利用步骤3中训练得到的网络和其参数分别对单目视频的深度和相机姿态进行估计;同时使用或者独立使用步骤3中得到的深度网络和相机姿态估计网络进行估计;在每次深度估计中,单帧图片作为输入,经过深度估计网络处理,获得的输出即为预测的深度图像;在相机姿态估计过程中,以连续的3帧图片作为输入,相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。
2.根据权利要求1所述的一种基于动态滤波器网络的单目视频结构和运动预测方法,其特征在于,采用动态滤波网络中的动态局部滤波网络,从而同时利用图片的整体信息和局部变化和深度图自身的局部信息。
3.根据权利要求2所述的一种基于动态滤波器网络的单目视频结构和运动预测方法,其特征在于,所述动态滤波器生成网络的动态滤波模型包含两个部分,一是根据输入图片生成的滤波器系数,二是动态滤波层,所述滤波系数随着输入图片的变化而不同;动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中,进而得到最终的输出结果。
4.根据权利要求3所述的一种基于动态滤波器网络的单目视频结构和运动预测方法,其特征在于,所述动态滤波器生成网络输入彩色图片,对深度图优化,搭建深度图和彩色图片之间的联系。
5.根据权利要求1所述的一种基于动态滤波器网络的单目视频结构和运动预测方法,其特征在于,在步骤1中,训练时使用的视频序列的长度为3帧;对于数据集中400个场景的视频中的每一帧都当作独立的帧处理,得到44540个长度为3帧的视频序列,其中训练集为40109个视频序列,验证集为4431个视频序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100484.9A CN112270691B (zh) | 2020-10-15 | 2020-10-15 | 一种基于动态滤波器网络的单目视频结构和运动预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100484.9A CN112270691B (zh) | 2020-10-15 | 2020-10-15 | 一种基于动态滤波器网络的单目视频结构和运动预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270691A CN112270691A (zh) | 2021-01-26 |
CN112270691B true CN112270691B (zh) | 2023-04-21 |
Family
ID=74337223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100484.9A Active CN112270691B (zh) | 2020-10-15 | 2020-10-15 | 一种基于动态滤波器网络的单目视频结构和运动预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270691B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240723A (zh) * | 2021-05-18 | 2021-08-10 | 中德(珠海)人工智能研究院有限公司 | 一种单目深度估计方法、装置以及深度评估设备 |
CN115131404B (zh) * | 2022-07-01 | 2024-06-14 | 上海人工智能创新中心 | 基于运动估计深度的单目3d检测方法 |
CN117609673B (zh) * | 2024-01-24 | 2024-04-09 | 中南大学 | 基于物理信息神经网络的六自由度并联机构正解方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108375382A (zh) * | 2018-02-22 | 2018-08-07 | 北京航空航天大学 | 基于单目视觉的位置姿态测量系统精度检校方法和装置 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3182373B1 (en) * | 2015-12-17 | 2019-06-19 | STMicroelectronics S.A. | Improvements in determination of an ego-motion of a video apparatus in a slam type algorithm |
-
2020
- 2020-10-15 CN CN202011100484.9A patent/CN112270691B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108375382A (zh) * | 2018-02-22 | 2018-08-07 | 北京航空航天大学 | 基于单目视觉的位置姿态测量系统精度检校方法和装置 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
Non-Patent Citations (3)
Title |
---|
Tan feitong等.self-supervised human depth estimation from monucular videos.2020 IEEE/CVF conference on computer vision and pattern recognition.2020,647-656. * |
基于视频信号的无监督深度估计和相机姿态估计.中国优秀硕士学位论文全文数据库信息科技辑.2021,(第3期),I138-724. * |
朱庄生 ; 袁学忠 ; .基于单目视觉的位置姿态测量系统精度检校方法.中国惯性技术学报.2018,第26卷(第05期),654-659+664. * |
Also Published As
Publication number | Publication date |
---|---|
CN112270691A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270691B (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN111539879B (zh) | 基于深度学习的视频盲去噪方法及装置 | |
CN112270692B (zh) | 一种基于超分辨的单目视频结构和运动预测的自监督方法 | |
WO1995006297A1 (en) | Example-based image analysis and synthesis using pixelwise correspondence | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN110163887B (zh) | 基于运动插值估计与前景分割相结合的视频目标跟踪方法 | |
CN106709933B (zh) | 一种基于非监督学习的运动估计方法 | |
CN113269682B (zh) | 一种结合帧间信息的非均匀运动模糊视频复原方法 | |
CN112949493A (zh) | 一种结合语义分割和注意力机制的车道线检测方法及系统 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN113312973B (zh) | 一种手势识别关键点特征提取方法及系统 | |
RU2419880C2 (ru) | Способ и устройство для вычисления и фильтрации карты диспарантности на основе стерео изображений | |
CN112085717B (zh) | 一种用于腹腔镜手术的视频预测方法及其系统 | |
CN111598775B (zh) | 基于lstm网络的光场视频时域超分辨重建方法 | |
CN115035171A (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN115187638A (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN113724155A (zh) | 用于自监督单目深度估计的自提升学习方法、装置及设备 | |
CN116309232A (zh) | 一种结合物理先验与深度学习的水下图像增强方法 | |
CN113284061A (zh) | 一种基于梯度网络的水下图像增强方法 | |
CN114708615A (zh) | 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质 | |
Zhang et al. | MetaUE: Model-based meta-learning for underwater image enhancement | |
CN110580712B (zh) | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及系统 | |
CN112446245A (zh) | 一种基于运动边界小位移的高效运动表征方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |