CN115035173A - 基于帧间相关性的单目深度估计方法及系统 - Google Patents
基于帧间相关性的单目深度估计方法及系统 Download PDFInfo
- Publication number
- CN115035173A CN115035173A CN202210641767.7A CN202210641767A CN115035173A CN 115035173 A CN115035173 A CN 115035173A CN 202210641767 A CN202210641767 A CN 202210641767A CN 115035173 A CN115035173 A CN 115035173A
- Authority
- CN
- China
- Prior art keywords
- depth
- frame
- network
- frame image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims description 29
- 230000000306 recurrent effect Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 230000036544 posture Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims 2
- 206010034719 Personality change Diseases 0.000 claims 1
- 210000002569 neuron Anatomy 0.000 abstract description 9
- 230000008878 coupling Effects 0.000 abstract description 4
- 238000010168 coupling process Methods 0.000 abstract description 4
- 238000005859 coupling reaction Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Abstract
本公开涉及场景深度估计技术领域,提出了基于帧间相关性的单目深度估计方法及系统,通过独立循环神经网络提取帧间相关性,将循环输入即上一时刻状态的处理方式改为哈达玛乘积,解除了循环过程中神经元之间的耦合,实现每层神经元的相互独立,从而简化梯度传播过程;并且通过将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的深度特征进行增强,通过统一状态,提高了提取深度信息的清晰度,使得深度估计的结果更加准确。
Description
技术领域
本公开涉及场景深度估计相关技术领域,具体的说,是涉及基于帧间相关性的单目深度估计方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。
计算机视觉的研究目标是使计算机能像人一样具备观察环境、理解环境、自主适应环境的能力,在处理图像过程中如果缺失了真实场景的深度信息及相机的姿态信息,一定程度上会造成对场景错误的理解与识别,相对于二维视觉,三维视觉感知可以提供场景的深度信息,在众多视觉任务中具有广泛的应用前景,如自动驾驶、三维重建和增强现实等,目前基于单目视频的深度估计受到广泛关注。
随着深度学习的发展,目前存在较多的基于单目视频的深度估计方法,包括以真值深度图为目标的有监督学习方法和以视频运动生成结构为目标的自监督学习方法。而自监督学习方法又可以进一步分为两类,以单目单帧图像为输入的深度估计方法和以单目多帧为输入的深度估计方法。
针对单目多帧为输入的深度估计方法中,单目深度估计中因自监督的学习方式,目标帧深度和相机的姿态变换共同进行映射,导致视频每帧之间的深度估计相互独立且为相对变化,常出现闪烁现象。单目视频的连续帧间存在强相关性,可以通过循环神经网络提取该相关性,有效提升整个视频的深度估计质量。相比于前向神经网络,循环神经网络存在反馈循环连接,每一时刻的网络隐藏层输出不仅由该时刻的输入层决定,还由上一时刻的隐藏层输出决定,能够处理序列信息,捕捉时序相关性。理论上,循环神经网络可以处理任意长度的序列,但由于循环权重矩阵不断相乘,循环神经网络训练过程中面临着梯度消失和梯度爆炸问题,使得构建深度网络存在问题,难以实现长期记忆。另外,在通过循环神经网络提取帧间相关性中,每个时刻的隐藏层状态直接作用于下一个时刻存在潜在的假设,即序列中每个时刻的输入属性的基本特征是一致的,然而在连续视频的深度估计中,由于相机的连续运动,同一个物体在不同时刻其深度在不断变化,直接利用之前时刻的信息处理当前时刻会造成深度信息模糊,难以提升深度估计的质量。
发明内容
本公开为了解决上述问题,提出了基于帧间相关性的单目深度估计方法及系统,通过独立循环神经网络提取帧间相关性,简化梯度传播过程;并且通过统一不同时刻的状态,提高了提取深度信息的清晰度,使得深度估计的结果更加准确。
为了实现上述目的,本公开采用如下技术方案:
一个或多个实施例提供了基于帧间相关性的单目深度估计方法,包括如下过程:
通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征,以及当前帧图像与上一帧图像的相机变换姿态;
构建卷积-独立循环神经网络,将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧图像与下一帧图像的帧间相关性;
根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性,上一帧图像处理后得到的深度图,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的深度特征进行增强,得到增强后的深度特征;
将增强后的深度特征进行解码,得到当前帧图像的深度图;
循环执行上述过程得到连续帧图像每一帧图像对应的深度图。
一个或多个实施例提供了基于帧间相关性的单目深度估计系统,包括:
特征以及姿态提取模块:被配置为用于通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征,以及当前帧图像与上一帧图像的相机变换姿态;
相关性提取模块:被配置为用于构建卷积-独立循环神经网络,将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧与下一帧图像的帧间相关性;
更新模块:被配置为用于根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性,上一帧图像处理后得到的深度图,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的深度特征进行增强,得到增强后的深度特征;
解码模块:被配置为用于将增强后的深度特征进行解码,得到当前帧图像的深度图。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本公开的有益效果为:
本公开通过独立循环神经网络提取帧间相关性,将循环输入即上一时刻状态的处理方式改为哈达玛乘积,解除了循环过程中神经元之间的耦合,实现每层神经元的相互独立,从而简化梯度传播过程;并且通过将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的特征进行增强更新,通过统一状态,提高了提取深度信息的清晰度,使得深度估计的结果更加准确。
本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的处理单帧图像的深度估计网络结构示意图;
图2是本公开实施例1的处理连续帧图像的基于卷积-独立循环神经网络的自监督深度估计网络结构示意图;
图3是本公开实施例1的方法流程图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式公开的技术方案中,如图1-图3所示,基于帧间相关性的单目深度估计方法,包括如下步骤:
步骤1、通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征ft,以及当前帧图像It与上一帧图像It-1的相机变换姿态;
步骤2、构建卷积-独立循环神经网络(CNN-INDRNN),将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧与下一帧图像的帧间相关性;
步骤3、根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性ht-1,上一帧图像处理后得到的深度图Dt-1,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态h′t-1,根据映射后的状态对当前帧图像的深度特征ft进行增强,得到增强后的深度特征;
步骤4、将增强后的深度特征进行解码,得到当前帧图像的深度图Dt。
上述过程是单帧图像的处理过程,对于多帧图像,可以循环执行上述步骤得到连续帧图像每一帧图像对应的深度图。
本实施例中,通过独立循环神经网络提取帧间相关性,将循环输入即上一时刻状态的处理方式改为哈达玛乘积,解除了循环过程中神经元之间的耦合,实现每层神经元的相互独立,从而简化梯度传播过程;并且通过将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的特征进行增强更新,通过统一状态,提高了提取深度信息的清晰度,使得深度估计的结果更加准确。
步骤1中,通过构建深度估计网络实现,具体的,构建基于空域信息的自监督深度估计网络,自监督单目深度估计网络是通过源帧重建目标帧来提供监督信号,因此不仅需要深度估计网络估计目标帧的深度图,还需要姿态变换网络预测相机姿态。
可选的,如图1所示,基于空域信息的自监督深度估计网络包括姿态变换网络和深度估计网络。
如图1所示,姿态变换网络包括特征提取网络以及卷积网络,具体的特征提取网络为残差网络,卷积网络包括多个级联的卷积层。
本实施例中,对于姿态变换网络,首先将单目视频目标帧和源帧拼接输入到以残差网络为核心的特征提取网络,然后通过三层卷积层估计出相机变换姿态。本实施例中目标帧和源帧为相邻的两帧图像。
残差网络通过恒等映射的方式,将浅层网络的输出直接加到两层或者三层卷积层之后的较深层的输出上作为基本的残差单元,实现网络深度增加的同时不会出现网络性能退化。
本实施例采用的是残差网络ResNet_18,包括一个7*7的卷积层、3*3的最大池化层、四个残差卷积块和全局平均池化层,其中每个残差卷积块包含两个以两层3*3的卷积层为中间层的残差单元。
可选的,深度估计网络被配置为用于提取多尺度的深度特征ft,包括依次连接的深度编码器以及深度解码器,以及上采样模块,上采样模块连接深度编码器每一级以及深度解码器的每一级。
进一步地,本实施例中,姿态变化网络和深度估计网络可以采用特征提取网络共享的方式,可以减少网络参数量。
首先,将单目视频目标帧输入到以残差网络为核心的深度编码器中获得多尺度的深度特征ft,单目视频目标帧具体为每一帧图像。
步骤4中,为解码的步骤,具体的,如下:
步骤41、按照特征通道数将浅层特征逐级拼接到上采样之后的深层特征上;
步骤42、通过卷积块完成空域深度信息的多尺度特征融合:通过卷积层和Sigmoid激活函数逐级解码拼接的深度特征获得多尺度的深度图;通过双边线性插值到与输入图像相同尺寸的深度图,在输入图像尺寸上完成目标帧的重建,得到输入图像对应的深度图。
具体的,本实施例中,将深层特征ft一方面通过深度解码器中3*3的卷积块和上采样操作来减少特征通道数,另一方面按照特征通道数将浅层特征逐级拼接到上采样之后的深层特征上,通过3*3卷积块完成空域深度信息的多尺度特征融合。在空域深度信息的多尺度特征融合的过程中,采用3*3的卷积层和Sigmoid激活函数逐级解码拼接的深度特征获得多尺度的深度图,再通过双边线性插值到与输入图像相同尺寸的深度图,在输入图像尺寸上完成目标帧的重建,为单目深度估计网络训练提供监督信号。
可选的,在输入图像尺寸上完成目标帧的重建,其中,目标帧的重建过程即为视点合成过程,如式1所示,对于目标帧的每个像素位置通过深度图Dt、视频源帧与视频目标帧的相对姿态Tt→s及相机内参K,计算出其对应的源帧位置坐标,再将求得的源帧位置的像素值赋给对应的目标帧位置像素值获取重建目标帧Is→t,并且可以利用目标帧的重建误差构造监督信号。
Is→t=Is<proj(Dt,Tt→s,K)> (3)
对于来自不同源帧不同尺度的深度图的目标帧重建误差,采用最小重建误差,而不是平均重建误差作为最终的光学重建损失函数,即目标帧重建误差为:
Lp=mins pe(It,Is→t)s∈{-1,1} (4)
当某些问题像素只出现在目标帧中,而没有出现在源帧时,当网络可以准确预测其深度,但其因遮挡没法匹配到对应源帧像素点从而产生一个较大的重投影误差惩罚,采用最小重建误差能够提高误差计算的准确性。
此外,自监督单目深度估计网络通常是在相机是运动的,帧中场景是静止的假设下训练的。当假设被破坏,例如相机是固定的或者在场景中有运动对象时,网络预测深度性能都会受到很大的影响。视频序列中,在相邻帧中保持相同的像素通常表示静止相机、运动物体或者一个低纹理区域,通过设置一个简单的二进制自动掩膜,只有当重建目标帧与目标帧的重建误差小于目标帧和源帧的重建误差时,u为1,网络损失函数才包含光学重建损失函数。它可以有效过滤在视频从一帧到下一帧保持不变的像素。这样做的效果是让网络忽略与相机移动速度相同的物体,甚至在相机停止移动时忽略单目视频中的整个帧。网络训练的最终整体损失函数L为:
L=uLP+LS (6)
正如背景技术描述的,由于单目深度估计中因自监督的学习方式,目标帧深度和相机的姿态变换共同进行映射,导致视频每帧之间的深度估计相互独立且为相对变化,常出现闪烁现象,为了解决该问题,在深度编码器和深度解码器之间设置独立循环神经网络,用于提取帧图像之间的相关性,基于相关性对当前帧图像进行增强。
采用传统循环神经网络提取该视频帧图像之间的相关性,相比于前向神经网络,循环神经网络存在反馈循环连接,每一时刻的网络隐藏层输出不仅由该时刻的输入层决定,还由上一时刻的隐藏层输出决定,能够处理序列信息,捕捉时序相关性。隐藏层状态输出计算公式如下:
ht=σ(Wxt+Uht-1+b) (1)
式中,xt为t时刻的输入,ht-1为t-1时刻隐藏层的输出,ht为t时刻隐藏层的输出。理论上,循环神经网络可以处理任意长度的序列,但由于循环权重矩阵不断相乘,循环神经网络训练过程中面临着梯度消失和梯度爆炸问题,构建深度网络存在问题,难以实现长期记忆。
本实施例中,采用的循环神经网络为独立循环神经网络(IndRNN),将循环输入即上一时刻状态的处理方式改为哈达玛乘积,解除了循环过程中神经元之间的耦合,实现每层神经元的相互独立,从而简化梯度传播过程,而神经元之间的连接可以通过堆叠两层或者更多层的网络来实现,其隐藏层状态计算形式如下:
ht=σ(Wxt+U⊙ht-1+b) (2)
其中,xt为t时刻的输入,ht-1为t-1时刻隐藏层的输出,ht为t时刻隐藏层的输出,U表示循环权重矩阵,⊙表示哈达玛乘积。每个时刻的输出按上述公式为当前输入信息经过输入权重处理,叠加循环权重处理的循环输入和偏移权重,然后经过激活函数进行处理作为输出。
进一步地,步骤2中,构建卷积-独立循环神经网络,基于卷积-独立循环神经网络对帧间相关性进行挖掘。
本实施例中,所有帧图像共享独立循环神经网络,如有五个深度特征,需要五个并行的独立循环神经网络,本实施例中设计了一个共享的独立循环神经网络,对应每一帧图像的处理过程中实时更新本帧图像处理独立循环神经网络的输出,同时上一帧处理的结果被覆盖。
如图2所示,独立循环网络的输入为目标帧的深度特征ft和上一帧的深度特征ft-1,再加上独立循环神经网络上一时刻的经过映射处理的隐藏层状态h′t-1得到当前时刻的隐藏层状态ht和利用时序信息增强的目标帧的深度特征,利用时序信息增强的目标帧的深度特征即图中右向箭头输出,送到深度解码器中解码特征恢复深度图。
由于对视频进行处理,本实施例中进一步研究建立卷积-独立循环神经网络,如图2所示,深度估计网络通过以残差网络ResNet_18为核心的深度编码器中获得多尺度的深度特征,在多尺度的深度特征通过深度解码器解码之前通过多个并行的卷积-独立循环深度网络,实现帧间相关性信息的提取。将每个时刻的输入的多尺度特征进行卷积,并对每次卷积操作建立循环连接,该过程可以表示如下:
进一步地,为了进一步融合多帧信息,同时也进行特征增强,本实施例中,将前一时刻帧的特征图经过两层3*3卷积网络压缩特征后与当前帧的特征图按照特征通道拼接起来作为卷积-独立循环神经网络输入。所以最终循环网络的隐藏层状态更新如下:
式中ft,ft-1表示当前帧和前一帧的特征,C表示特征压缩网络,h′t-1表示循环神经网络前一时刻映射的隐藏层状态。
步骤3中,具体的,通过将映射后的隐藏层状态h′t-1作为当前帧独立循环神经网络CNN-INDRNN的循环输入,得到当前帧的特征图进行增强。
可选的,基于深度图Dt和相机姿态Tt→s对独立循环神经网络隐藏层状态进行映射。
在循环神经网络中,上一时刻的隐藏层状态信息可以经过处理后直接叠加到当前时刻的前提是序列中每个时刻的基本特征是一致的,但是在单目深度估计中由于相机的连续运动,相同物体在不同时刻深度属性信息不断发生变化,因此,在利用上一时刻的隐藏层状态信息之前,需要对其进行合理的映射,再用来辅助当前帧的深度估计。
作为进一步的改进,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,具体为:利用前一时刻帧的深度图Dt-1、前一时刻帧和当前时刻帧的相机姿态变换Tt→s,将前一时刻帧的循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态h′t-1,并将映射后的隐藏层状态作为新的循环输入用作当前帧的状态更新,而不再是隐藏层状态的直接传递。因为特征提取网络为全卷积网络,因此,隐藏层状态也具有图像类似的空间结构信息。映射过程与图像映射过程相似,映射后的循环网络隐藏层状态h′t-1可表述如下:
h′t-1=ht-1<proj(Dt-1,Tt→s,K)> (9)
本实施例中,根据映射后的状态对当前帧图像的状态信息进行更新,通过统一状态,提高了提取深度信息的清晰度,使得深度估计的结果更加准确。
上述过程的实现,构建的整体网络模型如图2所示,包括深度估计网络,所述姿态变换网络和深度估计网络,深度估计网络包括依次连接的深度编码器以及深度解码器,以及上采样模块,上采样模块连接深度编码器每一级以及深度解码器的每一级;深度估计网络的深度编码器与深度解码器之间设置有卷积-独立循环神经网络,用于获取帧间相关性对每帧图像编码后的特征进行特征增强。
进一步地,还包括对如图2的整体网络结构进行训练的步骤,包括如下:
构建训练集,训练集包括多帧图像,上一帧图像作为当前帧图像的源帧图像进行训练,以目标帧It训练为例,需先获得源帧的深度图Dt-1、独立循环网络的隐藏层状态ht-1、以及源帧的多尺度深度特征ft-1。
1.1设置卷积-独立循环网络的初始隐藏层状态,利用深度编码器对源帧It-1进行特征提取,获得源帧的多尺度深度特征ft-1。
1.2将源帧的多尺度深度原始特征ft-1分别输入到卷积-独立循环网络中,更新隐藏层状态ht-1和输出多尺度深度特征f′t-1。
1.3利用深度解码器对多尺度增强的深度特征f′t-1进行解码,获得源帧的深度图Dt-1。
2.1利用深度解码器对当前目标帧It进行特征提取,获得目标帧的多尺度原始深度特征ft。
2.2利用姿态估计网络预测出的目标帧和源帧相机姿态变化Tt→s和源帧的深度图Dt-1实现隐藏层状态的映射h′t-1。
2.3将目标帧多尺度原始深度特征ft与压缩后源帧多尺度深度特征ft-1拼接后输入到卷积-独立循环网络中,利用映射后的隐藏层状态h′t-1来更新隐藏层状态ht和输出目标帧多尺度增强的深度特征f′t。其中每个尺度的特征对应一个独立循环网络,不同帧图像共享这多个独立循环网络。
2.4利用深度解码器对多尺度增强的深度特征f′t进行解码,获得目标帧的深度图Dt。
2.5利用姿态估计网络预测出的目标帧和源帧相机姿态变化Tt→s和目标帧的深度图Dt实现源帧IS重建目标帧It来提供网络训练的监督信号,构建损失函数L,用L进行监督,计算损失函数L的值达到设定的数值或者达到设定的训练次数,训练结束,确定模型参数,得到训练后的网络模型。其中,损失函数L具体为公式6。
实施例2
基于实施例1,本实施例提供基于帧间相关性的单目深度估计系统,包括:
特征以及姿态提取模块:被配置为用于通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征ft,以及当前帧图像It与上一帧图像It-1的相机变换姿态;
相关性提取模块:被配置为用于构建卷积-独立循环神经网络(CNN-INDRNN),将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧与下一帧图像的帧间相关性;
更新模块:被配置为用于根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性ht-1,上一帧图像处理后得到的深度图Dt-1,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态h′t-1,根据映射后的状态对当前帧图像的深度特征ft进行增强,得到增强后的深度特征;
解码模块:被配置为用于将增强后的深度特征进行解码,得到当前帧图像的深度图Dt;
循环执行上述过程得到连续帧图像每一帧图像对应的深度图。
此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例4
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.基于帧间相关性的单目深度估计方法,其特征在于,包括如下过程:
通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征,以及当前帧图像与上一帧图像的相机变换姿态;
构建卷积-独立循环神经网络,将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧图像与下一帧图像的帧间相关性;
根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性,上一帧图像处理后得到的深度图,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的深度特征进行增强,得到增强后的深度特征;
将增强后的深度特征进行解码,得到当前帧图像的深度图;
循环执行上述过程得到连续帧图像每一帧图像对应的深度图。
2.如权利要求1所述的基于帧间相关性的单目深度估计方法,其特征在于:深度估计网络包括姿态变换网络和深度估计网络;
深度估计网络被配置为用于提取多尺度的深度特征,姿态变换网络被配置为用于提取对应不同时刻的相机变换姿态。
3.如权利要求2所述的基于帧间相关性的单目深度估计方法,其特征在于:
深度估计网络包括依次连接的深度编码器以及深度解码器,以及上采样模块,上采样模块连接深度编码器每一级以及深度解码器的每一级;
或者,姿态变化网络和深度估计网络采用特征提取网络共享的方式;
或者,姿态变换网络包括特征提取网络以及卷积网络,特征提取网络为残差网络,卷积网络包括多个级联的卷积层。
4.如权利要求3所述的基于帧间相关性的单目深度估计方法,其特征在于:构建的整体网络模型,包括姿态变换网络和深度估计网络,深度估计网络的深度编码器与深度解码器之间设置有卷积-独立循环神经网络,用于获取帧间相关性对每帧图像编码后的特征进行特征增强。
5.如权利要求4所述的基于帧间相关性的单目深度估计方法,其特征在于:
还包括整体网络模型进行训练的方法,包括如下步骤:
构建训练集,训练集包括多帧图像,上一帧图像作为当前帧图像的源帧图像进行训练;
设置卷积-独立循环网络的初始隐藏层状态,利用深度编码器对源帧It-1进行特征提取,获得源帧的多尺度深度特征ft-1;
将源帧的多尺度深度原始特征ft-1分别输入到卷积-独立循环网络中,更新隐藏层状态ht-1和输出多尺度深度特征f′t-1;
利用深度解码器对多尺度增强的深度特征f′t-1进行解码,获得源帧的深度图Dt-1;
利用深度解码器对当前目标帧It进行特征提取,获得目标帧的多尺度原始深度特征ft;
利用姿态估计网络预测出的目标帧和源帧相机姿态变化Tt→s和源帧的深度图Dt-1实现隐藏层状态的映射h′t-1;
将目标帧多尺度原始深度特征ft与压缩后源帧多尺度深度特征ft-1拼接后输入到卷积-独立循环网络中,利用映射后的隐藏层状态h′t-1来更新隐藏层状态ht和输出目标帧多尺度增强的深度特征f′t;
利用深度解码器对多尺度增强的深度特征f′t进行解码,获得目标帧的深度图Dt;
利用姿态估计网络预测出的目标帧和源帧相机姿态变化Tt→s和目标帧的深度图Dt实现源帧IS重建目标帧It来提供网络训练的监督信号,构建损失函数L,用L进行监督,计算损失函数L的值达到设定的数值或者达到设定的训练次数,训练结束,确定模型参数,得到训练后的网络模型。
6.如权利要求1所述的基于帧间相关性的单目深度估计方法,其特征在于,解码的步骤包括如下:
按照特征通道数将特征提取过程中浅层特征逐级拼接到上采样之后的深层特征上;
通过卷积块完成空域深度信息的多尺度特征融合:通过卷积层和Sigmoid激活函数逐级解码拼接的深度特征获得多尺度的深度图;通过双边线性插值到与输入图像相同尺寸的深度图,在输入图像尺寸上完成目标帧的重建,得到输入图像对应的深度图。
7.如权利要求6所述的基于帧间相关性的单目深度估计方法,其特征在于:目标帧的重建过程为视点合成过程,对于目标帧的每个像素位置,通过深度图Dt、视频源帧与视频目标帧的相对姿态Tt→s及相机内参K,计算出其对应的源帧位置坐标,再将求得的源帧位置的像素值赋给对应的目标帧位置像素值获取重建目标帧Is→t。
8.基于帧间相关性的单目深度估计系统,其特征在于,包括:
特征以及姿态提取模块:被配置为用于通过构建的深度估计网络对获取的当前帧图像进行处理,得到多尺度的深度特征,以及当前帧图像与上一帧图像的相机变换姿态;
相关性提取模块:被配置为用于构建卷积-独立循环神经网络,将多尺度的深度特征作为输入,提取当前帧图像的深度特征,并提取当前帧与下一帧图像的帧间相关性;
更新模块:被配置为用于根据上一帧图像处理过程中独立循环神经网络提取的帧间相关性,上一帧图像处理后得到的深度图,以及当前帧图像与上一帧图像的相机变换姿态变换,将前一时刻帧的独立循环网络隐藏层状态映射为与当前时刻一致的隐藏层状态,根据映射后的状态对当前帧图像的深度特征进行增强,得到增强后的深度特征;
解码模块:被配置为用于将增强后的深度特征进行解码,得到当前帧图像的深度图。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641767.7A CN115035173A (zh) | 2022-06-08 | 2022-06-08 | 基于帧间相关性的单目深度估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641767.7A CN115035173A (zh) | 2022-06-08 | 2022-06-08 | 基于帧间相关性的单目深度估计方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035173A true CN115035173A (zh) | 2022-09-09 |
Family
ID=83122470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210641767.7A Pending CN115035173A (zh) | 2022-06-08 | 2022-06-08 | 基于帧间相关性的单目深度估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035173A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416253A (zh) * | 2023-06-12 | 2023-07-11 | 北京科技大学 | 一种基于亮暗通道先验景深估计的神经元提取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378259A (zh) * | 2019-07-05 | 2019-10-25 | 桂林电子科技大学 | 一种面向监控视频的多目标行为识别方法及系统 |
CN111311729A (zh) * | 2020-01-18 | 2020-06-19 | 西安电子科技大学 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
CN112819876A (zh) * | 2021-02-13 | 2021-05-18 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
-
2022
- 2022-06-08 CN CN202210641767.7A patent/CN115035173A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378259A (zh) * | 2019-07-05 | 2019-10-25 | 桂林电子科技大学 | 一种面向监控视频的多目标行为识别方法及系统 |
CN111311729A (zh) * | 2020-01-18 | 2020-06-19 | 西安电子科技大学 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
CN112819876A (zh) * | 2021-02-13 | 2021-05-18 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
Non-Patent Citations (1)
Title |
---|
王波民: "基于深度学习的无监督生物医学图像复原", 《中国优秀硕士学位论文全文数据库》, 15 February 2021 (2021-02-15), pages 1 - 67 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416253A (zh) * | 2023-06-12 | 2023-07-11 | 北京科技大学 | 一种基于亮暗通道先验景深估计的神经元提取方法及装置 |
CN116416253B (zh) * | 2023-06-12 | 2023-08-29 | 北京科技大学 | 一种基于亮暗通道先验景深估计的神经元提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Lego: Learning edge with geometry all at once by watching videos | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
CN110599395B (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
KR20220029335A (ko) | 깊이 이미지를 보완하는 방법 및 장치 | |
WO2021048607A1 (en) | Motion deblurring using neural network architectures | |
CN112040222B (zh) | 一种视觉显著性预测方法及设备 | |
WO2024002211A1 (zh) | 一种图像处理方法及相关装置 | |
CN114708297A (zh) | 一种视频目标跟踪方法及装置 | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN116958534A (zh) | 一种图像处理方法、图像处理模型的训练方法和相关装置 | |
CN115035172A (zh) | 基于置信度分级及级间融合增强的深度估计方法及系统 | |
CN115035173A (zh) | 基于帧间相关性的单目深度估计方法及系统 | |
Zhang et al. | Self-Supervised Monocular Depth Estimation With Self-Perceptual Anomaly Handling | |
CN112669431B (zh) | 图像处理方法、装置、设备、存储介质以及程序产品 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
Dao et al. | Fastmde: A fast cnn architecture for monocular depth estimation at high resolution | |
Wang et al. | Self-supervised learning of monocular depth estimation based on progressive strategy | |
CN115565039A (zh) | 基于自注意力机制的单目输入动态场景新视图合成方法 | |
CN113240796B (zh) | 视觉任务处理方法及装置、计算机可读介质和电子设备 | |
Zhu et al. | Fused network for view synthesis | |
US20220351399A1 (en) | Apparatus and method for generating depth map using monocular image | |
CN117876452A (zh) | 基于运动物体位姿估计的自监督深度估计方法及系统 | |
CN117274446A (zh) | 一种场景视频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |