CN108765481B - 一种单目视频的深度估计方法、装置、终端和存储介质 - Google Patents

一种单目视频的深度估计方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN108765481B
CN108765481B CN201810514950.4A CN201810514950A CN108765481B CN 108765481 B CN108765481 B CN 108765481B CN 201810514950 A CN201810514950 A CN 201810514950A CN 108765481 B CN108765481 B CN 108765481B
Authority
CN
China
Prior art keywords
image frame
uncertainty
depth
initial
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810514950.4A
Other languages
English (en)
Other versions
CN108765481A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hiscene Information Technology Co Ltd
Original Assignee
Liangfengtai Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liangfengtai Shanghai Information Technology Co ltd filed Critical Liangfengtai Shanghai Information Technology Co ltd
Priority to CN201810514950.4A priority Critical patent/CN108765481B/zh
Publication of CN108765481A publication Critical patent/CN108765481A/zh
Application granted granted Critical
Publication of CN108765481B publication Critical patent/CN108765481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种单目视频的深度估计方法、装置、终端和存储介质。该方法包括:获取单目视频的图像帧序列,并根据相机姿态估计算法,计算序列中相邻两张图像帧之间的姿态关系;依次将序列中的各图像帧作为预设神经网络模型的输入,并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图;根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各图像帧的最终深度图和最终不确定度分布图。本发明实施例的技术方案,可以对单目视频的图像帧进行深度修复,不但提高了深度图的预测精度,而且能够获得深度图的不确定度分布。

Description

一种单目视频的深度估计方法、装置、终端和存储介质
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种单目视频的深度估计方法、装置、终端和存储介质。
背景技术
在计算机视觉研究领域中,越来越多的人们研究单目深度估计方法,即利用单幅图像之中隐含的视觉信息如尺寸,阴影,平面等,与真实深度值之间的映射关系来进行深度估计。单目深度估计有很多应用,比如场景理解,语义分割,三维建模,机器人避障等。传统的单目估计方法主要依赖于运动恢复结构(Structure-from-Motion,SfM)技术,或者是在机器人领域应用广泛的基于单目相机的即时定位与地图重建(SimultaneousLocalization and Mapping,SLAM)技术。SfM与SLAM利用多视角的图像去估计单目相机的姿态,在得到相机姿态之后,通过对应点进行三角测量得到深度信息。起初的单目深度估计的方法采用了手工设计的特征和概率图解模型用来生成深度图。
但随着深度学习技术的不断进步,越来越多的人们使用基于卷积神经网络(Convolutional Neural Network,CNN)的方法来进行单目深度估计。通常,利用有监督学习的CNN模型来进行单目深度的估计。对于有监督的方法,可以将深度传感器(例如激光雷达、红外结构光等)得到的深度图作为训练的标签,通过最小化CNN的预测结果和真实的深度图之间的误差来训练CNN模型,并采用全卷积网络和残差学习相结合的方式来进行深度图的预测。有监督的CNN模型的网络结构主要有两部分组成,第一部分是粗略的估计一个全局的深度图,第二部分针对第一部分的结果进行局部的修复和优化。
然而,现有的用于单目深度估计的有监督学习CNN模型只能预测和输出深度图,无法同时对深度图对应的不确定度分布图进行估计和输出,使得现有的单目深度估计网络模型预侧的深度图精度不高。
发明内容
本发明实施例提供了一种单目视频的深度估计方法、装置、终端和存储介质,以对单目视频的图像帧进行深度修复,提高深度图的预测精度。
第一方面,本发明实施例提供了一种单目视频的深度估计方法,包括:
获取单目视频的图像帧序列,并根据相机姿态估计算法,计算所述序列中相邻两张图像帧之间的姿态关系;
依次将所述序列中的各图像帧作为预设神经网络模型的输入,并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图;
根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各所述图像帧的最终深度图和最终不确定度分布图。
第二方面,本发明实施例还提供了一种单目视频的深度估计装置,包括:
姿态关系确定模块,用于获取单目视频的图像帧序列,并根据相机姿态估计算法,计算所述序列中相邻两张图像帧之间的姿态关系;
初始深度信息确定模块,用于依次将所述序列中的各图像帧作为预设神经网络模型的输入,并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图;
最终深度信息确定模块,用于根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各所述图像帧的最终深度图和最终不确定度分布图。
第三方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的单目视频的深度估计方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的单目视频的深度估计方法。
本发明实施例通过根据相机姿态估计算法,计算单目视频的图像帧序列中相邻两张图像帧之间的姿态关系;并依次将序列中的各图像帧作为预设神经网络模型的输入,并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图;根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各图像帧的最终深度图和最终不确定度分布图。通过根据姿态关系和预设神经网络模型输出的初始深度图和不确定度分布图,对视频帧序列中的每张图像帧进行帧间信息传递和融合,确定每张图像帧的最终深度图,从而实现了对预设神经网络输出的各图像帧的初始深度图的深度修复,不但提高了深度图的预测精度,而且能够获得深度图的不确定度分布。
附图说明
图1是本发明实施例一提供的一种单目视频的深度估计方法的流程图;
图2是本发明实施例一提供的一种预设神经网络模型的结构示意图;
图3是本发明实施例一提供的一种预设神经网络子模型的网络结构的示例;
图4是本发明实施例一提供的一种单目视频的深度估计方法的示例;
图5是本发明实施例一提供的从前一图像帧到当前图像帧的深度值和不确定度的传递示例图;
图6是本发明实施例二提供的一种单目视频的深度估计装置的结构示意图;
图7是本发明实施例三提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种单目视频的深度估计方法的流程图,本实施例可适用于对视频帧序列中的每一图像帧进行单目深度估计的情况,尤其是可以用于无人机、机器人、自动驾驶技术或增强现实技术中对单目视频的图像帧进行深度估计,从而可以根据估计的深度图确定物体间距的场景,同时也可以用于其他需要对单目视频进行深度估计的应用场景中。该方法可以由单目视频的深度估计装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于需要估计深度的终端中,比如无人机、机器人等。该方法具体包括以下步骤:
S110、获取单目视频的图像帧序列,并根据相机姿态估计算法,计算序列中相邻两张图像帧之间的姿态关系。
其中,本实施例中的单目视频可以是指利用一台摄像机拍摄的视频,单目视频可以是实时拍摄的视频,也可以是导入的已经拍摄完成的视频。图像帧序列可以是按照单目视频的拍摄顺序获取的一系列图像帧,示例性的,单目视频的图像帧序列为[I|I1,I2,…,Im]。
可选的,相机姿态估计算法可以包括直接法和特征点法。其中,直接法具体是:先在一张图像帧中提取高梯度的像素点,然后设置一个初始相机姿态,根据该初始相机姿态在相邻两张图像帧之间构建前一步提取的像素点的光度误差的损失函数,通过非线性优化的方式求解并确定姿态的最优解。直接法可以省去计算特征点和描述子的时间,可以应用于一些特征缺失的应用场合,是目前一种比较流行的相机姿态追踪方法。特征点法是通过分别提取相邻两张图像帧中的特征点并计算描述子,然后通过这两张图像帧之间的特征匹配求解出这两张图像帧之间的姿态关系。特征点法具体可以是:利用ORB(Oriented FASTand Rotated BRIEF)特征算法来追踪相机姿态时,首先根据ORB特征的描述子确定相邻两张图像帧之间的特征点的对应关系,然后采用RANSAC(Random Sample Consensus,随机抽样一致算法)方法确定重投影误差最小的相机姿态。若根据估计得到的相机姿态可以找到足够多的内点,则得到的相机姿态将会被用来在地图之中寻找更多的对应点,然后根据这些新找到的对应点去优化相机姿态。特征点法由于没有基于灰度不变的假设,所以对于相机过曝光或快速运动具有较强的容忍性,不易追踪丢失和失败,鲁棒性强。优选的,本实施例利用特征点法来计算序列中相邻两张图像帧之间的姿态关系。
在本实施例中,相邻两张图像帧之间的相对姿态关系在世界坐标系下的变化关系是:
Figure BDA0001673807040000061
其中,
Figure BDA0001673807040000062
是第i张图像帧相对于世界坐标系原点的旋转矩阵,
Figure BDA0001673807040000063
是第i张图像帧相对于世界坐标系原点的平移矩阵,
Figure BDA0001673807040000064
第i+1张图像帧相对于世界坐标系原点的旋转矩阵,
Figure BDA0001673807040000065
是第i+1张图像帧相对于世界坐标系原点的平移矩阵,
Figure BDA0001673807040000066
表示第i张图像帧到第i+1张图像帧的旋转矩阵,
Figure BDA0001673807040000067
表示第i帧到第i+1帧的平移矩阵。其中,
Figure BDA0001673807040000068
S120、依次将序列中的各图像帧作为预设神经网络模型的输入,并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图。
其中,预设神经网络模型可以是预设的一种有监督学习CNN模型。作为预设神经网络模型输入的图像帧可以是RGB(Red Green Blue)彩色图像。本实施例中预设神经网络模型是指可以同时输出任意一张图像帧的初始深度图和初始不确定度分布图的CNN模型。初始深度图可以是由图像帧中的每个像素点对应的初始深度值组成。初始不确定度分布图可以是由图像帧中的每个像素点初始深度值对应的初始不确定度组成。本实施例中某一像素点对应的不确定度用于反映深度图中该像素点的深度值估计的准确度,即某一像素点的不确定度越低,则估计的该像素点的深度值越准确。本实施例中的预设神经网络模型的网络结构可以是仅利用一个网络分支,通过参数共享的方式来同时输出图像帧的初始深度图和初始不确定度分布图;也可以是利用两个独立的网络分支,分别输出图像帧的初始深度图和初始不确定度分布图;还可以是在网络的特征提取部分共享参数,在特征提取部分之后的解码部分采用两个独立分支进行解码,分别输出图像帧的初始深度图和初始不确定度分布图。
可选的,预设神经网络模型输出的初始不确定度分布图可以根据初始置信度分布图确定。示例性的,图2给出了一种预设神经网络模型的结构示意图。图2中预设神经网络模型的输入作为预设神经网络子模型的输入,预设神经网络子模型的输出具有两个通道,第一输出通道输出的初始深度图作为预设神经网络模型输出的初始深度图,第二输出通道输出的初始置信度分布图通过输出转化,得到的初始不确定度分布图作为预设神经网络模型输出的初始不确定度分布图,从而预设神经网络模型可以通过预设神经网络子模型和对初始置信度分布图的输出转化,同时得到图像帧的初始深度图和初始不确定度分布图。
可选的,在使用预设神经网络模型之前,还包括:
建立预设神经网络子模型,并获取训练样本数据;根据训练样本数据和网络子模型损失函数对预设神经网络子模型进行训练,其中,预设神经网络子模型的输出为初始深度图和初始置信度分布图;于预设神经网络子模型训练结束后,根据输出转化关系,对预设神经网络子模型输出的初始置信度分布图进行转化,确定与初始置信度分布图对应的初始不确定度分布图,并将转化后的预设神经网络子模型确定为预设神经网络模型。
其中,在使用预设神经网络模型之前,首先需要建立并训练预设神经网络子模型。预设神经网络子模型的输入为任意一张图像帧,预设神经网络子模型的输出为该张图像帧对应的初始深度图和初始置信度分布图。图3给出了一种预设神经网络子模型的网络结构的示例。如图3所示,首先利用深度学习网络Resnet-50来提取输入图像帧的特征,再利用1024个卷积核大小为1×1的卷积层对特征图进行加权平均,然后利用四个上采样层将特征图的尺寸变为输入图像帧的一半,再利用2个卷积核大小为3×3的卷积层,经过卷积操作之后生成了两张特征图,将这两张特征图通过双线性插值的方法上采样到与输入图像帧相同大小的尺寸,从而得到输入图像帧对应的初始深度图和初始置信度分布图。在图3中,当输入304×228×3的图像帧,即输入大小为304×228的RGB彩色图像时,可以同时输出大小为304×228的初始深度图和大小为304×228的初始置信度分布图。
本实施例中用于训练预设神经网络子模型的训练样本数据包括大量样本图像帧和每张样本图像帧对应的实际深度图。将每张样本图像帧作为预设神经网络子模型的输入,根据预设神经网络子模型的输出和每张样本图像帧的实际深度值计算网络子模型损失函数对应的损失值。若计算的损失值大于预设值或者损失值的变化量大于预设变化量,则利用随机梯度下降方法来调整预设神经网络子模型中的权重和偏置,继续利用样本图像帧对调整后的预设神经网络子模型进行训练。当计算的损失值小于或等于预设值且损失值的变化量小于或等于预设变化量,或者训练次数达到预设迭代次数时,表示损失值在预设的误差范围内,并且损失值的变化趋于稳定,此时预设神经网络子模型训练结束。
可选的,利用如下输出转化公式,将预设神经网络子模型输出的初始置信度分布图转化为初始不确定度分布图:
u(x)=ln2(c(x))
其中,x是图像帧中的任一像素点,c(x)是图像帧中像素点x对应的初始置信度,u(x)是图像帧中像素点x对应的初始不确定度。通过将某一图像帧的初始置信度分布图中每个像素点对应的初始置信度按照该输出转化公式进行转化,确定该图像帧中每个像素点对应的初始不确定度,从而可以得到该图像帧对应的初始不确定度分布图。需要注意的是,本实施例中像素点对应的置信度和不确定度的取值范围均定义为(0,1],从而可以将预设神经网络模型输出的不确定度直接视为一个概率。通过上述输出转化公式可以看出:初始不确定度u(x)和初始置信度c(x)成反比关系,即初始置信度越高,则计算的初始不确定度越低。
可选的,网络子模型损失数根据如下公式确定:
l=αlD+βlU0<α<1;0<β<1) (1)
lD=∑x∈X|d(x)-dgt(x)| (2)
lU=lc+lr (3)
lr=∑x∈Xγ|c(x)|(0<<1) (4)
lc=∑x∈X|c(x)-cgt(x)| (5)
Figure BDA0001673807040000091
其中,l是网络子模型损失函数,lD是深度损失函数,lU是利用置信度表示的不确定度损失函数,x是图像帧中的任一像素点,X是图像帧中所有像素点的集合,d(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出深度值,dgt(x)是像素点x的实际深度值,lc是置信度损失函数,lr是用于控制c(x)收敛速度的惩罚系数,c(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出置信度,cgt(x)是像素点x的实际置信度,是深度损失函数的权重系数,β是不确定度损失函数的权重系数、γ是输出置信度c(x)的权重系数。
本实施例利用一种新型的网络子模型损失函数对预设神经网络子模型进行训练。该网络子模型损失函数同时考虑了初始深度图和初始置信度分布图的精度,即网络子模型损失函数l是由深度损失函数lD和利用置信度表示的不确定度损失函数lU共同确定,如公式(1)所示。利用样本图像帧的实际深度图以及预设神经网络子模型输出的样本图像帧对应的输出深度图,根据公式(2)确定该样本图像帧对应的深度损失函数lD。对于不确定度损失函数lU的计算,首先利用公式(6)计算出样本图像帧中每个像素点对应的实际置信度,即得到样本图像帧对应的实际置信度分布图,然后利用样本图像帧的实际置信度分布图以及预设神经网络子模型输出的样本图像帧对应的输出置信度分布图,根据公式(5)确定该样本图像帧对应的置信度损失函数lc,并根据预设神经网络子模型输出的样本图像帧对应的输出置信度分布图确定该样本图像帧对应的惩罚系数lr,最后根据样本图像帧的置信度损失函数lc和惩罚系数lr,利用公式(3)确定不确定度损失函数lU。本实施例中的惩罚系数lr是用于阻止c(x)过快的收敛到1。权重系数α、β和γ可以是根据实际情况预先设置的在0到1之间的一个固定值。
S130、根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各图像帧的最终深度图和最终不确定度分布图。
其中,本实施例可以按照图像帧序列的顺序,依次将序列中的图像帧逐个确定为当前图像帧。根据当前图像帧之前的各姿态关系,以及当前图像帧的前N张图像帧对应的初始深度图和初始不确定度分布图,进行相邻帧间信息传递和融合,从而确定当前图像帧的最终深度图和最终不确定度分布图,其中,N可以是大于等于1的正整数。本实施例中的N可以是固定值,也可以根据当前图像帧前面的图像帧数量实时变化。示例性的,若当前图像帧为序列中的第5张图像帧,则N可以设置为小于或等于4的任一正整数,并且N值越大,当前图像帧的深度图的预测精度更高,鲁棒性更强。示例性的,若N为固定值2,则根据序列中第一张图像帧和第二张图像帧的初始深度图和初始不确定度分布图以及姿态关系进行传递和融合,确定第三张图像帧的最终深度图和最终不确定度分布图;根据序列中第二张图像帧和第三张图像帧的初始深度图和初始不确定度分布图以及姿态关系进行传递和融合,确定第四张图像帧的最终深度图和最终不确定度分布图,同理可以确定出序列中每张图像帧的最终深度图和最终不确定度分布图。
可选的,S130包括:
根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图,计算当前图像帧的传递深度图和传递不确定度分布图;根据预设融合方式,将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合,确定当前图像帧的最终深度图和最终不确定度分布图。
其中,本实施例可以根据前一图像帧的最终深度图和最终不确定度分布图来确定当前图像帧的最终深度图和最终不确定度分布图,从而可以利用当前图像帧前面所有的图像帧的深度信息对当前图像帧进行深度修复,即N值最大,使得每张图像帧深度图的预测精度也最高。当序列中的第一张图像帧为当前图像帧时,第一张图像帧的最终深度图和最终不确定度分布图分别与该张图像帧的初始深度图和初始不确定度分布图相同。若当前图像帧为序列中的第二张图像帧,则前一图像帧为序列中的第一张图像帧,此时根据第一张图像帧的最终深度图和最终不确定度分布图以及这两张图像帧之间的姿态关系进行传递和融合,确定第二张图像帧的最终深度图和最终不确定度分布图,依次执行,从而可以根据当前图像帧前面所有的图像帧对应的初始深度图和初始不确定分布图来确定当前图像帧的最终深度图和最终不确定度分布图,大大了提高了预测精度。
图4给出了一种单目视频的深度估计方法的示例。如图4所示,根据相机姿态估计算法,计算序列中相邻两张图像帧之间的姿态关系
Figure BDA0001673807040000121
利用预设神经网络模型确定第i张图像帧的初始深度图Doi和初始不确定度分布图Uoi;根据第一张图像帧的初始深度图Do1和初始不确定度分布图Uo1以及第一张图像帧与第二张图像帧之间的姿态关系
Figure BDA0001673807040000122
计算第二张图像帧的传递深度图Dp2和传递不确定度分布图Up2;基于预设融合方式,根据第二张图像帧的初始深度图Do2和初始不确定度分布图Uo2以及传递深度图Dp2和传递不确定度分布图Up2,计算第二张图像帧的最终深度图Df2和最终不确定度分布图Uf2,;然后根据第二张图像帧的最终深度图Df2和最终不确定度分布图Uf2以及第二张图像帧与第三张图像帧之间的姿态关系
Figure BDA0001673807040000123
计算第三张图像帧的传递深度图Dp3和传递不确定度分布图Up3;基于预设融合方式,根据第三张图像帧的初始深度图Uo3和初始不确定度分布图Uo3以及传递深度图Dp3和传递不确定度分布图Up3,计算第三张图像帧的最终深度图Df3和传递不确定度分布图Uf3;同理依次确定序列中每张图像帧的最终深度图Dfi和最终不确定度分布图Ufi
本实施例中的预设融合方式可以包括但不限于基于贝叶斯推理的高斯融合、均匀融合、卡尔曼滤波融合、粒子融合和蒙特卡洛融合。
可选的,根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图,计算当前图像帧的传递深度图和传递不确定度分布图,包括:
将前一图像帧中的所有像素点逐个作为目标像素点,根据前一图像帧的最终深度图和最终不确定度分布图,确定目标像素点对应的目标深度值和目标不确定度;根据相机参数和目标像素点的第一像素坐标以及目标深度值确定目标像素点对应的三维空间点的第一空间坐标;根据前一图像帧与当前图像帧之间的姿态关系、第一空间坐标和相机参数确定三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值;根据目标不确定度确定投影像素点对应的传递不确定度。
其中,将前一图像帧的最终深度图和最终不确定度分布图传递至当前图像帧中,以通过融合前一图像帧和当前图像帧的深度信息,从而对当前图像帧进行深度修复。通过根据前一图像帧的最终深度图和最终不确定度分布图,确定当前图像帧中所有像素点对应的传递深度值和传递不确定度,从而确定当前图像帧的传递深度图和传递不确定度分布图。在本实施例中,假设图像帧中的每个像素点对应的深度值均符合高斯分布,其中高斯分布的均值为该像素点的最终深度值Df,方差为σ2,根据预设神经网络模型和上一帧的深度传递值,可以得到σ2=Uf,即高斯分布的方差为该像素点的最终不确定度Uf。图5给出了从前一图像帧I1到当前图像帧I2的深度值和不确定度的传递示例图。如图5所示,将前一图像帧I1中所有像素点逐个作为目标像素点p1,根据前一像素帧的最终深度图和最终不确定度分布图,确定目标像素点p1对应的目标深度值
Figure BDA0001673807040000131
和目标不确定度
Figure BDA0001673807040000132
可选的,目标像素点对应的三维空间点的第一空间坐标根据以下公式确定:
Figure BDA0001673807040000133
其中,P为目标像素点对应的三维空间点的第一空间坐标,[u1,v1]是目标像素点的第一像素坐标,
Figure BDA0001673807040000141
是目标像素点的目标深度值,K是相机内参矩阵。如图5所示,根据该公式可以计算出目标像素点p1对应的三维空间点的第一空间坐标P,且P∈R3,相机内参矩阵K∈R3×3
可选的,三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值根据以下公式确定:
Figure BDA0001673807040000142
其中,p2为三维空间点在当前图像帧上的投影像素点的第二像素坐标,即p2=[u2,v2],Dp2为投影像素点对应的传递深度值,
Figure BDA0001673807040000143
Figure BDA0001673807040000144
分别是前一图像帧I1到当前图像帧I2的旋转矩阵和平移矩阵。如图5所示,根据该公式
Figure BDA0001673807040000145
可以计算三维空间点P在当前图像帧I2上的投影像素点p2的第二像素坐标[u2,v2]以及投影像素点p2对应的传递深度值
Figure BDA0001673807040000146
可选的,根据目标不确定度确定投影像素点对应的传递不确定度,包括:
根据目标不确定度和传递噪声方差确定投影像素点对应的传递不确定度。
其中,如图5所示,与深度值的传递类似,投影像素点p2对应的不确定度
Figure BDA0001673807040000147
由前一图像帧I1传递到当前图像帧I2的过程可以表示为:
Figure BDA0001673807040000148
其中,
Figure BDA0001673807040000149
由于
Figure BDA00016738070400001410
Figure BDA00016738070400001411
之间是复杂的非线性关系,所以直接计算J是很复杂的。在本实施例中,为了提高简便性和高效率,可以假定相邻两张图像帧之间的旋转很小,从而旋转矩阵
Figure BDA00016738070400001412
可以近似为一个单位矩阵。因此,公式
Figure BDA00016738070400001413
Figure BDA00016738070400001414
可以简化为
Figure BDA00016738070400001415
因此
Figure BDA00016738070400001416
其中Tz是相邻两张图像帧之间在z方向的平移量。
在实际应用时,由于相机姿态估计的结果存在误差,所以深度信息和不确定度信息在传递的过程之中是不可避免的会引入噪声。在本实施例中,可以利用一个高斯分布来模拟这些噪声,该高斯分布的均值为0,方差为
Figure BDA0001673807040000151
其中方差
Figure BDA0001673807040000152
为一个经验值。通过考虑传递过程中的噪声,使得计算的投影像素点p2对应的传递不确定度
Figure BDA0001673807040000153
更加准确。
可选的,投影像素点对应的传递不确定度根据以下公式确定:
Figure BDA0001673807040000154
其中,
Figure BDA0001673807040000155
是投影像素点对应的传递不确定度,
Figure BDA0001673807040000156
是目标不确定度,
Figure BDA0001673807040000157
是传递噪声方差。
可选的,预设融合方式包括基于贝叶斯推理的高斯融合;相应的,根据预设融合方式,将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合,确定当前图像帧的最终深度图和最终不确定度分布图,包括:
根据当前图像帧的初始深度图和初始不确定度分布图确定当前图像帧中各像素点对应的第一高斯分布,其中第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度;根据传递深度图和传递不确定度分布图确定当前图像帧中各像素点对应的第二高斯分布,其中,第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度;基于贝叶斯推理,根据当前图像帧中各像素点对应的第一高斯分布和第二高斯分布确定当前图像帧的最终深度图和最终不确定度分布图。
其中,根据预设神经网络模型输出的当前图像帧的初始深度图Do和初始不确定度分布图Uo,确定当前图像帧中任一像素点x对应第一高斯分布为:
Figure BDA0001673807040000161
根据当前图像帧的传递深度图Dp和传递不确定度分布图Up,确定当前图像帧中任一像素点x对应的第二高斯分布为:
Figure BDA0001673807040000162
在本实施例中,当前图像帧的
Figure BDA0001673807040000163
Figure BDA0001673807040000164
是相互独立的,从而可以通过如下贝叶斯推导方式计算深度Z的最大后验分布:
Figure BDA0001673807040000165
本实施可以通求解
Figure BDA0001673807040000166
来求解
Figure BDA0001673807040000167
其中,前一图像帧传递到当前图像帧的传递值
Figure BDA0001673807040000168
当前图像帧通过预设神经网络模型的输出值
Figure BDA0001673807040000169
通过将当前图像帧中各像素点对应的第一高斯分布和第二高斯分布相乘,来确定当前图像帧的最终深度图和最终不确定度分布图。
可选的,当前图像帧的最终深度图和最终不确定度分布图服从以下第三高斯分布:
Figure BDA00016738070400001610
其中,
Figure BDA00016738070400001611
Figure BDA00016738070400001612
分别为当前图像帧中像素点x对应的初始深度值、初始不确定度、传递深度值和传递不确定度,
Figure BDA00016738070400001613
Figure BDA00016738070400001614
分别为当前图像帧中各像素点x对应的最终深度值和最终不确定度。
其中,本实施中两个符合高斯分布的变量相乘的结果仍然符合高斯分布,得到的第三高斯分布的均值和方差的变化关系为
Figure BDA00016738070400001615
即两个均值和方差分别为
Figure BDA00016738070400001616
的高斯分布,融合之后变为均值和方差分别为
Figure BDA00016738070400001617
的高斯分布,从而得到了融合之后的当前图像帧的最终深度图和最终不确定度分布图,同理,依次确定序列中每张图像帧对应的最终深度图和最终不确定度分布图。
在本实施例中,可以利用计算机等终端的CPU(Central Processing Unit,中央处理器)进行SLAM相机姿态估计的相关线程,对图像帧序列中相邻图像帧之间的姿态关系进行估计和优化,利用GPU(Graphics Processing Unit,图形处理器)将图像帧序列输入至预设神经网络模型中进行深度图和不确定度分布图的预测,然后根据图像帧序列中相邻两张图像帧之间的姿态关系进行深度图和不确定度分布图的传递和融合,从而实现优化预设神经网络模型输出的深度图的效果,并提高了系统运行速度。
本实施例的技术方案,通过根据相机姿态估计算法,计算单目视频的图像帧序列中相邻两张图像帧之间的姿态关系;并依次将序列中的各图像帧作为预设神经网络模型的输入,并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图;根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各图像帧的最终深度图和最终不确定度分布图。通过根据姿态关系和预设神经网络模型输出的初始深度图和不确定度分布图,对视频帧序列中的每张图像帧进行帧间信息传递和融合,确定每张图像帧的最终深度图,从而实现了对预设神经网络输出的各图像帧的初始深度图的深度修复,不但提高了深度图的预测精度,而且能够获得深度图的不确定度分布。
实施例二
图6为本发明实施例二提供的一种单目视频的深度估计装置的结构示意图,本实施例可适用于对视频帧序列中的每一图像帧进行单目深度估计的情况。该装置包括:姿态关系确定模块210、初始深度信息确定模块220和最终深度信息确定模块230。
其中,姿态关系确定模块210,用于获取单目视频的图像帧序列,并根据相机姿态估计算法,计算序列中相邻两张图像帧之间的姿态关系;初始深度信息确定模块220,用于依次将序列中的各图像帧作为预设神经网络模型的输入,并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图;最终深度信息确定模块230,用于根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各图像帧的最终深度图和最终不确定度分布图。
可选的,最终深度信息确定模块230包括:
传递深度信息确定单元,用于根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图,计算当前图像帧的传递深度图和传递不确定度分布图;
最终深度信息确定单元,用于根据预设融合方式,将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合,确定当前图像帧的最终深度图和最终不确定度分布图。
可选的,该方法还包括:
预设神经网络模型创建模块,用于在使用预设神经网络模型之前,建立预设神经网络子模型,并获取训练样本数据;根据训练样本数据和网络子模型损失函数对预设神经网络子模型进行训练,其中,预设神经网络子模型的输出为初始深度图和初始置信度分布图;于预设神经网络子模型训练结束后,根据输出转化关系,对预设神经网络子模型输出的初始置信度分布图进行转化,确定与初始置信度分布图对应的初始不确定度分布图,并将转化后的预设神经网络子模型确定为预设神经网络模型。
可选的,网络子模型损失函数根据如下公式确定:
l=αlD+βlU(0<α<1;0<β<1) (1)
lD=∑x∈X|d(x)-dgt(x)| (2)
lU=lc+lr (3)
lr=∑x∈Xγ|c(x)|(0<γ<1) (4)
lc=∑x∈X|c(x)-cgt(x)| (5)
Figure BDA0001673807040000191
其中,l是网络子模型损失函数,lD是深度损失函数,lU是利用置信度表示的不确定度损失函数,x是图像帧中的任一像素点,X是图像帧中所有像素点的集合,d(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出深度值,dgt(x)是像素点x的实际深度值,lc是置信度损失函数,lr是用于控制c(x)收敛速度的惩罚系数,c(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出置信度,cgt(x)是像素点x的实际置信度,是深度损失函数的权重系数,β是不确定度损失函数的权重系数、γ是输出置信度c(x)的权重系数。
可选的,传递深度信息确定单元,包括:
目标深度信息确定子单元,用于将前一图像帧中的所有像素点逐个作为目标像素点,根据前一图像帧的最终深度图和最终不确定度分布图,确定目标像素点对应的目标深度值和目标不确定度;
第一空间坐标确定子单元,用于根据相机参数和目标像素点的第一像素坐标以及目标深度值确定目标像素点对应的三维空间点的第一空间坐标;
传递深度值确定子单元,用于根据前一图像帧与当前图像帧之间的姿态关系、第一空间坐标和相机参数确定三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值;
传递不确定度确定子单元,用于根据目标不确定度确定投影像素点对应的传递不确定度。
可选的,目标像素点对应的三维空间点的第一空间坐标根据以下公式确定:
Figure BDA0001673807040000201
其中,P为目标像素点对应的三维空间点的第一空间坐标,[u1,v1]是目标像素点的第一像素坐标,
Figure BDA0001673807040000202
是目标像素点的目标深度值,K是相机内参矩阵。
可选的,三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值根据以下公式确定:
Figure BDA0001673807040000203
其中,p2为三维空间点在当前图像帧上的投影像素点的第二像素坐标,即p2=[u2,v2],Dp2为投影像素点对应的传递深度值,
Figure BDA0001673807040000204
Figure BDA0001673807040000205
分别是前一图像帧I1到当前图像帧I2的旋转矩阵和平移矩阵。
可选的,传递不确定度确定子单元,具体用于:
根据目标不确定度和传递噪声方差确定投影像素点对应的传递不确定度。
可选的,投影像素点对应的传递不确定度根据以下公式确定:
Figure BDA0001673807040000206
其中,
Figure BDA0001673807040000207
是投影像素点对应的传递不确定度,
Figure BDA0001673807040000208
是目标不确定度,
Figure BDA0001673807040000209
是传递噪声方差。
可选的,预设融合方式包括基于贝叶斯推理的高斯融合;相应的,最终深度信息确定单元,具体用于:
根据当前图像帧的初始深度图和初始不确定度分布图确定当前图像帧中各像素点对应的第一高斯分布,其中第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度;
根据传递深度图和传递不确定度分布图确定当前图像帧中各像素点对应的第二高斯分布,其中,第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度;
基于贝叶斯推理,根据当前图像帧中各像素点对应的第一高斯分布和第二高斯分布确定当前图像帧的最终深度图和最终不确定度分布图。
可选的,当前图像帧的最终深度图和最终不确定度分布图服从以下第三高斯分布:
Figure BDA0001673807040000211
其中,
Figure BDA0001673807040000212
Figure BDA0001673807040000213
分别为当前图像帧中像素点x对应的初始深度值、初始不确定度、传递深度值和传递不确定度,
Figure BDA0001673807040000214
Figure BDA0001673807040000215
分别为当前图像帧中各像素点x对应的最终深度值和最终不确定度。
上述单目视频的深度估计装置可执行本发明任意实施例所提供的单目视频的深度估计方法,具备执行单目视频的深度估计方法相应的功能模块和有益效果。
实施例三
图7是本发明实施例三提供的一种终端的结构示意图。参见图7,该终端包括:
一个或多个处理器310;
存储器320,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器310执行,使得一个或多个处理器310实现如上述实施例中任一实施例提出的单目视频的深度估计方法。
图7中以一个处理器310为例;终端中的处理器310和存储器320可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的单目视频的深度估计方法对应的程序指令/模块(例如,单目视频的深度估计装置中的姿态关系确定模块210、初始深度信息确定模块220和最终深度信息确定模块230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述的单目视频的深度估计方法。
存储器320主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的终端与上述实施例提出的单目视频的深度估计方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行单目视频的深度估计方法相同的有益效果。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的单目视频的深度估计方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种单目视频的深度估计方法,其特征在于,包括:
获取单目视频的图像帧序列,并根据相机姿态估计算法,计算所述序列中相邻两张图像帧之间的姿态关系;
依次将所述序列中的各图像帧作为预设神经网络模型的输入,并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图;
根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各所述图像帧的最终深度图和最终不确定度分布图;
在使用所述预设神经网络模型之前,还包括:
建立预设神经网络子模型,并获取训练样本数据;
根据所述训练样本数据和网络子模型损失函数对所述预设神经网络子模型进行训练,其中,所述预设神经网络子模型的输出为初始深度图和初始置信度分布图;
于所述预设神经网络子模型训练结束后,根据输出转化关系,对所述预设神经网络子模型输出的初始置信度分布图进行转化,确定与所述初始置信度分布图对应的初始不确定度分布图,并将转化后的预设神经网络子模型确定为预设神经网络模型;
所述网络子模型损失函数根据如下公式确定:
l=αlD+βlU(0<α<1;0<β<1) (1)
lD=∑x∈X|d(x)-dgt(x)| (2)
lU=lc+lr (3)
lr=∑x∈Xγ|c(x)|(0<γ<1) (4)
lc=∑x∈X|c(x)-cgt(x)| (5)
Figure FDA0002979955690000021
其中,l是所述网络子模型损失函数,lD是深度损失函数,lU是利用置信度表示的不确定度损失函数,x是图像帧中的任一像素点,X是图像帧中所有像素点的集合,d(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出深度值,dgt(x)是像素点x的实际深度值,lc是置信度损失函数,lr是用于控制c(x)收敛速度的惩罚系数,c(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出置信度,cgt(x)是像素点x的实际置信度,α是所述深度损失函数的权重系数,β是所述不确定度损失函数的权重系数、γ是所述输出置信度c(x)的权重系数。
2.根据权利要求1所述的方法,其特征在于,根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各所述图像帧的最终深度图和最终不确定度分布图,包括:
根据当前图像帧与前一图像帧之间的姿态关系以及所述前一图像帧的最终深度图和最终不确定度分布图,计算所述当前图像帧的传递深度图和传递不确定度分布图;
根据预设融合方式,将所述当前图像帧的初始深度图和初始不确定度分布图以及所述传递深度图和传递不确定度分布图进行融合,确定所述当前图像帧的最终深度图和最终不确定度分布图。
3.根据权利要求2所述的方法,其特征在于,根据当前图像帧与前一图像帧之间的姿态关系以及所述前一图像帧的最终深度图和最终不确定度分布图,计算所述当前图像帧的传递深度图和传递不确定度分布图,包括:
将前一图像帧中的所有像素点逐个作为目标像素点,根据所述前一图像帧的最终深度图和最终不确定度分布图,确定所述目标像素点对应的目标深度值和目标不确定度;
根据相机参数和所述目标像素点的第一像素坐标以及所述目标深度值确定所述目标像素点对应的三维空间点的第一空间坐标;
根据所述前一图像帧与当前图像帧之间的姿态关系、所述第一空间坐标和所述相机参数确定所述三维空间点在当前图像帧上的投影像素点的第二像素坐标以及所述投影像素点对应的传递深度值;
根据所述目标不确定度确定所述投影像素点对应的传递不确定度。
4.根据权利要求3所述的方法,其特征在于,所述目标像素点对应的三维空间点的第一空间坐标根据以下公式确定:
Figure FDA0002979955690000031
其中,P为所述目标像素点对应的三维空间点的第一空间坐标,[u1,v1]是目标像素点的第一像素坐标,
Figure FDA0002979955690000032
是目标像素点的目标深度值,K是相机内参矩阵。
5.根据权利要求4所述的方法,其特征在于,所述三维空间点在当前图像帧上的投影像素点的第二像素坐标以及所述投影像素点对应的传递深度值根据以下公式确定:
Figure FDA0002979955690000033
其中,p2为所述三维空间点在当前图像帧上的投影像素点的第二像素坐标,即p2=[u2,v2],
Figure FDA0002979955690000034
为所述投影像素点对应的传递深度值,
Figure FDA0002979955690000035
Figure FDA0002979955690000036
分别是前一图像帧I1到当前图像帧I2的旋转矩阵和平移矩阵。
6.根据权利要求3所述的方法,其特征在于,根据所述目标不确定度确定所述投影像素点对应的传递不确定度,包括:
根据所述目标不确定度和传递噪声方差确定所述投影像素点对应的传递不确定度。
7.根据权利要求6所述的方法,其特征在于,所述投影像素点对应的传递不确定度根据以下公式确定:
Figure FDA0002979955690000041
其中,
Figure FDA0002979955690000042
是所述投影像素点对应的传递不确定度,
Figure FDA0002979955690000043
是所述目标不确定度,
Figure FDA0002979955690000044
是所述传递噪声方差。
8.根据权利要求2所述的方法,其特征在于,所述预设融合方式包括基于贝叶斯推理的高斯融合;
相应的,根据预设融合方式,将所述当前图像帧的初始深度图和初始不确定度分布图以及所述传递深度图和传递不确定度分布图进行融合,确定所述当前图像帧的最终深度图和最终不确定度分布图,包括:
根据所述当前图像帧的初始深度图和初始不确定度分布图确定所述当前图像帧中各像素点对应的第一高斯分布,其中所述第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度;
根据传递深度图和传递不确定度分布图确定所述当前图像帧中各像素点对应的第二高斯分布,其中,所述第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度;
基于贝叶斯推理,根据所述当前图像帧中各像素点对应的所述第一高斯分布和所述第二高斯分布确定所述当前图像帧的最终深度图和最终不确定度分布图。
9.根据权利要求8所述的方法,其特征在于,所述当前图像帧的最终深度图和最终不确定度分布图服从以下第三高斯分布:
Figure FDA0002979955690000051
其中,
Figure FDA0002979955690000052
Figure FDA0002979955690000053
分别为所述当前图像帧中像素点x对应的初始深度值、初始不确定度、传递深度值和传递不确定度,
Figure FDA0002979955690000054
Figure FDA0002979955690000055
分别为所述当前图像帧中各像素点x对应的最终深度值和最终不确定度。
10.一种单目视频的深度估计装置,其特征在于,包括:
姿态关系确定模块,用于获取单目视频的图像帧序列,并根据相机姿态估计算法,计算所述序列中相邻两张图像帧之间的姿态关系;
初始深度信息确定模块,用于依次将所述序列中的各图像帧作为预设神经网络模型的输入,并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图;
最终深度信息确定模块,用于根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合,依次确定各所述图像帧的最终深度图和最终不确定度分布图;
还包括:预设神经网络模型创建模块,用于在使用所述预设神经网络模型之前,建立预设神经网络子模型,并获取训练样本数据;根据所述训练样本数据和网络子模型损失函数对所述预设神经网络子模型进行训练,其中,所述预设神经网络子模型的输出为初始深度图和初始置信度分布图;于所述预设神经网络子模型训练结束后,根据输出转化关系,对所述预设神经网络子模型输出的初始置信度分布图进行转化,确定与所述初始置信度分布图对应的初始不确定度分布图,并将转化后的预设神经网络子模型确定为预设神经网络模型;
所述网络子模型损失函数根据如下公式确定:
l=αlD+βlU(0<α<1;0<β<1) (1)
lD=∑x∈X|d(x)-dgt(x)| (2)
lU=lc+lr (3)
lr=∑x∈Xγ|c(x)|(0<γ<1) (4)
lc=∑x∈X|c(x)-cgt(x)| (5)
Figure FDA0002979955690000061
其中,l是所述网络子模型损失函数,lD是深度损失函数,lU是利用置信度表示的不确定度损失函数,x是图像帧中的任一像素点,X是图像帧中所有像素点的集合,d(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出深度值,dgt(x)是像素点x的实际深度值,lc是置信度损失函数,lr是用于控制c(x)收敛速度的惩罚系数,c(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出置信度,cgt(x)是像素点x的实际置信度,α是所述深度损失函数的权重系数,β是所述不确定度损失函数的权重系数、γ是所述输出置信度c(x)的权重系数。
11.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的单目视频的深度估计方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的单目视频的深度估计方法。
CN201810514950.4A 2018-05-25 2018-05-25 一种单目视频的深度估计方法、装置、终端和存储介质 Active CN108765481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810514950.4A CN108765481B (zh) 2018-05-25 2018-05-25 一种单目视频的深度估计方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810514950.4A CN108765481B (zh) 2018-05-25 2018-05-25 一种单目视频的深度估计方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN108765481A CN108765481A (zh) 2018-11-06
CN108765481B true CN108765481B (zh) 2021-06-11

Family

ID=64005750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810514950.4A Active CN108765481B (zh) 2018-05-25 2018-05-25 一种单目视频的深度估计方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN108765481B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712228B (zh) * 2018-11-19 2023-02-24 中国科学院深圳先进技术研究院 建立三维重建模型的方法、装置、电子设备及存储介质
CN111383324B (zh) * 2018-12-29 2023-03-28 广州文远知行科技有限公司 点云地图的构建方法、装置、计算机设备和存储介质
CN111783497A (zh) * 2019-04-03 2020-10-16 北京京东尚科信息技术有限公司 视频中目标的特征确定方法、装置和计算机可读存储介质
CN110135508B (zh) * 2019-05-21 2022-11-29 腾讯科技(深圳)有限公司 模型训练方法、装置、电子设备及计算机可读存储介质
CN110136185B (zh) * 2019-05-23 2022-09-06 中国科学技术大学 一种单目深度估计方法及系统
CN110264505B (zh) * 2019-06-05 2021-07-30 北京达佳互联信息技术有限公司 一种单目深度估计方法、装置、电子设备及存储介质
CN110400342B (zh) * 2019-07-11 2021-07-06 Oppo广东移动通信有限公司 深度传感器的参数调整方法、装置以及电子设备
CN110517304B (zh) * 2019-07-26 2022-04-22 苏州浪潮智能科技有限公司 生成深度图的方法、装置、电子设备和存储介质
CN110473254A (zh) * 2019-08-20 2019-11-19 北京邮电大学 一种基于深度神经网络的位姿估计方法及装置
CN111027413A (zh) * 2019-11-20 2020-04-17 佛山缔乐视觉科技有限公司 远距离多工位物体检测方法、系统及存储介质
CN111179331B (zh) * 2019-12-31 2023-09-08 智车优行科技(上海)有限公司 深度估计方法、装置、电子设备及计算机可读存储介质
CN113139910B (zh) * 2020-01-20 2022-10-18 复旦大学 一种视频补全方法
CN113496503B (zh) * 2020-03-18 2022-11-08 广州极飞科技股份有限公司 点云数据的生成及实时显示方法、装置、设备及介质
CN113643342B (zh) * 2020-04-27 2023-11-14 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN111612831A (zh) * 2020-05-22 2020-09-01 创新奇智(北京)科技有限公司 一种深度估计方法、装置、电子设备及存储介质
CN111784659A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 图像检测的方法、装置、电子设备以及存储介质
CN111833391B (zh) * 2020-07-16 2024-01-09 北京百度网讯科技有限公司 图像深度信息的估计方法及装置
CN112381868A (zh) * 2020-11-13 2021-02-19 北京地平线信息技术有限公司 图像深度估计方法和装置、可读存储介质、电子设备
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN112907620A (zh) * 2021-01-25 2021-06-04 北京地平线机器人技术研发有限公司 相机位姿的估计方法、装置、可读存储介质及电子设备
WO2022165722A1 (zh) * 2021-02-04 2022-08-11 华为技术有限公司 单目深度估计方法、装置及设备
CN112991418B (zh) * 2021-03-09 2024-03-29 北京地平线信息技术有限公司 图像深度预测和神经网络训练方法和装置、介质、设备
CN113781538B (zh) * 2021-07-27 2024-02-13 武汉中海庭数据技术有限公司 一种图像深度信息融合方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069808A (zh) * 2015-08-31 2015-11-18 四川虹微技术有限公司 基于图像分割的视频图像深度估计方法
CN105654492A (zh) * 2015-12-30 2016-06-08 哈尔滨工业大学 基于消费级摄像头的鲁棒实时三维重建方法
CN105809687A (zh) * 2016-03-08 2016-07-27 清华大学 一种基于图像中边沿点信息的单目视觉测程方法
CN107633529A (zh) * 2017-09-11 2018-01-26 中国地质大学(武汉) 一种深度卷积神经网单目标跟踪方法、设备及存储设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069808A (zh) * 2015-08-31 2015-11-18 四川虹微技术有限公司 基于图像分割的视频图像深度估计方法
CN105654492A (zh) * 2015-12-30 2016-06-08 哈尔滨工业大学 基于消费级摄像头的鲁棒实时三维重建方法
CN105809687A (zh) * 2016-03-08 2016-07-27 清华大学 一种基于图像中边沿点信息的单目视觉测程方法
CN107633529A (zh) * 2017-09-11 2018-01-26 中国地质大学(武汉) 一种深度卷积神经网单目标跟踪方法、设备及存储设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction;Keisuke Tateno;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;第6565-6574页 *
基于帧间信息提取的单幅红外图像深度估计;顾婷婷;《激光与光电子学进展》;20180110(第6期);第169-178页 *

Also Published As

Publication number Publication date
CN108765481A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108765481B (zh) 一种单目视频的深度估计方法、装置、终端和存储介质
US11954870B2 (en) Dynamic scene three-dimensional reconstruction method, apparatus and system, server, and medium
WO2019174377A1 (zh) 一种基于单目相机的三维场景稠密重建方法
WO2020020160A1 (zh) 图像视差估计
Luo et al. Real-time dense monocular SLAM with online adapted depth prediction network
CN110631554A (zh) 机器人位姿的确定方法、装置、机器人和可读存储介质
CN111645065A (zh) 一种基于深度强化学习的机械臂运动规划方法
CN115082639A (zh) 图像生成方法、装置、电子设备和存储介质
Yang et al. Reactive obstacle avoidance of monocular quadrotors with online adapted depth prediction network
US11948310B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
CN112862877A (zh) 用于训练图像处理网络和图像处理的方法和装置
WO2019157922A1 (zh) 一种图像处理方法、装置及ar设备
CN110764504A (zh) 一种用于变电站电缆沟道巡检的机器人导航方法及系统
Tian et al. 3D scene geometry-aware constraint for camera localization with deep learning
CN114519772A (zh) 一种基于稀疏点云和代价聚合的三维重建方法及系统
CN112967340A (zh) 同时定位和地图构建方法、装置、电子设备及存储介质
CN110428461B (zh) 结合深度学习的单目slam方法及装置
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
Zhang et al. Depth map prediction from a single image with generative adversarial nets
CN113409340A (zh) 语义分割模型训练方法、语义分割方法、装置及电子设备
CN116740488B (zh) 一种用于视觉定位的特征提取模型的训练方法及装置
Lu Deep unsupervised visual odometry via bundle adjusted pose graph optimization
CN115866229B (zh) 多视角图像的视角转换方法、装置、设备和介质
Dang et al. Real-time semantic plane reconstruction on a monocular drone using sparse fusion
CN108921852B (zh) 基于视差与平面拟合的双分支室外非结构化地形分割网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210924

Address after: Room 501 / 503-505, 570 shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee after: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: HUAZHONG University OF SCIENCE AND TECHNOLOGY

Address before: Room 501 / 503-505, 570 shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee before: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20211223

Address after: Room 501 / 503-505, 570 shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee after: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 501 / 503-505, 570 shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee before: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: Huazhong University of Science and Technology

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A depth estimation method, device, terminal and storage medium for monocular video

Effective date of registration: 20221008

Granted publication date: 20210611

Pledgee: Industrial Bank Co.,Ltd. Shanghai Xuhui sub branch

Pledgor: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2022310000277

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 201210 7th Floor, No. 1, Lane 5005, Shenjiang Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 501 / 503-505, 570 shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee before: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230906

Granted publication date: 20210611

Pledgee: Industrial Bank Co.,Ltd. Shanghai Xuhui sub branch

Pledgor: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2022310000277

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A depth estimation method, device, terminal, and storage medium for monocular video

Effective date of registration: 20231107

Granted publication date: 20210611

Pledgee: Industrial Bank Co.,Ltd. Shanghai Caohejing sub branch

Pledgor: HISCENE INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000719