CN108765481B

CN108765481B - 一种单目视频的深度估计方法、装置、终端和存储介质

Info

Publication number: CN108765481B
Application number: CN201810514950.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Liangfengtai Shanghai Information Technology Co ltd
Current assignee: Hiscene Information Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-06-11
Anticipated expiration: 2038-05-25
Also published as: CN108765481A

Abstract

本发明实施例公开了一种单目视频的深度估计方法、装置、终端和存储介质。该方法包括：获取单目视频的图像帧序列，并根据相机姿态估计算法，计算序列中相邻两张图像帧之间的姿态关系；依次将序列中的各图像帧作为预设神经网络模型的输入，并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图；根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各图像帧的最终深度图和最终不确定度分布图。本发明实施例的技术方案，可以对单目视频的图像帧进行深度修复，不但提高了深度图的预测精度，而且能够获得深度图的不确定度分布。

Description

一种单目视频的深度估计方法、装置、终端和存储介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种单目视频的深度估计方法、装置、终端和存储介质。

背景技术

在计算机视觉研究领域中，越来越多的人们研究单目深度估计方法，即利用单幅图像之中隐含的视觉信息如尺寸，阴影，平面等，与真实深度值之间的映射关系来进行深度估计。单目深度估计有很多应用，比如场景理解，语义分割，三维建模，机器人避障等。传统的单目估计方法主要依赖于运动恢复结构(Structure-from-Motion，SfM)技术，或者是在机器人领域应用广泛的基于单目相机的即时定位与地图重建(SimultaneousLocalization and Mapping，SLAM)技术。SfM与SLAM利用多视角的图像去估计单目相机的姿态，在得到相机姿态之后，通过对应点进行三角测量得到深度信息。起初的单目深度估计的方法采用了手工设计的特征和概率图解模型用来生成深度图。

但随着深度学习技术的不断进步，越来越多的人们使用基于卷积神经网络(Convolutional Neural Network，CNN)的方法来进行单目深度估计。通常，利用有监督学习的CNN模型来进行单目深度的估计。对于有监督的方法，可以将深度传感器(例如激光雷达、红外结构光等)得到的深度图作为训练的标签，通过最小化CNN的预测结果和真实的深度图之间的误差来训练CNN模型，并采用全卷积网络和残差学习相结合的方式来进行深度图的预测。有监督的CNN模型的网络结构主要有两部分组成，第一部分是粗略的估计一个全局的深度图，第二部分针对第一部分的结果进行局部的修复和优化。

然而，现有的用于单目深度估计的有监督学习CNN模型只能预测和输出深度图，无法同时对深度图对应的不确定度分布图进行估计和输出，使得现有的单目深度估计网络模型预侧的深度图精度不高。

发明内容

本发明实施例提供了一种单目视频的深度估计方法、装置、终端和存储介质，以对单目视频的图像帧进行深度修复，提高深度图的预测精度。

第一方面，本发明实施例提供了一种单目视频的深度估计方法，包括：

获取单目视频的图像帧序列，并根据相机姿态估计算法，计算所述序列中相邻两张图像帧之间的姿态关系；

依次将所述序列中的各图像帧作为预设神经网络模型的输入，并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图；

根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各所述图像帧的最终深度图和最终不确定度分布图。

第二方面，本发明实施例还提供了一种单目视频的深度估计装置，包括：

姿态关系确定模块，用于获取单目视频的图像帧序列，并根据相机姿态估计算法，计算所述序列中相邻两张图像帧之间的姿态关系；

初始深度信息确定模块，用于依次将所述序列中的各图像帧作为预设神经网络模型的输入，并根据所述预设神经网络模型的输出确定各所述图像帧的初始深度图和初始不确定度分布图；

最终深度信息确定模块，用于根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各所述图像帧的最终深度图和最终不确定度分布图。

第三方面，本发明实施例还提供了一种终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的单目视频的深度估计方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的单目视频的深度估计方法。

本发明实施例通过根据相机姿态估计算法，计算单目视频的图像帧序列中相邻两张图像帧之间的姿态关系；并依次将序列中的各图像帧作为预设神经网络模型的输入，并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图；根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各图像帧的最终深度图和最终不确定度分布图。通过根据姿态关系和预设神经网络模型输出的初始深度图和不确定度分布图，对视频帧序列中的每张图像帧进行帧间信息传递和融合，确定每张图像帧的最终深度图，从而实现了对预设神经网络输出的各图像帧的初始深度图的深度修复，不但提高了深度图的预测精度，而且能够获得深度图的不确定度分布。

附图说明

图1是本发明实施例一提供的一种单目视频的深度估计方法的流程图；

图2是本发明实施例一提供的一种预设神经网络模型的结构示意图；

图3是本发明实施例一提供的一种预设神经网络子模型的网络结构的示例；

图4是本发明实施例一提供的一种单目视频的深度估计方法的示例；

图5是本发明实施例一提供的从前一图像帧到当前图像帧的深度值和不确定度的传递示例图；

图6是本发明实施例二提供的一种单目视频的深度估计装置的结构示意图；

图7是本发明实施例三提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种单目视频的深度估计方法的流程图，本实施例可适用于对视频帧序列中的每一图像帧进行单目深度估计的情况，尤其是可以用于无人机、机器人、自动驾驶技术或增强现实技术中对单目视频的图像帧进行深度估计，从而可以根据估计的深度图确定物体间距的场景，同时也可以用于其他需要对单目视频进行深度估计的应用场景中。该方法可以由单目视频的深度估计装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于需要估计深度的终端中，比如无人机、机器人等。该方法具体包括以下步骤：

S110、获取单目视频的图像帧序列，并根据相机姿态估计算法，计算序列中相邻两张图像帧之间的姿态关系。

其中，本实施例中的单目视频可以是指利用一台摄像机拍摄的视频，单目视频可以是实时拍摄的视频，也可以是导入的已经拍摄完成的视频。图像帧序列可以是按照单目视频的拍摄顺序获取的一系列图像帧，示例性的，单目视频的图像帧序列为[I|I₁,I₂,…,I_m]。

可选的，相机姿态估计算法可以包括直接法和特征点法。其中，直接法具体是：先在一张图像帧中提取高梯度的像素点，然后设置一个初始相机姿态，根据该初始相机姿态在相邻两张图像帧之间构建前一步提取的像素点的光度误差的损失函数，通过非线性优化的方式求解并确定姿态的最优解。直接法可以省去计算特征点和描述子的时间，可以应用于一些特征缺失的应用场合，是目前一种比较流行的相机姿态追踪方法。特征点法是通过分别提取相邻两张图像帧中的特征点并计算描述子，然后通过这两张图像帧之间的特征匹配求解出这两张图像帧之间的姿态关系。特征点法具体可以是：利用ORB(Oriented FASTand Rotated BRIEF)特征算法来追踪相机姿态时，首先根据ORB特征的描述子确定相邻两张图像帧之间的特征点的对应关系，然后采用RANSAC(Random Sample Consensus，随机抽样一致算法)方法确定重投影误差最小的相机姿态。若根据估计得到的相机姿态可以找到足够多的内点，则得到的相机姿态将会被用来在地图之中寻找更多的对应点，然后根据这些新找到的对应点去优化相机姿态。特征点法由于没有基于灰度不变的假设，所以对于相机过曝光或快速运动具有较强的容忍性，不易追踪丢失和失败，鲁棒性强。优选的，本实施例利用特征点法来计算序列中相邻两张图像帧之间的姿态关系。

在本实施例中，相邻两张图像帧之间的相对姿态关系在世界坐标系下的变化关系是：

其中，

是第i张图像帧相对于世界坐标系原点的旋转矩阵，

是第i张图像帧相对于世界坐标系原点的平移矩阵，

第i+1张图像帧相对于世界坐标系原点的旋转矩阵，

是第i+1张图像帧相对于世界坐标系原点的平移矩阵，

表示第i张图像帧到第i+1张图像帧的旋转矩阵，

表示第i帧到第i+1帧的平移矩阵。其中，

S120、依次将序列中的各图像帧作为预设神经网络模型的输入，并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图。

其中，预设神经网络模型可以是预设的一种有监督学习CNN模型。作为预设神经网络模型输入的图像帧可以是RGB(Red Green Blue)彩色图像。本实施例中预设神经网络模型是指可以同时输出任意一张图像帧的初始深度图和初始不确定度分布图的CNN模型。初始深度图可以是由图像帧中的每个像素点对应的初始深度值组成。初始不确定度分布图可以是由图像帧中的每个像素点初始深度值对应的初始不确定度组成。本实施例中某一像素点对应的不确定度用于反映深度图中该像素点的深度值估计的准确度，即某一像素点的不确定度越低，则估计的该像素点的深度值越准确。本实施例中的预设神经网络模型的网络结构可以是仅利用一个网络分支，通过参数共享的方式来同时输出图像帧的初始深度图和初始不确定度分布图；也可以是利用两个独立的网络分支，分别输出图像帧的初始深度图和初始不确定度分布图；还可以是在网络的特征提取部分共享参数，在特征提取部分之后的解码部分采用两个独立分支进行解码，分别输出图像帧的初始深度图和初始不确定度分布图。

可选的，预设神经网络模型输出的初始不确定度分布图可以根据初始置信度分布图确定。示例性的，图2给出了一种预设神经网络模型的结构示意图。图2中预设神经网络模型的输入作为预设神经网络子模型的输入，预设神经网络子模型的输出具有两个通道，第一输出通道输出的初始深度图作为预设神经网络模型输出的初始深度图，第二输出通道输出的初始置信度分布图通过输出转化，得到的初始不确定度分布图作为预设神经网络模型输出的初始不确定度分布图，从而预设神经网络模型可以通过预设神经网络子模型和对初始置信度分布图的输出转化，同时得到图像帧的初始深度图和初始不确定度分布图。

可选的，在使用预设神经网络模型之前，还包括：

建立预设神经网络子模型，并获取训练样本数据；根据训练样本数据和网络子模型损失函数对预设神经网络子模型进行训练，其中，预设神经网络子模型的输出为初始深度图和初始置信度分布图；于预设神经网络子模型训练结束后，根据输出转化关系，对预设神经网络子模型输出的初始置信度分布图进行转化，确定与初始置信度分布图对应的初始不确定度分布图，并将转化后的预设神经网络子模型确定为预设神经网络模型。

其中，在使用预设神经网络模型之前，首先需要建立并训练预设神经网络子模型。预设神经网络子模型的输入为任意一张图像帧，预设神经网络子模型的输出为该张图像帧对应的初始深度图和初始置信度分布图。图3给出了一种预设神经网络子模型的网络结构的示例。如图3所示，首先利用深度学习网络Resnet-50来提取输入图像帧的特征，再利用1024个卷积核大小为1×1的卷积层对特征图进行加权平均，然后利用四个上采样层将特征图的尺寸变为输入图像帧的一半，再利用2个卷积核大小为3×3的卷积层，经过卷积操作之后生成了两张特征图，将这两张特征图通过双线性插值的方法上采样到与输入图像帧相同大小的尺寸，从而得到输入图像帧对应的初始深度图和初始置信度分布图。在图3中，当输入304×228×3的图像帧，即输入大小为304×228的RGB彩色图像时，可以同时输出大小为304×228的初始深度图和大小为304×228的初始置信度分布图。

本实施例中用于训练预设神经网络子模型的训练样本数据包括大量样本图像帧和每张样本图像帧对应的实际深度图。将每张样本图像帧作为预设神经网络子模型的输入，根据预设神经网络子模型的输出和每张样本图像帧的实际深度值计算网络子模型损失函数对应的损失值。若计算的损失值大于预设值或者损失值的变化量大于预设变化量，则利用随机梯度下降方法来调整预设神经网络子模型中的权重和偏置，继续利用样本图像帧对调整后的预设神经网络子模型进行训练。当计算的损失值小于或等于预设值且损失值的变化量小于或等于预设变化量，或者训练次数达到预设迭代次数时，表示损失值在预设的误差范围内，并且损失值的变化趋于稳定，此时预设神经网络子模型训练结束。

可选的，利用如下输出转化公式，将预设神经网络子模型输出的初始置信度分布图转化为初始不确定度分布图：

u(x)＝ln²(c(x))

其中，x是图像帧中的任一像素点，c(x)是图像帧中像素点x对应的初始置信度，u(x)是图像帧中像素点x对应的初始不确定度。通过将某一图像帧的初始置信度分布图中每个像素点对应的初始置信度按照该输出转化公式进行转化，确定该图像帧中每个像素点对应的初始不确定度，从而可以得到该图像帧对应的初始不确定度分布图。需要注意的是，本实施例中像素点对应的置信度和不确定度的取值范围均定义为(0,1]，从而可以将预设神经网络模型输出的不确定度直接视为一个概率。通过上述输出转化公式可以看出：初始不确定度u(x)和初始置信度c(x)成反比关系，即初始置信度越高，则计算的初始不确定度越低。

可选的，网络子模型损失数根据如下公式确定：

l＝αl_D+βl_U0＜α＜1；0＜β＜1) (1)

l_D＝∑_x∈X|d(x)-d_gt(x)| (2)

l_U＝l_c+l_r (3)

l_r＝∑_x∈Xγ|c(x)|(0＜＜1) (4)

l_c＝∑_x∈X|c(x)-c_gt(x)| (5)

其中，l是网络子模型损失函数，l_D是深度损失函数，l_U是利用置信度表示的不确定度损失函数，x是图像帧中的任一像素点，X是图像帧中所有像素点的集合，d(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出深度值，d_gt(x)是像素点x的实际深度值，l_c是置信度损失函数，l_r是用于控制c(x)收敛速度的惩罚系数，c(x)是根据预设神经网络子模型的输出确定的像素点x对应的输出置信度，c_gt(x)是像素点x的实际置信度，是深度损失函数的权重系数，β是不确定度损失函数的权重系数、γ是输出置信度c(x)的权重系数。

本实施例利用一种新型的网络子模型损失函数对预设神经网络子模型进行训练。该网络子模型损失函数同时考虑了初始深度图和初始置信度分布图的精度，即网络子模型损失函数l是由深度损失函数l_D和利用置信度表示的不确定度损失函数l_U共同确定，如公式(1)所示。利用样本图像帧的实际深度图以及预设神经网络子模型输出的样本图像帧对应的输出深度图，根据公式(2)确定该样本图像帧对应的深度损失函数l_D。对于不确定度损失函数l_U的计算，首先利用公式(6)计算出样本图像帧中每个像素点对应的实际置信度，即得到样本图像帧对应的实际置信度分布图，然后利用样本图像帧的实际置信度分布图以及预设神经网络子模型输出的样本图像帧对应的输出置信度分布图，根据公式(5)确定该样本图像帧对应的置信度损失函数l_c，并根据预设神经网络子模型输出的样本图像帧对应的输出置信度分布图确定该样本图像帧对应的惩罚系数l_r，最后根据样本图像帧的置信度损失函数l_c和惩罚系数l_r，利用公式(3)确定不确定度损失函数l_U。本实施例中的惩罚系数l_r是用于阻止c(x)过快的收敛到1。权重系数α、β和γ可以是根据实际情况预先设置的在0到1之间的一个固定值。

S130、根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各图像帧的最终深度图和最终不确定度分布图。

其中，本实施例可以按照图像帧序列的顺序，依次将序列中的图像帧逐个确定为当前图像帧。根据当前图像帧之前的各姿态关系，以及当前图像帧的前N张图像帧对应的初始深度图和初始不确定度分布图，进行相邻帧间信息传递和融合，从而确定当前图像帧的最终深度图和最终不确定度分布图，其中，N可以是大于等于1的正整数。本实施例中的N可以是固定值，也可以根据当前图像帧前面的图像帧数量实时变化。示例性的，若当前图像帧为序列中的第5张图像帧，则N可以设置为小于或等于4的任一正整数，并且N值越大，当前图像帧的深度图的预测精度更高，鲁棒性更强。示例性的，若N为固定值2，则根据序列中第一张图像帧和第二张图像帧的初始深度图和初始不确定度分布图以及姿态关系进行传递和融合，确定第三张图像帧的最终深度图和最终不确定度分布图；根据序列中第二张图像帧和第三张图像帧的初始深度图和初始不确定度分布图以及姿态关系进行传递和融合，确定第四张图像帧的最终深度图和最终不确定度分布图，同理可以确定出序列中每张图像帧的最终深度图和最终不确定度分布图。

可选的，S130包括：

根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图，计算当前图像帧的传递深度图和传递不确定度分布图；根据预设融合方式，将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合，确定当前图像帧的最终深度图和最终不确定度分布图。

其中，本实施例可以根据前一图像帧的最终深度图和最终不确定度分布图来确定当前图像帧的最终深度图和最终不确定度分布图，从而可以利用当前图像帧前面所有的图像帧的深度信息对当前图像帧进行深度修复，即N值最大，使得每张图像帧深度图的预测精度也最高。当序列中的第一张图像帧为当前图像帧时，第一张图像帧的最终深度图和最终不确定度分布图分别与该张图像帧的初始深度图和初始不确定度分布图相同。若当前图像帧为序列中的第二张图像帧，则前一图像帧为序列中的第一张图像帧，此时根据第一张图像帧的最终深度图和最终不确定度分布图以及这两张图像帧之间的姿态关系进行传递和融合，确定第二张图像帧的最终深度图和最终不确定度分布图，依次执行，从而可以根据当前图像帧前面所有的图像帧对应的初始深度图和初始不确定分布图来确定当前图像帧的最终深度图和最终不确定度分布图，大大了提高了预测精度。

图4给出了一种单目视频的深度估计方法的示例。如图4所示，根据相机姿态估计算法，计算序列中相邻两张图像帧之间的姿态关系

利用预设神经网络模型确定第i张图像帧的初始深度图D_oi和初始不确定度分布图U_oi；根据第一张图像帧的初始深度图D_o1和初始不确定度分布图U_o1以及第一张图像帧与第二张图像帧之间的姿态关系

计算第二张图像帧的传递深度图D_p2和传递不确定度分布图U_p2；基于预设融合方式，根据第二张图像帧的初始深度图D_o2和初始不确定度分布图U_o2以及传递深度图D_p2和传递不确定度分布图U_p2,计算第二张图像帧的最终深度图D_f2和最终不确定度分布图U_f2,；然后根据第二张图像帧的最终深度图D_f2和最终不确定度分布图U_f2以及第二张图像帧与第三张图像帧之间的姿态关系

计算第三张图像帧的传递深度图D_p3和传递不确定度分布图U_p3；基于预设融合方式，根据第三张图像帧的初始深度图U_o3和初始不确定度分布图U_o3以及传递深度图D_p3和传递不确定度分布图U_p3,计算第三张图像帧的最终深度图D_f3和传递不确定度分布图U_f3；同理依次确定序列中每张图像帧的最终深度图D_fi和最终不确定度分布图U_fi。

本实施例中的预设融合方式可以包括但不限于基于贝叶斯推理的高斯融合、均匀融合、卡尔曼滤波融合、粒子融合和蒙特卡洛融合。

可选的，根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图，计算当前图像帧的传递深度图和传递不确定度分布图，包括：

将前一图像帧中的所有像素点逐个作为目标像素点，根据前一图像帧的最终深度图和最终不确定度分布图，确定目标像素点对应的目标深度值和目标不确定度；根据相机参数和目标像素点的第一像素坐标以及目标深度值确定目标像素点对应的三维空间点的第一空间坐标；根据前一图像帧与当前图像帧之间的姿态关系、第一空间坐标和相机参数确定三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值；根据目标不确定度确定投影像素点对应的传递不确定度。

其中，将前一图像帧的最终深度图和最终不确定度分布图传递至当前图像帧中，以通过融合前一图像帧和当前图像帧的深度信息，从而对当前图像帧进行深度修复。通过根据前一图像帧的最终深度图和最终不确定度分布图，确定当前图像帧中所有像素点对应的传递深度值和传递不确定度，从而确定当前图像帧的传递深度图和传递不确定度分布图。在本实施例中，假设图像帧中的每个像素点对应的深度值均符合高斯分布，其中高斯分布的均值为该像素点的最终深度值D_f，方差为σ²，根据预设神经网络模型和上一帧的深度传递值，可以得到σ²＝U_f，即高斯分布的方差为该像素点的最终不确定度U_f。图5给出了从前一图像帧I₁到当前图像帧I₂的深度值和不确定度的传递示例图。如图5所示，将前一图像帧I₁中所有像素点逐个作为目标像素点p₁，根据前一像素帧的最终深度图和最终不确定度分布图，确定目标像素点p₁对应的目标深度值

和目标不确定度

可选的，目标像素点对应的三维空间点的第一空间坐标根据以下公式确定：

其中，P为目标像素点对应的三维空间点的第一空间坐标，[u₁,v₁]是目标像素点的第一像素坐标，

是目标像素点的目标深度值，K是相机内参矩阵。如图5所示，根据该公式可以计算出目标像素点p₁对应的三维空间点的第一空间坐标P，且P∈R³，相机内参矩阵K∈R^3×3。

可选的，三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值根据以下公式确定：

其中，p2为三维空间点在当前图像帧上的投影像素点的第二像素坐标，即p2＝[u₂,v₂]，D_p2为投影像素点对应的传递深度值，

和

分别是前一图像帧I₁到当前图像帧I₂的旋转矩阵和平移矩阵。如图5所示，根据该公式

可以计算三维空间点P在当前图像帧I₂上的投影像素点p₂的第二像素坐标[u₂,v₂]以及投影像素点p₂对应的传递深度值

可选的，根据目标不确定度确定投影像素点对应的传递不确定度，包括：

根据目标不确定度和传递噪声方差确定投影像素点对应的传递不确定度。

其中，如图5所示，与深度值的传递类似，投影像素点p₂对应的不确定度

由前一图像帧I₁传递到当前图像帧I₂的过程可以表示为：

其中，

由于

与

之间是复杂的非线性关系，所以直接计算J是很复杂的。在本实施例中，为了提高简便性和高效率，可以假定相邻两张图像帧之间的旋转很小，从而旋转矩阵

可以近似为一个单位矩阵。因此，公式

可以简化为

因此

其中T_z是相邻两张图像帧之间在z方向的平移量。

在实际应用时，由于相机姿态估计的结果存在误差，所以深度信息和不确定度信息在传递的过程之中是不可避免的会引入噪声。在本实施例中，可以利用一个高斯分布来模拟这些噪声，该高斯分布的均值为0，方差为

其中方差

为一个经验值。通过考虑传递过程中的噪声，使得计算的投影像素点p₂对应的传递不确定度

更加准确。

可选的，投影像素点对应的传递不确定度根据以下公式确定：

其中，

是投影像素点对应的传递不确定度，

是目标不确定度，

是传递噪声方差。

可选的，预设融合方式包括基于贝叶斯推理的高斯融合；相应的，根据预设融合方式，将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合，确定当前图像帧的最终深度图和最终不确定度分布图，包括：

根据当前图像帧的初始深度图和初始不确定度分布图确定当前图像帧中各像素点对应的第一高斯分布，其中第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度；根据传递深度图和传递不确定度分布图确定当前图像帧中各像素点对应的第二高斯分布，其中，第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度；基于贝叶斯推理，根据当前图像帧中各像素点对应的第一高斯分布和第二高斯分布确定当前图像帧的最终深度图和最终不确定度分布图。

其中，根据预设神经网络模型输出的当前图像帧的初始深度图D_o和初始不确定度分布图U_o，确定当前图像帧中任一像素点x对应第一高斯分布为：

根据当前图像帧的传递深度图D_p和传递不确定度分布图U_p,确定当前图像帧中任一像素点x对应的第二高斯分布为：

在本实施例中，当前图像帧的

和

是相互独立的，从而可以通过如下贝叶斯推导方式计算深度Z的最大后验分布：

本实施可以通求解

来求解

其中，前一图像帧传递到当前图像帧的传递值

当前图像帧通过预设神经网络模型的输出值

通过将当前图像帧中各像素点对应的第一高斯分布和第二高斯分布相乘，来确定当前图像帧的最终深度图和最终不确定度分布图。

可选的，当前图像帧的最终深度图和最终不确定度分布图服从以下第三高斯分布：

其中，

和

分别为当前图像帧中像素点x对应的初始深度值、初始不确定度、传递深度值和传递不确定度，

和

分别为当前图像帧中各像素点x对应的最终深度值和最终不确定度。

其中，本实施中两个符合高斯分布的变量相乘的结果仍然符合高斯分布，得到的第三高斯分布的均值和方差的变化关系为

即两个均值和方差分别为

的高斯分布，融合之后变为均值和方差分别为

的高斯分布，从而得到了融合之后的当前图像帧的最终深度图和最终不确定度分布图，同理，依次确定序列中每张图像帧对应的最终深度图和最终不确定度分布图。

在本实施例中，可以利用计算机等终端的CPU(Central Processing Unit，中央处理器)进行SLAM相机姿态估计的相关线程，对图像帧序列中相邻图像帧之间的姿态关系进行估计和优化，利用GPU(Graphics Processing Unit，图形处理器)将图像帧序列输入至预设神经网络模型中进行深度图和不确定度分布图的预测，然后根据图像帧序列中相邻两张图像帧之间的姿态关系进行深度图和不确定度分布图的传递和融合，从而实现优化预设神经网络模型输出的深度图的效果，并提高了系统运行速度。

本实施例的技术方案，通过根据相机姿态估计算法，计算单目视频的图像帧序列中相邻两张图像帧之间的姿态关系；并依次将序列中的各图像帧作为预设神经网络模型的输入，并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图；根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各图像帧的最终深度图和最终不确定度分布图。通过根据姿态关系和预设神经网络模型输出的初始深度图和不确定度分布图，对视频帧序列中的每张图像帧进行帧间信息传递和融合，确定每张图像帧的最终深度图，从而实现了对预设神经网络输出的各图像帧的初始深度图的深度修复，不但提高了深度图的预测精度，而且能够获得深度图的不确定度分布。

实施例二

图6为本发明实施例二提供的一种单目视频的深度估计装置的结构示意图，本实施例可适用于对视频帧序列中的每一图像帧进行单目深度估计的情况。该装置包括：姿态关系确定模块210、初始深度信息确定模块220和最终深度信息确定模块230。

其中，姿态关系确定模块210，用于获取单目视频的图像帧序列，并根据相机姿态估计算法，计算序列中相邻两张图像帧之间的姿态关系；初始深度信息确定模块220，用于依次将序列中的各图像帧作为预设神经网络模型的输入，并根据预设神经网络模型的输出确定各图像帧的初始深度图和初始不确定度分布图；最终深度信息确定模块230，用于根据各姿态关系以及各图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各图像帧的最终深度图和最终不确定度分布图。

可选的，最终深度信息确定模块230包括：

传递深度信息确定单元，用于根据当前图像帧与前一图像帧之间的姿态关系以及前一图像帧的最终深度图和最终不确定度分布图，计算当前图像帧的传递深度图和传递不确定度分布图；

最终深度信息确定单元，用于根据预设融合方式，将当前图像帧的初始深度图和初始不确定度分布图以及传递深度图和传递不确定度分布图进行融合，确定当前图像帧的最终深度图和最终不确定度分布图。

可选的，该方法还包括：

预设神经网络模型创建模块，用于在使用预设神经网络模型之前，建立预设神经网络子模型，并获取训练样本数据；根据训练样本数据和网络子模型损失函数对预设神经网络子模型进行训练，其中，预设神经网络子模型的输出为初始深度图和初始置信度分布图；于预设神经网络子模型训练结束后，根据输出转化关系，对预设神经网络子模型输出的初始置信度分布图进行转化，确定与初始置信度分布图对应的初始不确定度分布图，并将转化后的预设神经网络子模型确定为预设神经网络模型。

可选的，网络子模型损失函数根据如下公式确定：

l＝αl_D+βl_U(0＜α＜1；0＜β＜1) (1)

l_D＝∑_x∈X|d(x)-d_gt(x)| (2)

l_U＝l_c+l_r (3)

l_r＝∑_x∈Xγ|c(x)|(0＜γ＜1) (4)

l_c＝∑_x∈X|c(x)-c_gt(x)| (5)

可选的，传递深度信息确定单元，包括：

目标深度信息确定子单元，用于将前一图像帧中的所有像素点逐个作为目标像素点，根据前一图像帧的最终深度图和最终不确定度分布图，确定目标像素点对应的目标深度值和目标不确定度；

第一空间坐标确定子单元，用于根据相机参数和目标像素点的第一像素坐标以及目标深度值确定目标像素点对应的三维空间点的第一空间坐标；

传递深度值确定子单元，用于根据前一图像帧与当前图像帧之间的姿态关系、第一空间坐标和相机参数确定三维空间点在当前图像帧上的投影像素点的第二像素坐标以及投影像素点对应的传递深度值；

传递不确定度确定子单元，用于根据目标不确定度确定投影像素点对应的传递不确定度。

是目标像素点的目标深度值，K是相机内参矩阵。

和

分别是前一图像帧I₁到当前图像帧I₂的旋转矩阵和平移矩阵。

可选的，传递不确定度确定子单元，具体用于：

其中，

是投影像素点对应的传递不确定度，

是目标不确定度，

是传递噪声方差。

可选的，预设融合方式包括基于贝叶斯推理的高斯融合；相应的，最终深度信息确定单元，具体用于：

根据当前图像帧的初始深度图和初始不确定度分布图确定当前图像帧中各像素点对应的第一高斯分布，其中第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度；

根据传递深度图和传递不确定度分布图确定当前图像帧中各像素点对应的第二高斯分布，其中，第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度；

基于贝叶斯推理，根据当前图像帧中各像素点对应的第一高斯分布和第二高斯分布确定当前图像帧的最终深度图和最终不确定度分布图。

其中，

和

和

上述单目视频的深度估计装置可执行本发明任意实施例所提供的单目视频的深度估计方法，具备执行单目视频的深度估计方法相应的功能模块和有益效果。

实施例三

图7是本发明实施例三提供的一种终端的结构示意图。参见图7，该终端包括：

一个或多个处理器310；

存储器320，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器310执行，使得一个或多个处理器310实现如上述实施例中任一实施例提出的单目视频的深度估计方法。

图7中以一个处理器310为例；终端中的处理器310和存储器320可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的单目视频的深度估计方法对应的程序指令/模块(例如，单目视频的深度估计装置中的姿态关系确定模块210、初始深度信息确定模块220和最终深度信息确定模块230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的单目视频的深度估计方法。

存储器320主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提出的终端与上述实施例提出的单目视频的深度估计方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行单目视频的深度估计方法相同的有益效果。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的单目视频的深度估计方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种单目视频的深度估计方法，其特征在于，包括：

根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各所述图像帧的最终深度图和最终不确定度分布图；

在使用所述预设神经网络模型之前，还包括：

建立预设神经网络子模型，并获取训练样本数据；

根据所述训练样本数据和网络子模型损失函数对所述预设神经网络子模型进行训练，其中，所述预设神经网络子模型的输出为初始深度图和初始置信度分布图；

于所述预设神经网络子模型训练结束后，根据输出转化关系，对所述预设神经网络子模型输出的初始置信度分布图进行转化，确定与所述初始置信度分布图对应的初始不确定度分布图，并将转化后的预设神经网络子模型确定为预设神经网络模型；

所述网络子模型损失函数根据如下公式确定：

l＝αl_D+βl_U(0＜α＜1；0＜β＜1) (1)

l_D＝∑_x∈X|d(x)-d_gt(x)| (2)

l_U＝l_c+l_r (3)

l_r＝∑_x∈Xγ|c(x)|(0＜γ＜1) (4)

l_c＝∑_x∈X|c(x)-c_gt(x)| (5)

其中，l是所述网络子模型损失函数，l_D是深度损失函数，l_U是利用置信度表示的不确定度损失函数，x是图像帧中的任一像素点，X是图像帧中所有像素点的集合，d(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出深度值，d_gt(x)是像素点x的实际深度值，l_c是置信度损失函数，l_r是用于控制c(x)收敛速度的惩罚系数，c(x)是根据所述预设神经网络子模型的输出确定的像素点x对应的输出置信度，c_gt(x)是像素点x的实际置信度，α是所述深度损失函数的权重系数，β是所述不确定度损失函数的权重系数、γ是所述输出置信度c(x)的权重系数。

2.根据权利要求1所述的方法，其特征在于，根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各所述图像帧的最终深度图和最终不确定度分布图，包括：

根据当前图像帧与前一图像帧之间的姿态关系以及所述前一图像帧的最终深度图和最终不确定度分布图，计算所述当前图像帧的传递深度图和传递不确定度分布图；

根据预设融合方式，将所述当前图像帧的初始深度图和初始不确定度分布图以及所述传递深度图和传递不确定度分布图进行融合，确定所述当前图像帧的最终深度图和最终不确定度分布图。

3.根据权利要求2所述的方法，其特征在于，根据当前图像帧与前一图像帧之间的姿态关系以及所述前一图像帧的最终深度图和最终不确定度分布图，计算所述当前图像帧的传递深度图和传递不确定度分布图，包括：

将前一图像帧中的所有像素点逐个作为目标像素点，根据所述前一图像帧的最终深度图和最终不确定度分布图，确定所述目标像素点对应的目标深度值和目标不确定度；

根据相机参数和所述目标像素点的第一像素坐标以及所述目标深度值确定所述目标像素点对应的三维空间点的第一空间坐标；

根据所述前一图像帧与当前图像帧之间的姿态关系、所述第一空间坐标和所述相机参数确定所述三维空间点在当前图像帧上的投影像素点的第二像素坐标以及所述投影像素点对应的传递深度值；

根据所述目标不确定度确定所述投影像素点对应的传递不确定度。

4.根据权利要求3所述的方法，其特征在于，所述目标像素点对应的三维空间点的第一空间坐标根据以下公式确定：

其中，P为所述目标像素点对应的三维空间点的第一空间坐标，[u₁，v₁]是目标像素点的第一像素坐标，

是目标像素点的目标深度值，K是相机内参矩阵。

5.根据权利要求4所述的方法，其特征在于，所述三维空间点在当前图像帧上的投影像素点的第二像素坐标以及所述投影像素点对应的传递深度值根据以下公式确定：

其中，p₂为所述三维空间点在当前图像帧上的投影像素点的第二像素坐标，即p₂＝[u₂，v₂]，

为所述投影像素点对应的传递深度值，

和

6.根据权利要求3所述的方法，其特征在于，根据所述目标不确定度确定所述投影像素点对应的传递不确定度，包括：

根据所述目标不确定度和传递噪声方差确定所述投影像素点对应的传递不确定度。

7.根据权利要求6所述的方法，其特征在于，所述投影像素点对应的传递不确定度根据以下公式确定：

其中，

是所述投影像素点对应的传递不确定度，

是所述目标不确定度，

是所述传递噪声方差。

8.根据权利要求2所述的方法，其特征在于，所述预设融合方式包括基于贝叶斯推理的高斯融合；

相应的，根据预设融合方式，将所述当前图像帧的初始深度图和初始不确定度分布图以及所述传递深度图和传递不确定度分布图进行融合，确定所述当前图像帧的最终深度图和最终不确定度分布图，包括：

根据所述当前图像帧的初始深度图和初始不确定度分布图确定所述当前图像帧中各像素点对应的第一高斯分布，其中所述第一高斯分布的均值和方差分别为像素点对应的初始深度值和初始不确定度；

根据传递深度图和传递不确定度分布图确定所述当前图像帧中各像素点对应的第二高斯分布，其中，所述第二高斯分布的均值和方差分别为像素点对应的传递深度值和传递不确定度；

基于贝叶斯推理，根据所述当前图像帧中各像素点对应的所述第一高斯分布和所述第二高斯分布确定所述当前图像帧的最终深度图和最终不确定度分布图。

9.根据权利要求8所述的方法，其特征在于，所述当前图像帧的最终深度图和最终不确定度分布图服从以下第三高斯分布：

其中，

和

分别为所述当前图像帧中像素点x对应的初始深度值、初始不确定度、传递深度值和传递不确定度，

和

分别为所述当前图像帧中各像素点x对应的最终深度值和最终不确定度。

10.一种单目视频的深度估计装置，其特征在于，包括：

最终深度信息确定模块，用于根据各所述姿态关系以及各所述图像帧的初始深度图和初始不确定度分布图进行帧间信息传递和融合，依次确定各所述图像帧的最终深度图和最终不确定度分布图；

还包括：预设神经网络模型创建模块，用于在使用所述预设神经网络模型之前，建立预设神经网络子模型，并获取训练样本数据；根据所述训练样本数据和网络子模型损失函数对所述预设神经网络子模型进行训练，其中，所述预设神经网络子模型的输出为初始深度图和初始置信度分布图；于所述预设神经网络子模型训练结束后，根据输出转化关系，对所述预设神经网络子模型输出的初始置信度分布图进行转化，确定与所述初始置信度分布图对应的初始不确定度分布图，并将转化后的预设神经网络子模型确定为预设神经网络模型；

所述网络子模型损失函数根据如下公式确定：

l＝αl_D+βl_U(0＜α＜1；0＜β＜1) (1)

l_D＝∑_x∈X|d(x)-d_gt(x)| (2)

l_U＝l_c+l_r (3)

l_r＝∑_x∈Xγ|c(x)|(0＜γ＜1) (4)

l_c＝∑_x∈X|c(x)-c_gt(x)| (5)

11.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的单目视频的深度估计方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的单目视频的深度估计方法。