CN111612831A

CN111612831A - 一种深度估计方法、装置、电子设备及存储介质

Info

Publication number: CN111612831A
Application number: CN202010445687.5A
Authority: CN
Inventors: 范馨予
Original assignee: Alnnovation Beijing Technology Co ltd
Current assignee: Alnnovation Beijing Technology Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-01

Abstract

本申请提供一种深度估计方法、装置、电子设备及存储介质，用于改善获得的深度估计图存在二维图像的局部深度信息不够准确的问题。该方法包括：获得第一图像和第二图像，第一图像和第二图像是目标视频中的不同视频帧；提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图，深度特征图表征二维图像中的三维深度信息；将第一图像和第二图像进行拼接融合，获得融合图像；根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图，遮蔽特征图表征图像中的噪声被遮蔽后的特征图；根据遮蔽特征图和第一深度特征图确定深度估计图，深度估计图表征第一图像和第二图像的三维深度信息。

Description

一种深度估计方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能、深度学习和机器视觉的技术领域，具体而言，涉及一种深度估计方法、装置、电子设备及存储介质。

背景技术

深度估计，是指对一个或者多个二维的图片进行计算，例如：使用神经网络算法估计出三维的深度估计图，深度估计图是指表征二维图像的三维深度信息的矩阵，因此，深度估计也可以理解为从二维平面信息推测出三维空间信息。

目前，获得深度估计图(即深度信息)的方法通常是，获得二维图像中的物体的几何法向量，再根据该几何法向量来获得深度估计图；然而，在具体的实践过程中发现，通过这种方式获得的深度估计图存在二维图像的局部深度信息不够准确。

发明内容

本申请实施例的目的在于提供一种深度估计方法、装置、电子设备及存储介质，用于改善获得的深度估计图存在二维图像的局部深度信息不够准确的问题。

本申请实施例提供了一种深度估计方法，包括：获得第一图像和第二图像，第一图像和第二图像是目标视频中的不同视频帧；提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图，深度特征图表征二维图像中的三维深度信息；将第一图像和第二图像进行拼接融合，获得融合图像；根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图，遮蔽特征图表征图像中的噪声被遮蔽后的特征图；根据遮蔽特征图和第一深度特征图确定深度估计图，深度估计图表征第一图像和第二图像的三维深度信息。在上述的实现过程中，提取视频中的第一图像中的第一深度特征图，并提取视频中的第二图像中的第二深度特征图；并将第一图像和第二图像进行拼接获得融合图像；根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图；最后根据遮蔽特征图和第一深度特征图确定深度估计图；也就是说，通过使用遮蔽特征图屏蔽了深度特征图中的局部噪声区域，同时也保证了由于图像中的物体相对运动造成的局部大噪声不会对整体估计造成较大的偏差，从而有效地改善了获得的深度估计图存在二维图像的局部深度信息不够准确的问题。

可选地，在本申请实施例中，根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图，包括：使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图；将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征；根据第一融合特征和第二融合特征确定遮蔽特征图。在上述的实现过程中，通过使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图；将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征；根据第一融合特征和第二融合特征确定遮蔽特征图；从而有效地提高了获得遮蔽特征图的速度。

可选地，在本申请实施例中，根据第一融合特征和第二融合特征确定遮蔽特征图，包括：对第一融合特征进行姿态修正，获得第一修正特征；对第二融合特征进行插值修正，获得第二修正特征；根据第一修正特征和第二修正特征确定遮蔽特征图。在上述的实现过程中，通过对第一融合特征进行姿态修正，获得第一修正特征；对第二融合特征进行插值修正，获得第二修正特征；根据第一修正特征和第二修正特征确定遮蔽特征图；从而有效地提高了遮蔽特征图的准确度。

可选地，在本申请实施例中，根据遮蔽特征图和第一深度特征图确定深度估计图，包括：根据遮蔽特征图确定损失函数；使用损失函数修正第一深度特征图，获得深度估计图。在上述的实现过程中，通过根据遮蔽特征图确定损失函数；使用损失函数修正第一深度特征图，获得深度估计图；从而有效地提高了深度估计图的准确度。

可选地，在本申请实施例中，提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图，包括：使用第一深度估计网络模型提取第一图像中的第一深度特征图，第一深度估计网络模型为提取深度信息特征的神经网络模型；使用第二深度估计网络模型提取第二图像中的第二深度特征图，第二深度估计网络模型为提取深度信息特征的神经网络模型。在上述的实现过程中，通过使用第一深度估计网络模型提取第一图像中的第一深度特征图；使用第二深度估计网络模型提取第二图像中的第二深度特征图；从而有效地提高了第一深度特征图和第二深度特征图的速度。

可选地，在本申请实施例中，获得第一图像和第二图像，包括：接收终端设备发送的第一图像和第二图像；在根据遮蔽特征图和第一深度特征图确定深度估计图之后，还包括：向终端设备发送深度估计图。在上述的实现过程中，通过服务器接收终端设备发送的第一图像和第二图像；在服务器根据遮蔽特征图和第一深度特征图确定深度估计图之后，服务器还可以向终端设备发送深度估计图；从而有效地提高了终端设备获得深度估计图的速度。

本申请实施例还提供了一种深度估计装置，包括：图像获得模块，用于获得第一图像和第二图像，第一图像和第二图像是目标视频中的不同视频帧；特征提取模块，用于提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图，深度特征图表征二维图像中的三维深度信息；拼接融合模块，用于将第一图像和第二图像进行拼接融合，获得融合图像；遮蔽确定模块，用于根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图，遮蔽特征图表征图像中的噪声被遮蔽后的特征图；深度估计模块，用于根据遮蔽特征图和第一深度特征图确定深度估计图，深度估计图表征第一图像和第二图像的三维深度信息。

可选地，在本申请实施例中，遮蔽确定模块，包括：姿态特征获得模块，用于使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图；融合特征获得模块，用于将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征；遮蔽特征确定模块，用于根据第一融合特征和第二融合特征确定遮蔽特征图。

可选地，在本申请实施例中，遮蔽特征确定模块，包括：第一获得模块，用于对第一融合特征进行姿态修正，获得第一修正特征；第二获得模块，用于对第二融合特征进行插值修正，获得第二修正特征；第一确定模块，用于根据第一修正特征和第二修正特征确定遮蔽特征图。

可选地，在本申请实施例中，深度估计模块，包括：第二确定模块，用于根据遮蔽特征图确定损失函数；第三获得模块，用于使用损失函数修正第一深度特征图，获得深度估计图。

可选地，在本申请实施例中，特征提取模块，包括：第一提取模块，用于使用第一深度估计网络模型提取第一图像中的第一深度特征图，第一深度估计网络模型为提取深度信息特征的神经网络模型；第二提取模块，用于使用第二深度估计网络模型提取第二图像中的第二深度特征图，第二深度估计网络模型为提取深度信息特征的神经网络模型。

可选地，在本申请实施例中，图像获得模块，包括：图像接收模块，用于接收终端设备发送的第一图像和第二图像；深度估计装置，还包括：估计图发送模块，用于向终端设备发送深度估计图。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的深度估计方法的流程示意图；

图2示出的本申请实施例提供的深度估计自监督过程的示意图；

图3示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；

图4示出的本申请实施例提供的深度估计装置的示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的深度估计方法之前，先介绍本申请实施例所涉及的一些概念，本申请实施例所涉及的一些概念如下：

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

深度学习(Deep Learning)，是机器学习中一种基于对数据进行表征学习的算法，深度学习是机器学习的分支，也是一种以人工神经网络为架构，对数据进行表征学习的算法。

机器视觉(Machine Vision)是配备有感测视觉仪器的检测机器，这里的感测视觉仪器例如可以是自动对焦相机或传感器，其中的光学检测仪器占有比重非常高，可用于检测出各种产品的缺陷，或者用与判断并选择出物体，或者用来测量尺寸等。

特征图(Feature Map)，又称特征矩阵图，是指经过某网络模型对图像进行特征提取后，获得一个用于表征该图像中的某些特征的矩阵，这里的某些特征可能是表示位置边框信息的具体特征，也可能是表示语义信息的抽象特征。

人工神经网络(Artificial Neural Network，ANN)，简称神经网络(NeuralNetwork，NN)或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(例如：动物的中枢神经系统，可以是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似；这里的神经网络由大量的人工神经元联结进行计算。

卷积神经网络(Convolutional Neural Networks，CNN)，是指一种人工神经网络，人工神经网络的人工神经元可以响应周围单元，可以进行大型图像处理；卷积神经网络可以包括卷积层和池化层。

残差网络(Residual Network，ResNet)，是指微软研究院的学者提出的卷积神经网络，ResNet的特点是容易优化，并且能够通过增加相当的深度来提高准确率；ResNet内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的深度估计方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的深度估计方法之前，先介绍该深度估计方法适用的应用场景，这里的应用场景包括但不限于：在自动驾驶场景中使用该深度估计方法获得车辆周围的图像深度信息，具体例如：使用该深度估计方法获得目标对象的二维图像的深度估计图或者三维深度信息，或者使用该深度估计方法获得目标视频的二维图像的深度估计图或者三维深度信息，或者使用深度估计图获得视频中的相邻两张图像的三维深度信息或者深度估计图等，这里的目标对象包括生物或者非生物等，同理，目标视频的二维图像或者视频中的相邻两张图像中也可以包括生物或者非生物等。

请参见图1示出的本申请实施例提供的深度估计方法的流程示意图；该深度估计方法可以包括如下步骤：

步骤S110：获得第一图像和第二图像。

其中，第一图像和第二图像可以是目标视频中的不同视频帧，具体地，第一图像和第二图像可以是目标视频中在时间上相邻的两张图像，第一图像和第二图像也可以是目标视频中相邻的两张关键帧图像。这里的目标视频可以是针对目标对象录制的，当然这里的第一图像和第二图像也可以是对目标对象的不同角度的图像。在上述的实现过程中，由于有相邻两帧的自监督，可以提高图片的深度估计之间的几何一致性。

上述的目标视频的获得方式包括：第一种方式，获取预先存储的目标视频，从文件系统中获取目标视频，或者从数据库中获取目标视频；第二种方式，从其他终端设备接收获得目标视频；第三种方式，使用浏览器等软件获取互联网上的目标视频，或者使用其它应用程序访问互联网获得目标视频。

上述步骤S110中的第一图像和第二图像的获得方式包括：第一种方式，从目标视频获取第一图像和第二图像，并将第一图像和第二图像存储在文件系统或者数据库中，再从文件系统中获取第一图像和第二图像，或者从数据库中获取第一图像和第二图像；第二种方式，使用其他终端设备从目标视频获取第一图像和第二图像，该终端设备再将向电子设备发送第一图像和第二图像，电子设备接收其他终端设备发送的第一图像和第二图像；第三种方式，使用浏览器等软件获取互联网上的第一图像和第二图像，或者使用其它应用程序访问互联网获得第一图像和第二图像。

在步骤S110之后，执行步骤S120：提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图。

深度特征图(Deep Feature Map)，是指表征二维图像中的三维深度信息的特征矩阵，这里的深度信息可以理解为三维空间信息，即二维图像中提取出三维空间信息的特征矩阵。因此，上述的第一深度特征图是指表征第一图像中的三维深度信息的特征矩阵，上述的第二深度特征图是指表征第二图像中的三维深度信息的特征矩阵，深度特征图的具体获得方式将在下面进行详细地描述。

其中，上述的步骤S110和步骤S120的执行顺序可以不作限制，可以步骤S120先执行且步骤S110后执行，也可以步骤S110先执行且步骤S120后执行，当然也可以步骤S120和步骤S110并行执行，即步骤S120和步骤S110一起执行。

请参见图2示出的本申请实施例提供的深度估计自监督过程的示意图；上述的第一深度特征图和第二深度特征图均可以理解为深度初步估计图，上述步骤S120中的提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图的实施方式可以包括：

步骤S121：使用第一深度估计网络模型提取第一图像中的第一深度特征图，第一深度估计网络模型为提取深度信息特征的神经网络模型。

深度估计网络模型，是指从二维图像提取出深度特征图的神经网络模型，这里的深度估计网络模型可以使用训练数据对CNN进行训练后获得的神经网络模型，这里的CNN具体例如：LeNet、AlexNet、VGG、ResNet和GoogLeNet等。

上述的步骤S121的实施方式例如：将ResNet进行训练，获得ResNet模型，将ResNet模型确定为第一深度估计网络模型，再使用第一深度估计网络模型提取第一图像中的第一深度特征图，第一深度估计网络模型为提取深度信息特征的神经网络模型；其中，这里的ResNet具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等。

在具体的实施过程中，将ResNet50模型确定为第一深度估计网络模型，在使用ResNet50提取第一图像中的第一深度特征图时，即在使用ResNet50提取第一图像的不同尺度的特征时，还可以使用连续条件随机场；具体例如：通过ResNet50可以提取出多个(3到5个为例)尺度特征，然后将这些多个尺度的特征在条件随机场中得到连续演化，并将演化后的多个尺度特征进行积分融合，获得第一深度特征图。

具体地，上述的条件随机场的能量函数包括两部分组成：第一部分是回归深度与隐变量之间的平方误差，第二部分是隐变量之间的配对势；在优化上，动量以及权重衰减设置分别为0.9与0.0005，通过优化将得到两个帧对应的深度估计图。在上述的实现过程中，通过使用连续条件随机场能够有效地将多个不同尺度的特征进行融合，从而获得对深度的把握更加细致的深度估计图。

步骤S122：使用第二深度估计网络模型提取第二图像中的第二深度特征图，第二深度估计网络模型为提取深度信息特征的神经网络模型。

上述的步骤S121和步骤S122的执行顺序可以不作限制，可以步骤S121先执行且步骤S122后执行，也可以步骤S122先执行且步骤S121后执行，当然也可以步骤S121和步骤S122并行执行，即步骤S121和步骤S122一起执行。

其中，该步骤的实施原理和实施方式与步骤S121的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S121的描述，区别仅在于使用不同的模型对不同的视频帧进行处理，获得不同的深度特征图，具体如下。

同理地，上述的步骤S122的实施方式例如：将ResNet进行训练，获得ResNet模型，将ResNet模型确定为第二深度估计网络模型，再使用第二深度估计网络模型提取第二图像中的第二深度特征图，第二深度估计网络模型为提取深度信息特征的神经网络模型；其中，这里的ResNet具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等。在上述的实现过程中，通过使用第一深度估计网络模型提取第一图像中的第一深度特征图；使用第二深度估计网络模型提取第二图像中的第二深度特征图；从而有效地提高了第一深度特征图和第二深度特征图的速度。

在步骤S110之后，执行步骤S130：将第一图像和第二图像进行拼接融合，获得融合图像。

上述的步骤S130的实施方式例如：将第一图像和第二图像进行上下或者左右拼接融合，获得融合图像；这里的上下拼接融合的方式例如：第一图像放在上面，第二图像放在下面，然后将第一图像的下边框与第二图像的上边框无缝衔接，获得衔接后的融合图像；当然，在具体的实施过程中，也可以第二图像放在上面，第一图像放在下面，然后将第二图像的下边框与第一图像的上边框无缝衔接，获得衔接后的融合图像。这里的左右拼接融合的实施原理和实施方式与上下拼接融合的实施原理和实施方式类似，因此，这里就不再赘述。

在步骤S130之后，执行步骤S140：根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图。

遮蔽特征图(maskfeaturemap)，是指表征图像中的噪声被遮蔽后的特征图，其中，图像中的噪声是指该图像不能表征三维空间信息的部分区域，该图像中的噪声获得方式将在下面进行详细地描述。

上述步骤S140中的根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图的实施方式可以包括：

步骤S141：使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图。

姿态特征，是指融合图像中能够表征融合之前的两帧图像之间的关联姿态信息的特征，具体例如：融合之前的两帧图像为上述的第一图像和第二图像，第一图像中的目标对象为第一姿态，第二图像中的目标对象为第二姿态，那么这里的姿态特征可以理解为第一姿态和第二姿态的关联信息。

姿态估计网络模型，是指提取融合图像中的姿态特征的神经网络模型，这里的姿态估计网络可以采用简单CNN；因此，这里的姿态估计网络模型也可以是对简单CNN进行训练获得神经网络模型，具体例如：若简单CNN采用简单的16层卷积层(除了前两层和后两层的核大小为7,5,5,7外，其他层的核大小均为3)的堆叠后进行回归的神经网络结构，那么再对该神经网络结构进行训练，即可获得姿态估计网络模型。

姿态特征图，是指表征上述融合图像中的姿态特征矩阵，这里的特征矩阵是指经过某网络模型对图像进行特征提取后，获得一个用于表征该图像中的某些特征的矩阵。

上述的步骤S141的实施方式例如：将上述的16层卷积层的堆叠进行回归的神经网络结构确定为姿态估计网络，再使用训练数据对姿态估计网络进行训练，获得姿态估计网络模型，再使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图。

步骤S142：将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征。

融合特征，是指对多个不同的特征图进行融合计算获得的特征，这里的融合计算具体例如：加权融合、算数平均融合和几何均值融合等。

上述的步骤S142的实施方式例如：若第一深度特征图或者第二深度特征图为[0.01,0.5,0.2,0.09，0.2]，且姿态特征图为[0.09,0.3,0.2,0.01，0.4]，第一深度特征图的权重或者第二深度特征图的权重为0.1，姿态特征图的权重为0.9，那么经过加权融合后获得的第一融合特征或者第二融合特征为[0.1*0.01+0.9*0.09，0.1*0.5+0.9*0.3，0.1*0.2+0.9*0.2，0.1*0.09+0.9*0.01，0.1*0.2+0.9*0.4]，即第一融合特征或者第二融合特征为[0.082，0.32，0.2，0.018，0.38]。在具体的实施过程中，除了上述的加权融合，还可以采用均值融合，即将矩阵中的每个对应位置上的元素取平均值，获得均值融合后的融合特征，均值融合的实施方式与这里的加权融合的实施方式类似，因此不再对均值融合的实施方式进行赘述。

步骤S143：根据第一融合特征和第二融合特征确定遮蔽特征图。

上述步骤S143中的根据第一融合特征和第二融合特征确定遮蔽特征图的实施方式可以包括如下步骤：

步骤S1431：对第一融合特征进行姿态修正，获得第一修正特征。

姿态修正，是指对第一融合特征中的姿态参数或者姿态特征进行修改，以更加显示出第一融合特征中的姿态特征，具体地姿态修正方法将在下面进行详细地描述。

上述的步骤S1431的实施方式具体例如：使用姿态修正网络模型对第一融合特征进行姿态修正，获得第一修正特征；这里的姿态修正网络模型可以使用LeNet、AlexNet、VGG、ResNet和GoogLeNet等神经网络模型。这里的第一修正特征是指对第一融合特征进行姿态修正获得的特征图，这里的特征图是指表征二维图像中的姿态修正信息的特征矩阵。

步骤S1432：对第二融合特征进行插值修正，获得第二修正特征。

上述的步骤S1432的实施方式具体例如：使用插值修正网络模型对第二融合特征进行插值修正，获得第二修正特征；这里的插值修正网络模型可以使用LeNet、AlexNet、VGG、ResNet和GoogLeNet等神经网络模型。

上述的步骤S1432的实施方式又例如：使用插值算法对第二融合特征进行插值修正，获得第二修正特征；其中，这里的插值算法例如：最近邻插值、双线性插值和双三次插值等；这里的最近邻插值也称作零阶插值，是指将变换后的图像中的原像素点最邻近像素的灰度值赋给原像素点的方法，就是令变换后像素的灰度值等于距它最近的输入像素的灰度值；这里的双线性插值又称为双线性内插，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值；这里的双三次插值是指一种更加复杂的插值方法，它能创造出比双线性插值更平滑的图像边缘。

步骤S1433：根据第一修正特征和第二修正特征确定遮蔽特征图。

上述的步骤S1433的实施方式例如：若第一修正特征表示为

第二修正特征表示为D_b′，可以通过两者之差除以两者之和计算出两者之间的归一后的差异性；如果该归一后的差异性较大说明了该区域的噪声比较大，从而根据该区域的噪声计算出遮蔽特征图，因此，计算遮蔽特征图的公式为：

M＝1-D_diff；

其中，D_diff(p)为第一修正特征和第二修正特征单的差异值，

为姿态修正后的深度图(即第一修正特征)，D_b'(p)为插值修正后的深度图(即第二修正特征),M为遮蔽特征图。在上述的实现过程中，通过对第一融合特征进行姿态修正，获得第一修正特征；对第二融合特征进行插值修正，获得第二修正特征；根据第一修正特征和第二修正特征确定遮蔽特征图；从而有效地提高了遮蔽特征图的准确度。

在上述的实现过程中，通过使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图；将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征；根据第一融合特征和第二融合特征确定遮蔽特征图；从而有效地提高了获得遮蔽特征图的速度。

在步骤S140之后，执行步骤S150：根据遮蔽特征图和第一深度特征图确定深度估计图。

深度估计图，是指表征第一图像和第二图像的三维深度信息的估计图，其中，深度估计图的具体获得方式将在下面进行详细地描述。

上述步骤S150中的根据遮蔽特征图和第一深度特征图确定深度估计图的实施方式可以包括：

步骤S151：根据遮蔽特征图确定损失函数。

损失函数(loss function)，是指用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异，各种不同的损失函数适用于不同类型的任务，具体例如：Softmax交叉熵损失函数常常被用于在多个类别中选出一个，而Sigmoid交叉熵损失函数常常用于多个独立的二分类问题，欧几里德损失函数常常用于结果取值范围为任意实数的问题。

步骤S152：使用损失函数修正第一深度特征图，获得深度估计图。

上述的步骤S151至步骤S152的实施方式例如：损失函数可以包括：遮蔽(mask)后的误差、光滑误差以及几何一致误差，将遮蔽特征图的具体值代入到损失函数，然后使用损失函数去修正上述的第一估计特征图，获得深度估计图；上述的过程使用如下公式表示：

其中，L为损失函数，a、b和c均为系数，L_s为光滑误差，

为遮蔽(mask)后的误差，L_GC为几何一致误差，D_diff(p)为第一修正特征和第二修正特征单的差异值，M为遮蔽特征图，I为单位矩阵。在上述的实现过程中，通过根据遮蔽特征图确定损失函数；使用损失函数修正第一深度特征图，获得深度估计图；从而有效地提高了深度估计图的准确度。

在上述的实现过程中，提取视频中的第一图像中的第一深度特征图，并提取视频中的第二图像中的第二深度特征图；并将第一图像和第二图像进行拼接获得融合图像；根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图；最后根据遮蔽特征图和第一深度特征图确定深度估计图；也就是说，通过使用遮蔽特征图屏蔽了深度特征图中的局部噪声区域，同时也保证了由于图像中的物体相对运动造成的局部大噪声不会对整体估计造成较大的偏差，从而有效地改善了获得的深度估计图存在二维图像的局部深度信息不够准确的问题。

请参见图3示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；可选地，在本申请实施例中，上述的电子设备还可以与终端设备进行交互，交互的方法可以包括如下步骤：

步骤S210：电子设备接收终端设备发送的第一图像和第二图像。

上述的步骤S210的实施方式例如：电子设备通过浏览器/服务器(Browser/Server，B/S)方式接收终端设备发送的第一图像和第二图像；这里的B/S方式又经常被简写为BS，是WEB兴起后的一种网络结构模式，WEB浏览器是用户终端最主要的应用软件；这种模式统一了用户终端，将系统功能实现的核心部分集中到服务器上，简化了系统的开发、维护和使用。当然，在具体的实施过程中，电子设备还可以通过客户端和服务端(Client/Server，C/S)方式接收终端设备发送的第一图像和第二图像。

上述的步骤S210的实施方式又例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)接收终端设备发送的第一图像和第二图像，这里的TCP协议又名网络通讯协议，是一种面向连接的、可靠的、基于字节流的传输层通信协议；在因特网协议族(Internet protocol suite)中，TCP层是位于IP层之上，应用层之下的中间层；不同主机的应用层之间经常需要可靠的、像管道一样的连接，但是IP层不提供这样的流机制，而是提供不可靠的包交换。

步骤S220：电子设备提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图。

其中，该步骤的实施原理和实施方式与步骤S120的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120的描述。

步骤S230：电子设备将第一图像和第二图像进行拼接融合，获得融合图像。

其中，该步骤的实施原理和实施方式与步骤S130的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S130的描述。

步骤S240：电子设备根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图。

其中，该步骤的实施原理和实施方式与步骤S140的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S140的描述。

步骤S250：电子设备根据遮蔽特征图和第一深度特征图确定深度估计图。

其中，该步骤的实施原理和实施方式与步骤S150的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S150的描述。

步骤S260：电子设备向终端设备发送深度估计图。

上述的步骤S260中的电子设备向终端设备发送深度估计图的实施方式例如：电子设备可以向一个终端设备发送深度估计图，电子设备也可以向多个终端设备发送深度估计图，电子设备向其中一个终端设备的具体发送方式可以是通过无线网络发送，也可以是通过有线网络发送，也可以是通过有线网络和无线网络混合的互联网方式发送。

在上述的实现过程中，通过服务器接收终端设备发送的第一图像和第二图像；在服务器根据遮蔽特征图和第一深度特征图确定深度估计图之后，服务器还可以向终端设备发送深度估计图；从而有效地提高了终端设备获得深度估计图的速度。

请参见图4示出的本申请实施例提供的深度估计装置的示意图；本申请实施例提供了一种深度估计装置300，包括：

图像获得模块310，用于获得第一图像和第二图像，第一图像和第二图像是目标视频中的不同视频帧。

特征提取模块320，用于提取第一图像中的第一深度特征图，并提取第二图像中的第二深度特征图，深度特征图表征二维图像中的三维深度信息。

拼接融合模块330，用于将第一图像和第二图像进行拼接融合，获得融合图像。

遮蔽确定模块340，用于根据融合图像、第一深度特征图和第二深度特征图确定遮蔽特征图，遮蔽特征图表征图像中的噪声被遮蔽后的特征图。

深度估计模块350，用于根据遮蔽特征图和第一深度特征图确定深度估计图，深度估计图表征第一图像和第二图像的三维深度信息。

可选地，在本申请实施例中，遮蔽确定模块，包括：

姿态特征获得模块，用于使用姿态估计网络模型提取融合图像中的姿态特征，获得姿态特征图。

融合特征获得模块，用于将第一深度特征图和姿态特征图进行加权融合，获得第一融合特征，并将第二深度特征图和姿态特征图进行加权融合，获得第二融合特征。

遮蔽特征确定模块，用于根据第一融合特征和第二融合特征确定遮蔽特征图。

可选地，在本申请实施例中，遮蔽特征确定模块，包括：

第一获得模块，用于对第一融合特征进行姿态修正，获得第一修正特征。

第二获得模块，用于对第二融合特征进行插值修正，获得第二修正特征。

第一确定模块，用于根据第一修正特征和第二修正特征确定遮蔽特征图。

可选地，在本申请实施例中，深度估计模块，包括：

第二确定模块，用于根据遮蔽特征图确定损失函数。

第三获得模块，用于使用损失函数修正第一深度特征图，获得深度估计图。

可选地，在本申请实施例中，特征提取模块，包括：

第一提取模块，用于使用第一深度估计网络模型提取第一图像中的第一深度特征图，第一深度估计网络模型为提取深度信息特征的神经网络模型。

第二提取模块，用于使用第二深度估计网络模型提取第二图像中的第二深度特征图，第二深度估计网络模型为提取深度信息特征的神经网络模型。

可选地，在本申请实施例中，图像获得模块，包括：

图像接收模块，用于接收终端设备发送的第一图像和第二图像。

深度估计装置，还包括：

估计图发送模块，用于向终端设备发送深度估计图。

应理解的是，该装置与上述的深度估计方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的深度估计方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种深度估计方法，其特征在于，包括：

获得第一图像和第二图像，所述第一图像和所述第二图像是目标视频中的不同视频帧；

提取所述第一图像中的第一深度特征图，并提取所述第二图像中的第二深度特征图，所述深度特征图表征二维图像中的三维深度信息；

将所述第一图像和所述第二图像进行拼接融合，获得融合图像；

根据所述融合图像、所述第一深度特征图和所述第二深度特征图确定遮蔽特征图，所述遮蔽特征图表征图像中的噪声被遮蔽后的特征图；

根据所述遮蔽特征图和所述第一深度特征图确定深度估计图，所述深度估计图表征所述第一图像和所述第二图像的三维深度信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述融合图像、所述第一深度特征图和所述第二深度特征图确定遮蔽特征图，包括：

使用姿态估计网络模型提取所述融合图像中的姿态特征，获得姿态特征图；

将所述第一深度特征图和所述姿态特征图进行加权融合，获得第一融合特征，并将所述第二深度特征图和所述姿态特征图进行加权融合，获得第二融合特征；

根据所述第一融合特征和所述第二融合特征确定所述遮蔽特征图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一融合特征和所述第二融合特征确定所述遮蔽特征图，包括：

对所述第一融合特征进行姿态修正，获得第一修正特征；

对所述第二融合特征进行插值修正，获得第二修正特征；

根据所述第一修正特征和所述第二修正特征确定所述遮蔽特征图。

4.根据权利要求1所述的方法，其特征在于，所述根据所述遮蔽特征图和所述第一深度特征图确定深度估计图，包括：

根据所述遮蔽特征图确定损失函数；

使用所述损失函数修正所述第一深度特征图，获得所述深度估计图。

5.根据权利要求1所述的方法，其特征在于，所述提取所述第一图像中的第一深度特征图，并提取所述第二图像中的第二深度特征图，包括：

使用第一深度估计网络模型提取所述第一图像中的第一深度特征图，所述第一深度估计网络模型为提取深度信息特征的神经网络模型；

使用第二深度估计网络模型提取所述第二图像中的第二深度特征图，所述第二深度估计网络模型为提取深度信息特征的神经网络模型。

6.根据权利要求1-5任一所述的方法，其特征在于，所述获得第一图像和第二图像，包括：

接收终端设备发送的所述第一图像和所述第二图像；

在所述根据所述遮蔽特征图和所述第一深度特征图确定深度估计图之后，还包括：

向所述终端设备发送所述深度估计图。

7.一种深度估计装置，其特征在于，包括：

图像获得模块，用于获得第一图像和第二图像，所述第一图像和所述第二图像是目标视频中的不同视频帧；

特征提取模块，用于提取所述第一图像中的第一深度特征图，并提取所述第二图像中的第二深度特征图，所述深度特征图表征二维图像中的三维深度信息；

拼接融合模块，用于将所述第一图像和所述第二图像进行拼接融合，获得融合图像；

遮蔽确定模块，用于根据所述融合图像、所述第一深度特征图和所述第二深度特征图确定遮蔽特征图，所述遮蔽特征图表征图像中的噪声被遮蔽后的特征图；

深度估计模块，用于根据所述遮蔽特征图和所述第一深度特征图确定深度估计图，所述深度估计图表征所述第一图像和所述第二图像的三维深度信息。

8.根据权利要求7所述的装置，其特征在于，所述遮蔽确定模块，包括：

姿态特征获得模块，用于使用姿态估计网络模型提取所述融合图像中的姿态特征，获得姿态特征图；

融合特征获得模块，用于将所述第一深度特征图和所述姿态特征图进行加权融合，获得第一融合特征，并将所述第二深度特征图和所述姿态特征图进行加权融合，获得第二融合特征；

遮蔽特征确定模块，用于根据所述第一融合特征和所述第二融合特征确定所述遮蔽特征图。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。