CN109640068A

CN109640068A - 视频帧的信息预测方法、装置、设备以及存储介质

Info

Publication number: CN109640068A
Application number: CN201811282808.8A
Authority: CN
Inventors: 何雷; 侯瑞杰; 沈莉霞; 杨光垚; 彭亮; 董芳芳; 宋适宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-04-16

Abstract

本发明实施例提供一种视频帧的信息预测方法、装置、设备以及存储介质。本发明视频帧的信息预测方法方法，包括：获取相邻的至少两个视频帧，并将所述至少两个视频帧输入视频帧预测模型，获取所述至少两个视频帧之间的位姿关系和当前帧的深度，其中，所述视频帧预测模型为基于深度神经网络训练的同时获取视频帧之间的位姿关系和当前帧的深度的模型。本发明实施例实现了精确获取视频帧的深度和位姿关系。

Description

视频帧的信息预测方法、装置、设备以及存储介质

技术领域

本发明实施例涉及视频图像处理领域，尤其涉及一种视频帧的信息预测方法、装置、设备以及存储介质。

背景技术

随着时代的发展，终端设备配置了更大更清晰的显示器，进而，用户对于视频清晰度的要求也就越来越高，这就要求在视频图像处理领域中的视频质量更高。

视频质量的提高离不开视频帧深度的预测，为获得更好的视频帧深度的训练结果，对于视频帧深度的预测要更加精确。现有技术中，基于深度神经网络，普遍采用一种无监督方法(即没有预设的任何训练样本，而需要直接对数据进行建模的方法)来学习图像系列的深度，但是由于缺乏监督信息，致使每帧深度预测的精度仍然很低。

发明内容

本发明实施例提供一种视频帧的信息预测方法、装置、设备以及存储介质，相较于现有技术中缺乏监督信息，以及视频帧深度预测的精度低的问题，本方案实现了有监督的预测，并提高了视频帧深度预测的精度。

第一方面，本发明实施例提供一种视频帧的信息预测方法，包括：

获取相邻的至少两个视频帧；

将所述至少两个视频帧输入视频帧预测模型，获取所述至少两个视频帧之间的位姿关系和当前帧的深度；

其中，所述视频帧预测模型为基于深度神经网络训练的同时获取视频帧之间的位姿关系和当前帧的深度的模型。

进一步地，所述方法还包括：

采集多组相邻的视频帧样本，并获取每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值；

根据所述多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型。

在一种具体的实现方式中，所述获取每组视频帧样本中视频帧之间的位姿关系真值和深度真值，包括：

针对每组视频帧样本，根据所述视频帧样本中的视频帧的时序关系，确定所述视频帧样本中的视频帧之间的位姿关系真值；

通过激光雷达采集所述视频帧样本中选定的当前帧的深度真值。

在一种具体的实现方式中，所述根据所述多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型，包括：

采用深度神经网络初始化得到初始模型；

将每组视频帧样本输入所述初始模型，得到模型预测的所述视频帧样本中的视频帧之间的位姿关系和当前帧的深度；

根据每组所述视频帧样本的位姿关系真值和模型预测的位姿关系，获取重投影误差；

根据每组所述视频样本当前帧的深度真值和模型预测的深度，获取深度误差；

根据所述重投影误差和所述深度误差对所述初始模型进行更新，得到所述视频帧预测模型。

在一种具体的实现方式中，所述根据所述重投影误差和所述深度误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

根据所述重投影误差和所述深度误差得到网络损失函数；

根据所述网络损失函数对所述初始模型进行训练，直至网络损失函数值小于预设值，得到所述视频帧预测模型。

第二方面，本发明实施例提供一种视频帧的信息预测装置，包括：

获取模块，用于获取相邻的至少两个视频帧；

处理模块，用于将所述至少两个视频帧输入视频帧预测模型，获取所述至少两个视频帧之间的位姿关系和当前帧的深度；

进一步地，所述装置还包括：采集模块；

所述采集模块用于采集多组相邻的视频帧样本，并获取每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值；

所述处理模块还用于根据所述多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型。

在一种具体的实现方式中，所述采集模块具体用于：

在一种具体的实现方式中，所述处理模块具体用于：

采用深度神经网络初始化得到初始模型；

在一种具体的实现方式中，所述处理模块具体用于：

根据所述重投影误差和所述深度误差得到网络损失函数；

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器以及计算机程序；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至5任一项所述的视频帧的信息预测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至5任一项所述的视频帧的信息预测方法。

本发明实施例提供的一种视频帧的信息预测方法、装置、设备以及存储介质，通过获取相邻的至少两个视频帧，并将该至少两个视频帧输入视频帧预测模型，获取该至少两个视频帧之间的位姿关系和当前帧的深度，实现了精确获取视频帧的深度和位姿关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的视频帧的信息预测方法实施例一的流程示意图；

图2为本发明实施例提供的视频帧的信息预测方法实施例二的流程示意图；

图3为本发明实施例提供的视频帧的信息预测方法实施例三的流程示意图；

图4为本发明实施例提供的视频帧的信息预测装置实施例一的结构示意图；

图5为本发明实施例提供的视频帧的信息预测装置实施例二的结构示意图；

图6为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

现有技术中，基于深度神经网络，普遍采用一种无监督方法(即没有预设的任何训练样本，而需要直接对数据进行建模的方法)来学习图像系列的深度，但是由于缺乏监督信息，致使每帧深度预测的精度仍然很低。

针对上述存在的问题，本发明提出一种视频帧的信息预测方法、装置、设备以及存储介质。将相邻的视频帧输入视频帧预测模型，获取该相邻的视频帧之间的位姿关系和当前帧的深度，并对视频帧预测模型训练，实现了精确获取视频帧的深度和位姿关系，使得能够进一步得到物体在三维物理空间中的坐标。下面通过几个具体实施例对该方案进行详细说明。

图1为本发明实施例提供的视频帧的信息预测方法实施例一的流程示意图，如图1所示，该视频帧的信息预测方法，包括：

S101：获取相邻的至少两个视频帧。

在本步骤中，从时序性的视频帧中获取相邻的视频帧，该相邻的视频帧可以是两个，也可以是多个，并设定其中的一个视频帧为当前帧，其余视频帧为参考帧。

S102：将至少两个视频帧输入视频帧预测模型，获取至少两个视频帧之间的位姿关系和当前帧的深度。

在本步骤中，视频帧预测模型为基于深度神经网络训练的同时获取视频帧之间的位姿关系和当前帧的深度的模型。将在S101步骤中获取的两个或者两个以上相邻的视频帧的图像输入视频帧预测模型，经过图像处理和检测后，得到相邻的视频帧之间的位姿关系和当前帧的深度。

在一种具体的实现方式中，视频帧预测模型包括Encoder部分和Decoder部分，Encoder部分用于提取图像的特征，并将多个图像的特征进行融合或者拼接处理，Decoder部分用于对融合或者拼接后的特征做空间分辨率放大、反卷积、上采样的操作以及输出带有预测任务的网络分支。将两个相邻的视频帧图像输入视频帧预测模型的Encoder部分，经过Encoder部分的处理得到两帧图像的特征，并将所有获得的特征融合或者拼接，在Decoder部分将空间分辨率放大，进行反卷积和上采样，然后输出两个任务的网络分支。

其中，视频帧预测模型包括两个网络分支，即由Decoder部分输出的两个带有预测任务的网络分支，分别为第一网络分支和第二网络分支。第一网络分支用于预测当前帧的深度；第二网络分支用于预测两帧图像间的摄像机位姿关系，进而获取两帧的旋转和平移的关系。

在上述方案中，仅以输入两个视频帧为例说明，在输入两个以上视频帧时，上述实施例过程同样适用。

可选的，视频帧预测模型最终将输出视频帧之间的位姿关系以及当前帧的深度，其输出结果可以通过数据、图表的形式显示给用户，也可以发送给其他设备使用。

本实施例通过获取相邻的至少两个视频帧，并将该至少两个视频帧输入视频帧预测模型，获取该至少两个视频帧之间的位姿关系和当前帧的深度，实现了精确获取视频帧的深度和位姿关系，能够根据精确的深度和位姿关系进一步得到物体在三维物理空间中的坐标。

图2为本发明实施例提供的视频帧的信息预测方法实施例二的流程示意图，如图2所示，实施例一中的视频帧预测模型可以按照如下方案训练得到，具体包括以下步骤：

S201：采集多组相邻的视频帧样本，并获取每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值。

在本步骤中，采集多组相邻的视频帧样本，即从时序性的视频帧中选取相邻的视频帧作为样本组，每组视频帧样本中视频帧的数量可以是两个或者两个以上，且每组视频帧样本中设定一帧为当前帧，其余帧设定为参考帧。根据视频帧样本中的视频帧的时序关系，可以确定视频帧样本中的视频帧之间的位姿关系真值，用于与预测的位姿关系进行对比，并且通过激光雷达采集视频帧样本中选定的当前帧的深度真值，用于与预测的深度进行对比。

在上述方案中，应理解，上述时序性的视频帧、以及每个相邻的视频帧样本中相邻的视频帧之间的位姿关系真值和每个相邻的视频帧样本的当前帧的深度真值组成了一个训练集，使视频帧预测模型能够通过训练得到更准确的预测结果。

S202：根据多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到视频帧预测模型。

在本步骤中，根据多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，也可以理解为根据S201所述的由这些样本及真值组成的训练集，采用深度神经网络训练，将训练得到的相邻视频帧间的预测位姿关系和当前帧的预测深度与训练集中对应的视频帧之间的位姿关系真值和当前帧的深度真值进行对比，得到误差值，经过反复训练，直到误差值减小到预定要求，即得到视频帧预测模型。

图3为本发明实施例提供的视频帧的信息预测方法实施例三的流程示意图，如图3所示，在图2所示实施例的基础上，S202所述的根据多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型，具体包括以下步骤：

S301：采用深度神经网络初始化得到初始模型。

在本步骤中，基于深度神经网络的模型经过初始化，得到初始化模型，该初始化模型经过对深度真值和位姿关系真值进行监督，学习(训练)得到视频帧预测模型。

S302：将每组视频帧样本输入初始模型，得到模型预测的视频帧样本中的视频帧之间的位姿关系和当前帧的深度。

其中，每组视频帧样本为从时序性视频帧中获取的相邻的两个或者两个以上的视频帧图像。

在本步骤中，将相邻的两个或者两个以上的视频帧图像输入初始模型，经过图形处理和检测后，得到视频帧样本中，即相邻的视频帧之间的预测的位姿关系和预测的当前帧的深度。

具体的，当前帧为每组视频帧样本中设定的一个视频帧，其余视频帧设定为参考帧。

在一种具体的实现方式中，基于深度神经网络的初始模型包括Encoder部分和Decoder部分，Encoder部分用于提取图像的特征，并将多个图像的特征进行融合或者拼接处理，Decoder部分用于对融合或者拼接后的特征做空间分辨率放大、反卷积、上采样的操作以及输出带有预测任务的网络分支。将两个相邻的视频帧图像输入视频帧初始化模型的Encoder部分，经过Encoder部分的处理得到两帧图像的特征，并将所有获得的特征融合或者拼接，在Decoder部分将空间分辨率放大，进行反卷积和上采样，然后输出两个任务的网络分支。其中，初始模型包括两个网络分支，即由Decoder部分输出的两个带有预测任务的网络分支，分别为第一网络分支和第二网络分支。第一网络分支用于预测并输出当前帧的深度；第二网络分支用于预测两帧图像间的摄像机位姿关系，进而获取并输出两帧的旋转和平移的关系。

S303：根据每组视频帧样本的位姿关系真值和模型预测的位姿关系，获取重投影误差。

在本步骤中，将S302中获取的模型预测每组视频帧样本的位姿关系与预先采集的每组视频帧样本的位姿关系真值作对比，得到二者之间的误差，即重投影误差。

S304：根据每组视频样本当前帧的深度真值和模型预测的深度，获取深度误差。

在本步骤中，将S302中获取的每组视频样本的模型预测的深度与预先采集的每组视频样本的真值作对比，得到二者之间的误差，及深度误差。

S305：根据重投影误差和所述深度误差对初始模型进行更新，得到视频帧预测模型。

在本步骤中，根据上述步骤中获取的深度误差和重投影误差，得到网络损失函数，并根据该网络损失函数对初始模型进行训练，若网络损失函数值大于预设值，则重复步骤S302至步骤S305，直至网络损失函数值小于预设值，即可得到视频帧预测模型。

在一种具体的实现方式中，上述网络损失函数为深度误差和重投影误差的和。

可选的，基于深度神经网络的训练方式采用端对端的方式。

图4为本发明实施例提供的视频帧的信息预测装置实施例一的结构示意图，如图4所示，该视频帧的信息预测装置10包括：

获取模块11，用于获取相邻的至少两个视频帧；

处理模块12，用于将所述至少两个视频帧输入视频帧预测模型，获取所述至少两个视频帧之间的位姿关系和当前帧的深度；

本实施例提供的视频帧的信息预测装置，通过获取相邻的至少两个视频帧，将至少两个视频帧输入视频帧预测模型，获取所述至少两个视频帧之间的位姿关系和当前帧的深度，实现了精确获取视频帧的深度和位姿关系，使得能够进一步得到物体在三维物理空间中的坐标。且该装置可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述实施例的基础上，图5为本发明实施例提供的视频帧的信息预测装置实施例二的结构示意图，如图5所示，该视频帧的信息预测装置10还包括：采集模块13。

采集模块13用于采集多组相邻的视频帧样本，并获取每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值；

处理模块12还用于根据所述多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型。

在一种具体的实现方式中，采集模块13具体用于：

在一种具体的实现方式中，处理模块12具体用于：

采用深度神经网络初始化得到初始模型；

本实施例提供的视频帧的信息预测装置，可用于执行上述任一方法的实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明实施例提供的电子设备的硬件结构示意图。如图6所示，该电子设备20包括：处理器201以及存储器202；其中

存储器202，用于存储计算机执行指令；

处理器201，用于执行存储器存储的计算机执行指令，以实现上述实施例中终端设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器202既可以是独立的，也可以跟处理器201集成在一起。

当存储器202独立设置时，该终端设备还包括总线203，用于连接所述存储器202和处理器201。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的视频帧的信息预测方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频帧的信息预测方法，其特征在于，包括：

获取相邻的至少两个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取每组视频帧样本中视频帧之间的位姿关系真值和深度真值，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述多组视频帧样本、每组视频帧样本中视频帧之间的位姿关系真值和当前帧的深度真值，采用深度神经网络训练得到所述视频帧预测模型，包括：

采用深度神经网络初始化得到初始模型；

5.根据权利要求4所述的方法，其特征在于，所述根据所述重投影误差和所述深度误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

根据所述重投影误差和所述深度误差得到网络损失函数；

6.一种视频帧的信息预测装置，其特征在于，包括：

获取模块，用于获取相邻的至少两个视频帧；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：采集模块；

8.根据权利要求7所述的装置，其特征在于，所述采集模块具体用于：

9.根据权利要求7或8所述的装置，其特征在于，所述处理模块具体用于：

采用深度神经网络初始化得到初始模型；

10.根据权利要求9所述的装置，其特征在于，所述处理模块具体用于：

根据所述重投影误差和所述深度误差得到网络损失函数；

11.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；

所述存储器存储计算机执行指令；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至5任一项所述的视频帧的信息预测方法。