CN109543557A

CN109543557A - 视频帧的处理方法、装置、设备以及存储介质

Info

Publication number: CN109543557A
Application number: CN201811282795.4A
Authority: CN
Inventors: 何雷; 侯瑞杰; 沈莉霞; 杨光垚; 彭亮; 董芳芳; 宋适宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-29
Anticipated expiration: 2038-10-31
Also published as: CN109543557B

Abstract

本发明实施例提供一种视频帧的处理方法、装置、设备以及存储介质，该方法包括：获取待处理的视频帧，将待处理的视频帧的输入视频帧预测模型，得到待处理的视频帧的深度和视频帧的语义信息，其中，视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型。本发明实施例提供的视频帧的处理方法，通过结合语义信息来预测视频帧的深度，提高了视频帧深度预测的准确度。

Description

视频帧的处理方法、装置、设备以及存储介质

技术领域

本发明实施例涉及视频图像处理领域，尤其涉及一种视频帧的处理方法、装置、设备以及存储介质。

背景技术

立体视频相对于平面视频，视觉冲击力强、艺术欣赏价值高，能够提供给用户更好的视觉体验。因此，利用计算机视觉等技术将现有的平面视频转换为立体视频具有非常重要的应用价值。

其中，将平面视频转化为立体视频关键在于提取平面视频中每帧的深度信息，相关技术中，提供一种基于深度神经网络，无监督(即没有深度真值的约束)方法来学习视频帧的深度，然而，采用上述方法预测出的视频帧深度准确度不高。

发明内容

本发明实施例提供一种视频帧的处理方法、装置、设备以及存储介质，用于解决上述方案中对于视频帧深度的预测准确度不高的问题。

第一方面，本发明实施例提供一种视频帧的处理方法，包括：

获取待处理的视频帧；

将所述待处理的视频帧的输入视频帧预测模型，得到所述待处理的视频帧的深度和所述视频帧的语义信息；

其中，所述视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和所述当前视频帧的语义信息的模型。

可选的，所述视频帧预测模型是按照如下方法训练得到的：

采集多个视频帧样本，并获取每个视频帧样本的深度真值和每个视频帧样本的真实语义信息；

根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本对应的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型。

可选的，所述获取每个视频帧样本的深度真值，包括：

通过激光雷达采集每个视频帧样本的深度真值。

可选的，所述根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型，包括：

采用深度神经网络初始化得到初始模型；

将每个视频帧样本输入到所述初始模型，得到所述初始模型输出的深度和语义信息；

根据每个视频帧样本的深度真值和模型预测的深度，获取深度误差；

根据每个视频帧样本的真实语义信息和模型预测的语义信息，获取语义信息的误差；

根据所述深度误差、所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，根据所述深度误差、所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

根据模型预测的深度，获取每个视频帧样本对应的三维点云；

根据所述三维点云和每个视频帧样本对应的真实的语义信息，得到平面区域的三维点云；

根据所述平面区域的三维点云在平面法向量上的投影，获取投影分布的方差；

根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，所述根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

根据所述深度误差、所述投影分布的方差以及所述语义信息的误差，得到网络损失函数；

根据所述网络损失函数对所述初始模型进行训练，直至网络损失函数值小于预设值，得到所述视频帧预测模型。

第二方面，本发明实施例提供一种视频帧的处理装置，包括：

获取模块，用于获取待处理的视频帧；

处理模块，用于将所述待处理的视频帧的输入视频帧预测模型，得到所述待处理的视频帧的深度和所述视频帧的语义信息；

可选的，所述装置还包括采集模块和训练模块，所述采集模块用于：

采集多个视频帧样本；

相应的，所述获取模块，还用于获取每个视频帧样本的深度真值和每个视频帧的真实语义信息；

所述训练模块，用于根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型。

可选的，所述采集模块，还用于通过激光雷达采集每个视频帧样本的深度真值。

可选的，所述处理模块，还用于采用深度神经网络初始化得到初始模型；

所述获取模块，还用于根据每个视频帧样本的深度真值和模型预测的深度，获取深度误差；

所述处理模块，还用于根据所述深度误差、所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，所述获取模块，还用于根据模型预测的深度，获取每个视频帧样本对应的三维点云；

所述处理模块，还用于根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，处理模块，还用于根据所述深度误差、所述投影分布的方差以及所述语义信息的误差，得到网络损失函数；

第三方面，本发明实施例提供一种终端设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述终端设备执行如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现如第一方面所述的方法。

本实施例提供的视频帧的处理方法、装置、设备以及存储介质，该方法包括：获取待处理的视频帧，将待处理的视频帧的输入视频帧预测模型，得到待处理的视频帧的深度和视频帧对应的语义信息，其中，视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型。本发明实施例提供的视频帧的处理方法，通过结合语义信息来预测视频帧的深度，提高了视频帧深度预测的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的视频帧的处理方法的流程示意图一；

图2为本发明实施例提供的视频帧的处理方法的流程示意图二；

图3为本发明实施例提供的视频帧的处理方法的流程示意图三；

图4为本发明实施例提供的视频帧的处理装置的结构示意图一；

图5为本发明实施例提供的视频帧的处理装置的结构示意图二；

图6为本发明实施例提供的终端设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，立体视频相对于平面视频，视觉冲击力强、艺术欣赏价值高，能够提供给用户更好的视觉体验。因此，利用计算机视觉等技术将现有的平面视频转换为立体视频具有非常重要的应用价值。其中，将平面视频转化为立体视频关键在于获取平面视频中每帧的深度信息。

本发明实施例提供的视频帧的处理方法可以应用于需要预测视频帧的深度的应用场景中，尤其应用于对视频帧深度的预测准确度要求较高的场景中，目前，提供一种基于深度神经网络，无监督(即没有深度真值的约束)方法来学习视频帧的深度，由于没有采用监督，使得采用上述方法预测出的视频帧深度准确度不高。

本发明实施例考虑到上述问题，提出一种视频帧的处理方法，该方法中终端设备获取待处理的视频帧，将待处理的视频帧的输入视频帧预测模型，得到待处理的视频帧的深度和视频帧对应的语义信息，其中，视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型。本发明实施例提供的视频帧的处理方法，通过结合语义信息来预测视频帧的深度，能够提高视频帧深度预测的准确度。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的视频帧的处理方法的流程示意图一。本发明实施例提供了一种视频帧的处理方法，该方法可以由任意执行视频帧的处理方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，该装置可以集成在终端设备中。如图1所示，本发明实施例提供的视频帧的处理方法包括如下步骤：

S101、获取待处理的视频帧。

应理解，视频由一张张图像组成，每一张图像就是一帧，即视频帧。

在一种可能的实现方式中，可以预先将待处理的视频帧保存在终端设备本地，相应的，终端设备则获取到待处理的视频帧，或者，终端设备通过拍摄得到待处理的视频帧。

S102、将该待处理的视频帧的输入视频帧预测模型，得到该待处理的视频帧的深度和该视频帧的语义信息。

其中，视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型，具体地，该视频帧预测预测模型为根据多个视频帧样本、多个视频帧的语义信息、深度真值，采用深度神经网络训练得到，用于预测视频帧的深度和该视频帧对应的语义信息。

视频帧的深度指的是该视频帧中被拍摄物体到摄像机的距离，则视频帧的深度真值表示该视频帧中被拍摄物体到摄像机的真实距离。

视频帧对应的语义信息为该视频帧包含的物体以及该物体在该视频帧的位置，例如：“行人-右上角”，表示该视频帧中包含行人，行人在该视频帧的右上角。

在本步骤中，可以将待处理的视频帧分别输入到视频帧预测模型的两个输入分支中，该视频帧预测模型的输出为预测出的该待处理的视频帧的深度和语义信息。

本实施例提供的视频帧的处理方法，通过获取待处理的视频帧，将待处理的视频帧的输入视频帧预测模型，得到待处理的视频帧的深度和视频帧对应的语义信息，其中，视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型，提高了视频帧深度预测的准确度。

图2为本发明实施例提供的视频帧的处理方法的流程示意图二，在上述实施例一的基础上，如图2所示，频帧预测模型的获取可以通过以下步骤实现：

S201、采集多个视频帧样本，并获取每个视频帧样本的深度真值和每个视频帧样本的真实语义信息。

视频帧样本为训练视频帧预测模型的训练数据，视频帧样本的深度真值为该视频帧中被拍摄物体到摄像机的真实距离。

可选的，可以通过激光雷达采集获得每个视频帧样本的深度真值。

视频帧的真实语义信息为视频帧中包含的真实物体以及该物体在该视频帧中的真实位置，例如，行人-右上角，表示该视频帧中包含行人，以及行人在该视频帧的右上角，当前视频帧对的真实语义信息可以根据人工标定得到。

在本步骤中，终端设备获取视频帧预测模型的训练数据，具体地，通过采集获取多个视频帧样本，并获取视频帧样本的深度真值和当前视频帧样本的真实语义信息。

S202、根据多个视频帧样本、每个视频帧样本的深度真值和每个视频帧的真实语义信息，采用深度神经网络训练得到视频帧预测模型。

在一种可能的实现方式中，采用深度神经网络初始化得到初始模型，将每个视频帧样本输入到初始模型，得到初始模型输出的深度和语义信息。深度神经网络初始化的过程和现有技术中深度神经网络初始化的过程类似，在此不再赘述。将采集得到的每个视频帧样本输入到该初始模型中，该初始模型的输出则为该视频帧的深度和语义信息。

进一步，根据每个视频帧样本的深度真值和模型预测的深度，获取深度误差，根据每个视频帧样本的真实语义信息和模型预测的语义信息，获取语义信息的误差。

由于每个视频帧样本的深度真值可以预先获取，则可以得到每个视频帧样本的深度真值和模型预测出的深度之前的误差，可选的，深度误差为每个视频帧样本的深度真值减去模型预测出的深度。

相应的，由于每个视频帧样本的语义信息可以预先获取，则可以得到每个视频帧样本的真实语义信息和模型预测的语义信息之前的误差，可选的，语义信息的误差的计算方式和现有技术中的计算方式类似，在此不再赘述。

再进一步，根据深度误差、语义信息的误差对初始模型进行更新，得到视频帧预测模型。

具体地，根据深度误差、语义信息的误差对初始模型进行训练，使得深度误差和语义信息的误差满足预设误差阈值，从而得到视频帧预测模型，预设误差阈值可以根据实际情况选取或经验选取，本方案对此不做限制。

在一种可能的实现方式中，根据模型预测的深度，获取每个视频帧样本对应的三维点云，具体地，根据模型预测出的深度、拍摄该视频帧的相机的内参数以及该相机的外参数，计算得到每个视频帧样本对应的三维点云，其中，三维点云指的是深度对应的三维立体图的点的集合，计算三维点云的计算方式和现有技术中三维点云的计算方式类似，在此不再赘述。实际上是根据模型预测的深度、相机的内参数、外参数，将深度投影到真实的物理空间(世界坐标系)中。

进一步，根据三维点云和每个视频帧样本的真实的语义信息，得到平面区域的三维点云。

每个视频帧样本的真实的语义信息可以预先获得，采用视频帧的语义信息，可以约束该三维点云，即得到该语义信息对应的平面区域的三维点云，举例来说，由于语义信息为该视频帧包含的物体以及该物体在该视频帧中的位置，则语义信息可以为“行人-A区域”、“红绿灯-B区域”、“道路-C区域”，其中A、B、C区域分别是人工标定的，可以是坐标的形式，由于该语义信息已经表明该视频帧中包含的物体以及其所在的位置，则通过语义信息可以约束三维点云，得到语义信息对应的平面区域的三维点云。

又进一步，根据平面区域的三维点云在平面法向量上的投影，获取投影分布的方差。具体地，求取该平面区域的三维点云的平面法向量，将平面区域的三维点云向该平面法向量投影，可选的，求取该平面法向量的平均值，然后将平面区域的三维点云向该平面法向量投影，得到投影分布的方差。

再进一步，根据深度误差、投影分布的方差以及语义信息的误差对初始模型进行更新，得到视频帧预测模型。

根据深度误差、投影分布的方差以及语义信息的误差对初始模型进行训练，使得深度误差、投影分布的方差以及语义信息的误差满足预设误差阈值，从而得到视频帧预测模型，预设误差阈值可以根据实际情况选取或经验选取，本方案对此不做限制。

本实施例提供的视频帧的处理方法，采集多个视频帧样本，并获取每个视频帧样本的深度真值和当前视频帧样本对应的真实语义信息，根据多个视频帧样本、每个视频帧样本的深度真值和每个视频帧对应的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型，提高了视频帧深度预测的准确度。

图3为本发明实施例提供的视频帧的处理方法的流程示意图三，在上述实施例二的基础上，如图3所示，根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型，具体包括：

S301、根据深度误差、投影分布的方差以及语义信息的误差，得到网络损失函数。

可选的，深度误差为第一损失函数，投影分布的方差为第二损失函数，语义信息的误差为第三损失函数，则网络损失函数为第一损失函数、第二损失函数以及第三损失函数的和。

S302、根据网络损失函数对初始模型进行训练，直至网络损失函数值小于预设值，得到视频帧预测模型。

其中，初始模型为对深度神经网络进行初始化得到的。

在本步骤中，采用多个视频帧样本、每个视频帧样本的深度真值和当前视频帧样本对应的真实语义信息，根据网络损失函数对初始模型进行训练，直至网络损失函数值小于预设值，得到视频帧预测模型，预设值可以根据实际情况选取，或者根据经验选取，本方案对此不做限制。

本实施例提供的视频帧的处理方法，通过根据深度误差、投影分布的方差以及语义信息的误差，得到网络损失函数，根据网络损失函数对初始模型进行训练，直至网络损失函数值小于预设值，得到视频帧预测模型，提高了视频帧深度预测的准确度。

图4为本发明实施例提供的视频帧的处理装置的结构示意图一，该视频帧的处理装置可以为独立的终端设备，也可以为集成在终端设备中的装置，该装置可以通过软件、硬件或者软硬件结合的方式实现。如图4所示，该视频帧的处理装置40包括：获取模块401、处理模块402。

获取模块401，用于获取待处理的视频帧；

处理模块402，用于将所述待处理的视频帧的输入视频帧预测模型，得到所述待处理的视频帧的深度和所述视频帧的语义信息；

其中，所述视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和所述视频帧的语义信息的模型。

本发明实施例提供的视频帧的处理装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图5为本发明实施例提供的视频帧的处理装置的结构示意图二，在上述图4实施例的基础上，该视频帧的处理装置40还包括：采集模块403、训练模块404。

可选的，所述采集模块403用于：

采集多个视频帧样本；

相应的，所述获取模块401，还用于获取每个视频帧样本的深度真值和当前视频帧样本的真实语义信息；

所述训练模块404，用于根据所述多个视频帧样本、每个视频帧样本的深度真值和当前视频帧样本的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型。

可选的，所述采集模块403，还用于通过激光雷达采集每个视频帧样本的深度真值。

可选的，所述处理模块402，还用于采用深度神经网络初始化得到初始模型；

所述获取模块401，还用于根据每个视频帧样本的深度真值和模型预测的深度，获取深度误差；

所述处理模块402，还用于根据所述深度误差、所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，所述获取模块401，还用于根据模型预测的深度，获取每个视频帧样本对应的三维点云；

根据所述三维点云和每个视频帧样本的真实的语义信息，得到平面区域的三维点云；

所述处理模块402，还用于根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型。

可选的，所述处理模块402，还用于：

所述训练模块404，还用于根据所述网络损失函数对所述初始模型进行训练，直至网络损失函数值小于预设值，得到所述视频帧预测模型。

图6为本发明实施例提供的终端设备的硬件结构示意图。如图6所示，本实施例的终端设备60包括：处理器601以及存储器602；其中

存储器602，用于存储计算机执行指令；

处理器601，用于执行存储器存储的计算机执行指令，以实现上述实施例中终端设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器602既可以是独立的，也可以跟处理器601集成在一起。

当存储器602独立设置时，该终端设备还包括总线603，用于连接所述存储器602和处理器601。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频帧的处理方法，其特征在于，包括：

获取待处理的视频帧；

2.根据权利要求1所述的方法，其特征在于，所述视频帧预测模型是按照如下方法训练得到的：

根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型。

3.根据权利要求2所述的方法，其特征在于，所述获取每个视频帧样本的深度真值，包括：

通过激光雷达采集每个视频帧样本的深度真值。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型，包括：

采用深度神经网络初始化得到初始模型；

5.根据权利要求4所述的方法，其特征在于，所述根据所述深度误差、所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新，得到所述视频帧预测模型，包括：

7.一种视频帧的处理装置，其特征在于，包括：

获取模块，用于获取待处理的视频帧；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括采集模块和训练模块，所述采集模块用于：

采集多个视频帧样本；

所述获取模块，还用于获取每个视频帧样本的深度真值和每个视频帧样本的真实语义信息；

所述训练模块，用于根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧对应的真实语义信息，采用深度神经网络训练得到所述视频帧预测模型。

9.一种终端设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述终端设备执行权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-6任一项所述的方法。