CN113298728B

CN113298728B - 一种视频优化方法、装置、终端设备及存储介质

Info

Publication number: CN113298728B
Application number: CN202110557336.8A
Authority: CN
Inventors: 刘翼豪; 赵恒远; 董超; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-01-24
Anticipated expiration: 2041-05-21
Also published as: WO2022242122A1; CN113298728A

Abstract

本申请提供一种视频优化方法、装置、终端设备及存储介质，涉及深度学习技术领域，能够提高优化视频的连续性。该视频优化方法包括：利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，视频帧序列包括N帧视频帧，M帧锚点帧包括视频帧序列的第1帧视频帧和第N帧视频帧；利用已训练的光流网络分别确定N‑M帧中间帧的正向光流参数和反向光流参数；根据N‑M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N‑M帧中间帧的中间特征；利用已训练的特征估计网络分别对视频帧序列的N帧视频帧的中间特征进行特征估计，得到N帧优化图像，N帧优化图像构成视频帧序列的优化视频。

Description

一种视频优化方法、装置、终端设备及存储介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种视频优化方法、装置、终端设备及存储介质。

背景技术

视频优化一般包括视频去噪、视频去雨、视频超分、视频调色、黑白视频上色等优化操作。目前，在基于深度学习的视频优化方案中，常常采用图像优化模型(例如图像去噪模型、图像去雨模型、超分模型、图像调色模型、黑白图像上色模型等)提取视频中的每一帧视频帧的中间特征，并对每一帧视频帧的中间特征进行特征估计，得到每一帧视频帧对应的优化图像，从而实现视频的优化。

然而，这种基于图像优化模型，对视频中每一帧视频帧进行独立优化的方式，可能会导致不同视频帧具备不同的优化效果，影响优化后视频的连续性。

发明内容

有鉴于此，本申请提供一种视频优化方法、装置、终端设备及存储介质，提高优化视频的连续性。

第一方面，本申请提供一种视频优化方法，包括：

利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，视频帧序列包括N帧视频帧，M帧锚点帧包括视频帧序列的第1帧视频帧和第N帧视频帧，M为大于2且小于N的正整数；利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数，中间帧的正向光流参数用于描述中间帧的前一帧向该中间帧变换的变换关系，中间帧的反向光流参数用于描述中间帧的后一帧向该中间帧变换的变换关系，中间帧为待优化视频中除锚点帧以外的视频帧；根据N-M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N-M帧中间帧的中间特征；利用已训练的特征估计网络分别对视频帧序列的每一帧视频帧的中间特征进行特征估计，得到N帧优化图像，N帧优化图像构成该视频帧序列的优化视频。

在一种可选的实现方式中，根据N-M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N-M帧中间帧的中间特征，包括：

针对视频帧序列中的第i帧视频帧，i取值为{1，2，……，N-1，N}，当第i帧视频帧为中间帧时：利用第i帧视频帧的正向光流参数对第i-1帧视频帧的中间特征进行形状变换，得到第i帧视频帧的正向特征；利用第i帧视频帧的反向光流参数对第i+1帧视频帧的反向特征进行形状变换，得到第i帧视频帧的反向特征；对第i帧视频帧的正向特征和第i帧视频帧的反向特征进行特征融合，得到第i帧视频帧的中间特征；其中，若第i+1帧视频帧为锚点帧，第i+1帧视频帧的反向特征取值为第i+1帧视频帧的中间特征。

在一种可选的实现方式中，对第i帧视频帧的正向特征和第i帧视频帧的反向特征进行特征融合，得到第i帧视频帧的中间特征，包括：

将第i-1帧视频帧、第i帧视频帧、第i+1帧视频帧、第i帧视频帧的正向特征、第i帧视频帧的反向特征、第i-1帧视频帧的正向特征和第i+1帧视频帧的反向特征输入到已训练的FFM模型中进行融合处理，得到第i帧视频帧的中间特征，其中，若第i-1帧视频帧为锚点帧，第i-1帧视频帧的正向特征取值为第i-1帧视频帧的中间特征。

在一种可选的实现方式中，融合处理包括：

获取第i-1帧视频帧、第i帧视频帧和第i+1帧视频帧的融合特征；对融合特征、第i帧视频帧的正向特征和第i帧视频帧的反向特征进行权重估计，得到权重矩阵；利用权重矩阵对第i帧视频帧的正向特征和第i帧视频帧的反向特征进行加权，得到加权特征；对加权特征、融合特征、第i-1帧视频帧的正向特征和第i+1帧视频帧的反向特征进行卷积计算，得到补充特征；将补充特征和加权特征进行叠加，得到第i帧视频帧的中间特征。

在一种可选的实现方式中，方法还包括：

构建视频优化初始模型，视频优化初始模型包括特征提取初始网络、光流初始网络、特征估计初始网络和FFM初始模型；利用预设的损失函数和训练集对视频优化初始模型进行无监督训练，得到已训练的特征提取网络、光流网络、特征估计网络和FFM模型；其中，训练集包括多个待优化的视频帧序列样本。

在一种可选的实现方式中，特征提取网络和特征估计网络由预设的图像优化模型拆分得到，图像优化模型用于对二维图像进行图像优化。

在一种可选的实现方式中，图像优化模型为图像上色模型，视频帧序列包括N帧灰度图；针对视频帧序列中的第i帧灰度图，i取值为{1，2，……，N-1，N}，利用特征估计网络对第i帧灰度图的中间特征进行特征估计，得到第i帧灰度图的优化图像包括：

对第i帧灰度图的中间特征进行颜色估计，得到与第i帧灰度图对应的a通道图像和b通道图像；根据第i帧灰度图、a通道图像和b通道图像得到第i帧灰度图在Lab域中的彩色图像，彩色图像为第i帧灰度图的优化图像。

第二方面，本申请提供一种视频优化装置，包括：

提取单元，用于利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，视频帧序列包括N帧视频帧，M帧锚点帧包括视频帧序列的第1帧视频帧和第N帧视频帧，M为大于2且小于N的正整数；

确定单元，用于利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数，中间帧的正向光流参数用于描述中间帧的前一帧向该中间帧变换的变换关系，中间帧的反向光流参数用于描述中间帧的后一帧向该中间帧变换的变换关系，中间帧为待优化视频中除锚点帧以外的视频帧；

确定单元，还用于根据N-M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N-M帧中间帧的中间特征；

估计单元，用于利用已训练的特征估计网络分别对视频帧序列的N帧视频帧的中间特征进行特征估计处理，得到N帧优化图像，N帧优化图像构成视频帧序列的优化视频。

第三方面，本申请提供一种终端设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第一方面中任一方式所述的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面中任一方式所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述第一方面中任一方式所述的方法。

基于本申请所提供的视频优化方法、装置、终端设备及存储介质，通过在待优化的视频帧序列中提取锚点帧，利用特征提取网络提取锚点帧的中间特征。而针对位于锚点帧之间的中间帧，通过光流网络获取每一帧中间帧分别与相邻的前后两帧之间的光流参数(即包括用于描述中间帧的前一帧向该中间帧变换的变换关系的正向光流参数，和用于描述中间帧的后一帧向该中间帧变换的变换关系的反向光流参数)。然后利用光流参数和位于中间帧前后的锚点帧的中间特征来计算中间帧的中间特征。即实现了通过将锚点帧的中间特征在中间帧之间正向传播和反向传播，来获取中间帧的中间特征。因此，中间帧的中间特征保留有帧与帧之间的变换信息。从而使得基于各个帧的中间特征进行特征估计后获得的优化视频，在一定程度上提高了连续性。

附图说明

图1为本申请一实施例提供的视频优化模型的网络结构示意图；

图2为本申请一实施例提供的一种视频优化方法的流程示意图；

图3为本申请一实施例提供的一种FFM模型的网络结构示意图；

图4为本申请一实施例提供的视频优化装置的结构示意图；

图5为本申请一实施例提供的终端设备的结构示意图。

具体实施方式

目前，基于深度学习的视频优化算法中，往往直接使用图像优化模型对视频中的各个帧一一进行单独优化，来实现视频优化。这种基于图像优化模型，对视频中每一帧视频帧进行独立优化的方式，可能会导致不同视频帧具备不同的优化效果，影响优化后视频的连续性。

针对这一问题，本申请提供一种视频优化方法，提取待优化的视频帧序列中的锚点帧的中间特征后，通过将锚点帧的中间特征在中间帧(位于锚点帧之间的视频帧)之间正向传播和反向传播，以计算得到中间帧的中间特征。使得中间帧的中间特征保留有帧与帧之间的变换信息。从而使得将各个帧的中间特征进行特征估计后获得的优化视频，在一定程度上保证了连续性。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

首先，结合图1对本申请提供的一种视频优化模型进行示例性的介绍。该视频优化模型部署在视频处理设备中，视频处理设备可以基于该视频优化模型来处理待优化的视频帧序列，以实现本申请提供的视频优化方法。其中，视频处理设备可以是智能手机、平板电脑、摄像机等移动终端设备，还可以是台式电脑、机器人、服务器等能够处理视频数据的终端设备。

示例性的，如图1所示，本申请提供的视频优化模型包括特征提取(featureextraction)网络G_E、光流网络(FlowNet)和特征估计网络G_C。

其中，特征提取网络用于提取输入图像的中间特征，该中间特征的尺寸与特征估计网络所要求的输入尺寸相匹配。特征估计网络用于对输入的中间特征进行特征估计(包括特征映射、特征重建等)，输出得到优化图像。

在一个示例中，特征提取网络和特征估计网络可以通过将一个用于对二维图像进行图像优化的图像优化模型拆分得到。

例如，当该视频优化模型应用于黑白视频上色的视频优化场景时，该特征提取网络和特征估计网络由图像上色模型拆分得到。其中，图像上色模型可以是任意能够实现黑白图像自动上色的网络模型，例如，Pix2Pix模型、colornet.t7模型、colornet_imagenet.t7模型等。

图像上色模型一般通过层层卷积层、激活层和/或池化层等网络层提取输入的灰度图(即黑白图像，可以视为Lab域中的L通道图像)的中间特征，在将最后提取到的中间特征进行颜色映射或者颜色重建，得到a通道图像和b通道图像。最后通过a通道图像、b通道图像和输入的灰度图构建灰度图在Lab域中对应的彩色图像。

在进行网络模型拆分时，可以从输出a通道图像和b通道图像的网络层之前的任意中间层进行拆分，得到两部分子网络。其中，输入为灰度图，输出为中间特征的子网络定义为特征提取网络；输入为中间特征，输出为彩色图像的子网络定义为特征估计网络。

又例如，当该视频优化模型应用于视频超分(即将低分辨率的视频转换为高分辨率的视频)的视频优化场景时，该特征提取网络和特征估计网络由超分辨模型拆分得到。其中，超分辨模型可以是任意能够实现将低分辨率图像映射为高分辨率图像的网络模型，例如，FSRCNN模型、CARN模型，SRResNet模型，RCAN模型等。

超分辨模型一般通过层层卷积层、残差层、池化层和/或反卷积层等网络层提取输入的低分辨率图像的中间特征，在将最后提取到的中间特征进行上采样(即图像重建)，得到对应的高分辨率图像。在进行网络模型拆分时，可以从上采样层之前的任意中间层进行拆分，得到两部分子网络。其中，输入为低分辨率图像，输出为中间特征的子网络定义为特征提取网络；输入为中间特征，输出为高分辨率图像的子网络定义为特征估计网络。

可以理解的是，对应于不同的视频优化场景，例如，除上述视频上色、视频超分外，还可以包括视频去雨、视频去雾、视频调色等视频优化场景。可以直接将对应场景的图像优化模型进行拆分，来搭建视频优化模型。此处不在一一列举。

光流网络用于估计相邻两帧视频帧的光流参数，即同一对象从一帧视频帧移动到另一帧视频帧的移动量，能够描述一帧视频帧向另一帧视频帧变换的变换关系。示例性的，在本申请中可以采用FlowNet2.0作为光流网络。

基于上述视频优化模型，视频处理设备获取到待优化的视频帧序列，并确定该视频帧序列中的M帧锚点帧和N-M帧中间帧后，即可将该视频帧序列输入至已训练的视频优化模型中处理，得到优化视频。

其中，待优化的视频帧序列可以是从一个视频中截取出来的视频片段，也可以是一个完整的视频。假设，该视频帧序列包括N帧视频。该N帧视频帧中包含第1帧视频帧和第N帧视频帧在内，共存在M帧锚点帧，M为大于2且小于N的正整数。

该M帧锚点帧可以是人为指定的，也可以是视频处理设备根据预设的锚点帧提取规则从N帧视频帧中识别的。例如，设置中间帧的间隔数为10，那么视频处理设备可以从第1帧视频帧开始，识别第1帧视频帧为第1帧锚点帧，间隔10帧中间帧后，识别第12帧视频帧为第2帧锚点帧，依次类推，直至识别第N帧视频帧为第M帧锚点帧。可以理解的是，第M帧锚点帧与第M-1帧锚点帧之间的中间帧数可能小于10帧。顾名思义，中间帧即为N帧视频帧中位于相邻两个锚点帧之间的视频帧，比如第1帧视频帧和第12帧视频帧为相邻两个视频帧，位于第1帧视频帧和第12帧视频帧之间的第2-11帧视频帧为中间帧。

示例性的，视频处理设备基于该视频优化模型对待优化的视频帧序列进行视频优化的过程，可以如图2所示，包括：

S201，利用已训练的特征提取网络分别提取M个帧锚点帧的中间特征。

例如，以图1中所示的连续4帧视频帧x₁，x₂，x₃，x₄为例。其中，第1帧视频帧x₁和第4帧视频帧x₄为锚点帧，第2帧视频帧x₂和第3帧视频帧x₃为中间帧。视频处理设备将x₁和x₄分别输入至特征提取网络G_E进行处理，得到x₁的中间特征F₁和x₄的中间特征F₄。

S202，利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数。

其中，中间帧的正向光流参数用于描述该中间帧的前一帧向该中间帧变换的变换关系，中间帧的反向光流参数用于描述该中间帧的后一帧向该中间帧变换的变换关系。

例如，如图1所示，针对中间帧x₂，视频处理设备将x₁和x₂输入光流网络，得到x₂的正向光流参数f_1→2(用于描述x₁向x₂变换的变换关系)。将x₃和x₂输入光流网络，得到x₂的反向光流参数f_3→2(用于描述x₃向x₂变换的变换关系)。针对中间帧x₃，视频处理设备将x₂和x₃输入光流网络，得到x₃的正向光流参数f_2→3(用于描述x₂向x₃变换的变换关系)。将x₄和x₃输入光流网络，得到x₃的反向光流参数f_4→3(用于描述x₄向x₃变换的变换关系)。

S203，根据N-M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N-M帧中间帧的中间特征。

在本申请实施例中，针对位于相邻两个锚点帧之间的中间帧，利用光流参数使得两个锚点帧的中间特征中间帧之间传播。也就是说，通过光流网络计算得到每个中间帧分别与相邻的前后两帧视频帧之间的光流参数，基于每个光流参数使得锚点帧的中间特征向向前或者向后一帧一帧传播，使得中间帧的中间特征向锚点帧的中间特征对齐。

示例性的，针对视频帧序列中的第i帧视频帧，i取值为{1，2，……，N-1，N}，当第i帧视频帧为中间帧时：

视频处理设备可以利用第i帧视频帧的正向光流参数对第i-1帧视频帧的中间特征进行形状变换，得到第i帧视频帧的正向特征；利用第i帧视频帧的反向光流参数对第i+1帧视频帧的反向特征进行形状变换，得到第i帧视频帧的反向特征；对第i帧视频帧的正向特征和第i帧视频帧的反向特征进行特征融合，得到第i帧视频帧的中间特征。

值得说明的是，锚点帧的中间特征同时也可以作为该锚点帧的反向特征和正向特征，即锚点帧的中间特征、反向特征、正向特征的取值相同。也就是说，如果第i+1帧视频帧为锚点帧，则第i+1帧视频帧的反向特征取值为通过特征提取网络提取的第i+1帧视频帧的中间特征。

例如，以图1所示的x₁，x₂，x₃和x₄为例，说明锚点帧x₁和x₄的中间特征在中间帧x₂和x₃之间反向传播和正向传播，以获取中间帧x₂和x₃的中间特征的方式。

如图1所示，首先将x₄的中间特征F₄进行反向传播，得到x₂和x₃的反向特征。即利用x₃的反向光流参数f_4→3对F₄进行形状变化(warp)操作，得到x₃的反向特征

。得到

之后，继续利用x₂的反向光流参数f_3→2对

进行warp操作，得到x₂的反向特征

。

然后基于x₂和x₃的反向特征，将x₁的中间特征F₁进行正向传播，得到x₂和x₃的中间特征。即利用x₂的正向光流参数f_1→2对F₁进行warp操作，得到x₂的正向特征

，然后将

和

进行特征融合，得到x₂的中间特征F₂。得到F₂之后，继续利用x₃的正向光流参数f_2→3对F₂进行warp操作，得到x₃的正向特征

，然后将

和

进行特征融合，得到x₃的中间特征F₃。

可以看出，在计算中间帧的中间特征时，先将一个锚点帧的中间特征反向传输一遍，又将另一个锚点帧的中间特征正向传播。这种信息的双向传输，能够相互补充单一传输方向上因为光流网络和warp操作带来的信息损失，各个帧的中间特征在时间上的连续性。从而更有利于后续的视频优化效果。

另外，由于中间帧的中间特征是基于位于该中间帧两边的锚点帧的中间特征来计算的，因此，当视频帧序列中具备变换的场景时，每次由场景的切换所带来的一些影响信息仅在该时间区间(即便两个锚点帧之间)存在，并不会影响其他时间区间中中间帧的中间特征的准确性。

其中，在对第i帧视频帧的正向特征和第i帧视频帧的反向特征进行特征融合时，可以采用数值计算的方式进行特征融合，也可以在视频优化模型中设置特征融合网络进行特征融合。该特征融合网络可以是常规的特征融合网络，例如，具有现场感知能力的因素分解机(field-aware factorization machine，FFM)、因子分解机(FactorizationMachines，FM)等。

可选的，本申请实施例提供一种改进的FFM模型，通过输入第i-1帧视频帧x_i-1、第i帧视频帧x_i、第i+1帧视频帧x_i+1、第i帧视频帧的正向特征

、第i帧视频帧的反向特征

、第i-1帧视频帧的正向特征

和第i+1帧视频帧的反向特征

，执行特征融合操作，输出第i帧视频帧的中间特征F_i。即如图1所示，在本申请实施例提供的视频优化模型中，还包括本申请实施例提供的FFM模型。

示例性的，以融合第i帧视频帧的正向特征

和第i帧视频帧的反向特征

，得到第i帧视频帧的中间特征F_i为例，本申请提供的FFM模型的网络结构可以如图3所示。

首先对x_i-1、x_i和x_i+1进行特征提取，例如，采用一个卷积层分别对x_i-1、x_i和x_i+1进行特征提取。将提取到的特征进行合并(concat)得到一个合并特征。然后将合并特征分别输入到权重估计网络(weighting network)和特征补偿网络(feature refine network)中。

其中，权重估计网络和特征补偿网络分别是由多个卷积层构成。权重估计网络根据输入的合并特征、

和

进行多层卷积操作后，输出权重矩阵W。利用W对

和

进行加权，可以实现对

和

中同一像素点的取舍，得到一个融合特征

(例如，

)。

将

经过1×1的卷积操作后，输入到特征补偿网络中。特征补偿网络对输入的合并特征、经过卷积后的

和

进行多层卷积操作后，可以输出与

对应的补充特征

。该补充特征

可以还原在计算

和

的过程中，由于光流网络和warp操作所导致缺失的信息。将

和

叠加后得到第i帧视频帧的中间特征F_i。

值得说明的是，本申请提供的FFM模型不但能够参考第i-1帧视频帧x_i-1、第i+1帧视频帧x_i+1、第i-1帧视频帧的正向特征

和第i+1帧视频帧的反向特征

，来构建第i帧视频帧的F_i。即考虑了前后帧的信息，使得第i帧视频帧的F_i在时间上与前后帧的中间特征更具备连续性。同时能够根据

和

补充因为光流网络和warp操作所导致缺失的信息。因此，可以进一步提高中间帧的中间特征的连续性。

S204，利用已训练的特征估计网络分别对视频帧序列的每一帧视频帧的中间特征进行特征估计，得到N帧优化图像，N帧优化图像构成视频帧序列的优化视频。

以黑白视频上色的视频优化场景为例。针对视频帧序列中的第i帧灰度图，利用特征估计网络对第i帧灰度图的中间特征进行特征估计，得到第i帧灰度图的优化图像包括：

对第i帧灰度图的中间特征进行颜色估计，得到输出信息

其中，

包括与第i帧灰度图对应的a通道图像和b通道图像；根据第i帧灰度图、a通道图像和b通道图像得到第i帧灰度图在Lab域中的彩色图像，该彩色图像即为第i帧灰度图的优化图像。

例如，以图1中，得到x₁，x₂，x₃和x₄的中间特征后，分别将x₁，x₂，x₃和x₄的中间特征输入到特征估计网络G_C中处理，输出得到分别与x₁，x₂，x₃和x₄对应的输出信息

由于图1中以应用于黑白视频上色的视频优化场景为例，因此，每个输出信息

包括a通道图像和b通道图像。将a通道图像、b通道图像和灰度图合并后，即可得到分别与x₁，x₂，x₃和x₄对应的彩色图像。

综上可知，采用本申请提供的视频优化方法，由于不在独立提取每个视频帧的中间特征，而是选取锚点帧，并在提取锚点帧的中间特征后，通过将锚点帧的中间特征在中间帧之间正向传播和反向传播，以计算得到中间帧的中间特征。使得中间帧的中间特征保留有帧与帧之间的变换信息。从而使得将各个帧的中间特征进行特征估计后获得的优化视频，在一定程度上保证了连续性。

下面对本申请提供的视频优化模型的训练过程进行示例性的说明。

首先，构建视频优化初始模型，该视频优化初始模型包括特征提取初始网络、光流初始网络和特征估计初始网络。

可以理解的是，构建视频优化初始模型时，可以基于具体的视频优化场景来选择对应的图像优化模型。然后将图像优化模型进行拆分，得到对应特征提取初始网络和特征估计初始网络。

另外，若采用特征融合网络对中间特征和反向特征进行特征融合，则该视频优化初始模型中还可以设置特征融合网络。例如，可以在视频优化初始模型设置本申请提供的改进后的FFM的初始模型。

之后，利用预设的损失函数和训练集对该视频优化初始模型进行无监督训练，得到已训练的视频优化模块。相应的，已训练的视频优化模块包括上述已训练的特征提取网络、光流网络、特征估计网络和FFM模型。

在本申请实施例中，训练集包括多个待优化的视频帧序列样本。由于采用无监督训练，因此，该训练集可以不需要采集对应的彩色视频帧序列。

损失函数的设计可以基于实际的视频优化场景来设计。例如，以黑白视频上色的视频优化场景为例，损失函数可以设计为：

其中，M为遮挡矩阵，

N为视频帧序列样本的帧数，d为相邻帧的间隔，d＝1表示相邻两帧，d＝2表示相邻间隔一帧的两帧。

表示第i帧视频帧样本的输出信息。

表示第i+d帧视频帧样本经过warp操作向第i帧视频帧样本变换的结果。由于需要

和

在内容上保持了一致，因此，基于该损失函数可以损失(loss)约束。

示例性的，在训练时可以采用梯度下降算法。通过迭代学习出网络的参数。例如，初始学习率可以设置为1e-4，每50000个迭代回合，将学习率衰减一半，直到网络收敛。

值得说明的是，本申请提供视频优化模型以及训练方法具备泛用性。可以应用于任何视频优化任何或者以视频优化效果为评价指标的任务中。

基于同一发明构思，作为对上述方法的实现，本申请实施例提供了一种视频优化装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图4为本申请实施例提供的视频优化装置的结构示意图，如图4所示，本实施例提供的视频优化装置包括：提取单元401、确定单元402和估计单元403。

提取单元401，用于利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，视频帧序列包括N帧视频帧，M帧锚点帧包括视频帧序列的第1帧视频帧和第N帧视频帧，M为大于2且小于N的正整数。

确定单元402，用于利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数，中间帧的正向光流参数用于描述中间帧的前一帧向该中间帧变换的变换关系，中间帧的反向光流参数用于描述中间帧的后一帧向该中间帧变换的变换关系，中间帧为待优化视频中除锚点帧以外的视频帧。

确定单元402，还用于根据N-M帧中间帧的正向光流参数和反向光流参数，以及M帧锚点帧的中间特征，确定N-M帧中间帧的中间特征。

估计单元403，用于利用已训练的特征估计网络分别对视频帧序列的N帧视频帧的中间特征进行特征估计处理，得到N帧优化图像，N帧优化图像构成视频帧序列的优化视频。

本实施例提供的视频优化装置可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种终端设备。图5为本申请实施例提供的终端设备的结构示意图，如图5所示，本实施例提供的终端设备包括：存储器501和处理器502，存储器501用于存储计算机程序；处理器502用于在调用计算机程序时执行上述方法实施例所述的方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器501中，并由所述处理器502执行，以完成本申请实施例所述的方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

本领域技术人员可以理解，图5仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器502可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器501可以是终端设备的内部存储单元，例如终端设备的硬盘或内存。所述存储器82也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器501还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器501用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器501还可以用于暂时地存储已经输出或者将要输出的数据。

本实施例提供的终端设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所述的方法。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现上述方法实施例所述的方法。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种视频优化方法，其特征在于，所述方法包括：

利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，所述视频帧序列包括N帧视频帧，M帧所述锚点帧包括所述视频帧序列的第1帧视频帧和第N帧视频帧，M为大于2且小于N的正整数；

利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数，所述中间帧的正向光流参数用于描述所述中间帧的前一帧向所述中间帧变换的变换关系，所述中间帧的反向光流参数用于描述所述中间帧的后一帧向所述中间帧变换的变换关系，所述中间帧为所述待优化视频中除所述锚点帧以外的视频帧；

根据N-M帧所述中间帧的正向光流参数和反向光流参数，以及M帧所述锚点帧的中间特征，确定N-M帧所述中间帧的中间特征；

利用已训练的特征估计网络分别对所述视频帧序列的每一帧视频帧的中间特征进行特征估计，得到N帧优化图像，所述N帧优化图像构成所述视频帧序列的优化视频。

2.根据权利要求1所述的方法，其特征在于，所述根据N-M帧所述中间帧的正向光流参数和反向光流参数，以及M帧所述锚点帧的中间特征，确定N-M帧所述中间帧的中间特征，包括：

针对所述视频帧序列中的第i帧视频帧，i取值为{1，2，……，N-1，N}，当所述第i帧视频帧为所述中间帧时：

利用所述第i帧视频帧的正向光流参数对第i-1帧视频帧的中间特征进行形状变换，得到所述第i帧视频帧的正向特征；

利用所述第i帧视频帧的反向光流参数对第i+1帧视频帧的反向特征进行形状变换，得到所述第i帧视频帧的反向特征；

对所述第i帧视频帧的正向特征和所述第i帧视频帧的反向特征进行特征融合，得到所述第i帧视频帧的中间特征；

其中，若所述第i+1帧视频帧为所述锚点帧，所述第i+1帧视频帧的反向特征取值为所述第i+1帧视频帧的中间特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述第i帧视频帧的正向特征和所述第i帧视频帧的反向特征进行特征融合，得到所述第i帧视频帧的中间特征，包括：

将第i-1帧视频帧、所述第i帧视频帧、所述第i+1帧视频帧、所述第i帧视频帧的正向特征、所述第i帧视频帧的反向特征、所述第i-1帧视频帧的正向特征和所述第i+1帧视频帧的反向特征输入到已训练的FFM模型中进行融合处理，得到所述第i帧视频帧的中间特征，其中，若所述第i-1帧视频帧为所述锚点帧，所述第i-1帧视频帧的正向特征取值为所述第i-1帧视频帧的中间特征。

4.根据权利要求3所述的方法，其特征在于，所述融合处理包括：

获取所述第i-1帧视频帧、所述第i帧视频帧和所述第i+1帧视频帧的融合特征；

对所述融合特征、所述第i帧视频帧的正向特征和所述第i帧视频帧的反向特征进行权重估计，得到权重矩阵；

利用所述权重矩阵对所述第i帧视频帧的正向特征和所述第i帧视频帧的反向特征进行加权，得到加权特征；

对所述加权特征、所述融合特征、所述第i-1帧视频帧的正向特征和所述第i+1帧视频帧的反向特征进行卷积计算，得到补充特征；

将所述补充特征和所述加权特征进行叠加，得到所述第i帧视频帧的中间特征。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

构建视频优化初始模型，所述视频优化初始模型包括特征提取初始网络、光流初始网络、特征估计初始网络和FFM初始模型；

利用预设的损失函数和训练集对所述视频优化初始模型进行无监督训练，得到已训练的所述特征提取网络、所述光流网络、所述特征估计网络和所述FFM模型；

其中，训练集包括多个待优化的视频帧序列样本。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述特征提取网络和所述特征估计网络由预设的图像优化模型拆分得到，所述图像优化模型用于对二维图像进行图像优化。

7.根据权利要求6所述的方法，其特征在于，所述图像优化模型为图像上色模型，所述视频帧序列包括N帧灰度图；

针对所述视频帧序列中的第i帧灰度图，i取值为{1，2，……，N-1，N}，利用所述特征估计网络对所述第i帧灰度图的中间特征进行特征估计，得到所述第i帧灰度图的优化图像包括：

对所述第i帧灰度图的中间特征进行颜色估计，得到与所述第i帧灰度图对应的a通道图像和b通道图像；

根据所述第i帧灰度图、所述a通道图像和所述b通道图像得到所述第i帧灰度图在Lab域中的彩色图像，所述彩色图像为所述第i帧灰度图的优化图像。

8.一种视频优化装置，其特征在于，包括：

提取单元，用于利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征，所述视频帧序列包括N帧视频帧，M帧所述锚点帧包括所述视频帧序列的第1帧视频帧和第N帧视频帧，M为大于2且小于N的正整数；

确定单元，用于利用已训练的光流网络分别确定N-M帧中间帧的正向光流参数和反向光流参数，所述中间帧的正向光流参数用于描述所述中间帧的前一帧向所述中间帧变换的变换关系，所述中间帧的反向光流参数用于描述所述中间帧的后一帧向所述中间帧变换的变换关系，所述中间帧为所述待优化视频中除所述锚点帧以外的视频帧；

所述确定单元，还用于根据N-M帧所述中间帧的正向光流参数和反向光流参数，以及M帧所述锚点帧的中间特征，确定N-M帧所述中间帧的中间特征；

估计单元，用于利用已训练的特征估计网络分别对所述视频帧序列的N帧视频帧的中间特征进行特征估计处理，得到N帧优化图像，所述N帧优化图像构成所述视频帧序列的优化视频。

9.一种终端设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。