CN113850718A

CN113850718A - 一种基于帧间特征对齐的视频同步时空超分方法

Info

Publication number: CN113850718A
Application number: CN202110609272.1A
Authority: CN
Inventors: 吕超; 吴宇松; 史国杰
Original assignee: Tianyi Smart Family Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-12-28

Abstract

本发明提供了一种基于同步时空超分的用于生成高帧率高分辨率视频的方法和系统。方法包括：将视频文件逐一抽帧形成视频帧序列；对每一对相邻帧进行特征提取以获得特征向量，并且通过帧间运动对齐网络获得帧间运动表示向量；利用RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量；利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量；将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧；以及将所生成的各目标视频帧重新编码为高帧率高分辨率的视频。

Description

一种基于帧间特征对齐的视频同步时空超分方法

技术领域

本发明涉及人工智能及图像处理领域，更具体地，涉及基于帧间特征对齐的视频同步时空超分方法。

背景技术

视频插帧和视频超分是当前学界和工业届在视频增强邻域的热点，视频插帧技术可以将提升视频的帧率，让视频在观感上更加“丝滑”。视频插帧技术主要有以DVF为代表的传统线性插帧和以DAIN为代表的基于深度学习的插帧技术。视频超分技术可以提升视频的分辨率，通过视频超分技术，可以将540P视频提升为4K画质的视频。视频超分方法以深度学习算法为主，具有代表性的模型有VSR、RBPN、Zooming Slow-Mo等方法。视频插帧和视频超分合起来可以称作时空超分任务，很多研究已经注意到了时间超分和空间超分之间的关联关系，让时间超分和空间超分之间能够相互协助，从而实现更好的超分结果。

近年来支持2K乃至4K的电视逐渐普及，一些老旧的影视节目在这些高清显示设备上显示效果差，影响用户观看体验。现有的视频时空超分技术大多是基于相邻帧的光流图来进行对齐，依赖于光流计算的准确性，不准确的光流会导致大量伪影。同时现有的视频时空超分方法都是先进行视频插帧，再进行视频超分辨，相比独立地执行两个模型，只是在最终效果上有所提升，并没有提升整体计算性能。因此完成视频时空超分任务需要消耗大量计算资源。

中国专利申请“视频质量提升方法、装置、电子设备和存储介质”(CN111654723A)公开了一种视频质量提升方法、装置、电子设备和存储介质，涉及视频处理和深度学习领域。具体实现方案为：从原始视频中，提取相邻的第一图像帧和第二图像帧；对第一图像帧提取第一图像特征，对第二图像帧提取第二图像特征；根据第一图像特征和第二图像特征之间的特征连续性，插值生成目标图像特征；对第一图像特征、目标图像特征和第二图像特征，分别进行上采样，还原图像得到插帧后的各帧目标图像；根据各帧目标图像，生成目标视频。然而，在该方法中，视频超分辩是基于单帧图片的超分辨，相比于基于相邻帧上下文的视频超分方法，效果较差。

中国专利申请“基于时间切片的视频时空超分辨率增强方法”(CN112070677A)公开了一种基于时间切片的视频时空超分辨率增强方法，包括：输入待增强的视频，将其转换成竖直时间切片；将竖直时间切片送入时间切片超分辨率模块，得到超分辨率之后的时间切片，再转换为视频A；所述切片超分辨率模块能够捕获竖直时间切片包含的时空相关性，从而得到与目标视频帧率一致的视频；将视频A送入特征变换模块，获得与目标视频空间分辨率一致的视频B；将视频B送入优化模块，来增强视频细节并消除伪影。该方法通过显式地对时间切片建模，更好地挖掘时空关联信息，捕获长时序的视频信息，实现视频帧率和视频空间分辨率的提升。

上述两个专利虽然在一个工作流中同时实现了时间超分和空间超分，但是两个工作是串行完成的，要先完成时间超分再完成空间超分。相比分别使用两个不同超分模型进行处理，并没有提升整体计算性能且需要消耗大量计算资源。因此，希望提供一种能够规避光流法对齐所产生的伪影问题的改进的视频时空超分方法，同时通过调整网络结构使时间超分和空间超分同步进行，从而降低计算资源消耗。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

根据本发明的一方面，提供了一种视频同步时空超分方法，所述方法包括：

将视频文件逐一抽帧形成视频帧序列；

对于所述视频帧序列中的每一对相邻帧进行如下操作：

对所述相邻帧进行特征提取以获得所述相邻帧所对应的特征向量，并且通过帧间运动对齐网络获得帧间运动表示向量；

利用循环反投影网络RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量；

利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量；

将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧；以及

将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。

根据本发明的一个实施例，所述通过帧间运动对齐网络获得帧间运动表示向量进一步包括：

将所述相邻帧所对应的特征向量拼接后输入卷积层进行初步对齐；

输入瓶颈卷积层减少通道数；以及

输入残差块完成对齐，以得到对齐后的帧间运动表示向量。

根据本发明的进一步实施例，所述利用循环反投影网络RBPN来对所述相邻帧进行超分辨进一步包括：

将所述相邻帧拼接后输入卷积层进行融合和升维；

与所述帧间运动表示向量拼接后输入所述RBPN以得到所述相邻帧所对应的高分辨帧向量；以及

通过降采样获得所述相邻帧所对应的低分辨帧向量。

根据本发明的进一步实施例，所述利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量进一步包括：

将所述相邻帧所对应的高分辨帧向量和所述帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块和金字塔模块；

将两者的输出融合计算后获得所述插入帧所对应的高分辨帧向量；以及

通过降采样获得所述插入帧所对应的低分辨帧向量。

根据本发明的进一步实施例，将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化进一步包括：

将所述相邻帧和所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述相邻帧的高分辨帧向量融合计算得到所述相邻帧所对应的目标高分辨帧向量；

通过降采样获得所述相邻帧所对应的目标低分辨帧向量；以及

将所述相邻帧所对应的目标低分辨帧向量与所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述插入帧所对应的高分辨帧向量融合计算得到所述插入帧所对应的目标高分辨帧向量。

根据本发明的另一方面，提供了一种基于同步时空超分的用于生成高帧率高分辨率视频的系统，所述系统包括：

视频预处理模块，所述视频预处理模块被配置成将视频文件逐一抽帧形成视频帧序列；

帧间运动对齐模块，所述帧间运动对齐模块被配置成：对所述视频帧序列中的每一对相邻帧进行特征提取以获得所述相邻帧所对应的特征向量，并且通过帧间运动对齐网络获得帧间运动表示向量；

时空超分模块，所述时空超分模块被配置成：

优化重建模块，所述优化重建模块被配置成将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧；以及

视频重构模块，所述视频重构模块被配置成将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。

根据本发明的一个实施例，所述帧间运动对齐模块被进一步配置成：

输入瓶颈卷积层减少通道数；以及

输入残差块完成对齐，以得到对齐后的帧间运动表示向量。

根据本发明的另一实施例，所述时空超分模块被进一步配置成：

将所述相邻帧拼接后输入卷积层进行融合和升维；

通过降采样获得所述相邻帧所对应的低分辨帧向量。

通过降采样获得所述插入帧所对应的低分辨帧向量。

根据本发明的另一实施例，所述优化重建模块被进一步配置成：

与现有技术中的方案相比，本发明所提供的视频同步时空超分方法和系统至少具有以下优点：

(1)多数视频超分基于光流法进行对齐，其性能依赖于光流计算的准确性，不准确的光流会导致大量伪影，本发明使用帧间图片特征对齐网络，能够自适应地在特征层面进行对齐，有效地降低伪影；以及

(2)现有的时空超分方法都是先进行视频插帧，再进行视频超分辨，相比独立地执行两个模型，只是在最终效果上有所提升，并没有提升整体计算性能，本发明将插帧和超分辨两个操作中都需要的帧间对齐合并进行，能够同步进行时空超分，在确保视频效果的同时提升计算技能，节省计算资源消耗。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分系统的示例架构图。

图2示出了根据本发明的一个实施例的帧间运动对齐模块的示意结构图。

图3示出了根据本发明的一个实施例的时空超分模块中的RBPN的示例结构图。

图4示出了根据本发明的一个实施例的时空超分模块中的时空超分网络的示例结构图。

图5示出了根据本发明的一个实施例的优化重建模块中的优化网络的示例结构图。

图6示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法的整体流程图。

图7示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法的流程图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分系统100的示例架构图。如图1中所示，本发明的系统100包括：视频预处理模块101、帧间运动对齐模块102、时空超分模块103、优化重建模块104和视频重构模块105。

视频预处理模块101可被配置成将输入的视频文件逐一抽帧，形成初始视频帧序列。帧间运动对齐模块102可被配置成对初始视频帧序列中的每一对相邻帧进行特征提取以获得这两帧所对应的特征向量，随后通过帧间运动对齐网络获得帧间运动表示向量。时空超分模块103可包括循环反投影网络(RBPN)和时空超分网络。时空超分模块103可被配置成使用两个RBPN对两个相邻帧进行超分辨，以得到分别与这两个相邻帧相对应的两个高分辨帧向量，随后通过降采样得到与这两个高分辨帧向量相对应的两个低分辨帧向量。进一步地，时空超分模块103还可被配置成利用使用残存块和金字塔模块构建的时空超分网络来生成与插入帧相对应的高分辨帧向量，随后通过降采样得到与该高分辨帧向量相对应的低分辨帧向量。优化重建模块104可被配置成将由时空超分模块103生成的结果向量(即，相邻帧和插入帧的高分辨帧向量和低分辨帧向量)进行优化以得到两个相邻帧和插入帧的目标高分辨向量，并且随后进行升采样以生成最终的三个目标视频帧。视频重构模块105可被配置成将针对初始视频帧序列中的每一对相邻帧进行处理之后所生成的各目标帧重新编码为视频，以获得高帧率高分辨率的视频。

本领域技术人员能够理解，本发明的系统及其各模块既可以以硬件形式实现，也可以以软件形式实现，并且各模块可以任意合适的方式合并或组合。另外，本发明的系统可使用REDS数据集(高质量的视频超分数据集)，基于结构相似度(SSIM)构造损失函数来进行端到端训练。

图2示出了根据本发明的一个实施例的帧间运动对齐模块102的示意结构图。帧间运动对齐模块102可包括特征提取网络和帧间运动对齐网络。特征提取网络可由一个卷积层和五个残差块组成，用于提取输入的两个相邻帧所对应的特征向量图。帧间运动对齐网络可由一个卷积层、一个瓶颈层和五个残差块组成，用于将相邻帧的特征向量拼接后输入卷积层进行初步对齐，随后输入瓶颈卷积层减少通道数，随后输入残差块完成对齐，得到对齐后的帧间运动表示向量。如图2所示，帧间运动对齐模块102将相邻帧

输入特征提取网络以得到与这两个相邻帧相对应的特征向量F_i、F_i+1，随后将所得到的特征向量F_i、F_i+1输入帧间运动对齐网络以得到对齐后的帧间运动表示向量F_i→i+1。

图3示出了根据本发明的一个实施例的时空超分模块103中的循环反投影网络(RBPN)300的示例结构图。循环反投影网络(RBPN)是连续帧图像超分辨比较成熟的网络结构，该网络结构被分为三个部分：初始特征提取、多投影以及重建。在本发明中与RBPN略有不同的是相邻帧的运动表示不是图片而是向量，因此需要将相邻帧拼接后输入三个卷积层进行融合和升维，随后再与相邻帧的帧间运动表示向量拼接(concat)，其余部分均与RBPN一致。如图3所示，初始特征提取分为两部分，即(1)对初始视频帧

进行特征提取以得到张量L_i；以及(2)对相邻帧拼接后输入三个卷积层所得的特征向量与帧间运动表示向量F_i→i+1进行特征提取以得到张量M_i。随后，将所得到的张量L_i和张量M_i分别输入MISR块和SISR块，经由升采样得到高分辨特征向量

和

将所得到的

和

输入残差块求得残差e_i后，将残差e_i与SISR支路的

相加以得到与初始视频帧

相对应的高分辨帧向量H_i，随后可对所得到的高分辨帧向量H_i进行降采样以得到相应的低分辨帧向量L_i以用于时空超分网络。

图4示出了根据本发明的一个实施例的时空超分模块103中的时空超分网络400的示例结构图。时空超分模块103可在利用两个循环反投影网络(RBPN)300分别对两个原始相邻帧进行超分辨以得到相邻帧的对应高分辨帧向量和低分辨帧向量之后，利用时空超分网络400基于原始帧进行插帧和超分辨以得到插入帧所对应的高分辨帧向量和低分辨帧向量。具体而言，时空超分网络400可将相邻帧所对应的高分辨帧向量和帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块以及金字塔模块，将两者的输出融合计算后获得插入帧所对应的高分辨帧向量，同时将插入帧降采样获得对应低分辨帧向量。如图4所示，时空超分网络400将图3所示的示例中获得的相邻帧所对应的高分辨帧向量H_i和H_i+1和帧间运动表示向量F_i→i+1拼接后分别输入由5个残差块和5个反卷积层组成的升采样模块以及金字塔模块，将两者的输出融合之后得到插入帧所对应的高分辨帧向量H_i+t’。随后，时空超分网络400可将图3所示的示例中获得的相邻帧所对应的低分辨帧向量L_i和L_i+1和帧间运动表示向量F_i→i+1拼接后输入由2个残差块和1个卷积层组成的降采样模块，将所得到的插入帧所对应的高分辨帧向量H_i+t’输入由2个残差块和1个卷积层组成的降采样模块，将两者的输出融合之后得到插入帧所对应的低分辨帧向量L_i+t’。

图5示出了根据本发明的一个实施例的优化重建模块104中的优化网络500的示例结构图。优化重建模块104主要用于对前一模块(即，时空超分模块103)的输出结果进行进一步精细化。具体而言，对于原始相邻帧，可使用对应帧和所生成插入帧的低分辨帧向量以及帧间运动表示向量拼接后输入网络进行推理，所得结果和通过RBPN生成的高分辨帧向量融合计算得到相邻帧所对应的目标高分辨帧向量；对于所生成插入帧，分别使用两个相邻帧所对应的目标低分辨帧向量与所生成插入帧的低分辨帧向量以及帧间运动表示向量拼接后输入网络进行推理，所得两个结果和前一模块生成的插入帧所对应的高分辨帧向量融合计算得到插入帧所对应的目标高分辨帧向量。最后将三个目标高分辨帧向量输入重建网络还原成三个目标视频帧。如图5所示，优化网络500将原始相邻帧中的每一帧和所生成插入帧的低分辨帧向量L_i、L_i+1和L_i+t’以及帧间运动表示向量F_i→i+1拼接后输入由5个残差块和5个反卷积层组成的升采样模块，将所得的两个结果分别与通过RBPN生成的高分辨帧向量H_i和H_i+1融合计算得到相邻帧所对应的目标高分辨帧向量

和

随后可对所得到的目标高分辨帧向量

和

进行降采样并且分别与通过RBPN生成的低分辨帧向量L_i和L_i+1融合计算得到相邻帧所对应的目标低分辨帧向量

和

随后，可分别将所得到的目标低分辨帧向量

和

与通过时空超分网络生成的插入帧所对应的低分辨帧向量L_i+t’以及帧间运动表示向量F_i→i+1拼接后输入由5个残差块和5个反卷积层组成的升采样模块，将所得的两个结果与通过时空超分网络生成的插入帧所对应的高分辨帧向量H_i+t’融合计算得到插入帧所对应的目标高分辨帧向量

图6示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法600的整体流程图。如图6所示，方法600包括以下步骤：

步骤S1：将视频文件逐一抽帧形成视频帧序列

其中K为视频帧数，1≤i≤K。

步骤S2：对相邻帧

进行特征提取以获得这两帧所对应的特征向量F_i、F_i+1，并且将所获得的特征向量F_i、F_i+1输入帧间运动对齐网络以得到帧间运动表示向量F_i→i+1。

步骤S3：将相邻帧

和帧间运动表示向量F_i→i+1以及相邻帧

和帧间运动表示向量F_i→i+1分别输入RBPN以得到视频帧

所对应的高分辨帧向量H_i和低分辨帧向量L_i以及视频帧

所对应的高分辨帧向量H_i+1和低分辨帧向量L_i+1。

步骤S4：将相邻帧

所对应的高分辨帧向量H_i、H_i+1和低分辨帧向量L_i、L_i+1以及帧间运动表示向量F_i→i+1输入时空超分网络，计算生成插入帧所对应的高分辨帧向量H_i+t’和低分辨帧向量L_i+t’。

步骤S5：将相邻帧

和所生成插入帧所对应的高分辨帧向量H_i、H_i+1、H_i+t’和低分辨帧向量L_i、L_i+1、L_i+t’以及帧间运动表示向量F_i→i+1输入优化网络以得到相邻帧

和所生成插入帧所对应的目标高分辨帧向量

随后将所得到的目标高分辨帧向量

输入重建网络还原成三个目标视频帧

步骤S6：在视频帧序列上循环执行步骤2～步骤5，最后一组相邻帧执行完毕后将所得的各目标视频帧重新编码为视频，以获得高帧率高分辨率的视频。

图7示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法700的流程图。方法700开始于步骤701，视频预处理模块101将视频文件逐一抽帧形成视频帧序列。

在步骤702，帧间运动对齐模块102对视频帧序列中的每一对相邻帧进行特征提取以获得这两个相邻帧所对应的特征向量，并且通过帧间运动对齐网络获得帧间运动表示向量。

在步骤703，时空超分模块103利用循环反投影网络(RBPN)来对两个相邻帧进行超分辨以得到这两个相邻帧所对应的高分辨帧向量，并且通过降采样获得这两个相邻帧所对应的低分辨帧向量。

在步骤704，时空超分模块103利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量，并且通过降采样获得插入帧所对应的低分辨帧向量。

在步骤705，优化重建模块104将由时空超分模块103生成的两个相邻帧和插入帧的高分辨帧向量和低分辨帧向量进行优化以得到两个相邻帧和插入帧的目标高分辨向量，并且通过升采样以生成三个目标视频帧。

在步骤706，视频重构模块105将针对视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为视频，以获得高帧率高分辨率的视频。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

Claims

1.一种基于同步时空超分的用于生成高帧率高分辨率视频的方法，其特征在于，所述方法包括：

将视频文件逐一抽帧形成视频帧序列；

对于所述视频帧序列中的每一对相邻帧进行如下操作：

2.如权利要求1所述的方法，其特征在于，所述通过帧间运动对齐网络获得帧间运动表示向量进一步包括：

输入瓶颈卷积层减少通道数；以及

输入残差块完成对齐，以得到对齐后的帧间运动表示向量。

3.如权利要求1所述的方法，其特征在于，所述利用循环反投影网络RBPN来对所述相邻帧进行超分辨进一步包括：

将所述相邻帧拼接后输入卷积层进行融合和升维；

通过降采样获得所述相邻帧所对应的低分辨帧向量。

4.如权利要求1所述的方法，其特征在于，所述利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量进一步包括：

通过降采样获得所述插入帧所对应的低分辨帧向量。

5.如权利要求1所述的方法，其特征在于，将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化进一步包括：

6.一种基于同步时空超分的用于生成高帧率高分辨率视频的系统，其特征在于，所述系统包括：

时空超分模块，所述时空超分模块被配置成：

7.如权利要求6所述的系统，其特征在于，所述帧间运动对齐模块被进一步配置成：

输入瓶颈卷积层减少通道数；以及

输入残差块完成对齐，以得到对齐后的帧间运动表示向量。

8.如权利要求6所述的系统，其特征在于，所述时空超分模块被进一步配置成：

将所述相邻帧拼接后输入卷积层进行融合和升维；

通过降采样获得所述相邻帧所对应的低分辨帧向量。

9.如权利要求6所述的系统，其特征在于，所述时空超分模块被进一步配置成：

通过降采样获得所述插入帧所对应的低分辨帧向量。

10.如权利要求6所述的系统，其特征在于，所述优化重建模块被进一步配置成：