CN112862675A

CN112862675A - 时空超分辨率的视频增强方法和系统

Info

Publication number: CN112862675A
Application number: CN202011597789.5A
Authority: CN
Inventors: 闫超; 卢丽; 韩强
Original assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Current assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-28

Abstract

本发明提供了时空超分辨率的视频增强方法和系统，其通过流细化损失来降低大运动引起的流动噪声，并且利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST‑MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S‑SR和时间分辨率T‑SR，最后形成时空超分辨率网络STAMnet解决了ST‑MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

Description

时空超分辨率的视频增强方法和系统

技术领域

本发明涉及图像处理的技术领域，尤其涉及时空超分辨率的视频增强方法和系统。

背景技术

时空超分辨率ST-MR是将低空间分辨率视频转换为时空高分辨率视频，而传统的ST-MR只是单独地在时间或空间上处理上下文信息。多个输入帧的空间分辨率S-SR，即多图像和视频SR通过空间对齐相似帧，然后将空间低分辨率S-LR解析为空间高分辨率S-HR，时间分辨率T-SR则通过视频插值来构造中间帧，从而将时间低分辨率T-LR提高到时间高分辨率T-HR。现有技术的ST-MR不是基于深度学习的方法，需要输入较长的视频来提取时空模式，虽然Manoj等人基于深层网络提出ST-MR，然而该ST-MR方法只依赖LR进行插值，未能充分利用ST-MR模式的优点。实际上视频数据空间和时间显然是相关联的，需要联合学习空间和时间特征来解决视频增强任务，这需要更高的空间表示法(分辨率)可以提供更精确的运动信息，更高的时间表示法(帧率)能够更好地提取更多空间上下文信息，在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

发明内容

针对上述现有技术存在的缺陷，本发明提供时空超分辨率的视频增强方法和系统，其通过收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集，并构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息，再将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型，最后将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果；可见，该时空超分辨率的视频增强方法和系统通过流细化损失来降低大运动引起的流动噪声，从而解决了大运动使得视频插值变得困难的问题，并且通过插值帧和输入帧来增强空间分辨率S-SR，通过空间高分辨率S-HR中观察到的大运动和空间低分辨率S-LR中观察到的细微运动来增强时间分辨率T-SR，从而增强空间分辨率S-SR和时间分辨率T-SR模型，解决了在空间高分辨率S-HR帧上执行时间分辨率T-SR很难估计大运动，而在空间低分辨率S-LR帧上插值很难估计细微的运动的问题，再利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST-MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S-SR和时间分辨率T-SR，最后形成时空超分辨率网络STAMnet解决了ST-MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

本发明提供时空超分辨率的视频增强方法，其特征在于，其包括如下步骤：

步骤S1，收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集；

步骤S2，构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息；

步骤S3，将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

步骤S4，将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果；

进一步，在所述步骤S1中，收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集具体包括：

步骤S101，收集Vimeo90K视频数据集，以此使所述视频数据集包括若干大小为448×256的视频；

步骤S102，使用图像旋转、图像翻转和图像随机裁剪中的至少一种操作，来对所述视频数据集进行视频数据增强处理；

步骤S103，将所述视频数据集转换为tfrecord格式文件，并以多线程并行方式来对所述tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集；

进一步，在所述步骤S2中，构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息具体包括：

步骤S201，联合优化空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR，以使在多分辨率中相互增强视频的空间和时间特征和实现视频空间高分辨率特征S-HR和空间低分辨率特征S-LR的相互转换，从而构建得到所述时空超分辨率网络STAMnet；

步骤S202，通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中每个视频对应的高维图像特征信息；

进一步，在所述步骤S3中，将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

步骤S301，对所述时空超分辨网络进行实现关于空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR联合学习的初始化处理，进行关于从原始光流图像到高分辨率特征和低分辨率特征图以及生成细化特征图的改进处理，进行关于在空间和时间上联合学习低分辨率特征图和高分辨率特征图的重建处理，从而实现对所述时空超分辨网络的端到端的训练，再将所述训练数据集的视频数据输入所述时空超分辨网络；

步骤S302，基于所述视频数据中图像帧前向和后向运动的流图像，确定所述视频数据的流细化损失函数，并根据所述流细化损失函数来训练所述时空超分辨率网络的整个网络结构；

步骤S303，利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

进一步，在所述步骤S4中，将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：

步骤S401，将所述测试数据集中的测试视频数据输入所述最优的视频增强模型中，以此利用插入帧和输入帧来增强图像空间分辨率，以及通过在空间高分辨率图像中观察得到的大运动和在空间低分辨率中观察得到的细微运动来增强图像时间分辨率，从而实现所述联合学习空间和时间上下文处理；

步骤S402，从所述联合学习空间和时间上下文处理得到的输出结果中，确定输出结果中每一个输出视频数据的空间分辨率，并将具有最高空间分辨率的视频数据作为最终结果。

本发明还提供时空超分辨率的视频增强系统，其特征在于，其包括数据预处理模块、特征提取模块、训练模块和视频处理模块；其中，

所述数据预处理模块用于收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集；

所述特征提取模块用于构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息；

所述训练模块用于将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

所述视频处理模块用于将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果；

进一步，所述数据预处理模块收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集具体包括：

收集Vimeo90K视频数据集，以此使所述视频数据集包括若干大小为448×256的视频；

并使用图像旋转、图像翻转和图像随机裁剪中的至少一种操作，来对所述视频数据集进行视频数据增强处理；

再将所述视频数据集转换为tfrecord格式文件，并以多线程并行方式来对所述tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集；

进一步，所述特征提取模块构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息具体包括：

联合优化空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR，以使在多分辨率中相互增强视频的空间和时间特征和实现视频空间高分辨率特征S-HR和空间低分辨率特征S-LR的相互转换，从而构建得到所述时空超分辨率网络STAMnet；

再通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中每个视频对应的高维图像特征信息；

进一步，所述训练模块将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

对所述时空超分辨网络进行实现关于空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR联合学习的初始化处理，进行关于从原始光流图像到高分辨率特征和低分辨率特征图以及生成细化特征图的改进处理，进行关于在空间和时间上联合学习低分辨率特征图和高分辨率特征图的重建处理，从而实现对所述时空超分辨网络的端到端的训练，再将所述训练数据集的视频数据输入所述时空超分辨网络；

再基于所述视频数据中图像帧前向和后向运动的流图像，确定所述视频数据的流细化损失函数，并根据所述流细化损失函数来训练所述时空超分辨率网络的整个网络结构；

最后利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

进一步，所述视频处理模块将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：

将所述测试数据集中的测试视频数据输入所述最优的视频增强模型中，以此利用插入帧和输入帧来增强图像空间分辨率，以及通过在空间高分辨率图像中观察得到的大运动和在空间低分辨率中观察得到的细微运动来增强图像时间分辨率，从而实现所述联合学习空间和时间上下文处理；

再从所述联合学习空间和时间上下文处理得到的输出结果中，确定输出结果中每一个输出视频数据的空间分辨率，并将具有最高空间分辨率的视频数据作为最终结果。

相比于现有技术，本发明的时空超分辨率的视频增强方法和系统通过收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集，并构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息，再将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型，最后将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果；可见，该时空超分辨率的视频增强方法和系统通过流细化损失来降低大运动引起的流动噪声，从而解决了大运动使得视频插值变得困难的问题，并且通过插值帧和输入帧来增强空间分辨率S-SR，通过空间高分辨率S-HR中观察到的大运动和空间低分辨率S-LR中观察到的细微运动来增强时间分辨率T-SR，从而增强空间分辨率S-SR和时间分辨率T-SR模型，解决了在空间高分辨率S-HR帧上执行时间分辨率T-SR很难估计大运动，而在空间低分辨率S-LR帧上插值很难估计细微的运动的问题，再利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST-MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S-SR和时间分辨率T-SR，最后形成时空超分辨率网络STAMnet解决了ST-MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的时空超分辨率的视频增强方法的流程示意图。

图2为本发明提供的时空超分辨率的视频增强系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明提供的时空超分辨率的视频增强方法的流程示意图。该时空超分辨率的视频增强方法包括如下步骤：

步骤S1，收集视频数据集，并对该视频数据集进行视频数据增强处理，再将该视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集；

步骤S2，构建时空超分辨率网络STAMnet，并通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中的高维图像特征信息；

步骤S3，将该训练数据集的视频数据输入该时空超分辨率网络，并引入流细化损失来训练该时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

步骤S4，将该测试数据集中的测试视频数据输入该最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果。

上述技术方案的有益效果为：该时空超分辨率的视频增强方法通过流细化损失来降低大运动引起的流动噪声，从而解决了大运动使得视频插值变得困难的问题，并且通过插值帧和输入帧来增强空间分辨率S-SR，通过空间高分辨率S-HR中观察到的大运动和空间低分辨率S-LR中观察到的细微运动来增强时间分辨率T-SR，从而增强空间分辨率S-SR和时间分辨率T-SR模型，解决了在空间高分辨率S-HR帧上执行时间分辨率T-SR很难估计大运动，而在空间低分辨率S-LR帧上插值很难估计细微的运动的问题，再利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST-MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S-SR和时间分辨率T-SR，最后形成时空超分辨率网络STAMnet解决了ST-MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

优选地，在该步骤S1中，收集视频数据集，并对该视频数据集进行视频数据增强处理，再将该视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集具体包括：

步骤S101，收集Vimeo90K视频数据集，以此使该视频数据集包括若干大小为448×256的视频；

步骤S102，使用图像旋转、图像翻转和图像随机裁剪中的至少一种操作，来对该视频数据集进行视频数据增强处理；

步骤S103，将该视频数据集转换为tfrecord格式文件，并以多线程并行方式来对该tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集。

在实际应用中，可在NVIDIA平台上使用Python3.7进行开发，使用Vimeo90K训练集进行训练，此数据集大小为448×256的15000个视频组成。在训练过程中，本发明使用旋转、翻转和随机裁剪操作来增强视频数据。原始图像视为S-HR，采用双三次插值法将原始图像缩小到112×64的S-LR帧(比原始图像小4倍)。这样能够有效地提高视频数据集的收集效率和将视频数据集转换为训练与测试数据集的可靠性。

优选地，在该步骤S2中，构建时空超分辨率网络STAMnet，并通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中的高维图像特征信息具体包括：

步骤S201，联合优化空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR，以使在多分辨率中相互增强视频的空间和时间特征和实现视频空间高分辨率特征S-HR和空间低分辨率特征S-LR的相互转换，从而构建得到该时空超分辨率网络STAMnet；

步骤S202，通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中每个视频对应的高维图像特征信息。

优选地，在该步骤S3中，将该训练数据集的视频数据输入该时空超分辨率网络，并引入流细化损失来训练该时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

步骤S301，对该时空超分辨网络进行实现关于空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR联合学习的初始化处理，进行关于从原始光流图像到高分辨率特征和低分辨率特征图以及生成细化特征图的改进处理，进行关于在空间和时间上联合学习低分辨率特征图和高分辨率特征图的重建处理，从而实现对该时空超分辨网络的端到端的训练，再将该训练数据集的视频数据输入该时空超分辨网络；

步骤S302，基于该视频数据中图像帧前向和后向运动的流图像，确定该视频数据的流细化损失函数，并根据该流细化损失函数来训练该时空超分辨率网络的整个网络结构；

步骤S303，利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型。

在对该时空超分辨网络进行实际训练过程中，其对整个网络进行端到端的训练，并可分为为三个阶段：(1)初始化阶段；(2)改进阶段；(3)重建阶段，具体地，

(1)初始化阶段在LR和HR上实现S-SR、T-SR和ST-MR的联合学习。其中，T-SR、ST-MR和ST-MR在同一子网中学习。此阶段有四个输入，两个RGB帧(

和

)和两个双向光流图像(F_t→t+1和F_t+1→t)，初始化阶段定义为：

S-SR:

L_t＝NetD(H_t；θ_d)

L_t+1＝NetD(H_t+1；θ_d)

Motion：M＝NetM(F_t→t+1,F_t+1→t；θ_m)

ST-SR：H_t+n,L_t+n＝NetST(H_t,H_t+1,L_t,L_t+1,M；θ_st)

其中，S-SR是大小为(M^l×N^l)的连续帧(

和

)及其双向光流图像(F_t→t+1和F_t+1→t)通过NetS生成一对S-LR和S-HR特征图(L_t、H_t、L_t+1和H_t+1)，

和

分别表示t时刻S-LR和S-HR的特征图，c^l和c^h是通道数；θ表示每个网络中的一组权重；上采样和下采样用来增强SR的特征，H_t和H_t+1分别通过NetD的下采样来更新L_t和L_t+1。双向光流图像(F_t→t+1和F_t+1→t)输入运动网络NetM得到运动特征(M)，通过CNN网络学习输出光流特征图，从而有助于对齐F_t→t+1和F_t+1→t之间的相似帧。最后，所有这些特征通过ST-MR方法的NetST，输出中间帧的HR和LR特征图(H_t+n和L_t+n)，n∈[0，1]，最后得到大小为(M^h×N^h)的时空SR帧(

和

)，其中n∈[0，1]，M^l<M^h并且N^l<N^h。初始化阶段STAMnet在S-HR和S-LR之间保持循环一致性；

(2)在初始化阶段原始光流图像(F_t→t+1和F_t+1→t)通过ST-MR得到中间帧的HR和LR特征图，改进阶段通过循环一致性来再次细化特征图，提取残差特征，从而生成更可靠的特征图。改进阶段的定义为：

t：

t+1：

t+n:

(3)重建阶段，STAMnet从(

和

)计算S-LR内部帧

以在空间和时间上联合学习LR和HR。另外，四个特征图(

和

)通过一个卷积层Net_rec转换来重建STAMnet所有的输出(

和

)，例如，

此外，在训练阶段使用损失函数来计算STAMnet重构的图像(

和

)与真实图像之间的损失。损失包含有以下三类：1)在

和

上评估空间损失；2)仅在

上评估时间损失；3)仅在

上计算时空损失。在空间和时间上，输入帧使用STAMnet的三个损失函数来训练，同时产生

和

T+表示帧数大于T。STAM-ST是STAMnet的一个微调模型，HR在空间和时间上使用了时空损失函数，在时空超分辨率帧

上对网络进行优化。STAM-S是STAMnet在S-HR上使用空间损失函数得到的一个微调模型，仅优化

STAM-T是STAMnet在T-HR上使用时间损失函数得到的一个微调模型，STAM-T可以在S-LR和S-HR两种不同的体制下训练，STAM-T_HR使用原始帧(S-HR)作为输入帧，而STAM-T_LR使用缩小后的帧(S-LR)作为输入帧。

每个像素的三种损失(空间、时间和时空损失)都由两种类型的损失函数(L₁和L_vgg)组成。L₁是计算每个像素在预测的超分辨帧

和其HR帧

之间的损失。L_vgg是通过预训练VGG19网络映射到特征空间得到的损失值。

其中，T表示帧数；I^h和I^sr都是VGG19最大池化层(m＝5)通过可微函数f_m映射到特征空间得到的。L₁用来评估图像质量的指标，L_vgg用来评估视觉感知的指标。

相邻两帧(t和t+1)之间的大运动使得视频插值变得困难，这种大运动引起的流动噪声对插值结果有不利影响。STAMnet在S-SR中通过T-SR来抑制这种噪声，但是很难完全解决这个问题。为了解决此问题，本发明提出了流细化(FR)模块，FR模块定义为：

FR:

其中，F_t→t+1和F_t+1→t分别是

和

帧前向和后向运动的流图像；Net_flow是一个U-Net网络。为了降低噪声，本发明提出的流细化损失L_flow为：

其中，训练STAMnet的损失函数定义为：

而采用SGD优化算法来训练和优化网络结构，在Vimeo90K测试集上使用峰值信噪比(PSNR)、结构相似性(SSIM)来验证模型的准确性，PSNR和SSIM越高表示模型越准确。n＝0.5，

和

分别表示输入帧和帧间的SR帧。损失函数w₁＝1，w₂＝2和w₃＝0.1，批量大小为10，学习率为0.0001，动量为0.9，总共训练70次，每训练30次学习率降低10倍。对于每一个微调模型，学习率为0.0001来训练模型20次，每训练10次学习率降低10倍。

可选地，STAMnet的初始化阶段，在NetS和NetD中使用S-SR方法(DBPN或RBPN具有上下采样层)可同时生成一对S-LR和S-HR特征(c^h＝64和c^l＝128)。NetM网络由两个残差块构成，每个残差块由两个大小为3×3的卷积层组成，步长和边距都为1。NetST有五个残差块，然后是上采样的反卷积层。在改进阶段，NetF和NetB使用5个残差块和反卷积层构建。

使用Vimeo90K测试集来评估STAMnet组件的有效性，从而验证各种组件在多分辨率上联合学习的有效性。第一种方法删除了改进阶段的细化部分。第二种方法删除了输入光流图像和NetM，因此不使用运动上下文信息。第三种方法移除FR模块。第四种方法是STAMnet对所有组件进行了评估。这四个方法的结果见表1中的“STAMnet w/o Stage 2”、“STAMnet w/o Flow”、“STAMnet w/o FR”和“STAMnet”。与STAMnet相比，STAMnet w/oStage 2的峰值信噪比(PSNR)在

和

上分别降低了1.473dB和2.01dB。另外，在

和

上STAMnet组件的PSNR最高，表明了各部分组件对增强视频都很重要。

优选地，在该步骤S4中，将该测试数据集中的测试视频数据输入该最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：

步骤S401，将该测试数据集中的测试视频数据输入该最优的视频增强模型中，以此利用插入帧和输入帧来增强图像空间分辨率，以及通过在空间高分辨率图像中观察得到的大运动和在空间低分辨率中观察得到的细微运动来增强图像时间分辨率，从而实现该联合学习空间和时间上下文处理；

步骤S402，从该联合学习空间和时间上下文处理得到的输出结果中，确定输出结果中每一个输出视频数据的空间分辨率，并将具有最高空间分辨率的视频数据作为最终结果。

参阅图2，为本发明提供的时空超分辨率的视频增强系统的结构示意图。该时空超分辨率的视频增强系统包括数据预处理模块、特征提取模块、训练模块和视频处理模块；其中，

该数据预处理模块用于收集视频数据集，并对该视频数据集进行视频数据增强处理，再将该视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集；

该特征提取模块用于构建时空超分辨率网络STAMnet，并通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中的高维图像特征信息；

该训练模块用于将该训练数据集的视频数据输入该时空超分辨率网络，并引入流细化损失来训练该时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

该视频处理模块用于将该测试数据集中的测试视频数据输入该最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果。

上述技术方案的有益效果为：该时空超分辨率的视频增强系统通过流细化损失来降低大运动引起的流动噪声，从而解决了大运动使得视频插值变得困难的问题，并且通过插值帧和输入帧来增强空间分辨率S-SR，通过空间高分辨率S-HR中观察到的大运动和空间低分辨率S-LR中观察到的细微运动来增强时间分辨率T-SR，从而增强空间分辨率S-SR和时间分辨率T-SR模型，解决了在空间高分辨率S-HR帧上执行时间分辨率T-SR很难估计大运动，而在空间低分辨率S-LR帧上插值很难估计细微的运动的问题，再利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST-MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S-SR和时间分辨率T-SR，最后形成时空超分辨率网络STAMnet解决了ST-MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

优选地，该数据预处理模块收集视频数据集，并对该视频数据集进行视频数据增强处理，再将该视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集具体包括：

收集Vimeo90K视频数据集，以此使该视频数据集包括若干大小为448×256的视频；

并使用图像旋转、图像翻转和图像随机裁剪中的至少一种操作，来对该视频数据集进行视频数据增强处理；

再将该视频数据集转换为tfrecord格式文件，并以多线程并行方式来对该tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集。

优选地，该特征提取模块构建时空超分辨率网络STAMnet，并通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中的高维图像特征信息具体包括：

联合优化空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR，以使在多分辨率中相互增强视频的空间和时间特征和实现视频空间高分辨率特征S-HR和空间低分辨率特征S-LR的相互转换，从而构建得到该时空超分辨率网络STAMnet；

再通过该时空超分辨率网络的卷积层来提取得到该训练与测试数据集中每个视频对应的高维图像特征信息。

优选地，该训练模块将该训练数据集的视频数据输入该时空超分辨率网络，并引入流细化损失来训练该时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

对该时空超分辨网络进行实现关于空间分辨率S-SR、时间分辨率T-SR和时空超分辨率ST-MR联合学习的初始化处理，进行关于从原始光流图像到高分辨率特征和低分辨率特征图以及生成细化特征图的改进处理，进行关于在空间和时间上联合学习低分辨率特征图和高分辨率特征图的重建处理，从而实现对该时空超分辨网络的端到端的训练，再将该训练数据集的视频数据输入该时空超分辨网络；

再基于该视频数据中图像帧前向和后向运动的流图像，确定该视频数据的流细化损失函数，并根据该流细化损失函数来训练该时空超分辨率网络的整个网络结构；

最后利用SGD优化算法来训练与优化该时空超分辨率网络，以使在空间和时间上联合学习该高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型。

优选地，该视频处理模块将该测试数据集中的测试视频数据输入该最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：

将该测试数据集中的测试视频数据输入该最优的视频增强模型中，以此利用插入帧和输入帧来增强图像空间分辨率，以及通过在空间高分辨率图像中观察得到的大运动和在空间低分辨率中观察得到的细微运动来增强图像时间分辨率，从而实现该联合学习空间和时间上下文处理；

再从该联合学习空间和时间上下文处理得到的输出结果中，确定输出结果中每一个输出视频数据的空间分辨率，并将具有最高空间分辨率的视频数据作为最终结果。

该时空超分辨率的视频增强系统中数据预处理模块、特征提取模块、训练模块和视频处理模块所起的作用和效果与上述时空超分辨率的视频增强方法所描述的相同，这里就不做重复累述。

从上述实施例的内容可知，该时空超分辨率的视频增强方法和系统通过收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集，并构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息，再将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型，最后将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果；可见，该时空超分辨率的视频增强方法和系统通过流细化损失来降低大运动引起的流动噪声，从而解决了大运动使得视频插值变得困难的问题，并且通过插值帧和输入帧来增强空间分辨率S-SR，通过空间高分辨率S-HR中观察到的大运动和空间低分辨率S-LR中观察到的细微运动来增强时间分辨率T-SR，从而增强空间分辨率S-SR和时间分辨率T-SR模型，解决了在空间高分辨率S-HR帧上执行时间分辨率T-SR很难估计大运动，而在空间低分辨率S-LR帧上插值很难估计细微的运动的问题，再利用时间和空间之间的相互关系，在时空上联合学习，在多分辨率ST-MR中从低分辨率LR直接连接到高分辨率HR，从而得到丰富的多尺度特征来增强空间分辨率S-SR和时间分辨率T-SR，最后形成时空超分辨率网络STAMnet解决了ST-MR只是单独地在时间和空间上处理上下文信息的问题，从而通过视频插值来提高帧率，进而提高了视频帧的空间分辨率，以及在时空超分辨率视频中提取上下文信息，能够提高视频的准确性和清晰度。

Claims

1.时空超分辨率的视频增强方法，其特征在于，其包括如下步骤：

步骤S3，将训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型；

步骤S4，将测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果。

2.根据权利要求1所述的时空超分辨率的视频增强方法，其特征在于：

在所述步骤S1中，收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集，具体包括：

步骤S103，将所述视频数据集转换为tfrecord格式文件，并以多线程并行方式来对所述tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集。

3.根据权利要求1所述的时空超分辨率的视频增强方法，其特征在于：

在所述步骤S2中，构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息具体包括：

步骤S202，通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中每个视频对应的高维图像特征信息。

4.根据权利要求1所述的时空超分辨率的视频增强方法，其特征在于：

在所述步骤S3中，将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

步骤S303，利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型。

5.根据权利要求1所述的时空超分辨率的视频增强方法，其特征在于：

在所述步骤S4中，将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：

6.时空超分辨率的视频增强系统，其特征在于，其包括数据预处理模块、特征提取模块、训练模块和视频处理模块；其中，

所述视频处理模块用于将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果。

7.根据权利要求6所述的时空超分辨率的视频增强系统，其特征在于：

所述数据预处理模块收集视频数据集，并对所述视频数据集进行视频数据增强处理，再将所述视频数据集转换为预定格式的文件和进行数据读取，从而得到相应的训练与测试数据集具体包括：

再将所述视频数据集转换为tfrecord格式文件，并以多线程并行方式来对所述tfrecord格式文件进行数据读取，从而得到相应的训练与测试数据集。

8.根据权利要求6所述的时空超分辨率的视频增强系统，其特征在于：

所述特征提取模块构建时空超分辨率网络STAMnet，并通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中的高维图像特征信息具体包括：

再通过所述时空超分辨率网络的卷积层来提取得到所述训练与测试数据集中每个视频对应的高维图像特征信息。

9.根据权利要求6所述的时空超分辨率的视频增强系统，其特征在于：

所述训练模块将所述训练数据集的视频数据输入所述时空超分辨率网络，并引入流细化损失来训练所述时空超分辨率网络的整个网络结构，同时还利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型具体包括：

最后利用SGD优化算法来训练与优化所述时空超分辨率网络，以使在空间和时间上联合学习所述高维图像特征信息中的低分辨率图像信息和高分辨率图像信息，从而得到最优的视频增强模型。

10.根据权利要求6所述的时空超分辨率的视频增强系统，其特征在于：

所述视频处理模块将所述测试数据集中的测试视频数据输入所述最优的视频增强模型进行联合学习空间和时间上下文处理，从而输出具有最高空间分辨率的视频数据作为最终结果具体包括：