CN112330543A

CN112330543A - 一种基于自监督学习的视频超分辨方法及系统

Info

Publication number: CN112330543A
Application number: CN202011382569.0A
Authority: CN
Inventors: 唐杰; 张聪聪; 李庆瑜; 戴立言
Original assignee: SHANGHAI WONDERTEK SOFTWARE CO Ltd
Current assignee: SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-02-05

Abstract

本发明涉及视频处理技术领域，提供了一种基于自监督学习的视频超分辨方法及系统，包括建立自监督超分辨率训练框架，具体为：下载超高清电影，并分割成高分辨率视频片段HR，作为超分辨率训练框架的训练数据输入；将高分辨率视频片段HR输入视频退化网络进行下采样，输出低分辨率视频片段LR；将低分辨率视频片段LR输入超分辨率网络进行预测，输出预测后的高分辨率视频片段HR_pred；通过训练损失函数更新超分辨率网络的网络权重。更多的从图像退化的角度，使得超分辨网络的输入更好的符合现实情形，训练得到了耗时低、效果相对较好的超分辨率模型，有很高的实际应用价值。

Description

一种基于自监督学习的视频超分辨方法及系统

技术领域

本发明涉及视频处理的技术领域，尤其涉及视频超分辨处理技术领域，具体涉及一种基于自监督学习的视频超分辨方法及系统。采用了深度学习、视频编解码和图像处理技术，在分辨率提升的同时，也能够很好的丰富视频细节，使视频更加清晰。

背景技术

对于视频超分辨率算法，目前主要有单帧视频超分辨率算法、多帧视频超分辨率算法。单帧视频超分辨率算法完全依靠当前帧的信息，通过深度学习模型，增强视频的细节特征，使视频更加清晰；多帧视频超分辨率依靠当前帧以及当前帧的前后N帧作为深度学习网络的输入，对当前帧的细节进行预测，加强视频细节特征，使视频更加清晰。

往往多帧视频超分辨算法比单帧视频超分辨率算法效果要好一些，因为有更多的输入信息去预测当前帧的细节特征。但是多帧超分辨率算法比单帧超分辨率算法更加耗时，处理一帧视频都是秒级的，在实际的应用中并不友好。

在训练视频超分辨率的过程中，一般都是将图像通过某种退化算法(如bicubic插值)得到细节较少、分辨率低的低质量图像，将该低质量图像作为深度学习网络的输入，通过深度学习网络，得到退化之前的图像，即高分辨率、高质量图像。一般地，图像退化算法和超分辨率算法过程是同等重要的，图像退化算法能够更好的模拟现实应用中的低质量图像，也将决定可以得到更好的超分辨率算法模型。

发明内容

针对上述问题，本发明的目的在于提供一种基于自监督学习的视频超分辨方法及系统，更多的从图像退化的角度，使得超分辨网络的输入更好的符合现实情形，训练得到了耗时低、效果相对较好的超分辨率模型，有很高的实际应用价值。

本发明的上述发明目的是通过以下技术方案得以实现的：

一种基于自监督学习的视频超分辨方法，包括以下步骤：

S1：建立自监督超分辨率训练框架，具体包括：

S11：预先下载若干超高清电影，并按照预设定长分割成高分辨率视频片段HR，作为所述超分辨率训练框架的训练数据输入；

S12：建立视频退化网络，将所述高分辨率视频片段HR输入所述视频退化网络进行下采样，输出低分辨率视频片段LR；

S13：建立超分辨率网络，将所述低分辨率视频片段LR输入所述超分辨率网络进行预测，输出预测后的高分辨率视频片段HR_pred；

S14：建立训练损失函数，通过所述训练损失函数更新所述超分辨率网络的网络权重；

S2：当需要对视频文件进行超分辨率处理时，将所述视频文件进行解码分解成视频帧，将所述视频帧输入所述超分辨率网络后，输出超分辨率的所述视频帧，再进行编码得到超分辨率处理后的所述视频文件。

进一步地，所述视频退化网络，具体为：

将所述高分辨率视频片段HR，进行组成成分的拆分，分为亮度成分Y和色彩成分CbCr，对所述亮度成分Y和所述色彩成分CbCr分布进行处理；

对所述亮度成分Y，通过神经网络进行图像特征的提取，得到特征提取后的所述亮度成分Y；

对所述色彩成分CbCr，进行下采样，得到下采样后的所述色彩成分CbCr；

将特征提取后的所述亮度成分Y与下采样后的所述色彩成分CbCr，进行组合，得到所述低分辨率视频片段LR。

进一步地，在对所述亮度成分Y进行图像特征的提取的同时，对所述亮度成分Y进行卷积参数回归。

进一步地，所述训练损失函数，具体包括：L1_loss,content_loss和sobel_loss三个损失函数；

RGB色彩空间的L1_loss；

L1_loss＝∑|HR_pred-HR|

RGB色彩空间的content_loss；

content_loss＝∑|vgg19(HR_pred)-vgg19(HR)|

其中，vgg19是有预训练参数的模型；

RGB色彩空间的sobel_loss；

sobel_loss＝∑|get_sobel(HR_pred)-get_sobel(HR)|

其中，get_sobel是图像处理种的sobel梯度算子。

进一步地，在步骤S2中，还包括：采用ffmpeg对所述视频文件进行解码和编码。

一种基于自监督学习的视频超分辨系统，包括：

超分辨率训练框架建立模块，用于建立自监督超分辨率训练框架，并进一步包括：

数据准备单元，用于预先下载若干超高清电影，并按照预设定长分割成高分辨率视频片段HR，作为所述超分辨率训练框架的训练数据输入；

视频退化网络建立单元，用于建立视频退化网络，将所述高分辨率视频片段HR输入所述视频退化网络进行下采样，输出低分辨率视频片段LR；

超分辨率网络建立单元，用于建立超分辨率网络，将所述低分辨率视频片段LR输入所述超分辨率网络进行预测，输出预测后的高分辨率视频片段HR_pred；

训练损失函数建立单元，用于建立训练损失函数，通过所述训练损失函数更新所述超分辨率网络的网络权重；

视频文件超分辨率处理模块，用于当需要对视频文件进行超分辨率处理时，将所述视频文件进行解码分解成视频帧，将所述视频帧输入所述超分辨率网络后，输出超分辨率的所述视频帧，再进行编码得到超分辨率处理后的所述视频文件。

进一步地，所述视频退化网络建立单元，进一步包括：

视频拆分子单元，用于将所述高分辨率视频片段HR，进行组成成分的拆分，分为亮度成分Y和色彩成分CbCr，对所述亮度成分Y和所述色彩成分CbCr分布进行处理；

亮度成分处理子单元，用于对所述亮度成分Y，通过神经网络进行图像特征的提取，得到特征提取后的所述亮度成分Y；

色彩成分处理子单元，用于对所述色彩成分CbCr，进行下采样，得到下采样后的所述色彩成分CbCr；

视频合并单元，用于将特征提取后的所述亮度成分Y与下采样后的所述色彩成分CbCr，进行组合，得到所述低分辨率视频片段LR。

进一步地，所述视频退化网络建立单元，还包括：

卷积参数回归子单元，用于在对所述亮度成分Y进行图像特征的提取的同时，对所述亮度成分Y进行卷积参数回归。

一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的方法。

与现有技术相比，本发明的有益效果是：

本发明利用深度学习的生成模型，构建了自监督超分辨率训练框架，在提升视频图像的分辨率的同时，保持和增强了图像细节，可以更大程度上给人们带来好的视觉享受；本发明使用的单帧视频图像超分辨率的技术路线，在消耗较小的计算资源的前提下，可以得到更好的视频质量。

附图说明

图1为本发明建立自监督超分辨率训练框架的整体示意图；

图2为本发明图像退化网络卷积参数回归示意图；

图3为本发明超分辨率推理过程示意图；

图4为本发明超分辨率处理流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

视频超分辨率技术根本的目的，和传统的插值算法一样，都是将低分辨率视频帧处理得到高分辨视频帧。传统的插值算法，能够提高视频的分辨率，但得到的视频质量相对较低，视频帧的细节模糊不清。本发明利用视频超分辨率技术，在视频分辨率提升过程中，解决视频帧质量低和细节模糊的问题。在视频分别率提升的同时，保持并加强视频的细节，使得视频更加清晰，能够提升人们观看的视觉感受。

具体地，本发明采用一种自监督的超分辨率训练框架，不需要成对的训练样本支持模型的训练过程，可以广泛构建适用于当前任务或者场景的数据集，使模型在当前应用场景能有更好的泛化。该训练框架同时训练图像退化和图像超分辨率两个过程，使得模型达到更优，模型有很好的鲁莽性。

大体上说，自监督的超分辨率训练框架包括图像退化和图像超分辨率两个部分，这两个部分串联，在训练中同时优化，使模型达到最优。在图像退化部分，回归卷积参数，对于不同的输入使用不同的卷积参数进行图像退化，有利于超分辨模型的最优化和鲁莽性。

在学习过程中，用到了3种监督学习的代价函数：

RGB色彩空间的L1_loss；

RGB色彩空间的content_loss；

RGB色彩空间的sobel_loss；

在实际应用中，采用图3所示进行超分辨率推理过程。LR为输入的低质量、低空间分辨率的视频帧；SRnet为训练好的最优的网络权重；HR为输出的高质量、高空间分辨率的视频帧。

以下通过具体的实施例进行说明。

第一实施例

本实施例提供了一种基于自监督学习的视频超分辨方法，包括以下步骤：

S1：建立自监督超分辨率训练框架。

具体地，在本实施例中，对待进行超分辨率处理的视频文件进行超分辨率处理之前，我们需要建立一个自监督超分辨率训练框架，后续通过训练完成的自监督超分辨率训练框架中的超分辨率网络对待进行超分辨率处理的视频文件进行上采样操作。

超分辨率，就是将视频帧进行上采样操作，使视频帧的空间分辨率提高指定的倍率；传统的上采样，采用插值算法提高视频帧的空间分辨率。自监督超分辨率训练框架包括输入的视频帧(HR)、视频退化网络、超分辨率网络(SRnet)和输出的视频帧(HR_pred)；在大部分的超分辨率技术中，都使用bicubic的方法对HR降采样得到LR，并作为SRnet的输入，通过loss计算，更新SRnet的网络权重，并经过大量的迭代次数，得到最优的SRnet的网络权重，用于视频超分辨率的推理过程，可使视频分辨率提升和清晰度提高；在当前的训练框架中，用视频帧退化网络代替传统的bicubic的降采样方法，能更好的模拟显示场景中的LR和HR的对应关系，更有利于训练得到最优化的SRnet网络权重。

自监督的超分辨率训练框架，包括图像退化和图像超分辨率两个部分，分别对应视频帧退化网络、超分辨率网络。在训练的过程中，这两个部分同时进行优化，对于不同的HR输入，通过视频帧退化网络得到低质量、低分辨率的LR，LR通过SRnet，可预测得到高质量、高分辨率的HR_pred。

其中，如图1所示，建立自监督超分辨率训练框架，具体包括步骤：

S11：预先下载若干超高清电影，并按照预设定长分割成高分辨率视频片段HR，作为所述超分辨率训练框架的训练数据输入。

具体地，在训练之前预先通过若干超高清电影作为训练框架的数据输入，并将超高清电影分割成预设定长的高分辨率视频片段HR(如5秒钟)。

S12：建立视频退化网络，将所述高分辨率视频片段HR输入所述视频退化网络进行下采样，输出低分辨率视频片段LR。

其中，所述视频退化网络，具体为：

将所述高分辨率视频片段HR，进行组成成分的拆分，分为亮度成分Y和色彩成分CbCr，对所述亮度成分Y和所述色彩成分CbCr分布进行处理。

对所述亮度成分Y，通过神经网络进行图像特征的提取，得到特征提取后的所述亮度成分Y。

对所述色彩成分CbCr，进行下采样，得到下采样后的所述色彩成分CbCr。

进一步地，在对所述亮度成分Y进行图像特征的提取的同时，对所述亮度成分Y进行卷积参数回归。其中，推向退化网络卷积参数回归的举例如图2所示。

S13：建立超分辨率网络，将所述低分辨率视频片段LR输入所述超分辨率网络进行预测，输出预测后的高分辨率视频片段HR_pred。其中，超分辨率推理过程如图3所示。

S14：建立训练损失函数，通过所述训练损失函数更新所述超分辨率网络的网络权重。

其中，所述训练损失函数，具体包括：L1_loss,content_loss和sobel_loss三个损失函数；

RGB色彩空间的L1_loss；

L1_loss＝∑|HR_pred-HR|

RGB色彩空间的content_loss；

content_loss＝∑|vgg19(HR_pred)-vgg19(HR)|

其中，vgg19是有预训练参数的模型；

RGB色彩空间的sobel_loss；

sobel_loss＝∑|get_sobel(HR_pred)-get_sobel(HR)|

其中，get_sobel是图像处理种的sobel梯度算子。

S2：如图4所示，当需要对视频文件进行超分辨率处理时，将所述视频文件进行解码分解成视频帧，将所述视频帧输入所述超分辨率网络后，输出超分辨率的所述视频帧，再进行编码得到超分辨率处理后的所述视频文件。

其中，采用ffmpeg对所述视频文件进行解码和编码。

第二实施例

本实施例提供了一种执行第一实施例中的基于自监督学习的视频超分辨方法的基于自监督学习的视频超分辨系统，包括：

超分辨率训练框架建立模块1，用于建立自监督超分辨率训练框架，并进一步包括：

数据准备单元11，用于预先下载若干超高清电影，并按照预设定长分割成高分辨率视频片段HR，作为所述超分辨率训练框架的训练数据输入；

视频退化网络建立单元12，用于建立视频退化网络，将所述高分辨率视频片段HR输入所述视频退化网络进行下采样，输出低分辨率视频片段LR；

超分辨率网络建立单元13，用于建立超分辨率网络，将所述低分辨率视频片段LR输入所述超分辨率网络进行预测，输出预测后的高分辨率视频片段HR_pred；

训练损失函数建立单元14，用于建立训练损失函数，通过所述训练损失函数更新所述超分辨率网络的网络权重；

视频文件超分辨率处理模块2，用于当需要对视频文件进行超分辨率处理时，将所述视频文件进行解码分解成视频帧，将所述视频帧输入所述超分辨率网络后，输出超分辨率的所述视频帧，再进行编码得到超分辨率处理后的所述视频文件。

进一步地，所述视频退化网络建立单元12，进一步包括：

视频拆分子单元121，用于将所述高分辨率视频片段HR，进行组成成分的拆分，分为亮度成分Y和色彩成分CbCr，对所述亮度成分Y和所述色彩成分CbCr分布进行处理；

亮度成分处理子单元122，用于对所述亮度成分Y，通过神经网络进行图像特征的提取，得到特征提取后的所述亮度成分Y；

色彩成分处理子单元123，用于对所述色彩成分CbCr，进行下采样，得到下采样后的所述色彩成分CbCr；

视频合并单元124，用于将特征提取后的所述亮度成分Y与下采样后的所述色彩成分CbCr，进行组合，得到所述低分辨率视频片段LR。

卷积参数回归子单元125，用于在对所述亮度成分Y进行图像特征的提取的同时，对所述亮度成分Y进行卷积参数回归。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自监督学习的视频超分辨方法，其特征在于，包括以下步骤：

S1：建立自监督超分辨率训练框架，具体包括：

2.根据权利要求1所述的自监督学习的视频超分辨方法，其特征在于，所述视频退化网络，具体为：

3.根据权利要求2所述的自监督学习的视频超分辨方法，其特征在于，还包括：在对所述亮度成分Y进行图像特征的提取的同时，对所述亮度成分Y进行卷积参数回归。

4.根据权利要求1所述的自监督学习的视频超分辨方法，其特征在于，所述训练损失函数，具体包括：L1_loss,content_loss和sobel_loss三个损失函数；

RGB色彩空间的L1_loss；

L1_loss＝∑|HR_pred-HR|

RGB色彩空间的content_loss；

content_loss＝∑|vgg19(HR_pred)-vgg19(HR)|

其中，vgg19是有预训练参数的模型；

RGB色彩空间的sobel_loss；

sobel_loss＝∑|get_sobel(HR_pred)-get_sobel(HR)|

其中，get_sobel是图像处理种的sobel梯度算子。

5.根据权利要求1所述的自监督学习的视频超分辨方法，其特征在于，在步骤S2中，还包括：采用ffmpeg对所述视频文件进行解码和编码。

6.一种执行如权利要求1-5中任意一项所述的基于自监督学习的视频超分辨方法的基于自监督学习的视频超分辨系统，其特征在于，包括：

7.根据权利要求6所述的基于自监督学习的视频超分辨系统，其特征在于，所述视频退化网络建立单元，进一步包括：

8.根据权利要求6所述的基于自监督学习的视频超分辨系统，其特征在于，所述视频退化网络建立单元，还包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。