CN113379600A

CN113379600A - 基于深度学习的短视频超分辨率转换方法、装置及介质

Info

Publication number: CN113379600A
Application number: CN202110580746.4A
Authority: CN
Inventors: 傅慧源; 马华东; 刘蓬
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-10

Abstract

本申请涉及短视频分辨率技术领域，具体来说，本申请涉及基于深度学习的短视频超分辨率转换方法、装置及介质。所述方法包括：获取待超分辨率转换的短视频；将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像；将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像；将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。本方法可以提高在多种拍摄场景下的超分辨率适应性，并改善由于设备差异、手抖和物体位移等导致画面效果差的问题，提升短视频画面质量。

Description

基于深度学习的短视频超分辨率转换方法、装置及介质

技术领域

本申请涉及视频分辨率技术领域，更为具体来说，本申请涉及基于深度学习的短视频超分辨率转换方法、装置及介质。

背景技术

随着网络基础设施的快速发展和移动设备的迅速普及，短视频在当前信息社会中的影响力不断增强，观看短视频已经成为人们在线休闲消遣的主要娱乐方式之一。因为短视频具有创作简单、制作门槛较低等特点，所以越来越多的用户通过手机等移动设备完成视频的制作和分享。但是，由于拍摄设备的差异，再加上拍摄过程中容易受到手抖、位移运动和光照环境的影响，使得短视频的质量相较于专业视频有较大差距，从而影响用户的观赏体验。

随着视频超分辨率技术的发展，基于传统方法的视频超分辨率技术需要进行视频帧之间的配准，配准算法的精度直接影响视频超分效果，并且传统方法也不足以适应视频中的各种场景。基于深度学习的视频超分辨率技术虽然具有较强的特征提取和学习能力，但是短视频复杂多变的拍摄场景也为视频帧间关系挖掘带来了挑战。

因此，本申请提出了一种基于深度学习的短视频超分辨率转换方法与装置，以解决此问题。

发明内容

为实现上述技术目的，本申请提供了一种基于深度学习的短视频超分辨率转换方法，包括以下步骤：

获取待超分辨率转换的短视频；

将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像；

将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像；

将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。

优选地，所述去噪网络和所述超分辨率转换网络均为训练好的网络。

具体地，所述注意力模块包括通道注意力模块和空间注意力模块。

进一步地，所述将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像，具体包括：

对所述去除噪声的短视频图像进行预设卷积运算，得到中间过程特征图像；

将所述中间过程特征图像分别输入到所述通道注意力模块和所述空间注意力模块，得到通道注意力特征图像和空间注意力特征图像；

将所述通道注意力特征图像和所述空间注意力特征图像采用元素相加的方式进行融合，得到通道注意力和空间注意力融合的特征图像；

将所述通道注意力和空间注意力融合的特征图像进行点乘运算，得到注意力加权后的特征图像；

将所述注意力加权后的特征图像输入到所述超分辨率转换网络的后续层中，最终得到画面提升的高分辨率短视频图像。

本方案上述的去噪网络和超分辨率网络都要求为训练好的，所述去噪网络和所述超分辨率转换网络的训练步骤为：

获取短视频训练样本，所述样本由同一拍摄场景下的高分辨率短视频和低分辨率短视频组成；

将所述低分辨率短视频输入到去噪网络中，得到去除噪声的短视频样本；

将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练，得到画面提升的高分辨率短视频图像；

根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数；

当迭代次数达到预设次数时，终止训练。

优选地，所述通道注意力模块由多个自适应大小的卷积核和非线性运算层组成，所述空间注意力模块由多个大小为1*1的卷积核和非线性运算层组成。

本方明第二方面提供一种基于深度学习的短视频超分辨率转换装置，所述装置包括：

获取模块，用于获取待超分辨率转换的短视频；

卷积模块，用于将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像；

融合模块，用于将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像；

超分辨率转换模块，包括注意力模块，用于将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。

选择性地，所述装置还包括参数调整模块，根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整参数。

本发明第三方面提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待超分辨率转换的短视频；

本发明第四方面提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

获取待超分辨率转换的短视频；

本申请的有益效果为：本发明的所述方法与装置可以提高在多种拍摄场景下的超分辨率适应性，并改善由于设备差异、手抖和物体位移等导致画面效果差的问题，提升短视频画面质量。

附图说明

图1示出了本申请实施例1的方法流程示意图；

图2示出了本申请实施例1中网络训练的方法流程示意图；

图3示出了本申请实施例2的去噪网络结构示意图；

图4示出了本申请实施例2的超分辨率转换网络结构示意图；

图5示出了本申请实施例2的注意力模块结构示意图；

图6示出了本申请实施例3的装置结构示意图；

图7示出了本申请一实施例所提供的一种电子设备的结构示意图；

图8示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解的是，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是，本申请可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本申请发生混淆，对于本领域公知的一些技术特征未进行描述。

应予以注意的是，这里所使用的术语仅是为了描述具体实施例，而非意图限制根据本申请的示例性实施例。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的，其中为了清楚表达的目的，可能放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例1：

本实施例实施了一种基于深度学习的短视频超分辨率转换方法，如图1所示，包括以下步骤：

S1、获取待超分辨率转换的短视频；

S2、将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像；

S3、将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像；

S4、将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。

优选地，去噪网络和超分辨率转换网络均为训练好的网络。

其中，注意力模块包括通道注意力模块和空间注意力模块。

进一步地，将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像，具体包括：

对去除噪声的短视频图像进行预设卷积运算，得到中间过程特征图像；

将中间过程特征图像分别输入到所述通道注意力模块和所述空间注意力模块，得到通道注意力特征图像和空间注意力特征图像；

将通道注意力特征图像和所述空间注意力特征图像采用元素相加的方式进行融合，得到通道注意力和空间注意力融合的特征图像；

将通道注意力和空间注意力融合的特征图像进行点乘运算，得到注意力加权后的特征图像；

将注意力加权后的特征图像输入到所述超分辨率转换网络的后续层中，最终得到画面提升的高分辨率短视频图像。

上述的去噪网络和超分辨率网络都要求为训练好的，如图2所示，去噪网络和所述超分辨率转换网络的训练步骤为：

S21、获取短视频训练样本，所述样本由同一拍摄场景下的高分辨率短视频和低分辨率短视频组成；

S22、将所述低分辨率短视频输入到去噪网络中，得到去除噪声的短视频样本；

S23、将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练，得到画面提升的高分辨率短视频图像；

S24、根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数；

S25、当迭代次数达到预设次数时，终止训练。

实施例2：

本实施例实施了一种基于深度学习的短视频超分辨率转换方法，包括以下步骤：

步骤1：获取待超分辨率转换的短视频。

可以从现实场景中拍摄采集，可以从不同生活场景中采集大量的高分辨率短和低分辨率短视频。

步骤2：将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像。

去噪网络的结构示意图如图3所示，图3中的conv表示卷积操作，E0-E3表示经过特征提取后输出的特征图，因为进行了预设卷积运算，得到不同尺度大小的特征图像f0-f3。具体而言，不同尺度大小的特征图像通过多层卷积操作获得。可以理解的是，连续的局部卷积操作不断扩大感受野，提取到输入图像的高层特征信息。在预设卷积运算过程中，每层的卷积核大小和卷积步长应根据具体的场景设定。例如，采用卷积核大小为(3*3)，步长为(1*1)的卷积层对短视频图像进行预设卷积运算。特征提取网络通常由多个卷积层组成，图像每经过一个卷积层都会得到一个特定尺度的特征图像，通过多层卷积操作从而获得不同尺度大小的特征图像。

步骤3：将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像。这里再如图3所示，

表示元素相加，

表示特征拼接。f1、f2、f3经过卷积处理后进行特征拼接，拼接后经过卷积处理与f0进行元素相加，然后一并进行多尺度特征分段融合处理。融合处理后的图像用f_fuse表示，再将其进行卷积操作，最终输出的图像用f_final表示，将f_final进行激活函数tanh激活，最后得到去除噪音的短视频图像。

步骤4：将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。

超分辨率转换网络结构示意图如图4所示。如图4所示，从去噪网络中输出的D^LR代表去噪后的视频图像序列，将其进行conv3D操作即三维卷积操作后再输入到注意力模块，从注意力模块中输出后还要进行conv2D操作即二维卷积操作，最后再进行上采样。在特征图像融合过程中，由于高层特征图像和低层特征图像尺度不同，在融合操作之前需要进行上采样操作，将高层特征图像恢复成和低层特征图像相同的大小。这种方式可以实现高层特征和低层特征逐步地融合，融合的特征既含有丰富的语义信息也保留有细节信息。

上采样层采用双线性内插方法。将去噪的短视频图像输入到嵌入注意力模块的超分辨率转换网络中，进行预设卷积运算，得到中间过程特征图像。其中，预设卷积运算包括多个卷积核大小为3*3*3的三维卷积层和LReLU非线性激活层。将所述中间过程特征图像分别输入到注意力模块中，图5为注意力模块结果示意图，如图5所示，将中间过程特征图像分别输入到通道注意力模块和空间注意力模块，得到通道注意力特征图像和空间注意力特征图像。其中，通道注意力模块对输入的特征图像进行自适应平均池化，使用卷积核大小为k的一维卷积获取通道间的依赖关系，得到通道注意力特征图。k计算如下：

其中，C为特征通道数，超参数β和γ分别设置为1和2，选择该公式最接近的奇数作为一维卷积的内核大小。

空间注意力模块对输入的特征图像使用可分离卷积操作获取特征在空间中的依赖关系，得到空间注意力特征图像。将通道注意力特征图像和空间注意力特征图像采用元素相加的方式进行融合，经过Sigmoid非线性函数得到通道注意力和空间注意力融合的特征图像。将融合的注意力特征图像和所述的中间过程特征图像进行点乘运算，得到注意力加权后的特征图像。将注意力加权后的特征图像输入到超分辨率转换网络的后续层中，最终得到画面提升的高分辨率短视频图像。

本实施例在训练网络时，短视频样本可以从现实场景中拍摄采集，为保证短视频超分辨率模型的鲁棒性和有效性，需要从不同生活场景中采集大量的高分辨率和低分辨率视频。将所述低分辨率短视频输入到去噪网络中，得到去除噪声的短视频样本。将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练，得到画面提升的高分辨率短视频图像。根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数。当迭代次数达到预设次数时，终止训练。

作为可变换的实施方式，本实施例还可根据超分辨率转换网络输出的高分辨率短视频图像和真实高分辨率短视频图像的L1距离，调整所述去噪网络和嵌入注意力模块的超分辨率转换网络的参数。当迭代次数达到预设迭代次数时，说明短视频超分辨率模型已经有了较好的去噪能力和超分辨率转换能力，其中预设迭代次数可以是5千、1万等，应根据具体的场景设定。

实施例3：

本实施例实施了一种基于深度学习的短视频超分辨率转换装置，如图6所示，所述装置包括：

获取模块601，用于获取待超分辨率转换的短视频；

卷积模块602，用于将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算，得到不同尺度大小的特征图像；

融合模块603，用于将所述不同尺度大小的特征图像进行元素相加融合，将融合后的特征图像输入到去噪网络的后续层中，得到去除噪声的短视频图像；

超分辨率转换模块604，包括注意力模块，用于将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像。

选择性地，所述装置还包括参数调整模块605，根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整参数。

接下来请参考图7，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图7所示，所述电子设备2包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于深度学习的短视频超分辨率转换方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述基于深度学习的短视频超分辨率转换方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的基于深度学习的短视频超分辨率转换方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的基于深度学习的短视频超分辨率转换方法对应的计算机可读存储介质，请参考图8，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于深度学习的短视频超分辨率转换方法。

所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

需要说明的是：在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的短视频超分辨率转换方法，其特征在于，包括以下步骤：

获取待超分辨率转换的短视频；

2.根据权利要求1所述的基于深度学习的短视频超分辨率转换方法，其特征在于，所述去噪网络和所述超分辨率转换网络均为训练好的网络。

3.根据权利要求1所述的基于深度学习的短视频超分辨率转换方法，其特征在于，所述注意力模块包括通道注意力模块和空间注意力模块。

4.根据权利要求3所述的基于深度学习的短视频超分辨率转换方法，其特征在于，所述将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络，得到画面提升的高分辨率短视频图像，具体包括：

5.根据权利要求2所述的基于深度学习的短视频超分辨率转换方法，其特征在于，所述去噪网络和所述超分辨率转换网络的训练步骤为：

当迭代次数达到预设次数时，终止训练。

6.根据权利要求3所述的基于深度学习的短视频超分辨率转换方法，其特征在于，所述通道注意力模块由多个自适应大小的卷积核和非线性运算层组成，所述空间注意力模块由多个大小为1*1的卷积核和非线性运算层组成。

7.一种基于深度学习的短视频超分辨率转换装置，其特征在于，所述装置包括：

获取模块，用于获取待超分辨率转换的短视频；

8.根据权利要求7所述的基于深度学习的短视频超分辨率转换装置，其特征在于，所述装置还包括参数调整模块，根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异，调整参数。

9.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至6中任一项方法的步骤。