CN111260560B

CN111260560B - 一种融合注意力机制的多帧视频超分辨率方法

Info

Publication number: CN111260560B
Application number: CN202010098595.4A
Authority: CN
Inventors: 周凡; 苏卓; 林谋广; 陈小燕
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-12-22
Anticipated expiration: 2040-02-18
Also published as: CN111260560A

Abstract

本发明公开了一种融合注意力机制的多帧视频超分辨率方法，包括：采集视频数据并采用视频增强技术对视频数据进行训练以生成训练集及测试集；连接变形卷积特征对齐模块及特征重建模块以构成多帧超分辨率网络，采用训练集对多帧超分辨率网络进行训练；将3D卷积特征对齐模块加入多帧超分辨率网络中，采用训练集对多帧超分辨率网络进行训练；将特征融合模块加入多帧超分辨率网络中，采用训练集对多帧超分辨率网络进行训练；采用训练集对多帧超分辨率网络进行微调以生成多帧超分辨率模型；采用测试集对多帧超分辨率模型进行测试。本发明可通过对大数据的分析有效提高超分辨率效果。

Description

一种融合注意力机制的多帧视频超分辨率方法

技术领域

本发明涉及一种大数据分析技术领域，尤其涉及一种多帧视频超分辨率方法。

背景技术

超分辨率技术广泛应用于公共安全监控识别，医疗影像，卫星遥感，虚拟现实等实际场景中。由于可视化媒体显示技术的发展，图像和视频数据迫切的需要在现有的高清晰度显示器上有更好的显示或播放效果，这也对超分辨率技术提出了更高的要求。视频超分辨率任务和单帧超分辨率相比增加了时序信息。按照利用时序信息的不同方式，基于深度学习的视频超分辨率技术可以大致分为基于多帧级联的方法，基于3D卷积的方法和基于循环结构的方法。

基于多帧级联的方法可以看作是单帧超分辨率换成多帧输入的扩展形式。DUF方法是这类方法的典型代表，它利用多帧特征估计出上采样滤波器和残差来实现超分辨率。最近Wang等人提出的EDVR网络也属于这类方法，EDVR通过多尺度的变形卷积将临帧的特征和当前帧对齐，后续再进行特征融合。这种方法虽然利用了多帧特征，但只是把特征级联到了一起，无法表示帧间的运动信息。

基于3D卷积的方法通过三维卷积核来学习帧间运动信息，Caballero等人首先提出3D卷积可以看作缓慢的帧间信息融合过程。Huang等人通过使用3D卷积提升了BRCN的效果，但他们的工作使用的网络仍然很浅层。Li等人提出的FSTRN采用了带跳跃连接的深层3D卷积网络，为了减小3D卷积的计算量，他们在网络中使用了可分离的3D卷积。

循环神经网络擅长处理序列结构，因此基于循环结构的方法通过RNN，LSTM等进行多帧超分辨率。这种方法中最早提出的是双向RNN，它的网络容量较小，也没有后续的帧间对齐步骤。Guo等人通过采用运动补偿模块和卷积LSTM层改进了双向RNN。最近，Mehdi等人提出了一个多输入多输出的RNN超分网络，该网络使用前一帧的超分结果来估计后续帧的超分结果，递归反馈层的连接能使相邻帧之间保持平滑，从而得到更好的结果。

多帧特征的对齐和融合是视频超分辨率的难点所在。视频中场景，运动复杂，甚至经常面临场景切换，这就需要超分网络自适应的处理这种情况，现存的三种方法在进行帧间对齐时都存在一定的缺陷。

因此，随着可视媒体的发展，视频超分辨率的要求越来越高，迫切需要一种效果更好的视频超分辨率方法。

发明内容

本发明所要解决的技术问题在于，提供一种融合注意力机制的多帧视频超分辨率方法，可通过对大数据进行分析以构建多帧超分辨率模型，从而提高超分辨率效果。

为了解决上述技术问题，本发明提供了一种融合注意力机制的多帧视频超分辨率方法，包括：S1，采集视频数据，并采用视频增强技术对所述视频数据进行训练以生成训练集及测试集；S2，构建变形卷积特征对齐模块及特征重建模块，并连接所述变形卷积特征对齐模块及特征重建模块以构成多帧超分辨率网络，采用所述训练集对所述多帧超分辨率网络进行训练；S3，构建3D卷积特征对齐模块，并将所述3D卷积特征对齐模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练；S4，构建特征融合模块，并将所述特征融合模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练；S5，采用所述训练集对所述多帧超分辨率网络进行微调以生成多帧超分辨率模型；S6，采用所述测试集对所述多帧超分辨率模型进行测试。

作为上述方案的改进，所述步骤S1包括：采集视频数据以构成视频数据集；将所述视频数据集中的每个视频数据切分为多个图像；打乱所述视频数据集中所有图像的顺序，选取部分图像以构成训练集，其余图像构成测试集；在所述训练集的每个图像中选取多个图像块，并分别对所述图像块进行数据增强处理。

作为上述方案的改进，所述数据增强处理包括加高斯噪声处理、翻转处理、颜色抖动处理及旋转90度处理。

作为上述方案的改进，所述步骤S2包括：将EDVR模型前端的特征对齐模块作为变形卷积特征对齐模块，所述变形卷积特征模块包括多尺度特征提取单元、特征对齐单元及时序/空间融合单元；构建特征重建模块，所述特征重建模块包括多个加入空间及通道注意力机制的残差块；将所述变形卷积特征对齐模块与特征重建模块连接以构成多帧超分辨率网络；采用L1损失函数及所述训练集对所述多帧超分辨率网络进行训练；对所述变形卷积特征对齐模块的时序/空间融合单元进行微调。

作为上述方案的改进，所述步骤S3包括：构建3D卷积特征对齐模块，所述3D卷积特征对齐模块包括三个3D残差块，第一个3D残差块与第三个3D残差块之间通过相加进行短路连接，每个3D残差块均包括一个激活函数层及三个卷积层；将所述3D卷积特征对齐模块加入所述多帧超分辨率网络的头部，并将所述3D卷积特征对齐模块与特征重建模块连接；采用L1损失函数及所述训练集对所述3D卷积特征对齐模块进行训练。

作为上述方案的改进，所述L1损失函数为

其中，I表示图像块，H表示图像块的宽度，W表示图像块的长度，

表示多帧超分辨率网络的估计值，x,y表示像素坐标值。

作为上述方案的改进，训练时，采用学习率调整策略。

作为上述方案的改进，每个3D残差块均包括一个激活函数层、一个1×1×1卷积层、一个1×3×3卷积层及一个3×1×1卷积层。

作为上述方案的改进，所述步骤S4包括：构建特征融合模块，所述特征融合模块包括卷积层；将3D卷积特征对齐模块及变形卷积特征对齐模块输出的特征输入到所述特征融合模块进行训练；对所述特征融合模块及特征重建模块进行微调。

作为上述方案的改进，所述特征融合模块包括一个1×1卷积层。

本发明通过对大数据进行分析以构建出由3D卷积特征对齐模块、变形卷积特征对齐模块、特征融合模块及特征重建模块组成的多帧超分辨率模型，从而通过所述多帧超分辨率模型可将低分辨率连续帧重建为分辨率扩大为原图4倍的当前帧。具体地，本发明具有以下有益效果：

1、本发明结合大数据分析技术，对海量的视频数据进行训练，以进一步完善视频样本的多样性，从而提高多帧超分辨率模型的准确性。

2、本发明采取了对变形卷积及3D卷积两种方法融合的方式来进行多帧特征对齐，可以充分利用不同对齐方法的优势，达到比单个特征对齐模块更好的多帧超分结果；

3、本发明通过在特征重建模块中将空间和通道两种注意力机制加入到了基础残差块中，增强了重建网络的表达能力，提高了超分辨率效果。

附图说明

图1是本发明融合注意力机制的多帧视频超分辨率方法的实施例流程图；

图2是本发明融合注意力机制的多帧视频超分辨率方法中特征重建模块的结构示意图；

图3是本发明融合注意力机制的多帧视频超分辨率方法中3D卷积特征对齐模块的结构示意图；

图4是本发明融合注意力机制的多帧视频超分辨率方法中多帧超分辨率模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

在现有的多帧视频超分辨率任务中，需要利用临近帧的信息对当前帧进行补全，并从多帧的特征中学习到从低分辨率图像到高分辨率图像的映射关系。得到良好超分辨率效果的难点是对临近帧特征的对齐和对齐后特征的有效利用。以往方法通过特征级联，三维卷积或者循环神经网络的方式提取多帧特征，但是这些方法都存在自身的不足，难以充分提取到各个临近帧的有效特征，导致超分辨率之后的视频出现帧间画面不连续的现象。在后续的特征重建阶段，以往的多帧方法没有考虑到特征图在通道维度和空间维度上重要程度的不同，导致重建结果的某些部位出现模糊。本发明提出一种融合注意力机制的多帧视频超分辨率方法，通过结合大数据分析技术，对海量的视频数据进行训练，以进一步完善视频样本的多样性，从而提高多帧超分辨率模型的准确性。

参见图1，图1显示了本发明融合注意力机制的多帧视频超分辨率方法的实施例流程图，其包括：

S1，采集视频数据，并采用视频增强技术对所述视频数据进行训练以生成训练集及测试集。

采集多帧超分辨率需要的视频数据，并使用优酷视频增强技术对视频数据进行训练和测试。具体地，所述步骤S1包括：

步骤一，采集视频数据以构成视频数据集。

步骤二，将所述视频数据集中的每个视频数据切分为多个图像。

用FFmpeg命令将视频数据集中的视频数据切分为png格式的图像，需要说明的是，FFmpeg是一套记录转换视频音频格式的开源程序，可以运行音频和视频多种格式的录影、转换、流功能。

例如，本发明中可将每个视频数据切分为100张图像，若视频数据集中共有1000段视频数据，则可得到100000个低分辨率/高分辨率图像。

步骤三，打乱所述视频数据集中所有图像的顺序，选取部分图像以构成训练集，其余图像构成测试集。

例如，将步骤二中生成的图像打乱顺序，可随机选取3/4的图像作为训练集，其余图像作为测试集。若共有100000个图像，则训练集共包括75000张图像，测试集包括25000张图像。

步骤四，在所述训练集的每个图像中选取多个图像块，并分别对所述图像块进行数据增强处理。优选地，所述数据增强处理包括加高斯噪声处理、翻转处理、颜色抖动处理及旋转90度处理，但不以此为限制。

因此，针对步骤三中生成的训练集，在每个图像中选取对应的固定大小的图像块。例如，首先，对每个图像生成10个图像块，其中，低分辨率图像块的大小为64×64，高分辨率图像块的大小为256×256；然后，对得到的图像块以0.5的概率值进行加高斯噪声、翻转、颜色抖动、旋转90度等数据增强处理，得到最终的训练集。

S2，构建变形卷积特征对齐模块及特征重建模块，并连接所述变形卷积特征对齐模块及特征重建模块以构成多帧超分辨率网络，采用所述训练集对所述多帧超分辨率网络进行训练。

具体地，所述步骤S2包括：

步骤一，将EDVR模型前端的特征对齐模块作为变形卷积特征对齐模块，所述变形卷积特征模块包括多尺度特征提取单元、特征对齐单元及时序/空间融合单元。

步骤二，构建特征重建模块，所述特征重建模块包括多个加入空间及通道注意力机制的残差块。

如图2所示，本发明的特征重建模块由20个加入空间和通道注意力机制的残差块组成。

步骤三，将所述变形卷积特征对齐模块与特征重建模块连接以构成多帧超分辨率网络。其中，多帧超分辨率网络的临近帧的个数为3，即只使用当前帧的前一帧和后一帧作为临帧，在视频的第一帧和最后一帧，用当前帧填充缺失的临帧。

步骤四，采用L1损失函数及所述训练集对所述多帧超分辨率网络进行训练。

需要说明的是，训练时采用L1损失函数，即用网络输出的图像减去真实图像，并取绝对值再对所有像素求和。具体地，所述L1损失函数为：

表示多帧超分辨率网络的估计值，x,y表示像素坐标值。训练时，可将初始学习率设为1e-3，采用学习率调整/退火策略，迭代200000次，但不以此为限制。

步骤五，对所述变形卷积特征对齐模块的时序/空间融合单元进行微调。

微调时，需固定多帧超分辨率网络的其余部分，单独对变形卷积特征对齐模块的时序/空间融合单元进行微调。微调时，可将学习率设为1e-4，迭代50000次，以得到训练好的变形卷积特征对齐模块，但不以此为限制。

因此，本发明通过在特征重建模块中将空间和通道两种注意力机制加入到了基础残差块中，增强了重建网络的表达能力，提高了超分辨率效果。

S3，构建3D卷积特征对齐模块，并将所述3D卷积特征对齐模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练。

固定步骤S2中训练得到的多帧超分辨率网络，在多帧超分辨率网络的头部加入3D卷积特征对齐模块，并对3D卷积特征对齐模块进行训练。具体地，所述步骤S3包括：

步骤一，构建3D卷积特征对齐模块。

如图3所示，所述3D卷积特征对齐模块包括三个3D残差块，第一个3D残差块与第三个3D残差块之间通过相加进行短路连接，每个3D残差块均包括一个激活函数层及三个卷积层；优选地，所述三个卷积层分别为一个1×1×1的卷积层，一个1×3×3的卷积层及一个3×1×1的卷积层，经过这三个卷积层后的输出和输入相加即可得到3D残差块的输出，其中，每个卷积层的通道数均为64，但不以此为限制。

步骤二，将所述3D卷积特征对齐模块加入所述多帧超分辨率网络的头部，将所述3D卷积特征对齐模块与特征重建模块连接，并固定所述特征重建模块。

步骤三，采用L1损失函数及所述训练集对所述3D卷积特征对齐模块进行训练。

所述L1损失函数为：

表示多帧超分辨率网络的估计值，x,y表示像素坐标值。训练时，可将学习率设置为1e-3，迭代200000次，但不以此为限制。

因此，本发明采取了对变形卷积及3D卷积两种方法融合的方式来进行多帧特征对齐，可以充分利用不同对齐方法的优势，达到比单个特征对齐模块更好的多帧超分结果。

S4，构建特征融合模块，并将所述特征融合模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练。

训练时，需固定3D卷积特征对齐模块及变形卷积特征对齐模块，将3D卷积特征对齐模块及变形卷积特征对齐模块输出的特征输入到特征融合模块进行训练。具体地，所述步骤S4包括：

步骤一，构建特征融合模块，所述特征融合模块包括卷积层。

优选地，所述卷积层为1×1卷积，所述卷积层的输入为3D卷积特征对齐模块及变形卷积特征对齐模块输出的级联特征，共有128个通道，输出为64个通道，但不以此为限制。

步骤二，将3D卷积特征对齐模块及变形卷积特征对齐模块输出的特征输入到所述特征融合模块进行训练。

训练时，可设置学习率为1e-3，固定多帧超分辨率网络的其他部分，训练特征融合模块，共迭代10000次，以得到训练好的特征融合模块。

步骤三，对所述特征融合模块及特征重建模块进行微调。

微调时，可设置学习率为1e-4，固定3D卷积特征对齐模块及变形卷积特征对齐模块，微调特征融合模块和后续的特征重建模块。

S5，采用所述训练集对所述多帧超分辨率网络进行微调以生成多帧超分辨率模型。

训练时，多帧超分辨率模型的输入为64×64的低分辨率图像块，将图像块分别送入3D卷积特征对齐模块及变形卷积特征对齐模块中，最终经过特征融合模块和特征重建模块输出大小为256×256的高分辨率图像块；训练过程中，可将整体学习率设置为1e-4，共训练150000次迭代，但不以此为限制。

如图4所示，经过上述步骤S1-5的训练及微调后，可形成由3D卷积特征对齐模块、变形卷积特征对齐模块、特征融合模块及特征重建模块组成的多帧超分辨率模型。

S6，采用所述测试集对所述多帧超分辨率模型进行测试。

测试时，可输入一段Y4m格式的视频，先将其转化成序号相邻的Png格式图像，再将某低分辨率图像和临帧直接输入到两个特征对齐模块(3D卷积特征对齐模块、变形卷积特征对齐模块)中，在特征重建模块后端输出对当前帧4倍超分后的结果；再将输出的结果和原高分辨率图像进行比较，计算PSNR(Peak Signal to Noise Ratio，即峰值信噪比)，SSIM(structural similarity index measurement，即结构相似性)等指标；然后，将输出的结果连接成Y4m格式的视频文件，和原始视频对比计算vmaf(一项由美国Netflix公司开发的开源主观视频质量评价体系Visual Multimethod Assessment Fusion)指标；最后，和其他方法进行比较，本发明的多帧超分辨率模型能达到较好的效果。

由上可知，本发明构建出由3D卷积特征对齐模块、变形卷积特征对齐模块、特征融合模块及特征重建模块组成的多帧超分辨率模型，通过所述多帧超分辨率模型可将低分辨率连续帧重建为分辨率扩大为原图4倍的当前帧。具体地，本发明具有以下有益效果：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种融合注意力机制的多帧视频超分辨率方法，其特征在于，包括：

S1，采集视频数据，并采用视频增强技术对所述视频数据进行训练以生成训练集及测试集；

S2，构建变形卷积特征对齐模块及特征重建模块，并连接所述变形卷积特征对齐模块及特征重建模块以构成多帧超分辨率网络，采用所述训练集对所述多帧超分辨率网络进行训练；所述步骤S2包括：将EDVR模型前端的特征对齐模块作为变形卷积特征对齐模块，所述变形卷积特征模块包括多尺度特征提取单元、特征对齐单元及时序/空间融合单元；构建特征重建模块，所述特征重建模块包括多个加入空间及通道注意力机制的残差块；将所述变形卷积特征对齐模块与特征重建模块连接以构成多帧超分辨率网络；采用L1损失函数及所述训练集对所述多帧超分辨率网络进行训练；对所述变形卷积特征对齐模块的时序/空间融合单元进行微调；

S3，构建3D卷积特征对齐模块，并将所述3D卷积特征对齐模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练；所述步骤S3包括：构建3D卷积特征对齐模块，所述3D卷积特征对齐模块包括三个3D残差块，第一个3D残差块与第三个3D残差块之间通过相加进行短路连接，每个3D残差块均包括一个激活函数层及三个卷积层；将所述3D卷积特征对齐模块加入所述多帧超分辨率网络的头部，并将所述3D卷积特征对齐模块与特征重建模块连接；采用L1损失函数及所述训练集对所述3D卷积特征对齐模块进行训练；

S4，构建特征融合模块，并将所述特征融合模块加入所述多帧超分辨率网络中，采用所述训练集对所述多帧超分辨率网络进行训练；所述步骤S4包括：构建特征融合模块，所述特征融合模块包括卷积层；将3D卷积特征对齐模块及变形卷积特征对齐模块输出的特征输入到所述特征融合模块进行训练；对所述特征融合模块及特征重建模块进行微调；

S5，采用所述训练集对所述多帧超分辨率网络进行微调以生成多帧超分辨率模型；

S6，采用所述测试集对所述多帧超分辨率模型进行测试。

2.如权利要求1所述的多帧视频超分辨率方法，其特征在于，所述步骤S1包括：

采集视频数据以构成视频数据集；

将所述视频数据集中的每个视频数据切分为多个图像；

打乱所述视频数据集中所有图像的顺序，选取部分图像以构成训练集，其余图像构成测试集；

在所述训练集的每个图像中选取多个图像块，并分别对所述图像块进行数据增强处理。

3.如权利要求2所述的多帧视频超分辨率方法，其特征在于，所述数据增强处理包括加高斯噪声处理、翻转处理、颜色抖动处理及旋转90度处理。

4.如权利要求1所述的多帧视频超分辨率方法，其特征在于，所述L1损失函数为

表示多帧超分辨率网络的估计值，x,y表示像素坐标值。

5.如权利要求1所述的多帧视频超分辨率方法，其特征在于，训练时，采用学习率调整策略。

6.如权利要求1所述的多帧视频超分辨率方法，其特征在于，每个3D残差块均包括一个激活函数层、一个1×1×1卷积层、一个1×3×3卷积层及一个3×1×1卷积层。

7.如权利要求1所述的多帧视频超分辨率方法，其特征在于，所述特征融合模块包括一个1×1卷积层。