CN112700392A

CN112700392A - 一种视频超分辨率处理方法、设备及存储介质

Info

Publication number: CN112700392A
Application number: CN202011382211.8A
Authority: CN
Inventors: 苏德伟; 张平健
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-04-23

Abstract

本发明公开了一种视频超分辨率处理方法、设备及存储介质，由视频处理模型来实现，包括以下步骤：获取视频序列，提取视频序列中参考帧的特征图和相邻帧的特征图；将相邻帧的特征图对齐到参考帧上；将对齐后的特征图进行局部特征融合，获得局部融合特征图；将对齐后的特征图进行全局特征融合，获得全局融合特征图；将局部融合特征图和全局融合特征图拼接并进行视频帧重建，获得高清视频帧；将获得的高清视频帧进行合并，获得高分辨的视频序列。本发明通过对齐技术和特征融合技术提升视频超分辨率方法的性能，将低分辨率视频有效地重建为高分辨率视频，通过技术手段提升视觉效果，能够降低对硬件设备的依赖，可广泛应用于计算机视觉和深度学习领域。

Description

一种视频超分辨率处理方法、设备及存储介质

技术领域

本发明涉及计算机视觉和深度学习领域，尤其涉及一种视频超分辨率处理方法、设备及存储介质。

背景技术

作为视频增强的基本子任务之一，视频超分辨率旨在将低分辨率视频映射到相应的高分辨率视频。视频超分辨率既可以视为独立任务，也可以与其他任务结合。此外，这种方法的高可用性使得它在许多情况下都可以使用，包括卫星视频，高动态范围视频和监控视频等。因此，对视频超分辨率的研究具有科学和现实意义。

众所周知，视频超分辨率问题是一种不适定问题。这种特性意味着一个给定的输入可能对应于各种结果，如何恢复复杂的输出仍然很困难。另一方面，尽管单图像超分辨率近年来取得了突破，但是直接应用于具有时间依赖性的多帧图像可能会导致时间关系的忽略。通过利用相关的视频帧，特征可以相互补充以获得更好的重建结果并同时保持时间一致性。

由于现有方法通常将若干低分辨率视频帧作为输入并仅重建最中间的参考帧，需要解决的一个关键问题是如何有效地使用相邻帧中的信息。许多工作证明，将相邻帧与参考帧对齐是一种可行的选择，而不是直接将它们串联在一起。受益于光流估计方法的发展，利用光流进行对齐和运动补偿是一种有用的策略。但是，由于运动模糊的存在，很难使用光流获得准确的预测，并且也可能在最终的超分辨率结果中引入不必要的噪声。此外，这种策略通常需要很高的计算成本。

另一个不可避免的问题是如何合理地融合特征以获得更好的结果。一种简单直接的方法是将所有特征拼接在一起，而让框架的其余部分自动学习融合策略。但是，堆叠大量信息可能会对网络的剩余部件造成巨大压力，从而使模型无法充分有效地利用所有特征。为了克服这些缺点，一些方法试图将参考帧的前一帧和后一帧的特征进行融合，而另一些方法将任意相邻帧和参考帧进行特征融合。前者加强了相邻特征之间的连贯性，而后者则包含了丰富的时间信息以补充参考帧的特征。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种视频超分辨率处理方法、设备及存储介质。

本发明所采用的技术方案是：

一种视频超分辨率处理方法，由视频处理模型来实现，包括以下步骤：

获取视频序列，提取所述视频序列中参考帧的特征图和相邻帧的特征图；

将所述相邻帧的特征图对齐到所述参考帧上；

将对齐后的特征图进行局部特征融合，获得局部融合特征图；

采用视频洗牌的策略将对齐后的特征图进行全局特征融合，获得全局融合特征图；

将所述局部融合特征图和所述全局融合特征图拼接并进行视频帧重建，获得高清视频帧；

将获得的高清视频帧进行合并，获得高分辨的视频序列；

其中，所述视频序列中最中间的视频帧为参考帧，其他视频帧作为相邻帧。

进一步，所述视频超分辨率处理方法还包括获取训练数据集的步骤，具体为：

获取高分辨率的视频，将所述视频分离为多个高分辨率的视频帧；

采用图像插值下采样技术对每个所述高分辨率的视频帧进行处理，获得低分辨率的视频帧；

根据所述高分辨率的视频帧和所述低分辨率的视频帧构建视频对作为所述视频处理模型的训练数据集。

进一步，所述视频处理模型包括浅层特征提取模块、隐式特征对齐模块、局部特征融合模块、全局特征融合模块以及重建模块；

所述参考帧和所述相邻帧以RGB形式输入到所述浅层特征提取模块进行特征提取；

进一步，浅层特征提取模块的输出是隐式特征对齐模块的输入，隐式特征对齐模块的输出将会分别输入局部特征融合模块以及全局特征融合模块，两者的输出再分别结合在一起由重建模块负责恢复清晰的高分辨率视频帧；

浅层特征提取模块主要将视频帧从图像层级转变为特征层级，隐式特征对齐模块将相邻帧的特征对齐到参考帧上，使得接下来的模块能够更好地利用更多的特征，局部特征融合模块和全局特征融合模块分别从相邻两帧的角度和所有输入帧的角度对视频帧的特征进行融合，最终两个模块的输出通过卷积网络结合在一起，输入重建模块恢复高分辨率的清晰参考帧。

进一步，浅层特征提取模块由若干残差块叠加构成，每个残差块内部包含一个二维卷积层，一个激活函数，一个二维卷积层，以及一个跳跃连接将残差块的输入直接与输出相加，构建恒等映射；每个视频帧都需要通过该浅层特征提取模块提取低阶信息，便于深度神经网络的学习。

进一步，所述隐式特征对齐模块由改进的可变形卷积叠加构成，所述可变形卷积包括参数预测部分和卷积采样部分；

其中，所述参数预测部分由递减的多空洞卷积单元对参考帧和相邻帧进行特征提取，输出预测的偏移量和调节系数；

所述卷积采样部分利用所述偏移量和所述调节系数这两个参数对相邻帧的特征进行采样，实现隐式的特征对齐。

进一步，每个可变形卷积主要由参数预测和卷积采样两个部分构成，其中参数预测部分主要由递减的多空洞卷积单元对拼接的参考帧和相邻帧进行特征提取，输出预测的两个参数，即偏移量和调节系数，接着卷积采样部分利用这两个参数对相邻帧的特征进行采样，实现隐式的特征对齐；

递减的多空洞卷积单元主要由一系列的空洞卷积构成，从多尺度的角度对输入特征进行信息提取，并且每个空洞卷积将减少特征图的通道数，以减轻计算量，最终多个空洞卷积的输出被拼接起来并预测相应的可变形卷积参数，即偏移量和调节系数；此外，空洞卷积的数量和空洞率会随着所在变形卷积的深度而发生改变，变形卷积所处的位置越深，空洞卷积的数量和空洞率会逐步降低，以减少网络的参数量和计算量。

进一步，所述可变形卷积的隐式对齐过程表示为：

其中，

为输出的对齐后的相邻帧特征，ω_k表示卷积过程中的系数，

即第b个可变形卷层中待对齐的相邻帧特征，p+p_k表示卷积过程中第k个采样点的位置，Δp_i,k为卷积核的采样位置的偏移量，Δm_i,k为卷积核内对应数值的调节系数。

进一步，所述局部特征融合模块从保持时序一致性的角度和保持相邻帧之间紧密性的角度进行设计，形成一个循环的结构；

所述局部特征融合模块通过以下方式对特征图进行局部特征融合：

将输入相邻帧的特征图和所述局部特征融合模块的上一轮输出的特征图进行结合，作为当前循环的输入，使得相邻两帧的信息被充分融合并且信息流能够从第一帧传递到最后一帧。

进一步，每个局部特征融合块由两个普通二维卷积和两个残差块构成，另有两个跳跃连接负责保持当前输入帧的特征。每个模块输出的特征图包含了大部分的当前输入帧的特征以及隐式地包含了维持时序一致性所需要的特征。

进一步，所述全局特征融合模块包括视频洗牌单元、多核卷积单元和逆视频洗牌单元；

所述视频洗牌单元用于将输入的特征图在通道维度上进行分组，以及交换各个分组后的通道；

所述多核卷积单元用于对特征进行充分融合；

所述逆视频洗牌单元用于恢复通道的正确分组。

进一步，全局特征融合模块由若干个叠加的全局特征融合块组成，为了有效地利用所有输入视频帧的特征，从全局的角度出发，利用一种视频洗牌的策略，交换所有输入帧对应的特征图的通道分组，并利用一个多核卷积单元对交换后的特征图进行充分地特征融合。

进一步，局部特征融合模块和全局特征融合模块的输出同样是一系列视频帧对应的特征图，将同一个视频帧对应的特征图通过简单的卷积层融合在一起，从而结合两种不同的融合方式。

进一步，重建模块主要包括一个二维卷积，一系列叠加的残差通道注意力模块，两个跳跃连接和一个上采样层。

进一步，每个残差通道注意力模块中，包括普通残差结构和注意力机制结构，其中注意力机制结构由一个平均池化层，一个卷积层，一个ReLu激活函数层，一个卷积层以及一个Sigmoid激活函数层组成；Sigmoid激活函数层输出一系列通道注意力值，再和输入的特征图做乘法，完成通道注意力机制。

进一步，两个跳跃连接分别来自浅层特征提取模块之前和之后得到参考帧特征图，目的在于构建恒等映射和残差学习，使得中间网络层更容易进行参数学习。

进一步，上采样层主要包括一个亚像素卷积层和一个卷积层。亚像素卷积层主要通过通道换尺度的方式，将多余的通道转变为更大尺度的特征图，以实现图像的放大操作，最终通过卷积层将图征图转变为高分辨率的清晰RGB图像。

进一步，所述视频超分辨率处理方法还包括优化所述视频处理模型的参数的步骤，具体为：

获取预设的优化器和损失函数，设置所述视频处理模型的参数；

对所述视频处理模型的神经网络进行迭代训练后，通过所述损失函数计算所述神经网络的损失；

结合所述优化器和计算获得的损失对所述视频处理模型的参数进行优化。

进一步，损失函数计算重建的视频帧和高分辨率视频帧之间的差异，并以一定的学习率，通过优化器迭代地更新神经网络的权重，从而实现神经网络的优化和训练。

本发明所采用的另一技术方案是：

一种电子设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过对齐技术和特征融合技术提升视频超分辨率方法的性能，将低分辨率视频有效地重建为高分辨率视频，通过技术手段提升视觉效果，能够降低对硬件设备的依赖。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种视频超分辨处理方法的步骤流程图；

图2是本发明实施例中视频处理模型的结构示意图；

图3是本发明实施例中视频处理模型对低分辨率视频进行处理的示意图；

图4是本发明实施例中隐式特征对齐模块中所用的可变形卷积的具体构造示意图；

图5是本发明实施例中递减的多空洞卷积单元的具体构造示意图；

图6是本发明实施例中七帧输入帧通过局部特征融合模块内的局部特征融合块的案例示意图；

图7是本发明实施例中局部特征融合块的具体构造示意图；

图8是本发明实施例中视频洗牌策略和逆视频洗牌策略的具体过程示意图；

图9是本发明实施例中全局特征融合模块内的全局特征融合块的具体构造示意图；

图10是本发明实施例中一种视频超分辨处理方法与现有方法在Vid4数据集的实验结果可视化对比图；

图11是本发明实施例中一种视频超分辨处理方法与现有方法在SPMCS数据集的实验结果可视化对比图；

图12是本发明实施例中一种视频超分辨处理方法与现有方法在Vimeo-90K-T数据集的实验结果可视化对比图；

图13是本发明实施例中一种视频超分辨处理方法与现有方法在真实视频数据集的实验结果可视化对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本实施例提供一种视频超分辨处理方法，能够在局部-全局的角度对视频帧的特征进行融合，以提高重建视频帧的性能。

如图1所示，一种视频超分辨处理方法，由基于神经网络的视频处理模型来实现，包括以下步骤：

S1、获取视频序列，提取视频序列中参考帧的特征图和相邻帧的特征图；其中，视频序列中最中间的视频帧为参考帧，其他视频帧作为相邻帧。

S2、将相邻帧的特征图对齐到参考帧上；

S3、将对齐后的特征图进行局部特征融合，获得局部融合特征图；

S4、采用视频洗牌的策略将对齐后的特征图进行全局特征融合，获得全局融合特征图；

S5、将局部融合特征图和全局融合特征图拼接并进行视频帧重建，获得高清视频帧；

S6、将获得的高清视频帧进行合并，获得高分辨的视频序列。

其中，如图2所示，该视频处理模型包括浅层特征提取模块、隐式特征对齐模块、局部特征融合模块、全局特征融合模块以及重建模块。浅层特征提取模块的输出是隐式特征对齐模块的输入，隐式特征对齐模块的输出将会分别输入局部特征融合模块以及全局特征融合模块，两者的输出再分别结合在一起由重建模块负责恢复清晰的高分辨率视频帧。浅层特征提取模块主要将视频帧从图像层级转变为特征层级，隐式特征对齐模块将相邻帧的特征对齐到参考帧上，使得接下来的模块能够更好地利用更多的特征，局部特征融合模块和全局特征融合模块分别从相邻两帧的角度和所有输入帧的角度对视频帧的特征进行融合，最终两个模块的输出通过卷积网络结合在一起，输入重建模块恢复高分辨率的清晰参考帧。

在对该视频处理模型训练前，先建立输入训练数据集，具体包括步骤A1：

在多种不同的场景下收集多个具有丰富动作变换的、多光照情景的高分辨率视频，将视频分离为单独的多个视频帧，利用图像插值下采样技术对每个单独的视频帧进行处理，得到低分辨率的视频帧，构建低分辨率-高分辨率视频对，作为深度神经网络的输入训练数据集。获得训练数据集后，根据训练数据集采用现有的训练方式对神经网络进行训练，并在训练完成后，获得视频处理模型。

进一步作为可选的实施方式，步骤A1包括步骤A11-A12：

A11、收集高分辨率清晰视频数据集，对每个视频利用场景检测算法寻找差异较大的关键帧，以这些关键帧为分割点将视频分离成若干个处于相似场景的片段，再将片段用抽帧的方式组织为多个含有相同视频帧的高分辨率训练样本集合。在训练阶段利用已经处理好的Vimeo-90K数据集进行训练，每一组训练样本内含有7帧对应的视频帧且具有相似的场景，每个视频帧对应的分辨率大小为448×256。

A12、对Vimeo-90K数据集中每个高分辨率的训练样本集合，通过预先定义的双三次图像插值下采样技术，将视频帧的分辨率缩小成原本的4倍，构建对应的低分辨率视频训练样本集合，因此每个视频片段将同时拥有高分辨率和低分辨率两种对应的训练样本。

在训练过程中，为了优化深度神经网络的参数，首先选择合理的优化器和损失函数并设置相应的参数，接着在网络经过一定批次的迭代过程后，通过损失函数和相应的高分辨率视频计算网络的损失并由优化器负责对网络参数进行优化。

进一步作为可选的实施方式，选择Adam优化器对深度神经网络的参数进行优化，该优化器结合了梯度的一阶矩估计和二阶矩估计求出更新步长，是一种简单且高效的优化方法。首先计算t时间的梯度：

接着计算梯度的指数移动平均数和度平方的指数移动平均数，分别将β₁和β₂设置为0.9和0.999，过程可以表示为：

m_t＝β₁m_t-1+(1-β₁)g_t

对偏差进行纠正，降低对深度神经网络训练的影响：

最终进行参数更新，在前50个迭代时将初始学习率设置为10^-4，并在每20个迭代处将学习率减半，将ε设置为10^-8，具体可以表示为：

选择L₁函数作为初始的损失函数，当网络经过100个迭代收敛时选择L₂函数作为损失函数进行10个迭代的微调。损失函数用于计算重建的高分辨率参考帧和真实的高分辨率参考帧之间的误差，通过优化器和误差对深度神经网络的参数进行优化，从而使得网络具有学习的能力。使用损失函数计算损失的过程可以表示为：

在推理阶段，将待恢复的低分辨率视频通过预处理的方式分离成多个视频帧，将视频帧分为不同的组别按批次输入深度神经网络，每次重建出单个视频帧，待所有视频帧重建完成后通过一定的后处理手段将所有视频帧合并成完整的视频，最终得到高分辨的清晰视频序列。

进一步作为可选的实施方式，对低分辨率待恢复视频进行预处理，将其分离为单个的视频帧，并且利用场景分割算法将相似场景的视频帧组合在一起形成视频片段。使用已经分离好的SPMCS数据集，该数据共含有32个视频片段，每个视频帧对应的低分辨率为240×135，目标恢复的高分辨率为960×540。对于每个视频片段，按顺序每次将其中的7个视频帧输入经过训练数据集预训练的深度神经网络中进行视频帧的重建。首尾不满足7个视频帧要求的位置将用最近的相邻帧进行补全。最终将每个视频片段重建的所有视频帧分别通过视频转换工具FFmpeg合并起来形成完整的高分辨率重建视频。

以下结合具体实施例来详细解释说明视频处理模型对输入的低分辨率视频进行处理，并输出高分辨率视频。

在视频处理模型中，如图3所示，每次将一定数量的低分辨率视频输入网络，最中间的视频帧作为参考帧，其他视频帧作为相邻帧，首先由浅层特征提取模块提取各个视频帧的浅层特征图，接着通过隐式特征对齐模块在特征层面上将相邻帧的特征和参考帧进行对齐，然后将所有视频帧的特征图分别通过局部特征融合模块和全局特征融合模块进行特征融合，最后将结合的视频序列特征图输入重建模块中进行视频恢复，输出超分辨率后的清晰参考帧。具体包括以下步骤S101-S107：

S101、每次输入深度神经网络的是7个低分辨率视频帧，记为

表示待重建的参考帧，其他视频帧表示相邻帧。低分辨率视频帧在输入网络时首先会被随机裁剪成分辨率为64×64的大小以降低网络的计算量，然后通过随机旋转的方式进行数据增强，提高网络的泛化能力。

S102、将以RGB形式输入的视频帧送入浅层特征提取模块，以提取低阶图像特征，特征图的通道数设定为64通道。浅层特征提取模块由一个简单的3×3卷积层和5个残差块组成。每个残差块内包含2个3×3卷积层，LeakyReLU激活函数以及一个残差连接。该过程可以表示为：

其中F_T表示所有视频帧被提取的浅层特征，Net_fea表示浅层特征提取模块。

S103、接下来，为了全面利用相邻帧的特征对参考帧的重建进行辅助，利用隐式特征对齐模块提取相邻帧的特征实现隐式的视频帧对齐。用

表示对齐后的相邻帧特征图，整个隐式特征对齐的过程可以表示为：

其中F_i表示相邻帧的浅层特征，F_t表示参考帧的浅层特征。

隐式特征对齐模块内包含4个叠加的改进可变形卷积。可变形卷积的具体构造如图4所示。相比于普通的卷积过程，可变形卷积本质上在原始的固定采样位置上增加了可预测的偏移量和调节系数两种参数。将输入的两个特征图拼接在一起，通过1个3×3卷积层，1个递减的多空洞卷积单元以及1个3×3卷积层来预测这两种参数。这种策略能够自适应地学习需要与参考帧特征对齐的相邻帧特征上的动态采样位置。整个可变形卷积的隐式对齐过程可以表示为：

其中

即输出的对齐后的相邻帧特征，ω_k表示卷积过程中的系数，

即第b个可变形卷层中待对齐的相邻帧特征，p+p_k表示卷积过程中第k个采样点的位置。Δp_i,k为卷积核的采样位置的偏移量，Δm_i,k为卷积核内对应数值的调节系数。这两个参数的获取方法可以表示为：

ΔP_i，ΔM_i＝f([F_i，F_t])

其中ΔP_i＝{Δp_i，k}，ΔM_i＝{Δm_i，k}，[]表示特征图的串联，f表示预测函数。

在普通的可变形卷积中，f通常以二维卷积的方式呈现，为了更好地预测ΔP_i和ΔM_i以获得更精确的对齐结果，我们使用递减的多空洞卷积单元来构成预测函数f，具体构造如图5所示。输入特征图首先通过1个3×3卷积层，然后同时通过多个具有不同空洞率的卷积层提取多尺度特征并将特征图的通道数减半以降低计算量。其中每个递减的多空洞卷积单元内的空洞卷积数量和空洞率取决于单元所在的可变形卷积层的深度，位置越深则空洞卷积越少，空洞率越小。每加深一层则空洞卷积数量减少2，同时空洞率也减少2。具体来说，第一层可变形卷积内的递减多空洞卷积单元中，空洞卷积的数量为8个，卷积的空洞率分别从1增加到8，而第二层中空洞卷积的数量为6个，卷积的空洞率分别从1增加到6，依此类推。这种做法有利于节省冗余的计算量，能够起到同时提高性能和效率的效果。最后，将所有输出拼接并通过1个1×1卷积层将通道数恢复成最初的输入，即64通道。

S104、将对齐后的特征图通过局部特征融合模块进行局部特征融合。该模块在对齐模块之后，有效地融合来自不同时间段的细节，以便相邻帧的特征可以更好地重建参考帧，同时时间一致性被很好地保持且在相邻帧之间施加了紧密的连贯性。

该模块由10个局部特征融合块组成，7个视频帧对应的特征图通过1个局部特征融合块的案例如图6所示，每个局部特征融合块的具体构造如图7所示。每次输入代表一个视频帧的特征图，它首先和当前块的上一个输出拼接，然后通过1个3×3卷积层进行融合，输出的特征图再和当前块的输入特征图拼接，接着通过1个1×1卷积层和2个残差块进行特征提取，最终通过残差跳跃连接并输出当前帧和上一帧融合的结果。整个过程可以表示为：

其中，

表示中间临时特征，

表示块的上一个视频帧的输出，

表示块的当前视频帧的输入，

表示块的当前视频帧的输出。最终，第b个局部特征融合块输出

表示局部融合后的特征。整个局部特征融合模块的过程可以表示为：

S105、将对齐后的特征图通过全局特征融合模块进行全局特征融合。该模块通过一种视频洗牌的策略精巧地交换了不同视频帧之间的特征并将它们融合。这不仅填补了局部特征融合模块的缺陷而且使得具有较长时间间隔的特征被很好地利用。

该模块同样由10个全局特征融合块组成，具体构造如图9所示。每次输入一组视频帧的特征图，包括相邻帧和参考帧。首先通过1个3×3卷积层提取特征，并将通道数减少为63。然后通过视频洗牌策略在通道维度上对不同视频帧的特征图进行特征图的交换，并将它们重新组合成新的特征图。视频洗牌策略如图8所示，这是一种双向的映射，每个视频帧的特征图被平等地分割为和输入视频帧数量相同的份数，按顺序给每一份标上记号，随后每个视频帧内有相同记号的特征图被重新组合成新的特征图，这样每一个新的特征图内都包括了来自所有视频帧的部分信息。具体来说，输入视频帧的数量为7，每个视频帧对应特征图的通道数为64，经过第一个卷积层后通道数降低为63，则将每个特征图在通道维度上分成7份，每一份包含63/7即9个通道，将每个视频对应的第1份至第7份分组重新组合成第1个至第7个特征图，以完成视频洗牌的步骤。而逆视频洗牌策略则是相反的过程。接着通过1个1×1卷积层和1个多核卷积单元进行特征融合。多核卷积单元主要由具有不同核大小的卷积层组合而成，在多尺度上融合不同帧的特征。具体来说，该层主要包括并行的1个1×1卷积层，1个3×3卷积层和2个3×3卷积层。随后特征图被拼接起来，相继通过1个3×3卷积层和逆视频洗牌策略恢复通道顺序，最终通过1个3×3卷积层和跳跃连接输出。整个全局特征融合模块的过程可以表示为：

其中{G_t-N,…,G_t,…,G_t+N}表示融合的全局特征。

S106、将局部特征融合模块的输出和全局特征融合模块的输出拼接在一起，并通过1个简单的1×1卷积层，以融合具有不同信息的特征图，如图1所示。整个过程可以表示为：

其中

表示融合之后的特征图。

S107、将融合后的特征图通过重建模块进行参考帧的恢复。首先将所有帧对应的特征图进行拼接形成一个64×7通道的特征图，然后通过1个3×3卷积层进行融合和压缩通道，最终输出一个代表参考帧的64通道特征图。接着，应用叠加的20个残差通道注意力块进行超分辨率重建。每个残差通道注意力块内除了传统的残差块结构外，还添加了注意力机制。注意力机制先将特征图进行全局平均池化，然后通过2个3×3卷积层，接着使用Sigmoid激活函数获得通道注意力值，并将它们和输入特征图进行乘积，输出经过注意力机制增强后的特征图。残差通道注意力块通过注意力机制预测了不同通道对应的权重，使得网络具有更强的学习能力。最终通过2个跳跃连接进行残差学习，并通过亚像素卷积层进行上采样。整个过程可以表示为：

其中

表示重建的高分辨率参考帧，Net_up表示亚像素卷积层，bilinear表示双线性上采样操作，Net_RCABs表示残差通道注意力块。

图10为本实施例方法与现有方法在Vid4数据集的实验结果可视化对比图；图11为本实施例方法与现有方法在SPMCS数据集的实验结果可视化对比图；图12为本实施例方法与现有方法在Vimeo-90K-T数据集的实验结果可视化对比图；图13为本实施例方法与现有方法在真实视频数据集的实验结果可视化对比图。其中，在图10-13中ours对应的为本实施例的处理结果，其他对应的是现有技术的处理结果，可以明显的看出本实施例处理的结果更加高清。表1为本实施例方法与现有方法在Vid4数据集的实验结果在数值指标上的对比；表2为本实施例方法与现有方法在SPMCS数据集的实验结果在数值指标上的对比；表3为本实施例方法与现有方法在Vimeo-90K-T数据集的实验结果在数值指标上的对比；表4为本实施例方法与现有方法在真实视频数据集的实验结果在数值指标上的对比。

表1

表2

表3

表4

综上所述，本实施例方法相对于现有技术，通过新颖的隐式对齐技术和特征融合技术提升视频超分辨率方法的性能，将低分辨率视频有效地重建为高分辨率视频，通过技术手段提升视觉效果，降低对硬件设备的依赖。该方法在遥感视频、高动态范围视频以及移动设备视频上具有可观的实际应用场景和现实意义。

本实施例还提供一种电子设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所述方法。

本实施例的一种电子设备，可执行本发明方法实施例所提供的一种视频超分辨处理方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种视频超分辨处理方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频超分辨率处理方法，其特征在于，由视频处理模型来实现，包括以下步骤：

将所述相邻帧的特征图对齐到所述参考帧上；

将获得的高清视频帧进行合并，获得高分辨的视频序列；

2.根据权利要求1所述的一种视频超分辨率处理方法，其特征在于，所述视频超分辨率处理方法还包括获取训练数据集的步骤，具体为：

3.根据权利要求1所述的一种视频超分辨率处理方法，其特征在于，所述视频处理模型包括浅层特征提取模块、隐式特征对齐模块、局部特征融合模块、全局特征融合模块以及重建模块；

所述参考帧和所述相邻帧以RGB形式输入到所述浅层特征提取模块进行特征提取。

4.根据权利要求3所述的一种视频超分辨率处理方法，其特征在于，所述隐式特征对齐模块由改进的可变形卷积叠加构成，所述可变形卷积包括参数预测部分和卷积采样部分；

5.根据权利要求4所述的一种视频超分辨率处理方法，其特征在于，所述可变形卷积的隐式对齐过程表示为：

其中，

为输出的对齐后的相邻帧特征，ω_k表示卷积过程中的系数，

6.根据权利要求3所述的一种视频超分辨率处理方法，其特征在于，所述局部特征融合模块从保持时序一致性的角度和保持相邻帧之间紧密性的角度进行设计，形成一个循环的结构；

7.根据权利要求3所述的一种视频超分辨率处理方法，其特征在于，所述全局特征融合模块包括视频洗牌单元、多核卷积单元和逆视频洗牌单元；

所述多核卷积单元用于对特征进行充分融合；

所述逆视频洗牌单元用于恢复通道的正确分组。

8.根据权利要求1所述的一种视频超分辨率处理方法，其特征在于，所述视频超分辨率处理方法还包括优化所述视频处理模型的参数的步骤，具体为：

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述的一种视频超分辨率处理方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述一种视频超分辨率处理方法。