CN109636721A

CN109636721A - 基于对抗学习和注意力机制的视频超分辨率方法

Info

Publication number: CN109636721A
Application number: CN201811442708.7A
Authority: CN
Inventors: 王浩哲; 陈艳姣; 谈震威
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-16
Anticipated expiration: 2038-11-29
Also published as: CN109636721B

Abstract

针对视频分辨率传统方法中计算开销大、计算效率低、不能高效处理长序列的缺点，本发明公开了一种端到端的基于对抗学习和注意力机制的视频超分辨率方法。本发明采用临帧融合与注意力机制提取时空相关性，采用循环结构以一次性处理长序列，可以获得富于细节、时序连贯的高分辨率重建视频。本发明的有益效果为：1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法，提升了超分辨率的效果；2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好；3、本发明有助于视频超分辨率被应用于实际场景中，如应用于监控设备，卫星影像。

Description

基于对抗学习和注意力机制的视频超分辨率方法

技术领域

本发明属于计算机数字图像处理技术领域，具体涉及一种基于注意力模型和对抗学习模型的视频超分辨率方法。

背景技术

人类获取信息的主要途径是视觉，大部分基于视觉的应用效果取决于图像质量。然而通常由于硬件设备或者恶劣环境等因素，高分辨率视频图像难以获取。超分辨率技术对给定的低分辨率图像或视频帧序列处理，重建出富于细节的高分辨率图像或视频帧，而免去了升级成像系统的成本。

早期的超分辨率技术在上世纪八十年代就已提出，最初采用数学方法进行重建，如迭代反复投影法，插值法，未能取得较好的效果。目前，获得较高重建质量的视频超分辨率方法是基于深度神经网络的模型。

目前的视频超分辨率方法为了利用视频中的时间相关性，建立了一个约束优化问题以估计相邻帧的运动位移，进而进行运动补偿，之后再利用基本对齐的相邻帧之间的亚像素进行单帧的重建。然而，这种方法存在两个问题。其一，运动补偿属于预处理，需要较大计算开销，而且在训练阶段需要额外训练。其二，运动估计使用的滑动窗口包含了大量的计算冗余，每次利用多帧仅能重建单帧，同一帧会参与计算数次，对于长序列的视频计算效率低。

本发明采用了对抗生成网络和注意力机制，设计了神经网络模型解决上述问题。

注意力机制源于生物感知过程，可以在长序列中根据每个元素在当前时刻的重要程度，从而动态地从不同信息源整合时序信息。多被用于自然语言处理任务中处理较长的序列数据，在本方法中用于提取视频的长时相关性。

对抗生成网络是目前主流的生成模型，它具有一个生成网络生成数据和一个判别网络判别数据的真实性。两个网络的目标相反，生成网络意图使生成的数据欺骗判别网络，判别网络意图正确区分出生成数据和真实数据，从而在生成网络和判别网络的博弈中，使生成网络拟合真实数据的分布以生成逼真的数据。在本方法中用于构造视频的感知损失函数和注意力模块的监督信号。

发明内容

本发明针对目前视频超分辨率方法中运动补偿的缺陷，提出了一种高效的视频超分辨率方法，可以重建出富于细节、时空连贯的高分辨率视频，其具体步骤如下：

一种基于对抗学习和注意力机制的视频超分辨率方法，其特征在于，具体步骤如下：

步骤1、构建深度神经网络，包括构造生成网络、判别网络D_t以及判别网络 D_a；

步骤2、训练深度神经网络，具体是基于损失函数，使用公开的、自然场景下的高分辨率视频数据集，训练构造好的神经网络，得到训练好的深度神经网络；

步骤3、利用训练好的模型进行视频超分辨率，具体是首先获取需要进行超分辨率的视频集，将所要处理的视频输入步骤2中训练好的深度神经网络中，获得最终的结果。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，构造生成网络具体包括：

步骤2.1、进行帧编码，基于一个帧编码神经网络，输入是原始视频的帧序列，输出是各帧的特征图(feature map)；帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络；

步骤2.2、进行时空域注意力，基于一个时空域注意力生成网络，输入为帧编码模块所得的各帧特征图(feature map)的序列，输出为各帧特征图的序列；时空域注意力生成网络包含掩膜生成网络，和上下文特征融合网络；

步骤2.3、进行帧解码，基于一个帧解码神经网络，输入是各帧特征图的序列，输出是各帧重建所得高分辨率帧的序列；帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，所述进行时空域注意力，具体包括：

步骤3.1、构造掩模生成网络，其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图，输出为一个表征上下文帧对当前帧关联性的特征掩膜；该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络；

步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图；

步骤3.3、构造上下文特征融合网络，其输入为当前帧的特征图与所有上下文帧的加权特征图的序列，其输出为当前帧的特征图；该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，步骤2中所述构造损失函数具体包括：

步骤4.1、构造生成网络G损失函数L_g(G)，其具体形式为

其中，Y与分别表示自然高分辨率视频与生成高分辨率视频，A为掩膜对正样本，P_real为真实高分辨率视频的概率分布，P_pos为掩模对正样本的概率分布，表示计算L1距离，D_t和D_a分别为两个判别网络，γ与δ为预设的超参数；

步骤4.2、构造判别网络D_t损失函数L_t(D_t)，其具体形式为

其中，Y与分别表示自然高分辨率视频与生成高分辨率视频，P_real为真实高分辨率视频的概率分布；

步骤4.3、构造判别网络D_a损失函数L_a(D_a)，其具体形式为

其中，A与分别表示掩膜对正样本与掩膜对负样本，P_pos为掩膜对正样本的概率分布，P_neg为掩膜对负样本的概率分布。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，步骤2中训练神经网络具体包括：

步骤5.1、获取公开的、自然场景下的高分辨率视频数据集；

步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集；作为优选，所述的下采样包括高斯滤波、各类插值方法；

步骤5.3、对三个神经网络进行参数初始化

步骤5.4、训练判别网络D_t

步骤5.5、标注k_a注意力掩膜对为负样本，加入样本池P

步骤5.6、训练生成网络G

步骤5.7、标注k_a注意力掩膜对为正样本，加入样本池P

步骤5.8、训练判别网络D_a

步骤5.9、不断重复步骤5.4至步骤5.8，直到模型收敛。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，步骤5.4中所述训练判别网络D_t，其具体过程如下：

步骤5.41收集原始高分辨率视频作为正样本，收集上一轮由生成器网络生成的高分辨率视频作为负样本，作为D_t的输入；

步骤5.42计算损失函数L_t(D_t)对网络参数的梯度，基于梯度下降系算法进行参数更新；

步骤5.43将上述过程重复k_t次，完成该轮迭代训练。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，步骤5.6中所述训练生成网络G，其具体过程如下：

步骤5.61将视频序列顺次作为当前帧输入生成器，生成预测的高分辨率视频；

步骤5.62计算损失函数L_g(G)对网络参数的梯度，基于梯度下降系算法进行参数更新；

步骤5.63将上述过程重复k_g次，完成该轮迭代训练。

在上述的基于对抗学习和注意力机制的视频超分辨率方法，步骤5.8中所述判别网络D_a，其具体过程如下：

步骤5.81将当前样本池中的正负样本作为判别网络D_a的输入；

步骤5.82计算损失函数L_a(D_a)对网络参数的梯度，基于梯度下降系算法进行参数更新；

步骤5.83将上述过程重复k_a次，完成该轮迭代训练。

与现有技术相比，本发明的有益效果为：1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法，提升了超分辨率的效果；2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好；3、本发明有助于视频超分辨率被应用于实际场景中，如应用于监控设备，卫星影像。

附图说明

图1是本发明的超分辨率模型模块及数据流概览。

图2是本发明的注意力模块内部结构概览。

图3是本发明实施例的超分辨率模型内部结构图。

图4是本发明实施例的注意力模块内部结构图。

图5是本发明的训练框架图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。本发明的具体步骤为：

(1)构建深度神经网络；

(2)训练深度神经网络；

(3)利用训练好的模型进行视频超分辨率。

步骤(1)所述的构建深度神经网络，具体过程如下：

(11)构造生成网络，如图1，其具体步骤如下：

(111)构造帧编码模块，其输入是原始视频的帧序列，输出是各帧的特征图(feature map)。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中，该模块包含两个残差密集块和融合网络，如图3。其具体实施过程定义如下：

(1111)构造两个相同结构的残差密集块，其具体步骤如下：

(11111)定义7个卷积层，前6层每个卷积核大小为3x3，步长为1，输出通道数32，最后一层卷积核大小为1x1，步长为1，输出通道数64，每个卷积层后是非线性激活层ReLU；

(11112)定义全连接，每层输入为其前面所有层输出的拼接；

(11113)将前6个卷积层按全连接方式连接，再连接最后一层；

(1112)构造融合网络，其具体步骤如下：

(11121)定义三个卷积层，第一个卷积核大小为1x1，步长为1，输出通道数 64，第二层卷积核大小为3x3，步长为1，输出通道数64，第三层卷积核大小为 1x1，步长为1，输出通道数64；每层后连接非线性激活层ReLU；

(11122)将当前帧与前一帧通过残差密集块后的输出拼接作为本网络的输入。

(1113)将上述(1111)与(1112)中模块顺序连接起来。

(112)构造时空域注意力模块，其输入为帧编码模块所得的各帧特征图(featuremap)的序列，输出为各帧特征图的序列。如图2，该模块包含掩膜生成网络和上下文特征融合网络，顺序连接。其具体步骤如下。

(1121)构造掩模生成网络，其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图，输出为一个表征上下文帧对当前帧关联性的特征掩膜。该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中，如图4，其具体实施过程定义如下：

(11211)构造残差单元，它由三个卷积层和一个批标准化层构成，第一个卷积层卷积核大小为1x1，特征映射通道数为c，第二个卷积层卷积核大小为3x3，特征映射通道数为c/2，第三个卷积层卷积核大小为1x1，特征映射通道数为c。卷积层步长均为1，将批标准化层插入第二个卷积层之后，每个1x1的卷积层和批标准化层之后都有一个激励函数层；

(11212)构造最大池化层和双线性插值层；

(11213)定义Sigmoid激活函数层；

(11214)定义两种特征融合层，卷积核大小都为1x1，步长都为1，特征映射通道数分别为c*4和c；

(11215)令r＝1，c＝64，以如下顺序组合模块：1个池化层，r个残差单元， 1个池化层，2r个残差单元，1个插值层，r个残差单元，1个插值层，1个特征映射通道数为c*4的特征融合层，1个特征映射通道数为c的特征融合层，一个激励函数层。

(1122)将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图。

(1123)构造上下文特征融合网络，其输入为当前帧的特征图与所有上下文帧的加权特征图的序列，其输出为当前帧的特征图。该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中，其具体实施过程为：构造两个用于特征融合的卷积层，其卷积核大小分别为3x3和1x1，步长为1，输出通道数64；

(113)构造帧解码器模块，输入是各帧特征图的序列，输出是各帧重建所得高分辨率帧的序列。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中，如图3，其构造包含两个残差密集块、特征融合层、上采样层，其具体实施过程定义如下：

(1131)构造残差密集块，构造方法同步骤(1111)；

(1132)构造特征融合层，构造方法同步骤(1112)；

(1133)构造上采样层，具体步骤如下：

(11331)定义亚像素卷积层；

(11332)将帧编码器和帧解码器的输出拼接后作为输入。

(1134)将步骤(113)中的三个模块依次连接，完成构建。

(12)构造判别网络D_t，输入为一个帧序列，输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程定义如下：

(121)定义卷积层，其结构均为卷积核为3x3，步长为2；

(122)定义批标准化层；

(123)定义Leaky-ReLU激活函数层；

(124)前12层是4组卷积层-批标准化层-激活层，其中卷积层输出通道数分别为64、128、256、512，最后连接1个步长为1卷积核3x3的卷积层和1个Sigmoid 激活层。

(13)构造判别网络D_a，输入为一对特征图(当前帧、某上下文帧及其所得特征掩膜)，输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层 (convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程与(12) 相同；

步骤2所述的训练深度神经网络，如图5，具体过程如下：

(21)构造损失函数，分别为生成网络G损失函数、判别网络D_t损失函数、构造判别网络D_a损失函数，其具体内容为：

(211)构造生成网络G损失函数L_g(G)，计算损失函数对网络参数的梯度，用 ADAM算法更新梯度，其具体形式为

其中，Y与分别表示自然高分辨率视频与生成高分辨率视频，A为掩膜对正样本，P_real为真实高分辨率视频的概率分布，P_pos为掩模对正样本的概率分布，表示计算L1距离，D_t和D_a分别为两个判别网络，γ与δ为预设的超参数。

(212)构造判别网络D_t损失函数L_t(D_t)，其具体形式为

其中，Y与分别表示自然高分辨率视频与生成高分辨率视频，P_real为真实高分辨率视频的概率分布。

(213)构造判别网络D_a损失函数L_a(D_a)，其具体形式为

(22)使用公开的、自然场景下的高分辨率视频数据集，训练构造好的神经网络，其具体过程如下

(221)获取公开的、自然场景下的高分辨率视频数据集；

(222)对高分辨率视频做双三次插值下采样到1/r分辨率的低分辨率数据集；

(223)对三个神经网络用Xavier方法进行参数初始化

(224)训练判别网络D_t，其具体步骤如下：

(2241)收集原始高分辨率视频作为正样本，收集上一轮由生成器网络生成的高分辨率视频作为负样本，作为D_t输入。

(2242)计算损失函数L_t(D_t)对网络参数的梯度，用Adam算法进行参数更新；

(2243)将上述过程重复k_t次，完成该轮迭代训练。

(225)标注k_a注意力掩膜对为负样本，加入样本池P；

(226)训练生成网络G，其具体步骤如下：

(2261)将视频序列顺次作为当前帧输入生成器，生成预测的高分辨率视频；

(2262)计算损失函数L_g(G)对网络参数的梯度，用Adam算法进行参数更新；

(2263)将上述过程重复k_g次，完成该轮迭代训练。

(227)标注k_a注意力掩膜对为正样本，加入样本池P；

(228)训练判别网络D_a，其具体步骤如下：

(2281)将当前样本池中的正负样本作为判别网络D_a的输入；

(2282)计算损失函数L_a(D_a)对网络参数的梯度，用Adam算法进行参数更新；

(2283)将上述过程重复k_a次，完成该轮迭代训练。

(229)不断重复步骤(224)至(228)，直到模型收敛。

步骤(3)所述的利用训练好的模型进行视频超分辨率，具体过程如下：

(31)获取需要进行超分辨率的视频集；

(32)直接将所要处理的视频作为输入，获得最终的结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于对抗学习和注意力机制的视频超分辨率方法，其特征在于，具体步骤如下：

步骤1、构建深度神经网络，包括构造生成网络、判别网络D_t以及判别网络D_a；

2.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法，其特征在于，构造生成网络具体包括：

步骤2.1、进行帧编码，基于一个帧编码神经网络，输入是原始视频的帧序列，输出是各帧的特征图(feature map)；帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络；

步骤2.3、进行帧解码，基于一个帧解码神经网络，输入是各帧特征图的序列，输出是各帧重建所得高分辨率帧的序列；帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。

3.根据权利要求2所述的基于对抗学习和注意力机制的视频超分辨率方法，其特征在于，所述进行时空域注意力，具体包括：

步骤3.1、构造掩模生成网络，其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图，输出为一个表征上下文帧对当前帧关联性的特征掩膜；该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络；

步骤3.3、构造上下文特征融合网络，其输入为当前帧的特征图与所有上下文帧的加权特征图的序列，其输出为当前帧的特征图；该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。

4.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法，其特征在于，步骤2中所述构造损失函数具体包括：