CN112734644A

CN112734644A - 一种多个注意力结合光流的视频超分辨模型及方法

Info

Publication number: CN112734644A
Application number: CN202110067283.1A
Authority: CN
Inventors: 储岳中; 乔雨楠; 刘恒; 张学锋
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-04-30

Abstract

本发明提供的一种多个注意力结合光流的视频超分辨模型及方法，属于模式识别与计算机视觉技术领域。本发明的模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分。本发明的方法利用双阶段思想分别对微小运动和大型运动进行特征对齐，分别处理微小运动和大型运动的信息，减小了目标帧和参考帧的偏差，充分利用了所有分层的特征信息，利用多个注意力使得视频空间信息不易丢失，保留了空间信息，增强通道的依赖性和自适应性，并能捕获长距离依赖实现全局学习。并利用可变形卷积长短时记忆网络(DLSTM)进行视频帧融合，防止了恢复的视频出现抖动和闪烁伪影等现象，保证视频时序的一致性。

Description

一种多个注意力结合光流的视频超分辨模型及方法

技术领域

本发明涉及模式识别与计算机视觉技术领域，更具体地说，涉及一种多个注意力结合光流的视频超分辨模型及方法。

背景技术

目前，基于卷积神经网络的深度学习方法被广泛应用于在计算机视觉领域。底层视觉中的超分辨技术一直以来都是极具挑战且受欢迎的计算机视觉任务。根据数据类型分类，目前的超分辨工作分为图像超分辨和视频超分辨。视频超分辨与图像超分辨的区别主要有两点，包括：视频帧对齐和视频帧融合。其中，视频帧对齐是因为视频中存在各种运动信息，所以参考帧和目标帧之间存在偏差，在超分辨中一般是需要利用邻帧和参考帧做对齐。而视频中存在运动模糊和场景切换的问题，有效的融合视频帧可以去除干扰信息。

针对上述的两点，目前已有的方法一是利用三维卷积，直接利用3D卷积捕捉时域特征的功能，直接做帧间融合；二是利用循环结构提取帧间关系，融合目标帧和参考帧的信息；三是利用融合后的帧间信息预测滤波器参数，再通过滤波的方式做超分辨，获得自适应的滤波效果。而目前的视频超分辨的整体框架大致有两个思路，一是利用三维卷积，但是使用三维卷积会因为多引入一个维度而增加更多的参数，导致计算成本的增加。二是将视频处理成一帧一帧的图像，然后按照图像超分辨的方法来处理，这样做难以保持视频的时序一致性，恢复的视频容易出现抖动现象。

经检索，中国专利申请号：ZL201911203785.1，申请日为：2019年11月29日，发明名称为：一种基于深度双重注意力网络的视频超分辨率重建方法，该申请案通过加载级联的运动补偿网络模型和重建网络模型，充分利用时空信息特征来实现精确的视频超分辨率重建；其中的运动补偿网络模型能够由粗糙到细致地逐步学习光流表示合成相邻帧的多尺度运动信息；在重建网络模型中利用双重注意力机制，并形成一个残差注意力单元，专注中间信息特征，能够更好的恢复图像细节。但该申请案依然为将视频处理成一帧一帧的图像来进行超分辨处理，恢复的视频依然会出现抖动的现象。

发明内容

1.发明要解决的技术问题

鉴于现有的视频超分辨方法存在计算成本高或视频恢复后易出现抖动的问题，本发明提供了一种多个注意力结合光流的视频超分辨模型及方法，利用双阶段特征对齐的思路，使用光流网络处理微小运动信息，利用可变形卷积的LSTM来处理大型运动信息，减小了目标帧和参考帧偏差的同时，保证了恢复的视频在时序上的一致性。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种多个注意力结合光流的视频超分辨模型，该模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分；视频帧依次通过四个部分达到超分辨；所述的特征处理部分包括多注意力分支和注意力光流估计分支；所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块；注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。

更进一步地，所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块；所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块，再进入光流估计网模块-卷积模块-上采样模块-卷积模块。

更进一步地，所述的特征提取部分包括两个卷积模块和三个残差密集模块，输入的视频帧依次经过两个卷积模块和三个残差密集模块，再进入特征处理模块；所述的视频重建模块为卷积模块。

本发明的一种利用上述模型进行多个注意力结合光流的视频超分辨方法，其步骤为：

步骤一、输入连续的2n+1个低分辨的视频帧；

步骤二、将视频帧输入模型的特征提取部分，提取视频帧特征F；

步骤三、将提取的特征F分别送入多注意力分支和注意力光流估计分支，可以得到两个分支的输出

和

步骤四、对

和

进行上采样后，输入可变形卷积网络DLSTM和一个卷积模型，得到视频超分辨特征

更进一步地，所述的步骤一中，输入的视频帧为MAFnet中的2n+1个LR帧，其序列为

MAFnet输入大小为(M_L×N_L)，其中

是输出的HR帧，表示为I_SR，大小为(M_H×N_H)，并且M_H>M_L，N_H>N_L。

更进一步地，所述的步骤二中，视频帧经过两次卷积操作和残差密集块操作获得特征F，

其中，I_LR表示输入的低分辨帧，H_rdb(·)表示残差密集块操作，H_c(·)表示卷积操作。

更进一步地，所述的步骤三中，提取的特征F送入多注意力分支和注意力光流估计分支，分别得到多注意力分支输出，式(2)，和注意力光流估计分支输出，式(3)，

其中，H_se(·)为自注意力模块函数，H_sa(·)为空间注意力模块函数，H_ca(·)为通道注意力模块函数，H_f(·)为光流模块函数。

更进一步地，所述的通道注意力中，将特征输入后，分别经自适应平均池化和自适应最大池化后，经卷积通道缩小并经过激活函数ReLU，随后经过卷积恢复通道；将得到两特征相加经过Sigmoid函数得到注意力特征图，再将注意力特征图与输入特征作矩阵乘法得到输出特征；

所述的空间注意力中，将特征输入后，先经过卷积和激活函数LReLU，再经过由平均池化、最大池化和连接操作构成池化层，接着经过卷积和LReLU得到特征1，之后，经过重复的卷积、LReLU和池化层结构，并经过两次卷积和LReLU结构，再进行插值运算得到特征2，将特征1和特征2相加后经过卷积、LReLU和插值运算，将特征依次送入两个卷积和LReLU，得到特征3，利用Sigmoid函数得到注意力特征图，将注意力特征图和输入特征作矩阵乘法，并将结果与特征3相加得到输出特征；

所述的自注意力中，将特征输入后，分别经过三个卷积通道，得到特征1、特征2和特征3，特征1与特征2作矩阵乘法并经过softmax函数得到注意力图，再与特征3作矩阵乘法得到输出特征。

更进一步地，所述的光流估计网络中，给定任何两个相邻帧I_i,I_i+1，则光流计算公式可以表示为

f_i→i+1＝N_f(I_i，I_i+1) (4)

其中，N_f表示光流估计网络。

更进一步地，所述的步骤四中，对

和

进行上采样

其中，↑表示上采样；将y₁，y₂送入DLSTM，再经过一层卷积得到最后的输出

其中，

表示经过DLSTM和最后重建卷积得到的特征；整个网络最后表示为

I_SR＝H_MAFnet(I_LR) (8)。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

(1)鉴于现有的视频超分辨方法存在计算成本高或视频恢复后易出现抖动的问题，本发明的一种多个注意力结合光流的视频超分辨方法，提供双阶段特征对齐的思路，分别处理微小运动和大型运动的信息，减小了目标帧和参考帧的偏差，充分利用了所有分层的特征信息，利用多个注意力使得视频空间信息不易丢失，保留了空间信息，增强通道的依赖性和自适应性，并能捕获长距离依赖实现全局学习。

(2)本发明的一种多个注意力结合光流的视频超分辨方法，使用光流网络进行第一阶段的特征对齐，来处理微小运动信息，利用添加了可变形卷积的LSTM来处理大型运动信息，提升了分辨能力，并减少了抖动现象，保证视频时序的一致性。

(3)本发明的一种多个注意力结合光流的视频超分辨模型，在空间注意力模块中，选用LReLU作为激活函数，缓解了训练过程中神经元死亡的问题，更好地保留空间信息，解决了ReLU在训练过程中导致神经元死亡，无法进一步更新参数梯度的问题。在模型中将可变形卷积加入到传统LSTM中，可以对空间位置信息的位移进行调整保留了LSTM原本的优点，同时增强了视频帧在时序上对齐的能力，有效利用上下文信息处理视频中的大运动信息，保证了视频的连续性。

附图说明

图1为本发明模型的整体流程框图；

图2为本发明中通道注意力模型结构图；

图3为本发明中空间注意力模型结构图；

图4为本发明中自注意力模型结构图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

基于现有技术中，传统的视频超分辨方法使用3D卷积提取空间信息，以保留视频的空间特征。但是，一旦引入了3D卷积，则意味着新引入了一个维度，不仅会带来更多的参数，增加计算成本，还会限制网络的深度并影响超分辨性能。另外一些方案选择逐帧处理视频，然后根据图像超分辨方法进行超分辨率。不过，这种方法很难保证视频的连贯性，尤其是对于含有运动幅度大的视频，而且局部特征和全局依赖无法很好地集成。此外可以选择使用递归神经网络用于维持视频的连贯性，但是这种方法在保留空间信息方面效果不好。本发明的一种多个注意力结合光流的视频超分辨模型及方法，提供双阶段特征对齐的思路，分别处理微小运动和大型运动的信息，减小了目标帧和参考帧的偏差，充分利用了所有分层的特征信息，利用多个注意力使得视频空间信息不易丢失，保留了空间信息，增强通道的依赖性和自适应性，并能捕获长距离依赖实现全局学习。

实施例1

结合图1，本实施例的一种多个注意力结合光流的视频超分辨模型，包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分；视频帧依次通过四个部分达到超分辨；所述的特征处理部分包括多注意力分支和注意力光流估计分支；所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块；注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块；所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块，再进入光流估计网模块-卷积模块-上采样模块-卷积模块。所述的特征提取部分包括两个卷积模块和三个残差密集模块，输入的视频帧依次经过两个卷积模块和三个残差密集模块，再进入特征处理模块；所述的视频重建模块为卷积模块。

步骤一、输入连续的2n+1个低分辨的视频帧：将多注意力光流网络(MAFnet)的输入大小表示为(M_L×N_L)，输入的LR帧是2n+1个LR帧的序列

其中

为输出的HR帧，将其表示为I_SR，大小为(M_H×N_H)，并且M_H>M_L，N_H>N_L。

步骤二、将视频帧输入模型的特征提取部分，提取视频帧特征F：将输入的视频序列送入到第一部分进行特征提取，频帧经过两次卷积操作和残差密集块操作获得特征F：

和

提取的特征F送入多注意力分支和注意力光流估计分支，分别得到多注意力分支输出，式(2)，和注意力光流估计分支输出，式(3)，

其中，H_se(·)为自注意力模块函数，H_sa(·)为空间注意力模块函数，H_ca(·)为通道注意力模块函数，H_f(·)为光流模块函数。光流估计网络是双阶段特征对齐的第一个阶段，主要是处理微小运动。送入多注意力分支的特征经过空间注意力和自注意力，目的是增强通道依赖性和自适应性，保留空间信息，实现全局学习。

结合图2-图4，各个注意力及光流估计网络具体结构和过程如下。

(1)通道注意力

通道注意力考虑特征通道之间的相互依赖性特征，自适应的调整信道特征。将经过第一个特征提取部分得到的特征作为输入特征，此时特征尺寸大小为H×W×C，分别经过自适应平均池化和自适应最大池化后，特征尺寸为1×1×C，再分别经过一个卷积核大小为3的卷积将特征尺寸变为

r是通道缩小比，本实施例中设置为16；之后经过激活函数ReLU。随后，经过池化的两特征都经过一个3x3大小的卷积恢复通道，尺寸为1×1×C。将得到的特征相加经过一个Sigmoid函数得到注意力特征图，再将注意力特征图与输入特征作矩阵乘法得到输出特征，尺寸为H×W×C。

(2)空间注意力

空间注意力可以为每一个空间位置分配权重，更有效的利用跨通道和空间的信息，并且可以捕获特征图任意位置之间的空间依赖性，尽可能多的暴露空间信息。空间注意力将通道注意力的输出特征作为输入特征先经过1x1大小的卷积和激活函数LReLU。在空间注意力中之所以选择LReLU而非ReLU，是考虑到ReLU在训练过程中可能会导致神经元死亡，无法进一步更新参数梯度，使用LReLU能够缓和该问题，更好地保留空间信息。经过池化层，池化层是由平均池化和最大池化以及连接操作构成，经过池化层后接着经过1x1的卷积和LReLU得到的特征记为特征1。之后，经过重复的1x1卷积，LReLU，池化层结构，接着经过3x3的卷积和LReLU并重复一次该结构，并进行插值运算得到的特征记为特征2，将特征1和特征2相加后经过1x1卷积、LReLU和插值运算，将特征依次送入3x3卷积、1x1卷积和LReLU得到特征记为特征3，利用Sigmoid函数得到注意力特征图，将注意力特征图和输入特征作矩阵乘法，并将结果与特征3相加得到输出特征。空间注意力为利用二维卷积实现时空域的特征处理提供了有效可靠的保证。

(3)自注意力

自注意力的原型来自于非局部操作网络，作为一个有效的组件可以插入任何一个已有的网络中。除了可以扩大感受野，还可以计算空间任意两点位置的距离关系，代替跳跃连接，实现全局学习的功能。将特征输入后，分别经过三个卷积通道，得到特征1、特征2和特征3，特征1与特征2作矩阵乘法并经过softmax函数得到注意力图，再与特征3作矩阵乘法得到输出特征。该结构中的卷积核大小都为1x1。

(4)光流估计

传统运动补偿方法存在计算复杂，准确度不高的问题。本实施例采用将注意力与光流相结合的方式处理小运动的对象的运动信息，同时保留对象相关信息，达到第一阶段的特征对齐。将第一部分特征提取得到的特征分别经过通道注意力和空间注意力，将两者的输出送入光流估计网络得到该分支的输出。

给定任何两个相邻帧I_i,I_i+1，则光流计算公式可以表示为

f_i→i+1＝N_f(I_i,I_i+1) (4)

其中，N_f表示光流估计网络。

步骤四、对

和

进行上采样后，输入可变形的LSTM(即DLSTM)和一个卷积模型，得到视频超分辨特征

对

和

进行上采样

其中，

I_SR＝H_MAFnet(I_LR) (8)。

其中，DLSTM为将可变形卷积加入到传统LSTM中。可变形卷积相较于传统卷积可以对空间位置信息的位移进行调整，而相较于空洞卷积不易引入网格伪影。保留了LSTM原本的优点，同时增强了视频帧在时序上对齐的能力，有效利用上下文信息处理视频中的大运动信息。保证了视频的连续性。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种多个注意力结合光流的视频超分辨模型，其特征在于：该模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分；视频帧依次通过四个部分达到超分辨；所述的特征处理部分包括多注意力分支和注意力光流估计分支；所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块；注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。

2.根据权利要求1所述的一种多个注意力结合光流的视频超分辨模型，其特征在于：所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块；所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块，再进入光流估计网模块-卷积模块-上采样模块-卷积模块。

3.根据权利要求1或2所述的一种多个注意力结合光流的视频超分辨模型，其特征在于：所述的特征提取部分包括两个卷积模块和三个残差密集模块，输入的视频帧依次经过两个卷积模块和三个残差密集模块，再进入特征处理模块；所述的视频重建模块为卷积模块。

4.一种利用权利要求3的模型进行多个注意力结合光流的视频超分辨方法，其特征在于，其步骤为：

步骤一、输入连续的2n+1个低分辨的视频帧；