CN111031315B

CN111031315B - 基于注意力机制和时间依赖性的压缩视频质量增强方法

Info

Publication number: CN111031315B
Application number: CN201911129321.0A
Authority: CN
Inventors: 颜波; 容文迅
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2023-05-30
Anticipated expiration: 2039-11-18
Also published as: CN111031315A

Abstract

本发明属于数字视频处理技术领域，具体为基于注意力机制和时间依赖性的压缩视频质量增强方法。本发明包括：构建基于注意力机制的FAM模块；构建帧间长期时间依赖关系指导的LDE特征融合模块；构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块；使用FAM模块根据输入的多个连续帧的贡献得到赋予了不同注意力的特征信息；再用一个LDE模块从这些相邻帧之间的特征中提取长期时间依赖信息，得到中间结果以及特征信息；最后组合FAM和RSDE模块从前一个增强后的帧中有选择地提取短期时间依赖关系，生成最终的增强结果。实验表明，本发明在包含各种真实场景的测试集上都能增强视觉质量，在客观质量评价指标中有很大提升。

Description

基于注意力机制和时间依赖性的压缩视频质量增强方法

技术领域

本发明属于数字视频智能处理技术领域，具体涉及一种视频质量增强方法。

背景技术

随着计算机技术和网络通信技术不断地发展，大量的视频信息涌入互联网，这对当前的存储和传输技术带来了巨大的挑战。因此各种视频压缩技术应运而生，比如MPEG(Moving Picture Experts Group)、HEVC(High Efficiency Video Coding)[2]标准等。然而这些视频信息被有损地压缩以获得更高的压缩率，使得解压缩后的视频总是会丢失一些重要的高频信息，并产生一些类似于块效应和振铃等伪影，导致其视觉质量严重降低。

压缩视频质量增强方法(Qulity enhancement of compressed video)是用来消除压缩视频中的压缩伪影，并恢复丢失的细节信息，从而提升视频的质量。

近年来，由于深度学习在图像视频处理领域的广泛引用，出现了很多使用神经网络去增强压缩视频质量的方法。这些方法主要分为两种：第一种是使用直接从视频解码端获取的残差信息或者编码单元(CU)分块信息作为参考信息，从而辅助网络去增强压缩帧的质量，比如Jia[3]、Meng[4]等人；而另一种则是考虑到压缩后的视频中会有明显的质量波动，于是Yang[5,6]先把所有的帧根据质量的好坏分成两种帧，然后在增强质量不好的帧时，使用相邻的几个质量高的帧去辅助增强该帧。

但是这些方法都有自己的弊端，第一种方法必须要使用到解码端附带的参考信息，而这些信息在大多数实际应用场景中是无法获取的，这就使得该方法有一定的局限性。而第二种方法中要训练一个网络去根据相邻帧之间微妙的客观质量差距去区分出质量的好坏是很难实现的，这无疑会产生很多不必要的误差，另外这些质量好的帧之间总是会有一定的时间间隔，即作为网络输入的多个帧之间会存在更大的运动，也大大增加了网络训练的难度。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于注意力机制和时间依赖性的压缩视频质量增强方法，以消除视频中的压缩伪影，恢复丢失的细节信息，从而增强压缩视频的质量。

本发明提供基于注意力机制和时间依赖性的压缩视频质量增强方法，具体步骤为：

(1)构建基于注意力机制的用于提取多帧特征信息的FAM模块；

(2)构建帧间长期时间依赖关系指导的LDE特征融合模块；

(3)构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块；

其中，FAM模块在CBAM[1]的基础上构建，由一个提取每个输入帧的帧内特征的卷积层W₀和一个为每个帧的特征信息赋予相应权重的注意力模块AM组成。

对于输入的相邻连续帧{X_t-N/2,...,X_t,...,X_t+N/2}，首先使用一个卷积层W₀分别提取每个输入帧的特征信息，卷积层W₀对于每个帧都是参数共享的，然后将其级联在一起得到

然后使用新的注意力模块AM，从

中选择相邻帧中的可用信息，从而得到对于每个帧都分配不同注意力后的特征信息/>

过程可以表示为：

其中，

表示逐元素相乘；M_cha和M_spa分别表示AM模块中的通道注意力模块和空间注意力模块。这里先使用空间注意力模块M_spa选择出每个特征通道中感兴趣的特征区域，然后再用通道注意力模块M_cha去对不同的通道赋予不同的注意力。其计算过程如下：

其中，W₁表示卷积核为3x3的卷积操作，σ表示sigmoid操作。P_avg和P_max分别表示对特征中同一个像素的不同通道做平均池化和最大池化操作得到一个通道数为1的注意力图。相应地，P′_avg和P′_max分别表示对每个通道上的整个特征图做全局平均池化和最大池化操作，从而得到一维的注意力向量，W₁和W₂表示对两个池化结果参数共享的全连接操作。

本发明中，所述构建LDE模块，首先使用一个卷积核为3x3的卷积层去对(1)中得到的特征信息

进行降维。然后堆叠了6个加入了通道注意力机制的残差块去学习这些连续帧之间的长期时间依赖关系，其中残差块可以表示为：

其中，通道注意力模块M_cha用来增加特征中通道之间的差异性，以更好地融合多个帧之间的时间依赖性信息；Conv₁和Conv₂表示两个卷积层。残差块后面接了两个卷积层，其中第二个是输出通道数为1的卷积操作，用来生成网络学出的残差信息，然后和输入的压缩图X_t相加得到一个粗糙的增强结果Y_t ^c。另外，还使用两个卷积层生成这个增强结果的帧内特征信息F_t ^c。LDE模块可以表示为：

本发明中，所述RSDE模块，首先用一个包含1个卷积层和4个残差块的P_fe子模块去把前一个增强后的高质量帧

和LDE模块生成的结果一起提取短期时间依赖信息。然后再把这些特征信息和LDE模块生成的帧内特征信息F_t ^c、前一个帧的特征信息/>

级联在一起，并利用一个FAM模块去对这些特征信息的每个通道和空间赋予不同的注意力。最后包括2个卷积层和4个残差块的子模块P_fr融合这些特征信息，并用1个filter＝1的卷积层得到学习到的残差信息，将其与输入的Y_t ^c逐元素相加，得到最终的增强结果Y_t ^f。RSDE模块可以表示为：

进一步的，把FAM模块和LDE模块组合起来，用于提取多个连续的压缩帧之间的长期时间依赖信息，并且有选择地融合这些信息，从而得到一个中间增强结果Y_t ^c以及它的帧内特征信息F_t ^c，用于进一步获取更多的细节信息。

进一步的，把FAM模块和RSDE模块组合，从前一个已经增强后的高质量结果

中提取短期时间依赖信息，然后得到了融合后的特征信息之后，再插入FAM模块从前一个帧中得到的特征/>

和当前帧在LDE步骤中得到的帧内特征F_t ^c中有选择地获取更多的细节信息，从而得到最终的增强结果Y_t ^f。

实验结果表明，本发明在包含各种真实场景的测试集上都能增强视觉质量，同时在客观质量评价指标中有很大提升。

本发明的有益效果在于：本发明设计了一个端到端的视频质量增强网络，而且不需要任何额外的参考信息，没有任何使用场合的局限性。另外，本发明从多个相邻的压缩帧中提取长期时间依赖关系，并用前面增强后的高质量帧来提取更精细的短期时间依赖关系，从而更好地恢复了视频中丢失的细节信息，增强了压缩视频的质量。

附图说明

图1为本发明的网络框架图。

图2为FAM帧间注意力模块的网络框架图。

图3为提取长期时间依赖关系的LDE融合模块的网络框架图。

图4为提取更精细的短期时间依赖关系的RSDE融合模块的网络框架图。

图5为使用的残差快resblock的网络框架图。

图6为本发明的质量增强的视觉效果图。

具体实施方式

下面对本发明实施方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

采用图1中的网络结构，用63个分辨率从176x144到1920x1080的视频序列来训练网络。

具体过程如下：

(1)训练时，使用连续的5个帧作为网络的输入，选13组输入作为一个batch，并且每个帧被切成64x64的patch便于训练；由于对于每个要增强的帧都需要用到其前面的两个帧以及最后的两个帧，因此对于每个视频中的前两个帧以及后两个帧，都将使用该帧的复制来替代缺少的帧；

(2)测试时，使用和训练集不同的16个视频序列作为测试集，测试每个视频的客观质量时，先计算视频中每个帧和未压缩的原图之间的PSNR值，然后取平均值作为整个视频的PSNR值。

图6为本发明的视觉质量实例，在图6中，每一行都是从测试的视频中随机选取的一帧；(a)(b)(c)分别是压缩前的原帧、压缩后的帧以及经过本发明增强后的帧；可以看出，本发明很好地消除了一些块效应以及模糊等压缩伪影，轮空也更加清晰。

表1为本发明的客观质量评价实例，在表1中，每一行表示测试集中的视频序列的所有帧的平均PSNR值；Class表示视频序列的分辨率类型从B到E依次是1920x1080、832x480、416x240、1280x720；compressed的一列表示压缩后的视频相对于压缩的原视频平均PSNR值；ours的一列表示本发明增强后的视频相对于压缩的原视频平均PSNR值；可以看出，本发明显著地提升了视频的客观质量(PSNR)。

表1本发明的质量增强的客观质量指标(ΔPSNR)评估

参考文献

[1]Woo,Sanghyun,et al."Cbam:Convolutional block attention module."Proceedings of the European Conference on Computer Vision(ECCV).2018.

[2]Sullivan,Gary J.,et al."Overview of the high efficiency videocoding(HEVC)standard."IEEE Transactions on circuits and systems for videotechnology 22.12(2012):1649-1668.

[3]Jia,Wei,et al."Residue guided loop filter for HEVC postprocessing."arXiv preprint arXiv:1907.12681(2019).

[4]Meng,Xiandong,et al."Mganet:A robust model for quality enhancementof compressed video."arXiv preprint arXiv:1811.09150(2018).

[5]Guan,Zhenyu,et al."MFQE 2.0:A New Approach for Multi-frame QualityEnhancement on Compressed Video."arXiv preprint arXiv:1902.09707(2019).

[6]Yang,Ren,et al."Multi-frame quality enhancement for compressedvideo."Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.。

Claims

1.一种基于注意力机制和时间依赖性的压缩视频质量增强方法，其特征在于，具体步骤为：

(1)构建基于注意力机制的用于提取多帧特征信息的FAM模块；

(2)构建帧间长期时间依赖关系指导的LDE特征融合模块；

其中，所述FAM模块在卷积块注意力模块CBAM的基础上构建，由一个提取每个输入帧的帧内特征的卷积层W₀和一个为每个帧的特征信息赋予相应权重的注意力模块AM组成：

然后使用新的注意力模块AM，从

中选择相邻帧中的可用信息，得到对于每个帧都分配不同注意力后的特征信息/>

其过程表示为：

其中，

表示逐元素相乘；M_cha和M_spa分别表示AM模块中的通道注意力模块和空间注意力模块；这里先使用空间注意力模块M_spa选择出每个特征通道中感兴趣的特征区域，然后再用通道注意力模块M_cha去对不同的通道赋予不同的注意力；其计算过程如下：

其中，W₁表示卷积核为3x3的卷积操作，σ表示sigmoid操作；P_avg和P_max分别表示对特征中同一个像素的不同通道做平均池化和最大池化操作得到一个通道数为1的注意力图；相应地，P′_avg和P′_max分别表示对每个通道上的整个特征图做全局平均池化和最大池化操作，从而得到一维的注意力向量，W₂和W₃表示对两个池化结果参数共享的全连接操作；

构建帧间长期时间依赖关系指导的LDE特征融合模块，首先使用一个卷积核为3x3的卷积层去对步骤(1)中的特征信息

进行降维；然后堆叠6个加入了通道注意力机制的残差块去学习这些连续帧之间的长期时间依赖关系，其中残差块表示为：

其中，通道注意力模块M_cha用来增加特征中通道之间的差异性，以更好地融合多个帧之间的时间依赖性信息；Conv₁和Conv₂表示两个卷积层；残差块后面接两个卷积层，其中第二个是输出通道数为1的卷积操作，用来生成网络学出的残差信息，然后和输入的压缩图X_t相加得到一个粗糙的增强结果Y_t ^c；另外，还使用两个卷积层生成这个增强结果的帧内特征信息F_t ^c；

LDE特征融合模块具体表示为：

构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块，先用一个包含1个卷积层和4个残差块的P_fe子模块去把前一个增强后的高质量帧

和LDE特征融合模块生成的结果一起提取短期时间依赖信息；然后再把这些特征信息和LDE特征融合模块生成的帧内特征信息F_t ^c、前一个帧的特征信息/>

级联在一起，并利用一个FAM模块去对这些特征信息的每个通道和空间赋予不同的注意力；最后包括2个卷积层和4个残差块的子模块P_fr融合这些特征信息，并用1个filter＝1的卷积层得到学习到的残差信息，将其与输入的Y_t ^c逐元素相加，得到最终的增强结果Y_t ^f；RSDE特征融合模块具体表示为：

进一步把FAM模块和LDE特征融合模块组合起来，用于提取多个连续的压缩帧之间的长期时间依赖信息，并且有选择地融合这些信息，从而得到一个中间增强结果Y_t ^c以及它的帧内特征信息F_t ^c，用于进一步获取更多的细节信息；

进一步把FAM模块和RSDE特征融合模块组合，从前一个已经增强后的高质量结果

中提取短期时间依赖信息，在得到了融合后的特征信息之后，再插入FAM模块从前一个帧中得到的特征/>

和当前帧在LDE特征融合模块中得到的帧内特征F_t ^c中有选择地获取更多的细节信息，从而得到最终的增强结果Y_t ^f。/>