CN111031315B - 基于注意力机制和时间依赖性的压缩视频质量增强方法 - Google Patents
基于注意力机制和时间依赖性的压缩视频质量增强方法 Download PDFInfo
- Publication number
- CN111031315B CN111031315B CN201911129321.0A CN201911129321A CN111031315B CN 111031315 B CN111031315 B CN 111031315B CN 201911129321 A CN201911129321 A CN 201911129321A CN 111031315 B CN111031315 B CN 111031315B
- Authority
- CN
- China
- Prior art keywords
- module
- frame
- information
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 title claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000007774 longterm Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 230000036962 time dependent Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 5
- 238000013441 quality evaluation Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于数字视频处理技术领域,具体为基于注意力机制和时间依赖性的压缩视频质量增强方法。本发明包括:构建基于注意力机制的FAM模块;构建帧间长期时间依赖关系指导的LDE特征融合模块;构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块;使用FAM模块根据输入的多个连续帧的贡献得到赋予了不同注意力的特征信息;再用一个LDE模块从这些相邻帧之间的特征中提取长期时间依赖信息,得到中间结果以及特征信息;最后组合FAM和RSDE模块从前一个增强后的帧中有选择地提取短期时间依赖关系,生成最终的增强结果。实验表明,本发明在包含各种真实场景的测试集上都能增强视觉质量,在客观质量评价指标中有很大提升。
Description
技术领域
本发明属于数字视频智能处理技术领域,具体涉及一种视频质量增强方法。
背景技术
随着计算机技术和网络通信技术不断地发展,大量的视频信息涌入互联网,这对当前的存储和传输技术带来了巨大的挑战。因此各种视频压缩技术应运而生,比如MPEG(Moving Picture Experts Group)、HEVC(High Efficiency Video Coding)[2]标准等。然而这些视频信息被有损地压缩以获得更高的压缩率,使得解压缩后的视频总是会丢失一些重要的高频信息,并产生一些类似于块效应和振铃等伪影,导致其视觉质量严重降低。
压缩视频质量增强方法(Qulity enhancement of compressed video)是用来消除压缩视频中的压缩伪影,并恢复丢失的细节信息,从而提升视频的质量。
近年来,由于深度学习在图像视频处理领域的广泛引用,出现了很多使用神经网络去增强压缩视频质量的方法。这些方法主要分为两种:第一种是使用直接从视频解码端获取的残差信息或者编码单元(CU)分块信息作为参考信息,从而辅助网络去增强压缩帧的质量,比如Jia[3]、Meng[4]等人;而另一种则是考虑到压缩后的视频中会有明显的质量波动,于是Yang[5,6]先把所有的帧根据质量的好坏分成两种帧,然后在增强质量不好的帧时,使用相邻的几个质量高的帧去辅助增强该帧。
但是这些方法都有自己的弊端,第一种方法必须要使用到解码端附带的参考信息,而这些信息在大多数实际应用场景中是无法获取的,这就使得该方法有一定的局限性。而第二种方法中要训练一个网络去根据相邻帧之间微妙的客观质量差距去区分出质量的好坏是很难实现的,这无疑会产生很多不必要的误差,另外这些质量好的帧之间总是会有一定的时间间隔,即作为网络输入的多个帧之间会存在更大的运动,也大大增加了网络训练的难度。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于注意力机制和时间依赖性的压缩视频质量增强方法,以消除视频中的压缩伪影,恢复丢失的细节信息,从而增强压缩视频的质量。
本发明提供基于注意力机制和时间依赖性的压缩视频质量增强方法,具体步骤为:
(1)构建基于注意力机制的用于提取多帧特征信息的FAM模块;
(2)构建帧间长期时间依赖关系指导的LDE特征融合模块;
(3)构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块;
其中,FAM模块在CBAM[1]的基础上构建,由一个提取每个输入帧的帧内特征的卷积层W0和一个为每个帧的特征信息赋予相应权重的注意力模块AM组成。
其中,表示逐元素相乘;Mcha和Mspa分别表示AM模块中的通道注意力模块和空间注意力模块。这里先使用空间注意力模块Mspa选择出每个特征通道中感兴趣的特征区域,然后再用通道注意力模块Mcha去对不同的通道赋予不同的注意力。其计算过程如下:
其中,W1表示卷积核为3x3的卷积操作,σ表示sigmoid操作。Pavg和Pmax分别表示对特征中同一个像素的不同通道做平均池化和最大池化操作得到一个通道数为1的注意力图。相应地,P′avg和P′max分别表示对每个通道上的整个特征图做全局平均池化和最大池化操作,从而得到一维的注意力向量,W1和W2表示对两个池化结果参数共享的全连接操作。
本发明中,所述构建LDE模块,首先使用一个卷积核为3x3的卷积层去对(1)中得到的特征信息进行降维。然后堆叠了6个加入了通道注意力机制的残差块去学习这些连续帧之间的长期时间依赖关系,其中残差块可以表示为:
其中,通道注意力模块Mcha用来增加特征中通道之间的差异性,以更好地融合多个帧之间的时间依赖性信息;Conv1和Conv2表示两个卷积层。残差块后面接了两个卷积层,其中第二个是输出通道数为1的卷积操作,用来生成网络学出的残差信息,然后和输入的压缩图Xt相加得到一个粗糙的增强结果Yt c。另外,还使用两个卷积层生成这个增强结果的帧内特征信息Ft c。LDE模块可以表示为:
本发明中,所述RSDE模块,首先用一个包含1个卷积层和4个残差块的Pfe子模块去把前一个增强后的高质量帧和LDE模块生成的结果一起提取短期时间依赖信息。然后再把这些特征信息和LDE模块生成的帧内特征信息Ft c、前一个帧的特征信息/>级联在一起,并利用一个FAM模块去对这些特征信息的每个通道和空间赋予不同的注意力。最后包括2个卷积层和4个残差块的子模块Pfr融合这些特征信息,并用1个filter=1的卷积层得到学习到的残差信息,将其与输入的Yt c逐元素相加,得到最终的增强结果Yt f。RSDE模块可以表示为:
进一步的,把FAM模块和LDE模块组合起来,用于提取多个连续的压缩帧之间的长期时间依赖信息,并且有选择地融合这些信息,从而得到一个中间增强结果Yt c以及它的帧内特征信息Ft c,用于进一步获取更多的细节信息。
进一步的,把FAM模块和RSDE模块组合,从前一个已经增强后的高质量结果中提取短期时间依赖信息,然后得到了融合后的特征信息之后,再插入FAM模块从前一个帧中得到的特征/>和当前帧在LDE步骤中得到的帧内特征Ft c中有选择地获取更多的细节信息,从而得到最终的增强结果Yt f。
实验结果表明,本发明在包含各种真实场景的测试集上都能增强视觉质量,同时在客观质量评价指标中有很大提升。
本发明的有益效果在于:本发明设计了一个端到端的视频质量增强网络,而且不需要任何额外的参考信息,没有任何使用场合的局限性。另外,本发明从多个相邻的压缩帧中提取长期时间依赖关系,并用前面增强后的高质量帧来提取更精细的短期时间依赖关系,从而更好地恢复了视频中丢失的细节信息,增强了压缩视频的质量。
附图说明
图1为本发明的网络框架图。
图2为FAM帧间注意力模块的网络框架图。
图3为提取长期时间依赖关系的LDE融合模块的网络框架图。
图4为提取更精细的短期时间依赖关系的RSDE融合模块的网络框架图。
图5为使用的残差快resblock的网络框架图。
图6为本发明的质量增强的视觉效果图。
具体实施方式
下面对本发明实施方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
采用图1中的网络结构,用63个分辨率从176x144到1920x1080的视频序列来训练网络。
具体过程如下:
(1)训练时,使用连续的5个帧作为网络的输入,选13组输入作为一个batch,并且每个帧被切成64x64的patch便于训练;由于对于每个要增强的帧都需要用到其前面的两个帧以及最后的两个帧,因此对于每个视频中的前两个帧以及后两个帧,都将使用该帧的复制来替代缺少的帧;
(2)测试时,使用和训练集不同的16个视频序列作为测试集,测试每个视频的客观质量时,先计算视频中每个帧和未压缩的原图之间的PSNR值,然后取平均值作为整个视频的PSNR值。
图6为本发明的视觉质量实例,在图6中,每一行都是从测试的视频中随机选取的一帧;(a)(b)(c)分别是压缩前的原帧、压缩后的帧以及经过本发明增强后的帧;可以看出,本发明很好地消除了一些块效应以及模糊等压缩伪影,轮空也更加清晰。
表1为本发明的客观质量评价实例,在表1中,每一行表示测试集中的视频序列的所有帧的平均PSNR值;Class表示视频序列的分辨率类型从B到E依次是1920x1080、832x480、416x240、1280x720;compressed的一列表示压缩后的视频相对于压缩的原视频平均PSNR值;ours的一列表示本发明增强后的视频相对于压缩的原视频平均PSNR值;可以看出,本发明显著地提升了视频的客观质量(PSNR)。
表1本发明的质量增强的客观质量指标(ΔPSNR)评估
参考文献
[1]Woo,Sanghyun,et al."Cbam:Convolutional block attention module."Proceedings of the European Conference on Computer Vision(ECCV).2018.
[2]Sullivan,Gary J.,et al."Overview of the high efficiency videocoding(HEVC)standard."IEEE Transactions on circuits and systems for videotechnology 22.12(2012):1649-1668.
[3]Jia,Wei,et al."Residue guided loop filter for HEVC postprocessing."arXiv preprint arXiv:1907.12681(2019).
[4]Meng,Xiandong,et al."Mganet:A robust model for quality enhancementof compressed video."arXiv preprint arXiv:1811.09150(2018).
[5]Guan,Zhenyu,et al."MFQE 2.0:A New Approach for Multi-frame QualityEnhancement on Compressed Video."arXiv preprint arXiv:1902.09707(2019).
[6]Yang,Ren,et al."Multi-frame quality enhancement for compressedvideo."Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.。
Claims (1)
1.一种基于注意力机制和时间依赖性的压缩视频质量增强方法,其特征在于,具体步骤为:
(1)构建基于注意力机制的用于提取多帧特征信息的FAM模块;
(2)构建帧间长期时间依赖关系指导的LDE特征融合模块;
(3)构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块;
其中,所述FAM模块在卷积块注意力模块CBAM的基础上构建,由一个提取每个输入帧的帧内特征的卷积层W0和一个为每个帧的特征信息赋予相应权重的注意力模块AM组成:
其中,表示逐元素相乘;Mcha和Mspa分别表示AM模块中的通道注意力模块和空间注意力模块;这里先使用空间注意力模块Mspa选择出每个特征通道中感兴趣的特征区域,然后再用通道注意力模块Mcha去对不同的通道赋予不同的注意力;其计算过程如下:
其中,W1表示卷积核为3x3的卷积操作,σ表示sigmoid操作;Pavg和Pmax分别表示对特征中同一个像素的不同通道做平均池化和最大池化操作得到一个通道数为1的注意力图;相应地,P′avg和P′max分别表示对每个通道上的整个特征图做全局平均池化和最大池化操作,从而得到一维的注意力向量,W2和W3表示对两个池化结果参数共享的全连接操作;
构建帧间长期时间依赖关系指导的LDE特征融合模块,首先使用一个卷积核为3x3的卷积层去对步骤(1)中的特征信息进行降维;然后堆叠6个加入了通道注意力机制的残差块去学习这些连续帧之间的长期时间依赖关系,其中残差块表示为:
其中,通道注意力模块Mcha用来增加特征中通道之间的差异性,以更好地融合多个帧之间的时间依赖性信息;Conv1和Conv2表示两个卷积层;残差块后面接两个卷积层,其中第二个是输出通道数为1的卷积操作,用来生成网络学出的残差信息,然后和输入的压缩图Xt相加得到一个粗糙的增强结果Yt c;另外,还使用两个卷积层生成这个增强结果的帧内特征信息Ft c;
LDE特征融合模块具体表示为:
构建精细的帧间短期时间依赖关系指导的RSDE特征融合模块,先用一个包含1个卷积层和4个残差块的Pfe子模块去把前一个增强后的高质量帧和LDE特征融合模块生成的结果一起提取短期时间依赖信息;然后再把这些特征信息和LDE特征融合模块生成的帧内特征信息Ft c、前一个帧的特征信息/>级联在一起,并利用一个FAM模块去对这些特征信息的每个通道和空间赋予不同的注意力;最后包括2个卷积层和4个残差块的子模块Pfr融合这些特征信息,并用1个filter=1的卷积层得到学习到的残差信息,将其与输入的Yt c逐元素相加,得到最终的增强结果Yt f;RSDE特征融合模块具体表示为:
进一步把FAM模块和LDE特征融合模块组合起来,用于提取多个连续的压缩帧之间的长期时间依赖信息,并且有选择地融合这些信息,从而得到一个中间增强结果Yt c以及它的帧内特征信息Ft c,用于进一步获取更多的细节信息;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129321.0A CN111031315B (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129321.0A CN111031315B (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111031315A CN111031315A (zh) | 2020-04-17 |
CN111031315B true CN111031315B (zh) | 2023-05-30 |
Family
ID=70200438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911129321.0A Active CN111031315B (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111031315B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381866B (zh) * | 2020-10-27 | 2022-12-13 | 天津大学 | 一种基于注意力机制的视频比特增强方法 |
CN113222904B (zh) * | 2021-04-21 | 2023-04-07 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113450280A (zh) * | 2021-07-07 | 2021-09-28 | 电子科技大学 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN116996697B (zh) * | 2023-07-24 | 2024-02-23 | 南通大学 | 一种面向hevc编码框架的视频恢复方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
-
2019
- 2019-11-18 CN CN201911129321.0A patent/CN111031315B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
Non-Patent Citations (4)
Title |
---|
"Cbam:Convolutional block attention module";Woo,Sanghyun,et al;《"Proceedings of the European Conference on Computer Vision(ECCV)》;20180717;全文 * |
"Naturalness-Aware Deep No-Reference Image Quality Assessment";Bo Yan,Bahetiyaer Bare,Weimin Tan;《IEEE Transactions on Multimedia》;20191031;全文 * |
"基于注意力机制的图像分类深度学习方法研究";王培森;《中国优秀硕士论文信息科技辑》;20190115;全文 * |
"数字图像和视频的空间分辨率变换研";刘琉;《中国优秀硕士论文信息科技辑》;20150216;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111031315A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111031315B (zh) | 基于注意力机制和时间依赖性的压缩视频质量增强方法 | |
Liang et al. | Vrt: A video restoration transformer | |
Liu et al. | End-to-End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks. | |
CN107197260B (zh) | 基于卷积神经网络的视频编码后置滤波方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN107463989B (zh) | 一种基于深度学习的图像去压缩伪影方法 | |
CN112801877B (zh) | 一种视频帧的超分辨率重构方法 | |
CN108900848B (zh) | 一种基于自适应可分离卷积的视频质量增强方法 | |
CN111260560B (zh) | 一种融合注意力机制的多帧视频超分辨率方法 | |
CN111355956B (zh) | 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 | |
Wu et al. | Learned block-based hybrid image compression | |
CN110751597B (zh) | 基于编码损伤修复的视频超分辨方法 | |
CN111885280B (zh) | 一种混合卷积神经网络视频编码环路滤波方法 | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
CN110290387A (zh) | 一种基于生成模型的图像压缩方法 | |
Soh et al. | Reduction of video compression artifacts based on deep temporal networks | |
CN113132729B (zh) | 一种基于多参考帧的环路滤波方法及电子装置 | |
Yue et al. | A global appearance and local coding distortion based fusion framework for CNN based filtering in video coding | |
Ma et al. | CVEGAN: a perceptually-inspired gan for compressed video enhancement | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
Ma et al. | A cross channel context model for latents in deep image compression | |
Qi et al. | Motion information propagation for neural video compression | |
CN113256521B (zh) | 一种数据缺失的错误隐藏方法及装置 | |
CN110933422B (zh) | 一种基于edcnn的hevc环路滤波方法 | |
Kuo et al. | Image Compression Architecture with Built-in Lightweight Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |