CN112243132A - 结合非局部先验与注意力机制的压缩视频后处理方法 - Google Patents
结合非局部先验与注意力机制的压缩视频后处理方法 Download PDFInfo
- Publication number
- CN112243132A CN112243132A CN201910652802.3A CN201910652802A CN112243132A CN 112243132 A CN112243132 A CN 112243132A CN 201910652802 A CN201910652802 A CN 201910652802A CN 112243132 A CN112243132 A CN 112243132A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- compressed video
- frame sequence
- post
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012805 post-processing Methods 0.000 title claims abstract description 30
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 28
- 238000007906 compression Methods 0.000 claims abstract description 28
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000012913 prioritisation Methods 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 241000777300 Congiopodidae Species 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- NUHSROFQTUXZQQ-UHFFFAOYSA-N isopentenyl diphosphate Chemical group CC(=C)CCO[P@](O)(=O)OP(O)(O)=O NUHSROFQTUXZQQ-UHFFFAOYSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种结合非局部先验与注意力机制的压缩视频后处理方法。本发明将输入的经HEVC有损压缩后的视频帧序列的连续三帧作为一组,利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法,来抑制中间帧的压缩效应,得到初步处理后的视频帧序列;构建了一种基于通道注意力机制的卷积神经网络,用来对初步处理后的视频帧序列进行高频补偿和修正。本发明所述的方法能获得很好的主客观效果,是一种有效的压缩视频后处理方法。
Description
技术领域
本发明涉及压缩视频后处理技术,具体涉及一种结合非局部先验与注意力机制的压缩视频后处理方法,属于数字图像领域。
背景技术
HEVC是目前国际上现今性能较为优越的视频编码标准,包括有损压缩和无损压缩两种编码方式,其中,有损压缩相比无损压缩具有更好的压缩效率,能够节省更多的视频传输与存储的开销。然而有损编码不可避免地会使压缩视频帧失真,出现压缩效应(块效应、振铃现象)。压缩效应的存在严重影响了解码视频帧的质量。虽然HEVC编码标准在制定时已经在解码端设计了环路滤波器来解决压缩失真问题,但是在解码视频中仍然存在一些压缩效应。特别是在低码率段压缩效应更为严重。因此十分有必要研究针对压缩视频质量提升的方法。
发明内容
本发明的目的在于为进一步提升HEVC解码后视频的质量,减少压缩效应对视觉效果的影响,而提供一种结合非局部先验与注意力机制的压缩视频后处理方法。方法首先将视频帧内和帧间的互补信息充分利用到视频帧质量提升的过程中,除视频自身内部信息外,提出的方法还利用外部数据库中的高频信息,为视频帧补充高频信息,使处理后的视频细节更加丰富,边缘更加清晰,得到复原质量更好的视频帧。
本发明提出的一种结合非局部先验与注意力机制的压缩视频后处理方法,具体可以分为以下几个步骤:
(1)输入经HEVC有损压缩后的视频帧序列,将连续三帧作为一组,利用以多幅非局部低秩正则化(Multi Non-Local Regularization,MNLR)作为先验项的贝叶斯最大后验概率估计方法,来抑制中间帧的压缩效应,得到初步处理后的视频帧序列;
(2)构建一种基于通道注意力机制的卷积神经网络,利用(1)中以MNLR作为先验项的贝叶斯最大后验概率估计方法处理的数据集和原始的未经压缩的数据集作为样本对来训练网络;
(3)将(1)得到的视频帧序列输入(2)中训练出的网络来进行高频修正和补偿。
附图说明
图1是结合非局部先验与注意力机制的压缩视频后处理方法结构示意图
图2是通道注意残差模块结构示意图
图3是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP=38的压缩视频“RaceHorses”进行后处理的对比图
图4是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP=38的压缩视频“BasketballPass”进行后处理的对比图
图5是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP=38的压缩视频“BQMall”进行后处理的对比图
具体实施方式
下面结合附图对本发明作进一步说明:
结合非局部先验与注意力机制的压缩视频后处理方法,具体可以分为以下几个步骤:
(1)输入经HEVC有损压缩后的视频帧序列,将连续三帧作为一组,利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法,来抑制中间帧的压缩效应,得到初步处理后的视频帧序列;
(2)构建一种基于通道注意力机制的卷积神经网络,利用(1)中以MNLR作为先验项的贝叶斯最大后验概率估计方法处理的数据集和原始的未经压缩的数据集作为样本对来训练网络;
(3)将(1)得到的视频帧序列输入(2)中训练出的网络来进行高频修正和补偿。
具体地,所述步骤(1)中,利用多幅非局部低秩正则化MNLR作为贝叶斯最大后验概率估计的先验项,其原理如图1所示,用公式表示为:
式中,F={f1,f2,...,fn}表示压缩后视频帧Y={y1,y2,...,yn}表示原始的视频帧,n表示待重建的视频帧数。β和μ均为正则化参数。
假设Pk,r为待估计视频帧fk中以像素r为中心、尺寸为n×n的图像块,Sk,rF表示从fk,fk-1和fk+1中进行相似块搜索时提取的Pk,r的相似块构成的矩阵,Zk,r代表低秩矩阵。由于求解是一个NP-hard问题,可以用下式等效:
式中,δ为一个较小的常数,E为单位矩阵。
最终的求解公式可以用公式表示为:
我们使用Split-Bregman迭代方法来分解这个公式得:
两个公式的解分别为:
所述步骤(2)中,基于通道注意力机制的卷积神经网络结构主要包括通道注意残差模块和全局残差。网络结构如图1所示,在输入之后和输出之前有一个长跳连接,实现全局残差学习,第1、2层为2个卷积层,并用PReLU函数激活,第3到42层为8个通道注意残差模块,每个模块包含5层,网络倒数第1层为卷积层,也用PReLU函数激活,最后1层为卷积层。
通道注意力机制主要包括维度紧缩、参数变换和权重分配三个阶段,其内部结构如图2所示。
首先通过全局平均池化操作,对空间维度进行紧缩,假设输入为I=[i1,i2,...,ic,...,iC],其大小为H×W,数量为C,则可得到C个参数,该过程用公式表示为:
式中,GP(·)代表全局平均池化,ic(m,n)是(m,n)位置的第c个特征ic。z=[z1,z2,...,zc,...,zC]是能够描述输入的参数。
之后对这些参数进行进一步地变换,使参数能够尽可能地表示输入之间的关系。在参数变换部分,采用的变换方式用公式表示如下:
k=Of(OUρ(ODz)) (9)
式中,OD代表卷积核尺寸为1×1的卷积层,其作用是自适应地调整z的值,并将1×1×C的系数衰减到1×1×C/b,b是大于1且能整除C的正整数,ρ代表激励函数PReLU,OU代表自适应扩增,1×1×C/b的参数经过自适应扩增之后重新变为1×1×C、Of代表激励函数sigmoid,最终经过参数变换后得到的参数k=[k1,k2,...,kc,...,kC],用于对输入ic进行加权,用公式表示为:
式中,kc为加权参数,ic为第c个通道的特征。
如图2所示,结合通道注意力机制和残差思想即可得到通道注意力残差模块,采用跳连接的残差学习方式一方面能够加速收敛,另一方面能够使网络更好地挖掘高低分辨率样本之间的映射关系。通道注意残差模块可以用公式表示为:
xi+1=xi+kTI (11)
式中,其中,xi是输入第i个通道注意残差模块的特征,xi+1是输出特征,I是对xi进一步特征提取得到的特征,k是经过通道注意操作得到的特征权重。
所述步骤(3)中,将(1)得到的视频帧序列输入(2)中训练出的网络来进行高频修正和补偿。
为了更好地说明本发明的有效性,本发明选取3个测试视频进行实验,分别为视频“RaceHorses”、视频“BasketballPass”和视频“BQMall”。HEVC版本为HM 16.0,编码模式为IPPP。进行实验的质量参数QP为26、29、32、35、38、41、44和47。对比方法为四种压缩视频后处理方法。实验结果如图3,图4和图5所示,(a)表示原图,(b)~(f)分别HEVC压缩处理结果以及方法1到方法4这五种对比方法,(g)表示本发明的结果。
这四种压缩视频后处理方法分别为:
方法1:Dong C等人提出的方法,参考文献“Dong C,Deng Y,Change Loy C,et al,“Compression artifacts reduction by a deep convolutional network,”IEEEInternational Conference on Computer Vision,2015:576-584.”
方法2:Dai Y等人提出的方法,参考文献“Dai Y,Liu D,Wu F,“A convolutionalneural network approach for post-processing in HEVC intra coding”International Conference on Multimedia Modeling,2017:28-39.”
方法3:Li F等人提出的方法,参考文献“Li F,Tan W,Yan B,“Deep residualnetwork for enhancing quality of the decoded intra frames of HEVC”IEEEInternational Conference on Image Processing,2018:3918-3922.”
方法4:陈娣等人提出方法,参考文献“陈娣,超分辨率重建及其在视频压缩编码中的应用,”四川大学,2017.”
对比实验的内容如下:
实验1,分别用方法1到方法4以及本发明对压缩视频“RaceHorses”进行后处理,选取其中一帧作为对比,原始视频如图3(a)所示,压缩后的视频如图3(b)所示,压缩视频后处理结果分别如图3(c)到图3(g)所示。
实验2,分别用方法1到方法4以及本发明对压缩视频“BasketballPass”进行后处理,选取其中一帧作为对比。原始视频如图4(a)所示,压缩后的视频如图4(b)所示,压缩视频后处理结果分别如图4(c)到图4(g)所示。
实验3,分别用方法1到方法4以及本发明对压缩视频“BQMall”进行后处理,选取其中一帧作为对比。原始视频如图5(a)所示,压缩后的视频如图5(b)所示,压缩视频后处理结果分别如图5(c)到图5(g)所示。
从3组实验中可以看出:在图3中,经过HEVC压缩后视频帧中放大的缰绳区域的边缘存在不平整的问题,经过不同后处理方法处理后,缰绳边缘处的草坪都存在一定程度的平滑。与其余对比方法相比,经过本文明处理方法处理后,缰绳边缘的准确程度有所提升。图4中,运动衣上的数字11部分,经过HEVC压缩后存在一定的拖尾现象,在经过不同后处理方法后,拖尾程度都有所减轻,但经过发明处理方法后,数字部分的拖尾基本消除,数字的边缘也更为清晰。图5中,裤子的边缘部分经过HEVC压缩后块效应严重,使原本平滑的裤子边缘呈现锯齿状,相比其他后处理方法,经过发明方法处理后,裤子边缘更加平整。在无噪声的情况下,对比方法都能恢复一定的高频信息,但是在边缘或者平坦区域容易出现一些不好的人工效应,例如振铃,锯齿或者是过度平滑等。但是本发明重建出来的结果细节信息更丰富,视觉效果更好,产生的人工效应也比较少。
为了客观的评价本发明的有效性,以峰值信噪比(PSNR:Peak Signal to NoiseRatio,单位:dB)和结构相似度(SSIM:Structure Similarity Index)作为客观评价评价标准。
表一展示了在不同编码量化参数QP下,用不同后处理方法处理3组视频后得到的平均PSNR/SSIM。能够发现本发明方法的实验结果确实获得了最好的客观参数。本发明方法相比于次好方法3,PSNR平均提升0.1dB左右,最高提升0.25dB。SSIM方面也有一定提升,在部分视频序列的部分QP上,本发明方法相较方法3,SSIM有所降低,但差距并不是很大。
综上所述,本发明确实在主客观上都有很好的效果,是一种有效的压缩视频后处理方法。
表一
Claims (3)
1.结合非局部先验与注意力机制的压缩视频后处理方法,其特征在于包括以下步骤:
步骤一:输入经HEVC有损压缩后的视频帧序列,将连续三帧作为一组,利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法,来抑制中间帧的压缩效应,得到初步处理后的视频帧序列;
步骤二:构建一种基于通道注意力机制的卷积神经网络,利用步骤一中以MNLR作为先验项的贝叶斯最大后验概率估计方法处理的数据集和原始的未经压缩的数据集作为样本对来训练网络;
步骤三:将步骤一得到的视频帧序列输入步骤二中训练出的网络来进行高频修正和补偿。
2.根据权利要求1所述的结合非局部先验与注意力机制的压缩视频后处理方法,其特征在于步骤二中所述,用来完成对步骤一中初步处理后的视频帧序列进行高频修正和补偿任务的基于通道注意力机制的卷积神经网络。
3.根据权利要求1所述的结合非局部先验与注意力机制的压缩视频后处理方法,其特征在于步骤三中所述,级联以MNLR作为先验项的贝叶斯最大后验概率估计方法,以及基于通道注意力机制的卷积神经网络来对压缩视频进行质量提升。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910652802.3A CN112243132A (zh) | 2019-07-19 | 2019-07-19 | 结合非局部先验与注意力机制的压缩视频后处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910652802.3A CN112243132A (zh) | 2019-07-19 | 2019-07-19 | 结合非局部先验与注意力机制的压缩视频后处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112243132A true CN112243132A (zh) | 2021-01-19 |
Family
ID=74168330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910652802.3A Pending CN112243132A (zh) | 2019-07-19 | 2019-07-19 | 结合非局部先验与注意力机制的压缩视频后处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112243132A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240221A1 (en) * | 2017-02-17 | 2018-08-23 | Cogisen S.R.L. | Method for image processing and video compression |
CN108765296A (zh) * | 2018-06-12 | 2018-11-06 | 桂林电子科技大学 | 一种基于递归残差注意力网络的图像超分辨率重建方法 |
CN109309834A (zh) * | 2018-11-21 | 2019-02-05 | 北京航空航天大学 | 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法 |
CN109584161A (zh) * | 2018-11-29 | 2019-04-05 | 四川大学 | 基于通道注意力的卷积神经网络的遥感图像超分辨率重建方法 |
-
2019
- 2019-07-19 CN CN201910652802.3A patent/CN112243132A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240221A1 (en) * | 2017-02-17 | 2018-08-23 | Cogisen S.R.L. | Method for image processing and video compression |
CN108765296A (zh) * | 2018-06-12 | 2018-11-06 | 桂林电子科技大学 | 一种基于递归残差注意力网络的图像超分辨率重建方法 |
CN109309834A (zh) * | 2018-11-21 | 2019-02-05 | 北京航空航天大学 | 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法 |
CN109584161A (zh) * | 2018-11-29 | 2019-04-05 | 四川大学 | 基于通道注意力的卷积神经网络的遥感图像超分辨率重建方法 |
Non-Patent Citations (1)
Title |
---|
戴茂华,王正勇,卿粼波,何小海: "超分辨率重建在低码率视频压缩编码中的应用", 《电视技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900848B (zh) | 一种基于自适应可分离卷积的视频质量增强方法 | |
US10462459B2 (en) | Non-local adaptive loop filter | |
Zhao et al. | Learning a virtual codec based on deep convolutional neural network to compress image | |
CN101841706B (zh) | 改善视频质量的方法和装置 | |
Sun et al. | Reduction of JPEG compression artifacts based on DCT coefficients prediction | |
CN110351568A (zh) | 一种基于深度卷积网络的视频环路滤波器 | |
CN111866521A (zh) | 一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法 | |
CN112150356A (zh) | 基于级联框架的单幅压缩图像超分辨率重建方法 | |
WO2021042270A1 (zh) | 基于双流多路径递归残差网络的压缩伪影去除方法 | |
Mehta et al. | Evrnet: Efficient video restoration on edge devices | |
CN119605167A (zh) | 基于神经网络的自适应图像和视频压缩方法 | |
Lai et al. | Multi-stage attention convolutional neural networks for HEVC in-loop filtering | |
WO2023082107A1 (zh) | 解码方法、编码方法、解码器、编码器和编解码系统 | |
CN112243132A (zh) | 结合非局部先验与注意力机制的压缩视频后处理方法 | |
CN1801947A (zh) | 编码和解码运动图像的设备、方法及其记录介质 | |
Wang et al. | Perceptual in-loop filter for image and video compression | |
KR20240160607A (ko) | 비주얼 데이터 처리 방법, 장치 및 매체 | |
KR20240137005A (ko) | 데이터 처리 방법, 장치 및 매체 | |
CN115243044A (zh) | 参考帧选择方法及装置、设备、存储介质 | |
Argaw et al. | Blurry Video Compression: A Trade-Off Between Visual Enhancement and Data Compression | |
Mishra et al. | Deep learning-based edge-aware pre and post-processing methods for jpeg compressed images | |
CN111818345B (zh) | 一种联合先验模型和细节增强的图像去压缩方法 | |
Choi et al. | A lightweight model for deep frame prediction in video coding | |
Yang et al. | Improved method of deblocking filter based on convolutional neural network in VVC | |
Bonanno et al. | A Medical Video Coding Scheme with Preserved Diagnostic Quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210119 |