CN114827616B - 一种基于时空信息平衡的压缩视频质量增强方法 - Google Patents
一种基于时空信息平衡的压缩视频质量增强方法 Download PDFInfo
- Publication number
- CN114827616B CN114827616B CN202210460169.XA CN202210460169A CN114827616B CN 114827616 B CN114827616 B CN 114827616B CN 202210460169 A CN202210460169 A CN 202210460169A CN 114827616 B CN114827616 B CN 114827616B
- Authority
- CN
- China
- Prior art keywords
- module
- space
- time
- frame
- time information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Abstract
本发明公开一种基于时空信息平衡的压缩视频质量增强方法,应用于视频处理领域,针对现有压缩技术存在的视频质量下降的问题;本发明采用了一个可即插即用的时空信息平衡模块,通过提取空间特征与时间特征,并对提取的时间特征与空间特征在特征空间中再次对齐;能够有效的去除对齐引入的噪声以及冗余的时间信息;同时能够自适应平衡时空信息占比,解决了PQF与non‑PQF的统一建模问题。能显著提高现有的视频质量增强方法的效果。
Description
技术领域
本发明属于视频处理领域,特别涉及一种视频压缩技术。
背景技术
现在最常用的H.265/HEVC标准,都是采用基于块的混合编码框架,其核心过程包括:预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性,导致编码重建图像呈现方块效应,即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时,这些效果更加明显);同时,量化是基于变换域中的块扩展,这个量化过程是不可逆的。另外,运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累,上述效应也会影响后续帧的编码质量,从而导致视频图像的客观评价质量下降,和人眼主观的感知质量降低。
为了解决压缩视频后导致的主观和客观质量下降的问题,有研究者提出了基于深度学习的压缩视频质量增强方法。近年来,与基于单帧的算法相比,压缩视频的多帧质量增强算法的性能有了很大的提高。然而,现有的方法主要集中于挖掘多帧的时间信息。大量参考帧减少了对空间信息的占比,然而现有的基于单帧的增强、去噪和超分辨率算法都证明了空间信息的重要性。
相关现有技术如下:
北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》,公开号为:公开号CN107481209A。该专利设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选择网络,两个网络的区别只是卷积神经网络的参数量的不同。该方案由于没有使用视频的相邻帧作参考,缺少时间信息,故质量增强结果有限。
复旦大学;上海哔哩哔哩科技有限公司许燚、高龙文、田凯、周水庚、孙胡杨的发明《视频质量增强方法和系统》,公开号为:CN112584158A;使用None-local替代了显示的运动补偿,虽然有更好的效果,但计算量显著增加。使用LSTM可捕获长时间范围的信息,但相对而言也增加了运算量。总的来说模型复杂度过高,效率较为低下。
北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》,公开号为:公开号CN108307193A。虽然该发明考虑到了相邻帧间的时间信息,但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现帧与帧之间的对齐。然而光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入新的伪影。同时精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有限。且为PQF单独使用了一个模型,虽然能提高对PQF的增强效果,但会显著增加计算成本。
综上,由于存储设备以及传输带宽的限制,视频通常会以有损的方式被压缩。然而,有损编码虽然降低了视频的大小,但却不可避免的引入了噪声与伪影,这些噪声除了会降低用户体验质量外,也会影响一些计算机视觉任务的算法性能;现有的视频增强方法大致可以分为单帧增强与多帧增强两种,单帧增强方法虽可以同时应用于图像上,但忽略了视频中的帧间信息,增强效果有限。多帧方法利用了视频的时间信息,但在很大程度上忽略了空间信息。
发明内容
为解决上述技术问题,本发明提出一种基于时空信息平衡的压缩视频质量增强方法,采用一个即插即用的时空信息平衡(STIB)模块来自适应地平衡时空信息。本模块还细化了时间信息,以更有利于时空信息的融合。实验表明,该模块能够显著提高现有多帧增强算法的性能。
本发明采用的技术方案为:一种基于时空信息平衡的压缩视频质量增强方法,包括:
S1、将当前帧及其前后r帧组成的序列进行对齐后;
S2、将经步骤S1对齐后的结果以及当前帧输入时空信息平衡模块;
S3、根据时空信息平衡模块的输出与当前帧,得到增强帧。
所述时空信息平衡模块的结构包括:空间特征提取模块、特征细化模块、再对齐模块以及卷积模块,所述空间特征提取模块采用残差网络提取当前帧的空间特征;所述特征细化模块采用空间掩膜生成器提取经步骤S2对齐后的结果的时间特征;所述再对齐模块包括浅层网络与可变形卷积,通过浅层网络预测空间特征与时间特征的偏移量,可变形卷积根据偏移量得到对齐后的时间特征;卷积模块根据空间特征与对齐后的时间特征,得到平衡后的时空信息。
所述残差网络包括一层卷积与3层残差块。
空间特征的表达式为:
特征细化模块提取的时间特征表达式为:
所述浅层网络包括一层卷积与2层残差块。
偏移量的计算式为:
δ=Conv(Concat(c0+r1+r2))
对齐后的时间特征表达式为:
采用的损失函数,具体公式为:
本发明的有益效果:本方案提出了一个可即插即用的时空信息平衡模块,加入到现有的多帧视频增强算法中能够有效的去除对齐引入的噪声以及冗余的时间信息。同时能够自适应平衡时空信息占比,解决了PQF与non-PQF的统一建模问题。能显著提高现有的视频质量增强方法的效果。
附图说明
图1为本发明的时空信息平衡模块的应用场景示意图;
其中,(a)为传统的多帧视频质量增强算法架构图,(b)为本发明的方法的应用场景;
图2为本发明的架构图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,首先对以下技术术语进行说明:
H.264/AVC:H.264是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组提出的高度压缩数字视频编解码器标准。
H.265/HEVC:是继H.264之后所制定的新的视频编码标准,保留了原有的H.264编码标准的的某些技术,同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系,以求达到最优化设置。
量化:指将信号的连续取值(或大量可能的离散取值)映射为有限多个离散取值的过程,实现信号取值多对一的映射。
振铃效应:对于图像里的强边缘,由于高频交流系数的量化失真,解码后会在边缘周围产生波纹现象,这种失真被称为振铃效应。
I帧,Intra-coded picture(帧内编码图像帧):不参考其他图像帧,只利用本帧的信息进行编码。
P帧,Predictive-coded picture(预测编码图像帧):利用之前的I帧或P帧,采用运动预测的方式进行帧间预测编码。
GOP,Group of pictures(图像组):指两个I帧之间的距离。
PQF:峰值质量帧,即GOP中的高质量帧,也可以看作是GOP中的I帧。
non-PQF:非峰值质量帧,即GOP中的低质量帧,也可看作是GOP中P帧。
Random Access(RA):随机接入编码模式,对于实现信道切换、寻道操作和动态流服务至关重要,适用于广播及流媒体等的应用需求。
Low Delay P(LDP):只有第一帧是I帧编码,而其他的都是P帧编码。
Peak Signal to Noise Ratio(PSNR):峰值信噪比,一种评价图像的客观标准。
structural similarity(SSIM):结构相似性,是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。
以下结合附图对本发明的内容进行阐述:
本发明提出了一个时空信息平衡(Spatio-Temporal Information Balance)模块,简称STIB模块。该模块可在现有的多帧视频增强算法上即插即用,具体使用方法如图1所示。图1(a)为现有的主流多帧视频增强方法的架构图,包含一个对齐模块以及一个增强模块。图1(b)为现有方法加入本发明的模块后的架构图,如图1所示,本发明方法可以轻松加入到现有的方法中,实现即插即用。
使用表示一个一共有N帧图像的待增强视频,xn表示视频中的第n帧图像。本发明在YUV/YCbCr色彩空间上对亮度分量进行增强。假设视频的分辨率为H×W,则 当增强第t帧xt时,本发明会选择其相邻的2r帧作为参考帧,本发明将这2r+1帧表示为X={xt-r,…,xt,…,xt+r}。
图1(a)描述了传统的视频增强架构,即对齐-增强架构,用公式表述为:
其中和分别为质量增强的输出和对齐模块的输出。本发明的模块可以轻松加入到现有的对齐-增强架构的视频增强算法中。如图1(b)所示,对齐后的帧不再直接送入到增强模块中,而是与压缩的当前帧一同送入本发明的STIB模块中进行时空重组。这一过程可描述为:
图2为本发明的STIB模块的网络架构。本发明的模块可以分为四个子模块:空间特征提取,特征细化模块、再对齐模块以及卷积模块。为了证明本发明方法的有效性,本发明没有使用复杂的网络结构,如非特别说明,网络中所有的卷积核大小均为3×3,激活函数一律使用ReLU。下面是四个子模块的具体细节。
空间特征提取模块:
对于LD与RA编码模式,视频质量会有波动,在对PQF进行增强时,其参考帧要么质量更低,要么时间间隔很远,这表明PQF帧的增强更应考虑使用空间信息而非时间信息,MFQE1.0与MFQE2.0都使用了独立的模型来增强PQF,而在STDF中没有考虑这一问题。为了解决这一问题,本发明需要自适应平衡时空信息的占比。f中包含空间信息但并不多,这使得本发明难以直接在f中挖掘空间信息。所以本发明使用了一个深度特征提取模块,重新对xt进行了特征提取,公式如下:
其中,Conv表示卷积,是一个由一层卷积及3层残差块组成的残差网络。三个改进的残差块用于加深网络,以提取更丰富的空间信息。每个残差块由两层卷积和中间的ReLU激活函数组成。与原始残差块相比不含BN层。
特征细化模块:
如上所述,参考帧中会有冗余信息,同时对齐会引入噪声和伪影。因此,有必要对时间信息进行处理。本发明利用空间注意机制设计了一个模块来细化对齐特征。使用公式可以描述为
其中⊙表示哈达玛积,是一个由m层卷积堆叠而成且最后一层由Sigmoid函数激活的空间掩膜生成器,f为对齐模块的输出。将f作为特征细化模块的输入,会生成一个与f具有相同维度相同大小的掩膜M,将f与M计算哈达玛积可以得到细化后的时间特征rf。
空间注意力机制能有效捕捉到本发明感兴趣的区域。空间掩膜对重要的像素分配更高的权重,这有利于消除空间特征中的冗余信息。
再对齐模块:
δ=Conv(Concat(c0+r1+r2))
网络的损失函数:
本发明使用Charbonnier Loss作为本发明模型的损失函数,具体公式为
本发明在MFQE2.0数据集上进行实验。它由108个训练视频和18个测试视频组成。这些视频的分辨率从352×240到2560×1600。所有序列用HM16.5在Low Delay P(LDP)配置下进行压缩。分别在4个不同的Quantization Parameters(QPs)下进行了压缩(即22、27、32、37),来评估不同程度压缩后模型的性能。
本发明使用RFDA作为本发明的基线模型,同时去掉了RFDA中的RF模块,原因是RF模块参数量较大且对模型整体带来的增益较低。本发明的实验基于RFDA+STIB进行。
在训练过程中,本发明将原始序列(及未压缩过的原始帧yt)和压缩序列裁剪成128×128大小的patch作为训练对,batch size设置为32。本发明选择6个相邻帧作为参考帧(即时域半径R=3),本发明使用旋转和翻转作为数据增加策略来进一步地扩大数据集。用β1=0.9,β2=0.999和ε=1×10-8的Adam作为优化器来训练本发明的模型3×105个迭代次数。学习率设置为3×10-4并在整个训练过程中不变。本发明首先从头开始训练QP=37的模型,然后对于其他QPs的模型从该训练好的模型进行微调以节约训练时间。所提出的模型由PyTorch实现,并在NVIDIA GeForce RTX 1080Ti GPUs上进行训练。
本发明定量地评估了本发明的方法的有效性,根据ΔPSNR和ΔSSIM与ARCNN、DnCNN、DS-CNN、MFQE1.0、MFQE2.0、STDF-R3L和RFDA等方法进行了比较。
表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。从表1中可以看出,所有的多帧质量增强方法都比单帧质量增强方法更好,因为利用了时间信息。同时,本发明所提出的STIB方法在4个QPs上始终优于其他先进的视频质量增强方法。这证明了本发明所提出了质量增强模块能够进一步地促进高频信息的恢复从而提高重建性能。
此外,本发明还用BD-rate的降低来对比了网络的性能,如表2所示,本发明以HEVC作为参考计算了MFQE1.0、MFQE2.0、STDF-R3L和RFDA等方法的BD-rate,结果显示本发明的方法优于现有的其他方法。
表1四个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10-4)的总体比较
表2和MFQE1.0、MFQE2.0、STDF-R3、STDF-R3L的BD-rate(%)比较结果
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (4)
1.一种基于时空信息平衡的压缩视频质量增强方法,其特征在于,包括:
S1、将当前帧及其前后r帧组成的序列进行对齐后;
S2、将经步骤S1对齐后的结果以及当前帧输入时空信息平衡模块;所述时空信息平衡模块的结构包括:空间特征提取模块、特征细化模块、再对齐模块以及卷积模块,所述空间特征提取模块采用残差网络提取当前帧的空间特征;所述特征细化模块采用空间掩膜生成器提取经步骤S1对齐后的结果的时间特征;所述再对齐模块包括浅层网络与可变形卷积,通过浅层网络预测空间特征与时间特征rf的偏移量δ,根据时间特征rf和偏移量δ进行可变形卷积得到对齐后的时间特征;卷积模块根据空间特征与对齐后的时间特征,得到平衡后的时空信息;
空间特征提取模块:使用一个深度特征提取模块,重新对xt进行了特征提取,公式如下:
特征细化模块提取的时间特征表达式为:
其中,rf表示xt对应的时间特征,⊙表示哈达玛积,是一个由m层卷积堆叠而成且最后一层由Sigmoid函数激活的空间掩膜生成器,f为对齐模块的输出;将f作为特征细化模块的输入,会生成一个与f具有相同维度相同大小的掩膜M,将f与M计算哈达玛积得到细化后的时间特征rf;
网络最终的输出O表示为
S3、根据时空信息平衡模块的输出与当前帧,得到增强帧。
2.根据权利要求1所述的一种基于时空信息平衡的压缩视频质量增强方法,其特征在于,所述浅层网络包括一层卷积与2层残差块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460169.XA CN114827616B (zh) | 2022-04-28 | 2022-04-28 | 一种基于时空信息平衡的压缩视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460169.XA CN114827616B (zh) | 2022-04-28 | 2022-04-28 | 一种基于时空信息平衡的压缩视频质量增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114827616A CN114827616A (zh) | 2022-07-29 |
CN114827616B true CN114827616B (zh) | 2023-03-10 |
Family
ID=82508843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460169.XA Active CN114827616B (zh) | 2022-04-28 | 2022-04-28 | 一种基于时空信息平衡的压缩视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114827616B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012230B (zh) * | 2023-01-17 | 2023-09-29 | 深圳大学 | 一种时空视频超分辨率方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291570A (zh) * | 2020-12-24 | 2021-01-29 | 浙江大学 | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 |
CN113902620A (zh) * | 2021-10-25 | 2022-01-07 | 浙江大学 | 一种基于可变形卷积网络的视频超分辨率系统及方法 |
CN113947531A (zh) * | 2021-10-29 | 2022-01-18 | 重庆邮电大学 | 一种迭代协作的视频超分辨率重构方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11689713B2 (en) * | 2020-07-15 | 2023-06-27 | Tencent America LLC | Predicted frame generation by deformable convolution for video coding |
US20220067886A1 (en) * | 2020-09-01 | 2022-03-03 | Vingroup Joint Stock Company | Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same |
US11601661B2 (en) * | 2020-10-09 | 2023-03-07 | Tencent America LLC | Deep loop filter by temporal deformable convolution |
-
2022
- 2022-04-28 CN CN202210460169.XA patent/CN114827616B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291570A (zh) * | 2020-12-24 | 2021-01-29 | 浙江大学 | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 |
CN113902620A (zh) * | 2021-10-25 | 2022-01-07 | 浙江大学 | 一种基于可变形卷积网络的视频超分辨率系统及方法 |
CN113947531A (zh) * | 2021-10-29 | 2022-01-18 | 重庆邮电大学 | 一种迭代协作的视频超分辨率重构方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114827616A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7929608B2 (en) | Method of reducing computations in intra-prediction and mode decision processes in a digital video encoder | |
JP4391809B2 (ja) | 画像のシーケンスを適応的に符号化するシステムおよび方法 | |
US8363728B2 (en) | Block based codec friendly edge detection and transform selection | |
JP2006519564A (ja) | ビデオ符号化 | |
JP4685849B2 (ja) | スケーラブルビデオコーディング及びデコーディング方法、並びにその装置 | |
JP2006519565A (ja) | ビデオ符号化 | |
CN1695381A (zh) | 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强 | |
JP2007525921A (ja) | ビデオ符号化方法及び装置 | |
JP4391810B2 (ja) | 画像のシーケンスを適応的に符号化するシステムおよび方法 | |
CN108235025B (zh) | 自适应帧间参考结构的拉格朗日乘子优化方法 | |
US8379985B2 (en) | Dominant gradient method for finding focused objects | |
CN110677654A (zh) | 高效视频编码标准低时延编码结构的量化参数级联方法 | |
CN114827616B (zh) | 一种基于时空信息平衡的压缩视频质量增强方法 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
CN101360236B (zh) | 一种Wyner-ziv视频编解码方法 | |
CN100586185C (zh) | 一种h.264视频降低分辨率转码的模式选择方法 | |
WO2017015958A1 (zh) | 一种视频编解码方法及装置 | |
JPH06133303A (ja) | 動画像符号化装置 | |
JP2001076166A (ja) | アニメーション動画像の符号化方法 | |
An et al. | Low-complexity motion estimation for H. 264/AVC through perceptual video coding. | |
CN115002482B (zh) | 使用结构性保持运动估计的端到端视频压缩方法及系统 | |
CN101277449A (zh) | 一种264视频以任意比例降低分辨率的像素域转码的方法 | |
Ghassab et al. | Video Compression Using Convolutional Neural Networks of Video With Chroma Subsampling | |
Li et al. | Rate-distortion-optimized content-adaptive coding for immersive networked experience of sports events | |
CN113507607B (zh) | 一种无需运动补偿的压缩视频多帧质量增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |