CN113450280A - 一种由粗到细地融合时空信息的压缩视频质量增强方法 - Google Patents

一种由粗到细地融合时空信息的压缩视频质量增强方法 Download PDF

Info

Publication number
CN113450280A
CN113450280A CN202110768143.7A CN202110768143A CN113450280A CN 113450280 A CN113450280 A CN 113450280A CN 202110768143 A CN202110768143 A CN 202110768143A CN 113450280 A CN113450280 A CN 113450280A
Authority
CN
China
Prior art keywords
fusion
stage
quality
residual
coarse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110768143.7A
Other languages
English (en)
Inventor
叶茂
罗登宴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110768143.7A priority Critical patent/CN113450280A/zh
Priority to CN202111067216.6A priority patent/CN113592746B/zh
Publication of CN113450280A publication Critical patent/CN113450280A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开一种由粗到细地融合时空信息的压缩视频质量增强方法,应用于视频处理领域,针对现有技术中存在的压缩后的视频不可避免地会出现压缩伪影,严重影响主观上的体验和客观上的质量的问题;本发明使用一种无需光流估计进行显示地预测对齐偏移的多帧质量增强网络,通过由粗到细地融合帧间信息来更好地预测对齐偏移从而充分利用相邻帧间的时间信息实现了压缩视频质量的提高,使得压缩视频从主观和客观上都得到增强。

Description

一种由粗到细地融合时空信息的压缩视频质量增强方法
技术领域
本发明属于视频处理领域,特别涉及一种增强压缩视频质量的技术。
背景技术
压缩视频质量增强方法自视频压缩国际标准被提出以来,就得到了工业界和学术界的广泛研究。在深度学习被提出之前,增强压缩视频质量的方法主要是以数学推导为基础的对单帧图像进行增强的空域法和频域法。在深度学习成功地应用到图像增强领域之后,各种新的方法被提出来用于增强压缩视频的质量,得到了比传统方法更好的结果和更强的泛化性。
现在最常用的H.265/HEVC标准,都采用基于块的混合编码框架,其核心过程包括:预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性,导致编码重建图像呈现块效应,即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时,这些效果更加明显);同时,量化是基于变换域中的块扩展,这个量化过程是不可逆的。另外,运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累,上述效应也会影响后续帧的编码质量,从而导致视频图像的客观评价质量下降,人眼的视觉感知质量降低。
北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》2017年9月26日向中国国家知识产权局申请专利并获得批准,于2017年12月15日公开,公开号为:公开号CN107481209A;首先设计了两个用于视频(或图像)质量增强的卷积神经网络,两个网络具有不同的计算复杂度;然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练;根据实际需要,选择一个计算复杂度较为合适的卷积神经网络,将质量待增强的图像或视频输入到选择的网络中;最后,该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量;用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。
该专利设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选择网络,两个网络的区别只是卷积神经网络的深度不同,仅仅通过加深网络深度来提高质量增强效果的方案是不可行的,而且没有针对图像视频的特点设计网络,即网络未能利用视频帧与帧之间的时间相关性,因此该方法质量增强的效果有限。
福建帝视信息科技有限公司高钦泉、聂可卉、刘文哲、童同的发明《一种基于自适应可分离卷积的视频质量增强方法》2018年6月12日向中国国家知识产权局申请专利并获得批准,于2018年11月27日公开,公开号为:CN108900848A。
《一种基于自适应可分离卷积的视频质量增强方法》将自适应可分离卷积作为第一个模块应用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变而改变,提高网络自适应性。该发明用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效高。
该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块,其结构是在传统的对称编解码模块网络的基础上,把最后一个解码模块替换为一个分离卷积模块,虽然有效的降低了模型的参数,但是质量增强的效果还有待进一步的提高。
北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》2018年2月8日向中国国家知识产权局申请专利并获得批准,于2018年7月20日公开,公开号为:公开号CN108307193A。
《一种有损压缩视频的多帧质量增强方法及装置》方法包括:针对解压缩的视频流的第i帧,采用所述第i帧关联的m个帧对所述第i帧进行质量增强,以播放质量增强后的第i帧;所述m个帧属于所述视频流中的帧,且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值;m为大于1的自然数。在具体应用中,可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法3减轻了视频流播放过程中多帧之间的质量波动,同时使得有损压缩后视频中的各帧质量得到增强。
虽然该发明考虑到了相邻帧间的时间信息,但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐,光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有限。
综上,在带宽有限的网络中传输视频时,采用视频压缩技术来显著地节省编码比特率是很有必要的。然而,压缩后的视频不可避免地会出现压缩伪影,这将严重影响主观上的体验和客观上的质量。
发明内容
为了解决压缩视频后导致的主观和客观质量下降的问题,本发明中提出了一个基于多帧的压缩视频质量增强网络,通过更好地预测对齐偏移来融合相邻帧间的时间信息从而提高压缩视频的质量。同时,本发明的网络不再需要利用光流估计来显示地预测对齐偏移,达到了网络训练更加简单的目的。
本发明采用的技术方案为:一种由粗到细地融合时空信息的压缩视频质量增强方法,所述方法基于的网络结构包括:粗略融合模块、多级残差融合模块、D2D融合模块、重建模块;低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图,所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征;根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移,D2D融合模块根据可变形偏移得到对齐后的融合特征图,对齐后的融合特征图经重建模块后得到重建结果。
所述粗略融合模块包括:多个伴随激活函数的C3D与瓶颈卷积,这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息;瓶颈卷积从时间维度上融合提取出的时空信息,得到粗略的融合特征图。
所述多级残差融合模块包括并行的三级,分别记为L1级、L2级、L3级,所述L1级包括一个残差块;L2级包括下采样块、多个残差块以及上采样块;L2级包括两个下采样块、多个残差块以及两个上采样块;
L1级中残差块的第一输入为粗略的融合特征图,第二输入为L2级中第一个残差块的输出,该残差块的输出作为L1级的输出结果;
L2级中粗略的融合特征图经下采样块后作为其第一个残差块的第一输入,所述第一个残差块的第二输入为L3级中第一个残差块的输出,其最后一个残差块的输出作为上采样块的输入,上采样块的输出作为L2级的输出结果;
L3级中粗略的融合特征图经两个下采样块后输入至七第一个残差块,最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果;
还包括卷积块,将L1级的输出结果、L2级的输出结果、L3级的输出结果相加后输入到该卷积块中,提取全局和局部的精细融合特征。
采用调制可变形卷积得到对齐的融合特征图。
所述重建模块的实现过程为:将经D2D融合模块对齐后的融合特征图输入到重建模块得到增强残差
Figure BDA0003151507730000041
将增强残差
Figure BDA0003151507730000042
与当前帧
Figure BDA0003151507730000043
逐元素相加而得到重建帧
Figure BDA0003151507730000044
Figure BDA0003151507730000045
所述网络结构采用端到端的方式进行训练。
训练采用的损失函数为:
Figure BDA0003151507730000046
其中,
Figure BDA0003151507730000047
表示原始帧,
Figure BDA0003151507730000048
表示当前迭代的重建结果,||·||2表示2范数。
本发明的有益效果:本发明通过由粗到细地融合帧间信息以更好地预测对齐偏移来对当前低质量的帧进行增强,使得压缩视频的主观和客观质量都得到明显的增强;并且本发明的网络不再需要利用光流估计来显示地预测对齐偏移,达到了网络训练更加简单的目的。
附图说明
图1为本发明提出的质量增强网络结构图;
图2为本发明的多级残差融合模块的架构图;
图3为本发明的重建模块的架构图;
图4为序列BasketballPass、RaceHorses和PartyScene在QP=37时的主观质量对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,首先对以下技术术语进行解释:
H.265/HEVC:是继H.264之后所制定的新的视频编码标准,保留了原有的H.264编码标准的某些技术,同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系,以求达到最优化设置。
GOP,Group of pictures(图像组):指两个I帧之间的距离。
I帧,Intra-coded picture(帧内编码图像帧):不参考其他图像帧,只利用本帧的信息进行编码。
P帧,Predictive-coded picture(预测编码图像帧):利用之前的I帧或P帧,采用运动预测的方式进行帧间预测编码。
Low Delay P(LDP):只有第一帧是I帧编码,而其他的都是P帧编码。
Peak Signal to Noise Ratio(PSNR):峰值信噪比,一种评价图像的客观标准。
structural similarity(SSIM):结构相似性,是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。
振铃效应:对于图像里的强边缘,由于高频交流系数的量化失真,解码后会在边缘周围产生波纹现象,这种失真被称为振铃效应。
PQF:峰值质量帧,即GOP中的高质量帧,也可以看作是GOP中的I帧。
non-PQF:非峰值质量帧,即GOP中的低质量帧,也可看作是GOP中P帧。
Deformable 2D Convolution(D2D):可变形2D卷积。
3D Convolution(C3D):3D卷积。
Rectified Linear Unit(ReLU):一种激活函数,增加神经网络各层之间的非线性关系。
以下结合附图对本发明的内容做详细阐述:
本发明方案提出的质量增强网络如图1所示,包括四个部分组成:粗略融合模块(Coarse Fusion Module,CFModule)、多级残差融合模块(Multi-level Residual FusionModule,MLRF)、D2D融合模块(D2D Fusion Module,D2DF)和重建模块(ReconstructionModule,REModule)。给定一个含2N+1个连续的低质量的压缩视频帧
Figure BDA0003151507730000051
序列,其中
Figure BDA0003151507730000052
是参考帧,其他帧是其相邻帧。本发明的目的是根据原始帧
Figure BDA0003151507730000053
的压缩帧
Figure BDA0003151507730000054
推断出高质量的帧
Figure BDA0003151507730000055
首先将输入序列
Figure BDA0003151507730000056
经过由p个3DConvolution(C3D)所组成的CFModule来粗略地融合输入帧而得到粗略的融合特征图Fc。然后用一个MLRF模块从不同级生成全局和局部的精细融合特征FL
由以上由粗到细生成的融合特征FL来联合预测所有用于对齐的可变形偏移,而不是像光流估计那样一次仅预测一个偏移。
然后将经D2DF对齐后的融合特征图Ff输入到由几个密集连接块所组成的REModule而得到增强残差
Figure BDA0003151507730000057
最后增强残差
Figure BDA0003151507730000058
与当前帧
Figure BDA0003151507730000059
逐元素相加而得到重建帧
Figure BDA00031515077300000510
Figure BDA0003151507730000061
图1中ITN表示输入的2N+1帧沿着通道拼接后的特征。
以下分别对四个模块进行详细阐述:
粗略融合模块(CFModule)
它由两个伴随着ReLU激活函数的C3D来粗略地提取和融合输入序列
Figure BDA0003151507730000062
Figure BDA0003151507730000063
中的时空信息:
Figure BDA0003151507730000064
其中,H×W表示输入帧的大小,T=2N+1表示输入序列长度,C表示通道数,OC3D代表2个C3D操作。
然后用一个1×1的瓶颈卷积(bottleneck)从时间维度上进一步融合提取的特征F3D∈RC′×T×H×W得到粗略的融合特征图Fc∈RC″×H×W
Fc=OB(F3D)
其中,C′表示C3D滤波器的数量,C″表示瓶颈卷积的滤波器的数量,OB代表瓶颈卷积操作,R表示维度记号,R的右上角的表示多少维,比如这里的RC′×T×H×W表示四维张量。注意,本发明在F3D输入到瓶颈卷积之前,首先将其转化为3维的张量C·T×H×W。
多级残差融合模块(MLRF)
多级残差融合模块的示意图如图2所示,它包括三个级:L1、L2和L3。
L1级被用来提取与Fc图像大小相同的全局特征,并融合来自L2级相应阶段的输出特征。它主要由一个残差块组成,L1级可以表示为:
Figure BDA0003151507730000065
其中,
Figure BDA0003151507730000066
(i=1,2)分别表示L1和L2级中第一个残差块的输出。
Figure BDA0003151507730000067
表示L1级第一个残差块操作。Otc表示转置卷积操作。FL1表示L1级输出的特征图。
L2级主要由一个下采样块和一个上采样块以及多个残差块组成。与L1级不同,本发明使用一个步长为2的3×3的步长卷积和一个3×3的卷积来对输入的粗略的融合特征Fc进行下采样。然后使用几个残差块来提取和融合来自L3级的特征。最终用一个转置卷积和一个3×3的卷积将提取的特征上采样到Fc图像大小。L2级可以表示为:
Figure BDA0003151507730000071
Figure BDA0003151507730000072
其中,
Figure BDA0003151507730000073
Figure BDA0003151507730000074
分别指一次下采样和一次上采样操作(比例都为2)。
Figure BDA0003151507730000075
(i=2,3)分别表示L2和L3级中第一个残差块的输出。
Figure BDA0003151507730000076
(j=1,2)分别表示L2级中第一个残差块和第二个残差块操作。FL2表示L2级输出的特征图。本发明在图2中给出了残差模块具体的实现结构,本领域技术人员应知残差模块为深度学习中的基础模块,其具体实现结构在本实施例中不再做详细阐述。
L3级主要指逐步向上采样的结构,以提取按4的比例向下采样的信息特征。首先,用两个比例为2的下采样块对Fc进行操作。然后下采样的特征被逐步输入到一些残差块和上采样块中。L3级可以表示为:
Figure BDA0003151507730000077
Figure BDA0003151507730000078
其中,
Figure BDA0003151507730000079
Figure BDA00031515077300000710
分别指两次下采样和两次上采样操作(比例都为2)。
Figure BDA00031515077300000711
指L3级中第一个残差块的输出。
Figure BDA00031515077300000712
(j=1,2)分别表示L3级中第一个残差块和第二个残差块操作。FL3表示L3级输出的特征图。
L2和L3中的残差块个数越多,一般性能越好,但模型越复杂,计算量也越,本实施例中采用2个残差块。
最终,从L1、L2和L3级提取的特征逐元素相加后输入到一个3×3的卷积来融合提取的全局和局部的精细融合特征FL
FL=OC(FL1+FL2+FL3)
其中,OC指卷积操作。
通过以上由粗到细的融合策略,使本发明的网络能够更好地预测生成可变形偏移所需的融合特征。
D2D融合模块(D2DF)
令X和Y分别表示一个常规卷积的输入和输出。对于每一个Y上的位置p,一个卷积操作可以描述为:
Figure BDA0003151507730000081
其中,pk代表具有K个采样位置的采样网格,wk代表每个位置的权重。例如,K=9和pk∈{(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3的卷积核。在调制可变型卷积中,预测的偏移和调制掩膜被添加到采样网格中,使卷积核发生空间变化。这里,本发明使用调制可变形卷积“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:9308-9316.”来得到对齐的融合特征图Ff。调制可变型卷积的操作如下:
Figure BDA0003151507730000082
其中,Δpk和Δmk分别是第k个位置可学习的偏移和调制掩膜。ITN表示输入序列
Figure BDA0003151507730000083
沿着通道拼接后的特征。卷积将在具有动态权重的不规则位置上进行操作,以实现对输入特征ITN的自适应采样。相应的可变型采样参数可通过如下学习得到:
Figure BDA0003151507730000084
Figure BDA0003151507730000085
其中,
Figure BDA0003151507730000086
表示一个用于生成可变形偏移ΔP的常规卷积,其滤波器数量为(2N+1)·2k2
Figure BDA0003151507730000087
指一个用于生成调制掩膜ΔM的常规卷积,其滤波器数量为(2N+1)·k2。Δpk∈ΔP,Δmk∈ΔM。因为Δpk可能是分数,我们也使用双线性插值,如“Dai J,Qi H,Xiong Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEEinternational conference on computer vision.2017:764-773.”一样。
重建模块(REModule)
所提出的重建模块如图3所示。本发明首先用一个3×3的卷积层来提取对齐后的融合特征图Ff中更有用的特征Ffu
Ffu=Oc(Ff)
然后,跟随“Mehta S,Kumar A,Reda F,et al.EVRNet:Efficient VideoRestoration on Edge Devices[J].arXiv preprint arXiv:2012.02228,2020.”,本发明结合特征相减和特征求和作为一个有效避免计算复杂性的操作:
Ffus=Ffu+D(Ffu-D(Ffu))
其中,D指密集连接操作,即首先用一个ReLU激活函数来增加网络的非线性性,然后依次经过三个卷积层,最终,将不同层的卷积输出和输入沿着通道拼接后作为整个模块的输出。
进一步地,将Ffus输入到一个密集连接块和一个3×3的卷积层来得到不同层的融合特征FH
FH=OC([Ffu,D(Ffu),Ffus,D(Ffus)])
其中,OC代表一个3x3的卷积操作。最终FH与Ffu逐元素相加后经过两个卷积层而得到增强残差
Figure BDA0003151507730000091
Figure BDA0003151507730000092
其中,
Figure BDA0003151507730000093
代表两个卷积层。
网络的损失函数
在本发明的方法中,粗略融合模块、多级残差融合模块、D2D融合模块和重建模块以端到端的方式联合训练(即原始帧到重建结果的端到端训练方式),且网络不需要先训练收敛某一子网,因此损失函数只由一项组成。本发明使用L2-norm作为本发明网络的损失函数:
Figure BDA0003151507730000094
其中,||·||2表示2范数。
本实施例定性地和定量地评估了本发明的方法的有效性,其中定量评估则根据ΔPSNR和ΔSSIM与MFQE(Yang R,Xu M,Wang Z,et al.Multi-frame quality enhancementfor compressed video[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:6664-6673.)、SDTS(Meng X,Deng X,Zhu S,etal.Enhancing quality for VVC compressed videos by joimly exploiting spatialdetails and temporal structure[C]//2019IEEE International Conference on ImageProcessing(ICIP).IEEE,2019:1193-1197.)、MFQE2.0(Guan Z,Xing Q,Xu M,et al.MFQE2.0:A new approach for multi-frame quality enhancement on compressed video[J].IEEE transactions on pattern analysis and machine intelligence,2019.)、MGANet(Meng X,Deng X,Zhu S,et al.Mganet:A robust model for qualityenhancement of compressed video[J].arXiv preprint arXiv:1811.09150,2018.)、MGANet2.0(Meng X,Deng X,Zhu S,et al.A Robust Quality Enhancement Method Basedon Joint Spatial-Temporal Priors for Video Coding[J].IEEE Transactions onCircuits and Systems for Video Technology,2020.)、FastMSDD(Xiao W,He H,Wang T,et al.The Interpretable Fast Multi-Scale Deep Decoder for the Standard HEVCBitstreams[J].IEEE Transactions on Multimedia,2020,22(7):1680-1691.)和STDF(Deng J,Wang L,Pu S,et al.Spatio-temporal deformable convolution forcompressed video quality enhancement[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence.2020,34(07):10696-10703.)进了比较;定性评估则与MFQE2.0和STDF进行了比较。
表1五个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10-4)的总体比较
Figure BDA0003151507730000101
定量评估:表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。可以看出,我们的方法始终优于其他的视频质量增强方法。具体来说,在输入帧半径N=1和QP=22时,我们的方法平均ΔPSNR值达到了0.707dB,比STDF-N1(0.556dB)高出27.1%,比MFQE2.0(0.458dB)高出54.4%,比FastMSDD(0.350dB)高出102%。随着输入帧的半径N增加到3时,我们的方法平均ΔPSNR值达到了0.845dB,比STDF(0.646dB)高出30.8%,比MFQE2.0(0.458dB)高出84.5%,比FastMSDD(0.350dB)高出141.4%。
在其他的QP点时,本发明的方法在ΔPSNR和ΔSSIM上也都优于其他的方法。此外,本发明还用BD-rate的降低来对比了网络的性能,如表2所示,本发明的网络的BD-rate平均降低了24.69%,优于先进的方法STDF(21.61%)。
表2和FastMSDD[11]、MFQE[8]、MFQE2.0[3]、STDF[4]的BD-rate(%)比较结果
Figure BDA0003151507730000111
定性评估:图4展示了序列BasketballPass、RaceHorses和PartyScene在QP=37时的主观质量表现。从图4中可以看出,本发明的方法相比于MFQE2.0和STDF方法可以减少更多的压缩伪影,实现了更好的视觉体验。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述方法基于的网络结构包括:粗略融合模块、多级残差融合模块、D2D融合模块、重建模块;低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图,所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征;根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移,D2D融合模块根据可变形偏移得到对齐后的融合特征图,对齐后的融合特征图经重建模块后得到重建结果。
2.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述粗略融合模块包括:多个伴随激活函数的C3D与瓶颈卷积,这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息;瓶颈卷积从时间维度上融合提取出的时空信息,得到粗略的融合特征图。
3.根据权利要求2所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述多级残差融合模块包括并行的三级,分别记为L1级、L2级、L3级,所述L1级包括一个残差块;L2级包括下采样块、多个残差块以及上采样块;L2级包括两个下采样块、多个残差块以及两个上采样块;
L1级中残差块的第一输入为粗略的融合特征图,第二输入为L2级中第一个残差块的输出,该残差块的输出作为L1级的输出结果;
L2级中粗略的融合特征图经下采样块后作为其第一个残差块的第一输入,所述第一个残差块的第二输入为L3级中第一个残差块的输出,其最后一个残差块的输出作为上采样块的输入,上采样块的输出作为L2级的输出结果;
L3级中粗略的融合特征图经两个下采样块后输入至其第一个残差块,其最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果;
还包括卷积块,将L1级的输出结果、L2级的输出结果、L3级的输出结果相加后输入到该卷积块中,提取全局和局部的精细融合特征。
4.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,D2D融合模块采用调制可变形卷积得到对齐的融合特征图。
5.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,所述重建模块的实现过程为:将经D2D融合模块对齐后的融合特征图输入到重建模块得到增强残差
Figure FDA0003151507720000011
将增强残差
Figure FDA0003151507720000012
与当前帧
Figure FDA0003151507720000013
逐元素相加而得到重建帧
Figure FDA0003151507720000014
Figure FDA0003151507720000015
6.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述网络结构采用端到端的方式进行训练。
7.根据权利要求5所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,训练采用的损失函数为:
Figure FDA0003151507720000021
其中,
Figure FDA0003151507720000022
表示原始帧,
Figure FDA0003151507720000023
表示当前迭代的重建结果,||·||2表示2范数。
CN202110768143.7A 2021-07-07 2021-07-07 一种由粗到细地融合时空信息的压缩视频质量增强方法 Withdrawn CN113450280A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110768143.7A CN113450280A (zh) 2021-07-07 2021-07-07 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN202111067216.6A CN113592746B (zh) 2021-07-07 2021-09-13 一种由粗到细地融合时空信息的压缩视频质量增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110768143.7A CN113450280A (zh) 2021-07-07 2021-07-07 一种由粗到细地融合时空信息的压缩视频质量增强方法

Publications (1)

Publication Number Publication Date
CN113450280A true CN113450280A (zh) 2021-09-28

Family

ID=77815429

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110768143.7A Withdrawn CN113450280A (zh) 2021-07-07 2021-07-07 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN202111067216.6A Active CN113592746B (zh) 2021-07-07 2021-09-13 一种由粗到细地融合时空信息的压缩视频质量增强方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111067216.6A Active CN113592746B (zh) 2021-07-07 2021-09-13 一种由粗到细地融合时空信息的压缩视频质量增强方法

Country Status (1)

Country Link
CN (2) CN113450280A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511485A (zh) * 2022-01-29 2022-05-17 电子科技大学 一种循环可变形融合的压缩视频质量增强方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114554213B (zh) * 2022-02-21 2023-04-18 电子科技大学 一种运动自适应和关注细节的压缩视频质量增强方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742892A (en) * 1995-04-18 1998-04-21 Sun Microsystems, Inc. Decoder for a software-implemented end-to-end scalable video delivery system
US8675138B2 (en) * 2010-07-15 2014-03-18 Broadcom Corporation Method and apparatus for fast source switching and/or automatic source switching
CN102289795B (zh) * 2011-07-29 2013-05-22 上海交通大学 基于融合思想的视频时空联合增强方法
CN104539961B (zh) * 2014-12-12 2017-12-15 上海交通大学 基于分层结构渐进式字典学习的可分级视频编码系统
CN104616243B (zh) * 2015-01-20 2018-02-27 北京道和汇通科技发展有限公司 一种高效的gpu三维视频融合绘制方法
CN108307193B (zh) * 2018-02-08 2018-12-18 北京航空航天大学 一种有损压缩视频的多帧质量增强方法及装置
CN109257600B (zh) * 2018-11-28 2020-11-17 福建帝视信息科技有限公司 一种基于深度学习的视频压缩伪影自适应去除方法
CN110378348B (zh) * 2019-07-11 2021-07-09 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN111031315B (zh) * 2019-11-18 2023-05-30 复旦大学 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN111028150B (zh) * 2019-11-28 2022-04-15 武汉大学 一种快速时空残差注意力视频超分辨率重建方法
CN112381866B (zh) * 2020-10-27 2022-12-13 天津大学 一种基于注意力机制的视频比特增强方法
CN112291570B (zh) * 2020-12-24 2021-03-26 浙江大学 一种基于轻量级可形变卷积神经网络的实时视频增强方法
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113055674B (zh) * 2021-03-24 2022-05-10 电子科技大学 一种基于两阶段多帧协同的压缩视频质量增强方法
CN112991183B (zh) * 2021-04-09 2023-06-20 华南理工大学 一种基于多帧注意力机制渐进式融合的视频超分辨率方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511485A (zh) * 2022-01-29 2022-05-17 电子科技大学 一种循环可变形融合的压缩视频质量增强方法

Also Published As

Publication number Publication date
CN113592746A (zh) 2021-11-02
CN113592746B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US8526488B2 (en) Video sequence encoding system and algorithms
CN109842799B (zh) 颜色分量的帧内预测方法、装置及计算机设备
EP2479996A1 (en) Video coding with prediction using a signle coding mode for all color components
TW200535717A (en) Directional video filters for locally adaptive spatial noise reduction
CN102460504B (zh) 基于3d的视频去噪中的环路外的帧匹配
JPH07231450A (ja) 動画画像信号系列中のアーティファクトを削減するためのフィルタ装置及び方法
CN111711824A (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN113592746B (zh) 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN112261414B (zh) 一种以注意力机制融合单元划分的视频编码卷积滤波方法
US8594189B1 (en) Apparatus and method for coding video using consistent regions and resolution scaling
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
US20120263225A1 (en) Apparatus and method for encoding moving picture
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
Yu et al. Hevc compression artifact reduction with generative adversarial networks
Xia et al. Asymmetric convolutional residual network for av1 intra in-loop filtering
CN111726636A (zh) 一种基于时域下采样与帧率上转换的hevc编码优化方法
Segall et al. Super-resolution from compressed video
Wu et al. MPCNet: Compressed multi-view video restoration via motion-parallax complementation network
CN112819707A (zh) 一种端到端抗块效应低照度图像增强方法
CN112468826A (zh) 一种基于多层gan的vvc环路滤波方法及系统
CN113507607B (zh) 一种无需运动补偿的压缩视频多帧质量增强方法
CN114554213B (zh) 一种运动自适应和关注细节的压缩视频质量增强方法
Bhojani et al. Hybrid video compression standard
CN109889829A (zh) 360度视频的快速样点自适应补偿
CN114511485B (zh) 一种循环可变形融合的压缩视频质量增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210928

WW01 Invention patent application withdrawn after publication