CN113450280A - 一种由粗到细地融合时空信息的压缩视频质量增强方法 - Google Patents
一种由粗到细地融合时空信息的压缩视频质量增强方法 Download PDFInfo
- Publication number
- CN113450280A CN113450280A CN202110768143.7A CN202110768143A CN113450280A CN 113450280 A CN113450280 A CN 113450280A CN 202110768143 A CN202110768143 A CN 202110768143A CN 113450280 A CN113450280 A CN 113450280A
- Authority
- CN
- China
- Prior art keywords
- fusion
- stage
- quality
- residual
- coarse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims description 62
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006835 compression Effects 0.000 abstract description 5
- 238000007906 compression Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241000777300 Congiopodidae Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种由粗到细地融合时空信息的压缩视频质量增强方法,应用于视频处理领域,针对现有技术中存在的压缩后的视频不可避免地会出现压缩伪影,严重影响主观上的体验和客观上的质量的问题;本发明使用一种无需光流估计进行显示地预测对齐偏移的多帧质量增强网络,通过由粗到细地融合帧间信息来更好地预测对齐偏移从而充分利用相邻帧间的时间信息实现了压缩视频质量的提高,使得压缩视频从主观和客观上都得到增强。
Description
技术领域
本发明属于视频处理领域,特别涉及一种增强压缩视频质量的技术。
背景技术
压缩视频质量增强方法自视频压缩国际标准被提出以来,就得到了工业界和学术界的广泛研究。在深度学习被提出之前,增强压缩视频质量的方法主要是以数学推导为基础的对单帧图像进行增强的空域法和频域法。在深度学习成功地应用到图像增强领域之后,各种新的方法被提出来用于增强压缩视频的质量,得到了比传统方法更好的结果和更强的泛化性。
现在最常用的H.265/HEVC标准,都采用基于块的混合编码框架,其核心过程包括:预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性,导致编码重建图像呈现块效应,即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时,这些效果更加明显);同时,量化是基于变换域中的块扩展,这个量化过程是不可逆的。另外,运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累,上述效应也会影响后续帧的编码质量,从而导致视频图像的客观评价质量下降,人眼的视觉感知质量降低。
北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》2017年9月26日向中国国家知识产权局申请专利并获得批准,于2017年12月15日公开,公开号为:公开号CN107481209A;首先设计了两个用于视频(或图像)质量增强的卷积神经网络,两个网络具有不同的计算复杂度;然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练;根据实际需要,选择一个计算复杂度较为合适的卷积神经网络,将质量待增强的图像或视频输入到选择的网络中;最后,该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量;用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。
该专利设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选择网络,两个网络的区别只是卷积神经网络的深度不同,仅仅通过加深网络深度来提高质量增强效果的方案是不可行的,而且没有针对图像视频的特点设计网络,即网络未能利用视频帧与帧之间的时间相关性,因此该方法质量增强的效果有限。
福建帝视信息科技有限公司高钦泉、聂可卉、刘文哲、童同的发明《一种基于自适应可分离卷积的视频质量增强方法》2018年6月12日向中国国家知识产权局申请专利并获得批准,于2018年11月27日公开,公开号为:CN108900848A。
《一种基于自适应可分离卷积的视频质量增强方法》将自适应可分离卷积作为第一个模块应用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变而改变,提高网络自适应性。该发明用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效高。
该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块,其结构是在传统的对称编解码模块网络的基础上,把最后一个解码模块替换为一个分离卷积模块,虽然有效的降低了模型的参数,但是质量增强的效果还有待进一步的提高。
北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》2018年2月8日向中国国家知识产权局申请专利并获得批准,于2018年7月20日公开,公开号为:公开号CN108307193A。
《一种有损压缩视频的多帧质量增强方法及装置》方法包括:针对解压缩的视频流的第i帧,采用所述第i帧关联的m个帧对所述第i帧进行质量增强,以播放质量增强后的第i帧;所述m个帧属于所述视频流中的帧,且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值;m为大于1的自然数。在具体应用中,可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法3减轻了视频流播放过程中多帧之间的质量波动,同时使得有损压缩后视频中的各帧质量得到增强。
虽然该发明考虑到了相邻帧间的时间信息,但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐,光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有限。
综上,在带宽有限的网络中传输视频时,采用视频压缩技术来显著地节省编码比特率是很有必要的。然而,压缩后的视频不可避免地会出现压缩伪影,这将严重影响主观上的体验和客观上的质量。
发明内容
为了解决压缩视频后导致的主观和客观质量下降的问题,本发明中提出了一个基于多帧的压缩视频质量增强网络,通过更好地预测对齐偏移来融合相邻帧间的时间信息从而提高压缩视频的质量。同时,本发明的网络不再需要利用光流估计来显示地预测对齐偏移,达到了网络训练更加简单的目的。
本发明采用的技术方案为:一种由粗到细地融合时空信息的压缩视频质量增强方法,所述方法基于的网络结构包括:粗略融合模块、多级残差融合模块、D2D融合模块、重建模块;低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图,所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征;根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移,D2D融合模块根据可变形偏移得到对齐后的融合特征图,对齐后的融合特征图经重建模块后得到重建结果。
所述粗略融合模块包括:多个伴随激活函数的C3D与瓶颈卷积,这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息;瓶颈卷积从时间维度上融合提取出的时空信息,得到粗略的融合特征图。
所述多级残差融合模块包括并行的三级,分别记为L1级、L2级、L3级,所述L1级包括一个残差块;L2级包括下采样块、多个残差块以及上采样块;L2级包括两个下采样块、多个残差块以及两个上采样块;
L1级中残差块的第一输入为粗略的融合特征图,第二输入为L2级中第一个残差块的输出,该残差块的输出作为L1级的输出结果;
L2级中粗略的融合特征图经下采样块后作为其第一个残差块的第一输入,所述第一个残差块的第二输入为L3级中第一个残差块的输出,其最后一个残差块的输出作为上采样块的输入,上采样块的输出作为L2级的输出结果;
L3级中粗略的融合特征图经两个下采样块后输入至七第一个残差块,最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果;
还包括卷积块,将L1级的输出结果、L2级的输出结果、L3级的输出结果相加后输入到该卷积块中,提取全局和局部的精细融合特征。
采用调制可变形卷积得到对齐的融合特征图。
所述网络结构采用端到端的方式进行训练。
训练采用的损失函数为:
本发明的有益效果:本发明通过由粗到细地融合帧间信息以更好地预测对齐偏移来对当前低质量的帧进行增强,使得压缩视频的主观和客观质量都得到明显的增强;并且本发明的网络不再需要利用光流估计来显示地预测对齐偏移,达到了网络训练更加简单的目的。
附图说明
图1为本发明提出的质量增强网络结构图;
图2为本发明的多级残差融合模块的架构图;
图3为本发明的重建模块的架构图;
图4为序列BasketballPass、RaceHorses和PartyScene在QP=37时的主观质量对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,首先对以下技术术语进行解释:
H.265/HEVC:是继H.264之后所制定的新的视频编码标准,保留了原有的H.264编码标准的某些技术,同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系,以求达到最优化设置。
GOP,Group of pictures(图像组):指两个I帧之间的距离。
I帧,Intra-coded picture(帧内编码图像帧):不参考其他图像帧,只利用本帧的信息进行编码。
P帧,Predictive-coded picture(预测编码图像帧):利用之前的I帧或P帧,采用运动预测的方式进行帧间预测编码。
Low Delay P(LDP):只有第一帧是I帧编码,而其他的都是P帧编码。
Peak Signal to Noise Ratio(PSNR):峰值信噪比,一种评价图像的客观标准。
structural similarity(SSIM):结构相似性,是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。
振铃效应:对于图像里的强边缘,由于高频交流系数的量化失真,解码后会在边缘周围产生波纹现象,这种失真被称为振铃效应。
PQF:峰值质量帧,即GOP中的高质量帧,也可以看作是GOP中的I帧。
non-PQF:非峰值质量帧,即GOP中的低质量帧,也可看作是GOP中P帧。
Deformable 2D Convolution(D2D):可变形2D卷积。
3D Convolution(C3D):3D卷积。
Rectified Linear Unit(ReLU):一种激活函数,增加神经网络各层之间的非线性关系。
以下结合附图对本发明的内容做详细阐述:
本发明方案提出的质量增强网络如图1所示,包括四个部分组成:粗略融合模块(Coarse Fusion Module,CFModule)、多级残差融合模块(Multi-level Residual FusionModule,MLRF)、D2D融合模块(D2D Fusion Module,D2DF)和重建模块(ReconstructionModule,REModule)。给定一个含2N+1个连续的低质量的压缩视频帧序列,其中是参考帧,其他帧是其相邻帧。本发明的目的是根据原始帧的压缩帧推断出高质量的帧
由以上由粗到细生成的融合特征FL来联合预测所有用于对齐的可变形偏移,而不是像光流估计那样一次仅预测一个偏移。
图1中ITN表示输入的2N+1帧沿着通道拼接后的特征。
以下分别对四个模块进行详细阐述:
粗略融合模块(CFModule)
其中,H×W表示输入帧的大小,T=2N+1表示输入序列长度,C表示通道数,OC3D代表2个C3D操作。
然后用一个1×1的瓶颈卷积(bottleneck)从时间维度上进一步融合提取的特征F3D∈RC′×T×H×W得到粗略的融合特征图Fc∈RC″×H×W:
Fc=OB(F3D)
其中,C′表示C3D滤波器的数量,C″表示瓶颈卷积的滤波器的数量,OB代表瓶颈卷积操作,R表示维度记号,R的右上角的表示多少维,比如这里的RC′×T×H×W表示四维张量。注意,本发明在F3D输入到瓶颈卷积之前,首先将其转化为3维的张量C·T×H×W。
多级残差融合模块(MLRF)
多级残差融合模块的示意图如图2所示,它包括三个级:L1、L2和L3。
L1级被用来提取与Fc图像大小相同的全局特征,并融合来自L2级相应阶段的输出特征。它主要由一个残差块组成,L1级可以表示为:
L2级主要由一个下采样块和一个上采样块以及多个残差块组成。与L1级不同,本发明使用一个步长为2的3×3的步长卷积和一个3×3的卷积来对输入的粗略的融合特征Fc进行下采样。然后使用几个残差块来提取和融合来自L3级的特征。最终用一个转置卷积和一个3×3的卷积将提取的特征上采样到Fc图像大小。L2级可以表示为:
其中,和分别指一次下采样和一次上采样操作(比例都为2)。(i=2,3)分别表示L2和L3级中第一个残差块的输出。(j=1,2)分别表示L2级中第一个残差块和第二个残差块操作。FL2表示L2级输出的特征图。本发明在图2中给出了残差模块具体的实现结构,本领域技术人员应知残差模块为深度学习中的基础模块,其具体实现结构在本实施例中不再做详细阐述。
L3级主要指逐步向上采样的结构,以提取按4的比例向下采样的信息特征。首先,用两个比例为2的下采样块对Fc进行操作。然后下采样的特征被逐步输入到一些残差块和上采样块中。L3级可以表示为:
L2和L3中的残差块个数越多,一般性能越好,但模型越复杂,计算量也越,本实施例中采用2个残差块。
最终,从L1、L2和L3级提取的特征逐元素相加后输入到一个3×3的卷积来融合提取的全局和局部的精细融合特征FL:
FL=OC(FL1+FL2+FL3)
其中,OC指卷积操作。
通过以上由粗到细的融合策略,使本发明的网络能够更好地预测生成可变形偏移所需的融合特征。
D2D融合模块(D2DF)
令X和Y分别表示一个常规卷积的输入和输出。对于每一个Y上的位置p,一个卷积操作可以描述为:
其中,pk代表具有K个采样位置的采样网格,wk代表每个位置的权重。例如,K=9和pk∈{(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3的卷积核。在调制可变型卷积中,预测的偏移和调制掩膜被添加到采样网格中,使卷积核发生空间变化。这里,本发明使用调制可变形卷积“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:9308-9316.”来得到对齐的融合特征图Ff。调制可变型卷积的操作如下:
其中,Δpk和Δmk分别是第k个位置可学习的偏移和调制掩膜。ITN表示输入序列沿着通道拼接后的特征。卷积将在具有动态权重的不规则位置上进行操作,以实现对输入特征ITN的自适应采样。相应的可变型采样参数可通过如下学习得到:
其中,表示一个用于生成可变形偏移ΔP的常规卷积,其滤波器数量为(2N+1)·2k2。指一个用于生成调制掩膜ΔM的常规卷积,其滤波器数量为(2N+1)·k2。Δpk∈ΔP,Δmk∈ΔM。因为Δpk可能是分数,我们也使用双线性插值,如“Dai J,Qi H,Xiong Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEEinternational conference on computer vision.2017:764-773.”一样。
重建模块(REModule)
所提出的重建模块如图3所示。本发明首先用一个3×3的卷积层来提取对齐后的融合特征图Ff中更有用的特征Ffu:
Ffu=Oc(Ff)
然后,跟随“Mehta S,Kumar A,Reda F,et al.EVRNet:Efficient VideoRestoration on Edge Devices[J].arXiv preprint arXiv:2012.02228,2020.”,本发明结合特征相减和特征求和作为一个有效避免计算复杂性的操作:
Ffus=Ffu+D(Ffu-D(Ffu))
其中,D指密集连接操作,即首先用一个ReLU激活函数来增加网络的非线性性,然后依次经过三个卷积层,最终,将不同层的卷积输出和输入沿着通道拼接后作为整个模块的输出。
进一步地,将Ffus输入到一个密集连接块和一个3×3的卷积层来得到不同层的融合特征FH:
FH=OC([Ffu,D(Ffu),Ffus,D(Ffus)])
网络的损失函数
在本发明的方法中,粗略融合模块、多级残差融合模块、D2D融合模块和重建模块以端到端的方式联合训练(即原始帧到重建结果的端到端训练方式),且网络不需要先训练收敛某一子网,因此损失函数只由一项组成。本发明使用L2-norm作为本发明网络的损失函数:
其中,||·||2表示2范数。
本实施例定性地和定量地评估了本发明的方法的有效性,其中定量评估则根据ΔPSNR和ΔSSIM与MFQE(Yang R,Xu M,Wang Z,et al.Multi-frame quality enhancementfor compressed video[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:6664-6673.)、SDTS(Meng X,Deng X,Zhu S,etal.Enhancing quality for VVC compressed videos by joimly exploiting spatialdetails and temporal structure[C]//2019IEEE International Conference on ImageProcessing(ICIP).IEEE,2019:1193-1197.)、MFQE2.0(Guan Z,Xing Q,Xu M,et al.MFQE2.0:A new approach for multi-frame quality enhancement on compressed video[J].IEEE transactions on pattern analysis and machine intelligence,2019.)、MGANet(Meng X,Deng X,Zhu S,et al.Mganet:A robust model for qualityenhancement of compressed video[J].arXiv preprint arXiv:1811.09150,2018.)、MGANet2.0(Meng X,Deng X,Zhu S,et al.A Robust Quality Enhancement Method Basedon Joint Spatial-Temporal Priors for Video Coding[J].IEEE Transactions onCircuits and Systems for Video Technology,2020.)、FastMSDD(Xiao W,He H,Wang T,et al.The Interpretable Fast Multi-Scale Deep Decoder for the Standard HEVCBitstreams[J].IEEE Transactions on Multimedia,2020,22(7):1680-1691.)和STDF(Deng J,Wang L,Pu S,et al.Spatio-temporal deformable convolution forcompressed video quality enhancement[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence.2020,34(07):10696-10703.)进了比较;定性评估则与MFQE2.0和STDF进行了比较。
表1五个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10-4)的总体比较
定量评估:表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。可以看出,我们的方法始终优于其他的视频质量增强方法。具体来说,在输入帧半径N=1和QP=22时,我们的方法平均ΔPSNR值达到了0.707dB,比STDF-N1(0.556dB)高出27.1%,比MFQE2.0(0.458dB)高出54.4%,比FastMSDD(0.350dB)高出102%。随着输入帧的半径N增加到3时,我们的方法平均ΔPSNR值达到了0.845dB,比STDF(0.646dB)高出30.8%,比MFQE2.0(0.458dB)高出84.5%,比FastMSDD(0.350dB)高出141.4%。
在其他的QP点时,本发明的方法在ΔPSNR和ΔSSIM上也都优于其他的方法。此外,本发明还用BD-rate的降低来对比了网络的性能,如表2所示,本发明的网络的BD-rate平均降低了24.69%,优于先进的方法STDF(21.61%)。
表2和FastMSDD[11]、MFQE[8]、MFQE2.0[3]、STDF[4]的BD-rate(%)比较结果
定性评估:图4展示了序列BasketballPass、RaceHorses和PartyScene在QP=37时的主观质量表现。从图4中可以看出,本发明的方法相比于MFQE2.0和STDF方法可以减少更多的压缩伪影,实现了更好的视觉体验。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (7)
1.一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述方法基于的网络结构包括:粗略融合模块、多级残差融合模块、D2D融合模块、重建模块;低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图,所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征;根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移,D2D融合模块根据可变形偏移得到对齐后的融合特征图,对齐后的融合特征图经重建模块后得到重建结果。
2.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述粗略融合模块包括:多个伴随激活函数的C3D与瓶颈卷积,这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息;瓶颈卷积从时间维度上融合提取出的时空信息,得到粗略的融合特征图。
3.根据权利要求2所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述多级残差融合模块包括并行的三级,分别记为L1级、L2级、L3级,所述L1级包括一个残差块;L2级包括下采样块、多个残差块以及上采样块;L2级包括两个下采样块、多个残差块以及两个上采样块;
L1级中残差块的第一输入为粗略的融合特征图,第二输入为L2级中第一个残差块的输出,该残差块的输出作为L1级的输出结果;
L2级中粗略的融合特征图经下采样块后作为其第一个残差块的第一输入,所述第一个残差块的第二输入为L3级中第一个残差块的输出,其最后一个残差块的输出作为上采样块的输入,上采样块的输出作为L2级的输出结果;
L3级中粗略的融合特征图经两个下采样块后输入至其第一个残差块,其最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果;
还包括卷积块,将L1级的输出结果、L2级的输出结果、L3级的输出结果相加后输入到该卷积块中,提取全局和局部的精细融合特征。
4.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,D2D融合模块采用调制可变形卷积得到对齐的融合特征图。
6.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法,其特征在于,所述网络结构采用端到端的方式进行训练。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768143.7A CN113450280A (zh) | 2021-07-07 | 2021-07-07 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN202111067216.6A CN113592746B (zh) | 2021-07-07 | 2021-09-13 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768143.7A CN113450280A (zh) | 2021-07-07 | 2021-07-07 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113450280A true CN113450280A (zh) | 2021-09-28 |
Family
ID=77815429
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768143.7A Withdrawn CN113450280A (zh) | 2021-07-07 | 2021-07-07 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN202111067216.6A Active CN113592746B (zh) | 2021-07-07 | 2021-09-13 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111067216.6A Active CN113592746B (zh) | 2021-07-07 | 2021-09-13 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113450280A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511485A (zh) * | 2022-01-29 | 2022-05-17 | 电子科技大学 | 一种循环可变形融合的压缩视频质量增强方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554213B (zh) * | 2022-02-21 | 2023-04-18 | 电子科技大学 | 一种运动自适应和关注细节的压缩视频质量增强方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742892A (en) * | 1995-04-18 | 1998-04-21 | Sun Microsystems, Inc. | Decoder for a software-implemented end-to-end scalable video delivery system |
US8675138B2 (en) * | 2010-07-15 | 2014-03-18 | Broadcom Corporation | Method and apparatus for fast source switching and/or automatic source switching |
CN102289795B (zh) * | 2011-07-29 | 2013-05-22 | 上海交通大学 | 基于融合思想的视频时空联合增强方法 |
CN104539961B (zh) * | 2014-12-12 | 2017-12-15 | 上海交通大学 | 基于分层结构渐进式字典学习的可分级视频编码系统 |
CN104616243B (zh) * | 2015-01-20 | 2018-02-27 | 北京道和汇通科技发展有限公司 | 一种高效的gpu三维视频融合绘制方法 |
CN108307193B (zh) * | 2018-02-08 | 2018-12-18 | 北京航空航天大学 | 一种有损压缩视频的多帧质量增强方法及装置 |
CN109257600B (zh) * | 2018-11-28 | 2020-11-17 | 福建帝视信息科技有限公司 | 一种基于深度学习的视频压缩伪影自适应去除方法 |
CN110378348B (zh) * | 2019-07-11 | 2021-07-09 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN111031315B (zh) * | 2019-11-18 | 2023-05-30 | 复旦大学 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
CN111028150B (zh) * | 2019-11-28 | 2022-04-15 | 武汉大学 | 一种快速时空残差注意力视频超分辨率重建方法 |
CN112381866B (zh) * | 2020-10-27 | 2022-12-13 | 天津大学 | 一种基于注意力机制的视频比特增强方法 |
CN112291570B (zh) * | 2020-12-24 | 2021-03-26 | 浙江大学 | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 |
CN113066022B (zh) * | 2021-03-17 | 2022-08-16 | 天津大学 | 一种基于高效时空信息融合的视频比特增强方法 |
CN113055674B (zh) * | 2021-03-24 | 2022-05-10 | 电子科技大学 | 一种基于两阶段多帧协同的压缩视频质量增强方法 |
CN112991183B (zh) * | 2021-04-09 | 2023-06-20 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
-
2021
- 2021-07-07 CN CN202110768143.7A patent/CN113450280A/zh not_active Withdrawn
- 2021-09-13 CN CN202111067216.6A patent/CN113592746B/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511485A (zh) * | 2022-01-29 | 2022-05-17 | 电子科技大学 | 一种循环可变形融合的压缩视频质量增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113592746A (zh) | 2021-11-02 |
CN113592746B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8526488B2 (en) | Video sequence encoding system and algorithms | |
CN109842799B (zh) | 颜色分量的帧内预测方法、装置及计算机设备 | |
EP2479996A1 (en) | Video coding with prediction using a signle coding mode for all color components | |
TW200535717A (en) | Directional video filters for locally adaptive spatial noise reduction | |
CN102460504B (zh) | 基于3d的视频去噪中的环路外的帧匹配 | |
JPH07231450A (ja) | 動画画像信号系列中のアーティファクトを削減するためのフィルタ装置及び方法 | |
CN111711824A (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
CN113592746B (zh) | 一种由粗到细地融合时空信息的压缩视频质量增强方法 | |
CN112261414B (zh) | 一种以注意力机制融合单元划分的视频编码卷积滤波方法 | |
US8594189B1 (en) | Apparatus and method for coding video using consistent regions and resolution scaling | |
CN113766249B (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
US20120263225A1 (en) | Apparatus and method for encoding moving picture | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
Yu et al. | Hevc compression artifact reduction with generative adversarial networks | |
Xia et al. | Asymmetric convolutional residual network for av1 intra in-loop filtering | |
CN111726636A (zh) | 一种基于时域下采样与帧率上转换的hevc编码优化方法 | |
Segall et al. | Super-resolution from compressed video | |
Wu et al. | MPCNet: Compressed multi-view video restoration via motion-parallax complementation network | |
CN112819707A (zh) | 一种端到端抗块效应低照度图像增强方法 | |
CN112468826A (zh) | 一种基于多层gan的vvc环路滤波方法及系统 | |
CN113507607B (zh) | 一种无需运动补偿的压缩视频多帧质量增强方法 | |
CN114554213B (zh) | 一种运动自适应和关注细节的压缩视频质量增强方法 | |
Bhojani et al. | Hybrid video compression standard | |
CN109889829A (zh) | 360度视频的快速样点自适应补偿 | |
CN114511485B (zh) | 一种循环可变形融合的压缩视频质量增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210928 |
|
WW01 | Invention patent application withdrawn after publication |