CN114554213B - 一种运动自适应和关注细节的压缩视频质量增强方法 - Google Patents

一种运动自适应和关注细节的压缩视频质量增强方法 Download PDF

Info

Publication number
CN114554213B
CN114554213B CN202210154662.9A CN202210154662A CN114554213B CN 114554213 B CN114554213 B CN 114554213B CN 202210154662 A CN202210154662 A CN 202210154662A CN 114554213 B CN114554213 B CN 114554213B
Authority
CN
China
Prior art keywords
channel attention
module
quality
alignment
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210154662.9A
Other languages
English (en)
Other versions
CN114554213A (zh
Inventor
叶茂
罗登晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210154662.9A priority Critical patent/CN114554213B/zh
Publication of CN114554213A publication Critical patent/CN114554213A/zh
Application granted granted Critical
Publication of CN114554213B publication Critical patent/CN114554213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开一种运动自适应和关注细节的压缩视频质量增强方法,应用关于视频压缩处理领域,针对现有技术存在的视频压缩质量不高的问题;本发明使用一种无需光流估计进行对齐的多帧质量增强网络,一方面,通过所提出的运动自适应对齐模块,来使网络自适应地处理不同运动尺度的视频,从而充分利用相邻帧间的时间信息;另一方面,通过所设计的一个新的互补损失函数和所提出的质量增强模块,来使网络关注高频信息的恢复。最终实现了压缩视频质量的提高,使得压缩视频从主观和客观上都得到了增强。

Description

一种运动自适应和关注细节的压缩视频质量增强方法
技术领域
本发明属于视频压缩领域,特别涉及一种压缩视频质量增强技术。
背景技术
压缩视频质量增强方法自视频压缩国际标准被提出以来,就得到了工业界和学术界的广泛研究。在深度学习被提出之前,压缩视频质量增强的方法主要是以数学推导为基础的对单帧图像进行增强的空域法和频域法。在深度学习成功地应用到图像增强领域之后,各种新的方法被提出来用于增强压缩视频的质量,得到了比传统方法更好的结果和更强的泛化能力。
现在最常用的H.265/HEVC标准,都是采用基于块的混合编码框架,其核心过程包括:预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性,导致编码重建图像呈现方块效应,即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时,这些效果更加明显);同时,量化是基于变换域中的块扩展,这个量化过程是不可逆的。另外,运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累,上述效应也会影响后续帧的编码质量,从而导致视频图像的客观评价质量下降,和人眼主观的感知质量降低。
现有技术一
北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》2017年9月26日向中国国家知识产权局申请专利并获得批准,于2017年12月15日公开,公开号为:公开号CN107481209A。
他们首先设计了两个用于图像或视频的质量增强的卷积神经网络,两个网络具有不同的计算复杂度;然后选择若干个图像或视频作为训练数据集分别对两个卷积神经网络中的参数进行训练;根据实际需要,选择一个计算复杂度较为合适的卷积神经网络,将待增强的图像或视频输入到选择的网络中;最后,该网络输出经过增强的图像或视频。该发明可以有效增强压缩视频的质量;用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。其流程图如图1所示。
该专利设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选择网络,两个网络的区别只是卷积神经网络的参数量的不同。然而,仅仅通过加深网络深度来提高质量增强效果的方案是不可行的,而且没有针对图像或视频的特点设计网络,即网络未能利用视频帧与帧之间的时间相关性,因此该方法质量增强的效果有限。
现有技术二
福建帝视信息科技有限公司高钦泉、聂可卉、刘文哲、童同的发明《一种基于自适应可分离卷积的视频质量增强方法》2018年6月12日向中国国家知识产权局申请专利并获得批准,于2018年11月27日公开,公开号为:CN108900848A;如图2所示,该方法具体包括:将自适应可分离卷积作为第一个模块应用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变而改变,提高网络的自适应性。该发明用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效高。
该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块,其结构是在传统的对称编解码模块的基础上,把最后一个解码模块替换为一个分离卷积模块,虽然有效的降低了模型参数,但是质量增强的效果还有待进一步地提高。
现有技术三
北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》2018年2月8日向中国国家知识产权局申请专利并获得批准,于2018年7月20日公开,公开号为:公开号CN108307193A。
《一种有损压缩视频的多帧质量增强方法及装置》方法包括:针对解压缩的视频流的第i帧,采用所述第i帧关联的m个帧对所述第i帧进行质量增强,以播放质量增强后的第i帧;所述m个帧属于所述视频流中的帧,且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值;m为大于1的自然数。在具体应用中,可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法3减轻了视频流播放过程中多帧之间的质量波动,同时使得有损压缩后视频中的各帧质量得到增强。如图3所示,其视频质量增强方法具体步骤如下:识别视频流中的PQF和non-PQF;当第i帧为non-PQF时,利用该帧之前的PQF和该帧之后的PQF对当前i帧进行质量增强。
虽然该发明考虑到了相邻帧间的时间信息,但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现帧与帧之间的对齐。然而光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入新的伪影。同时精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有限。
发明内容
为解决上述技术问题,本发明提出了一种运动自适应和关注细节的压缩视频质量增强方法,基于多帧的压缩视频质量增强网络,通过进行多路径可变形对齐,来使网络自适应地处理不同运动程度的视频,同时提出了一个新的辅助损失函数和质量增强模块来使网络更加关注细节信息,以更好地提高压缩视频的质量。
本发明采用的技术方案为:一种运动自适应和关注细节的压缩视频质量增强方法,所基于的增强网络结构包括:U-Net模块、运动自适应对齐模块、质量增强模块;所述U-Net模块用于提取输入的压缩视频序列的粗略融合特征图Fc,将粗略融合特征图Fc与压缩视频序列一起输入运动自适应对齐模块进行多路径可变形对齐,对齐的特征图FK根据选择对齐权重来得到融合特征图Ff,将Ff输入到由多组残差密集连接通道注意块所组成的质量增强模块中而得到增强残差
Figure BDA0003511892190000031
Figure BDA0003511892190000032
与当前帧
Figure BDA0003511892190000033
逐元素相加而得到重建帧
Figure BDA0003511892190000034
Figure BDA0003511892190000035
Figure BDA0003511892190000036
所述运动自适应对齐模块的实现过程为:
A1、用不同核大小的卷积来得到多个可变形偏移ΔK,其中K=1,3,…,(2n-1),n表示路径数目;
A2、根据多个可变形偏移ΔK,得到多个对齐特征FK
A3、用拼接操作伴随着一个1×1的瓶颈卷积来使通道数连续:
FM=Conv([F1,…,F2n-1])
其中,[·,·]表示concatenation操作;
A4、用一个global average pooling操作和两个卷积层来产生选择对齐权重WK
WK=ConvK(Conv(GAP(FM)))
其中,GAP表示global average pooling操作,ConvK表示每个路径上产生选择对齐权重WK所需的一个卷积操作;
A5、以一个pixel-wise方式将选择对齐权重WK乘以原始对齐特征FK
Figure BDA0003511892190000037
其中,
Figure BDA0003511892190000041
表示对应元素相乘;
A6、将得到的调制的特征
Figure BDA0003511892190000042
拼接后再次经过一个1×1的瓶颈卷积而得到融合特征Ff
Figure BDA0003511892190000043
在增强网络结构训练时,采用的损失函数为:
L=L2+aLPCC
其中,
Figure BDA0003511892190000044
a是一个平衡L2与LPCC的超参数;
Figure BDA0003511892190000045
其中,Cov表示
Figure BDA0003511892190000046
Figure BDA0003511892190000047
的协方差,
Figure BDA0003511892190000048
表示
Figure BDA0003511892190000049
的方差,
Figure BDA00035118921900000410
表示
Figure BDA00035118921900000411
的方差。
所述质量增强模块的网络结构包括:3层卷积层和L组残差密集通道注意力块,具体的质量增强模块的输入经过第一层卷积层后输入L组残差密集通道注意力块,L组残差密集通道注意力块的输出依次经剩下的2层卷积层后输出。
残差密集通道注意力块的结构具体包括5层卷积层与一个通道注意力层,残差密集通道注意力块的输入依次经4层卷积层厚输入通道注意力层,通道注意力层的输出经第五层卷积层后作为残差密集通道注意力块的输出。
残差密集通道注意力块还包括参数α和β,参数α用于对残差密集通道注意力块的输入进行加权,参数β用于对残差密集通道注意力块的输出进行加权,两个加权结果之和作为残差密集通道注意力块最终的输出结果。
本发明的有益效果:本发明方法提出的一种无需利用光流进行对齐的压缩视频多帧质量增强网络,一方面,通过所提出的运动自适应对齐模块,来使网络自适应地处理不同运动尺度的视频,从而充分利用相邻帧间的时间信息;另一方面,通过所设计的一个新的互补损失函数和所提出的质量增强模块,来使网络关注高频信息的恢复。最终使压缩视频的主观和客观质量都得到明显的增强。
附图说明
图1为现有技术一的方案流程图;
图2为现有技术二的方案流程图;
图3为现有技术三的方案流程图;
图4为本发明的质量增强网络结构图;
图5为本发明的方法与现有技术的主观质量表现的对比结果;
图6为本发明的方法与现有技术在视频序列BQSquare中第6-36帧的PSNR波动曲线。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
实施例1
本实施例主要对本发明的实现过程进行说明:
数字视频是人类获取信息、感知世界的最重要的多媒体载体之一。但未压缩的视频会产生巨大的数据量。因此,在带宽和存储有限的网络中传输视频时,采用视频压缩技术来显著地节省编码比特率是很有必要的。然而,由于粗糙的量化和运动补偿,视频编码软件(例如H.265/HEVC)不可避免地会引进压缩伪影,这将严重影响主观上的体验和客观上的质量评估。再者,压缩伪影可能减少随后视觉任务的精度(例如目标检测、运动识别)。
本发明使用一种无需光流估计进行对齐的多帧质量增强网络,一方面,通过所提出的运动自适应对齐模块,来使网络自适应地处理不同运动尺度的视频,从而充分利用相邻帧间的时间信息;另一方面,通过所设计的一个新的互补损失函数和所提出的质量增强模块,来使网络关注高频信息的恢复。最终实现了压缩视频质量的提高,使得压缩视频从主观和客观上都得到了增强。
本发明的方法所基于的质量增强网络如图4所示,它由三个部分组成:基于U-Net的特征提取和粗略融合模块、运动自适应对齐模块(Motion Adaptive Alignment module)和质量增强模块(Quality Enhancement module)。给定一个含2R+1个连续的低质量的压缩视频帧
Figure BDA0003511892190000051
序列,其中,R表示时域半径,即用于限定当前帧前或后的帧数量,通常设置为3;
Figure BDA0003511892190000052
是目标帧,其他帧是其相邻帧。本发明的目的是根据原始帧
Figure BDA0003511892190000053
的压缩帧
Figure BDA0003511892190000054
推断出高质量的帧
Figure BDA0003511892190000055
本发明首先将输入序列
Figure BDA0003511892190000056
经过STDF所提出的一个有效的U-Net模块来得到输入序列的粗略融合特征图Fc。然后将Fc
Figure BDA0003511892190000057
输入到所提出的运动自适应对齐模块进行多路径可变形对齐。进一步地,对齐的特征图FK根据预测到的选择权重来得到融合特征图Ff。最终,将Ff输入到由多组残差密集连接通道注意块(Residual Dense Channel-attention Block)所组成的质量增强模块中而得到增强残差
Figure BDA0003511892190000061
Figure BDA0003511892190000062
后与当前帧
Figure BDA0003511892190000063
逐元素相加而得到重建帧
Figure BDA0003511892190000064
Figure BDA0003511892190000065
以下分别对质量增强网络中的各模块进行详细介绍:
运动自适应对齐模块(Motion Adaptive Alignment module):如图4所示,在本发明的运动自适应对齐模块中,本发明首先用不同核大小的卷积来得到多个可变形偏移
Figure BDA0003511892190000066
Figure BDA0003511892190000067
其中K=1,3,…,(2n-1),n表示路径数目,H×W表示输入帧的大小。然后通过使用具有不同核大小的偏移估计ΔK的可变形卷积DCN,输入序列被融合得到多个对齐特征FK,FK=DCN(FC,ΔK)。本实施例中n取值为3时,实验效果最佳。
然后为了融合来至多个路径的对齐特征,本发明用拼接操作伴随着一个1×1的瓶颈卷积来使通道数连续:
FM=Conv([F1,…,F2n-1])
其中[·,·]表示拼接(concatenation)操作。
然后用一个全局均值池化(global average pooling)操作和两个卷积层来产生选择对齐权重WK
WK=ConvK(Conv(GAP(FM)))
其中GAP表示global average pooling操作,ConvK表示每个路径上产生选择对齐权重WK所需的一个卷积操作。
然后以一个像素级(pixel-wise)方式将选择对齐权重WK乘以原始对齐特征FK
Figure BDA0003511892190000068
其中
Figure BDA0003511892190000069
表示对应元素相乘。
最终,将得到的调制的特征
Figure BDA00035118921900000610
拼接后再次经过一个1×1的瓶颈卷积而得到融合特征Ff
Figure BDA00035118921900000611
如果用如常规卷积来预测ΔK,随着路径数的增多,网络将计算成本高、内存消耗大。为了解决这个问题,本发明采用深度可分离卷积来预测ΔK。深度可分离卷积为现有已知技术,具体可参见:Chollet F.Xception:Deep learning with depthwise separableconvolutions[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2017:1251-1258.
质量增强模块(Quality Enhancement module):所提出的质量增强模块如图4所示,它由3层卷积层和L组残差密集通道注意力块(Residual Dense Channel-attentionBlock)组成。同时,残差密集通道注意力块所图4中所示,包括五个卷积层、一个通道注意力层,具体为前四个卷积层、通道注意力层、第五个卷积层依次连接。
为了增加浅层的低频特征与深层的高频特征相结合的灵活性,注意,在残差密集通道注意力块有两个附加的可以学习的参数α和β,它们分别初始化为1和0.2;具体通过参数α对残差密集通道注意力块的输入加权,通过对残差密集通道注意力块的输出加权,并将两个加权结果相加作为残差密集通道注意力块最终的输出结果。
网络的损失函数:在本发明的方法中,U-Net模块、运动自适应对齐模块和质量增强模块以端到端的方式联合训练。本发明网络的损失函数为:
L=L2十aLPCC
其中
Figure BDA0003511892190000071
a是一个平衡L2与LPCC的超参数,并凭经验地设置为1。
Figure BDA0003511892190000072
其中,
Figure BDA0003511892190000073
表示L2范数,Cov表示
Figure BDA0003511892190000074
Figure BDA0003511892190000075
的协方差,
Figure BDA0003511892190000076
Figure BDA0003511892190000077
分别表示
Figure BDA0003511892190000078
Figure BDA0003511892190000079
的方差。
实施例2
本实施例通过MFQE2.0数据集对本发明的方法进行验证:
MFQE2.0数据集由108个训练视频和18个测试视频组成。这些视频的分辨率从352×240到2560×1600。所有序列用HM16.5在Low Delay P(LDP,表示编码软件HM的一种配置模型,第一帧是IDR图像,采用帧内编码模式,其余所有帧都为p帧)配置下进行压缩。分别在5个不同的QPs(量化参数,Quantization Parameters)下进行了压缩(即22,27,32,37和42),来评估不同程度压缩后模型的性能。
网络设置。在U-Net模块中,卷积层有64个滤波器。在运动自适应对齐模块中,路径数设置为3以平衡模型的性能和效率。在质量增强模块中,所有卷积层有32个滤波器(除开最后一层设置为1);本发明使用4组残差密集连接通道注意块,并设置增长率(growthrate)为32。在网络中,若无特别说明,卷积层的核大小设置为3×3。
模型训练。在训练过程中,本实施例将原始序列和压缩序列裁剪成128×128大小的patch作为训练对,batch size设置为32。选择6个相邻帧作为参考帧(即时域半径R=3),使用旋转和翻转作为数据增加策略来进一步地扩大数据集。用β1=0.9,β2=0.999和ε=1×10-8的Adam作为优化器来训练我们的模型3×105个迭代次数。学习率从1×10-4开始并在整个训练过程中不变。首先从头开始训练QP=37的模型,然后对于其他QPs的模型从该训练好的模型进行微调以节约训练时间。所提出的模型由PyTorc实现,并在NVIDIA GeForce RTX3090 GPUs上进行训练。
测试结果
本实施例定性地和定量地评估了本发明的方法的有效性,其中定量评估根据ΔPSNR和ΔSSIM与DCAD、MFQE1.0、MFQE2.0、MGANet、STDF-R3L和RFDA进行了比较;定性评估则与MFQE2.0和STDF-R3L进行了比较。
定量评估。表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。从表中可以看出,所有的多帧质量增强方法都比单帧质量增强方法更好,因为利用了时间信息。同时,本发明所提出的MADA方法在5个QPs上始终优于其他先进的视频质量增强方法。这证明了所提出了质量增强模块能够进一步地促进高频信息的恢复从而提高重建性能。
表1五个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10-4)的总体比较结果
Figure BDA0003511892190000081
此外,本实施例还用BD-rate的降低来对比了网络的性能,如表2所示,本发明的网络的BD-rate平均降低了25.05%,优于先进的方法STDF-R3L(21.76%)。
表2本发明方法和DCAD、MFQE1.0、MFQE2.0、STDF-R3L的BD-rate(%)比较结果
Average DCAD MFQE1.0 MFQE2.0 STDF-R3L MADA
Class A 9.83 14.14 16.03 20.65 24.36
Class B 8.35 11.78 13.68 21.84 25.32
Class C 7.74 9.27 11.76 19.24 22.60
Class D 7.19 8.89 12.80 21.74 25.25
Class E 12.95 15.30 18.14 25.73 28.06
Overall 8.89 11.41 14.06 21.76 25.05
定性评估。图5展示了序列BasketballPass、RaceHorses和PartyScene在QP=37时的主观质量表现。从图5中可以看出,本发明的方法相比于MFQE2.0和STDF-R3L方法可以减少更多的压缩伪影,实现了更好的视觉体验。图5中用Our method指代本发明的方法。
实施例3
“Guan Z,Xing Q,Xu M,et al.MFQE 2.0:A new approach for multi-framequality enhancement on compressed video[J].IEEE transactions on patternanalysis and machine intelligence,2019.”指出无损视频在经过压缩过后,视频帧之间会存在一定的质量波动,如图6最下方虚线所示。对于视频序列BQSquare中的第6-36帧,STDF-R3L增强过后的PSNR波动如图6中间虚线所示,可以看出帧与帧之间的PSNR波动依然非常明显。图6中最上方实线则表示我们的方法增强后的PSNR波动。可以看出本发明所提出的方法比STDF-R3L更好地利用了相邻帧间的时间信息,从而表现出更低的增强质量波动。图6中用Our指代本发明的方法。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (5)

1.一种运动自适应和关注细节的压缩视频质量增强方法,其特征在于,所基于的增强网络结构包括:U-Net模块、运动自适应对齐模块、质量增强模块;所述U-Net模块用于提取输入的压缩视频序列的粗略融合特征图Fc,将粗略融合特征图Fc与压缩视频序列一起输入运动自适应对齐模块进行多路径可变形对齐,对齐的特征图FK根据选择对齐权重来得到融合特征图Ff,将Ff输入到由多组残差密集连接通道注意块所组成的质量增强模块中而得到增强残差
Figure FDA0004053567630000011
Figure FDA0004053567630000012
与当前帧
Figure FDA0004053567630000013
逐元素相加而得到重建帧
Figure FDA0004053567630000014
Figure FDA0004053567630000015
所述运动自适应对齐模块的实现过程为:
A1、用不同核大小的卷积来得到多个可变形偏移
Figure FDA0004053567630000016
其中K=1,3,…,(2n-1),n表示路径数目,H×W表示输入帧的大小,R表示时域半径,2R+1表示输入帧的总数量;
A2、根据多个可变形偏移ΔK的可变形卷积DCN,输入序列被融合得到多个对齐特征FK
A3、用拼接操作伴随着一个1×1的瓶颈卷积来使通道数连续:
FM=Conv([F1,…,F2n-1])
其中,[·,·]表示拼接操作;
A4、用一个全局均值池化操作和两个卷积层来产生选择对齐权重WK
WK=ConvK(Conv(GAP(FM)))
其中,GAP表示全局均值池化操作,ConvK表示每个路径上产生选择对齐权重WK所需的一个卷积操作;
A5、以一个像素级方式将选择对齐权重WK乘以原始对齐特征FK
Figure FDA0004053567630000017
其中,
Figure FDA0004053567630000018
表示对应元素相乘;
A6、将得到的调制的特征
Figure FDA0004053567630000019
拼接后再次经过一个1×1的瓶颈卷积而得到融合特征Ff
Figure FDA00040535676300000110
2.根据权利要求1所述的一种运动自适应和关注细节的压缩视频质量增强方法,其特征在于,在增强网络结构训练时,采用的损失函数为:
L=L2+aLPCC
其中,
Figure FDA00040535676300000111
a是一个平衡L2与LPCC的超参数;
Figure FDA0004053567630000021
其中,Cov表示
Figure FDA0004053567630000022
Figure FDA0004053567630000023
的协方差,
Figure FDA0004053567630000024
表示
Figure FDA0004053567630000025
的方差,
Figure FDA0004053567630000026
表示
Figure FDA0004053567630000027
的方差。
3.根据权利要求2所述的一种运动自适应和关注细节的压缩视频质量增强方法,其特征在于,所述质量增强模块的网络结构包括:3层卷积层和L组残差密集通道注意力块,具体的质量增强模块的输入经过第一层卷积层后输入L组残差密集通道注意力块,L组残差密集通道注意力块的输出依次经剩下的2层卷积层后输出。
4.根据权利要求3所述的一种运动自适应和关注细节的压缩视频质量增强方法,其特征在于,残差密集通道注意力块的结构具体包括5层卷积层与一个通道注意力层,残差密集通道注意力块的输入依次经4层卷积层厚输入通道注意力层,通道注意力层的输出经第五层卷积层后作为残差密集通道注意力块的输出。
5.根据权利要求4所述的一种运动自适应和关注细节的压缩视频质量增强方法,其特征在于,残差密集通道注意力块还包括参数α和β,参数α用于对残差密集通道注意力块的输入进行加权,参数β用于对残差密集通道注意力块的输出进行加权,两个加权结果之和作为残差密集通道注意力块最终的输出结果。
CN202210154662.9A 2022-02-21 2022-02-21 一种运动自适应和关注细节的压缩视频质量增强方法 Active CN114554213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210154662.9A CN114554213B (zh) 2022-02-21 2022-02-21 一种运动自适应和关注细节的压缩视频质量增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210154662.9A CN114554213B (zh) 2022-02-21 2022-02-21 一种运动自适应和关注细节的压缩视频质量增强方法

Publications (2)

Publication Number Publication Date
CN114554213A CN114554213A (zh) 2022-05-27
CN114554213B true CN114554213B (zh) 2023-04-18

Family

ID=81676028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210154662.9A Active CN114554213B (zh) 2022-02-21 2022-02-21 一种运动自适应和关注细节的压缩视频质量增强方法

Country Status (1)

Country Link
CN (1) CN114554213B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691817A (zh) * 2021-08-23 2021-11-23 电子科技大学 一种跨帧信息融合的屏幕内容视频质量增强网络

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220366538A1 (en) * 2019-07-03 2022-11-17 Korea Advanced Institute Of Science And Technology Video processing method and apparatus
US11410275B2 (en) * 2019-09-23 2022-08-09 Tencent America LLC Video coding for machine (VCM) based system and method for video super resolution (SR)
CN111402130B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 数据处理方法和数据处理装置
US11689713B2 (en) * 2020-07-15 2023-06-27 Tencent America LLC Predicted frame generation by deformable convolution for video coding
CN112700392A (zh) * 2020-12-01 2021-04-23 华南理工大学 一种视频超分辨率处理方法、设备及存储介质
CN113450280A (zh) * 2021-07-07 2021-09-28 电子科技大学 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN113902620A (zh) * 2021-10-25 2022-01-07 浙江大学 一种基于可变形卷积网络的视频超分辨率系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691817A (zh) * 2021-08-23 2021-11-23 电子科技大学 一种跨帧信息融合的屏幕内容视频质量增强网络

Also Published As

Publication number Publication date
CN114554213A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Zhang et al. Low-rank-based nonlocal adaptive loop filter for high-efficiency video compression
CN110519600B (zh) 帧内帧间联合预测方法、装置、编解码器及存储装置
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
CN107820085B (zh) 一种基于深度学习的提高视频压缩编码效率的方法
CN105791877A (zh) 视频编解码中自适应环路滤波的方法
JP2023528780A (ja) ビデオコーディングにおけるニューラルネットワークベースのフィルタ
EP3935572A1 (en) Method and device for picture encoding and decoding
Meng et al. Enhancing quality for VVC compressed videos by jointly exploiting spatial details and temporal structure
Hu et al. Fvc: An end-to-end framework towards deep video compression in feature space
CN113592746B (zh) 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
Lin et al. Efficient quadtree search for HEVC coding units for V-PCC
CN114554213B (zh) 一种运动自适应和关注细节的压缩视频质量增强方法
CN114827616B (zh) 一种基于时空信息平衡的压缩视频质量增强方法
CN107509074B (zh) 基于压缩感知的自适应3d视频压缩编解码方法
US11778224B1 (en) Video pre-processing using encoder-aware motion compensated residual reduction
Marvasti-Zadeh et al. A novel boundary matching algorithm for video temporal error concealment
Wu et al. MPCNet: Compressed multi-view video restoration via motion-parallax complementation network
KR20120004874A (ko) 복원된 비디오 프레임의 프레임율을 향상 시키기 위한 프레임율 향상 장치 및 방법
CN113507607B (zh) 一种无需运动补偿的压缩视频多帧质量增强方法
CN114511485B (zh) 一种循环可变形融合的压缩视频质量增强方法
Hsieh et al. Grey temporal error concealment
Tian et al. Dilated convolutional neural network-based deep reference picture generation for video compression
CN113256521B (zh) 一种数据缺失的错误隐藏方法及装置
Chen et al. A new framework based on spatio-temporal information for enhancing compressed video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant