CN108184129B - 一种视频编解码方法、装置及用于图像滤波的神经网络 - Google Patents

一种视频编解码方法、装置及用于图像滤波的神经网络 Download PDF

Info

Publication number
CN108184129B
CN108184129B CN201711311491.1A CN201711311491A CN108184129B CN 108184129 B CN108184129 B CN 108184129B CN 201711311491 A CN201711311491 A CN 201711311491A CN 108184129 B CN108184129 B CN 108184129B
Authority
CN
China
Prior art keywords
filtering
neural network
filtered
image block
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711311491.1A
Other languages
English (en)
Other versions
CN108184129A (zh
Inventor
马思伟
贾川民
王苫社
赵政辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711311491.1A priority Critical patent/CN108184129B/zh
Publication of CN108184129A publication Critical patent/CN108184129A/zh
Application granted granted Critical
Publication of CN108184129B publication Critical patent/CN108184129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种视频编解码方法、装置及用于图像滤波的神经网络。所述视频编解码方法,在环路滤波处理中还包括以下步骤:获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块;基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。提供了结合深度学习神经网络、改动小、且适用于HEVC的不同模式(包括帧内编码、低延时编码、随机访问编码)的完整的编解码方案。

Description

一种视频编解码方法、装置及用于图像滤波的神经网络
技术领域
本发明涉及图像处理领域。更具体地,本发明涉及一种视频编解码方法、装置及用于图像滤波的神经网络。
背景技术
随着视频压缩效率的不断提升,对于视频编码框架中高效滤波算法的性能要求也越来越高。在新一代视频编码标准HEVC(HighEfficiencyVideoCoding)当中,环路滤波采用了去块效应滤波和样本补偿滤波两种方式。这两种环路滤波算法不仅从主观质量上得到更优质的效果,更能通过滤波弥补编码和量化过程中引入的失真从而提升重建视频图像的客观质量,并为后续图像的编码提供了更高效准确的预测信息,从而提升了编解码性能。因此高效的环路滤波算法成为视频编码框架中重要的一环。
在HEVC当中,去块效应滤波和样本补偿滤波的主要设计思路分别为:去块效应滤波通过平滑处理编解码单元的块边界附近的像素使得整体的图像质量更平滑从而提升压缩视频重建后的主观质量;而样本补偿滤波通过对每个像素增加偏移值以达到去除部分量化噪声,抑制振铃效应的作用。在标准的制定过程中还出现过自适应环路滤波算法,不过由于复杂度过高而没有被最终采纳为标准。
近年来,深度学习在图像处理及语音信号处理中取得了长足的发展和进步,在许多任务中大幅超越传统算法,成为许多领域中研究的热点和重点。同样,深度学习方法也为视频编解码带来了更多的性能提升。
例如,在“Spatial-Temporal Residue Network Based In-Loop Filter forVideo Coding”一文中,公开了一种用于HEVC帧间编码的环路内滤波器,该滤波器采用了全卷积神经网络来实现,且位于样本补偿滤波之后,将当前编码块和参考编码块同时作为滤波器的输入,能够为帧间编码带来约1.3%的码率增益。在“A convolutional neuralnetwork approach for post-processing in HEVC intra coding”一文中,公开了一种用于HEVC帧内编码的卷积神经网络,该卷积神经网络用于替换环路内滤波器。能够为帧内亮度编码带来平均约4.6%的码率增益。在“Beyond a gaussian denoiser:Residuallearning of deep CNN for image denoising”一文中,公开了一种用于图像去噪的残差学习深度CNN网络。主要用于图像的重建和增强,对于去除信源编码过程中的噪声有显著效果。
然而,上述现有技术均未提供结合深度学习神经网络、改动小、且适用于HEVC的不同模式(包括帧内编码、低延时编码、随机访问编码)的完整的编解码方案。
发明内容
本发明的目的是通过以下技术方案实现的。
根据本发明的视频编解码方法,在环路滤波处理中还包括以下步骤:
步骤1:获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块;
步骤2:基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。
根据本发明的视频编解码方法,在步骤1之前还包括:
步骤1’:基于第一训练数据集合进行训练,得到经训练的第一滤波神经网络,或者,基于第二训练数据集合进行训练,得到经训练的第二滤波神经网络,
其中,所述第一训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经去块效应处理之后的至少一个图像块和与该经去块效应处理之后的至少一个图像块一一对应的至少一个原始图像块,所述第二训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经样本补偿处理之后的至少一个图像块和与该经样本补偿处理之后的至少一个图像块一一对应的至少一个原始图像块。
根据本发明的视频编解码方法,所述图像块至少包括下列中的至少一种:图像帧、编码树单元CTU、编码单元、预测单元、变换单元。
根据本发明的视频编解码方法,所述图像块包括YCbCr数据,所述视频编解码方法分别对所述图像块中的亮度数据、色度数据进行与编解码相关的环路滤波处理。
根据本发明的视频编解码方法,在步骤2之后还包括:
步骤3:在按照下列公式确定第三滤波图像块或第四滤波图像块的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行滤波的第一标识信息或表示使用选定第二滤波神经网络进行滤波的第二标识信息,
Figure BDA0001503094450000031
ΔD=DMSE-DMSE,org
J=ΔD+λ*R
其中,DMSE表示所述第一滤波图像块或所述第二滤波图像块与对应的原始图像块之间的均方误差失真,n表示图像块的长和宽,Recij表示所述第一滤波图像块或所述第二滤波图像块在位置(i,j)处的像素值,Oriij表示对应的原始图像块在位置(i,j)处的像素值,ΔD表示均方误差失真增益,DMSE,org表示不使用所述选定第一滤波神经网络或不使用所述选定第二滤波神经网络进行滤波之前的均方误差失真,λ表示HEVC中的拉格朗日因子,R表示使用所述选定第一滤波神经网络或使用所述选定第二滤波神经网络进行滤波所需的代价。
根据本发明的视频编解码方法,其中,R=1。
根据本发明的视频编解码方法,在步骤2之后还包括:
步骤4:当按照下列公式确定图像帧所包含的至少一个第三滤波CTU或第四滤波CTU的率失真增益J小于0时,且当按照下列公式确定该图像帧所对应的第三滤波图像帧或第四滤波图像帧的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行图像帧级和CTU级的滤波的第一标识信息或表示使用选定第二滤波神经网络进行图像帧级和CTU级的滤波的第二标识信息,
Figure BDA0001503094450000032
ΔD=DMSE-DMSE,org
J=ΔD+λ*R
其中,DMSE表示所述第一滤波图像帧或CTU、或所述第二滤波图像帧或CTU与对应的原始图像帧或CTU之间的均方误差he失真,n表示图像帧或CTU的长和宽,Recij表示所述第一滤波图像帧或CTU、或所述第二滤波图像帧或CTU在位置(i,j)处的像素值,Oriij表示对应的原始图像帧或CTU在位置(i,j)处的像素值,ΔD表示均方误差失真增益,DMSE,org表示不使用所述选定第一滤波神经网络或不使用所述选定第二滤波神经网络进行滤波之前的均方误差失真,λ表示HEVC中的拉格朗日因子,R表示使用所述选定第一滤波神经网络或使用所述选定第二滤波神经网络进行滤波所需的代价。
根据本发明的视频编解码方法,当所述至少一个第一滤波神经网络是多个第一滤波神经网络、或所述至少一个第二滤波神经网络是多个第二滤波神经网络时,所述多个第一滤波神经网络或所述多个第二滤波神经网络分别用于多个不同的QP设置,在步骤3中,通过遍历所述多个不同的QP设置,从所述多个第一滤波神经网络或所述多个第二滤波神经网络中选定使率失真增益J最小的一个第一滤波神经网络或一个第二滤波神经网络作为所述选定第一滤波神经网络或所述选定第二滤波神经网络。
根据本发明的视频编解码装置,包括环路滤波处理模块,所述环路滤波处理模块还包括以下模块:
后续读取模块,用于获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块;
后续处理模块,用于基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。
根据本发明的用于图像滤波的神经网络,包括:
依次连接的第一组合卷积层、第二组合层、第三卷积层、第四组合卷积层、第五组合层、第六卷积层、第七卷积层、第八组合卷积层、第九组合层、第十卷积层、第十一卷积层、第十二卷积层和求和层,
其中,所述第一组合卷积层用于接收输入图像块的数据,所述第十二卷积层用于输出滤波后的图像块的数据,所述求和层用于计算输入图像块的数据与滤波后的图像块的数据之间的残差图像块的数据。
本发明的优点在于:提供了结合深度学习神经网络、改动小、且适用于HEVC的不同模式(包括帧内编码、低延时编码、随机访问)的完整的编解码方案。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施方式的视频编解码方法的环路滤波处理中还需要包括的步骤的示意流程图。
图2示出了根据本发明实施方式的视频编解码装置中的环路滤波处理模块的示意框图。
图3示出了根据本发明实施方式的用于图像滤波的神经网络的示意结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明实施方式的视频编解码方法100的环路滤波处理中还需要包括的步骤的示意流程图。
现有的HEVC标准中的环路滤波仅仅采用了去块效应滤波和样本补偿滤波两种方式。可以利用基于深度卷积网络的视频编码环路滤波算法来提升编解码性能。因此,视频编解码方法100采用了不同于现有HEVC标准的环路滤波。
如图1所示,根据本发明的视频编解码方法100,在其环路滤波处理中还包括以下步骤:
步骤S102:获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块。
步骤S104:基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。
即,第一滤波神经网络用于对经去块效应处理之后的图像块进行进一步的滤波。第二滤波神经网络用于对经样本补偿处理之后的图像块进行进一步的滤波。
当采用第二滤波神经网络对经样本补偿处理之后的图像块进行进一步的滤波时,对现有HEVC标准的环路滤波的改动最小。
例如,在解码端进行视频解码时,当检测到码流(控制)信息中包含关于编码端采用了上述第一滤波神经网络或第二滤波神经网络进行处理的标识信息时,解码端进行对应的第一滤波或第二滤波处理。
可选地,如图1的虚线框所示,在步骤S102之前,视频编解码方法100还可以包括以下步骤:
步骤S102’:基于第一训练数据集合进行训练,得到经训练的第一滤波神经网络,或者,基于第二训练数据集合进行训练,得到经训练的第二滤波神经网络。
其中,所述第一训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经去块效应处理之后的至少一个图像块和与该经去块效应处理之后的至少一个图像块一一对应的至少一个原始图像块,所述第二训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经样本补偿处理之后的至少一个图像块和与该经样本补偿处理之后的至少一个图像块一一对应的至少一个原始图像块。
例如,可以通过以下方式来训练第一滤波神经网络或第二滤波神经网络。
将标准HEVC编码器压缩后的训练图像及其对应的原始图像构成训练样本,采用最小欧氏距离为目标函数(即,Objective),如公式(1)所示,训练直至模型收敛后,在编码框架中对各自对应的重构像素进行滤波。
Figure BDA0001503094450000061
其中,n表示图像块的总像素数,Outi表示经去块效应处理之后的图像块或经样本补偿处理之后的图像块中的第i个像素,Orii表示与经去块效应处理之后的图像块或经样本补偿处理之后的图像块对应的原始图像块中的第i个像素。
更具体地,可以采用以下步骤来训练深度全卷积神经网络(即,上述第一滤波神经网络或第二滤波神经网络)。
第一步:将训练数据集使用标准HEVC帧内编码模式压缩后的每一帧图像保存,记作FHEVC。再将FHEVG的对应的原始图像FOri读出,按照s(这里是一个可变参数,我们为步长,同时从FHEVC和FOri两幅图像中对应的坐标位置截取n×n(n为正整数)大小的图像,作为一个训练样本。其中,步长s为可变参数,例如,其值可以取16。步长s的取值直接影响训练数据集的大小,步长越小,训练数据集越大。
第二步:对于所有训练数据集中的图像均采用这种截取方法,亮度分量和色度分量采用同样的块大小划分以及算法细节。
第三步:使用深度学习框架Caffe和得到的训练样本训练如图3所示的全卷积网络,直到网络收敛。
可选地,所述图像块至少包括下列中的至少一种:图像帧、编码树单元(CodingTree Unit,CTU)、编码单元(Coding Unit,CU)、预测单元、变换单元。
例如,当所述图像块采用编码树单元为基本单元时,可以将原始图像按照视频编码框架中的CTU大小划分为不重叠的多个CTU。此时,可以针对每个CTU,将该CTU的所有像素都进行归一化之后再作为深度神经网络(即,所述至少一个第一滤波神经网络或至少一个第二滤波神经网络)滤波的输入,调用训练好的深度卷积网络进行滤波处理。同样,训练时也需要对训练数据统一进行归一化处理。
可选地,所述图像块包括YCbCr数据,所述视频编解码方法分别对所述图像块中的亮度数据、色度数据进行与编解码相关的环路滤波处理。
即,可以采用基于帧(即,图像帧或视频帧)级或编码树单元级的编解码对YCbCr数据中的亮度分量Y、色度分量Cb和Cr进行分别处理。
可选地,如图1的虚线框所示,在步骤S104之后,视频编解码方法100还可以包括以下步骤:
步骤S106:在按照下列公式(2)-(4)确定第三滤波图像块或第四滤波图像块的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行滤波的第一标识信息或表示使用选定第二滤波神经网络进行滤波的第二标识信息。
Figure BDA0001503094450000081
ΔD=DMSE-DMSE,org (3)
J=ΔD+λ*R (4)
其中,DMSE表示所述第一滤波图像块或所述第二滤波图像块与对应的原始图像块之间的均方误差失真,n表示图像块的长和宽,Recij表示所述第一滤波图像块或所述第二滤波图像块在位置(i,j)处的像素值(即,经过深度全卷积神经网络的输出像素),Oriij表示对应的原始图像块在位置(i,j)处的像素值(即,原始未压缩像素),ΔD表示均方误差失真增益,DMSE,org表示不使用所述选定第一滤波神经网络或不使用所述选定第二滤波神经网络进行滤波之前的均方误差失真,λ表示HEVC中的拉格朗日因子,R表示使用所述选定第一滤波神经网络或使用所述选定第二滤波神经网络进行滤波所需的代价。
可选地,R=1。
即,R为编码该滤波模式所需的代价,对于每个图像块来说此值为1。如果J非负,则表示深度卷积网络(即,所述选定第一滤波神经网络或选定第二滤波神经网络)滤波并未提升编码性能,则将0写入码流,解码端则不必在调用深度网络滤波;反之,则说明深度卷积网络带来了编码性能提升,则将1写入码流,表示该图像块使用深度卷积滤波。即,进行自适应环路滤波,以避免不必要的(用于视频解码的)控制数据传输,以降低码率。
即,此时可以分别采用基于图像帧、CTU、预测单元、变换单元级的率失真决策方法,并将决策结果写入码流(控制信息),以提升编解码性能。
尽管在图1中未示出,然而,可选地,还可以采用基于图像帧和CTU级的联合率失真决策方法,以进一步提升编解码性能。此时,视频编解码方法100可以包括以下步骤:
步骤S108:当按照公式(2)-(4)确定图像帧所包含的至少一个第三滤波CTU或第四滤波CTU的率失真增益J小于0时,且当按照公式(2)-(4)确定该图像帧所对应的第三滤波图像帧或第四滤波图像帧的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行相应级别(即,图像帧级和CTU级)的滤波的第一标识信息或表示使用选定第二滤波神经网络进行相应级别(即,图像帧级和CTU级)的滤波的第二标识信息。
即,在处理完所有的子区域后(例如,CTU),可以再对整个区域(例如,上述图像帧)进行一次率失真决策。同样根据上述公式(2)-(4),而此时的ΔD则是通过计算整帧图像在深度卷积网络滤波前后的失真差得到。可选地,此时该模式下所需要的额外码率R为1。
然后,根据率失真决策的结果,将相应信息写入码流。在解码时通过对应的信息进行滤波(即,上述第一滤波或第二滤波)处理。深度卷积网络的输入和输出是归一化的,因此在重构图像时,需要映射到对应的位深(bit depth)像素值。
更具体地,可以采用以下步骤来根据上述基于图像帧和CTU级的联合率失真决策来进行滤波。
第一步:针对图像的每一个重叠的n×n区域(即,不同级别的图像块,例如,CTU),经过归一化后,输入训练好的深度全卷积神经网络:根据公式(2)-(4)计算该区域亮度分量(和/或色度分量)的率失真损失,并将率失真决策信息写入码流。
第二步:当前图像中所有区域均使用深度网络滤波后,再根据上式对亮度分量(和/或色度分量)进行帧级率失真决策,同时将帧级率失真决策信息写入码流。
可选地,对于色度分量,可以仅进行帧级率失真决策,不进行每个区域的率失真决策。
例如,所涉及的整体的语法元素(即,码流控制信息)如表1所示。
表1:基于深度卷积神经网络的环路滤波算法语法元素
Figure BDA0001503094450000091
可选地,当所述至少一个第一滤波神经网络是多个第一滤波神经网络、或所述至少一个第二滤波神经网络是多个第二滤波神经网络时,所述多个第一滤波神经网络或所述多个第二滤波神经网络分别用于多个不同的QP(Quantization Parameters)设置,在步骤3中,通过遍历所述多个不同的QP设置,从所述多个第一滤波神经网络或所述多个第二滤波神经网络中选定使率失真增益J最小的一个第一滤波神经网络或一个第二滤波神经网络作为所述选定第一滤波神经网络或所述选定第二滤波神经网络。
即,视频编解码方法100可以针对于不同的量化参数,选取对应的训练数据训练对应的全卷积模型(即,上述至少一个第一滤波神经网络或上述至少一个第二滤波神经网络)。
即,使用第二滤波神经网络进行滤波可以位于HEVC编码框架中的样本补偿滤波(处理)之后,对其输出进行进一步增强处理。同理,使用第一滤波神经网络进行滤波可以位于HEVC编码框架中的去块效应滤波(处理)之后。
图2示出了根据本发明实施方式的视频编解码装置中的环路滤波处理模块200的示意框图。
根据本发明的视频编解码装置,包括环路滤波处理模块200。除了现有的HEVC标准编解码器中的环路滤波处理模块所需要包含的去块效应滤波模块和样本补偿滤波模块之外,环路滤波处理模块200还包括后续读取模块202和后续处理模块204。
后续读取模块202,用于获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块。
后续处理模块204,用于基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。
图3示出了根据本发明实施方式的用于图像滤波的神经网络的示意结构图。
如图3所示,根据本发明的用于图像滤波的神经网络,包括:
依次连接的第一组合卷积层(即,图3中的conv1/relu1与conv11/relu1的组和层)、第二组合层(即,图3中的concat1层)、第三卷积层(即,图3中的conv2/relu2层)、第四组合卷积层(即,图3中的conv3/relu3与conv33/relu33的组和层)、第五组合层(即,图3中的concat2层)、第六卷积层(即,图3中的conv4/relu4层)、第七卷积层(即,图3中的conv5/relu5层)、第八组合卷积层(即,图3中的conv6/relu6与conv66/relu66的组和层)、第九组合层(即,图3中的concat3层)、第十卷积层(即,图3中的conv7/relu7层)、第十一卷积层(即,图3中的conv8/relu8层)和第十二卷积层(即,图3中的conv9层)。
其中,所述第一组合卷积层用于接收输入图像块的数据(即,图3中的data),所述第十二卷积层用于输出滤波后的图像块的数据(即,图3中的conv9层的输出数据)。
可选地,根据本发明的用于图像滤波的神经网络,在所述第十二卷积层之后还包括求和层(即,图3中的res1a层)。
求和层,用于计算输入图像块的数据与滤波后的图像块的数据之间的残差图像块的数据(即,图3中的loss)。
如图3所示的神经网络可以作为上文所述的第一滤波神经网络或第二滤波神经网络。
如上文所述,可以采用Caffe平台来实现如图3所示的神经网络。因此,在对如图3所示的神经网络进行训练时,所有卷积层中的卷积核都可以采用何凯明等人发表的文章“Delving deep into rectifiers:Surpassing human-level performance on imagenetclassification”中所公开的MSRA初始化方法,而卷积层中的偏置项的初始值均为0。同时,所有卷积层中的偏移学习率(lr_mult)参数的值均为0.1。
本发明的上述技术方案,提供了结合深度学习神经网络、改动小、且适用于HEVC的不同模式(包括帧内编码、低延时编码、随机访问编码)的完整的编解码方案。在码率不变的前提下,可以显著提升视频的主客观质量。
为了使本领域技术人员更好地理解本发明的技术效果,下面给出了表2,用于说明本发明的上述技术方案所实现的技术效果。
表2:各模式下的编解码性能
Figure BDA0001503094450000121
Figure BDA0001503094450000131
表2中显示了根据本发明的上述技术方案与HEVC标准参考软件HM16.9的编码性能之间的对比结果。编码配置包括帧内编码、低延时编码、以及随机访问编码三种配置,所有的测试序列为新一代视频编码标准的通用测试序列,分辨率从1920x1080一直到416x240,测试帧数为150帧,量化参数QP设置为22、27、32、37。
从表2可以看出,在三种不同的编码配置下,对于B-E这四类图像序列而言,在图像的主客观质量不变的情况下,根据本发明的上述技术方案相对于HM16.9标准编码器的码率均减小了。即,在图像质量相同的情况下,使用本发明的技术方案所需的码率更低。
综上所述,根据本发明的上述技术方案可以基于深度神经网络来实现视频编码环路滤波算法。能够在HEVC框架中的样本补偿滤波之后进行后续处理。上述技术方案采用深度卷积神经网络,在训练时采用原始HEVC的压缩后重建视频与原始数据组成训练样本对,再以经验风险最小化-加正则项的欧式距离函数(即,上述率失真增益J)为训练目标对卷积神经网络进行训练。训练到模型收敛后,在编码过程中可以调用深度卷积网络对样本补偿滤波之后的重建像素进行滤波从而实现更好的主观和客观质量,上述技术方案还可以根据视频编码时的量化参数选择相应的滤波网络从而取得更好的编码性能。
以上所述,仅为本发明示例性的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种视频编解码方法,其特征在于,在环路滤波处理中还包括以下步骤:
步骤1:获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块;
步骤2:基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块;
步骤3:在按照下列公式确定第三滤波图像块或第四滤波图像块的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行滤波的第一标识信息或表示使用选定第二滤波神经网络进行滤波的第二标识信息,
Figure DEST_PATH_IMAGE001
Figure 939407DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,
Figure 333479DEST_PATH_IMAGE004
表示所述第一滤波图像块或所述第二滤波图像块与对应的原始图像块之间的均方误差失真,n表示图像块的长和宽,
Figure DEST_PATH_IMAGE005
表示所述第一滤波图像块或所述第二滤波图像块在位置
Figure 761049DEST_PATH_IMAGE006
处的像素值,
Figure 291388DEST_PATH_IMAGE007
表示对应的原始图像块在位置
Figure 776071DEST_PATH_IMAGE006
处的像素值,
Figure 188598DEST_PATH_IMAGE008
表示均方误差失真增益,
Figure 419859DEST_PATH_IMAGE009
表示不使用所述选定第一滤波神经网络或不使用所述选定第二滤波神经网络进行滤波之前的均方误差失真,
Figure 70283DEST_PATH_IMAGE010
表示HEVC中的拉格朗日因子,
Figure 259956DEST_PATH_IMAGE011
表示使用所述选定第一滤波神经网络或使用所述选定第二滤波神经网络进行滤波所需的代价。
2.根据权利要求1所述的视频编解码方法,其特征在于,在步骤1之前还包括:
步骤1’:基于第一训练数据集合进行训练,得到经训练的第一滤波神经网络,或者,基于第二训练数据集合进行训练,得到经训练的第二滤波神经网络,
其中,所述第一训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经去块效应处理之后的至少一个图像块和与该经去块效应处理之后的至少一个图像块一一对应的至少一个原始图像块,所述第二训练数据集合包括,利用标准的HEVC视频编码器的环路滤波处理中所获取的、经样本补偿处理之后的至少一个图像块和与该经样本补偿处理之后的至少一个图像块一一对应的至少一个原始图像块。
3.根据权利要求1或2所述的视频编解码方法,其特征在于,所述图像块至少包括下列中的至少一种:图像帧、编码树单元CTU、编码单元、预测单元、变换单元。
4.根据权利要求3所述的视频编解码方法,其特征在于,所述图像块包括YCbCr数据,所述视频编解码方法分别对所述图像块中的亮度数据、色度数据进行与编解码相关的环路滤波处理。
5.根据权利要求1所述的视频编解码方法,其特征在于,R=1。
6.根据权利要求3所述的视频编解码方法,其特征在于,将所述步骤3替换为以下步骤:
当按照下列公式确定图像帧所包含的至少一个第三滤波CTU或第四滤波CTU的率失真增益J小于0时,且当按照下列公式确定该图像帧所对应的第三滤波图像帧或第四滤波图像帧的率失真增益J小于0时,在码流信息中写入表示使用选定第一滤波神经网络进行图像帧级和CTU级的滤波的第一标识信息或表示使用选定第二滤波神经网络进行图像帧级和CTU级的滤波的第二标识信息,
Figure 363041DEST_PATH_IMAGE012
Figure 929152DEST_PATH_IMAGE013
Figure 699662DEST_PATH_IMAGE003
其中,
Figure 263498DEST_PATH_IMAGE004
表示所述第一滤波图像帧或CTU、或所述第二滤波图像帧或CTU与对应的原始图像帧或CTU之间的均方误差失真,n表示图像帧或CTU的长和宽,
Figure 650617DEST_PATH_IMAGE005
表示所述第一滤波图像帧或CTU、或所述第二滤波图像帧或CTU在位置处的像素值,
Figure 51960DEST_PATH_IMAGE007
表示对应的原始图像帧或CTU在位置
Figure 52277DEST_PATH_IMAGE006
处的像素值,
Figure 661113DEST_PATH_IMAGE008
表示均方误差失真增益,
Figure 37868DEST_PATH_IMAGE009
表示不使用所述选定第一滤波神经网络或不使用所述选定第二滤波神经网络进行滤波之前的均方误差失真,
Figure 517390DEST_PATH_IMAGE010
表示HEVC中的拉格朗日因子,表示使用所述选定第一滤波神经网络或使用所述选定第二滤波神经网络进行滤波所需的代价。
7.根据权利要求1或6所述的视频编解码方法,其特征在于,当所述至少一个第一滤波神经网络是多个第一滤波神经网络、或所述至少一个第二滤波神经网络是多个第二滤波神经网络时,所述多个第一滤波神经网络或所述多个第二滤波神经网络分别用于多个不同的QP设置,在步骤3中,通过遍历所述多个不同的QP设置,从所述多个第一滤波神经网络或所述多个第二滤波神经网络中选定使率失真增益J最小的一个第一滤波神经网络或一个第二滤波神经网络作为所述选定第一滤波神经网络或所述选定第二滤波神经网络。
8.一种视频编解码装置,包括环路滤波处理模块,其特征在于,所述环路滤波处理模块用于执行权利要求1-7任一项所述的方法;所述环路滤波处理模块还包括以下模块:
后续读取模块,用于获取经去块效应处理之后的第一滤波图像块或经样本补偿处理之后的第二滤波图像块;
后续处理模块,用于基于所述第一滤波图像块和经训练的至少一个第一滤波神经网络获取第三滤波图像块,或者,基于所述第二滤波图像块和经训练的至少一个第二滤波神经网络获取第四滤波图像块。
CN201711311491.1A 2017-12-11 2017-12-11 一种视频编解码方法、装置及用于图像滤波的神经网络 Active CN108184129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711311491.1A CN108184129B (zh) 2017-12-11 2017-12-11 一种视频编解码方法、装置及用于图像滤波的神经网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711311491.1A CN108184129B (zh) 2017-12-11 2017-12-11 一种视频编解码方法、装置及用于图像滤波的神经网络

Publications (2)

Publication Number Publication Date
CN108184129A CN108184129A (zh) 2018-06-19
CN108184129B true CN108184129B (zh) 2020-01-10

Family

ID=62546006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711311491.1A Active CN108184129B (zh) 2017-12-11 2017-12-11 一种视频编解码方法、装置及用于图像滤波的神经网络

Country Status (1)

Country Link
CN (1) CN108184129B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3952306A1 (en) 2018-10-02 2022-02-09 Nokia Technologies Oy An apparatus, a method and a computer program for running a neural network
CN113396594A (zh) * 2019-03-07 2021-09-14 Oppo广东移动通信有限公司 环路滤波实现方法、装置及计算机存储介质
EP3930323A4 (en) * 2019-03-07 2022-03-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. METHOD AND APPARATUS FOR IMPLEMENTING LOOP FILTER AND COMPUTER STORAGE MEDIUM
US11956447B2 (en) * 2019-03-21 2024-04-09 Google Llc Using rate distortion cost as a loss function for deep learning
KR20210134397A (ko) * 2019-03-24 2021-11-09 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 필터링 방법 및 장치, 컴퓨터 저장 매체
EP3941057A4 (en) * 2019-03-24 2022-06-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. METHOD AND DEVICE FOR FILTERING, ENCODER AND COMPUTER STORAGE MEDIA
CN112019854B (zh) * 2019-05-28 2023-01-17 北京大学 基于深度学习神经网络的环路滤波方法
CN110351568A (zh) * 2019-06-13 2019-10-18 天津大学 一种基于深度卷积网络的视频环路滤波器
CN111047529B (zh) * 2019-11-28 2023-05-23 杭州当虹科技股份有限公司 一种基于机器学习的视频处理方法
CN111083498B (zh) * 2019-12-18 2021-12-21 杭州师范大学 用于视频编码帧间环路滤波的模型训练方法和使用方法
CN111541894B (zh) * 2020-04-21 2021-04-20 电子科技大学 一种基于边缘增强残差网络的环路滤波方法
CN113727103B (zh) * 2020-05-25 2022-08-12 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、电子设备及存储介质
CN113727106B (zh) * 2020-05-25 2024-03-26 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、电子设备及存储介质
US20220101095A1 (en) * 2020-09-30 2022-03-31 Lemon Inc. Convolutional neural network-based filter for video coding
US11792438B2 (en) 2020-10-02 2023-10-17 Lemon Inc. Using neural network filtering in video coding
WO2022257049A1 (zh) * 2021-06-09 2022-12-15 Oppo广东移动通信有限公司 编解码方法、码流、编码器、解码器以及存储介质
WO2022257130A1 (zh) * 2021-06-11 2022-12-15 Oppo广东移动通信有限公司 编解码方法、码流、编码器、解码器、系统和存储介质
WO2023019567A1 (zh) * 2021-08-20 2023-02-23 深圳传音控股股份有限公司 图像处理方法、移动终端及存储介质
WO2023197230A1 (zh) * 2022-04-13 2023-10-19 Oppo广东移动通信有限公司 滤波方法、编码器、解码器以及存储介质
CN117151986A (zh) * 2022-05-18 2023-12-01 腾讯科技(深圳)有限公司 图像滤波方法、装置及设备
CN117412040A (zh) * 2022-07-06 2024-01-16 维沃移动通信有限公司 环路滤波方法、装置及设备
WO2024012243A1 (en) * 2022-07-15 2024-01-18 Mediatek Inc. Unified cross-component model derivation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1882083A (zh) * 2005-06-15 2006-12-20 华为技术有限公司 一种降低图像方块效应的方法
CN105611303A (zh) * 2016-03-07 2016-05-25 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136083A1 (en) * 2016-02-05 2017-08-10 Google Inc. Compressing images using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1882083A (zh) * 2005-06-15 2006-12-20 华为技术有限公司 一种降低图像方块效应的方法
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding
CN105611303A (zh) * 2016-03-07 2016-05-25 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置

Also Published As

Publication number Publication date
CN108184129A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108184129B (zh) 一种视频编解码方法、装置及用于图像滤波的神经网络
Wang et al. Attention-based dual-scale CNN in-loop filter for versatile video coding
CN106105201B (zh) 使用像素距离的解块滤波
CN111711824B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN104054344B (zh) 对色度数据进行解块以用于视频译码
JP6242385B2 (ja) サンプルアダプティブオフセット情報(SampleAdaptiveOffsetInformation)の符号化の方法と装置
US9723330B2 (en) Method and apparatus for sparsity-based de-artifact filtering for video encoding and decoding
TWI558212B (zh) 一種後期處理重建畫面的方法
CN110036637B (zh) 去噪声化已重构图像的方法及装置
Huang et al. Frame-wise CNN-based filtering for intra-frame quality enhancement of HEVC videos
CN110199524A (zh) 噪声抑制滤波器
CN109889852B (zh) 一种基于邻近值的hevc帧内编码优化方法
EP2452499A1 (en) Methods and apparatus for spatially varying residue coding
CN111819856A (zh) 用于视频编码的环路滤波装置及方法
Lin et al. Residual in residual based convolutional neural network in-loop filter for AVS3
Zhang et al. Efficient CTU-based intra frame coding for HEVC based on deep learning
TW201904295A (zh) 改進型非局部適應性環路濾波器處理
CN115695787A (zh) 基于神经网络的视频编解码中的分割信息
Wang et al. An integrated CNN-based post processing filter for intra frame in versatile video coding
TW202209877A (zh) 濾波方法、裝置及設備
CN103491372B (zh) 一种适用于hevc标准的去方块滤波器的滤波方法
Santamaria et al. Overfitting multiplier parameters for content-adaptive post-filtering in video coding
CN115550646A (zh) 基于神经网络的视频编解码中的外部注意力
Wang et al. Neural network based in-loop filter with constrained memory
Zhang et al. Textural and Directional Information Based Offset In-Loop Filtering in AVS3

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant