CN112468826B

CN112468826B - 一种基于多层gan的vvc环路滤波方法及系统

Info

Publication number: CN112468826B
Application number: CN202011104015.4A
Authority: CN
Inventors: 申兆岩; 刘继刚; 张辉; 马亮; 郎铁山
Original assignee: Shandong Qianyun Qichuang Information Technology Co ltd; Shandong Trusted Cloud Information Technology Research Institute; Zhongan Trustworthy Qingdao Network Technology Co ltd; Shandong University
Current assignee: Shandong Qianyun Qichuang Information Technology Co ltd; Shandong Trusted Cloud Information Technology Research Institute; Zhongan Trustworthy Qingdao Network Technology Co ltd; Shandong University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-09-24
Anticipated expiration: 2040-10-15
Also published as: CN112468826A

Abstract

本发明提供了一种基于多层GAN的VVC环路滤波方法及系统，构建滤波模型，所述滤波模型包括多层GAN模型，每个GAN模型负责捕获不同尺度下的图像分布；导入其他方式滤波后的视频流文件和原始视频文件的关键帧组作为训练数据，作为各层GAN模型的输入，利用它们之间的像素差来训练滤波模型；将训练好的滤波模型嵌入VVC环路，将视频序列分割为若干个小的图像组，利用嵌入的滤波模型对分割后的视频序列进行滤波处理；本发明减少了环路滤波带来的开销，并提高了压缩效率。

Description

一种基于多层GAN的VVC环路滤波方法及系统

技术领域

本发明属于视频/图像处理技术领域，具体涉及一种基于多层GAN的VVC环路滤波方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着流媒体技术和多媒体技术的飞速发展，视频通信给人们带来了更好的视觉体验，但同时也给海量视频数据的传输和存储带来了挑战。面对挑战，视频编码标准也在不断发展。随着人们对于视频压缩的要求越来越高，高效视频编码(High Efficiency VideoCoding，HEVC)已经不能满足部分视频压缩应用。通用视频编码(Versatile Video Coding，VVC)是继HEVC之后的新一代国际视频压缩编码技术标准，主要针对高清视频、超高清视频、3D视频等应用。目前，VVC基准已经相较于HEVC实现了30％编码效率的提升。VVC标准的更新带来了更好的视频压缩效率，但同时也带来了巨大的计算开销和图像损失。因此如何在保证编码性能的基础上，降低编码复杂度和减少图像损失成为了VVC视频编码标准的研究热点。为了更有效的恢复有损图像，提升视频编码压缩效率，研发者尝试使用新技术来取代VVC中不必要的复杂模块。

目前，图像/视频编码标准广泛采用基于块的压缩框架，例如jpeg、H.264/AVC、H.265、VVC等。现有的视频压缩框架中基于块的预测、量化和变换会降低图像的质量，尤其表现在块的边界出现纹理不连续、块内出现振铃和模糊伪影的情况。经过视频编码标准编码后的视频质量的好坏取决于上述问题的解决程度。视频编码中环路滤波模块对提高重建解码视频帧的质量有着重要的作用，目前大多数的环路滤波算法都是以此为目的进行研究的。

在VVC中，块的边界问题(方块效应)主要由环路滤波中的去方块滤波(DF)模块处理，由于去方块滤波过程中忽略了内部像素，使得滤波器不能充分恢复质量下降的帧。于是，现有技术提出了更多的环路滤波算法，如SAO和ALF。这些算法会考虑到图像中的所有像素，在一定程度上有助于提高重建视频的视觉质量，也有助于提高目标质量，并实现比特率的节省。然而，据发明人了解，这两种技术对编码器和解码器的实现都需要更大的计算复杂度和内存带宽要求，因此需要一种更好的方法来降低环路滤波带来的数据移动开销。

发明内容

本发明为了解决上述问题，提出了一种基于多层GAN的VVC环路滤波方法及系统，本发明通过利用MGAN的图像生成来代替VVC环路滤波中的ALF模块实现图像恢复功能，成功的减少了环路滤波带来的开销，并提高了压缩效率。

根据一些实施例，本发明采用如下技术方案：

一种基于多层GAN的VVC环路滤波方法，包括以下步骤：

构建滤波模型，所述滤波模型包括多层GAN模型，每个GAN模型负责捕获不同尺度下的图像分布；

导入其他方式滤波后的视频流文件和原始视频文件的关键帧组作为训练数据，作为各层GAN模型的输入，利用它们之间的像素差来训练滤波模型；

将训练好的滤波模型嵌入VVC环路，将视频序列分割为若干个小的图像组，利用嵌入的滤波模型对分割后的视频序列进行滤波处理。

作为可选择的实施方式，每个GAN模型包含相互连接的一个生成器和一个判别器。

作为进一步限定的实施方式，所述生成器包括依次连接的多个相同的块，每个块包括特征提取层、Batch Normalization层和激活函数，最后的块的激活函数使用Tanh函数；所述判别器为马尔可夫链鉴别器，用于捕获所在层需要的图像信息。

作为进一步限定的实施方式，所述生成器和判别器都利用卷积神经网络来替代原始GAN中的多层感知机，同时不包含池化层。

作为可选择的实施方式，所述滤波模型前端设置有开关标志，所述开关标志被配置为，当出现无损图像时，跳过所述多层GAN模型。

作为可选择的实施方式，导入其他方式滤波后的视频流文件和原始视频文件的关键帧组作为训练数据的具体过程包括：将经过不含ALF模块的VVC编码后的有损图像和与其对应的原始视频图像组成图像对，然后将图像按照一定比例进行下采样处理，得到有损图像组和原始图像组，将它们分别作为各层GAN模型的生成器和判别器的输入。

作为可选择的实施方式，训练滤波模型的具体过程包括：逐层按照顺序训练滤波模型，使用生成器和判别器交替训练方式进行训练，训练损失包括对抗性损失和重建性损失。

作为可选择的实施方式，选择关键帧组中图像按照不同GAN层的输入图像大小进行下采样，单次训练中输入的有损图像通过下采样只绘制一次，在训练时保持固定。

一种基于多层GAN的VVC环路滤波模块，被配置为：

模型构建模块，被配置为构建滤波模型，所述滤波模型包括多层GAN模型，每个GAN模型负责捕获不同尺度下的图像分布；

模型训练模块，被配置为导入其他方式滤波后的视频流文件和原始视频文件的关键帧组作为训练数据，作为各层GAN模型的输入，利用它们之间的像素差来训练滤波模型；

滤波处理模块，被配置为将训练好的滤波模型嵌入VVC环路，将视频序列分割为若干个小的图像组，利用嵌入的滤波模型对分割后的视频序列进行滤波处理。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于多层GAN的VVC环路滤波方法中的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于多层GAN的VVC环路滤波方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明可以恢复视频图像的精细纹理，提高视频编码重构帧的质量，以实现更高效的视频编码。

本发明使用生成器G和判别器D交替训练等策略来训练MGAN模型，有效降低MGAN模型损失函数中的对抗损失以及重建损失。

本发明将VVC压缩过程丢失的图像细节找回并重新添加到视频帧中，使得有损图像经过训练后的对抗生成网络可以得到更加接近原始帧的图像，从而达到为视频图像去噪的目的。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本实施例中的MGAN网络架构；

图2为本实施例的MGAN模型的生成器G和判别器D示意图；

图3为本实施例MGAN模型在VVC中的集成示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

针对VVC压缩标准出现的图像质量损失，受到多层次神经网络架构模型的启发，为了可以生成更加接近原始图像的精细纹理，本实施例中设计了一个基于多层次GAN模型(MGAN)的环路滤波方法。本发明提出的解决方案由三个部分构成，分别为MGAN环路滤波方法的设计细节，MGAN模型的训练方法以及MGAN环路滤波方法的应用。下面将对三个部分进行详细介绍。

一、MGAN环路滤波模型的设计：

MGAN环路滤波方法是由MGAN模型来实现VVC环路滤波功能的一种方法。如图1所示，MGAN模型由N层GAN组成，每个GAN层包含一个生成器G和一个判别器D。MGAN模型的最终目标是生成相比视频压缩后的图像更接近原始图像的视频图像帧，从而达到去噪的效果。因此模型训练需要更多的图像纹理细节，为了捕获大量复杂图像的结构统计信息，每个GAN负责捕获不同尺度下的图像分布。MGAN在每层的生成器中都添加了一个马尔可夫链的鉴别器，分别负责捕获所在层需要的图像信息。这允许生成具有显著可变性的任意大小的同比例的新样本，同时保留全局结构和精细纹理。

为了得到更好的生成结果，MGAN的判别器D和生成器G都使用了卷积神经网络来替代原始GAN中的多层感知机，同时为了使整个网络可微，去掉了CNN中的池化层。如图2所示，生成网络G包含4个相同的块，通过残差学习来生成L_N中缺失的细节。每个块包括了特征提取层(Conv2d)、Batch Normalization层和激活函数Leaky relu。使用Leaky relu可以防止在训练过程中出现梯度消失现象，可以得到比relu作为激活函数更高的图片质量。最后的块使用Tanh函数以避免输出图像的像素值过大。MGAN在最初的L₀上以每个块32个内核开始计算，然后每2层GAN增加1倍。因为生成网络G是全卷积的，所以本实施例中可以在测试时通过改变噪声图的尺寸生成任意等比例的图像。判别器D的结构类似于生成器G。不同的是在判别器D中没有Tanh函数。

由于在视频压缩的过程中存在没有经过变换量化的编码树单元，它们是无损图像，不需要进行后续的滤波处理，所以本实施例中针对这种情况在MGAN模型前添加了一个开关标志，当出现这种输入数据时，自动跳过MGAN模型，从而进一步加快了编码端的编码速率。为了进一步增加MGAN模型的鲁棒性，本实施例中在MGAN模型后设置了一个判断机制，以保证经过MGAN滤波后的图像质量均优于DF、SAO处理后的图像。这个设置是为了防止MGAN生成真实图像中不存在的纹理，避免视觉干扰。

二、MGAN模型的训练：

首先，通过配置文件关闭VVC中的ALF滤波模块，然后导出SAO滤波后的视频流文件和原始视频文件的关键帧组作为MGAN模型训练的输入数据。

将MGAN模型的输入图像设置大小为256*256，每幅输入图像包含四个VVC的编码树单元。将经过不含ALF模块的VVC编码后的有损图像和与其对应的原始视频图像组成图像对，然后将图像按照一定比例进行下采样处理，得到有损图像组L_0,1,2…N和原始图像组R_0,1,2…N。然后将它们分别作为各层GAN的生成器G和判别器D的输入，利用它们之间的像素差来训练对抗生成网络模型。

将VVC压缩过程丢失的图像细节找回并重新添加到视频帧中，使得有损图像经过训练后的对抗生成网络可以得到更加接近原始帧的图像，从而达到为视频图像去噪的目的。其中，所有的G和D都有相同的接收域，为了保留精细的纹理，上一层G生成的图像通过上采样处理r之后作为下一层G的另外一个输入来影响后续生成器的训练。每个生成器G负责生成对应的‘真实图像样本’。G通过学习来欺骗一个相对应的鉴别器D，D试图将生成的样本与对应的原始视频图像区分开来，从而进行对抗训练。

本实施例，按顺序训练MGAN，从G₀，D₀到G_N，D_N。每层GAN一旦被训练，参数就会被确定下来。

训练损失主要包括对抗性损失和重建性损失。对抗损失来自于G的生成样本和原始样本R之间的差别。为了降低对抗损失，本实施例中使用经典的G和D交替训练的方法。每层GAN的对抗性损失分别由生成器G产生的损失L_G和鉴别器D产生的损失L_D组成。重建损失是生成样本与输入图像直接的差别，用来确保存在一组特定的噪声映射，这是图像处理的一个重要特性。

每个生成器G都与一个马尔科夫鉴别器D相耦合。D将其输入的每个重叠的图像块分类为真或假。其中最终的识别是关键帧组的平均值。本实施例中使用改进了连续性限制条件的WGAN-GP训练模式。因为它解决了训练梯度消失和梯度爆炸的问题，比标准WGAN拥有更快的收敛速度，能生成更高质量的样本，提供更稳定的GAN训练。此时的对抗性损失是指整组图像的损失，而不是单层GAN对应的部分图像块。要确保存在一组特定的输入图像与生成图像的映射，以生成高质量图像。

本实施例中具体选择关键帧组中图像按照不同GAN层的输入图像大小进行下采样，单次训练中输入的有损图像通过下采样只绘制一次，在训练时保持固定。重建损失是在每个层次上重建图像和原始图像的差，本实施例中用均方误差来表示。

在网络模型最原始的G₀层上，有效的接受域小，只允许捕捉精细的纹理。随着层次的增加，出现了更大范围的图像结构，保留了全局对象的排列顺序。为了可以生成满足滤波要求的精细纹理，需要从更细的纹理开始生成，这样可以保持全局结构不变，而只改变更细的图像纹理。为了控制生成图像的大小，本实施例中通过固定图像下采样时的比例来控制样本之间的变化量。

三、MGAN环路滤波方法的应用：

视频编码时预先将视频序列分割为若干个小的图像组(Group Of Pictures，GOP)，每个GOP中的参考帧即关键帧，一个视频文件中所有的关键帧组成关键帧组。首先，本实施例中通过配置文件关闭VVC中的ALF滤波模块，然后导出SAO滤波后的视频流文件和原始视频文件的关键帧组作为MGAN模型训练的输入数据。经过上述训练方法训练MGAN模型得到训练好的MGAN模型。然后将训练后的MGAN模型嵌入到VVC中，本文将提出的MGAN集成到VVC参考软件VTM5.0中，如图3所示，MGAN是位于样本自适应偏移(SAO)后用来代替ALF的一种环路滤波方法。

视频文件在编码端编码时，经过VVC的SAO滤波后的视频流文件导入MGAN环路滤波方法。首先，经过位于MGAN模型前的开关标志，当出现在视频压缩的过程中没有经过变换量化的编码树单元时，不需要调用MGAN方法则直接跳过MGAN模型进入后续VVC模块。如果导入的编码树单元为经过变换量化的有损图像时，则需要调用MGAN方法来处理图像。经过MGAN环路滤波方法的处理，会生成在变化量化中损失的精细纹理。

当然，在实际应用时，可以当经过MGAN滤波后的图像质量低于SAO处理后的图像时，会直接返回经过VVC的SAO滤波后的视频流文件而不是经过MGAN处理的视频流。以此来防止MGAN生成真实图像中不存在的纹理，避免视觉干扰并保证经过MGAN方法的视频质量均不低于SAO处理后的视频质量。

本发明将GAN网络模型应用于视频编码的环路滤波部分，相较于基于CNN的环路滤波有更好的图像恢复能力。相比于VVC基准，成功的减少了环路滤波带来的开销，并提高了压缩效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多层GAN的VVC环路滤波方法，其特征是：包括以下步骤：

构建滤波模型，所述滤波模型包括多层GAN模型，每个GAN模型负责捕获不同尺度下的图像分布；每个GAN模型包含相互连接的一个生成器和一个判别器；所述生成器包括依次连接的多个相同的块，每个块包括特征提取层、BatchNormalization层和激活函数，最后的块的激活函数使用Tanh函数；所述判别器为马尔可夫链鉴别器，用于捕获所在层需要的图像信息；

2.如权利要求1所述的一种基于多层GAN的VVC环路滤波方法，其特征是：所述生成器和判别器都利用卷积神经网络来替代原始GAN中的多层感知机，同时不包含池化层。

3.如权利要求1所述的一种基于多层GAN的VVC环路滤波方法，其特征是：所述滤波模型前端设置有开关标志，所述开关标志被配置为，当出现无损图像时，跳过所述多层GAN模型。

4.如权利要求1所述的一种基于多层GAN的VVC环路滤波方法，其特征是：导入其他方式滤波后的视频流文件和原始视频文件的关键帧组作为训练数据的具体过程包括：将经过不含ALF模块的VVC编码后的有损图像和与其对应的原始视频图像组成图像对，然后将图像按照一定比例进行下采样处理，得到有损图像组和原始图像组，将它们分别作为各层GAN模型的生成器和判别器的输入。

5.如权利要求1所述的一种基于多层GAN的VVC环路滤波方法，其特征是：训练滤波模型的具体过程包括：逐层按照顺序训练滤波模型，使用生成器和判别器交替训练方式进行训练，训练损失包括对抗性损失和重建性损失。

6.如权利要求1所述的一种基于多层GAN的VVC环路滤波方法，其特征是：选择关键帧组中图像按照不同GAN层的输入图像大小进行下采样，单次训练中输入的有损图像通过下采样只绘制一次，在训练时保持固定。

7.一种基于多层GAN的VVC环路滤波装置，其特征是：被配置为：

模型构建模块，被配置为构建滤波模型，所述滤波模型包括多层GAN模型，每个GAN模型负责捕获不同尺度下的图像分布；每个GAN模型包含相互连接的一个生成器和一个判别器；所述生成器包括依次连接的多个相同的块，每个块包括特征提取层、BatchNormalization层和激活函数，最后的块的激活函数使用Tanh函数；所述判别器为马尔可夫链鉴别器，用于捕获所在层需要的图像信息；

8.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行如权利要求1-6中任一项所述的一种基于多层GAN的VVC环路滤波方法中的步骤。

9.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-6中任一项所述的一种基于多层GAN的VVC环路滤波方法中的步骤。