CN108174225A

CN108174225A - 基于对抗生成网络的视频编解码环路内滤波实现方法及系统

Info

Publication number: CN108174225A
Application number: CN201810025778.6A
Authority: CN
Inventors: 林巍峣; 何晓艺
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-06-15
Anticipated expiration: 2038-01-11
Also published as: CN108174225B

Abstract

一种基于对抗生成网络的视频编解码环路内滤波实现方法及系统，使用视频编解码算法编码并解码得到的视频作为训练数据，使用生成模型和辨别模型联合训练的方法训练一卷积神经网络并得到预训练模型，最后在视频编解码环路内使用所述预训练模型，在视频编解码算法的环路内对每一张重建视频帧进行图像质量恢复，有选择地使用输出图像更新原图像。本发明具有更强的鲁棒性和拓展性，能够处理视频压缩编码后的重建帧，比基于一般传统卷积神经网络的环路内滤波器图像恢复效果更接近原始图像，提升图像质量，进而提升视频压缩编码的效率。

Description

基于对抗生成网络的视频编解码环路内滤波实现方法及系统

技术领域

本发明涉及的是一种数字图像处理领域的技术，具体是一种基于对抗生成网络的视频编解码环路内滤波实现方法及系统。

背景技术

现有的视频编码标准HEVC中包含了用于去除重建图像中由压缩编码带来的块效应的去块滤波器以及样点自适应滤波器(SAO)，通过对编码单元进行分类，并对编码单元进行像素点补偿，以此来提升重建帧的质量，减少压缩带来的失真。环路内滤波器的特点是在帧间参考模式下，当前重建帧会作为后续编码帧的参考帧，从而环路内滤波器会影响编码的后续过程。现有的环路外滤波器有采用卷积神经网络对于帧内参考模式下的重建帧进行处理，一定程度上提升了编码效率。但是由于帧内参考模式的局限性，压缩比非常有限，并且环路外滤波器对于重建帧的质量提升对后续的编码过程不会产生增益，因此从这一角度来说，该算法对于编码效率的改进非常有限。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于对抗生成网络的视频编解码环路内滤波实现方法及系统，具有更强的鲁棒性和拓展性，能够处理视频压缩编码后的重建帧，比基于一般传统卷积神经网络的环路内滤波器图像恢复效果更接近原始图像，提升图像质量，进而提升视频压缩编码的效率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于对抗生成网络的视频编解码环路内滤波实现方法，使用视频编解码算法编码并解码得到的视频作为训练数据，使用生成模型和辨别模型联合训练的方法训练一卷积神经网络并得到预训练模型，最后在视频编解码环路内使用所述预训练模型，在视频编解码算法的环路内对每一张重建视频帧进行图像质量恢复，有选择地使用输出图像更新原图像。

所述的训练数据是指：以视频编解码算法编码并解码得到的视频的视频帧和其所对应的原始视频帧的划分子图，即以64x64为大小划分得到的若干个不相交的子图。

所述的训练，即基于训练数据和预设的网络结构，对卷积神经网络的参数使用生成模型和辨别模型联合训练的方法进行优化的过程。

所述的预设的网络结构包括生成模型和辨别模型，其中：生成模型以视频压缩算法得到的视频帧作为输入，以视频帧的编码划分情况作为代价函数(loss)的输入，在计算输出图像与原图像的差异时，给予划分图像的白色部分图像的边界以更高的权重，使网络的优化倾向于去除边界效应的方向发展；用来区分生成的图片和真实图片辨别模型为分类网络结构，该辨别模型通过与生成模型对抗迫使生成模型的优化目标更接近真实图片，进一步改善生成图片的质量。

所述的生成模型由多个用于提取输入图像不同大小的特征并将其融合的卷积层和用于恢复图像的上采样层构成，生成模型最终输出与输入图像大小一致、质量改善的图像。

所述的视频帧的编码划分情况是指：在视频编解码算法在编码过程中产生的划分图。

所述的图像质量恢复是指：将视频帧的Y通道图像以64x64为单位分成若干个不相交的子图，使用预训练的模型分别对每一子图进行处理，得到输出图像。

所述的更新，当输出图像的视频质量与输入图像相比有提升，则使用该输出图像更新输入图像，否则不更新。

所述的提升是指：图像的通用客观质量评价指标有提升，该质量评价采用但不限于峰值信噪比(PSNR)等。

优选地，在编码过程中使用一比特记录该图像是否更新，并写入编码最终产生的码流中；在解码过程中以所述比特位作为是否更新的依据。

本发明涉及一种实现上述方法的系统，包括：训练数据生成模块、联合训练模块和滤波模块，其中：训练数据生成模块与联合训练模块相连并传输其生成的训练数据，联合训练模块与滤波模块相连并传输其训练得到的与训练模型，滤波模块可用于在视频编解码环路内进行滤波。

技术效果

与现有技术相比，本发明利用对抗生成网络来实现滤波器，与传统的视频编解码算法中的滤波器和传统的卷积神经网络相比，具有更好的鲁棒性和更高的效果。传统的滤波器算法主要由人的经验来设计优化，鲁棒性不够好。而基于传统的卷积神经网络的滤波器在训练时没有考虑到图像恢复的特点，优化目标单一(往往是基于图像直接的均方误差来优化)，而往往忽视了图像的主观质量。本方法基于对抗生成网络，在优化时考虑到了视频帧在编码时的划分情况，且利用辨别器来区分生成图片和真实图片，通过生成模型和辨别模型的对抗迫使生成模型生成的图片更接近原图像。

附图说明

图1为本发明的流程图；

图2为实施例视频帧划分情况示意图；

图3为实施例GAN的生成网络示意图；

图4为实施例GAN的辨别网络示意图。

具体实施方式

如图1所示，本实施例涉及的一种基于对抗生成网络的视频编解码环路内滤波在

h.265/HEVC视频编码标准的参考软件HM-16.0下的实现方法，其具体步骤如下：

步骤1.1)使用视频编解码软件HM-16.0对一系列视频进行编码并解码，最终得到解码后的重建视频帧。

步骤1.2)将每一张解码得到的视频帧和原始视频帧以及表征该视频帧编码划分情况的划分图，只采用图像的Y通道，分别切分成64x64的不相交的子图。所有这些子图即作为训练数据，如图2所示。

步骤1.3)基于tensorflow开源软件搭建该网络并使用训练数据对其进行有监督的训练，首先网络的参数均随机的初始化，然后训练生成模型，训练10个周期后开始使用辨别模型与生成模型联合训练，最终得到一个预训练模型。

所述的生成网络的所有卷积层卷积核大小为3x3,卷积核数目为64，stride为2。所有上采样的层输出的宽和高均是输入的两倍。采用的融合方法是将所有特征图分成8x8的不相交的子图，这些子图全部堆在在一起，经过一个卷积层融合。

所述的生成网络的代价函数(loss)采用均方误差函数(MSE)，边界权重为0.65。

如图3所示，所述的生成网络由多个用于提取输入图像不同大小的特征并将其融合的卷积层和用于恢复图像的上采样层构成，生成网络最终输出与输入图像大小一致、质量改善的图像。

本实施例的生成模型基于视频帧被分成不同块的特点，利用卷积层将特征图逐渐变小，来提取图像的全局特征，然后将这些代表不同层次的不同大小的特征融合起来。

如图4所示，所述的辨别网络体为：输入图像经过多个卷积层(Convolution)、激活函数(ReLu)和dense layer模块进行处理和计算，最终得到该图像为生成图像而非自然图像的概率。

步骤2.1)使用步骤1.3)中得到的预训练模型，在编码过程中对每一个重建帧进行处理，将该视频帧的Y通道图像以64x64为单位分成若干个不相交的子图，使用预训练的模型分别对每一子图进行处理，得到输出图像。

步骤2.2)当输出图像的视频质量与输入图像相比有提升，则使用该输出图像更新输入图像，否则不更新，并记录该图像被更新过，该记录在编码过程将以比特的形式写入编码得到的码流中。而在解码过程中从码流中读入该记录，使用与上述相同的步骤后得到输出图像，并决定是否更新输入图像。

该实施例中使用编码软件HM-16.0，在LDB编码配置，对编码中常用的22个标准测试序列进行了实验。实验结果如表1，结果表明，该实施例对于所有测试序列，均能提升编码效率且得到的图像不仅在图像的客观指标上有所提升，并且得益于GAN的联合训练，图像整体上更接近原始视频帧，更自然。

表1实验结果

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于对抗生成网络的视频编解码环路内滤波实现方法，其特征在于，使用视频编解码算法编码并解码得到的视频作为训练数据，使用生成模型和辨别模型联合训练的方法训练一卷积神经网络并得到预训练模型，最后在视频编解码环路内使用所述预训练模型，在视频编解码算法的环路内对每一张重建视频帧进行图像质量恢复，有选择地使用输出图像更新原图像。

2.根据权利要求1所述的方法，其特征是，所述的训练，即基于训练数据和预设的网络结构，对卷积神经网络的参数使用生成模型和辨别模型联合训练的方法进行优化的过程。

3.根据权利要求2所述的方法，其特征是，所述的预设的网络结构包括生成模型和辨别模型，其中：生成模型以视频压缩算法得到的视频帧作为输入，以视频帧的编码划分情况作为代价函数的输入，在计算输出图像与原图像的差异时，给予划分图像的白色部分图像的边界以更高的权重，使网络的优化倾向于去除边界效应的方向发展；用来区分生成的图片和真实图片辨别模型为分类网络结构。

4.根据权利要求1所述的方法，其特征是，所述的训练数据是指：以视频编解码算法编码并解码得到的视频的视频帧和其所对应的原始视频帧的划分子图，即以64x64为大小划分得到的若干个不相交的子图。

5.根据权利要求1所述的方法，其特征是，所述的视频帧的编码划分情况是指：在视频编解码算法在编码过程中产生的划分图。

6.根据权利要求1所述的方法，其特征是，所述的生成模型由多个用于提取输入图像不同大小的特征并将其融合的卷积层和用于恢复图像的上采样层构成，生成模型最终输出与输入图像大小一致、质量改善的图像。

7.根据权利要求1或4所述的方法，其特征是，所述的图像质量恢复是指：将视频帧的Y通道图像以64x64为单位分成若干个不相交的子图，使用预训练的模型分别对每一子图进行处理，得到输出图像。

8.根据权利要求1所述的方法，其特征是，所述的更新，当输出图像的视频质量与输入图像相比有提升，则使用该输出图像更新输入图像，否则不更新。

9.根据权利要求8所述的方法，其特征是，在编码过程中使用一比特记录该图像是否更新，并写入编码最终产生的码流中；在解码过程中以所述比特位作为是否更新的依据。

10.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：训练数据生成模块、联合训练模块和滤波模块，其中：训练数据生成模块与联合训练模块相连并传输其生成的训练数据，联合训练模块与滤波模块相连并传输其训练得到的与训练模型，滤波模块可用于在视频编解码环路内进行滤波。