CN111885280A

CN111885280A - 一种混合卷积神经网络视频编码环路滤波方法

Info

Publication number: CN111885280A
Application number: CN202010689801.9A
Authority: CN
Inventors: 高艳博; 岳建; 李帅; 贾梦虎
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-03
Anticipated expiration: 2040-07-17
Also published as: CN111885280B

Abstract

本发明公开了一种混合卷积神经网络视频编码环路滤波方法，包括以下步骤：步骤1：构建全局表征的卷积神经网络；步骤2：构建局部编码失真的卷积神经网络；步骤3：局部编码失真与全局表征的融合；步骤4：采用构建的混合卷积神经网络产生滤波输出。本发明构建的全局表征的卷积神经网络，用于提取全局特征信息，引导像素级特征从而对失真的视频重建图像进行滤波；构建的局部编码失真的卷积神经网络，提取局部特征，学习和恢复由于视频编码中的固定流程而造成的具有某中相似特征的噪声，有效将以上两种构建的神经网络融合在一起，提升整体滤波效果。

Description

一种混合卷积神经网络视频编码环路滤波方法

技术领域

本发明涉及图像和视频处理领域，特别是一种混合卷积神经网络视频编码环路滤波方法。

背景技术

从720p、1080p到4K高清视频，人们对视频质量，视频分辨率要求越来越高。视频的数据流量呈指数级增长，这也为视频编码带来了新的机遇与挑战。HEVC在AVC的基础上以及提升了很多的编码效率。但是业界仍然一直渴望可以进一步提升编码效率的新编码技术的出现。在当前基于块的混合视频编码框架中，例如HEVC，环路滤波技术被引入，去消除由于相邻块之间的编码参数不连续而引起的块效应，以及由于高频分量的丢失而引起的振铃效应。当前，HEVC利用去块滤波器和样点自适应补偿作为环路滤波器。

由于深度学习的快速发展，基于深度学习的方法在图像和视频处理的许多邻域当中取得了当今最好的结果。随后，基于深度学习的视频编码方法也相继被提出，包括基于深度学习的帧内，帧间预测，快速运动估计和快速块划分方式等等。考虑到深度学习在图像去噪和增强方面的巨大成功，基于深度学习的视频编码环路滤波也被广泛研究。现存的许多基于深度学习的环路滤波器直接利用卷积神经网络模型对重建图像去噪和增强。但是现存的这些方法没能很好的分析这些模型的效果。

经过视频编码后的重建帧会引入失真和噪声，含有噪声的视频重建帧可以用基于卷积神经网络的去噪方法来消除噪声。通常，这些卷积神经网络会利用全局表征去提取高层特征，并用这些高层特征来指导低层的像素级滤波。类似与VGG的卷积神经网络都包含池化层和步长大于一的卷积层，这些方法可以在初步提取特征时扩大特征的感受野，然后再利用上采样和反卷积来得到像素级的局部信息，但这些方法重建的视频大多数带有噪声的失真视频。

带着噪声的重建视频是被视频编码中固定的，相似的操作步骤所处理。包括块划分，帧内帧间预测，变换，量化，熵编码，反变换，反量化，预测补偿。因为这些处理步骤是固定的，那么这些步骤也会带来固定的、有规律的失真和噪声。

现有技术中提到的特征压缩与提取卷积神经网络(SEFCNN)，SEFCNN包括两个子网络，特征提取网络(FEX)和通道加权融合网络(FEN)。在上面的模型当中，它们使用卷积层的堆叠作为主要的结构。虽然感受野的范围会随着卷积层的堆叠而增加，但是由于没有池化层和步长大于1的卷积层，感受野的范围相对依然太小，因此这些方法难以得到全局信息。

也有多帧引导的注意力机制神经网络(MGANet)，MGANet包括时域编码器，多尺度编码解码子网。时域编码器可以得到帧间的联系，多尺度编码解码子网可以提取和混合全局信息。在这些卷积神经网络当中，虽然使用了卷积层去提取全局信息，但是这些方法没有充分利用与融合全局信息和局部信息。

采用混合的基于块的视频编码框架，以及在编码量化过程中高频分量的丢失会引起重建图像产生块效应和振铃效应。块效应和振铃效应会影响视频的主观质量，也会为后续的视频编码带来更多的预测误差，影响视频编码效果。

相关技术术语

全局表征：图像中物体的整体信息，比如轮廓形状，物体类别。

编码失真：在视频编码当中由于分块处理编码图像和在量化过程中的误差引起的图像失真，比如块效应，振铃效应，图像模糊。

卷积神经网络：一种包含多层卷积运算，以及多层非线性激活单元的前馈神经网络。

视频编码：在视频传输，存储过程中为了减少传输带宽和存储空间而采用的一种系统的视频压缩方法。

HEVC：High Efficiency Video Coding，高效率视频编码。

环路滤波器：在视频编码的视频重建环节为了减少视频图像的编码失真而采用的图像滤波方法，常见的有去块滤波器，样点自适应滤波器等。

BD-rate：视频编码中对比算法优劣的常用方法，通过对比多个采样点的PSNR与码率，对多个采样点进行曲线拟合。得到两个算法的编码效率差异。

发明内容

本发明所要解决的技术问题是提供一种混合卷积神经网络视频编码环路滤波方法，采用混合全局表征与编码失真的卷积神经网络来消除块效应和振铃效应，提升视频主观质量和编码效率。

为解决上述技术问题，本发明采用的技术方案是：

一种混合卷积神经网络视频编码环路滤波方法，包括以下步骤：

步骤1：构建全局表征的卷积神经网络

在需构建的混合卷积神经网络的左分支构建一个UNET类型的卷积神经网络；左分支包括若干层尺度下降操作，若干层尺度上升操作；

每层尺度下降包括一个池化层，池化层采用长宽为2的最大值池化，每一次池化操作将特征的尺寸下降一半，并把特征的通道数目扩展到原来的一倍；每层尺度上升包括一个上采样层，每个上采样层将特征的尺寸扩张一倍，通道数目下降一半；再将尺度相同的上采样层与下采样层串联在一起，通过卷积融合两个层的信息；

在上采样操作和下采样操作中，每个最大值池化或者上采样后面都添加两层卷积层，所述两层卷积层用于提取池化或者上采样之后的特征；卷积层采用尺寸为3x3的卷积核，第一个卷积层的通道数是64，之后在尺度下降时，通道扩张为原来的一倍，尺度上升时，通道下降为原来的一半；

使用ReLU作为激活函数，在每一层中使用了批量归一化操作；

步骤2：构建局部编码失真的卷积神经网络

在需构建的混合卷积神经网络的右分支构建局部编码失真的卷积神经网络；使用20层卷积层，每个卷积层的卷积核的尺寸是3x3，卷积核的个数是64；使用ReLU作为激活函数，且在激活函数之前加入批量归一化操作；

步骤3：局部编码失真与全局表征的融合

整个混合卷积神经网络由左分支的全局表征的卷积神经网络和右分支的局部编码失真的卷积神经网络构成，左分支与右分支的前两个卷积层是是相同的，两个分支共享这两个卷积层的特征参数；局部编码失真的卷积神经网络共享最后两层卷积；

步骤4：采用构建的混合卷积神经网络产生滤波输出

1)将没有经过滤波的重建帧作为输入，记为X；X首先被两层两个支路共享的卷积层f1(.)处理，初步提取特征X1；

X1＝f1(X) (1)

2)随后，初步提取的特征X1被左分支L(.)与右分支R(.)分别处理；

X_l＝L(X1) (2)

X_r＝R(X1) (3)

3)经过两个分支处理产生的特征X_l、X_r被拼接Cat(.)在一起，被最后两个卷积层f2(.)处理，融合两个支路的特征，得到残差R_e；其中，Cat为拼接操作，将两个相同尺度的张量在通道维度上拼接为一个张量；

R_e＝f2(Cat(X_l,X_r)) (4)

4)最后将输入的重建图像图像与残差R_e相加，产生滤波输出。

进一步地，在步骤1中，所述尺度下降操作的层数为3～10之间。

与现有技术相比，本发明的有益效果是：基于全局表征的卷积神经网络支路将视频重建图像视为一般噪声图像对图像去噪，它更加关注于全局表征的提取，恢复失真的全局信息，它的网络结构类似于UNET，使用池化层来扩大感受野，得到更多的全局信息。另一个基于编码失真的卷积神经网络支路更关注对由于视频编码引起的失真，通过堆叠多个卷积层来提取局部信息，恢复编码失真，最终提升视频主观质量和编码效率。

附图说明

图1是本发明一种混合卷积神经网络视频编码环路滤波方法整体框架。

图2是构建的全局表征的卷积神经网络。

图3是构建的局部编码失真的卷积神经网络。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明滤波方法的混合卷积神经网络包括两个支路，一个支路去提取全局特征去恢复图像全局表征表现，另一个支路去学习由于视频编码引入的失真的规律，并消除和减小这种失真。具体地来讲，在第一个支路卷积神经网络模型通过多个池化层去提取高层信息，然后上采样去产生像素级的残差，再共同去恢复图像。在相同尺度的输入特征与输出残差之间的连接是为了改善梯度的反向传播，在一定程度上也可以让网络更好地学习局部特征。在第二个支路上，卷积神经网络通过直接堆叠多个卷积层来更好地学习局部特征。两个支路的输出被连接在一起，共同产生最后的残差。

在HEVC当中，去块滤波器和样点自适应补偿被作为环路滤波器，用来去除编码过程中带来的失真和伪影，考虑到卷积神经网络的强大的滤波能力与学习能力。本发明提出了基于深度学习的环路滤波器，将卷积神经网络运用到视频编码当中，减少编码失真。

有损视频编码当中的量化操作会为视频重建帧带来噪声，这些噪声可以通过图像去噪来恢复原始图像。本发明利用全局的外观信息去恢复非自然的重建图像，在环路滤波之前，视频重建图像会经过视频编码中固定地流程与操作，这些操作包括块划分，帧内或帧间预测，变换，量化，熵编码，熵解码，反量化，反变换，预测补偿；在不同的视频块，帧当中，这些失真具有相似的性质，比如块效应，振铃效应，模糊等。

为了联合利用局部信息和全局信息的优势，本发明提供的一种采用混合的卷积神经网络视频编码环路滤波方法，如图1所示，滤波器整体包括两个卷积神经网络支路，一个外部连接，图中左边的多层网络分支为基于全局表征的卷积神经网络滤波器，图中连接线表示将重建帧与输出残差相加，拼接线表示将两个尺度相同的特征在通道维度上拼接在一起，图中右边的多层网络是基于局部编码失真的卷积神经网络滤波器，在两个分支的上方和下方的两个卷积层是两个分支共享特征参数的卷积层。

如图2所示，为了提取全局表征信息，并用来对重建图像进行去噪。本发明在整个网络的左分支构建了一个UNET类型的卷积神经网络。左分支包括4层尺度下降操作，4层尺度上升操作，当然尺度下降或上升的操作可以为4层，也可以是3层、5层等，层数可以选择，一般在10层以内。具体来说，每层尺度下降包括一个池化层，这个池化层的目的是为了扩大感受野，得到更多的全局信息。池化层采用长宽为2的最大值池化，每一次池化操作会将特征的尺寸下降一半，并把特征的通道数目扩展到原来的一倍。每个尺度上升层包括一个上采样层，上采样层是为了得到更多的像素级信息。每个上采样层会将特征的尺寸扩张一倍，通道数目下降一半。然后将尺度相同的上采样层与下采样层串联在一起，通过卷积来融合两个层的信息。

在上采样操作和下采样操作中，每个最大值池化或者上采样后面都添加两层卷积层，这两层卷积层用来提取池化或者上采样之后的特征。卷积层采用尺寸为3x3的卷积核，第一个卷积层的通道数是64，之后在尺度下降时，通道扩张为原来的一倍，尺度上升时，通道下降为原来的一半。另外，本发明使用ReLU作为激活函数，并且为了加快训练速度，在每一层中使用了批量归一化操作。

重建的视频帧经过了视频编码的一系列固定的流程操作，会产生噪声，这些噪声具有相似的特性。在某种程度上，由于基于块的编码框架以及像素级的编码，这样产生的编码失真是局部的。如图3所示，为了让卷积神经网络学习到局部的编码失真的规律并进行滤波，本发明堆叠了多个卷积层，而且没有使用池化层。这是整个网络的右分支。具体地说，本发明使用了20层卷积层，每个卷积层的卷积核的尺寸是3x3，卷积核的个数是64。与基于全局表征的卷积神经网络类似，本发明使用ReLU作为激活函数，而且在激活函数之前加入了批量归一化以利于模型的训练。基于局部编码失真的卷积神经网络更加关注于由视频编码中固定步骤而带来的具有相似性质的局部失真，而不是全局的图像表征。

为了将基于全局表征的卷积神经网络滤波器与基于局部编码失真的卷积网络滤波器相融合，采用图1所示的混合融合模型框架。为了减少复杂度，左边分支与右边分支的前两个卷积层是是相同的，两个分支共享这两个卷积层的特征参数。另外，最后两层卷积也由两个分支共享。

采用本发明构建的混合卷积神经网络，将没有经过滤波的重建帧作为输入，记为X。X首先被两层两个支路共享的卷积层f1(.)处理，初步提取特征X1。

X1＝f1(X) (1)

随后初步提取的特征X1被左分支L(.)与右分支R(.)分别处理。

X_l＝L(X1) (2)

X_r＝R(X1) (3)

经过两个分支处理产生的特征X_l、X_r被拼接Cat(.)在一起，被最后两个卷积层f2(.)处理，融合两个支路的特征,得到残差R_e，用于恢复失真。

R_e＝f2(Cat(X_l,X_r)) (4)

最后将输入的重建图像与残差R_e相加，产生滤波输出。

表1本发明方法与其他相似方法在HEVC上全帧内编码模式的编码效果对比

通过卷积将两个支路融合，形成整体的网络，如表1所示，实验证明了本发明方法优于目前传统方法，与HEVC相比，在全帧内编码模式下带来了11.26％的BD-rate节省。

Claims

1.一种混合卷积神经网络视频编码环路滤波方法，其特征在于，包括以下步骤：

步骤1：构建全局表征的卷积神经网络

使用ReLU作为激活函数，在每一层中使用了批量归一化操作；

步骤2：构建局部编码失真的卷积神经网络

步骤3：局部编码失真与全局表征的融合

步骤4：采用构建的混合卷积神经网络产生滤波输出

X1＝f1(X) (1)

X_l＝L(X1) (2)

X_r＝R(X1) (3)

R_e＝f2(Cat(X_l,X_r)) (4)

2.根据权利要求1所述的一种混合卷积神经网络视频编码环路滤波方法，其特征在于，在步骤1中，所述尺度下降操作的层数为3～10之间。