CN112261414B

CN112261414B - 一种以注意力机制融合单元划分的视频编码卷积滤波方法

Info

Publication number: CN112261414B
Application number: CN202011030882.8A
Authority: CN
Inventors: 高艳博; 贾梦虎; 李帅; 岳建
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-06-29
Anticipated expiration: 2040-09-27
Also published as: CN112261414A

Abstract

本发明公开一种以注意力机制融合单元划分的视频编码卷积滤波方法，对构建的编码单元划分结构图进行不同尺度的降采样，并提取不同尺度感受野的特征信息，再将各特征信息融合起来，经过多层卷积神经网络层处理；将重建图像经过深层的卷积神经网络进行特征提取处理；再将编码单元划分结构的特征图作为权值基于像素加权到重建图像生成的特征图上，让网络更加关注感兴趣区域；最后经过多层卷积层处理，得到最终的残差图像，再加上输入的重建图像，得到恢复的重建图像。本发明利用一个多尺度网络充分提取编码单元结构特征信息，并将编码单元划分结构有效的和重建图像特征相融合，引导图像质量恢复过程，从而提升重建图像质量和编码效率。

Description

一种以注意力机制融合单元划分的视频编码卷积滤波方法

技术领域

本发明涉及视频编码技术领域，具体为一种以注意力机制融合单元划分的视频编码卷积滤波方法。

背景技术

随着视频编码技术的进步，人们提出了许多视频编码标准，如AVC(AdvancedVideo Coding高级视频编码)、HEVC(High Efficiency Video Coding高效率视频编码)和最新的VVC(Versatile Video Coding多功能视频编码)。相比于上一代的标准，在相同的图像质量下，每个新标准的比特率都降低了50％。这些标准，包括最新的VVC，都是基于块编码的。首先，将一帧图像分成相同大小的编码树单元，然后根据率失真优化进一步划分为合适大小的编码单元。在编码单元的基础上，通过帧内预测或帧间预测得到预测单元块。接着从原始块中减去预测块，得到残差块。最后对残差块进行变换和量化，采用熵编码对所有参数进行二进制编码。然而，基于块的编码技术和量化导致的频率信息缺失会引起块效应、模糊效应和振铃效应等伪影。这些伪影严重降低了视频质量，降低了观看效果。为了消除这些伪影，人们提出了环路滤波技术。HEVC使用去块滤波器(DBF)[见文献1：A.Norkin et al.,"HEVC Deblocking Filter,"in IEEE Transactions on Circuits and Systems forVideo Technology,vol.22,no.12,pp.1746-1754,Dec.2012.]和样本自适应补偿滤波器(SAO)[见文献2：C.Fu et al.,"Sample Adaptive Offset in the HEVC Standard,"inIEEE Transactions on Circuits and Systems for Video Technology,vol.22,no.12,pp.1755-1764,Dec.2012.]，VVC额外增加了自适应环路滤波器(ALF)[见文献3：C.Tsai etal.,"Adaptive Loop Filtering for Video Coding,"in IEEE Journal of SelectedTopics in Signal Processing,vol.7,no.6,pp.934-945,Dec.2013.]。去块滤波器通过平滑编码单元边界来消除基于块的编码技术引起的块效应。样本自适应补偿滤波器通过像素补偿消除高频交流系数量化失真引起的振铃效应。自适应环路滤波器的目标是最小化块的均方误差，作为一个附加滤波器，进一步提高图像质量。这些滤波器虽然大大提高了图像质量，但仍不能满足人们对图像质量的要求。此外，样本自适应补偿滤波器和自适应环路滤波器将向解码器发送额外的信息，增加了信号开销，不利于视频传输。

近年来，深度学习在许多领域取得了巨大的成就。卷积神经网络在其中发挥了重要作用。由于在图像处理方面卷积神经网络具有天然的优势，尤其在降噪等领域显示出巨大的潜力，因此基于卷积神经网络的环内滤波器的研究十分广泛。为了更针对性的训练神经网络，人们除了输入重建图像，还将一些诸如编码单元划分模式，量化参数等信息作为先验信息输入网络来指导图像恢复。

在VVC中，为了更准确的预测图像，引入了多叉树划分技术，即将HEVC中的四叉树划分修改为多叉树划分，使得编码单元划分结构更加符合图像的实际分布。因此，可以利用编码单元划分模式作为先验信息来引导提高图像质量。但以往的方案大多只构造一个与输入图像大小相同的编码单元划分图，直接将两种信息连接起来，或者简单地经过卷积处理后进行拼接，这样的操作并不能有效的融合两种模态的信息。

现有文献4[Kang,J.,Kim,S.,&Lee,K.M.(2017).Multi-modal/multi-scaleconvolutional neural network based in-loop filter design for next generationvideo codec.2017 IEEE International Conference on Image Processing(ICIP),26-30.]中提出了几种编码单元划分结构输入网络形式以及和重建图像融合的方式，并通过实验对比这些方案的好坏。文中提出编码单元结构图的两种构造形式，一种使用编码单元内所有像素的均值作为编码单元内的值，一种是将边界像素设置为1，非编码单元边界的像素设置为0，同时提出了三种编码单元结构和重建图像特征融合方式，一是分别经过卷积神经网络处理后基于像素相加，二是直接基于通道拼接起来，三是分别经过卷积神经网络处理后基于通道拼接起来。虽然文中提出了这些方案并得到了一些较好的结果，但并没有考虑到编码单元结构和重建图像作为两种模态信息，简单拼接很难充分融合特征。

现有文献5[Dong,C.,Deng,Y.,Loy,C.C.,&Tang,X.(2015).CompressionArtifacts Reduction by a Deep Convolutional Network.2015 IEEE InternationalConference on Computer Vision(ICCV),576-584.]中提出了一种基于注意力的多尺度模型，也利用了编码单元划分结构对图像恢复的先验信息，同时构造了两个不同尺度的模型，输出一个基于大尺度的全局信息的恢复图像和一个基于小尺度的细节信息的恢复图像，最后综合两个输出图像得到最终的重建图像。然而这个网络结构过于复杂，并不利于训练。虽然考虑了编码单元划分结构对网络恢复过程的引导作用，但并未充分提取编码单元划分结构的信息，因此还有不足之处。

现存的方案中，可以分为两类，一类是不加先验信息，直接输入重建图像的网络结构。如以下文献：

文献6[Dong,C.,Deng,Y.,Loy,C.C.,&Tang,X.(2015).Compression ArtifactsReduction by a Deep Convolutional Network.2015 IEEE International Conferenceon Computer Vision(ICCV),576-584]中率先提出将卷积神经网络用于视频编码的环内滤波器部分，简单的多层卷积层结构实现了远远大于传统算法滤波器的效果。

文献7[Zhang,Yongbing,Tao Shen,Xiangyang Ji,Yun Zhang,Ruiqin Xiong andQionghai Dai.“Residual Highway Convolutional Neural Networks for in-loopFiltering in HEVC.”IEEE Transactions on Image Processing 27(2018):3827-3841中提出了一种深层残差网络结构,通过深层的卷积层来充分提取图像特征和恢复图像。残差结构则有利于网络训练。

文献8[Ding,Dandan,Lingyi Kong,Guantao Chen,Zoe Liu and Yong Fang.“ASwitchable Deep Learning Approach for In-Loop Filtering in Video Coding.”IEEETransactions on Circuits and Systems for Video Technology 30(2020):1871-1887]中提出了一种基于通道注意力的加权结构网络，通过对不同的通道自适应加权，使网络聚焦于对图像恢复贡献度最大的图像特征。

文献9[Huang,Z.,Li,Y.,&Sun,J.(2020).Multi-Gradient ConvolutionalNeural Network Based In-Loop Filter For Vvc.2020 IEEE InternationalConference on Multimedia and Expo(ICME),1-6]中利用了输入图像的散度和二阶导数的特征信息，在图像恢复过程中，通过输入图像的散度和二阶导数的特征信息，提供输入图像更多的细节特征，有利于提升图像质量。然而上面这些方案虽然从各种角度来提升视频质量，但并没有利用到重建图像的各种先验信息，基于块的视频编码技术会导致重建图像不同编码单元性质不同，特征不同，因此加入额外的先验信息指导网络恢复图像很有意义。

另一类方案则是加入先验信息，指导网络恢复图像的结构。常见的先验信息一般有编码单元划分模式，量化参数等信息。前文提到的文献4中将编码单元划分结构和重建图像同时输入网络进行恢复图像，通过将两者信息直接拼接起来，再通过卷积神经网络处理得到最终的重建图像，取得了较好的结果。文献5中除了加入编码单元划分结构信息外，还设计了一个多尺度网络模型用来融合全局特征信息和局部细节特征信息。上面这些方案虽然注意到了一些先验信息对图像恢复的指导作用，但还有许多不足之处，大部分方案直接将编码单元划分结构和和重建图像直接堆叠起来输入网络，虽然有一定的效果，但并没有注意到这两种信息属于不同模态的信息，直接拼接并不有效。一些方案即使注意到了两种模态的区别，并做了多模态融合处理，但对于两种模态的特征提取并不完善，导致最终的融合效果并非最佳。

术语解释：

注意力：选择性的聚焦于图像感兴趣部分，而忽略其他不相关的信息。

多模态：不属于同一种类型的信息，例如声音与图像。

编码单元：视频编码过程中的基本编码预测块。

编码单元划分模式：视频编码中为了有利于编码，将图像划分为编码单元，即划分的结构。

卷积神经网络：一类包含卷积计算且具有深度结构的前馈神经网络，具有表征学习能力。

视频编码：通过压缩技术，将一种视频格式，转换成另一种更有利于传输存储的视频格式的过程。

环内滤波器：为了减少重建图像的编码失真而采用的图像滤波方法，HEVC包含有去块滤波器，样本自适应补偿滤波器，VVC额外加入了自适应环路滤波器。

BD-rate：视频编码中对比算法优劣的常用方法，通过对比多个采样点的PSNR与码率，对多个采样点进行曲线拟合。得到两个算法的编码效率差异。

发明内容

针对上述问题，本发明的目的在于提供一种以注意力机制融合单元划分的视频编码卷积滤波方法，利用一个多尺度网络充分提取编码单元划分结构特征信息，并将编码单元划分结构有效的和重建图像特征相融合，引导图像质量恢复过程，从而提升重建图像质量和编码效率。技术方案如下：

一种以注意力机制融合单元划分的视频编码卷积滤波方法，包括以下步骤：

步骤1：构建编码单元划分结构图，对编码单元划分结构图进行不同尺度的降采样，分别使用多层卷积神经网络提取不同尺度感受野的特征信息，再将提取到的不同尺度感受野的特征信息融合起来，经过多层卷积神经网络层处理，得到编码单元划分结构图的特征图；

步骤2：将重建图像经过深层的卷积神经网络进行特征提取处理，得到重建图像生成的特征图；

步骤3：将步骤1中生成的编码单元划分结构的特征图作为权值基于像素加权到步骤2中重建图像生成的特征图上，使网络更加关注感兴趣区域；

步骤4：两种模态特征信息通过注意力机制融合后，经过多层卷积层处理，得到最终的残差图像，再加上输入的重建图像，最后得到恢复的重建图像。

进一步的，所述编码单元划分图的编码单元边界处的像素值设置为2，宽度为2，非边界处的像素值设置为1。

更进一步的，所述步骤1中不同尺度感受野的特征信息表示如下：

原始尺度分支公式表达如下：

X_org＝X_cu (1)

Y_org＝F_K(X_org) (2)

二分之一尺度分支公式表达如下：

X_half＝Pool₂(X_cu) (3)

Y_half＝F_K(X_half) (4)

四分之一尺度分支公式表达如下：

X_quarter＝Pool₄(X_cu) (5)

Y_quarter＝F_K(X_quarter) (6)

其中，Pool₂()和Pool₄()表示通过池化操作分别下采样至二分之一尺度和四分之一尺度；X_org和Y_org表示原始尺度分支的编码单元划分结构图及特征信息；X_cu表示输入的编码单元划分结构图；F_K()表示K层的卷积操作；X_half和Y_half表示二分之一尺度分支的编码单元划分结构图及特征信息；X_quarter和Y_quarter表示四分之一尺度分支的编码单元划分结构图及特征信息；

输入的编码单元划分结构图的特征图表示如下：

Y_cu＝F₃([Y_org,Y_half,Y_quarter]) (7)

其中，F₃()表示3层的卷积操作；

所述步骤2中重建图像生成的特征图Y_reco表示为：

Y_reco＝W_M*F_M-1(X_reco)+B_M (8)

其中，X_reco表示输入的重建图像；W_M表示第M层卷积的权值系数；B_M表示第M层卷积的偏置；F_M-1()表示M-1层的卷积操作；

所述步骤3中加权公式表示为：

Y_W＝Y_reco·Y_cu (9)

其中，Y_W为加权后的图像的特征图；·表示基于像素的点乘；

所述步骤4中最终的残差图像Y_resi和恢复的重建图像Y表示为：

其中，W_K表示第K层卷积的权值系数；B_K表示第K层卷积的偏置。

本发明的有益效果是：

(1)本发明提出编码单元划分结构与重建图像作为两种模态信息，以注意力机制结合编码单元划分结构的多模态融合神经网络结构；充分融合两种模态信息特征，更有利于编码单元划分结构指导重建图像恢复。

(2)本发明的编码单元划分结构图通过一个网络分支生成的特征映射同时在空域和通道上对输入图像的特征进行基于像素的加权，使得网络对于恢复图像质量至关重要的信息给予更多的注意力；该方法能有效地融合编码单元划分树结构和重建图像的特征信息。

(3)为了更有效的提取编码单元划分结构图的特征，本发明使用了多尺度特征提取结构，通过不同尺度网络来提取不同大小尺度的编码单元划分模式特征，扩大感受野，使得最终的码单元划分模式特征同时具有局部特征和全局特征。

(4)为了更好的训练网络，本发明使用了局部残差结构和全局的残差结构；实验证明，本发明提出的方法在VVC中取得了很好的表现。

附图说明

图1为本发明基于注意力机制的多模态特征信息融合的卷积神经网络模型。

图2为图1中残差卷积单元的具体结构。

图3中(a)为重建图像；(b)为重建图像对应的编码单元划分结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

当前的视频编码技术，在量化阶段都会存在损失，因此在重建图像后，加入了环内滤波器对重建图像进行处理，提高图像质量。常见的环内滤波器有去块滤波器，样本自适应偏移滤波器，自适应环路滤波器等。这些基于传统算法的滤波器虽然有一定的效果，但远远不能满足人们对视频质量的需求。鉴于卷积神经网络对图像处理的优点，本发明提出一种卷积神经网络结构用来代替传统滤波器，并实现了很好的滤波结果。

不管HEVC，还是最新的VVC，使用的基于块的视频编码技术，以及量化过程的信息损失都会造成严重影响视频质量的伪影。考虑到编码单元划分结构可以对图像恢复提供指导作用，因此本发明提出一种以注意力机制结合编码单元划分结构的多模态融合网络，充分融合编码单元划分树和重建图像两种模态特征信息，并利用多尺度结构充分挖掘提取编码单元划分结构的特征信息。网络结构如图1所示。方法详细步骤如下：

步骤1：构建编码单元划分结构图，对编码单元划分结构图进行不同尺度的降采样，分别使用多层卷积神经网络提取不同尺度感受野的特征信息，将提取到的不同尺度感受野的特征信息融合起来，经过多层卷积神经网络层处理，得到编码单元划分结构图的特征图。

为了更方便的将编码单元划分树输入网络，本发明构建了一种编码单元划分图。将编码单元边界处的像素值设置为2，宽度为2，非边界处的像素值设置为1。为了生成可以加权到重建图像特征信息上的权值，本发明将编码单元划分图输入图1中的多尺度分支，即首先经过不同尺度的降采样后，分别使用多层卷积神经网络提取不同感受野的特征信息。原始尺度分支公式表达如下：

X_org＝X_cu (11)

Y_org＝F_K(X_org) (12)

二分之一尺度分支公式表达如下：

X_half＝Pool₂(X_cu) (13)

Y_half＝F_K(X_half) (14)

四分之一尺度分支公式表达如下：

X_quarter＝Pool₄(X_cu) (15)

Y_quarter＝F_K(X_quarter) (16)

其中，Pool₂()和Pool₄()表示通过池化操作分别下采样至二分之一尺度和四分之一尺度；X_org和Y_org表示原始尺度分支的编码单元划分结构图及特征信息；X_cu表示输入的编码单元划分结构图；F_K()表示K层的卷积操作；X_half和Y_half表示二分之一尺度分支的编码单元划分结构图及特征信息；X_quarter和Y_quarter表示四分之一尺度分支的编码单元划分结构图及特征信息。

最后将不同尺度特征信息融合起来，最后经过多层卷积神经网络层处理。可用公式表达如下式：

Y_cu＝F₃([Y_org,Y_half,Y_quarter]) (17)

步骤2：将重建图像经过深层的卷积神经网络进行特征提取处理，得到重建图像生成的特征图。

如图1深层卷积层分支所示，重建图像经过深层的卷积神经网络进行特征提取处理，得到特征信息。可用公式表达为下式：

Y_reco＝W_M*F_M-1(X_reco)+B_M (18)

其中，X_reco表示输入的重建图像；W_M表示第M层卷积的权值系数；B_M表示第M层卷积的偏置；F_M-1()表示M-1层的卷积操作。

步骤3：基于注意力机制的多模态信息融合方法：

为了将两种模态的信息充分融合，本发明采用了注意力机制的方案。首先经过步骤1描述的方法，生成编码单元划分结构的特征图，将这些特征图作为权值基于像素加权到步骤2中重建图像生成的特征图上，使网络更加关注感兴趣区域，即对恢复图像有重要贡献的区域。加权公式表达如下式：

Y_W＝Y_reco·Y_cu (19)

其中，Y_W为加权后的图像的特征图；·表示基于像素的点乘。

两种模态特征信息通过注意力机制融合后，经过多层卷积层处理，得到最终的残差图像，加上输入图像，得到恢复的重建图像。具体公式可表达如下：

表1本发明与其他方案的实验结果对比(基于VTM，全帧内模式)

本发明提出了一种以注意力机制融合单元划分的视频编码卷积滤波方法，针对视频编码中基于块的编码技术，使用编码单元划分树作为先验信息输入网络指导重建图像恢复。为了充分提取编码单元划分特征信息，使用多尺度网络来扩大感受野，同时提取全局特征信息和局部细节特征信息，更有利于指导图像恢复。同时提出了编码单元划分结构与重建图像属于两种不同模态的信息，通过使用注意力机制，基于像素加权能更有效的融合两种模态信息。如表1所示，实验证明了本发明提出的方法有很好的效果，相对于VVC中传统滤波器，有着4.93％的BD-Rate减少。其中，文献10：Y.Li Y.Dai,D.Liu and F.Wu,“CNN-Basedin-Loop Filter Proposed by USTC,”in document Rep.JVETM0510,Marrakech,MA,USA,Jan.2019。文献11：K.Kei and N.Sei,“A Result of Convolutional Neural NetworkFilter,”in document Rep.JVET-M0872,Marrakech,MA,USA,Jan.2019。文献12：Y.LiL.Zhao S.Liu Y.Wang,Z.Chen and X.Li,“Test Results of Dense ResidualConvolutional Neural Network Based in-Loop Filter,”in document Rep.JVETM0508,Marrakech,MA,USA,Jan.2019。

Claims

1.一种以注意力机制融合单元划分的视频编码卷积滤波方法，其特征在于，包括以下步骤：

步骤3：两种模态特征信息通过注意力机制融合：将步骤1中生成的编码单元划分结构的特征图作为权值基于像素加权到步骤2中重建图像生成的特征图上，使网络更加关注感兴趣区域；

步骤4：经过多层卷积层处理，得到最终的残差图像，再加上输入的重建图像，最后得到恢复的重建图像；

所述步骤1中不同尺度感受野的特征信息表示如下：

原始尺度分支公式表达如下：

X_org＝X_cu (1)

Y_org＝F_K(X_org) (2)

二分之一尺度分支公式表达如下：

X_half＝Pool₂(X_cu) (3)

Y_half＝F_K(X_half) (4)

四分之一尺度分支公式表达如下：

X_quarter＝Pool₄(X_cu) (5)

Y_quarter＝F_K(X_quarter) (6)

输入的编码单元划分结构图的特征图表示如下：

Y_cu＝F₃([Y_org,Y_half,Y_quarter]) (7)

其中，F₃()表示3层的卷积操作；

所述步骤2中重建图像生成的特征图Y_reco表示为：

Y_reco＝W_M*F_M-1(X_reco)+B_M (8)

所述步骤3中加权公式表示为：

Y_W＝Y_reco·Y_cu (9)

2.根据权利要求1所述的以注意力机制融合单元划分的视频编码卷积滤波方法，其特征在于，所述编码单元划分结构图的编码单元边界处的像素值设置为2，宽度为2，非边界处的像素值设置为1。