CN112243132A

CN112243132A - 结合非局部先验与注意力机制的压缩视频后处理方法

Info

Publication number: CN112243132A
Application number: CN201910652802.3A
Authority: CN
Inventors: 何小海; 王文君; 任超; 雷佳佳; 吴晓红; 熊淑华; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2021-01-19

Abstract

本发明公开了一种结合非局部先验与注意力机制的压缩视频后处理方法。本发明将输入的经HEVC有损压缩后的视频帧序列的连续三帧作为一组，利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法，来抑制中间帧的压缩效应，得到初步处理后的视频帧序列；构建了一种基于通道注意力机制的卷积神经网络，用来对初步处理后的视频帧序列进行高频补偿和修正。本发明所述的方法能获得很好的主客观效果，是一种有效的压缩视频后处理方法。

Description

结合非局部先验与注意力机制的压缩视频后处理方法

技术领域

本发明涉及压缩视频后处理技术，具体涉及一种结合非局部先验与注意力机制的压缩视频后处理方法，属于数字图像领域。

背景技术

HEVC是目前国际上现今性能较为优越的视频编码标准，包括有损压缩和无损压缩两种编码方式，其中，有损压缩相比无损压缩具有更好的压缩效率，能够节省更多的视频传输与存储的开销。然而有损编码不可避免地会使压缩视频帧失真，出现压缩效应(块效应、振铃现象)。压缩效应的存在严重影响了解码视频帧的质量。虽然HEVC编码标准在制定时已经在解码端设计了环路滤波器来解决压缩失真问题，但是在解码视频中仍然存在一些压缩效应。特别是在低码率段压缩效应更为严重。因此十分有必要研究针对压缩视频质量提升的方法。

发明内容

本发明的目的在于为进一步提升HEVC解码后视频的质量，减少压缩效应对视觉效果的影响，而提供一种结合非局部先验与注意力机制的压缩视频后处理方法。方法首先将视频帧内和帧间的互补信息充分利用到视频帧质量提升的过程中，除视频自身内部信息外，提出的方法还利用外部数据库中的高频信息，为视频帧补充高频信息，使处理后的视频细节更加丰富，边缘更加清晰，得到复原质量更好的视频帧。

本发明提出的一种结合非局部先验与注意力机制的压缩视频后处理方法，具体可以分为以下几个步骤：

(1)输入经HEVC有损压缩后的视频帧序列，将连续三帧作为一组，利用以多幅非局部低秩正则化(Multi Non-Local Regularization,MNLR)作为先验项的贝叶斯最大后验概率估计方法，来抑制中间帧的压缩效应，得到初步处理后的视频帧序列；

(2)构建一种基于通道注意力机制的卷积神经网络，利用(1)中以MNLR作为先验项的贝叶斯最大后验概率估计方法处理的数据集和原始的未经压缩的数据集作为样本对来训练网络；

(3)将(1)得到的视频帧序列输入(2)中训练出的网络来进行高频修正和补偿。

附图说明

图1是结合非局部先验与注意力机制的压缩视频后处理方法结构示意图

图2是通道注意残差模块结构示意图

图3是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP＝38的压缩视频“RaceHorses”进行后处理的对比图

图4是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP＝38的压缩视频“BasketballPass”进行后处理的对比图

图5是本发明与四种方法对经过HEVC编码标准压缩后量化参数QP＝38的压缩视频“BQMall”进行后处理的对比图

具体实施方式

下面结合附图对本发明作进一步说明：

结合非局部先验与注意力机制的压缩视频后处理方法，具体可以分为以下几个步骤：

(1)输入经HEVC有损压缩后的视频帧序列，将连续三帧作为一组，利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法，来抑制中间帧的压缩效应，得到初步处理后的视频帧序列；

具体地，所述步骤(1)中，利用多幅非局部低秩正则化MNLR作为贝叶斯最大后验概率估计的先验项，其原理如图1所示，用公式表示为：

式中，F＝{f₁,f₂,...,f_n}表示压缩后视频帧Y＝{y₁,y₂,...,y_n}表示原始的视频帧，n表示待重建的视频帧数。β和μ均为正则化参数。

假设P_k,r为待估计视频帧f_k中以像素r为中心、尺寸为n×n的图像块，S_k,rF表示从f_k，f_k-1和f_k+1中进行相似块搜索时提取的P_k,r的相似块构成的矩阵，Z_k,r代表低秩矩阵。由于求解

是一个NP-hard问题，可以用下式等效：

式中，δ为一个较小的常数，E为单位矩阵。

最终的求解公式可以用公式表示为：

我们使用Split-Bregman迭代方法来分解这个公式得：

两个公式的解分别为：

式中，

(t)₊＝max(t,0)，

代表

的第l个奇异值，对S_k,rFⁿ进行奇异值分解即可得到U∑V^T。

所述步骤(2)中，基于通道注意力机制的卷积神经网络结构主要包括通道注意残差模块和全局残差。网络结构如图1所示，在输入之后和输出之前有一个长跳连接，实现全局残差学习，第1、2层为2个卷积层，并用PReLU函数激活，第3到42层为8个通道注意残差模块，每个模块包含5层，网络倒数第1层为卷积层，也用PReLU函数激活，最后1层为卷积层。

通道注意力机制主要包括维度紧缩、参数变换和权重分配三个阶段，其内部结构如图2所示。

首先通过全局平均池化操作，对空间维度进行紧缩，假设输入为I＝[i₁,i₂,...,i_c,...,i_C]，其大小为H×W，数量为C，则可得到C个参数，该过程用公式表示为：

式中，GP(·)代表全局平均池化，i_c(m,n)是(m,n)位置的第c个特征i_c。z＝[z₁,z₂,...,z_c,...,z_C]是能够描述输入的参数。

之后对这些参数进行进一步地变换，使参数能够尽可能地表示输入之间的关系。在参数变换部分，采用的变换方式用公式表示如下：

k＝O_f(O_Uρ(O_Dz)) (9)

式中，O_D代表卷积核尺寸为1×1的卷积层，其作用是自适应地调整z的值，并将1×1×C的系数衰减到1×1×C/b，b是大于1且能整除C的正整数，ρ代表激励函数PReLU，O_U代表自适应扩增，1×1×C/b的参数经过自适应扩增之后重新变为1×1×C、O_f代表激励函数sigmoid，最终经过参数变换后得到的参数k＝[k₁,k₂,...,k_c,...,k_C]，用于对输入i_c进行加权，用公式表示为：

式中，k_c为加权参数，i_c为第c个通道的特征。

如图2所示，结合通道注意力机制和残差思想即可得到通道注意力残差模块，采用跳连接的残差学习方式一方面能够加速收敛，另一方面能够使网络更好地挖掘高低分辨率样本之间的映射关系。通道注意残差模块可以用公式表示为：

x_i+1＝x_i+k^TI (11)

式中，其中，x_i是输入第i个通道注意残差模块的特征，x_i+1是输出特征，I是对x_i进一步特征提取得到的特征，k是经过通道注意操作得到的特征权重。

所述步骤(3)中，将(1)得到的视频帧序列输入(2)中训练出的网络来进行高频修正和补偿。

为了更好地说明本发明的有效性，本发明选取3个测试视频进行实验，分别为视频“RaceHorses”、视频“BasketballPass”和视频“BQMall”。HEVC版本为HM 16.0，编码模式为IPPP。进行实验的质量参数QP为26、29、32、35、38、41、44和47。对比方法为四种压缩视频后处理方法。实验结果如图3，图4和图5所示，(a)表示原图，(b)～(f)分别HEVC压缩处理结果以及方法1到方法4这五种对比方法，(g)表示本发明的结果。

这四种压缩视频后处理方法分别为：

方法1：Dong C等人提出的方法，参考文献“Dong C,Deng Y,Change Loy C,et al,“Compression artifacts reduction by a deep convolutional network,”IEEEInternational Conference on Computer Vision,2015:576-584.”

方法2：Dai Y等人提出的方法，参考文献“Dai Y,Liu D,Wu F,“A convolutionalneural network approach for post-processing in HEVC intra coding”International Conference on Multimedia Modeling,2017:28-39.”

方法3：Li F等人提出的方法，参考文献“Li F,Tan W,Yan B,“Deep residualnetwork for enhancing quality of the decoded intra frames of HEVC”IEEEInternational Conference on Image Processing,2018:3918-3922.”

方法4：陈娣等人提出方法，参考文献“陈娣，超分辨率重建及其在视频压缩编码中的应用，”四川大学，2017.”

对比实验的内容如下：

实验1，分别用方法1到方法4以及本发明对压缩视频“RaceHorses”进行后处理，选取其中一帧作为对比，原始视频如图3(a)所示，压缩后的视频如图3(b)所示，压缩视频后处理结果分别如图3(c)到图3(g)所示。

实验2，分别用方法1到方法4以及本发明对压缩视频“BasketballPass”进行后处理，选取其中一帧作为对比。原始视频如图4(a)所示，压缩后的视频如图4(b)所示，压缩视频后处理结果分别如图4(c)到图4(g)所示。

实验3，分别用方法1到方法4以及本发明对压缩视频“BQMall”进行后处理，选取其中一帧作为对比。原始视频如图5(a)所示，压缩后的视频如图5(b)所示，压缩视频后处理结果分别如图5(c)到图5(g)所示。

从3组实验中可以看出：在图3中，经过HEVC压缩后视频帧中放大的缰绳区域的边缘存在不平整的问题，经过不同后处理方法处理后，缰绳边缘处的草坪都存在一定程度的平滑。与其余对比方法相比，经过本文明处理方法处理后，缰绳边缘的准确程度有所提升。图4中，运动衣上的数字11部分，经过HEVC压缩后存在一定的拖尾现象，在经过不同后处理方法后，拖尾程度都有所减轻，但经过发明处理方法后，数字部分的拖尾基本消除，数字的边缘也更为清晰。图5中，裤子的边缘部分经过HEVC压缩后块效应严重，使原本平滑的裤子边缘呈现锯齿状，相比其他后处理方法，经过发明方法处理后，裤子边缘更加平整。在无噪声的情况下，对比方法都能恢复一定的高频信息，但是在边缘或者平坦区域容易出现一些不好的人工效应，例如振铃，锯齿或者是过度平滑等。但是本发明重建出来的结果细节信息更丰富，视觉效果更好，产生的人工效应也比较少。

为了客观的评价本发明的有效性，以峰值信噪比(PSNR：Peak Signal to NoiseRatio，单位：dB)和结构相似度(SSIM：Structure Similarity Index)作为客观评价评价标准。

表一展示了在不同编码量化参数QP下，用不同后处理方法处理3组视频后得到的平均PSNR/SSIM。能够发现本发明方法的实验结果确实获得了最好的客观参数。本发明方法相比于次好方法3，PSNR平均提升0.1dB左右，最高提升0.25dB。SSIM方面也有一定提升，在部分视频序列的部分QP上，本发明方法相较方法3，SSIM有所降低，但差距并不是很大。

综上所述，本发明确实在主客观上都有很好的效果，是一种有效的压缩视频后处理方法。

表一

Claims

1.结合非局部先验与注意力机制的压缩视频后处理方法，其特征在于包括以下步骤：

步骤一：输入经HEVC有损压缩后的视频帧序列，将连续三帧作为一组，利用以多幅非局部低秩正则化MNLR作为先验项的贝叶斯最大后验概率估计方法，来抑制中间帧的压缩效应，得到初步处理后的视频帧序列；

步骤二：构建一种基于通道注意力机制的卷积神经网络，利用步骤一中以MNLR作为先验项的贝叶斯最大后验概率估计方法处理的数据集和原始的未经压缩的数据集作为样本对来训练网络；

步骤三：将步骤一得到的视频帧序列输入步骤二中训练出的网络来进行高频修正和补偿。

2.根据权利要求1所述的结合非局部先验与注意力机制的压缩视频后处理方法，其特征在于步骤二中所述，用来完成对步骤一中初步处理后的视频帧序列进行高频修正和补偿任务的基于通道注意力机制的卷积神经网络。

3.根据权利要求1所述的结合非局部先验与注意力机制的压缩视频后处理方法，其特征在于步骤三中所述，级联以MNLR作为先验项的贝叶斯最大后验概率估计方法，以及基于通道注意力机制的卷积神经网络来对压缩视频进行质量提升。