CN111866521B

CN111866521B - 一种视频图像压缩伪影去除方法

Info

Publication number: CN111866521B
Application number: CN202010657003.8A
Authority: CN
Inventors: 陈卫刚; 盛浩杰
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-04-01
Anticipated expiration: 2040-07-09
Also published as: CN111866521A

Abstract

本发明公开了一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，基于运动补偿，以与当前解码帧间隔最小的帧内编码帧为参考图像，采用图像块扫描的形式处理当前解码帧从而形成一幅运动补偿图像；以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像，将当前解码帧图像、运动补偿图像和预测图像堆叠成一个三阶张量作为后续用于图像融合的深度卷积神经网络的输入，由深度卷积神经网络映射产生比当前解码图像具有更好视觉质量的输出图像，即去除压缩伪影后的图像。

Description

一种视频图像压缩伪影去除方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。

背景技术

有损图像或视频压缩中的量化运算是一个多对一的映射过程，在低码率编码时，解码端还原的图像与未经压缩的原始图像存在较大的差异。这种由于量化和反量化操作所引入的重建数据和原始数据之间的误差即为量化噪声，在解码图像或视频中将表现为块状、环状等伪影。

在解码端采用后处理算法抑制量化噪声、提升解码图像或视频的视觉质量，因其实施方便、成本低廉受到业界的广泛关注。随着深度学习在基于图像的超分辨率分析、去噪等各个领域取得极大的成功，启发了人们将其应用于图像压缩伪影去除。Jae Woong Soh等人在期刊IEEE Access发表的论文“Reduction of Video Compression Artifacts Basedon Deep Temporal Networks”提出了一种包含三个分支的时域网络，实验表明相比于通常的伪影抑制网络，该网络能获得0.23dB的PSNR增益；Zhenyu Guan等人在期刊IEEETransactions on Pattern Analysis and Machine Intelligence发表的论文“MFQE 2.0:A New Approach for Multi-frame Quality Enhancement on Compressed Video”提出利用相邻的质量较好的帧来辅助质量较差的帧提升视觉质量，并且提出了一种基于双向长短时记忆网络的无参考图像视觉质量评估方法。

本发明提供一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，基于运动补偿，以与当前帧间隔最小的帧内编码帧为参考图像，采用块匹配运动估计算法形成一幅运动补偿图像；以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像，将上述两幅预测图像和当前解码图像堆叠成一个张量作为后续用于图像融合的深度卷积神经网络的输入，由该网络映射产生比当前解码图像具有更好视觉质量的输出。

发明内容

本发明目的在于针对现有技术的不足，提出一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。

本发明的目的是通过以下技术方案来实现的：一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，包括如下步骤：

(1)设I为HEVC编码视频的当前解码帧，I⁽⁰⁾和I⁽¹⁾分别为位于当前解码帧之前和之后的帧内编码帧，以间隔帧数为依据，在I⁽⁰⁾和I⁽¹⁾两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧，记作I^(r)，设B为I帧中一个大小为N×N的图像块，以差值绝对值之和SAD为目标函数，搜索具有最小目标函数值的匹配位置，记作(u₀,v₀)，在I^(r)图像中取左上角坐标为(m+u₀,n+v₀)、大小为N×N的图像块作为B在I^(r)中的最佳匹配块B^(r)：

其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标，(u,v)代表一个搜索位置，且-R≤u,v≤R，R代表预设的搜索范围；

(2)以图像块扫描的形式处理当前解码帧，将I帧中每一个N×N的块B在参考帧I^(r)中的最佳匹配块B^(r)拷贝到

中与B相同的位置，构建对应参考图像I^(r)且大小等于当前解码帧的运动补偿图像

(3)将I输入到一个经预先训练的生成式对抗网络GAN，所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D，由生成网络G输出对应I的预测图像

(4)I，

和

分别被当作一个二维矩阵，依次排列这些矩阵形成一个三阶张量输入到融合模块，经过融合模块的计算，输出对当前解码帧去除压缩伪影后的图像；所述融合模块为深度卷积神经网络，深度卷积神经网络的输入模块包含1个卷积层，该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配；除了输入模块之外的其它部分，融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。

进一步地，所述生成网络G的输入模块包括一个卷积层，待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后，输出大小与输入图像相等的特征图z₀；

所述生成网络G的残差模块接在输入模块之后，由N_b个依次相连的残差块组成，其中N_b为一个预设的常数，除第一残差块之外的任意第k个残差块，1＜k≤N_b，以第k-1个残差块的输出z_k-1为输入，经过第k个残差块内的各个层次将z_k-1映射为F(z_k-1)，最后以F(z_k-1)+z_k-1作为第k个残差块的输出；每个残差块包含两个卷积层和一个PReLU层，按数据前向传播时的流向，其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02；Conv_01层具有两倍于Conv_02层的卷积核数目，Conv_01的卷积核数目为48，Conv_02的卷积核数目为24；Conv_01层的卷积核大小为3×3×C₁，Conv_02层的卷积核大小为3×3×C₂，其中C₁的值等于Conv_02的卷积核数目，C₂的值等于Conv_01的卷积核数目，Conv_01层和Conv_02层的卷积步长均为1；

所述生成网络G的重建模块包括三个卷积层，其中的卷积层Conv_B01以最后一个残差块的输出

为输入，另一个卷积层Conv_B02以输入模块的输出z₀为输入，Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图，输入到卷积层Conv_B03，经卷积运算后输出预测图像

Conv_B01和Conv_B02层各包含16C_out个卷积核，其中C_out为输出图像的通道数；卷积层Conv_B01的卷积核大小为3×3×C₃，卷积层Conv_B02的卷积核大小为3×3×C₄，其中C₃和C₄分别为输入到对应卷积层的特征图的通道数目；卷积层Conv_B03包含C_out个大小为3×3×16C_out的卷积核；卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1；

所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层，该卷积层之后依次连接了四个结构相同的层次，每个层次中依次为卷积层、批量正则化层和LeakyReLu层，从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×C_p的卷积核，第一个层次C_p＝32，后续的各个层次，其C_p的值等于前一个层次的卷积核的数目，各个层次的卷积步长均为2；在上述四个层次之后，连接了两个全连接层和一个LeakyReLu层，按数据前向传播时的流向，依次为一个包含512个神经元的全连接层，LeakyReLu层和一个包含1个神经元的全连接层，最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。

进一步地，步骤(3)中，所述生成式对抗网络GAN的各个层次的参数以学习的方式确定，包括：

步骤3A、准备用于训练的图像：设Y为未经压缩编码的视频中的一帧，I为HEVC压缩视频解码后与Y对应的帧，用于训练生成网络的样本形如(x_i,y_i)，x_i∈R^H×W，y_i∈R^H×W分别为来自I和Y的图像块，且左上角点坐标相同，大小为H×W；用于训练判别网络的样本形如(x_i,c_i)，x_i∈R^H×W来自未经压缩编码的图像Y或者生成网络生成的图像，若x_i来自Y，则标签c_i＝1，否则c_i＝0；

步骤3B、预训练生成网络G：批量加载步骤3A所述用于训练生成网络的样本，对每一个样本(x_i,y_i)按下式计算损失函数：

其中G_θ(x)是输入x_i经生成网络映射后的输出，θ代表生成网络的参数集合；以最小化所有样本的损失函数累加和为目标，以Adam优化算法更新生成网络各层的参数；

步骤3C、训练判别网络D：根据步骤3A，由来自未经压缩编码的图像形成标签c_i＝1的样本，由来自生成网络产生的图像形成标签c_i＝0的样本，批量加载训练样本(x_i,c_i)，固定生成网络的参数，以最大化如下的函数为目标，更新判别网络各层的参数：

其中x_i～p_data代表从符合未经压缩编码图像分布的样本空间中采样的样本，E(.)代表数学期望，z～p_Gen代表从符合生成网络的输入样本分布的样本空间中采样的样本；步骤3C重复执行4次；

步骤3D、训练生成网络：批量加载步骤3A所述用于训练生成网络的样本，固定判别网络的参数，以最小化如下的函数为目标，更新生成网络各层的参数：

步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛，若是则结束训练，否则返回步骤3C。

进一步地，步骤(4)中，所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定，包括：

步骤4A、准备用于训练的图像：设Y为未经压缩编码的视频中的一帧，I为HEVC压缩视频解码后与Y对应的帧，根据步骤(1)和步骤(2)构建运动补偿图像

根据步骤(3)构建生成网络的预测图像

步骤4B、准备训练样本：设(x'_i,y'_i)为训练样本集的一个样本，若y'_i∈R^H×W为来自未压缩图像Y的图像块，且左上角点坐标为(m,n)，大小为H×W，则x'_i∈R^H×W×3是一个由3个图像块组成的三阶张量，所述三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像

和由生成网络生成的预测图像

每个图像块的大小均为H×W，左上角点位于各自对应图像的(m,n)位置；

步骤4C、训练：批量加载训练样本集中的样本，对每个训练样本(x'_i,y'_i)按下式计算损失函数：

其中

是输入x_i'经所述作为融合模块的深度卷积神经网络映射后的输出；以最小化训练集中所有样本的损失函数累加和为目标，以Adam优化算法更新深度卷积神经网络各层的权值。

进一步地，深度卷积神经网络的输入模块的卷积层具有N_i个大小为3×3×3的卷积核，其中N_i为一个预设的常数，卷积步长为1。

进一步地，所述当前解码帧为前向预测编码帧或双向预测编码帧。

本发明的有益效果在于，以运动补偿和生成式对抗网络预测的图像，通常包含比当前解码帧更多的高频分量，能有效地解决量化过程引入的高频分量丢失问题，从而有利于后续的融合模块产生具有更好视觉质量的输出。

附图说明

图1本发明的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法框架示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述，以便本领域技术人员更好地理解本发明的实质。

如图1所示，本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，可运行于解码端处理亮度或色度分量。本发明实施例提供的方法以运动补偿为基础，即假设以视频摄像机采集的连续图像，某一帧中的任意一个小块，可在其相邻帧中找到相似的图像块；进一步地，压缩视频中的连续帧，其图像质量往往存在较大的的波动，对于质量较差的帧中的图像块，若以位于质量较好的相邻帧中的块为参考，则有利于提供恢复后的图像的质量。

本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，包括如下步骤：

(3)将I输入到一个经预先训练的生成式对抗网络GAN，所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D；

所述生成式对抗网络GAN的各个层次的参数以学习的方式确定，包括：

其中x_i～p_data代表从符合未经压缩编码图像分布的样本空间中采样的样本，E(.)代表数学期望，z～p_Gen代表从符合生成网络的输入样本分布的样本空间中采样的样本；步骤3C重复执行4次

所述生成网络G的输入模块包括一个卷积层，待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后，输出大小与输入图像相等的特征图z₀；

(4)I，

和

分别被当作一个二维矩阵，依次排列这些矩阵形成一个三阶张量输入到融合模块，经过融合模块的计算，输出对当前解码帧去除压缩伪影后的图像；所述融合模块为深度卷积神经网络，深度卷积神经网络的输入模块包含1个卷积层，该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配，具有N_i个大小为3×3×3的卷积核，其中N_i为一个预设的常数，卷积步长为1；除了输入模块之外的其它部分，融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。

所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定，包括：

步骤4A、准备用于训练的图像：设Y为未经压缩编码的视频中的一帧，I为HEVC压缩视频解码后与Y对应的帧，I为前向预测编码帧或双向预测编码帧。根据步骤(1)和步骤(2)构建运动补偿图像

根据步骤(3)构建生成网络的预测图像

和由生成式对抗网络生成的预测图像

其中

以本发明实施例提供的方法对不同QP值的HEVC编码视频进行压缩伪影去除处理，以未经压缩编码的视频图像为参考图像，计算压缩编码后的图像以及经去除压缩伪影操作后的图像与参考图像之间的峰值信噪比PSNR值和结构相似性SSIM值，以ΔPSNR和ΔSSIM的形式显示了经本发明提供的方法处理后的性能提升，结果如下表所示。

表1本发明实施例的实验结果

以上所述仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，凡在本发明的精神和原则之内，所做的任何修改或替换等，都应涵盖在本发明的保护范围内。

Claims

1.一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于，包括如下步骤：

(4)I，

和

2.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于：所述生成网络G的输入模块包括一个卷积层，待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后，输出大小与输入图像相等的特征图z₀；

3.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于，步骤(3)中，所述生成式对抗网络GAN的各个层次的参数以学习的方式确定，包括：

4.根据权利要求1所述的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于，步骤(4)中，作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定，包括：

根据步骤(3)构建生成网络的预测图像

步骤4B、准备训练样本：设(x'_i,y'_i)为训练样本集的一个样本，若y'_i∈R^H×W为来自未压缩图像Y的图像块，且左上角点坐标为(m,n)，大小为H×W，则x'_i∈R^H×W×3是一个由3个图像块组成的三阶张量，x'_i∈R^H×W×3的三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像

和由生成网络生成的预测图像

其中

5.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于，深度卷积神经网络的输入模块的卷积层具有N_i个大小为3×3×3的卷积核，其中N_i为一个预设的常数，卷积步长为1。

6.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法，其特征在于，所述当前解码帧为前向预测编码帧或双向预测编码帧。