CN114189695B

CN114189695B - 一种基于gan的hevc压缩视频视觉感知提升方法

Info

Publication number: CN114189695B
Application number: CN202010962448.7A
Authority: CN
Inventors: 何小海; 王婷; 汤博文; 吴晓红; 熊淑华; 陈洪刚; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-02-10
Anticipated expiration: 2040-09-14
Also published as: CN114189695A

Abstract

本发明提出了一种基于GAN的HEVC压缩视频视觉感知提升方法。GAN提供了一种接近感知‑失真平衡的原则，在控制失真的前提下，能提高压缩视频序列的视觉感知质量。因此，本发明在提高HEVC压缩视频主观视觉感知质量的工作中，通过利用GAN的对抗性损失最小化生成图像的分布与自然图像的分布之间的距离，并且结合HEVC压缩后的视频帧能有效指导GAN的生成网络学习从已编码帧到原始帧的映射，同时通过GAN的判别网络来不断逼近这种映射。最后将所提GAN网络与SRGAN和ESRGAN用于压缩视频后处理相比，该后处理网络可以获得更好的重建视觉效果，同时可以将客观失真控制在一定范围内。

Description

一种基于GAN的HEVC压缩视频视觉感知提升方法

技术领域

本发明涉及视频编码领域中的视频质量提升方法的研究，尤其是涉及一种基于GAN的HEVC压缩视频视觉感知提升方法的方法。

背景技术

HEVC作为主流视频编码标准，虽然能取得很好的压缩效率，但在压缩和传输过程中不可避免会造成视频质量损失，这种损失既指客观质量上的失真，也包含主观视觉效果的模糊。图像恢复算法通常通过一些失真来度量，例如：PSNR、SSIM、IFC、VIF，这些失真度量因为要使用原图进行评估称为全参考指标。但在实际传输任务中，原图像并不一定可获得，只能通过需要处理的降质图像进行重建效果评估，这种评估失真的方式称为无参考指标，例如量化视觉感知质量的人类意见评分。实际客观失真度量和视觉感知质量并不是一一对应的，具体来说，随着平均失真的减少，能正确区分是图像恢复算法的输出或者真实图像输出的最佳概率反而会增加(表明是为更差的视觉感知质量)，这个结果对于任何失真度量都是满足的，不仅仅是常用压缩性能评价标准指标PSNR和SSIM，GAN网络还提供了一种接近感知质量和失真度量平衡的原则。

GAN网络的对抗性损失能很好地学习图像分布间的映射，提高视觉效果，基于GAN网络进行的图像超分辨率重建工作取得了较好的视觉效果。同时在压缩伪影去除的工作中，GAN被证明具有减少伪影的强大能力。现今有学者提出了使用生成对抗框架训练的前馈全卷积残差网络模型，并可以通过优化结构相似度来进行训练，所提GAN能够生成具有更多真实感细节的图像。还有通过GAN进行帧内编码的后处理学习，提出了一种多层递进细化网络MPRNet，该网络可以在一次前馈中预测多级残差，这种从粗到精的细化方式使MPRNet可以在细化的质量和计算复杂度之间进行权衡，这有利于在资源感知型背景下应用。同时有学者提出了一种具有递归框架的对抗学习方法，称为视频伪影去除生成对抗网络VRGAN，VRGAN包含一个生成器，该生成器具有可提高视频一致性的循环框架，一个可增强大型转换单元接收场的密集块，以及一个相对论鉴别器，可评估生成的帧与原始高质量帧之间的关系，所提网络能够生成更逼真的视频。还有学者提出采用GA进行图像超分辨率工作的SRGAN，SRGAN中采用一种感知损失函数，它包含对抗损失和内容损失，使用对抗损失将失真图像逼近自然图像。在SRGAN的基础上，通过分析超分图像的细节常常伴随着令人不愉快的伪影，为提高视觉质量，提出ESRGAN，引入残差密集块，将其不进行批量归一化，这样的结构作为基本的网络构建单元，并使用激活前的特征来改善感观损失，从而可以对亮度一致性和纹理恢复提供更强的监督。

在控制重建图像与真实图像间差异的前提下，GAN生成的图像更加符合自然图像的分布，能重建出更好的视觉效果。随着4G时代的普及以及5G时代的到来，人们对图像视频的质量和分辨率要求越来越高，也更加追求解码视频感知效果的舒适性，因此需对压缩视频提升主观视觉感知质量。

经过HEVC压缩解码后的视频帧能通过GAN的生成网络学习从已编码帧到原始帧的映射，并通过GAN的判别网络来不断逼近这种映射，实现视频帧主观视觉感知的提升，最终有效去压缩。因此，本发明将提出一种基于GAN的HEVC压缩视频视觉感知提升方法网络结构，结合GAN的感知及失真平衡特性有效提高HEVC压缩视频的感知质量。

发明内容

随着大数据分析及人工智能的迅速发展，人们对视频的要求不仅是客观质量的保真，也需要满足人眼观察。因此本发明将提出一种对压缩视频主观视觉感知质量进行提升的方法-基于GAN的HEVC压缩视频视觉感知提升方法研究。所提深度网络中经过HEVC压缩后的视频帧通过GAN生成器输出重建图像，该输出图像可以有效指导GAN的判别器逼近已编码帧与原始帧之间的映射，再通过生成器的对抗性损失来不断学习这种映射，提高压缩视频序列的视觉感知质量，最终有效去除压缩效应。

本发明提出一种基于GAN的HEVC压缩视频视觉感知提升方法研究。首先设计了基于Convolution-BatchNorm-Relu结构的9层残差网络作为生成器G，一方面用于增强特征映射，提取更能表达重建视频帧信息的特征，另一方面引入残差学习可加快网络收敛。并在残差网络前进行下采，旨在实现空间分辨率的下采，减少网络参数，避免网络参数过多造成过拟合现象。最后为保证输入视频帧和重建帧尺寸一致，采用逆卷积层恢复到原始尺寸。其次判别器D设计为PatchGAN结构，该结构判别器以图像中每个N×N块为单位进行真假分类，整幅图像的输出为图像中所有块判别的平均结果。这种结构假设像素之间的独立性大于一个块的尺寸，其优点是避免以整幅图像判别作为输出时的极端结果。GAN的对抗性损失可以最小化生成器G生成图像与训练数据集中图像分布之间的距离，通过利用对抗性损失来实现视频帧的感知质量恢复。经过HEVC压缩后的视频帧能通过GAN的生成网络学习从已编码帧到原始帧的映射，并通过GAN的判别网络来不断逼近这种映射，得到高视觉感知质量的重建帧，最终有效去除干扰视觉观察的伪影。具体包括以下过程步骤：

(1)生成图像残差网络；

(2)将残差块个数n分别设置为5、7、9、11、13，其中9个残差块为生成器所选残差结构；

(3)判别器不变并且生成器中其余层结构不变，分别将生成器中残差块设置为以上5个深度并训练，用5个残差深度下GAN的最佳模型重建压缩视频序列foreman_352×288并计算感知指数PI值(在本发明基于GAN的HEVC压缩视频视觉感知提升方法研究中，所提GAN框架生成器中的残差块设置为9层时，网络能获得更加丰富的纹理信息，能较好地去除视觉感知上的压缩伪影)；

(4)本改进GAN框架中生成器G采用9层残差网络，能提取更能表达重建视频帧信息的特征并加快网络收敛；在残差网络前进行下采，Convolution-BatchNorm-Relu结构的下采层可以表示为公式(1)，↓₂表示该层卷积步长为2，旨在实现空间分辨率的下采，减少网络参数，并结合在残差网络中使用dropout层按照概率丢掉部分神经元，避免网络参数过多造成过拟合；最后为保证输入视频帧和重建帧尺寸一致，采用逆卷积层恢复到原始尺寸。同理，Convolution-BatchNorm-Relu结构的逆卷积层可以表示为(2)式，其中↑₂表示该层逆卷积步长为2。

本发明所提生成器G的配置如表1所列，结构层公式表示为：

F₀(Y)＝Y (3)

F₁₅＝W₁₅·F₁₄(Y)+B₁₅ (8)

F₁₆＝Tanh(F₁₅(Y)) (9)

其中，Y为已编码视频帧，W_i和B_i分别为第i层的权重和偏置。

本发明所提判别器D的配置如表2所列，结构层公式表示为：

F₀(Y)＝Y (10)

F₁(Y)＝LeakyRelu(W₁·F₀(Y)+B₁) (11)

F_i(Y)＝F_NormLeaky(Y),i＝{2,3,4} (12)

F₅＝W₅·F₄(Y)+B₅ (13)

其中，Y为已编码视频帧，W_i和B_i分别为第i层的权重和偏置；

(5)本发明训练算法生成对抗网络GAN的目标函数可以表示为：

L_GAN(G,D)＝E_x,y[log D(x,y)]+E_x,z[log(1-D(x,G(x,z)))] (14)

本发明网络采用L1作为辅助损失函数：

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁] (15)

因此，结合GAN目标函数与L1损失的最终目标函数为：

(6)训练网络时，训练集样本选用BSDS500database，将BSDS500里的训练图库和测试图库共同用于本发明的训练图库。为了准备训练数据，将400张原始训练图在HEVC基于AI的标准帧内编码配置文件encoder_intra_main.cfg和基于LDP的IPPP标准帧间编码配置文件encoder_lowdelay_P_main.cfg下，设置QP＝22、27、32、37时分别进行编码，以此得到帧内和帧间各四个QP，共八个降质的图像库。为扩大样本数和更加准确地恢复图像结构特征，将原始图库和八个降质图库进行四个方向地旋转和五个尺度地缩放，再把扩展的原始图库和降质图库进行分割生成训练样本，考虑到HEVC编码变换单元CTU的大小为64、32和16，但是学习64×64大小的标签没有成功，因此本发明中以步长32将图库切割成32×32的块，每次训练时，随机选取切割样本数据中的16个样本进行参数优化，即训练时batchsize＝16。

本发明与现有技术相比所具有的优点及有益技术效果：

(1)本发明提出一种基于GAN的HEVC压缩视频视觉感知提升后处理算法，生成器G生成图像分布与训练数据集中图像分布间有一个距离，GAN的对抗性损失可以最小化这个距离，通过利用对抗性损失可以实现视频帧视觉质量恢复。

(2)经过HEVC压缩后的视频帧能有效指导GAN的生成网络学习从已编码帧到原始帧的映射，并通过GAN的判别网络不断逼近这种映射，得到高视觉感知质量重建帧，最终有效去除视觉感知上的压缩伪影。

(3)实验结果表明，该算法可以获得更好的重建视觉效果，选择基于AI的标准编码模式，在QP＝22、27、32、37时所提GAN网络PI分别平均比标准HEVC低1.27、1.59、1.43、2.23；选择基于LDP的IPPP标准编码模式，在QP＝22、27、32、37时所提GAN网络PI分别平均比标准HEVC低1.18、1.42、1.33、2.09。并且与HEVC标准和相关GAN网络相比，本发明后处理技术能获得更好的视觉感知效果时，还能将客观失真控制在更小的范围内。

附图说明

图1为基于GAN的HEVC压缩视频视觉感知提升方法网络流程图。

图2为基于GAN的HEVC压缩视频视觉感知提升方法网络生成器、判别器结构。

图3为采用本发明所提GAN在不同残差深度下重建foreman_352×288序列的性能。

图4为本发明算法和HM16.0标准方法视觉感知质量对比。

具体实施方式

下面结合实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

(1)本发明提出一种基于GAN的HEVC压缩视频视觉感知提升后处理算法，为验证所提算法的有效性，将所提算法用于HEVC标准HM16.0测试模型压缩后的视频。本发明实验选择基于AI的标准帧内编码配置文件encoder_intra_main.cfg和基于LDP的IPPP标准帧间编码配置文件encoder_lowdelay_P_main.cfg。标准测试视频序列从352×288、416×240、832×480、1280×720、1920×1080五个分辨率大小视频中各选择两个，量化QP分别为22、27、32、37。本发明所有的实验均使用MATLABR2014a和VisualStudio2013工具在CPU为i5-2320@3.00GHz和GPUNvidiaGeForceGTX2080环境上运行。

(2)采用所提训练算法，训练出帧内和帧间各四个QP，共八个最佳模型，将各最佳模型用于重建对应QP下HEVC标准压缩后的视频，改善HEVC编码带来的视觉感知失真。测试时，由于是对视频序列进行重建，不同于训练时的按块处理，将以帧为单位进行感知质量提升，即batchsize＝1。实验结果通过主观视觉感知评价指标PI验证，选择基于AI的标准编码模式，采用所提方法帧内四个QP下的最佳模型对应重建压缩视频，实验结果与HEVC标准实验结果如表3所示；选择基于LDP的IPPP标准帧间编码模式，采用所提方法帧间四个QP下的最佳模型对应重建压缩视频，实验结果与HEVC标准实验结果如表4所示。PI感知指标表示重建视频帧分布与训练数据集中图像分布之间的距离，因此，数值越小越好。并且为了直观表示所提算法在PI指标上的性能效果，实验结果中采用ΔPI代表本发明后处理算法与HEVC标准在PI上的差值：

ΔPI＝PI_proposed-PI_HEVC

由于感知指标PI的数值是越小越好，因此当ΔPI为负时，代表本发明算法PI数值小于HEVC压缩视频所得PI数值，也就是本发明算法能改善压缩视频的视觉感知质量。

表1中卷积层用Conv表示，逆卷积层用ConvTrans表示，卷积层、残差层和逆卷积层的滤波器大小、滤波器数量和步长对应如表中所示。每一个残差层的配置均相同，因此表1中仅给出第一个残差层和最后一个残差层配置参数，用“…”省略了第二个至第八个残差层的配置参数。

表1 本发明算法生成器G的配置

表2中卷积层用Conv表示，卷积层的滤波器大小、滤波器数量和步长对应如表中所示。

表2 本发明算法判别器D的配置

层	滤波器大小	滤波器数量	步长
				Conv1	4×4	64	2
Conv2	4×4	128	2
				Conv3	4×4	256	2
Conv4	4×4	512	1
				Conv5	4×4	1	1

表3 采用HM16.0标准和本发明算法在帧内编码时的实验结果

表续3 采用HM16.0标准和本发明算法在帧内编码时的实验结果

表4 采用HM16.0标准和本发明算法在帧间编码时的实验结果

表续4 采用HM16.0标准和本发明算法在帧间编码时的实验结果

为进一步探索所提GAN网络的视觉感知提升效果，将本发明所提算法与相关GAN网络SRGAN和ESRGAN进行对比。将SRGAN和ESRGAN的上采因子设置为1，并采用与本发明所提GAN网络相同的数据库进行训练，训练得到的最佳模型用于压缩视频重建。由于SRGAN和ESRGAN网络参数较多、重建图像空间分辨率有限，在本发明运行环境GPUNvidiaGeForceGTX2080上仅能重建到832×480尺寸的视频帧，因此表5和表6给出了标准测试视频序列foreman_352×288、stefan_352×288、Keiba_416×240、BQSquare_416×240和RaceHorses_832×480在HEVC标准、SRGAN、ESRGAN和本发明所提算法重建下的感知-失真结果。表中感知-失真指标采用ESRGAN中所提PI-RMSE指标，并结合感知失真平面进行对比，其中，均方根误差(RootMeanSquardError，RMSE)代表客观质量失真，是失真视频与原始视频在像素域的差异表示。表5和表6分别为视频序列在帧内和帧间编码时的实验结果。

表5 HEVC标准、SRGAN及ESRGAN和本发明算法在帧内编码时性能对比

表续5 HEVC标准、SRGAN及ESRGAN和本发明算法在帧内编码时性能对比

表6 HEVC标准、SRGAN及ESRGAN和本发明算法在帧间编码时性能对比

Claims

1.一种基于生成对抗网络GAN的HEVC压缩视频视觉感知提升方法，其特征在于：

(1)生成图像残差网络；

(3)判别器不变并且生成器中其余层结构不变，分别将生成器中残差块设置为以上5个深度并训练，用5个残差深度下GAN的最佳模型重建压缩视频序列foreman_352×288并计算感知指数PI值；

(4)生成器G采用9层残差网络；在残差网络前进行下采，Convolution-BatchNorm-Relu结构的下采层可以表示为公式(1)，↓₂表示该层卷积步长为2，采用逆卷积层恢复到原始尺寸；同理，Convolution-BatchNorm-Relu结构的逆卷积层可以表示为(2)式，其中↑₂表示该层逆卷积步长为2，Relu是线性激活函数，BN是BatchNorm层的缩写；

生成器G的配置如表1所列，结构层公式表示为：

F₀(Y)＝Y (3)

F₁₅＝W₁₅·F₁₄(Y)+B₁₅ (8)

F₁₆＝Tanh(F₁₅(Y)) (9)

其中，Y为已编码视频帧，W_i和B_i分别为第i层的权重和偏置，Dropout是正则网络，Tanh是双曲正切函数；

表1中卷积层用Conv表示，逆卷积层用ConvTrans表示，卷积层、残差层和逆卷积层的滤波器大小、滤波器数量和步长对应如表中所示，每一个残差层的配置均相同，因此表1中仅给出第一个残差层和最后一个残差层配置参数，用“…”省略了第二个至第八个残差层的配置参数；

表1算法生成器G的配置

判别器D的配置如表2所列，结构层公式表示为：

F₀(Y)＝Y (10)

F₁(Y)＝LeakyRelu(W₁·F₀(Y)+B₁) (11)

F_i(Y)＝F_NormLeaky(Y),i＝{2,3,4} (12)

F₅＝W₅·F₄(Y)+B₅ (13)

其中，Y为已编码视频帧，W_i和B_i分别为第i层的权重和偏置，LeakyRelu是带泄露整流函数；

表2中卷积层用Conv表示，卷积层的滤波器大小、滤波器数量和步长对应如表中所示；

表2算法判别器D的配置

层滤波器大小滤波器数量步长 Conv1 4×4 64 2 Conv2 4×4 128 2 Conv3 4×4 256 2 Conv4 4×4 512 1 Conv5 4×4 1 1

(5)训练算法生成对抗网络GAN的目标函数可以表示为：

L_GAN(G,D)＝E_x,_y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))] (14)

本发明网络采用L1作为辅助损失函数：

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁] (15)

因此，结合GAN目标函数与L1损失的最终目标函数为：

其中是拉格朗日乘子，E(x)是x的数学期望；

(6)训练网络时，训练集样本选用BSDS500database，将BSDS500里的训练图库和测试图库共同用于训练图库；将400张原始训练图在HEVC基于AI的标准帧内编码配置文件encoder_intra_main.cfg和基于LDP的IPPP标准帧间编码配置文件encoder_lowdelay_P_main.cfg下，设置QP＝22、27、32、37时分别进行编码，以此得到帧内和帧间各四个QP，共八个降质的图像库；将原始图库和八个降质图库进行四个方向地旋转和五个尺度地缩放，再把扩展的原始图库和降质图库进行分割生成训练样本，以步长32将图库切割成32×32的块，每次训练时，随机选取切割样本数据中的16个样本进行参数优化，即训练时batchsize＝16。

2.如权利要求1所述的基于GAN的HEVC压缩视频视觉感知提升方法，其特征在于使用判别器通过对原始图像和生成图像的平均判别做判别器对抗损失以获取图像的纹理细节，并辅助使用一范数获取低频信息。