CN115511747A

CN115511747A - 一种基于像素域和频域信息损失的视频去压缩伪影方法

Info

Publication number: CN115511747A
Application number: CN202211203733.6A
Authority: CN
Inventors: 颜成钢; 陈兴颖; 王鸿奎; 高宇涵; 孙垚棋; 胡冀; 朱尊杰; 陈楚翘; 殷海兵; 张继勇; 李宗鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-23

Abstract

本发明公开了一种基于像素域和频域信息损失的视频去压缩伪影方法。首先进行数据预处理，获取高质量及低质量的视频帧数据集，搭建视频增强网络模型；再训练低质量图像增强的网络模型；最后将低质量的视频帧输入模型得到高质量的视频帧。本发明通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合，能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。本发明方法同时在频域和像素域的联合操作大大提升了质量增强的效果。

Description

一种基于像素域和频域信息损失的视频去压缩伪影方法

技术领域

本发明适合于视频质量增强的领域。本发明涉及一种基于深度学习神经网络的视频质量压缩复原的方法。

背景技术

近年来，视频在互联网上的传播越来越频繁，视频会产生70％到80％的移动数据流量，其中高分辨率视频的比例在迅速增强，人们对高清视频的需求也越来越大。由于网络传输带宽的限制，视频必须经过压缩编码才能在互联网中传播。然而，在压缩编码中不可避免地会给视频带来率失真和伪影，这必然会带给视频观看者的主观感受。因此，为了能够在带宽有限的网络上有效地传输高质量视频，提高视频质量增强方法是十分必要的。再过去的几十年中，提出了需对传统的视频压缩标准，例如H.264，H.265等，但这些编码器是手工制作的，无法实现以端到端的方式进行优化。

最近在基于深度学习图像视频压缩方面的研究，显示了Deep Learning在提高失真性能的巨大潜力。例如，Lu等人提出光流进行运动补偿，并应用自动编码器来压缩光流和残差，郑等人提出了一种隐式双域卷积网络来减少JPEG图像压缩伪影。IDCN使用像素位置标记图和量化表作为输入，与DCT变换应用于DCT域的传统双域学习方法不同，DCT域损失直接由提取的特征估计，无需DCT变换。IDCN在提高JPEG压缩图像质量方面表现出色。肇等人提出用离散余弦变换域的损失来增强压缩视频质量。这对于本次发明有很多之得借鉴和学习的地方。

在视频质量增强上，常用的传统压缩方式有H.264和H.265，无法满足现阶段高质量视频还原的需求。而基于深度学习的方法通常学习非线性映射以直接从大量训练数据中回归无伪影的图像，从而高效获得结果。

发明内容

基于现存的问题，本次发明是将焦点频率损失补偿应用于视频质量增强，它允许模型通过降低容易合成的权重来自适应地关注难以合成的频率分量，使得在视频帧的频率损失上有很大的提升，从而提高帧间的质量，提高视频的质量。本发明的内容在于：提供一种基于像素域和频域信息损失的视频去压缩伪影方法，通过训练高质量的视频帧和压缩过视频帧，得到可增强视频帧质量的模型。

本发明采用的技术方案如下：

一种基于像素域和频域信息损失的视频去压缩伪影方法，步骤如下：

步骤一：数据预处理，获取高质量及低质量的视频帧数据集。

步骤二：搭建视频增强网络模型；

步骤三：使用步骤一生成的数据作为模型输入，训练低质量图像增强的网络模型；

步骤四：将低质量的视频帧输入模型得到高质量的视频帧。

进一步的，步骤一具体方法如下：

将高质量的YUV视频无损转换成MPKV文件，再对其裁帧，视频帧作为训练集的真实值(Ground Truth)；使用HM16编码对YUV视频进行压缩生成已压缩视频，并无损转换成MPKV文件，再裁帧，作为训练集的模糊值。

进一步的，步骤二具体方法如下；

视频增强网络模型包括像素域增强分支。

所述的像素域增强分支由单卷积层，下采样层，密集残差层和上采样层组成。

所述的密集残差层采用16个密集残差块组成。密集残差块包括邻近连接和局部特征融合，通过邻近连接将每个密集残差块在通道维度串联起来；邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现，降低每次输出的通道数，有助于更多残差块的训练。

所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍，通道数放大到四倍由64到256，最后生成特征图作为后续密集残差层的特征传递输入。

上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍，通道数缩小四倍由256到64，最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。

进一步的，步骤三具体方法如下；

训练网络采用Adam优化器，使用最小均方损失函数作为像素域的损失函数。频率域损失函数使用梯度轮廓损失函数，使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。

频域增强体现在计算输出结果的梯度轮廓损失上，模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算，计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型。

训练过程中，最小均方损失函数初始学习率设置为1E-4，权重为1和梯度轮廓损失初始学习率为计算值，权重设置为1。如果损失值在五个周期内没有波动，将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。

进一步的，步骤四具体方法如下；

输入低质量图像到增强网络中。首先图像经过卷积核大小为3×3的单卷积层处理，将三个通道数的图像变成64通道，紧接着进过下采样层缩小特征图的大小，再经过密集残差块，残差块进行特征提取和特征映射，逐层将特征传递下去，最后所有密集残差块的输出进行拼接整合，得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图，最后作为视频帧增强的输出结果。

本发明有以下的有益效果：

1.本发明所述的一种基于频率损失的创新性视频质量方法，通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合，能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。

2.本发明所述的一种基于神经网络的视频质量增强，同时在频域和像素域的联合操作大大提升了质量增强的效果。

附图说明

图1是本发明实施的检测流程示意图；

图2是本发明实施的网络模型结构原理图；

图3是本发明实施的图像增强的低质量视频帧；

图4是本发明实施的图像增强方法输出高质量图。

具体实施方式

如上述的技术方案和附图说明，

基于焦点损失的视频质量增强，包括整理数据集、训练模型和调式参数以及测试结果。我们使用NTIRE2022提出的视频数据集(LDV2.0)，该数据集相对于LDV1.0额外的添加了95个视频，其中包含从YouTube和主流流媒体平台收集的视频。数据集由335个训练视频，每秒随机传输帧数(fps)从24到60不等。基于以上固定设置，本发明采用，20个给定的验证视频和通用高效视频编码标准测试序列作为最终测试集。

步骤一，数据预处理，获取高质量和低质量的视频数据集，具体方法如下：

步骤二，搭建视频增强网络模型；

视频增强网络模型包括像素域增强分支。

所述的密集残差层采用16个密集残差块组成。由于在残差和网络深度的增加，每个卷积层的特征会逐渐分级，因为有不同的感受野，逐渐分级的特征对图像重建提供了重要信息，残差块会充分利用所有层的信息和特征。密集残差块包括邻近连接和局部特征融合，通过邻近连接将每个密集残差块在通道维度串联起来；邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现，降低每次输出的通道数，有助于更多残差块的训练。

所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌(PixelUnShuffle)将特征图的长和宽缩小为原来的0.5倍，通道数放大到四倍由64到256，最后生成特征图作为后续密集残差层的特征传递输入。

上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌(PixelShuffle)将特征图的长和宽放大为原来的两倍，通道数缩小四倍由256到64，最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。

步骤三训练视频图像增强网络模型；

训练网络采用Adam优化器，使用最小均方损失函数作为像素域的损失函数，损失函数和常用的L1范式函数相比，我们使用均方损失函数来训练模型能更好的处理边缘和彰显出好的性能和细节的锐化。频率域损失函数使用梯度轮廓损失函数。使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。

频域增强体现在计算输出结果的梯度轮廓损失上，模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算，计算的损失值和像素域损失值共同反向传播到网络模型。梯度轮廓是基于梯度分布先验实现的。所谓的先验，图像梯度是由梯度轮廓表示，梯度轮廓是垂直于图像结构的梯度幅度的一维轮廓，梯度轮廓损失计算将梯度轮廓曲线进行一定比例的压缩，将图像转化成边缘更锐化和更清晰的图像。梯度轮廓损失计算通常用于在图像和视频任务中。该算法具有两个优点：(1)梯度场生动地表现出视频的特征：人物和背景。(2)低质量图像具有较宽的梯度场曲线，而高质量图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线，确保了一个稳定闭环监督。

训练过程中，最小均方损失函数初始学习率设置为1E-4，权重为1和梯度轮廓损失初始学习率为计算值，权重设置为1，前期较高的学习率使得网络能快速收敛到一个损失区间，后期较低的学习率使得网络进行微调，让模型效果达到最优的效果。如果损失值在五个周期内没有波动，将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。

步骤四，将低质量的视频帧输入增强网络模型得到高质量视频图像；

输入低质量图像到增强网络中，流程如图1所示。首先图像经过卷积核大小为3×3的单卷积层处理，将三个通道数的图像变成64通道，紧接着进过下采样层缩小特征图的大小，再经过密集残差块，残差块进行特征提取和特征映射，逐层将特征传递下去，最后所有密集残差块的输出进行拼接整合，得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图，最后作为视频帧增强的输出结果。

Claims

1.一种基于像素域和频域信息损失的视频去压缩伪影方法，其特征在于，步骤如下：

步骤一：数据预处理，获取高质量及低质量的视频帧数据集；

步骤二：搭建视频增强网络模型；

步骤四：将低质量的视频帧输入模型得到高质量的视频帧。

2.根据权利要求1所述的一种基于像素域和频域信息损失的视频去压缩伪影方法，其特征在于，步骤一具体方法如下：

将高质量的YUV视频无损转换成MPKV文件，再对其裁帧，视频帧作为训练集的真实值；使用HM16编码对YUV视频进行压缩生成已压缩视频，并无损转换成MPKV文件，再裁帧，作为训练集的模糊值。

3.根据权利要求2所述的一种基于像素域和频域信息损失的视频去压缩伪影方法，其特征在于，步骤二具体方法如下；

视频增强网络模型包括像素域增强分支；

所述的像素域增强分支由单卷积层，下采样层，密集残差层和上采样层组成；

所述的密集残差层采用16个密集残差块组成；密集残差块包括邻近连接和局部特征融合，通过邻近连接将每个密集残差块在通道维度串联起来；邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息；局部特征融合由卷积核为1×1的卷积层实现，降低每次输出的通道数，有助于更多残差块的训练；

所述的下采样层采用二维的像素洗牌对图像进行四倍下采样；使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍，通道数放大到四倍由64到256，最后生成特征图作为后续密集残差层的特征传递输入；

上采样层采用二维的像素洗牌对图像进行四倍上采样；使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍，通道数缩小四倍由256到64，最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。

4.根据权利要求3所述的一种基于像素域和频域信息损失的视频去压缩伪影方法，其特征在于，步骤三具体方法如下；

训练网络采用Adam优化器，使用最小均方损失函数作为像素域的损失函数；频率域损失函数使用梯度轮廓损失函数，使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界；

频域增强体现在计算输出结果的梯度轮廓损失上，模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算，计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型；

训练过程中，最小均方损失函数初始学习率设置为1E-4，权重为1和梯度轮廓损失初始学习率为计算值，权重设置为1；如果损失值在五个周期内没有波动，将最小均方损失函数学习率降为原来的0.5；在学习率低于1E-6时结束训练。

5.根据权利要求4所述的一种基于像素域和频域信息损失的视频去压缩伪影方法，其特征在于，步骤四具体方法如下；

输入低质量图像到增强网络中；首先图像经过卷积核大小为3×3的单卷积层处理，将三个通道数的图像变成64通道，紧接着进过下采样层缩小特征图的大小，再经过密集残差块，残差块进行特征提取和特征映射，逐层将特征传递下去，最后所有密集残差块的输出进行拼接整合，得到最终提取的特征图像；再经过上采样层的像素洗牌生成像素域的高质量图，最后作为视频帧增强的输出结果。