CN116012272A

CN116012272A - 一种基于重建流场的压缩视频质量增强方法

Info

Publication number: CN116012272A
Application number: CN202310059698.3A
Authority: CN
Inventors: 王正宁; 刘旭航; 刘帅成; 徐宇航; 罗兴隆; 朱旭; 匡育衡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-04-25

Abstract

本发明公开了一种基于重建流场的压缩视频质量增强方法，属于视频质量增强技术领域。本发明构建了视频增强网络模型，其循环单元接受当前帧与相邻两帧关键帧作为输入，并结合上一帧的深度特征进行流场融合处理，再经多层级连的残差卷积模块得到当前帧的深度特征；基于核注意力模块在时域残差的引导下对深度特征进行处理，随后使用卷积层重建出质量增强残差，与输入相结合得到最终重建的高质量视频帧，抑制掉了压缩带来的噪声、伪影和模糊等影响视觉效果的因素，重建出高频纹理细节，提高了用户对网络视频等的观看体验。本发明利用到压缩编码时的先验信息，提高了视频帧间对齐的精度，在帧的空间维度和序列帧的时间维度上都取得了更好的重建效果。

Description

一种基于重建流场的压缩视频质量增强方法

技术领域

本发明属于视频质量增强技术领域，具体涉及一种基于重建流场的压缩视频质量增强方法。

背景技术

近年来为进一步降低视频的传输带宽和存储空间占用，H.264/AVC和H.265/HEVC等先进视频压缩标准被广泛用于视频压缩与传输中。为了达到更高的压缩率，这些有损压缩方法往往会造成视频质量的严重下降，引入各种噪声和伪影(如块效应、振铃效应、模糊等)。压缩导致的视频质量降低不仅会极大地影响观看效果，还会对下游的计算机视觉任务(如分类、识别、检测和跟踪等)带来不同程度的影响。因此，在面向网络传输和AI分析等应用环境中，对压缩视频质量的增强技术需求十分迫切。

受到视频编码器的压缩，视频帧间的质量往往会出现较大的波动。其中，常见的情况是压缩后的视频会周期性地出现高质量的视频帧，高质量帧中包含了更多可用于提升低质量帧重建效果的互补信息，如物体细节纹理等信息，如何利用这些互补信息就变得极为关键。

为了更好的利用到帧间的互补信息，现有的方法可以大致分为两类，一类是通过在视频帧上通过滑动窗口的方式，利用时域上局部范围内的互补信息辅助进行重建，质量提升效果相比于单帧重建方法更好。但是基于滑动窗口的方法受限于时域上局部感受野，并不能利用到整个序列上更加丰富的信息，而另一类方法采用循环传播结构的方法，借助循环神经网络的优势，可以在不增加太多参数量的情况下，利用到时域上全局的信息，从而实现重建效果的进一步提升。视频压缩的过程中会带来各种先验信息，其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来，其中包含了大量有利于重建任务的信息。在本发明的技术方案的实现过程中，发明人发现：视频压缩的过程中会带来各种先验信息，其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来，其中包含了大量有利于重建任务的信息。若在压缩视频质量增强处理能对这些先验信息充分利用，应该能提升压缩视频质量增强的增强效果。

发明内容

本发明提供了一种基于重建流场的压缩视频质量增强方法，通过充分利用视频压缩时产生的先验信息来进行质量增强重建，以显著提升了重建质量。

本发明采用的技术方案为：

一种基于重建流场的压缩视频质量增强方法，所述方法包括：

步骤1，构建模型训练数据集：

对无压缩视频序列构成的视频数据集中的每个视频进行压缩编解码，到得到每个视频序列所对应的不同压缩质量视频；在压缩编解码时提取码流中的先验信息，包括编码帧的量化参数QP和运动矢量MV；

视频数据集中的各视频帧定义为高质量视频帧，压缩编解码后视频帧为低质量视频帧，得到高-低质量视频对；

对高-低质量视频对进行图像预处理，基于指定长度的连续视频序列的高-低质量视频对，以及对应的先验信息得到一个样本数据，基于一定数量的样本数据得到模型训练数据集；

步骤2，构建及训练视频增强网络模型；

所述视频增强网络模型包括循环结构和重建模块；

循环结构包括多个循环单元，每个循环单元对应着输入的低质量视频帧序列中的一帧，每个循环单元的输入包括：当前视频帧F_t和其相邻的两帧关键帧{F_p-,F_p+}，以及上一个循环单元中输出的深度特征H_t-1；其中，关键帧根据先验信息中的量化参数QP进行选择；每个循环单元用于提取当前视频帧F_t的深度特征H_t；

所述循环单元包括光流估计模块、流场融合模块和多层级连的残差卷积模块；

光流估计模块的输入为{F_p-,F_t,F_p+}，用于预测当前视频帧F_t的光流场；

流场融合模块的输入包括当前视频帧F_t的光流和上一视频帧的编码运动矢量场MV_t-1，用于对编码运动矢量场和光流场进行融合，得到重建流场；

将重建流场与上一个循环单元输出的深度特征H_t-1进行对齐操作，再与当前视频帧F_t按通道维度进行拼接后输入多层级连的残差卷积模块，得到深度特征H_t；

所述重建模块包括核注意力特征重建模块、时域残差计算模块和多层卷积层；

其中，时域残差计算模块用于计算当前视频帧F_t与其前后相邻帧之间的时域残差，并将计算结果输入核注意力特征重建模块；

核注意力特征重建模块的输入包括时域残差计算模块计算得到的时域残差和深度特征H_t，用于提取卷积核注意力图，并基于卷积核注意力图对特征H_t进行卷积运算，得到当前视频帧F_t的深度特征

通过多层卷积层对深度特征

进行图像通道数恢复，得到当前视频帧F_t的残差图像；

将当前视频帧F_t与其残差图像求和得到当前视频帧F_t的视频质量增强结果

即重建的高质量视频帧；

基于预置的损失函数对视频增强网络模型进行网络参数训练，当达到预置的训练结束条件时(比如训练次数达到上限、训练精度达到指定条件等)，得到用于目标视频的视频增强网络模型。

进一步的，所述流场融合模块包括流场权重计算单元和流场重建单元；

其中，权重计算单元依次包括：3×3卷积核的卷积层，激活函数(优选LeakyReLU)、3×3卷积核的卷积层和Softmax函数；

权重计算单元的输入为当前视频帧F_t，Softmax函数用于输出编码运动矢量场的每个像素的运动矢量权重ω，从而得到光流场中每个像素的运动矢量的权重1ω，基于加权融合方式对输入的编码运动矢量场和光流场进行加权融合，得到重建流场。

进一步的，所述核注意力特征重建模块提取卷积核注意力图具体为：首先对时域残差和深度特征H_t进行通道拼接，再输入多层级连的卷积块，该多层级连的卷积块的输出再与时域残差和深度特征H_t的通道拼接结果相加得到卷积核注意力图；其中，卷积块包括依次连接的卷积层和激活函数。

进一步的，视频增强网络模型在网络参数训练时采用的损失函数为：

其中，

表示前视频帧F_t的高质量视频帧，即原始未经压缩的视频帧，ε为预置的取值小于1的常量。

本发明提供的技术方案至少带来如下有益效果：

(1)本发明提出的重建流场通过引入编码先验弥补了传统光流的缺陷，实现了更好的运动补偿。使用轻量化的流场融合模块融合视频编码过程中码流先验信息中的运动矢量和由编码后的低质量视频帧估算得到的光流，得到一个面向高质量压缩视频重建的“重建流场”，用于视频重建过程中帧间的运动补偿。

(2)本发明提出了核注意力重建模块，用于解决图像上空间分布不均匀退化的重建问题。从视频压缩带来的空间上分布不均匀的退化这一现状出发，具有空间分布变化性的核注意力模块通过逐像素的估计不同的卷积核，从而实现从特征中重建出高质量视频帧，缓解压缩视频帧在空间上质量波动的情况。

(3)本发明提出了基于循环神经网络(RNN)的架构来处理压缩视频，从而更好的利用视频时域上的帧间互补信息。相比于先前方法中采用滑动窗口的策略只能利用到局部的时域信息，RNN可以对全局的时域信息加以利用，从而利用丰富的帧间互补信息提高每一帧的重建效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的视频增强网络模型的结构示意图，图中的“W”表示用计算出的流场进行运动补偿中的对齐(Warping)操作，“C”表示暗通道维度的拼接。

图2是本发明实施例中的流场融合模块结构示意图；

图3是本发明实施例中的流场融合处理结果示意图；

图4是本发明实施例中的核注意力特征增强模块的结构示意图；

图5是本发明实施例中，不同流场质量增强结果对比图；

图6是本发明实施例中的质量重建结果示意图；

图7是本发明实施例中，增强后的视频的性能分析图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提出了一种基于重建流场的压缩视频质量增强方法，其采用循环传播的结构以利用时域全局信息。对于输入序列中的每个时刻，首先估计出当前帧与相邻帧的光流场，融合从码流中提取出来的编码运动矢量场，得到本发明所提出的“重建流场”。随后，利用重建流场来对齐从上一个时刻中传播过来的深度特征。最后，利用本发明提出空间变换的核注意力模块从深度特征中重建出最终的高质量视频帧。

作为一种可能的实现方式，本发明实施例所提出的一种基于重建流场的压缩视频质量增强方法，包括以下步骤：

步骤1，首先对视频数据集进行HEVC压缩编解码并提取码流中的先验信息。

本发明实施例中，训练数据集由YUV格式的高质量无压缩视频序列构成，先使用HM16.5软件对每个视频序列在HEVC Low Delay-P的配置下进行压缩，得到每个视频序列所对应的压缩低质量视频。其中在压缩编解码的过程中提取并保存每一帧编码的量化参数(Quantization Parameters，QP)和相邻两帧之间的运动矢量(Motion Vector，MV)，本实施例中通过修改HM16.5软件源码以保存每一帧编码的量化参数和相邻两帧之间的运动矢量。其中，基于图像块的低分辨率运动矢量插值为和原始图像等分辨率的编码运动矢量场，本发明中使用符号MV表示编码运动矢量场。

步骤2，对压缩编解码后得到高-低质量的视频对进行数据增广，以用于提升网络模型的训练数据集的丰富程度。

在训练阶段，首先把视频序列转换成PNG格式的帧序列，将每一帧随机裁剪成固定大小的图像块以增加训练数据丰富度并降低训练耗时。随后，对每个图像块进行随机翻转和旋转以进一步进行增广。本实施例中，训练时输入的裁切后的图像块尺寸被统一设置成128*128大小。

步骤3，构建及训练视频增强网络模型。

本发明采用的视频增强网络模型(循环神经网络模型)的总体结构如图1所示，其中，输入包括压缩后的视频序列{F₁,F₂,…,F_T}和码流中提取得到的编码先验信息[MV,QP]，将输入送进本发明提出的循环神经网络模型中，通过循环单元和重建模块从而得到高质量的视频帧序列

其中，f_θ(·为整体的神经网络模型，θ为模型中的可学习参数，通过使用数据集训练完成对模型参数的优化，T表示视频序列的帧数量。

视频增强网络模型的循环结构在每个时间点t时完成对当前视频帧F_t的质量增强，首先将输入送进循环单元(Recurrent Unit)，完成对输入特征的提取和聚合操作。其中循环神经网络的每个单元对应着输入序列中的一帧，每个单元接受当前帧F_t和相邻两帧关键帧{F_p-,F_p+}，即当前帧F_t的前后相邻关键帧，以及从上一个循环单元中输出的深度特征H_t-1作为输入，其中关键帧根据先验信息中的量化参数QP进行选择。将图像帧{F_p-,F_t,F_p+}和深度特征H_t-1在特征维度进行拼接，通过多层级连的残差模块(Residual Block)的处理输出一个深度特征H_t，被用于最终结果的重建并传入到下一个循环单元中：

其中，φ(·)是本发明所提出循环神经网络中每个节点上的循环单元；ψ(·)是本发明提出的流场融合模块，用来融合码流中提取得到的第t帧的编码运动矢量场M_t-1和根据连续两帧{F_t-1,F_t}预测得到的光流场。

将码流中提取到的编码运动矢量场和输入视频帧中计算得到的光流场，通过如图2所示的轻量化的流场融合模块进行融合，完成对编码运动矢量场和光流场的融合，得到重建流场。尽管光流的估计更加精细，分辨率更高，但是在一些区域内，码流中易得的编码运动矢量场能有更加精确的估计，这是因为编码运动矢量场是基于原始的未压缩的高质量视频帧计算得到的，流场融合模块就是为了自适应的兼顾两种流场的优点。

本发明中，每个循环单元输出的特征中理论上包含当前时刻之前所有帧的信息，为了能够充分利用这些信息，本发明提出了流场融合模块来生成重建流场并对不同时刻空间上存在运动的特征进行运动补偿。通过一个图2所示的卷积层和激活函数的运算，由输入的连续两帧估计出一个权重图，对每个像素上的两个运动矢量进行一个线性组合：

其中，

和

分别是编码运动矢量场和光流场中每个像素上的运动矢量，ω是对应位置的权重，该权重由SoftMax函数激活，数值被限定在0到1之间。

即本发明中的流场融合模块包括流场权重计算单元和流场重建单元，权重计算单元依次包括：3×3卷积核的卷积层，LeakyReLU激活函数、3×3卷积核的卷积层和Softmax函数，权重计算单元的输入为当前帧F_t，Softmax函数用于输出权重ω，流场重建单元用于根据公式(3)对输入流场融合模块的编码运动矢量场和光流场进行加权融合，重建流场。流场融合模块的处理示意图如图3所示。

在循环结构的任一时刻t内，完成运动补偿和特征融合后，将深度特征输入到重建模块(Reconstruction Module)中，用来从每个循环单元中输出的深度特征中重建出最终的高质量视频帧。重建模块包括核注意力特征重建模块、时域残差计算模块和卷积层，其中，核注意力特征重建模块的输入包括时域残差计算模块所计算的输入帧之间的时域残差(当前帧与前后相邻帧之间的时域残差)，以及循环单元所输出的当前帧的特征H_t，核注意力特征重建模块的输出再经多层卷积层恢复出通道数为3的RGB视频帧，得到当前帧的残差图像，最后，将当前帧的残差图像与当前帧求和得到当前帧的高质量视频帧。

如图4所示，本发明实施例中，核注意力特征重建模块首先对相邻帧间的时域残差(即时域差分)和输入的特征H_t进行通道拼接，再通过多层级连的卷积块(卷积层和激活函数)对输入的拼接后的深度特征处理得到级连卷积块的输出，该级连卷积块的输出再与级连卷积块的输入相加得到卷积核注意力图(简称核注意力图)，再基于卷积核注意力图对特征H_t进行卷积运算，得到核注意力特征重建模块的输出。

本发明的核注意力特征增强模块是为了在重建阶段让网络关注于更需要恢复的质量波动区域。这一模块的优势具有两方面：第一方面通过所计算的时域残差的引导，突出了特征中对应的对重建更有挑战性的质量波动区，以着重进行重建恢复；另一方面在每个像素位置上均有不同的卷积核可以自适应的利用到每个像素周围的邻域信息。

在本发明的重建模块中，首先计算输入帧之间的时域残差，通过时域残差可以突出输入视频每一帧内的质量波动区域，从而用于后续注意力机制的引导。随后在时域残差的引导下，通过残差卷积神经网络模块估计出一个逐像素的卷积核注意力图，其尺寸为H×W×k²C。这个卷积核注意力图可以直接应用于尺寸为H×W×C的深度特征上，即循环单元所输出的特征H_t，具体的逐像素卷积操作如下：

其中，K_t|(x,y,c)∈R^k×k是位置(x,y,c)处的卷积核，H_t|(x,y,c)代表深度特征H_t中对应位置的一个k×k邻域，

代表卷积运算操作。

作为输出特征被用作最终的高质量视频帧重建。优选的，本实施例中，核注意力图中每个卷积核的大小取k＝5。H×W表示图的空间分辨率，C表示通道数。(x,y)表示像素坐标。

最后，将核注意力特征重建模块所输出的深度特征

通过n(n＞0)层卷积神经网络完成从通道数为C的深度特征

中恢复出通道数为3的RGB视频帧，得到每一帧的残差图像。对于输入视频的每一帧，都将特征中重建出的残差图像与输入的压缩低质量图像求和得到输出的高质量视频帧。优选的，本实施例中，卷积层数取n＝3，深度特征的特征通道数取C＝64。

基于预置的损失函数对所构建的视频增强网络模型进行训练(优化模型中的可学习参数θ)，当达到预置的训练结束条件时，得到训练好的视频增强网络模型。

对待进行质量增强的视频，基于视频增强网络模型的输入帧数，读取对应帧数的一段连续视频序列帧，并提取每一帧的相邻两帧关键帧{F_p-,F_p+}组成每一帧的输入图像{F_p-,F_t,F_p+}，将各帧的输入图像输入训练好的视频增强网络模型，基于其输出得到当前各帧的视频质量增强结果。优选的，本发明实施例中，整个网络通过端到端的方式进行优化，损失函数部分计算了网络的输出增强后的帧序列与原始未经压缩的帧序列之间的距离损失，用于表示预测值和真值之间的差异大小，并通过梯度反向传播来优化神经网络模型。其中距离损失常采用图像复原任务中常用的Charbonnier Loss:

其中，

表示原始未经压缩的视频帧，

是网络输出的增强后的视频帧，参数ε用来使得损失数值更加稳定，即ε为预置的一个取值小于1的常数，优选的，常数取ε＝10^-6。

本发明的视频增强网络模型中，循环结构用于接收长序列的视频帧以利用视频中的全局时域信息，增强后输出与输入等长的视频帧序列。通过循环单元和重建模块从而得到高质量的视频帧序列

每个循环单元输出的特征中理论上包含当前时刻之前所有帧的信息，为了能够充分利用这些信息，本发明的流场融合模块来生成重建流场并对不同时刻空间上存在运动的特征进行运动补偿。由输入的连续两帧估计出一个权重图，对每个像素上的两个运动矢量进行一个线性组合。在循环结构的任一时刻t内，完成运动补偿和特征融合后，将深度特征输入重建模块中，用来从每个循环模块中输出的深度特征中重建出最终的高质量视频帧。同时为了便于网络训练，对于输入视频的每一帧，都将特征中重建出的图像与输入的压缩低质量图像求和得到输出的高质量视频帧，构建全局的残差连接。整个网络通过端到端的方式进行优化，损失函数部分计算了网络的输出增强后的帧序列与原始未经压缩的帧序列之间的距离损失。

本发明的视频增强网络模型，在每个时间节点上，循环单元接受当前帧与相邻两帧关键帧作为输入，同时结合上一个时间节点传播过来的深度特征(初始值为预设值，例如全零矩阵)，并通过对齐操作对上一个时间节点传播过来的深度特征和流场融合模块的输出特征进行对齐后(即通过所提出的重建流场进行对齐)，再与当前帧按通道进行拼接后输入多层级连的残差卷积模块，通过一系列残差卷积模块来融合输入的特征并生成当前时间节点的隐层特征用于传播到下一个时间节点和当前帧的重建。最后在重建阶段，先使用本发明所提出的核注意力模块在时域残差的引导下对深度特征进行处理，随后使用卷积层重建出质量增强残差，与输入相结合得到最终重建的高质量视频帧，抑制掉了压缩带来的噪声、伪影和模糊等影响视觉效果的因素，重建出了一些高频纹理细节，提高了用户对网络视频等的观看体验。本发明利用到了压缩编码时产生的先验，提高了视频帧间对齐的精度，既在每一帧内的空间维度上，也在序列帧间的时间维度上都取得了更好的重建效果。对比使用不同流场进行压缩视频质量增强重建的结果，如图5所示，图5分别展示了使用光流、编码运动矢量场和本发明提出的重建流场的融合结果和重建结果，其中第一列中的三种流场都按照光流颜色方案做可视化展示，第二列和第三列分别是本发明们最终的重建结果和重建结果与原始未压缩视频帧之间的残差图，可以看到使用本发明所提出的重建流场取得了最好的重建结果。

基于本发明所提出的视频增强网络模型的压缩视频质量增强处理，视频的质量得到显著提升。本发明一方面可以去除压缩视频中大量的压缩伪影、噪声等影响视频质量的因素的同时恢复出一些压缩过程中丢失的高频纹理细节，如图6所示的质量重建结果图；另一方面在时域维度上，本发明所提出的方法也可以降低视频时间上的质量波动，使得重建结果的质量更加稳定，如图7所示。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。