CN116012272A - 一种基于重建流场的压缩视频质量增强方法 - Google Patents
一种基于重建流场的压缩视频质量增强方法 Download PDFInfo
- Publication number
- CN116012272A CN116012272A CN202310059698.3A CN202310059698A CN116012272A CN 116012272 A CN116012272 A CN 116012272A CN 202310059698 A CN202310059698 A CN 202310059698A CN 116012272 A CN116012272 A CN 116012272A
- Authority
- CN
- China
- Prior art keywords
- video
- flow field
- frame
- convolution
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000007906 compression Methods 0.000 claims abstract description 27
- 230000006835 compression Effects 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 34
- 125000004122 cyclic group Chemical group 0.000 claims description 27
- 230000003287 optical effect Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000013434 data augmentation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于重建流场的压缩视频质量增强方法,属于视频质量增强技术领域。本发明构建了视频增强网络模型,其循环单元接受当前帧与相邻两帧关键帧作为输入,并结合上一帧的深度特征进行流场融合处理,再经多层级连的残差卷积模块得到当前帧的深度特征;基于核注意力模块在时域残差的引导下对深度特征进行处理,随后使用卷积层重建出质量增强残差,与输入相结合得到最终重建的高质量视频帧,抑制掉了压缩带来的噪声、伪影和模糊等影响视觉效果的因素,重建出高频纹理细节,提高了用户对网络视频等的观看体验。本发明利用到压缩编码时的先验信息,提高了视频帧间对齐的精度,在帧的空间维度和序列帧的时间维度上都取得了更好的重建效果。
Description
技术领域
本发明属于视频质量增强技术领域,具体涉及一种基于重建流场的压缩视频质量增强方法。
背景技术
近年来为进一步降低视频的传输带宽和存储空间占用,H.264/AVC和H.265/HEVC等先进视频压缩标准被广泛用于视频压缩与传输中。为了达到更高的压缩率,这些有损压缩方法往往会造成视频质量的严重下降,引入各种噪声和伪影(如块效应、振铃效应、模糊等)。压缩导致的视频质量降低不仅会极大地影响观看效果,还会对下游的计算机视觉任务(如分类、识别、检测和跟踪等)带来不同程度的影响。因此,在面向网络传输和AI分析等应用环境中,对压缩视频质量的增强技术需求十分迫切。
受到视频编码器的压缩,视频帧间的质量往往会出现较大的波动。其中,常见的情况是压缩后的视频会周期性地出现高质量的视频帧,高质量帧中包含了更多可用于提升低质量帧重建效果的互补信息,如物体细节纹理等信息,如何利用这些互补信息就变得极为关键。
为了更好的利用到帧间的互补信息,现有的方法可以大致分为两类,一类是通过在视频帧上通过滑动窗口的方式,利用时域上局部范围内的互补信息辅助进行重建,质量提升效果相比于单帧重建方法更好。但是基于滑动窗口的方法受限于时域上局部感受野,并不能利用到整个序列上更加丰富的信息,而另一类方法采用循环传播结构的方法,借助循环神经网络的优势,可以在不增加太多参数量的情况下,利用到时域上全局的信息,从而实现重建效果的进一步提升。视频压缩的过程中会带来各种先验信息,其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来,其中包含了大量有利于重建任务的信息。在本发明的技术方案的实现过程中,发明人发现:视频压缩的过程中会带来各种先验信息,其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来,其中包含了大量有利于重建任务的信息。若在压缩视频质量增强处理能对这些先验信息充分利用,应该能提升压缩视频质量增强的增强效果。
发明内容
本发明提供了一种基于重建流场的压缩视频质量增强方法,通过充分利用视频压缩时产生的先验信息来进行质量增强重建,以显著提升了重建质量。
本发明采用的技术方案为:
一种基于重建流场的压缩视频质量增强方法,所述方法包括:
步骤1,构建模型训练数据集:
对无压缩视频序列构成的视频数据集中的每个视频进行压缩编解码,到得到每个视频序列所对应的不同压缩质量视频;在压缩编解码时提取码流中的先验信息,包括编码帧的量化参数QP和运动矢量MV;
视频数据集中的各视频帧定义为高质量视频帧,压缩编解码后视频帧为低质量视频帧,得到高-低质量视频对;
对高-低质量视频对进行图像预处理,基于指定长度的连续视频序列的高-低质量视频对,以及对应的先验信息得到一个样本数据,基于一定数量的样本数据得到模型训练数据集;
步骤2,构建及训练视频增强网络模型;
所述视频增强网络模型包括循环结构和重建模块;
循环结构包括多个循环单元,每个循环单元对应着输入的低质量视频帧序列中的一帧,每个循环单元的输入包括:当前视频帧Ft和其相邻的两帧关键帧{Fp-,Fp+},以及上一个循环单元中输出的深度特征Ht-1;其中,关键帧根据先验信息中的量化参数QP进行选择;每个循环单元用于提取当前视频帧Ft的深度特征Ht;
所述循环单元包括光流估计模块、流场融合模块和多层级连的残差卷积模块;
光流估计模块的输入为{Fp-,Ft,Fp+},用于预测当前视频帧Ft的光流场;
流场融合模块的输入包括当前视频帧Ft的光流和上一视频帧的编码运动矢量场MVt-1,用于对编码运动矢量场和光流场进行融合,得到重建流场;
将重建流场与上一个循环单元输出的深度特征Ht-1进行对齐操作,再与当前视频帧Ft按通道维度进行拼接后输入多层级连的残差卷积模块,得到深度特征Ht;
所述重建模块包括核注意力特征重建模块、时域残差计算模块和多层卷积层;
其中,时域残差计算模块用于计算当前视频帧Ft与其前后相邻帧之间的时域残差,并将计算结果输入核注意力特征重建模块;
基于预置的损失函数对视频增强网络模型进行网络参数训练,当达到预置的训练结束条件时(比如训练次数达到上限、训练精度达到指定条件等),得到用于目标视频的视频增强网络模型。
进一步的,所述流场融合模块包括流场权重计算单元和流场重建单元;
其中,权重计算单元依次包括:3×3卷积核的卷积层,激活函数(优选LeakyReLU)、3×3卷积核的卷积层和Softmax函数;
权重计算单元的输入为当前视频帧Ft,Softmax函数用于输出编码运动矢量场的每个像素的运动矢量权重ω,从而得到光流场中每个像素的运动矢量的权重1ω,基于加权融合方式对输入的编码运动矢量场和光流场进行加权融合,得到重建流场。
进一步的,所述核注意力特征重建模块提取卷积核注意力图具体为:首先对时域残差和深度特征Ht进行通道拼接,再输入多层级连的卷积块,该多层级连的卷积块的输出再与时域残差和深度特征Ht的通道拼接结果相加得到卷积核注意力图;其中,卷积块包括依次连接的卷积层和激活函数。
进一步的,视频增强网络模型在网络参数训练时采用的损失函数为:
本发明提供的技术方案至少带来如下有益效果:
(1)本发明提出的重建流场通过引入编码先验弥补了传统光流的缺陷,实现了更好的运动补偿。使用轻量化的流场融合模块融合视频编码过程中码流先验信息中的运动矢量和由编码后的低质量视频帧估算得到的光流,得到一个面向高质量压缩视频重建的“重建流场”,用于视频重建过程中帧间的运动补偿。
(2)本发明提出了核注意力重建模块,用于解决图像上空间分布不均匀退化的重建问题。从视频压缩带来的空间上分布不均匀的退化这一现状出发,具有空间分布变化性的核注意力模块通过逐像素的估计不同的卷积核,从而实现从特征中重建出高质量视频帧,缓解压缩视频帧在空间上质量波动的情况。
(3)本发明提出了基于循环神经网络(RNN)的架构来处理压缩视频,从而更好的利用视频时域上的帧间互补信息。相比于先前方法中采用滑动窗口的策略只能利用到局部的时域信息,RNN可以对全局的时域信息加以利用,从而利用丰富的帧间互补信息提高每一帧的重建效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的视频增强网络模型的结构示意图,图中的“W”表示用计算出的流场进行运动补偿中的对齐(Warping)操作,“C”表示暗通道维度的拼接。
图2是本发明实施例中的流场融合模块结构示意图;
图3是本发明实施例中的流场融合处理结果示意图;
图4是本发明实施例中的核注意力特征增强模块的结构示意图;
图5是本发明实施例中,不同流场质量增强结果对比图;
图6是本发明实施例中的质量重建结果示意图;
图7是本发明实施例中,增强后的视频的性能分析图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提出了一种基于重建流场的压缩视频质量增强方法,其采用循环传播的结构以利用时域全局信息。对于输入序列中的每个时刻,首先估计出当前帧与相邻帧的光流场,融合从码流中提取出来的编码运动矢量场,得到本发明所提出的“重建流场”。随后,利用重建流场来对齐从上一个时刻中传播过来的深度特征。最后,利用本发明提出空间变换的核注意力模块从深度特征中重建出最终的高质量视频帧。
作为一种可能的实现方式,本发明实施例所提出的一种基于重建流场的压缩视频质量增强方法,包括以下步骤:
步骤1,首先对视频数据集进行HEVC压缩编解码并提取码流中的先验信息。
本发明实施例中,训练数据集由YUV格式的高质量无压缩视频序列构成,先使用HM16.5软件对每个视频序列在HEVC Low Delay-P的配置下进行压缩,得到每个视频序列所对应的压缩低质量视频。其中在压缩编解码的过程中提取并保存每一帧编码的量化参数(Quantization Parameters,QP)和相邻两帧之间的运动矢量(Motion Vector,MV),本实施例中通过修改HM16.5软件源码以保存每一帧编码的量化参数和相邻两帧之间的运动矢量。其中,基于图像块的低分辨率运动矢量插值为和原始图像等分辨率的编码运动矢量场,本发明中使用符号MV表示编码运动矢量场。
步骤2,对压缩编解码后得到高-低质量的视频对进行数据增广,以用于提升网络模型的训练数据集的丰富程度。
在训练阶段,首先把视频序列转换成PNG格式的帧序列,将每一帧随机裁剪成固定大小的图像块以增加训练数据丰富度并降低训练耗时。随后,对每个图像块进行随机翻转和旋转以进一步进行增广。本实施例中,训练时输入的裁切后的图像块尺寸被统一设置成128*128大小。
步骤3,构建及训练视频增强网络模型。
本发明采用的视频增强网络模型(循环神经网络模型)的总体结构如图1所示,其中,输入包括压缩后的视频序列{F1,F2,…,FT}和码流中提取得到的编码先验信息[MV,QP],将输入送进本发明提出的循环神经网络模型中,通过循环单元和重建模块从而得到高质量的视频帧序列
其中,fθ(·为整体的神经网络模型,θ为模型中的可学习参数,通过使用数据集训练完成对模型参数的优化,T表示视频序列的帧数量。
视频增强网络模型的循环结构在每个时间点t时完成对当前视频帧Ft的质量增强,首先将输入送进循环单元(Recurrent Unit),完成对输入特征的提取和聚合操作。其中循环神经网络的每个单元对应着输入序列中的一帧,每个单元接受当前帧Ft和相邻两帧关键帧{Fp-,Fp+},即当前帧Ft的前后相邻关键帧,以及从上一个循环单元中输出的深度特征Ht-1作为输入,其中关键帧根据先验信息中的量化参数QP进行选择。将图像帧{Fp-,Ft,Fp+}和深度特征Ht-1在特征维度进行拼接,通过多层级连的残差模块(Residual Block)的处理输出一个深度特征Ht,被用于最终结果的重建并传入到下一个循环单元中:
其中,φ(·)是本发明所提出循环神经网络中每个节点上的循环单元;ψ(·)是本发明提出的流场融合模块,用来融合码流中提取得到的第t帧的编码运动矢量场Mt-1和根据连续两帧{Ft-1,Ft}预测得到的光流场。
将码流中提取到的编码运动矢量场和输入视频帧中计算得到的光流场,通过如图2所示的轻量化的流场融合模块进行融合,完成对编码运动矢量场和光流场的融合,得到重建流场。尽管光流的估计更加精细,分辨率更高,但是在一些区域内,码流中易得的编码运动矢量场能有更加精确的估计,这是因为编码运动矢量场是基于原始的未压缩的高质量视频帧计算得到的,流场融合模块就是为了自适应的兼顾两种流场的优点。
本发明中,每个循环单元输出的特征中理论上包含当前时刻之前所有帧的信息,为了能够充分利用这些信息,本发明提出了流场融合模块来生成重建流场并对不同时刻空间上存在运动的特征进行运动补偿。通过一个图2所示的卷积层和激活函数的运算,由输入的连续两帧估计出一个权重图,对每个像素上的两个运动矢量进行一个线性组合:
即本发明中的流场融合模块包括流场权重计算单元和流场重建单元,权重计算单元依次包括:3×3卷积核的卷积层,LeakyReLU激活函数、3×3卷积核的卷积层和Softmax函数,权重计算单元的输入为当前帧Ft,Softmax函数用于输出权重ω,流场重建单元用于根据公式(3)对输入流场融合模块的编码运动矢量场和光流场进行加权融合,重建流场。流场融合模块的处理示意图如图3所示。
在循环结构的任一时刻t内,完成运动补偿和特征融合后,将深度特征输入到重建模块(Reconstruction Module)中,用来从每个循环单元中输出的深度特征中重建出最终的高质量视频帧。重建模块包括核注意力特征重建模块、时域残差计算模块和卷积层,其中,核注意力特征重建模块的输入包括时域残差计算模块所计算的输入帧之间的时域残差(当前帧与前后相邻帧之间的时域残差),以及循环单元所输出的当前帧的特征Ht,核注意力特征重建模块的输出再经多层卷积层恢复出通道数为3的RGB视频帧,得到当前帧的残差图像,最后,将当前帧的残差图像与当前帧求和得到当前帧的高质量视频帧。
如图4所示,本发明实施例中,核注意力特征重建模块首先对相邻帧间的时域残差(即时域差分)和输入的特征Ht进行通道拼接,再通过多层级连的卷积块(卷积层和激活函数)对输入的拼接后的深度特征处理得到级连卷积块的输出,该级连卷积块的输出再与级连卷积块的输入相加得到卷积核注意力图(简称核注意力图),再基于卷积核注意力图对特征Ht进行卷积运算,得到核注意力特征重建模块的输出。
本发明的核注意力特征增强模块是为了在重建阶段让网络关注于更需要恢复的质量波动区域。这一模块的优势具有两方面:第一方面通过所计算的时域残差的引导,突出了特征中对应的对重建更有挑战性的质量波动区,以着重进行重建恢复;另一方面在每个像素位置上均有不同的卷积核可以自适应的利用到每个像素周围的邻域信息。
在本发明的重建模块中,首先计算输入帧之间的时域残差,通过时域残差可以突出输入视频每一帧内的质量波动区域,从而用于后续注意力机制的引导。随后在时域残差的引导下,通过残差卷积神经网络模块估计出一个逐像素的卷积核注意力图,其尺寸为H×W×k2C。这个卷积核注意力图可以直接应用于尺寸为H×W×C的深度特征上,即循环单元所输出的特征Ht,具体的逐像素卷积操作如下:
其中,Kt|(x,y,c)∈Rk×k是位置(x,y,c)处的卷积核,Ht|(x,y,c)代表深度特征Ht中对应位置的一个k×k邻域,代表卷积运算操作。作为输出特征被用作最终的高质量视频帧重建。优选的,本实施例中,核注意力图中每个卷积核的大小取k=5。H×W表示图的空间分辨率,C表示通道数。(x,y)表示像素坐标。
最后,将核注意力特征重建模块所输出的深度特征通过n(n>0)层卷积神经网络完成从通道数为C的深度特征中恢复出通道数为3的RGB视频帧,得到每一帧的残差图像。对于输入视频的每一帧,都将特征中重建出的残差图像与输入的压缩低质量图像求和得到输出的高质量视频帧。优选的,本实施例中,卷积层数取n=3,深度特征的特征通道数取C=64。
基于预置的损失函数对所构建的视频增强网络模型进行训练(优化模型中的可学习参数θ),当达到预置的训练结束条件时,得到训练好的视频增强网络模型。
对待进行质量增强的视频,基于视频增强网络模型的输入帧数,读取对应帧数的一段连续视频序列帧,并提取每一帧的相邻两帧关键帧{Fp-,Fp+}组成每一帧的输入图像{Fp-,Ft,Fp+},将各帧的输入图像输入训练好的视频增强网络模型,基于其输出得到当前各帧的视频质量增强结果。优选的,本发明实施例中,整个网络通过端到端的方式进行优化,损失函数部分计算了网络的输出增强后的帧序列与原始未经压缩的帧序列之间的距离损失,用于表示预测值和真值之间的差异大小,并通过梯度反向传播来优化神经网络模型。其中距离损失常采用图像复原任务中常用的Charbonnier Loss:
本发明的视频增强网络模型中,循环结构用于接收长序列的视频帧以利用视频中的全局时域信息,增强后输出与输入等长的视频帧序列。通过循环单元和重建模块从而得到高质量的视频帧序列每个循环单元输出的特征中理论上包含当前时刻之前所有帧的信息,为了能够充分利用这些信息,本发明的流场融合模块来生成重建流场并对不同时刻空间上存在运动的特征进行运动补偿。由输入的连续两帧估计出一个权重图,对每个像素上的两个运动矢量进行一个线性组合。在循环结构的任一时刻t内,完成运动补偿和特征融合后,将深度特征输入重建模块中,用来从每个循环模块中输出的深度特征中重建出最终的高质量视频帧。同时为了便于网络训练,对于输入视频的每一帧,都将特征中重建出的图像与输入的压缩低质量图像求和得到输出的高质量视频帧,构建全局的残差连接。整个网络通过端到端的方式进行优化,损失函数部分计算了网络的输出增强后的帧序列与原始未经压缩的帧序列之间的距离损失。
本发明的视频增强网络模型,在每个时间节点上,循环单元接受当前帧与相邻两帧关键帧作为输入,同时结合上一个时间节点传播过来的深度特征(初始值为预设值,例如全零矩阵),并通过对齐操作对上一个时间节点传播过来的深度特征和流场融合模块的输出特征进行对齐后(即通过所提出的重建流场进行对齐),再与当前帧按通道进行拼接后输入多层级连的残差卷积模块,通过一系列残差卷积模块来融合输入的特征并生成当前时间节点的隐层特征用于传播到下一个时间节点和当前帧的重建。最后在重建阶段,先使用本发明所提出的核注意力模块在时域残差的引导下对深度特征进行处理,随后使用卷积层重建出质量增强残差,与输入相结合得到最终重建的高质量视频帧,抑制掉了压缩带来的噪声、伪影和模糊等影响视觉效果的因素,重建出了一些高频纹理细节,提高了用户对网络视频等的观看体验。本发明利用到了压缩编码时产生的先验,提高了视频帧间对齐的精度,既在每一帧内的空间维度上,也在序列帧间的时间维度上都取得了更好的重建效果。对比使用不同流场进行压缩视频质量增强重建的结果,如图5所示,图5分别展示了使用光流、编码运动矢量场和本发明提出的重建流场的融合结果和重建结果,其中第一列中的三种流场都按照光流颜色方案做可视化展示,第二列和第三列分别是本发明们最终的重建结果和重建结果与原始未压缩视频帧之间的残差图,可以看到使用本发明所提出的重建流场取得了最好的重建结果。
基于本发明所提出的视频增强网络模型的压缩视频质量增强处理,视频的质量得到显著提升。本发明一方面可以去除压缩视频中大量的压缩伪影、噪声等影响视频质量的因素的同时恢复出一些压缩过程中丢失的高频纹理细节,如图6所示的质量重建结果图;另一方面在时域维度上,本发明所提出的方法也可以降低视频时间上的质量波动,使得重建结果的质量更加稳定,如图7所示。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (6)
1.一种基于重建流场的压缩视频质量增强方法,其特征在于,所述方法包括:
步骤1,构建模型训练数据集:
对无压缩视频序列构成的视频数据集中的每个视频进行压缩编解码,到得到每个视频序列所对应的不同压缩质量视频;在压缩编解码时提取码流中的先验信息,包括编码帧的量化参数QP和运动矢量MV;
视频数据集中的各视频帧定义为高质量视频帧,压缩编解码后视频帧为低质量视频帧,得到高-低质量视频对;
对高-低质量视频对进行图像预处理,基于指定长度的连续视频序列的高-低质量视频对,以及对应的先验信息得到一个样本数据,基于一定数量的样本数据得到模型训练数据集;
步骤2,构建及训练视频增强网络模型;
所述视频增强网络模型包括循环结构和重建模块;
循环结构包括多个循环单元,每个循环单元对应着输入的低质量视频帧序列中的一帧,每个循环单元的输入包括:当前视频帧Ft和其相邻的两帧关键帧{Fp-,Fp+},以及上一个循环单元中输出的深度特征Ht-1;其中,关键帧根据先验信息中的量化参数QP进行选择;每个循环单元用于提取当前视频帧Ft的深度特征Ht;
所述循环单元包括光流估计模块、流场融合模块和多层级连的残差卷积模块;
光流估计模块的输入为{Fp-,Ft,Fp+},用于预测当前视频帧Ft的光流场;
流场融合模块的输入包括当前视频帧Ft的光流和上一视频帧的编码运动矢量场MVt-1,用于对编码运动矢量场和光流场进行融合,得到重建流场;
将重建流场与上一个循环单元输出的深度特征Ht-1进行对齐操作,再与当前视频帧Ft按通道维度进行拼接后输入多层级连的残差卷积模块,得到深度特征Ht;
所述重建模块包括核注意力特征重建模块、时域残差计算模块和多层卷积层;
其中,时域残差计算模块用于计算当前视频帧Ft与其前后相邻帧之间的时域残差,并将计算结果输入核注意力特征重建模块;
基于预置的损失函数对视频增强网络模型进行网络参数训练,当达到预置的训练结束条件时,得到用于目标视频的视频增强网络模型。
2.如权利要求1所述的方法,其特征在于,所述流场融合模块包括流场权重计算单元和流场重建单元;
其中,权重计算单元依次包括:3×3卷积核的卷积层,激活函数、3×3卷积核的卷积层和Softmax函数;
权重计算单元的输入为当前视频帧Ft,Softmax函数用于输出编码运动矢量场的每个像素的运动矢量权重ω,从而得到光流场中每个像素的运动矢量的权重1ω,基于加权融合方式对输入的编码运动矢量场和光流场进行加权融合,得到重建流场。
3.如权利要求1所述的方法,其特征在于,所述核注意力特征重建模块提取卷积核注意力图具体为:首先对时域残差和深度特征Ht进行通道拼接,再输入多层级连的卷积块,该多层级连的卷积块的输出再与时域残差和深度特征Ht的通道拼接结果相加得到卷积核注意力图;其中,卷积块包括依次连接的卷积层和激活函数。
5.如权利要求4所述的方法,其特征在于,常量ε的数量级设置为10-6。
6.如权利要求1所述的方法,其特征在于,步骤1中,对高-低质量视频对进行图像预处理包括:
基于期望的图像格式,对高-低质量视频的视频帧进行图像格式转换,再对转换后的各视频帧图像进行数据增广处理;
对数据增广后的各视频帧,随机裁剪成固定大小的图像块,再对每个图像块进行随机翻转和旋转,以每个图像块所对应的高-低质量视频图像,以及先验信息得到一个样本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310059698.3A CN116012272A (zh) | 2023-01-19 | 2023-01-19 | 一种基于重建流场的压缩视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310059698.3A CN116012272A (zh) | 2023-01-19 | 2023-01-19 | 一种基于重建流场的压缩视频质量增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116012272A true CN116012272A (zh) | 2023-04-25 |
Family
ID=86026748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310059698.3A Pending CN116012272A (zh) | 2023-01-19 | 2023-01-19 | 一种基于重建流场的压缩视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996697A (zh) * | 2023-07-24 | 2023-11-03 | 南通大学 | 一种面向hevc编码框架的视频恢复方法 |
-
2023
- 2023-01-19 CN CN202310059698.3A patent/CN116012272A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996697A (zh) * | 2023-07-24 | 2023-11-03 | 南通大学 | 一种面向hevc编码框架的视频恢复方法 |
CN116996697B (zh) * | 2023-07-24 | 2024-02-23 | 南通大学 | 一种面向hevc编码框架的视频恢复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Comisr: Compression-informed video super-resolution | |
Islam et al. | Image compression with recurrent neural network and generalized divisive normalization | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
US11074673B2 (en) | Multi-level temporal resolution increase of video | |
Ma et al. | CVEGAN: a perceptually-inspired gan for compressed video enhancement | |
Hu et al. | Fvc: An end-to-end framework towards deep video compression in feature space | |
CN113850718A (zh) | 一种基于帧间特征对齐的视频同步时空超分方法 | |
CN116012272A (zh) | 一种基于重建流场的压缩视频质量增强方法 | |
Hu et al. | Store and fetch immediately: Everything is all you need for space-time video super-resolution | |
Hu et al. | Deep inter prediction with error-corrected auto-regressive network for video coding | |
Lin et al. | Multiple hypotheses based motion compensation for learned video compression | |
Choi et al. | HiRN: Hierarchical recurrent neural network for video super-resolution (VSR) using two-stage feature evolution | |
Wang et al. | Bi-RSTU: Bidirectional recurrent upsampling network for space-time video super-resolution | |
CN111866511B (zh) | 基于卷积长短期记忆神经网络的视频损伤修复方法 | |
CN113822801A (zh) | 基于多分支卷积神经网络的压缩视频超分辨率重建方法 | |
CN112669234A (zh) | 基于神经网络的高分辨率图像复原方法及系统 | |
Li et al. | Super-resolution network with dynamic cleanup and temporal–spatial attention for compressed videos | |
Fang et al. | Priors guided extreme underwater image compression for machine vision and human vision | |
Chen et al. | A new framework based on spatio-temporal information for enhancing compressed video | |
Zhang et al. | PeQuENet: Perceptual quality enhancement of compressed video with adaptation-and attention-based network | |
Sheng et al. | LVVC: A Learned Versatile Video Coding Framework for Efficient Human-Machine Vision | |
Gul et al. | Stereo Image Compression Using Recurrent Neural Network With A Convolutional Neural Network-Based Occlusion Detection | |
Montajabi | Deep Learning Methods for Codecs | |
Cheng et al. | Nonlocal-guided enhanced interaction spatial-temporal network for compressed video super-resolution | |
Ibraheem et al. | Enhancing Versatile Video Coding Efficiency via Post-Processing of Decoded Frames Using Residual Network Integration in Deep Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |