CN113691817A

CN113691817A - 一种跨帧信息融合的屏幕内容视频质量增强网络

Info

Publication number: CN113691817A
Application number: CN202110966344.8A
Authority: CN
Inventors: 叶茂; 黄家旺; 崔金钟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-23
Anticipated expiration: 2041-08-23
Also published as: CN113691817B

Abstract

本发明公开了一种跨帧信息融合的屏幕内容视频质量增强网络，包括特征提取模块、跨帧信息交叉融合模块、差分模块和重建模块，以及两个3×3的卷积模块；特征提取模块对输入帧进行特征提取；跨帧交叉信息融合模块对特征信息进行融合；将目标帧输入3×3卷积模块得到特征图

将特征信息输入另一个3×3卷积模块得到特征图F^U；对F^U和

执行元素减法操作，得到高频特征输入差分模块；差分模块对高频特征信息进行恢复；重建模块用于对输入特征进行重建；然后将重建帧与目标帧相加后得到增强后的目标帧。本发明对相邻帧的信息进行充分挖掘，并采用跨帧信息交叉融合模块来充分地利用帧间信息，使得压缩视频的主观和客观质量都得到明显的增强。

Description

一种跨帧信息融合的屏幕内容视频质量增强网络

技术领域

本发明属于图像处理技术领域，特别涉及一种跨帧信息融合的屏幕内容视频质量增强网络。

背景技术

近年来，随着各种在线学习平台以及游戏直播行业的兴起，屏幕内容视频这一特殊类型的视频逐渐受到人们的关注。由于视频在传输过程中必须使用压缩软件进行压缩，而压缩过后的视频会产生压缩伪影，因此各种压缩视频的质量增强方案得到了工业界和学术界的广泛研究。

然而目前并没有一个具体的方案针对压缩后的屏幕内容视频进行质量增强，因此本方案提出了一个基于跨帧信息融合的压缩屏幕内容视频质量增强网络，抛弃传统的基于光流和基于可变形卷积的帧间运动补偿方案，我们采用跨帧信息交叉融合模块来充分地利用帧间信息来提高压缩帧的质量。

公开号为CN107481209A的专利申请公开了一种基于卷积神经网络的图像或视频质量增强方法。首先设计了两个用于视频(或图像)质量增强的卷积神经网络，两个网络具有不同的计算复杂度；然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练；根据实际需要，选择一个计算复杂度较为合适的卷积神经网络，将质量待增强的图像或视频输入到选择的网络中；最后，该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量；用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。该申请设计了两个不同复杂度的卷积神经网络，由用户根据设备的情况来选择网络，两个网络的区别只是卷积神经网络的深度不同，仅仅通过加深网络深度来提高质量增强效果的方案是不可行的，而且没有针对图像视频的特点设计网络，即网络未能利用视频帧与帧之间的时间相关性，因此该方法质量增强的效果有限。

公开号为CN108900848A的专利申请公开了一种基于自适应可分离卷积的视频质量增强方法，将自适应可分离卷积作为第一个模块应用于网络模型当中，将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核，参数量由n²变为n+n。第二，利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计，通过选取连续的两帧作为网络输入，对于每两张连续输入可以得到一对可分离的二维卷积核，而后该2维卷积核被展开成四个1维卷积核，得到的1维卷积核随输入的改变而改变，提高网络自适应性。该发明用一维卷积核取代二维卷积核，使得网络训练模型参数减少，执行效高。该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块，其结构是在传统的对称编解码模块网络的基础上，把最后一个解码模块替换为一个分离卷积模块，虽然有效的降低了模型的参数，但是质量增强的效果还有待进一步的提高。

公开号CN108307193A的专利申请公开了一种有损压缩视频的多帧质量增强方法及装置，包括：针对解压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧；所述m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。在具体应用中，可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法减轻了视频流播放过程中多帧之间的质量波动，同时使得有损压缩后视频中的各帧质量得到增强。虽然该发明考虑到了相邻帧间的时间信息，但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet)，其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐，光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的，因此该发明质量增强的效果仍有限。

随着屏幕内容视频在网络中的占比越来越大，不可避免地要对屏幕内容视频进行压缩编码来降低网络传输过程中的码率，但是码率的降低不可避免的导致了视频主观和客观质量的下降。

发明内容

本发明的目的在于克服现有技术的不足，提供一种跨帧信息融合的屏幕内容视频质量增强网络，本发明对相邻帧的信息进行充分挖掘，并采用跨帧信息交叉融合模块来充分地利用帧间信息，使得压缩视频的主观和客观质量都得到明显的增强的。

本发明的目的是通过以下技术方案来实现的：一种跨帧信息融合的屏幕内容视频质量增强网络，包括特征提取模块、跨帧信息交叉融合模块、差分模块和重建模块，以及两个3×3的卷积模块；

屏幕内容视频质量增强网络的输入包括目标帧

前向参考帧

和后向参考帧

特征提取模块用于对输入帧进行特征提取，得到特征信息F_t-1，F_t-1，F_t-1；

跨帧交叉信息融合模块用于对特征信息F_t-1，F_t-1，F_t-1进行融合；

将目标帧

输入3×3的卷积模块，得到特征图

将特征信息F_t-1，F_t-1，F_t-1输入另一个3×3的卷积模块，得到特征图F^U；对F^U和

执行元素减法操作，将得到的高频特征F^U ^-P输入差分模块；

差分模块用于对高频特征F^U-P信息进行恢复；

将差分模块恢复特征F^dif与特征图F^U使用元素加法操作来融合，并将融合特征和跨帧交叉信息融合模块的输出特征同时输入重建模块；

重建模块用于对两个输入特征进行重建；然后将重建帧与目标帧

相加后得到增强后的目标帧

进一步地，所述特征提取模块使用基于跳跃连接的UNet网络，特征提取网络的输出特征表示为：

其中，F_t-1，F_t，F_t+1表示前向参考帧、目标帧和后向参考帧

输入到特征提取网络U(·)得到的特征映射。

进一步地，所述跨帧信息交叉融合模块由三部分组成，每部分由两个卷积核为3的卷积单元和位于两个卷积单元之间的激活函数ReLU组成，前向参考帧、目标帧和后向参考帧的三个特征F_t-1、F_t、F_t+1分别输入到三部分，三部分的输出分别为

分别通过以下方式计算得到：

最后得到融合后的特征F_fused表示为：

F_fused＝C({F_t-1，F_t，F_t+1})

其中C(·)表示跨帧信息交叉融合模块。

进一步地，所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层，码器由两个5×5、一个1×1的卷积层组成；输入的高频特征F^U-P首先通过编码器来减小图像的大小，然后使用三个注意力单元来学习权重特征图W_t；注意力单元得到的W_t先经过上采样操作放大尺寸，然后和第一个5x5的卷积层进行连接操作；最后，使用1×1卷积层进行细节恢复，得到F^dif。

进一步地，所述重建模块由6个3×3的卷积层组成；除了最后一个卷积层外，每个卷积层后面都有一个ReLU激活函数。

本发明的有益效果是：提出了一个基于跨帧信息融合的压缩屏幕内容视频质量增强网络，抛弃传统的基于光流和基于可变形卷积的帧间运动补偿方案，对相邻帧的信息进行充分的挖掘，并采用跨帧信息交叉融合模块来充分地利用帧间信息，使得压缩视频的主观和客观质量都得到明显的增强。

附图说明

图1为本发明的跨帧信息融合的屏幕内容视频质量增强网络的结构示意图；

图2为本发明的交叉融合模块的结构图；

图3为本发明的差分模块的整体内部结构框架；

图4为注意力单元的结构图；

图5为视频序列Robots和SunLight在QP＝37时的主观质量表现；

图6为视频序列Robots中第50-69帧的PSNR波动曲线。蓝色线为HM16.20-SCM8.8在LDMS下QP＝37时压缩后的PSNR波动。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种跨帧信息融合的屏幕内容视频质量增强网络，目的是根据原始视频帧

的压缩帧

推断出高质量的帧

包括特征提取模块(FeatureExtraction Module)、跨帧信息交叉融合模块(CrossFusion Module)、差分模块(Differential Module)和重建模块(Reconstruction Module)，以及两个3×3的卷积模块Conv3×3；

屏幕内容视频质量增强网络的输入包括目标帧

前向参考帧

和后向参考帧

三个输入帧均为压缩后的低质量帧；

将目标帧

输入3×3的卷积模块，得到特征图

执行元素减法操作，将得到的高频特征F^U ^-P输入差分模块；

差分模块用于对高频特征F^U-P信息进行恢复；

将差分模块恢复特征F^dif与特征图F^U使用元素加法操作来融合，并将融合特征和跨帧交叉信息融合模块的输出特征同时通过通道连接操作(concatenate)输入重建模块；

相加后得到增强后的目标帧

由于屏幕内容视频包含大量的重复块和大面积的平面区域，因此特征提取模块使用基于跳跃连接的UNet网络。与传统视频相比，即使在上下采样之后，也不会丢失太多的详细信息，也有助于减少模型的计算量。特征提取网络的输出特征表示为：

其中，F_t-1，F_t，F_t+1表示前向参考帧、目标帧和后向参考帧

输入到特征提取网络U(·)得到的特征映射。

如图2所示，所述跨帧信息交叉融合模块由三部分组成，每部分由两个卷积核为3的卷积单元和位于两个卷积单元之间的激活函数ReLU组成，前向参考帧、目标帧和后向参考帧的三个特征F_t-1、F_t、F_t+1分别输入到三部分，三部分的输出分别为

分别通过以下方式计算得到：

最后得到融合后的特征F_fused表示为：

F_fused＝C({F_t-1，F_t，F_t+1})

其中C(·)表示跨帧信息交叉融合模块。跨帧信息交叉融合模块不采用传统的前后帧对齐，不仅可以学习前后参考帧和目标帧的特征，还可以促进特征之间的信息交换，从而更好地适应屏幕内容视频。

如图3所示，所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层，编码器由两个5×5、一个1×1的卷积层组成；输入的高频特征F^U-P首先通过编码器来减小图像的大小以获得更深的细节，然后使用三个注意力单元来学习权重特征图W_t，以便模块可以更多地关注输入的高频特征。注意力单元的结构如图4所示。所述注意力单元的输入分别通过3×3、5×5、7×7的卷积层后相加，然后通过通道注意机制获得权重特征图W_t。注意力单元得到的W_t，先经过上采样操作(Upsampling)放大尺寸，然后和前面第一个5x5的卷积层进行连接操作(concatenate)。最后，使用1×1卷积层进行细节恢复，得到F^dif。F^dif的计算过程可以被表示为：

F^dif＝D({F^U-P})

其中F^dif表示差分模块的输出特征，D(·)表示差分模块。

最后使用元素加法操作来融合F^dif和F^U。

所述重建模块由6个3×3的卷积层组成；除了最后一个卷积层外，每个卷积层后面都有一个ReLU激活函数。

网络的损失函数：在本发明的方法中，所有模块构成的网络均采用端到端的方式联合训练，且网络不需要先训练收敛某一子网络，因此损失函数只由一项组成。使用L₂-norm作为损失函数：

下面通过具体实验进一步验证本发明的增强效果。分别定性地和定量地评估本发明的有效性，其中定量评估则根据ΔPSNR和ΔSSIM与MFQE2.0和STDF-R1进行比较。它们是目前最先进的压缩视频质量增强方法。定量评估：表1给出了ΔPSNR和ΔSSIM在四个QP点上13个测试序列的所有帧上的平均结果。

表1四个QP点上13个测试序列的ΔPSNR和ΔSSIM((×10^-4)的总体比较

可以看出，本发明方法始终优于其他的视频质量增强方法。具体来说，在QP＝37时，本发明的最大ΔPSNR值达到了1.21dB。平均ΔPSNR为0.77dB，比MFQE 2.0(0.32dB)高出140％，比STDF(0.64dB)高出20％。在其他的QP点时，本发明在ΔPSNR和ΔSSIM上也都优于其他的方法。此外，我们还用BD-rate的降低来对比了网络的性能，如表2所示，本发明的网络的BD-rate平均降低了13.43％，优于目前最好的MFQE 2.0(8.02％)和STDF-R1(11.92％)。

表2测试序列相较于HEVC-SCC基准下降的BD-rate(％)在QP＝22、27、32和37四个点上计算得到

定性评估：图5展示了序列Robots和SunLight在QP＝37时的主观质量表现。图中，Compressed frame表示压缩后的目标帧，即要增强的帧。Compressed是从Compressedframe图中截取的一部分，指明损失产生的地方。Raw表示压缩前的目标帧。表示从图中可以看出，本发明相比于MFQE 2.0和STDF-R1的方法可以减少更多的压缩伪影，实现了更好的视觉体验。

STDF和MFQE2.0指出无损的视频经过编码器压缩编码过后，视频帧的质量会产生较大的质量波动，如图6所示。

可以看出，高质量帧与低质量帧之间的PSNR波动依然非常大。红色的折线表示通过本发明的方法对压缩帧进行质量增强后的PSNR波动，可以看出本发明的方法相较于MFQE2.0和STDF均有明显的提升，这也说明了本发明的方法可以更好地利用帧间的信息进行质量增强。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，包括特征提取模块、跨帧信息交叉融合模块、差分模块和重建模块，以及两个3×3的卷积模块；

屏幕内容视频质量增强网络的输入包括目标帧

前向参考帧

和后向参考帧

将目标帧

输入3×3的卷积模块，得到特征图

执行元素减法操作，将得到的高频特征F^U-P输入差分模块；

差分模块用于对高频特征F^U-P信息进行恢复；

相加后得到增强后的目标帧

2.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，所述特征提取模块使用基于跳跃连接的UNet网络，特征提取网络的输出特征表示为：

其中，F_t-1，F_t，F_t+1表示前向参考帧、目标帧和后向参考帧

输入到特征提取网络U(·)得到的特征映射。

3.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，所述跨帧信息交叉融合模块由三部分组成，每部分由两个卷积核为3的卷积单元和位于两个卷积单元之间的激活函数ReLU组成，前向参考帧、目标帧和后向参考帧的三个特征F_t-1、F_t、F_t+1分别输入到三部分，三部分的输出分别为

分别通过以下方式计算得到：

最后得到融合后的特征F_fused表示为：

F_fused＝C({F_t-1，F_t，F_t+1})

其中C(·)表示跨帧信息交叉融合模块。

4.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层，码器由两个5×5、一个1×1的卷积层组成；输入的高频特征F^U-P首先通过编码器来减小图像的大小，然后使用三个注意力单元来学习权重特征图W_t；注意力单元得到的W_t先经过上采样操作放大尺寸，然后和第一个5x5的卷积层进行连接操作；最后，使用1×1卷积层进行细节恢复，得到F^dif。

5.根据权利要求4所述的一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，所述注意力单元的输入分别通过3×3、5×5、7×7的卷积层后相加，然后通过通道注意机构获得权重特征图W_t。

6.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络，其特征在于，所述重建模块由6个3×3的卷积层组成；除了最后一个卷积层外，每个卷积层后面都有一个ReLU激活函数。