CN113691817A - 一种跨帧信息融合的屏幕内容视频质量增强网络 - Google Patents
一种跨帧信息融合的屏幕内容视频质量增强网络 Download PDFInfo
- Publication number
- CN113691817A CN113691817A CN202110966344.8A CN202110966344A CN113691817A CN 113691817 A CN113691817 A CN 113691817A CN 202110966344 A CN202110966344 A CN 202110966344A CN 113691817 A CN113691817 A CN 113691817A
- Authority
- CN
- China
- Prior art keywords
- frame
- cross
- module
- information
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种跨帧信息融合的屏幕内容视频质量增强网络。
背景技术
近年来,随着各种在线学习平台以及游戏直播行业的兴起,屏幕内容视频这一特殊类型的视频逐渐受到人们的关注。由于视频在传输过程中必须使用压缩软件进行压缩,而压缩过后的视频会产生压缩伪影,因此各种压缩视频的质量增强方案得到了工业界和学术界的广泛研究。
然而目前并没有一个具体的方案针对压缩后的屏幕内容视频进行质量增强,因此本方案提出了一个基于跨帧信息融合的压缩屏幕内容视频质量增强网络,抛弃传统的基于光流和基于可变形卷积的帧间运动补偿方案,我们采用跨帧信息交叉融合模块来充分地利用帧间信息来提高压缩帧的质量。
公开号为CN107481209A的专利申请公开了一种基于卷积神经网络的图像或视频质量增强方法。首先设计了两个用于视频(或图像)质量增强的卷积神经网络,两个网络具有不同的计算复杂度;然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练;根据实际需要,选择一个计算复杂度较为合适的卷积神经网络,将质量待增强的图像或视频输入到选择的网络中;最后,该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量;用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。该申请设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选择网络,两个网络的区别只是卷积神经网络的深度不同,仅仅通过加深网络深度来提高质量增强效果的方案是不可行的,而且没有针对图像视频的特点设计网络,即网络未能利用视频帧与帧之间的时间相关性,因此该方法质量增强的效果有限。
公开号为CN108900848A的专利申请公开了一种基于自适应可分离卷积的视频质量增强方法,将自适应可分离卷积作为第一个模块应用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变而改变,提高网络自适应性。该发明用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效高。该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块,其结构是在传统的对称编解码模块网络的基础上,把最后一个解码模块替换为一个分离卷积模块,虽然有效的降低了模型的参数,但是质量增强的效果还有待进一步的提高。
公开号CN108307193A的专利申请公开了一种有损压缩视频的多帧质量增强方法及装置,包括:针对解压缩的视频流的第i帧,采用所述第i帧关联的m个帧对所述第i帧进行质量增强,以播放质量增强后的第i帧;所述m个帧属于所述视频流中的帧,且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值;m为大于1的自然数。在具体应用中,可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法减轻了视频流播放过程中多帧之间的质量波动,同时使得有损压缩后视频中的各帧质量得到增强。虽然该发明考虑到了相邻帧间的时间信息,但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐,光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有限。
随着屏幕内容视频在网络中的占比越来越大,不可避免地要对屏幕内容视频进行压缩编码来降低网络传输过程中的码率,但是码率的降低不可避免的导致了视频主观和客观质量的下降。
发明内容
本发明的目的在于克服现有技术的不足,提供一种跨帧信息融合的屏幕内容视频质量增强网络,本发明对相邻帧的信息进行充分挖掘,并采用跨帧信息交叉融合模块来充分地利用帧间信息,使得压缩视频的主观和客观质量都得到明显的增强的。
本发明的目的是通过以下技术方案来实现的:一种跨帧信息融合的屏幕内容视频质量增强网络,包括特征提取模块、跨帧信息交叉融合模块、差分模块和重建模块,以及两个3×3的卷积模块;
特征提取模块用于对输入帧进行特征提取,得到特征信息Ft-1,Ft-1,Ft-1;
跨帧交叉信息融合模块用于对特征信息Ft-1,Ft-1,Ft-1进行融合;
差分模块用于对高频特征FU-P信息进行恢复;
将差分模块恢复特征Fdif与特征图FU使用元素加法操作来融合,并将融合特征和跨帧交叉信息融合模块的输出特征同时输入重建模块;
进一步地,所述特征提取模块使用基于跳跃连接的UNet网络,特征提取网络的输出特征表示为:
进一步地,所述跨帧信息交叉融合模块由三部分组成,每部分由两个卷积核为3的卷积单元和位于两个卷积单元之间的激活函数ReLU组成,前向参考帧、目标帧和后向参考帧的三个特征Ft-1、Ft、Ft+1分别输入到三部分,三部分的输出分别为分别通过以下方式计算得到:
最后得到融合后的特征Ffused表示为:
Ffused=C({Ft-1,Ft,Ft+1})
其中C(·)表示跨帧信息交叉融合模块。
进一步地,所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层,码器由两个5×5、一个1×1的卷积层组成;输入的高频特征FU-P首先通过编码器来减小图像的大小,然后使用三个注意力单元来学习权重特征图Wt;注意力单元得到的Wt先经过上采样操作放大尺寸,然后和第一个5x5的卷积层进行连接操作;最后,使用1×1卷积层进行细节恢复,得到Fdif。
进一步地,所述重建模块由6个3×3的卷积层组成;除了最后一个卷积层外,每个卷积层后面都有一个ReLU激活函数。
本发明的有益效果是:提出了一个基于跨帧信息融合的压缩屏幕内容视频质量增强网络,抛弃传统的基于光流和基于可变形卷积的帧间运动补偿方案,对相邻帧的信息进行充分的挖掘,并采用跨帧信息交叉融合模块来充分地利用帧间信息,使得压缩视频的主观和客观质量都得到明显的增强。
附图说明
图1为本发明的跨帧信息融合的屏幕内容视频质量增强网络的结构示意图;
图2为本发明的交叉融合模块的结构图;
图3为本发明的差分模块的整体内部结构框架;
图4为注意力单元的结构图;
图5为视频序列Robots和SunLight在QP=37时的主观质量表现;
图6为视频序列Robots中第50-69帧的PSNR波动曲线。蓝色线为HM16.20-SCM8.8在LDMS下QP=37时压缩后的PSNR波动。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种跨帧信息融合的屏幕内容视频质量增强网络,目的是根据原始视频帧的压缩帧推断出高质量的帧包括特征提取模块(FeatureExtraction Module)、跨帧信息交叉融合模块(CrossFusion Module)、差分模块(Differential Module)和重建模块(Reconstruction Module),以及两个3×3的卷积模块Conv3×3;
特征提取模块用于对输入帧进行特征提取,得到特征信息Ft-1,Ft-1,Ft-1;
跨帧交叉信息融合模块用于对特征信息Ft-1,Ft-1,Ft-1进行融合;
差分模块用于对高频特征FU-P信息进行恢复;
将差分模块恢复特征Fdif与特征图FU使用元素加法操作来融合,并将融合特征和跨帧交叉信息融合模块的输出特征同时通过通道连接操作(concatenate)输入重建模块;
由于屏幕内容视频包含大量的重复块和大面积的平面区域,因此特征提取模块使用基于跳跃连接的UNet网络。与传统视频相比,即使在上下采样之后,也不会丢失太多的详细信息,也有助于减少模型的计算量。特征提取网络的输出特征表示为:
如图2所示,所述跨帧信息交叉融合模块由三部分组成,每部分由两个卷积核为3的卷积单元和位于两个卷积单元之间的激活函数ReLU组成,前向参考帧、目标帧和后向参考帧的三个特征Ft-1、Ft、Ft+1分别输入到三部分,三部分的输出分别为分别通过以下方式计算得到:
最后得到融合后的特征Ffused表示为:
Ffused=C({Ft-1,Ft,Ft+1})
其中C(·)表示跨帧信息交叉融合模块。跨帧信息交叉融合模块不采用传统的前后帧对齐,不仅可以学习前后参考帧和目标帧的特征,还可以促进特征之间的信息交换,从而更好地适应屏幕内容视频。
如图3所示,所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层,编码器由两个5×5、一个1×1的卷积层组成;输入的高频特征FU-P首先通过编码器来减小图像的大小以获得更深的细节,然后使用三个注意力单元来学习权重特征图Wt,以便模块可以更多地关注输入的高频特征。注意力单元的结构如图4所示。所述注意力单元的输入分别通过3×3、5×5、7×7的卷积层后相加,然后通过通道注意机制获得权重特征图Wt。注意力单元得到的Wt,先经过上采样操作(Upsampling)放大尺寸,然后和前面第一个5x5的卷积层进行连接操作(concatenate)。最后,使用1×1卷积层进行细节恢复,得到Fdif。Fdif的计算过程可以被表示为:
Fdif=D({FU-P})
其中Fdif表示差分模块的输出特征,D(·)表示差分模块。
最后使用元素加法操作来融合Fdif和FU。
所述重建模块由6个3×3的卷积层组成;除了最后一个卷积层外,每个卷积层后面都有一个ReLU激活函数。
网络的损失函数:在本发明的方法中,所有模块构成的网络均采用端到端的方式联合训练,且网络不需要先训练收敛某一子网络,因此损失函数只由一项组成。使用L2-norm作为损失函数:
下面通过具体实验进一步验证本发明的增强效果。分别定性地和定量地评估本发明的有效性,其中定量评估则根据ΔPSNR和ΔSSIM与MFQE2.0和STDF-R1进行比较。它们是目前最先进的压缩视频质量增强方法。定量评估:表1给出了ΔPSNR和ΔSSIM在四个QP点上13个测试序列的所有帧上的平均结果。
表1四个QP点上13个测试序列的ΔPSNR和ΔSSIM((×10-4)的总体比较
可以看出,本发明方法始终优于其他的视频质量增强方法。具体来说,在QP=37时,本发明的最大ΔPSNR值达到了1.21dB。平均ΔPSNR为0.77dB,比MFQE 2.0(0.32dB)高出140%,比STDF(0.64dB)高出20%。在其他的QP点时,本发明在ΔPSNR和ΔSSIM上也都优于其他的方法。此外,我们还用BD-rate的降低来对比了网络的性能,如表2所示,本发明的网络的BD-rate平均降低了13.43%,优于目前最好的MFQE 2.0(8.02%)和STDF-R1(11.92%)。
表2测试序列相较于HEVC-SCC基准下降的BD-rate(%)在QP=22、27、32和37四个点上计算得到
定性评估:图5展示了序列Robots和SunLight在QP=37时的主观质量表现。图中,Compressed frame表示压缩后的目标帧,即要增强的帧。Compressed是从Compressedframe图中截取的一部分,指明损失产生的地方。Raw表示压缩前的目标帧。表示从图中可以看出,本发明相比于MFQE 2.0和STDF-R1的方法可以减少更多的压缩伪影,实现了更好的视觉体验。
STDF和MFQE2.0指出无损的视频经过编码器压缩编码过后,视频帧的质量会产生较大的质量波动,如图6所示。
可以看出,高质量帧与低质量帧之间的PSNR波动依然非常大。红色的折线表示通过本发明的方法对压缩帧进行质量增强后的PSNR波动,可以看出本发明的方法相较于MFQE2.0和STDF均有明显的提升,这也说明了本发明的方法可以更好地利用帧间的信息进行质量增强。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种跨帧信息融合的屏幕内容视频质量增强网络,其特征在于,包括特征提取模块、跨帧信息交叉融合模块、差分模块和重建模块,以及两个3×3的卷积模块;
特征提取模块用于对输入帧进行特征提取,得到特征信息Ft-1,Ft-1,Ft-1;
跨帧交叉信息融合模块用于对特征信息Ft-1,Ft-1,Ft-1进行融合;
差分模块用于对高频特征FU-P信息进行恢复;
将差分模块恢复特征Fdif与特征图FU使用元素加法操作来融合,并将融合特征和跨帧交叉信息融合模块的输出特征同时输入重建模块;
4.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络,其特征在于,所述差分模块包括依次连接的编码器、三个注意力单元、上采样层、连接层和1×1卷积层,码器由两个5×5、一个1×1的卷积层组成;输入的高频特征FU-P首先通过编码器来减小图像的大小,然后使用三个注意力单元来学习权重特征图Wt;注意力单元得到的Wt先经过上采样操作放大尺寸,然后和第一个5x5的卷积层进行连接操作;最后,使用1×1卷积层进行细节恢复,得到Fdif。
5.根据权利要求4所述的一种跨帧信息融合的屏幕内容视频质量增强网络,其特征在于,所述注意力单元的输入分别通过3×3、5×5、7×7的卷积层后相加,然后通过通道注意机构获得权重特征图Wt。
6.根据权利要求1所述的一种跨帧信息融合的屏幕内容视频质量增强网络,其特征在于,所述重建模块由6个3×3的卷积层组成;除了最后一个卷积层外,每个卷积层后面都有一个ReLU激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110966344.8A CN113691817B (zh) | 2021-08-23 | 2021-08-23 | 一种跨帧信息融合的屏幕内容视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110966344.8A CN113691817B (zh) | 2021-08-23 | 2021-08-23 | 一种跨帧信息融合的屏幕内容视频质量增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113691817A true CN113691817A (zh) | 2021-11-23 |
CN113691817B CN113691817B (zh) | 2023-03-24 |
Family
ID=78581329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110966344.8A Active CN113691817B (zh) | 2021-08-23 | 2021-08-23 | 一种跨帧信息融合的屏幕内容视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113691817B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554213A (zh) * | 2022-02-21 | 2022-05-27 | 电子科技大学 | 一种运动自适应和关注细节的压缩视频质量增强方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008938A (zh) * | 2019-11-25 | 2020-04-14 | 天津大学 | 一种基于内容和连续性引导的实时多帧比特增强方法 |
CN111885280A (zh) * | 2020-07-17 | 2020-11-03 | 电子科技大学 | 一种混合卷积神经网络视频编码环路滤波方法 |
US20200404340A1 (en) * | 2018-02-08 | 2020-12-24 | Beihang University | Multi-frame quality enhancement method and device for lossy compressed video |
WO2021043273A1 (zh) * | 2019-09-04 | 2021-03-11 | 华为技术有限公司 | 图像增强方法和装置 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
-
2021
- 2021-08-23 CN CN202110966344.8A patent/CN113691817B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200404340A1 (en) * | 2018-02-08 | 2020-12-24 | Beihang University | Multi-frame quality enhancement method and device for lossy compressed video |
WO2021043273A1 (zh) * | 2019-09-04 | 2021-03-11 | 华为技术有限公司 | 图像增强方法和装置 |
CN111008938A (zh) * | 2019-11-25 | 2020-04-14 | 天津大学 | 一种基于内容和连续性引导的实时多帧比特增强方法 |
CN111885280A (zh) * | 2020-07-17 | 2020-11-03 | 电子科技大学 | 一种混合卷积神经网络视频编码环路滤波方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554213A (zh) * | 2022-02-21 | 2022-05-27 | 电子科技大学 | 一种运动自适应和关注细节的压缩视频质量增强方法 |
CN114554213B (zh) * | 2022-02-21 | 2023-04-18 | 电子科技大学 | 一种运动自适应和关注细节的压缩视频质量增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113691817B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751597B (zh) | 基于编码损伤修复的视频超分辨方法 | |
CN107463989B (zh) | 一种基于深度学习的图像去压缩伪影方法 | |
CN112991183B (zh) | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 | |
CN107197260A (zh) | 基于卷积神经网络的视频编码后置滤波方法 | |
CN112381866B (zh) | 一种基于注意力机制的视频比特增强方法 | |
CN111031315B (zh) | 基于注意力机制和时间依赖性的压缩视频质量增强方法 | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
CN112291570B (zh) | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 | |
CN114972134A (zh) | 一种提取并融合局部和全局特征的低光图像增强方法 | |
CN113691817B (zh) | 一种跨帧信息融合的屏幕内容视频质量增强方法 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
CN113592746B (zh) | 一种由粗到细地融合时空信息的压缩视频质量增强方法 | |
CN111726638A (zh) | 一种结合去压缩效应与超分辨率的hevc编码优化方法 | |
CN115442613A (zh) | 一种利用gan的基于帧间信息的噪声去除方法 | |
Yu et al. | Hevc compression artifact reduction with generative adversarial networks | |
CN112862675A (zh) | 时空超分辨率的视频增强方法和系统 | |
CN115760640A (zh) | 基于含噪Retinex模型的煤矿低光照图像增强方法 | |
CN112819707B (zh) | 一种端到端抗块效应低照度图像增强方法 | |
Yang et al. | Graph-convolution network for image compression | |
CN113256521B (zh) | 一种数据缺失的错误隐藏方法及装置 | |
Liu et al. | Content Adaptive Compressed Screen Content Video Quality Enhancement | |
Wu et al. | MPCNet: Compressed multi-view video restoration via motion-parallax complementation network | |
CN113507607B (zh) | 一种无需运动补偿的压缩视频多帧质量增强方法 | |
CN114511485B (zh) | 一种循环可变形融合的压缩视频质量增强方法 | |
CN114554213B (zh) | 一种运动自适应和关注细节的压缩视频质量增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |