CN116977163A - 基于增强交互时空网络的压缩视频超分辨率方法 - Google Patents

基于增强交互时空网络的压缩视频超分辨率方法 Download PDF

Info

Publication number
CN116977163A
CN116977163A CN202210409554.1A CN202210409554A CN116977163A CN 116977163 A CN116977163 A CN 116977163A CN 202210409554 A CN202210409554 A CN 202210409554A CN 116977163 A CN116977163 A CN 116977163A
Authority
CN
China
Prior art keywords
resolution
low
network
compressed video
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210409554.1A
Other languages
English (en)
Inventor
何小海
程俊雄
熊淑华
任超
张廷蓉
陈洪刚
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210409554.1A priority Critical patent/CN116977163A/zh
Publication of CN116977163A publication Critical patent/CN116977163A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20201Motion blur correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于增强交互时空网络的压缩视频超分辨率方法。主要包括以下步骤:对输入的低分辨率压缩视频序列,将连续的五帧作为网络的输入,利用多个帧间信息提取单元提取相邻两帧的低维度特征,同时利用基于像素重排的非局部模块来提取连续五帧的自相似性;通过前向传播和后向传播来传递并聚合低维度特征,以减少压缩痕迹;将不同层级的特征信息输入到重建模块,利用通道重校准机制来融合和细化高维度特征;利用亚像素卷积实现上采样过程,得到高分辨率视频帧;构建训练样本对,完成网络训练并得到最终模型。本发明所述的方法能够很好地去除视频的压缩痕迹并实现分辨率的提升,是一种有效的压缩视频超分辨率重建方法。

Description

基于增强交互时空网络的压缩视频超分辨率方法
技术领域
本发明涉及压缩视频超分辨率重建技术,具体涉及一种基于增强交互时空网络的压缩视频超分辨率方法,属于图像处理领域。
背景技术
超分辨率重建通过软件技术将已有的降质图像或视频进行重建处理,在提升分辨率的同时恢复图像或视频帧丢失的高频细节,具有成本低、实用性强的特点,成为图像处理领域的研究热点。现阶段,面向非压缩视频的常规超分辨率重建方法已经得到了广泛的研究。然而,在实际应用中观测到的视频往往同时受到下采样以及压缩降质的影响,视频质量的进一步下降也增加了超分重建任务的难度。另外,压缩带来的噪声通常与视频帧本身的内容有很强的相关性,常规意义上的超分重建可能难以平衡压缩噪声抑制和细节保留,往往会放大噪声甚至导致较差的超分辨率性能。
发明内容
本发明的目的就是为了解决上述问题而提供一种基于增强交互时空网络的压缩视频超分辨率方法。本发明使用深度学习网络,构建了一个端到端的卷积神经网络,将压缩视频的超分辨率过程隐式地分为去压缩部分和重建部分,使得网络可在提升图像分辨率的同时,有效去除视频中的压缩伪影,同时恢复压缩和下采样降质过程中损失的高频细节。
本发明提出的基于增强交互时空网络的压缩视频超分辨率方法,主要包括以下操作步骤:
(1)对输入的低分辨率压缩视频序列,将相邻两帧作为帧间信息提取单元的输入,然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征;
(2)将连续五帧作为引导网络的输入,利用基于像素重组的非局部块提取帧间相似信息,并通过残差块得到引导信息;
(3)将低维度特征、引导信息输入到前向传播和后向传播两个分支,融合得到高维度特征输出,通过一层卷积层得到低分辨率视频帧,并计算其与没有压缩的低分辨率目标视频帧之间的损失;
(4)将不同层级的特征信息和步骤三中得到的低分辨率视频帧作为重建模块的输入,利用多通道自校准模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)构建训练样本对,采用最小化损失函数的方法训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
附图说明
图1是本发明基于增强交互时空网络的压缩视频超分辨率方法的原理框图。
图2是本发明网络中多通道自校准模块的框图。
图3是本发明与另外六种方法对测试视频“BQMall”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到5的重建结果,(h)是本发明的重建结果。
图4是本发明与另外六种方法对测试视频“Cactus”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到5的重建结果,(h)是本发明的重建结果。
具体实施方式
下面结合附图对本发明作进一步说明:
图1中,基于增强交互时空网络的压缩视频超分辨率方法,具体可以分为以下五个步骤:
(1)对输入的低分辨率压缩视频序列,将相邻两帧作为帧间信息提取单元的输入,然后利用光流估计模块、扭曲对齐模块和残差模块初步提取低维度特征;
(2)将连续五帧作为引导网络的输入,利用基于像素重组的非局部块提取帧间相似信息,并通过残差模块得到引导信息;
(3)将低维度特征、引导信息输入到前向传播和后向传播两个分支,融合得到高维度特征输出,通过一层卷积层得到低分辨率视频帧,并计算其与没有压缩的低分辨率目标视频帧之间的损失;
(4)将不同层级的特征信息和步骤三中得到的低分辨率视频帧作为重建模块的输入,利用多通道自校准模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)采用最小化损失函数的方法训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型;
具体地,所述步骤(1)中,对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。将连续五帧低分辨率压缩视频帧作为整个网络的输入,将相邻两帧作为帧间信息提取单元的输入,然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征,整个过程用公式表示如下:
其中,xi,xi+1表示相邻两帧,S(·),W(·),R(·)分别表示光流估计模块、扭曲对齐模块和残差模块,分别表示其对应的输出。
所述步骤(2)中,搭建的基于像素重组的非局部引导模块结构如图1所示。将连续五帧作为非局部网络模块的输入,利用像素采样和重组得到子图张量,并将子图张量送入非局部模块,利用帧内帧间冗余的相似信息补偿和修正缺失的细节,最后并通过残差块得到引导信息:
gi=Fp(X),
其中,X表示输入的连续五帧,Fp表示基于像素重组的非局部引导模块,gi表示输出的引导信息。
所述步骤(3)中,将低维度特征、引导信息输入到前向传播和后向传播两个分支,利用非局部信息来引导双向传播分支对长距离视频帧信息的传递和融合,可得到高维度特征输出:
其中,Fb,Ff分别表示反向传播分支和前向传播分支,M(·)表示多通道自校准模块。
然后通过一层卷积层得到低分辨率视频帧,并计算其与没有压缩的低分辨率目标视频帧之间的损失;增强了时空信息,实现了压缩效应的去除和高频细节信息的保留。
所述步骤(4)中,搭建的多通道自校准模块结构如图2所示。多通道自校准模块根据通道的重要性对提取的特征进行重缩放,即对不同的信道赋予不同的权值,有助于对重要信息给予更多的关注。利用多通道自校准模块对步骤(3)中的特征进行自适应性融合和再利用:
其中,Mk(·)表示第k个多通道自校准模块的作用函数,uk表示第第k个多通道自校准模块的输出。通过对浅层特征的引入和自适应再融合,有效地防止大量细节信息在深度网络中丢失,提高后续重建质量。
所述步骤(5)中,输入连续视频帧序列到训练好的网络模型中,得到超分辨率重建结果。
为了更好地说明本发明的有效性,在常用测试视频中选择了“BQMall”和“Cactus”测试集。我们对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。实验中,选择双三次插值Bicubic和两种“一步法”和其他三种“两步法”压缩视频超分辨率方法作为对比。
选择的算法为:
算法1:Guan等人提出的方法,参考文献“Spatio-temporal deformableconvolution for compressed video quality enhancement[C]//Proceedings of theAAAI conference on artificial intelligence.2020,34(07):10696-10703.”。
算法2:Wang等人提出的方法,参考文献“Deep video super-resolution usingHR optical flow estimation.IEEE Transactions on Image Processing 29:4323-4336,2020”。
算法3:Zhao等人提出的方法,参考文献“Efficient image super-resolutionusing pixel attention[C]//European Conference on Computer Vision.Springer,Cham,2020:56-72.”。
算法4:Ho等人提出的方法,参考文献“Down-sampling based video coding withdegradation-aware restoration-reconstruction deep neural network.In:International Conference on Multimedia Modeling.Springer,Cham.99-110,2020”。
算法5:Ho等人提出的方法,参考文献“RR-DnCNN v2.0:Enhanced Restoration-Reconstruction Deep Neural Network for Down-Sampling-Based Video Coding.IEEETransactions on Image Processing 30:1702-1715,2021”。
对比的压缩视频超分辨率重建方法为:
方法1:算法1+双三次插值(Bicubic)
方法2:算法1+算法2
方法3:算法1+算法3
方法4:算法4
方法5:算法5
实验1,分别用双三次插值Bicubic,方法1到5,以及本发明对降质后得到的低分辨率压缩测试视频的2倍重建。超分辨率重建结果分别由图3到图4所示。重建结果的客观评价结果如表1所示。PSNR(Peak Signal to Noise Ratio,单位dB)和SSIM(StructureSimilarity Index)分别用来评价重建效果,PSNR/SSIM的数值越高表明重建效果越好。
从表1可以看出,本发明取得了较高的PSNR和SSIM。从图3和图4中可以看出,本发明重建的结果具有清晰自然的边缘,展现出更多细节,而对比度算法的重建结果在主观视觉效果上存在一定的伪影和较模糊的边缘。综上所述,相比于对比方法,本发明的重建结果在主客观评价上都取得了较大的优势。因此本发明是一种有效的压缩视频超分辨率重建方法。
表1

Claims (4)

1.基于增强交互时空网络的压缩视频超分辨率方法,其特征在于包括以下步骤:
步骤一:构建帧间信息提取单元,用于低维度特征提取;具体地,对输入的低分辨率压缩视频序列,将相邻两帧作为帧间信息提取单元的输入,然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征;
步骤二:引导模块;具体地,将连续五帧作为引导网络的输入,利用基于像素重组的非局部块提取帧间相似信息,并通过残差块得到引导信息;
步骤三:增强交互模块;具体地,将低维度特征、引导信息输入到前向传播和后向传播两个分支,融合得到高维度特征输出,通过一层卷积层得到低分辨率视频帧,并计算其与没有压缩的低分辨率目标视频帧之间的损失;
步骤四:重建模块;具体地,将不同层级的特征信息和步骤三中得到的低分辨率视频帧作为重建模块的输入,利用多通道特征自校准模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
步骤五:构建训练样本对,采用最小化损失函数的方法训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
2.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法,其特征在于步骤一中利用帧间信息提取单元提取低维度特征,具体地,利用光流估计网络计算相邻两帧之间的光流,然后进行特征层面的扭曲对齐,最后利用堆叠的残差块提取低维度特征。
3.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法,其特征在于步骤三中将引导信息和低维度特征作为输入,利用非局部信息来引导双向传播分支对长距离视频帧信息的传递和聚合。
4.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法,其特征在于步骤四中将步骤三中不同层级的特征作为输入,使用多通道特征自校准模块进行自适应性融合和再利用,防止大量细节信息丢失,提高后续重建质量。
CN202210409554.1A 2022-04-19 2022-04-19 基于增强交互时空网络的压缩视频超分辨率方法 Pending CN116977163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210409554.1A CN116977163A (zh) 2022-04-19 2022-04-19 基于增强交互时空网络的压缩视频超分辨率方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210409554.1A CN116977163A (zh) 2022-04-19 2022-04-19 基于增强交互时空网络的压缩视频超分辨率方法

Publications (1)

Publication Number Publication Date
CN116977163A true CN116977163A (zh) 2023-10-31

Family

ID=88469914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210409554.1A Pending CN116977163A (zh) 2022-04-19 2022-04-19 基于增强交互时空网络的压缩视频超分辨率方法

Country Status (1)

Country Link
CN (1) CN116977163A (zh)

Similar Documents

Publication Publication Date Title
CN107018422A (zh) 基于深度卷积神经网络的静止图像压缩方法
CN113554720A (zh) 一种基于多方向卷积神经网络的多光谱图像压缩方法及系统
CN110751597A (zh) 基于编码损伤修复的视频超分辨方法
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
CN109361919A (zh) 一种联合超分辨率和去压缩效应的图像编码性能提升方法
CN108830812A (zh) 一种基于网格结构深度学习的视频高帧率重制方法
CN110062232A (zh) 一种基于超分辨率的视频压缩方法及系统
CN111031315B (zh) 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN112509094B (zh) 一种基于级联残差编解码网络的jpeg图像压缩伪影消除算法
CN109982092B (zh) 基于多分支循环卷积神经网络的hevc帧间快速方法
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
CN111726638A (zh) 一种结合去压缩效应与超分辨率的hevc编码优化方法
US20020150166A1 (en) Edge adaptive texture discriminating filtering
CN114757828A (zh) 基于Transformer的视频时空超分辨率方法
CN112188217B (zh) 结合dct域和像素域学习的jpeg压缩图像去压缩效应方法
CN111667406A (zh) 一种基于时域相关性的视频图像超分辨率重建方法
CN113132729A (zh) 一种基于多参考帧的环路滤波方法及电子装置
CN115442613A (zh) 一种利用gan的基于帧间信息的噪声去除方法
CN116668738A (zh) 一种视频时空超分辨率重构方法、装置及存储介质
CN116977163A (zh) 基于增强交互时空网络的压缩视频超分辨率方法
CN116418990A (zh) 一种基于神经网络的用于压缩视频质量增强的方法
CN116634287A (zh) 一种聚焦式全光图像压缩的方法
CN113691817B (zh) 一种跨帧信息融合的屏幕内容视频质量增强方法
CN114245126B (zh) 一种纹理协同的深度特征图压缩方法
CN115409695A (zh) 基于深度特征融合网络的压缩视频超分辨率

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination