CN115409695A - 基于深度特征融合网络的压缩视频超分辨率 - Google Patents

基于深度特征融合网络的压缩视频超分辨率 Download PDF

Info

Publication number
CN115409695A
CN115409695A CN202110579150.2A CN202110579150A CN115409695A CN 115409695 A CN115409695 A CN 115409695A CN 202110579150 A CN202110579150 A CN 202110579150A CN 115409695 A CN115409695 A CN 115409695A
Authority
CN
China
Prior art keywords
resolution
low
network
block
compressed video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110579150.2A
Other languages
English (en)
Inventor
吴晓红
王越
何小海
任超
陈洪刚
熊淑华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110579150.2A priority Critical patent/CN115409695A/zh
Publication of CN115409695A publication Critical patent/CN115409695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度特征融合网络的压缩视频超分辨率方法。主要包括以下步骤:对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,利用混合卷积块和残差块提取低维度特征信息;通过复原模块中的常微分方程块减少压缩痕迹并得到高维度特征信息;将不同维度特征图融合并输入到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到高分辨率目标视频帧;在视频数据集中构建训练样本对,完成网络训练并且得到最终模型。本发明所述方法用于把低分辨率的压缩视频重建为高分辨率视频,是一种有效的压缩视频超分辨率重建方法。

Description

基于深度特征融合网络的压缩视频超分辨率
技术领域
本发明涉及压缩视频超分辨率重建技术,具体涉及一种基于深度特征融合网络的压缩视频超分辨率方法,属于图像处理领域。
背景技术
超分辨率的目标是从观测到的低分辨率图像或视频中恢复出高分辨率图像或视频。在一些对图像或视频分辨率和细节要求较高的领域,如医学成像、到遥感成像和卫星检测等,都有着广泛的应用。目前大多数常用的视频超分辨率算法都是针对经过下采样后的降质视频帧。然而,由于硬件成本、存储容量、传输带宽和响应时间等方面的限制,安全和流量监控系统以及互联网应用通常只能获取低分辨率的压缩视频,视频质量的进一步下降也增大了复原和重建的难度。另外,压缩带来的噪声通常与视频帧本身的内容有很强的相关性,如果直接重建包含两种退化(压缩和下采样)的视频帧或在超分辨率前简单去除压缩伪影,往往会放大噪声、丢失重要信息或降低超分辨率性能。
发明内容
本发明是利用卷积神经网络提取和融合时空信息特征和常微分方程网络减少压缩痕迹,进而构建一种有效的压缩视频超分辨率方法。
本发明提出的基于深度特征融合网络的压缩视频超分辨率,主要包括以下操作步骤:
(1)对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
(2)输入得到的低维度特征到复原模块中,利用常微分方程(ODE)模块减少压缩痕迹,并通过一层卷积层后计算该输出与没有压缩过的低分辨率目标视频帧之间的损失;
(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图融合在一起得到特征信息;
(4)输入步骤三和步骤二的输出结果到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)在视频数据集中构建训练样本对,训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
附图说明
图1是本发明基于深度特征融合网络的压缩视频超分辨率的框图。
图2是本发明网络中常微分方程块的框图。
图3是本发明与另外六种方法对测试视频“BQMall”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到6的重建结果,(h)是本发明的重建结果。
图4是本发明与另外六种方法对测试视频“PartyScene”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到6的重建结果,(h)是本发明的重建结果。
具体实施方式
下面结合附图对本发明作进一步说明:
图1中,基于深度特征融合网络的压缩视频超分辨率,具体可以分为以下五个步骤:
(1)对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
(2)输入得到的低维度特征到复原模块中,利用常微分方程(ODE)模块减少压缩痕迹,并通过一层卷积层后计算该输出与没有压缩过的低分辨率目标视频帧之间的损失;
(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图通过融合块融合在一起得到特征信息;
(4)输入步骤三和步骤二的输出结果到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型;
具体地,所述步骤(1)中,对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。将连续五帧低分辨率压缩视频帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息。
所述步骤(2)中,搭建的常微分方程模块结构如图2所示。
在数学上常微分方程(ODE)的定义为:
dy/dx=f(x,y)
其中x和y分别为自变量和因变量。动态系统的映射关系可用ODE表示为:
Ψ(y0,x)=y(x:y0)
其中Ψ是映射关系,y0是输入特征的初始状态。假设p(y0)是输入特征y0在域中的分布Ω。如果将补偿视频高频信息的过程视为一个动态系统,则解决方案是最小化以下方程:
L=∫Ω/Ψ(y0,x)-y/dp(y0)
当系统是非线性时,在许多情况下很难用简单的公式来描述映射关系。因此,在求解问题时,通常用差分近似代替微分,其中最简单的方法是前向欧拉法。将区间[0,T]作N等分,h称为步长,xn=n*h(n=0,1,2,...,N)称为节点,f(x,y)的近似值可表示为f(x,y)≈yn+1-yn/h。因此,前向欧拉法的公式定义为:
f(x,y)≈yn+1-yn/h
当表示第yn个残差块的输入,而yn+1表示输出时,残差块有类似的表达形式:
yn+1=yn+S(yn)
S(yn)=h*f(xn,yn)
其中S(·)表示残差操作。上述前向欧拉算法是一个简单的一阶数值方法,不稳定且精度不高,所以将其改为二阶Velocity Verlet算法表示为:
yn+2=yn+h*(y'n+y'n+2)
其中h=1。
为了获得特定的块结构并保持其灵活性,将上述二阶Velocity Verlet算法过程分为三个公式,形成一个块结构,可以表示为:
yn+1=yn+2*y'n
yn+2=yn+2*y'n+1
yn+2=yn+(y'n+y'n+2)
其中,求导过程解释为通过一个参数修正线性单元PReLU和一个3×3的卷积层。
所述步骤(3)中,搭建的融合块块结构如图1所示。不同维度特征提取同时利用了帧内空间信息和帧间时间信息,将原始特征图、低维度特征图和高维度特征图三个不同深度的特征图通过融合块融合在一起,增强了时空信息,有效防止细节信息丢失。然后将融合后的特征映射与复原模块的输出串联,作为重建模块的输入。
所述步骤(4)中,通道注意力机制根据通道的重要性对提取的特征进行重缩放,即对不同的信道赋予不同的权值,有助于对重要信息给予更多的关注,而像素注意机制生成特征映射中所有像素的注意系数。利用自适应通道注意力和像素注意力模块,能有效获得高频信息重建的中间信息特性,提高重建结果质量。
所述步骤(5)中,输入连续视频帧序列到步骤(4)中训练好的网络模型中,得到超分辨率重建结果。为了更好地说明本发明的有效性,在常用测试视频中选择了“BQMall”和“PartyScene”测试集。我们对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。实验中,选择双三次插值Bicubic和两种“一步法”和其他三种“两步法”压缩视频超分辨率方法作为对比。
选择的算法为:
算法1:Guan等人提出的方法,参考文献“MFQE 2.0:A new approach for multi-frame quality enhancement on compressed video.IEEE Transactions on PatternAnalysis and Machine Intelligence.2019”。
算法2:Wang等人提出的方法,参考文献“Deep video super-resolution usingHR optical flow estimation.IEEE Transactions on Image Processing 29:4323-4336,2020”。
算法3:Zhao等人提出的方法,参考文献“Efficient image super-resolutionusing pixel attention.arXiv preprint arXiv:2010.01073,2020.”。
算法4:Ho等人提出的方法,参考文献“Down-sampling based video coding withdegradation-aware restoration-reconstruction deep neural network.In:International Conference on Multimedia Modeling.Springer,Cham.99-110,2020”。
算法5:Ho等人提出的方法,参考文献“RR-DnCNN v2.0:Enhanced Restoration-Reconstruction Deep Neural Network for Down-Sampling-Based Video Coding.IEEETransactions on Image Processing 30:1702-1715,2021”。
对比的压缩视频超分辨率重建方法为:
方法1:算法1+双三次插值(Bicubic)
方法2:算法1+算法2
方法3:算法1+算法3
方法4:算法4
方法5:算法5
实验1,分别用双三次插值Bicubic,方法1到5,以及本发明对降质后得到的低分辨率压缩测试视频的2倍重建。超分辨率重建结果分别由图3到图4所示。重建结果的客观评价结果如表1所示。PSNR(Peak Signal to Noise Ratio,单位dB)和SSIM(StructureSimilarity Index)分别用来评价重建效果,PSNR/SSIM的数值越高表明重建效果越好。
从表1可以看出,本发明取得了较高的PSNR和SSIM。从图3和图4中可以看出,本发明重建的结果具有清晰自然的边缘,展现出更多细节,而对比度算法的重建结果在主观视觉效果上存在一定的伪影和较模糊的边缘。综上所述,相比于对比方法,本发明的重建结果在主客观评价上都取得了较大的优势。因此本发明是一种有效的压缩视频超分辨率重建方法。
表1
Figure BDA0003085383470000051

Claims (3)

1.基于深度特征融合网络的压缩视频超分辨率,其特征在于包括以下步骤:
步骤一:低维度特征提取;具体地,对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
步骤二:复原模块;具体地,将得到的低维度特征作为复原网络的输入,利用常微分方程(ODE)块减少压缩痕迹,并通过一层卷积层后计算该输出(高维度特征)与没有压缩的低分辨率目标视频帧之间的损失;
步骤三:不同维度特征提取;具体地,将原始特征图、低维度特征图和高维度特征图通过融合块融合在一起得到不同维度特征信息;
步骤四:重建模块;具体地,将步骤三和步骤二的输出结果合并作为重建模块的输入,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
步骤五:在视频数据集中构建训练样本对,训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
2.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率,其特征在于步骤二中利用常微分方程(ODE)块减少压缩痕迹,具体地,利用视频去压缩过程输入输出相似度高的特点,从动态系统角度引入常微分方程理论,用常微分方程代替残差块,将常规的一阶前向欧拉算法改为二阶Velocity Verlet算法,并将算法过程分为三个公式,形成一个块结构,过程表示为:yn+1=yn+2*y'n,yn+2=yn+2*y'n+1,yn+2=yn+(y'n+y'n+2),式中,yn表示ODE块的输入,yn+1和第一个yn+2表示中间过程输出,求导过程解释为通过一个参数修正线性单元(PReLU)和一个3×3的卷积层。
3.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率,其特征在于步骤三中使用融合块将原始特征图、低维度特征图融合后再与深层特征融合,以获得不同维度特征信息,防止大量细节信息丢失,提高后续重建质量。
CN202110579150.2A 2021-05-26 2021-05-26 基于深度特征融合网络的压缩视频超分辨率 Pending CN115409695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110579150.2A CN115409695A (zh) 2021-05-26 2021-05-26 基于深度特征融合网络的压缩视频超分辨率

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579150.2A CN115409695A (zh) 2021-05-26 2021-05-26 基于深度特征融合网络的压缩视频超分辨率

Publications (1)

Publication Number Publication Date
CN115409695A true CN115409695A (zh) 2022-11-29

Family

ID=84155815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579150.2A Pending CN115409695A (zh) 2021-05-26 2021-05-26 基于深度特征融合网络的压缩视频超分辨率

Country Status (1)

Country Link
CN (1) CN115409695A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953015A (zh) * 2024-03-26 2024-04-30 武汉工程大学 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953015A (zh) * 2024-03-26 2024-04-30 武汉工程大学 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
US8223837B2 (en) Learning-based image compression
CN101371583B (zh) 编码/解码高动态范围图像的方法和设备
DE602004004379T2 (de) Verfahren und einrichtungen zur codierung und decodierung einer bildsequenz mittels bewegungs-/texturzerlegung und wavelet-codierung
CN108737823B (zh) 基于超分辨技术的图像编码方法和装置、解码方法和装置
CN103607591A (zh) 结合超分辨率重建的图像压缩方法
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
CN111031315B (zh) 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN112150400A (zh) 图像增强方法、装置和电子设备
US20020150166A1 (en) Edge adaptive texture discriminating filtering
CN104780383B (zh) 一种3d‑hevc多分辨率视频编码方法
JP2005039837A (ja) 映像雑音除去方法及び装置
CN115409695A (zh) 基于深度特征融合网络的压缩视频超分辨率
CN111726638A (zh) 一种结合去压缩效应与超分辨率的hevc编码优化方法
Guleryuz et al. Sandwiched image compression: Increasing the resolution and dynamic range of standard codecs
CN113592746A (zh) 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN112348745B (zh) 一种基于残差卷积网络的视频超分辨率重构方法
CN115665427A (zh) 直播数据的处理方法、装置及电子设备
Wu et al. MPCNet: Compressed multi-view video restoration via motion-parallax complementation network
Peng et al. An optimized algorithm based on generalized difference expansion method used for HEVC reversible video information hiding
CN111698503A (zh) 一种基于预处理的视频高倍压缩方法
CN111246205B (zh) 基于方向双四元数滤波器组的图像压缩方法
CN114581304B (zh) 一种基于循环网络的图像超分辨率和去雾融合方法及系统
CN116523758B (zh) 基于关键帧的端云联合超分辨率视频重建方法及系统
Kim et al. Image coding based on selective super-resolution network
CN116977163A (zh) 基于增强交互时空网络的压缩视频超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination