CN115409695A - 基于深度特征融合网络的压缩视频超分辨率 - Google Patents
基于深度特征融合网络的压缩视频超分辨率 Download PDFInfo
- Publication number
- CN115409695A CN115409695A CN202110579150.2A CN202110579150A CN115409695A CN 115409695 A CN115409695 A CN 115409695A CN 202110579150 A CN202110579150 A CN 202110579150A CN 115409695 A CN115409695 A CN 115409695A
- Authority
- CN
- China
- Prior art keywords
- resolution
- low
- network
- block
- compressed video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006835 compression Effects 0.000 claims abstract description 8
- 238000007906 compression Methods 0.000 claims abstract description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 3
- 238000011084 recovery Methods 0.000 claims abstract 3
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000006837 decompression Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 5
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 238000005096 rolling process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于深度特征融合网络的压缩视频超分辨率方法。主要包括以下步骤:对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,利用混合卷积块和残差块提取低维度特征信息;通过复原模块中的常微分方程块减少压缩痕迹并得到高维度特征信息;将不同维度特征图融合并输入到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到高分辨率目标视频帧;在视频数据集中构建训练样本对,完成网络训练并且得到最终模型。本发明所述方法用于把低分辨率的压缩视频重建为高分辨率视频,是一种有效的压缩视频超分辨率重建方法。
Description
技术领域
本发明涉及压缩视频超分辨率重建技术,具体涉及一种基于深度特征融合网络的压缩视频超分辨率方法,属于图像处理领域。
背景技术
超分辨率的目标是从观测到的低分辨率图像或视频中恢复出高分辨率图像或视频。在一些对图像或视频分辨率和细节要求较高的领域,如医学成像、到遥感成像和卫星检测等,都有着广泛的应用。目前大多数常用的视频超分辨率算法都是针对经过下采样后的降质视频帧。然而,由于硬件成本、存储容量、传输带宽和响应时间等方面的限制,安全和流量监控系统以及互联网应用通常只能获取低分辨率的压缩视频,视频质量的进一步下降也增大了复原和重建的难度。另外,压缩带来的噪声通常与视频帧本身的内容有很强的相关性,如果直接重建包含两种退化(压缩和下采样)的视频帧或在超分辨率前简单去除压缩伪影,往往会放大噪声、丢失重要信息或降低超分辨率性能。
发明内容
本发明是利用卷积神经网络提取和融合时空信息特征和常微分方程网络减少压缩痕迹,进而构建一种有效的压缩视频超分辨率方法。
本发明提出的基于深度特征融合网络的压缩视频超分辨率,主要包括以下操作步骤:
(1)对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
(2)输入得到的低维度特征到复原模块中,利用常微分方程(ODE)模块减少压缩痕迹,并通过一层卷积层后计算该输出与没有压缩过的低分辨率目标视频帧之间的损失;
(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图融合在一起得到特征信息;
(4)输入步骤三和步骤二的输出结果到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)在视频数据集中构建训练样本对,训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
附图说明
图1是本发明基于深度特征融合网络的压缩视频超分辨率的框图。
图2是本发明网络中常微分方程块的框图。
图3是本发明与另外六种方法对测试视频“BQMall”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到6的重建结果,(h)是本发明的重建结果。
图4是本发明与另外六种方法对测试视频“PartyScene”重建结果对比图,其中(a)是原始高分辨率图像,(b)是双三次插值的重建结果,(c)到(g)是方法1到6的重建结果,(h)是本发明的重建结果。
具体实施方式
下面结合附图对本发明作进一步说明:
图1中,基于深度特征融合网络的压缩视频超分辨率,具体可以分为以下五个步骤:
(1)对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
(2)输入得到的低维度特征到复原模块中,利用常微分方程(ODE)模块减少压缩痕迹,并通过一层卷积层后计算该输出与没有压缩过的低分辨率目标视频帧之间的损失;
(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图通过融合块融合在一起得到特征信息;
(4)输入步骤三和步骤二的输出结果到重建模块中,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
(5)训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型;
具体地,所述步骤(1)中,对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。将连续五帧低分辨率压缩视频帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息。
所述步骤(2)中,搭建的常微分方程模块结构如图2所示。
在数学上常微分方程(ODE)的定义为:
dy/dx=f(x,y)
其中x和y分别为自变量和因变量。动态系统的映射关系可用ODE表示为:
Ψ(y0,x)=y(x:y0)
其中Ψ是映射关系,y0是输入特征的初始状态。假设p(y0)是输入特征y0在域中的分布Ω。如果将补偿视频高频信息的过程视为一个动态系统,则解决方案是最小化以下方程:
L=∫Ω/Ψ(y0,x)-y/dp(y0)
当系统是非线性时,在许多情况下很难用简单的公式来描述映射关系。因此,在求解问题时,通常用差分近似代替微分,其中最简单的方法是前向欧拉法。将区间[0,T]作N等分,h称为步长,xn=n*h(n=0,1,2,...,N)称为节点,f(x,y)的近似值可表示为f(x,y)≈yn+1-yn/h。因此,前向欧拉法的公式定义为:
f(x,y)≈yn+1-yn/h
当表示第yn个残差块的输入,而yn+1表示输出时,残差块有类似的表达形式:
yn+1=yn+S(yn)
S(yn)=h*f(xn,yn)
其中S(·)表示残差操作。上述前向欧拉算法是一个简单的一阶数值方法,不稳定且精度不高,所以将其改为二阶Velocity Verlet算法表示为:
yn+2=yn+h*(y'n+y'n+2)
其中h=1。
为了获得特定的块结构并保持其灵活性,将上述二阶Velocity Verlet算法过程分为三个公式,形成一个块结构,可以表示为:
yn+1=yn+2*y'n
yn+2=yn+2*y'n+1
yn+2=yn+(y'n+y'n+2)
其中,求导过程解释为通过一个参数修正线性单元PReLU和一个3×3的卷积层。
所述步骤(3)中,搭建的融合块块结构如图1所示。不同维度特征提取同时利用了帧内空间信息和帧间时间信息,将原始特征图、低维度特征图和高维度特征图三个不同深度的特征图通过融合块融合在一起,增强了时空信息,有效防止细节信息丢失。然后将融合后的特征映射与复原模块的输出串联,作为重建模块的输入。
所述步骤(4)中,通道注意力机制根据通道的重要性对提取的特征进行重缩放,即对不同的信道赋予不同的权值,有助于对重要信息给予更多的关注,而像素注意机制生成特征映射中所有像素的注意系数。利用自适应通道注意力和像素注意力模块,能有效获得高频信息重建的中间信息特性,提高重建结果质量。
所述步骤(5)中,输入连续视频帧序列到步骤(4)中训练好的网络模型中,得到超分辨率重建结果。为了更好地说明本发明的有效性,在常用测试视频中选择了“BQMall”和“PartyScene”测试集。我们对原始视频序列进行双三次下采样,获得低分辨率视频序列,使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码,获得低分辨率压缩视频序列。实验中,选择双三次插值Bicubic和两种“一步法”和其他三种“两步法”压缩视频超分辨率方法作为对比。
选择的算法为:
算法1:Guan等人提出的方法,参考文献“MFQE 2.0:A new approach for multi-frame quality enhancement on compressed video.IEEE Transactions on PatternAnalysis and Machine Intelligence.2019”。
算法2:Wang等人提出的方法,参考文献“Deep video super-resolution usingHR optical flow estimation.IEEE Transactions on Image Processing 29:4323-4336,2020”。
算法3:Zhao等人提出的方法,参考文献“Efficient image super-resolutionusing pixel attention.arXiv preprint arXiv:2010.01073,2020.”。
算法4:Ho等人提出的方法,参考文献“Down-sampling based video coding withdegradation-aware restoration-reconstruction deep neural network.In:International Conference on Multimedia Modeling.Springer,Cham.99-110,2020”。
算法5:Ho等人提出的方法,参考文献“RR-DnCNN v2.0:Enhanced Restoration-Reconstruction Deep Neural Network for Down-Sampling-Based Video Coding.IEEETransactions on Image Processing 30:1702-1715,2021”。
对比的压缩视频超分辨率重建方法为:
方法1:算法1+双三次插值(Bicubic)
方法2:算法1+算法2
方法3:算法1+算法3
方法4:算法4
方法5:算法5
实验1,分别用双三次插值Bicubic,方法1到5,以及本发明对降质后得到的低分辨率压缩测试视频的2倍重建。超分辨率重建结果分别由图3到图4所示。重建结果的客观评价结果如表1所示。PSNR(Peak Signal to Noise Ratio,单位dB)和SSIM(StructureSimilarity Index)分别用来评价重建效果,PSNR/SSIM的数值越高表明重建效果越好。
从表1可以看出,本发明取得了较高的PSNR和SSIM。从图3和图4中可以看出,本发明重建的结果具有清晰自然的边缘,展现出更多细节,而对比度算法的重建结果在主观视觉效果上存在一定的伪影和较模糊的边缘。综上所述,相比于对比方法,本发明的重建结果在主客观评价上都取得了较大的优势。因此本发明是一种有效的压缩视频超分辨率重建方法。
表1
Claims (3)
1.基于深度特征融合网络的压缩视频超分辨率,其特征在于包括以下步骤:
步骤一:低维度特征提取;具体地,对输入的低分辨率压缩视频序列,将连续五帧作为网络的输入,然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息;
步骤二:复原模块;具体地,将得到的低维度特征作为复原网络的输入,利用常微分方程(ODE)块减少压缩痕迹,并通过一层卷积层后计算该输出(高维度特征)与没有压缩的低分辨率目标视频帧之间的损失;
步骤三:不同维度特征提取;具体地,将原始特征图、低维度特征图和高维度特征图通过融合块融合在一起得到不同维度特征信息;
步骤四:重建模块;具体地,将步骤三和步骤二的输出结果合并作为重建模块的输入,利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建,得到最终的高分辨率目标视频帧;
步骤五:在视频数据集中构建训练样本对,训练网络参数,当重建的高分辨率视频帧计算模型的损失函数最小时,完成网络训练并且得到最终模型。
2.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率,其特征在于步骤二中利用常微分方程(ODE)块减少压缩痕迹,具体地,利用视频去压缩过程输入输出相似度高的特点,从动态系统角度引入常微分方程理论,用常微分方程代替残差块,将常规的一阶前向欧拉算法改为二阶Velocity Verlet算法,并将算法过程分为三个公式,形成一个块结构,过程表示为:yn+1=yn+2*y'n,yn+2=yn+2*y'n+1,yn+2=yn+(y'n+y'n+2),式中,yn表示ODE块的输入,yn+1和第一个yn+2表示中间过程输出,求导过程解释为通过一个参数修正线性单元(PReLU)和一个3×3的卷积层。
3.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率,其特征在于步骤三中使用融合块将原始特征图、低维度特征图融合后再与深层特征融合,以获得不同维度特征信息,防止大量细节信息丢失,提高后续重建质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579150.2A CN115409695A (zh) | 2021-05-26 | 2021-05-26 | 基于深度特征融合网络的压缩视频超分辨率 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579150.2A CN115409695A (zh) | 2021-05-26 | 2021-05-26 | 基于深度特征融合网络的压缩视频超分辨率 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115409695A true CN115409695A (zh) | 2022-11-29 |
Family
ID=84155815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110579150.2A Pending CN115409695A (zh) | 2021-05-26 | 2021-05-26 | 基于深度特征融合网络的压缩视频超分辨率 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409695A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953015A (zh) * | 2024-03-26 | 2024-04-30 | 武汉工程大学 | 基于视频超分辨率多行人跟踪方法、系统、设备及介质 |
-
2021
- 2021-05-26 CN CN202110579150.2A patent/CN115409695A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953015A (zh) * | 2024-03-26 | 2024-04-30 | 武汉工程大学 | 基于视频超分辨率多行人跟踪方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8223837B2 (en) | Learning-based image compression | |
CN101371583B (zh) | 编码/解码高动态范围图像的方法和设备 | |
DE602004004379T2 (de) | Verfahren und einrichtungen zur codierung und decodierung einer bildsequenz mittels bewegungs-/texturzerlegung und wavelet-codierung | |
CN108737823B (zh) | 基于超分辨技术的图像编码方法和装置、解码方法和装置 | |
CN103607591A (zh) | 结合超分辨率重建的图像压缩方法 | |
EP4365820A1 (en) | Video super-resolution network, and video super-resolution, encoding and decoding processing method and device | |
CN111031315B (zh) | 基于注意力机制和时间依赖性的压缩视频质量增强方法 | |
CN112150400A (zh) | 图像增强方法、装置和电子设备 | |
US20020150166A1 (en) | Edge adaptive texture discriminating filtering | |
CN104780383B (zh) | 一种3d‑hevc多分辨率视频编码方法 | |
JP2005039837A (ja) | 映像雑音除去方法及び装置 | |
CN115409695A (zh) | 基于深度特征融合网络的压缩视频超分辨率 | |
CN111726638A (zh) | 一种结合去压缩效应与超分辨率的hevc编码优化方法 | |
Guleryuz et al. | Sandwiched image compression: Increasing the resolution and dynamic range of standard codecs | |
CN113592746A (zh) | 一种由粗到细地融合时空信息的压缩视频质量增强方法 | |
CN112348745B (zh) | 一种基于残差卷积网络的视频超分辨率重构方法 | |
CN115665427A (zh) | 直播数据的处理方法、装置及电子设备 | |
Wu et al. | MPCNet: Compressed multi-view video restoration via motion-parallax complementation network | |
Peng et al. | An optimized algorithm based on generalized difference expansion method used for HEVC reversible video information hiding | |
CN111698503A (zh) | 一种基于预处理的视频高倍压缩方法 | |
CN111246205B (zh) | 基于方向双四元数滤波器组的图像压缩方法 | |
CN114581304B (zh) | 一种基于循环网络的图像超分辨率和去雾融合方法及系统 | |
CN116523758B (zh) | 基于关键帧的端云联合超分辨率视频重建方法及系统 | |
Kim et al. | Image coding based on selective super-resolution network | |
CN116977163A (zh) | 基于增强交互时空网络的压缩视频超分辨率方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |