CN117094893A - 基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 - Google Patents
基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 Download PDFInfo
- Publication number
- CN117094893A CN117094893A CN202311064500.7A CN202311064500A CN117094893A CN 117094893 A CN117094893 A CN 117094893A CN 202311064500 A CN202311064500 A CN 202311064500A CN 117094893 A CN117094893 A CN 117094893A
- Authority
- CN
- China
- Prior art keywords
- video
- resolution
- super
- mask
- bidirectional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 81
- 238000011084 recovery Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000002087 whitening effect Effects 0.000 claims abstract description 57
- 230000000873 masking effect Effects 0.000 claims abstract description 16
- 230000000593 degrading effect Effects 0.000 claims abstract description 8
- 238000006731 degradation reaction Methods 0.000 claims description 29
- 238000010606 normalization Methods 0.000 claims description 26
- 230000015556 catabolic process Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 18
- 230000006835 compression Effects 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明涉及视频超分辨率和人工智能算法的技术领域,公开了基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统,包括以下具体步骤:S1:构建随机掩码器的双向掩码视频超分辨率网络;对训练视频数据集进行退化,得到低分辨率视频数据集;S2:将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening;S3:对处理后的视频数据进行双向视频掩码;S4:将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;S5:计算loss,训练双向掩码视频超分辨率网络;S6:对真实视频进行超分辨率恢复。本发明解决了现有技术训练速度慢,图像细节恢复弱的问题,且具有能够高效学习视频帧细节特征的特点。
Description
技术领域
本发明涉及视频超分辨率和人工智能算法的技术领域,更具体的,涉及基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统。
背景技术
在视频内容主导各种数字平台且高质量视觉效果至关重要的时代,对增强视频分辨率的需求持续增长。视频超分辨率技术作为一种强大的解决方案应运而生,它可以增强低分辨率视频,从而获得更清晰、更详细和更具视觉吸引力的结果。视频超分辨率已成为各个行业不可或缺的工具,包括娱乐、监控、虚拟现实等。
视频超分辨率通过采用先进的算法和机器学习技术来应对升级低分辨率视频的挑战。通过利用现有视频帧中的底层模式和信息,视频超分辨率算法旨在重建丢失的高频细节,从而显着提高视觉质量。视频超分辨率的最终目标是弥合低分辨率和高分辨率视频之间的差距,为观众提供身临其境且引人入胜的视觉体验。
近年来,基于深度学习的方法在视频超分辨率方面取得了显着进步。深度学习模型,特别是卷积神经网络(CNN),已应用于视频超分辨率任务。这些模型在高分辨率和低分辨率视频对的大型数据集上进行训练,以学习它们之间的底层映射。经过训练后,模型可以将低分辨率视频作为输入并生成高分辨率版本。
现有技术有一种基于张量的视频快照压缩成像恢复方法,主要解决现有技术解码恢复视频质量差且耗时长的问题。其实现方案是:1)输入压缩数据帧和掩码张量;2)利用输入压缩数据帧,自适应计算压缩数据帧对应的噪声方差;3)根据1)和2)的结果,以非中心相似块张量的加权张量核范数作为约束,通过交替方向乘子法初步得到要恢复的目标图像;4)以非中心相似块矩阵的加权矩阵核范数作为约束,通过交替方向乘子法对初步得到的目标图像进行细节补全,最终获得要恢复的目标图像。
然而现有技术仍然存在训练速度慢,图像细节恢复弱的问题,如何发明基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,是本技术领域亟需解决的技术问题。
发明内容
本发明为了解决现有技术训练速度慢,图像细节恢复弱的问题,提供了基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统,其具有能够高效学习视频帧细节特征的特点。
为实现上述本发明目的,采用的技术方案如下:
基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,包括以下具体步骤:
S1:构建随机掩码器的双向掩码视频超分辨率网络;读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
S2:将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
S3:通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
S4:通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
S5:计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
S6:通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
优选的,所述的步骤S1中对训练视频数据集进行退化,获得训练时用低质量的低分辨率视频,具体为:采用二阶退化过程从训练视频数据集的高分辨率视频获得低分辨率视频:
Vlr=Dn(Vhr)=(Dn*Dn-1*…*D2*D1)(Vhr)
其中Vlr为低分辨率视频,Vhr为训练视频数据集的高分辨率视频,Di为基本退化因子;Di由模糊、下采样、噪声和JPEG视频压缩按顺序构成;执行两次退化过程,扩大退化域,学习更加复杂的退化环境,获得低分辨率视频。
进一步的,所述的步骤S2中,将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,具体步骤为:
S201:根据暗通道筛选出低分辨率视频的视频帧中复杂的细节区域;暗通道定义为:
其中x为像素点,Φ为以x为中心的局部区域,将局部区域Φ中所有通道C做一个最小值滤波后得到暗通道图像;
S202:基于暗通道图像,对低分辨率视频的图像进行阈值分割,生成掩码图maskd:
maskd=rint(sigmoid(Jdark(x))-ε)
其中ε为设定的一个大于0的小正数;
S203:结合maskd,对低分辨率视频中的特征图进行Switchable Whitening。
更进一步的,Switchable Whitening包括归一化技术和白化技术;其中归一化技术包括批量归一化技术BN、实例归一化技术IN和层归一化技术LN;白化技术包括批量白化技术BW和实例白化技术IW;Switchable Whitening,具体为:
其中Ω=[BN,IN,LN,BW,IW],wk为Ω中5个技术分别对应的权重,通过Softmax更新,为SW的输出,/>是一个通道数为C,宽度和高度分别为W和H的特征图,μk表示采用Ω中5个技术分别得到的均值,∑k表示采用Ω中5个技术分别得到的协方差,I为全为1的列向量。
更进一步的,结合maskd,对低分辨率视频中的特征图进行SwitchableWhitening,具体为:
其中富含纹理的区域是经过SW处理,而/>中干净的区域则是未经处理。
更进一步的,通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征,具体步骤为:设处理后的视频数据为共含有N帧,t时刻时的视频帧为/>相邻帧为It-1和It+1;通过随机掩码器掩盖It50%的区域,被掩盖的部分生成在t时刻下用于前向传播结构/>和反向传播结构的掩码图像/>
其中p为从[0,1]均匀分布的等概率提取,c代表一个像素点[x,y],每个p之间相互独立,且与c相关;
对和/>进行双向视频掩码传播:
其中为t时刻反向传播中的特征,/>为t时刻前向传播中的特征;Fb为双向传播模块中的反向模块,Ff为双向传播模块中的前向模块;
将和/>聚合在一起,让相互缺失的图像之间互相补充对方所缺失的细节,得到处理后的视频数据的视频特征ht:
其中Concat是指按通道C的维度将特征拼接起来的操作。
更进一步的,所述的自适应掩码由三个完全一样但初始化不同的网络组成;该三个网络包括ResBlocks、3个3×3的卷积块;每个卷积块后都包括ReLU层。
更进一步的,所述的步骤S4中,通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集,具体步骤为:
S401:将视频特征ht通过所述的三个网络分别得到三个不同值的特征
其中表示由第i个ResBlocks生成的特征,Resi表示第i个由ResBlocks组成的网络,i=[1,2,3];
S402:选定一个作为自适应掩码,通过该掩码去使模型去控制特征的输出,得到最终特征/>
S403:将和It进行上采样,将得到的输出进行Concat后滤波后得到高分辨率单个视频帧输出:
其中′↑′表示上采样操作;
S404:连接所有高分辨率单个视频帧,得到高分辨率视频Y:
更进一步的,所述的步骤S5中,计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络,具体为:
其中α、β、γ分别为的权重;/>为作为Pixel损失的L1函数,为基于特征空间下的L1函数,/>为作为GAN loss的L1函数,/>为训练视频数据集的第i个高分辨率视频,Yi为高分辨率视频数据集的第i个高分辨率视频;
预训练双向掩码视频超分辨率网络,令α=1,β=γ=0,用L1函数作为Pixel损失;提取训练视频数据集的第i个高分辨率视频和高分辨率视频数据集的第i个高分辨率视频之间的绝对差值,然后对所有像素的差值取平均:
其中K为batchsize大小;
微调双向掩码视频超分辨率网络,增加感知loss和对抗loss,权重分别为β=1,γ=0.05;使用预训练的VGG-19提取训练视频数据集的第i个高分辨率视频和高分辨率视频数据集的第i个高分辨率视频的特征;通过基于特征空间下的L1函数进一步强化恢复图像的高级特征信息:
其中VGG19代表预训练的VGG-19模型;
通过GAN loss鼓励生成器生成高分辨率图像;训练双向掩码视频超分辨率网络的判别器区分真实的高分辨率图像和生成器生成的假高分辨率,从而最大限度的减少GANloss:
其中σ为sigmoid操作,能将判别器的输出规范到0-1之间,Disc为判别器。
基于双向掩码视频超分辨率网络的视频超分辨率恢复系统,包括模型构建模块、Switchable Whitening模块、数据处理模块、双向掩码视频超分辨率处理模块、高分辨率视频恢复模块、loss计算模块、视频超分辨率网络推理;
所述的模型构建模块用于构建随机掩码器的双向掩码视频超分辨率网络;所述的数据获取模块用于读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
所述的Switchable Whitening模块用于将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
所述的双向掩码视频超分辨率处理模块用于通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
所述的高分辨率视频恢复模块用于通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
所述的loss计算模块用于计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
所述的视频超分辨率网络推理用于通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
本发明的有益效果如下:
针对目前的视频超分辨率方法存在的问题,本发明提出了一个面向卷积激活的随机掩码器的双向掩码视频超分辨率网络;随机掩码器的双向掩码视频超分辨率网络为基于视频双向循环网络算法的视频超分辨率算法;本发明首先对训练视频数据集采用退化得到低分辨率视频数据集,然后采用基于暗通道的Switchable Whitening,对数据进行预处理;然后通过预处理后的视频数据集训练随机掩码器的双向掩码视频超分辨率网络,最后通过训练好的随机掩码器的双向掩码视频超分辨率网络对真实视频进行超分辨率恢复;本发明由此解决了现有技术训练速度慢,图像细节恢复弱的问题且具有能够高效学习视频帧细节特征的特点。
附图说明
图1是本发明基于双向掩码视频超分辨率网络的视频超分辨率恢复方法的流程示意图。
图2是本发明基于双向掩码视频超分辨率网络的视频超分辨率恢复方法的双向掩码视频超分辨率网络示意图。
图3是本发明基于双向掩码视频超分辨率网络的视频超分辨率恢复方法的基于暗通道的Switchable Whitening示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,包括以下具体步骤:
S1:构建随机掩码器的双向掩码视频超分辨率网络;读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
退化是指从高分辨率图像变成低分辨率图像的过程。根据潜在的退化过程,可以分为显式退化和隐式退化,经典的显式退化过程由下采样、模糊、噪声、.JPEG压缩等构成。
模糊是指图像或视频中清晰度或细节的损失。模糊可能由多种因素引起,包括:
1.失焦:当相机或成像系统无法正确聚焦在拍摄对象上时,就会发生这种情况。生成的图像显得模糊或模糊。
2.运动模糊:当相机与拍摄对象之间存在相对运动或拍摄对象本身在曝光时间内处于运动状态时,就会发生这种情况。这可能会导致图像出现条纹或污点,使其看起来模糊不清。
3.高斯模糊:这是一种使用高斯滤波器有意或无意地应用于图像的模糊。高斯滤波器对每个像素邻域内的像素值进行平均,从而产生减少高频细节的平滑效果。
噪声是指低分辨率图像中存在的噪声的数学表示。不同的噪声模型用于捕获低分辨率图像中常见的各种类型的噪声:
a.加性高斯白噪声(AWGN):这是使用最广泛的噪声模型之一。它假设噪声是独立同分布的,服从均值为零的高斯分布。AWGN通常用于表示成像系统中的电子传感器噪声或其他随机噪声源。
b.泊松噪声:它通常出现在涉及低光子数的成像系统中,例如具有低曝光设置的天文成像或医学成像。泊松噪声服从泊松分布,通常建模为低分辨率图像中强度值的平方根。
下采样是指降低图像分辨率以模拟获取低分辨率版本的过程。这种下采样步骤通常用于创建成对的低分辨率和相应的高分辨率图像,然后用于训练和评估超分辨率算法。
下采样因子决定图像缩小的比例。例如,下采样因子为2意味着将图像大小在两个维度上减半。下采样模型的准确性在超分辨率算法的性能中起着重要作用,因为不准确的模型可能会引入影响超分辨率输出质量的伪影或失真。
JPEG压缩是一种广泛使用的数字图像压缩标准。它采用有损压缩技术,这意味着在压缩过程中会丢弃一些图像数据以实现更小的文件大小。JPEG压缩对于摄影和自然图像特别有效,在这些图像中,人类视觉系统对某些类型的图像数据丢失不太敏感。JPEG压缩过程涉及几个关键步骤:
1.离散余弦变换(DCT):图像被分成小块,通常为8x8像素。DCT应用于每个块,将其从空间域转换为频域。DCT系数表示图像的不同频率分量。较高频率的成分往往包含精细的细节,而较低频率的成分则捕捉整体图像结构。
2.量化:DCT系数通过将它们除以量化矩阵来量化。量化过程允许通过降低系数的精度进行有损压缩。量化矩阵值决定了压缩和图像质量之间的权衡。更高的量化值会导致更积极的压缩和更多的图像细节损失。但是,由于JPEG压缩的有损特性,解压缩后的图像与原始图像并不完全匹配。压缩级别和所选的量化参数会影响解压缩图像的视觉质量。
本实施例中,真实世界中的退化普遍复杂且多样,简单的退化模型不足以全面的模拟真实世界中的退化。而隐式退化一般是指通过GAN从视频数据集中学习到的视频退化分布去生成新的退化数据集,然而这种方法受限于训练数据集的分布;本发明通过采用一种高阶退化模型,通过合成一种更加实际的退化图像来恢复真实世界的低质量图像,采用二阶退化过程从训练视频数据集的高分辨率视频获得低分辨率视频:
Vlr=Dn(Vhr)=(Dn*Dn-1*…*D2*D1)(Vhr)
其中Vlr为低分辨率视频,Vhr为训练视频数据集的高分辨率视频,Di为基本退化因子;Di由模糊、下采样、噪声和JPEG视频压缩按顺序构成;执行两次退化过程,扩大退化域,学习更加复杂的退化环境,获得低分辨率视频。
S2:将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
S3:通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
S4:过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
S5:计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
S6:通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
实施例2
更具体的,本实施例中,Switchable Whitening,即可切换白化,是一种集成了各种白化和归一化的通用技术。归一化和白化是机器学习和数据分析中使用的预处理技术,用于将输入数据转换为更适合某些算法或分析的格式。
归一化使数据具有零均值和单位方差。当数据集中的特征具有不同的尺度或单位时,通常使用此技术。通过对数据进行标准化,将所有特征放在同一尺度上,这可以帮助算法在训练过程中更快地收敛,并防止某些特征因其较大的量级而主导学习过程。标准化通常是通过从其值中减去每个特征的平均值,然后除以标准差来实现的。
目前主流三种归一化技术:批量归一化(BN)、实例归一化(IN)和层归一化(LN)。然而这些归一化技术通常是以特征为中心去计算均值和方差,并没有将特征之间去相关,导致特征之间的相关性存在。
白化,也称为去相关,是一种用于去除变量之间的相关性并使它们不相关并具有单位方差的技术。白化适用于处理可能具有相关性的多变量数据。白化可看作是标准化的泛化,白化不仅标准化了数据,还消除了相关性。该过程涉及计算数据的协方差矩阵,对协方差矩阵执行特征值分解,然后使用特征值倒数的平方根对数据进行变换。生成的转换数据将具有单位方差的不相关特征。
目前主流的白化分为批量白化(BW)和实例白化(IW)。
Switchable Whitening通过比率去控制每个技术因子(BN、IN、LN、BW、IW)的权重。这些比率通过学习获得,并且可以继续训练不断的更新迭代。
本实施例中,尽管Switchable Whitening可以让模型网络根据不同时期的重点去分配各个白化和标准化的因子的权重,但是Switchable Whitening的处理范围是整个图像域,这对于以窗口为扫描单位的卷积并不友好。为使网络能够集中注意力去恢复图像中低质量的细节和噪声,所以对整个图像域进行处理不合理。对此本发明提出基于暗通道的Switchable Whitening方法。
在一个具体实施例中,所述的步骤S2中,将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,具体步骤为:
S201:根据暗通道筛选出低分辨率视频的视频帧中复杂的细节区域;暗通道定义为:
其中x为像素点,Φ为以x为中心的局部区域,将局部区域Φ中所有通道C做一个最小值滤波后得到暗通道图像;
S202:基于暗通道图像,对低分辨率视频的图像进行阈值分割,生成掩码图maskd:
maskd=rint(sigmoid(Jdark(x))-ε)
其中ε为设定的一个大于0的小正数;
S203:结合maskd,对低分辨率视频中的特征图进行SwitchableWhitening。
在一个具体实施例中,Switchable Whitening包括归一化技术和白化技术;其中归一化技术包括批量归一化技术BN、实例归一化技术IN和层归一化技术LN;白化技术包括批量白化技术BW和实例白化技术IW;Switchable Whitening,具体为:
其中Ω=[BN,IN,LN,BW,IW],wk为Ω中5个技术分别对应的权重,通过Softmax更新,为SW的输出,/>是一个通道数为C,宽度和高度分别为W和H的特征图,μk表示采用Ω中5个技术分别得到的均值,∑k表示采用Ω中5个技术分别得到的协方差,I为全为1的列向量。
本实施例中,结合maskd,对低分辨率视频中的特征图进行一次迭代的SwitchableWhitening具体流程如表1所示:
表1
所述的双向掩码视频超分辨率网络如图2所示。
在一个具体实施例中,通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征,具体步骤为:设处理后的视频数据为共含有N帧,t时刻时的视频帧为/>相邻帧为It-1和It+1;通过随机掩码器掩盖It50%的区域,被掩盖的部分生成在t时刻下用于前向传播结构/>和反向传播结构的掩码图像/>
其中p为从[0,1]均匀分布的等概率提取,c代表一个像素点[x,y],每个p之间相互独立,且与c相关;
对和/>进行双向视频掩码传播:
其中为t时刻反向传播中的特征,/>为t时刻前向传播中的特征;Fb为双向传播模块中的反向模块,Ff为双向传播模块中的前向模块;
将和/>聚合在一起,让相互缺失的图像之间互相补充对方所缺失的细节,得到处理后的视频数据的视频特征ht:
其中Concat是指按通道C的维度将特征拼接起来的操作。
在一个具体实施例中,如图3所示,为了进一步提升恢复HR图像的质量,本发明提出一种简单的自适应掩码操作去选择特征。所述的自适应掩码由三个完全一样但初始化不同的网络组成;该三个网络包括ResBlocks、3个3×3的卷积块;每个卷积块后都包括ReLU层。初始化的网络的通道数和输入保持一致。
在一个具体实施例中,所述的步骤S4中,通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集,具体步骤为:
S401:将视频特征ht通过所述的三个网络分别得到三个不同值的特征
其中表示由第i个ResBlocks生成的特征,Resi表示第i个由ResBlocks组成的网络,i=[1,2,3];
S402:选定一个作为自适应掩码,通过该掩码去使模型去控制特征的输出,得到最终特征/>
S403:将和It进行上采样,将得到的输出进行Concat后滤波后得到高分辨率单个视频帧输出:
其中′↑′表示上采样操作;
S404:连接所有高分辨率单个视频帧,得到高分辨率视频Y:
本实施例中,所述的步骤S5中,计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络,具体为:
其中α、β、γ分别为的权重;/>为作为Pixel损失的L1函数,为基于特征空间下的L1函数,/>为作为GAN loss的L1函数,/>为训练视频数据集的第i个高分辨率视频,Yi为高分辨率视频数据集的第i个高分辨率视频;
本实施例中,训练采用REDS数据集;训练前,读取REDS数据集;其中由于REDS训练集的分辨率不统一,对REDS进行分割成[256×256]的高质量视频Vhr;由于在同一个视频中分割的位置是相同的,设置分割后的视频长为100帧,则每个训练视频的维度为对Vhr依次经过模糊、加噪、下采样2倍、JPEG视频压缩、模糊、加噪、下采样2倍、JPEG视频压缩进行二阶退化,去合成大小为[64,64]的训练输入/>得到训练用数据;
使用RealBasicVSR作为基模型,令α=1,β=γ=0,预训练双向掩码视频超分辨率网络,用L1函数作为Pixel损失;预训练阶段时一共迭代300k次,学习率为1×10-4,预训练损失设计为Piexl loss:只用L1函数作为Pixel损失。Pixel Loss的计算方法是取高分辨率序列与预测序列之间的绝对差值,然后对视频序列中的所有像素的这些差值取平均:
其中K为batchsize大小;
微调双向掩码视频超分辨率网络,增加感知loss和对抗loss,权重分别为β=1,γ=0.05;感知loss根据特征图而不是直接根据像素值进行两张图像之间的差异;感知loss可以允许网络关注图像上高级语义信息,而不是单个像素值;因此感知loss可以帮助模型生成更具有视觉效果或者更逼真的图像;使用预训练的VGG-19提取训练视频数据集的第i个高分辨率视频和高分辨率视频数据集的第i个高分辨率视频的特征;并通过基于特征空间下的L1函数进一步强化双向掩码视频超分辨率网络恢复图像的性能;在微调阶段一共迭代150k次,学习率为5×10-5,对于RealBasicVSR的框架保留清洁模块。中间通道设置为64:
其中VGG19代表预训练的VGG-19模型;
通过GAN loss鼓励生成器生成高分辨率图像;训练双向掩码视频超分辨率网络的判别器区分真实的高分辨率图像和生成器生成的假高分辨率,从而最大限度的减少GANloss:
其中σ为sigmoid操作,能将判别器的输出规范到0-1之间,Disc为判别器。
本实施例中,训练过程中,序列时间长t设置为15,并且每次迭代中采用flip反转扩充序列,batchsize大小为2,采用Adam优化器更新梯度。对齐模块中光流估计由SPyNet模型生成,在训练过程中SPyNet不参与梯度回传。
在一个具体实施例中,还对训练后的双向掩码视频超分辨率网络进行了测试,具体为:
读取真实世界数据集VideoLQ;VideoLQ.是一个包含多种分辨率,多种退化,多样性的一个真实世界数据集。含有各种纹理和噪声。VideoLQ没有巨大的场景变换。它的视频主要来源于YouTube等网站。它一共包含50个视频序列,其中有46个视频序列的长度都是100。
将真实世界数据集输入训练后的双向掩码视频超分辨率网络,对比恢复的视频与原真实世界数据的对应视频的清晰度,确认训练后的双向掩码视频超分辨率网络是否符合设定的标准,若不符合,则重新进行训练。
本实施例中,在其他视觉任务中,通过PSNR或SSIM这两个指标可以证明图像重建任务是否更加有效。但是在真实世界超分辨重建任务里,人们发现高的不一定能代表更好重建质量。因为在高PSNR或SSIM的图片中,图像的纹理细节并不一定符合人眼的视觉习惯。因此,本实施例中,使用无参考图像质量评估指标NIQE。NIQE对图像质量的感知和人类对比具有高度相关性,并已广泛用于图像和视频处理研究。
测试结果如表2所示:
表2
相较于RealBasicVSR,采用本发明基于双向掩码视频超分辨率网络的视频超分辨率恢复方法回复的视频具有更低的NIQE值,因此有更好的重建效果。
实施例3
基于双向掩码视频超分辨率网络的视频超分辨率恢复系统,包括模型构建模块、Switchable Whitening模块、数据处理模块、双向掩码视频超分辨率处理模块、高分辨率视频恢复模块、loss计算模块、视频超分辨率网络推理;
所述的模型构建模块用于构建随机掩码器的双向掩码视频超分辨率网络;
所述的数据获取模块用于读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
所述的Switchable Whitening模块用于将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
所述的双向掩码视频超分辨率处理模块用于通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
所述的高分辨率视频恢复模块用于通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
所述的loss计算模块用于计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
所述的视频超分辨率网络推理用于通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
当前真实世界的视频超分辨率普遍存在特征冗余,网络无法有效学习视频上下文特征,生成图像细节视觉效果差等问题,目前并没有一种有效的算法在去提高VSR学习视频帧细节特征的能力,故本发明提出一种基于改进双向掩码视频超分辨率网络的视频超分辨率恢复方法。本发明基于RealBasicVSR模型,首先采用基于暗通道的SwitchableWhitening(SW)算法来自适应的对特征进行标准化和去相关;第二,本发明提出一种针对视频的双向视频掩码方法,该方法能够增加VSR模型对视频帧特征的敏感度;第三,本发明提出一种自适应掩码生成方式,能够改进特征图像以获得视觉效果更好的超分辨率图像。该方法在减少模型大小和模型训练时间的同时,相比于RealBasicVSR获得更好的视觉和指标效果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:包括以下具体步骤:
S1:构建随机掩码器的双向掩码视频超分辨率网络;读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
S2:将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
S3:通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
S4:通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
S5:计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
S6:通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
2.根据权利要求1所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:所述的步骤S1中对训练视频数据集进行退化,获得训练时用低质量的低分辨率视频,具体为:采用二阶退化过程从训练视频数据集的高分辨率视频获得低分辨率视频:
Vlr=Dn(Vhr)=(Dn*Dn-1*…*D2*D1)(Vhr)
其中Vlr为低分辨率视频,Vhr为训练视频数据集的高分辨率视频,Di为基本退化因子;Di由模糊、下采样、噪声和JPEG视频压缩按顺序构成;执行两次退化过程,扩大退化域,学习更加复杂的退化环境,获得低分辨率视频。
3.根据权利要求2所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:所述的步骤S2中,将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,具体步骤为:
S201:根据暗通道筛选出低分辨率视频的视频帧中复杂的细节区域;暗通道定义为:
其中x为像素点,Φ为以x为中心的局部区域,将局部区域Φ中所有通道C做一个最小值滤波后得到暗通道图像;
S202:基于暗通道图像,对低分辨率视频的图像进行阈值分割,生成掩码图maskd:
maskd=rint(sigmoid(Jdark(x))-ε)
其中ε为设定的一个大于0的小正数;
S203:结合maskd,对低分辨率视频中的特征图进行Switchable Whitening。
4.根据权利要求3所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:Switchable Whitening包括归一化技术和白化技术;其中归一化技术包括批量归一化技术BN、实例归一化技术IN和层归一化技术LN;白化技术包括批量白化技术BW和实例白化技术IW;Switchable Whitening,具体为:
其中Ω=[BN,IN,LN,BW,IW],wk为Ω中5个技术分别对应的权重,通过Softmax更新,为SW的输出,/>是一个通道数为C,宽度和高度分别为W和H的特征图,μk表示采用Ω中5个技术分别得到的均值,∑k表示采用Ω中5个技术分别得到的协方差,I为全为1的列向量。
5.根据权利要求4所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:结合maskd,对低分辨率视频中的特征图进行Switchable Whitening,具体为:
其中富含纹理的区域是经过SW处理,而/>中干净的区域则是未经处理。
6.根据权利要求5所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征,具体步骤为:设处理后的视频数据为共含有N帧,t时刻时的视频帧为/>相邻帧为It-1和It+1;通过随机掩码器掩盖It50%的区域,被掩盖的部分生成在t时刻下用于前向传播结构/>和反向传播结构的掩码图像/>
其中p为从[0,1]均匀分布的等概率提取,c代表一个像素点[x,y],每个p之间相互独立,且与c相关;
对和/>进行双向视频掩码传播:
其中为t时刻反向传播中的特征,/>为t时刻前向传播中的特征;Fb为双向传播模块中的反向模块,Ff为双向传播模块中的前向模块;
将和/>聚合在一起,让相互缺失的图像之间互相补充对方所缺失的细节,得到处理后的视频数据的视频特征ht:
其中Concat是指按通道C的维度将特征拼接起来的操作。
7.根据权利要求6所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:所述的自适应掩码由三个完全一样但初始化不同的网络组成;该三个网络包括ResBlocks、3个3×3的卷积块;每个卷积块后都包括ReLU层。
8.根据权利要求7所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:所述的步骤S4中,通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集,具体步骤为:
S401:将视频特征ht通过所述的三个网络分别得到三个不同值的特征
其中表示由第i个ResBlocks生成的特征,Resi表示第i个由ResBlocks组成的网络,i=[1,2,3];
S402:选定一个作为自适应掩码,通过该掩码去使模型去控制特征的输出,得到最终特征/>
S403:将和It进行上采样,将得到的输出进行Concat后滤波后得到高分辨率单个视频帧输出:
其中′↑′表示上采样操作;
S404:连接所有高分辨率单个视频帧,得到高分辨率视频Y:
9.根据权利要求8所述的基于双向掩码视频超分辨率网络的视频超分辨率恢复方法,其特征在于:所述的步骤S5中,计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络,具体为:
其中α、β、γ分别为的权重;/>为作为Pixel损失的L1函数,/>为基于特征空间下的L1函数,/>为作为GANloss的L1函数,/>为训练视频数据集的第i个高分辨率视频,Yi为高分辨率视频数据集的第i个高分辨率视频;
预训练双向掩码视频超分辨率网络,令α=1,β=γ=0,用L1函数作为Pixel损失;提取训练视频数据集的第i个高分辨率视频和高分辨率视频数据集的第i个高分辨率视频之间的绝对差值,然后对所有像素的差值取平均:
其中K为batchsize大小;
微调双向掩码视频超分辨率网络,增加感知loss和对抗loss,权重分别为β=1,γ=0.05;使用预训练的VGG-19提取训练视频数据集的第i个高分辨率视频和高分辨率视频数据集的第i个高分辨率视频的特征;通过基于特征空间下的L1函数进一步强化恢复图像的高级特征信息:
其中VGG19代表预训练的VGG-19模型;
通过GAN loss鼓励生成器生成高分辨率图像;训练双向掩码视频超分辨率网络的判别器区分真实的高分辨率图像和生成器生成的假高分辨率,从而最大限度的减少GAN loss:
其中σ为sigmoid操作,能将判别器的输出规范到0-1之间,Disc为判别器。
10.基于双向掩码视频超分辨率网络的视频超分辨率恢复系统,其特征在于:包括模型构建模块、Switchable Whitening模块、数据处理模块、双向掩码视频超分辨率处理模块、高分辨率视频恢复模块、loss计算模块、视频超分辨率网络推理;
所述的模型构建模块用于构建随机掩码器的双向掩码视频超分辨率网络;
所述的数据获取模块用于读取训练视频数据集;对训练视频数据集进行退化,得到低分辨率视频数据集;
所述的Switchable Whitening模块用于将低分辨率视频数据输入随机掩码器的双向掩码视频超分辨率网络进行基于暗通道的Switchable Whitening,得到处理后的视频数据集;
所述的双向掩码视频超分辨率处理模块用于通过随机掩码器对处理后的视频数据进行双向视频掩码,得到处理后的视频数据的视频特征;
所述的高分辨率视频恢复模块用于通过自适应掩码将视频特征恢复为高分辨率视频,得到高分辨率视频数据集;
所述的loss计算模块用于计算高分辨率视频数据和训练视频数据中对应的视频之间的loss,训练双向掩码视频超分辨率网络;
所述的视频超分辨率网络推理用于通过训练好的双向掩码视频超分辨率对真实视频进行超分辨率恢复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064500.7A CN117094893A (zh) | 2023-08-22 | 2023-08-22 | 基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064500.7A CN117094893A (zh) | 2023-08-22 | 2023-08-22 | 基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117094893A true CN117094893A (zh) | 2023-11-21 |
Family
ID=88769411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311064500.7A Pending CN117094893A (zh) | 2023-08-22 | 2023-08-22 | 基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094893A (zh) |
-
2023
- 2023-08-22 CN CN202311064500.7A patent/CN117094893A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709895B (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
Zhang et al. | Image restoration: From sparse and low-rank priors to deep priors [lecture notes] | |
CN111028177B (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
Liu et al. | Progressive image denoising through hybrid graph Laplacian regularization: A unified framework | |
CN112767251B (zh) | 基于多尺度细节特征融合神经网络的图像超分辨率方法 | |
CN110969577A (zh) | 一种基于深度双重注意力网络的视频超分辨率重建方法 | |
CN107133923B (zh) | 一种基于自适应梯度稀疏模型的模糊图像非盲去模糊方法 | |
Min et al. | Blind deblurring via a novel recursive deep CNN improved by wavelet transform | |
Li et al. | A maximum a posteriori estimation framework for robust high dynamic range video synthesis | |
CN114463218A (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN112200732B (zh) | 一种清晰特征融合的视频去模糊方法 | |
CN117274059A (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
Mai et al. | Deep unrolled low-rank tensor completion for high dynamic range imaging | |
Saleem et al. | A non-reference evaluation of underwater image enhancement methods using a new underwater image dataset | |
CN112200752B (zh) | 一种基于er网络多帧图像去模糊系统及其方法 | |
Goto et al. | Learning-based super-resolution image reconstruction on multi-core processor | |
Jaisurya et al. | Attention-based single image dehazing using improved cyclegan | |
CN116721033A (zh) | 一种基于随机掩码卷积和注意力机制的单幅图像去雾方法 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
CN114581304B (zh) | 一种基于循环网络的图像超分辨率和去雾融合方法及系统 | |
CN113379641B (zh) | 一种基于自编码卷积神经网络的单幅图像去雨方法及系统 | |
CN117094893A (zh) | 基于双向掩码视频超分辨率网络的视频超分辨率恢复方法及系统 | |
CN114549361A (zh) | 一种基于改进U-Net模型的去图像运动模糊方法 | |
Kumar et al. | A novel method for image compression using spectrum | |
Jeyaprakash et al. | Linearly uncorrelated principal component and deep convolutional image deblurring for natural images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |