CN113850718A - 一种基于帧间特征对齐的视频同步时空超分方法 - Google Patents
一种基于帧间特征对齐的视频同步时空超分方法 Download PDFInfo
- Publication number
- CN113850718A CN113850718A CN202110609272.1A CN202110609272A CN113850718A CN 113850718 A CN113850718 A CN 113850718A CN 202110609272 A CN202110609272 A CN 202110609272A CN 113850718 A CN113850718 A CN 113850718A
- Authority
- CN
- China
- Prior art keywords
- frame
- resolution
- frames
- vectors
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 203
- 238000005070 sampling Methods 0.000 claims abstract description 46
- 238000003780 insertion Methods 0.000 claims abstract description 26
- 230000037431 insertion Effects 0.000 claims abstract description 26
- 230000001360 synchronised effect Effects 0.000 claims abstract description 4
- 239000013604 expression vector Substances 0.000 claims description 30
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 238000000926 separation method Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 238000005192 partition Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20068—Projection on vertical or horizontal image axis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Television Systems (AREA)
Abstract
本发明提供了一种基于同步时空超分的用于生成高帧率高分辨率视频的方法和系统。方法包括:将视频文件逐一抽帧形成视频帧序列;对每一对相邻帧进行特征提取以获得特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量;利用RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量;利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量;将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧;以及将所生成的各目标视频帧重新编码为高帧率高分辨率的视频。
Description
技术领域
本发明涉及人工智能及图像处理领域,更具体地,涉及基于帧间特征对齐的视频同步时空超分方法。
背景技术
视频插帧和视频超分是当前学界和工业届在视频增强邻域的热点,视频插帧技术可以将提升视频的帧率,让视频在观感上更加“丝滑”。视频插帧技术主要有以DVF为代表的传统线性插帧和以DAIN为代表的基于深度学习的插帧技术。视频超分技术可以提升视频的分辨率,通过视频超分技术,可以将540P视频提升为4K画质的视频。视频超分方法以深度学习算法为主,具有代表性的模型有VSR、RBPN、Zooming Slow-Mo等方法。视频插帧和视频超分合起来可以称作时空超分任务,很多研究已经注意到了时间超分和空间超分之间的关联关系,让时间超分和空间超分之间能够相互协助,从而实现更好的超分结果。
近年来支持2K乃至4K的电视逐渐普及,一些老旧的影视节目在这些高清显示设备上显示效果差,影响用户观看体验。现有的视频时空超分技术大多是基于相邻帧的光流图来进行对齐,依赖于光流计算的准确性,不准确的光流会导致大量伪影。同时现有的视频时空超分方法都是先进行视频插帧,再进行视频超分辨,相比独立地执行两个模型,只是在最终效果上有所提升,并没有提升整体计算性能。因此完成视频时空超分任务需要消耗大量计算资源。
中国专利申请“视频质量提升方法、装置、电子设备和存储介质”(CN111654723A)公开了一种视频质量提升方法、装置、电子设备和存储介质,涉及视频处理和深度学习领域。具体实现方案为:从原始视频中,提取相邻的第一图像帧和第二图像帧;对第一图像帧提取第一图像特征,对第二图像帧提取第二图像特征;根据第一图像特征和第二图像特征之间的特征连续性,插值生成目标图像特征;对第一图像特征、目标图像特征和第二图像特征,分别进行上采样,还原图像得到插帧后的各帧目标图像;根据各帧目标图像,生成目标视频。然而,在该方法中,视频超分辩是基于单帧图片的超分辨,相比于基于相邻帧上下文的视频超分方法,效果较差。
中国专利申请“基于时间切片的视频时空超分辨率增强方法”(CN112070677A)公开了一种基于时间切片的视频时空超分辨率增强方法,包括:输入待增强的视频,将其转换成竖直时间切片;将竖直时间切片送入时间切片超分辨率模块,得到超分辨率之后的时间切片,再转换为视频A;所述切片超分辨率模块能够捕获竖直时间切片包含的时空相关性,从而得到与目标视频帧率一致的视频;将视频A送入特征变换模块,获得与目标视频空间分辨率一致的视频B;将视频B送入优化模块,来增强视频细节并消除伪影。该方法通过显式地对时间切片建模,更好地挖掘时空关联信息,捕获长时序的视频信息,实现视频帧率和视频空间分辨率的提升。
上述两个专利虽然在一个工作流中同时实现了时间超分和空间超分,但是两个工作是串行完成的,要先完成时间超分再完成空间超分。相比分别使用两个不同超分模型进行处理,并没有提升整体计算性能且需要消耗大量计算资源。因此,希望提供一种能够规避光流法对齐所产生的伪影问题的改进的视频时空超分方法,同时通过调整网络结构使时间超分和空间超分同步进行,从而降低计算资源消耗。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
根据本发明的一方面,提供了一种视频同步时空超分方法,所述方法包括:
将视频文件逐一抽帧形成视频帧序列;
对于所述视频帧序列中的每一对相邻帧进行如下操作:
对所述相邻帧进行特征提取以获得所述相邻帧所对应的特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量;
利用循环反投影网络RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量;
利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量;
将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧;以及
将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。
根据本发明的一个实施例,所述通过帧间运动对齐网络获得帧间运动表示向量进一步包括:
将所述相邻帧所对应的特征向量拼接后输入卷积层进行初步对齐;
输入瓶颈卷积层减少通道数;以及
输入残差块完成对齐,以得到对齐后的帧间运动表示向量。
根据本发明的进一步实施例,所述利用循环反投影网络RBPN来对所述相邻帧进行超分辨进一步包括:
将所述相邻帧拼接后输入卷积层进行融合和升维;
与所述帧间运动表示向量拼接后输入所述RBPN以得到所述相邻帧所对应的高分辨帧向量;以及
通过降采样获得所述相邻帧所对应的低分辨帧向量。
根据本发明的进一步实施例,所述利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量进一步包括:
将所述相邻帧所对应的高分辨帧向量和所述帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块和金字塔模块;
将两者的输出融合计算后获得所述插入帧所对应的高分辨帧向量;以及
通过降采样获得所述插入帧所对应的低分辨帧向量。
根据本发明的进一步实施例,将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化进一步包括:
将所述相邻帧和所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述相邻帧的高分辨帧向量融合计算得到所述相邻帧所对应的目标高分辨帧向量;
通过降采样获得所述相邻帧所对应的目标低分辨帧向量;以及
将所述相邻帧所对应的目标低分辨帧向量与所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述插入帧所对应的高分辨帧向量融合计算得到所述插入帧所对应的目标高分辨帧向量。
根据本发明的另一方面,提供了一种基于同步时空超分的用于生成高帧率高分辨率视频的系统,所述系统包括:
视频预处理模块,所述视频预处理模块被配置成将视频文件逐一抽帧形成视频帧序列;
帧间运动对齐模块,所述帧间运动对齐模块被配置成:对所述视频帧序列中的每一对相邻帧进行特征提取以获得所述相邻帧所对应的特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量;
时空超分模块,所述时空超分模块被配置成:
利用循环反投影网络RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量;
利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量;
优化重建模块,所述优化重建模块被配置成将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧;以及
视频重构模块,所述视频重构模块被配置成将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。
根据本发明的一个实施例,所述帧间运动对齐模块被进一步配置成:
将所述相邻帧所对应的特征向量拼接后输入卷积层进行初步对齐;
输入瓶颈卷积层减少通道数;以及
输入残差块完成对齐,以得到对齐后的帧间运动表示向量。
根据本发明的另一实施例,所述时空超分模块被进一步配置成:
将所述相邻帧拼接后输入卷积层进行融合和升维;
与所述帧间运动表示向量拼接后输入所述RBPN以得到所述相邻帧所对应的高分辨帧向量;以及
通过降采样获得所述相邻帧所对应的低分辨帧向量。
根据本发明的另一实施例,所述时空超分模块被进一步配置成:
将所述相邻帧所对应的高分辨帧向量和所述帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块和金字塔模块;
将两者的输出融合计算后获得所述插入帧所对应的高分辨帧向量;以及
通过降采样获得所述插入帧所对应的低分辨帧向量。
根据本发明的另一实施例,所述优化重建模块被进一步配置成:
将所述相邻帧和所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述相邻帧的高分辨帧向量融合计算得到所述相邻帧所对应的目标高分辨帧向量;
通过降采样获得所述相邻帧所对应的目标低分辨帧向量;以及
将所述相邻帧所对应的目标低分辨帧向量与所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述插入帧所对应的高分辨帧向量融合计算得到所述插入帧所对应的目标高分辨帧向量。
与现有技术中的方案相比,本发明所提供的视频同步时空超分方法和系统至少具有以下优点:
(1)多数视频超分基于光流法进行对齐,其性能依赖于光流计算的准确性,不准确的光流会导致大量伪影,本发明使用帧间图片特征对齐网络,能够自适应地在特征层面进行对齐,有效地降低伪影;以及
(2)现有的时空超分方法都是先进行视频插帧,再进行视频超分辨,相比独立地执行两个模型,只是在最终效果上有所提升,并没有提升整体计算性能,本发明将插帧和超分辨两个操作中都需要的帧间对齐合并进行,能够同步进行时空超分,在确保视频效果的同时提升计算技能,节省计算资源消耗。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分系统的示例架构图。
图2示出了根据本发明的一个实施例的帧间运动对齐模块的示意结构图。
图3示出了根据本发明的一个实施例的时空超分模块中的RBPN的示例结构图。
图4示出了根据本发明的一个实施例的时空超分模块中的时空超分网络的示例结构图。
图5示出了根据本发明的一个实施例的优化重建模块中的优化网络的示例结构图。
图6示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法的整体流程图。
图7示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法的流程图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
图1是根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分系统100的示例架构图。如图1中所示,本发明的系统100包括:视频预处理模块101、帧间运动对齐模块102、时空超分模块103、优化重建模块104和视频重构模块105。
视频预处理模块101可被配置成将输入的视频文件逐一抽帧,形成初始视频帧序列。帧间运动对齐模块102可被配置成对初始视频帧序列中的每一对相邻帧进行特征提取以获得这两帧所对应的特征向量,随后通过帧间运动对齐网络获得帧间运动表示向量。时空超分模块103可包括循环反投影网络(RBPN)和时空超分网络。时空超分模块103可被配置成使用两个RBPN对两个相邻帧进行超分辨,以得到分别与这两个相邻帧相对应的两个高分辨帧向量,随后通过降采样得到与这两个高分辨帧向量相对应的两个低分辨帧向量。进一步地,时空超分模块103还可被配置成利用使用残存块和金字塔模块构建的时空超分网络来生成与插入帧相对应的高分辨帧向量,随后通过降采样得到与该高分辨帧向量相对应的低分辨帧向量。优化重建模块104可被配置成将由时空超分模块103生成的结果向量(即,相邻帧和插入帧的高分辨帧向量和低分辨帧向量)进行优化以得到两个相邻帧和插入帧的目标高分辨向量,并且随后进行升采样以生成最终的三个目标视频帧。视频重构模块105可被配置成将针对初始视频帧序列中的每一对相邻帧进行处理之后所生成的各目标帧重新编码为视频,以获得高帧率高分辨率的视频。
本领域技术人员能够理解,本发明的系统及其各模块既可以以硬件形式实现,也可以以软件形式实现,并且各模块可以任意合适的方式合并或组合。另外,本发明的系统可使用REDS数据集(高质量的视频超分数据集),基于结构相似度(SSIM)构造损失函数来进行端到端训练。
图2示出了根据本发明的一个实施例的帧间运动对齐模块102的示意结构图。帧间运动对齐模块102可包括特征提取网络和帧间运动对齐网络。特征提取网络可由一个卷积层和五个残差块组成,用于提取输入的两个相邻帧所对应的特征向量图。帧间运动对齐网络可由一个卷积层、一个瓶颈层和五个残差块组成,用于将相邻帧的特征向量拼接后输入卷积层进行初步对齐,随后输入瓶颈卷积层减少通道数,随后输入残差块完成对齐,得到对齐后的帧间运动表示向量。如图2所示,帧间运动对齐模块102将相邻帧输入特征提取网络以得到与这两个相邻帧相对应的特征向量Fi、Fi+1,随后将所得到的特征向量Fi、Fi+1输入帧间运动对齐网络以得到对齐后的帧间运动表示向量Fi→i+1。
图3示出了根据本发明的一个实施例的时空超分模块103中的循环反投影网络(RBPN)300的示例结构图。循环反投影网络(RBPN)是连续帧图像超分辨比较成熟的网络结构,该网络结构被分为三个部分:初始特征提取、多投影以及重建。在本发明中与RBPN略有不同的是相邻帧的运动表示不是图片而是向量,因此需要将相邻帧拼接后输入三个卷积层进行融合和升维,随后再与相邻帧的帧间运动表示向量拼接(concat),其余部分均与RBPN一致。如图3所示,初始特征提取分为两部分,即(1)对初始视频帧进行特征提取以得到张量Li;以及(2)对相邻帧拼接后输入三个卷积层所得的特征向量与帧间运动表示向量Fi→i+1进行特征提取以得到张量Mi。随后,将所得到的张量Li和张量Mi分别输入MISR块和SISR块,经由升采样得到高分辨特征向量和将所得到的和输入残差块求得残差ei后,将残差ei与SISR支路的相加以得到与初始视频帧相对应的高分辨帧向量Hi,随后可对所得到的高分辨帧向量Hi进行降采样以得到相应的低分辨帧向量Li以用于时空超分网络。
图4示出了根据本发明的一个实施例的时空超分模块103中的时空超分网络400的示例结构图。时空超分模块103可在利用两个循环反投影网络(RBPN)300分别对两个原始相邻帧进行超分辨以得到相邻帧的对应高分辨帧向量和低分辨帧向量之后,利用时空超分网络400基于原始帧进行插帧和超分辨以得到插入帧所对应的高分辨帧向量和低分辨帧向量。具体而言,时空超分网络400可将相邻帧所对应的高分辨帧向量和帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块以及金字塔模块,将两者的输出融合计算后获得插入帧所对应的高分辨帧向量,同时将插入帧降采样获得对应低分辨帧向量。如图4所示,时空超分网络400将图3所示的示例中获得的相邻帧所对应的高分辨帧向量Hi和Hi+1和帧间运动表示向量Fi→i+1拼接后分别输入由5个残差块和5个反卷积层组成的升采样模块以及金字塔模块,将两者的输出融合之后得到插入帧所对应的高分辨帧向量Hi+t’。随后,时空超分网络400可将图3所示的示例中获得的相邻帧所对应的低分辨帧向量Li和Li+1和帧间运动表示向量Fi→i+1拼接后输入由2个残差块和1个卷积层组成的降采样模块,将所得到的插入帧所对应的高分辨帧向量Hi+t’输入由2个残差块和1个卷积层组成的降采样模块,将两者的输出融合之后得到插入帧所对应的低分辨帧向量Li+t’。
图5示出了根据本发明的一个实施例的优化重建模块104中的优化网络500的示例结构图。优化重建模块104主要用于对前一模块(即,时空超分模块103)的输出结果进行进一步精细化。具体而言,对于原始相邻帧,可使用对应帧和所生成插入帧的低分辨帧向量以及帧间运动表示向量拼接后输入网络进行推理,所得结果和通过RBPN生成的高分辨帧向量融合计算得到相邻帧所对应的目标高分辨帧向量;对于所生成插入帧,分别使用两个相邻帧所对应的目标低分辨帧向量与所生成插入帧的低分辨帧向量以及帧间运动表示向量拼接后输入网络进行推理,所得两个结果和前一模块生成的插入帧所对应的高分辨帧向量融合计算得到插入帧所对应的目标高分辨帧向量。最后将三个目标高分辨帧向量输入重建网络还原成三个目标视频帧。如图5所示,优化网络500将原始相邻帧中的每一帧和所生成插入帧的低分辨帧向量Li、Li+1和Li+t’以及帧间运动表示向量Fi→i+1拼接后输入由5个残差块和5个反卷积层组成的升采样模块,将所得的两个结果分别与通过RBPN生成的高分辨帧向量Hi和Hi+1融合计算得到相邻帧所对应的目标高分辨帧向量和随后可对所得到的目标高分辨帧向量和进行降采样并且分别与通过RBPN生成的低分辨帧向量Li和Li+1融合计算得到相邻帧所对应的目标低分辨帧向量和随后,可分别将所得到的目标低分辨帧向量和与通过时空超分网络生成的插入帧所对应的低分辨帧向量Li+t’以及帧间运动表示向量Fi→i+1拼接后输入由5个残差块和5个反卷积层组成的升采样模块,将所得的两个结果与通过时空超分网络生成的插入帧所对应的高分辨帧向量Hi+t’融合计算得到插入帧所对应的目标高分辨帧向量
图6示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法600的整体流程图。如图6所示,方法600包括以下步骤:
步骤S3:将相邻帧和帧间运动表示向量Fi→i+1以及相邻帧 和帧间运动表示向量Fi→i+1分别输入RBPN以得到视频帧所对应的高分辨帧向量Hi和低分辨帧向量Li以及视频帧所对应的高分辨帧向量Hi+1和低分辨帧向量Li+1。
步骤S4:将相邻帧所对应的高分辨帧向量Hi、Hi+1和低分辨帧向量Li、Li+1以及帧间运动表示向量Fi→i+1输入时空超分网络,计算生成插入帧所对应的高分辨帧向量Hi+t’和低分辨帧向量Li+t’。
步骤S5:将相邻帧和所生成插入帧所对应的高分辨帧向量Hi、Hi+1、Hi+t’和低分辨帧向量Li、Li+1、Li+t’以及帧间运动表示向量Fi→i+1输入优化网络以得到相邻帧和所生成插入帧所对应的目标高分辨帧向量 随后将所得到的目标高分辨帧向量输入重建网络还原成三个目标视频帧
步骤S6:在视频帧序列上循环执行步骤2~步骤5,最后一组相邻帧执行完毕后将所得的各目标视频帧重新编码为视频,以获得高帧率高分辨率的视频。
图7示出了根据本发明的一个实施例的基于帧间特征对齐的视频同步时空超分方法700的流程图。方法700开始于步骤701,视频预处理模块101将视频文件逐一抽帧形成视频帧序列。
在步骤702,帧间运动对齐模块102对视频帧序列中的每一对相邻帧进行特征提取以获得这两个相邻帧所对应的特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量。
在步骤703,时空超分模块103利用循环反投影网络(RBPN)来对两个相邻帧进行超分辨以得到这两个相邻帧所对应的高分辨帧向量,并且通过降采样获得这两个相邻帧所对应的低分辨帧向量。
在步骤704,时空超分模块103利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量,并且通过降采样获得插入帧所对应的低分辨帧向量。
在步骤705,优化重建模块104将由时空超分模块103生成的两个相邻帧和插入帧的高分辨帧向量和低分辨帧向量进行优化以得到两个相邻帧和插入帧的目标高分辨向量,并且通过升采样以生成三个目标视频帧。
在步骤706,视频重构模块105将针对视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为视频,以获得高帧率高分辨率的视频。
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。
Claims (10)
1.一种基于同步时空超分的用于生成高帧率高分辨率视频的方法,其特征在于,所述方法包括:
将视频文件逐一抽帧形成视频帧序列;
对于所述视频帧序列中的每一对相邻帧进行如下操作:
对所述相邻帧进行特征提取以获得所述相邻帧所对应的特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量;
利用循环反投影网络RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量;
利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量;
将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧;以及
将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。
2.如权利要求1所述的方法,其特征在于,所述通过帧间运动对齐网络获得帧间运动表示向量进一步包括:
将所述相邻帧所对应的特征向量拼接后输入卷积层进行初步对齐;
输入瓶颈卷积层减少通道数;以及
输入残差块完成对齐,以得到对齐后的帧间运动表示向量。
3.如权利要求1所述的方法,其特征在于,所述利用循环反投影网络RBPN来对所述相邻帧进行超分辨进一步包括:
将所述相邻帧拼接后输入卷积层进行融合和升维;
与所述帧间运动表示向量拼接后输入所述RBPN以得到所述相邻帧所对应的高分辨帧向量;以及
通过降采样获得所述相邻帧所对应的低分辨帧向量。
4.如权利要求1所述的方法,其特征在于,所述利用时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量进一步包括:
将所述相邻帧所对应的高分辨帧向量和所述帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块和金字塔模块;
将两者的输出融合计算后获得所述插入帧所对应的高分辨帧向量;以及
通过降采样获得所述插入帧所对应的低分辨帧向量。
5.如权利要求1所述的方法,其特征在于,将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化进一步包括:
将所述相邻帧和所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述相邻帧的高分辨帧向量融合计算得到所述相邻帧所对应的目标高分辨帧向量;
通过降采样获得所述相邻帧所对应的目标低分辨帧向量;以及
将所述相邻帧所对应的目标低分辨帧向量与所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述插入帧所对应的高分辨帧向量融合计算得到所述插入帧所对应的目标高分辨帧向量。
6.一种基于同步时空超分的用于生成高帧率高分辨率视频的系统,其特征在于,所述系统包括:
视频预处理模块,所述视频预处理模块被配置成将视频文件逐一抽帧形成视频帧序列;
帧间运动对齐模块,所述帧间运动对齐模块被配置成:对所述视频帧序列中的每一对相邻帧进行特征提取以获得所述相邻帧所对应的特征向量,并且通过帧间运动对齐网络获得帧间运动表示向量;
时空超分模块,所述时空超分模块被配置成:
利用循环反投影网络RBPN来对所述相邻帧进行超分辨以得到所述相邻帧所对应的高分辨帧向量和低分辨帧向量;
利用使用升采样模块和金字塔模块构建的时空超分网络来生成插入帧所对应的高分辨帧向量和低分辨帧向量;
优化重建模块,所述优化重建模块被配置成将所述相邻帧和所述插入帧所对应的高分辨帧向量进行优化以得到所述相邻帧和所述插入帧所对应的目标高分辨向量并且通过升采样生成三个目标视频帧;以及
视频重构模块,所述视频重构模块被配置成将对所述视频帧序列中的每一对相邻帧进行处理之后所生成的各目标视频帧重新编码为高帧率高分辨率的视频。
7.如权利要求6所述的系统,其特征在于,所述帧间运动对齐模块被进一步配置成:
将所述相邻帧所对应的特征向量拼接后输入卷积层进行初步对齐;
输入瓶颈卷积层减少通道数;以及
输入残差块完成对齐,以得到对齐后的帧间运动表示向量。
8.如权利要求6所述的系统,其特征在于,所述时空超分模块被进一步配置成:
将所述相邻帧拼接后输入卷积层进行融合和升维;
与所述帧间运动表示向量拼接后输入所述RBPN以得到所述相邻帧所对应的高分辨帧向量;以及
通过降采样获得所述相邻帧所对应的低分辨帧向量。
9.如权利要求6所述的系统,其特征在于,所述时空超分模块被进一步配置成:
将所述相邻帧所对应的高分辨帧向量和所述帧间运动表示向量拼接后分别输入由残差块和反卷积模块组成的升采样模块和金字塔模块;
将两者的输出融合计算后获得所述插入帧所对应的高分辨帧向量;以及
通过降采样获得所述插入帧所对应的低分辨帧向量。
10.如权利要求6所述的系统,其特征在于,所述优化重建模块被进一步配置成:
将所述相邻帧和所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述相邻帧的高分辨帧向量融合计算得到所述相邻帧所对应的目标高分辨帧向量;
通过降采样获得所述相邻帧所对应的目标低分辨帧向量;以及
将所述相邻帧所对应的目标低分辨帧向量与所述插入帧的低分辨帧向量以及帧间运动表示向量拼接后进行升采样所得的结果与所述插入帧所对应的高分辨帧向量融合计算得到所述插入帧所对应的目标高分辨帧向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609272.1A CN113850718A (zh) | 2021-06-01 | 2021-06-01 | 一种基于帧间特征对齐的视频同步时空超分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609272.1A CN113850718A (zh) | 2021-06-01 | 2021-06-01 | 一种基于帧间特征对齐的视频同步时空超分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850718A true CN113850718A (zh) | 2021-12-28 |
Family
ID=78973032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609272.1A Pending CN113850718A (zh) | 2021-06-01 | 2021-06-01 | 一种基于帧间特征对齐的视频同步时空超分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850718A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339156A (zh) * | 2021-12-29 | 2022-04-12 | 武汉大学 | 视频流帧率调整方法、装置、设备及可读存储介质 |
CN114529456A (zh) * | 2022-02-21 | 2022-05-24 | 深圳大学 | 一种视频的超分辨率处理方法、装置、设备及介质 |
CN117519609A (zh) * | 2024-01-02 | 2024-02-06 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
-
2021
- 2021-06-01 CN CN202110609272.1A patent/CN113850718A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339156A (zh) * | 2021-12-29 | 2022-04-12 | 武汉大学 | 视频流帧率调整方法、装置、设备及可读存储介质 |
CN114339156B (zh) * | 2021-12-29 | 2023-03-14 | 武汉大学 | 视频流帧率调整方法、装置、设备及可读存储介质 |
CN114529456A (zh) * | 2022-02-21 | 2022-05-24 | 深圳大学 | 一种视频的超分辨率处理方法、装置、设备及介质 |
CN117519609A (zh) * | 2024-01-02 | 2024-02-06 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
CN117519609B (zh) * | 2024-01-02 | 2024-04-09 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
Isobe et al. | Revisiting temporal modeling for video super-resolution | |
CN111311490B (zh) | 基于多帧融合光流的视频超分辨率重建方法 | |
CN109903228B (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
CN113850718A (zh) | 一种基于帧间特征对齐的视频同步时空超分方法 | |
CN102714726B (zh) | 使用元数据的用于时间缩放的边缘增强 | |
KR100948385B1 (ko) | 프레임 해상도 향상 방법 및 장치 | |
CN111787187B (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
JP5844745B2 (ja) | パッチシフティングを通じてベクトル量子化誤差を低減する方法および装置 | |
CN116862773A (zh) | 一种应用于复杂场景下的视频超分辨率重建方法 | |
Peng et al. | Ovqe: Omniscient network for compressed video quality enhancement | |
CN112785502B (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN112862675A (zh) | 时空超分辨率的视频增强方法和系统 | |
Yu et al. | PoSNet: 4x video frame interpolation using position-specific flow | |
CN117196948A (zh) | 一种基于事件数据驱动的视频超分辨率方法 | |
CN111860363A (zh) | 一种视频图像的处理方法及装置、电子设备、存储介质 | |
CN115984106B (zh) | 一种基于双边生成对抗网络的线扫描图像超分辨率方法 | |
CN116668738A (zh) | 一种视频时空超分辨率重构方法、装置及存储介质 | |
CN116012272A (zh) | 一种基于重建流场的压缩视频质量增强方法 | |
Yeh et al. | VDNet: video deinterlacing network based on coarse adaptive module and deformable recurrent residual network | |
Zhao et al. | Multiframe joint enhancement for early interlaced videos | |
CN112533026A (zh) | 基于卷积神经网络的视频插帧方法 | |
Zhao et al. | Frame rate up-conversion based on edge information | |
CN117853340B (zh) | 基于单向卷积网络和降质建模的遥感视频超分辨率重建方法 | |
US11778223B2 (en) | Method, device, and medium for generating super-resolution video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220129 Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200072 Applicant after: Tianyi Digital Life Technology Co.,Ltd. Address before: 201702 3rd floor, 158 Shuanglian Road, Qingpu District, Shanghai Applicant before: Tianyi Smart Family Technology Co.,Ltd. |