CN116527833B - 一种基于超分模型的高清视频生成方法及系统 - Google Patents

一种基于超分模型的高清视频生成方法及系统 Download PDF

Info

Publication number
CN116527833B
CN116527833B CN202310801627.6A CN202310801627A CN116527833B CN 116527833 B CN116527833 B CN 116527833B CN 202310801627 A CN202310801627 A CN 202310801627A CN 116527833 B CN116527833 B CN 116527833B
Authority
CN
China
Prior art keywords
features
frame
optical flow
propagation
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310801627.6A
Other languages
English (en)
Other versions
CN116527833A (zh
Inventor
秦志金
王丽婷
杨定熹
陶晓明
段一平
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Nantong Research Institute for Advanced Communication Technologies Co Ltd
Original Assignee
Tsinghua University
Nantong Research Institute for Advanced Communication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Nantong Research Institute for Advanced Communication Technologies Co Ltd filed Critical Tsinghua University
Priority to CN202310801627.6A priority Critical patent/CN116527833B/zh
Publication of CN116527833A publication Critical patent/CN116527833A/zh
Application granted granted Critical
Publication of CN116527833B publication Critical patent/CN116527833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0125Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level one of the standards being a high definition standard
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频处理技术领域,提供了一种基于超分模型的高清视频生成方法及系统,包括:获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;通过光流引导的可变形卷积方法将参考帧与中心进行对齐;在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。本发明解决了现有高清视频生成质量差、速度慢的问题。

Description

一种基于超分模型的高清视频生成方法及系统
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于超分模型的高清视频生成方法及系统。
背景技术
从目前的市场应用来看,非智能摄像机依然占据市场最大份额,未来,前端智能化摄像必将成为主流。然而传统的视频系统只能完成监控录像、视频联网这些基本功能,无法实现事前预防、突发情况预警功能。智能视频分析得益于新基建的需求刺激在照明工程、智安小区、城市治理、城镇老旧小区改造等项目快速发展。智能视频分析通常可以分为运动目标的识别、目标跟踪与行为理解,这一切的任务都有赖于超高清的图像。在复杂环境下的图像超分辨率重建更加困难,但是其具有重大的现实意义。
高清、超高清分辨率的视频、图像即将逐渐发展为通用的图像格式,用户对于高质量图像的需求也愈发迫切,但是无论是基于外部样本库的样本学习方法、还是基于局部自样本学习方法,在面对图像尺寸为1920*1080这样的高清图像时,进行学习匹配所带来的计算量无疑是巨大的,处理时间也比较长,无法满足快速生成高清视频的需求。
发明内容
本发明提供一种基于超分模型的高清视频生成方法及系统,用以解决现有高清视频生成质量差、速度慢的问题。
本发明提供一种基于超分模型的高清视频生成方法,包括:
获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
根据本发明提供的一种基于超分模型的高清视频生成方法,所述通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧,具体包括:
所述网格传播包括四层循环神经网络,分为两个前向传播层和两个后向传播层;
每一层中每个节点的输入包含上一个和上上个节点的状态,在四层循环神经网络之间有特征地传播;
通过一阶网格传播加关键帧传播的形式,在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征。
根据本发明提供的一种基于超分模型的高清视频生成方法,所述通过光流引导的可变形卷积方法将参考帧与中心进行对齐,具体包括:
通过预训练的光流计算模型计算出帧之间的光流;
通过光流对参考帧的特征进行扭曲与中心帧的特征进行预对齐;
将预对齐的参考帧特征与中心帧特征拼接计算出可变形卷积偏置量;
将所述偏置量与之前计算的光流相加得到更细致的光流,通过至可变形卷积方法完成参考帧特征与中心帧特征的对齐。
根据本发明提供的一种基于超分模型的高清视频生成方法,所述在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,具体包括:
将参考帧与中心帧对齐后的特征图按通道维度之间拼接到一起;
经过多个残差块使拼接的特征相互融合,最终得到重建高清帧所需的隐含特征,完成特征融合。
根据本发明提供的一种基于超分模型的高清视频生成方法,所述基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,具体包括:
基于注意力机制的特征滤波器对每一层前向或后向传播的循环神经网络输出的特征图与最先提取的帧的特征图计算相似度作为注意力权重;
对于所有层同一个位置的权重值使用函数得到可微的最大值,得到注意力权重图;
使用所述注意力权重图对不同传播层的循环神经网络输出的特征图进行加权,得到最终特征图。
根据本发明提供的一种基于超分模型的高清视频生成方法,所述最终特征图经过像素洗牌层进行上采样;
将不同通道同一位置的像素进行抽取排列,增加分辨率,得到重建的高清帧;
将高清帧进行组装后输出高清视频。
本发明还提供一种基于超分模型的高清视频生成系统,所述系统包括:
特征提取模块,用于获取高清关键帧和低分辨率视频流并进行特征提取;
传播模块,用于通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
对齐模块,用于通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
融合模块,用于在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
重建模块,用于基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于超分模型的高清视频生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于超分模型的高清视频生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于超分模型的高清视频生成方法。
本发明提供的一种基于超分模型的高清视频生成方法及系统,通过网格传播的方式对提取的特征进行传播,提升模型性能,经过光流引导的可变形卷积方法将参考帧与中心进行对齐,在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,实现通过关键帧和低分辨率的视频流即可快速重建高清视频,拓宽应用场景。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于超分模型的高清视频生成方法的流程示意图之一;
图2是本发明提供的基于超分模型的高清视频生成方法的流程示意图之二;
图3是本发明提供的基于超分模型的高清视频生成方法的流程示意图之三;
图4是本发明提供的基于超分模型的高清视频生成方法的流程示意图之四;
图5是本发明提供的基于超分模型的高清视频生成方法的流程示意图之五;
图6是本发明提供的基于超分模型的高清视频生成系统的模块连接示意图;
图7是本发明提供的像素洗牌像素点示意图;
图8是本发明提供的电子设备的结构示意图;
图9是本发明提供的超分模型整体架构图。
附图标记:
110:特征提取模块;120:传播模块;130:对齐模块;140:融合模块;150:重建模块;
810:处理器;820:通信接口;830:存储器;840:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的一种基于超分模型的高清视频生成方法,包括:
S100、获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
S200、通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
S300、通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
S400、在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
S500、基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
在本发明中通过超分模型对高清关键帧和低分辨率视频流进行处理后能够输出高清视频,以一种全新的方式降低高清视频重建的任务量,提升了高清视频的生成质量和速度。
对于输入的低清帧序列和高清帧分别进行初步的特征提取。序列长度记为,则低清帧序列表示为:
基本的特征提取模块由二维卷积、Leak-ReLU激活函数和5个级联的残差块构成。第个低清帧使用此模块提取得到特征/>,而由于关键帧的维度和低清帧不一致,需要通过连续的两个二维卷积及Leaky-ReLU激活层将关键帧先转换为隐含通道数64,宽度高度和原始低清帧一致的特征图,此特征图再经过前述特征提取模块得到关键帧特征/>代表关键帧的位置。
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧,具体包括:
S101、所述网格传播包括四层循环神经网络,分为两个前向传播层和两个后向传播层;
S102、每一层中每个节点的输入包含上一个和上上个节点的状态,在四层循环神经网络之间有特征地传播;
S103、通过一阶网格传播加关键帧传播的形式,在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征。
在本发明中,网格传播基于BasicVSR++模型,现有的本地传播待上采样的低清帧称为中心帧,在恢复中心帧时仅将中心帧及其邻近的帧作为输入的方法称为本地传播;单向传播,使用循环神经网络RNN,信息从第一帧开始向后依次传播到最后一帧;与传统的双向传播循环神经网络相比,双向传播循环神经网络由前向传播层和后向传播层构成,而本发明为二阶网格传播,首先分别有两个前向传播层和后向传播层一共四层循环神经网络RNN,其次用二阶马尔可夫模型取代了一阶传播模型,即每一层中每个节点的输入包含上一个和上上个节点的状态,最后与双向传播循环神经网络中前后向两层传播相互独立传播不同,在四层循环神经网络RNN之间有特征的传播,因此构成了网格状传播方法。通过网格传播在重建每一帧的时候充分利用了视频帧序列中其他帧的信息,同时四层循环神经网络RNN反复对特征细化,提升了模型性能。
具体地,本发明将将提取的特征输入RNN传播,类似于BasicVSR++,传播模块一共有四层RNN,两层后向传播和两层前向传播交替进行,然而不同于BasicVSR++的二阶网格传播,而是使用了一阶网格传播加关键帧传播的形式:首先在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征。NeuriCam的模型同样使用了关键帧传播,但不同的是,其关键帧信息通过间接的方式传递给非相邻的帧,然而RNN的结构存在对长距离的上下文信息学习能力不足的缺陷,通过间接的方式传播容易产生重建时未能有效利用关键帧信息的问题。基于此分析,本发明将关键帧特征和低清帧特征进行直接的融合以辅助重建。
所述通过光流引导的可变形卷积方法将参考帧与中心进行对齐,具体包括:
S201、通过预训练的光流计算模型计算出帧之间的光流;
S202、通过光流对参考帧的特征进行扭曲与中心帧的特征进行预对齐;
S203、将预对齐的参考帧特征与中心帧特征拼接计算出可变形卷积偏置量;
S204、将所述偏置量与之前计算的光流相加得到更细致的光流,通过至可变形卷积方法完成参考帧特征与中心帧特征的对齐。
在本发明中,对齐的常用方法为光流和可变形卷积(DCN),基于可变形卷积和光流得到的结果的相似性,BasicVSR++设计了光流引导的可变形卷积方法,首先使用预训练好的Spynet,其中Spynett是通过将经典的空间金字塔方法与深度学习结合来计算光流的模型,计算出帧之间的光流,再使用光流对参考帧的特征进行扭曲(warp)和中心帧的特征进行预对齐,再将预对齐的参考帧特征和中心帧特征拼接计算出可变形卷积DCN偏置量,将此偏置量和之前计算的光流相加得到了更细致的光流,将其输入可变形卷积模块完成参考帧特征和中心帧特征的对齐。
本发明中,记当前的传播层数为,第/>帧在第/>层的传播模块中有三个输入:此帧在上一层的传播模块的输出特征图/>(其中/>,即第一步提取出的特征),同一层前一帧的传播模块的输出/>(以前向传播为例)以及关键帧的特征/>。在特征融合前需要进行对齐。本发明沿用BasicVSR++提出的光流引导的可变形卷积的对齐方法进行特征级别的对齐,此模块记为/>,则同一层前一帧的传播模块的输出特征图对齐可以表示为:
其中代表预训练好的SPyNet,将相邻低清帧输入此模型计算出光流,再计算出光流的残差得到DCN的偏移量,最后使用DCN完成低清帧特征级别的对齐。而对于关键帧,其存在维度不匹配的问题,因此本发明利用了提取关键帧特征的卷积层具有局部归纳偏置(即卷积操作保留空间位置分布信息),使用关键帧对应的低清帧的光流引导可变形卷积对关键帧特征和中心帧特征对齐,提升关键帧信息传播的准确性:
实际代码中并不分开进行两次对齐操作,而是将两者计算出的偏置量和调制掩模拼接,记为,/>,使用一次DCN v2(记为/>)完成特征对齐:
然后将和不需要对齐的上一层的传播模块的输出特征图/>进行拼接,经过一系列的残差块得到第/>层第/>帧的输出特征图/>
然后将每一层的特征图都输入到基于注意力机制的特征滤波器中,即计算每层的特征图和最开始提取出的低清帧特征的相似度,再使用Softmax函数计算得到注意力权重,计算权重的过程记为/>,再加权得到最终的特征图:
在一个具体实施例中,以第帧和第/>帧的特征对齐为例,超分中的对齐模块可表达为下式:
其中为第/>帧的第/>层的特征,/>为第/>帧的第/>层特征,/>为光流估计模块得到的两帧间的光流信息,/>为光流引导的可变形卷积模块,得到的/>即两帧第/>层特征对齐的结果。
由于关键帧和待还原的低清帧存在维度不对应的问题,因此通过利用提取关键帧特征的卷积层具有局部归纳偏置(即卷积操作保留空间位置分布信息),使用关键帧所对应的低清帧的光流来引导可变形卷积对关键帧特征和中心帧特征对齐,提升关键帧信息传播的准确性。
由于基于光流的对齐和基于可变形卷积的对齐的相似性,可变形卷积的偏置量由光流和光流的残差给出:
其中为可变形卷积的偏置量,/>为i帧和i-1帧间的光流,/>为i-1帧的特征经过光流翘曲和第i帧特征预对齐之后的结果,/>为多个卷积层的级联。
对齐后以中心帧为第帧向后传播为例,第/>层特征聚合操作可表达为:
其中为输入到第j层的第/>帧的特征,/>和/>为第i-1帧和第k-1关键帧作为参考帧的特征和第/>帧进行对齐的结果,/>代表多个级联的残差块,/>为第/>层第/>帧特征聚合模块的输出。
所述在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,具体包括:
S301、将参考帧与中心帧对齐后的特征图按通道维度之间拼接到一起;
S302、经过多个残差块使拼接的特征相互融合,最终得到重建高清帧所需的隐含特征,完成特征融合。
在本发明中,将特征图按通道维度之间拼接到一起,通过多个残差块使拼接的特征相互融合。其中,对于残差块,在卷积神经网络(Convolutional Neural Network, CNN)相关研究曾面临的一个重要问题是通过堆叠层数加深模型是否能带来稳定的性能提升,研究表明,随着网络深度的增加,精度趋于饱和,然后迅速退化。残差网络(ResNet)被提出以解决此问题,通过在多个卷积层前后引入短路连接(shortcut connection),残差网络更容易学习并可以通过相当层数的加深提升性能。ResNet对CNN相关研究产生了重要影响,被广泛应用于图像分类、超分等深度学习模型中用于图像特征的提取。
经过多个残差块,拼接的特征相互融合,最终得到重建高清帧所需的隐含特征。
所述基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,具体包括:
S401、基于注意力机制的特征滤波器对每一层前向或后向传播的循环神经网络输出的特征图与最先提取的帧的特征图计算相似度作为注意力权重;
S402、对于所有层同一个位置的权重值使用函数得到可微的最大值,得到注意力权重图;
S403、使用所述注意力权重图对不同传播层的循环神经网络输出的特征图进行加权,得到最终特征图。
在本发明中,在使用像素洗牌前增加了基于注意力机制的特征滤波器模块,其对每一层前向或后向传播的RNN输出的特征图与模型最先提取出的帧的特征图计算其相似度作为注意力权重:
其中代表传播的层数,总层数/>,/>代表序列中的第/>帧,/>代表将两个特征图按通道维度拆分为/>个64维矢量再作点积,对于所有层同一个位置共/>个权重值使用函数得到可微的最大值,从而得到注意力权重图/>。最后,使用注意力权重图对不同传播层的RNN输出的特征图/>进行加权:
得到的特征图经过后续的上采样模块即可得到重建的高清帧。
基于注意力机制的特征滤波器模块的引入对前向传播和后向传播的特征图赋予了不同的权重,针对来自某一方向的信息由于遮挡等问题反而会引入干扰,因此从另一方向传播来的信息更重要的现象进行了重建组件的改进。
最终特征图经过像素洗牌层进行上采样;
将不同通道同一位置的像素进行抽取排列,增加分辨率,得到重建的高清帧;
将高清帧进行组装后输出高清视频。
参考图7,每四个大方格色点围成的矩形区域为实际原件上的像素点,小黑色点为亚像素点像素洗牌根据相邻两像素之间插值情况的不同,可以调整亚像素的精度,例如四分之一,就是将每个像素从横向和纵向上当做四个像素点。也就是图7中的大方格色点之间有三个小黑色点。这样通过亚像素插值的方法可以实现从小矩形到大矩形的映射,从而提高分辨率。
本发明提供的一种基于超分模型的高清视频生成方法,通过网格传播的方式对提取的特征进行传播,提升模型性能,经过光流引导的可变形卷积方法将参考帧与中心进行对齐,在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,实现通过关键帧和低分辨率的视频流即可快速重建高清视频,拓宽应用场景。
参加图6和图9,本发明还公开了一种基于超分模型的高清视频生成系统,所述系统包括:
特征提取模块110,用于获取高清关键帧和低分辨率视频流并进行特征提取;
传播模块120,用于通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
对齐模块130,用于通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
融合模块140,用于在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
重建模块150,用于基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
其中,传播模块120,所述网格传播包括四层循环神经网络,分为两个前向传播层和两个后向传播层;
每一层中每个节点的输入包含上一个和上上个节点的状态,在四层循环神经网络之间有特征地传播;
通过一阶网格传播加关键帧传播的形式,在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征。
对齐模块130,通过预训练的光流计算模型计算出帧之间的光流;
通过光流对参考帧的特征进行扭曲与中心帧的特征进行预对齐;
将预对齐的参考帧特征与中心帧特征拼接计算出可变形卷积偏置量;
将所述偏置量与之前计算的光流相加得到更细致的光流,通过至可变形卷积方法完成参考帧特征与中心帧特征的对齐。
融合模块140,将参考帧与中心帧对齐后的特征图按通道维度之间拼接到一起;
经过多个残差块使拼接的特征相互融合,最终得到重建高清帧所需的隐含特征,完成特征融合。
重建模块150,基于注意力机制的特征滤波器对每一层前向或后向传播的循环神经网络输出的特征图与最先提取的帧的特征图计算相似度作为注意力权重;
对于所有层同一个位置的权重值使用函数得到可微的最大值,得到注意力权重图;
使用所述注意力权重图对不同传播层的循环神经网络输出的特征图进行加权,得到最终特征图。
最终特征图经过像素洗牌层进行上采样;
将不同通道同一位置的像素进行抽取排列,增加分辨率,得到重建的高清帧;
将高清帧进行组装后输出高清视频。
本发明提供的一种基于超分模型的高清视频生成系统,通过网格传播的方式对提取的特征进行传播,提升模型性能,经过光流引导的可变形卷积方法将参考帧与中心进行对齐,在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,实现通过关键帧和低分辨率的视频流即可快速重建高清视频,拓宽应用场景。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行一种基于超分模型的高清视频生成方法,该方法包括:获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种基于超分模型的高清视频生成方法,该方法包括:获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于超分模型的高清视频生成方法,该方法包括:获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于超分模型的高清视频生成方法,其特征在于,包括:
获取高清关键帧和低分辨率视频流,进行特征提取并输入至超分模型;
通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;通过光流引导的可变形卷积方法将参考帧与中心进行对齐;在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频;
其中,所述通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧,包括:
所述网格传播包括四层循环神经网络,分为两个前向传播层和两个后向传播层;
每一层中每个节点的输入包含上一个和上上个节点的状态,在四层循环神经网络之间有特征地传播;
通过一阶网格传播加关键帧传播的形式,在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征;
其中,所述通过光流引导的可变形卷积方法将参考帧与中心进行对齐,包括:
通过预训练的光流计算模型计算出帧之间的光流;
通过光流对参考帧的特征进行扭曲与中心帧的特征进行预对齐;
将预对齐的参考帧特征与中心帧特征拼接计算出可变形卷积偏置量;
将所述偏置量与之前计算的光流相加得到更细致的光流,通过至可变形卷积方法完成参考帧特征与中心帧特征的对齐。
2.根据权利要求1所述的基于超分模型的高清视频生成方法,其特征在于,所述在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合,具体包括:
将参考帧与中心帧对齐后的特征图按通道维度之间拼接到一起;
经过多个残差块使拼接的特征相互融合,最终得到重建高清帧所需的隐含特征,完成特征融合。
3.根据权利要求1所述的基于超分模型的高清视频生成方法,其特征在于,所述基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频,具体包括:
基于注意力机制的特征滤波器对每一层前向或后向传播的循环神经网络输出的特征图与最先提取的帧的特征图计算相似度作为注意力权重;
对于所有层同一个位置的权重值使用函数得到可微的最大值,得到注意力权重图;
使用所述注意力权重图对不同传播层的循环神经网络输出的特征图进行加权,得到最终特征图。
4.根据权利要求3所述的基于超分模型的高清视频生成方法,其特征在于,所述最终特征图经过像素洗牌层进行上采样;
将不同通道同一位置的像素进行抽取排列,增加分辨率,得到重建的高清帧;
将高清帧进行组装后输出高清视频。
5.一种基于超分模型的高清视频生成系统,其特征在于,所述系统包括:
特征提取模块,用于获取高清关键帧和低分辨率视频流并进行特征提取;
传播模块,用于通过网格传播的方式对提取的特征进行传播,将参考帧特征进行光流扭曲后传播至中心帧;
其中,所述网格传播包括四层循环神经网络,分为两个前向传播层和两个后向传播层;
每一层中每个节点的输入包含上一个和上上个节点的状态,在四层循环神经网络之间有特征地传播;
通过一阶网格传播加关键帧传播的形式,在各层内部按时间顺序进行单向的一阶传播,同时关键帧特征直接传播给每一帧低清帧,最后每层依次向下传播细化特征;
对齐模块,用于通过光流引导的可变形卷积方法将参考帧与中心进行对齐;
其中,通过预训练的光流计算模型计算出帧之间的光流;
通过光流对参考帧的特征进行扭曲与中心帧的特征进行预对齐;
将预对齐的参考帧特征与中心帧特征拼接计算出可变形卷积偏置量;
将所述偏置量与之前计算的光流相加得到更细致的光流,通过至可变形卷积方法完成参考帧特征与中心帧特征的对齐;
融合模块,用于在参考帧与中心帧对齐后进行特征拼接,经过连续的多个残差块完成特征融合;
重建模块,用于基于融合后的特征通过注意力过滤器获取最终的特征映射,通过像素洗牌层进行上采样从而得到重建的高清帧,输出高清视频。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于超分模型的高清视频生成方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于超分模型的高清视频生成方法。
CN202310801627.6A 2023-07-03 2023-07-03 一种基于超分模型的高清视频生成方法及系统 Active CN116527833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310801627.6A CN116527833B (zh) 2023-07-03 2023-07-03 一种基于超分模型的高清视频生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310801627.6A CN116527833B (zh) 2023-07-03 2023-07-03 一种基于超分模型的高清视频生成方法及系统

Publications (2)

Publication Number Publication Date
CN116527833A CN116527833A (zh) 2023-08-01
CN116527833B true CN116527833B (zh) 2023-09-05

Family

ID=87392556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310801627.6A Active CN116527833B (zh) 2023-07-03 2023-07-03 一种基于超分模型的高清视频生成方法及系统

Country Status (1)

Country Link
CN (1) CN116527833B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580473A (zh) * 2020-12-11 2021-03-30 北京工业大学 一种融合运动特征的视频超分辨率重构方法
CN112700392A (zh) * 2020-12-01 2021-04-23 华南理工大学 一种视频超分辨率处理方法、设备及存储介质
CN114926335A (zh) * 2022-05-20 2022-08-19 中国人民解放军国防科技大学 基于深度学习的视频超分辨率方法及系统、计算机设备
CN115052187A (zh) * 2022-04-26 2022-09-13 复旦大学 一种基于在线训练的超分辨率直播系统
CN115361582A (zh) * 2022-07-19 2022-11-18 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132150A1 (en) * 2015-02-19 2016-08-25 Magic Pony Technology Limited Enhancing visual data using and augmenting model libraries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700392A (zh) * 2020-12-01 2021-04-23 华南理工大学 一种视频超分辨率处理方法、设备及存储介质
CN112580473A (zh) * 2020-12-11 2021-03-30 北京工业大学 一种融合运动特征的视频超分辨率重构方法
CN115052187A (zh) * 2022-04-26 2022-09-13 复旦大学 一种基于在线训练的超分辨率直播系统
CN114926335A (zh) * 2022-05-20 2022-08-19 中国人民解放军国防科技大学 基于深度学习的视频超分辨率方法及系统、计算机设备
CN115361582A (zh) * 2022-07-19 2022-11-18 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的光流估计模型;王艳 等;数据采集与处理;第36卷(第1期);63-75 *

Also Published As

Publication number Publication date
CN116527833A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN109903223B (zh) 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法
CN111179167B (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
WO2020015330A1 (zh) 基于增强的神经网络的图像复原方法、存储介质及系统
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN109034198B (zh) 基于特征图恢复的场景分割方法和系统
CN112422870B (zh) 一种基于知识蒸馏的深度学习视频插帧方法
CN112102163A (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115330620A (zh) 一种基于循环生成对抗网络的图像去雾方法
CN112489103B (zh) 一种高分辨率深度图获取方法及系统
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
CN116527833B (zh) 一种基于超分模型的高清视频生成方法及系统
Yu et al. A review of single image super-resolution reconstruction based on deep learning
Zhang et al. Iterative multi‐scale residual network for deblurring
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
WO2023206343A1 (zh) 一种基于图像预训练策略的图像超分辨率方法
CN115578260A (zh) 针对图像超分辨率的方向解耦的注意力方法和系统
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
CN112016456B (zh) 基于自适应反向投影深度学习的视频超分辨率方法及系统
CN115660984A (zh) 一种图像高清还原方法、装置及存储介质
Panaetov et al. Rdrn: Recursively defined residual network for image super-resolution
Zhuang et al. Dimensional transformation mixer for ultra-high-definition industrial camera dehazing
CN113362240A (zh) 一种基于轻量级特征金字塔模型的图像修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant