CN112801877B - 一种视频帧的超分辨率重构方法 - Google Patents

一种视频帧的超分辨率重构方法 Download PDF

Info

Publication number
CN112801877B
CN112801877B CN202110170643.0A CN202110170643A CN112801877B CN 112801877 B CN112801877 B CN 112801877B CN 202110170643 A CN202110170643 A CN 202110170643A CN 112801877 B CN112801877 B CN 112801877B
Authority
CN
China
Prior art keywords
network
video
frames
video frames
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110170643.0A
Other languages
English (en)
Other versions
CN112801877A (zh
Inventor
张登银
周超
陈灿
李俊江
刘子捷
程义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiyigu Suzhou Technology Co ltd
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110170643.0A priority Critical patent/CN112801877B/zh
Publication of CN112801877A publication Critical patent/CN112801877A/zh
Priority to PCT/CN2021/123605 priority patent/WO2022166245A1/zh
Priority to US17/529,203 priority patent/US11995796B2/en
Application granted granted Critical
Publication of CN112801877B publication Critical patent/CN112801877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种视频帧的超分辨率重构方法,用于将低分辨率的视频恢复成高分辨率的视频。该方法包括:将第一分辨率的第一视频帧及其多个相邻帧输入预先训练的超分辨率重构网络,所述超分辨率重构网络输出第一视频帧对应的第二分辨率的第二视频帧;所述第二分辨率高于第一分辨率;其中,所述超分辨率重构网络包括依次连接的特征提取子网络、时空非局部对齐子网络、注意力渐进融合子网络、上采样子网络。本发明能够充分利用视频序列中的全局的时域与空域相关性,并在时域特征的不断融合中通过注意力机制来减少低质量特征的负面影响,提高高质量特征的贡献权重,因此能够有效提高输出的高分辨率视频的保真性和鲁棒性。

Description

一种视频帧的超分辨率重构方法
技术领域
本发明涉及一种视频帧的超分辨率重构方法,属于视频处理技术邻域。
背景技术
随着信息社会的高速发展,人们对于高分辨率视频的需求越来越高。将低分辨率视频转化为高分辨视频的视频超分辨率技术也应运而生,被广泛应用于通信、监控、遥感、娱乐和医疗等众多邻域。随着近几年来深度学习的高速发展,深度神经网络由于其强大的非线性表示能力,已成为超分辨研究领域的主流方法。
对于单幅图像的超分辨率,目前的研究主要集中于如何设计有效的网络结构来充分利用图像的内部特征,即空域相关性,以提高重构质量,例如残差网络,浓密网络,注意力机制等,都为重构质量的提升带来了可观的增益。
与单幅图像相比,视频序列除了空域相关性,还拥有较高的时域相关性。如何利用视频序列的时域相关性是视频超分辨率重构算法的主要研究热点。然而,利用视频序列的时域相关性,往往需要解决帧与帧之间的遮挡、快速运动、以及运动模糊等问题。已有的视频超分辨率算法主要通过对齐和融合两个步骤来解决。在对齐步骤中,已有的方法主要基于运动估计/运动补偿的方法,然后运动估计/运动补偿往往由于精度不足导致较差的重构结果。在融合步骤中,已有的方法在渐进的框架中,缺少了对低质量的特征的惩罚和对高质量特征的激励。因此,已有的视频超分辨重构算法在重构的保真性、鲁棒性仍有不足,往往导致重构视频的模糊、畸变,因而用户体验较差。
发明内容
本发明的目的在于提供一种视频帧的超分辨率重构方法,以解决现有技术中视频超分辨重构算法存在重构的保真性、鲁棒性不足,导致重构视频模糊、畸变、用户体验较差的问题。
为解决上述技术问题,本发明采用如下技术方案:
一种视频帧的超分辨率重构方法,包括:
将第一分辨率的第一视频帧及其多个相邻帧输入预先训练的超分辨率重构网络,所述超分辨率重构网络输出第一视频帧对应的第二分辨率的第二视频帧;所述第二分辨率高于第一分辨率;
其中,所述超分辨率重构网络包括依次连接的特征提取子网络、时空非局部对齐子网络、注意力渐进融合子网络、上采样子网络。
进一步的,所述超分辨率重构网络的训练方法,包括以下步骤:
获取训练样本集,所述训练样本集包括多个高分辨率-低分辨率视频序列对;每一个高分辨率-低分辨率视频序列对包括相邻的2N+1个第三视频帧以及1个第四视频帧;所述第三视频帧的分辨率为第一分辨率,所述第四视频帧的分辨率为第二分辨率;其中,所述第四视频帧与所述2N+1个第三视频帧的中间帧相对应;
将所述2N+1个第三视频帧输入特征提取子网络,得到其输出的2N+1个第三视频帧的提取特征;
将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络,获取所述2N+1个第三视频帧的已对齐的提取特征;
将所述2N+1个第三视频帧的已对齐的提取特征和所述2N+1个第三视频帧的中间帧的提取特征输入注意力渐进融合子网络,得到第一融合中间帧特征;
通过上采样子网络对第一融合中间帧特征进行维度变换,获取第二融合中间帧特征;所述第二融合中间帧特征的维度等于第四视频帧的维度;
对所述2N+1个第三视频帧的中间帧进行插值计算,获得插值中间帧,所述插值中间帧的维度等于第四视频帧的维度;
叠加所述第二融合中间帧特征和所述插值中间帧,获取第一输出结果;
以第一输出结果趋同于第四视频帧为目标,更新所述超分辨率重构网络。
进一步的,所述特征提取子网络为N_fe层卷积网络。
进一步的,将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络,获取所述2N+1个第三视频帧的已对齐的提取特征,包括:
将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络;
所述时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特征,获取其加权和特征,根据所述2N+1个第三视频帧的中间帧的提取特征和所述加权和特征,获取所述2N+1个第三视频帧的已对齐的提取特征。
进一步的,在所述时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特征,获取其加权和特征之前,还包括,对所述2N+1个第三视频帧的提取特征进行维度变换,将其维度由第一维度变为第二维度;
在所述获取其加权和特征之后,还包括,对所述加权和特征进行维度变换,将其维度由第二维度变为第一维度。
进一步的,所述注意力渐进融合子网络由N_apf个注意力渐进融合块依次连接构成;所述N_apf个注意力渐进融合块包括第一注意力渐进融合块;所述第一注意力渐进融合块包括2N+2个第一卷积层和2N+2个第二卷积层,以及一个时域注意力模块;
所述得到第一融合中间帧特征,包括:
针对第一注意力渐进融合块的操作包括,将对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征,分别输入2N+2个第一卷积层,将各输出结果输入时域注意力模块,获取整合后的中间帧特征;将整合后的中间帧特征分别与所述对应于2N+1个第三视频帧的特征和对应于2N+1个第三视频帧的中间帧的特征进行级联,将各级联结果分别输入2N+2个第二卷积层,将获得的卷积结果分别所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征进行叠加,输出各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征为所述2N+1个第三视频帧的已对齐的提取特征,2N+1个第三视频帧的中间帧的特征为所述2N+1个第三视频帧的中间帧的提取特征;
当所述第一注意力渐进融合块,按连接次序不是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征为所述第一注意力渐进融合块的上一个注意力渐进融合块输出的所述各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的最后一个时,所述第一注意力渐进融合块还包括,一个第三卷积层,所述第一注意力渐进融合块将所述各叠加结果进行级联后,将获得的级联结果输入第三卷积层,并将第三卷积层的输出结果作为所述注意力渐进融合子网络的输出结果。
进一步的,所述将各输出结果输入时域注意力模块,获取整合后的中间帧特征,包括:
时域注意力模块根据所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果,分别计算得到所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果包含的各元素的相似性结果,将得到的各相似性结果分别与所述对应于2N+1个第三视频帧的输出结果相乘,并将各个获得结果级联,得到所述整合后的中间帧特征。
进一步的,所述相似性结果基于sigmoid函数计算获得。
进一步的,所述超分辨率重构网络的训练方法分为两阶段,在其中的第一阶段,屏蔽所述时域注意力模块,在其中的第二阶段,对所述时域注意力模块解除屏蔽;所述第一阶段和第二阶段的切换依据第一阶段的训练过程中是否达到预定的收敛阈值。
进一步的,所述上采样子网络采用卷积网络。
与现有技术相比,本发明具有如下有益技术效果:
本发明实施例提供的一种视频帧的超分辨率重构方法,由于深度神经网络具有极快的前馈速度,使得本发明所涉及的视频超分辨率重构方法与传统基于优化的方法相比有更快的重构速度,适用于实时性要求高的应用场景。
该方法中具有时空非局部的对齐子网络,与其他视频超分辨率网络相比,能够整合相邻帧的全局信息,对齐至中间帧的每一个点,充分利用了相邻帧每个点的信息。同时,此子网络不仅利用了相邻帧时域相关性,还对中间帧本身进行了非局部操作,充分利用了空域的相关性。因此,该方法能够较好的利用时空相关性,将相邻帧即中间帧本身的信息进行整合对齐,提升对齐的效果。
本发明采用了一种基于注意力渐进融合的子网络,与其他视频超分辨率网络相比,能够渐进的、多次的融合多个帧,并在每一次融合中,利用注意力机制有效惩罚低质量的特征,提高渐进融合的最终效果。
附图说明
图1为本发明实施例的一种视频帧的超分辨率重构方法的原理示意图;
图2为本发明实施例的特征提取子网络的示意图;
图3为本发明实施例的注意力渐进融合块的示意图;
图4为本发明实施例的时域注意力模块的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如前所述,已有的视频超分辨重构算法村存在重构的保真性、鲁棒性不足,因而重构视频的模糊、畸变、用户体验较差的问题。
为解决上述技术问题,本发明实施例提供了一种视频帧的超分辨率重构方法,该方法至少包括如下步骤:
将第一分辨率的第一视频帧及其多个相邻帧输入预先训练的超分辨率重构网络,所述超分辨率重构网络输出第一视频帧对应的第二分辨率的第二视频帧;所述第二分辨率高于第一分辨率;
其中,所述超分辨率重构网络包括依次连接的特征提取子网络、时空非局部对齐子网络、注意力渐进融合子网络、上采样子网络。
结合图1所示,超分辨率重构网络的训练方法,可以包括以下步骤:
步骤A:获取训练样本集,所述训练样本集包括多个高分辨率-低分辨率视频序列对;每一个高分辨率-低分辨率视频序列对包括相邻的2N+1个第三视频帧以及1个第四视频帧;所述第三视频帧的分辨率为第一分辨率,所述第四视频帧的分辨率为第二分辨率;其中,所述第四视频帧与所述2N+1个第三视频帧的中间帧相对应。
步骤B:将所述2N+1个第三视频帧输入特征提取子网络,得到其输出的2N+1个第三视频帧的提取特征;在一个具体的实施例中,特征提取子网络可以为N_fe层卷积网络。也就是说,此子网络对每一个输入的低分辨率帧单独的进行特征提取,即输入一个N_fe层卷积网络,输出为2N+1个帧的提取特征。
步骤C:将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络,获取所述2N+1个第三视频帧的已对齐的提取特征。
在一个具体的实施例中,可以将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络。例如,在一个例子中,相邻帧个数为2N=6,总的输入帧数为2N+1=7,用于特征提取的卷积层个数为N_fe=5,注意力渐进融合块的个数N_apf=20。
所述时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特,获取其加权和特征,根据所述2N+1个第三视频帧的中间帧的提取特征和所述加权和特征,获取所述2N+1个第三视频帧的已对齐的提取特征。
在一个具体的实施例中,可以在时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特征,获取其加权和特征之前,对2N+1个第三视频帧的提取特征进行维度变换,将其维度由第一维度变为第二维度;还可以在所述获取其加权和特征之后,对所述加权和特征进行维度变换,将其维度由第二维度变为第一维度。
在一个更具体的实施例中,如图2所示。此子网络将中间帧特征Ft与每一个相邻帧特征Ft+n(|n|≤N)(包括中间帧Ft自身)作为输入,输出其已对齐的相邻帧特征。具体的,首先将所有特征张量Ft+n(|n|≤N)进行维度变形,维度从H×W×C变为(H/r)×(W/r)×Cr2,其中,H,W和C分别为第一维度的高,宽和信道数,r为一个大于1的整数。变形的目的是为了减少网络计算所需内存。然后,对变形过的Ft+n中每一个点,进行如下计算:
Figure BDA0002938811240000091
其中,i为此点的下标,ri和xj表示Ft和Ft+n中的点,f(·,·)为一个两元函数,可设为
Figure BDA0002938811240000092
其中θ(·)与φ(·)为两个通过卷积层实现的一元线性函数,用于计算两点之间的关联性。g(·)为一个线性映射函数,C(·)为归一化函数,可设为
Figure BDA0002938811240000093
在网络中可用softmax实现。yi表示此点对齐过的特征。此特征为相邻帧中所有的点的加权和,权重由f(ri,xj)计算与中间帧的点的关联性决定。最后,将yi输入一个卷积层,变形回原来的尺寸,再与xj相加进行输出,如下式所示:zi=w(yi)+xj
其中,w(·)函数包含了一个卷积层与变形的操作。
步骤D:将所述2N+1个第三视频帧的已对齐的提取特征和所述2N+1个第三视频帧的中间帧的提取特征输入注意力渐进融合子网络,得到第一融合中间帧特征。
在一个具体的实施例中,注意力渐进融合子网络可以由N_apf个注意力渐进融合块依次连接构成;所述N_apf个注意力渐进融合块包括第一注意力渐进融合块;所述第一注意力渐进融合块包括2N+2个第一卷积层和2N+2个第二卷积层,以及一个时域注意力模块;
针对第一注意力渐进融合块的操作,可以包括,将对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征,分别输入2N+2个第一卷积层,将各输出结果输入时域注意力模块,获取整合后的中间帧特征;将整合后的中间帧特征分别与所述对应于2N+1个第三视频帧的特征和对应于2N+1个第三视频帧的中间帧的特征进行级联,将各级联结果分别输入2N+2个第二卷积层,将获得的卷积结果分别所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征进行叠加,输出各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征为所述2N+1个第三视频帧的已对齐的提取特征,2N+1个第三视频帧的中间帧的特征为所述2N+1个第三视频帧的中间帧的提取特征;
当所述第一注意力渐进融合块,按连接次序不是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征为所述第一注意力渐进融合块的上一个注意力渐进融合块输出的所述各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的最后一个时,所述第一注意力渐进融合块还包括,一个第三卷积层,所述第一注意力渐进融合块将所述各叠加结果进行级联后,将获得的级联结果输入第三卷积层,并将第三卷积层的输出结果作为所述注意力渐进融合子网络的输出结果。
在一个例子中,时域注意力模块可以根据所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果,分别计算得到所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果包含的各元素的相似性结果,将得到的各相似性结果分别与所述对应于2N+1个第三视频帧的输出结果相乘,并将各个获得结果级联,得到所述整合后的中间帧特征。在一个例子中,相似性结果可以基于sigmoid函数计算获得。
在一个更具体的实施例中,注意力渐进融合子网络的输入为时空非局部子网络输出的已对齐的相邻帧特征(2N+1个)与中间帧特征,输出为融合的中间帧特征。此子网络由N_apf个注意力渐进融合块级联够成,每一个块如图3所示。在此块中,每一个特征
Figure BDA0002938811240000111
(包括中间帧特征
Figure BDA0002938811240000112
)先单独输入一个卷积层C1,得到
Figure BDA0002938811240000113
Figure BDA0002938811240000114
然后将其一起输入时域注意力模块,即FA(),时域注意力模块的输出为整合过后的中间帧特征Ia。将中间帧特征Ia再与原特征
Figure BDA0002938811240000115
Figure BDA0002938811240000116
进行级联,再次融合,输入第二个卷积层C2,最后与
Figure BDA0002938811240000117
Figure BDA0002938811240000118
相加进行输出得到融合过的相邻帧Ot+n及Or,用于输入下一个渐进融合块,进行下一次的融合,整个过程如下式所示:
Figure BDA0002938811240000119
Figure BDA00029388112400001110
Figure BDA0002938811240000121
Figure BDA0002938811240000122
Figure BDA0002938811240000123
其中,时域注意力模块FA(),以2N+2个相邻帧特征
Figure BDA0002938811240000124
(包括中间帧自身)与中间帧特征
Figure BDA0002938811240000125
作为输入,输出整合过后的中间帧特征Ia,如图4所示。具体的,首先计算相邻帧
Figure BDA0002938811240000126
中每一个点与
Figure BDA0002938811240000127
对应的点的相似性:
Figure BDA0002938811240000128
其中,p(·)与q(·)为两个通过卷积层实现的一元线性函数。然后,将此相似性与原本的特征
Figure BDA0002938811240000129
逐像素相乘:
Figure BDA00029388112400001210
其中,⊙表示逐像素相乘。最后,将所有帧
Figure BDA00029388112400001211
级联,通过一个卷积网络进行输出,得到Ia
在注意力渐进融合子网络中,最后的一个注意力渐进融合块的输出(包括2N+2个特征)通过级联,然后输入一个卷积层进行整合,作为此子网络的输出。
步骤E:通过上采样子网络对第一融合中间帧特征进行维度变换,获取第二融合中间帧特征;所述第二融合中间帧特征的维度等于第四视频帧的维度。在一个具体的实施例中,上采样子网络可以基于卷积网络。
在一个更具体的实施例中,上采样子网络可以利用卷积层对注意力渐进融合子网络的输出在通道数上进行维度变换,维度从H×W×C增至变为H×W×(c·k2),进行变形得到(k·H)×(k·H)×c。其中,H,W,C为注意力渐进融合子网络的输出维度,k为分辨率放大倍数,c为输出帧的通道数,通过数个上述过程,上采样至所需的大小。
步骤F:对所述2N+1个第三视频帧的中间帧进行插值计算,获得插值中间帧,所述插值中间帧的维度等于第四视频帧的维度;
步骤G:叠加所述第二融合中间帧特征和所述插值中间帧,获取第一输出结果;
在一个具体的实施例中,对低分辨率中间帧进行双三次插值到所需大小,再与上采样子网络的输出相加,得到网络的输出。
步骤H:以第一输出结果趋同于第四视频帧为目标,更新所述超分辨率重构网络。
根据一种实施方式,超分辨率重构网络的训练方法可以分为两阶段,在其中的第一阶段,屏蔽所述时域注意力模块,在其中的第二阶段,对所述时域注意力模块解除屏蔽;所述第一阶段和第二阶段的切换依据第一阶段的训练过程中是否达到预定的收敛阈值。
下面,结合实验结果对比表,对本发明方法的效果做进一步说明。
表1本发明实施例结果与现有技术重构质量对比表
Figure BDA0002938811240000131
Figure BDA0002938811240000141
衡量标准:(峰值信噪比)PSNR、(结构相似性)SSIM,测试对象:10个通用测试集视频序列。
由表1可以看出,本发明方法相比于已有方法有着明显的效果提升,对比于已有的最好方法(PFNL),本发明PSNR平均提升了0.33dB,SSIM提升了0.0019。
与现有技术相比,本发明实施例提供的一种视频帧的超分辨率重构方法具有如下优点,一方面,由于深度神经网络具有极快的前馈速度,使得本发明所涉及的视频超分辨率重构方法与传统基于优化的方法相比有更快的重构速度,适用于实时性要求高的应用场景。
其次,该方法中具有时空非局部的对齐子网络,与其他视频超分辨率网络相比,能够整合相邻帧的全局信息,对齐至中间帧的每一个点,充分利用了相邻帧每个点的信息。同时,此子网络不仅利用了相邻帧时域相关性,还对中间帧本身进行了非局部操作,充分利用了空域的相关性。因此,该方法能够较好的利用时空相关性,将相邻帧即中间帧本身的信息进行整合对齐,提升对齐的效果。
最后,该方法采用了一种基于注意力渐进融合的子网络,与其他视频超分辨率网络相比,能够渐进的、多次的融合多个帧,并在每一次融合中,利用注意力机制有效惩罚低质量的特征,提高渐进融合的最终效果。
以上已以较佳实施例公布了本发明,然其并非用以限制本发明,凡采取等同替换或等效变换的方案所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种视频帧的超分辨率重构方法,其特征在于,包括:
将第一分辨率的第一视频帧及其多个相邻帧输入预先训练的超分辨率重构网络,所述超分辨率重构网络输出第一视频帧对应的第二分辨率的第二视频帧;所述第二分辨率高于第一分辨率;
其中,所述超分辨率重构网络包括依次连接的特征提取子网络、时空非局部对齐子网络、注意力渐进融合子网络、上采样子网络;所述时空非局部对齐子网络能够整合相邻帧的全局信息,对齐至中间帧的每一个点;
所述超分辨率重构网络的训练方法,包括以下步骤:
获取训练样本集,所述训练样本集包括多个高分辨率-低分辨率视频序列对;每一个高分辨率-低分辨率视频序列对包括相邻的2N+1个第三视频帧以及1个第四视频帧;所述第三视频帧的分辨率为第一分辨率,所述第四视频帧的分辨率为第二分辨率;其中,所述第四视频帧与所述2N+1个第三视频帧的中间帧相对应;
将所述2N+1个第三视频帧输入特征提取子网络,得到其输出的2N+1个第三视频帧的提取特征;
将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络,获取所述2N+1个第三视频帧的已对齐的提取特征;
将所述2N+1个第三视频帧的已对齐的提取特征和所述2N+1个第三视频帧的中间帧的提取特征输入注意力渐进融合子网络,得到第一融合中间帧特征;
通过上采样子网络对第一融合中间帧特征进行维度变换,获取第二融合中间帧特征;所述第二融合中间帧特征的维度等于第四视频帧的维度;
对所述2N+1个第三视频帧的中间帧进行插值计算,获得插值中间帧,所述插值中间帧的维度等于第四视频帧的维度;
叠加所述第二融合中间帧特征和所述插值中间帧,获取第一输出结果;
以第一输出结果趋同于第四视频帧为目标,更新所述超分辨率重构网络;
其中,所述注意力渐进融合子网络由N_apf个注意力渐进融合块依次连接构成;所述N_apf个注意力渐进融合块包括第一注意力渐进融合块;所述第一注意力渐进融合块包括2N+2个第一卷积层和2N+2个第二卷积层,以及一个时域注意力模块;
所述得到第一融合中间帧特征,包括:
针对第一注意力渐进融合块的操作包括,将对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征,分别输入2N+2个第一卷积层,将各输出结果输入时域注意力模块,获取整合后的中间帧特征;将整合后的中间帧特征分别与所述对应于2N+1个第三视频帧的特征和对应于2N+1个第三视频帧的中间帧的特征进行级联,将各级联结果分别输入2N+2个第二卷积层,将获得的卷积结果分别所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征进行叠加,输出各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征为所述2N+1个第三视频帧的已对齐的提取特征,2N+1个第三视频帧的中间帧的特征为所述2N+1个第三视频帧的中间帧的提取特征;
当所述第一注意力渐进融合块,按连接次序不是所述N_apf个注意力渐进融合块的首个时,所述对应于2N+1个第三视频帧的特征和2N+1个第三视频帧的中间帧的特征为所述第一注意力渐进融合块的上一个注意力渐进融合块输出的所述各叠加结果;
当所述第一注意力渐进融合块,按连接次序是所述N_apf个注意力渐进融合块的最后一个时,所述第一注意力渐进融合块还包括,一个第三卷积层,所述第一注意力渐进融合块将所述各叠加结果进行级联后,将获得的级联结果输入第三卷积层,并将第三卷积层的输出结果作为所述注意力渐进融合子网络的输出结果。
2.根据权利要求1所述的方法,其特征在于,所述特征提取子网络为N_fe层卷积网络。
3.根据权利要求1所述的方法,其特征在于,将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络,获取所述2N+1个第三视频帧的已对齐的提取特征,包括:
将所述2N+1个第三视频帧的提取特征输入时空非局部对齐子网络;
所述时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特征,获取其加权和特征,根据所述2N+1个第三视频帧的中间帧的提取特征和所述加权和特征,获取所述2N+1个第三视频帧的已对齐的提取特征。
4.根据权利要求3所述的方法,其特征在于,在所述时空非局部对齐子网络根据所述2N+1个第三视频帧的提取特征,获取其加权和特征之前,还包括,对所述2N+1个第三视频帧的提取特征进行维度变换,将其维度由第一维度变为第二维度;
在所述获取其加权和特征之后,还包括,对所述加权和特征进行维度变换,将其维度由第二维度变为第一维度。
5.根据权利要求1所述的方法,其特征在于,所述将各输出结果输入时域注意力模块,获取整合后的中间帧特征,包括:
时域注意力模块根据所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果,分别计算得到所述各输出结果中对应于2N+1个第三视频帧的输出结果与对应于2N+1个第三视频帧的中间帧的输出结果包含的各元素的相似性结果,将得到的各相似性结果分别与所述对应于2N+1个第三视频帧的输出结果相乘,并将各个获得结果级联,得到所述整合后的中间帧特征。
6.根据权利要求5所述的方法,其特征在于,所述相似性结果基于sigmoid函数计算获得。
7.根据权利要求1所述的方法,其特征在于,所述超分辨率重构网络的训练方法分为两阶段,在其中的第一阶段,屏蔽所述时域注意力模块,在其中的第二阶段,对所述时域注意力模块解除屏蔽;所述第一阶段和第二阶段的切换依据第一阶段的训练过程中是否达到预定的收敛阈值。
8.根据权利要求1所述的方法,其特征在于,所述上采样子网络采用卷积网络。
CN202110170643.0A 2021-02-08 2021-02-08 一种视频帧的超分辨率重构方法 Active CN112801877B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110170643.0A CN112801877B (zh) 2021-02-08 2021-02-08 一种视频帧的超分辨率重构方法
PCT/CN2021/123605 WO2022166245A1 (zh) 2021-02-08 2021-10-13 一种视频帧的超分辨率重构方法
US17/529,203 US11995796B2 (en) 2021-02-08 2021-11-17 Method of reconstruction of super-resolution of video frame

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110170643.0A CN112801877B (zh) 2021-02-08 2021-02-08 一种视频帧的超分辨率重构方法

Publications (2)

Publication Number Publication Date
CN112801877A CN112801877A (zh) 2021-05-14
CN112801877B true CN112801877B (zh) 2022-08-16

Family

ID=75814717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110170643.0A Active CN112801877B (zh) 2021-02-08 2021-02-08 一种视频帧的超分辨率重构方法

Country Status (2)

Country Link
CN (1) CN112801877B (zh)
WO (1) WO2022166245A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801877B (zh) * 2021-02-08 2022-08-16 南京邮电大学 一种视频帧的超分辨率重构方法
CN117730338A (zh) * 2021-07-20 2024-03-19 Oppo广东移动通信有限公司 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN116437093A (zh) * 2021-12-30 2023-07-14 北京字跳网络技术有限公司 视频帧修复方法、装置、设备、存储介质和程序产品
CN114092339B (zh) * 2022-01-24 2022-05-20 南京理工大学 基于跨帧自注意力变换网络的时空视频超分辨率重建方法
CN115358932B (zh) * 2022-10-24 2023-03-24 山东大学 一种多尺度特征融合的人脸超分辨率重构方法及系统
CN117061790B (zh) * 2023-10-12 2024-01-30 深圳云天畅想信息科技有限公司 流媒体视频帧渲染方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706155A (zh) * 2019-09-12 2020-01-17 武汉大学 一种视频超分辨率重建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136066B (zh) * 2019-05-23 2023-02-24 北京百度网讯科技有限公司 面向视频的超分辨率方法、装置、设备和存储介质
CN111553861B (zh) * 2020-04-29 2023-11-24 苏州大学 一种图像超分辨率重构方法、装置、设备及可读存储介质
CN111583112A (zh) * 2020-04-29 2020-08-25 华南理工大学 视频超分辨率的方法、系统、装置和存储介质
CN112801877B (zh) * 2021-02-08 2022-08-16 南京邮电大学 一种视频帧的超分辨率重构方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706155A (zh) * 2019-09-12 2020-01-17 武汉大学 一种视频超分辨率重建方法

Also Published As

Publication number Publication date
US20220261959A1 (en) 2022-08-18
CN112801877A (zh) 2021-05-14
WO2022166245A1 (zh) 2022-08-11

Similar Documents

Publication Publication Date Title
CN112801877B (zh) 一种视频帧的超分辨率重构方法
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
CN106709875B (zh) 一种基于联合深度网络的压缩低分辨率图像复原方法
CN110120011B (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
Luo et al. Lattice network for lightweight image restoration
CN115222601A (zh) 基于残差混合注意力网络的图像超分辨率重建模型及方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN112070702B (zh) 多尺度残差特征判别增强的图像超分辨率重构系统及方法
CN109949221B (zh) 一种图像处理方法及电子设备
CN108900848A (zh) 一种基于自适应可分离卷积的视频质量增强方法
CN111031315B (zh) 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN111369466B (zh) 基于可变形卷积的卷积神经网络的图像畸变矫正增强方法
Sun et al. Reduction of JPEG compression artifacts based on DCT coefficients prediction
CN112150354A (zh) 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法
CN112150356A (zh) 基于级联框架的单幅压缩图像超分辨率重建方法
CN114387161B (zh) 一种视频超分辨率重建方法
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
CN113240581A (zh) 一种针对未知模糊核的真实世界图像超分辨率方法
Wu et al. Dcanet: Dual convolutional neural network with attention for image blind denoising
CN113096032A (zh) 一种基于图像区域划分的非均匀一致模糊去除方法
CN110443754B (zh) 一种数字图像分辨率提升的方法
CN108550111B (zh) 一种基于多级字典学习的残差实例回归超分辨重建方法
CN116208812A (zh) 一种基于立体事件和强度相机的视频插帧方法及系统
CN112348745B (zh) 一种基于残差卷积网络的视频超分辨率重构方法
CN106709873B (zh) 一种基于三次样条插值和迭代更新的超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Dengyin

Inventor after: Zhou Chao

Inventor after: Zuo Jiakuo

Inventor after: Chen Can

Inventor after: Li Junjiang

Inventor after: Liu Zijie

Inventor after: Cheng Yi

Inventor before: Zhang Dengyin

Inventor before: Zhou Chao

Inventor before: Chen Can

Inventor before: Li Junjiang

Inventor before: Liu Zijie

Inventor before: Cheng Yi

TR01 Transfer of patent right

Effective date of registration: 20240508

Address after: Room 501, 502, 505, 5th Floor, Building 1, No. 27 Zigang Road, Science and Education New City, Taicang City, Suzhou City, Jiangsu Province, 215000

Patentee after: Xiyigu (Suzhou) Technology Co.,Ltd.

Country or region after: China

Address before: No.19, ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China