CN112734644A - 一种多个注意力结合光流的视频超分辨模型及方法 - Google Patents

一种多个注意力结合光流的视频超分辨模型及方法 Download PDF

Info

Publication number
CN112734644A
CN112734644A CN202110067283.1A CN202110067283A CN112734644A CN 112734644 A CN112734644 A CN 112734644A CN 202110067283 A CN202110067283 A CN 202110067283A CN 112734644 A CN112734644 A CN 112734644A
Authority
CN
China
Prior art keywords
attention
convolution
module
feature
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110067283.1A
Other languages
English (en)
Inventor
储岳中
乔雨楠
刘恒
张学锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202110067283.1A priority Critical patent/CN112734644A/zh
Publication of CN112734644A publication Critical patent/CN112734644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种多个注意力结合光流的视频超分辨模型及方法,属于模式识别与计算机视觉技术领域。本发明的模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分。本发明的方法利用双阶段思想分别对微小运动和大型运动进行特征对齐,分别处理微小运动和大型运动的信息,减小了目标帧和参考帧的偏差,充分利用了所有分层的特征信息,利用多个注意力使得视频空间信息不易丢失,保留了空间信息,增强通道的依赖性和自适应性,并能捕获长距离依赖实现全局学习。并利用可变形卷积长短时记忆网络(DLSTM)进行视频帧融合,防止了恢复的视频出现抖动和闪烁伪影等现象,保证视频时序的一致性。

Description

一种多个注意力结合光流的视频超分辨模型及方法
技术领域
本发明涉及模式识别与计算机视觉技术领域,更具体地说,涉及一种多个注意力结合光流的视频超分辨模型及方法。
背景技术
目前,基于卷积神经网络的深度学习方法被广泛应用于在计算机视觉领域。底层视觉中的超分辨技术一直以来都是极具挑战且受欢迎的计算机视觉任务。根据数据类型分类,目前的超分辨工作分为图像超分辨和视频超分辨。视频超分辨与图像超分辨的区别主要有两点,包括:视频帧对齐和视频帧融合。其中,视频帧对齐是因为视频中存在各种运动信息,所以参考帧和目标帧之间存在偏差,在超分辨中一般是需要利用邻帧和参考帧做对齐。而视频中存在运动模糊和场景切换的问题,有效的融合视频帧可以去除干扰信息。
针对上述的两点,目前已有的方法一是利用三维卷积,直接利用3D卷积捕捉时域特征的功能,直接做帧间融合;二是利用循环结构提取帧间关系,融合目标帧和参考帧的信息;三是利用融合后的帧间信息预测滤波器参数,再通过滤波的方式做超分辨,获得自适应的滤波效果。而目前的视频超分辨的整体框架大致有两个思路,一是利用三维卷积,但是使用三维卷积会因为多引入一个维度而增加更多的参数,导致计算成本的增加。二是将视频处理成一帧一帧的图像,然后按照图像超分辨的方法来处理,这样做难以保持视频的时序一致性,恢复的视频容易出现抖动现象。
经检索,中国专利申请号:ZL201911203785.1,申请日为:2019年11月29日,发明名称为:一种基于深度双重注意力网络的视频超分辨率重建方法,该申请案通过加载级联的运动补偿网络模型和重建网络模型,充分利用时空信息特征来实现精确的视频超分辨率重建;其中的运动补偿网络模型能够由粗糙到细致地逐步学习光流表示合成相邻帧的多尺度运动信息;在重建网络模型中利用双重注意力机制,并形成一个残差注意力单元,专注中间信息特征,能够更好的恢复图像细节。但该申请案依然为将视频处理成一帧一帧的图像来进行超分辨处理,恢复的视频依然会出现抖动的现象。
发明内容
1.发明要解决的技术问题
鉴于现有的视频超分辨方法存在计算成本高或视频恢复后易出现抖动的问题,本发明提供了一种多个注意力结合光流的视频超分辨模型及方法,利用双阶段特征对齐的思路,使用光流网络处理微小运动信息,利用可变形卷积的LSTM来处理大型运动信息,减小了目标帧和参考帧偏差的同时,保证了恢复的视频在时序上的一致性。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种多个注意力结合光流的视频超分辨模型,该模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分;视频帧依次通过四个部分达到超分辨;所述的特征处理部分包括多注意力分支和注意力光流估计分支;所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块;注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。
更进一步地,所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块;所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块,再进入光流估计网模块-卷积模块-上采样模块-卷积模块。
更进一步地,所述的特征提取部分包括两个卷积模块和三个残差密集模块,输入的视频帧依次经过两个卷积模块和三个残差密集模块,再进入特征处理模块;所述的视频重建模块为卷积模块。
本发明的一种利用上述模型进行多个注意力结合光流的视频超分辨方法,其步骤为:
步骤一、输入连续的2n+1个低分辨的视频帧;
步骤二、将视频帧输入模型的特征提取部分,提取视频帧特征F;
步骤三、将提取的特征F分别送入多注意力分支和注意力光流估计分支,可以得到两个分支的输出
Figure BDA0002904617720000021
Figure BDA0002904617720000022
步骤四、对
Figure BDA0002904617720000023
Figure BDA0002904617720000024
进行上采样后,输入可变形卷积网络DLSTM和一个卷积模型,得到视频超分辨特征
Figure BDA0002904617720000025
更进一步地,所述的步骤一中,输入的视频帧为MAFnet中的2n+1个LR帧,其序列为
Figure BDA0002904617720000026
MAFnet输入大小为(ML×NL),其中
Figure BDA0002904617720000027
是输出的HR帧,表示为ISR,大小为(MH×NH),并且MH>ML,NH>NL
更进一步地,所述的步骤二中,视频帧经过两次卷积操作和残差密集块操作获得特征F,
Figure BDA0002904617720000028
其中,ILR表示输入的低分辨帧,Hrdb(·)表示残差密集块操作,Hc(·)表示卷积操作。
更进一步地,所述的步骤三中,提取的特征F送入多注意力分支和注意力光流估计分支,分别得到多注意力分支输出,式(2),和注意力光流估计分支输出,式(3),
Figure BDA0002904617720000031
Figure BDA0002904617720000032
其中,Hse(·)为自注意力模块函数,Hsa(·)为空间注意力模块函数,Hca(·)为通道注意力模块函数,Hf(·)为光流模块函数。
更进一步地,所述的通道注意力中,将特征输入后,分别经自适应平均池化和自适应最大池化后,经卷积通道缩小并经过激活函数ReLU,随后经过卷积恢复通道;将得到两特征相加经过Sigmoid函数得到注意力特征图,再将注意力特征图与输入特征作矩阵乘法得到输出特征;
所述的空间注意力中,将特征输入后,先经过卷积和激活函数LReLU,再经过由平均池化、最大池化和连接操作构成池化层,接着经过卷积和LReLU得到特征1,之后,经过重复的卷积、LReLU和池化层结构,并经过两次卷积和LReLU结构,再进行插值运算得到特征2,将特征1和特征2相加后经过卷积、LReLU和插值运算,将特征依次送入两个卷积和LReLU,得到特征3,利用Sigmoid函数得到注意力特征图,将注意力特征图和输入特征作矩阵乘法,并将结果与特征3相加得到输出特征;
所述的自注意力中,将特征输入后,分别经过三个卷积通道,得到特征1、特征2和特征3,特征1与特征2作矩阵乘法并经过softmax函数得到注意力图,再与特征3作矩阵乘法得到输出特征。
更进一步地,所述的光流估计网络中,给定任何两个相邻帧Ii,Ii+1,则光流计算公式可以表示为
fi→i+1=Nf(Ii,Ii+1) (4)
其中,Nf表示光流估计网络。
更进一步地,所述的步骤四中,对
Figure BDA0002904617720000033
Figure BDA0002904617720000034
进行上采样
Figure BDA0002904617720000035
Figure BDA0002904617720000036
其中,↑表示上采样;将y1,y2送入DLSTM,再经过一层卷积得到最后的输出
Figure BDA0002904617720000037
其中,
Figure BDA0002904617720000038
表示经过DLSTM和最后重建卷积得到的特征;整个网络最后表示为
ISR=HMAFnet(ILR) (8)。
3.有益效果
采用本发明提供的技术方案,与已有的公知技术相比,具有如下显著效果:
(1)鉴于现有的视频超分辨方法存在计算成本高或视频恢复后易出现抖动的问题,本发明的一种多个注意力结合光流的视频超分辨方法,提供双阶段特征对齐的思路,分别处理微小运动和大型运动的信息,减小了目标帧和参考帧的偏差,充分利用了所有分层的特征信息,利用多个注意力使得视频空间信息不易丢失,保留了空间信息,增强通道的依赖性和自适应性,并能捕获长距离依赖实现全局学习。
(2)本发明的一种多个注意力结合光流的视频超分辨方法,使用光流网络进行第一阶段的特征对齐,来处理微小运动信息,利用添加了可变形卷积的LSTM来处理大型运动信息,提升了分辨能力,并减少了抖动现象,保证视频时序的一致性。
(3)本发明的一种多个注意力结合光流的视频超分辨模型,在空间注意力模块中,选用LReLU作为激活函数,缓解了训练过程中神经元死亡的问题,更好地保留空间信息,解决了ReLU在训练过程中导致神经元死亡,无法进一步更新参数梯度的问题。在模型中将可变形卷积加入到传统LSTM中,可以对空间位置信息的位移进行调整保留了LSTM原本的优点,同时增强了视频帧在时序上对齐的能力,有效利用上下文信息处理视频中的大运动信息,保证了视频的连续性。
附图说明
图1为本发明模型的整体流程框图;
图2为本发明中通道注意力模型结构图;
图3为本发明中空间注意力模型结构图;
图4为本发明中自注意力模型结构图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
基于现有技术中,传统的视频超分辨方法使用3D卷积提取空间信息,以保留视频的空间特征。但是,一旦引入了3D卷积,则意味着新引入了一个维度,不仅会带来更多的参数,增加计算成本,还会限制网络的深度并影响超分辨性能。另外一些方案选择逐帧处理视频,然后根据图像超分辨方法进行超分辨率。不过,这种方法很难保证视频的连贯性,尤其是对于含有运动幅度大的视频,而且局部特征和全局依赖无法很好地集成。此外可以选择使用递归神经网络用于维持视频的连贯性,但是这种方法在保留空间信息方面效果不好。本发明的一种多个注意力结合光流的视频超分辨模型及方法,提供双阶段特征对齐的思路,分别处理微小运动和大型运动的信息,减小了目标帧和参考帧的偏差,充分利用了所有分层的特征信息,利用多个注意力使得视频空间信息不易丢失,保留了空间信息,增强通道的依赖性和自适应性,并能捕获长距离依赖实现全局学习。
实施例1
结合图1,本实施例的一种多个注意力结合光流的视频超分辨模型,包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分;视频帧依次通过四个部分达到超分辨;所述的特征处理部分包括多注意力分支和注意力光流估计分支;所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块;注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块;所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块,再进入光流估计网模块-卷积模块-上采样模块-卷积模块。所述的特征提取部分包括两个卷积模块和三个残差密集模块,输入的视频帧依次经过两个卷积模块和三个残差密集模块,再进入特征处理模块;所述的视频重建模块为卷积模块。
本发明的一种利用上述模型进行多个注意力结合光流的视频超分辨方法,其步骤为:
步骤一、输入连续的2n+1个低分辨的视频帧:将多注意力光流网络(MAFnet)的输入大小表示为(ML×NL),输入的LR帧是2n+1个LR帧的序列
Figure BDA0002904617720000051
其中
Figure BDA0002904617720000052
为输出的HR帧,将其表示为ISR,大小为(MH×NH),并且MH>ML,NH>NL
步骤二、将视频帧输入模型的特征提取部分,提取视频帧特征F:将输入的视频序列送入到第一部分进行特征提取,频帧经过两次卷积操作和残差密集块操作获得特征F:
Figure BDA0002904617720000053
其中,ILR表示输入的低分辨帧,Hrdb(·)表示残差密集块操作,Hc(·)表示卷积操作。
步骤三、将提取的特征F分别送入多注意力分支和注意力光流估计分支,可以得到两个分支的输出
Figure BDA0002904617720000054
Figure BDA0002904617720000055
提取的特征F送入多注意力分支和注意力光流估计分支,分别得到多注意力分支输出,式(2),和注意力光流估计分支输出,式(3),
Figure BDA0002904617720000056
Figure BDA0002904617720000057
其中,Hse(·)为自注意力模块函数,Hsa(·)为空间注意力模块函数,Hca(·)为通道注意力模块函数,Hf(·)为光流模块函数。光流估计网络是双阶段特征对齐的第一个阶段,主要是处理微小运动。送入多注意力分支的特征经过空间注意力和自注意力,目的是增强通道依赖性和自适应性,保留空间信息,实现全局学习。
结合图2-图4,各个注意力及光流估计网络具体结构和过程如下。
(1)通道注意力
通道注意力考虑特征通道之间的相互依赖性特征,自适应的调整信道特征。将经过第一个特征提取部分得到的特征作为输入特征,此时特征尺寸大小为H×W×C,分别经过自适应平均池化和自适应最大池化后,特征尺寸为1×1×C,再分别经过一个卷积核大小为3的卷积将特征尺寸变为
Figure BDA0002904617720000061
r是通道缩小比,本实施例中设置为16;之后经过激活函数ReLU。随后,经过池化的两特征都经过一个3x3大小的卷积恢复通道,尺寸为1×1×C。将得到的特征相加经过一个Sigmoid函数得到注意力特征图,再将注意力特征图与输入特征作矩阵乘法得到输出特征,尺寸为H×W×C。
(2)空间注意力
空间注意力可以为每一个空间位置分配权重,更有效的利用跨通道和空间的信息,并且可以捕获特征图任意位置之间的空间依赖性,尽可能多的暴露空间信息。空间注意力将通道注意力的输出特征作为输入特征先经过1x1大小的卷积和激活函数LReLU。在空间注意力中之所以选择LReLU而非ReLU,是考虑到ReLU在训练过程中可能会导致神经元死亡,无法进一步更新参数梯度,使用LReLU能够缓和该问题,更好地保留空间信息。经过池化层,池化层是由平均池化和最大池化以及连接操作构成,经过池化层后接着经过1x1的卷积和LReLU得到的特征记为特征1。之后,经过重复的1x1卷积,LReLU,池化层结构,接着经过3x3的卷积和LReLU并重复一次该结构,并进行插值运算得到的特征记为特征2,将特征1和特征2相加后经过1x1卷积、LReLU和插值运算,将特征依次送入3x3卷积、1x1卷积和LReLU得到特征记为特征3,利用Sigmoid函数得到注意力特征图,将注意力特征图和输入特征作矩阵乘法,并将结果与特征3相加得到输出特征。空间注意力为利用二维卷积实现时空域的特征处理提供了有效可靠的保证。
(3)自注意力
自注意力的原型来自于非局部操作网络,作为一个有效的组件可以插入任何一个已有的网络中。除了可以扩大感受野,还可以计算空间任意两点位置的距离关系,代替跳跃连接,实现全局学习的功能。将特征输入后,分别经过三个卷积通道,得到特征1、特征2和特征3,特征1与特征2作矩阵乘法并经过softmax函数得到注意力图,再与特征3作矩阵乘法得到输出特征。该结构中的卷积核大小都为1x1。
(4)光流估计
传统运动补偿方法存在计算复杂,准确度不高的问题。本实施例采用将注意力与光流相结合的方式处理小运动的对象的运动信息,同时保留对象相关信息,达到第一阶段的特征对齐。将第一部分特征提取得到的特征分别经过通道注意力和空间注意力,将两者的输出送入光流估计网络得到该分支的输出。
给定任何两个相邻帧Ii,Ii+1,则光流计算公式可以表示为
fi→i+1=Nf(Ii,Ii+1) (4)
其中,Nf表示光流估计网络。
步骤四、对
Figure BDA0002904617720000071
Figure BDA0002904617720000072
进行上采样后,输入可变形的LSTM(即DLSTM)和一个卷积模型,得到视频超分辨特征
Figure BDA0002904617720000073
Figure BDA0002904617720000074
Figure BDA0002904617720000075
进行上采样
Figure BDA0002904617720000076
Figure BDA0002904617720000077
其中,↑表示上采样;将y1,y2送入DLSTM,再经过一层卷积得到最后的输出
Figure BDA0002904617720000078
其中,
Figure BDA0002904617720000079
表示经过DLSTM和最后重建卷积得到的特征;整个网络最后表示为
ISR=HMAFnet(ILR) (8)。
其中,DLSTM为将可变形卷积加入到传统LSTM中。可变形卷积相较于传统卷积可以对空间位置信息的位移进行调整,而相较于空洞卷积不易引入网格伪影。保留了LSTM原本的优点,同时增强了视频帧在时序上对齐的能力,有效利用上下文信息处理视频中的大运动信息。保证了视频的连续性。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (10)

1.一种多个注意力结合光流的视频超分辨模型,其特征在于:该模型包括特征提取部分、特征处理部分、可变形卷积部分和视频重建部分;视频帧依次通过四个部分达到超分辨;所述的特征处理部分包括多注意力分支和注意力光流估计分支;所述的多注意力分支包括空间注意力模块、自注意力模块、卷积模块和上采样模块;注意力光流估计分支包括空间注意力模块、通道注意力模块、光流估计网模块、卷积模块和上采样模块。
2.根据权利要求1所述的一种多个注意力结合光流的视频超分辨模型,其特征在于:所述的多注意力分支中的模块按视频帧经过顺序为空间注意力模块-自注意力模块-卷积模块-上采样模块-卷积模块;所述的注意力光流估计分支模块顺序为视频帧同时经过空间注意力模块和通道注意力模块,再进入光流估计网模块-卷积模块-上采样模块-卷积模块。
3.根据权利要求1或2所述的一种多个注意力结合光流的视频超分辨模型,其特征在于:所述的特征提取部分包括两个卷积模块和三个残差密集模块,输入的视频帧依次经过两个卷积模块和三个残差密集模块,再进入特征处理模块;所述的视频重建模块为卷积模块。
4.一种利用权利要求3的模型进行多个注意力结合光流的视频超分辨方法,其特征在于,其步骤为:
步骤一、输入连续的2n+1个低分辨的视频帧;
步骤二、将视频帧输入模型的特征提取部分,提取视频帧特征F;
步骤三、将提取的特征F分别送入多注意力分支和注意力光流估计分支,可以得到两个分支的输出
Figure FDA0002904617710000011
Figure FDA0002904617710000012
步骤四、对
Figure FDA0002904617710000013
Figure FDA0002904617710000014
进行上采样后,输入DLSTM和一个卷积模型,得到视频超分辨特征
Figure FDA0002904617710000015
5.根据权利要求4所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:所述的步骤一中,输入的视频帧为MAFnet中的2n+1个LR帧,其序列为
Figure FDA0002904617710000016
MAFnet输入大小为(ML×NL),其中
Figure FDA0002904617710000017
是输出的HR帧,表示为ISR,大小为(MH×NH),并且MH>ML,NH>NL
6.根据权利要求5所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:所述的步骤二中,视频帧经过两次卷积操作和残差密集块操作获得特征F,
Figure FDA0002904617710000018
其中,ILR表示输入的低分辨帧,Hrdb(·)表示残差密集块操作,Hc(·)表示卷积操作。
7.根据权利要求6所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:所述的步骤三中,提取的特征F送入多注意力分支和注意力光流估计分支,分别得到多注意力分支输出,式(2),和注意力光流估计分支输出,式(3),
Figure FDA0002904617710000021
Figure FDA0002904617710000022
其中,Hse(·)为自注意力模块函数,Hsa(·)为空间注意力模块函数,Hca(·)为通道注意力模块函数,Hf(·)为光流模块函数。
8.根据权利要求7所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:
所述的通道注意力中,将特征输入后,分别经自适应平均池化和自适应最大池化后,经卷积通道缩小并经过激活函数ReLU,随后经过卷积恢复通道;将得到两特征相加经过Sigmoid函数得到注意力特征图,再将注意力特征图与输入特征作矩阵乘法得到输出特征;
所述的空间注意力中,将特征输入后,先经过卷积和激活函数LReLU,再经过由平均池化、最大池化和连接操作构成池化层,接着经过卷积和LReLU得到特征1,之后,经过重复的卷积、LReLU和池化层结构,并经过两次卷积和LReLU结构,再进行插值运算得到特征2,将特征1和特征2相加后经过卷积、LReLU和插值运算,将特征依次送入两个卷积和LReLU,得到特征3,利用Sigmoid函数得到注意力特征图,将注意力特征图和输入特征作矩阵乘法,并将结果与特征3相加得到输出特征;
所述的自注意力中,将特征输入后,分别经过三个卷积通道,得到特征1、特征2和特征3,特征1与特征2作矩阵乘法并经过softmax函数得到注意力图,再与特征3作矩阵乘法得到输出特征。
9.根据权利要求8所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:所述的光流估计网络中,给定任何两个相邻帧Ii,Ii+1,则光流计算公式可以表示为
fi→i+1=Nf(Ii,Ii+1) (4)
其中,Nf表示光流估计网络。
10.根据权利要求8所述的一种多个注意力结合光流的视频超分辨方法,其特征在于:所述的步骤四中,对
Figure FDA0002904617710000023
Figure FDA0002904617710000024
进行上采样
Figure FDA0002904617710000025
Figure FDA0002904617710000026
其中,↑表示上采样;将y1,y2送入DLSTM,再经过一层卷积得到最后的输出
Figure FDA0002904617710000027
其中,
Figure FDA0002904617710000028
表示经过DLSTM和最后重建卷积得到的特征;整个网络最后表示为
ISR=HMAFnet(ILR) (8)。
CN202110067283.1A 2021-01-19 2021-01-19 一种多个注意力结合光流的视频超分辨模型及方法 Pending CN112734644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110067283.1A CN112734644A (zh) 2021-01-19 2021-01-19 一种多个注意力结合光流的视频超分辨模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110067283.1A CN112734644A (zh) 2021-01-19 2021-01-19 一种多个注意力结合光流的视频超分辨模型及方法

Publications (1)

Publication Number Publication Date
CN112734644A true CN112734644A (zh) 2021-04-30

Family

ID=75592272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110067283.1A Pending CN112734644A (zh) 2021-01-19 2021-01-19 一种多个注意力结合光流的视频超分辨模型及方法

Country Status (1)

Country Link
CN (1) CN112734644A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113313037A (zh) * 2021-06-02 2021-08-27 郑州大学 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN113538307A (zh) * 2021-06-21 2021-10-22 陕西师范大学 基于多视角超分辨深度网络的合成孔径成像方法
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN114092339A (zh) * 2022-01-24 2022-02-25 南京理工大学 基于跨帧自注意力变换网络的时空视频超分辨率重建方法
WO2023025245A1 (zh) * 2021-08-25 2023-03-02 中兴通讯股份有限公司 视频图像处理方法、网络训练方法、电子设备、和计算机可读存储介质
CN116051380A (zh) * 2023-01-13 2023-05-02 深圳大学 一种视频超分辨率处理方法及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313037A (zh) * 2021-06-02 2021-08-27 郑州大学 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113538307A (zh) * 2021-06-21 2021-10-22 陕西师范大学 基于多视角超分辨深度网络的合成孔径成像方法
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN113642498B (zh) * 2021-08-20 2024-05-03 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
WO2023025245A1 (zh) * 2021-08-25 2023-03-02 中兴通讯股份有限公司 视频图像处理方法、网络训练方法、电子设备、和计算机可读存储介质
CN114092339A (zh) * 2022-01-24 2022-02-25 南京理工大学 基于跨帧自注意力变换网络的时空视频超分辨率重建方法
CN116051380A (zh) * 2023-01-13 2023-05-02 深圳大学 一种视频超分辨率处理方法及电子设备
CN116051380B (zh) * 2023-01-13 2023-08-22 深圳大学 一种视频超分辨率处理方法及电子设备

Similar Documents

Publication Publication Date Title
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN112734644A (zh) 一种多个注意力结合光流的视频超分辨模型及方法
CN109905624B (zh) 一种视频帧插值方法、装置及设备
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN110427968A (zh) 一种基于细节增强的双目立体匹配方法
CN112541482B (zh) 深度信息补全模型训练方法、装置、设备以及存储介质
CN111784582B (zh) 一种基于dec_se的低照度图像超分辨率重建方法
CN112348766A (zh) 一种用于监控视频增强的渐进式特征流深度融合网络
CN112560875B (zh) 深度信息补全模型训练方法、装置、设备以及存储介质
CN108259994A (zh) 一种提高视频空间分辨率的方法
CN113837938A (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
Dai et al. Image super-resolution via residual block attention networks
Niu et al. Blind motion deblurring super-resolution: When dynamic spatio-temporal learning meets static image understanding
CN110363068A (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN112580473A (zh) 一种融合运动特征的视频超分辨率重构方法
CN113592715A (zh) 一种面向小样本图像集的超分辨率图像重构方法
CN109272450B (zh) 一种基于卷积神经网络的图像超分方法
CN114359044A (zh) 一种基于参考图像的图像超分辨率系统
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
CN116895037A (zh) 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统
CN112215140A (zh) 一种基于时空对抗的3维信号处理方法
CN113313133A (zh) 一种生成对抗网络的训练方法、动画图像生成方法
Liu et al. Sensing Diversity and Sparsity Models for Event Generation and Video Reconstruction from Events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination