CN109636721A - 基于对抗学习和注意力机制的视频超分辨率方法 - Google Patents
基于对抗学习和注意力机制的视频超分辨率方法 Download PDFInfo
- Publication number
- CN109636721A CN109636721A CN201811442708.7A CN201811442708A CN109636721A CN 109636721 A CN109636721 A CN 109636721A CN 201811442708 A CN201811442708 A CN 201811442708A CN 109636721 A CN109636721 A CN 109636721A
- Authority
- CN
- China
- Prior art keywords
- network
- video
- resolution
- frame
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000010606 normalization Methods 0.000 claims description 31
- 238000010276 construction Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 16
- 230000001537 neural effect Effects 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 230000004069 differentiation Effects 0.000 claims description 10
- 230000003252 repetitive effect Effects 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 6
- 210000005036 nerve Anatomy 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000001427 coherent effect Effects 0.000 abstract description 2
- 238000012806 monitoring device Methods 0.000 abstract description 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000000576 coating method Methods 0.000 description 4
- 239000011248 coating agent Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
针对视频分辨率传统方法中计算开销大、计算效率低、不能高效处理长序列的缺点,本发明公开了一种端到端的基于对抗学习和注意力机制的视频超分辨率方法。本发明采用临帧融合与注意力机制提取时空相关性,采用循环结构以一次性处理长序列,可以获得富于细节、时序连贯的高分辨率重建视频。本发明的有益效果为:1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法,提升了超分辨率的效果;2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好;3、本发明有助于视频超分辨率被应用于实际场景中,如应用于监控设备,卫星影像。
Description
技术领域
本发明属于计算机数字图像处理技术领域,具体涉及一种基于注意力模型和对抗学习模型的视频超分辨率方法。
背景技术
人类获取信息的主要途径是视觉,大部分基于视觉的应用效果取决于图像质量。然而通常由于硬件设备或者恶劣环境等因素,高分辨率视频图像难以获取。超分辨率技术对给定的低分辨率图像或视频帧序列处理,重建出富于细节的高分辨率图像或视频帧,而免去了升级成像系统的成本。
早期的超分辨率技术在上世纪八十年代就已提出,最初采用数学方法进行重建,如迭代反复投影法,插值法,未能取得较好的效果。目前,获得较高重建质量的视频超分辨率方法是基于深度神经网络的模型。
目前的视频超分辨率方法为了利用视频中的时间相关性,建立了一个约束优化问题以估计相邻帧的运动位移,进而进行运动补偿,之后再利用基本对齐的相邻帧之间的亚像素进行单帧的重建。然而,这种方法存在两个问题。其一,运动补偿属于预处理,需要较大计算开销,而且在训练阶段需要额外训练。其二,运动估计使用的滑动窗口包含了大量的计算冗余,每次利用多帧仅能重建单帧,同一帧会参与计算数次,对于长序列的视频计算效率低。
本发明采用了对抗生成网络和注意力机制,设计了神经网络模型解决上述问题。
注意力机制源于生物感知过程,可以在长序列中根据每个元素在当前时刻的重要程度,从而动态地从不同信息源整合时序信息。多被用于自然语言处理任务中处理较长的序列数据,在本方法中用于提取视频的长时相关性。
对抗生成网络是目前主流的生成模型,它具有一个生成网络生成数据和一个判别网络判别数据的真实性。两个网络的目标相反,生成网络意图使生成的数据欺骗判别网络,判别网络意图正确区分出生成数据和真实数据,从而在生成网络和判别网络的博弈中,使生成网络拟合真实数据的分布以生成逼真的数据。在本方法中用于构造视频的感知损失函数和注意力模块的监督信号。
发明内容
本发明针对目前视频超分辨率方法中运动补偿的缺陷,提出了一种高效的视频超分辨率方法,可以重建出富于细节、时空连贯的高分辨率视频,其具体步骤如下:
一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:
步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络 Da;
步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;
步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,构造生成网络具体包括:
步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图(feature map);帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络;
步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图(feature map)的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;
步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,所述进行时空域注意力,具体包括:
步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络;
步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;
步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中所述构造损失函数具体包括:
步骤4.1、构造生成网络G损失函数Lg(G),其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数;
步骤4.2、构造判别网络Dt损失函数Lt(Dt),其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布;
步骤4.3、构造判别网络Da损失函数La(Da),其具体形式为
其中,A与分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中训练神经网络具体包括:
步骤5.1、获取公开的、自然场景下的高分辨率视频数据集;
步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集;作为优选,所述的下采样包括高斯滤波、各类插值方法;
步骤5.3、对三个神经网络进行参数初始化
步骤5.4、训练判别网络Dt
步骤5.5、标注ka注意力掩膜对为负样本,加入样本池P
步骤5.6、训练生成网络G
步骤5.7、标注ka注意力掩膜对为正样本,加入样本池P
步骤5.8、训练判别网络Da
步骤5.9、不断重复步骤5.4至步骤5.8,直到模型收敛。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.4中所述训练判别网络Dt,其具体过程如下:
步骤5.41收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt的输入;
步骤5.42计算损失函数Lt(Dt)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.43将上述过程重复kt次,完成该轮迭代训练。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.6中所述训练生成网络G,其具体过程如下:
步骤5.61将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
步骤5.62计算损失函数Lg(G)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.63将上述过程重复kg次,完成该轮迭代训练。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.8中所述判别网络Da,其具体过程如下:
步骤5.81将当前样本池中的正负样本作为判别网络Da的输入;
步骤5.82计算损失函数La(Da)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.83将上述过程重复ka次,完成该轮迭代训练。
与现有技术相比,本发明的有益效果为:1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法,提升了超分辨率的效果;2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好;3、本发明有助于视频超分辨率被应用于实际场景中,如应用于监控设备,卫星影像。
附图说明
图1是本发明的超分辨率模型模块及数据流概览。
图2是本发明的注意力模块内部结构概览。
图3是本发明实施例的超分辨率模型内部结构图。
图4是本发明实施例的注意力模块内部结构图。
图5是本发明的训练框架图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。本发明的具体步骤为:
(1)构建深度神经网络;
(2)训练深度神经网络;
(3)利用训练好的模型进行视频超分辨率。
步骤(1)所述的构建深度神经网络,具体过程如下:
(11)构造生成网络,如图1,其具体步骤如下:
(111)构造帧编码模块,其输入是原始视频的帧序列,输出是各帧的特征图(feature map)。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中,该模块包含两个残差密集块和融合网络,如图3。其具体实施过程定义如下:
(1111)构造两个相同结构的残差密集块,其具体步骤如下:
(11111)定义7个卷积层,前6层每个卷积核大小为3x3,步长为1,输出通道数32,最后一层卷积核大小为1x1,步长为1,输出通道数64,每个卷积层后是非线性激活层ReLU;
(11112)定义全连接,每层输入为其前面所有层输出的拼接;
(11113)将前6个卷积层按全连接方式连接,再连接最后一层;
(1112)构造融合网络,其具体步骤如下:
(11121)定义三个卷积层,第一个卷积核大小为1x1,步长为1,输出通道数 64,第二层卷积核大小为3x3,步长为1,输出通道数64,第三层卷积核大小为 1x1,步长为1,输出通道数64;每层后连接非线性激活层ReLU;
(11122)将当前帧与前一帧通过残差密集块后的输出拼接作为本网络的输入。
(1113)将上述(1111)与(1112)中模块顺序连接起来。
(112)构造时空域注意力模块,其输入为帧编码模块所得的各帧特征图(featuremap)的序列,输出为各帧特征图的序列。如图2,该模块包含掩膜生成网络和上下文特征融合网络,顺序连接。其具体步骤如下。
(1121)构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜。该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中,如图4,其具体实施过程定义如下:
(11211)构造残差单元,它由三个卷积层和一个批标准化层构成,第一个卷积层卷积核大小为1x1,特征映射通道数为c,第二个卷积层卷积核大小为3x3,特征映射通道数为c/2,第三个卷积层卷积核大小为1x1,特征映射通道数为c。卷积层步长均为1,将批标准化层插入第二个卷积层之后,每个1x1的卷积层和批标准化层之后都有一个激励函数层;
(11212)构造最大池化层和双线性插值层;
(11213)定义Sigmoid激活函数层;
(11214)定义两种特征融合层,卷积核大小都为1x1,步长都为1,特征映射通道数分别为c*4和c;
(11215)令r=1,c=64,以如下顺序组合模块:1个池化层,r个残差单元, 1个池化层,2r个残差单元,1个插值层,r个残差单元,1个插值层,1个特征映射通道数为c*4的特征融合层,1个特征映射通道数为c的特征融合层,一个激励函数层。
(1122)将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图。
(1123)构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图。该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中,其具体实施过程为:构造两个用于特征融合的卷积层,其卷积核大小分别为3x3和1x1,步长为1,输出通道数64;
(113)构造帧解码器模块,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中,如图3,其构造包含两个残差密集块、特征融合层、上采样层,其具体实施过程定义如下:
(1131)构造残差密集块,构造方法同步骤(1111);
(1132)构造特征融合层,构造方法同步骤(1112);
(1133)构造上采样层,具体步骤如下:
(11331)定义亚像素卷积层;
(11332)将帧编码器和帧解码器的输出拼接后作为输入。
(1134)将步骤(113)中的三个模块依次连接,完成构建。
(12)构造判别网络Dt,输入为一个帧序列,输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程定义如下:
(121)定义卷积层,其结构均为卷积核为3x3,步长为2;
(122)定义批标准化层;
(123)定义Leaky-ReLU激活函数层;
(124)前12层是4组卷积层-批标准化层-激活层,其中卷积层输出通道数分别为64、128、256、512,最后连接1个步长为1卷积核3x3的卷积层和1个Sigmoid 激活层。
(13)构造判别网络Da,输入为一对特征图(当前帧、某上下文帧及其所得特征掩膜),输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层 (convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程与(12) 相同;
步骤2所述的训练深度神经网络,如图5,具体过程如下:
(21)构造损失函数,分别为生成网络G损失函数、判别网络Dt损失函数、构造判别网络Da损失函数,其具体内容为:
(211)构造生成网络G损失函数Lg(G),计算损失函数对网络参数的梯度,用 ADAM算法更新梯度,其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数。
(212)构造判别网络Dt损失函数Lt(Dt),其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布。
(213)构造判别网络Da损失函数La(Da),其具体形式为
其中,A与分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。
(22)使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,其具体过程如下
(221)获取公开的、自然场景下的高分辨率视频数据集;
(222)对高分辨率视频做双三次插值下采样到1/r分辨率的低分辨率数据集;
(223)对三个神经网络用Xavier方法进行参数初始化
(224)训练判别网络Dt,其具体步骤如下:
(2241)收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt输入。
(2242)计算损失函数Lt(Dt)对网络参数的梯度,用Adam算法进行参数更新;
(2243)将上述过程重复kt次,完成该轮迭代训练。
(225)标注ka注意力掩膜对为负样本,加入样本池P;
(226)训练生成网络G,其具体步骤如下:
(2261)将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
(2262)计算损失函数Lg(G)对网络参数的梯度,用Adam算法进行参数更新;
(2263)将上述过程重复kg次,完成该轮迭代训练。
(227)标注ka注意力掩膜对为正样本,加入样本池P;
(228)训练判别网络Da,其具体步骤如下:
(2281)将当前样本池中的正负样本作为判别网络Da的输入;
(2282)计算损失函数La(Da)对网络参数的梯度,用Adam算法进行参数更新;
(2283)将上述过程重复ka次,完成该轮迭代训练。
(229)不断重复步骤(224)至(228),直到模型收敛。
步骤(3)所述的利用训练好的模型进行视频超分辨率,具体过程如下:
(31)获取需要进行超分辨率的视频集;
(32)直接将所要处理的视频作为输入,获得最终的结果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:
步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络Da;
步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;
步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。
2.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,构造生成网络具体包括:
步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图(feature map);帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络;
步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图(feature map)的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;
步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。
3.根据权利要求2所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,所述进行时空域注意力,具体包括:
步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络;
步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;
步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。
4.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤2中所述构造损失函数具体包括:
步骤4.1、构造生成网络G损失函数Lg(G),其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数;
步骤4.2、构造判别网络Dt损失函数Lt(Dt),其具体形式为
其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布;
步骤4.3、构造判别网络Da损失函数La(Da),其具体形式为
其中,A与分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。
5.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤2中训练神经网络具体包括:
步骤5.1、获取公开的、自然场景下的高分辨率视频数据集;
步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集;作为优选,所述的下采样包括高斯滤波、各类插值方法;
步骤5.3、对三个神经网络进行参数初始化
步骤5.4、训练判别网络Dt
步骤5.5、标注ka注意力掩膜对为负样本,加入样本池P
步骤5.6、训练生成网络G
步骤5.7、标注ka注意力掩膜对为正样本,加入样本池P
步骤5.8、训练判别网络Da
步骤5.9、不断重复步骤5.4至步骤5.8,直到模型收敛。
6.根据权利要求5所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.4中所述训练判别网络Dt,其具体过程如下:
步骤5.41收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt的输入;
步骤5.42计算损失函数Lt(Dt)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.43将上述过程重复kt次,完成该轮迭代训练。
7.根据权利要求5所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.6中所述训练生成网络G,其具体过程如下:
步骤5.61将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
步骤5.62计算损失函数Lg(G)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.63将上述过程重复kg次,完成该轮迭代训练。
8.根据权利要求5所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.8中所述判别网络Da,其具体过程如下:
步骤5.81将当前样本池中的正负样本作为判别网络Da的输入;
步骤5.82计算损失函数La(Da)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.83将上述过程重复ka次,完成该轮迭代训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811442708.7A CN109636721B (zh) | 2018-11-29 | 2018-11-29 | 基于对抗学习和注意力机制的视频超分辨率方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811442708.7A CN109636721B (zh) | 2018-11-29 | 2018-11-29 | 基于对抗学习和注意力机制的视频超分辨率方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109636721A true CN109636721A (zh) | 2019-04-16 |
CN109636721B CN109636721B (zh) | 2023-06-23 |
Family
ID=66069984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811442708.7A Active CN109636721B (zh) | 2018-11-29 | 2018-11-29 | 基于对抗学习和注意力机制的视频超分辨率方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109636721B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322402A (zh) * | 2019-04-30 | 2019-10-11 | 武汉理工大学 | 基于稠密混合注意力网络的医学图像超分辨率重建方法 |
CN110390308A (zh) * | 2019-07-26 | 2019-10-29 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
CN112019861A (zh) * | 2020-07-20 | 2020-12-01 | 清华大学 | 基于关键帧指导超分辨率的视频压缩方法及装置 |
WO2020252764A1 (en) | 2019-06-21 | 2020-12-24 | Intel Corporation | Adaptive deep learning model for noisy image super-resolution |
CN112712468A (zh) * | 2021-03-26 | 2021-04-27 | 北京万里红科技股份有限公司 | 虹膜图像超分辨率重建方法及计算设备 |
WO2021097594A1 (zh) * | 2019-11-18 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 快速成像模型的训练方法、装置及服务器 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683048A (zh) * | 2016-11-30 | 2017-05-17 | 浙江宇视科技有限公司 | 一种图像超分辨率方法及设备 |
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN107958246A (zh) * | 2018-01-17 | 2018-04-24 | 深圳市唯特视科技有限公司 | 一种基于新型端到端人脸超分辨率网络的图像对齐方法 |
US20180268284A1 (en) * | 2017-03-15 | 2018-09-20 | Samsung Electronics Co., Ltd. | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
CN108805809A (zh) * | 2018-05-28 | 2018-11-13 | 天津科技大学 | 一种基于生成对抗网络的红外人脸图像超分辨率重建方法 |
CA3004572A1 (en) * | 2017-05-24 | 2018-11-24 | General Electric Company | Neural network point cloud generation system |
-
2018
- 2018-11-29 CN CN201811442708.7A patent/CN109636721B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683048A (zh) * | 2016-11-30 | 2017-05-17 | 浙江宇视科技有限公司 | 一种图像超分辨率方法及设备 |
US20180268284A1 (en) * | 2017-03-15 | 2018-09-20 | Samsung Electronics Co., Ltd. | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CA3004572A1 (en) * | 2017-05-24 | 2018-11-24 | General Electric Company | Neural network point cloud generation system |
CN107958246A (zh) * | 2018-01-17 | 2018-04-24 | 深圳市唯特视科技有限公司 | 一种基于新型端到端人脸超分辨率网络的图像对齐方法 |
CN108805809A (zh) * | 2018-05-28 | 2018-11-13 | 天津科技大学 | 一种基于生成对抗网络的红外人脸图像超分辨率重建方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322402A (zh) * | 2019-04-30 | 2019-10-11 | 武汉理工大学 | 基于稠密混合注意力网络的医学图像超分辨率重建方法 |
EP3987454A4 (en) * | 2019-06-21 | 2023-03-08 | Intel Corporation | ADAPTIVE DEEP LEARNING MODEL FOR SUPER RESOLUTION NOISED IMAGES |
WO2020252764A1 (en) | 2019-06-21 | 2020-12-24 | Intel Corporation | Adaptive deep learning model for noisy image super-resolution |
CN110390308A (zh) * | 2019-07-26 | 2019-10-29 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
CN110390308B (zh) * | 2019-07-26 | 2022-09-30 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
WO2021097594A1 (zh) * | 2019-11-18 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 快速成像模型的训练方法、装置及服务器 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
CN111091576B (zh) * | 2020-03-19 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
CN112019861B (zh) * | 2020-07-20 | 2021-09-14 | 清华大学 | 基于关键帧指导超分辨率的视频压缩方法及装置 |
CN112019861A (zh) * | 2020-07-20 | 2020-12-01 | 清华大学 | 基于关键帧指导超分辨率的视频压缩方法及装置 |
CN112712468B (zh) * | 2021-03-26 | 2021-07-09 | 北京万里红科技股份有限公司 | 虹膜图像超分辨率重建方法及计算设备 |
CN112712468A (zh) * | 2021-03-26 | 2021-04-27 | 北京万里红科技股份有限公司 | 虹膜图像超分辨率重建方法及计算设备 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109636721B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109636721A (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN111062872B (zh) | 一种基于边缘检测的图像超分辨率重建方法及系统 | |
CN110675321A (zh) | 一种基于渐进式的深度残差网络的超分辨率图像重建方法 | |
CN110223234A (zh) | 基于级联收缩扩张的深度残差网络图像超分辨率重建方法 | |
Chen et al. | Single image super-resolution using deep CNN with dense skip connections and inception-resnet | |
CN111861884B (zh) | 一种基于深度学习的卫星云图超分辨率重建方法 | |
CN112365422B (zh) | 基于深层聚合网络的不规则缺失图像修复方法及其系统 | |
Luo et al. | Lattice network for lightweight image restoration | |
Vu et al. | Perception-enhanced image super-resolution via relativistic generative adversarial networks | |
CN105488759B (zh) | 一种基于局部回归模型的图像超分辨率重建方法 | |
CN109949217B (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN108492249A (zh) | 基于小卷积递归神经网络的单帧超分辨重建方法 | |
CN112163998A (zh) | 一种匹配自然降质条件的单图像超分辨率分析方法 | |
Li et al. | Attention-based adaptive feature selection for multi-stage image dehazing | |
Yang et al. | A survey of super-resolution based on deep learning | |
CN117788295B (zh) | 一种遥感图像的超分辨率重建方法、系统及介质 | |
Chen et al. | Double paths network with residual information distillation for improving lung CT image super resolution | |
CN113888399B (zh) | 一种基于风格融合与域选结构的人脸年龄合成方法 | |
Zheng et al. | Double-branch dehazing network based on self-calibrated attentional convolution | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN111754400B (zh) | 一种高效的图片超分辨率重建方法 | |
Yang et al. | RSAMSR: A deep neural network based on residual self-encoding and attention mechanism for image super-resolution | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
CN114693823B (zh) | 一种基于空频双域并行重建的磁共振图像重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |