CN113469884A - 基于数据仿真的视频超分辨方法、系统、设备及存储介质 - Google Patents
基于数据仿真的视频超分辨方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN113469884A CN113469884A CN202110800420.8A CN202110800420A CN113469884A CN 113469884 A CN113469884 A CN 113469884A CN 202110800420 A CN202110800420 A CN 202110800420A CN 113469884 A CN113469884 A CN 113469884A
- Authority
- CN
- China
- Prior art keywords
- resolution
- video
- super
- data set
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004088 simulation Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 44
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于数据仿真的视频超分辨方法。包括:采集高分辨率视频与低分辨率目标视频;对低分辨率目标视频的模糊核、噪声进行采样;利用模糊核对高分辨率视频进行模糊并添加噪声,构建出仿真视频数据集;构建超分辨率网络模型,并利用仿真视频数据集进行训练;利用训练好的超分辨率网络模型对低分辨率目标视频进行超分辨重建,生成需要的超分辨率视频。本发明还公开了一种基于数据仿真的视频超分辨系统、计算机设备及计算机可读存储介质。本发明通过数据仿真的方法,采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计,能生成更加符合实际条件的低分辨率视频的训练数据,提高了超分辨率的效果。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于数据仿真的视频超分辨方法、基于数据仿真的视频超分辨系统、计算机设备及计算机可读存储介质。
背景技术
分辨率指的是一张图像所包含的像素数量,分辨率越高则图像越清晰,包含的内容和细节信息也就越多。超分辨率重建技术指的是通过算法从低分辨率图像中获取对应的高分辨率图像,还原或者增加图像细节,使得图像更符合人类的视觉感知。随着科学技术的进步和生产力的发展,智能设备普及率得到进一步提高,每天都会因此产生数以万计的视频数据,人们也能随时随地观看视频,视频已经成为了日常生活中接触最多,信息量最为丰富的信息载体。因此,研究如何通过低分辨率的视频获取到高分辨率的高清视频有非常重要的现实意义。此外,视频超分辨在视频监控、遥感成像、医疗诊断同样有着非常广泛的研究价值。
目前的现有技术之一是Shi等的《Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network》所提出的ESPCN的单图像超分辨重建方法,利用了像素重组的上采样方式,即图像在经过数个卷积层后得到放大倍数平方通道,且大小与原图大小一致的特征图,随后对这些特征图进行重新排列,每一个通道特征图像素点代表了重建后的高分辨率图像对应位置的一个像素点,最终合并得到对应放大倍数的高分辨率图像。该方法对单图像的处理效率高,且像素重组的思路也被广泛应用于后续的其他超分辨方法中。视频可以看作是多帧图像的集合,因此可以利用现有的单图像超分辨方法对视频所有帧进行重建。该方法的缺点是:由于视频数据的特点,帧与帧之间通常是连续的运动变化过程,具有相似性,视频的抖动可以看作是对同一场景的不同位置采样,能为超分辨重建提供更多的信息,例如,同一场景下的多帧图像可以用于去除随机噪声。单独地对视频所有帧进行超分辨重建,没有利用到帧与帧之间的关系信息,导致单图像超分辨直接应用在视频数据上时效果不理想。
目前的现有技术之二是Wang等的《EDVR:Video restoration withenhanceddeformable convolutional networks》提出的EDVR的视频超分辨重建方法,主要包括两个关键模块:金字塔层叠变形(PCD)对齐模块以及时空注意力(TSA)融合模块,用于解决视频超分辨率多帧对齐以及剧烈晃动的问题。EDVR首先将视频转化为图像序列,每次将数帧作为网络的输入,并将其中一帧作为关键帧,通过PCD对齐模块将相邻帧对齐到关键帧,然后对齐后的帧经过TSA融合模块得到融合特征,最后通过重建模块利用像素重组的方式将融合特征重建为残差图,并与关键帧的双线性插值法得到的上采样结果进行逐像素的相加得到重建后的一帧。重复这个过程直到视频所有帧都完成超分辨率重建。该方法的缺点是:采用REDS作为训练集,该数据集通过对视频中每一帧进行双三次插值下采样构成低分辨率的成对训练数据,然而由于现实中低分辨率视频并不是通过理想的双三次插值法下采样获取得到的,而且双三次插值法会造成图像的高频信息丢失,凸显低频信息,这使得训练数据低分辨率和高分辨率之间产生了较大的偏差,因此该方法在同样采用双三次插值法构造的训练集中有明显的重建效果,而直接应用到真实的视频应用中重建效果却不明显。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于数据仿真的视频超分辨方法、系统、设备及存储介质。本发明解决的主要问题,是针对现有的视频超分辨率重建方法中,训练所用到的成对的视频数据集与真实应用场景下偏差较大、通过插值法生成的低分辨率视频与直接采集并对其进行超分的低分辨率视频不相似的不足,如何通过数据仿真构建出更满足真实场景下的训练数据。
为了解决上述问题,本发明提出了一种基于数据仿真的视频超分辨方法,所述方法包括:
采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
优选地,所述采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,具体为:
采用生成对抗网络的方法,训练生成器网络和判别器网络,其中生成器网络用于模拟模糊核卷积操作,而判别器网络用于判断应用模糊操作前后图像是否保持了域一致性,即是否属于同一个数据分布;
将所述低分辨率目标视频数据集作为训练数据,每轮训练从所述低分辨率目标视频数据集中采样一张图像作为生成器网络的输入,经过生成器网络处理后得到宽和高为原图像大小一半的伪结果,从伪结果和原图像中裁剪出64×64大小的区域,作为判别器网络的输入;
判别器网络的目标为区分出伪结果和裁剪结果,而生成器网络的目标为生成出数据分布与原图一致的下采样伪结果;
经过训练过程后,得到训练完成的生成器网络,该生成器网络整个网络的变换为线性变换,因此其经过线性变换即为模糊核,然后重复上述步骤多次,获得多个模糊核。
优选地,所述采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样,具体为:
通过在所述低分辨率目标视频数据集中采样的一张图像中直接截取一个图像块,通过对该图像块方差和均值进行计算,如果方差较小则认为该图像块不包含边缘和细节,属于背景或者内容,随后将该图像块所有像素值减去均值,则该图像块可以看作是一个噪声的采样;
重复上述步骤多次,获得多个噪声。
优选地,所述利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集,具体为:
从所述高分辨率视频数据集中随机选取一个视频,并抽取出图像序列,对序列中所有图像,裁剪出256×256大小的图像块作为训练数据中的标签;
从所述多个模糊核中随机选取一个模糊核,并采用该模糊核作为卷积核,对所述抽取出的高分辨率视频图像序列进行卷积操作后得到同源的经过2倍下采样的图像序列,重复2次得到64×64大小的低分辨率图像块作为低分辨率训练数据;
从多个噪声中随机选取一个噪声,通过放大和复制填充得到64×64大小的图像块,通过叠加的方式增加到所述低分辨率图像块中;
重复以上步骤多次,获得仿真的低分辨率视频数据集,与所述高分辨率视频数据集一起构成成对的视频训练数据集。
优选地,所述构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练,具体为:
采用改进的EDVR模型作为视频超分辨的网络模型,包括帧对齐模块、时空注意力融合模块和图像重建模块,其中帧对齐模块以及时空注意力融合模块沿用EDVR的设置;
每次输入网络模型的为5帧,中间帧作为关键帧,其余作为相邻帧,制作大小为5×64×64×3的张量,表示5帧64×64大小的彩色图像,特别地,视频的前2帧以及最后2帧仍然采用前5帧作为输入,输入的张量在依次通过所述帧对齐模块和所述时空注意力融合模块后获得对齐的特征;
构建图像重建模块,在EDVR模型残差块堆叠的基础上增加了一条新的通路,具体为,输入特征为N通道,左分支首先经过1×1的卷积层将特征降维到N/2,然后经过20个残差块进行运算,每个残差块由两个3×3的卷积层组成,并通过残差连接将前一次运算的结果对位相加,最后通过1×1的卷积层对信息进行整合,右分支为新的通路,同样经过1×1的卷积层进行降维到N/2,与左分支最后得到的张量进行拼接即得到输出的特征,其中每个卷积层后都有Leakly RELU作为激活函数。
为了使网络模型参数收敛,训练时采用平均平方误差作为损失函数,即将所述高分辨率视频数据集中的图像与本视频超分辨率网络模型计算出的高分辨图像逐像素相减后取平方,随后对图像大小取平均,损失误差的计算公式如下:
L=y-f(x))^2/64×64,
其中,x表示低分辨率图像块,y表示高分辨率图像块,f表示视频超分辨率网络模型。
优选地,所述利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频,具体为:
将所述低分辨率目标视频抽取为图像序列,将相邻的每5帧作为所述视频超分辨率网络模型的输入,计算得到1帧高分辨率结果,重复这个过程直到所有图像帧都被重建完成,最后将高分辨率图像序列转换成视频得到需要的超分辨率视频。
相应地,本发明还提供了一种基于数据仿真的视频超分辨系统,包括:
视频采集单元,用于采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
特征采样单元,用于采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
仿真视频生成单元,用于利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
模型训练单元,用于构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
视频重建单元,用于利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基于数据仿真的视频超分辨方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于数据仿真的视频超分辨方法的步骤。
实施本发明,具有如下有益效果:
本发明通过数据仿真的方法,采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计,能够生成更加符合实际条件的低分辨率视频的训练数据,提高网络模型的适用性。本发明通过对现有视频超分辨率方法进行改进,在EDVR重建模块的基础上增加了额外的通路,增强了重建网络的效率,提高了超分辨率的效果。
附图说明
图1是本发明实施例的基于数据仿真的视频超分辨方法的总体流程图;
图2是本发明实施例的低分辨率视频特征采集流程图;
图3是本发明实施例的视频超分辨率网络模型中构建图像重建模块示意图;
图4是本发明实施例的基于数据仿真的视频超分辨系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于数据仿真的视频超分辨方法的总体流程图,如图1所示,该方法包括:
S1,采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
S2,采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
S3,利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
S4,构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
S5,利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
步骤S1,具体如下:
S1-1,采用高清摄像头采集高分辨率视频数据,也可以直接利用现有的视频超分辨率数据集的高分辨率图像序列作为高清视频数据集,该数据集作为数据仿真的参考,因此质量越高则后续超分辨率效果越好。
S1-2,收集目标低分辨率视频数据集,可以采用手机摄像头或实际应用环境中的低清监控摄像头等获取真实的低分辨率视频,该数据集作为超分辨率重建方法处理的对象。
S1-3,要求视频为同一场景下连续变化的实拍视频,即要求没有出现场景转换,相邻的视频帧差距不能太大。本实施例中利用OpenCV将所有视频数据切分为png格式的图像序列。
步骤S2,如图2所示,具体如下:
S2-1,图像退化的过程可以通过以下的模型表示:
LR=(HR★K)↓+N
其中LR表示低分辨率图像,HR表示高分辨图像,★表示卷积操作,↓表示下采样,K表示模糊核,N表示噪声。
为了构建符合真实场景的成对的高分辨率-低分辨率训练数据,本方法通过从收集的低分辨率数据中估计出一般性特征,即保证域一致的模糊核以及在低分辨率数据中普遍存在的噪声,通过这些一般性特征利用现有的高清视频数据集仿真出真实的低分辨率数据集作为训练数据。
S2-2,首先采用类似对抗生成网络的方法,训练一个生成器网络和判别器网络。其中生成器网络的作用为模拟模糊核卷积操作,而判别器网络为判断应用模糊操作前后图像是否保持了域一致性,即是否属于同一个数据分布。经过这个训练过程后,可以获得从低分辨率数据中估计的模糊核K。具体而言,将S1的低分辨率图像序列数据全部作为训练数据,每轮训练从低分辨率数据集中采样一张图像,记作IL,将IL作为生成网络的输入,经过生成网络处理后得到宽和高为IL原图像大小一半的伪结果,从伪结果和IL中裁剪出64×64大小的区域,作为判别器网络的输入。判别器网络的目标为区分出伪结果和裁剪结果,而生成器网络的目标为生成出数据分布与原图一致的下采样伪结果。
本实施例中,生成器为一个线性的神经网络,包含了5个隐藏层,每个隐藏层包括了一个卷积层,卷积核的大小分别为7×7、5×5、3×3、1×1以及1×1,通道数均为128,步长和填充设置为保持原图大小,最后一层通过1×1的卷积核,步长为2,填充为0进行下采样得到原图宽和高都减少为原来一半的伪结果。此外卷积操作后没有设置一般的激活层,因此整个神经网络的变换为线性变换。并且,这些卷积层可以等价于一个13×13的卷积核,通过将一个13×13,中心点为1,其余为0的张量输入到该线性网络,输出的结果即为等价的13×13的卷积核。判别器网络为3层隐藏层的神经网络,每层均由128个3×3大小,步长为1,填充为1的卷积核、批量标准化层(BatchNormalization)以及Leakly ReLU层(LeaklyRectified Linear Unit)组成。经过判别器网络后得到类别概率特征图。
为了使网络模型参数收敛,通过以下最小最大化目标函数进行优化:
其中G表示生成器网络,D表示判别器网络,x表示从IL中截取的部分区域。
此外需要对生成的模糊核k进行以下约束:
argmink|1-∑ki,j|+|∑ki,j*Li,j|+|∑ki,j-kbicubic|,
ki,j表示模糊核在坐标(i,j)上的值,Li,j表示距离中心点的对数距离。第一项表示核所有值的和为1,这使得经过模糊核卷积操作后,图像的均值不发生变化。第二项表示核的值集中于中心点,边缘趋向于0。第三项表示核与双三次插值法的距离。
S2-3,随后对噪声Ν进行估计,由于噪声存在于全局,且背景部分细节较少,因此通过在低分辨率图IL中直接截取一个13×13大小的图像块,通过对图像块方差和均值进行计算,如果方差较小则认为该图像块不包含边缘和细节,属于背景或者内容,随后将图像块所有像素值减去均值,则这个图像块可以看作是一个噪声的采样。
S2-4,通过多次重复S2-2以及S2-3步骤,获得多个模糊核K和噪声N的采样,本实施例中对模糊核以及噪声分别采样200次。
步骤S3,具体如下:
S3-1,从S1所采集的高分辨率视频数据集中随机选取一个视频,并抽取出图像序列,对序列中所有图像,裁剪出256×256大小的图像块作为训练数据中的标签。
S3-2,从S2所采样的模糊核中随机选取一个模糊核,并采用该模糊核作为卷积核,对高分辨率训练数据进行卷积操作后得到同源的经过2倍下采样图像序列,重复两次得到64×64大小的低分辨率图像块作为低分辨率训练数据。
S3-3,从S2所采样的噪声中随机选取一个噪声块,通过放大和复制填充得到64×64大小的图像块,通过叠加的方式增加到低分辨率图像块中。
S3-4,本实施例中,重复以上步骤10000次,获得仿真的低分辨率视频数据集,与高分辨率视频数据集一起构成成对的视频训练数据集。
步骤S4,具体如下:
S4-1,采用改进的EDVR模型作为视频超分辨的网络模型,包括帧对齐模块、时空注意力融合模块和图像重建模块,其中帧对齐模块以及时空注意力融合模块沿用EDVR的设置,本方法主要对图像重建模块进行了改进。
S4-2,每次输入网络的为5帧,中间帧作为关键帧,其余作为相邻帧,制作为大小5×64×64×3的张量,表示5帧64×64大小的彩色图像。特别地,视频的前2帧以及最后2帧仍然采用前5帧作为输入。输入的张量在依次通过帧对齐模块和时空注意力融合模块后获得对齐的特征。
S4-3,构建图像重建模块,如图3所示,本发明在原方法残差块堆叠的基础上增加了一条新的通路。具体为,输入特征为N通道,左分支首先经过1×1的卷积层将特征降维到N/2,然后经过20个残差块进行运算,每个残差块由两个3×3的卷积层组成,并通过残差连接将前一次运算的结果对位相加,最后通过1×1的卷积层对信息进行整合。右分支为新的通路,同样经过1×1的卷积层进行降维到N/2,与左分支最后得到的张量进行拼接即得到输出的特征。本发明中N为64,每个卷积层后都有Leakly RELU作为激活函数。
S4-4,为了使网络模型参数收敛,训练时采用平均平方误差作为损失函数,即将高分辨率视频数据集中的图像与本视频超分辨率网络模型计算出的图像逐像素相减后取平方,随后对图像大小取平均。具体的损失误差的计算公式如下:
L=(y-f(x))^2/(64×64),
其中,x表示低分辨率图像块,y表示高分辨率图像块,f表示视频超分辨率网络模型。本实施例中利用Adam作为优化器,超参数设置为0.9和0.999,学习率设置为0.0001。
步骤S5,具体如下:
将S1中采集的目标低分辨率视频数据抽取为图像序列,将相邻的每5帧作为网络的输入,计算得到1帧高分辨率结果,重复这个过程直到所有图像帧都被重建完成。最后,本实施例中通过OpenCV将图像序列转换成avi格式的视频。
相应地,本发明还提供了一种基于数据仿真的视频超分辨系统,如图4所示,包括:
视频采集单元1,用于采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
特征采样单元2,用于采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
仿真视频生成单元3,用于利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
模型训练单元4,用于构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
视频重建单元5,用于利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
因此,本发明通过数据仿真的方法,采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计,能够生成更加符合实际条件的低分辨率视频的训练数据,提高网络模型的适用性。本发明通过对现有视频超分辨率方法进行改进,在EDVR重建模块的基础上增加了额外的通路,增强了重建网络的效率,提高了超分辨率的效果。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于数据仿真的视频超分辨方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于数据仿真的视频超分辨方法的步骤。
以上对本发明实施例所提供的基于数据仿真的视频超分辨方法、系统、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于数据仿真的视频超分辨方法,其特征在于,所述方法包括:
采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
2.如权利要求1所述的一种基于数据仿真的视频超分辨方法,其特征在于,所述采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,具体为:
采用生成对抗网络的方法,训练生成器网络和判别器网络,其中生成器网络用于模拟模糊核卷积操作,而判别器网络用于判断应用模糊操作前后图像是否保持了域一致性,即是否属于同一个数据分布;
将所述低分辨率目标视频数据集作为训练数据,每轮训练从所述低分辨率目标视频数据集中采样一张图像作为生成器网络的输入,经过生成器网络处理后得到宽和高为原图像大小一半的伪结果,从伪结果和原图像中裁剪出64×64大小的区域,作为判别器网络的输入;
判别器网络的目标为区分出伪结果和裁剪结果,而生成器网络的目标为生成出数据分布与原图一致的下采样伪结果;
经过训练过程后,得到训练完成的生成器网络,该生成器网络整个网络的变换为线性变换,因此其经过线性变换即为模糊核,然后重复上述步骤多次,获得多个模糊核。
3.如权利要求1所述的一种基于数据仿真的视频超分辨方法,其特征在于,所述采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样,具体为:
通过在所述低分辨率目标视频数据集中采样的一张图像中直接截取一个图像块,通过对该图像块方差和均值进行计算,如果方差较小则认为该图像块不包含边缘和细节,属于背景或者内容,随后将该图像块所有像素值减去均值,则该图像块可以看作是一个噪声的采样;
重复上述步骤多次,获得多个噪声。
4.如权利要求1所述的一种基于数据仿真的视频超分辨方法,其特征在于,所述利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集,具体为:
从所述高分辨率视频数据集中随机选取一个视频,并抽取出图像序列,对序列中所有图像,裁剪出256×256大小的图像块作为训练数据中的标签;
从所述多个模糊核中随机选取一个模糊核,并采用该模糊核作为卷积核,对所述抽取出的高分辨率视频图像序列进行卷积操作后得到同源的经过2倍下采样的图像序列,重复2次得到64×64大小的低分辨率图像块作为低分辨率训练数据;
从多个噪声中随机选取一个噪声,通过放大和复制填充得到64×64大小的图像块,通过叠加的方式增加到所述低分辨率图像块中;
重复以上步骤多次,获得仿真的低分辨率视频数据集,与所述高分辨率视频数据集一起构成成对的视频训练数据集。
5.如权利要求1所述的一种基于数据仿真的视频超分辨方法,其特征在于,所述构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练,具体为:
采用改进的EDVR模型作为视频超分辨的网络模型,包括帧对齐模块、时空注意力融合模块和图像重建模块,其中帧对齐模块以及时空注意力融合模块沿用EDVR的设置;
每次输入网络模型的为5帧,中间帧作为关键帧,其余作为相邻帧,制作大小为5×64×64×3的张量,表示5帧64×64大小的彩色图像,特别地,视频的前2帧以及最后2帧仍然采用前5帧作为输入,输入的张量在依次通过所述帧对齐模块和所述时空注意力融合模块后获得对齐的特征;
构建图像重建模块,在EDVR模型残差块堆叠的基础上增加了一条新的通路,具体为,输入特征为N通道,左分支首先经过1×1的卷积层将特征降维到N/2,然后经过20个残差块进行运算,每个残差块由两个3×3的卷积层组成,并通过残差连接将前一次运算的结果对位相加,最后通过1×1的卷积层对信息进行整合,右分支为新的通路,同样经过1×1的卷积层进行降维到N/2,与左分支最后得到的张量进行拼接即得到输出的特征,其中每个卷积层后都有Leakly RELU作为激活函数:
为了使网络模型参数收敛,训练时采用平均平方误差作为损失函数,即将所述高分辨率视频数据集中的图像与本视频超分辨率网络模型计算出的高分辨图像逐像素相减后取平方,随后对图像大小取平均,损失误差的计算公式如下:
L=(y-f(x))^2/(64×64),
其中,x表示低分辨率图像块,y表示高分辨率图像块,f表示视频超分辨率网络模型。
6.如权利要求1所述的一种基于数据仿真的视频超分辨方法,其特征在于,所述利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频,具体为:
将所述低分辨率目标视频抽取为图像序列,将相邻的每5帧作为所述视频超分辨率网络模型的输入,计算得到1帧高分辨率结果,重复这个过程直到所有图像帧都被重建完成,最后将高分辨率图像序列转换成视频得到需要的超分辨率视频。
7.一种基于数据仿真的视频超分辨系统,其特征在于,所述系统包括:
视频采集单元,用于采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集;
特征采样单元,用于采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样,采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样;
仿真视频生成单元,用于利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊,并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声,构建出仿真视频数据集;
模型训练单元,用于构建视频超分辨率网络模型,并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练;
视频重建单元,用于利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建,生成需要的超分辨率视频。
8.如权利要求7所述的一种基于数据仿真的视频超分辨系统,其特征在于,所述模型训练单元中的图像重建模块,具体为:
图像重建模块,在EDVR模型残差块堆叠的基础上增加了一条新的通路,具体为,输入特征为N通道,左分支首先经过1×1的卷积层将特征降维到N/2,然后经过20个残差块进行运算,每个残差块由两个3×3的卷积层组成,并通过残差连接将前一次运算的结果对位相加,最后通过1×1的卷积层对信息进行整合,右分支为新的通路,同样经过1×1的卷积层进行降维到N/2,与左分支最后得到的张量进行拼接即得到输出的特征,其中每个卷积层后都有Leakly RELU作为激活函数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800420.8A CN113469884A (zh) | 2021-07-15 | 2021-07-15 | 基于数据仿真的视频超分辨方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800420.8A CN113469884A (zh) | 2021-07-15 | 2021-07-15 | 基于数据仿真的视频超分辨方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113469884A true CN113469884A (zh) | 2021-10-01 |
Family
ID=77880491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800420.8A Pending CN113469884A (zh) | 2021-07-15 | 2021-07-15 | 基于数据仿真的视频超分辨方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469884A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114040197A (zh) * | 2021-11-29 | 2022-02-11 | 北京字节跳动网络技术有限公司 | 视频检测方法、装置、设备及存储介质 |
CN114241078A (zh) * | 2022-02-23 | 2022-03-25 | 南昌睿度医疗科技有限公司 | 一种加速磁共振超分辨率成像方法、装置、设备及介质 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120300122A1 (en) * | 2011-05-26 | 2012-11-29 | Microsoft Corporation | Adaptive super resolution for video enhancement |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN112598579A (zh) * | 2020-12-28 | 2021-04-02 | 苏州科达特种视讯有限公司 | 面向监控场景的图像超分辨率方法、装置及存储介质 |
CN112669214A (zh) * | 2021-01-04 | 2021-04-16 | 东北大学 | 一种基于交替方向乘子算法的模糊图像超分辨率重建方法 |
CN112927137A (zh) * | 2021-03-08 | 2021-06-08 | 大连理工大学 | 一种用于获取盲超分辨率图像的方法、设备及存储介质 |
-
2021
- 2021-07-15 CN CN202110800420.8A patent/CN113469884A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120300122A1 (en) * | 2011-05-26 | 2012-11-29 | Microsoft Corporation | Adaptive super resolution for video enhancement |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN112598579A (zh) * | 2020-12-28 | 2021-04-02 | 苏州科达特种视讯有限公司 | 面向监控场景的图像超分辨率方法、装置及存储介质 |
CN112669214A (zh) * | 2021-01-04 | 2021-04-16 | 东北大学 | 一种基于交替方向乘子算法的模糊图像超分辨率重建方法 |
CN112927137A (zh) * | 2021-03-08 | 2021-06-08 | 大连理工大学 | 一种用于获取盲超分辨率图像的方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
史振威等: "图像超分辨重建算法综述", 《数据采集与处理》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114040197A (zh) * | 2021-11-29 | 2022-02-11 | 北京字节跳动网络技术有限公司 | 视频检测方法、装置、设备及存储介质 |
CN114040197B (zh) * | 2021-11-29 | 2023-07-28 | 北京字节跳动网络技术有限公司 | 视频检测方法、装置、设备及存储介质 |
CN114241078A (zh) * | 2022-02-23 | 2022-03-25 | 南昌睿度医疗科技有限公司 | 一种加速磁共振超分辨率成像方法、装置、设备及介质 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062872B (zh) | 一种基于边缘检测的图像超分辨率重建方法及系统 | |
CN112750082B (zh) | 基于融合注意力机制的人脸超分辨率方法及系统 | |
CN113469884A (zh) | 基于数据仿真的视频超分辨方法、系统、设备及存储介质 | |
CN111242846B (zh) | 基于非局部增强网络的细粒度尺度图像超分辨率方法 | |
CN110782395B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN111105352A (zh) | 超分辨率图像重构方法、系统、计算机设备及存储介质 | |
CN110246084A (zh) | 一种超分辨率图像重构方法及其系统、装置、存储介质 | |
Sun et al. | Multiscale generative adversarial network for real‐world super‐resolution | |
CN112102163B (zh) | 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法 | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
CN110689509B (zh) | 基于循环多列3d卷积网络的视频超分辨率重建方法 | |
CN114926343A (zh) | 一种基于金字塔融合注意力网络的图像超分辨率方法 | |
CN112419150A (zh) | 一种基于双边上采样网络的任意倍数图像超分辨率重建方法 | |
CN115393191A (zh) | 一种轻量级遥感图像超分辨率重建方法、装置及设备 | |
López-Tapia et al. | A single video super-resolution GAN for multiple downsampling operators based on pseudo-inverse image formation models | |
CN116029902A (zh) | 一种基于知识蒸馏的无监督真实世界图像超分辨方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN109064394A (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
CN112435165A (zh) | 基于生成对抗网络的两阶段视频超分辨率重建方法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN116468605A (zh) | 基于时空分层掩膜注意力融合的视频超分辨率重建方法 | |
Peng | Super-resolution reconstruction using multiconnection deep residual network combined an improved loss function for single-frame image | |
CN115511733A (zh) | 一种图像退化建模方法、神经网络训练方法和装置 | |
CN116266336A (zh) | 视频超分辨率重建方法、装置、计算设备及存储介质 | |
Zhang et al. | Image Super-Resolution Using a Wavelet-based Generative Adversarial Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |
|
RJ01 | Rejection of invention patent application after publication |