CN113688694A - 基于非配对学习的提升视频清晰度的方法及装置 - Google Patents
基于非配对学习的提升视频清晰度的方法及装置 Download PDFInfo
- Publication number
- CN113688694A CN113688694A CN202110884878.6A CN202110884878A CN113688694A CN 113688694 A CN113688694 A CN 113688694A CN 202110884878 A CN202110884878 A CN 202110884878A CN 113688694 A CN113688694 A CN 113688694A
- Authority
- CN
- China
- Prior art keywords
- definition
- low
- image
- definition image
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 208000032538 Depersonalisation Diseases 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 abstract description 12
- 238000006731 degradation reaction Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 241000282405 Pongo abelii Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于非配对学习的提升视频清晰度的方法及装置,包括:对于给定的低清晰度视频,选择内容相似的非配对高清晰度视频作为参考并进行降采样使其相似度相近,取高低清晰度视频关键帧中的亮度分量进行量化并随机裁切图像块,形成低清晰度‑非配对高清晰度图像数据集;建立基于卷积神经网络的低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器;通过综合目标函数训练生成对抗网络,使得两个生成器都能实现更好的低高清晰度图像域之间的相互映射。本发明使用视频内容主体相似的非配对真实低高清视频进行训练,跳脱出了以往配对学习方法中特定质量退化方式的限制,利用非配对学习的方法实现了低清晰度视频图像的联合增强。
Description
技术领域
本发明涉及一种图像处理技术领域的方法,具体是一种基于非配对学习的提升视频清晰度的方法及装置。
背景技术
清晰度是指在图像分辨率相同的情况下,人眼感知的物体边界轮廓、细节纹理的显著程度。一般来说,更多的局部细节纹理与更高局部对比度能够让人眼感知到更高的清晰度。现存的大量旧影视片的摄影装置质量低于当前的主流摄影装置,因此老片与现在的摄像机拍摄的视频相比,往往存在清晰度低的问题。有的老片使用胶片相机拍摄,使用扫描仪将胶片数字化的过程也可能导致清晰度降低;许多视频由于采用较低码率编码或者传播中经过多次降采样和上采样操作也导致了清晰度的降低。与当前主流的高清晰度影视剧相比,低清晰度视频会让人看不清楚物体的边缘轮廓和纹理细节,从而严重影响人眼的主观视觉体验。
以往的大多数深度学习方法基于配对学习训练神经网络进行视频增强,依靠真实高质量图像与对其施加了某种图像退化模型得到的低质量图像配对进行学习,因此基于配对学习训练的网络往往只针对某个图像退化模型造成的损伤进行修复。基于配对学习的神经网络提高真实低质量视频清晰度存在两个问题:第一个问题为真实低清晰度视频可能存在多种退化原因,如果根据每一种退化原因训练一个增强网络会造成较高的方法复杂度,但多个增强网络可能会相互影响导致增强后的视频出现伪影;第二个问题为难以判断真实低清晰度视频的退化原因,因此只能多次尝试使用不同的网络进行增强并人工判断增强结果的好坏,需要消耗大量人力和时间且不一定能够获得较好的增强效果。现有的非配对学习视频增强同样仍然是针对一个退化的方式进行优化的,而且在数据集的构建过程中往往也只选择针对一个方面的低质量图像,使得网络学到的只是一种退化方式。
发明内容
针对现有技术中存在的不足,本发明提供一种基于非配对学习的提升视频清晰度的方法及装置,考虑到内容相似视频之间的关联,使用真实低清晰度视频与非配对的内容相似的高清晰度视频构建非配对数据集,设计了基于卷积神经网络的低高清晰度图像生成器和低清晰度视频判别器,以及评估图像增强效果的损失函数,并通过训练取得了较好的主观效果与客观指标。
本发明的第一目的,提供一种基于非配对学习的提升视频清晰度的方法,包括:
S1:构建非配对数据集:对于给定的低清晰度视频,选择内容相似的非配对高清晰度视频作为参考并进行降采样使其相似度相近,取低清晰度视频以及降采样后的高清晰度视频关键帧中的亮度分量进行量化并随机裁切图像块,形成低清晰度-非配对高清晰度图像数据集作为训练数据集;对于给定的低清晰度视频,再选择其中连续的一段视频帧图像,取其亮度分量进行量化后作为测试数据集;
S2:建立非配对学习网络,所述非配对学习网络包括基于卷积神经网络的低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器,其中,
所述低清晰度图像生成器用于将高清晰度图像转换为低清晰度图像;将高清晰度图像输入所述低清晰度图像生成器,输出假的低清晰度图像;
所述低清晰度图像判别器用于区分输入图像是真实的低清晰度图像还是低清晰度图像生成器输出的假的低清晰度图像;
所述高清晰度图像生成器用于将转换后的低清晰度图像再转换为高清晰度图像;将假的低清晰度图像输入所述高清晰度图像生成器,重建出高清晰度图像;
S3:建立由对抗损失、高清晰度图像重建损失以及同一性损失构成的综合损失函数,以最小化损失函数为目标,使用所述训练数据集优化更新生成对抗网络,训练生成对抗网络,使得低清晰度图像生成器、高清晰度图像生成器都能实现更好的低高清晰度图像域之间的相互映射;
S4:训练完成后,将所述测试数据集输入到所述高清晰度图像生成器中,并与原图像色度信号结合,重建出高清晰度图像。
优选地,所述构建非配对数据集,其中:建立数据集时,对低清晰度视频选择对应的主体内容相似的非配对高清晰度视频,并通过双三次插值将高清晰度视频降采样使其分辨率与低清晰度视频分辨率高度相同。从低高清晰度视频的关键帧中选取包含相关主体内容的视频帧图像,选取视频图像的数字亮度信号并将其归一化为亮度信号,形成单通道的亮度视频帧图像组成非配对的低高清晰度图像数据集,在训练过程中将图像裁切为图像块并随机水平翻转后再用于训练,数据集中低清晰度图像与高清晰度图像的数量可以不同。
e′Y即为数据集中用于训练与测试的亮度信号。
优选地S2中的神经网络由低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器组成。其中低清晰度图像生成器将高清晰度图像转换为低清晰度图像;低清晰度图像判别器的任务是区分输入图像是真实的低清晰度图像还是低清晰度图像生成器的输出结果,而高清晰度图像生成器则将转换后的低清晰度图像再转换为高清晰度图像。
优选地,所述S3中,网络整体的训练损失分为三部分,
L=LGAN+λ1Lrec+λ2Lidt
其中包括低清晰度图像生成器和判别器的对抗损失LGAN,确保低清晰度图像生成器与高清晰度图像生成器两次输出后图像整体结构保持一致的高清晰度图像重建损失Lrec,以及确保以高清图像作为高清晰度图像生成器的输入时输出图像不改变(对低清晰度图像生成器同理)的同一性损失Lidt三部分组成。λ1与λ2是超参数,控制三种损失函数的比重。
GL为低清晰度图像生成器,DL表示低清晰度图像判别器,x表示真实的低清晰度图像,y表示高清晰度图像,GL(y)为生成器的输出结果,而DL(x)表示判别器对x的判别结果,E[·]表示均方差,||·||1表示L1损失。
判别器DL的优化目标是使LGAN(GL,DL)最小,而生成器GL的优化目标是使LGAN(GL,DL)最大,为了使训练更加稳定并且生成质量更高的结果,本发明采用用了最小均方计算生成对抗网络损失,对抗损失LGAN被写为,
高清晰度图像重建损失不仅可以优化GH的参数使其学习到从低清晰度图像到高清晰度图像的映射,亦可以优化GL的参数使其在学习高清晰度图像到低清晰度图像的映射时确保图像的主体内容一致,从而使得两次输出前后图像主体内容不变,高清晰度图像重建损失Lrec采用了L1损失,被写为,
Lrec(GL,GH,y)=||GH(GL(y))-y||1
GH的功能只是将低清晰度图像映射为高清晰度图像,因此当GH的以高清晰度图像y作为输入时,GH不应该改变图像而仍应该为y,而GL的映射也应同理。同一性损失Lidt也采用了L1损失被写为,
Lidt(GL,GH,x,y)=||GH(y)-y||1+||GL(x)-x||1
本发明的第二目的,提供一种提升视频清晰度的装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于非配对学习的提升视频清晰度的方法。
本发明中,采用给定的低清晰度视频与主题内容拍摄背景相近的高清晰度视频,对视频数据进行预处理,并针对性地构建并训练生成对抗网络,并使用网络提升低清晰度视频的质量。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
本发明提供的基于非配对学习的提升视频清晰度的方法,采用非配对学习使用视频内容主体相似的非配对低真实高清视频进行训练,跳脱出了特定质量退化的限制,实现了低清晰度视频图像多种退化方式的联合增强。同时,当今高清晰度视频几乎涵盖了所有视频内容,易于找到与低清晰度视频主体内容相似的高清晰度视频用于非配对增强。
本发明提供的基于非配对学习的提升视频清晰度的方法,针对单个低清晰度视频训练一个模型,因此对视频局部对比度和纹理细节的提升远高于基于配对学习的视频增强方法,更加适用于注重视频增强效果的实际应用。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1是本发明一实施例提升视频清晰度的方法的流程图;
图2是本发明一实施例中低清晰度图像生成器与高清晰度图像的网络结构图;
图3是本发明一实施例中低清晰度图像判别器的网络结构图;
图4是本发明一实施例中增强结果与现有的配对方法的效果对比。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
参照图1所示,本发明实施例的非配对学习的提升视频清晰度的方法的流程图,其设计思路为:
①对于给定的低清晰度视频,选择内容相似的非配对高清晰度视频作为参考并进行降采样使其相似度相近,取低清晰度视频以及降采样后的高清晰度视频关键帧中的亮度分量进行量化并随机裁切图像块,形成低清晰度-非配对高清晰度图像数据集作为训练数据集;对于给定的低清晰度视频,再选择其中连续的一段视频帧图像,取其亮度分量进行量化后作为测试数据集;训练数据集和测试数据集在步骤③、④中用作训练、验证和测试;
②建立基于卷积神经网络的低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器,构成生成对抗网络。
③建立由对抗损失、高清晰度图像重建损失以及同一性损失构成的综合损失函数,以最小化损失函数为目标,使用①中建立的训练数据集优化更新生成对抗网络,训练生成对抗网络,使得低清晰度图像生成器、高清晰度图像生成器都能实现更好的低高清晰度图像域之间的相互映射。
经过③的训练,两个生成器学习到低高清晰度图像域之间的相互映射,特别地,高清晰度图像生成器在训练过程中学习到将低清晰度视频增强的方法,而后通过④验证生成对抗网络的实现效果;
④将①中建立的测试集输入至经①-③建立的生成对抗网络(低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器组成),重建出高清晰度图像,并对输出结果进行客观和主观评价。
在本发明另一实施例中,还提供一种提升视频清晰度的装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于非配对学习的提升视频清晰度的方法。
本发明上述实施例使用视频内容主体相似的非配对真实低高清视频进行训练,跳脱出了以往配对学习方法中特定质量退化方式的限制,利用非配对学习的方法实现了低清晰度视频图像的联合增强。
以下通过具体优选的实施例对上述各个步骤中涉及的详细技术操作进行说明,应当理解的是,以下仅仅是本发明部分实施例。
1.数据集的建立
建立非配对的训练数据集时,对给定的低清晰度视频应选择对应的主体内容相似的非配对高清晰度视频,并通过双三次插值将高清晰度视频降采样使其分辨率与低清晰度视频分辨率高度相同。从低高清晰度视频的关键帧中选取包含相关主体内容的视频帧图像,选取视频图像的数字亮度信号并将其归一化为亮度信号,形成单通道的亮度视频帧图像。在这个过程中数字亮度信号d′Y通过以下公式归一化为亮度信号
e′Y即为数据集中用于训练与测试的亮度信号。在每次迭代周期中,从低高清视频帧中各选择一张图像,裁切为360×360大小的图像块并随机水平翻转,组成非配对的低高清晰度图像数据集用于训练,训练数据集中低清晰度图像与高清晰度图像的数量可以不同。
在一实施例中,选取了三组包含动物、建筑和人物等不同视频内容的视频,数据集参数见表1.
表1非配对学习数据集参数
另外,对于给定的低清晰度视频,再选择其中连续的一段视频帧图像,取其亮度分量进行量化后作为测试数据集。
2.非配对学习网络(生成对抗网络)的建立
非配对学习网络(生成对抗网络)由低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器组成,整体框架见图1。在一组迭代中,低清晰度图像生成器将高清晰度图像转换为低清晰度图像;低清晰度图像判别器则区分输入图像是真实的低清晰度图像还是低清晰度图像生成器的输出结果,最终而高清晰度图像生成器则将转换后的低清晰度图像再转换为高清晰度图像。
在一较优实施例中,低清晰度图像生成器与高清晰度图像生成器的结构相同,见图2,其中“Conv”表示卷积层,“ConvTrans”则表示转置卷积,“k7”和“k3”则分别表示卷积核的大小为7×7和3×3,“n64”、“n128”、“n256”和“n1”分别表示卷积核的数量为64、128、256和1,“s1”和“s2”分别表示卷积核的移动步长为1和2。“InstanceNorm”表示实例归一化,“ReLU”和“Tanh”分别表示激活函数中的线性整流函数和双曲正切函数,“ResBlock”表示残差块,在每个残差块中输入与通过两层3×3卷积得到的残差表示相加以输出结果。
生成器先通过一个7×7的卷积层初提取特征,然后经过两个步长为2的3×3卷积层进行降采样,随后再通过9个残差块处理特征,然后通过两个步长为2,大小为3×3转置卷积上采样为原始分辨率,最后经过一个7×7的输出通道为1的卷积层输出最后的结果。
生成器使用了先降采样再升采样的自编码器的结构,这种结构一方面能够降低网络推演的运算量,另一方面特征图的尺度减小还可以大幅提升网络的感受野,得以提取出更高层的特征。如果网络不进行降采样和升采样的操作会导致增强后的视频出现严重的块状伪影。
生成器使用实例归一化而没有使用批归一化,是因为生成器针对于单张图像进行计算,而每个图像都有自己独特的细节特征,采用批归一化的方式将一个批次多个样本图像进行考虑,可能从而导致单个样本图像的独特的细节特征丢失。
在一较优实施例中,低清晰度图像判别器的结构如图3所示,“LeakyReLU”表示负值斜率为0.02的带泄露的线性整流激活函数,判别网络由五层4×4的卷积层组成,前3层卷积层步长为2,中间三层也使用了实例归一化,最后一层卷积层输出通道为1以输出判别结果。判别器的感受野为34×34,说明判别器输出的特征图的一个元素只会对输入图像的34×34图像块进行判别,因此判别器专注于分辨局部细节纹理。此外,使用较大感受野的判别器可能会因为考虑过多的上下文信息导致视频闪烁等问题。
3.设定目标函数并训练非配对学习网络
非配对学习网络(生成对抗网络)中三个子网络(两个生成器与一个判别器)同时训练,网络整体的训练损失分为三部分,
L=LGAN+λ1Lrec+λ2Lidt
其中包括低清晰度图像生成器和判别器的对抗损失LGAN,确保低清晰度图像生成器与高清晰度图像生成器两次输出后图像整体结构保持一致的高清晰度图像重建损失Lrec,以及确保以高清图像作为高清晰度图像生成器的输入时输出图像不改变(对低清晰度图像生成器同理)的同一性损失Lidt三部分组成。λ1与λ2是超参数,控制三种损失函数的比重。
GL为低清晰度图像生成器,DL表示低清晰度图像判别器,x表示真实的低清晰度图像,y表示高清晰度图像,GL(y)为生成器的输出结果,而DL(x)表示判别器对x的判别结果,E[·]表示均方差,||·||1表示L1损失。
判别器DL的优化目标是使LGAN(GL,DL)最小,而生成器GL的优化目标是使LGAN(GL,DL)最大,为了使训练更加稳定并且生成质量更高的结果,本发明采用用了最小均方计算生成对抗网络损失,对抗损失LGAN被写为,
高清晰度图像重建损失不仅可以优化GH的参数使其学习到从低清晰度图像到高清晰度图像的映射,亦可以优化GL的参数使其在学习高清晰度图像到低清晰度图像的映射时确保图像的主体内容一致,从而使得两次输出前后图像主体内容不变,高清晰度图像重建损失Lrec采用了L1损失,被写为,
Lrec(GL,GH,y)=||GH(GL(y))-y||1
GH的功能只是将低清晰度图像映射为高清晰度图像,因此当GH的以高清晰度图像y作为输入时,GH不应该改变图像而仍应该为y,而GL的映射也应同理。同一性损失Lidt也采用了L1损失被写为,
Lidt(GL,GH,x,y)=||GH(y)-y||1+||GL(x)-x||1
在一次训练迭代中,先进行整个神经网络的前向推演,然后计算总损失L,再根据总损失L反向传播计算两个生成器的网络权重梯度并更新其权重,最后根据对抗损失LGAN反向传播计算判别器的网络权重梯度并更新其权重,完成这次迭代过程,接着进行下一次迭代。
训练完成后,则得到对应低清晰度视频的高清晰度图像生成器,用于测试的低清晰度图像输入高清晰度图像生成器,得到增强后的图像。
4.实施条件与结果评估
本发明实施例用Python实现,使用的深度学习框架为Pytorch,使用Adam优化器。在训练的过程中,每一次迭代使用1个训练样本对,由于训练集中的低清晰度图像样本数量和高清晰度图像样本数量不同,所以我们将其中数量较多的样本全部迭代一次称作一个epoch。在训练过程中一共训练400个epoch,初始化学习速率设为0.0002,前200个epoch中保持学习速率不变,后200个epoch中将学习速率线性降低到0,而网络权重的初始化方法选取了针对ReLU神经元的初始化方法,λ1与λ2分别设定为10与5。
为了减少模型参数在训练过程中的震荡,本发明实施例在更新判别器的时候并不直接使用最近生成的一张图像,而是维持一个最高可以容纳50张生成图像的缓存,如果缓存区没有满,则使用最近生成的一张图像更新判别器并将其加入缓存区,如果缓存区已满,则以50%的概率使用最近生成的一张图像更新判别器,另50%概率在缓存中随机选择一张图像更新判别器,并在缓存中删除该图像以及加入最近生成的一张图像。
因为非配对学习无法获得原始参考图像的信息,而本发明上述实施例中的非配对学习网络的主要目的是增加清晰度,本发明使用了两个无参考客观质量评价指标:信息熵和平均梯度幅值。图像的平均梯度幅值和信息熵可以作为图像纹理细节多少和图像对比度大小的参考指标,图像的平均梯度幅值和信息熵越高,图像纹理细节可能越多以及图像对比度可能越高,图像也就越清晰。
表2本发明实施例与现有配对方法DeblurGAN-v2的客观指标对比
表2针对三组数据集进行了客观质量的测试,测试数据为900个连续的低清晰度视频帧。在猩猩记录片上,DeblurGAN-v2的平均梯度幅值和信息熵与原始视频帧差别较小,说明DeblurGAN-v2的增强效果不明显。在城市夜景上,DeblurGAN-v2的平均梯度幅值和信息熵甚至远小于原始视频帧,说明DeblurGAN-v2不但不能增加清晰度,反而可能减少细节纹理以及降低对比度。在军旅人物上,DeblurGAN-v2的平均梯度幅值高于原始视频,但是信息熵却小于原始视频。在三个数据集上,本发明实施例的平均梯度幅值和信息熵都大于或等于原始视频帧和DeblurGAN-v2,可以认为本发明提出的方法可以稳定的增加纹理细节和提高对比度,从而使得视频帧更加清晰。
图4是本发明实施例与现有配对方法DeblurGAN-v2的主观效果对比,其中,(a)(d)(g)为原始视频帧,(b)(e)(h)为DeblurGAN-v2的增强结果,(c)(f)(i)为本发明实施例的增强结果,可以看出在本发明实施例的结果中,例如猩猩的毛发边缘与面部纹理,建筑夜景图中的街道与灯光亮度,军旅人物视频图像中伪影的减少,都体现出本发明实施例更好地提升清晰度,具有更好的主管视觉效果。
本发明上述实施例中的方法和装置充分利用一个与低清晰度视频内容相似的高清晰度视频来提高该低清晰度视频的清晰度,考虑了视频的相似以及图像不同的退化方式,改善了现有的方法的重建效果。
以上对本发明的具体实施例进行的描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种基于非配对学习的提升视频清晰度的方法,其特征在于,包括:
S1:构建非配对数据集:对于给定的低清晰度视频,选择内容相似的非配对高清晰度视频作为参考并进行降采样使其相似度相近,取低清晰度视频以及降采样后的高清晰度视频关键帧中的亮度分量进行量化并随机裁切图像块,形成低清晰度-非配对高清晰度图像数据集作为训练数据集;对于给定的低清晰度视频,再选择其中连续的一段视频帧图像,取其亮度分量进行量化后作为测试数据集;
S2:建立基于卷积神经网络的低清晰度图像生成器、低清晰度图像判别器和高清晰度图像生成器,构成生成对抗网络,其中,
所述低清晰度图像生成器用于将高清晰度图像转换为低清晰度图像;将高清晰度图像输入所述低清晰度图像生成器,输出假的低清晰度图像;
所述低清晰度图像判别器用于区分输入图像是真实的低清晰度图像还是低清晰度图像生成器输出的假的低清晰度图像;
所述高清晰度图像生成器用于将转换后的低清晰度图像再转换为高清晰度图像;将假的低清晰度图像输入所述高清晰度图像生成器,重建出高清晰度图像;
S3:建立由对抗损失、高清晰度图像重建损失以及同一性损失构成的综合损失函数,以最小化损失函数为目标,使用所述训练数据集优化更新所述生成对抗网络,训练该生成对抗网络,使得低清晰度图像生成器、高清晰度图像生成器都能实现更好的低高清晰度图像域之间的相互映射;
S4:训练完成后,将所述测试数据集输入到所述高清晰度图像生成器中,并与原图像色度信号结合,重建出高清晰度图像。
2.根据权利要求1所述的基于非配对学习的提升视频清晰度的方法,其特征在于:所述构建非配对数据集,其中:
建立数据集时,对低清晰度视频选择对应的主体内容相似的非配对高清晰度视频,并通过双三次插值将高清晰度视频降采样使其分辨率与低清晰度视频分辨率高度相同;
从低高清晰度视频的关键帧中选取包含相关主体内容的视频帧图像,选取视频图像的数字亮度信号并将其归一化为亮度信号,形成单通道的亮度视频帧图像组成非配对的低高清晰度图像数据集;
在训练过程中将图像裁切为图像块并随机水平翻转后再用于训练,非配对的低高清晰度图像数据集中低清晰度图像与高清晰度图像的数量可以不同。
4.根据权利要求1所述的基于非配对学习的提升视频清晰度的方法,其特征在于:所述低清晰度图像生成器与所述高清晰度图像生成器具有相同的结构,其中:
生成器先通过一个7×7的卷积层提取特征,然后经过两个步长为2的卷积层降采样,再通过9个残差块,然后通过两个转置卷积上采样为原始分辨率,最后经过一个7×7的卷积层输出最后的结果;
生成器使用实例归一化,同时,生成器中除最后一层输出层使用双曲正切函数作为激活函数之外,均使用线性整流函数作为激活函数。
5.根据权利要求1所述的基于非配对学习的提升视频清晰度的方法,其特征在于:所述低清晰度图像判别器由5个4×4卷积层构成,2、3、4层卷积后同样接有实例归一化,前4层之后均有带泄露的线性整流函数。
6.根据权利要求1所述的基于非配对学习的提升视频清晰度的方法,其特征在于:所述建立由对抗损失、高清晰度图像重建损失以及同一性损失构成的综合损失函数,具体为:
L=LGAN+λ1Lrec+λ2Lidt
其中包括低清晰度图像生成器和判别器的对抗损失LGAN,确保低清晰度图像生成器与高清晰度图像生成器两次输出后图像整体结构保持一致的高清晰度图像重建损失Lrec,以及确保以高清图像作为高清晰度图像生成器的输入时输出图像不改变的同一性损失Lidt三部分组成;λ1与λ2是超参数,控制三种损失函数的比重。
8.根据权利要求6所述的非配对学习的提升视频清晰度的方法,其特征在于:所述高清晰度图像重建损失Lrec为:
Lrec(GL,GH,y)=‖GH(GL(y))-y‖1
即将原高清晰度图像y通过低清晰度生成器GL与高清晰度生成器GH后的结果与原图像计算L1损失。
9.根据权利要求6所述的非配对学习的提升视频清晰度的方法,其特征在于:所述同一性损失Lidt为:
Lidt(GL,GH,x,y)=‖GH(y)-y‖1+‖GL(x)-x‖1
即高清晰度图像y通过高清晰度生成器GH后与原图y的L1损失,以及低清晰度图像x通过低清晰度生成器GL后与原图x的L1损失。
10.一种提升视频清晰度的装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110884878.6A CN113688694B (zh) | 2021-08-03 | 2021-08-03 | 基于非配对学习的提升视频清晰度的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110884878.6A CN113688694B (zh) | 2021-08-03 | 2021-08-03 | 基于非配对学习的提升视频清晰度的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688694A true CN113688694A (zh) | 2021-11-23 |
CN113688694B CN113688694B (zh) | 2023-10-27 |
Family
ID=78578770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110884878.6A Active CN113688694B (zh) | 2021-08-03 | 2021-08-03 | 基于非配对学习的提升视频清晰度的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688694B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN108830790A (zh) * | 2018-05-16 | 2018-11-16 | 宁波大学 | 一种基于精简卷积神经网络的快速视频超分辨率重建方法 |
CN110634108A (zh) * | 2019-08-30 | 2019-12-31 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
CN110660025A (zh) * | 2019-08-02 | 2020-01-07 | 西安理工大学 | 一种基于gan网络的工业监控视频图像清晰化方法 |
US20200387750A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Method and apparatus for training neural network model for enhancing image detail |
CN112634163A (zh) * | 2020-12-29 | 2021-04-09 | 南京大学 | 基于改进型循环生成对抗网络去图像运动模糊方法 |
-
2021
- 2021-08-03 CN CN202110884878.6A patent/CN113688694B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN108830790A (zh) * | 2018-05-16 | 2018-11-16 | 宁波大学 | 一种基于精简卷积神经网络的快速视频超分辨率重建方法 |
US20200387750A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Method and apparatus for training neural network model for enhancing image detail |
CN110660025A (zh) * | 2019-08-02 | 2020-01-07 | 西安理工大学 | 一种基于gan网络的工业监控视频图像清晰化方法 |
CN110634108A (zh) * | 2019-08-30 | 2019-12-31 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
CN112634163A (zh) * | 2020-12-29 | 2021-04-09 | 南京大学 | 基于改进型循环生成对抗网络去图像运动模糊方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113688694B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Image restoration: From sparse and low-rank priors to deep priors [lecture notes] | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
RU2706891C1 (ru) | Способ формирования общей функции потерь для обучения сверточной нейронной сети для преобразования изображения в изображение с прорисованными деталями и система для преобразования изображения в изображение с прорисованными деталями | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
Liu et al. | A high-definition diversity-scene database for image quality assessment | |
CN112541864A (zh) | 一种基于多尺度生成式对抗网络模型的图像修复方法 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN110225260B (zh) | 一种基于生成对抗网络的立体高动态范围成像方法 | |
CN113096029A (zh) | 基于多分支编解码器神经网络的高动态范围图像生成方法 | |
Wang et al. | Semantic perceptual image compression with a laplacian pyramid of convolutional networks | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN116485741A (zh) | 一种无参考图像质量评价方法、系统、电子设备及存储介质 | |
Chen et al. | Image denoising via deep network based on edge enhancement | |
Liu et al. | Deep image inpainting with enhanced normalization and contextual attention | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
CN114862699B (zh) | 基于生成对抗网络的人脸修复方法、装置及存储介质 | |
Kumar et al. | Underwater Image Enhancement using deep learning | |
CN113542780B (zh) | 一种网络直播视频的压缩伪影去除方法及装置 | |
CN115035170A (zh) | 基于全局纹理与结构的图像修复方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
CN113688694A (zh) | 基于非配对学习的提升视频清晰度的方法及装置 | |
Cao et al. | Oodhdr-codec: Out-of-distribution generalization for hdr image compression | |
CN114663315A (zh) | 基于语义融合生成对抗网络的图像比特增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |