CN110634108B - 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 - Google Patents
一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 Download PDFInfo
- Publication number
- CN110634108B CN110634108B CN201910814843.8A CN201910814843A CN110634108B CN 110634108 B CN110634108 B CN 110634108B CN 201910814843 A CN201910814843 A CN 201910814843A CN 110634108 B CN110634108 B CN 110634108B
- Authority
- CN
- China
- Prior art keywords
- network
- quality image
- low
- quality
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 67
- 230000002708 enhancing effect Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000003042 antagnostic effect Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 abstract description 14
- 230000015556 catabolic process Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 7
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 10
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06T5/90—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
一种基于元‑循环一致性对抗网络的复合降质网络直播视频增强方法属于数字图像处理领域,本发明对网络直播视频图像中存在曝光不足、运动模糊、低分辨率等复合降质因素的图像进行统一增强。首先,针对本专利利用元‑循环一致性对抗网络,建立了一种端到端的复合降质图像增强方案,并使用非成对的低质‑高质图像样本进行训练;其次,通过元网络的学习提高了网络的泛化能力,可实现在统一的网络中对存在复合降质的网络直播视频图像进行增强的任务,更符合实际应用中的处理需求。
Description
技术领域
本发明属于数字图像处理领域,特别涉及一种基于元-循环一致性对抗网络(Meta-CycleGAN,Meta Cycle-Consistent Adversarial Networks)的复合降质网络直播视频 图像增强技术。
背景技术
网络直播内容亟需采用计算机自动识别的方式加以监管,对不良的内容进行自动鉴 别。然而,网络直播视频图像环境复杂且多变,成像场景涉及白天、黑夜、室内、户外, 容易受到曝光不足、运动模糊、低分辨率等各种因素的影响。这些因素以复杂的方式随机 组合,导致图像质量的严重退化,不仅影响人眼的主观视觉效果,更对图像内容的鉴别带 来很大影响。
近年来,深度学习逐渐被应用于图像增强任务中,并取得了很好的性能。而在此之前, 图像增强技术普遍采用的是基于模型或先验知识的传统方法。传统的基于模型、先验知识 (或假设)的增强算法,在针对受某种特定因素影响的图像时可以取得出色的效果。然而, 任何模型与先验知识本质上都是通过经验、观察或统计对事物本质的一种理解方式,往往 忽略了其他因素,导致算法在复杂环境或特定场景的泛化能力较差。
随着深度神经网络的不断发展,大量学者开始关注如何将深度学习应用于视频/图像增 强技术中。由于避免了传统方法中的人工选取特征过程,基于深度学习的增强算法获得了 更好的性能,并且具有更好的适用性与推广性,然而算法的最终效果往往取决于训练样本 的数量和网络结构设计的合理性。
目前,学者们分别针对图像曝光不足、模糊、低分辨率等降质因素开展了研究工作,已 经在多种单一降质图像的增强技术上取得了诸多成果。然而,在网络直播复杂多变的成像 环境下中,多种降质因素常以复合的方式同时出现。因此,尽管上述方法可以在仿真的数 据集上取得远超过传统方法的性能,但是在实际环境中,不仅对复合因素的降质图像无能 为力,对单因素的降质图像的适用性和推广性也难以尽如人意。
Goodfellow等人在2014年提出的生成对抗网络(GAN,Generative AdversarialNetworks),提供了一种全新的双网络间竞争与纠错机制,为困扰深度学习的相关难题提供了新的解决思路。学者们利用其解决多种图像处理问题(如风格迁移、超分辨率重建等),在相同的训练样本下,往往可以取得更好的效果。如何在生成对抗网络的框架下,设计一个合理的网络结构,实现网络直播视频图像的增强处理,是一个极富挑战性的创新性研究工作。
基础的生成对抗网络结构如附图1所示,目标函数如公式(1)所示,其基本原理是由判 别器D辅助生成器G产生出与真实数据分布一致的伪数据。生成器G要能使产生的数据在D上的表现D(G(z))与真实数据D(x)尽可能一致,使得D无法区分生成数据与真实数据。生成对抗网络的设计建立了生成器和判别器的非合作博弈关系,通过迭代交替更新达到纳什均衡,从而训练出最优的网络模型。
传统GAN网络需要成对的样本进行训练,但网络直播视频图像很难获得真实成对的 低质-高质图像样本。循环一致性对抗网络(CycleGAN)可以有效的在非成对样本间进行学习,其结构如附图2所示,通过两个镜像对称的GAN,构成一个环形网络,两个GAN 具有镜像对称的两个生成器,并各自对应一个判别器。目标是学习映射G:X→Y使得 G(X)的图像分布接近于Y的分布,由于没有成对的样本,引入逆映射F:Y→X使得F(Y) 的图像分布接近于X的分布。
尽管循环一致性网络可以有效的在非成对样本之间进行学习,但是由于网络直播视频 的拍摄场景复杂、成像质量参差不齐、主播类型多变等特点,很难获得覆盖全部降质过程 的训练数据集,因此传统网络在测试阶段大多缺乏泛化能力。元学习(Meta-learning)也 称为“学会学习(Learning to learn)”,其主要思想是通过独特的网络结构设计从有限的训 练数据中提取元知识、获得经验,并充分利用以往的知识经验来指导新任务的学习,使得 网络能够通过少量样本学习新技能或快速适应新环境,提高网络的泛化能力。目前元学习 在小样本分类、图像风格迁移、图像超分辨率重建等领域取得了很好的效果。一个良好的 元学习模型能够很好地推广到在训练期间从未遇到过的新任务和新环境,因此适用于处理 降质过程多变的网络直播视频图像。
发明内容
本发明的目的在于利用元-循环一致性对抗网络(Meta-CycleGAN)在一个统一的框架 下,对存在曝光不足、运动模糊、低分辨率等复合降质因素的网络直播视频图像进行统一 的图像增强。
本发明采用以下技术方案进行实现:基于元-循环一致性对抗网络(Meta-CycleGAN) 实现复合降质网络直播视频图像增强,主要包括搭建元-循环一致性对抗网络模型、元-循 环一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分。
搭建元-循环一致性对抗网络模型包括搭建高质量图像生成器G、低质量图像生成器F、 低质量图像判别器DL、高质量图像判别器DH的网络架构;元-循环一致性对抗网络模型训 练部分利用非成对的网络直播视频图像对上述四个网络进行训练,复合降质图像L作为高 质量图像生成器G和低质量图像判别器DL的输入,高质量图像H作为低质量图像生成器F和高质量图像判别器DH的输入;复合降质网络直播视频图像增强时只需保留训练好的高质量图像生成器G对输入的真实网络直播视频中的复合降质图像进行增强。
搭建元-循环一致性对抗网络模型:主要包括高质量图像生成器G、低质量图像生成器 F、低质量图像判别器DL、高质量图像判别器DH网络的框架搭建。高质量图像生成器G由高质图像生成网络GH和元网络GM两部分组成;低质量图像生成器F由低质图像生成网 络FL和元网络FM两部分组成。高质量图像判别器DH和低质量图像判别器DL采用相同的 结构。
元-循环一致性对抗网络模型训练:采集网络直播视频中的高质量图像和复合降质图 像,并利用得到的非成对低质-高质图像样本训练上述四个网络。复合降质图像L作为高质 量图像生成器G和低质量图像判别器DL的输入,高质量图像H作为低质量图像生成器F和高质量图像判别器DH的输入。最终目标是得到具有强大泛化能力的高质量图像生成器G用来实现对真实复合降质网络直播视频图像的增强。
复合降质网络直播视频图像增强:复合降质图像增强阶段,只保留训练得到的高质量 图像生成器G,将待重建的真实复合降质网络直播视频图像J送入高质量图像生成器G中, 其输出结果即为高质量重建图像Z。
复合降质网络直播视频图像增强方法整体流程,具体步骤如下:
本发明的整体流程如附图3所示
(1)基于本专利的方法,搭建元-循环一致性对抗网络,包括高质量图像生成器G、低质量图像生成器F、低质量图像判别器DL和高质量图像判别器DH的网络结构搭建;
(2)获取网络直播视频中的高质量图像和复合降质图像,利用得到的非成对低质-高 质图像样本训练上述网络,直至元-循环一致性对抗网络达到纳什均衡或达到最大迭代次 数,停止训练;
(3)利用步骤(2)训练好的高质量图像生成器G进行复合降质图像的增强,将真实复合降质网络直播视频图像J送入高质量图像生成器G得到对应的增强图像Z。
所述的搭建元-循环一致性对抗网络模型,具体步骤如下:
元-循环一致性对抗网络整体结构如附图4所示,包含高质量图像生成器G、低质量图像生成器F两个生成器和高质量图像判别器DH、低质量图像判别器DL两个判别器。
(1)元-循环一致性对抗网络生成器搭建
本专利使用的元-循环一致性对抗网络包括高质量图像生成器G和低质量图像生成器 F两个生成器,均采用全卷积网络构建,能对任意尺寸的输入图像进行处理。每个生成器 均由元网络和生成网络两部分构成,高质量图像生成器G实现低质图像到高质图像的转换、 低质量图像生成器F实现高质图像到低质图像的转换。循环一致性网络结构的使用,使得 网络能够在使用非成对的高质-低质样本的训练过程中收敛。
附图5所示为元-循环一致性对抗网络中高质量图像生成器G的基本网络结构,主要 包含高质量图像生成网络GH和元网络GM两部分;低质量图像生成器F,主要包含低质量图像生成网络FL和元网络FM两部分,其中低质量图像生成网络FL与高质量图像生成网络 GH具有镜像对称的网络结构,元网络FM与GM使用相同的网络结构。元网络的加入提高 了生成网络对真实复合降质网络直播视频增强的泛化能力。
元网络GM与FM:具有相同的网络结构,如附图5中A部分所示,使用现有的VGG-16 网络结构,包括13个卷积层和3个全连接层,通过最后的滤波全连接层将第二个隐藏全 连接层的2048个神经元分为16组,分别对应生成网络中的16个卷积层,并根据生成网 络输入图像大小产生相应的维数在1×105到2×106的生成网络的参数ωθ。
高质量图像生成网络GH:网络结构图如附图5中B部分所示,共由16个卷积层构成。通过3个卷积层,将输入的低质量图像编码为特征向量;将该特征向量依次通过5个ResNet模块,每个ResNet模块包含两个卷积层,实现特征向量从低质域到高质域的转换;最后 利用2个反卷积层和1个卷积层,从高质域特征向量中解码得到高质量的增强图像,用以 实现编码-转换-解码过程,完成从低质量图像到高质量图像的转换。低质量图像生成网络 FL:使用与高质量图像生成网络GH镜像对称的网络结构,由16个卷积层构成用以实现编 码-转换-解码过程,完成从高质量图像到低质量图像的转换。
(2)循环一致性对抗网络判别器搭建
本专利使用的元-循环一致性对抗网络的判别器采用卷积网络构建,包括高质量图像判 别器DH和低质量图像判别器DL。高质量图像判别器DH实现对输入图像为真实高质量图 像的判别;低质量图像判别器DL实现对输入图像为真实低质量图像的判别。
附图6所示为图像判别器的基本网络结构,低质和高质图像判别器具有相同的网络结 构,均由6个卷积层和1个sigmoid函数层构成。通过6个卷积层提取输入图像的特征,sigmoid函数层给出输入图像为对应类别真实图像的概率。将通过高质量图像生成器G得到的伪高质量图像送入高质量图像判别器DH中以判断高质量图像生成器G的优劣; 将通过低质量图像生成器F得到的伪低质量图像送入低质量图像判别器DL中以判断低 质量图像生成器F的优劣。
所述的元-循环一致性对抗网络的训练,具体步骤如下:
利用采集到的非成对低质-高质网络直播视频图像数据对上述搭建的高质量图像生成 器G、低质量图像生成器F以及低质量图像判别器DL、高质量图像判别器DH进行训练,包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤。
(1)分别训练单向生成对抗网络
训练高质量图像生成对抗网络:包含高质量图像生成器G和高质量图像判别器DH的 训练;训练低质量图像生成对抗网络:包含低质量图像生成器F和低质量图像判别器DL的训练。
首先将样本库中低质量图像L尺度缩放至256×256像素大小并送入元网络GM中,元 网络的输出作为高质量图像生成网络GH的参数;再通过高质量图像生成网络GH对输入的原尺寸低质量图像L进行增强得到伪高质量图将得到的伪高质量图像送入高质量图像判别器DH,得到其真实程度判别结果,用以指导高质量图像生成器G的学习。
在此阶段生成器使用对抗损失对元网络参数进行更新,并通过元网络更新生成网络参 数;判别网络通过最大化对抗损失进行参数更新。低质量图像生成对抗网络的训练过程与 高质量图像生成对抗网络训练过程相同。
(2)联合训练元-循环一致性对抗网络
当高质量图像生成对抗网络和低质量图像生成对抗网络交替训练达到各自的纳什均 衡或达到设定的迭代次数时,需要对两个生成对抗网络进行联合训练。如附图4所示,将 步骤(1)中高质量图像生成器G得到的伪高质量图像送入到低质量图像生成器F中,得到对应的低质量图像重建结果将步骤(1)中低质量图像生成器F得到的伪低质量图像送入到高质量图像生成器G中,得到对应的高质图像的重建结果
在网络联合训练阶段,通过引入对抗损失、循环一致性损失、感知损失、内容损失对 生成器中的元网络参数进行更新,再利用元网络输出对应生成网络参数;判别网络通过最 大化对抗损失更新参数。
所述的复合降质网络直播视频图像增强,具体步骤如下:
对真实网络直播视频中复合降质图像进行增强时,只利用训练好的高质量图像生成器 G实现,先将真实复合降质网络直播视频图像J尺度缩放至256×256像素大小送入高质量 图像生成器G的元网络GM中,得到对应生成网络GH的网络预测参数并对高质量图像生成网络GH进行更新;再将原尺寸复合降质图像J送入高质量图像生成网络GH得到的输出 即为增强图像Z。
本发明的特点:
本发明的目的在于利用元-循环一致性对抗网络(Meta-CycleGAN),对网络直播视频 图像中存在曝光不足、运动模糊、低分辨率等复合降质因素的图像进行统一增强。首先,针对本专利利用元-循环一致性对抗网络,建立了一种端到端的复合降质图像增强方案,并使用非成对的低质-高质图像样本进行训练;其次,通过元网络的学习提高了网络的泛化能力,可实现在统一的网络中对存在复合降质的网络直播视频图像进行增强的任务,更符合实际应用中的处理需求。
附图说明:
图1经典生成对抗网络结构图
图2循环一致性对抗网络基本结构
图3复合降质网络直播视频图像增强流程图
图4元-循环一致性对抗网络整体结构图
图5元-循环一致性对抗网络高质量图像生成器G基本网络结构
图6元-循环一致性对抗网络判别器结构图
表1 元-循环一致性网络-生成器结构及参数
(A)
(B)
表2 元-循环一致性网络-判别网络结构及参数
具体实施方式:
以下结合说明书附图,对本发明的实施实例加以详细说明:
一种基于元-循环一致性对抗网络(Meta-CycleGAN)的复合降质网络直播视频图像的 增强方法,整体流程如附图3所示,主要包括搭建元-循环一致性对抗网络模型、元-循环 一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分。元-循环一致性对抗网 络整体结构如附图4所示,元-循环一致性对抗网络高质量图像生成器G基本网络结构如 附图5所示,元-循环一致性对抗网络判别器D的网络结构图如附图6所示。基于本专利的方法,搭建元-循环一致性对抗网络,包括高质量图像生成器G、低质量图像生成器F和 低质量图像判别器DL、高质量图像判别器DH的结构设计与搭建;利用采集到的非成对低 质-高质网络直播视频图像训练上述搭建的高质量图像生成器G、低质量图像生成器F以及 低质量图像判别器DL、高质量图像判别器DH;复合降质网络直播视频图像增强阶段,只 保留训练得到的高质量图像生成器G,将待重建的真实复合降质图像J送入高质量图像生 成网络GH和元网络GM中,高质量图像生成网络GH的输出结果即为增强图像Z。
所述的循环一致性对抗网络的搭建分为2个步骤,具体步骤如下:
元-循环一致性对抗网络整体结构如附图4所示,包含高质量图像生成器G(上)和低质量图像生成器F(下)两个生成器、高质量图像判别器DH(右)和低质量图像判别器 DL(左)两个判别器。每个生成器均由元网络和生成网络两部分构成,两个判别器采用相 同的网络结构。
(1)循环一致性对抗网络生成器搭建
附图5所示为元-循环一致性对抗网络中高质量图像生成器G的基本网络结构,包含 高质量图像生成网络GH和元网络GM两部分;低质量图像生成器F包含低质量图像生成网络FL和元网络FM两部分。
元网络:附图5中A部分所示为其网络结构图,生成器-元网络具体参数如表1(A)所示,高质量图像生成器G的元网络GM与低质量图像生成器F的元网络FM采用相同的 网络结构,包括13个卷积层和3个全连接层,通过最后的滤波全连接层输出对应生成网 络GH和FL的预测参数。
高质量图像生成网络GH:附图5中B部分所示为其网络结构图,其参数如表1(B) 所示,由16个卷积层构成用以实现低质量图像到高质量图像的编码-转换-解码过程。
编码:使用3层卷积,提取输入低质量图像中的特征,生成特征向量。
转换:该部分由5个ResNet模块组成,每个ResNet模块包含两个卷积层,将图像在低质域中的特征向量转换为高质域中的特征向量,这能够达到在转换时同时保留原始图像特征的目的。
解码:利用2个反卷积层和1个卷积层构成,完成从高质域特征向量中得到高质量的 增强图像的工作。
低质量图像生成网络FL:使用与高质量图像生成网络GH镜像对称的网络结构,用以实现高质量图像到低质量图像的编码-转换-解码过程。
编码:使用3层卷积,提取输入高质量图像中的特征,生成特征向量。
转换:该部分由5个ResNet模块组成,每个ResNet模块包含两个卷积层,将图像在高质域中的特征向量转换为低质域中的特征向量,这能够达到在转换时同时保留原始图像特征的目的。
解码:利用2个反卷积层和1个卷积层构成,完成从低质域特征向量中得到低质量生 成图像的工作。
(2)循环一致性对抗网络判别器搭建
低质量图像判别器DL和高质量图像判别器DH使用相同的结构,附图6所示为图像判别器的基本网络结构,其具体参数如表2所示。低质量图像判别器和高质量图像判别器均由6个卷积层和1个sigmoid函数层构成。通过6个卷积层提取输入图像的特征,最后 通过sigmoid函数层给出输入图像为对应类别真实图像的概率。
生成器和判别器在每个卷积层后都使用批标准化(BN,Batch Normalization)以防止梯 度消失或爆炸、加快训练速度;使用LeakyRelu激活函数,对卷积结果x(x∈R)进行公式 (2)所示(ai=10)操作,得到对应激活结果y(x∈R)。该函数形式简单且解决了Relu函数 进入负区间后神经元不学习的问题。
所述的元-循环一致性对抗网络的训练分为2个步骤,具体步骤如下:
利用采集到的非成对低质-高质网络直播视频图像对上述搭建的高质量图像生成器G、 低质量图像生成器F以及高质量图像判别器DH、低质量图像判别器DL进行训练,包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤。
(1)分别训练单向生成对抗网络
分别训练高质量图像生成对抗网络和低质量图像生成对抗网络,其中高质量图像生成 对抗网络包含高质量图像生成器G和高质量图像判别器DH的训练;低质量图像生成对抗 网络包含低质量图像生成器F和低质量图像判别器DL的训练。
首先将样本库中低质图像L尺度缩放至256×256像素大小送入元网络GM中,通过对 该低质量图像的学习,得到高质量图像生成网络GH的参数预测结果,并对高质量图像生成网络GH进行参数更新;再将原尺寸低质量图像L送入高质量图像生成网络GH输出对应 的伪高质量图像最后利用高质量图像判别器DH对得到的伪高质量图像进行评判, 根据得到的伪高质量图像的真实程度预测结果计算判别损失,用以指导元网络GM及高 质量图像生成网络GH的学习。
在此阶段生成器使用对抗损失对元网络参数进更新,并通过元网络输出结果更新生成 网络参数。对抗损失函数是在较高的层面上,使图像看起来更加真实和自然。高质量图像 生成对抗网络的对抗损失LG-GAN如公式(3)所示,其中DH为高质量图像判别器;低质量图像 生成对抗网络对抗损失LF-GAN如公式(4)所示,其中DL为低质量图像判别器。式中E(*)表示分布函数的期望值,Pdata(h)和Pdata(l)分别代表真实高质量图像和低质量图像样本 的分布。
高质量图像生成网络GH输出的伪高质量图像由公式(5)得到,其中高质量图像生成 网络参数通过对应的元网络GM根据公式(6)得到,利用上述对抗损失LG-GAN更新元网络 参数θG,再通过元网络的输出更新高质量图像生成网络参数低质量图像生成器F参数更新过程与高质量图像生成器G类似。元网络的加入提高了高质量图像生成网络的泛化能力,更适合网络直播视频图像增强。
判别网络通过最大化对抗损失更新参数,其中高质量图像判别器DH通过最大化高质 量图像生成对抗网络对抗损失LG-GAN进行参数更新,低质量图像判别器DL通过最大化低质 量图像生成对抗网络对抗损失LF-GAN进行参数更新。
(2)联合训练元-循环一致性对抗网络
由于使用非成对样本进行训练,当两个单向生成对抗网络交替训练达到各自的纳什均 衡或达到设定的迭代次数(10万次)时,需要联合训练元-循环一致性对抗网络,进一步 优化单向生成对抗网络,丰富增强得到的高质量图像细节信息。如附图4所示,通过将步骤(1)中高质量图像生成器G得到的伪高质量图像送入到低质量图像生成器F中,得 到对应的低质量图像重建结果将其送入低质量图像判别器DL中计算判别损失并计算与 原低质量图像L间的循环一致性损失、感知损失和内容损失;将步骤(1)中低质量图像 生成器F得到的伪低质量图像送入到高质量图像生成器G中,得到对应的高质图像的重 建结果将其送入高质量图像判别器DH中计算判别损失并计算其与原高质量图像H间 循环一致性损失、感知损失和内容损失。
在网络联合训练阶段,生成网络的损失函数包括对抗损失、循环一致性损失、感知损 失、内容损失;判别网络使用判别损失函数更新参数。
联合训练期间使用的对抗损失LGAN由单独训练两个生成对抗网络时使用的对抗损失组 成,其表达式如公式(7)所示。
LGAN=LG-GAN(G,DH,L,H)+LF-GAN(F,DL,L,H) (7)
感知损失的加入能更好的重建图像中的细节特征,其中低质量图像感知损失函数LL-fea,j表达形式如公式(9)所示,高质量图像感知损失函数LG-fea,j表达形式如公式(10)所示。公式中Wj和Hj分别表示输入图像在第j层输出的特征图的宽度和高度,Φj表示输入 图像在高质量图像生成器G的元网络GM第j层输出的特征图,Ωj表示输入图像在低质量 图像生成器F的元网络FM第j层输出的特征图,j分别取生成器中元网络的LeakyRelu1_2,LeakyRelu2_2,LeakyRelu3_3,LeakyRelu4_3和LeakyRelu5_3层。总的感知损失Lfea,j为 低质量图像感知损失和高质量图像感知损失之和,其表达式如公式(11)所示。
Lfea,j=LL-fea,j+LH-fea,j (11)
内容损失LMSE的加入,可以使图像在像素级上保持一致,其表达式如公式(12)所示,其 中低质量图像的像素均方差损失函数LL-MSE表达形式如公式(13)所示,高质量图像的像素均 方差损失函数LG-MSE表达形式如公式(14)所示,公式中W、H分别代表对应图像的宽度和高 度。
LMSE=LL-MSE+LG-MSE (12)
生成网络总的损失函数Lgen如公式(15)所示,通过最小化Lgen更新对应生成器中的元网 络参数,再利用元网络更新生成网络参数。其中α、β、γ、η均为正权重,训练过程中 将权重依据经验分别设置为α=1、β=10、γ=100、η=10。
Lgen=αLGAN+βLcyc(G,F)+γLfea,j+ηLMSE (15)
联合训练过程中,生成网络与判别网络交替更新,判别网络通过最大化相应的对抗损 失进行参数更新。训练以上网络均采用Adam梯度下降法,动量均设置为0.9。初始学习率 为0.0002,每训练100次学习率变为原来的0.9倍,经过反复迭代,当损失函数降到最小或达到预设的最大迭代次数(10万次)时停止训练,最终保留高质量图像生成器G用以进 行复合降质网络直播视频图像的增强。
所述的复合降质网络直播视频图像增强,具体步骤如下:
对存在复合降质的网络直播视频图像进行增强时,只需利用训练好的高质量图像生成 器G实现。先将真实网络直播视频中的复合降质图像J缩放至256×256像素大小,送入高 质量图像生成器G的元网络GM中,为减小计算量只保留元网络GM的LeakyRelu1_2(64维)、LeakyRelu2_2(128维)、LeakyRelu3_3(256维)、LeakyRelu4_3(512维)、LeakyRelu5_3(512维)层中每一个卷积核输出内容的均值和标准差共(64+128+256+512+512)*2=2944维。之后依次通过隐藏全连接层Hidden1和Hidden2,两个隐藏全连接层各有2048个神经元。滤波全连接层Filters将第二个隐藏全连接层的2048个神经元分为16组,分别对应生成网络中的16个卷积层,并根据生成网络输入图像大小产生相应的维数在1×105到2× 106的生成网络GH的参数用以更新高质量图像生成网络GH;再将原尺寸复合降质图 像J送入参数更新后的生成网络GH,利用编码部分的3层卷积提取低质量图像特征,得到 图像低质域特征向量;通过5个ResNet模块将图像在低质域中的特征向量转换为高质域 中的特征向量;最后使用2个反卷积和1个卷积从高质域特征向量中解码得到增强图像Z。
Claims (5)
1.一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法,其特征在于:
包括搭建元-循环一致性对抗网络模型、元-循环一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分;
搭建元-循环一致性对抗网络模型包括搭建高质量图像生成器G、低质量图像生成器F、低质量图像判别器DL、高质量图像判别器DH的网络架构;元-循环一致性对抗网络模型训练部分利用非成对的网络直播视频图像对上述四个网络进行训练,复合降质图像L作为高质量图像生成器G和低质量图像判别器DL的输入,高质量图像H作为低质量图像生成器F和高质量图像判别器DH的输入;复合降质网络直播视频图像增强时只需保留训练好的高质量图像生成器G对输入的真实网络直播视频中的复合降质图像进行增强;
所述的复合降质网络直播视频图像增强,具体步骤如下:
对真实网络直播视频中复合降质图像进行增强时,只利用训练好的高质量图像生成器G实现,先将真实复合降质网络直播视频图像J尺度缩放至256×256像素大小送入高质量图像生成器G的元网络GM中,得到对应生成网络GH的网络预测参数并对高质量图像生成网络GH进行更新;再将原尺寸复合降质图像J送入高质量图像生成网络GH得到的输出即为增强图像Z;
图像生成器G的基本网络结构,包含高质量图像生成网络GH和元网络GM两部分;低质量图像生成器F包含低质量图像生成网络FL和元网络FM两部分。
2.根据权利要求1所述的增强方法,其特征在于,搭建元-循环一致性对抗网络模型:高质量图像生成器G由高质图像生成网络GH和元网络GM两部分组成;低质量图像生成器F由低质图像生成网络FL和元网络FM两部分组成;高质量图像判别器DH和低质量图像判别器DL采用相同的结构。
3.根据权利要求1所述的增强方法,其特征在于:
(1)搭建元-循环一致性对抗网络,包括高质量图像生成器G、低质量图像生成器F、低质量图像判别器DL和高质量图像判别器DH的网络结构搭建;
(2)获取网络直播视频中的高质量图像和复合降质图像,利用得到的非成对低质-高质图像样本训练上述网络,直至元-循环一致性对抗网络达到纳什均衡或达到最大迭代次数,停止训练;
(3)利用步骤(2)训练好的高质量图像生成器G进行复合降质图像的增强,将真实复合降质网络直播视频图像J送入高质量图像生成器G得到对应的增强图像Z。
4.根据权利要求1所述的增强方法,其特征在于,所述的搭建元-循环一致性对抗网络模型,具体步骤如下:
(1)元-循环一致性对抗网络生成器搭建
使用的元-循环一致性对抗网络包括高质量图像生成器G和低质量图像生成器F两个生成器,均采用全卷积网络构建,能对任意尺寸的输入图像进行处理;每个生成器均由元网络和生成网络两部分构成,高质量图像生成器G实现低质图像到高质图像的转换、低质量图像生成器F实现高质图像到低质图像的转换;
元-循环一致性对抗网络中高质量图像生成器G的基本网络结构,包含高质量图像生成网络GH和元网络GM两部分;低质量图像生成器F,主要包含低质量图像生成网络FL和元网络FM两部分,其中低质量图像生成网络FL与高质量图像生成网络GH具有镜像对称的网络结构,元网络FM与GM使用相同的网络结构;
元网络GM与FM:具有相同的网络结构,使用现有的VGG-16网络结构,包括13个卷积层和3个全连接层,通过最后的滤波全连接层将第二个隐藏全连接层的2048个神经元分为16组,分别对应生成网络中的16个卷积层,并根据生成网络输入图像大小产生相应的维数在1×105到2×106的生成网络的参数ωθ;
高质量图像生成网络GH:共由16个卷积层构成;通过3个卷积层,将输入的低质量图像编码为特征向量;将该特征向量依次通过5个ResNet模块,每个ResNet模块包含两个卷积层,实现特征向量从低质域到高质域的转换;最后利用2个反卷积层和1个卷积层,从高质域特征向量中解码得到高质量的增强图像,用以实现编码-转换-解码过程,完成从低质量图像到高质量图像的转换;低质量图像生成网络FL:使用与高质量图像生成网络GH镜像对称的网络结构,由16个卷积层构成用以实现编码-转换-解码过程,完成从高质量图像到低质量图像的转换;
(2)循环一致性对抗网络判别器搭建
本专利使用的元-循环一致性对抗网络的判别器采用卷积网络构建,包括高质量图像判别器DH和低质量图像判别器DL;高质量图像判别器DH实现对输入图像为真实高质量图像的判别;低质量图像判别器DL实现对输入图像为真实低质量图像的判别;
5.根据权利要求1所述的增强方法,其特征在于,所述的元-循环一致性对抗网络的训练,具体步骤如下:
利用采集到的非成对低质-高质网络直播视频图像数据对上述搭建的高质量图像生成器G、低质量图像生成器F以及低质量图像判别器DL、高质量图像判别器DH进行训练,包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤;
(1)分别训练单向生成对抗网络
训练高质量图像生成对抗网络:包含高质量图像生成器G和高质量图像判别器DH的训练;训练低质量图像生成对抗网络:包含低质量图像生成器F和低质量图像判别器DL的训练;
首先将样本库中低质量图像L尺度缩放至256×256像素大小并送入元网络GM中,元网络的输出作为高质量图像生成网络GH的参数;再通过高质量图像生成网络GH对输入的原尺寸低质量图像L进行增强得到伪高质量图将得到的伪高质量图像送入高质量图像判别器DH,得到其真实程度判别结果,用以指导高质量图像生成器G的学习;
在此阶段生成器使用对抗损失对元网络参数进行更新,并通过元网络更新生成网络参数;判别网络通过最大化对抗损失进行参数更新;低质量图像生成对抗网络的训练过程与高质量图像生成对抗网络训练过程相同;
(2)联合训练元-循环一致性对抗网络
当高质量图像生成对抗网络和低质量图像生成对抗网络交替训练达到各自的纳什均衡或达到设定的迭代次数时,需要对两个生成对抗网络进行联合训练;将步骤(1)中高质量图像生成器G得到的伪高质量图像送入到低质量图像生成器F中,得到对应的低质量图像重建结果将步骤(1)中低质量图像生成器F得到的伪低质量图像送入到高质量图像生成器G中,得到对应的高质图像的重建结果
在网络联合训练阶段,通过引入对抗损失、循环一致性损失、感知损失、内容损失对生成器中的元网络参数进行更新,再利用元网络输出对应生成网络参数;判别网络通过最大化对抗损失更新参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814843.8A CN110634108B (zh) | 2019-08-30 | 2019-08-30 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814843.8A CN110634108B (zh) | 2019-08-30 | 2019-08-30 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634108A CN110634108A (zh) | 2019-12-31 |
CN110634108B true CN110634108B (zh) | 2023-01-20 |
Family
ID=68969630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910814843.8A Active CN110634108B (zh) | 2019-08-30 | 2019-08-30 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634108B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260584A (zh) * | 2020-01-17 | 2020-06-09 | 北京工业大学 | 基于gan网络的水下退化图像增强的方法 |
CN113222105A (zh) * | 2020-02-05 | 2021-08-06 | 百度(美国)有限责任公司 | 元协作训练范式 |
CN113628121B (zh) * | 2020-05-06 | 2023-11-14 | 阿里巴巴集团控股有限公司 | 数据处理、训练多媒体数据的方法和装置 |
WO2021253316A1 (zh) * | 2020-06-18 | 2021-12-23 | 深圳先进技术研究院 | 图像降噪模型的训练方法、装置、电子设备和存储介质 |
CN111899185A (zh) * | 2020-06-18 | 2020-11-06 | 深圳先进技术研究院 | 图像降噪模型的训练方法、装置、电子设备和存储介质 |
CN112699912B (zh) * | 2020-11-19 | 2022-04-19 | 电子科技大学 | 一种通过改进gan增强红外热图像的方法 |
CN112700408B (zh) * | 2020-12-28 | 2023-09-08 | 中国银联股份有限公司 | 模型训练方法、图像质量评估方法及装置 |
CN112767250B (zh) * | 2021-01-19 | 2021-10-15 | 南京理工大学 | 一种基于自监督学习的视频盲超分辨率重建方法及系统 |
CN112801898A (zh) * | 2021-01-20 | 2021-05-14 | 桂林电子科技大学 | 一种特征自我保留的弱光图像增强方法 |
CN112927160B (zh) * | 2021-03-12 | 2022-11-18 | 郑州轻工业大学 | 一种基于深度Retinex的单张低光图像增强方法 |
CN113688694B (zh) * | 2021-08-03 | 2023-10-27 | 上海交通大学 | 基于非配对学习的提升视频清晰度的方法及装置 |
CN114584675B (zh) * | 2022-05-06 | 2022-08-02 | 中国科学院深圳先进技术研究院 | 一种自适应视频增强方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108960086A (zh) * | 2018-06-20 | 2018-12-07 | 电子科技大学 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474929B2 (en) * | 2017-04-25 | 2019-11-12 | Nec Corporation | Cyclic generative adversarial network for unsupervised cross-domain image generation |
-
2019
- 2019-08-30 CN CN201910814843.8A patent/CN110634108B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108960086A (zh) * | 2018-06-20 | 2018-12-07 | 电子科技大学 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
改进型循环生成对抗网络的血管内超声图像增强;姚哲维等;《计算机科学》;20190515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110634108A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634108B (zh) | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 | |
Li et al. | Zero-shot image dehazing | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
Li et al. | Luminance-aware pyramid network for low-light image enhancement | |
Jiang et al. | Rain-free and residue hand-in-hand: A progressive coupled network for real-time image deraining | |
Liu et al. | Robust video super-resolution with learned temporal dynamics | |
CN113658051A (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN112348743B (zh) | 一种融合判别式网络和生成式网络的图像超分辨率方法 | |
CN111260584A (zh) | 基于gan网络的水下退化图像增强的方法 | |
CN112465955A (zh) | 一种动态人体三维重建和视角合成方法 | |
CN112183637A (zh) | 一种基于神经网络的单光源场景光照重渲染方法及系统 | |
CN111861902A (zh) | 基于深度学习的Raw域视频去噪方法 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN110225260A (zh) | 一种基于生成对抗网络的立体高动态范围成像方法 | |
Cao et al. | Adversarial and adaptive tone mapping operator for high dynamic range images | |
CN112767252A (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
KS et al. | Deep multi-stage learning for hdr with large object motions | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN114066761A (zh) | 基于光流估计与前景检测的运动视频帧率增强方法及系统 | |
CN115439849B (zh) | 基于动态多策略gan网络的仪表数字识别方法及系统 | |
CN115829868B (zh) | 基于光照与噪声残差图的水下暗光图像增强方法 | |
CN116958192A (zh) | 一种基于扩散模型的事件相机图像重建方法 | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
Li et al. | Unsupervised neural rendering for image hazing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |