CN110634108B

CN110634108B - 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法

Info

Publication number: CN110634108B
Application number: CN201910814843.8A
Authority: CN
Inventors: 李嘉锋; 贾童瑶; 张菁; 卓力; 马春杰; 杨立恒
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-01-20
Anticipated expiration: 2039-08-30
Also published as: CN110634108A

Abstract

一种基于元‑循环一致性对抗网络的复合降质网络直播视频增强方法属于数字图像处理领域，本发明对网络直播视频图像中存在曝光不足、运动模糊、低分辨率等复合降质因素的图像进行统一增强。首先，针对本专利利用元‑循环一致性对抗网络，建立了一种端到端的复合降质图像增强方案，并使用非成对的低质‑高质图像样本进行训练；其次，通过元网络的学习提高了网络的泛化能力，可实现在统一的网络中对存在复合降质的网络直播视频图像进行增强的任务，更符合实际应用中的处理需求。

Description

一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法

技术领域

本发明属于数字图像处理领域，特别涉及一种基于元-循环一致性对抗网络(Meta-CycleGAN，Meta Cycle-Consistent Adversarial Networks)的复合降质网络直播视频图像增强技术。

背景技术

网络直播内容亟需采用计算机自动识别的方式加以监管，对不良的内容进行自动鉴别。然而，网络直播视频图像环境复杂且多变，成像场景涉及白天、黑夜、室内、户外，容易受到曝光不足、运动模糊、低分辨率等各种因素的影响。这些因素以复杂的方式随机组合，导致图像质量的严重退化，不仅影响人眼的主观视觉效果，更对图像内容的鉴别带来很大影响。

近年来，深度学习逐渐被应用于图像增强任务中，并取得了很好的性能。而在此之前，图像增强技术普遍采用的是基于模型或先验知识的传统方法。传统的基于模型、先验知识 (或假设)的增强算法，在针对受某种特定因素影响的图像时可以取得出色的效果。然而，任何模型与先验知识本质上都是通过经验、观察或统计对事物本质的一种理解方式，往往忽略了其他因素，导致算法在复杂环境或特定场景的泛化能力较差。

随着深度神经网络的不断发展，大量学者开始关注如何将深度学习应用于视频/图像增强技术中。由于避免了传统方法中的人工选取特征过程，基于深度学习的增强算法获得了更好的性能，并且具有更好的适用性与推广性，然而算法的最终效果往往取决于训练样本的数量和网络结构设计的合理性。

目前,学者们分别针对图像曝光不足、模糊、低分辨率等降质因素开展了研究工作,已经在多种单一降质图像的增强技术上取得了诸多成果。然而，在网络直播复杂多变的成像环境下中，多种降质因素常以复合的方式同时出现。因此，尽管上述方法可以在仿真的数据集上取得远超过传统方法的性能，但是在实际环境中，不仅对复合因素的降质图像无能为力，对单因素的降质图像的适用性和推广性也难以尽如人意。

Goodfellow等人在2014年提出的生成对抗网络(GAN，Generative AdversarialNetworks)，提供了一种全新的双网络间竞争与纠错机制，为困扰深度学习的相关难题提供了新的解决思路。学者们利用其解决多种图像处理问题(如风格迁移、超分辨率重建等)，在相同的训练样本下，往往可以取得更好的效果。如何在生成对抗网络的框架下，设计一个合理的网络结构，实现网络直播视频图像的增强处理，是一个极富挑战性的创新性研究工作。

基础的生成对抗网络结构如附图1所示，目标函数如公式(1)所示，其基本原理是由判别器D辅助生成器G产生出与真实数据分布一致的伪数据。生成器G要能使产生的数据在D上的表现D(G(z))与真实数据D(x)尽可能一致，使得D无法区分生成数据与真实数据。生成对抗网络的设计建立了生成器和判别器的非合作博弈关系，通过迭代交替更新达到纳什均衡，从而训练出最优的网络模型。

传统GAN网络需要成对的样本进行训练，但网络直播视频图像很难获得真实成对的低质-高质图像样本。循环一致性对抗网络(CycleGAN)可以有效的在非成对样本间进行学习，其结构如附图2所示，通过两个镜像对称的GAN，构成一个环形网络，两个GAN 具有镜像对称的两个生成器，并各自对应一个判别器。目标是学习映射G:X→Y使得 G(X)的图像分布接近于Y的分布，由于没有成对的样本，引入逆映射F:Y→X使得F(Y) 的图像分布接近于X的分布。

尽管循环一致性网络可以有效的在非成对样本之间进行学习，但是由于网络直播视频的拍摄场景复杂、成像质量参差不齐、主播类型多变等特点，很难获得覆盖全部降质过程的训练数据集，因此传统网络在测试阶段大多缺乏泛化能力。元学习(Meta-learning)也称为“学会学习(Learning to learn)”，其主要思想是通过独特的网络结构设计从有限的训练数据中提取元知识、获得经验，并充分利用以往的知识经验来指导新任务的学习，使得网络能够通过少量样本学习新技能或快速适应新环境，提高网络的泛化能力。目前元学习在小样本分类、图像风格迁移、图像超分辨率重建等领域取得了很好的效果。一个良好的元学习模型能够很好地推广到在训练期间从未遇到过的新任务和新环境，因此适用于处理降质过程多变的网络直播视频图像。

发明内容

本发明的目的在于利用元-循环一致性对抗网络(Meta-CycleGAN)在一个统一的框架下，对存在曝光不足、运动模糊、低分辨率等复合降质因素的网络直播视频图像进行统一的图像增强。

本发明采用以下技术方案进行实现：基于元-循环一致性对抗网络(Meta-CycleGAN) 实现复合降质网络直播视频图像增强，主要包括搭建元-循环一致性对抗网络模型、元-循环一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分。

搭建元-循环一致性对抗网络模型包括搭建高质量图像生成器G、低质量图像生成器F、低质量图像判别器D_L、高质量图像判别器D_H的网络架构；元-循环一致性对抗网络模型训练部分利用非成对的网络直播视频图像对上述四个网络进行训练，复合降质图像L作为高质量图像生成器G和低质量图像判别器D_L的输入，高质量图像H作为低质量图像生成器F和高质量图像判别器D_H的输入；复合降质网络直播视频图像增强时只需保留训练好的高质量图像生成器G对输入的真实网络直播视频中的复合降质图像进行增强。

搭建元-循环一致性对抗网络模型：主要包括高质量图像生成器G、低质量图像生成器 F、低质量图像判别器D_L、高质量图像判别器D_H网络的框架搭建。高质量图像生成器G由高质图像生成网络G_H和元网络G_M两部分组成；低质量图像生成器F由低质图像生成网络F_L和元网络F_M两部分组成。高质量图像判别器D_H和低质量图像判别器D_L采用相同的结构。

元-循环一致性对抗网络模型训练：采集网络直播视频中的高质量图像和复合降质图像，并利用得到的非成对低质-高质图像样本训练上述四个网络。复合降质图像L作为高质量图像生成器G和低质量图像判别器D_L的输入，高质量图像H作为低质量图像生成器F和高质量图像判别器D_H的输入。最终目标是得到具有强大泛化能力的高质量图像生成器G用来实现对真实复合降质网络直播视频图像的增强。

复合降质网络直播视频图像增强：复合降质图像增强阶段，只保留训练得到的高质量图像生成器G，将待重建的真实复合降质网络直播视频图像J送入高质量图像生成器G中，其输出结果即为高质量重建图像Z。

复合降质网络直播视频图像增强方法整体流程，具体步骤如下：

本发明的整体流程如附图3所示

(1)基于本专利的方法，搭建元-循环一致性对抗网络，包括高质量图像生成器G、低质量图像生成器F、低质量图像判别器D_L和高质量图像判别器D_H的网络结构搭建；

(2)获取网络直播视频中的高质量图像和复合降质图像，利用得到的非成对低质-高质图像样本训练上述网络，直至元-循环一致性对抗网络达到纳什均衡或达到最大迭代次数，停止训练；

(3)利用步骤(2)训练好的高质量图像生成器G进行复合降质图像的增强，将真实复合降质网络直播视频图像J送入高质量图像生成器G得到对应的增强图像Z。

所述的搭建元-循环一致性对抗网络模型，具体步骤如下：

元-循环一致性对抗网络整体结构如附图4所示，包含高质量图像生成器G、低质量图像生成器F两个生成器和高质量图像判别器D_H、低质量图像判别器D_L两个判别器。

(1)元-循环一致性对抗网络生成器搭建

本专利使用的元-循环一致性对抗网络包括高质量图像生成器G和低质量图像生成器 F两个生成器，均采用全卷积网络构建，能对任意尺寸的输入图像进行处理。每个生成器均由元网络和生成网络两部分构成，高质量图像生成器G实现低质图像到高质图像的转换、低质量图像生成器F实现高质图像到低质图像的转换。循环一致性网络结构的使用，使得网络能够在使用非成对的高质-低质样本的训练过程中收敛。

附图5所示为元-循环一致性对抗网络中高质量图像生成器G的基本网络结构，主要包含高质量图像生成网络G_H和元网络G_M两部分；低质量图像生成器F，主要包含低质量图像生成网络F_L和元网络F_M两部分，其中低质量图像生成网络F_L与高质量图像生成网络 G_H具有镜像对称的网络结构，元网络F_M与G_M使用相同的网络结构。元网络的加入提高了生成网络对真实复合降质网络直播视频增强的泛化能力。

元网络G_M与F_M：具有相同的网络结构，如附图5中A部分所示，使用现有的VGG-16 网络结构，包括13个卷积层和3个全连接层，通过最后的滤波全连接层将第二个隐藏全连接层的2048个神经元分为16组，分别对应生成网络中的16个卷积层，并根据生成网络输入图像大小产生相应的维数在1×10⁵到2×10⁶的生成网络的参数ω_θ。

高质量图像生成网络G_H：网络结构图如附图5中B部分所示，共由16个卷积层构成。通过3个卷积层，将输入的低质量图像编码为特征向量；将该特征向量依次通过5个ResNet模块，每个ResNet模块包含两个卷积层，实现特征向量从低质域到高质域的转换；最后利用2个反卷积层和1个卷积层，从高质域特征向量中解码得到高质量的增强图像，用以实现编码-转换-解码过程，完成从低质量图像到高质量图像的转换。低质量图像生成网络 F_L：使用与高质量图像生成网络G_H镜像对称的网络结构，由16个卷积层构成用以实现编码-转换-解码过程，完成从高质量图像到低质量图像的转换。

(2)循环一致性对抗网络判别器搭建

本专利使用的元-循环一致性对抗网络的判别器采用卷积网络构建，包括高质量图像判别器D_H和低质量图像判别器D_L。高质量图像判别器D_H实现对输入图像为真实高质量图像的判别；低质量图像判别器D_L实现对输入图像为真实低质量图像的判别。

附图6所示为图像判别器的基本网络结构，低质和高质图像判别器具有相同的网络结构，均由6个卷积层和1个sigmoid函数层构成。通过6个卷积层提取输入图像的特征，sigmoid函数层给出输入图像为对应类别真实图像的概率。将通过高质量图像生成器G得到的伪高质量图像

送入高质量图像判别器D_H中以判断高质量图像生成器G的优劣；将通过低质量图像生成器F得到的伪低质量图像

送入低质量图像判别器D_L中以判断低质量图像生成器F的优劣。

所述的元-循环一致性对抗网络的训练，具体步骤如下：

利用采集到的非成对低质-高质网络直播视频图像数据对上述搭建的高质量图像生成器G、低质量图像生成器F以及低质量图像判别器D_L、高质量图像判别器D_H进行训练，包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤。

(1)分别训练单向生成对抗网络

训练高质量图像生成对抗网络：包含高质量图像生成器G和高质量图像判别器D_H的训练；训练低质量图像生成对抗网络：包含低质量图像生成器F和低质量图像判别器D_L的训练。

首先将样本库中低质量图像L尺度缩放至256×256像素大小并送入元网络G_M中，元网络的输出作为高质量图像生成网络G_H的参数；再通过高质量图像生成网络G_H对输入的原尺寸低质量图像L进行增强得到伪高质量图

将得到的伪高质量图像

送入高质量图像判别器D_H，得到其真实程度判别结果，用以指导高质量图像生成器G的学习。

在此阶段生成器使用对抗损失对元网络参数进行更新，并通过元网络更新生成网络参数；判别网络通过最大化对抗损失进行参数更新。低质量图像生成对抗网络的训练过程与高质量图像生成对抗网络训练过程相同。

(2)联合训练元-循环一致性对抗网络

当高质量图像生成对抗网络和低质量图像生成对抗网络交替训练达到各自的纳什均衡或达到设定的迭代次数时，需要对两个生成对抗网络进行联合训练。如附图4所示，将步骤(1)中高质量图像生成器G得到的伪高质量图像

送入到低质量图像生成器F中，得到对应的低质量图像重建结果

将步骤(1)中低质量图像生成器F得到的伪低质量图像

送入到高质量图像生成器G中，得到对应的高质图像的重建结果

在网络联合训练阶段，通过引入对抗损失、循环一致性损失、感知损失、内容损失对生成器中的元网络参数进行更新，再利用元网络输出对应生成网络参数；判别网络通过最大化对抗损失更新参数。

所述的复合降质网络直播视频图像增强，具体步骤如下：

对真实网络直播视频中复合降质图像进行增强时，只利用训练好的高质量图像生成器 G实现，先将真实复合降质网络直播视频图像J尺度缩放至256×256像素大小送入高质量图像生成器G的元网络G_M中，得到对应生成网络G_H的网络预测参数并对高质量图像生成网络G_H进行更新；再将原尺寸复合降质图像J送入高质量图像生成网络G_H得到的输出即为增强图像Z。

本发明的特点：

本发明的目的在于利用元-循环一致性对抗网络(Meta-CycleGAN)，对网络直播视频图像中存在曝光不足、运动模糊、低分辨率等复合降质因素的图像进行统一增强。首先，针对本专利利用元-循环一致性对抗网络，建立了一种端到端的复合降质图像增强方案，并使用非成对的低质-高质图像样本进行训练；其次，通过元网络的学习提高了网络的泛化能力，可实现在统一的网络中对存在复合降质的网络直播视频图像进行增强的任务，更符合实际应用中的处理需求。

附图说明：

图1经典生成对抗网络结构图

图2循环一致性对抗网络基本结构

图3复合降质网络直播视频图像增强流程图

图4元-循环一致性对抗网络整体结构图

图5元-循环一致性对抗网络高质量图像生成器G基本网络结构

图6元-循环一致性对抗网络判别器结构图

表1 元-循环一致性网络-生成器结构及参数

(A)

(B)

表2 元-循环一致性网络-判别网络结构及参数

具体实施方式：

以下结合说明书附图，对本发明的实施实例加以详细说明：

一种基于元-循环一致性对抗网络(Meta-CycleGAN)的复合降质网络直播视频图像的增强方法，整体流程如附图3所示，主要包括搭建元-循环一致性对抗网络模型、元-循环一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分。元-循环一致性对抗网络整体结构如附图4所示，元-循环一致性对抗网络高质量图像生成器G基本网络结构如附图5所示，元-循环一致性对抗网络判别器D的网络结构图如附图6所示。基于本专利的方法，搭建元-循环一致性对抗网络，包括高质量图像生成器G、低质量图像生成器F和低质量图像判别器D_L、高质量图像判别器D_H的结构设计与搭建；利用采集到的非成对低质-高质网络直播视频图像训练上述搭建的高质量图像生成器G、低质量图像生成器F以及低质量图像判别器D_L、高质量图像判别器D_H；复合降质网络直播视频图像增强阶段，只保留训练得到的高质量图像生成器G，将待重建的真实复合降质图像J送入高质量图像生成网络G_H和元网络G_M中，高质量图像生成网络G_H的输出结果即为增强图像Z。

所述的循环一致性对抗网络的搭建分为2个步骤，具体步骤如下：

元-循环一致性对抗网络整体结构如附图4所示，包含高质量图像生成器G(上)和低质量图像生成器F(下)两个生成器、高质量图像判别器D_H(右)和低质量图像判别器 D_L(左)两个判别器。每个生成器均由元网络和生成网络两部分构成，两个判别器采用相同的网络结构。

(1)循环一致性对抗网络生成器搭建

附图5所示为元-循环一致性对抗网络中高质量图像生成器G的基本网络结构，包含高质量图像生成网络G_H和元网络G_M两部分；低质量图像生成器F包含低质量图像生成网络F_L和元网络F_M两部分。

元网络：附图5中A部分所示为其网络结构图，生成器-元网络具体参数如表1(A)所示，高质量图像生成器G的元网络G_M与低质量图像生成器F的元网络F_M采用相同的网络结构，包括13个卷积层和3个全连接层，通过最后的滤波全连接层输出对应生成网络G_H和F_L的预测参数。

高质量图像生成网络G_H：附图5中B部分所示为其网络结构图，其参数如表1(B) 所示，由16个卷积层构成用以实现低质量图像到高质量图像的编码-转换-解码过程。

编码：使用3层卷积，提取输入低质量图像中的特征，生成特征向量。

转换：该部分由5个ResNet模块组成，每个ResNet模块包含两个卷积层，将图像在低质域中的特征向量转换为高质域中的特征向量，这能够达到在转换时同时保留原始图像特征的目的。

解码：利用2个反卷积层和1个卷积层构成，完成从高质域特征向量中得到高质量的增强图像的工作。

低质量图像生成网络F_L：使用与高质量图像生成网络G_H镜像对称的网络结构，用以实现高质量图像到低质量图像的编码-转换-解码过程。

编码：使用3层卷积，提取输入高质量图像中的特征，生成特征向量。

转换：该部分由5个ResNet模块组成，每个ResNet模块包含两个卷积层，将图像在高质域中的特征向量转换为低质域中的特征向量，这能够达到在转换时同时保留原始图像特征的目的。

解码：利用2个反卷积层和1个卷积层构成，完成从低质域特征向量中得到低质量生成图像的工作。

(2)循环一致性对抗网络判别器搭建

低质量图像判别器D_L和高质量图像判别器D_H使用相同的结构，附图6所示为图像判别器的基本网络结构，其具体参数如表2所示。低质量图像判别器和高质量图像判别器均由6个卷积层和1个sigmoid函数层构成。通过6个卷积层提取输入图像的特征，最后通过sigmoid函数层给出输入图像为对应类别真实图像的概率。

生成器和判别器在每个卷积层后都使用批标准化(BN,Batch Normalization)以防止梯度消失或爆炸、加快训练速度；使用LeakyRelu激活函数，对卷积结果x(x∈R)进行公式 (2)所示(a_i＝10)操作，得到对应激活结果y(x∈R)。该函数形式简单且解决了Relu函数进入负区间后神经元不学习的问题。

所述的元-循环一致性对抗网络的训练分为2个步骤，具体步骤如下：

利用采集到的非成对低质-高质网络直播视频图像对上述搭建的高质量图像生成器G、低质量图像生成器F以及高质量图像判别器D_H、低质量图像判别器D_L进行训练，包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤。

(1)分别训练单向生成对抗网络

分别训练高质量图像生成对抗网络和低质量图像生成对抗网络，其中高质量图像生成对抗网络包含高质量图像生成器G和高质量图像判别器D_H的训练；低质量图像生成对抗网络包含低质量图像生成器F和低质量图像判别器D_L的训练。

首先将样本库中低质图像L尺度缩放至256×256像素大小送入元网络G_M中，通过对该低质量图像的学习，得到高质量图像生成网络G_H的参数预测结果，并对高质量图像生成网络G_H进行参数更新；再将原尺寸低质量图像L送入高质量图像生成网络G_H输出对应的伪高质量图像

最后利用高质量图像判别器D_H对得到的伪高质量图像

进行评判，根据得到的伪高质量图像

的真实程度预测结果计算判别损失，用以指导元网络G_M及高质量图像生成网络G_H的学习。

在此阶段生成器使用对抗损失对元网络参数进更新，并通过元网络输出结果更新生成网络参数。对抗损失函数是在较高的层面上，使图像看起来更加真实和自然。高质量图像生成对抗网络的对抗损失L_G-GAN如公式(3)所示，其中D_H为高质量图像判别器；低质量图像生成对抗网络对抗损失L_F-GAN如公式(4)所示，其中D_L为低质量图像判别器。式中E(*)表示分布函数的期望值，P_data(h)和P_data(l)分别代表真实高质量图像和低质量图像样本的分布。

高质量图像生成网络G_H输出的伪高质量图像

由公式(5)得到，其中高质量图像生成网络参数

通过对应的元网络G_M根据公式(6)得到，利用上述对抗损失L_G-GAN更新元网络参数θ_G，再通过元网络的输出更新高质量图像生成网络参数

低质量图像生成器F参数更新过程与高质量图像生成器G类似。元网络的加入提高了高质量图像生成网络的泛化能力，更适合网络直播视频图像增强。

判别网络通过最大化对抗损失更新参数，其中高质量图像判别器D_H通过最大化高质量图像生成对抗网络对抗损失L_G-GAN进行参数更新，低质量图像判别器D_L通过最大化低质量图像生成对抗网络对抗损失L_F-GAN进行参数更新。

(2)联合训练元-循环一致性对抗网络

由于使用非成对样本进行训练，当两个单向生成对抗网络交替训练达到各自的纳什均衡或达到设定的迭代次数(10万次)时，需要联合训练元-循环一致性对抗网络，进一步优化单向生成对抗网络，丰富增强得到的高质量图像细节信息。如附图4所示，通过将步骤(1)中高质量图像生成器G得到的伪高质量图像

将其送入低质量图像判别器D_L中计算判别损失并计算与原低质量图像L间的循环一致性损失、感知损失和内容损失；将步骤(1)中低质量图像生成器F得到的伪低质量图像

将其送入高质量图像判别器D_H中计算判别损失并计算其与原高质量图像H间循环一致性损失、感知损失和内容损失。

在网络联合训练阶段，生成网络的损失函数包括对抗损失、循环一致性损失、感知损失、内容损失；判别网络使用判别损失函数更新参数。

联合训练期间使用的对抗损失L_GAN由单独训练两个生成对抗网络时使用的对抗损失组成，其表达式如公式(7)所示。

L_GAN＝L_G-GAN(G,D_H,L,H)+L_F-GAN(F,D_L,L,H) (7)

循环一致性损失L_cyc如公式(8)所示，通过最小化该损失，使得网络具有循环一致性。前向循环一致性：

后向循环一致性：

感知损失的加入能更好的重建图像中的细节特征，其中低质量图像感知损失函数L_L-fea,j表达形式如公式(9)所示，高质量图像感知损失函数L_G-fea,j表达形式如公式(10)所示。公式中W_j和H_j分别表示输入图像在第j层输出的特征图的宽度和高度，Φ_j表示输入图像在高质量图像生成器G的元网络G_M第j层输出的特征图，Ω_j表示输入图像在低质量图像生成器F的元网络F_M第j层输出的特征图，j分别取生成器中元网络的LeakyRelu1_2，LeakyRelu2_2，LeakyRelu3_3，LeakyRelu4_3和LeakyRelu5_3层。总的感知损失L_fea,j为低质量图像感知损失和高质量图像感知损失之和，其表达式如公式(11)所示。

L_fea,j＝L_L-fea,j+L_H-fea,j (11)

内容损失L_MSE的加入，可以使图像在像素级上保持一致，其表达式如公式(12)所示，其中低质量图像的像素均方差损失函数L_L-MSE表达形式如公式(13)所示，高质量图像的像素均方差损失函数L_G-MSE表达形式如公式(14)所示，公式中W、H分别代表对应图像的宽度和高度。

L_MSE＝L_L-MSE+L_G-MSE (12)

生成网络总的损失函数L_gen如公式(15)所示，通过最小化L_gen更新对应生成器中的元网络参数，再利用元网络更新生成网络参数。其中α、β、γ、η均为正权重，训练过程中将权重依据经验分别设置为α＝1、β＝10、γ＝100、η＝10。

L_gen＝αL_GAN+βL_cyc(G,F)+γL_fea,j+ηL_MSE (15)

联合训练过程中，生成网络与判别网络交替更新，判别网络通过最大化相应的对抗损失进行参数更新。训练以上网络均采用Adam梯度下降法，动量均设置为0.9。初始学习率为0.0002，每训练100次学习率变为原来的0.9倍，经过反复迭代，当损失函数降到最小或达到预设的最大迭代次数(10万次)时停止训练，最终保留高质量图像生成器G用以进行复合降质网络直播视频图像的增强。

所述的复合降质网络直播视频图像增强，具体步骤如下：

对存在复合降质的网络直播视频图像进行增强时，只需利用训练好的高质量图像生成器G实现。先将真实网络直播视频中的复合降质图像J缩放至256×256像素大小，送入高质量图像生成器G的元网络G_M中，为减小计算量只保留元网络G_M的LeakyRelu1_2(64维)、LeakyRelu2_2(128维)、LeakyRelu3_3(256维)、LeakyRelu4_3(512维)、LeakyRelu5_3(512维)层中每一个卷积核输出内容的均值和标准差共(64+128+256+512+512)*2＝2944维。之后依次通过隐藏全连接层Hidden1和Hidden2，两个隐藏全连接层各有2048个神经元。滤波全连接层Filters将第二个隐藏全连接层的2048个神经元分为16组，分别对应生成网络中的16个卷积层，并根据生成网络输入图像大小产生相应的维数在1×10⁵到2× 10⁶的生成网络G_H的参数

用以更新高质量图像生成网络G_H；再将原尺寸复合降质图像J送入参数更新后的生成网络G_H，利用编码部分的3层卷积提取低质量图像特征，得到图像低质域特征向量；通过5个ResNet模块将图像在低质域中的特征向量转换为高质域中的特征向量；最后使用2个反卷积和1个卷积从高质域特征向量中解码得到增强图像Z。

Claims

1.一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法，其特征在于：

包括搭建元-循环一致性对抗网络模型、元-循环一致性对抗网络模型训练、复合降质网络直播视频图像增强三部分；

搭建元-循环一致性对抗网络模型包括搭建高质量图像生成器G、低质量图像生成器F、低质量图像判别器D_L、高质量图像判别器D_H的网络架构；元-循环一致性对抗网络模型训练部分利用非成对的网络直播视频图像对上述四个网络进行训练，复合降质图像L作为高质量图像生成器G和低质量图像判别器D_L的输入，高质量图像H作为低质量图像生成器F和高质量图像判别器D_H的输入；复合降质网络直播视频图像增强时只需保留训练好的高质量图像生成器G对输入的真实网络直播视频中的复合降质图像进行增强；

所述的复合降质网络直播视频图像增强，具体步骤如下：

对真实网络直播视频中复合降质图像进行增强时，只利用训练好的高质量图像生成器G实现，先将真实复合降质网络直播视频图像J尺度缩放至256×256像素大小送入高质量图像生成器G的元网络G_M中，得到对应生成网络G_H的网络预测参数并对高质量图像生成网络G_H进行更新；再将原尺寸复合降质图像J送入高质量图像生成网络G_H得到的输出即为增强图像Z；

图像生成器G的基本网络结构，包含高质量图像生成网络G_H和元网络G_M两部分；低质量图像生成器F包含低质量图像生成网络F_L和元网络F_M两部分。

2.根据权利要求1所述的增强方法，其特征在于，搭建元-循环一致性对抗网络模型：高质量图像生成器G由高质图像生成网络G_H和元网络G_M两部分组成；低质量图像生成器F由低质图像生成网络F_L和元网络F_M两部分组成；高质量图像判别器D_H和低质量图像判别器D_L采用相同的结构。

3.根据权利要求1所述的增强方法，其特征在于：

(1)搭建元-循环一致性对抗网络，包括高质量图像生成器G、低质量图像生成器F、低质量图像判别器D_L和高质量图像判别器D_H的网络结构搭建；

4.根据权利要求1所述的增强方法，其特征在于，所述的搭建元-循环一致性对抗网络模型，具体步骤如下：

(1)元-循环一致性对抗网络生成器搭建

使用的元-循环一致性对抗网络包括高质量图像生成器G和低质量图像生成器F两个生成器，均采用全卷积网络构建，能对任意尺寸的输入图像进行处理；每个生成器均由元网络和生成网络两部分构成，高质量图像生成器G实现低质图像到高质图像的转换、低质量图像生成器F实现高质图像到低质图像的转换；

元-循环一致性对抗网络中高质量图像生成器G的基本网络结构，包含高质量图像生成网络G_H和元网络G_M两部分；低质量图像生成器F，主要包含低质量图像生成网络F_L和元网络F_M两部分，其中低质量图像生成网络F_L与高质量图像生成网络G_H具有镜像对称的网络结构，元网络F_M与G_M使用相同的网络结构；

元网络G_M与F_M：具有相同的网络结构，使用现有的VGG-16网络结构，包括13个卷积层和3个全连接层，通过最后的滤波全连接层将第二个隐藏全连接层的2048个神经元分为16组，分别对应生成网络中的16个卷积层，并根据生成网络输入图像大小产生相应的维数在1×10⁵到2×10⁶的生成网络的参数ω_θ；

高质量图像生成网络G_H：共由16个卷积层构成；通过3个卷积层，将输入的低质量图像编码为特征向量；将该特征向量依次通过5个ResNet模块，每个ResNet模块包含两个卷积层，实现特征向量从低质域到高质域的转换；最后利用2个反卷积层和1个卷积层，从高质域特征向量中解码得到高质量的增强图像，用以实现编码-转换-解码过程，完成从低质量图像到高质量图像的转换；低质量图像生成网络F_L：使用与高质量图像生成网络G_H镜像对称的网络结构，由16个卷积层构成用以实现编码-转换-解码过程，完成从高质量图像到低质量图像的转换；

(2)循环一致性对抗网络判别器搭建

本专利使用的元-循环一致性对抗网络的判别器采用卷积网络构建，包括高质量图像判别器D_H和低质量图像判别器D_L；高质量图像判别器D_H实现对输入图像为真实高质量图像的判别；低质量图像判别器D_L实现对输入图像为真实低质量图像的判别；

低质和高质图像判别器具有相同的网络结构，均由6个卷积层和1个sigmoid函数层构成；通过6个卷积层提取输入图像的特征，sigmoid函数层给出输入图像为对应类别真实图像的概率；将通过高质量图像生成器G得到的伪高质量图像

5.根据权利要求1所述的增强方法，其特征在于，所述的元-循环一致性对抗网络的训练，具体步骤如下：

利用采集到的非成对低质-高质网络直播视频图像数据对上述搭建的高质量图像生成器G、低质量图像生成器F以及低质量图像判别器D_L、高质量图像判别器D_H进行训练，包括分别训练单向生成对抗网络和联合训练元-循环一致性对抗网络两个步骤；

(1)分别训练单向生成对抗网络

训练高质量图像生成对抗网络：包含高质量图像生成器G和高质量图像判别器D_H的训练；训练低质量图像生成对抗网络：包含低质量图像生成器F和低质量图像判别器D_L的训练；

将得到的伪高质量图像

送入高质量图像判别器D_H，得到其真实程度判别结果，用以指导高质量图像生成器G的学习；

在此阶段生成器使用对抗损失对元网络参数进行更新，并通过元网络更新生成网络参数；判别网络通过最大化对抗损失进行参数更新；低质量图像生成对抗网络的训练过程与高质量图像生成对抗网络训练过程相同；

(2)联合训练元-循环一致性对抗网络

当高质量图像生成对抗网络和低质量图像生成对抗网络交替训练达到各自的纳什均衡或达到设定的迭代次数时，需要对两个生成对抗网络进行联合训练；将步骤(1)中高质量图像生成器G得到的伪高质量图像

将步骤(1)中低质量图像生成器F得到的伪低质量图像