CN113610736B

CN113610736B - 基于循环生成对抗残差网络及qtp损失项的黑夜图像增强方法及系统

Info

Publication number: CN113610736B
Application number: CN202110807967.0A
Authority: CN
Inventors: 邱崧; 郭皓明; 徐伟; 陈昕苑; 孙力; 李庆利; 丰颖
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-09-19
Anticipated expiration: 2041-07-16
Also published as: CN113610736A

Abstract

本发明提出了一种基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，通过QTP三个维度的损失项来分别使得无监督黑夜增强任务面临的问题得到改善。这种混合损失包括在循环对抗网络的损失项以外，另外加上三个部分:质量损失、任务损失和感知损失。质量部分通过加强参考图像和增强结果质量分数之间的相似性来解决模糊图像或伪色问题。任务部分从约束增强结果具有更高的白天概率的角度来解决增强效果不足的问题，也就是白天概率最大化。感知部分通过保持黑夜增强前后图像傅里叶相位谱一致的方法来限制域转换后缺失的语义信息，保证黑夜图像和增强图像的内容一致性。通过融合新的损失函数，最终得到可学习且更理想的黑夜图像增强模型。

Description

基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法及系统

技术领域

本发明涉及计算机视觉，深度学习以及生成对抗神经网络技术领域，具体地说是一种基于循环生成对抗残差网络及QTP损失项的无监督真实场景领域的黑夜图像增强方法及其在图像处理中的应用。

背景技术

在科技日新月异的当下，计算机视觉技术正走进人们生活的方方面面。比如说自动驾驶，场景摄像头的检测识别，辅助倒车影像等等。但是前述所举的任务例子中，往往在光线充足的环境下，计算机视觉技术的性能较好，一旦应用于光线欠佳甚至黑夜环境下，这些视觉任务的准确率和性能会大幅下降。其原因在于黑夜场景的能见度低，光线不充足，设备采集的图像会发生模糊，噪声点等影响，导致诸如检测识别任务等视觉任务不能很好的应对这些问题。解决这些问题的一个途径是对黑夜场景图像进行增强，使得这些图像获得近似白天图像的特性，从而可以大大提升计算机视觉任务的处理效果。正因如此，解决实际黑夜场景增强是迫切而有必要的。

由于实际场景往往没有严格成对的数据集，因此真实黑夜场景的图像增强归于无监督任务。现在的无监督黑夜增强任务面临3个主要问题：

1.伪色，图像模糊质量差；2.黑夜的增强效果不够；3.增强前后图像的失真导致语义信息丢失。

发明内容

本发明针对上述的三种问题提出了一种全新的处理思路，基于循环生成对抗残差网络的混合质量-任务-感知损失方法QTP(Quality，Task，Perception)。技术方案通过QTP三个维度的损失项来分别使得无监督黑夜增强任务面临的问题得到改善。

首先是Q(Quality)维度，代表的是图像质量，意思在于从单张图像本身的某种特性来约束模型，具体地，采用基于语义的图像质量评价的方式，将图像质量的得分作为衡量生成图像是否优秀来约束网络的训练。

其次是T(Task)维度，代表的是具体任务需求角度，本发明旨在解决的是黑夜增强任务，因此本发明设计了一种方法能做到对图像是否属于白天图像域的概率进行量化预测，获得的预测值衡量生成图像属于白天域的概率大小来约束网络的训练。

第三是P(Perception)维度，代表的是感知内容角度。由于黑夜域转白天域属于域转换任务，避免不了域转换后图像内容发生偏移，与被增强域不保持严格一致。为了解决这个问题，本发明采用了相位保持的方法，通过实验观察到图像经过傅里叶变换得到的频谱中，相位谱与图像本身的语义内容息息相关，而幅度谱则与风格纹理等特征相关。在训练的时候加上源域和目标域相位保持一致的约束，使得域转换后内容背景改变的现象得以改善。

实现本发明方法的具体技术方案是：

一种基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，整体框架图如图1所示，网络模型的输入为不严格配对的黑夜与白天图像，输出为预测的白天图像(对黑夜图像进行黑夜增强后的图像)和预测的黑夜图像。在循环生成对抗残差网络基础上附加三个模块，图像质量保持器模块部分(Q),白天概率预测模块部分(T)，相位保持器模块部分(P)。所述方法具体包括以下步骤：

步骤1：用摄像头或照相机获得黑夜场景图像和对应白天场景图像(二者数量一致，语义内容可不一致)，对数据集进行划分，将数据集按测试集数量比训练集数量为1：30划分出测试集和训练集。随后进行数据预操作：剪裁图像、缩放图像尺寸大小、图像旋转与翻转，最后将图像像素矩阵以均值方差皆为0.5归一化至[0,1]，作为循环生成对抗残差网络的输入内容。

步骤2：搭建循环生成对抗残差网络：循环生成对抗残差网络的网络结构由一对生成网络G_A与判别网络以及另一对生成网络G_B与判别网络组成。生成网络采用编码网络+残差块+解码网络结构，生成网络学习白天图像和黑夜图像之间的残差，用于进行黑夜白天域之间的转换。具体地，生成网络结构由三块内容组成如图2所示，网络输入和输出维度一致。判别网络结构如图3所示，由五层卷积层组成，输出为一维单节点，用于判断生成域是否真实。

步骤3：训练循环生成对抗残差网络的第一对生成网络G_A与判别网络，该生成网络完成黑夜域到白天域的转换，判别网络完成对生成网络的预测白天场景图像同真实白天场景图像进行比较，二者对抗协同进行训练，此消彼长，直至判别网络无法区分生成网络G_A的生成结果是预测白天场景图像还是真实白天场景图像。具体地，在上步骤中对于循环生成对抗残差网络的训练，有两组损失项。首先是循环对抗网络的损失项L_gan、L_cycle、L_identity，其次是本发明的创新的QTP损失项L_quality、L_task、L_phase。而后，是训练第二对生成网络G_B与判别网络，完成真实白天场景图像到预测黑夜场景图像的转换。训练过程和第一对类似，在第一对网络训练完成后训练第二对，二者交替训练。

其中，L_quality为质量损失。在实际场景的黑夜增强任务中，往往存在各式各样的问题，其中很重要的一点在于生成的白天域图像存在着大量伪色，模糊，畸变等情况，图像质量较为不理想。因此，需要解决关于生成图像的质量提升问题。那么如何量化图像质量这个命题，是首先要解决的任务。本发明引入了基于语义特征的图像质量评价指标，使用一个质量预测目标网络来进行对图像的打分。具体做法是首先用基本模型ResNet50[1]提取图像语义特征，然后将其输入到超网络(HyperNetwork详见参考文献[3])中，该超网络将为质量预测目标网络生成权重。质量预测目标网络会对输入图像进行打分，该打分输出值的范围是[0，100]，数值越大则表示图像质量越优异，该数值结果评估出图像优劣(图像失真程度)，该超网络和质量预测目标网络的构成，训练和具体打分推理过程见参考文献[3]。量化了图像质量这一模糊的概念之后，来看一下在真实数据集的得分结果。如图4所示，可以看到真实黑夜图像的质量得分很低，CycleGAN[2]算法生成的预测白天场景图像的质量得分也不理想，真实白天场景图像的得分较高。那么如果可以使得生成图像的质量得分上升，则可以一定程度上解决图像伪色，模糊，畸变等问题。因此，把图像质量得分作为损失项，约束生成对抗网络使得网络生成高质量图像的能力得到提升。

L_task为任务损失,除了上部分说明的生成图像的图像质量较差外，另一个问题就是黑夜增强的效果不理想，生成的图片光线不够充足，还是较暗，与真实白天域图像差别明显。因此，针对这个问题本发明创新地提出一种解决办法。神经网络可以优化某个具体的损失项，在训练的过程中使得这损失项越来越小，那么如果找到一种衡量方法来衡量图像的增强效果，并且量化它，那么它可以视为一项损失项，交给神经网络训练后，生成的图像会越来越接近白天域。在此设计了一种可以评估预测图像白天概率的白天概率预测器(Daytime Predictor,DP)，它的作用在于可以输出一幅图像属于白天域的概率。白天概率预测器需要进行数据准备和训练。具体数据准备分两个步骤，首先分别将黑夜数据集和白天数据集进行随机切块拼接，使得拼接之后的图像由黑夜域的小块和白天域的小块组成，再给合成的拼接图打上标签。如果小块是属于黑夜的，则标签为0，如果是属于白天的则置255，那么拼接图可以对应生成一张标签图，如图5所示：(a)为黑夜图像，(b)为白天图像，(c)为合成的图像，(d)为二值化后的标签图。对于标定的标签图，统计属于白天标签的像素个数占整体图像尺寸的比率代表这张图属于白天的概率。由于全黑像素值为0，全白像素值为255，如果将[0,255]归一化到[0,1]之后，那么白天概率也就是对应计算整张标签图像素的平均值。有了衡量图像白天概率的方法之后，接下来做的就是要训练白天概率网络预测器DP的生成网络，使得白天概率网络预测器DP也能输出一张像素值非黑即白的标签图(类似图5(d))，从而得到一幅图像的白天概率值。训练方式是将白天概率预测器DP的生成网络生成的标签图和标定的标签图做均方误差，使得二者尽可能的接近。最后准确率达到80％以上的吻合以后再投入使用。按照上述方法，可以获得图像的白天概率预测值，将这个预测值归一化到[0,1]之间后，加入生成对抗网络中，作为一损失项约束网络的训练。这样的做法可以使得网络生成的图像更接近白天域，黑夜增强能力得到提升。该白天概率预测器的生成网络结构同图2所示，由三层卷积层(编码网络)，九个残差模块，三层反卷积层(解码网络)构成。

L_phase为感知损失，由于实际场景的黑夜增强任务属于无监督域自适应问题，那么不可避免地会发生域迁移现象，也就是增强后由于域迁移导致生成图像和原始黑夜图像的内容发生改变，这会对黑夜增强任务的效果大打折扣，因此如何解决生成图像和原始黑夜图像的内容的不一致是亟待解决的问题。图像在经过傅里叶变换[4]后生成的频谱图中，相位谱和图像语义内容息息相关，而幅度谱则和纹理，颜色等感官信息相关。如图6所示，使用图中第一列不同风格图像的幅度谱加上图中第二列相同图像的相位谱之后，生成的第三列逆傅里叶重构图像虽然风格大不一样，但是从语义内容上看仍然是和第二列图像中的建筑一致的。因此，利用这个特性，在生成对抗网络训练的时候，保持预测白天场景图像和原始黑夜图像的相位一致来达到保持预测白天场景图像内容与原始黑夜图像一致的目的。那么在训练的过程中，虽然改变了预测白天场景图像的幅度谱，但是其相位谱仍然可以和原始黑夜图像的相位谱保持接近，这在语义内容这个维度上约束了生成对抗网络。

在上述循环生成对抗残差网络的训练中，将训练集数据和预操作后的数据作为输入以达到增加训练数据量的目的，将其随机裁剪成256*256像素尺寸以加快网络训练速度，随后将256*256像素尺寸的图像输入到循环生成对抗残差网络的生成网络中，生成预测白天图像(对黑夜图像进行黑夜增强后的图像)。将此生成图像经过L_gan、L_cycle、L_identity、L_quality、L_task、L_phase这些loss函数的计算各自相加后更新反传，再输入对应的判别网络进行判别。总的损失函数为L_overall＝L_gan+L_cycle+L_identity+L_quality+L_task+L_phase。循环生成对抗残差网络的生成网络和判别网络在训练过程中交替更新，目标是使得损失函数最小，使得网络尽量收敛，得到较好的接近收敛的黑夜增强网络。

步骤4：在本方法实际应用过程(即测试推理过程)中，将实际需要处理的测试集中黑夜场景图像(无需做剪裁处理，但需保证图像长和宽是4的倍数)输入步骤3训练好的黑夜增强网络，得到增强后的生成白天图像。

步骤3中，所述循环生成对抗残差网络的生成网络的网络结构如图2所示：三层卷积层(编码网络)图2-1，九个残差模块，三层反卷积层(解码网络)图2-3，其中残差模块如图2-2所示，由两层卷积层和残差跳线模块组成。循环生成对抗残差网络的判别网络结构如图3所示，由五层卷积层构成，最终输出为一维单节点，目的在于判别是真实白天场景图像还是生成的预测白天场景图像(对黑夜图像进行黑夜增强后的图像)。

训练过程的初始学习率为2e-4，逐步得到接近收敛的网络，并继续使用交替更新的方式进行网络参数的细化更新。这里设定较小的，合理的初始化学习率可使得交替训练有效进行。为了网络进一步收敛，网络学习率衰减方式为step decay(按间隔衰减)，具体来说过每100epochs学习率衰减十倍直到全部周期结束，学习过程结束。

总体损失函数具体定义如下：

L_overall＝λ_ganL_gan+λ_cycleL_cycle+λ_identityL_identity+λ_qualityL_quality+λ_taskL_task+λ_phaseL_phase，其中，λ_gan、λ_cycle、λ_identity、λ_quality、λ_task、λ_phase的值根据实际训练效果在0.001-10之间调整，具体相关损失项如下所述：

1)生成对抗式损失函数：

其中，G为循环生成对抗残差网络的生成网络，D为判别网络，y～q(y)表示图像数据y采样于训练集真实白天数据分布q(y)，x～p(x)表示图像数据采样于训练集输入黑夜数据分布p(x)，判别网络希望最大化公式中大括号内的函数，而生成网络希望最小化公式中大括号内的函数。

2)循环一致性损失函数：

L_cycle＝||G_B(G_A(x)-x||₁+||G_A(G_B(y)-y||₁

其中G_A为黑夜到白天的生成网络，G_B为白天到黑夜的生成网络，G_A的输入一般为真实黑夜场景x，是用来生成预测白天图像的生成网络，G_B的输入一般为真实白天场景图像y，是用来生成预测黑夜图像的生成网络，公式中||||₁表示L1范数。当把x送入到G_A中后，得到的是预测白天图像，再把这张假的白天图像送入到G_B中，得到更假的黑夜图像。理想情况下，此时的更假的黑夜图像应该与原始输入的黑夜图像x相差无几，即两图之差的L1范数非常小，反之亦然。这样也便构成了一个循环，因此叫做循环一致性损失。

3)Identity损失函数：

L_identity(G_A,G_B)＝E_y～q(y)[||G_A(y)-y||₁]+E_x～p(x)[|G_B(y)-x||₁]

生成网络G_A用来生成白天场景风格图像，那么把真实白天图像y送入G_A，应该更可以生成真实白天图像，只有这样才能证明G_A具有生成白天风格的能力。因此，G_A(y)和y应该尽可能接近。生成网络可能会自主地修改图像的色调，而该损失项会抑制这种效应，使得整体的颜色不容易产生变化。

4)Quality损失函数：

这里，N表示同时进行优化的图像数量，L_quality表示损失函数。x_i为输入真实黑夜图像，G_A(x_i)指的是生成的预测白天图像，y_i为非严格监督的参考真实白天图像。Quality(G_A(x_i))，Quality(y_i)分别表示生成的预测白天图像和参考真实白天图像的质量得分，具体质量得分计算方法见参考文献[3]。

5)Task损失函数：

其中，G_A(x_i)表示生成的预测白天场景图像，G_DP()为步骤3中白天概率预测器的输出，该输出为一张像素矩阵，avg()指代像素级别的平均，通过计算该矩阵的平均像素值即可视为该图白天概率值，N表示同时进行计算的图像数量。

6)Perception损失函数

这里，表示傅里叶变换的相位谱。分子<，>表示张量点积，分母中||||₂表示L2范数，x_i指的是输入黑夜场景图像，G_A(x_i)表示生成的预测白天场景图像，该公式旨在求生成图像和原始黑夜图像傅里叶变换相位谱向量的差异，即两个向量之间的夹角，N表示同时进行计算的图像数量。

基于以上方法，本发明还提出了一种基于循环生成对抗残差网络及QTP损失项的黑夜图像增强系统，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现前述的方法。

基于以上方法，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现前述的方法。

本发明基于循环生成对抗残差网络及QTP损失项的无监督真实场景领域的黑夜图像增强是一种有效的图像增强方法，是图像处理领域的经典任务。利用深度学习的方法是处理这一任务的主要方法，该方案在整个视觉区域具有效性。而基于常规深度学习的方法往往存在有三个常见的问题，即模糊或伪色、增强效果不足和语义信息缺失。基于改善上述问题本发明提出了一种新的混合损失“质量-任务-感知”(QTP)来同时缓解这三个问题。具体来说，这种混合损失包括三个部分:质量、任务和感知。质量部分通过加强参考图像和增强结果质量分数之间的相似性来解决模糊图像或伪造颜色问题。任务部分从约束增强结果具有更高的白天概率的角度来解决增强效果不足的问题，也就是白天概率最大化。感知部分通过保持黑夜增强前后图像傅里叶相位谱一致的方法来限制域转换后缺失的语义信息，保证黑夜图像和增强图像的内容一致性。通过融合新的损失函数，最终得到可学习且更理想的黑夜图像增强模型。本发明黑夜增强效果如图7所示，从左到右依次为输入黑夜图像、供参考的真实白天图像和本发明预测白天图像，其中输入黑夜图像、参考白天图像语义内容不是严格对应。本发明和其他现有方案(见参考文献[2][5][6][7])对比见图8，其中第二列QTP-ours，是本发明的结果图，第三列CycleGAN是参考文献[2]的结果，第四列Retinex-Net是参考文献[7]的结果，第五列EnlightenGAN是参考文献[5]的结果，第六列Zero-DCE是参考文献[6]的结果，最后一列Reference是真实白天场景图像，可以看到本发明的增强效果较为理想。

附图说明

图1为本发明整体网络框图。

图2-1、2-2、2-3为生成网络的结构图.

图3为判别网络的结构。

图4为Quality部分图像质量打分示例图。

图5为Task部分白天概率预测示意图。

图6为Perception部分相位保持逆傅里叶重构图。

图7为本发明在实际场景的增强效果图。

图8为本发明和其他方法对比图。

其中：

1.批归一化为归一化层；

2.ReLu为激活函数ReLu(x)＝max(0,x)；

3.Tanh为激活函数

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明包括以下具体步骤：

步骤1：获得黑夜场景图像和对应白天场景图像，对数据集进行划分，将数据集按测试集数量比训练集数量为1：30划分出测试集和训练集。随后进行数据预操作：剪裁图像、缩放图像尺寸大小(剪裁后大小和缩放后图像大小需要是4的倍数，具体尺寸视实际显卡显存而定)、图像旋转与翻转最后将图像像素矩阵以均值方差皆为0.5归一化至[0,1]，作为网络的输入内容。

步骤2：搭建循环生成对抗残差网络，网络结构由一对生成网络G_A与判别网络以及另一对生成网络G_B与判别网络组成。生成网络采用编码网络+残差块+解码网络结构，网络学习白天图像和黑夜图像之间的残差，用于进行黑夜白天域之间的转换。具体地，生成网络结构由三块内容组成如图2所示，网络输入和输出维度一致。判别网络结构如图3所示，由五层卷积层组成，输出一维单节点，用于判断生成域是否真实。

步骤3：训练循环生成对抗残差网络的第一对生成网络与判别网络，该生成网络完成黑夜域到白天域的转换，判别网络完成对生成网络的预测白天场景图像同真实白天场景图像进行比较，二者对抗协同进行训练，此消彼长，直至判别网络无法区分生成网络G_A的生成结果是预测白天场景图像还是真实白天场景图像。具体地，在上步骤中对于循环生成对抗残差网络的训练，有两组损失项。首先是循环对抗网络的损失项L_gan、L_cycle、L_identity，其次是本发明的创新损失项L_quality、L_task、L_phase。而后，是训练第二对生成网络G_B与判别网络，完成真实白天场景图像到预测黑夜场景图像的转换。训练过程和第一对类似，在第一对网络训练完成后训练第二对，二者交替训练。

其中，L_quality为质量损失。在实际场景的黑夜增强任务中，往往存在各式各样的问题，其中很重要的一点在于生成的白天域图像存在着大量伪色，模糊，畸变等情况，图像质量较为不理想。那么如何量化图像质量这个命题，是首先要解决的任务。引入基于语义特征的图像质量评价指标，使用一个质量预测目标网络来进行对图像的打分。具体做法是首先用基本模型ResNet50[1]中提取语义特征，然后将其输入到超网络中，该超网络将为质量预测目标网络生成权重。质量预测目标网络进行质量预测的结果输出，该打分输出值的范围是[0，100]，数值越大则表示图像质量越优异，该数值结果评估出图像优劣(图像失真程度)，该超网络和质量预测目标网络的构成，训练和具体打分推理过程见参考文献[3]。量化了图像质量这一模糊的概念之后，来看一下在真实数据集的得分结果。如图4所示，可以看到真实黑夜图像的质量得分很低，CycleGAN[2]算法生成的白天域图像的质量得分也不理想，真实白天域图像的得分较高。那么如果可以使得生成图像的质量得分上升，则可以一定程度上解决图像伪色，模糊，畸变等问题。因此，把图像质量得分作为损失项，约束生成对抗网络使得网络生成高质量图像的能力得到提升。

L_task为任务损失，除了上部分说明的生成图像的图像质量较差外，另一个问题就是黑夜增强的效果不理想，生成的图片光线不够充足，还是较暗，与真实白天域图像差别明显。因此，针对这个问题本发明创新的提出一种解决办法。神经网络可以优化某个具体的损失项，在训练的过程中使得这损失项越来越小，那么如果找到一种衡量方法来衡量图像的增强效果，并且量化它，那么它可以视为一项损失项，交给神经网络训练后，生成的图像会越来越接近白天域。在此设计了一种可以评估预测图像白天概率的白天概率预测器(Daytime Predictor，DP)，它的作用在于可以输出一幅图像属于白天域的概率。白天概率预测器需要进行数据准备和训练。具体数据准备分两个步骤，首先分别将黑夜数据集和白天数据集进行随机切块拼接，使得拼接之后的图像由黑夜域的小块和白天域的小块组成，再手动地给合成的拼接图打上标签。如果小块是属于黑夜的，则标签为0，如果是属于白天的则置255，那么拼接图可以对应生成一张标签图，如图5所示：(a)为黑夜图像，(b)为白天图像，(c)为合成的图像，(d)为二值化后的标签图。对于人为标定的标签图，统计属于白天标签的像素个数占整体图像尺寸的比率代表这张图属于白天的概率。由于全黑像素值为0，全白像素值为255，如果将[0,255]归一化到[0，1]之后，那么白天概率也就是对应计算整张标签图像素的平均值。有了衡量图像白天概率的方法之后，接下来做的就是要训练白天概率预测器DP的生成网络，使得白天概率预测器DP也能输出一张像素值非黑即白的标签图(类似图5(d))从而得到一幅图像的白天概率值。训练方式是将白天概率预测器DP生成网络生成的标签图和人为标定的标签图做均方误差，使得二者尽可能的接近。在数据准备时，可准备1万张以上拼接的图像提供给白天概率预测器DP进行训练，最后准确率达到80％以上的吻合以后再投入使用。按照上述方法，可以获得图像的白天概率预测值，将这个预测值归一化到[0,1]之间后，加入生成对抗网络中，作为一损失项约束网络的训练。这样的做法可以使得网络生成的图像更接近白天域，黑夜增强能力得到提升。该白天概率预测器的生成网络结构同图2所示，由三层卷积层(编码网络)，九个残差模块，三层反卷积层(解码网络)构成。

L_phase为感知损失，由于实际场景的黑夜增强任务属于无监督域自适应问题，那么不可避免的会发生域迁移现象，也就是增强后由于域迁移导致生成图像和原始黑夜图像的内容发生改变，这会对黑夜增强任务的效果大打折扣，因此如何解决生成图像和原始黑夜图像的内容的不一致是亟待解决的问题。图像在经过傅里叶变换[4]后生成的频谱图中，相位谱和图像语义内容息息相关，而幅度谱则和纹理，颜色等感官信息相关。如图6所示，使用图中第一列不同风格图像的幅度谱加上图中第二列相同图像的相位谱之后，生成的第三列逆傅里叶重构图像虽然风格大不一样，但是从语义内容上看仍然是和第二列图像中的建筑一致的。因此，利用这个特性，在生成对抗网络训练的时候，保持生成图像和原始黑夜的相位一致来达到保持生成图像内容与原始黑夜图像一致的目的。那么在训练的过程中，虽然改变了生成图的幅度谱，但是相位谱仍然可以和原始黑夜图像的相位谱保持接近，这在语义内容这个维度上约束了生成对抗网络。

在上述循环生成对抗残差网络的训练中，将训练集数据和预操作后的数据作为输入以达到增加训练数据量的目的，将其随机裁剪成256*256像素尺寸以加快网络训练速度，随后将256*256像素尺寸的图像输入到循环生成对抗残差网络的生成网络，生成预测白天图像(对黑夜图像进行黑夜增强后的图像)。将此生成图像经过L_gan、L_cycle、L_identity、L_quality、L_task、L_phase这些loss函数的计算各自相加后更新反传，再输入对应的判别网络进行判别。总的损失函数为L_overall＝L_gan+L_cycle+L_identity+L_quality+L_task+L_phase。循环生成对抗残差网络的生成网络和判别网络在训练过程中交替更新，目标是使得损失函数最小，使得网络尽量收敛，得到较好的接近收敛的黑夜增强网络。

步骤2中，所述循环生成对抗残差网络的判别网络结构如图3所示，由五层卷积层构成，最终输出为一维单节点。具体而言，将一个复杂的回归问题转化为一个分类问题，目的在于判别是真实白天场景图像还是生成的预测白天场景图像。

步骤2中，训练过程的初始学习率为2e-4，得到接近收敛的网络，并继续使用交替更新的方式进行网络参数的细化更新。这里设定较小的，合理的初始化学习率可使得交替训练有效进行。为了网络继续收敛，网络学习率衰减方式为step decay(按间隔衰减)，具体来说过每100epochs学习率衰减十倍直到跑完所有300epochs周期，学习过程结束。

步骤2中所述的总体损失函数具体定义如下：

1)生成对抗式损失函数：

其中，G为循环生成对抗残差网络的生成网络，D为判别网络，y～q(y)表示图像数据y采样于训练集真实白天数据分布q(y)，x～p(x)表示图像数据x采样于训练集输入黑夜数据分布p(x)，判别网络希望最大化公式中大括号内的函数，而生成网络希望最小化公式中大括号内的函数。

2)循环一致性损失函数：

L_cycle＝||G_B(G_A(x)-x||₁+||G_A(G_B(y)-y||₁

其中，G_A为黑夜到白天的生成网络，G_B为白天到黑夜的生成网络，G_A的输入一般为真实黑夜场景x，是用来生成预测白天图的生成网络，G_B的输入一般为真实白天场景图像y，是用来生成预测黑夜图的生成网络，公式中||||₁表示L1范数。当把x送入到G_A中后，得到的是预测白天场景图，再把这张图像送入到G_B中，得到更假的黑夜图像。理想情况下，此时的更假的黑夜图像应该与原始输入黑夜图像相差无几，即两图之差的L1范数非常小，反之亦然。这样也便构成了一个循环，因此叫做循环一致性损失。

3)Identity损失函数

L_identity(G_A,G_B)＝E_y～q(y)[||G_A(y)-y||₁]+E_x～p(x)[|G_B(y)-x||₁]

生成网络G_A用来生成白天场景风格图像，那么把真实白天图y送入G_A，应该更可以生成白天场景图像y，只有这样才能证明G_A具有生成白天风格的能力。因此，G_A(y)和y应该尽可能接近。生成网络可能会自主地修改图像的色调，而该损失项会抑制这种效应，使得整体的颜色不容易产生变化。

4)Quality损失函数：

5)Task损失函数

其中，G_A(x_i)指的是生成的预测白天图像，G_DP()为步骤3中白天概率预测器的输出，该输出为一张像素矩阵，avg()指代像素级别的平均，通过计算该矩阵的平均像素值即可视为该图白天概率值，N表示同时进行计算的图像数量。

6)Perception损失函数

这里，表示傅里叶变换的相位谱。分子<，>表示张量点积，分母中||||₂表示L2范数，x_i指的是输入黑夜场景，G_A(x_i)表示生成的预测白天场景图像，该公式旨在求生成图像和原始黑夜图像傅里叶变换相位谱向量的差异，即两个向量之间的夹角，N表示同时进行计算的图像数量。

参考文献

[1]Kaiming He，Xiangyu Zhang，Shaoqing Ren，and Jian Sun.Deep residuallearning for image recognition.In Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770–778，2016.

[2]J.Zhu，T.Park，P.Isola，and A.A.Efros.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.In Proceedings of theIEEE international conference on computer vision，pages 2223–2232，2017.

[3]Shaolin Su，Qingsen Yan，Yu Zhu，Cheng Zhang，Xin Ge，Jinqiu Sun，andYanning Zhang.Blindly assess image quality in the wild guided by a self-adaptive hyper network.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition，pages 3667–3676，2020.

[4]Ronald Newbold Bracewell and Ronald N Bracewell.The Fouriertransform and its applications，volume 31999.McGraw-Hill New York，1986.

[5]Y.Jiang，X.Gong，D.Liu，Y.Cheng，C.Fang，X.Shen，J.Yang，P.Zhou，andZ.Wang.Enlightengan:Deep light enhancement without paired supervision.arXivpreprint arXiv:1906.06972，2019.

[6]Chunle Guo，Chongyi Li，Jichang Guo，Chen Change Loy，Junhui Hou，SamKwong，and Runmin Cong.Zeroreference deep curve estimation for low-light imageenhancement.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition，pages 1780–1789，2020.

[7]C.Wei，W.Wang，W.Yang，and J.Liu.Deep retinex decomposition for low-light enhancement.In British Machine Vision Conference，pages 2223–2232，2018.

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，其特征在于，包括以下步骤：

步骤1：收集黑夜场景图像和对应白天场景图像形成数据集；将数据集划分为测试集和训练集，并进行数据预操作；

步骤2：搭建循环生成对抗残差网络，其网络结构由一对生成网络G_A与判别网络以及另一对生成网络G_B与判别网络组成；所述生成网络采用编码网络+残差块+解码网络结构，所述生成网络学习白天图像和黑夜图像之间的残差，用于进行黑夜白天域之间的转换；判别网络结构由五层卷积层组成，输出为一维单节点，用于判断生成域是否真实；

步骤3：训练循环生成对抗残差网络的第一对生成网络G_A与判别网络，该生成网络G_A完成黑夜域到白天域的转换，判别网络完成对生成网络G_A的预测白天场景图像同真实白天场景图像进行比较，二者对抗协同进行训练，直至判别网络无法区分生成网络G_A的生成结果是预测白天场景图像还是真实白天场景图像；而后训练第二对生成网络G_B与判别网络，完成真实白天场景图像到预测黑夜场景图像的转换，训练过程和第一对类似，在第一对生成网络G_A训练完成后训练第二对生成网络G_B，二者交替训练；

在所述循环生成对抗残差网络的训练中，将训练集数据和预操作后的数据作为输入以达到增加训练数据量的目的，将其随机切割成256*256像素尺寸以加快网络训练速度，随后将256*256像素尺寸的图像输入到循环生成对抗残差网络的生成网络，生成预测白天图像；将此生成图像经过总体损失函数的计算后更新反传，再输入对应的判别网络进行判别；循环生成对抗残差网络的生成网络和判别网络在训练过程中交替更新，目标是使得总体损失函数最小，使得网络尽量收敛，得到接近收敛的黑夜增强网络；

步骤3中对于循环生成对抗残差网络的训练，包括两组损失项；循环对抗网络损失项和QTP损失项；循环对抗网络损失项包括L_gan、L_cycle、L_identity；所述QTP损失项包括L_quality、L_task、L_phase；其中，

L_quality为质量损失：首先用基本模型ResNet50提取语义特征，然后将语义特征输入到超网络中，质量预测目标网络进行质量预测的结果输出，该输出值的范围是[0，100]，数值越大则表示图像质量越优异，该数值结果评估出图像优劣；

L_task为任务损失：建立可以评估预测图像白天概率的白天概率预测器，训练白天概率预测器的生成网络，使得该生成网络能输出一张像素值非黑即白的标签图，计算该标签图的像素平均值从而得到一幅图像的白天概率预测值；获得了图像的白天概率预测值，将该概率预测值归一化到[0,1]之间后，加入循环生成对抗残差网络中，作为一损失项约束循环生成对抗残差网络的训练；

L_phase为感知损失：在循环生成对抗残差网络训练的时候，保持生成图像和原始黑夜的相位一致来达到保持生成图像内容与原始黑夜图像一致的目的，在语义内容维度上约束了生成对抗网络；

步骤3中总体损失函数具体定义如下：

L_overall＝λ_ganL_gan+λ_cycleL_cycle+λ_identityL_identity+λ_qualityL_quality+λ_taskL_task+λ_phaseL_phase，其中，λ_gan、λ_cycle、λ_identity、λ_quality、λ_task、λ_phase的值根据实际训练效果在0.001-10之间调整；

生成对抗式损失函数：

其中，G为循环生成对抗残差网络的生成网络，D为判别网络，y～q(y)表示图像数据y采样于训练集真实白天数据分布q(y)，x～p(x)表示图像数据x采样于训练集输入黑夜数据分布p(x)，判别网络希望最大化公式中大括号内的函数，而生成网络希望最小化公式中大括号内的函数；

循环一致性损失函数：

L_cycle＝||G_B(G_A(x)-x||₁+||G_A(G_B(y)-y||₁

其中，G_A为黑夜到白天的生成网络，G_B为白天到黑夜的生成网络，G_A的输入一般为真实黑夜场景图像x，是用来生成预测白天图像的生成网络，G_B的输入一般为真实白天场景图像y，是用来生成预测黑夜图像的生成网络，公式中||||₁表示L1范数；

Identity损失函数：

L_identity(G_A,G_B)＝E_y～q(y)[||G_A(y)-y||₁]+E_x～p(x)[|G_B(y)-x||₁]；

Quality损失函数：

其中，N表示同时进行优化的图像数量，L_quality表示损失函数；x_i为输入真实黑夜图像，G_A(x_i)指的是生成的预测白天图像，y_i为非严格监督的参考真实白天图像；Quality(G_A(x_i))，Quality(y_i)分别表示生成的预测白天图像和参考真实白天图像的质量得分；

Task损失函数：

其中，G_A(x_i)表示生成的预测白天场景图像，G_DP()为白天概率预测器的输出，该输出为一张像素矩阵，avg()指代像素级别的平均，通过计算该矩阵的平均像素值即可视为该图白天概率值，N表示同时进行计算的图像数量；

Perception损失函数：

其中，表示傅里叶变换的相位谱；分子<，>表示张量点积，分母中||||₂表示L2范数，x_i指的是输入黑夜场景图像，G_A(x_i)表示生成的预测白天场景图像，N表示同时进行计算的图像数量；

步骤4：将实际需要处理的黑夜场景图像输入训练好的黑夜增强网络，得到增强后的生成白天图像。

2.如权利要求1所述的基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，其特征在于，步骤1中包括数据预操作：剪裁图像、缩放图像尺寸大小、图像旋转与翻转，最后将图像像素矩阵以均值方差皆为0.5归一化至[0,1]，作为循环生成对抗残差网络的输入内容。

3.如权利要求1所述的基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，其特征在于，白天概率预测器的网络结构由三层卷积层，九个残差模块，三层反卷积层构成。

4.如权利要求1所述的基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，其特征在于，白天概率预测器的数据准备过程为：首先分别将黑夜数据集和白天数据集进行随机切块拼接，使得拼接之后的图像由黑夜域的小块和白天域的小块组成，再给合成的拼接图打上标签；如果小块是属于黑夜的，则标签为0，如果是属于白天的则置255，那么拼接图对应的生成一张标签图；对于经过上述过程标定的标签图，统计属于白天标签的像素个数占整体图像尺寸的比率代表这张图属于白天的概率；由于全黑像素值为0，全白像素值为255，如果将[0,255]归一化到[0，1]之后，那么白天概率就是对应计算整张图像素的平均值；在数据准备过程中，准备10000-15000张拼接的图像和经过标定的标签图提供给白天概率预测器进行训练。

5.如权利要求1所述的基于循环生成对抗残差网络及QTP损失项的黑夜图像增强方法，其特征在于，白天概率预测器的训练方式是将白天概率预测器生成的标签图和经过标定的标签图做均方误差，使得二者尽可能接近；最后准确率达到80％以上的吻合以后投入使用。

6.一种基于循环生成对抗残差网络及QTP损失项的黑夜图像增强系统，其特征在于，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-5任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-5任一项所述的方法。