CN111861949B

CN111861949B - 一种基于生成对抗网络的多曝光图像融合方法及系统

Info

Publication number: CN111861949B
Application number: CN202010318771.0A
Authority: CN
Inventors: 王金华; 何宁; 徐光美; 张敬尊
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-07-04
Anticipated expiration: 2040-04-21
Also published as: CN111861949A

Abstract

本发明提供一种基于生成对抗网络的多曝光图像融合方法及系统，其中方法包括训练步骤和测试步骤，所述训练步骤包括初始化判别网络D的参数θ_d和生成网络G的参数θ_g、训练判别网络和训练生成网络，其中所述训练判别网络包括以下子步骤：从真实图像中采集N个图像，{I¹，I²，…，I^N}；定义

获取N个图像样本对应的多曝光图像序列，记作

跟据生成器G，获得融合结果图像，记作

定义

采用SGD更新所述判别网络参数θ_d，

本发明利用卷积神经网络实现端到端的多曝光融合技术，经过融合后得到的结果图像，不仅有助于人眼对场景的辨识，而且对边缘检测、图像分割、图像锐化等数字图像后续处理和计算机视觉系统研究也具有积极的意义。

Description

一种基于生成对抗网络的多曝光图像融合方法及系统

技术领域

本发明涉及图像处理的技术领域，特别是一种基于生成对抗网络的多曝光图像融合方法及系统。

背景技术

在日常生活中，当我们用传统相机在室内拍摄有阳光射入的门、窗等场景图像时，或对着有太阳、灯光的方向拍摄图像时，不管怎样调整相机参数，都会存在严重丢失场景细节信息的现象。为什么会出现这种信息严重丢失的现象呢？原因在于真实场景所展现的亮度范围超出了相机本身所能显示的动态范围。真实场景具有非常宽广的动态范围，比如说，从夜空中的星光到耀眼的太阳，场景亮度变化涵盖了大约九个数量级(10⁹)的动态范围。但是，目前普通的显示/输出设备受到软硬件水平的限制，使得数字图像的存储、传输、处理、显示等都是基于8-bit整数来进行的，只能表示256(约10²)个深度等级，图像的亮度级别十分有限。正是由于动态范围的不匹配才导致所获取的图像细节信息丢失。由于一组同一场景不同曝光度的图像序列要比单一图像提供更多的信息。较暗的照片可以提供场景明亮处的细节，而较亮的图像可以较好地显示暗处细节。那么可以对多幅图像直接进行融合，分别提取每幅图像的有用信息，然后进行融合得到一幅尽可能多的包含场景信息的高质量图像进行显示。

现有技术存在着下列问题：1)利用多幅同一场景不同曝光的图像序列合成一幅该场景的HDR图像。但是，现有的通用显示设备(如 CRT显示器)仅能显示约两个数量级动态范围的亮度，这一状况由于受到硬件成本的制约，短时期内难以得到改变。所以，如何使已获得HDR 图像在低动态范围的显示设备上有效地进行显示输出，即高动态范围图像的色调映射问题。该过程过于复杂，限制了方法的实际应用。2) 多曝光图像融合，输入图像序列的个数往往不确定，这就限制了许多现有生成对抗网络的应用。3)标准的生成对抗网络忽略了先验知识，即批量样本中有一半是假的。这样，使判别器的训练过程很难收敛，并且判别器不会做出合理的预测。这意味着标准生成对抗网络中的判别器存在梯度消失情况，不能被训练到最佳状态。

2018年公开了一篇题目为《Deep Recursive HDRI：Inverse Tone Mapping usingGenerative Adversarial Networks》的论文，其内容为：高动态范围图像包含了物理世界的亮度信息，比传统的低动态范围图像提供了更真实的体验。由于大多数图像的动态范围较低，因此从单个低动态范围图像中恢复丢失的动态范围仍然很普遍。本文提出了一种新的方法，通过深度神经网络从低动态范围恢复丢失的动态范围，该方法是基于条件生成对抗网络结构的多曝光叠加的高动态范围图像生成框架。在这种结构中，通过设置一个目标函数来训练网络，该目标函数是L1损失和生成性对抗性网络损失的组合。在实验结果中，与现有方法相比，该网络在避免公共基准上的伪影的同时，生成了一个由具有不同曝光值的真实图像组成的多曝光堆栈。该论文提到的方法是用多幅同一场景不同曝光的图像序列合成一幅该场景的HDR图像。但是，现有的通用显示设备(如CRT显示器)仅能显示约两个数量级动态范围的亮度，这一状况由于受到硬件成本的制约，短时期内难以得到改变，需要后续的色调映射算法才能解决使已获得HDR图像在低动态范围的显示设备上有效地进行显示输出。

发明内容

为了解决上述的技术问题，本发明提出的基于生成对抗网络的多曝光图像融合方法，利用卷积神经网络实现端到端的多曝光融合技术，经过融合后得到的结果图像，不仅有助于人眼对场景的辨识，而且对边缘检测、图像分割、图像锐化等数字图像后续处理和计算机视觉系统研究也具有积极的意义。

本发明的第一目的是提供一种基于生成对抗网络的多曝光图像融合方法，包括训练步骤和测试步骤，所述训练步骤包括初始化判别网络D的参数θ_d和生成网络G的参数θ_g、训练判别网络和训练生成网络，其中所述训练判别网络包括以下子步骤：

步骤01：从真实图像中采集N个图像，记作{I¹，I²，...，I^N}；

步骤02：定义

其中，/>

表示批处理中所有真实图像判别值的平均值，I_r表示真实图像，i表示输入图像序列的第i个图像，C(·)表示当前判别器输出概率值，/>

是批处理中所有真实图像判别值的平均值的计算公式；

步骤03：获取N个图像样本对应的多曝光图像序列，记作

其中，I_seq表示输入多曝光图像序列；

步骤04：跟据生成器G，获得融合结果图像，记作

其中，

f表示由生成器G生成的假样本，θ_G表示生成网络参数；

步骤05：定义

其中，/>

表示批处理中所有假图像判别值的平均值，I_f表示假图像，/>

是批处理中所有假图像判别值的平均值的计算公式；

步骤06：采用SGD更新所述判别网络参数θ_d，

其中， LOSS_D为判别网络损失函数，

其中，D_Ra表示相对平均判别器，/>

σ表示 sigmoid函数。

优选的是，训练所述判别网络的过程要更新n_D次，其中，n_D表示所述判别网络的迭代次数。

在上述任一方案中优选的是，所述训练生成网络包括以下子步骤：步骤11：从真实图像中采集N个图像，记作{I¹，I²，...，I^N}；

步骤12：定义

步骤13：获取N个图像样本对应的多曝光图像序列，记作

步骤14：根据生成器G，获得融合结果图像，记作

其中，

步骤15：定义

步骤16：采用SGD更新所述生成网络参数θ_g，

其中，LOSS_VGG表示特征损失函数，LOSS_Pixel表示内容损失函数，LOSS_Gen表示对抗损失函数，LOSS_clarity表示清晰度损失函数。

在上述任一方案中优选的是，所述生成网络的目标函数定义为

其中，LOSS_G为生成网络的损失函数，所述生成网络的损失函数LOSS_G由所述内容损失函数LOSS_Pixel、所述特征损失函数LOSS_VGG、所述清晰度损失函数LOSS_clarity和所述对抗损失函数LOSS_Gen四组成。

在上述任一方案中优选的是，所述特征损失函数LOSS_VGG是生成图像的特征与真实图像特征的MSE值，公式为

其中，W_ij和H_ij分别代表特征图像的宽度和高度，x、y表示特征的坐标位置，φ_ij表示VGG网络图中第j个最大池化层之前的第i个卷积神经网络的输出。

在上述任一方案中优选的是，所述内容损失函数LOSS_Pixel用于体现像素级的MSE损失，公式为

其中，W和H表示图像的宽度和高度。

在上述任一方案中优选的是，所述对抗损失函数LOSS_Gen通过交叉熵函数来定义，公式为：

在上述任一方案中优选的是，所述清晰度损失函数LOSS_clarity通过分别提取生成图像和真实图像的清晰度特征，并计算两个特征的MSE 值，公式为：

其中，S_h表示水平梯度图像，S_v表示垂直梯度图像，L_r表示真实图像对应的灰度图像，

表示生成图像对应的灰度图像，W_s和H_s表示梯度图像的大小。

在上述任一方案中优选的是，所述测试步骤是指将K张图像序列输入生成对抗网络，经过多曝光图像融合处理后得到结果图像，其中， K为不确定数值的常数。

本发明的第二目的是提供一种基于生成对抗网络的多曝光图像融合系统，包括训练模块和测试模块，所述训练模块包括初始化子模块、判别网络训练子模块和生成网络训练子模块，其中，所述判别网络训练子模块的训练包括以下子步骤：

步骤02：定义

其中，/>

表示是批处理中所有真实图像判别值的平均值的计算公式；

步骤03：获取N个图像样本对应的多曝光图像序列，记作

其中，I_seq表示输入多曝光图像序列；

步骤04：跟据生成器G，获得融合结果图像，记作

其中，

f表示由生成器G生成的假样本，θ_G表示生成网络参数；

步骤05：定义

其中，/>

表示是批处理中所有假图像判别值的平均值的计算公式；

步骤06：采用SGD更新所述判别网络参数θ_d，

其中， LOSS_D为判别网络损失函数，

其中，D_Ra表示相对平均判别器，/>

σ表示 sigmoid函数。

在上述任一方案中优选的是，所述生成网络训练子模块的训练包括以下子步骤：

步骤11：从真实图像中采集N个图像，记作{I¹，I²，...，I^N}；

步骤12：定义

步骤13：获取N个图像样本对应的多曝光图像序列，记作

步骤14：根据生成器G，获得融合结果图像，记作

其中，

步骤15：定义

步骤16：采用SGD更新所述生成网络参数θ_g，

其中，W和H表示图像的宽度和高度。

在上述任一方案中优选的是，所述测试模块用于将K张图像序列输入生成对抗网络，经过多曝光图像融合处理后得到结果图像，其中， K为不确定数值的常数。

本发明提出了一种基于生成对抗网络的多曝光图像融合方法及系统，能够获取更好的视频效果多曝光图像融合技术既具有实际的应用价值，又具有理论研究价值。

附图说明

图1为按照本发明的基于生成对抗网络的多曝光图像融合方法的一优选实施例的流程图。

图2为按照本发明的基于生成对抗网络的多曝光图像融合系统的一优选实施例的模块图。

图3为按照本发明的基于生成对抗网络的多曝光图像融合方法的一优选实施例的融合框架图。

图4为按照本发明的基于生成对抗网络的多曝光图像融合方法的一优选实施例的生成网络过程图。

图5为按照本发明的基于生成对抗网络的多曝光图像融合方法的一优选实施例的层间权重卷积过程图。

图6为按照本发明的基于生成对抗网络的多曝光图像融合方法的一优选实施例的判别网络结构图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，一种基于生成对抗网络的多曝光图像融合方法，包括训练步骤1000和测试步骤1100。

在训练步骤1000，执行步骤1010，初始化判别网络D的参数θ_d和生成网络G的参数θ_g。

执行步骤1020，训练判别网络，训练所述判别网络的过程要更新 n_D次，其中，n_D表示所述判别网络的迭代次数。

在本步骤中，执行步骤1021，从真实图像中采集N个图像，记作{I¹，I²，...，I^N}。

执行步骤1022，定义

其中，/>

表示是批处理中所有真实图像判别值的平均值的计算公式。

执行步骤1023，获取N个图像样本对应的多曝光图像序列，记作

其中，I_seq表示输入多曝光图像序列。

执行步骤1024，跟据生成器G，获得融合结果图像，记作

其中，/>

f表示由生成器G生成的假样本，θ_G表示生成网络参数。

执行步骤1025，定义

其中，/>

表示是批处理中所有假图像判别值的平均值的计算公式。

执行步骤1026，采用SGD更新所述判别网络参数θ_d，

其中，LOSS_D为判别网络损失函数，

其中，D_Ra表示相对平均判别器，/>

σ表示 sigmoid函数。

执行步骤1030，训练生成网络。生成网络的目标函数定义为

其中，LOSS_G为生成网络的损失函数，所述生成网络的损失函数 LOSS_G由内容损失函数LOSS_Pixel、特征损失函数LOSS_VGG、清晰度损失函数LOSS_clarity和对抗损失函数LOSS_Gen四部分组成。

在本步骤中，执行步骤1031，从真实图像中采集N个图像，记作 {I¹，I²，...，I^N}。

执行步骤1032，定义

执行步骤1033，获取N个图像样本对应的多曝光图像序列，记作

执行步骤1034，根据生成器G，获得融合结果图像，记作

其中，/>

执行步骤1035，定义

执行步骤1036，采用SGD更新所述生成网络参数θ_g，

特征损失函数LOSS_VGG是生成图像的特征与真实图像特征的MSE值，公式为

内容损失函数LOSS_Pixel用于体现像素级的MSE损失，公式为

其中，W和H表示图像的宽度和高度。

对抗损失函数LOSS_Gen通过交叉熵函数来定义，公式为：

清晰度损失函数LOSS_clarity通过分别提取生成图像和真实图像的清晰度特征，并计算两个特征的MSE值，公式为：

测试步骤1100是指将K张图像序列输入生成对抗网络，经过多曝光图像融合处理后得到结果图像，其中，K为不确定数值的常数。

实施例二

本专利利用相对生成对抗网络实现一种端到端的多曝光图像融合方法，通过生成网络来实现多曝光图像的融合，通过判别网络判别生成网络所融合图像的真伪，所提的生成对抗网络主要由生成网络、判别网络、特征提取网络组成。

生成网络根据输入的多曝光图像序列生成一幅融合结果图像。

判别网络用于判断输入的图像是真实图像(拍摄的图像)还是生成的假图像(由生成网络生成的图像)。

特征提取网络用于提取图像特征，辅助生成网络的训练，特征提取网络采用预先训练的模型，对抗网络训练过程中不需要对特征提取网络进行训练。

在训练过程中判别网络不断提升对输入图像的判别能力，生成网络不断提升所生成图像的质量，使判别网络难以区分是否是生成图像。

所提出的生成对抗网络框架如图3所示。下面分训练样本、网络结构(生成网络、判别网络)、损失函数(生成网络的损失函数、判别网络的损失函数)、优化方法和训练过程进行阐述。

1、训练样本

本专利所设计的网络采用有监督学习。训练样本数据来源 ImageNet和2K_Resolution数据集，从原始图像采集一个子图像sub，通过对子图像乘以一组随机系数来生成不同曝光的图像序列，包含低曝光到高曝光的图像，不可以全是低曝光，或全是高曝光图像序列，图像序列至少包含3张图像，子图像sub作为标签图像数据。在生成多曝光图像时，随机对部分样本采用下采样后再复原的方式，降低训练图像质量。所有的样本数据归一化到[0，1]之间。

2、网络结构

对抗生成网络主要由生成网络和判别网络构成。

1)生成网络结构

生成网络是一个全卷积网络，输入是多曝光序列，通过网络输出一个生成图像。具体网络结构如图4所示。

第一层：层间共享权重卷积层。对于多曝光图像融合，输入图像序列的个数往往不确定，这就限制了许多现有生成网络的应用。本专利提出一种层间共享权重卷积层，可以解决输入不确定的问题。不管多少图像序列作为输入，在经过层间共享卷积操作后，可以得到固定数量特征图，输出的特征图作为后续网络的输入。

层间共享权重卷积的公式：

其中N表示图像序列个数，i表示输入图像序列的第i个图像。W₁表示滤波器，W₁是n₁个f₁×f₁卷积核，可以看出W₁是对原始图像序列进行n₁次卷积操作，每个卷积操作采用f₁×f₁大小的卷积核，第一层卷积输出n₁个特征图，该层可看做原始图像序列的一种非线性表示，max是非线性函数。例如：如果是RGB彩色图像，卷积核大小是3×3×3×n₁。当n₁＝1024时，图像序列经过一组3×3×3过滤器后，得到一个特征图像；经过1024组过滤器就可以得到1024个特征图像，1024个过滤器可以捕获足够的图像特征数据，从而使后续的网络训练有充足的信息。权重共享过程如图5所示：

第二层：卷积层。卷积核大小3*3，stride为1，padding为1，输出通道数512，采用Relu激活函数。

第三层：卷积层。卷积核大小为3*3，stride为1，padding为1，输出通道数512，采用Relu激活函数。

第四层：卷积层。卷积核大小为1*1，stride为1，padding为0，输出通道数256，采用Relu激活函数。

第五层：拼接层。通道合并将第一层的1024个输出特征图与第四层输出256个特征图叠加到一起，形成1280个通道的特征图。利用第一层特征的重用，可以减少梯度消失情况的发生。

第六层：卷积层。卷积核大小为1*1，stride为1，padding为0，输出通道数为3；采用Sigmod激活函数；本层的输出即为RGB融合结果图像。

2)判别网络结构

判别网络用于判断输入图像是生成网络生成的假图像，还是真实图像。网络输出是一个概率值。具体网络结构如图6所示：

中间有7个卷积层构成(每个单元有Conv+BN+Swith组成)。具体描述如表1所示：

表1判别网络结构描述

输入	RGB图像
		Conv+Swith激活	输入3通道；输出64通道；卷积核3×3；Stride：1；Padding：1
Conv+BN+Swith激活	输入64通道；输出64通道；卷积核3×3；Stride：2；Padding：1
		Conv+BN+Swith激活	输入64通道；输出128通道；卷积核3×3；Stride：1；Padding：1
Conv+BN+Swith激活	输入128通道；输出128通道；卷积核3×3；Stride：2；Padding：1
		Conv+BN+Swith激活	输入128通道；输出256通道；卷积核3×3；Stride：1；Padding：1
Conv+BN+Swith激活	输入256通道；输出256通道；卷积核3×3；Stride：2；Padding：1
		Conv+BN+Swith激活	输入256通道；输出512通道；卷积核3×3；Stride：1；Padding：1
Conv+BN+Swith激活	输入512通道；输出512通道；卷积核3×3；Stride：2；Padding：1
		Conv	输入512通道；输出3通道；卷积核1×1；Stride：1；Padding：0
Average池化+Sigmod激活	池化核为上层输出特征图大小，即特征图的平均值

表1

由上表可以看出，最后一层采用的Sigmod激活函数，其他激活层采用了Swith激活函数，定义如下：

f(x)＝x×sigmod(x) (2)

3、损失函数

(1)生成网络的目标函数定义如下：

其中N表示批处理图像样本个数，I_seq表示输入多曝光图像序列，I_r表示真实图像。θ_G为生成网络参数。LOSS_Gen为生成网络的损失，它由内容损失、特征损失、清晰度损失和生成对抗损失四部分组成。

1)内容损失

内容损失是指像素级的MSE损失，具体公式如下：

其中W和H表示图像的宽度和高度。MSE损失可以解决图像融合后低频信息的保持，但缺少高频信息，过于平滑，合成图像不够光滑，视觉效果不够自然。

2)特征损失

特征损失是生成图像的特征与真实图像特征的MSE值。特征通过 VGG19来提取，损失通过分别提取生成图像和真实图像的VGG特征，并计算两个特征的MSE值，将此值作为VGG特征损失。定义φ_ij是VGG 网络图中第j个最大池化层之前的第i个卷积神经网络的输出。

其中W_ij和H_ij分别代表特征图像的宽度和高度。

3)清晰度损失

清晰度损失通过分别提取生成图像和真实图像的清晰度特征，并计算两个特征的MSE值。所提的清晰度损失可以通过计算梯度的方式实现。梯度计算采用过滤器与灰度图像进行卷积得到，可以分别得到垂直和水平两个方向的梯度图像。第一个卷积核如公式(6)所示，用于提取水平方向的梯度：

第二个卷积核如公式(7)所示，用于提取垂直方向的梯度：

输入图像若是彩色图像时，需要转为灰度图像：Gray＝R*0.299 +G*O.587+B*0.114。

灰度图像经过水平和垂直卷积操作后，得到2个输出通道的特征图。然后进行均值池化进行处理，获得局部梯度值，池化核大小设置 3×3，步长为3。计算真实图像的清晰度特征和生成图像的清晰度特征的MSE，得到特征损失。

S_h表示水平梯度图像，S_v表示垂直梯度图像，L_r表示真实图像对应的灰度图像，

4)对抗损失

本专利采用相对生成对抗网络来设计对抗损失。与标准判别器 D估算一个输入图像I是真实的概率不同，相对判别器预测真实图像I_r比生成的假图像I_f(定义：

相对更真实的概率。为了使相对判别器更具全局性，将相对判别器定义在平均意义上，而不是在相对类型数据的随机样本上。具体来说，采用相对平均判别器 (Relativisticaverage Discriminator，RaD)代替了标准鉴别器，记为D_Ra。标准判别器可以表示为D(x)＝σ(C(x))D(x)＝σ(C(x))，其中σ是S型函数，C(x)是未转换的判别器输出。D_Ra公式表示为

其中/>

表示对批处理中所有假图像判别值的平均值。

生成器对抗损失通过交叉熵函数来定义，公式为：

(2)判别器损失：

判别器损失它不是测量“输入数据是真实的概率”，而是在测量“输入数据比对立类型(如果输入是真实的，对立类型则为生成的假数据；如果输入为假数据，对立类型则为真实数据)的随机采样数据更真实的概率。判别器的损失为公式(9)的对称形式：

可以看出，判别器损失能够估计给定真实数据比平均假数据更真实的概率。此方法具有o(m)复杂度。

4、训练过程

优化方法选择Adam，初始学习率0.0001，训练2000轮后，学习率降低为0.00001。训练过程每个批次64个样本，即N＝64。假设判别器的迭代次数用n_D表示，基于生成对抗网络的多曝光图像融合方法可描述为：

(1)初始化判别器D的参数θ_d和生成网络G的参数θ_g

(2)每次迭代

训练判别器过程(更新n_D次)：

·从真实图像中采样N个图像，记作{I¹，I²，...，I^N}。

·定义

(C(·)表示当前判别器输出概率值)。

·获取N个图像样本对应的多曝光图像序列，记作

·根据生成器G，获得融合结果图像，记作

·定义

·根据

采用SGD更新判别器参数θ_d：

训练生成器过程(更新一次)：

·从真实图像中采样N个图像，记作{I¹，I²，...，I^N}。

·定义

(C(·)表示当前判别器输出概率值)

·获取N个图像样本对应的多曝光图像序列，记作

·根据生成器G，获得融合结果图像，记作

·定义

·根据LOSS_D＝LOSS_VGG+LOSS_Pixel+LOSS_Gen+LOSS_clarity，根据公式 (4)，公式(5)，公式(8)和公式(9)，采用SGD更新判别器参数θ_g，

多曝光图像融合技术已是计算机视觉领域里的一个研究热点。多曝光融合算法的最终目标是使生成的结果图像在图形设备上显示时，人类所获得的视觉感知与其置身于真实环境中相同，即被观察图像与真实场景不但展现的信息一致，而且给人类带来的视觉感觉也是一致的。经过多曝光图像融合处理后得到的结果图像，不仅有助于人眼对场景的辨识，而且对边缘检测、图像分割、物体检测及识别等计算机视觉系统研究也具有积极的意义。本专利利用生成对抗网络，实现一种端到端的多曝光融合方法，能够获取更好的视频效果。所以，本专利提出的多曝光图像融合技术既具有实际的应用价值，又具有理论研究价值。

本申请一种基于生成对抗网络的多曝光图像融合方法具有以下特点：

1)能够对多幅不同曝光度的图像直接进行融合，生成一幅高质量图像直接在通用显示设备上显示，不需后续处理。

2)层间共享权重卷积层。对于多曝光图像融合，输入图像序列的个数往往不确定，这就限制了许多现有生成网络的应用。本专利提出一种层间共享权重卷积层，可以解决输入不确定的问题。不管多少图像序列作为输入，在经过层间共享卷积操作后，可以得到固定数量特征图，输出的特征图作为后续网络的输入。

3)生成网络的损失函数出除了内容损失，特征损失，对抗损失，还增加了清晰度损失，构建总体损失函数能够获取更多的图像边缘信息。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。