CN111835983A

CN111835983A - 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统

Info

Publication number: CN111835983A
Application number: CN202010719702.0A
Authority: CN
Inventors: 牛玉贞; 吴建斌; 刘文犀
Original assignee: Fuzhou University
Current assignee: Fujian Jieyu Computer Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-27
Anticipated expiration: 2040-07-23
Also published as: CN111835983B

Abstract

本发明涉及一种基于生成对抗网络的多曝光图高动态范围成像方法及系统，首先对原始分辨率的低曝光图像、正常曝光图像、高曝光图像和用作标签的参考高动态范围图像进行预处理，得到用于训练的成组的低曝光、正常曝光、高曝光和高动态范围图像块；设计用于多曝光图高动态范围成像的生成器网络和用于进行对抗训练的判别器网络；使用成组的低曝光、正常曝光、高曝光和高动态范围图像块交替训练生成器网络和判别器网络收敛到纳什平衡；最后将用于测试的原始分辨率的低曝光图像、正常曝光图像和高曝光图像输入已收敛的生成器网络得到其输出的高动态范围图像预测结果。本发明能提升多曝光图像间具有明显背景移动或物体运动时生成的高动态范围图像的质量。

Description

一种基于生成对抗网络的多曝光图高动态范围成像方法及系统

技术领域

本发明涉及图像和视频处理技术领域，特别是一种基于生成对抗网络的多曝光图高动态范围成像方法及系统。

背景技术

在不同的场景中，自然亮度的动态范围往往是不同的，但大多数现成的数码相机在拍摄时只能捕获到场景内有限的动态范围。有一些专门的硬件设备可用于直接拍摄场景的高动态范围图像，但这些设备通常过于昂贵而无法广泛使用。近年来，随着移动设备的盛行，人们非常期望使用轻量化和低成本的单目移动相机来捕捉场景中的高动态范围，以制作出覆盖广泛照度范围的满意照片。

完成高动态范围成像的一种流行方法是将几张以不同曝光度拍摄的低动态范围图像合并成一张高动态范围图像。在最近的高动态范围成像方法中，通常将其中一张中等曝光的低动态范围图像作为参考图像，其余的图像将被用来补偿参考图中由于局部区域曝光过度或曝光不足而导致的细节缺失。当这组低动态范围图像的像素是完全对齐时，这些方法可以很好地解决这个问题。但在实际应用中，由于相机运动或物体运动的原因，经常会出现前景和背景错位的现象，这样制作出来的高动态范围图像就会出现模糊和鬼影的伪影。之前的一些方法在预处理阶段对低动态范围图像进行对齐，如利用光流进行对齐。但光流往往是不准确的，特别是对于不同曝光级别拍摄的图像。因此仍然存在由于光流的估计误差造成的伪影问题。由于对于运动的物体来说，像素级的对齐精度很难达到，所以伪影还是很难克服的。

随着深度学习技术的进步，有人提出利用深度卷积神经网络来完成多曝光图的高动态范围成像。而多数方法在预处理阶段仍需要使用光流操作对输入的低动态范围图像进行对齐。此外，当低动态范围图像之间存在较大的运动或明显的错位，且运动区域存在较大的饱和区时，这些模型无法很好地还原其缺失的细节。

发明内容

有鉴于此，本发明的目的是提出一种基于生成对抗网络的多曝光图高动态范围成像方法及系统，能够提升多曝光图像间具有明显背景移动或物体运动时生成的高动态范围图像的质量。

本发明采用以下方案实现：一种基于生成对抗网络的多曝光图高动态范围成像方法，包括以下步骤：

步骤S1：对原始分辨率的低曝光图像、正常曝光图像、高曝光图像和用作标签的参考高动态范围图像进行预处理，得到用于训练的成组的低曝光、正常曝光、高曝光图像块和高动态范围图像块；

步骤S2：设计用于多曝光图高动态范围成像的生成器网络和用于进行对抗训练的判别器网络；

步骤S3：使用成组的低曝光、正常曝光、高曝光图像块和高动态范围图像块交替训练生成器网络和判别器网络直至收敛到纳什平衡，得到并保存训练好的生成器网络和判别器网络；

步骤S4：将用于测试的原始低曝光图像、正常曝光图像和高曝光图像输入已收敛的生成器网络得到其输出的高动态范围图像预测结果。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：将每组原始分辨率的低曝光图像、正常曝光图像、高曝光图像和参考高动态范围图像进行统一的随机位置上的切块，得到多组低曝光图像块、正常曝光图像块、高曝光图像块和高动态范围图像块；

步骤S12：将得到的每组图像块进行统一的随机旋转和翻转，对数据进行增强，得到用于训练的成组的低曝光图像块、正常曝光图像块、高曝光图像块和高动态范围图像块数据集，其中每组中的低曝光图像块、正常曝光图像块和高曝光图像块是输入，高动态范围图像块是标签。

进一步地，步骤S2中所述设计用于多曝光图高动态范围成像的生成器网络具体包括以下内容：

所述生成器网络可分为三个部分，分别是编码器部分、特征融合部分和解码器部分；

编码器部分含有三路结构相同的分支，分别用于提取低曝光图像块、正常曝光图像块和高曝光图像块的多尺度特征，每路分支由三个串联的编码单元组成。编码单元是一个含有两层卷积核为3×3、步长为1的卷积的残差模块，编码单元之间由卷积核为3×3、步长为2的下采样卷积层连接。编码器部分的两次下采样将网络划分为3个不同的尺度；

对应编码器部分的三个尺度，特征融合部分由三个尺度的融合模块组成，分别是

和

每个融合模块使用编码器中三路分支上对应尺度的编码器单元输出特征作为输入，每个融合模块由四个串联的卷积核为3×3、步长为1且空洞因子为2的空洞卷积组成，并且通过逐元素加法操作将第四个卷积的输出特征与编码器部分中正常曝光分支上对应尺度的编码器单元输出特征相加，形成基于正常曝光图特征的残差结构；

解码器部分总共由三个解码器单元组成，分别是

和

其中

和

对应编码器中的第一个尺度，

对应编码器中的第二个尺度。解码器单元

和

的输入由三部分特征在通道维度上拼接组成，分别为其对应尺度上编码器部分的正常曝光图像分支输出特征、其对应尺度的融合模块输出特征和其对应下一尺度融合模块输出特征的上采样结果。解码器单元

的输入由四部分特征在通道维度上拼接组成，具体包括其对应尺度上编码器部分的正常曝光图像分支输出特征、其对应尺度的融合模块输出特征、解码器单元

的输出特征和解码器单元

输出特征的上采样结果。每个解码器单元的结构与编码器单元相同，是一个含有两层卷积核为3×3、步长为1的卷积的残差模块。解码器部分的上采样操作由最近邻插值完成；

生成器的编码器部分、特征融合部分和解码器部分的卷积层使用了普归一化，且卷积层后使用ReLU函数激活。对解码器单元

和

的输出特征使用卷积核为1×1、步长为1的卷积层输出通道数为3的高动态范围图像结果，故生成器总共输出两个预测的高动态范围图像结果

和

其中

作为最终的高动态范围图像结果。

进一步地，步骤S2中所述设计用于进行对抗训练的判别器网络的具体内容为：

判别器网络由串联的五层卷积层组成，其中前三层卷积层的卷积核大小为4×4、步长为2，后两层卷积层的卷积核大小为4×4、步长为1，所有的卷积层使用普归一化且卷积层之间使用Leaky ReLU函数激活；判别器网络的输出为判别结果矩阵M；判别结果矩阵M中每个值M_i,j对应了输入图像上以(10i,10j)为左上角、大小为70×70的方形区域，代表该区域的判别结果。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：将成组的低曝光、正常曝光、高曝光和高动态范围图像块随机划分为多个批次，每个批次包含N个图像块；

步骤S32：使用伽马校正和各个输入图像块L_i的曝光时间将图像块转到高动态范围图像域，公式如下：

其中L_i(i＝{1,2,3})是输入的图像块，L₁、L₂、L₃分别对应高曝光、中曝光、低曝光图像块；γ是系数，取值为2.2，t_i(i＝{1,2,3})是图像块L_i的曝光时间，H_i是图像块L_i转成高动态范围域的结果；

步骤S33：使用成对的各个曝光图像块L_i与其高动态范围域结果H_i在通道维度上的拼接结果X_i作为生成器网络第i路编码器分支的输入，得到生成器网络输出的两个高动态范围图像预测结果

和

步骤S34：对于每一组图像块，使用如下公式分别对生成器网络的预测结果

和参考高动态图像H_gt进行色调映射得到映射结果

和T_gt；

其中H是高动态范围域图像块，μ是系数，取值5000，

是高动态范围域图像块H的色调映射结果；当H分别为

H_gt时，得到的色调映射结果分别为

和T_gt；

步骤S35：使用色调映射结果

和T_gt分别输入判别器网络得到其输出的判别结果矩阵；

步骤S36：根据生成器网络的总目标损失函数，使用反向传播方法计算生成器网络中各参数的梯度，并利用随机梯度下降方法更新生成器网络的参数；

步骤S37：根据判别器网络的目标损失函数，使用反向传播方法计算判别器网络中各参数的梯度，并利用随机梯度下降方法更新判别器网络的参数；

步骤S38：以批次为单位重复进行上述步骤S32至步骤S37的生成器网络和判别器网络训练步骤，直至生成器网络的目标损失函数数值和判别器网络的目标损失函数数值收敛到纳什平衡，保存网络参数，完成生成器网络和判别器网络的训练过程。

进一步地，所述生成器网络的总目标损失函数计算如下：

其中

是L1损失，

是生成对抗网络下生成器网络的损失，λ₁和λ₂是各项损失平衡系数，·为实数的点乘操作；其中各项损失具体的计算公式如下：

其中

和T_gt分别是生成器网络的预测结果

和参考高动态图像H_gt使用色调映射后的结果，||.||₁是取绝对值操作；

是利用超球空间

来计算的生成对抗网络中生成器的损失，其中n为超球空间的维度，即判别器网络输出的判别结果矩阵的总维度。使用如下公式计算生成器的对抗损失

其中X₁、X₂和X₃分别是低曝光图像块、正常曝光图像块和高曝光图像块与其各自在高动态范围域的转换结果在通道维度上的拼接结果，D和G分别表示判别器网络和生成器网络，G(X₁,X₂,X₃)表示输入为X₁、X₂和X₃时，生成器生成的高动态范围图像，D(G(X₁,X₂,X₃))表示判别器网络对输入为X₁、X₂和X₃时生成器生成的高动态范围图像计算的判别结果矩阵，且该判别结果矩阵被进一步展平为一个一维向量

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩。假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

其中，q₁和q₂为一维向量，||.||²表示计算欧几里得范数的平方，·为一维向量的点积运算。

进一步地，所述判别器网络的目标损失函数计算如下：

与生成器网络的对抗损失相似，

是利用超球空间

来计算的生成对抗网络中判别器的损失，其中n为超球空间的维度,即判别器网络输出的判别结果矩阵的总维度。z为参考高动态图像块，其中X₁、X₂和X₃分别是低曝光图像块、正常曝光图像块和高曝光图像块与其各自在高动态范围域的转换结果在通道维度上的拼接结果，D和G分别表示判别器网络和生成器网络，G(X₁,X₂,X₃)表示输入为X₁、X₂和X₃时，生成器生成的高动态范围图像，D(G(X₁,X₂,X₃))表示判别器网络对输入为X₁、X₂和X₃时生成器生成的高动态范围图像计算的判别结果矩阵，且该判别结果矩阵被进一步展平为一个一维向量

D(z)表示判别器网络对参考高动态图像块z的判别结果矩阵，且该判别结果矩阵被进一步展平为一个一维向量

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩。假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

进一步地，本发明还提供了一种基于生成对抗网络的多曝光图高动态范围成像系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如上文所述的方法。

与现有技术相比，本发明有以下有益效果：

本发明使用独立的多尺度编码器和多尺度的特征融合模块，能够有效地将低曝光图和高曝光图的特征对齐到正常曝光图的特征，通过使用深度监督训练进一步强化了特征的对齐且促进网络训练。通过使用生成对抗网络的训练方式，使得模型生成的高动态范围图像更加真实，有效抑制了由于未对齐的多曝光图像导致的伪影，且能够恢复图像包和区域的结构和细节，具有较高地使用价值。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的生成器网络和判别器网络结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于生成对抗网络的多曝光图高动态范围成像方法，包括以下步骤：

本实施例使用成组的低曝光图像、正常曝光图像和高曝光图像作为输入，通过设计独立的多尺度编码器用于提取各个曝光图像的多尺度特征，并且以正常曝光图为参考设计基于参考图特征的特征融合模块，将高曝光图和低曝光图的特征对齐到正常曝光图，再使用解码器网络输出高动态范围图像。并且通过引入深度监督和生成对抗网络的训练方式，进一步促进了特征图的对齐和网络的训练。对比现有多曝光图像的高动态范围成像方法，本实施例能够显著提升多曝光图像间具有明显背景移动或物体运动时生成的高动态范围图像的质量。

在本实施例中，所述步骤S1具体包括以下步骤：

在本实施例中，步骤S2中所述设计用于多曝光图高动态范围成像的生成器网络具体包括以下内容：

生成器网络可分为三个部分，如图2所示，分别是编码器部分、特征融合部分和解码器部分；

和

解码器部分总共由三个解码器单元组成，分别是

和

其中

和

对应编码器中的第一个尺度，

对应编码器中的第二个尺度。解码器单元

和

的输出特征和解码器单元

生成器的编码器部分、特征融合部分和解码器部分的卷积层使用了普归一化，且卷积层后使用ReLU函数激活。如图2所示，解码器单元

和

的输出特征分别使用卷积核为1×1、步长为1的卷积层输出通道数为3的高动态范围图像结果，故生成器总共输出两个预测的高动态范围图像结果

和

其中

作为最终的高动态范围图像结果。

在本实施例中，步骤S2中所述设计用于进行对抗训练的判别器网络的具体内容为：

如图2所示，判别器网络由串联的五层卷积层组成，其中前三层卷积层的卷积核大小为4×4、步长为2，后两层卷积层的卷积核大小为4×4、步长为1，所有的卷积层使用普归一化且卷积层之间使用Leaky ReLU函数激活。判别器网络的输出为判别结果矩阵M；判别结果矩阵M中每个值M_i,j对应了输入图像上以(10i,10j)为左上角、大小为70×70的方形区域，代表该区域的判别结果。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：将成对的低曝光、正常曝光和高曝光图像块随机划分为多个批次，每个批次包含N个图像块；

和

和参考高动态图像块H_gt进行色调映射得到映射结果

和T_gt；

其中H是高动态范围域图像块，μ是系数，取值5000，

是高动态范围域图像块H的色调映射结果；当H分别为

H_gt时，得到的色调映射结果分别为

和T_gt；

步骤S35：使用色调映射结果

和T_gt分别输入判别器网络得到其输出的判别结果矩阵；

在本实施例中，所述生成器网络的总目标损失函数计算如下：

其中

是L1损失，

其中

和T_gt分别是生成器网络的预测结果

是利用超球空间

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩。假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

本实施例中，所述判别器网络的目标损失函数计算如下：

与生成器网络的对抗损失相似，

是利用超球空间

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩。假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

较佳的，本实施例还提供了一种基于生成对抗网络的多曝光图高动态范围成像系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如上文所述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于：所述步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于：步骤S2中所述设计用于多曝光图高动态范围成像的生成器网络具体包括以下内容：

所述生成器网络分为三个部分，分别是编码器部分、特征融合部分和解码器部分；

编码器部分含有三路结构相同的分支，分别用于提取低曝光图像块、正常曝光图像块和高曝光图像块的多尺度特征；每路分支由三个串联的编码单元组成，编码单元是一个含有两层卷积核为3×3、步长为1的卷积的残差模块，编码单元之间由卷积核为3×3、步长为2的下采样卷积层连接；编码器部分的两次下采样将网络划分为3个不同的尺度；

和

解码器部分总共由三个解码器单元组成，分别是

和

其中

和

对应编码器中的第一个尺度，

对应编码器中的第二个尺度；解码器单元

和

的输入由三部分特征在通道维度上拼接组成，分别为其对应尺度上编码器部分的正常曝光图像分支输出特征、其对应尺度的融合模块输出特征和其对应下一尺度融合模块输出特征的上采样结果；解码器单元

的输出特征和解码器单元

输出特征的上采样结果；每个解码器单元的结构与编码器单元相同，是一个含有两层卷积核为3×3、步长为1的卷积的残差模块；解码器部分的上采样操作由最近邻插值完成；

生成器的编码器部分、特征融合部分和解码器部分的卷积层使用了普归一化，且卷积层后使用ReLU函数激活；对解码器单元

和

和

其中

作为最终的高动态范围图像结果。

4.根据权利要求1所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于：步骤S2中所述设计用于进行对抗训练的判别器网络的具体内容为：

判别器网络由串联的五层卷积层组成，其中前三层卷积层的卷积核大小为4×4、步长为2，后两层卷积层的卷积核大小为4×4、步长为1，所有的卷积层使用普归一化且卷积层之间使用LeakyReLU函数激活；判别器网络的输出为判别结果矩阵M；判别结果矩阵M中每个值M_i,j对应了输入图像上以(10i,10j)为左上角、大小为70×70的方形区域，代表该区域的判别结果。

5.根据权利要求1所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于，所述步骤S3具体包括以下步骤：

和

和参考高动态图像块H_gt进行色调映射得到映射结果

和T_gt；

其中，H是高动态范围域图像块，μ是系数，取值5000，

是高动态范围域图像块H的色调映射结果；当H分别为

H_gt时，得到的色调映射结果分别为

和T_gt；

步骤S35：使用色调映射结果

和T_gt分别输入判别器网络得到其输出的判别结果矩阵；

6.根据权利要求5所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于，所述生成器网络的总目标损失函数计算如下：

其中，

是L1损失,

其中

和T_gt分别是生成器网络的预测结果

是利用超球空间

来计算的生成对抗网络中生成器的损失，其中n为超球空间的维度，即判别器网络输出的判别结果矩阵的总维度；使用如下公式计算生成器的对抗损失

其中，X₁、X₂和X₃分别是低曝光图像块、正常曝光图像块和高曝光图像块与其各自在高动态范围域的转换结果在通道维度上的拼接结果，D和G分别表示判别器网络和生成器网络，G(X₁,X₂,X₃)表示输入为X₁、X₂和X₃时，生成器生成的高动态范围图像，D(G(X₁,X₂,X₃))表示判别器网络对输入为X₁、X₂和X₃时生成器生成的高动态范围图像计算的判别结果矩阵，且该判别结果矩阵被进一步展平为一个一维向量

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩；假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

7.根据权利要求5所述的一种基于生成对抗网络的多曝光图高动态范围成像方法，其特征在于，所述判别器网络的目标损失函数计算如下：

与生成器网络的对抗损失相似，

是利用超球空间来计算的生成对抗网络中判别器的损失，其中n为超球空间的维度,即判别器网络输出的判别结果矩阵的总维度；z为参考高动态图像块，其中X₁、X₂和X₃分别是低曝光图像块、正常曝光图像块和高曝光图像块与其各自在高动态范围域的转换结果在通道维度上的拼接结果，D和G分别表示判别器网络和生成器网络，G(X₁,X₂,X₃)表示输入为X₁、X₂和X₃时，生成器生成的高动态范围图像，D(G(X₁,X₂,X₃))表示判别器网络对输入为X₁、X₂和X₃时生成器生成的高动态范围图像计算的判别结果矩阵，且该判别结果矩阵被进一步展平为一个一维向量

表示计算均值，N是参考点

d_s(.,.)为计算两个一维向量在超球空间上的距离，

为距离d_s(.,.)的r阶矩；假设

和

为两个一维向量，d_s(q₁,q₂)的计算公式如下：

8.一种基于生成对抗网络的多曝光图高动态范围成像系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如权利要求1-7任一项所述的方法步骤。