CN115103118B

CN115103118B - 高动态范围图像生成方法、装置、设备及可读存储介质

Info

Publication number: CN115103118B
Application number: CN202210699748.XA
Authority: CN
Inventors: 邓欣; 张雨童; 蒋铼; 李胜曦; 徐迈
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2023-04-07
Anticipated expiration: 2042-06-20
Also published as: CN115103118A

Abstract

本公开涉及一种高动态范围图像生成方法、装置、设备及可读存储介质。相较于现有技术，本公开实施例不需要真值图像的参与，降低高动态范围图像重建的难度，通过提取低动态范围图像的浅层特征，对浅层特征与运动掩膜进行特征联结，得到每组的联结特征，进一步，对每组的联结特征以及三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，通过预训练的局部模型对低动态范围图像的局部信息进行整合，保留图像细节，并通过预训练的全局模型探索全局的文本信息来去除运动产生的伪影，可以使生成的高动态范围图像与低动态范围图像的联系更加紧密，进而提升了生成的高动态范围图像的效果，从而提升用户体验。

Description

高动态范围图像生成方法、装置、设备及可读存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种高动态范围图像生成方法、装置、设备及可读存储介质。

背景技术

现实的自然场景通常具有高动态范围的大尺度亮度变化。为了拍摄高动态范围的图像，最直接的方式是使用特制的高动态范围成像相机，然而这些具有特殊设计的相机对于日常使用来说过于昂贵和笨重。因此可选的方式是使用标准相机拍摄一系列不同曝光度下的低动态范围(Lowdynamicrange，LDR)图像，然后通过计算将它们融合生成一张具有高视觉质量的高动态范围(Highdynamicrange，HDR)图像。

相关技术中，通过融合一系列LDR图像可以成功实现高动态范围图像重建，然而这些方法只能在静态场景下生成良好的HDR图像，当相机在移动或场景是动态时，就会产生严重的伪影。

对于动态场景，可以基于深度学习的方法重建高动态范围图像。但是，基于深度学习的方法，对于真值图像的存在性和准确性有很高的要求，而生成真实的HDR真值图像是极其困难的，导致高动态范围图像重建的难度较高。并且基于深度学习的方法是通过直接学习真值图像来达到去伪影的目的，忽视了LDR和HDR图像之间的关系，使得生成的高动态范围图像的效果不好，影响用户体验。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种高动态范围图像生成方法、装置、设备及可读存储介质，以降低高动态范围图像重建的难度，提升生成的高动态范围图像的效果，从而提升用户体验。

第一方面，本公开实施例提供一种高动态范围图像生成方法，所述方法包括：

对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征；

基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征；

对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征；

将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征；

根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

第二方面，本公开实施例提供一种高动态范围图像生成装置，包括：

第一得到模块，用于对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征；

第二得到模块，用于基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征；

第三得到模块，用于对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征；

输出模块，用于将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征；

第一生成模块，用于根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如第一方面所述的方法。

本公开实施例提供的高动态范围图像生成方法、装置、设备及可读存储介质，通过对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征，进一步，基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征。然后，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，并将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征。进而根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。本公开实施例相较于现有技术，有如下优点：不需要真值图像的参与，解决了由于真值图像的生成较为困难导致高动态范围图像重建的难度较高的问题，降低高动态范围图像重建的难度，通过提取低动态范围图像的浅层特征，对浅层特征与运动掩膜进行特征联结，得到所述每组的联结特征，进一步，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，通过预训练的局部模型对低动态范围图像的局部信息进行整合，保留图像细节，并通过预训练的全局模型探索全局的文本信息来去除运动产生的伪影，可以使生成的高动态范围图像与低动态范围图像的联系更加紧密，进而提升了生成的高动态范围图像的效果，从而提升用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的高动态范围图像生成方法流程图；

图2为本公开另一实施例提供的高动态范围图像生成方法流程图；

图3为本公开另一实施例提供的高动态范围图像生成方法流程图；

图4为本公开实施例提供的高动态范围图像生成装置的结构示意图；

图5为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

现实的自然场景通常具有高动态范围的大尺度亮度变化。为了拍摄高动态范围的图像，最直接的方式是使用特制的高动态范围成像相机，然而这些具有特殊设计的相机对于日常使用来说过于昂贵和笨重。因此可选的方式是使用标准相机拍摄一系列不同曝光度下的低动态范围(LDR)图像，然后通过计算将它们融合生成一张具有高视觉质量的高动态范围(HDR)图像。许多方法能够通过融合一系列LDR图像成功实现高动态范围图像重建，然而这些方法只能在静态场景下生成良好的HDR图像，当相机在移动或场景是动态时，就会产生严重的伪影。

对于动态场景下的HDR图像重建，伪影始终是重大的挑战。研究人员投入了大量的精力来去除HDR重建过程中产生的伪影。根据用于减少伪影的策略，传统的动态HDR重建方法可以被分为两类：1)基于图像配准的方法。这类方法首先使用图像配准的方法，例如光流和单应性变换，在全局上配准LDR图像，然后将它们融合生成一张HDR图像。然而，这类方法的效果极度依赖于配准方法的准确度。2)基于运动检测的方法。这类方法首先检测图像中存在运动的像素或者区域，然后将这些像素或者区域移除来保证生成的图像不存在伪影。然而这种基于运动检测的方法只能处理小幅度运动的场景，一旦LDR图像中出现大幅度的运动，融合生成的HDR图像会由于丢弃过多运动区域而损失大量信息。

为了克服传统方法的局限性，许多基于深度学习的方法被提出来通过训练卷积神经网络来同时对齐场景中的移动并实现多曝光融合。然而，尽管基于深度学习的方法有着良好的效果，依然有几个问题需要解决。首先，所有基于深度学习的方法都是以有监督的方式训练的，对于真值图像的存在性和准确性有着极大的依赖。然而正如我们所知，生成真实的真值HDR图像是极其困难的。例如，在最被广泛使用的Kalantari数据集中，真值图像是通过简单的三角加权方法得到的，并不是真实的真值图像。其次，现有的有监督学习方法是通过直接学习真值图像来实现去伪影的，忽视了探究LDR和HDR图像之间的关系。所有这些都限制了有监督学习在动态场景HDR图像重建中的效果。

针对该问题，本公开实施例提供了一种高动态范围图像生成方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的高动态范围图像生成方法流程图。如图1所示，该方法包括如下几个步骤：

S101、对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征。

动态场景下HDR图像重建的目的是将一系列具有不同曝光层级的L张动态LDR图像{I₁,I₂,…,I_L}融合为一张无伪影的HDR图像H。用户选出三张分别在曝光过度、曝光中等和曝光不足的条件下拍摄的LDR图像，在本文中，将曝光过度的LDR图像I_o称为高曝光度图像，将曝光不足的LDR图像I_u称为低曝光度图像，将曝光中等的LDR图像I_r作为参考图像。用户将三张初始图像和两张潜在图像输入到电子设备中，电子设备对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征。

高动态范围图像生成的整个过程可以由特征提取模块(Featureextractionblock，FEB)，局部融合模块(Localmergingmodule，LMM)，全局Transformer模块(GlobalTransformermodule，GTM)和重建模块(Reconstructionblock，REC)来完成。电子设备的输入包括三张初始图像I_o、I_r和I_u及两张潜在图像

和

对于每一张输入图像，电子设备使用一个FEB来提取浅层特征。例如，从输入图像I_o中提取出特征F_o：

F_o＝f_FEB(I_o)，

其中f_FEB表示FEB的操作。类似地，我们可以从其余图像中得到特征F_u，F_r，

和

此处FEB之间不相互共享参数。每一个FEB由两个激活函数为LeakyReLU的卷积层构成。第一个卷积层使用64个3×3的滤波器从输入图像中提取基本特征，第二个卷积层使用32个1×1的滤波器获取更加紧凑的跨通道特征。

S102、基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征。

在得到每张图像分别对应的浅层特征后，电子设备根据待重建图像的曝光度的高低将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征。

例如，高曝光度特征F_o和

与参考图像特征F_r联结在一起来保持参考图像中的运动状态和高曝光度图像中的亮度信息一致。类似地，低曝光度特征F_u和

与F_r联结在一起，保持参考图像的运动状态和低曝光度图像的亮度信息一致。对于每一组，相应的运动掩膜也被结合在其中来提供静止和运动的区域。最后，我们能够得到每一组的联结特征：

其中G_o和G_u分别为高曝光度和低曝光度特征组联结的特征，[·]表示对内部特征的联结操作。

S103、对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征。

在得到每一组的联结特征后，电子设备对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征。

通过一个卷积核为3×3的卷积层，然后，对G_o、G_u与F_r进行聚合处理，将得到待重建图像的聚合特征作为LMM和GTM模块的输入。上述的过程可以表示为：

G_in＝[C_o(G_o),C_u(G_u),F_r]，

其中C_o和C_u表示用于在特征联结后压缩通道和凝练信息的3×3的卷积层。

S104、将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征。

在得到待重建图像的聚合特征后，电子设备将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征。

具体的，聚合后的特征G_in被分别送入基于CNN的LMM和基于Transformer的GTM模块中探索局部和全局的信息。LMM模块由一系列空洞残差稠密块(Dilatedresidualdenseblock，DRDB)构成，DRDB相互之间连接，将浅层特征和深层特征相结合。获益于DRDB的结构，LMM模块能够充分利用提取出的特征并保护图像中的细节，有助于HDR融合。LMM的功能可以被表示为：

G_LMM＝f_LMM(G_in)，

其中f_LMM为LMM模块的操作，G_LMM表示LMM学习到的待重建图像的局部特征。

GTM模块的目的是探究特征间的全局关系并减少由大幅度运动产生的伪影效应。强大的自注意力机制和滑动窗口策略有助于去除伪影并保留更好的细节。GMM模块的操作可以被表示为：

G_GTM＝f_GTM(G_in)，

其中f_GTM为GTM模块的操作，G_GTM表示GTM学习到的待重建图像的全局特征。

S105、根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

在得到所述待重建图像的局部特征和所述待重建图像的全局特征，电子设备根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

在以局部和全局的方式处理这些特征后，LMM和GTM输出的特征被联结到一起用于通过重建模块来重建最终的无伪影的HDR图像：

G＝F_r+[G_LMM,G_GTM]，

其中G表示用于最终重建的特征。注意此处有全局的残差连接将F_r与G_LMM和G_GTM的联结相加，这是为了引入参考图像的运动状态和亮度信息。重建模块可以从G重建出一张无伪影的HDR图像H：

H＝f_REC(G)，

其中f_REC为重建模块的操作。重建模块REC由三个卷积层构成，分别含有32、16和3个卷积核大小为3×3的滤波器。前两个卷积层的激活函数为LeakyReLU，而最后一个卷积层的激活函数为ReLU。

本公开实施例通过对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征，进一步，基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征。然后，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，并将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征。进而根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。本公开实施例相较于现有技术，有如下优点：不需要真值图像的参与，解决了由于真值图像的生成较为困难导致高动态范围图像重建的难度较高的问题，降低高动态范围图像重建的难度，通过提取低动态范围图像的浅层特征，对浅层特征与运动掩膜进行特征联结，得到所述每组的联结特征，进一步，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，通过预训练的局部模型对低动态范围图像的局部信息进行整合，保留图像细节，并通过预训练的全局模型探索全局的文本信息来去除运动产生的伪影，可以使生成的高动态范围图像与低动态范围图像的联系更加紧密，进而提升了生成的高动态范围图像的效果，从而提升用户体验。

图2为本公开另一实施例提供的高动态范围图像生成方法流程图，如图2所示，该方法包括如下几个步骤：

S201、基于所述三张初始图像生成两张潜在图像。

用户确定出三张初始图像后，输入到电子设备中，电子设备根据输入的所述三张初始图像生成两张潜在图像。

具体的，电子设备根据三张LDR图像I_o、I_r和I_u，生成了两张潜在图像

和

这两张潜在图像的运动状态与参考图像I_r相同，而这两张潜在图像的曝光度分别与I_o和I_u相同。潜在图像

和

的生成过程为：

其中，潜在图像

和I_o具有相同的曝光度，但其运动状态与I_r相同。另一张潜在图像

也是与I_r运动状态相同，但其曝光度与I_u相同。以

的生成为例，Δ_r,是I_r和I_o之间的曝光率，即Δ_r,＝t_o/t_r，其中t_o和t_r分别是I_o和I_r的曝光时间。使用截取函数保证了潜在图像的值在0到1之间。

在一些实施例中，所述三张初始图像包括所述待重建图像的高曝光度图像、低曝光度图像和参考图像；所述低曝光度图像的曝光度小于或等于预设第一曝光度阈值，所述高曝光度图像的曝光度大于或等于预设第二曝光度阈值，所述参考图像的曝光度大于所述预设第一曝光度阈值且小于所述预设第二曝光度阈值，所述两张潜在图像包括高曝光度潜在图像和低曝光度潜在图像。

在一些实施例中，所述基于所述三张初始图像生成两张潜在图像，包括：根据所述高曝光度图像和所述参考图像生成所述高曝光度潜在图像；根据所述低曝光度图像和所述参考图像生成所述低曝光度潜在图像。

S202、对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征。

具体的，S202和S101的实现过程和原理一致，此处不再赘述。

S203、生成所述高曝光度图像和所述低曝光度图像各自对应的运动掩膜。

由于自然场景中的相机运动及物体运动，如果直接将拍摄的多张曝光图像直接进行融合，就难以避免在HDR图像中引入伪影。因此，为LDR图像生成运动掩膜来指示图像中含有运动像素的区域，从而避免伪影的产生。具体地，以高曝光度图像I_o为例，可将其分解为信号强度、信号结构及平均强度：

其中

表示图像的均值，

表示去均值后的图像。标量

和

表示图像I_o的信号强度和平均强度分量，而向量

表示信号结构。基于结构分解的方法，高曝光度图像和参考图像之间的运动能够通过计算结构向量之间的内积来检测：

此处，不使用原始的参考图像I_r而是使用潜在图像

这是由于

与I_r具有相同的运动状态，但其曝光度被调整为与I_o相同。为了计算运动掩膜，应该避免由曝光度带来的影响。因此在上式中使用I_o和

来计算内积。ε是用于提高运动检测过程中对噪声鲁棒性的小常数。为了生成二值化的运动掩膜，设置了一个阈值θ来将φ_or的值映射到0或者1：

其中(i,j)表示元素的位置。为了平衡静态和动态区域的重要性，二值化运动掩膜中还使用一个权重参数α来进行软化：

M_o(i,j)＝αM_o(i,j)+(1-α)，

类似地，也能够得到低曝光度图像I_u的运动掩膜M_u。生成的运动掩膜在去除伪影和损失函数设计上有着重要的作用。

S204、基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为高曝光组图像的浅层特征和低曝光组图像的浅层特征。

电子设备根据待重建图像的曝光度的高低将所述每张图像分别对应的浅层特征分为两组。对于曝光度高的待重建图像对应的浅层特征，划分为高曝光组图像的浅层特征；对于曝光度低的待重建图像对应的浅层特征，划分为低曝光组图像的浅层特征。

S205、对所述高曝光组图像的浅层特征以及所述高曝光度图像对应的运动掩膜进行特征联结，得到所述高曝光组图像的联结特征。

分组后，电子设备对所述高曝光组图像的浅层特征以及所述高曝光度图像对应的运动掩膜进行特征联结，得到所述高曝光组图像的联结特征。

S206、对所述低曝光组图像的浅层特征以及所述低曝光度图像对应的运动掩膜进行特征联结，得到所述低曝光组图像的联结特征。

电子设备对所述低曝光组图像的浅层特征以及所述低曝光度图像对应的运动掩膜进行特征联结，得到所述低曝光组图像的联结特征。

S207、对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征。

具体的，S207和S103的实现过程和原理一致，此处不再赘述。

S208、将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征。

具体的，S208和S104的实现过程和原理一致，此处不再赘述。

S209、根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

具体的，S209和S105的实现过程和原理一致，此处不再赘述。

本公开实施例相较于现有技术，有如下优点：不需要真值图像的参与，解决了由于真值图像的生成较为困难导致高动态范围图像重建的难度较高的问题，降低高动态范围图像重建的难度，通过提取低动态范围图像的浅层特征，对浅层特征与运动掩膜进行特征联结，得到所述每组的联结特征，进一步，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，通过预训练的局部模型对低动态范围图像的局部信息进行整合，保留图像细节，并通过预训练的全局模型探索全局的文本信息来去除运动产生的伪影，可以使生成的高动态范围图像与低动态范围图像的联系更加紧密，进而提升了生成的高动态范围图像的效果，从而提升用户体验。

图3为本公开另一实施例提供的高动态范围图像生成方法流程图，如图3所示，该方法包括如下几个步骤：

S301、对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征。

具体的，S301和S101的实现过程和原理一致，此处不再赘述。

S302、基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征。

具体的，S302和S102的实现过程和原理一致，此处不再赘述。

S303、对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征。

具体的，S303和S103的实现过程和原理一致，此处不再赘述。

S304、通过预设第一卷积层对所述待重建图像的聚合特征的通道进行压缩，得到局部输入特征，对所述局部输入特征进行多个层次的特征聚合，得到所述待重建图像的局部特征。

以聚合后的特征G_in作为输入，首先通过一个3×3的预设第一卷积层对G_in的通道进行压缩，生成初始输入特征G₀，G₀再被输入到第一个空洞残差稠密(Dilatedresidualdenseblock，DRDB)块中。当前的DRDB的输入被传递到下一个DRDB中作为输入，对于第i个DRDB模块，其输入为G_i-1，输出为G_i：

G_i＝DRDB(G_i-1).

所有DRDB的输出被联结在一起实现不同层次的特征聚合，然后使用一个3×3的卷积层生成LMM的输出特征：

G_LMM＝C_LMM([G₁,G₂,…,G_K]).

此处K为DRDB的总数量，C_LMM为LMM末端的卷积层，G_LMM表示LMM模块的输出特征。

局部融合模块LMM的作用是综合输入图像中的局部特征，从而在融合后的HDR图像中保留图像中的局部细节。LMM模块主要由三个连续的DRDB构成。每个DRDB由M个激活函数为ReLU的连续的空洞卷积层构成。空洞卷积才能够扩大卷积层的局部感受，也有助于从输入特征中聚合多尺度的文本信息。而稠密连接使得网络能够从不同的空洞卷积层中整合多层次的特征，从而更好的保留图像中的局部细节。

S305、通过预设第二卷积层对所述待重建图像的聚合特征的通道进行压缩，得到全局输入特征，对所述全局输入特征进行多个层次的特征聚合，得到所述待重建图像的全局特征。

以聚合后的特征G_in作为输入，首先通过一个3×3的预设第二卷积层压缩G_in的通道，得到特征S₀。第一个残差SwinTransformer模块(RSTB)以S₀作为输入，其输出被传递到下一个RSTB中，对于第j个RSTB，其输入为S_j-1，输出为S_j：

S_j＝RSTB(S_j-1).

假设RSTB的总数为T，使用一个3×3的卷积层对最后一个RSTB的输出进行提炼并与输入特征S₀通过一个残差连接求和：

G_GTM＝C_GTM(S_T)+S₀，

其中C_GTM为最后一个GTM之后的卷积层，且G_GTM表示GTM模块的输出特征。

每一个RSTB包含N个含有全局残差连接的连续SwinTransformer组。在每一个SwinTransformer组中，有两种类型的在基于窗口的多头自注意力(Multi-headself-attention，MSA)上不同的SwinTransformer模块。其中一种由常规的基于窗口的MSA(Win-MSA)、GELU非线性函数和多层感知机(Multi-layerpercepton，MLP)构成，另一种由滑动窗口窗口的MSA(Swin-MSA)、GELU非线性函数和多层感知机(Multi-layerpercepton，MLP)构成。在两种SwinTransformer模块中，都有一个LayerNorm(LN)层附加在MSA和MLP之后，且在每一个MSA和MLP之后都有一个残差连接。由于使用Win-MSA固定窗口划分的方式会导致窗口与窗口之间的分隔，Swin-MSA的设计能够对特征进行移动，实现跨窗口的连接。因此，两个连续的不同SwinTransformer模块(一个Win-MSA，一个Swin-MSA)被连接到一起形成了一个SwinTransformer组。将第一个SwinTransformer组的输入记作Z⁰。

需要注意的是，Z⁰为将聚合后的特征G_in作为输入，通过一个3×3的预设第二卷积层压缩G_in的通道，得到的特征S₀，Z⁰第j个SwinTransformer组的功能可以表示为：

其中

和

分别表示Win-MSA和Swin-MSA的输出。通过局部窗口探索局部文本信息和滑动窗口寻找长距离依赖关系，RSTB能够处理大规模运动的动态场景并且减轻伪影。

S306、对所述待重建图像的局部特征、所述待重建图像的全局特征以及所述参考图像对应的浅层特征进行特征联结，得到待重建图像的重建特征。

在得到所述待重建图像的局部特征和全局特征之后，电子设备对所述待重建图像的局部特征、所述待重建图像的全局特征以及所述参考图像对应的浅层特征进行特征联结，得到待重建图像的重建特征。

G＝F_r+[G_LMM,G_GTM]，

其中G表示待重建图像的重建特征。注意此处有全局的残差连接将F_r与G_LMM和G_GTM的联结相加，这是为了引入参考图像的运动状态和亮度信息。

S307、根据所述待重建图像的重建特征生成所述待重建图像的高动态范围图像。

在得到待重建图像的重建特征后，进一步电子设备根据所述待重建图像的重建特征生成所述待重建图像的高动态范围图像。

重建模块可以从G重建出一张无伪影的HDR图像H：

H＝f_REC(G)，

本公开实施例通过对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征，基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征。进一步，通过预设第一卷积层对所述待重建图像的聚合特征的通道进行压缩，得到局部输入特征，对所述局部输入特征进行多个层次的特征聚合，得到所述待重建图像的局部特征，通过预设第二卷积层对所述待重建图像的聚合特征的通道进行压缩，得到全局输入特征，对所述全局输入特征进行多个层次的特征聚合，得到所述待重建图像的全局特征。进而对所述待重建图像的局部特征、所述待重建图像的全局特征以及所述参考图像对应的浅层特征进行特征联结，得到待重建图像的重建特征，根据所述待重建图像的重建特征生成所述待重建图像的高动态范围图像。本公开实施例相较于现有技术，有如下优点：不需要真值图像的参与，解决了由于真值图像的生成较为困难导致高动态范围图像重建的难度较高的问题，降低高动态范围图像重建的难度，通过提取低动态范围图像的浅层特征，对浅层特征与运动掩膜进行特征联结，得到所述每组的联结特征，进一步，对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征，通过预训练的局部模型对低动态范围图像的局部信息进行整合，保留图像细节，并通过预训练的全局模型探索全局的文本信息来去除运动产生的伪影，可以使生成的高动态范围图像与低动态范围图像的联系更加紧密，进而提升了生成的高动态范围图像的效果，从而提升用户体验。

在一些实施例中，所述根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像之后，所述方法还包括：通过损失函数对生成的所述待重建图像的高动态范围图像进行处理，得到所述待重建图像的目标高动态范围图像。

电子设备通过损失函数对生成的所述待重建图像的高动态范围图像进行处理，得到所述待重建图像的目标高动态范围图像，从而实现动态场景下的HDR图像重建。

总损失函数定义为三部分损失函数的加权求和，包括内容损失函数、结构损失函数和平滑损失函数，表示为如下形式：

其中λ_s和λ_m分别为结构损失和平滑损失的加权系数。

1)内容损失函数

内容损失函数可以保留所有LDR图像的细节，定义为：

其中H为SH-Net预测得到的HDR图像，M_o和M_u表示生成的运动掩膜。β_o和β_u分别为高曝光度和低曝光度图像对应的权重，‖·‖₁表示内部元素的l₁范数。

2)结构损失函数

结构损失函数可以保持图像的结构信息和边缘信息。通过平均结构相似性指数评价指标(Meanstructuresimilarityindexmetric，MSSIM)损失函数来限制输入LDR图像和输出HDR图像之间的结构相似性。因此结构损失函数被定义为：

此处γ_o和γ_u分别为高曝光度和低曝光度图像对应的权重。MSSIM函数的定义为：

其中X和Y分别为失真图像和参考图像，x_j和y_j为它们在第j个位置的图像块。

3)平滑损失函数

从数张动态LDR曝光图像中重建一张HDR图像可能会导致不自然的区域或者边缘。因此很有必要使用自然图像的先验来使得HDR图像看起来生动自然。全变差(Totalvariation，TV)损失函数能够保持图像的梯度并保证像素间的平滑。因此我们将其作为平滑损失函数来提高图像的视觉质量：

此处的

和

表示融合后的HDR图像H在水平方向和垂直方向的梯度。

本公开实施例通过损失函数对生成的所述待重建图像的高动态范围图像进行处理，得到所述待重建图像的目标高动态范围图像。通过结构损失函数可以保留所有LDR图像的细节；通过结构损失函数保持图像的结构信息和边缘信息；通过平滑损失函数保持图像的梯度、保证像素间的平滑，进而提高图像的视觉质量，可以提升生成的高动态范围图像的效果，从而提升用户体验。

图4为本公开实施例提供的高动态范围图像生成装置的结构示意图。该高动态范围图像生成装置可以是如上实施例的电子设备，或者高动态范围图像生成装置可以该电子设备中的部件或组件。本公开实施例提供的高动态范围图像生成装置可以执行高动态范围图像生成方法实施例提供的处理流程，如图4所示，高动态范围图像生成装置40包括：第一得到模块41、第二得到模块42、第三得到模块43、输出模块44、第一生成模块45；其中，第一得到模块41用于对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征；第二得到模块42用于基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征；第三得到模块43用于对所述每组的联结特征以及所述三张初始图像中包括的参考图像对应的浅层特征进行聚合处理，得到待重建图像的聚合特征；输出模块44用于将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征；第一生成模块45用于根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像。

可选的，装置还包括：第二生成模块46；第二生成模块46用于基于所述三张初始图像生成两张潜在图像。

可选的，所述三张初始图像包括所述待重建图像的高曝光度图像、低曝光度图像和参考图像；所述低曝光度图像的曝光度小于或等于预设第一曝光度阈值，所述高曝光度图像的曝光度大于或等于预设第二曝光度阈值，所述参考图像的曝光度大于所述预设第一曝光度阈值且小于所述预设第二曝光度阈值，所述两张潜在图像包括高曝光度潜在图像和低曝光度潜在图像；

相应的，所述第二生成模块46基于所述三张初始图像生成两张潜在图像时，具体用于：根据所述高曝光度图像和所述参考图像生成所述高曝光度潜在图像；根据所述低曝光度图像和所述参考图像生成所述低曝光度潜在图像。

可选的，装置还包括：第三生成模块47；第三生成模块47用于生成所述高曝光度图像和所述低曝光度图像各自对应的运动掩膜；

相应的，第三生成模块47基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征时，具体用于：基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为高曝光组图像的浅层特征和低曝光组图像的浅层特征；对所述高曝光组图像的浅层特征以及所述高曝光度图像对应的运动掩膜进行特征联结，得到所述高曝光组图像的联结特征；对所述低曝光组图像的浅层特征以及所述低曝光度图像对应的运动掩膜进行特征联结，得到所述低曝光组图像的联结特征。

可选的，所述输出模块44将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征时，具体用于：通过预设第一卷积层对所述待重建图像的聚合特征的通道进行压缩，得到局部输入特征，对所述局部输入特征进行多个层次的特征聚合，得到所述待重建图像的局部特征；通过预设第二卷积层对所述待重建图像的聚合特征的通道进行压缩，得到全局输入特征，对所述全局输入特征进行多个层次的特征聚合，得到所述待重建图像的全局特征。

可选的，所述根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像时，具体用于：对所述待重建图像的局部特征、所述待重建图像的全局特征以及所述参考图像对应的浅层特征进行特征联结，得到待重建图像的重建特征；根据所述待重建图像的重建特征生成所述待重建图像的高动态范围图像。

可选的，装置还包括：损失处理模块48；损失处理模块48用于通过损失函数对生成的所述待重建图像的高动态范围图像进行处理，得到所述待重建图像的目标高动态范围图像。

图4所示实施例的高动态范围图像生成装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的电子设备。本公开实施例提供的电子设备可以执行高动态范围图像生成方法实施例提供的处理流程，如图5所示，电子设备50包括：存储器51、处理器52、计算机程序和通讯接口53；其中，计算机程序存储在存储器51中，并被配置为由处理器52执行如上所述的高动态范围图像生成方法。

另外，本公开实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的高动态范围图像生成方法。

此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的高动态范围图像生成方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperTextTransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，adhoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

另外，该电子设备还可以执行如上所述的高动态范围图像生成方法中的其他步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种高动态范围图像生成方法，其特征在于，包括：

根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像；

所述对输入的三张初始图像和两张潜在图像进行特征提取，得到每张图像分别对应的浅层特征之前，所述方法还包括：

基于所述三张初始图像生成两张潜在图像；

其中，所述三张初始图像包括所述待重建图像的高曝光度图像、低曝光度图像和参考图像；所述低曝光度图像的曝光度小于或等于预设第一曝光度阈值，所述高曝光度图像的曝光度大于或等于预设第二曝光度阈值，所述参考图像的曝光度大于所述预设第一曝光度阈值且小于所述预设第二曝光度阈值，所述两张潜在图像包括高曝光度潜在图像和低曝光度潜在图像；

所述高曝光度潜在图像和所述低曝光度潜在图像的运动状态与所述参考图像的运动状态相同，所述高曝光度潜在图像的曝光度与所述高曝光度图像的曝光度相同，所述低曝光度潜在图像的曝光度与所述低曝光度图像的曝光度相同。

2.根据权利要求1所述的方法，其特征在于，所述基于所述三张初始图像生成两张潜在图像，包括：

根据所述高曝光度图像和所述参考图像生成所述高曝光度潜在图像；

根据所述低曝光度图像和所述参考图像生成所述低曝光度潜在图像。

3.根据权利要求1所述的方法，其特征在于，所述基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征之前，所述方法还包括：

生成所述高曝光度图像和所述低曝光度图像各自对应的运动掩膜；

相应的，基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为两组，对每组的浅层特征以及对应的运动掩膜进行特征联结，得到所述每组的联结特征，包括：

基于待重建图像的曝光度将所述每张图像分别对应的浅层特征分为高曝光组图像的浅层特征和低曝光组图像的浅层特征；

对所述高曝光组图像的浅层特征以及所述高曝光度图像对应的运动掩膜进行特征联结，得到所述高曝光组图像的联结特征；

对所述低曝光组图像的浅层特征以及所述低曝光度图像对应的运动掩膜进行特征联结，得到所述低曝光组图像的联结特征。

4.根据权利要求1所述的方法，其特征在于，所述将所述待重建图像的聚合特征分别输入到预训练的局部模型和预训练的全局模型中，输出所述待重建图像的局部特征和所述待重建图像的全局特征，包括；

通过预设第一卷积层对所述待重建图像的聚合特征的通道进行压缩，得到局部输入特征，对所述局部输入特征进行多个层次的特征聚合，得到所述待重建图像的局部特征；

通过预设第二卷积层对所述待重建图像的聚合特征的通道进行压缩，得到全局输入特征，对所述全局输入特征进行多个层次的特征聚合，得到所述待重建图像的全局特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像，包括：

对所述待重建图像的局部特征、所述待重建图像的全局特征以及所述参考图像对应的浅层特征进行特征联结，得到待重建图像的重建特征；

根据所述待重建图像的重建特征生成所述待重建图像的高动态范围图像。

6.根据权利要求1所述的方法，其特征在于，所述根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像之后，所述方法还包括：

通过损失函数对生成的所述待重建图像的高动态范围图像进行处理，得到所述待重建图像的目标高动态范围图像。

7.一种高动态范围图像生成装置，其特征在于，包括：

第一生成模块，用于根据所述待重建图像的局部特征和所述待重建图像的全局特征，生成所述待重建图像的高动态范围图像；

所述装置还包括：

第二生成模块，用于基于所述三张初始图像生成两张潜在图像；

8.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。