CN115867934A

CN115867934A - 排列不变的高动态范围成像

Info

Publication number: CN115867934A
Application number: CN202080103149.6A
Authority: CN
Inventors: 锡比·卡特利-钱达; 爱德华多·佩雷斯·佩利特罗; 阿莱斯·莱昂纳迪斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-03-28
Also published as: US20230267582A1; EP4222688A1; WO2022096104A1

Abstract

本文描述了一种用于形成增强图像的图像处理装置(1200)，所述装置包括一个或多个处理器(1204)，所述处理器用于：接收(1101)一个或多个输入图像(301、302、404、405、406、501、502、503、601、602、603)；由所述一个或多个输入图像中的每一个图像形成(1102)相应特征表示，每个特征表示代表所述相应输入图像的特征；对所述一个或多个特征表示执行(1103)对称池化操作(305)，以由所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像(408、505、608)。所述装置可以生成具有更大感光动态范围、更大位深和信噪比以及具有更小量化误差和更丰富的颜色表示形式的图像。

Description

排列不变的高动态范围成像

技术领域

本发明涉及根据一个或多个低动态范围(Low Dynamic Range，LDR)图像估计高动态范围(High Dynamic Range，HDR)图像。

背景技术

图像的动态范围定义为最大和最小可测量光强度(分别为白色和黑色)之间的比率。人类视觉系统具有非常宽的动态范围。人类可以在非常明亮和非常黑暗的场景中感知细节。然而，由于相机感光器的性质，相机很难捕获如此丰富的细节。

如图1(a)和图1(b)所示，相机的传感器由感光点组成，这些感光点作为光腔，当光子“落入”光腔中时会产生电信号。由于信号中固有的噪声水平，每个光腔可以检测到的光子数量最少，因此这样可以设置相机可测量的“最小”光。图1(a)示出了传感器噪声水平导致的最小可测量光。在亮度的另一端，当有太多的电子落入感光点时，它们可能会溢出并饱和，从而有效地设置最大可测量光，即白色。图1(b)示出了感光点溢出导致的最大可测量光。场景中超出该范围的所有亮度都将曝光不足或曝光过度，因此会丢失部分场景亮度。

如图2(a)和图2(b)所示，如果场景的亮度较高，则具有不同曝光值的几个帧可能有助于显示场景的所有细节。图2(a)显示了门窗周围的明亮细节，但房间后部曝光不足。在图2(b)中，门窗周围的区域曝光过度，但房间后部的细节曝光良好。

当前的相机动态范围远远无法捕获高对比度场景中的所有细节。因此，在给定静态相机和场景的情况下，使用不同的曝光值(即自动包围曝光)捕获多个帧，并通过加权融合进行合并。这使得所获得的图像能够保留所有输入图像中的细节，从而有效地增加动态范围，这被称为HDR图像。

现有方法通常可以分为两大领域：多帧融合(通过线性加权组合或神经网络组合不同曝光的多个图像)和单图像神经网络。

在多帧方法中，通过包围曝光图像，可以捕获并融合不同的范围，从而利用超出单次捕获动态范围的大量场景亮度信息。然而，多帧HDR带来了几项挑战。它要求不同帧之间的精确对齐和像素配准，这一点非常困难，特别是对于高速运动场景。此外，对于某些类型的摄影，可能无法拍摄多个帧，因为要捕获的相关元素可能仅在很短的时间内可用(例如，在野生动物摄影或体育运动中)。

相比之下，单图像HDR处理不需要帧之间的任何对齐，因此能够有效重建具有任意运动量的图像。然而，单图像HDR方法依赖低动态范围输入图像中曝光不足或曝光过度的幻构细节。因此，不能很好地构建具有非常宽的亮度范围的场景，并且此类技术最适合重建亮度范围仅略高于单个图像的HDR图像。

需要开发一种克服这些问题的方法。

发明内容

根据一方面，本发明提供了一种用于形成增强图像的图像处理装置，所述装置包括一个或多个处理器，所述处理器用于：接收一个或多个输入图像；由所述一个或多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征；对所述一个或多个特征表示执行对称池化操作，以由所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像。

所述装置可以处理任意数量的输入帧，以任何顺序处理帧并处理具有任何曝光值的帧。曝光过度或曝光不足的内容在任何输入帧中都不可用时，可以对其进行幻构。所述装置和方法可以处理来自不同相机传感器/ISP的帧，并处理每帧不同级别的噪声。所述装置可以生成具有更大感光动态范围(即，在同一场景内捕获阴影和高光的能力)、更大位深和信噪比以及具有更小量化误差和更丰富的颜色表示形式的图像。

所述对称池化操作可以使得所述或每个特征表示遵循共同处理逻辑，以识别所述相应特征表示的分量。由此可以识别每个特征表示的分量并将其用于形成所述增强图像。

所述对称池化操作的操作方式可以不受向所述对称池化操作提供特征表示的顺序的影响。因此，所述装置可以以任何顺序处理输入帧，并且具有排列不变性。

所述对称池化操作可以包括最大池化操作和/或平均池化操作。这些可能是用于执行所述对称池化操作的便捷实现方式。

所述一个或多个处理器可以用于：对每个输入图像或由其得出的数据执行第一次卷积运算，以形成所述相应特征表示；通过对所述对称池化操作的输出执行第二次卷积运算，来形成所述增强图像。因此，可以将多个卷积应用于所述输入图像以形成所述特征表示，然后执行所述对称池化操作，所述对称池化操作将创建所有所述输入图像(或单个图像)的“单一特征表示”，并应用一个或多个卷积以获得估计的HDR图像。

所述增强图像具有比所述一个或多个输入图像中的每一个图像更高的动态范围。由此可以由一个或多个LDR输入图像形成HDR图像。

所述一个或多个处理器可以用于：对所述对称池化操作的输出和所述相应特征表示执行级联操作，以形成相应的中间特征表示。可以对所述中间特征表示执行所述第二次卷积运算。在优选实现方式中，这可以是所述对称池化操作之后的单一卷积运算和所述对称池化操作之前的单一卷积运算。然而，可以在所述对称池化操作前后使用任意数量的卷积。

所述一个或多个处理器可以用于通过执行以下修正任务中的一个或多个来形成所述或每个特征表示：对所述相应输入图像进行去噪、反量化、线性化、相机响应校准以及曝光过度和曝光不足校正。所述修正任务可以是中间修正任务。这可以允许所述深度学习模型包括多个神经网络，所述多个神经网络按顺序在单图像和多图像设置中运作，以执行低动态范围图像的动态范围增强。

可以结合经过训练的神经网络执行所述对称池化操作。例如，围绕对称池块的卷积可以是可获知的，并且可以实现为神经网络。

所述图像处理装置可以包括相机(或其它成像设备)。所述或每个处理器可以用于从所述相机接收所述输入图像。所述相机或其它成像设备可以用于在不同时间以不同曝光设置捕获所述输入图像。这可以使得所述装置能够处理在不同曝光时捕获的一系列LDR图像。

可以对所述至少一个输入图像进行曝光归一化处理。这可能会提高图像质量。

所述装置可以用于接收单个输入图像。或者，所述一个或多个处理器可以用于：接收多个输入图像；由所述多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征；对所述特征表示执行对称池化操作，以通过融合所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像。因此，所述装置可以处理一个或多个LDR图像，以形成所述增强图像。

所述增强图像可以是估计的高动态范围图像，且所述一个或多个输入图像的动态范围小于所述高动态范围图像。由此可以由一个或多个LDR输入图像生成HDR图像。

根据第二方面，本发明提供了一种用于形成增强图像的计算机实现的方法，所述方法包括：接收一个或多个输入图像；由所述一个或多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征；对所述一个或多个特征表示执行对称池化操作，以由所述对称池化操作识别的所述特征表示的至少一些所述特征来形成增强图像。

所述方法可以处理任意数量的输入帧，以任何顺序处理帧并处理具有任何曝光值的帧。曝光过度或曝光不足的内容在任何输入帧中都不可用时，可以对其进行幻构。所述方法可以处理来自不同相机传感器/ISP的帧，并处理每帧不同级别的噪声。

所述接收步骤可以包括接收多个输入图像，并且每个输入图像的视场相同。因此，所述输入图像可以具有相同的视场(例如，来自普通照片)。

所述接收步骤可以包括接收多个输入图像，并且至少两个所述输入图像的视场不同。例如，所述输入图像可以是按顺序捕获的照片。

附图说明

现将参考附图通过示例的方式对本发明进行描述。

在附图中：

图1(a)和图1(b)示意性地示出了传感器感光点导致的动态范围限制。图1(a)示出了传感器噪声水平导致的最小可测量光，图1(b)示出了感光点溢出导致的最大可测量光；

图2(a)和图2(b)示出了同一场景的不同曝光值照片的示例；

图3示出了局部对称池化块的示意图；

图4(a)和图4(b)示出了使用全局对称池化操作的方法示例。图4(a)示出了单图像主干，其中，输入图像通过跳跃连接输入网络。在图4(b)中，多个输入图像分别输入到此类网络；

图5示出了使用局部和全局对称池化块的方法示例；

图6示出了包含不同图像处理操作的单图像和多图像HDR深度学习模型的示意图；

图7示出了用于去噪/JDD和反量化的网络设计示例的示意图；

图8示出了用于线性化的网络架构示例的示意图；

图9示出了用于曝光校正的网络架构示例的示意图；

图10示出了用于修正的网络架构示例的示意图；

图11示出了用于形成增强图像的计算机实现的方法示例；

图12示出了用于实现本文所述方法的设备的示例；

图13(a)和图13(b)示出了使用本文所述方法获得的结果示例。

具体实施方式

本发明实施例涉及根据一个或多个低动态范围图像估计高动态范围图像。

本发明通过排列不变的模块化深度学习模型解决了从单个LDR图像或其中的一组(即多帧)获得HDR图像的问题，在一些实施例中，所述模型可以联合去噪、反量化、重建曝光不足和曝光过度的区域。

总之，所述图像处理装置形成增强图像，即估计的HDR图像。所述装置用于接收一个或多个输入图像。所述装置用于由所述一个或多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征。所述设备用于对所述一个或多个特征表示执行对称池化操作，以由所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成所述增强图像。

所述对称池化操作使得所述特征表示遵循共同处理逻辑，以识别所述相应特征表示的分量。特征表示通过对所述输入图像应用转换来形成。所述特征表示概述了对最终任务有用的输入图像的特征。在当前情况下，所述特征表示识别有助于HDR任务并与所述对称池操作兼容的特征。

本文描述的装置和方法可以处理任意数量的输入帧(单个或多个，具有任何曝光值配置和任何顺序的输入)，并且可以在所述输入图像的某些区域不可用的情况下，处理图像细节的融合以及缺失细节的幻构。

所述装置通过排列不变感知设计实现了这种灵活性，该设计利用在所述神经网络不同之间使用对称操作(例如，最大池化)的优势。因此，所述对称池化操作的操作方式不受向所述对称池化操作提供特征表示的顺序的影响。

所述装置使用的算法可以通过在所述模型的多个相同副本中包含特定的中间和全局对称池化操作，使任何深度单图像HDR模型适应深度排列不变的单图像和多图像HDR模型。由此可以在具有任何曝光值的任何排列中使用任意数量的输入。

在本文将描述的一些实施例中，所述深度学习模型可以联合执行去噪或联合去噪和去马赛克(joint denoising and demosaicing，JDD)、反量化、相机响应校准、曝光过度和曝光不足校正，作为用于动态范围增强的连续构建块。所述方法允许使用来自不同相机传感器/ISP的图像，并且能够处理每帧不同级别的噪声(即，每个输入图像可以有不同级别的噪声)。

本发明实施例可以提供一种训练策略，其中，以不需要完全注释的数据的方式单独训练子任务。这可以使得整理训练数据变得更容易。

所述网络以任意排列方式接受来自多个不同传感器和ISP的任意数量的低动态范围图像作为输入。在所述网络接收多个输入图像的情况下，所述输入图像可以具有不同的噪声级别和不同的曝光值。总之，所述输入是任意数量的LDR图像，所述输出是估计的HDR图像。

所述对称池化操作是一种提供可扩展融合机制的手段，所述融合机制可以处理任意数量的图像。仅提供一个图像作为输入时，所述对称池化操作采用单图像模型；当有多个帧可用时，所述对称池化操作提供一种通过池化来共享信息的有效机制。

所述对称池化操作的定义方式是，如果应用于单个输入，则不会对其进行修改：输出将与输入相同(即身份转换)。单图像特征表示的最大池化将是相同的图像特征表示。

在多图像情况下，所述装置可以用于：接收多个输入图像；由所述多个输入图像中的每一个图像形成相应特征表示；对所述特征表示执行对称池化操作，以通过融合所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像。所述融合特征可以对应于相应图像的相同特征。因此，所述每个特征表示的一个或多个特征至少可以部分(在某些情况下完全)指代相同的图像特征。

对于单图像情况，所述输入为Im_1。将特征提取器应用于所述图像，即F(Im_1)。对所述一组特征进行最大池化操作max(F(Im_1))。单个图像的最大池化仅仅是身份，因此max(Im_1)＝Im_1，且所述模型无需更改架构即可工作。

这种全局最大池化可以发生在下文示例中描述的任何中间任务(例如，去噪、反量化、曝光过度和曝光不足校正)中。优选地，将所述全局最大池化应用于所述流水线的末端，例如曝光过度和曝光不足校正阶段。

对于排列不变性，优选地，至少进行一次所述全局对称池化，然后在所述全局对称池化之后，将所有头部折叠为一个。相比之下，局部对称池化可以按需要的频率进行，并且不会将头部折叠为单个头部。

对于两个输入图像301和302，图3示出了所述局部对称池化操作的机制。

对每个输入图像301、302执行第一次卷积运算303、304，以形成所述相应特征表示。305处示出了所述对称池化操作(本例中为最大池化操作)。在306、307处级联所述输出，并且通过对所述输出执行第二次卷积运算308、309来形成所述增强图像。所述级联操作306、307将形成相应的中间特征表示，并且对所述中间特征表示执行所述第二次卷积运算308、309。

图4(a)和图4(b)示出了仅使用全局对称池化操作的方法。图4(a)示出了单图像主干，其中，输入图像401通过跳跃连接输入网络402，从而生成输入403。在图4(b)中，多个输入图像404、405、406分别输入到此类网络。多个编码器具有共享权重，每个输入图像一个权重。将对称池化层(本例中为最大池化)应用于所生成的特征表示上所述网络的多个副本，如407处所示。所述增强输出图像如408处所示。

图5示出了在所述编码器504中使用局部和全局对称池化的方法。对每个输入图像501、502、503执行第一次卷积运算，以形成所述相应特征表示。对所述局部对称池化操作的输出进行级联，并且通过对所述输出执行第二次卷积运算来形成所述HDR图像。所述级联操作将形成相应的中间特征表示，并且对所述中间特征表示执行所述第二次卷积运算。局部对称池化使得能够在所述网络或头部的不同副本之间共享更多信息通道，而由于所述级联操作，每个头部均保留显著特征。所述HDR输出图像如505处所示。

图6示出了单图像和多图像HDR深度学习模型各个阶级的示例性总结。在图6中，601、602和603处示出了所述输入图像。在该示例中，所述深度学习模型包括四个神经网络，所述多个神经网络按顺序在单图像和多图像设置中运作，以执行低动态范围图像的动态范围增强。在图6中，所述架构所处的阶段为去噪/JDD和反量化604、线性化605、曝光过度校正606和修正607。所生成的估计HDR图像如608处所示。

图7示出了所述去噪架构。该网络共同执行去噪/JDD和反量化。它具有U-Net结构，且所述编码器和解码器之间具有跳跃连接，如箭头所示。所述有噪输入图像如701处所示。从所述输入图像形成的所述特征表示通过卷积层702。在具有共享权重的网络的多个副本(每个输入图像一个)中应用对称池化层。所述下采样和上采样分别如703和704处所示。然后，使所述上采样特征图穿过卷积层705，以在706处提供去噪输出。

图8所示的网络架构通过预测生成逆相机响应函数所需的权重来执行线性化，所述函数将应用于所述非线性输入图像801。所述网络具有包括残差块的ResNet结构。使所述输入801与Sobel过滤器特征802和直方图803一起穿过卷积层和残差块，如804处所示。在805处执行池化，在806处执行逆相机响应函数(Camera Response Function，CRF)步骤，并且在807处执行CRF，以在808处提供线性化输出。

图9所示的网络架构通过对所述图像曝光过度区域中的细节进行幻构来执行曝光校正，并且在有多个输入图像时还融合来自多个来源的细节。它具有U-net结构，且所述编码器和解码器之间具有跳跃连接，如箭头所示。曝光过度的输入如901处所示。使所述输入在903处通过卷积层之后，对其进行下采样，如902处所示。在904处，通过在具有共享权重的网络的多个副本(每个输入图像一个)中应用的对称池化层来执行上采样。在905处经过卷积层并在906处进行级联后，校正输入如907处所示。

图10所示的网络架构对所述图像执行修正，以提高视觉质量。它具有U-Net结构，且所述编码器和解码器之间具有跳跃连接。该网络采用所述去噪输出706、所述曝光校正输出907和所述线性化输出808，在下采样1002、上采样1003之前使其通过所述卷积层1001并在1005处进行级联之前使其通过另一卷积层1004，以提供修正输出1006。

在优选实现方式中，如图6所示，所述深度学习模型依次包括结合图7至10描述的四个网络。为简化起见，图7至图10示出了每个模型的单个副本，但最好使用具有共享权重的同一模型的多个副本进行去噪和曝光校正，如图6所示。

为训练网络，首先分别训练每个子任务。为训练去噪/JDD网络，最大程度地减小所述预测图像D_Pred和地面真值图像D_GT中像素之间平方差的平均值。如果N是所述图像中的像素数，则所述损失函数为：

为训练所述线性化网络，最大程度地减小所述预测图像L_Pred和地面真值图像L_GT中像素之间平方差的平均值。此外，最大程度地减小所述预测的逆CRF C_Pred和地面真值逆CRFC_GT之间的平方差。如果N是所述图像中的像素数，M是所述预测逆CRF中的元素数，则通过以下等式得出所述损失：

为训练曝光校正网络，使用μ-Law色调映射函数以及γ＝10对所述预测图像H_Pred进行色调映射，以获得H_{Pred_tonemapped}。所述地面真值图像H_GT也采用同样的方式进行色调映射，以获得H_{GT_tonemapped}。计算所述输入图像的曝光过度区域H_{mask_overexposed}的掩码以及非曝光过度区域1-H_{maskoverexposed}的掩码。将这些掩码应用于所述色调映射后的预测和地面真值图像，以获得H_{Pred_overexposed}、H_{Pred_normal}、H_{GT_overexposed},H_{GT_normal}。

然后，通过所述掩码图像上的逐像素重建损失(L1损失)得出所述损失函数，如下所示：

在单独训练所述三个子任务后，可以联合训练所述三个网络以提高性能：

L_Finetune＝L_Exposure+L_Linearize+L_Denoise

为训练所述修正网络，对该网络和其它三个子网进行联合微调。最大程度地减小所述色调映射后的预测图像R_{Pred_tonemapped}和所述色调映射后的地面真值图像R_{GT_tonemapped}之间的逐像素重建损失(L1损失)：

对于多图像HDR数据集，所述单图像HDR重建数据集可用于训练所述模型。将一系列变换应用于所述地面真值HDR图像，以生成用于训练的LDR-HDR对。

在一示例中，将所述HDR图像较长边和较短边的尺寸分别调整为1024和512。然后将该图像分成两个512x512地面真值HDR图像。这组图像是所述曝光校正和修正网络的地面真值。然后，随机选择介于1和n之间的突发尺寸b。对范围[-8,8]内的b个曝光值进行随机采样，并将这些曝光值应用于所述地面真值图像，以获得b个曝光图像。将这些图像的所述动态范围剪裁至0和1之间。这是所述线性化网络的地面真值。从响应函数数据库(Databaseof Response Function，DoRF)对CRF进行随机采样并将其应用于所述剪裁图像。这是所述去噪网络的地面真值。噪声与两个分量相加，即固定元素和信号相关元素。利用所述噪声模型，使用所述有噪图像来近似地表示所述地面真值的方差，并将估计的方差级联到每个图像。突发范围内的所有图像均按曝光值对齐。

因此，本发明实施例可以提供用于实现如下算法的装置，该算法通过包含所描述的特定中间和全局对称池化操作(例如，平均或最大池化)，使任何单图像HDR模型成为排列不变的单图像和多图像HDR模型。本文描述的深度学习模型可以联合执行去噪/JDD、反量化、相机响应校准、过饱和与欠饱和校正，作为用于单帧和多帧动态范围增强的连续构建块。本发明实施例可以提供一种训练策略，据此以不需要完全注释的数据的方式单独训练子任务。

图11示出了计算机实现的图像处理方法的示例。在步骤1101中，所述方法包括接收一个或多个输入图像。在步骤1102中，所述方法包括由所述一个或多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征。在步骤1103中，所述方法包括对所述一个或多个特征表示执行对称池化操作，以由所述对称池化操作识别的所述特征表示的至少一些所述特征来形成增强图像。

所述装置可以包括成像设备，例如相机。在使用多个图像作为输入的情况下，所述装置可以用于响应来自所述装置用户的输入，使所述相机或其它成像设备以与其它输入图像不同的曝光来捕获所述每个输入图像。所捕获的图像也可以具有不同的噪声级别。

图12示出了包括成像设备1201(例如相机)的装置1200的示例，所述装置用于使用本文描述的方法来处理所述设备中至少一个图像传感器捕获的图像数据。所述设备1201包括图像传感器1202、1203。此类设备1201包括一些板载处理能力。这可以由所述处理器1204提供。所述处理器1204还可以用于所述设备的基本功能。

收发器1205能够通过网络与其它实体1210、1211通信。这些实体可以在物理上远离所述设备1201。所述网络可以是公共可访问网络，例如互联网。所述实体1210、1211可以基于云。实体1210是计算实体。实体1211是命令和控制实体。这些实体是逻辑实体。实际上，它们中的每一个都可以由一个或多个物理设备(例如，服务器和数据存储区)提供，并且两个或多个所述实体的功能可以由单个物理设备提供。实现实体的每个物理设备包括处理器和存储器。所述设备还包括收发器，用于向设备1201的收发器1205发送数据并从该收发器接收数据。所述存储器以非瞬时方式存储代码，所述代码可由所述处理器执行，以通过本文描述的方式实现相应实体。

所述命令和控制实体1211可以训练所述设备中使用的所述模型。这通常是一项计算密集型任务，即使可以高效地描述所获得的模型，因此可以高效地在云中执行所述算法的开发，可以预见的是云中有大量能量和计算资源可用。可以预见的是，这比在典型成像设备上形成此类模型更高效。

在一实现方式中，在云中开发所述算法后，所述命令和控制实体即可自动形成相应的模型并传输到相关成像设备。在该示例中，由处理器1204在所述设备1201处实现所述模型。

在另一可能的实现方式中，可以由所述传感器1202、1203中的一个或两个捕获图像，并且可以由所述收发器1205将所述图像数据发送到云端进行处理。然后，可以将所生成的图像发送回所述设备1201，如图12中的1212所示。

因此，可以通过多种方式部署所述方法，例如部署在云中、所述设备上或专用硬件中。如上所述，云设施可以执行训练，以开发新算法或改进现有算法。根据数据语料库附近的计算能力，所述训练可以在靠近源数据的位置进行，也可以在云中进行，例如使用推理引擎。所述方法还可以在所述设备处、在专用硬件或云中实现。

图13(a)和图13(b)示出了使用本文所述方法(使用单图像HDR测试集)获得的结果示例。图13(a)示出了使用单个图像的结果，图13(b)示出了多个图像(该示例中为两个图像)的结果示例。在两种情况下，均观察到相对于输入的图像质量改善。

本文描述的装置和方法可以处理任意数量的输入帧，以任何顺序处理帧并处理具有任何曝光值的帧。曝光过度或曝光不足的内容在任何输入帧中都不可用时，可以对其进行幻构。所述装置和方法可以处理来自不同相机传感器/ISP的帧，并处理每帧不同级别的噪声。所述深度学习模型可以在没有完全注释的数据的情况下进行训练(只需要成对的任务)。

这种深度学习流水线保留了单帧和多帧HDR模型的优点。

本文描述的装置和方法可以生成具有更大感光动态范围(即，在同一场景内捕获阴影和高光的能力)、更大位深和信噪比以及具有更小量化误差和更丰富的颜色表示形式的图像(例如，每通道16位RGB图像)。

申请方在此单独公开本文描述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识，能够基于本说明书将此类特征或组合作为整体实现，而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题，并且不限于权利要求的范围。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims

1.一种用于形成增强图像的图像处理装置(1200)，其特征在于，所述装置包括一个或多个处理器(1204)，所述处理器用于：

接收(1101)一个或多个输入图像(301、302、404、405、406、501、502、503、601、602、603)；

由所述一个或多个输入图像中的每一个图像形成(1102)相应特征表示，每个特征表示代表所述相应输入图像的特征；

对所述一个或多个特征表示执行(1103)对称池化操作(305)，以由所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像(408、505、608)。

2.根据权利要求1所述的图像处理装置，其特征在于，所述对称池化操作使得所述或每个特征表示遵循共同处理逻辑，以识别所述相应特征表示的分量。

3.根据上述任一权利要求所述的图像处理装置，其特征在于，所述对称池化操作的操作方式不受向所述对称池化操作提供特征表示的顺序的影响。

4.根据上述任一权利要求所述的图像处理装置，其特征在于，所述对称池化操作包括最大池化操作和/或平均池化操作。

5.根据上述任一权利要求所述的图像处理装置，其特征在于，所述一个或多个处理器用于：

对每个输入图像或由其得出的数据执行第一次卷积运算(303、304)，以形成所述相应特征表示；

通过对所述对称池化操作(305)的输出执行第二次卷积运算(308、309)，来形成所述增强图像。

6.根据上述任一权利要求所述的图像处理装置，其特征在于，所述增强图像具有比所述一个或多个输入图像中的每一个图像更高的动态范围。

7.根据权利要求5或6所述的图像处理装置，其特征在于，所述一个或多个处理器用于：

对所述对称池化操作的输出和所述相应特征表示执行级联操作(306、307)，以形成相应的中间特征表示；

其中，对所述中间特征表示执行所述第二次卷积运算。

8.根据上述任一权利要求所述的图像处理装置，其特征在于，所述一个或多个处理器用于通过执行以下修正(refinement)任务中的一个或多个来形成所述或每个特征表示：对所述相应输入图像进行去噪、反量化、线性化、相机响应校准以及曝光过度和曝光不足校正。

9.根据上述任一权利要求所述的图像处理装置，其特征在于，结合经过训练的神经网络执行所述对称池化操作。

10.根据上述任一权利要求所述的图像处理装置，其特征在于，包括相机(1201)，其中，所述或每个处理器用于从所述相机接收所述输入图像。

11.根据权利要求10所述的图像处理装置，其特征在于，所述相机(1201)用于在不同时间以不同曝光设置捕获所述输入图像。

12.根据上述任一权利要求所述的图像处理装置，其特征在于，对所述至少一个输入图像进行曝光归一化处理。

13.根据上述任一权利要求所述的图像处理装置，其特征在于，所述装置用于接收单个输入图像。

14.根据权利要求1至12中任一项所述的图像处理装置，其特征在于，所述一个或多个处理器用于：

接收多个输入图像；

由所述多个输入图像中的每一个图像形成相应特征表示，每个特征表示代表所述相应输入图像的特征；

对所述特征表示执行对称池化操作，以通过融合所述对称池化操作识别的所述一个或多个特征表示的至少一些所述特征来形成增强图像。

15.根据上述任一权利要求所述的图像处理装置，其特征在于，所述增强图像是估计的高动态范围图像，且所述一个或多个输入图像的动态范围小于所述高动态范围图像。

16.一种用于形成增强图像的计算机实现的方法(1100)，其特征在于，所述方法包括：

对所述一个或多个特征表示执行(1103)对称池化操作(305)，以由所述对称池化操作识别的所述特征表示的至少一些所述特征来形成增强图像(408、505、608)。

17.根据权利要求16所述的方法，其特征在于，所述接收步骤包括接收多个输入图像，并且每个输入图像的视场相同。

18.根据权利要求16所述的方法，其特征在于，所述接收步骤包括接收多个输入图像，并且至少两个所述输入图像的视场不同。