CN114331931A

CN114331931A - 基于注意力机制的高动态范围多曝光图像融合模型及方法

Info

Publication number: CN114331931A
Application number: CN202111428200.3A
Authority: CN
Inventors: 白本督; 李俊鹏; 孙爱晶
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-04-12
Also published as: CN116152128A

Abstract

本发明涉及一种基于注意力机制的高动态范围多曝光图像融合方法，属于图像处理技术领域。首先，将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中，获得目标场景两张不同曝光图像对应的两组高维特征图。随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块，以突出融合有利的图像特征，抑制欠饱和、过饱和等低质量区域的特征，得到重建融合图像所需的纯净高维特征。特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。本发明方法提高了高动态范围多曝光图像融合的质量和鲁棒性。

Description

基于注意力机制的高动态范围多曝光图像融合模型及方法

技术领域

本发明涉及一种高动态范围成像的多曝光图像融合模型及方法，属于图像处理技术领域。

背景技术

自然场景有很宽广的动态范围，如微弱星光亮度约为10^-4cd/m²，恒星强光亮度范围为10⁵～10⁹cd/m²，通过数码单反相机拍摄记录时，往往因为数码相机动态范围受限，导致拍摄的照片出现过曝光和欠曝光。高动态范围多曝光图像融合技术旨在扩大图像动态范围，解决由数码相机动态范围受限无法捕获高动态范围图像而产生的问题。近年来，随着算力水平的提升，高动态范围多曝光图像融合方法研究从传统的基于变换的方法，逐渐转向基于深度学习的方法。传统的基于变换的方法通常利用某种图像变换(拉普拉斯金字塔、小波变化、稀疏表示等)将输入图像转换为特征图，根据人工定义的融合策略进行特征融合，得到包含丰富信息的高动态范围图像。而基于深度学习的方法解决了传统高动态范围多曝光图像融合方法不能自适应学习图像特征的不足，生成比传统方法细节更丰富的高动态范围图像。但多曝光图像由于曝光时间不同，同一场景不同曝光图像中的物体具有信息互补，以及亮度，色度，结构对应关系复杂的特点。因此，已有的基于深度学习的高动态范围多曝光图像融合方法仍存在图像失真、细节丢失，以及无法突出融合有利图像特征等问题。

发明内容

要解决的技术问题

针对已有高动态范围多曝光图像融合方法存在图像失真、细节丢失，以及源图像序列互补信息无法充分利用等问题，本发明提出了一种基于注意力机制的高动态范围多曝光图像融合模型及方法，所提方法进一步提高了高动态范围多曝光图像融合的质量和鲁棒性。

技术方案

一种基于注意力机制的高动态范围多曝光图像融合模型，其特征在于包括特征提取模块、注意力机制模块以及特征重建模块，将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中，获得目标场景两张不同曝光图像对应的两组高维特征图；随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块，得到重建融合图像所需的纯净高维特征；特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。

一种基于注意力机制的高动态范围多曝光图像融合方法，其特征在于步骤如下：

步骤1：读取训练的欠曝光图像U和过曝光图像O；将读取的U和O剪切成若干个子图像M，M的大小为w×h×c，w和h表示M的宽和高，c表示M的通道数，再将剪裁的子图像M进行数据增强；

步骤2：以子图像M作为输入源，通过特征提取模块构建单层卷积神经网络层，其中卷积核大小为W×H，通过卷积神经层分别将U和O转化为64维的特征f₁，f₁的大小为w×h×64，计算方法如下：

f₁＝C₁(M) (1)

式中，C1表示对应卷积操作；

步骤3：以f₁为输入源，输入到Unet网络进行图像特征的多尺度特征提取，得到确定包含64通道的高维多尺度特征f₂，f₂大小为w×h×64，计算方法如下：

f₂＝U(f₁) (2)

式中，U表示Unet网络的卷积操作；

步骤4：构建两个结构相同的注意力机制模块A，使用注意力机制模块A分别对Unet网络输出的不同曝光图像的特征图f₂进行Squeeze操作，采用全局平均池化方式将通道上整个空间特征编码为全局特征，计算公式如下：

式中，F_sq(·)表示Squeeze操作，i，j表示像素点，R^C表示C维度，f_c为Squeeze操作的结果；然后对全局特征采用Excitation操作，为了降低模型复杂度以及提升泛化能力，采用两个全连接操作，全连接之间使用ReLU激活函数进行非线性处理，最后通过归一化函数Sigmoid输出权值向量，Excitation操作使得网络学习各通道间的关系，也得到不同通道的权值f₃，计算方式如下：

f₃＝F_ex(f_c,W)＝σ(g(f_c,W))＝σ(W₂ReLU(W₁f_c)) (4)

式中，

表示W₁维度为

表示W₂维度为

r为缩放因子；

步骤5：运用乘法运算将Unet网络输出的图像特征f₂与注意力机制学习到的各通道权值f₃相乘得到最终图像特征f₄，计算方法如下：

f₄＝F_scale(f₂,f₃)＝f₂·f₃ (5)

式中，·表示矩阵相乘运算；

步骤6：通过拼接操作欠曝和过曝图像的高维图像特征f_u,4，f_o,4得到特征图F0，F0的大小为w×h×128，计算方式如下：

F₀＝concat(f_u,4+f_o,4) (6)

式中，f_u,4和f_o,4分别表示欠曝光图像，过曝光图像经过注意力机制后得到的图像特征，concat表示特征拼接操作；

步骤7：以F₀为输入源，通过特征重建模块得到高动态范围图像，特征重建模块首先利用单层卷积神经网络层将拼接的特征图F₀转化成64通道的特征图F₁，F₁大小为w×h×64，其次将特征图F₁提供给DRDB单元输出特征图F₂，其中DRDB单元是基于扩张卷积改进残差稠密单元得到的，最后利用2个卷积层依次卷积特征图F₂得到特征图F₃，最后得到高动态范围图像，其中F₃的大小为w×h×16，计算方法如下：

F₁＝C₁(F₀) (7)

F₂＝DRDB(F₁) (8)

F₃＝C₂(F₂) (9)

HDR＝C₃(F₃) (10)

式中，DRDB表示扩张残差稠密单元卷积操作，C₁，C₂，C₃表示单层卷积层，HDR表示高动态范围图像；

步骤8：设计损失函数，进行迭代，更新模型，所述的损失函数为：

Loss＝λL_SSIM+L_content (16)

L_SSIM＝α_oSSIM_O,F+α_uSSIM_U,F (12)

L_content＝β_OL_O,F+β_UL_U,F (15)

其中，SSIM_O,F，SSIM_U,F分别表示过曝图像O和欠曝图像U与融合图像F的结构相似性，λ表示超参数，α_o和α_u分别为过曝图像O和欠曝图像U的权重系数，β_O和β_U分别为过曝图像O和欠曝图像U的权重系数，L_O,F、L_U,F分别表示过曝图像O和欠曝图像U与融合图像F的内容相似性；

步骤9：读取需要处理的欠曝光U和过曝光图像O，通过参数完备的训练模型得到高动态范围图像HDR。

优先地：步骤1中所述的w＝256，h＝256，c＝3。

优先地：步骤1中数据增强通过旋转、水平翻转、垂直翻转方式。

优先地：步骤2中所述的W＝3，H＝3。

优先地：步骤8中采用Adam优化器实现模型更新。

有益效果

本发明提出了一种新的端到端基于注意力机制的高动态范围多曝光图像融合模型及方法，提升了融合质量和鲁棒性。

1、利用权重分离的双通道特征提取模块提取目标场景在欠曝光和过曝光图像的特征，获得纹理信息表征能力更强的特征图；

2、将注意力机制引入到多曝光图像任务中，从局部到全局对欠曝光和过曝光图像的局部细节和全局特征进行聚焦，突出对融合有利的图像特征；

3、为了更精确重建融合图像，以L2范数和结构相似性SSIM作为神经网络的约束准则设计损失函数，获得源图像序列和融合图像之间更小的相似性差异，实现神经网络模型更精准的收敛。

上述操作使得本发明网络可以捕捉更多细节信息，生成质量更好的高动态范围多曝光融合图像。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1：基于注意力机制的高动态范围多曝光图像融合方法流程图；

图2：特征提取网络结构图；

图3：注意力机制网络结构图；

图4：特征重建网络结构图；

图5：本发明流程方法图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明设计了基于注意力机制的高动态范围多曝光图像融合算法网络框架，该网络框架由特征提取模块、注意力机制模块以及特征重建模块三个核心模块组成。首先，将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中，获得目标场景两张不同曝光图像对应的两组高维特征图。随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块，以突出融合有利的图像特征，抑制欠饱和、过饱和等低质量区域的特征，得到重建融合图像所需的纯净高维特征。特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。

一种基于注意力机制的高动态范围多曝光图像融合方法，包括下述5个方面：

(1)多曝光图像由于曝光时间不同，同一场景的不同曝光图像存在亮度、对比度、纹理和轮廓等信息的不同。若将多曝光图像直接融合，经过同一网络进行特征提取，生成的共享权值会破坏目标场景在不同曝光下的固有特征。故在特征提取模块采用双通道架构，选取多曝光图像序列中的两张不同曝光图像作为输入送入特征提取模块，两张不同曝光图像分别经过结构相同，但不共享任何学习参数的特征提取网络同时进行特征提取。

(2)利用Unet网络作为特征提取基础网络结构。特征提取模块由1个独立的卷积层与1个Unet网络构成，其中Unet网络包含卷积，下采样，池化，上采样以及拼接操作。首先使用3×3大小的卷积核在提取低层图像特征的同时，将256×256尺寸的输入图像转化为64通道的高维特征，并利用Unet网络实现图像特征的多尺度特征提取，将浅层图像特征以及深层语义特征通过特征拼接的方式堆叠，为保留图像结构和纹理特征提供了有效的解决方案。Unet网络完成特征的精细提取后，输出64通道的高维多尺度特征图，该特征图作为后续注意力机制模块的输入源。

(3)利用注意力机制保留多曝光图像丰富的细节信息，突出对融合有利的图像特征，以校正融合图像局部失真和信息丢失。与特征提取模块相似，注意力机制模块采用结构相同的双通道设计。

(4)利用特征重建模块重建高动态范围图像。其中特征重建模块所使用的扩张残差稠密单元是基于扩张卷积改进残差稠密单元得到的，所使用的扩张残差稠密单元充分利用不同网络层级的图像特征，在保留低动态范围图像细节的同时利用更大的感受野去推测欠饱和与饱和区域丢失的细节。

(5)利用所设计的基于L₂范数的内容损失和基于SSIM的结构损失的多损失函数。进一步约束网络模型，提高网络模型的泛化能力。

所述的特征提取模块具体如下：

将多曝光图像传入特征提取模块中进行特征提取，得到高维多尺度特征图，主要基础架构如图2所示，其步骤如下：

步骤1：读取训练的欠曝光图像U和过曝光图像O。将读取的U和O剪切成若干个子图像M，M的大小为w×h×c，w和h表示M的宽和高，c表示M的通道数，其中w＝256，h＝256，c＝3，再将剪裁的子图像M通过旋转、水平翻转、垂直翻转方式进行数据增强。

步骤2：以子图像M作为输入源。然后通过特征提取模块构建单层卷积神经网络层，其中卷积核大小为W×H，W＝3,H＝3。通过卷积神经层分别将U和O转化为64维的特征f₁，f₁的大小为w×h×64，计算方法如下：

f₁＝C₁(M) (1)

式中，C₁表示对应卷积操作。

步骤3：以f₁为输入源，通过Unet网络实现图像特征的多尺度特征提取，网络结构如图2所示，将浅层图像特征以及深层语义特征通过特征拼接的方式堆叠，Unet网络包含上采样、池化，以及卷积和激活函数操作。Unet网络完成特征的精细提取后，确定一个包含64通道的高维多尺度特征f₂，f₂大小为w×h×64。类似于构建图像特征f₁，可以计算出高维多尺度特征f₂：

f₂＝U(f₁) (2)

式中，U表示Unet网络的卷积操作。使欠曝图像U和过曝图像O的图像特征f₁分别经过结构相同，但不共享任何学习参数的特征提取网络进行同时训练。

所述的注意力机制模块具体如下：

将特征提取模块输出的高维图像特征传入注意力机制模块，凸显融合有利的兴趣通道特征，抑制非兴趣通道特征，网络结构如图3所示，其步骤如下：

步骤1：构建两个结构相同的注意力机制模块A，网络结构如图3所示，用于保留多曝光图像丰富的细节信息，突出对融合有利的图像特征，以校正融合图像局部失真和信息丢失。

步骤2：注意力机制模块A分别对Unet网络输出的不同曝光图像的特征图f₂进行Squeeze操作，采用全局平均池化方式将通道上整个空间特征编码为全局特征，计算公式如下：

式中F_sq(·)表示Squeeze操作，i，j表示像素点，R^C表示C维度，f_c为Squeeze操作的结果。然后对全局特征采用Excitation操作，为了降低模型复杂度以及提升泛化能力，采用两个全连接操作，全连接之间使用ReLU激活函数进行非线性处理，最后通过归一化函数Sigmoid输出权值向量，Excitation操作使得网络学习各通道间的关系，也得到不同通道的权值f₃，计算方式如下：

f₃＝F_ex(f_c,W)＝σ(g(f_c,W))＝σ(W₂ReLU(W₁f_c)) (4)

其中

表示W₁维度为

表示W₂维度为

r为缩放因子。

步骤3：运用乘法运算将Unet网络输出的图像特征f₂与注意力机制学习到的各通道权值f₃相乘得到最终图像特征f₄，计算方法如下：

f₄＝F_scale(f₂,f₃)＝f₂·f₃ (5)

式中，·表示矩阵相乘运算。整个操作可以看成学习到了各个通道的权重系数，从而使得模型对各个通道的特征更有辨别能力。

所述的特征重建模块具体如下：

特征重建模块将上步得到的不同曝光图像的高维纯净特征进行重建，生成高动态范围图像，网络结构如图4所示，其步骤如下：

步骤1：通过拼接操作欠曝和过曝图像的高维图像特征f_u,4，f_o,4得到特征图F₀，F₀的大小为w×h×128，计算方式如下：

F₀＝concat(f_u,4+f_o,4) (6)

式中f_u,4和f_o,4分别表示欠曝光图像，过曝光图像经过注意力机制后得到的图像特征，concat表示特征拼接操作。

步骤2：以F₀为输入源，通过特征重建模块得到高动态范围图像，网络结构如图4所示，特征重建模块首先利用单层卷积神经网络层将拼接的特征图F₀转化成64通道的特征图F₁，F₁大小为w×h×64，其次将特征图F₁提供给DRDB单元输出特征图F₂，其中DRDB单元是基于扩张卷积改进残差稠密单元(Residual Dense Block,RDB)得到的，最后利用2个卷积层依次卷积特征图F₂得到特征图F₃，和高动态范围图像，其中F₃的大小为w×h×16，计算方法如下：

F₁＝C₁(F₀) (7)

F₂＝DRDB(F₁) (8)

F₃＝C₂(F₂) (9)

HDR＝C₃(F₃) (10)

式中，DRDB表示扩张残差稠密单元卷积操作，C₁，C₂，C₃表示单层卷积层，HDR表示高动态范围图像。

所述的损失函数具体如下：

损失函数决定了所提取的图像特征类型以及不同类型的图像特征之间的比例关系。为了满足融合图像既包含欠曝光图像亮部区域和过曝光图像暗部区域的细节信息，又包含不同曝光图像的亮度信息，同时也要符合人眼的视觉感知特性的要求。本发明设计了基于L₂范数的内容损失和基于SSIM的结构损失的多损失函数，其步骤如下：

步骤1：结构相似性度量指标SSIM可根据亮度特征，对比度和结构信息的相似性对源图像序列和融合图像相似度的损失和失真进行建模。设x为输入图像，y为输出图像，其数学表达式为：

其中μ和σ分别表示均值和标准差，σ_xy表示x，y的协方差，C₁，C₂和C₃为常数系数。充分考虑到源图像序列和融合图像在亮度，对比度和结构三个方面的失真，针对多曝光图像融合任务设计结构损失L_SSIM。F表示过融合图像，则L_SSIM的数学表达式为：

L_SSIM＝α_oSSIM_O,F+α_uSSIM_U,F (12)

其中SSIM_O,F，SSIM_U,F分别表示过曝图像O和欠曝图像U与融合图像F的结构相似性，α_o和α_u分别为过曝图像O和欠曝图像U的权重系数，在多曝光图像融合任务中，过曝和欠曝图像的具有相同的纹理细节，但其亮度强度过大或过小。所以对权重系数α_o和α_u设置相同的权重进行平衡，以获得适当大小的亮度强度和纹理细节，可表示为：

α_o＝α_u (13)

内容损失L_content在保证多曝光图像序列和融合图像的纹理细节信息失真最小的同时避免了噪声的干扰，内容损失的计算如下：

L_x,y＝||x-y||₂ (14)

式中计算输入图像x与输出图像y像素点之间的欧式距离，其中||·||₂为L₂范数。内容损失可以定义为：

L_content＝β_OL_O,F+β_UL_U,F (15)

其中β_O和β_U分别为过曝图像O和欠曝图像U的权重系数，与结构损失相似的，β_O和β_U具有相同的权重系数。为实现结构损失函数与内容损失函数之间权值平衡，通过超参数λ赋予结构损失相应的权重来提高模型的学习能力。综上，AMEFNet整体损失函数可表示为：

Loss＝λL_SSIM+L_content (16)

步骤2：通过损失函数的约束，并选用Adam优化器以参数β₁＝0.9，β₂＝0.999，初始学习率为10^-4，学习率每迭代50次便以0.5倍进行衰减，达到损失权值Loss的下降，实现模型更新。

步骤3：判断是否处理完所有训练集中的图像对，以及完成所设定的迭代次数epoch，epoch设定为1000。若处理完则算法结束，得到基于注意力的高动态范围多曝光图像融合模型AMEFNet，否则转步骤2进行执行。

高动态范围多曝光图像生成

步骤1：读取需要处理的欠曝光U和过曝光图像O，通过参数完备的训练模型AMEFNet得到高动态范围图像HDR，计算方法如下：

HDR＝AMEFNet(U，O) (17)

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于注意力机制的高动态范围多曝光图像融合模型，其特征在于包括特征提取模块、注意力机制模块以及特征重建模块，将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中，获得目标场景两张不同曝光图像对应的两组高维特征图；随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块，得到重建融合图像所需的纯净高维特征；特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。

2.一种采用权利要求1所述的模型实现的基于注意力机制的高动态范围多曝光图像融合方法，其特征在于步骤如下：

f₁＝C₁(M) (1)

式中，C1表示对应卷积操作；

f₂＝U(f₁) (2)

式中，U表示Unet网络的卷积操作；

f₃＝F_ex(f_c,W)＝σ(g(f_c,W))＝σ(W₂ReLU(W₁f_c)) (4)

式中，

表示W₁维度为

表示W₂维度为

r为缩放因子；

f₄＝F_scale(f₂,f₃)＝f₂·f₃ (5)

式中，·表示矩阵相乘运算；

F₀＝concat(f_u,4+f_o,4) (6)

F₁＝C₁(F₀) (7)

F₂＝DRDB(F₁) (8)

F₃＝C₂(F₂) (9)

HDR＝C₃(F₃) (10)

Loss＝λL_SSIM+L_content (16)

L_SSIM＝α_oSSIM_O,F+α_uSSIM_U,F (12)

L_content＝β_OL_O,F+β_UL_U,F (15)

3.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法，其特征在于：步骤1中所述的w＝256，h＝256，c＝3。

4.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法，其特征在于：步骤1中数据增强通过旋转、水平翻转、垂直翻转方式。

5.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法，其特征在于：步骤2中所述的W＝3，H＝3。

6.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法，其特征在于：步骤8中采用Adam优化器实现模型更新。