CN114331931A - 基于注意力机制的高动态范围多曝光图像融合模型及方法 - Google Patents
基于注意力机制的高动态范围多曝光图像融合模型及方法 Download PDFInfo
- Publication number
- CN114331931A CN114331931A CN202111428200.3A CN202111428200A CN114331931A CN 114331931 A CN114331931 A CN 114331931A CN 202111428200 A CN202111428200 A CN 202111428200A CN 114331931 A CN114331931 A CN 114331931A
- Authority
- CN
- China
- Prior art keywords
- image
- dynamic range
- attention mechanism
- images
- high dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000010410 layer Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 11
- 239000002356 single layer Substances 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20208—High dynamic range [HDR] image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力机制的高动态范围多曝光图像融合方法,属于图像处理技术领域。首先,将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中,获得目标场景两张不同曝光图像对应的两组高维特征图。随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块,以突出融合有利的图像特征,抑制欠饱和、过饱和等低质量区域的特征,得到重建融合图像所需的纯净高维特征。特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。本发明方法提高了高动态范围多曝光图像融合的质量和鲁棒性。
Description
技术领域
本发明涉及一种高动态范围成像的多曝光图像融合模型及方法,属于图像处理技术领域。
背景技术
自然场景有很宽广的动态范围,如微弱星光亮度约为10-4cd/m2,恒星强光亮度范围为105~109cd/m2,通过数码单反相机拍摄记录时,往往因为数码相机动态范围受限,导致拍摄的照片出现过曝光和欠曝光。高动态范围多曝光图像融合技术旨在扩大图像动态范围,解决由数码相机动态范围受限无法捕获高动态范围图像而产生的问题。近年来,随着算力水平的提升,高动态范围多曝光图像融合方法研究从传统的基于变换的方法,逐渐转向基于深度学习的方法。传统的基于变换的方法通常利用某种图像变换(拉普拉斯金字塔、小波变化、稀疏表示等)将输入图像转换为特征图,根据人工定义的融合策略进行特征融合,得到包含丰富信息的高动态范围图像。而基于深度学习的方法解决了传统高动态范围多曝光图像融合方法不能自适应学习图像特征的不足,生成比传统方法细节更丰富的高动态范围图像。但多曝光图像由于曝光时间不同,同一场景不同曝光图像中的物体具有信息互补,以及亮度,色度,结构对应关系复杂的特点。因此,已有的基于深度学习的高动态范围多曝光图像融合方法仍存在图像失真、细节丢失,以及无法突出融合有利图像特征等问题。
发明内容
要解决的技术问题
针对已有高动态范围多曝光图像融合方法存在图像失真、细节丢失,以及源图像序列互补信息无法充分利用等问题,本发明提出了一种基于注意力机制的高动态范围多曝光图像融合模型及方法,所提方法进一步提高了高动态范围多曝光图像融合的质量和鲁棒性。
技术方案
一种基于注意力机制的高动态范围多曝光图像融合模型,其特征在于包括特征提取模块、注意力机制模块以及特征重建模块,将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中,获得目标场景两张不同曝光图像对应的两组高维特征图;随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块,得到重建融合图像所需的纯净高维特征;特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。
一种基于注意力机制的高动态范围多曝光图像融合方法,其特征在于步骤如下:
步骤1:读取训练的欠曝光图像U和过曝光图像O;将读取的U和O剪切成若干个子图像M,M的大小为w×h×c,w和h表示M的宽和高,c表示M的通道数,再将剪裁的子图像M进行数据增强;
步骤2:以子图像M作为输入源,通过特征提取模块构建单层卷积神经网络层,其中卷积核大小为W×H,通过卷积神经层分别将U和O转化为64维的特征f1,f1的大小为w×h×64,计算方法如下:
f1=C1(M) (1)
式中,C1表示对应卷积操作;
步骤3:以f1为输入源,输入到Unet网络进行图像特征的多尺度特征提取,得到确定包含64通道的高维多尺度特征f2,f2大小为w×h×64,计算方法如下:
f2=U(f1) (2)
式中,U表示Unet网络的卷积操作;
步骤4:构建两个结构相同的注意力机制模块A,使用注意力机制模块A分别对Unet网络输出的不同曝光图像的特征图f2进行Squeeze操作,采用全局平均池化方式将通道上整个空间特征编码为全局特征,计算公式如下:
式中,Fsq(·)表示Squeeze操作,i,j表示像素点,RC表示C维度,fc为Squeeze操作的结果;然后对全局特征采用Excitation操作,为了降低模型复杂度以及提升泛化能力,采用两个全连接操作,全连接之间使用ReLU激活函数进行非线性处理,最后通过归一化函数Sigmoid输出权值向量,Excitation操作使得网络学习各通道间的关系,也得到不同通道的权值f3,计算方式如下:
f3=Fex(fc,W)=σ(g(fc,W))=σ(W2ReLU(W1fc)) (4)
步骤5:运用乘法运算将Unet网络输出的图像特征f2与注意力机制学习到的各通道权值f3相乘得到最终图像特征f4,计算方法如下:
f4=Fscale(f2,f3)=f2·f3 (5)
式中,·表示矩阵相乘运算;
步骤6:通过拼接操作欠曝和过曝图像的高维图像特征fu,4,fo,4得到特征图F0,F0的大小为w×h×128,计算方式如下:
F0=concat(fu,4+fo,4) (6)
式中,fu,4和fo,4分别表示欠曝光图像,过曝光图像经过注意力机制后得到的图像特征,concat表示特征拼接操作;
步骤7:以F0为输入源,通过特征重建模块得到高动态范围图像,特征重建模块首先利用单层卷积神经网络层将拼接的特征图F0转化成64通道的特征图F1,F1大小为w×h×64,其次将特征图F1提供给DRDB单元输出特征图F2,其中DRDB单元是基于扩张卷积改进残差稠密单元得到的,最后利用2个卷积层依次卷积特征图F2得到特征图F3,最后得到高动态范围图像,其中F3的大小为w×h×16,计算方法如下:
F1=C1(F0) (7)
F2=DRDB(F1) (8)
F3=C2(F2) (9)
HDR=C3(F3) (10)
式中,DRDB表示扩张残差稠密单元卷积操作,C1,C2,C3表示单层卷积层,HDR表示高动态范围图像;
步骤8:设计损失函数,进行迭代,更新模型,所述的损失函数为:
Loss=λLSSIM+Lcontent (16)
LSSIM=αoSSIMO,F+αuSSIMU,F (12)
Lcontent=βOLO,F+βULU,F (15)
其中,SSIMO,F,SSIMU,F分别表示过曝图像O和欠曝图像U与融合图像F的结构相似性,λ表示超参数,αo和αu分别为过曝图像O和欠曝图像U的权重系数,βO和βU分别为过曝图像O和欠曝图像U的权重系数,LO,F、LU,F分别表示过曝图像O和欠曝图像U与融合图像F的内容相似性;
步骤9:读取需要处理的欠曝光U和过曝光图像O,通过参数完备的训练模型得到高动态范围图像HDR。
优先地:步骤1中所述的w=256,h=256,c=3。
优先地:步骤1中数据增强通过旋转、水平翻转、垂直翻转方式。
优先地:步骤2中所述的W=3,H=3。
优先地:步骤8中采用Adam优化器实现模型更新。
有益效果
本发明提出了一种新的端到端基于注意力机制的高动态范围多曝光图像融合模型及方法,提升了融合质量和鲁棒性。
1、利用权重分离的双通道特征提取模块提取目标场景在欠曝光和过曝光图像的特征,获得纹理信息表征能力更强的特征图;
2、将注意力机制引入到多曝光图像任务中,从局部到全局对欠曝光和过曝光图像的局部细节和全局特征进行聚焦,突出对融合有利的图像特征;
3、为了更精确重建融合图像,以L2范数和结构相似性SSIM作为神经网络的约束准则设计损失函数,获得源图像序列和融合图像之间更小的相似性差异,实现神经网络模型更精准的收敛。
上述操作使得本发明网络可以捕捉更多细节信息,生成质量更好的高动态范围多曝光融合图像。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1:基于注意力机制的高动态范围多曝光图像融合方法流程图;
图2:特征提取网络结构图;
图3:注意力机制网络结构图;
图4:特征重建网络结构图;
图5:本发明流程方法图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明设计了基于注意力机制的高动态范围多曝光图像融合算法网络框架,该网络框架由特征提取模块、注意力机制模块以及特征重建模块三个核心模块组成。首先,将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中,获得目标场景两张不同曝光图像对应的两组高维特征图。随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块,以突出融合有利的图像特征,抑制欠饱和、过饱和等低质量区域的特征,得到重建融合图像所需的纯净高维特征。特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。
一种基于注意力机制的高动态范围多曝光图像融合方法,包括下述5个方面:
(1)多曝光图像由于曝光时间不同,同一场景的不同曝光图像存在亮度、对比度、纹理和轮廓等信息的不同。若将多曝光图像直接融合,经过同一网络进行特征提取,生成的共享权值会破坏目标场景在不同曝光下的固有特征。故在特征提取模块采用双通道架构,选取多曝光图像序列中的两张不同曝光图像作为输入送入特征提取模块,两张不同曝光图像分别经过结构相同,但不共享任何学习参数的特征提取网络同时进行特征提取。
(2)利用Unet网络作为特征提取基础网络结构。特征提取模块由1个独立的卷积层与1个Unet网络构成,其中Unet网络包含卷积,下采样,池化,上采样以及拼接操作。首先使用3×3大小的卷积核在提取低层图像特征的同时,将256×256尺寸的输入图像转化为64通道的高维特征,并利用Unet网络实现图像特征的多尺度特征提取,将浅层图像特征以及深层语义特征通过特征拼接的方式堆叠,为保留图像结构和纹理特征提供了有效的解决方案。Unet网络完成特征的精细提取后,输出64通道的高维多尺度特征图,该特征图作为后续注意力机制模块的输入源。
(3)利用注意力机制保留多曝光图像丰富的细节信息,突出对融合有利的图像特征,以校正融合图像局部失真和信息丢失。与特征提取模块相似,注意力机制模块采用结构相同的双通道设计。
(4)利用特征重建模块重建高动态范围图像。其中特征重建模块所使用的扩张残差稠密单元是基于扩张卷积改进残差稠密单元得到的,所使用的扩张残差稠密单元充分利用不同网络层级的图像特征,在保留低动态范围图像细节的同时利用更大的感受野去推测欠饱和与饱和区域丢失的细节。
(5)利用所设计的基于L2范数的内容损失和基于SSIM的结构损失的多损失函数。进一步约束网络模型,提高网络模型的泛化能力。
所述的特征提取模块具体如下:
将多曝光图像传入特征提取模块中进行特征提取,得到高维多尺度特征图,主要基础架构如图2所示,其步骤如下:
步骤1:读取训练的欠曝光图像U和过曝光图像O。将读取的U和O剪切成若干个子图像M,M的大小为w×h×c,w和h表示M的宽和高,c表示M的通道数,其中w=256,h=256,c=3,再将剪裁的子图像M通过旋转、水平翻转、垂直翻转方式进行数据增强。
步骤2:以子图像M作为输入源。然后通过特征提取模块构建单层卷积神经网络层,其中卷积核大小为W×H,W=3,H=3。通过卷积神经层分别将U和O转化为64维的特征f1,f1的大小为w×h×64,计算方法如下:
f1=C1(M) (1)
式中,C1表示对应卷积操作。
步骤3:以f1为输入源,通过Unet网络实现图像特征的多尺度特征提取,网络结构如图2所示,将浅层图像特征以及深层语义特征通过特征拼接的方式堆叠,Unet网络包含上采样、池化,以及卷积和激活函数操作。Unet网络完成特征的精细提取后,确定一个包含64通道的高维多尺度特征f2,f2大小为w×h×64。类似于构建图像特征f1,可以计算出高维多尺度特征f2:
f2=U(f1) (2)
式中,U表示Unet网络的卷积操作。使欠曝图像U和过曝图像O的图像特征f1分别经过结构相同,但不共享任何学习参数的特征提取网络进行同时训练。
所述的注意力机制模块具体如下:
将特征提取模块输出的高维图像特征传入注意力机制模块,凸显融合有利的兴趣通道特征,抑制非兴趣通道特征,网络结构如图3所示,其步骤如下:
步骤1:构建两个结构相同的注意力机制模块A,网络结构如图3所示,用于保留多曝光图像丰富的细节信息,突出对融合有利的图像特征,以校正融合图像局部失真和信息丢失。
步骤2:注意力机制模块A分别对Unet网络输出的不同曝光图像的特征图f2进行Squeeze操作,采用全局平均池化方式将通道上整个空间特征编码为全局特征,计算公式如下:
式中Fsq(·)表示Squeeze操作,i,j表示像素点,RC表示C维度,fc为Squeeze操作的结果。然后对全局特征采用Excitation操作,为了降低模型复杂度以及提升泛化能力,采用两个全连接操作,全连接之间使用ReLU激活函数进行非线性处理,最后通过归一化函数Sigmoid输出权值向量,Excitation操作使得网络学习各通道间的关系,也得到不同通道的权值f3,计算方式如下:
f3=Fex(fc,W)=σ(g(fc,W))=σ(W2ReLU(W1fc)) (4)
步骤3:运用乘法运算将Unet网络输出的图像特征f2与注意力机制学习到的各通道权值f3相乘得到最终图像特征f4,计算方法如下:
f4=Fscale(f2,f3)=f2·f3 (5)
式中,·表示矩阵相乘运算。整个操作可以看成学习到了各个通道的权重系数,从而使得模型对各个通道的特征更有辨别能力。
所述的特征重建模块具体如下:
特征重建模块将上步得到的不同曝光图像的高维纯净特征进行重建,生成高动态范围图像,网络结构如图4所示,其步骤如下:
步骤1:通过拼接操作欠曝和过曝图像的高维图像特征fu,4,fo,4得到特征图F0,F0的大小为w×h×128,计算方式如下:
F0=concat(fu,4+fo,4) (6)
式中fu,4和fo,4分别表示欠曝光图像,过曝光图像经过注意力机制后得到的图像特征,concat表示特征拼接操作。
步骤2:以F0为输入源,通过特征重建模块得到高动态范围图像,网络结构如图4所示,特征重建模块首先利用单层卷积神经网络层将拼接的特征图F0转化成64通道的特征图F1,F1大小为w×h×64,其次将特征图F1提供给DRDB单元输出特征图F2,其中DRDB单元是基于扩张卷积改进残差稠密单元(Residual Dense Block,RDB)得到的,最后利用2个卷积层依次卷积特征图F2得到特征图F3,和高动态范围图像,其中F3的大小为w×h×16,计算方法如下:
F1=C1(F0) (7)
F2=DRDB(F1) (8)
F3=C2(F2) (9)
HDR=C3(F3) (10)
式中,DRDB表示扩张残差稠密单元卷积操作,C1,C2,C3表示单层卷积层,HDR表示高动态范围图像。
所述的损失函数具体如下:
损失函数决定了所提取的图像特征类型以及不同类型的图像特征之间的比例关系。为了满足融合图像既包含欠曝光图像亮部区域和过曝光图像暗部区域的细节信息,又包含不同曝光图像的亮度信息,同时也要符合人眼的视觉感知特性的要求。本发明设计了基于L2范数的内容损失和基于SSIM的结构损失的多损失函数,其步骤如下:
步骤1:结构相似性度量指标SSIM可根据亮度特征,对比度和结构信息的相似性对源图像序列和融合图像相似度的损失和失真进行建模。设x为输入图像,y为输出图像,其数学表达式为:
其中μ和σ分别表示均值和标准差,σxy表示x,y的协方差,C1,C2和C3为常数系数。充分考虑到源图像序列和融合图像在亮度,对比度和结构三个方面的失真,针对多曝光图像融合任务设计结构损失LSSIM。F表示过融合图像,则LSSIM的数学表达式为:
LSSIM=αoSSIMO,F+αuSSIMU,F (12)
其中SSIMO,F,SSIMU,F分别表示过曝图像O和欠曝图像U与融合图像F的结构相似性,αo和αu分别为过曝图像O和欠曝图像U的权重系数,在多曝光图像融合任务中,过曝和欠曝图像的具有相同的纹理细节,但其亮度强度过大或过小。所以对权重系数αo和αu设置相同的权重进行平衡,以获得适当大小的亮度强度和纹理细节,可表示为:
αo=αu (13)
内容损失Lcontent在保证多曝光图像序列和融合图像的纹理细节信息失真最小的同时避免了噪声的干扰,内容损失的计算如下:
Lx,y=||x-y||2 (14)
式中计算输入图像x与输出图像y像素点之间的欧式距离,其中||·||2为L2范数。内容损失可以定义为:
Lcontent=βOLO,F+βULU,F (15)
其中βO和βU分别为过曝图像O和欠曝图像U的权重系数,与结构损失相似的,βO和βU具有相同的权重系数。为实现结构损失函数与内容损失函数之间权值平衡,通过超参数λ赋予结构损失相应的权重来提高模型的学习能力。综上,AMEFNet整体损失函数可表示为:
Loss=λLSSIM+Lcontent (16)
步骤2:通过损失函数的约束,并选用Adam优化器以参数β1=0.9,β2=0.999,初始学习率为10-4,学习率每迭代50次便以0.5倍进行衰减,达到损失权值Loss的下降,实现模型更新。
步骤3:判断是否处理完所有训练集中的图像对,以及完成所设定的迭代次数epoch,epoch设定为1000。若处理完则算法结束,得到基于注意力的高动态范围多曝光图像融合模型AMEFNet,否则转步骤2进行执行。
高动态范围多曝光图像生成
步骤1:读取需要处理的欠曝光U和过曝光图像O,通过参数完备的训练模型AMEFNet得到高动态范围图像HDR,计算方法如下:
HDR=AMEFNet(U,O) (17)
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于注意力机制的高动态范围多曝光图像融合模型,其特征在于包括特征提取模块、注意力机制模块以及特征重建模块,将目标场景两张不同曝光图像分别输入到结构相同的两组特征提取模块中,获得目标场景两张不同曝光图像对应的两组高维特征图;随后将上述两组高维特征图作为输入分别送入相应的注意力机制模块,得到重建融合图像所需的纯净高维特征;特征重建模块将注意力机制模块输出的两组不同曝光图像的高维特征融合重建为高动态范围图像。
2.一种采用权利要求1所述的模型实现的基于注意力机制的高动态范围多曝光图像融合方法,其特征在于步骤如下:
步骤1:读取训练的欠曝光图像U和过曝光图像O;将读取的U和O剪切成若干个子图像M,M的大小为w×h×c,w和h表示M的宽和高,c表示M的通道数,再将剪裁的子图像M进行数据增强;
步骤2:以子图像M作为输入源,通过特征提取模块构建单层卷积神经网络层,其中卷积核大小为W×H,通过卷积神经层分别将U和O转化为64维的特征f1,f1的大小为w×h×64,计算方法如下:
f1=C1(M) (1)
式中,C1表示对应卷积操作;
步骤3:以f1为输入源,输入到Unet网络进行图像特征的多尺度特征提取,得到确定包含64通道的高维多尺度特征f2,f2大小为w×h×64,计算方法如下:
f2=U(f1) (2)
式中,U表示Unet网络的卷积操作;
步骤4:构建两个结构相同的注意力机制模块A,使用注意力机制模块A分别对Unet网络输出的不同曝光图像的特征图f2进行Squeeze操作,采用全局平均池化方式将通道上整个空间特征编码为全局特征,计算公式如下:
式中,Fsq(·)表示Squeeze操作,i,j表示像素点,RC表示C维度,fc为Squeeze操作的结果;然后对全局特征采用Excitation操作,为了降低模型复杂度以及提升泛化能力,采用两个全连接操作,全连接之间使用ReLU激活函数进行非线性处理,最后通过归一化函数Sigmoid输出权值向量,Excitation操作使得网络学习各通道间的关系,也得到不同通道的权值f3,计算方式如下:
f3=Fex(fc,W)=σ(g(fc,W))=σ(W2ReLU(W1fc)) (4)
步骤5:运用乘法运算将Unet网络输出的图像特征f2与注意力机制学习到的各通道权值f3相乘得到最终图像特征f4,计算方法如下:
f4=Fscale(f2,f3)=f2·f3 (5)
式中,·表示矩阵相乘运算;
步骤6:通过拼接操作欠曝和过曝图像的高维图像特征fu,4,fo,4得到特征图F0,F0的大小为w×h×128,计算方式如下:
F0=concat(fu,4+fo,4) (6)
式中,fu,4和fo,4分别表示欠曝光图像,过曝光图像经过注意力机制后得到的图像特征,concat表示特征拼接操作;
步骤7:以F0为输入源,通过特征重建模块得到高动态范围图像,特征重建模块首先利用单层卷积神经网络层将拼接的特征图F0转化成64通道的特征图F1,F1大小为w×h×64,其次将特征图F1提供给DRDB单元输出特征图F2,其中DRDB单元是基于扩张卷积改进残差稠密单元得到的,最后利用2个卷积层依次卷积特征图F2得到特征图F3,最后得到高动态范围图像,其中F3的大小为w×h×16,计算方法如下:
F1=C1(F0) (7)
F2=DRDB(F1) (8)
F3=C2(F2) (9)
HDR=C3(F3) (10)
式中,DRDB表示扩张残差稠密单元卷积操作,C1,C2,C3表示单层卷积层,HDR表示高动态范围图像;
步骤8:设计损失函数,进行迭代,更新模型,所述的损失函数为:
Loss=λLSSIM+Lcontent (16)
LSSIM=αoSSIMO,F+αuSSIMU,F (12)
Lcontent=βOLO,F+βULU,F (15)
其中,SSIMO,F,SSIMU,F分别表示过曝图像O和欠曝图像U与融合图像F的结构相似性,λ表示超参数,αo和αu分别为过曝图像O和欠曝图像U的权重系数,βO和βU分别为过曝图像O和欠曝图像U的权重系数,LO,F、LU,F分别表示过曝图像O和欠曝图像U与融合图像F的内容相似性;
步骤9:读取需要处理的欠曝光U和过曝光图像O,通过参数完备的训练模型得到高动态范围图像HDR。
3.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法,其特征在于:步骤1中所述的w=256,h=256,c=3。
4.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法,其特征在于:步骤1中数据增强通过旋转、水平翻转、垂直翻转方式。
5.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法,其特征在于:步骤2中所述的W=3,H=3。
6.根据权利要求2所述的一种基于注意力机制的高动态范围多曝光图像融合方法,其特征在于:步骤8中采用Adam优化器实现模型更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428200.3A CN114331931A (zh) | 2021-11-26 | 2021-11-26 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
CN202211489946.XA CN116152128A (zh) | 2021-11-26 | 2022-11-25 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428200.3A CN114331931A (zh) | 2021-11-26 | 2021-11-26 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114331931A true CN114331931A (zh) | 2022-04-12 |
Family
ID=81047436
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111428200.3A Withdrawn CN114331931A (zh) | 2021-11-26 | 2021-11-26 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
CN202211489946.XA Pending CN116152128A (zh) | 2021-11-26 | 2022-11-25 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211489946.XA Pending CN116152128A (zh) | 2021-11-26 | 2022-11-25 | 基于注意力机制的高动态范围多曝光图像融合模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114331931A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342455A (zh) * | 2023-05-29 | 2023-06-27 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
-
2021
- 2021-11-26 CN CN202111428200.3A patent/CN114331931A/zh not_active Withdrawn
-
2022
- 2022-11-25 CN CN202211489946.XA patent/CN116152128A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342455A (zh) * | 2023-05-29 | 2023-06-27 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
CN116342455B (zh) * | 2023-05-29 | 2023-08-08 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116152128A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311629B (zh) | 图像处理方法、图像处理装置及设备 | |
CN116071243B (zh) | 一种基于边缘增强的红外图像超分辨率重建方法 | |
CN112183637A (zh) | 一种基于神经网络的单光源场景光照重渲染方法及系统 | |
CN112967178B (zh) | 一种图像转换方法、装置、设备及存储介质 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN111986084A (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
CN112541877B (zh) | 基于条件生成对抗网络的去模糊方法、系统、设备及介质 | |
CN113344773B (zh) | 基于多级对偶反馈的单张图片重构hdr方法 | |
CN110225260B (zh) | 一种基于生成对抗网络的立体高动态范围成像方法 | |
CN112669248A (zh) | 基于cnn与拉普拉斯金字塔的高光谱与全色图像融合方法 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和系统 | |
CN114782298A (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN115272072A (zh) | 一种基于多特征图像融合的水下图像超分辨率方法 | |
CN115035011A (zh) | 一种融合策略下自适应RetinexNet的低照度图像增强方法 | |
CN114331931A (zh) | 基于注意力机制的高动态范围多曝光图像融合模型及方法 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Zhang et al. | Mffe: Multi-scale feature fusion enhanced net for image dehazing | |
CN117237207A (zh) | 针对动态场景的无鬼影高动态范围光场成像方法 | |
CN111724309B (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和系统 | |
Ren et al. | SCGA‐Net: Skip Connections Global Attention Network for Image Restoration | |
Xu et al. | Attention‐based multi‐channel feature fusion enhancement network to process low‐light images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220412 |