CN116342446A - 多聚焦图像融合方法及装置、电子设备、存储介质 - Google Patents
多聚焦图像融合方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN116342446A CN116342446A CN202310252121.4A CN202310252121A CN116342446A CN 116342446 A CN116342446 A CN 116342446A CN 202310252121 A CN202310252121 A CN 202310252121A CN 116342446 A CN116342446 A CN 116342446A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- source
- mask
- focus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000002600 positron emission tomography Methods 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例涉及图像融合技术领域,提供一种多聚焦图像融合方法及装置、电子设备、存储介质,方法包括:将待融合的针对同一场景且图像边界相同的两张源图像即第一图像和第二图像输入预先训练好的无监督式图像融合辅助模型,得到初始二进制掩码;采用小区域去除策略,去除初始二进制掩码对应的掩码图像中待处理的小区域,得到源图像对应的最终掩码;基于最终掩码和源图像,将源图像中的聚焦区域进行拼接,得到融合有第一图像和第二图像的多聚焦融合图像。本公开实施例无需依赖大规模标注数据集,可解决多聚焦图像算法在不同融合任务中源图像包含信息不一致的问题以及现有的无监督学习算法模型推算时间过长、训练资源过大的问题。
Description
技术领域
本公开涉及图像融合技术领域,特别涉及一种多聚焦图像融合方法及装置、电子设备、存储介质。
背景技术
图像融合是一种将针对同一场景的多图像信息的进行合并的方法,这些图像取自各种传感器,通常包括不同的位置或不同的时间。融合图像保留了输入图像的所有补充和冗余信息,这些信息对于人类的视觉感知和图像处理任务非常有用。图像融合的目的是融合从两张或两张以上图像中提取的重要信息的细节。为了达到上述目的,图像融合结果通常应满足以下要求:(a)融合图像应保留输入图像中最互补和重要的信息;(b)融合技术不应产生任何可能使人类观察者或先进的图像处理应用改变注意力的合成信息;(c)必须避免配准错误、噪声等不完善的表达。
然而,目前基于掩模(Mask)的真实图像数据集往往难以获得,数据集的收集和人工标注工作需要耗费大量的人力成本。并且,现有的多聚焦图像融合算法在不同的图像融合任务中还存在源图像包含信息不一致的问题,基于无监督学习的图像融合算法还存在模型推算时间过长以及训练资源过大的问题。
发明内容
本公开旨在至少解决现有技术中存在的问题之一,提供一种多聚焦图像融合方法及装置、电子设备、存储介质。
本公开的一个方面,提供了一种多聚焦图像融合方法,所述多聚焦图像融合方法包括:
将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到所述源图像对应的初始二进制掩码;其中,所述两张源图像分别为第一图像和第二图像,所述第一图像和所述第二图像针对同一场景且图像边界相同;所述预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到;
采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码;其中,所述待处理的小区域为所述掩码图像中区域面积小于预设阈值的区域;
基于所述最终掩码和所述源图像,将所述源图像中的聚焦区域进行拼接,得到融合有所述第一图像和所述第二图像的多聚焦融合图像。
可选的,所述无监督式图像融合辅助模型包括编码器和解码器;其中,
所述编码器用于提取和融合所述两张源图像的特征,得到对应的融合特征;
所述解码器用于对所述融合特征进行重构,生成所述初始二进制掩码。
可选的,所述编码器用于提取和融合输入图像的特征,得到对应的融合特征,包括:
所述编码器首先将每张所述源图像对应的三通道图像通过卷积层转换为对应的单通道灰度图像,并将各张所述单通道灰度图像通过通道维度连接为一张两通道图像,之后将所述两通道图像输入依次连接的多个卷积层,并在每次卷积操作后均进行批量归一化操作,同时采用leaky ReLU激活函数进行处理,得到所述融合特征;其中,所述依次连接的多个卷积层采用前馈方式在每一个卷积层和所有卷积层之间构建跳跃连接。
可选的,所述解码器包括依次连接的多个卷积层,不包括池化层,且多个卷积层对应的特征图数量按照其连接顺序逐渐减少;其中,除最后一个卷积层之外的其他卷积层在每次卷积操作后均进行批量归一化操作,并采用leaky ReLU激活函数;最后一个卷积层采用tanh函数作为激活层,并利用tanh函数生成0-1之间连续值的映射,之后应用Sign函数。
可选的,所述无监督式图像融合辅助模型的损失函数L表示为下式(1):
其中,H表示所述源图像的高度,W表示所述源图像的宽度,F表示Frobenius范数,MO表示所述解码器中Sign函数前一层的输出,MG表示根据所述两张源图像的绝对梯度值得到的二进制梯度关系图,MG中的第i行第j列元素表示为 表示所述第一图像的第i行第j列像素对应的绝对梯度值,/>表示所述第二图像的第i行第j列像素对应的绝对梯度值,/>为拉普拉斯算子。
可选的,所述采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码,包括:
确定所述掩码图像中每个连通区域的位置;
分别将每个所述连通区域内的所有像素值相加,得到每个所述连通区域对应的区域面积;
当所述区域面积小于所述预设阈值时,将对应的所述连通区域内的像素值设置为与其当前值相反的值,得到所述最终掩码。
可选的,所述基于所述最终掩码和所述源图像,将所述源图像中的聚焦区域进行拼接,得到融合有所述第一图像和所述第二图像的多聚焦融合图像,包括:
基于所述最终掩码与所述源图像之间的哈达玛积,采用下式(2)将所述第一图像和所述第二图像的聚焦区域进行拼接,得到所述多聚焦融合图像:
本公开的另一个方面,提供了一种多聚焦图像融合装置,所述多聚焦图像融合装置包括:
输入模块,用于将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到所述源图像对应的初始二进制掩码;其中,所述两张源图像分别为第一图像和第二图像,所述第一图像和所述第二图像针对同一场景且图像边界相同;所述预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到;
去除模块,用于采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码;其中,所述待处理的小区域为所述掩码图像中区域面积小于预设阈值的区域;
拼接模块,用于基于所述最终掩码和所述源图像,将所述源图像中的聚焦区域进行拼接,得到融合有所述第一图像和所述第二图像的多聚焦融合图像。
本公开的另一个方面,提供了一种电子设备,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前文记载的多聚焦图像融合方法。
本公开的另一个方面,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现前文记载的多聚焦图像融合方法。
本公开相对于现有技术而言,无监督式图像融合辅助模型在训练过程中无需依赖大规模标注数据集,可用于提取图像的浅层特征和深层特征,以根据提取到的浅层特征和深层特征来估计活动水平测量,从而解决多聚焦图像算法在不同融合任务中源图像包含信息不一致的问题,并且,通过基于最终掩码和源图像对源图像中的聚焦区域进行拼接,可将图像融合过程描述为一个像素级分类问题,从而有效解决现有的无监督学习算法模型推算时间过长以及训练资源过大的问题。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本公开一实施方式提供的一种多聚焦图像融合方法的流程图;
图2为本公开另一实施方式提供的一种多聚焦图像融合装置的结构示意图;
图3为本公开另一实施方式提供的电子设备的结构示意图。
具体实施方式
为使本公开实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本公开的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本公开各实施方式中,为了使读者更好地理解本公开而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便,不应对本公开的具体实现方式构成任何限定,各个实施方式在不矛盾的前提下可以相互结合相互引用。
现有技术中,图像融合方法通常可分为两种类型,一种是基于空间域的方法,另一种是基于变换域的方法。
基于空间域的方法通常是将待融合图像的像素以线性或非线性方式进行组合,融合得到的图像IF在数学上可表示为IF=φ(I1,I2,...,IN)=α1I1+α2I2+…+αNIN,其中,I1,I2,...,IN表示第1,2,…,N张输入图像即第1,2,…,N张待融合图像,φ表示融合规则,α1,α2,...,αN均为常数且满足
基于变换域的方法通过应用适当的变换(如小波或金字塔等),将待融合的输入图像从空间域变换为其他域,之后利用合适的融合规则将变换后的图像进行融合,再通过逆变换重建原始图像,据此得到的融合图像IF在数学上可表示为IF=T-1(φ(T(I1),T(I2),...,T(IN))),其中,T为正向变换算子,T-1为逆变换算子。
近年来,深度学习(Deep Learning,DL)在各种计算机视觉和图像处理问题上取得了许多突破,例如分类、分割、超分辨率等。在图像融合领域,基于深度学习的研究也逐渐成为活跃的话题,并已经出现了多种基于深度学习的图像融合方法,如用于数字摄影的多焦点图像融合方法、多次曝光图像融合方法,用于多模态成像的医学图像融合方法、红外/可见光图像融合方法,用于遥感影像的多光谱(Multi-Spectral,MS)和全色(Panchromatic,PAN)图像融合方法、多光谱和高光谱(Hyper-Spectral,HS)图像融合方法,等等,这些图像融合方法显示出优于传统方法的优势,并带来了新的技术成果。
大多数图像融合应用程序需要分析同一场景中的多张图像以提高图像融合效果。例如,在医学成像应用中,将计算机断层扫描(Computed Tomography,CT)图像、磁共振(Magnetic Resonance,MR)图像、正电子发射断层扫描(Positron Emission Tomography,PET)图像融合在一起可以更好地分析和诊断疾病。在遥感应用中,将具有低分辨率和高光谱密度的多光谱图像与具有高分辨率和低光谱密度的全色图像融合在一起,可以获得具有高空间分辨率的多光谱图像的光谱内容解析度。在监视应用中,从不同的传感器获取不同的图像(如红外图像、可见光图像、近红外图像等)并对其进行融合,可以实现检测和夜视。在摄影应用中,将多焦点图像、多次曝光图像等融合在一起,可以获得对人的视觉和计算机处理更好的感知的图像。
图像处理中的引导滤波(Guided Filter,GF)通过考虑引导图像的内容来计算滤波输出,其中,引导图像可以是输入图像本身,也可以是与输入图像不同的图像。除了像流行的双边滤波器一样用作边缘保留平滑算子外,引导滤波在边缘保留方面表现更好,无需梯度反转,被称为最快的边缘保留滤波器之一。引导滤波的基本思想是函数上的一个点与其相邻点的点之间存在线性关系,因此,一个复杂的函数可以用许多局部线性函数来表示。当需要该函数上某一点的值时,只需计算所有包含该点的线性函数的值,然后取平均值即可。迄今为止,引导滤波器已成功应用于计算机视觉和计算机图形学,包括边缘感知平滑、图像抠图/羽化、降噪和图像修复等领域。具体来说,对于引导图像G,引导滤波器对输入图像I进行滤波,然后得到输出图像O,使得输出图像O可以保留I的主要信息,同时获得引导图像G的变化趋势。
引导滤波的定义可表示为O=GFγε(I,G)。其中,γ表示确定滤波器大小的窗口半径,ε表示正则化参数。引导滤波的整体实现步骤如下:首先,用盒式滤波器(BoxFilter)获取I和G之间的相关系数参数。其次,根据均值计算相关系数参数,包括自相关方差var、相关协方差cov。再次,计算窗口线性变换参数。从次,根据公式计算窗口线性变换参数的平均值。最后,利用这些参数得到引导滤波器的输出图像。
如图1所示,本公开的一个实施方式涉及一种多聚焦图像融合方法S110,包括:
步骤S110,将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到源图像对应的初始二进制掩码;其中,两张源图像分别为第一图像和第二图像,第一图像和第二图像针对同一场景且图像边界相同;预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到。
具体的,第一图像和第二图像可以是通过数码相机等照相设备拍摄的针对同一场景但焦点不同的图像。第一图像和第二图像的图像边界和大小优选为相同,以使融合后的图像能够更清晰地表达该场景的细节信息。
现有技术中,基于掩模(Mask)的真实数据集通常难以获得,数据集的收集和人工标注需耗费大量的人力成本。本实施方式提出了一个无监督解决方案,通过从源图像的性质出发,关注活动水平测量,提出无监督式图像融合辅助模型,从而在模型训练过程中无需监督学习的标签数据,解决了现有技术中图像融合领域依赖大规模标注数据集的问题,并且能达到甚至超越监督学习方法达到的精度。
在这里,预先获取的多聚焦图像融合数据集可以采用Lytro数据集和处理后的COCO数据集。Lytro数据集中的多焦点源图像是由相机直接从现实世界中拍摄的。COCO的全称是Common Objects in COntext。COCO数据集是微软团队提供的一个可以用来进行图像识别的数据集,该数据集使用高斯模糊和手工决策图用于生成多聚焦图像对。在本实施方式中,为了获得处理后的COCO数据集,可以手动注释少量图像中的决策图,从而最终生成包含大部分未标记图像以及小部分标记图像的多聚焦图像融合数据集,例如,该多聚焦图像融合数据集可以包含2万张未标记图像以及1千张标记图像。
预先训练好的无监督式图像融合辅助模型可以在给定合成图像以及前景边界框的情况下预测实例类别,从而有效提升模型网络对目标物体的检测,并促进迁移学习的更好的任务对齐和体系结构对齐。
在对无监督式图像融合辅助模型进行训练时,基于预先获取的多聚焦图像融合数据集,给定两张样本源图像分别为第一样本图像和第二样本图像,这两张样本源图像即第一样本图像和第二样本图像被连接起来作为无监督式图像融合辅助模型的输入,无监督式图像融合辅助模型的输出为一个二进制掩码,该二进制掩码中,每个像素用于指示第一样本图像中的对应像素与第二样本图像中的对应像素相比是否聚焦,若是,则二进制掩码中对应像素的像素值可设置为1,否则设置为0,以对第一样本图像和第二样本图像中像素的聚焦程度进行区分。
示例性的,无监督式图像融合辅助模型包括编码器和解码器。其中,编码器用于提取和融合两张源图像的特征,得到对应的融合特征。解码器用于对融合特征进行重构,生成初始二进制掩码。
通过在无监督式图像融合辅助模型中设置编码器和解码器,可以提取图像的纹理、局部形状等浅层特征以及内容、空间结构等深层特征,并利用浅层特征和深层特征来估计活动水平测量,从而解决多聚焦图像融合算法在不同任务中源图像包含信息不一致的问题。
示例性的,编码器用于提取和融合输入图像的特征,得到对应的融合特征,包括:编码器首先将每张源图像对应的三通道图像通过卷积层转换为对应的单通道灰度图像,并将各张单通道灰度图像通过通道维度连接为一张两通道图像,之后将两通道图像输入依次连接的多个卷积层,并在每次卷积操作后均进行批量归一化(Batch Normalization,BN)操作,同时采用leaky ReLU激活函数进行处理,得到融合特征。其中,依次连接的多个卷积层采用前馈方式在每一个卷积层和所有卷积层之间构建跳跃连接,以解决梯度消失和增强特征传播的问题。
具体的,举例而言,编码器可以首先将两张源图像对应的三通道图像即第一图像对应的三通道图像和第二图像对应的三通道图像,分别通过一个3*3卷积转换为对应的单通道灰度图像,然后通过通道维度将第一图像对应的单通道灰度图像和第二图像对应的单通道灰度图像连接为一张两通道图像,将该两通道图像作为后续模型网络的输入。需要说明的是,在将三通道图像转换为对应的单通道灰度图像时,优选采用两个3*3卷积,每个3*3卷积分别完成一个三通道图像的转换,使得第一图像和第二图像对应的图像转换可以同时完成,从而提高图像转换效率。
在本实施方式中,举例而言,编码器可以包括依次连接的4个卷积层,每个卷积层的输出可以是48个特征图,各个卷积层包含的卷积核的大小可以均设置为3,卷积步幅可以均设置为1。当然,本领域技术人员也可以根据实际需要,对编码器中的卷积层数量、卷积层输出特征图数量、卷积核大小、卷积步幅大小等进行设置,本实施方式对此并不限制。
本实施方式通过将源图像统一转换为单通道灰度图像作为输入,可以减少模型网络的计算量,并由此提升多聚焦图像融合效率,提高多聚焦图像融合精度。
示例性的,解码器包括依次连接的多个卷积层,不包括池化层,且多个卷积层对应的特征图数量按照其连接顺序逐渐减少;其中,除最后一个卷积层之外的其他卷积层在每次卷积操作后均进行批量归一化操作,并采用leaky ReLU激活函数;最后一个卷积层采用tanh函数作为激活层,并利用tanh函数生成0-1之间连续值的映射,之后应用Sign函数。
具体的,举例而言,解码器可以包括依次连接的5个卷积层,各个卷积层包含的卷积核的大小可以均设置为3,卷积步幅可以均设置为1。此时,前4个卷积层在每次卷积操作后均应用批量归一化操作和leaky ReLU激活函数。第5个卷积层采用tanh函数作为激活层,并生成0-1之间连续值的映射,再应用Sign函数,从而得到源图像对应的初始二进制掩码。当然,本领域技术人员也可以根据实际需要,对解码器中的卷积层数量、卷积核大小、卷积步幅大小等进行设置,本实施方式对此并不限制。
需要说明的是,本实施方式并不对解码器中多个卷积层对应的特征图数量按照其连接顺序逐渐减少的具体方式进行限制,只要多个卷积层对应的特征图数量按照其连接顺序逐渐减少即可。
示例性的,无监督式图像融合辅助模型的损失函数L表示为下式(1):
其中,H表示源图像的高度,W表示源图像的宽度,F表示Frobenius范数,MO表示解码器中Sign函数前一层的输出,MG表示根据两张源图像的绝对梯度值得到的二进制梯度关系图,MG中的第i行第j列元素表示为/> 表示第一图像的第i行第j列像素对应的绝对梯度值,/>表示第二图像的第i行第j列像素对应的绝对梯度值,/>为拉普拉斯算子。
具体的,现有技术中,生成得分图像(Score Map)需要明确的真实标签进行监督学习,然而,这些真实标签通常无法直接获得,而以人工标注方式构建这些真实标签则需要花费大量时间和精力。因此,本实施方式从源图像的性质出发,关注活动水平测量,提出了无需监督学习标签数据的无监督式图像融合辅助模型,并提出以梯度相关损失作为无监督式图像融合辅助模型的损失函数。
从图像外观来看,图像中的聚焦区域通常表现出更清晰的边缘,而散焦区域通常会出现边缘模糊。聚焦区域和散焦区域的这种差异可以直观地表现在梯度值上,表现为聚焦区域比散焦区域显示更大的绝对梯度值,因此,绝对梯度值可以作为衡量活动水平的基本标准。通过比较第一图像和第二图像中像素对应的绝对梯度值,即可得到两张源图像即第一图像和第二图像对应的二进制梯度关系图MG,且MG中的第i行第j列元素可表示为/>
尽管二进制梯度关系图MG包含大量噪声,无法准确定位聚焦区域,但它可以粗略地表示源图像梯度之间的对应关系。因此,本实施方式采用二进制梯度关系图MG作为参考,以缩小解决方案领域并加快流程。
本实施方式中,无监督式图像融合辅助模型的损失函数L对MO进行约束的原因是:对MO的约束可以在无监督式图像融合辅助模型输出的二进制掩码MI上表现出更好的性能,因为它缩小了前一阶段的解域,使得在缩小的域内找到MI更好地满足其他约束的松弛解成为可能。
步骤S120,采用小区域去除策略,去除初始二进制掩码对应的掩码图像中待处理的小区域,得到源图像对应的最终掩码;其中,待处理的小区域为掩码图像中区域面积小于预设阈值的区域。
具体的,将源图像输入无监督式图像融合辅助模型得到的初始二进制掩码可能会出现由于决策不当导致的一些小的分类错误的像素、线或毛刺。然而,由于这些像素、线或毛刺通常是来自同一物体或在同一景深内的像素,因此,这些相邻的区域应当被组合成一个完整的区域,为此,本实施方式采用小区域去除策略来实现这些相邻区域的组合。
示例性的,小区域去除策略可以包括以下内容即步骤S120可以包括:确定掩码图像中每个连通区域的位置。分别将每个连通区域内的所有像素值相加,得到每个连通区域对应的区域面积。当区域面积小于预设阈值时,将对应的连通区域内的像素值设置为与其当前值相反的值,得到最终掩码。
具体的,这里的连通区域指的是图像中具有相同像素值并且位置相邻的像素组成的区域。初始二进制掩码对应的掩码图像包括像素值分别为1和0的两类区域时,可以首先对像素值为1的区域应用小区域去除策略,之后再在像素值为0的区域应用小区域去除策略,从而得到源图像对应的最终掩码,实现对决策不当导致的一些小的分类错误的像素、线或毛刺的去除。
需要说明的是,这里的预设阈值可以根据源图像的高度和宽度进行设置。例如,该预设阈值可以设置为H×W/60。当然,本领域技术人员也可以根据实际需要,将预设阈值设置为其他值,本实施方式对此并不限制。
步骤S130,基于最终掩码和源图像,将源图像中的聚焦区域进行拼接,得到融合有第一图像和第二图像的多聚焦融合图像。
具体的,本步骤可以通过最终掩码与两张源图像即第一图像和第二图像之间的哈达玛积,将第一图像和第二图像中的聚焦区域进行拼接,从而得到第一图像和第二图像对应的多聚焦融合图像。
示例性的,步骤S130包括:基于最终掩码与源图像之间的哈达玛积,采用下式(2)将第一图像和第二图像的聚焦区域进行拼接,得到多聚焦融合图像:
具体的,如果源图像为红绿蓝色彩模式图像即RGB图像,则可将上式(2)依次在R、G、B通道上执行,从而得到最终的多聚焦融合图像。
通过利用最终掩码与源图像之间的哈达玛积对第一图像和第二图像的聚焦区域进行拼接,可以将多聚焦图像融合过程描述为一个像素级分类问题而不是图像片(patch)级分类问题,从而减少模型推算时间,并节省训练资源,有效解决目前无监督学习算法模型推送时间过长以及训练资源过大的问题。
本公开实施方式相对于现有技术而言,无监督式图像融合辅助模型在训练过程中无需依赖大规模标注数据集,可用于提取图像的浅层特征和深层特征,以根据提取到的浅层特征和深层特征来估计活动水平测量,从而解决多聚焦图像算法在不同融合任务中源图像包含信息不一致的问题,并且,通过基于最终掩码和源图像对源图像中的聚焦区域进行拼接,可将图像融合过程描述为一个像素级分类问题,从而有效解决现有的无监督学习算法模型推算时间过长以及训练资源过大的问题。
本公开的另一个实施方式涉及一种多聚焦图像融合装置,如图2所示,包括:
输入模块201,用于将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到源图像对应的初始二进制掩码;其中,两张源图像分别为第一图像和第二图像,第一图像和第二图像针对同一场景且图像边界相同;预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到;
去除模块202,用于采用小区域去除策略,去除初始二进制掩码对应的掩码图像中待处理的小区域,得到源图像对应的最终掩码;其中,待处理的小区域为掩码图像中区域面积小于预设阈值的区域;
拼接模块203,用于基于最终掩码和源图像,将源图像中的聚焦区域进行拼接,得到融合有第一图像和第二图像的多聚焦融合图像。
本公开实施方式提供的多聚焦图像融合装置的具体实现方法,可以参见本公开实施方式提供的多聚焦图像融合方法所述,此处不再赘述。
本公开实施方式相对于现有技术而言,无监督式图像融合辅助模型在训练过程中无需依赖大规模标注数据集,可用于提取图像的浅层特征和深层特征,以根据提取到的浅层特征和深层特征来估计活动水平测量,从而解决多聚焦图像算法在不同融合任务中源图像包含信息不一致的问题,并且,通过基于最终掩码和源图像对源图像中的聚焦区域进行拼接,可将图像融合过程描述为一个像素级分类问题,从而有效解决现有的无监督学习算法模型推算时间过长以及训练资源过大的问题。
本公开的另一个实施方式涉及一种电子设备,如图3所示,包括:
至少一个处理器301;以及,
与至少一个处理器301通信连接的存储器302;其中,
存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述实施方式所述的多聚焦图像融合方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本公开的另一个实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式所述的多聚焦图像融合方法。
即,本领域技术人员可以理解,实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本公开的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本公开的精神和范围。
Claims (10)
1.一种多聚焦图像融合方法,其特征在于,所述多聚焦图像融合方法包括:
将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到所述源图像对应的初始二进制掩码;其中,所述两张源图像分别为第一图像和第二图像,所述第一图像和所述第二图像针对同一场景且图像边界相同;所述预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到;
采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码;其中,所述待处理的小区域为所述掩码图像中区域面积小于预设阈值的区域;
基于所述最终掩码和所述源图像,将所述源图像中的聚焦区域进行拼接,得到融合有所述第一图像和所述第二图像的多聚焦融合图像。
2.根据权利要求1所述的多聚焦图像融合方法,其特征在于,所述无监督式图像融合辅助模型包括编码器和解码器;其中,
所述编码器用于提取和融合所述两张源图像的特征,得到对应的融合特征;
所述解码器用于对所述融合特征进行重构,生成所述初始二进制掩码。
3.根据权利要求2所述的多聚焦图像融合方法,其特征在于,所述编码器用于提取和融合输入图像的特征,得到对应的融合特征,包括:
所述编码器首先将每张所述源图像对应的三通道图像通过卷积层转换为对应的单通道灰度图像,并将各张所述单通道灰度图像通过通道维度连接为一张两通道图像,之后将所述两通道图像输入依次连接的多个卷积层,并在每次卷积操作后均进行批量归一化操作,同时采用leaky ReLU激活函数进行处理,得到所述融合特征;其中,所述依次连接的多个卷积层采用前馈方式在每一个卷积层和所有卷积层之间构建跳跃连接。
4.根据权利要求3所述的多聚焦图像融合方法,其特征在于,
所述解码器包括依次连接的多个卷积层,不包括池化层,且多个卷积层对应的特征图数量按照其连接顺序逐渐减少;其中,除最后一个卷积层之外的其他卷积层在每次卷积操作后均进行批量归一化操作,并采用leaky ReLU激活函数;最后一个卷积层采用tanh函数作为激活层,并利用tanh函数生成0-1之间连续值的映射,之后应用Sign函数。
6.根据权利要求1至5任一项所述的多聚焦图像融合方法,其特征在于,所述采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码,包括:
确定所述掩码图像中每个连通区域的位置;
分别将每个所述连通区域内的所有像素值相加,得到每个所述连通区域对应的区域面积;
当所述区域面积小于所述预设阈值时,将对应的所述连通区域内的像素值设置为与其当前值相反的值,得到所述最终掩码。
8.一种多聚焦图像融合装置,其特征在于,所述多聚焦图像融合装置包括:
输入模块,用于将待融合的两张源图像输入预先训练好的无监督式图像融合辅助模型,得到所述源图像对应的初始二进制掩码;其中,所述两张源图像分别为第一图像和第二图像,所述第一图像和所述第二图像针对同一场景且图像边界相同;所述预先训练好的无监督式图像融合辅助模型基于预先获取的多聚焦图像融合数据集训练得到;
去除模块,用于采用小区域去除策略,去除所述初始二进制掩码对应的掩码图像中待处理的小区域,得到所述源图像对应的最终掩码;其中,所述待处理的小区域为所述掩码图像中区域面积小于预设阈值的区域;
拼接模块,用于基于所述最终掩码和所述源图像,将所述源图像中的聚焦区域进行拼接,得到融合有所述第一图像和所述第二图像的多聚焦融合图像。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的多聚焦图像融合方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的多聚焦图像融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310252121.4A CN116342446A (zh) | 2023-03-10 | 2023-03-10 | 多聚焦图像融合方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310252121.4A CN116342446A (zh) | 2023-03-10 | 2023-03-10 | 多聚焦图像融合方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342446A true CN116342446A (zh) | 2023-06-27 |
Family
ID=86888810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310252121.4A Pending CN116342446A (zh) | 2023-03-10 | 2023-03-10 | 多聚焦图像融合方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342446A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597268A (zh) * | 2023-07-17 | 2023-08-15 | 中国海洋大学 | 一种高效的多聚焦图像融合方法及其模型搭建方法 |
-
2023
- 2023-03-10 CN CN202310252121.4A patent/CN116342446A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597268A (zh) * | 2023-07-17 | 2023-08-15 | 中国海洋大学 | 一种高效的多聚焦图像融合方法及其模型搭建方法 |
CN116597268B (zh) * | 2023-07-17 | 2023-09-22 | 中国海洋大学 | 一种高效的多聚焦图像融合方法及其模型搭建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | DRCDN: learning deep residual convolutional dehazing networks | |
Lu et al. | Multi-scale adversarial network for underwater image restoration | |
CN112465828B (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
Gao et al. | Single image dehazing via self-constructing image fusion | |
CN111696110B (zh) | 场景分割方法及系统 | |
Liu et al. | Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion | |
US11935213B2 (en) | Laparoscopic image smoke removal method based on generative adversarial network | |
Xiao et al. | Single image dehazing based on learning of haze layers | |
CN112614119A (zh) | 医学图像感兴趣区域可视化方法、装置、存储介质和设备 | |
CN111179196B (zh) | 一种基于分而治之的多分辨率深度网络图像去高光方法 | |
Zhao et al. | Automatic blur region segmentation approach using image matting | |
CN114842026A (zh) | 实时的风机叶片图像分割方法及系统 | |
CN116664605A (zh) | 基于扩散模型和多模态融合的医学图像肿瘤分割方法 | |
CN116342446A (zh) | 多聚焦图像融合方法及装置、电子设备、存储介质 | |
CN115546466A (zh) | 一种基于多尺度显著特征融合的弱监督图像目标定位方法 | |
Wang et al. | Total generalized variation-based Retinex image decomposition | |
CN117315210B (zh) | 一种基于立体成像的图像虚化方法及相关装置 | |
Nercessian et al. | Multiresolution decomposition schemes using the parameterized logarithmic image processing model with application to image fusion | |
Frantc et al. | Machine learning approach for objective inpainting quality assessment | |
Choudhary et al. | Mathematical modeling and simulation of multi-focus image fusion techniques using the effect of image enhancement criteria: a systematic review and performance evaluation | |
Queiroz et al. | Endoscopy image restoration: A study of the kernel estimation from specular highlights | |
CN116563305A (zh) | 一种血管的异常区域的分割方法、装置及电子设备 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
Yao et al. | A multi-expose fusion image dehazing based on scene depth information | |
Oludare et al. | Attention-guided cascaded networks for improved face detection and landmark localization under low-light conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |