CN115423734B - 一种基于多尺度注意机制的红外与可见光图像融合方法 - Google Patents
一种基于多尺度注意机制的红外与可见光图像融合方法 Download PDFInfo
- Publication number
- CN115423734B CN115423734B CN202211359400.2A CN202211359400A CN115423734B CN 115423734 B CN115423734 B CN 115423734B CN 202211359400 A CN202211359400 A CN 202211359400A CN 115423734 B CN115423734 B CN 115423734B
- Authority
- CN
- China
- Prior art keywords
- image
- infrared
- visible light
- fusion
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 24
- 238000013135 deep learning Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000004800 variational method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于多尺度注意机制的红外与可见光图像融合方法;通过多尺度注意机制集成到生成对抗网络的生成器和判别器中来融合红外图像和可见光图像,多尺度注意机制不仅可以捕获全面的空间信息以帮助生成器关注可见光图像的背景细节信息和红外图像的前景目标信息,而且还限制判别器更多的关注区域而不是整个输入图像;方法中的生成器由两个分别捕获红外可见光注意力图的多尺度注意网络和一个图像融合网络组成,采用两个判别器强制融合结果分别保留红外图像和可见光图像中更多的注意信息,保留更丰富的场景信息,具有更强的对比度,融合图像的视觉效果更好。
Description
技术领域
本发明涉及图像融合领域,特别是涉及一种基于多尺度注意机制的红外与可见光图像融合方法。
背景技术
图像融合的概念在上世纪70年代被提出,属于信息融合技术。图像融合是指将两幅及以上来自同一场景的不同模式的图像融合到一起,获得一张信息更为全面的图像的技术,以此来提高单张图像的利用率。比如传统的红外图像主要通过红外传感器探测场景中目标向外辐射或反射出来的热辐射,在光照条件较差时具有很好的目标探测能力;传统的可见光图像有丰富的光谱信息、场景细节,空间分辨率较高,依赖光照成像,在光照条件差时,成像质量受到影响。因此利用红外与可见光图像的融合技术可以将红外图像与可见光图像的优点集于一张图片上,使图像具有分辨率和对比度都相对较高且不受能见度等影响。融合后的图像可以进一步应用于图像处理领域,如目标检测、图像分类等。
近几年来,越来越多的图像融合方法被提出。图像融合算法一般包括变化域融合算法、空间域融合算法以及基于深度学习的图像融合算法。空间域融合算法首先需要将输入的图像分解为小块或根据某种标准划分的区域,然后计算对应区域的显著度,最后将匹配度最大的区域合并形成融合图像;该算法主要适用于融合同一模态的图像。变换域图像融合算法首先通过多尺度几何分解将源图像变换到一些特征域,然后对多个输入图像的特征进行融合,最后对融合后的特征进行逆变换,生成融合图像;变换域图像融合算法的结果取决于特征变换,融合规则的设计。在近几年随着深度学习在计算机视觉领域的应用迅速发展,基于深度学习的图像融合算法也逐渐盛行。在深度学习中,卷积神经网络具有良好的特征提取功能和图像重建能力,联合自编码网络可以分离出数据的公有特征和私有特征,将两者相结合,并设计相应的融合规则来融合图像。
基于无监督学习的图像融合方法是当前深度学习图像融合研究的重要方向。典型的深度学习融合方法,如DeepFuse和DenseFuse,它们都通过训练得到的编码器和解码器对图像进行特征提取和重构,然后设计融合规则进行图像融合,缺点是没有实现特征的自适应融合,如专利公布号为CN111709903B、CN111784619A、CN111861960A以及CN112288663A的专利所示。
在专利CN111709903B中:将红外、可见光源图像输入生成器初步融合,然后输入至判别器中,输出对应的单一可能性判别值;将融合图像与输入源图像间生成器损失及融合图像与可见光图像间的判别器损失相结合优化生成器,并通过反向传播调整生成器网络权重值及偏置值;利用融合图像及可见光图像间判别器损失优化判别器,将可见光图像的其他细节信息添加到融合图像中;经多次迭代训练得到性能稳定的网络模型;将多对未裁剪的源图像对分别输入至训练后的生成器网络可得到对应融合图像。
在专利CN111784619A中:使用混合l1-l0分解模型将图像分解结果作为双层自编码网络的输出,使得双层自编码网络自备层分解能力。
在专利CN111861960A中:采用结构张量计算得到源图像的融合梯度,利用局部梯度相似性使融合梯度方向更加精确;其次,根据像素强度的比较,将源图像重构为显著图和非显著图,并计算用于甄别和保留非显著图有效细节的权重图;再者,基于源图像的梯度特征和像素强度信息,建立图像融合模型;最后,采用变分法求解优化模型以得到融合图像。
在专利CN112288663A中:通过构建的融合网络包括两个特征提取子网络以及融合网络,实现了端到端融合图像,避免了传统融合方法的人工设计的困难。
在现有技术中,都是基于深度学习的图像融合方法仅仅将网络的最后一层用于图像融合,忽略了中间特征的重要性,或者仅使用单一判别器;因此提出利用多尺度注意机制和生成式对抗学习网络(GAN)通过生成器与判别器之间的对抗力,获得融合图像的方法,使获得的图像包含更多的红外图像和可见光图像的细节信息。
发明内容
本发明的目的是解决现有技术的不足,提供一种基于多尺度注意机制的红外与可见光图像融合方法。
为了解决上述问题,本发明采用如下技术方案:
一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,包括如下步骤:
步骤1:从设定的数据集中获取红外与可见光的源图像;获得的红外源图像与可见光源图像相互对应;
步骤2:对获取的红外源图像以及可见光源图像进行预处理,获得训练集trainDatas;
步骤4:根据设置的参数,获得损失函数;通过设置损失函数保证融合后的图像尽量保留更多的源图像的有效信息;
步骤5:根据trainDatas训练集和损失函数对红外与可见光图像融合模型框架进行训练,获得红外可见光融合模型;
步骤6:将待融合的红外图像和可见光图像输入步骤5中获得的红外可见光模型,获得融合图像,结束步骤。
进一步的,所述步骤2中的红外源图像和可见光源图像的预处理过程包括,首先选择设定数量的红外源图像与可见光源图像对,然后将源图像进行裁切,裁切成设定大小的源图像块;在源图像裁切过程中,相对应的红外源图像和可见光源图像的裁切位置一致。
进一步的,所述步骤3中的生成器中包括多尺度注意模块以及融合模块。
进一步的,所述多尺度注意模块通过其内设置的多尺度注意网络结构提取图像的多尺度特征,然后计算多尺度特征对应的权重数组,根据权重保留图像中的重要图像特征,组成注意力图像;该处的权重数组为多尺度网络结构在模型训练过程中获取的;多尺度注意网络结构包括4个3*3的卷积核以及批量归一化层核PRelu激活函数;多尺度注意网络结构的输入通道数量设置为1个,输出通道的数量设置为32个。
进一步的,所述融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合;融合模块中设置有融合网络结构,融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。
进一步的,所述可见光判别器以及红外判别器的内部结构相同,均采用7层的
卷积神经网络,在该卷积神经网络中,前6层的卷积层设置为3*3的卷积核,步长设置为1和2
交替;最后一层设置为全连接层,在全连接层中将前6层卷积后获得的特征进行整合,计算
获得输入图像是源图像块的概率,该概率数值表示源图像块与融合图像之间的
Wasserstein距离。
其中,表示所有元素之和;表示下采样算子,由于保留了低频信息,下采样算子
由两个平均池层实现;表示Frobenius范数;表示TV范数;表示控制权衡,设
置为1.2;表示生成器生成的融合图像的tensor值;表示源图像的tensor值;
其中,表示注意力图像的高度,表示注意力图像的宽度;表示将
融合图像作为输入可见光判别器的注意力图像;表示将可见光源图像块作
为输入可见光判别器的注意力图像;表示将融合图像作为输入红外判别器的注意力图像;表示将红外图像作为输入红外判别器的注意力图像;
其中,表示红外源图像块和融合图像的
Wasserstein距离估计, 同理,表示可见光源图像块和融
合图像的 Wasserstein距离估计;和分别是将红外源图像和融合图像输入红外
判别器的结果;和分别是将可见光源图像和融合图像输入可见光判别器的结
果;和 分别表示红外和可见光判别器网络的正
则化的梯度惩罚;和表示红外和可见光源图像的数据分布;表示正则化参数。
本发明的有益效果为:
通过设置生成器和判别器采用多尺度注意力机制,帮助生成器感知红外和可见光图像中最具辨别力的区域,同时约束判别器更多的关注注意区域而不是整个输入图像,提高融合图像的效率,保证图像融合的效果;
通过设置可见光和红外两个判别器,分别用于获取输入图像与可见光图像,以及输入图像与红外图像之间的差异,使得融合图像能够同时保留红外图像与可见光图像的代表性特征,可以避免由于单一对抗结构造成的信息损失,进而使得生成的融合结果更加准确可靠;
通过在判别器中设置Wasserstein距离代替传统的JS散度来计算融合图像和源图像之间的差异,提高GAN训练的稳定性。
附图说明
图1为本发明实施例一的整体实施流程框图;
图2为本发明实施例一的图像融合模型框架的网络结构图;
图3为本发明实施例一的生成器网络结构图;
图4为本发明实施例一的判别器网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一:
如图1~图4所示,一种基于多尺度注意机制的红外与可见光图像融合方法,包括如下步骤:
步骤1:从设定的数据集中获取红外与可见光的源图像;需要说明的是,获得的红外源图像与可见光源图像是相互对应的;
步骤2:对获取的红外源图像以及可见光源图像进行预处理,获得更加丰富的训练集(trainDatas);其中预处理包括裁切、合并等图像处理方法;
步骤4:根据设置的参数,获得损失函数;通过设置损失函数保证融合后的图像尽量保留更多的源图像的有效信息;
步骤5:根据trainDatas训练集和损失函数对红外与可见光图像融合模型框架进行训练,获得红外可见光融合模型;
步骤6:将待融合的红外图像和可见光图像输入步骤5中获得的红外可见光模型,获得融合图像,结束步骤。
所述步骤1中获取的红外与可将光图像对,在本例中为从TNO数据集中选取的红外和可见光图像对。近年来,红外和可见光图像数据集还包括INO视频数据集、RoadScene数据集以及多光谱数据集等。其中TNO数据集 是目前IVIF最常用的公共可用数据集,其中包含261对白天和夜间的图像;因此本例选用TNO数据集。
所述步骤2中的红外源图像和可见光源图像的预处理过程包括,首先选择设定数量的红外源图像与可见光源图像对,并将源图像进行裁切,裁切成设定大小的源图像块,需要注意的是,在源图像裁切过程中,相对应的红外源图像和可见光源图像的裁切位置一致。在本例中,从TNO数据集中选择49对红外源图像与可见光源图像,共计98张源图像,并将源图像裁切为120*120像素的源图像块,最终获得15000对源图像块,共计30000块源图像块。
所述步骤3中的红外与可见光图像融合模型框架的网络结构如图2所示。如图3所
示,图3为生成器网络结构图,在图3中3*3 Conv表示3*3的卷积核,PReLU表示一种批量归一
化层核激活函数,其中生成器中包括多尺度注意模块以及融合模块。多尺度注意模块中设
置有多尺度注意网络结构,多尺度注意模块用于提取图像的多尺度特征,然后通过权重数
组计算,根据权重保留图像中的重要的图像特征,组成注意力图像,需要说明的是,该处的
权重数组为多尺度网络结构在模型训练过程中获取的;多尺度注意网络结构包括4个3*3的
卷积核以及批量归一化层核PRelu激活函数;多尺度注意网络结构的输入通道数量设置为1
个,输出通道的数量设置为32个。在实施过程中,通过多尺度注意模型提取图像中的重要的
图像特征,然后将不同尺度的图像特征合并,以捕获所有重要的信息;为了选择性地关注重
要特征而忽略不相关的特征,训练多尺度注意网络结构学习权重数组来重新定义上采样特
征,通过逐元素加法计算每个尺度的多尺度注意力图像;受类激活图CAM的启发,多尺度注
意网络结构被训练学习第s个集合尺度的第k个特征的权重,公式如下:
然后,将每个注意力图的归一化结果按通道串联,最后通过注意力映射操作捕获注意力映射。
融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合,得到融合图像;需要说明的是,若注意力图像通过红外源图像块获得,则在融合模块中将该注意力图像与对应的可见光源图像块进行融合,若注意力图像通过可见光源图像块获得,则在融合模块中将该注意力图像与对应的红外源图像块进行融合,获得融合图像。融合模块中设置有融合网络结构,融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。
如图4所示,图4为判别器网络结构图,其中Conv表示卷积核,LeakyReLu表示一种
激活函数,FC表示全连接层,Wasserstein距离表示判别器输出的对应的融合图像和可见光
图像的Wasserstein距离或者融合图像和红外图像的Wasserstein距离。所述可见光判别器以及红外判别器的内部结构相同,均采用7层的卷积神经网络,在该卷积神经网络中,
前6层的卷积层设置为3*3的卷积核,步长设置为1和2交替;最后一层设置为全连接层,在全
连接层中将前6层卷积后获得的特征进行整合,计算获得输入图像是源图像块的概率,该概
率数值表示源图像块与融合图像之间的Wasserstein距离。在本例中,通过设置双判别器结
构,包括可见光判别器以及红外判别器,分别用于区分输入的图像与可见光源图像块
以及输入的图像与红外源图像块之间的差异,其中输入的图像为生成器中获得的融合图
像。需要说明的是可见光判别器以及红外判别器具备相同的结构和相同的处理流程,
但是它们的参数是相互独立的。在实施过程中,将融合图像和可见光源图像块或者红外源
图像块输入到可见光判别器以及红外判别器,获得的Wasserstein距离小于设定值,则
表示生成器产生的融合图像与红外源图像块和可见光源图像块相接近,融合图像中保留了
红外源图像块和可见光源图像块的特征,则生成器采用对应的学习获得的权重数组。
所述步骤4中的损失函数包括生成器损失函数以及判别器共同损失函数。
其中生成器损失函数包括内容损失、对抗损失以及注意力损失,设置损失函
数的目的是使得生成器能够学习源图像的热辐射信息和纹理信息。生成器损失函数的公
式如下所示:
其中,表示所有元素之和;表示下采样算子,由于保留了低频信息,下采样算子
由两个平均池层实现;表示Frobenius范数;表示TV范数;表示控制权衡,在
本例中设置为1.2;表示生成器生成的融合图像的tensor值;表示源图像的tensor
值。
通过将多尺度注意力机制引入判别器,从输入图像中提取注意力图像;当判别器
不能区分融合图像与源图像时,判别器的两个输入应具有相同的关注区域;注意力损失
函数对融合图像的注意力图像与可见光源图像或红外源图像的注意力图像之间的差异进
行了惩罚。所述注意力损失如下式所示:
其中,表示注意力图像的高度,表示注意力图像的宽度;表示将
融合图像作为输入可见光判别器的注意力图像;表示将可见光源图像块作
为输入可见光判别器的注意力图像;表示将融合图像作为输入红外判别器的注意力图像;表示将红外图像作为输入红外判别器的注意力图像;
其中,表示红外源图像块和融合图像的
Wasserstein距离估计, 同理,表示可见光源图像块和融
合图像的 Wasserstein距离估计;和分别是将红外源图像和融合图像输入红外
判别器的结果;和分别是将可见光源图像和融合图像输入可见光判别器的结
果;和分别表示红外和可见光判别器网络的正
则化的梯度惩罚;和表示红外和可见光源图像的数据分布;表示正则化参数。在本例
中分别设置两个判别器的目的是为了减少融合图像中的信息丢失,而判别器的对抗损失函
数的作用是让生成器学习红外图像和可见光图像的结构和纹理信息。
所述步骤5中模型训练的步骤包括:
步骤53:可见光判别器获取融合图像和训练集中对应的可见光源图像块,获取
可见光源图像块与融合图像的Wasserstein距离;若可见光判别器获取的Wasserstein距
离小于设定值,则认为融合图像中包含了可见光源图像块的特征,进入下一步骤;否则,调
节生成器中的权重数组,返回步骤52;
步骤54:红外判别器获取融合图像和训练集中对应的红外源图像块,获取红外
源图像块与融合图像的Wasserstein距离;若红外判别器获取的Wasserstein距离小于设
定值,则认为融合图像中包含了红外源图像块的特征,结束步骤;否则,调节生成器中的权
重数组,返回步骤52。
需要说明的是,在步骤54完成后,本例中还会对两个判别器获取的最终Wasserstein距离比较,若差值超过设定值,则认为融合图像倾向于Wasserstein距离较小的源图像,其中如果倾向于红外源图像则会训练设定次数的可见光判别器,表现为循环步骤52和步骤53设定次数;如果倾向于可见光源图像则会训练设定次数的红外判别器,变现为循环步骤52和步骤54设定次数。
所述步骤6中待融合的红外图像和可见光图像为同一场景的已经配准过的红外图像与可见光图像。
在实施过程中,通过设置生成器和判别器采用多尺度注意力机制,帮助生成器感知红外和可见光图像中最具辨别力的区域,同时约束判别器更多的关注注意区域而不是整个输入图像,提高融合图像的效率,保证图像融合的效果;通过设置可见光和红外两个判别器,分别用于获取输入图像与可见光图像,以及输入图像与红外图像之间的差异,使得融合图像能够同时保留红外图像与可见光图像的代表性特征,可以避免由于单一对抗结构造成的信息损失,进而使得生成的融合结果更加准确可靠;通过在判别器中设置Wasserstein距离代替传统的JS散度来计算融合图像和源图像之间的差异,提高GAN训练的稳定性。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (8)
1.一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,包括如下步骤:
步骤1:从设定的数据集中获取红外与可见光的源图像;获得的红外源图像与可见光源图像相互对应;
步骤2:对获取的红外源图像以及可见光源图像进行预处理,获得训练集trainDatas;
步骤4:根据设置的参数,获得损失函数;通过设置损失函数保证融合后的图像尽量保留更多的源图像的有效信息;
步骤5:根据trainDatas训练集和损失函数对红外与可见光图像融合模型框架进行训练,获得红外可见光融合模型;
步骤6:将待融合的红外图像和可见光图像输入步骤5中获得的红外可见光模型,获得融合图像,结束步骤;
其中,表示注意力图像的高度,表示注意力图像的宽度;表示将融合图像作为输入可见光判别器的注意力图像;表示将可见光源图像块作为输入可见光判别器的注意力图像;表示将融合图像作为输入红外判别器的注意力图像;表示将红外图像作为输入红外判别器的注意力图像;
2.根据权利要求1所述的一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,所述步骤2中的红外源图像和可见光源图像的预处理过程包括,首先选择设定数量的红外源图像与可见光源图像对,然后将源图像进行裁切,裁切成设定大小的源图像块;在源图像裁切过程中,相对应的红外源图像和可见光源图像的裁切位置一致。
3.根据权利要求1所述的一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,所述步骤3中的生成器中包括多尺度注意模块以及融合模块。
4.根据权利要求3所述的一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,所述多尺度注意模块通过其内设置的多尺度注意网络结构提取图像的多尺度特征,然后计算多尺度特征对应的权重数组,根据权重保留图像中的重要图像特征,组成注意力图像;该处的权重数组为多尺度网络结构在模型训练过程中获取的;多尺度注意网络结构包括4个3*3的卷积核以及批量归一化层核PRelu激活函数;多尺度注意网络结构的输入通道数量设置为1个,输出通道的数量设置为32个。
6.根据权利要求3所述的一种基于多尺度注意机制的红外与可见光图像融合方法,其特征在于,所述融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合;融合模块中设置有融合网络结构,融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359400.2A CN115423734B (zh) | 2022-11-02 | 2022-11-02 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359400.2A CN115423734B (zh) | 2022-11-02 | 2022-11-02 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115423734A CN115423734A (zh) | 2022-12-02 |
CN115423734B true CN115423734B (zh) | 2023-03-24 |
Family
ID=84207331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211359400.2A Active CN115423734B (zh) | 2022-11-02 | 2022-11-02 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423734B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664462B (zh) * | 2023-05-19 | 2024-01-19 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN116503300B (zh) * | 2023-06-25 | 2023-10-03 | 广东电网有限责任公司湛江供电局 | 一种电力设备的图像融合方法、系统、设备和介质 |
CN117036875B (zh) * | 2023-07-11 | 2024-04-26 | 南京航空航天大学 | 一种基于融合注意力gan的红外弱小移动目标生成算法 |
CN117115065B (zh) * | 2023-10-25 | 2024-01-23 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161201A (zh) * | 2019-12-06 | 2020-05-15 | 北京理工大学 | 基于细节增强通道注意力的红外与可见光图像融合方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8938115B2 (en) * | 2010-11-29 | 2015-01-20 | The Regents Of The University Of California | Systems and methods for data fusion mapping estimation |
CN112001868B (zh) * | 2020-07-30 | 2024-06-11 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
CN111915545B (zh) * | 2020-08-06 | 2022-07-05 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112288663A (zh) * | 2020-09-24 | 2021-01-29 | 山东师范大学 | 一种红外与可见光图像融合方法及系统 |
US20220172452A1 (en) * | 2020-11-30 | 2022-06-02 | George Mason University | Detecting objects non-visible in color images |
WO2022177044A1 (ko) * | 2021-02-18 | 2022-08-25 | 연세대학교 산학협력단 | 주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 x선 영상 생성 장치 및 방법 |
CN113222879B (zh) * | 2021-07-08 | 2021-09-21 | 中国工程物理研究院流体物理研究所 | 一种用于红外与可见光图像融合的生成对抗网络 |
CN115035003A (zh) * | 2022-04-11 | 2022-09-09 | 太原科技大学 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
CN114782298B (zh) * | 2022-04-24 | 2024-03-12 | 西安交通大学 | 一种具有区域注意力的红外与可见光图像融合方法 |
CN115063329A (zh) * | 2022-06-10 | 2022-09-16 | 中国人民解放军国防科技大学 | 低光照环境下的可见光和红外图像融合增强方法及系统 |
-
2022
- 2022-11-02 CN CN202211359400.2A patent/CN115423734B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161201A (zh) * | 2019-12-06 | 2020-05-15 | 北京理工大学 | 基于细节增强通道注意力的红外与可见光图像融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115423734A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115423734B (zh) | 一种基于多尺度注意机制的红外与可见光图像融合方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
Wang et al. | Review of pixel-level remote sensing image fusion based on deep learning | |
CN112819910B (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN111145131A (zh) | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 | |
CN113792641B (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN110084108A (zh) | 基于gan神经网络的行人重识别系统及方法 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN112418041B (zh) | 一种基于人脸正面化的多姿态人脸识别方法 | |
CN101216889A (zh) | 一种融合全局特征与局部细节信息的人脸图像超分辨率方法 | |
CN103366353A (zh) | 一种基于显著性区域分割的红外与可见光图像融合方法 | |
Yao et al. | Laplacian pyramid fusion network with hierarchical guidance for infrared and visible image fusion | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
Zhang et al. | Hyperspectral-cube-based mobile face recognition: A comprehensive review | |
CN111209873A (zh) | 一种基于深度学习的高精度人脸关键点定位方法及系统 | |
Xing et al. | Multi-level adaptive perception guidance based infrared and visible image fusion | |
CN117576483B (zh) | 基于多尺度卷积自编码器的多源数据融合地物分类方法 | |
Ma et al. | A collaborative correlation-matching network for multimodality remote sensing image classification | |
CN113920498A (zh) | 一种基于多层特征金字塔的点云3d物体检测方法 | |
Ren et al. | HADGSM: A Unified Nonconvex Framework for Hyperspectral Anomaly Detection | |
Zhang et al. | Multilevel feature context semantic fusion network for cloud and cloud shadow segmentation | |
CN116682105A (zh) | 一种毫米波雷达和视觉特征注意力融合的目标检测方法 | |
Fan et al. | Attention-modulated triplet network for face sketch recognition | |
CN112926500B (zh) | 一种结合头部和整体信息的行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |