CN115423734B

CN115423734B - 一种基于多尺度注意机制的红外与可见光图像融合方法

Info

Publication number: CN115423734B
Application number: CN202211359400.2A
Authority: CN
Inventors: 季克勤; 侯健生; 王鹏; 郑琳; 郑庆; 邱璐; 蔡建军; 李亮
Original assignee: Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-24
Anticipated expiration: 2042-11-02
Also published as: CN115423734A

Abstract

本发明提出了一种基于多尺度注意机制的红外与可见光图像融合方法；通过多尺度注意机制集成到生成对抗网络的生成器和判别器中来融合红外图像和可见光图像，多尺度注意机制不仅可以捕获全面的空间信息以帮助生成器关注可见光图像的背景细节信息和红外图像的前景目标信息，而且还限制判别器更多的关注区域而不是整个输入图像；方法中的生成器由两个分别捕获红外可见光注意力图的多尺度注意网络和一个图像融合网络组成，采用两个判别器强制融合结果分别保留红外图像和可见光图像中更多的注意信息，保留更丰富的场景信息，具有更强的对比度，融合图像的视觉效果更好。

Description

一种基于多尺度注意机制的红外与可见光图像融合方法

技术领域

本发明涉及图像融合领域，特别是涉及一种基于多尺度注意机制的红外与可见光图像融合方法。

背景技术

图像融合的概念在上世纪70年代被提出，属于信息融合技术。图像融合是指将两幅及以上来自同一场景的不同模式的图像融合到一起，获得一张信息更为全面的图像的技术，以此来提高单张图像的利用率。比如传统的红外图像主要通过红外传感器探测场景中目标向外辐射或反射出来的热辐射，在光照条件较差时具有很好的目标探测能力；传统的可见光图像有丰富的光谱信息、场景细节，空间分辨率较高，依赖光照成像，在光照条件差时，成像质量受到影响。因此利用红外与可见光图像的融合技术可以将红外图像与可见光图像的优点集于一张图片上，使图像具有分辨率和对比度都相对较高且不受能见度等影响。融合后的图像可以进一步应用于图像处理领域，如目标检测、图像分类等。

近几年来，越来越多的图像融合方法被提出。图像融合算法一般包括变化域融合算法、空间域融合算法以及基于深度学习的图像融合算法。空间域融合算法首先需要将输入的图像分解为小块或根据某种标准划分的区域，然后计算对应区域的显著度，最后将匹配度最大的区域合并形成融合图像；该算法主要适用于融合同一模态的图像。变换域图像融合算法首先通过多尺度几何分解将源图像变换到一些特征域，然后对多个输入图像的特征进行融合，最后对融合后的特征进行逆变换，生成融合图像；变换域图像融合算法的结果取决于特征变换，融合规则的设计。在近几年随着深度学习在计算机视觉领域的应用迅速发展，基于深度学习的图像融合算法也逐渐盛行。在深度学习中，卷积神经网络具有良好的特征提取功能和图像重建能力，联合自编码网络可以分离出数据的公有特征和私有特征，将两者相结合，并设计相应的融合规则来融合图像。

基于无监督学习的图像融合方法是当前深度学习图像融合研究的重要方向。典型的深度学习融合方法，如DeepFuse和DenseFuse，它们都通过训练得到的编码器和解码器对图像进行特征提取和重构，然后设计融合规则进行图像融合，缺点是没有实现特征的自适应融合，如专利公布号为CN111709903B、CN111784619A、CN111861960A以及CN112288663A的专利所示。

在专利CN111709903B中：将红外、可见光源图像输入生成器初步融合，然后输入至判别器中，输出对应的单一可能性判别值；将融合图像与输入源图像间生成器损失及融合图像与可见光图像间的判别器损失相结合优化生成器，并通过反向传播调整生成器网络权重值及偏置值；利用融合图像及可见光图像间判别器损失优化判别器，将可见光图像的其他细节信息添加到融合图像中；经多次迭代训练得到性能稳定的网络模型；将多对未裁剪的源图像对分别输入至训练后的生成器网络可得到对应融合图像。

在专利CN111784619A中：使用混合l1-l0分解模型将图像分解结果作为双层自编码网络的输出，使得双层自编码网络自备层分解能力。

在专利CN111861960A中：采用结构张量计算得到源图像的融合梯度，利用局部梯度相似性使融合梯度方向更加精确；其次，根据像素强度的比较，将源图像重构为显著图和非显著图，并计算用于甄别和保留非显著图有效细节的权重图；再者，基于源图像的梯度特征和像素强度信息，建立图像融合模型；最后，采用变分法求解优化模型以得到融合图像。

在专利CN112288663A中：通过构建的融合网络包括两个特征提取子网络以及融合网络，实现了端到端融合图像，避免了传统融合方法的人工设计的困难。

在现有技术中，都是基于深度学习的图像融合方法仅仅将网络的最后一层用于图像融合，忽略了中间特征的重要性，或者仅使用单一判别器；因此提出利用多尺度注意机制和生成式对抗学习网络（GAN）通过生成器与判别器之间的对抗力，获得融合图像的方法，使获得的图像包含更多的红外图像和可见光图像的细节信息。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于多尺度注意机制的红外与可见光图像融合方法。

为了解决上述问题，本发明采用如下技术方案：

一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，包括如下步骤：

步骤1：从设定的数据集中获取红外与可见光的源图像；获得的红外源图像与可见光源图像相互对应；

步骤2：对获取的红外源图像以及可见光源图像进行预处理，获得训练集trainDatas；

步骤3：建立基于多尺度注意力机制和生成对抗网络的红外与可见光图像融合模型框架；所述红外与可见光图像融合模型框架包括生成器

、可见光判别器

以及红外判别器

；

其中生成器

，用于将红外图像和可见光图像进行融合，得到融合图像；

可见光判别器

，用于获取融合图像和可见光图像的Wasserstein距离；

红外判别器

，用于获取融合图像和红外图像的Wasserstein距离；

步骤4：根据设置的参数，获得损失函数；通过设置损失函数保证融合后的图像尽量保留更多的源图像的有效信息；

步骤5：根据trainDatas训练集和损失函数对红外与可见光图像融合模型框架进行训练，获得红外可见光融合模型；

步骤6：将待融合的红外图像和可见光图像输入步骤5中获得的红外可见光模型，获得融合图像，结束步骤。

进一步的，所述步骤2中的红外源图像和可见光源图像的预处理过程包括，首先选择设定数量的红外源图像与可见光源图像对，然后将源图像进行裁切，裁切成设定大小的源图像块；在源图像裁切过程中，相对应的红外源图像和可见光源图像的裁切位置一致。

进一步的，所述步骤3中的生成器中包括多尺度注意模块以及融合模块。

进一步的，所述多尺度注意模块通过其内设置的多尺度注意网络结构提取图像的多尺度特征，然后计算多尺度特征对应的权重数组，根据权重保留图像中的重要图像特征，组成注意力图像；该处的权重数组为多尺度网络结构在模型训练过程中获取的；多尺度注意网络结构包括4个3*3的卷积核以及批量归一化层核PRelu激活函数；多尺度注意网络结构的输入通道数量设置为1个，输出通道的数量设置为32个。

进一步的，所述多尺度注意网络结构被训练学习第s个集合尺度的第k个特征

的权重

，公式如下：

其中，

表示sigmoid函数；

表示大小为

的全连接层；

表示执行全局平均池操作的结果；k为数值，表示第k个特征；根据对所有特征的权重计算获得多尺度注意模型中的权重数组。

进一步的，所述融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合；融合模块中设置有融合网络结构，融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。

进一步的，所述可见光判别器

以及红外判别器

的内部结构相同，均采用7层的卷积神经网络，在该卷积神经网络中，前6层的卷积层设置为3*3的卷积核，步长设置为1和2 交替；最后一层设置为全连接层，在全连接层中将前6层卷积后获得的特征进行整合，计算获得输入图像是源图像块的概率，该概率数值表示源图像块与融合图像之间的 Wasserstein距离。

进一步的，所述步骤4中的损失函数包括生成器损失函数

以及判别器共同损失函数

；其中生成器损失函数

包括内容损失

、对抗损失

以及注意力损失

。

进一步的，所述生成器损失函数

的公式如下所示：

其中，

以及

均为设定的权重数值；

所述内容损失

通过Frobenius范数来约束融合图像的像素强度信息，通过TV 范数计算融合图像的梯度信息；内容损失

的公式如下所示：

其中，

表示所有元素之和；

表示下采样算子，由于保留了低频信息，下采样算子由两个平均池层实现；

表示Frobenius范数；

表示TV范数；

表示控制权衡，设置为1.2；

表示生成器生成的融合图像的tensor值；

表示源图像的tensor值；

所述注意力损失

如下式所示：

其中，

表示注意力图像的高度，

表示注意力图像的宽度；

表示将融合图像作为输入可见光判别器

的注意力图像；

表示将可见光源图像块作为输入可见光判别器

的注意力图像；

表示将融合图像作为输入红外判别器

的注意力图像；

表示将红外图像作为输入红外判别器

的注意力图像；

对抗损失

的定义如下所示：

其中，

表示融合图像；

表示融合图像的数据分布；

表示融合图像

和红外源图像的概率分布距离的期望值；

表示融合图像

和可见光源图像的概率分布距离的期望值。

进一步的，所述判别器共同损失函数

包括红外判别器损失函数

以及可见光判别器损失函数

，其中定义如下所示：

其中，

表示红外源图像块和融合图像的 Wasserstein距离估计，同理，

表示可见光源图像块和融合图像的 Wasserstein距离估计；

和

分别是将红外源图像和融合图像输入红外判别器的结果；

和

分别是将可见光源图像和融合图像输入可见光判别器的结果；

和

分别表示红外和可见光判别器网络的正则化的梯度惩罚；

和

表示红外和可见光源图像的数据分布；

表示正则化参数。

本发明的有益效果为：

通过设置生成器和判别器采用多尺度注意力机制，帮助生成器感知红外和可见光图像中最具辨别力的区域，同时约束判别器更多的关注注意区域而不是整个输入图像，提高融合图像的效率，保证图像融合的效果；

通过设置可见光和红外两个判别器，分别用于获取输入图像与可见光图像，以及输入图像与红外图像之间的差异，使得融合图像能够同时保留红外图像与可见光图像的代表性特征，可以避免由于单一对抗结构造成的信息损失，进而使得生成的融合结果更加准确可靠；

通过在判别器中设置Wasserstein距离代替传统的JS散度来计算融合图像和源图像之间的差异，提高GAN训练的稳定性。

附图说明

图1为本发明实施例一的整体实施流程框图；

图2为本发明实施例一的图像融合模型框架的网络结构图；

图3为本发明实施例一的生成器网络结构图；

图4为本发明实施例一的判别器网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一：

如图1~图4所示，一种基于多尺度注意机制的红外与可见光图像融合方法，包括如下步骤：

步骤1：从设定的数据集中获取红外与可见光的源图像；需要说明的是，获得的红外源图像与可见光源图像是相互对应的；

步骤2：对获取的红外源图像以及可见光源图像进行预处理，获得更加丰富的训练集（trainDatas）；其中预处理包括裁切、合并等图像处理方法；

、可见光判别器

以及红外判别器

；

其中生成器

，用于将红外图像和可见光图像进行融合，得到融合图像；

可见光判别器

，用于获取融合图像和可见光图像的Wasserstein距离；

红外判别器

，用于获取融合图像和红外图像的Wasserstein距离；

所述步骤1中获取的红外与可将光图像对，在本例中为从TNO数据集中选取的红外和可见光图像对。近年来，红外和可见光图像数据集还包括INO视频数据集、RoadScene数据集以及多光谱数据集等。其中TNO数据集是目前IVIF最常用的公共可用数据集，其中包含261对白天和夜间的图像；因此本例选用TNO数据集。

所述步骤2中的红外源图像和可见光源图像的预处理过程包括，首先选择设定数量的红外源图像与可见光源图像对，并将源图像进行裁切，裁切成设定大小的源图像块，需要注意的是，在源图像裁切过程中，相对应的红外源图像和可见光源图像的裁切位置一致。在本例中，从TNO数据集中选择49对红外源图像与可见光源图像，共计98张源图像，并将源图像裁切为120*120像素的源图像块，最终获得15000对源图像块，共计30000块源图像块。

所述步骤3中的红外与可见光图像融合模型框架的网络结构如图2所示。如图3所示，图3为生成器网络结构图，在图3中3*3 Conv表示3*3的卷积核，PReLU表示一种批量归一化层核激活函数，其中生成器中包括多尺度注意模块以及融合模块。多尺度注意模块中设置有多尺度注意网络结构，多尺度注意模块用于提取图像的多尺度特征，然后通过权重数组计算，根据权重保留图像中的重要的图像特征，组成注意力图像，需要说明的是，该处的权重数组为多尺度网络结构在模型训练过程中获取的；多尺度注意网络结构包括4个3*3的卷积核以及批量归一化层核PRelu激活函数；多尺度注意网络结构的输入通道数量设置为1 个，输出通道的数量设置为32个。在实施过程中，通过多尺度注意模型提取图像中的重要的图像特征，然后将不同尺度的图像特征合并，以捕获所有重要的信息；为了选择性地关注重要特征而忽略不相关的特征，训练多尺度注意网络结构学习权重数组来重新定义上采样特征，通过逐元素加法计算每个尺度的多尺度注意力图像；受类激活图CAM的启发，多尺度注意网络结构被训练学习第s个集合尺度的第k个特征

的权重

，公式如下：

其中，

表示sigmoid函数；

表示大小为

的全连接层；

表示执行全局平均池操作的结果；k为数值，表示第k个特征。根据对所有特征的权重计算获得多尺度注意模型中的权重数组。

然后，将每个注意力图的归一化结果按通道串联，最后通过注意力映射操作捕获注意力映射。

融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合，得到融合图像；需要说明的是，若注意力图像通过红外源图像块获得，则在融合模块中将该注意力图像与对应的可见光源图像块进行融合，若注意力图像通过可见光源图像块获得，则在融合模块中将该注意力图像与对应的红外源图像块进行融合，获得融合图像。融合模块中设置有融合网络结构，融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。

如图4所示，图4为判别器网络结构图，其中Conv表示卷积核，LeakyReLu表示一种激活函数，FC表示全连接层，Wasserstein距离表示判别器输出的对应的融合图像和可见光图像的Wasserstein距离或者融合图像和红外图像的Wasserstein距离。所述可见光判别器

以及红外判别器

的内部结构相同，均采用7层的卷积神经网络，在该卷积神经网络中，前6层的卷积层设置为3*3的卷积核，步长设置为1和2交替；最后一层设置为全连接层，在全连接层中将前6层卷积后获得的特征进行整合，计算获得输入图像是源图像块的概率，该概率数值表示源图像块与融合图像之间的Wasserstein距离。在本例中，通过设置双判别器结构，包括可见光判别器

以及红外判别器

，分别用于区分输入的图像与可见光源图像块以及输入的图像与红外源图像块之间的差异，其中输入的图像为生成器中获得的融合图像。需要说明的是可见光判别器

以及红外判别器

具备相同的结构和相同的处理流程，但是它们的参数是相互独立的。在实施过程中，将融合图像和可见光源图像块或者红外源图像块输入到可见光判别器

以及红外判别器

，获得的Wasserstein距离小于设定值，则表示生成器产生的融合图像与红外源图像块和可见光源图像块相接近，融合图像中保留了红外源图像块和可见光源图像块的特征，则生成器采用对应的学习获得的权重数组。

所述步骤4中的损失函数包括生成器损失函数

以及判别器共同损失函数

。其中生成器损失函数

包括内容损失

、对抗损失

以及注意力损失

，设置损失函数的目的是使得生成器能够学习源图像的热辐射信息和纹理信息。生成器损失函数

的公式如下所示：

其中，

以及

为设定的权重数值，在本例中

设置为1，

设置为0.6。

所述内容损失

的公式如下所示：

其中，

表示所有元素之和；

表示Frobenius范数；

表示TV范数；

表示控制权衡，在本例中设置为1.2；

表示生成器生成的融合图像的tensor值；

表示源图像的tensor 值。

通过将多尺度注意力机制引入判别器，从输入图像中提取注意力图像；当判别器不能区分融合图像与源图像时，判别器的两个输入应具有相同的关注区域；注意力损失

函数对融合图像的注意力图像与可见光源图像或红外源图像的注意力图像之间的差异进行了惩罚。所述注意力损失

如下式所示：

其中，

表示注意力图像的高度，

表示注意力图像的宽度；

表示将融合图像作为输入可见光判别器

的注意力图像；

表示将可见光源图像块作为输入可见光判别器

的注意力图像；

表示将融合图像作为输入红外判别器

的注意力图像；

表示将红外图像作为输入红外判别器

的注意力图像；

所述对抗损失

源自生成器

和判别器之间的博弈，在本例中采用了红外判别器

和可见光判别器

两部分，因此对抗损失

也包括两部分；其中对抗损失

的定义如下所示：

其中，

表示融合图像；

表示融合图像的数据分布；

表示融合图像

和红外源图像的概率分布距离的期望值；

表示融合图像

和可见光源图像的概率分布距离的期望值。

所述判别器共同损失函数

包括红外判别器损失函数

以及可见光判别器损失函数

，其中定义如下所示：

其中，

表示红外源图像块和融合图像的 Wasserstein距离估计，同理，

表示可见光源图像块和融合图像的 Wasserstein距离估计；

和

分别是将红外源图像和融合图像输入红外判别器的结果；

和

和

分别表示红外和可见光判别器网络的正则化的梯度惩罚；

和

表示红外和可见光源图像的数据分布；

表示正则化参数。在本例中分别设置两个判别器的目的是为了减少融合图像中的信息丢失，而判别器的对抗损失函数的作用是让生成器学习红外图像和可见光图像的结构和纹理信息。

所述步骤5中模型训练的步骤包括：

步骤51：将预处理好的训练集trainDatas连接到生成器

、可见光判别器

和红外判别器

；

步骤52：生成器

根据输入训练集中的图像对，输出融合图像；

步骤53：可见光判别器

获取融合图像和训练集中对应的可见光源图像块，获取可见光源图像块与融合图像的Wasserstein距离；若可见光判别器

获取的Wasserstein距离小于设定值，则认为融合图像中包含了可见光源图像块的特征，进入下一步骤；否则，调节生成器

中的权重数组，返回步骤52；

步骤54：红外判别器

获取融合图像和训练集中对应的红外源图像块，获取红外源图像块与融合图像的Wasserstein距离；若红外判别器

获取的Wasserstein距离小于设定值，则认为融合图像中包含了红外源图像块的特征，结束步骤；否则，调节生成器

中的权重数组，返回步骤52。

需要说明的是，在步骤54完成后，本例中还会对两个判别器获取的最终Wasserstein距离比较，若差值超过设定值，则认为融合图像倾向于Wasserstein距离较小的源图像，其中如果倾向于红外源图像则会训练设定次数的可见光判别器，表现为循环步骤52和步骤53设定次数；如果倾向于可见光源图像则会训练设定次数的红外判别器，变现为循环步骤52和步骤54设定次数。

所述步骤6中待融合的红外图像和可见光图像为同一场景的已经配准过的红外图像与可见光图像。

在实施过程中，通过设置生成器和判别器采用多尺度注意力机制，帮助生成器感知红外和可见光图像中最具辨别力的区域，同时约束判别器更多的关注注意区域而不是整个输入图像，提高融合图像的效率，保证图像融合的效果；通过设置可见光和红外两个判别器，分别用于获取输入图像与可见光图像，以及输入图像与红外图像之间的差异，使得融合图像能够同时保留红外图像与可见光图像的代表性特征，可以避免由于单一对抗结构造成的信息损失，进而使得生成的融合结果更加准确可靠；通过在判别器中设置Wasserstein距离代替传统的JS散度来计算融合图像和源图像之间的差异，提高GAN训练的稳定性。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，包括如下步骤：

、可见光判别器

以及红外判别器

；

其中生成器

，用于将红外图像和可见光图像进行融合，得到融合图像；

可见光判别器

，用于获取融合图像和可见光图像的Wasserstein距离；

红外判别器

，用于获取融合图像和红外图像的Wasserstein距离；

步骤6：将待融合的红外图像和可见光图像输入步骤5中获得的红外可见光模型，获得融合图像，结束步骤；

所述步骤4中的损失函数包括生成器损失函数

以及判别器共同损失函数

；其中生成器损失函数

包括内容损失

、对抗损失

以及注意力损失

；

所述生成器损失函数

的公式如下所示：

其中，

以及

均为设定的权重数值；

所述内容损失

通过Frobenius范数来约束融合图像的像素强度信息，通过TV范数计算融合图像的梯度信息；内容损失

的公式如下所示：

其中，

表示所有元素之和；

表示下采样算子；

表示Frobenius范数；

表示TV范数；

表示控制权衡，设置为1.2；

表示生成器生成的融合图像的tensor值；

表示源图像的tensor值；

所述注意力损失

如下式所示：

其中，

表示注意力图像的高度，

表示注意力图像的宽度；

表示将融合图像作为输入可见光判别器

的注意力图像；

表示将可见光源图像块作为输入可见光判别器

的注意力图像；

表示将融合图像作为输入红外判别器

的注意力图像；

表示将红外图像作为输入红外判别器

的注意力图像；

对抗损失

的定义如下所示：

其中，

表示融合图像；

表示融合图像的数据分布；

表示融合图像

和红外源图像的概率分布距离的期望值；

表示融合图像

和可见光源图像的概率分布距离的期望值。

2.根据权利要求1所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述步骤2中的红外源图像和可见光源图像的预处理过程包括，首先选择设定数量的红外源图像与可见光源图像对，然后将源图像进行裁切，裁切成设定大小的源图像块；在源图像裁切过程中，相对应的红外源图像和可见光源图像的裁切位置一致。

3.根据权利要求1所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述步骤3中的生成器中包括多尺度注意模块以及融合模块。

4.根据权利要求3所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述多尺度注意模块通过其内设置的多尺度注意网络结构提取图像的多尺度特征，然后计算多尺度特征对应的权重数组，根据权重保留图像中的重要图像特征，组成注意力图像；该处的权重数组为多尺度网络结构在模型训练过程中获取的；多尺度注意网络结构包括4个3*3的卷积核以及批量归一化层核PRelu激活函数；多尺度注意网络结构的输入通道数量设置为1个，输出通道的数量设置为32个。

5.根据权利要求4所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述多尺度注意网络结构被训练学习第s个集合尺度的第k个特征

的权重

，公式如下：

其中，

表示sigmoid函数；

表示大小为

的全连接层；

6.根据权利要求3所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述融合模块用于对多尺度注意模块获取的包括重要的图像特征的注意力图像与对应的红外源图像块或者可见光源图像块进行融合；融合模块中设置有融合网络结构，融合网络结构包括4个3*3的卷积核以及批量归一化层PRelu激活函数。

7.根据权利要求2所述的一种基于多尺度注意机制的红外与可见光图像融合方法，其特征在于，所述可见光判别器