CN114529794B

CN114529794B - 一种红外与可见光图像融合方法、系统及介质

Info

Publication number: CN114529794B
Application number: CN202210413734.7A
Authority: CN
Inventors: 李树涛; 刘锦洋; 佃仁伟; 韦晓辉; 刘海波
Original assignee: Hunan University
Current assignee: Hunan Xinxin Xiangrong Intelligent Technology Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-08
Anticipated expiration: 2042-04-20
Also published as: CN114529794A

Abstract

本发明公开了一种红外与可见光图像融合方法、系统及介质，本发明包括分别将红外图像I _a与可见光图像I _b分别输入深度特征提取网络D得到红外上采样特征图D _a与可见光上采样特征图D _b再拼接得到融合图像，将红外图像I _a与可见光图像I _b分别输入深度特征提取网络D提取多种尺度的图像特征，再通过掩码上采样网络Umask生成权重，将经过特征上采样网络Uorin生成重建图加权求和得到多种尺度的融合层；将融合图像输入特征上采样网络Uorin与多种尺度的融合层进行融合得到最终的融合图像。本发明生成图像具有可视化效果好，纹理信息明显，特征提取能力强，结构保持度高，无明显伪影，具有很强的普适性等优点。

Description

一种红外与可见光图像融合方法、系统及介质

技术领域

本发明涉及红外与可见光图像融合技术，具体涉及一种红外与可见光图像融合方法、系统及介质。

背景技术

红外与可见光图像融合旨在将红外图像与可见光图像整合成一张信息丰富的更高、可视化效果更强的图像，生成的图像可为后续的处理与决策提供有效的帮助。在进行可见光与红外融合任务时通常关注红外图像的目标与背景的差异性以及可见光的纹理信息，以及融合图像是否符合人类视觉感知。其在目标跟踪、目标检测、场景分析等领域中都展现出独有的优势。红外与可见光图像融合方式一般包括多尺度变换、稀疏表示、基于子空间、基于显著性等传统方式和基于神经网络的端到端的深度学习方式，其中神经网络方式主要划分为GAN网络、孪生网络、自编码网络等。传统的融合方式往往仅适用于单一任务的融合，局限性较强，且规则设计较为复杂。而采用神经网络的融合方式一般缺少通用的groundtruth或是reference metric，融合时各个特征的权重确定是个极大的难题，有的网络采用传统的图像处理方式提取权重辅助神经网络进行图像融合，有的采用对抗生成的方式自行确定权重，这种权重确定方式太过耗时或复杂。开展其他任务融合时通常需要对网络权重进行调整等操作，所以普通的神经网络使用起来较为复杂且结果通常不太理想。诸如deepfuse、densefuse等网络都属于自编码网络，基于自编码的网络由于其本身是根据图像的自身性质来确定特征提取过程，故具有很强的拓展性，可以应用于可见光与红外融合任务。但该网络编码解码过程所提取的中间特征不可控，且融合通常采用addition或是L1-norm等方式，这种融合权重设置过于简单，图像融合性能一般。U2fusion能同时较好的完成红外与可见光图像融合任务，网络主要针对损失函数进行设计，但其网络训练需要运用多组任务数据共同对网络进行优化，且需要使用预训练权重参与训练过程，对于输入图像进行简单的concat（连接）处理，因此网络特征提取过程较为简单，训练代价较大。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种红外与可见光图像融合方法、系统及介质，本发明能有效的进行可见光与红外融合，注重对图像纹理特征及图像特性的提取，提升了图像融合指标与人类视觉感知效果，能够有效生成红外与可见光融合图像，生成图像具有可视化效果好，纹理信息明显，特征提取能力强，结构保持度高，无明显伪影，输入图像受限性弱等优点，具有很强的普适性。

为了解决上述技术问题，本发明采用的技术方案为：

一种红外与可见光图像融合方法，包括：

1）分别将红外图像I _a与可见光图像I _b分别输入预先训练好的深度特征提取网络D提取多种尺度的图像特征，再将最小尺度的特征输入至掩码上采样网络Umask提取多种尺度的图像掩码，分别得到多种尺度的红外图像掩码特征图和可见光图像掩码特征图；分别将红外图像I _a与可见光图像I _b通过深度特征提取网络D提取得到的多种尺度的图像特征经过特征上采样网络Uorin重建图像，分别得到多种尺度的红外图像重建特征图和可见光图像重建特征图；将多种尺度的红外图像掩码特征图和可见光图像掩码特征图、红外图像重建特征图以及可见光图像重建特征图融合得到多种尺度的融合层；

2）分别将红外图像I _a与可见光图像I _b输入预先训练好的深度特征提取网络D，得到对应的红外上采样特征图D _a与可见光上采样特征图D _b；将红外上采样特征图D _a与可见光上采样特征图D _b拼接得到融合图像，再将融合图像输入特征上采样网络Uorin分别与多种尺度的融合层进行融合，从而得到最终的融合图像。

可选地，步骤1）中将多种尺度的红外图像掩码特征图和可见光图像掩码特征图、红外图像重建特征图以及可见光图像重建特征图融合得到多种尺度的融合层包括：针对多种尺度下的每一种尺度i，将尺度i下的红外图像掩码特征图作为红外图像重建特征图的权重，可见光图像掩码特征图作为可见光图像重建特征图的权重，将红外图像重建特征图、可见光图像重建特征图两者加权求和，得到尺度i下的融合层。

可选地，所述将红外图像重建特征图、可见光图像重建特征图两者加权求和的函数表达式为：

Fusion_layer _i= weight-Umask _a,i×layer-D _a , _i+ weight-Umask _b,i×layer-D _b,i，（1）

上式中，Fusion_layer _i为第i种尺度下的融合层输出的特征图，weight-Umask _a,i为第i种尺度下的红外图像掩码特征图，weight-Umask _b,i为第i种尺度下的可见光图像掩码特征图，D _a,_i为第i种尺度下的红外图像重建特征图，D _b,i为第i种尺度下的可见光图像重建特征图。

可选地，所述掩码上采样网络Umask包括四级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的上卷积层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构的输入，最后一级卷积结构与1×1的卷积相连接以输出最终的上采样结果。

可选地，所述特征上采样网络Uorin与掩码上采样网络Umask的网络结构完全相同。

可选地，所述深度特征提取网络D包括五级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的最大池化层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构或跳连接的输入，最后一级卷积结构不包含跳连接直接将特征输出。

可选地，所述多种尺度的融合层包括四种尺度下的融合层Fusion_layer ₁ ~ Fusion_layer ₄，其中任意第i种尺度下的融合层的大小与深度特征提取网络D中前4级卷积结构中第i级卷积结构的输出相同；步骤2）中将融合图像输入特征上采样网络Uorin分别与多种尺度的融合层进行融合的步骤包括：

2.1）将融合图像通过2×2的上卷积层得到大小为512的图像，再与相同大小的第4种尺度下的融合层Fusion_layer ₄拼接后得到的大小为1024的特征图作为特征上采样网络Uorin中第一级卷积结构的输入，通过第一级卷积结构提取得到512大小的第一级特征图；

2.2）将大小为512的第一级特征图通过2×2的上卷积层得到大小为256的图像，再与第3种尺度下的相同大小的融合层Fusion_layer ₃拼接后得到的大小为512的特征图作为特征上采样网络Uorin中第二级卷积结构的输入，通过第二级卷积结构提取得到256大小的第二级特征图；

2.3）将256大小的第二级特征图通过2×2的上卷积层得到大小为128的图像，再与第2种尺度下的相同大小的融合层Fusion_layer ₂拼接后得到的大小为256的特征图作为特征上采样网络Uorin中第三级卷积结构的输入，通过第三级卷积结构提取得到128大小的第三级特征图；

2.4）将128大小的第三级特征图通过2×2的上卷积层得到大小为64的图像，再与相同大小的第1种尺度下的融合层Fusion_layer ₁拼接后得到的大小为128的特征图作为特征上采样网络Uorin中第四级卷积结构的输入，通过第四级卷积结构提取得到64大小的第四级特征图；

2.5）将64大小的第四级特征图通过1×1的卷积得到最终的融合图像。

可选地，步骤1）之前还包括训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D的步骤，且训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D时，采用的红外图像I _a与可见光图像I _b的图像样本均为只包含亮度通道Y的灰度图像。

此外，本发明还提供一种红外与可见光图像融合系统，包括相互连接的微处理器和存储器，该微处理器中存储有被编程或配置以执行前述红外与可见光图像融合方法的步骤。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于被计算机设备执行以实施前述红外与可见光图像融合方法的计算机程序。

和现有技术相比，本发明主要具有下述优点：

1、本发明的图像融合能有效的进行可见光与红外图像融合，由于其采用了对解码后的图像进行重建的方式学习图像本身的结构与细节等信息，且网络本身适用于可见光与红外图像融合任务与其他类型图像融合任务，在变更图像融合任务时不需改变网络的结构和参数，具有很强的普适性和鲁棒性。

2、本发明利用图像掩码所包含的特性，对图像进行有指向性的使用多尺度深度特征提取网络提取图像特征，再基于构建图像显著性检测与图像重构网络相结合的联合优化机制，实现了像素级图像融合。

3、本发明采用以深度学习的方式确立的图像融合权重，无需人工设置融合权重，生成图像能更好的保留被融合图像本身的纹理特征、物理特性等，同时提升图像融合指标与可视化效果。

4、本发明在训练网络参数时，仅需给出一组带掩码的训练数据集作为输入，训练数据要求低。

5、本发明提出以显著性检测方式生成的特征作为融合权重的思路，依据图像所匹配的掩码生成该权重。同理采用诸如目标检测网络等具有编码过程和其他输出结果的网络，都可以产生本发明中神经网络图像显著性检测部分所提供的效果，但替换网络后生成权重对图像的关注点有所不同。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中使用的网络结构示意图。

图3为本发明实施例中深度特征提取网络D的网络结构示意图。

图4为本发明实施例中融合层进行融合的原理示意图。

图5为本发明实施例中权重和融合结果示意图。

图6为本发明实施例方法进行红外与可见光图像的融合实验对比结果。

具体实施方式

如图1所示，本实施例红外与可见光图像融合方法包括：

本实施例中，步骤1）中将多种尺度的红外图像掩码特征图和可见光图像掩码特征图、红外图像重建特征图以及可见光图像重建特征图融合得到多种尺度的融合层包括：针对多种尺度下的每一种尺度i，将尺度i下的红外图像掩码特征图作为红外图像重建特征图的权重，可见光图像掩码特征图作为可见光图像重建特征图的权重，将红外图像重建特征图、可见光图像重建特征图两者加权求和，得到尺度i下的融合层。

本实施例中，将红外图像重建特征图、可见光图像重建特征图两者加权求和的函数表达式为：

图2所示为本实施例中采用的掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D的结构示意图。

掩码上采样网络Umask是一个解码过程其对应的输出为图像掩码，他为图像编码过程提供基于掩码信息的引导，并且可以为后续融合作为权重合并进图像中。如图2所示，本实施例中掩码上采样网络Umask包括四级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的上卷积层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构的输入，最后一级卷积结构与1×1的卷积相连接以输出最终的上采样结果。

特征上采样网络Uorin也是一个解码过程，它与深度特征提取网络D构成一个完整的图像编码解码过程，用于复原图像。如图2所示，本实施例中特征上采样网络Uorin与掩码上采样网络Umask的网络结构完全相同，四级相同的卷积结构分别记为layer1～layer4。掩码上采样网络Umask使用2×2的上卷积层输出的张量与上级卷积结构提取出的深度特征合并构成下一级卷积结构的输入，通过掩码上采样网络Umask学习出对应的掩码与特征上采样网络Uorin学习出图像本身，以此确定网络的权重，即：卷积结构layer1～layer4对应的权重weight1～weight4。

深度特征提取网络D用于提取图像的多尺度特征，是一个编码过程，使得网络更好的学习图像本身的结构信息、细节特征等。如图2和图3所示，本实施例中深度特征提取网络D包括五级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的最大池化层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构或跳连接的输入，最后一级卷积结构不包含跳连接直接将特征输出。

如图4所示，本实施例中多种尺度的融合层包括四种尺度下的融合层Fusion_ layer ₁ ~ Fusion_layer ₄，其中任意第i种尺度下的融合层的大小与深度特征提取网络D中前4级卷积结构中第i级卷积结构的输出相同；步骤2）中将融合图像输入特征上采样网络Uorin分别与多种尺度的融合层进行融合的步骤包括：

2.2）将大小为512的第一级特征图通过2×2的上卷积层得到大小为256的图像，再与相同大小的第3种尺度下的融合层Fusion_layer ₃拼接后得到的大小为512的特征图作为特征上采样网络Uorin中第二级卷积结构的输入，通过第二级卷积结构提取得到256大小的第二级特征图；

2.3）将256大小的第二级特征图通过2×2的上卷积层得到大小为128的图像，再与相同大小的第2种尺度下的融合层Fusion_layer ₂拼接后得到的大小为256的特征图作为特征上采样网络Uorin中第三级卷积结构的输入，通过第三级卷积结构提取得到128大小的第三级特征图；

本实施例中，步骤1）之前还包括训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D的步骤，且训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D时，采用的红外图像I _a与可见光图像I _b的图像样本均为只包含亮度通道Y的灰度图像。本实施例扩展复杂场景显著性数据集（ECSSD）图像显著性检测数据集作为网络参数的训练数据，由于本网络中处理多通道与单通道图像对网络结构影响不大，故将该数据集转为单通道灰度图，并裁剪为128×128的像素大小作为输入，取全部输入数据的10%作为验证集。如需训练多通道输入网络或多通道输出网络，需将网络参数输入通道数（n_channels）、种类数（n_classes）更改为合适值。网络中参数设置为：ssim权重设置为100（参考步骤3.2）。学习率为1e-4，参数由回调函数（ReduceLROnPlateau）更新。训练时批次大小设置为32。训练轮数为10轮。

本实施例中，训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D时：对于掩码上采样网络Umask而言，将掩码上采样网络Umask得到的输出结果与标准掩码计算损失，使用BCEWithLogitsLoss二元交叉熵损失函数。对于特征上采样网络Uorin而言，将特征上采样网络Uorin得到的输出结果与原图计算损失，使用结构相似性SSIM与平均绝对误差MAE作为损失函数，其函数表达式为：

Loss _Uorin=weight _ssim×loss _ssim+loss _mae，（2）

上式中，Loss _Uorin为特征上采样网络Uorin的损失函数，weight _ssim为结构相似性SSIM的权重，loss _ssim为结构相似性SSIM，loss _mae为平均绝对误差MAE，本实施例中结构相似性SSIM的权重weight _ssim设置为[1、10、100、1000]。

为了进一步验证提出方法的有效性，本实施例中使用GTF、Densefuse以及FusionGAN三种典型融合方法作为对比，与本实施例方法进行红外与可见光图像的融合实验对比，如图5所示，图中第一行为两组红外图像和可见光图像的源图，其中：A1为第一组图像的红外图像的源图，B1为第一组图像的可见光图像的源图，C1为第二组图像的红外图像的源图，D1为第二组图像的可见光图像的源图；第二行分别为与两组红外图像和可见光图像的源图对应的权重（掩码）示意图，其中：A2为第一组图像的红外图像的源图对应的权重（掩码）示意图，B2为第一组图像的可见光图像的源图对应的权重（掩码）示意图，C2为第二组图像的红外图像的源图对应的权重（掩码）示意图，D2为第二组图像的可见光图像的源图对应的权重（掩码）示意图；最后一行为两组源图像的融合结果展示图与其细节图，其中：A3为第一组图像的融合结果展示图，B3为第一组图像的融合结果展示图中的细节图，C3为第二组图像的融合结果展示图，D3为第二组图像的融合结果展示图中的细节图。在实验中可明显发现网络所生成的权重在红外图像具有目标关注性、在可见光图像上能很好的保留可见光图像原有的场景特征。在融合图像中，同时保留了可见光图像的细节纹理特征与红外图像的热辐射特征。上述实验在NVIDIA GeForce RTX 2080 Ti GPU和3.7GHz Intel Corei9-10900X CPU上进行的，为了对本实施例像素级图像融合方法进行验证，本实施例中选择TNO数据集与马佳义等人发布的数据集中20张具有代表性的图像作为可见光与红外融合测试数据集。最终，得到的实验结果如表1和图6所示。

表1 本实施例方法和三种典型红外与可见光融合方法的客观性能指标。

上式中，指标Qabf 表示融合中获得的视觉信息的质量，指标SCD表示图像之间的差异相关和，指标MS-SSIM表示多尺度结构相似度测量，指标SSIM表示图像之间的结构相似性，指标EN表所对比图像的信息熵。从表1可以看出，本实施例提出的方法的所有客观评价指标都优于其它方法，这是因为采用了多尺度深度特征提取网络，结合提取出的权重信息，同时注重保存红外图像的热辐射信息与可见光的纹理细节信息，提升了融合图像的信息保留度，维持了图像结构特征等方面。图6为GTF、Densefuse以及FusionGAN三种典型融合方法以及本实施例方法的一共四种融合方法在红外图像与可见光图像的融合结果。其中，a为红外图像，b为可见光图像，c为GTF方法融合得到的红外与可见光融合图像，d为Densefuse方法融合得到的红外与可见光融合图像，e为FusionGAN方法融合得到的红外与可见光融合图像，f为本实施例提出的方法融合得到的红外与可见光融合图像。从图6可以看出，GTF、Densefuse以及FusionGAN三种典型融合方法融合得到的红外与可见光融合图像具有明显的瑕疵，而本实施例提出方法融合得到的红外与可见光融合图像的质量最好。

综上所述，本实施例方法利用多尺度深度特征提取网络对输入图像进行多尺度特征提取，对提出的特征使用多上采样网络联合优化方式，学习出对应图像的掩码和原图，生成网络权重体系。将所需融合的红外与可见光图像输入网络中，生成对应的红外特征融合权重与红外上采样特征和可见光特征融合权重与可见光上采样特征，这样以深度学习方式提取出的融合权重具有红外图像目标关注特性并且能很好的保留可见光图像场景特性。合并带权重红外与可见光特征，生成新的多尺度特征融合层。将多尺度深度特征提取网络提取的红外与可见光的底层特征合并后的结果与多尺度特征融合层输入至网络中，构成新的上采样网络，最后得到输出的融合图像。本实施例的优势是不需要多模图像进行训练，只需要在容易获得的自然图像显著性检测数据集上进行训练即可，该方法适用于不同类型的红外与可见光融合任务。通过与其他高性能红外与可见光融合方法对比，本实施例所采用的红外与可见光融合方法生成的融合图像具有更高的客观性能指标，且可视化效果更好，在应对不同类型的红外与可见光图像融合任务时，不需要改变网络的结构和参数，具有很强的普适性和鲁棒性。

此外，本实施例还提供一种红外与可见光图像融合系统，包括相互连接的微处理器和存储器，该微处理器中存储有被编程或配置以执行前述红外与可见光图像融合方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于被计算机设备执行以实施前述红外与可见光图像融合方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种红外与可见光图像融合方法，其特征在于，包括：

2）分别将红外图像I _a与可见光图像I _b输入预先训练好的深度特征提取网络D，得到对应的红外上采样特征图D _a与可见光上采样特征图D _b；将红外上采样特征图D _a与可见光上采样特征图D _b拼接得到融合图像，再将融合图像输入特征上采样网络Uorin分别与多种尺度的融合层进行融合，从而得到最终的融合图像；

所述深度特征提取网络D包括五级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的最大池化层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构或跳连接的输入，最后一级卷积结构不包含跳连接直接将特征输出；所述多种尺度的融合层包括四种尺度下的融合层Fusion_layer ₁~ Fusion_layer ₄，其中任意第i种尺度下的融合层的大小与深度特征提取网络D中前4级卷积结构中第i级卷积结构的输出相同；步骤2）中将融合图像输入特征上采样网络Uorin分别与多种尺度的融合层进行融合的步骤包括：2.1）将融合图像通过2×2的上卷积层得到大小为512的图像，再与相同大小的第4种尺度下的融合层Fusion_layer ₄拼接后得到的大小为1024的特征图作为特征上采样网络Uorin中第一级卷积结构的输入，通过第一级卷积结构提取得到512大小的第一级特征图；2.2）将大小为512的第一级特征图通过2×2的上卷积层得到大小为256的图像，再与相同大小的第3种尺度下的融合层Fusion_layer ₃拼接后得到的大小为512的特征图作为特征上采样网络Uorin中第二级卷积结构的输入，通过第二级卷积结构提取得到256大小的第二级特征图；2.3）将256大小的第二级特征图通过2×2的上卷积层得到大小为128的图像，再与相同大小的第2种尺度下的融合层Fusion_layer ₂拼接后得到的大小为256的特征图作为特征上采样网络Uorin中第三级卷积结构的输入，通过第三级卷积结构提取得到128大小的第三级特征图；2.4）将128大小的第三级特征图通过2×2的上卷积层得到大小为64的图像，再与相同大小的第1种尺度下的融合层Fusion_layer ₁拼接后得到的大小为128的特征图作为特征上采样网络Uorin中第四级卷积结构的输入，通过第四级卷积结构提取得到64大小的第四级特征图；2.5）将64大小的第四级特征图通过1×1的卷积得到最终的融合图像。

2.根据权利要求1所述的红外与可见光图像融合方法，其特征在于，步骤1）中将多种尺度的红外图像掩码特征图和可见光图像掩码特征图、红外图像重建特征图以及可见光图像重建特征图融合得到多种尺度的融合层包括：针对多种尺度下的每一种尺度i，将尺度i下的红外图像掩码特征图作为红外图像重建特征图的权重，可见光图像掩码特征图作为可见光图像重建特征图的权重，将红外图像重建特征图、可见光图像重建特征图两者加权求和，得到尺度i下的融合层。

3.根据权利要求2所述的红外与可见光图像融合方法，其特征在于，所述将红外图像重建特征图、可见光图像重建特征图两者加权求和的函数表达式为：

4.根据权利要求3所述的红外与可见光图像融合方法，其特征在于，所述掩码上采样网络Umask包括四级相同的卷积结构，每个卷积结构与其上级卷积结构之间使用2×2的上卷积层相连，且每一个卷积结构都重复应用两个3×3卷积层进行特征提取，并将提取出的特征作为下一级卷积结构的输入，每个卷积结构通过跳过连接并入与输入相同尺寸的编码结果以增强网络的学习能力，最后一级卷积结构与1×1的卷积相连接以输出最终的上采样结果。

5.根据权利要求4所述的红外与可见光图像融合方法，其特征在于，所述特征上采样网络Uorin与掩码上采样网络Umask的网络结构完全相同。

6.根据权利要求5所述的红外与可见光图像融合方法，其特征在于，步骤1）之前还包括训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D的步骤，且训练掩码上采样网络Umask、特征上采样网络Uorin以及深度特征提取网络D时，采用的红外图像I _a与可见光图像I _b的图像样本均为只包含亮度通道Y的灰度图像。

7.一种红外与可见光图像融合系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器中存储有被编程或配置以执行权利要求1～6中任意一项所述红外与可见光图像融合方法的步骤。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有用于被计算机设备执行以实施权利要求1～6中任意一项所述红外与可见光图像融合方法的计算机程序。