CN114022742B

CN114022742B - 红外与可见光图像融合方法、装置及计算机存储介质

Info

Publication number: CN114022742B
Application number: CN202111233479.XA
Authority: CN
Inventors: 徐东东; 王永成; 肖辉; 贲广利; 胡雪岩; 钱进; 罗佺佺
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2024-05-17
Anticipated expiration: 2041-10-22
Also published as: CN114022742A

Abstract

本发明提供一种红外与可见光图像融合方法，所述图像融合方法包括步骤：S1、获取红外与可见光图像的源图像数据集，并进行数据集扩增；S2、设计联合注意力机制，通过所述联合注意力机制提取扩增后的源图像数据集中的特征，并抑制噪声信息；S3、构建网络模型，所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块；S4、对所述网络模型进行训练与测试，将源图像输入训练后的网络模型，得到融合图像。通过本发明的图像融合方法获得的融合图像纹理细节丰富、红外目标显著，具有更好的视觉效果。

Description

红外与可见光图像融合方法、装置及计算机存储介质

技术领域

本发明属于图像融合技术领域，具体涉及一种红外与可见光图像融合方法、装置及计算机存储介质，更具体的涉及一种基于深度学习和联合注意力机制的红外与可见光图像融合方法、装置及计算机存储介质。

背景技术

随着计算机科学、集成电路系统以及传感器技术的发展，图像的获取方式不再局限于单一的传感器。不同传感器获得的不同模态图像可反映同一场景或物体的不同特征。将不同模态图像融合可对特征进行针对性互补，构建信息量丰富且可靠的融合图像。红外图像反映场景中不同物体的热辐射强度，不易受天气条件、环境因素等影响，但是图像的分辨率较低。可见光传感器根据物体反射率成像，图像中环境细节丰富，具有较高的解析度。但是可见光成像受光照条件等影响较大，存在探测距离较短、环境适应性差等缺点。将红外与可见光图像融合可获得目标显著和环境细节丰富的融合图像，有利于实现全天候隐藏目标探查、识别等军事任务，也可为公共安全、工业生产、天文图像分析等提供支持，具有重要研究意义。

目前，依据特征提取方式及融合实现过程的不同，图像融合方法主要分为传统融合方法和基于深度学习的融合方法两大类。传统方法发展较早，主要以多尺度变换、稀疏表示及其他空间域方法为主。由于其需要人为手动设计复杂的活动水平测量方法及融合规则，融合模型的灵活性和拓展性较差。为提高融合效果，大量的变换和分解计算严重影响融合效率，瓶颈问题逐渐显现。近年来，人工智能领域中深度学习方法在图像处理中优势逐步显现。基于卷积神经网络的融合方法具有较强的特征提取和表征能力，通过训练深层神经网络模型可自动实现对源图像特征的深度提取与融合，模型适应性强，计算效率较高，但同样面临多个问题。首先，由于无法获得融合图像标签，部分方法需要在其他数据集上采用有监督方式进行预训练，预训练结果对融合网络影响较大；其次，网络模型设计时，针对不同模态源图像的显著特征关注较少，融合图像视觉效果一般；此外，目前的融合网络损失函数设计无法实现更多的源图像信息保留至融合图像中。

发明内容

本发明为解决上述问题，提供一种基于深度学习和联合注意力机制的新型红外与可见光图像融合方法。

为实现上述目的，本发明采用以下具体技术方案：

本发明提供一种红外与可见光图像融合方法，所述图像融合方法包括步骤：

S1、获取红外与可见光图像的源图像数据集，并进行数据集扩增；

S2、设计联合注意力机制，通过所述联合注意力机制提取扩增后的源图像数据集中的特征，并抑制噪声信息；

S3、构建网络模型，所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块；

S4、对所述网络模型进行训练与测试，将源图像输入训练后的网络模型，得到融合图像。

优选地，所述源图像数据集包括源图像对，所述数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对。

优选地，设计的联合注意力机制中注意力子网络包括三个不同分支，每个分支均由通道注意力子网络和空间注意力子网络串联组成。

优选地，所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。

优选地，所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。

优选地，所述对网络模型进行训练包括通过混合损失函数对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。

优选地，所述混合损失函数包括结构相似性损失、感知损失和内容损失；

所述混合损失函数定义如下：

L＝αL_SSIM+βL_Per+θL_Con

L表示总损失，L_SSIM表示结构相似性损失，L_Per表示感知损失，L_Con表示内容损失；α表示结构相似性损失的比例系数，β表示感知损失的比例系数，θ表示内容损失的比例系数。

优选地，所述图像融合方法还包括步骤：

S5、对所述融合图像进行综合评价，所述综合评价包括主观评价和客观评价；

所述主观评价包括人类视觉系统的观测效果；

所述客观评价包括通过熵、空间频率、标准差、平均结构相似性、相关系数、差异相似度以及融合视觉信息保真度指标的数值结果进行衡量。

另一方面，本发明还提供一种图像融合装置，所述图像融合装置包括存储器以及与所述存储器耦接的处理器；

所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的图像融合方法。

再另一方面，本发明还提供一种计算机存储介质，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现上述的图像融合方法。

本发明所提供的基于深度学习和联合注意力机制的新型红外与可见光图像融合方法，构建了基于卷积神经网络的无监督端到端融合网络模型；引入了联合注意力机制和残差学习在通道维和空间维着重提取并保留源图像的显著特征；同时，在设计损失函数时将低层特征及高层特征相似性同时约束，保证网络模型训练的有效性。通过本发明的图像融合方法获得的融合图像纹理细节丰富、红外目标显著，具有更好的视觉效果。

附图说明

图1是本发明一种实施例中图像融合方法的流程图。

图2是本发明一种实施例中整个融合网络结构图。

图3是本发明一种实施例中通道注意力子网络结构图。

图4是本发明一种实施例中空间注意力子网络结构图。

图5是本发明一种实施例中感知损失计算过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

如图1和图2所示，图1为本发明一种实施例中基于深度学习和联合注意力机制的新型红外与可见光图像融合方法的流程图，图2为整个融合网络结构图。

在该具体实施例中，图像融合方法包括步骤：

具体实施例中，步骤S1中，由于公开可获取的源图像数据较少，所述获取红外与可见光图像的源图像数据包括从TNO数据集中收集的41组已配准的红外与可见光图像对。这些图像对尺寸一致，图像场景一致。即所述源图像数据集包括源图像对；进一步的，进行数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对，即扩增为小尺寸图像对，使得扩增后的图像对数量达到上万组，获得最为合适的扩增后的数据集大小，以便提高对网络模型训练的有效性。

具体实施例中，步骤S2中设计的联合注意力机制中注意力子网络包括三个不同分支，每个分支均由通道注意力子网络和空间注意力子网络串联组成；所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。不同的感受野可以为各种，具体优选的，所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。通过所设计的所述联合注意力机制提取扩增后的源图像数据集中的特征，并抑制噪声信息；具体的，每个分支中的空间注意力子网络采用不同的感受野进行卷积计算，可获得不同尺度图像特征。将三个不同尺度图像特征进行级联作为解码网络输入，可有效提升最终所获得的融合图像的质量。

本发明具体实施例中所设计的联合注意力机制不同于常规的注意力机制，本发明中注意力机制由通道注意力机制和空间注意力机制联合实现，既能让神经网络学会“看什么”，又能让神经网络理解“看哪里”，能有效提取并保留不同源图像中显著特征。使得最终获得的融合图像能够更好地体现红外目标及可见细节，图像视觉效果得到较大提升。而且，联合注意力机制由通道注意力及空间注意力串联组成，在通道维对特征重要性进行分配后，在空间维进一步计算各通道特征的有效性。不同注意力分支中，空间注意力采用不同的感受野进行特征提取，多尺度注意力特征级联后有助于解码输出信息丰富的融合图像。

具体实施例中，通道注意力子网络结构图如图3所示；通道注意力子网络的机制变换公式如式(1)所示：

F_C＝F_b*σ(MLP(AP(F_b))+MLP(MP(F_b))) 式(1)

其中，F_b表示输入通过融合网络中第一个卷积层后得到的基础特征图，AP和MP分别表示平均池化和最大池化，MLP表示多层感知网络，σ表示激活函数，F_C表示通道注意力特征，“*”表示相乘。

具体实施例中，空间注意力子网络结构图如图4所示；空间注意力子网络的机制变换公式如式(2)所示：

F_S＝F_C*σ(Conv(AP(F_C)；MP(F_C))) 式(2)

其中，Conv表示卷积计算，F_S表示空间注意力特征，“；”表示通道维级联。

所设计的联合注意力机制的变换公式如式(3)所示：

F_A＝F_b+F_S 式(3)

其中，F_A表示联合注意力特征，所设计的联合注意力机制中注意力子网络的每个分支注重不同尺度特征，在本具体实施例中用F_A(3*3)，F_A(5*5)和F_A(7*7)分别表示3个不同尺度的注意力特征。

具体实施例中，基于步骤S2中设计的联合注意力机制构建网络模型，即步骤S3，所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块。裁剪后的红外与可见光图像在通道维连接，通过图像输入模块输入至第一层卷积，将2通道源图像转换为64通道特征图输出。联合注意力机制编码模块将64通道特征图作为输入，分成三个分支提取不同尺度源图像显著特征。每个分支各输出64通道，将三个分支输出的特征图级联，形成192通道特征图作为卷积解码模块输入。解码模块通过四层卷积将特征图转换为单通道融合图像输出。其中，联合注意力机制编码模块和卷积解码模块中均通过跳跃连接引入残差学习，使得源图像信息得到有效保留。

本发明所构建的网络模型中引入联合注意力机制，能够重点关注不同源图像的突出信息，在特征提取过程中保留显著目标及纹理细节，抑制无用噪声，使得融合图像包含更多的有用特征，图像质量得到提升。

具体实施例中，在构建网络模型后，对网络模型进行训练与测试，即步骤S4，具体的，对网络模型进行训练包括通过混合损失函数对融合图像与源图像的相似性进行全面约束，具体的，全面约束包括对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。所述混合损失函数包括结构相似性损失、感知损失和内容损失。其中，结构相似性损失作为基础损失，感知损失通过约束感知网络输出，保证源图像和融合图像高层特征相似性，内容损失则从图像梯度和强度角度约束源图像和融合图像低层特征相似性。

具体的，混合损失函数定义如式(4)所示：

L＝αL_SSIM+βL_Per+θL_Con 式(4)

结构相似性损失定义如式(5)所示：

L_SSIM＝1-(w·SSIM(I,F)+(1-w)·SSIM(V,F)) 式(5)

其中，SSIM(～)为结构相似性损失计算，I，V，和F分别表示红外图像、可见光图像和融合图像，w表示比例系数。

感知损失计算过程示意图如图5所示；感知损失定义如式(6)所示：

其中，φ表示感知网络，Y_I和Y_F表示模拟的三通道源图像和三通道融合图像，j表示第几个卷积层，C_jH_jW_j表示C_j个尺寸为H_jW_j的特征图的参数总数。采用L2范数进行损失计算。

内容损失定义如式(7)所示：

其中，表示梯度计算，HW表示特征图尺寸。采用Frobenius范数进行损失计算。

具体实施例中，网络模型训练包括多个迭代周期，每个迭代周期结束后进行一组图像输出测试，通过网络模型多周期迭代训练与测试同步，获得最优的网络模型。具体的，每个迭代周期包括多次训练，每次均以小批量(Mini-Batch)方式进行输入，保证反向传播的有效性。训练时，选择Adam优化器对损失进行计算，该自适应优化算法具有较好的适应性和收敛效果。图像测试时，将10组未裁剪的图像对分别作为输入，采用端到端的方式得到测试图像输出。最终得到训练后的网络模型，直接将源图像输入训练后的网络模型，即可得到融合图像。

本发明构建的深度卷积神经网络模型为无监督端到端模型，无需在其他数据集上进行预训练，训练后的模型可根据输入源图像直接输出融合图像。

本发明具体实施例所提供的基于深度学习和联合注意力机制的新型红外与可见光图像融合方法，与传统方法相比，无需人工手动设计复杂的活动水平测量方法及融合规则，可通过训练深层卷积网络自动提取图像特征并融合。同时，联合注意力机制的引入，使得融合目标更为明确，突出特征得以保留，能有效提升融合图像质量及视觉效果。

进一步的具体实施例中，本发明的图像融合方法还包括对图像质量进行评价的步骤，通过对图像质量的综合评价，进一步优化本发明的图像融合方法，还可以由源图像输入训练和测试后的网络模型得到融合图像，并根据评价结果保留最优输出。

对图像质量进行评价具体包括步骤S5、对所述融合图像进行综合评价，所述综合评价包括主观评价和客观评价；所述主观评价包括人类视觉系统的观测效果；所述客观评价包括通过熵(EN)、空间频率(SF)、标准差(SD)、平均结构相似性(MSSIM)、相关系数(CC)、差异相似度(SCD)及融合视觉信息保真度(VIFF)的数值结果进行衡量。

以下通过具体测试进一步说明本发明的图像融合方法所带来的效果。

将本发明具体实施例提供的红外与可见光图像融合方法，在高性能GPU上进行训练与测试。硬件平台采用Intel E5-2690 V3处理器，TITAN V GPU，64G内存。软件平台基于Ubantu系统，版本为16.04，采用CUDA 9.0以及TensorFlow 1.12.0搭建软件环境，通过Python进行编程。

通过上述步骤进行训练与测试，采用多个客观评价指标将本发明具体实施例得到的融合图像与多种传统及深度学习融合方法得到的融合图像进行数值结果比较。表1为各对比方法缩写及名称介绍。

表1对比方法缩写及名称

表2为融合图像质量客观评价结果。熵、空间频率和标准差分别表示融合图像本身的信息量、清晰度及对比度；结构相似性能够综合衡量融合图像与源图像在亮度、对比度及结构特性上的相似性；相关系数和差异相似度可以表征融合图像与源图像所包含信息的相关性；融合视觉信息保真度是一种基于人眼视觉系统的感知性指标，该指标数据越高，表明融合图像越清晰、越自然、越利于人眼进行观察。表内数值为10组测试图像在各指标下计算的平均值，各指标数值越大代表越好。

表2融合图像质量客观评价结果

从表2中可以看出，在7个评价指标中，本发明所提供的图像融合方法在4个指标中取得最大值，尤其是融合视觉信息保真度指标较突出。这表明本发明所获得的融合图像质量较高，信息全面且视觉效果好。在其他3个指标中，本发明同样取得不错的数值结果。综合来看，本发明所提供的图像融合方法在红外与可见光图像融合中具有较大的优势。

为了实现上述的图像融合方法，本发明还提供了一种图像融合装置。本实施例的图像融合装置包括获取模块、计算模块以及处理模块。

其中，获取模块用于获取红外与可见光图像的源图像数据集。计算模块用于进行数据集扩增，并基于设计的联合注意力机制构建网络模型。处理模块用于对网络模型进行训练与测试，并将源图像输入训练后的网络模型，得到融合图像。

为了实现上述的图像融合方法，本发明还提供了另外一种图像融合装置，本实施例的图像融合装置包括处理器、存储器、输入输出设备以及总线。

该处理器存储器、输入输出设备分别与总线相连，该存储器中存储有计算机程序，处理器用于执行计算机程序以实现上述实施例所述的图像融合方法。

在本实施例中，处理器还可以称为CPU(Central Processing Unit，中央处理单元)。处理器可能是一种集成电路芯片，具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明还提供一种计算机存储介质，计算机存储介质用于存储计算机程序，计算机程序在被处理器执行时，用以实现如本发明提供的图像融合方法实施例中所述的方法。

本发明提供的图像融合方法实施例中所涉及到的方法，在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时，可以存储在装置中，例如一个计算机可读取存储介质。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制。本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种红外与可见光图像融合方法，其特征在于，所述图像融合方法包括步骤：

S2、设计联合注意力机制，通过所述联合注意力机制提取扩增后的源图像数据集中的特征，并抑制噪声信息；设计的联合注意力机制中注意力子网络包括三个不同分支，每个分支均由通道注意力子网络和空间注意力子网络串联组成；

S4、对所述网络模型进行训练与测试，将源图像输入训练后的网络模型，得到融合图像；

注意力子网络的机制变换公式如式（1）所示：

F _C = F _b * σ( MLP( AP( F _b) ) + MLP( MP( F _b) ) ) 式（1）

其中，F _b表示输入通过融合网络中第一个卷积层后得到的基础特征图，AP和MP分别表示平均池化和最大池化，MLP表示多层感知网络，σ表示激活函数，F _C表示通道注意力特征，“*”表示相乘；

空间注意力子网络的机制变换公式如式（2）所示：

F _S = F _C * σ( Conv ( AP( F _C) ; MP( F _C) ) )式（2）

其中，Conv表示卷积计算，F _S表示空间注意力特征，“；”表示通道维级联；

所设计的联合注意力机制的变换公式如式（3）所示：

F _A = F _b + F _S式（3）

其中，F _A表示联合注意力特征，所设计的联合注意力机制中注意力子网络的每个分支注重不同尺度特征，用F _A（3*3），F _A（5*5）和F _A（7*7）分别表示3个不同尺度的注意力特征；将3个不同尺度图像特征进行级联作为解码网络输入通道；

步骤S3中所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块。

2.如权利要求1所述的图像融合方法，其特征在于，所述源图像数据集包括源图像对，所述数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对。

3.如权利要求1所述的图像融合方法，其特征在于，所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。

4.如权利要求3所述的图像融合方法，其特征在于，所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。

5.如权利要求1所述的图像融合方法，其特征在于，对网络模型进行训练包括通过混合损失函数对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。

6.如权利要求5所述的图像融合方法，其特征在于，所述混合损失函数包括结构相似性损失、感知损失和内容损失；

所述混合损失函数定义如下：

L表示总损失，L _SSIM表示结构相似性损失，L _Per表示感知损失，L _Con表示内容损失；α表示结构相似性损失的比例系数，β表示感知损失的比例系数，θ表示内容损失的比例系数。

7.如权利要求1所述的图像融合方法，其特征在于，所述图像融合方法还包括步骤：

所述主观评价包括人类视觉系统的观测效果；

8.一种图像融合装置，其特征在于，所述图像融合装置包括存储器以及与所述存储器耦接的处理器；

所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1～7中任一项所述的图像融合方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1～7中任一项所述的图像融合方法。