CN111709902A

CN111709902A - 基于自注意力机制的红外和可见光图像融合方法

Info

Publication number: CN111709902A
Application number: CN202010436324.5A
Authority: CN
Inventors: 罗晓清; 张战成; 刘子闻
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-25
Anticipated expiration: 2040-05-21
Also published as: CN111709902B

Abstract

基于自注意力机制的红外和可见光图像融合方法，属于图像融合领域。主要解决图像融合时忽略人眼主观感受的重要性问题。其实现步骤是：1)搭建基于自注意力机制的深度自编码网络结构，以端到端的方式对特征提取，融合规则和重构规则同时学习；2)将编码层不同分支的特征图输入自注意力机制获得注意力图，并采用均值融合策略获得输出特征图；3)设计内容损失和细节损失两类损失函数，分别用于突出红外目标信息，锐化边缘和更好地利用源图像中的纹理细节；4)训练神经网络，并对自注意力机制进行可视化以调整网络结构和损失函数。本发明能通过学习注意力图以最佳方式分配注意力，获取图像关键信息，改善视觉效果，提高融合图像的质量。

Description

基于自注意力机制的红外和可见光图像融合方法

技术领域

本发明属于图像融合领域，涉及一种基于自注意力机制的红外和可见光图像融合方法，在军事监测、视频监控和计算机视觉等领域中有广泛的应用。

背景技术

红外和可见光图像的融合在视频监控、物体检测和目标识别等领域有重要意义。红外传感器能够捕获场景的热信息，对于外界环境具备较强的抗干扰能力和目标识别能力。但在成像效果，信噪比等方面表现一般，易缺失背景细节，分辨率较低。可见光传感器可获取图像的几何和纹理细节以及色彩信息，利用光的反射率成像，因此具备光谱信息丰富，分辨率高，动态范围广等特点。但在恶劣天气情况下，由于其穿透能力变弱，易丢失重要目标。红外和可见光图像融合的目标是整合红外传感器和可见光传感器获取图像的优势合成理想的融合图像，可以同时获得的突出的目标与清晰的背景。

在过去一段时间，一些经典的图像融合算法被提出，主要包括多尺度变换、稀疏表示、神经网络和子空间等。基于多尺度变换融合算法是图像融合算法中应用最为广泛的，具体地，首先将源图像转换至变换域，然后将分解系数与预先设计的融合规则合并，最后通过执行相应的逆变换获得融合图像。但基于多尺度变换方法需手工设计融合规则，应用场景受限。最近，深度学习技术广泛应用于各种图像融合任务，并在图像融合领域取得巨大的成功。深度学习作为一种特征学习方法，具有强大的数据建模能力，可以从数据中提取特征信息，把原始数据通过简单非线性模型转换为更高层次，更加抽象的表达。深度学习具备自适应性，避免了手工设计的复杂性，能够在深度网络权重的迭代过程中提高特征的提取和学习能力。然而，目前基于深度学习的融合方法存在以下四个挑战：(1)大部分采用有监督学习策略，图像标签数据的精确度直接影响了分类的精确度，从而影响了融合规则和融合效果；(2)仅利用最后一层的输出设计融合策略，这忽略了中间层的重要信息；(3)卷积神经网络一般是局部操作，受到感受野大小的限制很难提取到图像中长距离依赖；(4)忽略了人眼主观感受对融合结果的重要性。

注意力机制作为神经网络结构的重要组成部分，通过模仿生物观察行为的内部过程，将内部经验和外部感觉对齐从而增加部分区域的观察精细度，在自然语言处理、统计学习和计算机视觉等领域有着广泛的应用。自注意力机制即内注意力，是对注意力机制的改进，通过关注同一序列中所有位置来计算序列中每个位置的响应程度，这有利于降低对训练数据的依赖性和获取特征内部相关性。自注意力机制不仅能够捕捉全局的信息来获得更大的感受野和上下文信息，而且将所有位置的特征加权和作为单个位置的注意力度，在建立长距离依赖模型和提高计算效率间实现平衡。本发明提出了基于自注意力机制的红外和可见光图像融合方法，基于深度自编码网络设计融合策略，无需标签数据，结合自注意力机制设计均值融合策略，设计了内容损失和细节损失两类损失函数，分别用于强化红外显著目标，锐化边缘和更好地利用源图像中的纹理细节，并根据注意力图进行损失函数的调整，获得了较优的融合结果，提高了融合图像的质量。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于自注意力机制的红外和可见光图像融合方法，以解决忽略人眼主观感受的问题，通过内容损失和细节损失驱动自注意力单元获得关键信息，增强图像清晰度，改善视觉效果，提高融合图像的质量。本发明解决其问题所采用的技术方案如下：

基于自注意力机制的红外和可见光图像融合方法，步骤如下：

1)搭建基于自注意力机制的深度自编码网络结构，以端到端的方式对特征提取、融合规则和重构规则同时学习；

本发明的深度自编码网络包括编码层、融合层和解码层。编码层包含两个分支，每个分支包括3个卷积核大小3*3的可训练卷积层，每个卷积层后接Relu层。融合层将编码层输出的特征图分别输入三个卷积核大小为1*1的可训练卷积层，通过矩阵运算与Softmax操作获得输入图像的注意力图，并结合编码层的输出利用均值加权策略融合两个分支。解码层与编码层形成镜面对称，包含四个卷积核大小为3*3的可训练卷积层，最后一个卷积层用于输出与源图像大小相同的融合图像。

2)将编码层不同分支的特征图输入自注意力机制获得注意力图，并采用均值融合策略融合注意力图和编码层输出特征图；

2.1)获取编码层不同分支的注意力图。

本发明定义深度自编码网络编码层的输出为x∈R^C×H，其中，C为编码层输出特征图的通道数，H为编码层输出特征图每个通道特征点的数量。

首先将x转换至s和o的特征空间中。

s(x_i)＝W_sx_i，o(x_j)＝W_ox_j

其中，W_s和W_o是两个1×1卷积层的可学习权重矩阵，

为转换后特征图的通道数。

接着计算s(x_i)与o(x_j)的自相关矩阵，并对其进行归一化处理。

其中，φ(i,j)＝s(x_i)^To(x_j)，θ_j,i表示第j个位置对第i个位置的影响程度。

最后计算自注意力机制的输出。

其中，g(x_i)为注意力机制中特征空间之一，以对特征图中每个位置建立长距离依赖。W_g为可学习权重矩阵，

Z为自注意力机制输出的注意力图。

2.2)采用均值融合策略融合注意力图和编码层输出特征图。

在本发明中，编码层的输出为f_k，k＝1是源图像I，k＝2是源图像V。将f_k输入注意力机制可分别得到不同源图像的注意力图Z₁和Z₂。最后结合编码层的输出使用加权平均策略获得融合层的输出，以输入解码层重构得融合图像。

其中，y_i表示融合层输出的第i个特征图。

3)设计内容损失和细节损失，分别用于突出红外目标信息，锐化边缘和更好地利用源图像中的纹理细节；

本发明方法中深度自编码网络的损失包括内容损失与细节损失，内容损失包括结构相似度L_ssim、像素级损失L_mse和梯度损失L_gradient，细节损失为感知损失L_perceptual。具体定义如下：

内容损失将融合图像限制为像素强度与红外图像相似，梯度变化与可见光图像相似，并对两者的相似程度进行均值补充。细节损失目的在于将更多的细节信息融入融合图像中。我们将结构相似度，像素级损失和梯度损失定义为内容损失，将感知损失定义为细节损失，并使用α,β,γ,μ权重参数来平衡不同损失函数。

3.1)计算融合图像与源图像的结构相似度。

首先计算融合图像F和输入图像X间的结构相似度。人类的视觉系统对结构损失和变形较为敏感，因此可用结构相似度(SSIM)以更加直观的方法比较失真图像和参考图像的结构信息。传统结构相似度SSIM主要由三部分组成：相关度、亮度和对比度，这三个部分的乘积是融合图像的评估结果。

式中，SSIM(X,F)表示源图像X和融合图像F的结构相似度；μ_x和σ_x表示图像X每个图像块的均值和标准差；μ_f和σ_f表示图像F每个图像块的均值和标准差；σ_xf表示图像X和图像F之间的协方差；C1，C2和C3是用于算法稳定的参数。

接着在传统结构相似度的基础上对融合图像与多个源图像间的结构相似度采用均值融合策略：

其中，I和V是不同的输入源图像，F是融合图像，SSIM(I,F|ω)和SSIM(V,F|ω)分别为图像I，图像V与融合图像F的结构相似度，sim(I,V,F|ω)计算如下：

式中，σ_IF表示源图像I和融合图像F的协方差，σ_VF表示源图像V和融合图像F的协方差，ω表示图像上的滑窗块。

3.2)计算融合图像和源图像的像素级损失。

首先计算融合图像F和源图像I间的均方误差。均方误差(MSE)是用于度量源图像和融合图像之间的差异程度，均方误差的值和融合图像质量成反比关系，其值越小，融合图像质量越高：

其中I表示输入的源图像，F表示网络最终输出的融合图像，D表示源图像I和融合图像F的均方误差，x和y分别为图像中像素点的横坐标和纵坐标。

然后对D(x,y)进行降序排序，选取前k个像素值均值处理后作为像素级损失的输出。

3.3)计算融合图像和源图像的梯度均方误差。

首先分别计算源图像V和融合图像F的空间频率SF_V和SF_F。

其中，RF和CF分别为图像X的空间行频率和空间列频率。

其中，M和N分别表示图像X的宽度和高度；然后计算源图像V和融合图像F空间频率间的梯度均方误差。

3.4)根据感知网络计算融合图像和源图像的感知损失。

感知损失是融合图像F和源图像V在τ网络中第j层输出的特征图之间的均方误差，计算如下：

其中，τ_v和τ_f表示源图像V和融合图像F在第j层的特征图。C,M和N表示特征图的通道数，宽度和高度。

4)训练神经网络，并对自注意力机制进行可视化以调整网络结构和损失函数；

训练神经网络，将融合层每个分支的注意力图以图像的格式进行保存。根据人工经验在输入图像上选取关键点，并对其进行可视化以观察网络的关键信息分配效能。同时结合关键点的注意力图，融合结果和客观评价指标调整网络深度和多任务损失函数中的超参数。

本发明相对比现有的基于深度学习的红外和可见光图像融合方法具有如下特点：

1、本发明采用双通道对称深度自编码网络，以端到端的方式对特征提取，融合规则和重构规则同时学习，避免丢失细节，从而增加图像的信息量和清晰度。

2、本发明采用结合自注意力机制的均值融合策略，相比较基于深度学习的方法利用卷积神经网络提取局部特征，自注意力单元能够获取图像全局的长距离依赖，捕获关键信息，忽略无效信息，获得质量更好的融合图像。

3、本发明设计了两类损失函数，即内容损失和细节损失以改善融合性能。内容损失旨在突出红外目标信息和锐化边缘，细节损失目的是更好地利用源图像中的纹理信息。

附图说明

图1是本发明的整体融合框架图。

图2是本发明基于自注意力机制的深度自编码网络结构图。

图3是本发明第一个实施实例结果图。其中，(a)是本发明一个实施例的待融合红外图像；(b)是本发明一个实施例的待融合可见光图像；(c)是基于拉普拉斯金字塔(LP)的融合图像；(d)是基于双树复小波分解(DTCWT)的融合图像；(e)是基于曲波变换(CVT)的融合图像；(f)是基于梯度金字塔(GP)的融合图像；(g)是基于卷积稀疏表示(CSR)的融合图像；(h)是DeepFuse的融合图像；(i)是DenseFuse的融合图像；(j)是基于卷积神经网络的通用图像融合框架(IFCNN)的融合图像；(k)是本发明方法的融合图像。

图4是本发明第二个实施实例结果图。其中，(a)是本发明一个实施例的待融合红外图像；(b)是本发明一个实施例的待融合可见光图像；(c)是基于拉普拉斯金字塔(LP)的融合图像；(d)是基于双树复小波分解(DTCWT)的融合图像；(e)是基于曲波变换(CVT)的融合图像；(f)是基于梯度金字塔(GP)的融合图像；(g)是基于卷积稀疏表示(CSR)的融合图像；(h)是DeepFuse的融合图像；(i)是DenseFuse的融合图像；(j)是基于卷积神经网络的通用图像融合框架(IFCNN)的融合图像；(k)是本发明方法的融合图像。

具体实施方式

下面对本发明的一个实施例(IR-VIS红外和可见光图像)结合附图作详细说明，本实施例在以本发明技术方案为前提下进行，如图1所示，详细的实施方式和具体的操作步骤如下：

1)搭建基于自注意力机制的深度自编码网络，以端到端的方式对特征提取，融合规则和重构规则同时学习；

2)将深度自编码网络编码层不同分支的特征图输入自注意力机制获得注意力图，并采用均值融合策略融合注意力图和编码层输出特征图；

2.1)获取编码层不同分支的注意力图。

本发明定义网络编码层的输出为x∈R^C×H，其中，C为128，H为50176。

首先将x转换至s和o的特征空间中。

s(x_i)＝W_sx_i，o(x_j)＝W_ox_j

其中，W_s和W_o是两个1×1卷积层的可学习权重矩阵，

为16。

最后计算自注意力机制的输出。

Z为自注意力机制输出的注意力图。

2.2)采用均值融合策略融合注意力图和编码层输出特征图。

在本发明中，编码层的输出为f_k，k＝1是红外图像，k＝2是可见光图像。将f_k输入注意力机制可分别得到红外图像和可见光图像的注意力图Z₁和Z₂。最后结合编码层的输出使用加权平均策略获得融合层的输出，以输入解码层重构得融合图像。

其中，y_i表示融合层输出的第i个特征图。

本发明方法中网络的损失包括内容损失与细节损失，内容损失包括结构相似度，像素级损失和梯度损失，细节损失为感知损失。具体定义如下：

内容损失将融合图像限制为像素强度与红外图像相似，梯度变化与可见光图像相似，并对两者的相似程度进行均值补充。细节损失目的在于将更多的细节信息融入融合图像中。我们将结构相似度，像素级损失和梯度损失定义为内容损失，将感知损失定义为细节损失，并将超参数α,β,γ,μ设置为：α＝10，β＝60，γ＝1，μ＝100。

3.1)计算融合图像与红外图像和可见光图像的结构相似度。

首先计算融合图像F和输入图像X间的结构相似度。人类的视觉系统对结构损失和变形较为敏感，因此可用结构相似度(SSIM)以更加直观的方法比较失真图像和参考图像的结构信息。SSIM主要由三部分组成：相关度、亮度和对比度，这三个部分的乘积是融合图像的评估结果。

式中，SSIM(X,F)表示源图像X和融合图像F的结构相似度；μ_x和σ_x表示图像X每个图像块的均值和标准差；μ_f和σ_f表示图像F每个图像块的均值和标准差；σ_xf表示图像X和图像F之间的协方差；C1，C2和C3分别为6.5025，58.5225和29.2613。

接着在传统结构相似度的基础上对融合图像与红外图像I和可见光图像V间的结构相似度采用均值融合策略：

其中F是网络的输出图像，SSIM(I,F|ω)和SSIM(V,F|ω)分别为红外图像I，可见光图像V与融合图像F的结构相似度，sim(I,V,F|ω)计算如下。

式中，σ_IF表示红外图像和融合图像的协方差，σ_VF表示可见光图像和融合图像的协方差，ω表示图像上的滑窗块。

3.2)计算融合图像和红外图像的像素级损失。

首先计算融合图像F和红外图像I间的均方误差。均方误差(MSE)是用于度量源图像和融合图像之间的差异程度，均方误差的值和融合图像质量成反比关系，其值越小，融合图像质量越高：

其中，k的取值为900。

3.3)计算融合图像和可见光图像的梯度均方误差。

首先分别计算可见光图像V和融合图像F的空间频率SF_V和SF_F。

其中，RF和CF分别为图像X的空间行频率和空间列频率。

其中，M和N分别表示图像X的宽度和高度；

然后计算可见光图像V和融合图像F空间频率间的均方误差。

3.4)根据感知网络计算融合图像和可见光图像的感知损失。

感知损失是融合图像F和可见光图像V在τ网络中第j层输出的特征图之间的均方误差，计算如下：

其中τ_v和τ_f表示可见光图像和融合图像在第“block2_pool”层的特征图。C,M和N大小分别为128，64和64。

实验环境

本发明的网络训练，微调与测试均在服务器端进行。对比实验中DenseFuse，DeepFuse和IFCNN在服务器端运行，其他方法均在客户端实现。

1)服务器端

硬件环境：GTX 1080Ti/64GB RAM；

软件环境：Ubuntu16.04，tensorflow1.8.0，keras2.0.8；

2)客户端

硬件环境：Intel-Core i3-4150，CPU主频3.5GHz，内存8GB；

软件环境：Windows 10，MATLAB 2016b；

仿真实验

为了验证本发明的可行性和有效性，采用两组红外与可见光两张图像，大小为224×224，如图3和图4所示，根据本发明方法进行融合实验。

仿真一：遵循本发明的技术方案，对第一组红外和可见光图像(见图3中的(a)和图3中的(b))进行融合，通过对图3中的(c)-图3中的(k)的分析可以看出：相比较其它方法，本发明方法在可以突出显示红外图像的目标信息的同时保留可见光图像更多的纹理、细节信息。这是由于本发明使用了自注意力机制使网络对热辐射目标分配更多的关注，同时损失函数中的梯度均值误差和感知损失使可见光图像更多的纹理和细节信息留存在融合图像中。

仿真二：遵循本发明的技术方案，对第二组红外和可见光图像(见图4中的(a)和图4中的(b))进行融合，通过对图4中的(c)-图4中的(k)的分析可以看出：所有融合算法都可以将红外图像和可见光图像的显著特征融合至融合图像中。CVT和GP的融合图像中，目标人物区域亮度低，整体较为暗淡。DenseFuse和DeepFuse方法得到较为良好的融合结果。LP，DTCWT和CSR方法得到的视觉效果良好的融合图像，但是无法将人物的身体区域整合至融合图像中，导致对比度低、信息丢失。IFCNN由于采用了取大融合策略，将人物更完整明亮的特征和尽可能多的可见光信息集成到融合图像中，视觉效果优异，但是取大策略丢失了房屋的部分纹理信息。本发明方法不仅能够很好地融合红外图像中的显著性特征和可见光图像的纹理信息，而且视觉效果良好。

表1和表2给出了两组红外和可见光图像在不同融合方法下实验结果的客观评价指标，其中加粗和下划线的数据分别表示评价指标的最优值和次优值。本实验通过标准差，熵，清晰度，互信息，NCIE和空间频率来衡量融合图像的质量，进而验证本发明融合方法的可行性和有效性。标准差是基于统计学的指标，表示像素灰度值与整体的对比程度。像素灰度值越分散则对应越大的标准差和越饱满的图像信息。熵值是一种图像特征的统计形式，反映了图像中平均信息量的多少，熵值越大，则图像中信息量越丰富。清晰度可敏感的反应出图像中图像微小细节和纹理变换特征，用来评价图像的相对清晰度，清晰度越高则说明图像融合效果越好；互信息用于衡量两个域变量间的依赖性，互信息值越大，融合图像保留源图像的信息量更丰富；NCIE指数是非线性相关的熵；空间频率用于衡量图像像素的活动水平，其值越大，则图像越清晰。

从图1和表2的数据可看出，本发明方法在多个指标上均取得较为良好的效果。在空间频率和清晰度指标上，本发明方法表现较弱，这是由于本发明方法在融合过程中损失函数中的局部均方误差引入了部分噪声。在互信息和熵指标上取得了第一或第二的排名，这进一步证明本发明算法感知损失的细节留存与注意力机制的注意力分配的重要作用。在标准差和NCIE指标上部分取得了第一的排名。综合对红外和可见光图像数据集的定性和定量评估结果表明，本发明方法融合图像不仅保留了红外图像的目标信息和可见光图像的纹理细节信息，获得了最佳的视觉效果，而且在多个客观评价指标上均取得优异的效果。

表1第一组红外和可见光图像融合结果客观评价指标

表2第二组红外和可见光图像融合结果客观评价指标

Claims

1.基于自注意力机制的红外和可见光图像融合方法，其特征在于，包括以下步骤：

3.1)计算融合图像与源图像的结构相似度；

3.2)计算融合图像和源图像的像素级损失；

3.3)计算融合图像和源图像的梯度均方误差；

3.4)根据感知网络计算融合图像和源图像的感知损失；

4)训练神经网络，并对自注意力机制进行可视化以调整网络结构和损失函数。

2.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法，其特征在于，所述步骤1)的具体过程为：

深度自编码网络包括编码层、融合层和解码层；编码层包含两个分支，每个分支包括3个卷积核大小3*3的可训练卷积层，每个卷积层后接Relu层；融合层将编码层输出的特征图分别输入三个卷积核大小为1*1的可训练卷积层，通过矩阵运算与Softmax操作获得输入图像的注意力图，并结合编码层的输出利用均值加权策略融合两个分支；解码层与编码层形成镜面对称，包含四个卷积核大小为3*3的可训练卷积层，最后一个卷积层用于输出与源图像大小相同的融合图像。

3.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法，其特征在于，所述步骤2)中将编码层不同分支的特征图输入自注意力机制获得注意力图的具体过程为：

定义深度自编码网络编码层的输出为x∈R^C×H，其中，C为编码层输出特征图的通道数，H为编码层输出特征图每个通道特征点的数量；

a)首先将x转换至s和o的特征空间中；

s(x_i)＝W_sx_i，o(x_j)＝W_ox_j

其中，W_s和W_o是两个1×1卷积层的可学习权重矩阵，