CN111161201A

CN111161201A - 基于细节增强通道注意力的红外与可见光图像融合方法

Info

Publication number: CN111161201A
Application number: CN201911338674.1A
Authority: CN
Inventors: 杜慧茜; 崔颖函; 傅雄军; 谢民; 马志峰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-12-06
Filing date: 2019-12-23
Publication date: 2020-05-15
Anticipated expiration: 2039-12-23
Also published as: CN111161201B

Abstract

本发明涉及基于细节增强通道注意力的红外与可见光图像融合方法，属于特征提取与图像融合技术领域。包括：1将红外图像和可见光图像剪裁成大小相等的图像块并级联；2将级联图像依次通过一个卷积层，一个批正则化层，一个激活函数，得到高维特征图；3将高维特征图通过DECA模块，得到信息增强的高维特征图；4重复Q次步骤2和3，进一步对高维特征图进行信息增强；5将信息进一步增强的高维特征图通过一个卷积层，一个批正则化层，一个激活函数运算，输出融合特征图；6计算损失函数，更新卷积层和全连接层参数；7固定卷积层和全连接层的参数，融合图像。所述方法能在融合图像中提取亮度信息，突出图像中的高亮目标，同时保留大量细节信息。

Description

基于细节增强通道注意力的红外与可见光图像融合方法

技术领域

本发明涉及基于细节增强通道注意力的红外与可见光图像融合方法，属于特征提取与图像融合技术领域。

背景技术

图像融合技术是将来自不同传感器/模态的同一场景的数据组合到单个图像的过程。融合后的图像可以比源图像携带更全面的信息。针对不同的应用，例如计算机视觉，摄影和医学成像，已经提出了大量的图像融合方法。基于红外和可见光图像的融合图像可以被用于目标识别或检测，如何使融合图像既包含可见光图像中的细节和纹理信息，又包含红外图像中的高亮目标，从而尽可能多地将多模态信息保留在一幅图像中是目前研究的主要问题。

现有传统方法首先分解源图像，然后根据融合规则融合相应的系数，最后将融合的系数映射回图像域以获得融合的图像。由于针对不同图像使用的融合方法固定，分解工具相同，因此传统方法可能无法获得最佳融合效果。此外，手动设计的融合规则是复杂且繁琐的。

近年来，由于深度学习在许多领域(包括计算机视觉，语音识别，自然语言处理等)中的出色表现，这一方法也被应用到图像融合领域。通过使用深度学习，我们可以在大型训练数据集上训练深且复杂的网络，以提取各种特征并自动获取更通用的融合规则。训练完成后，可以快速地融合图像。现有的基于深度学习的图像融合方法主要在损失函数和网络结构两方面对模型进行改进，以达到更理想的融合效果，即在一幅图上保留更丰富的信息并突出红外目标。

发明内容

本发明的目的在于针对现有红外和可见光图像融合方法存在的细节纹理信息丢失、红外探测目标不明显等技术缺陷，提出了基于细节增强通道注意力的红外与可见光图像融合方法。

所述红外和可见光图像融合方法，包括如下步骤：

步骤一：对训练集中的红外图像和可见光图像进行预处理，生成数量及大小相等的红外图像块与可见光图像块；

步骤一具体为：从公开网站中下载数据集，数据集中包括m+d对红外图像和可见光图像；从数据集中随机选取m对红外图像和可见光图像作为训练集，并对红外图像编号R₁到R_m，对可见光图像编号V₁到V_m；剩下的d对红外图像和可见光图像作为测试集，对红外图像编号RT_q，对可见光图像编号VT_q；q的取值范围为1到d；将训练集中的所有红外图像和可见光图像进行剪裁，生成数量及大小相等的红外图像块和可见光图像块并编号；

其中，红外图像块按照从R₁到R_m且每幅图像中从上到下及从左到右的顺序编号为r₁到r_n；将可见光图像块按照从V₁到V_m且每幅图像中从上到下及从左到右的顺序编号为v₁到v_n；红外图像块总数以及可见光图像块总数均为n；

步骤二：将步骤一生成的数量及大小相等的红外图像块与可见光图像块按顺序分别级联，得到级联图像块；

其中，按顺序分别级联是指将红外图像块r_p与可见光图像块v_p级联并将级联后的图像块记为f_p；p的取值范围为1到n，初始化p＝1；

步骤三：将步骤二得到的级联图像块f_p输入一个卷积层，一个批正则化层，一个激活函数映射到高维空间，提取特征，得到高维特征图；

其中，卷积层包括卷积核，卷积核的大小为3×3到5×5之间，激活函数使用LeakyRELU函数；高维特征图的维度为C；

步骤四：将步骤三得到的高维特征图通过一个通道注意力模块，即DECA模块，得到信息增强的高维特征图；

其中，DECA模块包含分支A和分支B；分支A用于增强高维特征图的亮度信息，分支B用于增强高维特征图的细节信息，分支A和分支B是并行结构；

分支A中包括全局平均池化单元A₁、全连接单元A₁、激活单元A₁、全连接单元A₂和激活单元A₂；

分支B包括梯度运算单元、全局平均池化单元B₁、全连接单元B₁、激活单元B₁、全连接单元B₂和激活单元B₂；

步骤四包含如下子步骤：

步骤4.1A：将步骤三得到的高维特征图输入分支A，通过全局平均池化a₁得到含有亮度信息的高维特征图，再将含有亮度信息的高维特征图通过全连接a₁和激活函数a₁运算，得到突出亮度信息的高维特征图，再将突出亮度信息的高维特征图通过全连接a₂和激活函数a₂运算，得到尺度向量s_b，跳至步骤4.2；

其中，全局平均池化a₁在全局平均池化单元A₁中实现，全连接a₁在全连接单元A₁中实现，激活函数a₁使用RELU函数在激活单元A₁中实现，全连接a₂在全连接单元A₂中实现，激活函数a₂使用sigmoid函数在激活单元A₂中实现；s_b的维度记为C，与步骤三得到的高维特征图维度一致，反映了图像的亮度信息；

其中，全局平均池化a₁的操作如式(1)：

X_c表示步骤三得到的高维特征图的第c个通道，c的取值范围为1到C，F_sq(X_c)表示含有亮度信息的高维特征图的第c个通道，H、W分别为输入的步骤三得到的高维特征图的高和宽，X_c(i,j)表示X_c第i行和第j列处的值；

步骤4.1B：将步骤三得到的高维特征图输入分支B，通过梯度运算得到梯度高维特征图，再将梯度高维特征图通过全局平均池化b₁、全连接b₁和激活函数b₁运算，得到突出梯度信息的高维特征图，再将突出梯度信息的高维特征图通过全连接b₂和激活函数b₂运算，得到尺度向量s_g；

其中，梯度运算在梯度运算单元中实现，全局平均池化b₁在全局平均池化单元B₁中实现，全连接b₁使用RELU函数在全连接单元B₁中实现，激活函数b₁在激活单元B₁中实现，全连接b₂在全连接单元B₂中实现，激活函数b₂使用sigmoid函数在激活单元B₂中实现；s_g的维度记为C，与步骤三得到的高维特征图维度一致，反映了图像的细节信息；

其中，全局平均池化b₁的操作如式(1)，梯度运算如式(2)所示：

其中，F_grad(X_c)表示梯度高维特征图的第c个通道，c的取值范围为1到C；X_c(i,j-1)表示X_c第i行和第j－1列处的值；X_c(i-1,j)表示X_c第i－1行和第j列处的值；

步骤4.2：将s_g和s_b相加，得到尺度向量s，即(3)：

s＝ks_b+s_g (3)

其中，参数k用来平衡s_g和s_b的权重，k的取值范围在0.01到0.5之间；

步骤4.3：将步骤4.2中的尺度向量s与步骤三得到的高维特征图对应通道相乘，生成信息增强的高维特征图；

步骤五：将步骤四中得到的信息增强的高维特征图作为输入，重复Q次步骤三和步骤四，对信息增强的高维特征图进行进一步的信息提取和增强，得到信息进一步增强的高维特征图；

其中，Q的取值范围为1到5；

步骤六：将步骤五输出的信息进一步增强的高维特征图通过一个卷积层，一个批正则化层，一个激活函数运算，进行特征融合，输出融合特征图；

其中，卷积核的大小为3×3到5×5之间，激活函数使用Leaky RELU函数；

步骤七：将步骤六得到的融合特征图通过一个卷积核大小为1×1的卷积层，一个批正则化层，一个Tanh激活函数运算，进行降维映射，输出融合图像块；

至此，步骤三到步骤七构成了卷积神经网络F的操作；

步骤八：计算步骤七得到的融合图像块与步骤三级联图像块f_p对应的红外图像块r_p和可见光图像块v_p之间的损失，并利用梯度下降方法回传损失，使损失函数的输出值最小化，更新卷积神经网络F中所有卷积层和全连接层的参数；

其中，损失函数如式(4)所示：

其中，L表示损失函数的输出值，I_f，r_p，v_p分别表示步骤七输出的融合图像块、组成步骤三中级联图像块的红外图像块和可见光图像块；||·||_F表示Frobenius范数，超参数λ是调节

权重的参数，取值范围在3到10之间；超参数γ是调节

权重的参数，其取值范围在0.5到1.2之间；

为融合图像块与红外图像块之差的Frobenius范数的平方，

为融合图像块与可见光图像块之差的Frobenius范数的平方；

为梯度约束条件，用于保留融合图像块的细节信息，

表示梯度算子；

步骤九：判断p是否等于n，若是，则表明已得到新的卷积神经网络F中的所有卷积层和全连接层的参数，跳至步骤十；若否取p＝p+1，跳至步骤三；

步骤十：固定步骤九中新的卷积神经网络F中的所有卷积层和全连接层的参数，依次将步骤一中的RT_q和VT_q级联得到级联图像F_q；

其中，q的取值范围为1到d；

步骤十一：依次输入级联图像F₁到F_d，重复步骤三到七，输出融合图像P₁到P_d；

至此，经过步骤一到步骤十一，完成了基于细节增强通道注意力的红外与可见光图像融合方法。

有益效果

本发明所述的基于细节增强通道注意力的红外与可见光图像融合方法，与现有融合红外和可见光图像的方法相比，具有如下有益效果：

1、所述红外与可见光图像融合方法与其他基于深度学习一类的红外与可见光图像融合方法相比，能够有效提取可见光图像和红外图像的亮度信息，保留图像中的高亮目标，为图像识别与检测等应用提供帮助；

2、所述方法通过引入DECA模块使网络具有通道选择功能并引入梯度信息，强调有价值的信息，实现了对源图像中细节信息的保留。

附图说明

图1为本发明基于细节增强通道注意力的红外与可见光图像融合方法及实施例中的流程示意图；

图2为本发明基于细节增强通道注意力的红外与可见光图像融合方法步骤四中DECA模块的结构示意图；

图3为本发明基于细节增强通道注意力的红外与可见光图像融合方法步骤三到步骤七中构成的卷积神经网络F的结构示意图；

图4为本发明所述方法的融合效果图；

图5为本发明所述方法的融合效果图的局部放大效果。

具体实施方式

下面结合附图并举实施例，对本发明基于细节增强通道注意力的红外与可见光图像融合方法进行详细描述。

实施例1

本实施例叙述了使用本发明所述的一种基于细节增强通道注意力的红外与可见光图像融合方法的具体实施。

在红外与可见光图像融合问题中，需要将两种源图像中包含的信息合并到一幅图像中。其中，红外图像通过亮度突出目标，如飞机、行人、动物等；可见光图像则包含更多的细节信息，如树木的枝叶、地砖的纹理等。图像融合方法将红外图像的高亮区域与可见光图像的细节信息同时保留到一幅图中，以便更好地进行观察。

本实例使用NVIDIAGeForceGTX1080TiGPU，python2.7编程环境，tensorflow框架。使用信息熵(IE),结构相似度(SSIM),边缘融合质量指标(QE),加权融合质量评价指标(QAB/F),差异相关度(SCD),特征互信息(FMIω,FMIdct)和多尺度结构相似度(MS_SSIM)作为融合质量评价指标。

图1是本发明具体实施方式中红外与可见光图像融合方法的流程图。

图2为本发明具体实施方式中基于细节增强通道注意力的红外与可见光图像融合方法步骤四中DECA模块的结构示意图，其中平衡参数k的值为0.1。

图3为本发明具体实施方式中基于细节增强通道注意力的红外与可见光图像融合方法步骤三到步骤七中构成的卷积神经网络F的结构示意图，共包含5个卷积层，前2层的卷积核大小为5×5，3到4层的卷积核大小为3×3，最后一层的卷积核大小为1×1，卷积步长均为1；每一层都进行批正则化；前4层选择Leaky Relu作为激活函数，最后一层使用Tanh作为激活函数；前3层末端各包含一个DECA模块。

图4是实验效果图，将本发明所述的融合方法与LP、CVT、DTCWT、SR、fusionGAN和RCGAN方法融合效果进行对比，图中第一行到最后一行依次表示红外图像、可见光图像、通过LP、CVT、DTCWT、SR、fusionGAN、RCGAN和本发明中所述方法融合得到的7组图像。

图5为图4实验效果图的局部放大图，具体来说，图5中从上到下及从左到右依次为图4中第3列第4行到第9行图片，分别为使用CVT、DTCWT、SR、fusionGAN、RCGAN和本发明所述方法得到的融合图像，由白色方框内的区域可以看出，与CVT、DTCWT、SR、fusionGAN和RCGAN方法相比，本方法在保留方框上部目标人物的同时更多地保留了树枝地细节，使图像更为清晰。

图5仅为图4实验效果的一个放大示例，图4中其他融合图像均满足类似结论，即高亮区域(如人、轮胎、飞机)均被保留，同时细节信息(如树枝、地面砖块边缘、房屋轮廓和窗户)更加清晰；表明了本发明所述方法在突出目标和保留细节方面有更好的效果。

采用本发明所述的基于细节增强通道注意力的红外与可见光图像融合方法对一组可见光与红外图像进行融合仿真，输出的融合结果具有如下量化指标：

表1基于细节增强通道注意力的红外与可见光图像融合方法的融合结果的量化指标

其中，量化指标选取信息熵(IE),结构相似度(SSIM),边缘融合质量指标(QE),加权融合质量评价指标(QAB/F),差异相关度(SCD),特征互信息(FMIω,FMIdct)和多尺度结构相似度(MS_SSIM)这8种融合质量评价指标。

表1中从上到下依次为通过LP、CVT、DTCWT、SR、fusionGAN、RCGAN和本发明所述方法融合得到融合图像的量化评价指标。由表1可以看出，相比于LP、CVT、DTCWT和fusionGAN方法，本发明所述方法在各项指标上均表现最佳，虽然SR和RCGAN分别在IE和QE上略高于本发明所述方法，但这两种方法仅在单一指标上表现出优势，其余指标均低于本发明所述方法；综上所述，本发明所述方法的性能指标为最佳。

本实例采用本发明提出的基于细节增强通道注意力的红外与可见光图像融合方法对TNO数据集中的图像进行融合，并与LP、CVT、DTCWT、SR、fusionGAN和RCGAN方法进行对比，体现了本发明所述方法的有益效果。

具体包括如下步骤：

步骤一：对红外图像和可见光图像进行预处理：从公开网站中下载TNO数据集，从数据集中随机选取40对红外和可见光图像作为训练集，并对红外图像编号R₁到R₄₀，对可见光图像编号V₁到V₄₀；将这40对红外和可见光图像从TNO中去除，再从TNO中剩下的图片中随机选取7对红外和可见光图像对作为测试集，并对红外图像编号RT₁到RT₇，对可见光图像编号VT₁到VT₇；将训练集中的所有红外图像和可见光图像进行剪裁，生成120×120大小的57227对红外图像块和可见光图像块并编号；

其中，红外图像块按照从R₁到R₄₀且每幅图像中从上到下及从左到右的顺序编号为r₁到r₅₇₂₂₇；同理，可见光图像块按照从V₁到V₄₀且每幅图像中从上到下及从左到右的顺序编号为v₁到v₅₇₂₂₇；

其中，按顺序分别级联是指将红外图像块r_p与可见光图像块v_p级联并将级联后的图像块记为f_p；p的取值范围为1到57227，初始化p＝1；

步骤三：将步骤二得到的级联后的图像块f_p输入一个卷积层，一个批正则化层，一个激活函数映射到高维空间，提取特征，得到高维特征图；

其中，卷积层包括卷积核，卷积核的大小为5×5，激活函数使用LeakyRELU函数；

其中，DECA模块包含分支A和分支B；分支A用于增强高维特征图的亮度信息，分支B用于增强高维特征图的细节信息，A和B是并行结构；

步骤四具体包含如下子步骤：

步骤4.1A：将步骤三得到的高维特征图输入分支A，通过全局平均池化a₁得到含有亮度信息的高维特征图，再将含有亮度信息的高维特征图通过全连接a₁和激活函数a₁运算，得到突出亮度信息的高维特征图，再将该高维特征图通过全连接a₂和激活函数a₂运算，得到尺度向量s_b；跳至步骤4.2；

其中，全局平均池化a₁的操作公式如式(1)；

步骤4.1B：将步骤三得到的高维特征图输入分支B，通过梯度运算得到梯度高维特征图，再将梯度高维特征图通过全局平均池化b₁、全连接b₁和激活函数b₁运算，得到突出梯度信息的高维特征图，再将该高维特征图通过全连接b₂和激活函数b₂运算，得到尺度向量s_g；

其中，全局平均池化b₁的操作如式(1)，梯度运算如式(2)；

步骤4.2：将s_g和s_b相加，得到尺度向量s，即式(3)；

其中，参数k的值为0.1；

步骤五：将步骤四中得到的信息增强的高维特征图作为输入，重复2次步骤三和步骤四，对信息增强的高维特征图进行进一步的信息提取和增强，得到信息进一步增强的高维特征图；

其中，步骤三中卷积核的大小在第一次重复时为5×5，在第二次重复时为3×3；

其中，卷积核的大小为3×3，激活函数使用LeakyRELU函数；

至此，步骤三到步骤七构成了卷积神经网络F的操作；

其中，损失函数如式(4)，超参数λ取值为5；超参数γ取值为0.8；；

步骤九：依次取p＝2到p＝57227，重复步骤三到八，得到新的卷积神经网络F中的所有卷积层和全连接层的参数；

步骤十：固定步骤九中新的积神经网络F中的所有卷积层和全连接层的参数，依次将步骤一中的RT_q和VT_q级联得到级联图像F_q；q取1到7；

步骤十一：依次输入级联图像F₁到F₇，重复步骤三到七，输出融合图像P₁到P₇；

至此，经过步骤一到步骤十一，就完成了融合可见光和红外图像的全部过程；经实验验证，该方法能有效融合可见光图像和红外图像，并且能够在突出目标的同时保留大量细节和纹理信息，从而更好地辅助图像识别和目标检测等任务。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：包括如下步骤：

其中，训练集中包含m对红外图像和可见光图像；红外图像块按照从R₁到R_m且每幅图像中从上到下及从左到右的顺序编号为r₁到r_n；将可见光图像块按照从V₁到V_m且每幅图像中从上到下及从左到右的顺序编号为v₁到v_n；红外图像块总数以及可见光图像块总数均为n；对红外图像编号RT_q，对可见光图像编号VTq；q的取值范围为1到d；d为测试集中包含红外图像和可见光图像对的数量；

其中，按顺序分别级联是指将红外图像块r_p与可见光图像块v_p级联并将级联后的图像块记为f_p；初始化p＝1；

其中，卷积层包括卷积核；

步骤四包含如下子步骤：

其中，s_b的维度记为C，与步骤三得到的高维特征图维度一致，反映了图像的亮度信息；

其中，全局平均池化a₁的操作如式(1)：

X_c表示步骤三得到的高维特征图的第c个通道，F_sq(X_c)表示含有亮度信息的高维特征图的第c个通道，H、W分别为输入的步骤三得到的高维特征图的高和宽，X_c(i,j)表示X_c第i行和第j列处的值；

步骤4.2：将s_g和s_b相加，得到尺度向量s，即(3)：

s＝ks_b+s_g (3)

其中，参数k用来平衡s_g和s_b的权重；

至此，步骤三到步骤七构成了卷积神经网络F的操作；

其中，损失函数如式(4)所示：

其中，L表示损失函数的输出值，I_f，r_p，v_p分别表示步骤七输出的融合图像块、组成步骤三中级联图像块的红外图像块和可见光图像块；‖·‖_F表示Frobenius范数，超参数λ是调节

权重的参数，取值范围在3到10之间；超参数γ是调节

权重的参数，其取值范围在0.5到1.2之间；

为融合图像块与红外图像块之差的Frobenius范数的平方，

为融合图像块与可见光图像块之差的Frobenius范数的平方；

为梯度约束条件，用于保留融合图像块的细节信息，

表示梯度算子；

步骤十：固定步骤九中新的卷积神经网络F中的所有卷积层和全连接层的参数，依次将步骤一中的RT_q和VT_q级联得到级联图像F_q；q取1到d；

步骤十一：依次输入级联图像F₁到F_d，重复步骤三到七，输出融合图像P₁到P_d。

2.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤一具体为：从公开网站中下载数据集，数据集中包括m+d对红外图像和可见光图像；从数据集中随机选取m对红外图像和可见光图像作为训练集，并对红外图像编号R₁到R_m，对可见光图像编号V₁到V_m；剩下的d对红外图像和可见光图像作为测试集，将训练集中的所有红外图像和可见光图像进行剪裁，生成数量及大小相等的红外图像块和可见光图像块并编号。

3.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤二中p的取值范围为1到n。

4.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤三中，卷积核的大小为3×3到5×5之间，激活函数使用Leaky RELU函数，高维特征图的维度为C。

5.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤4.1A中，全局平均池化a₁在全局平均池化单元A₁中实现，全连接a₁在全连接单元A₁中实现，激活函数a₁使用RELU函数在激活单元A₁中实现，全连接a₂在全连接单元A₂中实现，激活函数a₂使用sigmoid函数在激活单元A₂中实现。

6.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤4.1A中，c的取值范围为1到C。

7.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤4.2中，k的取值范围在0.01到0.5之间。

8.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤五中Q的取值范围为1到5。

9.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤六中，卷积层中包括卷积核，该卷积核的大小为3×3到5×5之间。

10.如权利要求1所述的基于细节增强通道注意力的红外与可见光图像融合方法，其特征在于：步骤六中，激活函数使用Leaky RELU函数。