CN116246138A

CN116246138A - 基于全卷积神经网络的红外-可见光图像目标级融合方法

Info

Publication number: CN116246138A
Application number: CN202310161443.8A
Authority: CN
Inventors: 常荣; 李邦源; 方明; 米啸云; 崔跃东; 耿飞; 易亮
Original assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-06-09

Abstract

本发明涉及图像处理技术领域，具体地说，涉及基于全卷积神经网络的红外‑可见光图像目标级融合方法。包括：利用非下采样剪切波变换将源图像分解为低频子带和高频子带图像，按照区域能量和融合规则融合低频子带，采用改进FCN模型提取高频子带图像的多尺度特征，生成特征映射图，使用最大加权平均融合策略融合高频子带，对融合后的高频子带和低频子带进行NSST逆变换得到融合图像。本发明设计中，FCN模型能够进行像素级别的特征提取，能够克服图像边缘特征的模糊问题，而且没有采用全连接层计算方式，可以接受任意像素大小的输入，在计算时更加高效，并得到分辨率和清晰度较好的高质量融合图像。

Description

基于全卷积神经网络的红外-可见光图像目标级融合方法

技术领域

本发明涉及图像处理技术领域，具体地说，涉及基于全卷积神经网络的红外-可见光图像目标级融合方法。

背景技术

传统图像融合是对图像的全局特征信息包括复杂非必需的背景信息进行处理，这可能会引入大量的噪声和伪影，同时还耗费很多的时间。

传统的图像融合虽然也是高低频子代的图像融合，但是现有的技术中，还是存在不少的问题，例如：低频子带包含源图像大部分能量，保留了源图像大部分特征，虽然通过绝对值取大法和加权平均法能实现低频子带融合，但是上述方法本身局限性影响到融合图像的效果。绝对值取大法是通过比较红外-可见光图像在相同像素点上变换系数绝对值的大小，选取绝对值较大的变换系数作为图像在该像素点上系数值。由于该方法只考虑了像素点变换系数绝对值大小，未考虑其他影响因素，因此会导致重要信息丢失和融合图像边缘不平滑。加权平均法是将可见光和红外图像的变换系数通过相应权重比例整合到融合图像中，该方法虽然能有效提高融合图像边缘平滑度，但是会导致图像局部区域特征丢失，造成融合图像对比度较差。

鉴于此，我们提出了基于全卷积神经网络的红外-可见光图像目标级融合方法。

发明内容

本发明的目的在于提供基于全卷积神经网络的红外-可见光图像目标级融合方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了基于全卷积神经网络的红外-可见光图像目标级融合方法，包括如下步骤：

S1、利用非下采样剪切波变换NSST对红外-可见光源图像进行多尺度和多方向分解，得到低频子带系数和高频子带系数；其中，多尺度和多方向分解能使不同尺度空间上重叠特征充分分离；

S2、对于低频子带系数，采用区域能量和融合策略进行融合；

S3、对于高频子带系数，利用改进FCN模型提取细节层的多层特征，得到特征映射图，选择最大加权平均融合策略对其进行融合；

S4、进行NSST逆变换得到融合图像。

作为本技术方案的进一步改进，所述S2中，采用区域能量和融合策略进行融合还包括以下步骤：

区域能量和算法能结合相邻区域信息，对区域中心元素能量大小进行评估，最终选择能量较大的元素；

基于区域能量值公式，计算区域能量大小，判断融合系数活动水平，能量越大表示保留信息越多；

其中，区域能量值公式为：

其中，I表示金字塔，α、β分别为邻域窗口的长和宽，(i，j)为邻域的中心点；

利用区域能量大小判断融合系数活动水平，能量越大表示保留信息越多；融合系数计算公式为：

其中，LF_F表示红外-可见光图像的融合系数，LF_A表示红外图像的融合系数，LF_B表示可见光图像的融合系数，E_A表示红外图像的区域能量值，E_B表示可见光图像的区域能量值。

作为本技术方案的进一步改进，所述S3中，对于高频子带系数的融合，还包括以下步骤：

高频子图像主要包含图像边缘特征和纹理细节信息，这些信息直接影响融合图像分辨率和清晰度；

将红外-可见光图像高频子带输入训练好的FCN模型中提取图像深度特征，并生成高频子带特征映射图，通过最大加权平均融合策略得到高频子带权重图；其计算公式为：

Fsub(i，j)＝max(α₁sub_A+α₂sub_B)；

其中，sub_A、sub_B分别表示输入的红外-可见光图像的高频子图像，α₁、α₂分别表示sub_A、sub_B的权重值。

作为本技术方案的进一步改进，所述S3中，FCN模型包括：用于特征提取的7个模块，记为模块1～7，以及卷积层、relu层、池化层和反卷积层；其中：

在每个卷积层中，交替使用非线性映射提取特征，利用在线难例样本挖掘法放宽正负样本的约束，扩充训练集的范围，针对多特征图存在重叠问题，采用线性非极大值抑制法避免漏检目标特征；

采用relu层作为激活函数加速模型训练过程，在模块1、模块2和模块5中，池化层位于relu层之后；

在FCN浅层网络中提取图像的颜色、边缘和纹理等基础特征对融合图像质量至关重要，针对随着网络层的加深，这些特征很容易丢失的问题，将2个1×1卷积的跳转连接添加到FCN模型中，在保留浅层网络图像特征的同时，避免增加计算复杂度；

在模块7后增加3个反卷积层对所学到的所有特征进行上采样，以对所有多尺度特征进行融合，并添加多个跳跃结构，跳跃结构的作用在于优化结果；

针对将全卷积结果直接进行上采样后得到的结果是比较粗糙的问题，需要通过把不同池化层的输出结果进行上采样之后，实现优化输出；

对于一个神经网络中存在的一些恒等函数，Skip Layer在不影响这个神经网络的整体性能下，使得对这些恒等函数的学习更加容易，提高整体的学习效率；

然后使用Softmax函数计算输出块的概率分布。

作为本技术方案的进一步改进，所述S3中，FCN模型特征提取部分还包括7个卷积层和3个池化层，为增强输入图像特征的平移不变性，设置所有卷积层大小为3×3，步长为1，池化层大小为2×2，步长为2；将图像融合看作是分类问题，设置反卷积层的核数为2；根据输入图像大小和反卷积层的上采样功能，设置前2个反卷积层大小为4×4，步长为2，第3个反卷积层大小为16×16；

同时，为了有效避免在encoder上冗余的信息的获取，直接关注与物体之间之内的相关性，在特征顶部映射图使用四种不同采样率的空洞卷积，其采样率分别为6、12、18、24，通过不同采样率的空洞卷积有效捕获多尺度信息，提升对图像的信息采集能力。

作为本技术方案的进一步改进，所述S3中，对于高频子带系数的操作还包括：

针对目标级融合，首先采用频率调谐显著性区域检测对红外图像的目标特征进行提取，因图像的频率域主要是由低频部分和高频部分组成，其中，低频部分反映了图像的整体信息，高频部分反映了目标的细节信息；

根据高频部分信息来生成局部目标的近邻区域，获取到区域内的宽度和高度，得到特征图；

采用CA注意力机制模块，对上述近邻区域的位置信息进行编码，将输入的特征图的宽度和高度进行全局平均池化，分别获得这两个方向的特征图；

对卷积进行降维，通过归一化处理将特征图输入sigmoid激活函数得到特征图。

作为本技术方案的进一步改进，通过所述sigmoid激活函数得到特征图还包括：

得到特征图的宽度和高度的注意力权重公式如下：

g^h＝σ(F^h(f^h))；

g^w＝σ(F_w(f^w))；

其中，F_h和F_w为原来通道的特征图，f^h和f^w为经过sigmoid激活得到的特征图，分别对应高度与宽度方向；g^h为高度方向的注意力权重，g^w为宽度方向的注意力权重；

利用该权重进行学习，得到整体融合图的权重。

作为本技术方案的进一步改进，所述S3中，改进FCN模型的训练包括：

FCN模型在深度学习框架tensorflow上，利用随机梯度下降法对整个网络进行训练：

设定模型遍历总数据集100轮，并且使用权值衰减的正则化法防止模型过拟合，初始值设为0.0001，将所有偏置值初始化为0，初始值学习率设为0.001，训练过程中通过学习率使用ReduceLTOnPlateau自适应调整进行准确率的提高；模型在PyTorch环境下使用1个GPU进行训练；批量大小设置为128，动量和权重衰减分别为0.9和0.0005；权重更新规则表示为：

其中，v为动量变量，l表示第l次迭代，α为学习率，L为损失函数，

是权重w_i损失的导数；

选用Adam算法不断进行迭代优化，直到找到全局最优点，得到最佳效果。

作为本技术方案的进一步改进，所述S4中，进行NSST逆变换得到融合图像，还包括：

设A和B分别表示同一场景下大小为m×n的红外-可见光源图像；源图像A和B均被NSST分解为低频子带和高频子带，并分别进行融合；

高频子带融合是对FCN提取到的特征权重图进行融合，采用最大加权平均融合规则；

低频子带包含源图像大部分能量，保留了源图像大部分特征，低频子带融合采用区域能量和融合规则；

对融合后的高频子带融合图像和低频子带融合图像进行NSST逆变换，得到最终的融合图像。

作为本技术方案的进一步改进，所述S4中，进行NSST逆变换得到融合图像，还包括步骤：

根据低频和高频融合规则分别计算得到融合图像的基础图像F_b(x，y)和细节图像F_d(x，y)，将两者进行重构，最终得到融合图像F(x，y)，如下式所示：

F(x，y)＝F_b(x，y)+F_d(x，y)；

其中，F_b(x，y)表示融合图像的基础图像，F_d(x，y)表示融合图像的细节图像。

作为本技术方案的进一步改进，所述。

本发明的目的之二在于，提供了一种图像目标级融合方法的运行平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。

本发明的目的之三在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。

与现有技术相比，本发明的有益效果：

1.该基于全卷积神经网络的红外-可见光图像目标级融合方法中，可以增大目标近邻区域的信息保留程度对模型损失的影响，实现在局部区域的目标信息最大化融合；提出目标级的融合不仅可以节约处理时间还可以有针对性地对所需关注的目标进行增强融合，对后续的识别检测任务提供有效的帮助；

2.该基于全卷积神经网络的红外-可见光图像目标级融合方法中，FCN模型能够进行像素级别的特征提取，能够克服图像边缘特征的模糊问题，而且没有采用全连接层计算方式，可以接受任意像素大小的输入，在计算时更加高效，并得到分辨率和清晰度较好的高质量融合图像。

附图说明

图1为本发明中示例性的整体图像融合步骤框架示意图；

图2为本发明中示例性的FCN模型结构示意图；

图3为本发明中示例性的步长为80卷积层具体参数设置表图；

图4为本发明中示例性的步长为80反卷积层具体参数设置表图；

图5为本发明中示例性的采用FCN模型提取的红外-可见光图像高频子带特征映射图；

图6为本发明中示例性的电子计算机平台装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-图5所示，本实施例提供了基于全卷积神经网络的红外-可见光图像目标级融合方法；

其图像融合框架如图1所示，图像融合的具体操作包括如下步骤：

S4、进行NSST逆变换得到融合图像。

具体地，本方案利用非下采样剪切波变换将源图像分解为低频子带和高频子带图像，按照区域能量和融合规则融合低频子带，采用改进FCN模型提取高频子带图像的多尺度特征，生成特征映射图，使用最大加权平均融合策略融合高频子带，对融合后的高频子带和低频子带进行NSST逆变换得到融合图像；通过FCN模型能够进行像素级别的特征提取，能够克服图像边缘特征的模糊问题，而且没有采用全连接层计算方式，可以接受任意像素大小的输入，在计算时更加高效，从而得到分辨率和清晰度较好的高质量融合图像。

本实施例中，针对FCN模型构建与训练有如下内容：

首先，针对模型构建有：

网络结构对卷积神经网络的功能发挥起着重要作用，本实施例提出一种新的FCN模型，该模型包括卷积(conv)层、relu层、池化(pooling)层和反卷积(deconv)层，其结构如图2所示；

FCN模型的特征提取部分共有7个模块，记为模块1～7，在每个卷积层中，交替使用非线性映射提取特征，利用在线难例样本挖掘法放宽正负样本的约束，扩充训练集的范围，针对多特征图存在重叠问题，采用线性非极大值抑制法避免漏检目标特征；

采用relu作为激活函数加速模型训练过程，在模块1、模块2和模块5中，池化层位于relu层之后；

在FCN浅层网络中提取图像的颜色、边缘和纹理等基础特征对融合图像质量至关重要，然而随着网络层的加深，这些特征很容易丢失；针对该问题，将2个1×1卷积的跳转连接添加到FCN模型中，在保留浅层网络图像特征的同时，避免增加计算复杂度；

因为将全卷积结果直接进行上采样后得到的结果是比较粗糙的，需要通过把不同池化层的输出结果进行上采样之后，实现优化输出；

然后使用Softmax函数计算输出块的概率分布。

由图2可以看出，FCN模型特征提取部分包括7个卷积层和3个池化层，为了增强输入图像特征的平移不变性，设置所有卷积层大小为3×3，步长(stride)为1，池化层大小为2×2，步长为2；由于本实施例将图像融合看作是分类问题，因此设置反卷积层的核数为2；根据输入图像大小和反卷积层的上采样功能，设置前2个反卷积层大小为4×4，步长为2，第3个反卷积层大小为16×16，步长为80卷积层和反卷积层具体参数设置如图3中的表1和图4中的表2所示。其中，横杠表示该参数值不存在。

在此操作步骤中，为了有效避免在encoder上冗余的信息的获取，直接关注与物体之间之内的相关性，在特征顶部映射图使用四种不同采样率的空洞卷积，其采样率分别为6、12、18、24，不同采样率的空洞卷积可以有效捕获多尺度信息，提升对图像的信息采集能力。

进一步地，针对模型训练有：

在训练阶段，本实施例FCN模型在深度学习框架tensorflow上，利用随机梯度下降法对整个网络进行训练；设定模型遍历总数据集100轮，并且使用权值衰减(weight decay)的正则化法防止模型过拟合，初始值设为0.0001，将所有偏置值初始化为0，学习率初始化为0.001，训练过程中通过学习率使用ReduceLTOnPlateau自适应调整进行准确率的提高；模型在PyTorch环境下使用1个GPU进行训练；批量大小设置为128，动量和权重衰减分别为0.9和0.0005；权重更新规则表示为：

是权重w_i损失的导数；

与其他用于图像融合的卷积神经网络相比，上述改进的FCN模型能保留图像的颜色、纹理等浅层特征，并将这些浅层特征与深层特征进行融合，充分利用不同细节层的多尺度特征，以提高图像融合质量。由于在网络结构中增加2个1xl卷积的跳转连接，因此大幅降低计算复杂度，提高了融合算法速度。

本实施例中，针对图像融合有如下内容：

设A和B分别表示同一场景下大小为m×n的红外-可见光源图像；源图像A和B均被NSST分解为低频子带和高频子带，并分别进行融合；高频子带融合是对FCN提取到的特征权重图进行融合，采用最大加权平均融合规则；低频子带融合采用区域能量和融合规则；对融合后的高频子带融合图像和低频子带融合图像进行NSST逆变换，得到最终的融合图像。

进一步地，针对低频图像融合有：

低频子带包含源图像大部分能量，保留了源图像大部分特征，虽然通过绝对值取大法和加权平均法能实现低频子带融合，但是上述方法本身局限性影响到融合图像的效果。绝对值取大法是通过比较红外-可见光图像在相同像素点上变换系数绝对值的大小，选取绝对值较大的变换系数作为图像在该像素点上系数值。由于该方法只考虑了像素点变换系数绝对值大小，未考虑其他影响因素，因此会导致重要信息丢失和融合图像边缘不平滑。加权平均法是将可见光和红外图像的变换系数通过相应权重比例整合到融合图像中。该方法虽然能有效提高融合图像边缘平滑度，但是会导致图像局部区域特征丢失，造成融合图像对比度较差。

区域能量和算法能结合相邻区域信息，对区域中心元素能量大小进行评估，最终选择能量较大的元素。由于利用区域能量和算法对低频子带进行融合，可使其包含源图像绝大部分能量，并在融合图像中保留源图像的基本信息，因此基于低频子带包含图像绝大部分能量的特性，本实施例采用区域能量和融合策略对低频子带进行融合。基于区域能量值公式，计算区域能量大小，判断融合系数活动水平，能量越大表示保留信息越多；

其中，区域能量值公式为：

进一步地，针对高频图像融合有如下内容：

高频子图像主要包含图像边缘特征和纹理细节信息，这些信息直接影响融合图像分辨率和清晰度，因此，高频子带融合规则的选择对融合图像质量影响较大。本实施例将红外-可见光图像高频子带输入训练好的FCN模型中提取图像深度特征，并生成高频子带特征映射图，通过最大加权平均融合策略得到高频子带权重图，计算公式为：

Fsub(i，j)＝max(α₁sub_A+α₂sub_B)；

具体地，对于高频子带系数的操作还包括：

针对目前红外-可见光融合算法仅针对两幅图像的全局信息最大化保留来进行融合优化，造成在局部出现细节保留模糊的问题，为此提出一种针对局部目标的信息融合增强策略，以达到目标的多源信息最大程度保留的目标级融合算法。“目标级”融合，首先采用频率调谐显著性区域检测对红外图像的目标特征进行提取，因图像的频率域主要是由低频部分和高频部分组成。低频部分反映了图像的整体信息，高频部分反映了目标的细节信息，如红外目标的纹理细节。因此根据高频部分信息来生成局部目标的近邻区域，获取到区域内的宽度和高度，得到特征图；

其中，通过sigmoid激活函数得到特征图还包括：

得到特征图的宽度和高度的注意力权重公式如下：

g^h＝σ(F_h(f^h))；

g^w＝σ(F_w(f^w))；

利用该权重进行学习，得到整体融合图的权重。

图5为采用改进FCN模型提取的红外-可见光图像高频子带特征映射图。可以看出，图像边缘特征和纹理特征被保留，保证了高频图像信息完整性。通过最大加权平均算法将图像边缘特征和纹理特征进行有效融合，得到分辨率和清晰度较好的高质量融合图像。

最后，针对图像重构有：

F(x，y)＝F_b(x，y)+F_d(x，y)；

如图6所示，本实施例还提供了一种图像目标级融合方法的运行平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，包括如下步骤：

S4、进行NSST逆变换得到融合图像。

2.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S2中，采用区域能量和融合策略进行融合还包括以下步骤：

其中，区域能量值公式为：

3.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S3中，对于高频子带系数的融合，还包括以下步骤：

Fsub(i，j)＝max(α₁sub_A+α₂sub_B)；

4.根据权利要求3所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S3中，FCN模型包括：用于特征提取的7个模块，记为模块1～7，以及卷积层、relu层、池化层和反卷积层；其中：

然后使用Softmax函数计算输出块的概率分布。

5.根据权利要求4所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S3中，FCN模型特征提取部分还包括7个卷积层和3个池化层，为增强输入图像特征的平移不变性，设置所有卷积层大小为3×3，步长为1，池化层大小为2×2，步长为2；将图像融合看作是分类问题，设置反卷积层的核数为2；根据输入图像大小和反卷积层的上采样功能，设置前2个反卷积层大小为4×4，步长为2，第3个反卷积层大小为16×16；

6.根据权利要求5所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S3中，对于高频子带系数的操作还包括：

7.根据权利要求6所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，通过所述sigmoid激活函数得到特征图还包括：

得到特征图的宽度和高度的注意力权重公式如下：

g^h＝σ(F_h(f^h))；

g^w＝σ(F_w(f^w))；

利用该权重进行学习，得到整体融合图的权重。

8.根据权利要求7所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S3中，改进FCN模型的训练包括：

是权重w_i损失的导数；

9.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S4中，进行NSST逆变换得到融合图像，还包括：

10.根据权利要求9所述的基于全卷积神经网络的红外-可见光图像目标级融合方法，其特征在于，所述S4中，进行NSST逆变换得到融合图像，还包括步骤：

F(x，y)＝F_b(x，y)+F_d(x，y)；