CN116468644A

CN116468644A - 一种基于自监督特征解耦的红外可见图像融合方法

Info

Publication number: CN116468644A
Application number: CN202310331491.7A
Authority: CN
Inventors: 谭均; 赵云; 张洪青; 施刚; 李培云; 文虎标; 徐丽琼; 张兴国; 林枝锐; 王媛敏
Original assignee: Qujing Power Supply Bureau Yunnan Power Grid Co Ltd
Current assignee: Qujing Power Supply Bureau Yunnan Power Grid Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-21

Abstract

本发明涉及计算机视觉技术领域，具体地说，涉及一种基于自监督特征解耦的红外可见图像融合方法。包括如下步骤：构建基于照明感知的红外可见图像编解码融合网络；设计基于对比学习的特征解耦孪生网络预训练方法；设计交叉注意力特征补充模块；设计基于通道注意力的特征融合方法。本发明设计通过对比学习的方法可以增强双源的差异性特征；加入基于交叉注意力的特征补充模块来增强各自通道的特征信息、实现不同源特征间的信息交流；加强融合后图像的红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征，使得融合后的图像更清晰，且融合作业效率高，有效解决现有技术中数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。

Description

一种基于自监督特征解耦的红外可见图像融合方法

技术领域

本发明涉及计算机视觉技术领域，具体地说，涉及一种基于自监督特征解耦的红外可见图像融合方法。

背景技术

图像融合技术的出现，使用为多模态传感器或不同拍摄条件下拍摄的信息具有互补性。在多模态图像融合任务中，图像信息充分互补的红外和可见图像融合，已广泛应用于军事行动、目标检测、跟踪、行人再识别和语义分割。基于强大的热辐射捕捉功能，红外图像可以有效地突出热目标(如行人)，但忽略了不发热目标；相反，可见图像捕捉目标反射光信息，边缘细节更加清楚，但隐藏在黑暗或烟雾中的突出目标被忽略，因此融合图像比单模态图像包含更多互补信息。

在过去的几十年里，许多图像融合技术已经发展起来，包括传统的方法和数据驱动的方法。传统的方法利用傅里叶变换等方式将源图像变换到频域，并在频域内进行频率测量和设计融合规则来实现图像融合。传统的图像融合技术包括基于多尺度分解的方法、基于优化的方法和混合方法等，可以满足特定场景下的专项任务需求，难以适应复杂场景，且计算开销惊人。近年来，深度学习的飞速发展促进了数据驱动的图像融合方法常用算法可分为三个方向：基于自动编码器(AE)的方法、基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法。基于AE的方法由编码器和解码器构成，编码器用于提取多模态图像特征，解码器则负责对特征融合并重建图像，其融合方法包括串联、元素加法、元素权值求和等矩阵操作。但是，手工制作的融合方法很难让AE提取到同一空间维度的特征；基于cnn的方法则依赖于优越的网络结构和复杂的损失函数来提升融合效果。由于图像融合任务缺乏真实标签，有人采用GAN结构来合并融合图像和原始图像之间的概率分布，使输出图像拥有更多的纹理特征。此外，常用的融合时机分为两个阶段，即输入融合、中间融合。输入融合是指将多模态图像按照像素或通道级联作为模型输入，使模型很难合并语音信息；中途融合则采用人工设计的融合规则来融合深度特征，其融合效果受限于具体的融合规则。这些方法均需要大量的人工标注和训练时间，且融合过多依赖神经网络的黑箱模型，未考虑不同源之间特征的相似性与互补性。

综上，现有技术存在数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。鉴于此，我们提出了一种基于自监督特征解耦的红外可见图像融合方法。

发明内容

本发明的目的在于提供一种基于自监督特征解耦的红外可见图像融合方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了一种基于自监督特征解耦的红外可见图像融合方法，包括如下步骤：

S1、构建基于照明感知的红外可见图像编解码融合网络：采用对比学习的方法，对基于孪生网络的编码器进行预训练，待其具备特征解耦能力之后，将双源图像同时输入编码器进行特征提取与解耦，将得到的可见光图像颜色与纹理特征、红外图像纹理特征按通道注意力权重进行拼接，随后输入解码器将融合特征恢复回原始图像；

S2、设计基于对比学习的特征解耦孪生网络预训练方法：采用对比学习的方式，最大化网络输出的颜色特征间距离，同时最小化纹理特征距离，从而训练出具有特征解耦功能的编码器；

S3、设计交叉注意力特征补充模块：在图像编码器中，加入基于交叉注意力的特征补充模块来实现不同源特征间的信息交流；

S4、设计基于通道注意力的特征融合方法：对特征编码器求得的红外纹理特征与可见光纹理、颜色特征，在通道自注意力机制的基础上进行通道拼接融合。

作为本技术方案的进一步改进，所述S中，基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器(Encoder)、基于通道注意力的融合模块、特征解码器(Decoder)四部分组成；

其中，特征解码器包含交叉注意力特征补充模块，通过将可见光、红外图像互为查询键来计算交叉注意力，增强双源的差异性特征；

预训练阶段无需配准图像，微调阶段仅需少量的配准图像用于训练；

经过监督方法预训练的照明打分网络，用于对可见光图像进行照明预测，输出其属于白天或夜晚的概率，作为损失函数中可见光图像权重来指导网络训练。

作为本技术方案的进一步改进，所述S2中，基于对比学习的特征解耦孪生网络预训练方法中采用融合框架作为编解码网络结构；

其中，编码器采取参数共享的孪生网络，用于提取输入图像特征并解耦为纹理和颜色特征；

预训练阶段，将可见光及其灰度化图像同时输入孪生网络编码，得到四组不同特征。

作为本技术方案的进一步改进，所述S2中，基于对比学习的特征解耦孪生网络预训练方法的实际操作中，可使用L1损失或KL散度计算特征间距离，作为监督信号促进编码器收敛；

融合阶段，将红外图像中以红色为主的干扰性颜色特征抛弃，只保留其余三种特征并按通道注意力分数进行拼接，输入解码器进行图像重建；

消融实验中，将输出的三种特征：可见-纹理、可见-颜色、红外-纹理特征，分别广播三次之后，依次输入解码器进行图像重建，得到的融合图像以验证编码器的特征解耦能力。

作为本技术方案的进一步改进，所述S3中，交叉注意力特征补充模块采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息，具体操作如下：

输入为经过神经网络提取的可见光特征F_vis与红外图像特征F_inf；

将特征图按宽高方向展开成一维向量V(HW，C)，并添加位置编码B以保留二维位置信息；其中，HW为特征图宽高成绩，C为特征图维度；

展开的一维向量V，按其长度HW，给每个位置添加位置编码PE：

PE_(pos，2i)＝sin(pos/10000^2i/d)，PE_(pos，2i+1)＝cos(pos/10000^2i/d)

其中，pos代表编码位置，i为编码长度；

重建后的可见光特征计算如下：

其中，W_Q、W_K、W_V分别为空间转换矩阵，d为输入向量维度；

通过带监督的训练方式，交叉注意力模块会自行计算查询向量Q与键值K之间的注意力权重，在全局范围内提升两种输入向量之间的语义特征交互，达到重要信息提取与交流的目的。

作为本技术方案的进一步改进，所述S4中，基于通道注意力的特征融合方法对特征编码器求得的红外纹理特征与可见光纹理、颜色特征，在通道自注意力机制的基础上进行通道拼接融合，计算方法为：

对输入维度为(H，W，C)维度的特征图在空间维度分别进行最大池化与平均池化，得到两个(1，1，C)维度特征；

随后输入两层MLP结构学习语义特征并经softmax函数做归一化映射成为通道注意力。

作为本技术方案的进一步改进，所述S4中，基于通道注意力的特征融合方法分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵S_{inf_tex}，S_{vis_tex}，S_{vis_col}，将其拼接后输入权重学习单元进行权重分配，随后将其广播为特征图大小，按照逐元素乘法，对按通道拼接的融合特征进行特征加权：

F＝mlp(concat(S_{inf_tex}，S_{vis_tex}，S_{vis_col}))⊙concat(F_{inf_tex}，F_{vis_tex}，F_{vis_col})

其中，F_{inf_tex}、F_{vis_tex}、F_{vis_col}分别为红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征，⊙代表逐元素乘法。

本发明的目的之二在于，提供了一种图像融合方法的计算运行平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。

本发明的目的之三在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。

与现有技术相比，本发明的有益效果：

1.该基于自监督特征解耦的红外可见图像融合方法中，通过对比学习的方法对基于孪生网络的编码器进行预训练，预训练阶段无需配准图像或仅需少量的配准图像，可以增强双源的差异性特征，更好反应图像中的颜色、纹理信息；

2.该基于自监督特征解耦的红外可见图像融合方法中，加入基于交叉注意力的特征补充模块来增强各自通道的特征信息、实现不同源特征间的信息交流，在全局范围内提升语义特征交互，达到重要信息提取与交流的目的；

3.该基于自监督特征解耦的红外可见图像融合方法中，采用基于通道注意力的特征融合方法，对按通道拼接的融合特征进行特征加权，从而加强融合后图像的红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征，使得融合后的图像更清晰，且融合作业效率高，有效解决现有技术中数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。

附图说明

图1为本发明中示例性的整体方法流程图；

图2为本发明中示例性的整体融合方法的工作原理图；

图3为本发明中示例性的预训练过程原理图；

图4为本发明中示例性的消融实验中图像重建后得到的融合图像图；

图5为本发明中示例性的在通道自注意力机制的基础上进行通道拼接融合的原理图；

图6为本发明中示例性的基于通道注意力的特征融合方法原理图；

图7为本发明中示例性的方法实际应用效果对比图之一；

图8为本发明中示例性的方法实际应用效果对比图之二；

图9为本发明中示例性的方法实际应用效果对比图之三；

图10为本发明中示例性的电子计算机平台装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-图10所示，本实施例提供了一种基于自监督特征解耦的红外可见图像融合方法，包括如下步骤。

S1、构建基于照明感知的红外可见图像编解码融合网络：

基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器(Encoder)、基于通道注意力的融合模块、特征解码器(Decoder)四部分组成；

采用对比学习的方法，对基于孪生网络的编码器进行预训练，待其具备特征解耦能力之后，将双源图像同时输入编码器进行特征提取与解耦，将得到的可见光图像颜色与纹理特征、红外图像纹理特征按通道注意力权重进行拼接，随后输入解码器将融合特征恢复回原始图像；

特征解码器包含交叉注意力特征补充模块，通过将可见光、红外图像互为查询键来计算交叉注意力，增强双源的差异性特征；

S2、设计基于对比学习的特征解耦孪生网络预训练方法：

采用融合框架作为编解码网络结构，融合框架为典型的编解码网络结构；其中，编码器采取参数共享的孪生网络，用于提取输入图像特征并解耦为纹理和颜色特征；

预训练阶段，将可见光及其灰度化图像同时输入孪生网络编码，得到四组不同特征，如图3所示；

由于灰度图像丢失了颜色信息而保留了纹理细节，因此本发明采用对比学习的方式，最大化网络输出的颜色特征间距离，同时最小化纹理特征距离，从而训练出具有特征解耦功能的编码器；

实际操作中，可使用L1损失或KL散度计算特征间距离，作为监督信号促进编码器收敛；

消融实验中，为验证编码器的特征解耦能力，将输出的三种特征：可见-纹理、可见-颜色、红外-纹理特征，分别广播三次之后，依次输入解码器进行图像重建，得到的融合图像如图4所示。

图3中第一行重建图像反映了可见光图像中的颜色信息，第二行则只含有以高频为主的纹理信息；第三行反映了红外图像中以红色为主的干扰性颜色信息，而第四行则代表了红外图像的纹理信息。

S3、设计交叉注意力特征补充模块：

在图像编码器中，加入基于交叉注意力的特征补充模块来实现不同源特征间的信息交流；

以往的融合模型中，为了保留共同特征并补充差异性特征，常常采用特征矩阵加减法与全局池化操作，将差异性特征作为残差添加到原始特征中去来增加目标信息，如以下公式所示：

其中，F_vis为可见光特征，F_inf为红外图像特征，代表异或运算，GlobalPool表示全局池化，⊙代表逐元素乘法；

但由于不同源图像提取的特征，并未进行像素级配准，采用特征矩阵的像素级加减法很容易丢失特征，因此本发明采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息，具体操作如下：

PE_(pos，2i)＝sin(pos/10000^2i/d)，PE_(pos，2i+1)＝cos(pos/10000^2i/d)

其中，pos代表编码位置，i为编码长度；

重建后的可见光特征计算如下：

其中，W_Q、W_K、W_V分别为空间转换矩阵，d为输入向量维度；

S4、设计基于通道注意力的特征融合方法：对特征编码器求得的红外纹理特征与可见光纹理、颜色特征，在通道自注意力机制的基础上进行通道拼接融合，计算方法如图5所示：

随后输入两层MLP结构学习语义特征并经softmax函数做归一化映射成为通道注意力；

本发明采用基于通道注意力的特征融合方法，如图6所示，分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵S_{inf_tex}，S_{vis_tex}，S_{vis_col}，将其拼接后输入权重学习单元进行权重分配，随后将其广播为特征图大小，按照逐元素乘法，对按通道拼接的融合特征进行特征加权：

如图7-图9所示，为采用本方法进行红外可见图像融合的实际应用的对比图像。图7-图9中，第一行为可见光输入的图像，第二行为红外光输入的图像，第三行为采用PIAFusion(一种基于光照感知的渐进式红外与可见光图像融合网络)方法处理后的图像，第四行为采用本方案方法处理后的图像，由各图像可以看出，本发明的技术方案具有实际可行性，且融合后的图像效果清晰、作业效率高。

如图10所示，本实施例还提供了一种图像融合方法的计算运行平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面基于自监督特征解耦的红外可见图像融合方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于自监督特征解耦的红外可见图像融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S中，基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器、基于通道注意力的融合模块、特征解码器四部分组成；

3.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S2中，基于对比学习的特征解耦孪生网络预训练方法中采用融合框架作为编解码网络结构；

4.根据权利要求3所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S2中，基于对比学习的特征解耦孪生网络预训练方法的实际操作中，可使用L1损失或KL散度计算特征间距离，作为监督信号促进编码器收敛；

5.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S3中，交叉注意力特征补充模块采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息，具体操作如下：

PE_(pos，2i)＝sin(pos/10000^2i/d)，PE_(pos，2i+1)＝cos(pos/10000^2i/d)

其中，pos代表编码位置，i为编码长度；

重建后的可见光特征计算如下：

其中，W_Q、W_K、W_V分别为空间转换矩阵，d为输入向量维度；

6.根据权利要求5所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S4中，基于通道注意力的特征融合方法对特征编码器求得的红外纹理特征与可见光纹理、颜色特征，在通道自注意力机制的基础上进行通道拼接融合，计算方法为：

7.根据权利要求6所述的基于自监督特征解耦的红外可见图像融合方法，其特征在于，所述S4中，基于通道注意力的特征融合方法分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵S_{inf_tex}，S_{vis_tex}，S_{vis_col}，将其拼接后输入权重学习单元进行权重分配，随后将其广播为特征图大小，按照逐元素乘法，对按通道拼接的融合特征进行特征加权：