CN117274759A

CN117274759A - 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统

Info

Publication number: CN117274759A
Application number: CN202311223768.0A
Authority: CN
Inventors: 周士华; 姜洋; 李嘉伟; 李琛
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-22

Abstract

本发明公开了一种基于蒸馏‑融合‑语义联合驱动的红外与可见光图像融合系统，包括教师网络、学生网络和语义分割网络；所述教师网络用于监督学生网络训练和特征传输，实现较强的特征提取和图像重建能力，并保障特征能够得到更好的延续；所述学生网络通过蒸馏操作，将教师网络传递的特征加以利用，进一步训练以提取源图像的目标和纹理特征并生成融合图像；所述语义分割网络对生成的融合图像进行语义约束，以保证学生网络获得良好的融合性能和语义特性。本发明提出了一种蒸馏‑融合‑语义联合驱动网络架构，用于实现红外与可见光图像融合任务。同时考虑了特征传递、特征融合和高级语义的要求。

Description

一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统

技术领域

本发明涉及图像融合技术领域，具体涉及一种基于蒸馏-融合-语义联合驱动的网络架构，用于红外与可见光图像融合。

背景技术

红外与可见光图像融合作为一种图像增强技术，旨在将两种不同模态的图像合并成一幅包含丰富视觉信息、质量较高的融合图像。其中，红外与可见光图像作为重要的源图像，其对比度、纹理和亮度等方面有所不同。红外图像由红外传感器获取，可以探测目标的热辐射。然而，红外图像分辨率较低，场景表征能力较弱。相比之下，可见光图像可以提供更多视觉细节，却对环境干扰较为敏感，容易受到不利因素的影响。为了弥补不足，通过图像融合技术可以有效地将两种图像融合，更全面的理解复杂环境和场景。因此在医学诊断、目标检测和跟踪、搜索救援等领域具有广泛的实际应用。

红外与可见光图像融合的关键在于将两种图像有效地结合以提供更全面、清晰的图像。在过去的几十年里，研究人员提出了很多方法来解决红外与可见光图像融合任务，这些方法可以分为三类：传统图像融合系统、基于深度学习的融合系统和与高级视觉任务联合训练的融合系统。

传统图像融合系统通过图像处理算法来计算和融合图像信息，以获得融合结果。这些方法可以对像素进行加权融合，也可以将图像变换后在变换域中融合，还可以依据一定的规则进行融合。由于这些方法不受资源的限制，满足了实时性需求。然而，这些方法通常需要手工设计和制定融合规则，灵活性和自适应性较低。此外，由于没有充分考虑源图像之间的特征差异，以及不能适应复杂的场景需求，传统融合系统的应用往往受到限制。

为了弥补传统融合系统的不足，近年来，深度学习技术的发展为提升融合性能提供了可能性。基于深度学习的融合系统利用深度神经网络强大的特征提取和重构能力，显著改变图像质量，提高场景理解，解决了无需人工干预融合过程的问题。然而，这些方法在实现图像融合任务时无法满足高级视觉任务的需求，忽略了高级视觉任务所需的信息。

最近，研究人员提出了许多与高级视觉任务联合训练的融合系统，以尽可能地保留语义等信息。这些方法同时满足图像融合与语义分割，或图像融合与目标检测的需求，通过联合训练的方式进一步提升融合图像的视觉质量。虽然这些方法已经展现了出色的融合性能，但它们仍然存在一些紧迫的挑战。首先，卷积神经网络从局部提取图像特征，而Transformer融合网络能够借助自注意力优势捕捉全局依赖，但较少从频率分量角度理解特征。其次，教师网络和分割网络传递的特征和语义信息利用率较低，不利于学生网络实现更出色的融合性能和更高的运行效率。此外，针对红外与可见光图像融合设计的特征蒸馏，其泛化能力不足，无法更好的实现医学图像融合。

发明内容

本发明的目的在于，提出了一种将知识蒸馏与语义分割相结合的融合框架，在保证特征转移的同时，关注具有特定语义的区域块，重点捕获显著目标和保留纹理细节，促进特征信息和语义信息的综合利用，提高融合性能。

为实现上述目的，本申请提出的一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，包括教师网络、学生网络和语义分割网络；所述教师网络用于监督学生网络训练和特征传输，实现较强的特征提取和图像重建能力，并保障特征能够得到更好的延续；所述学生网络通过蒸馏操作，将教师网络传递的特征加以利用，进一步训练以提取源图像的目标和纹理特征并生成融合图像；所述语义分割网络对生成的融合图像进行语义约束，以保证学生网络获得良好的融合性能和语义特性。

进一步地，所述教师网络的编码器部分包括模态差分块、光谱变换块和效率注意力块；

所述模态差分块用于获得不同模态图像之间的差异，提取公共特征和互补特征，对不同模态图像集成互补特征；

所述光谱变换块用于从光谱空间捕获纹理和边缘信息；首先利用快速傅里叶变换将特征图从物理空间映射到光谱空间，再确定每个频率的分量，最后利用逆变换转换为物理空间，实现捕捉图像中不同频率分量的功能；

所述效率注意力块用于从物理空间捕获纹理和边缘信息；通过增加头数量和改变Q、K和V值的运算顺序实现。

进一步地，所述教师网络的解码器部分包括卷积层和两个效率注意力块组成，用于集成和重构特征以生成融合图像。

进一步地，所述学生网络的编码器部分包括红外目标块和可见细节块；

所述红外目标块包括Scharr滤波器、多个卷积层和跳过连接层；Scharr滤波器用于提取结构、轮廓和显著区域的信息；

所述可见细节块则包含Sobel滤波器和密集连接层，保证细节信息提取的同时加强了特征的传递。

进一步地，所述跳过连接层和密集连接层通过滤波器关注不同模态图像的梯度和强度信息。

更进一步地，所述学生网络的解码器部分包括跳过连接层和四个卷积层组成，每个卷积层的内核大小为3×3；除了最后一个卷积层外，其他卷积层均由ReLU激活。

更进一步地，所述语义分割网络，通过预训练的语义分割扩张残差网络获取语义分割图，以确定融合图像的语义内容。

更进一步地，所述教师网络细化过程量化为：

其中，I_r和I_v分别表示输入的红外与可见光图像；M(·)表示模态差分块，S(·)为光谱变换块，E(·)表示效率注意力块；和/>为模态差分获得的特征图；/>和/>为经过光谱变换块和效率注意力块获得的特征图；cat(·)表示通道维度中的级联，F_ft表示级联后的结果；DT(·)表示教师网络解码器，利用解码器生成教师网络融合图像/>中间特征图和/>

更进一步地，学生网络细化过程量化为：

F_rs＝conv(I_r),F_vs＝conv(I_v)

其中，conv(·)表示卷积操作，经卷积后获得特征F_rs和F_vs；I(·)和V(•)分别为红外目标块和可见细节块；scharr(•)和sobel(·)为滤波器；和/>为经过两个模块和滤波器所得到的模态特征；/>和/>是用于跳过连接的特征；F_fs为学生网络融合后的特征；DS(•)表示学生网络的解码器，/>为学生网络经过重构后生成的融合图像；/>和/>表示学生网络中间特征，用于与教师网络的中间特征计算损失。

更进一步地，利用融合损失L_fus和蒸馏语义损失L_dise对蒸馏、融合过程进行约束；其中，用于指导蒸馏和语义分割的蒸馏语义损失表示为：

L_dise＝η(L_de+L_du)+μL_seg

其中，L_de、L_du和Lx_eg分别表示蒸馏特征损失、蒸馏融合损失和特征语义损失；η和μ是平衡每个组件的超参数。

蒸馏特征损失L_de定义为：

其中，||·||₁表示L₁范式；表示特征梯度测量，C指的是特征图的通道数；和/>分别表示教师网络和学生网络的中间特征图；

蒸馏融合损失L_du定义如下：

其中，SSIM(·)表示结构相似度函数，其定义为：

其中，I_*代表源图像I_r、I_v或教师网络的融合图像代表学生网络的融合图像；μ和σ分别表示平均值和标准差；C₁，C₂和C₃是维持稳定的常数；

特征语义损失L_seg定义如下：

其中，n表示批次数量；参数α的作用是给不同类别的样本loss加权重，γ则针对样本预测值，重点关注难分样本loss的优化；

融合损失L_fus定义如下：

L_fus＝t₁L_pix+t₂L_int+t₃L_grad+t₄L_ssim

其中，t₁、t₂、t₃和t₄为平衡每个损失的超参数；L_pix、L_int、L_grad和L_ssim分别定义如下：

其中，||·||₁表示L₁范式，max{·}表示按元素最大选择；表示Sobel梯度算子，用于测量图像的纹理细节。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：本发明提出了一种蒸馏-融合-语义联合驱动网络架构，用于实现红外与可见光图像融合任务。同时考虑了特征传递、特征融合和高级语义的要求。其设计了教师网络，通过结合光谱变换和效率注意力，实现了在空间域和光谱域中捕获全局和局部特征。为了提高特征利用率，在蒸馏训练时将教师网络的中间特征和融合图像传递到学生网络中，有效监督学生网络训练。学生网络采用双分支机制，同时专注于显著目标和纹理细节的捕获。为了在实现融合的同时满足高级视觉任务的需求，使用分割网络向学生网络传递语义信息，提高融合效果。此外，为了促进特征信息和语义信息的综合利用，使用一种新的蒸馏语义损失函数。该函数有效地约束了蒸馏和分割过程，从而提高了整体融合性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统原理图；

图2为教师网络结构图；

图3为教师网络的编码器部分结构图；

图4为学生网络结构图；

图5为学生网络的编码器部分结构图；

图6为在MSRS图像数据集上本系统和其他先进的融合系统间的定性比较图；

图7为在M3FD和TNO图像数据集上本系统和其他先进的融合系统间的定性比较图；

图8为在M3FD和TNO数据集上本系统和其他先进的融合系统间的定量比较图；

图9为在MSRS数据集上本系统和其他先进的融合系统间的语义分割定性比较图。

具体实施方法

下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例，但应当理解，描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。

本实施例基于蒸馏-融合-语义联合驱动，提出了一种将知识蒸馏与语义分割相结合的融合框架；在保证特征转移的同时，关注具有特定语义的区域块，从而训练轻量级学生网络。在提取过程中，利用语义分割模型进行监督，有效地理解感兴趣区域，显著提高了学生网络的融合性能。其设计的教师网络可以捕获物理空间和光谱维度的全局和局部特征。设计的学生网络，重点捕获显著目标和保留纹理细节。通过蒸馏特征、蒸馏融合和语义特征组成的蒸馏语义损失函数来约束蒸馏训练过程，促进特征信息和语义信息的综合利用，提高融合性能。

如图1所示，一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，包括教师网络、学生网络和语义分割网络；

教师网络作为监督者，承担监督训练和特征传递的任务。教师网络通过自适应的整合物理维度和光谱维度的中间特征，从全局和频率分量的角度理解特征，实现优秀的特征提取能力。教师网络整体结构如图2所示。其中，在编码器部分包括模态差分块、光谱变换块和效率注意力块，以捕获局部频率信息和长距离特征依赖关系。

如图3所示，一个示例实施例中，模态差分块用于计算不同模态图像之间的差异，提取公共特征和互补特征。通过对不同模态图像集成互补特征，保证了特征的利用率。此外，光谱变换块和效率注意力块分别负责从光谱空间和物理空间完全捕获纹理和边缘信息，并弥补无法同时从全局和局部提取特征的问题。通过光谱变换块，首先利用快速傅里叶变换将特征图从物理空间映射到光谱空间，再确定每个频率的分量，最后利用逆变换转换为物理空间，实现捕捉图像中不同频率分量的功能。效率注意力块通过增加头数量和改变Q、K和V值的运算顺序，大大减少内存和计算成本。教师网络的解码器部分包括卷积层和两个效率注意力块，目的是集成和重构特征以生成融合图像。

教师网络能够获得纹理信息丰富，质量优异的融合图像。相比之下，学生网络存在细节部分丢失，清晰度低等问题。因此，使用蒸馏操作以提升学生网络的融合性能。学生网络的结构相比教师网络要简单，如图4所示。在学生网络中，编码器部分包括红外目标块和可见细节块，如图5所示两个模块旨在充分提取纹理和目标特征，实现较好的特征提取能力。所述红外目标块包括Scharr滤波器、多个卷积层和跳过连接层；Scharr滤波器用于提取结构、轮廓和显著区域的信息。所述可见细节块则包含Sobel滤波器和密集连接层，保证细节信息提取的同时加强了特征的传递。此外，跳过连接层、密集连接层也使用了滤波器，以重点关注不同模态图像的梯度和强度信息。学生网络的解码器部分包括跳过连接和四个卷积层组成，每个卷积层的内核大小为3×3。除了最后一个卷积层外，其他卷积层均由ReLU激活。

在生成融合图像后，由预训练的语义分割扩张残差网络获取语义分割图，以确定融合图像的语义内容。此外，利用语义约束可以充分捕获语义特征，进一步促进了融合效果。

在本系统中，蒸馏-融合-语义联合驱动需要利用融合损失L_fus和蒸馏语义损失L_dise对蒸馏和融合过程进行约束。蒸馏特征损失L_de用于计算教师网络和学生网络生成的中间特征图差异，以判断特征的有效传输量。对于两个中间特征图，其通道数是对应的。蒸馏融合损失L_du通过测量师生网络的融合图像，确定融合误差。语义损失L_seg用于计算融合图像预测值和groundtruth之间的差异。融合损失L_fus分别从像素、梯度、强度和结构相似性来计算融合图像和源图像间的像素级、纹理、显著区域和结构的差异.

结果说明

本系统首先在MSRS数据集上与十种最先进的红外与可见光图像融合系统进行比较。同时，为了进一步证明本系统的优越性，在M³FD和TNO数据集上选取图像对作进一步验证。在本系统的定性评估中，融合图像由人类视觉系统评估，如图像的目标、亮度和场景的完整性。在MSRS数据集上的定性分析结果如图6所示。图7展示为在M³FD和TNO数据集上的定性分析结果。

与其他系统相比，提出的蒸馏-融合-语义联合驱动网络能够有效保持显著目标和纹理信息，具有更好的场景表示能力。此外，生成的融合图像纹理特征和边缘内容清晰，特征丰富，更符合人类视觉感知。

为了全方位评估所提系统的融合性能，避免主观因素的干扰，本发明还利用定量指标EN、MI、SCD、Q_abf、VIF和SSIM，从信息量、人类视觉感知、结构相似性等角度对融合图像进行评估。使用M³FD和TNO数据集中的测试图像对作为测试集来完成不同的红外与可见光图像融合任务。定量评估结果如图8所示。由图8可以看出，本系统所得的定量结果在MI、Q_abf、VIF和SSIM四个指标上为最优和次优，这表明融合结果在视觉保真度和结构相似性上与源图像最为接近，充分利用了源图像的信息。EN和SCD指标仅以较小的差距跟随，仍然能够将充分的特征集成到融合图像中。

为了进一步探索蒸馏-融合-语义联合驱动架构对语义分割性能的影响，本系统在MSRS数据集上进行了语义分割训练和测试。使用MMSegmentation中DeeplabV3+作为主干网络，并遵照MSRS数据集的设定进行训练和测试。语义分割结果如图9所示。结果表明，在蒸馏过程中增加了语义驱动，融合图像充分获得了显著特征和纹理信息，同时也有效整合了语义特征。这些获取的特征经过充分的重构和利用，提高了分割准确性，并增强了模型感知目标边界的能力。此外，本系统也使用YOLOv7作为基准模型，通过mAP@0.5来比较所提系统的有效性。检测结果拥有较高的精度和准度，展现出极佳的检测性能。本系统还利用医学图像进行融合，证明了所提系统具有较好的融合性能和较强的泛化能力。

因此，在多个数据集上的大量实验证明，本系统所提出的架构具有特征利用、融合性能、运行效率和满足语义要求等优越性。生成的融合图像有效地保留了场景细节和显著目标，确保细节特征清晰。在计算效率方面，所提系统具有出色的运行效率，可以部署到实时融合任务中以满足应用。在医学图像融合、目标检测和语义分割的应用也显示了其较强的泛化能力和在高级视觉任务中的潜力。

以上描述仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

虽然在本申请中权利要求书已针对特征的特定组合而制定，但是应当理解，本公开的范围还包括本文所公开的明确或隐含或对其任何概括的任何新颖特征或特征的任何新颖的组合，不论他是否涉及目前所要求保护的任何权利要求中的相同方案。

Claims

1.一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，包括教师网络、学生网络和语义分割网络；所述教师网络用于监督学生网络训练和特征传输，实现特征提取和图像重建；所述学生网络通过蒸馏操作，将教师网络传递的特征加以利用，进一步训练以提取源图像的目标和纹理特征并生成融合图像；所述语义分割网络对生成的融合图像进行语义约束，以保证学生网络获得融合性能和语义特性。

2.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述教师网络的编码器部分包括模态差分块、光谱变换块和效率注意力块；

3.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述教师网络的解码器部分包括卷积层和两个效率注意力块组成，用于集成和重构特征以生成融合图像。

4.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述学生网络的编码器部分包括红外目标块和可见细节块；

5.根据权利要求4所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述跳过连接层和密集连接层通过滤波器关注不同模态图像的梯度和强度信息。

6.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述学生网络的解码器部分包括跳过连接层和四个卷积层组成，每个卷积层的内核大小为3×3；除了最后一个卷积层外，其他卷积层均由ReLU激活。

7.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述语义分割网络，通过预训练的语义分割扩张残差网络获取语义分割图，以确定融合图像的语义内容。

8.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，所述教师网络细化过程量化为：

其中，I_r和I_v分别表示输入的红外与可见光图像；M(·)表示模态差分块，S(·)为光谱变换块，E(·)表示效率注意力块；和/>为模态差分获得的特征图；/>和/>为经过光谱变换块和效率注意力块获得的特征图；cat(·)表示通道维度中的级联，F_ft表示级联后的结果；DT(·)表示教师网络解码器，利用解码器生成教师网络融合图像/>中间特征图/>和

9.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统，其特征在于，学生网络细化过程量化为：