CN117115065A

CN117115065A - 基于聚焦损失函数约束的可见光和红外图像的融合方法

Info

Publication number: CN117115065A
Application number: CN202311386447.2A
Authority: CN
Inventors: 戴闻杰; 张毅函; 张茜; 李汶锦
Original assignee: Ningbo Vichnet Technology Co ltd; University of Nottingham Ningbo China
Current assignee: Ningbo Vichnet Technology Co ltd; University of Nottingham Ningbo China
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2023-11-24
Anticipated expiration: 2043-10-25
Also published as: CN117115065B

Abstract

本申请公开了一种基于聚焦损失函数约束的可见光和红外图像的融合方法，利用卷积神经网络进行图像融合包括如下步骤：输入可见光图像和红外图像；利用自注意力机制对可见光图像和红外图像进行关键特征的聚合，并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示；将原始输入与潜在空间特征表示进行特征重建，进而得到富含纹理信息和热信息的融合图像。通过引入自注意力和交叉注意力机制，可以更好的提取并保留两种模态的重要信息，进而生成更高质量的融合图像。创造性地在融合图像重建过程中提出了聚焦损失，使得融合图像得以区分目标区域（如行人，车辆）与背景，解决了现有融合算法输出结果辨识度低的问题。

Description

基于聚焦损失函数约束的可见光和红外图像的融合方法

技术领域

本申请涉及图像信息处理技术领域，尤其是涉及一种基于聚焦损失函数约束的可见光和红外图像的融合方法。

背景技术

随着科技的发展，摄像技术的应用十分的广泛；例如监控摄像头和汽车的行车记录仪等。

在传统的摄像视频源中，一般只提供单一模态图像（可见光图像或红外图像）。可见光图像虽然可以提供丰富的纹理和上下文信息，但在光照条件差时往往难以对画面中的物体进行准确识别。相比之下，红外图像可以捕捉物体发出的热辐射，但由于其分辨率一般较低，缺乏可见光通道所拥有的纹理信息。基于此，现有技术提供了图像融合技术，就是将多个领域的图像信息融合成一张图像的方法。

目前基于深度学习算法的数据驱动型图像融合技术存在以下的一些缺陷问题：

（1）缺乏突出显著区域（含有更多语义信息的区域）的能力，导致目标区域对比度低且细节上存在模糊现象，不利于增强下游检测任务的效果。

（2）现有多模态图像融合网络中的注意力模块是分别对各个输入通道进行平均池化和线性变换计算关联权重实现的，忽略了提取及利用模态内部和模态间的空间和语义关系。

（3）仍未解决在不同场景下所需的参数优化问题。如果不针对特定场景下的图像输入进行参数调整，现有的融合算法普遍保留了过多的可见光通道的纹理信息，使得低光区域依然不可辨识，或是保留了过多的红外通道信息，导致融合图像缺乏纹理信息。

发明内容

本申请的其中一个目的在于提供一种能够解决上述背景技术中至少一个缺陷问题的可见光和红外图像融合的方法。

为达到上述的目的，本申请采用的技术方案为：一种基于聚焦损失函数约束的可见光和红外图像的融合方法，利用卷积神经网络进行图像融合包括如下步骤：

S100：输入可见光图像和红外图像；

S200：利用自注意力机制对可见光图像和红外图像进行关键特征的提取，并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示；

S300：将步骤S100的输入与潜在空间特征表示进行特征重建，进而得到富含纹理信息和热信息的融合图像。

优选的，步骤S200中利用自注意力机制进行关键特征聚合的过程如下：

S210：将输入的可见光图像和红外图像均分割成多个小的图像块；

S220：利用自注意力机制分别将可见光通道和红外通道对应的各图像块中的关键特征进行提取；

S230：对可见光通道和红外通道分别叠加权重，以强调图像在不同通道所对应的特征信息。

优选的，步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下：

S231：利用特征提取模块分别对步骤S100中输入的可见光图像和红外图像进行特征提取与聚合；

S232：将步骤S231聚合的双通道特征与步骤S220提取的关键特征按照通道对应进行相乘。

优选的，在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下：

S240：根据可见光通道和红外通道分别设置两个对应的交叉注意力模块和；

S250：将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块的查询/>，将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的键/>和值/>；将经过自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的查询/>，将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块/>的键/>和值/>；

S260：通过权重矩阵将交叉注意力模块/>和/>的输出连接以得到潜在空间特征表示。

优选的，步骤S300的特征重建包括如下过程：

S310：对可见光图像和红外图像的原始特征进行混合，以得到原始混合输出；

S320：将原始混合输出与交叉注意力机制的输出进行相乘；

S330：将步骤S320的结果传递至图像重新工作层中进行特征重建，以得到所需的融合图像。

优选的，步骤S310中利用线性插值得到原始混合输出的公式如下：

；

式中，表示可见光图像的原始特征，/>表示红外图像的原始特征；/>和/>分别为可见光通道和红外通道的权重系数，/>。

优选的，卷积神经网络还通过建立损失函数对整个图像融合过程进行调整；其中，可见光图像的原始特征与融合图像/>之间的损失函数为/>；红外图像的原始特征/>与融合图像/>之间的损失函数为/>；则

；

式中，和/>分别是可见光图像的原始特征/> 和融合图像特征/>之间的曼哈顿距离和欧氏距离；/>和/>分别是红外图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离。

优选的，为了约束融合图像保留可见光和红外模态的有意义信息，进一步突出具有较高温度的物体，在红外图像的曼哈顿距离的计算公式中引入权重/>，权重/>的值与温度成正比，则

；

式中，N表示图像特征中对应的像素数量；表示红外图像的原始特征中像素j对应的特征表示；/>表示融合图像中像素j对应的特征表示； />表示聚焦热力图的权重，取值随区域温度呈比较增加，取值范围为[0.01，1]。

优选的，在卷积神经网络的迭代过程中通过引入常数来增强损失函数/>和的值；则迭代过程中的总损失函数/>定义为：

。

优选的，可见光图像来自可见光源领域，红外图像来自红外光源领域；则可见光源领域和红外光源领域适于共同生成包括多对图像样本的数据集；每对图像样本包括一张可见光图像和一张红外图像；则将数据集输入卷积神经网络中适于得到融合图像集。

与现有技术相比，本申请的有益效果在于：

（1）本方法通过引入注意力机制，可以更好的保留两种模态的重要信息，进而生成更高质量的融合图像，相比于传统的图像融合方法，本方法可以更好地突出富信息区域，提升该区域的可辨识度。

（2）引入交叉注意力机制，以自适应的方式学习来自两种模态的特征映射，模型设计具有通用性。在红外通道和视觉通道图像融合任务中，融合结果同时保留了纹理细节和热信息。

（3）利用数据增强技术，可以进一步的减轻融合图像的噪声，以减少其细节上的模糊现象，从而可以有效的避免或减少图像的失真。

附图说明

图1为本发明的整体融合过程示意图。

图2为本发明其中一张可见光图像的示意图。

图3为本发明图2中可见光图像对应的红外图像的示意图。

图4为本发明图2和图3进行融合后的融合图像的示意图。

具体实施方式

下面，结合具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

在本申请的描述中，需要说明的是，对于方位词，如有术语“中心”、 “横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系，仅是为了便于叙述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作，不能理解为限制本申请的具体保护范围。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请的其中一个优选实施例，如图1至图4所示，一种基于聚焦损失函数约束的可见光和红外图像的融合方法，需要利用到卷积神经网络，即通过建立卷积神经网络模型进行图像融合，具体包括如下步骤：

S100：向卷积神经网络模型中输入可见光图像和红外图像。

S200：卷积神经网络模型中包括有注意力模块，注意力模块可以先利用自注意力机制对可见光图像和红外图像进行关键特征的聚合，然后再通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示。

可以理解的是，可见光图像中的关键特征可以理解为可见光图像中的高光区域；以图2所示的可见光图像为例，可见光图像中的关键特征可以是图像中清晰可见的部分行人和车辆等，非关键特征为树荫下辨识度较低的部分行人和车辆的部分区域。红外图像的关键特征可以理解为红外图像中热辐射较高的区域；以图3所示的红外图像为例，红外图像的关键特征可以是图像中有明显热辐射的行人和车辆等。

应当知道的是，可见光图像和红外图像在进入到注意力模块后，都是被分解为多个小的图像块。因此，利用自注意力机制进行可见光图像的关键特征的提取，就是将包含可见光图像关键特征的多个小的图像块进行聚合，以得到可见光图像的关键特征所对应的较为完整的局部图像信息。同理，利用自注意力机制进行红外图像的关键特征的提取，就是将包含红外图像关键特征的多个小的图像块进行聚合，以得到红外图像的关键特征所对应的较为完整的局部图像信息。

而交叉注意力机制就是将可见光图像的关键特征与红外图像的关键特征进行交叉特征提取与聚合，进而可以得到一个包含可见光图像的高光区域和红外图像的高热辐射区域的潜在空间特征表示。

上述的潜在空间特征表示中可能不包含可见光的低光区域和红外图像的低热辐射区域；这两个区域之间存在重叠，使得上述利用注意力机制最终得到的潜在空间特征表示并不是一个完整的图像；即潜在空间特征表示存在失真的可能。因此，可以通过将原始输入图像与潜在空间特征表示进行融合，以得到包含丰富纹理信息和热信息的完整的融合图像；例如图4所示，在可见光图像中于树荫下的低光区域可以通过红外图像来进行代替，以使得树荫下辨识度较低的行人和车辆轮廓通过红外图像进行展示。

相比较基于人工特征提取及人工参数调节的可见光图像与红外图像融合算法，本方法引入了注意力模块，考虑了可视通道及红外通道两种模态内部和模态间的空间和语义关系，从而更好地保留两种模态的重要信息，进而生成更高质量的融合图像。本方法创造性地在融合图像重建过程中提出了聚焦损失热度图，使得融合图像在得以区分目标区域（如行人，车辆）与背景，解决了现有融合算法输出结果辨识度低的问题。融合图像可以更好地突出富信息区域，提升该区域的可辨识度，以方便用户进行观看。同时，本发明的神经网络可以针对不同场景和输入图像进行自动的参数优化，从而获得更好的视觉效果，具备更好的鲁棒性和泛化能力，适用于各种复杂场景，如夜间环境的行人检测，车辆速度识别等。

综上所述，本方法可以解决当前基于传统算法及深度学习算法的图像融合技术存在的一些局限性，提高融合图像的质量和清晰度，更好的突出富信息区域，且拥有更高的泛化能力，具有重要的应用价值。

本申请的其中一个实施例，如图1所示，视频的实质就是多帧图像的组合；因此，本方法不仅能够直接用于两种模态的图像的融合，也可以应用于两种模态的视频融合。

视频源包括可见光视频源和红外视频源，可见光视频源来自于可见光源领域，红外视频源来自红外光源领域/>。则可见光视频源可以分解为包括多帧即多张可见光图像#1~#n的图像集/>，则可见光图像/>通过表达式可以表示为/>。红外视频源可以分解为包括多帧即多张红外图像#1~#n的图像集/>，则红外图像/>通过表达式可以表示为/>。

可见光图像#i和红外图像#i是同帧的两种不同模态的图像，二者可以共同形成一对图像样本。因此，通过上述的可见光视频源和红外视频源可以共同生成包括多对图像样本的数据集。则将数据集输入卷积神经网络中，并通过图像融合过程可以得到包括富含纹理信息和热信息的融合图像集，即融合视频。

为了方便后续内容的描述，将以可见光图像#i和红外图像#i的融合为例进行说明。

本实施例中，注意力模块主要包括自注意力模块和交叉注意力模块。为了方便理解，下面可以对自注意模块和交叉注意力模块的具体工作过程进行详细的描述。

本申请的其中一个实施例，如图1所示，步骤S200中利用自注意力机制进行关键特征聚合的过程如下：

S210：根据可见光图像和红外图像对应的可见光通道和红外通道分别设置两个自注意力模块和/>。两个自注意力模块可以分别将输入的可见光图像和红外图像分割成多个小的图像块，以使得可见光图像的原始特征/>和红外图像的原始特征/>被分解或分散。

S220：然后自注意力模块可以利用自注意力机制分别将可见光通道和红外通道对应的各图像块中的关键特征进行聚合。

S230：最后自注意力模块可以对可见光通道和红外通道分别叠加权重，以强调图像在不同通道所对应的特征信息。

可以理解的是，自注意力模块是一种使用自注意力机制来提取图像特征的神经网络结构。通过将图像划分为一系列更小的图像块，并在各图像块间使用自注意力机制来聚合信息，旨在通过整合整个图像的富信息区域和全局上下文信息来提取图像的重要特征。将其利用到本方法中，可以帮助从可见光和红外图像中分别提取关键的特征表示。通过在样本上叠加权重，可见光通道可以强调更多的纹理信息，而红外通道可以保留更多的热辐射信息。这样不仅可以为下一步的训练提供了更明显的特征信息，还可以使模型集中于更具信息量的区域，同时忽略不重要的特征，最终提高了融合结果的质量。

本实施例中，如图1所示，步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下：

S231：卷积神经网络模型还包括特征提取模块，利用特征提取模块可以分别对步骤S100中输入的可见光图像的原始特征和红外图像的原始特征/>进行特征提取。

S232：将步骤S231提取的特征与步骤S220聚合的关键特征按照通道对应进行相乘，进而可以对步骤S220中聚合的关键特征进行增强；此时对可见光图像进行聚合的关键特征可以表示为，对红外图像进行聚合的关键特征可以表示为/>。

为了方便理解，可以通过参数化进行示例说明。可以将可见光图像的高光区域以及红外图像的高热辐射区域定义为a₁，将可见光图像的低光区域以及红外图像的低热辐射区域定义为b₁；将可见光图像的低光区域以及对应红外图像的高热辐射区域定义为c₁。将自注意力模块聚合的可见光图像以及红外图像的关键特征定义为a₂，将自注意力模块未聚合的可见光图像以及红外图像的非关键特征定义为b₂。a₁和a₂的值均设定大于1，b₁的值设定小于1，b₂的值设定小于1或等于0。则上述的步骤S232可以看作成a₁和a₂的相乘以及b₁和b₂的相乘；其中，a₁·a₂的值必然大于a₁或a₂的值，b₁·b₂的值必然小于b₁或b₂的值。即通过步骤S230对可见光通道和红外通道进行叠加权重，可以有效的对可见光图像和红外图像对应的关键特征进行增强，进而为下一步的训练提供更明显的特征信息，以便于模型可以集中于更具信息的区域，同时忽略不重要的特征，最终提高融合图像的质量。同时，c₁=a₁+b₁，则c₁·a₁的值必然是大于c₁的；即可以将可见光图像的低光区域与红外图像的高热辐射区域进行融合，融合网络的目标还包括增强低可见光高热辐射区域。

本申请的其中一个实施例，如图1所示，在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下：

S240：根据可见光通道和红外通道分别设置两个对应的交叉注意力模块和。

S250：将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块的查询/>，将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的键/>和值/>；将经过自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的查询/>，将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块/>的键/>和值/>。

S260：通过权重矩阵将交叉注意力模块/>和/>的输出连接以得到潜在空间特征表示；潜在空间特征表示包含来自两种模态的结构化信息。

可以理解的是，交叉注意力模块以自适应的方式同时增强了来自两种模态的特征映射，使得模态的设计具有通用性，同时保留了纹理细节和热信息。

本申请的其中一个实施例，如图1所示，步骤S300的特征重建包括如下过程：

S310：对可见光图像和红外图像的原始特征进行混合，以得到原始混合输出。

S320：将得到的原始混合输出与交叉注意力机制的输出进行相乘。

可以理解的是，注意力机制主要是将可见光图像的高光区域和红外图像的高热辐射区域进行混合，而可见光图像的低光区域和红外图像的低热辐射区域容易被忽略，进而在进行图像的融合时，容易造成图像的失真。因此，在进行融合图像的特征重建时，通过引入可见光图像和红外图像的原始特征来与潜在空间特征表示进行补充，一方面可以保证融合的图像不失真，另一个方面还可以对可见光图像和红外图像的关键特征再次进行加强，以进一步的降低融合图像的噪声。

本实施例中，步骤S310中可见光图像和红外图像的原始特征的混合方式有多种。其中一种可以通过线性插值的方式来实现，则利用线性插值得到原始混合输出的公式如下：

式中，和/>分别为可见光通道和红外通道的权重系数，/>。

可以理解的是，Mixup是一种常用的数据增强方法，用于解决样本中存在的噪声样本会影响模型的性能的问题。此设计可以显著提升模型的泛化性，尤其是当训练集与测试集数据分布有显著差距时。这种数据增强方法的重要特点是，生成的新样本在特征空间上呈现平滑的过渡。即本申请中的可见光图像和红外图像在利用Mixup方法进行特征混合后，可以保证重叠区域具有较高的融合效果，避免或降低重叠区域在融合图像中失真。

本申请的其中一个实施例，如图1所示，卷积神经网络还通过建立损失函数对整个图像融合过程进行调整；其中，可见光图像的原始特征与融合图像/>之间的损失函数为；红外图像的原始特征/>与融合图像/>之间的损失函数为/>；则

。

则整个图像融合过程中的总损失函数。

式中，和/>分别是可见光图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离；/>和/>分别是红外图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离。

具体的，可见光图像的原始特征和融合图像特征/>之间的曼哈顿距离/>和欧氏距离/>的具体计算公式如下：

。

式中，N表示图像特征中对应的像素数量；表示可见光图像的原始特征中像素j对应的特征表示；/>表示融合图像中像素j对应的特征表示。

同理，红外图像的原始特征和融合图像特征/>之间的曼哈顿距离/>和欧氏距离/>的具体计算公式如下：

。

式中，表示红外图像的原始特征中像素j对应的特征表示。

本实施例中，为突出温度较高的对象，在进行红外图像的曼哈顿距离的计算公式中引入权重/>，权重/>的值与温度成正比，则

；式中， />表示聚焦热力图的权重，取值可以随区域的温度呈比例增加，取值范围为[0.01，1]。

可以理解的是，在整个的图像融合过程中，可以将红外图像归一化为热图。则为了防止某些区域的损失消失，可以将权重的下限设置为0.01。通过引入权重/>的设计，可以使红外图像的输出突出显示温度较高的对象，如行人和车辆等。这些对象通常是下游识别任务所需的主要信息。因此，通过引入权重/>的设计通过增强红外图像的高热辐射区域，以补偿可见光通道中对象不清晰或缺乏细节的问题。

本实施例中，随着卷积神经网络的迭代，当权重减小导致损失值非常小时，可能会出现梯度消失的问题。为了避免这个问题，可以采用一个常数来增加损失函数/>的值。同时，除了检测行人的存在外，在进行图像融合时还希望合成图中具有更详细的纹理。因此，可以将相同的常数/>分配给损失函数/>，以实现两种模式之间的平衡。则总损失函数的定义为：

。

以上描述了本申请的基本原理、主要特征和本申请的优点。本行业的技术人员应该了解，本申请不受上述实施例的限制，上述实施例和说明书中描述的只是本申请的原理，在不脱离本申请精神和范围的前提下本申请还会有各种变化和改进，这些变化和改进都落入要求保护的本申请的范围内。本申请要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：利用卷积神经网络进行图像融合包括如下步骤：

S100：输入可见光图像和红外图像；

S200：利用自注意力机制对可见光图像和红外图像进行关键特征的聚合，并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示；

S300：将步骤S100的输入与潜在空间特征表示进行特征重建，进而得到富含纹理信息和热信息的融合图像；

步骤S300的特征重建包括如下过程：

S320：将原始混合输出与交叉注意力机制的输出进行相乘；

2.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：步骤S200中利用自注意力机制进行关键特征聚合的过程如下：

3.如权利要求2所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下：

4.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下：

S240：根据可见光通道和红外通道分别设置两个对应的交叉注意力模块和/>；

S250：将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块/>的查询/>，将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的键/>和值/>；以及

将经过自注意力机制聚合的可见光图像的特征表示作为交叉注意力模块/>的查询/>，将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块/>的键/>和值/>；

S260：通过权重矩阵将交叉注意力模块/>和/>的输出进行连接以得到潜在空间特征表示。

5.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：步骤S310中利用线性插值得到原始混合输出的公式如下：

；

6.如权利要求1-5任一项所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：卷积神经网络通过建立损失函数对整个图像融合过程进行调整；其中，可见光图像的原始特征与融合图像/>之间的损失函数为/>；红外图像的原始特征/>与融合图像/>之间的损失函数为/>；则

；

7.如权利要求6所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：为了约束融合图像保留可见光和红外模态的有意义信息，在红外图像的曼哈顿距离的计算公式中引入权重/>，权重/>的值与温度成正比，则

；

式中，N表示图像特征中对应的像素数量；表示红外图像的原始特征中像素j对应的特征表示；/>表示融合图像中像素j对应的特征表示； />表示聚焦热力图的权重，取值随区域温度呈比例增加，取值范围为[0.01，1]。

8.如权利要求6所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：在卷积神经网络的迭代过程中通过引入常数来增强损失函数/>和/>的值；则迭代过程中的总损失函数/>定义为：

。

9.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法，其特征在于：可见光图像来自可见光源领域，红外图像来自红外光源领域；则可见光源领域和红外光源领域适于共同生成包括多对图像样本的数据集；每对图像样本包括一张可见光图像和一张红外图像；则将数据集输入卷积神经网络中适于得到融合图像集。