CN117115065B - 基于聚焦损失函数约束的可见光和红外图像的融合方法 - Google Patents
基于聚焦损失函数约束的可见光和红外图像的融合方法 Download PDFInfo
- Publication number
- CN117115065B CN117115065B CN202311386447.2A CN202311386447A CN117115065B CN 117115065 B CN117115065 B CN 117115065B CN 202311386447 A CN202311386447 A CN 202311386447A CN 117115065 B CN117115065 B CN 117115065B
- Authority
- CN
- China
- Prior art keywords
- image
- visible light
- infrared
- fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000007246 mechanism Effects 0.000 claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000002156 mixing Methods 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 6
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000005855 radiation Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于聚焦损失函数约束的可见光和红外图像的融合方法,利用卷积神经网络进行图像融合包括如下步骤:输入可见光图像和红外图像;利用自注意力机制对可见光图像和红外图像进行关键特征的聚合,并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示;将原始输入与潜在空间特征表示进行特征重建,进而得到富含纹理信息和热信息的融合图像。通过引入自注意力和交叉注意力机制,可以更好的提取并保留两种模态的重要信息,进而生成更高质量的融合图像。创造性地在融合图像重建过程中提出了聚焦损失,使得融合图像得以区分目标区域(如行人,车辆)与背景,解决了现有融合算法输出结果辨识度低的问题。
Description
技术领域
本申请涉及图像信息处理技术领域,尤其是涉及一种基于聚焦损失函数约束的可见光和红外图像的融合方法。
背景技术
随着科技的发展,摄像技术的应用十分的广泛;例如监控摄像头和汽车的行车记录仪等。
在传统的摄像视频源中,一般只提供单一模态图像(可见光图像或红外图像)。可见光图像虽然可以提供丰富的纹理和上下文信息,但在光照条件差时往往难以对画面中的物体进行准确识别。相比之下,红外图像可以捕捉物体发出的热辐射,但由于其分辨率一般较低,缺乏可见光通道所拥有的纹理信息。基于此,现有技术提供了图像融合技术,就是将多个领域的图像信息融合成一张图像的方法。
目前基于深度学习算法的数据驱动型图像融合技术存在以下的一些缺陷问题:
(1)缺乏突出显著区域(含有更多语义信息的区域)的能力,导致目标区域对比度低且细节上存在模糊现象,不利于增强下游检测任务的效果。
(2)现有多模态图像融合网络中的注意力模块是分别对各个输入通道进行平均池化和线性变换计算关联权重实现的,忽略了提取及利用模态内部和模态间的空间和语义关系。
(3)仍未解决在不同场景下所需的参数优化问题。如果不针对特定场景下的图像输入进行参数调整,现有的融合算法普遍保留了过多的可见光通道的纹理信息,使得低光区域依然不可辨识,或是保留了过多的红外通道信息,导致融合图像缺乏纹理信息。
发明内容
本申请的其中一个目的在于提供一种能够解决上述背景技术中至少一个缺陷问题的可见光和红外图像融合的方法。
为达到上述的目的,本申请采用的技术方案为:一种基于聚焦损失函数约束的可见光和红外图像的融合方法,利用卷积神经网络进行图像融合包括如下步骤:
S100:输入可见光图像和红外图像;
S200:利用自注意力机制对可见光图像和红外图像进行关键特征的提取,并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示;
S300:将步骤S100的输入与潜在空间特征表示进行特征重建,进而得到富含纹理信息和热信息的融合图像。
优选的,步骤S200中利用自注意力机制进行关键特征聚合的过程如下:
S210:将输入的可见光图像和红外图像均分割成多个小的图像块;
S220:利用自注意力机制分别将可见光通道和红外通道对应的各图像块中的关键特征进行提取;
S230:对可见光通道和红外通道分别叠加权重,以强调图像在不同通道所对应的特征信息。
优选的,步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下:
S231:利用特征提取模块分别对步骤S100中输入的可见光图像和红外图像进行特征提取与聚合;
S232:将步骤S231聚合的双通道特征与步骤S220提取的关键特征按照通道对应进行相乘。
优选的,在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下:
S240:根据可见光通道和红外通道分别设置两个对应的交叉注意力模块和;
S250:将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块的查询/>,将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的键/>和值/>;将经过自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的查询/>,将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块/>的键/>和值/>;
S260:通过权重矩阵将交叉注意力模块/>和/>的输出连接以得到潜在空间特征表示。
优选的,步骤S300的特征重建包括如下过程:
S310:对可见光图像和红外图像的原始特征进行混合,以得到原始混合输出;
S320:将原始混合输出与交叉注意力机制的输出进行相乘;
S330:将步骤S320的结果传递至图像重新工作层中进行特征重建,以得到所需的融合图像。
优选的,步骤S310中利用线性插值得到原始混合输出的公式如下:
;
式中,表示可见光图像的原始特征,/>表示红外图像的原始特征;/>和/>分别为可见光通道和红外通道的权重系数,/>。
优选的,卷积神经网络还通过建立损失函数对整个图像融合过程进行调整;其中,可见光图像的原始特征与融合图像/>之间的损失函数为/>;红外图像的原始特征/>与融合图像/>之间的损失函数为/>;则
;
;
式中,和/>分别是可见光图像的原始特征/> 和融合图像特征/>之间的曼哈顿距离和欧氏距离;/>和/>分别是红外图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离。
优选的,为了约束融合图像保留可见光和红外模态的有意义信息,进一步突出具有较高温度的物体,在红外图像的曼哈顿距离的计算公式中引入权重/>,权重/>的值与温度成正比,则
;
式中,N表示图像特征中对应的像素数量;表示红外图像的原始特征中像素j对应的特征表示;/>表示融合图像中像素j对应的特征表示; />表示聚焦热力图的权重,取值随区域温度呈比较增加,取值范围为[0.01,1]。
优选的,在卷积神经网络的迭代过程中通过引入常数来增强损失函数/>和的值;则迭代过程中的总损失函数/>定义为:
。
优选的,可见光图像来自可见光源领域,红外图像来自红外光源领域;则可见光源领域和红外光源领域适于共同生成包括多对图像样本的数据集;每对图像样本包括一张可见光图像和一张红外图像;则将数据集输入卷积神经网络中适于得到融合图像集。
与现有技术相比,本申请的有益效果在于:
(1)本方法通过引入注意力机制,可以更好的保留两种模态的重要信息,进而生成更高质量的融合图像,相比于传统的图像融合方法,本方法可以更好地突出富信息区域,提升该区域的可辨识度。
(2)引入交叉注意力机制,以自适应的方式学习来自两种模态的特征映射,模型设计具有通用性。在红外通道和视觉通道图像融合任务中,融合结果同时保留了纹理细节和热信息。
(3)利用数据增强技术,可以进一步的减轻融合图像的噪声,以减少其细节上的模糊现象,从而可以有效的避免或减少图像的失真。
附图说明
图1为本发明的整体融合过程示意图。
图2为本发明其中一张可见光图像的示意图。
图3为本发明图2中可见光图像对应的红外图像的示意图。
图4为本发明图2和图3进行融合后的融合图像的示意图。
具体实施方式
下面,结合具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
在本申请的描述中,需要说明的是,对于方位词,如有术语“中心”、 “横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系,仅是为了便于叙述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作,不能理解为限制本申请的具体保护范围。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请的其中一个优选实施例,如图1至图4所示,一种基于聚焦损失函数约束的可见光和红外图像的融合方法,需要利用到卷积神经网络,即通过建立卷积神经网络模型进行图像融合,具体包括如下步骤:
S100:向卷积神经网络模型中输入可见光图像和红外图像。
S200:卷积神经网络模型中包括有注意力模块,注意力模块可以先利用自注意力机制对可见光图像和红外图像进行关键特征的聚合,然后再通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示。
S300:将步骤S100的输入与潜在空间特征表示进行特征重建,进而得到富含纹理信息和热信息的融合图像。
可以理解的是,可见光图像中的关键特征可以理解为可见光图像中的高光区域;以图2所示的可见光图像为例,可见光图像中的关键特征可以是图像中清晰可见的部分行人和车辆等,非关键特征为树荫下辨识度较低的部分行人和车辆的部分区域。红外图像的关键特征可以理解为红外图像中热辐射较高的区域;以图3所示的红外图像为例,红外图像的关键特征可以是图像中有明显热辐射的行人和车辆等。
应当知道的是,可见光图像和红外图像在进入到注意力模块后,都是被分解为多个小的图像块。因此,利用自注意力机制进行可见光图像的关键特征的提取,就是将包含可见光图像关键特征的多个小的图像块进行聚合,以得到可见光图像的关键特征所对应的较为完整的局部图像信息。同理,利用自注意力机制进行红外图像的关键特征的提取,就是将包含红外图像关键特征的多个小的图像块进行聚合,以得到红外图像的关键特征所对应的较为完整的局部图像信息。
而交叉注意力机制就是将可见光图像的关键特征与红外图像的关键特征进行交叉特征提取与聚合,进而可以得到一个包含可见光图像的高光区域和红外图像的高热辐射区域的潜在空间特征表示。
上述的潜在空间特征表示中可能不包含可见光的低光区域和红外图像的低热辐射区域;这两个区域之间存在重叠,使得上述利用注意力机制最终得到的潜在空间特征表示并不是一个完整的图像;即潜在空间特征表示存在失真的可能。因此,可以通过将原始输入图像与潜在空间特征表示进行融合,以得到包含丰富纹理信息和热信息的完整的融合图像;例如图4所示,在可见光图像中于树荫下的低光区域可以通过红外图像来进行代替,以使得树荫下辨识度较低的行人和车辆轮廓通过红外图像进行展示。
相比较基于人工特征提取及人工参数调节的可见光图像与红外图像融合算法,本方法引入了注意力模块,考虑了可视通道及红外通道两种模态内部和模态间的空间和语义关系,从而更好地保留两种模态的重要信息,进而生成更高质量的融合图像。本方法创造性地在融合图像重建过程中提出了聚焦损失热度图,使得融合图像在得以区分目标区域(如行人,车辆)与背景,解决了现有融合算法输出结果辨识度低的问题。融合图像可以更好地突出富信息区域,提升该区域的可辨识度,以方便用户进行观看。同时,本发明的神经网络可以针对不同场景和输入图像进行自动的参数优化,从而获得更好的视觉效果,具备更好的鲁棒性和泛化能力,适用于各种复杂场景,如夜间环境的行人检测,车辆速度识别等。
综上所述,本方法可以解决当前基于传统算法及深度学习算法的图像融合技术存在的一些局限性,提高融合图像的质量和清晰度,更好的突出富信息区域,且拥有更高的泛化能力,具有重要的应用价值。
本申请的其中一个实施例,如图1所示,视频的实质就是多帧图像的组合;因此,本方法不仅能够直接用于两种模态的图像的融合,也可以应用于两种模态的视频融合。
视频源包括可见光视频源和红外视频源,可见光视频源来自于可见光源领域,红外视频源来自红外光源领域/>。则可见光视频源可以分解为包括多帧即多张可见光图像#1~#n的图像集/>,则可见光图像/>通过表达式可以表示为/>。红外视频源可以分解为包括多帧即多张红外图像#1~#n的图像集/>,则红外图像/>通过表达式可以表示为/>。
可见光图像#i和红外图像#i是同帧的两种不同模态的图像,二者可以共同形成一对图像样本。因此,通过上述的可见光视频源和红外视频源可以共同生成包括多对图像样本的数据集。则将数据集输入卷积神经网络中,并通过图像融合过程可以得到包括富含纹理信息和热信息的融合图像集,即融合视频。
为了方便后续内容的描述,将以可见光图像#i和红外图像#i的融合为例进行说明。
本实施例中,注意力模块主要包括自注意力模块和交叉注意力模块。为了方便理解,下面可以对自注意模块和交叉注意力模块的具体工作过程进行详细的描述。
本申请的其中一个实施例,如图1所示,步骤S200中利用自注意力机制进行关键特征聚合的过程如下:
S210:根据可见光图像和红外图像对应的可见光通道和红外通道分别设置两个自注意力模块和/>。两个自注意力模块可以分别将输入的可见光图像和红外图像分割成多个小的图像块,以使得可见光图像的原始特征/>和红外图像的原始特征/>被分解或分散。
S220:然后自注意力模块可以利用自注意力机制分别将可见光通道和红外通道对应的各图像块中的关键特征进行聚合。
S230:最后自注意力模块可以对可见光通道和红外通道分别叠加权重,以强调图像在不同通道所对应的特征信息。
可以理解的是,自注意力模块是一种使用自注意力机制来提取图像特征的神经网络结构。通过将图像划分为一系列更小的图像块,并在各图像块间使用自注意力机制来聚合信息,旨在通过整合整个图像的富信息区域和全局上下文信息来提取图像的重要特征。将其利用到本方法中,可以帮助从可见光和红外图像中分别提取关键的特征表示。通过在样本上叠加权重,可见光通道可以强调更多的纹理信息,而红外通道可以保留更多的热辐射信息。这样不仅可以为下一步的训练提供了更明显的特征信息,还可以使模型集中于更具信息量的区域,同时忽略不重要的特征,最终提高了融合结果的质量。
本实施例中,如图1所示,步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下:
S231:卷积神经网络模型还包括特征提取模块,利用特征提取模块可以分别对步骤S100中输入的可见光图像的原始特征和红外图像的原始特征/>进行特征提取。
S232:将步骤S231提取的特征与步骤S220聚合的关键特征按照通道对应进行相乘,进而可以对步骤S220中聚合的关键特征进行增强;此时对可见光图像进行聚合的关键特征可以表示为,对红外图像进行聚合的关键特征可以表示为/>。
为了方便理解,可以通过参数化进行示例说明。可以将可见光图像的高光区域以及红外图像的高热辐射区域定义为a1,将可见光图像的低光区域以及红外图像的低热辐射区域定义为b1;将可见光图像的低光区域以及对应红外图像的高热辐射区域定义为c1。将自注意力模块聚合的可见光图像以及红外图像的关键特征定义为a2,将自注意力模块未聚合的可见光图像以及红外图像的非关键特征定义为b2。a1和a2的值均设定大于1,b1的值设定小于1,b2的值设定小于1或等于0。则上述的步骤S232可以看作成a1和a2的相乘以及b1和b2的相乘;其中,a1·a2的值必然大于a1或a2的值,b1·b2的值必然小于b1或b2的值。即通过步骤S230对可见光通道和红外通道进行叠加权重,可以有效的对可见光图像和红外图像对应的关键特征进行增强,进而为下一步的训练提供更明显的特征信息,以便于模型可以集中于更具信息的区域,同时忽略不重要的特征,最终提高融合图像的质量。同时,c1=a1+b1,则c1·a1的值必然是大于c1的;即可以将可见光图像的低光区域与红外图像的高热辐射区域进行融合,融合网络的目标还包括增强低可见光高热辐射区域。
本申请的其中一个实施例,如图1所示,在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下:
S240:根据可见光通道和红外通道分别设置两个对应的交叉注意力模块和。
S250:将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块的查询/>,将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的键/>和值/>;将经过自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块/>的查询/>,将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块/>的键/>和值/>。
S260:通过权重矩阵将交叉注意力模块/>和/>的输出连接以得到潜在空间特征表示;潜在空间特征表示包含来自两种模态的结构化信息。
可以理解的是,交叉注意力模块以自适应的方式同时增强了来自两种模态的特征映射,使得模态的设计具有通用性,同时保留了纹理细节和热信息。
本申请的其中一个实施例,如图1所示,步骤S300的特征重建包括如下过程:
S310:对可见光图像和红外图像的原始特征进行混合,以得到原始混合输出。
S320:将得到的原始混合输出与交叉注意力机制的输出进行相乘。
S330:将步骤S320的结果传递至图像重新工作层中进行特征重建,以得到所需的融合图像。
可以理解的是,注意力机制主要是将可见光图像的高光区域和红外图像的高热辐射区域进行混合,而可见光图像的低光区域和红外图像的低热辐射区域容易被忽略,进而在进行图像的融合时,容易造成图像的失真。因此,在进行融合图像的特征重建时,通过引入可见光图像和红外图像的原始特征来与潜在空间特征表示进行补充,一方面可以保证融合的图像不失真,另一个方面还可以对可见光图像和红外图像的关键特征再次进行加强,以进一步的降低融合图像的噪声。
本实施例中,步骤S310中可见光图像和红外图像的原始特征的混合方式有多种。其中一种可以通过线性插值的方式来实现,则利用线性插值得到原始混合输出的公式如下:
式中,和/>分别为可见光通道和红外通道的权重系数,/>。
可以理解的是,Mixup是一种常用的数据增强方法,用于解决样本中存在的噪声样本会影响模型的性能的问题。此设计可以显著提升模型的泛化性,尤其是当训练集与测试集数据分布有显著差距时。这种数据增强方法的重要特点是,生成的新样本在特征空间上呈现平滑的过渡。即本申请中的可见光图像和红外图像在利用Mixup方法进行特征混合后,可以保证重叠区域具有较高的融合效果,避免或降低重叠区域在融合图像中失真。
本申请的其中一个实施例,如图1所示,卷积神经网络还通过建立损失函数对整个图像融合过程进行调整;其中,可见光图像的原始特征与融合图像/>之间的损失函数为;红外图像的原始特征/>与融合图像/>之间的损失函数为/>;则
。
。
则整个图像融合过程中的总损失函数。
式中, 和/>分别是可见光图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离;/>和/>分别是红外图像的原始特征/>和融合图像特征/>之间的曼哈顿距离和欧氏距离。
具体的,可见光图像的原始特征和融合图像特征/>之间的曼哈顿距离/>和欧氏距离/>的具体计算公式如下:
。
。
式中,N表示图像特征中对应的像素数量;表示可见光图像的原始特征中像素j对应的特征表示;/>表示融合图像中像素j对应的特征表示。
同理,红外图像的原始特征和融合图像特征/>之间的曼哈顿距离/>和欧氏距离/>的具体计算公式如下:
。
。
式中,表示红外图像的原始特征中像素j对应的特征表示。
本实施例中,为突出温度较高的对象,在进行红外图像的曼哈顿距离的计算公式中引入权重/>,权重/>的值与温度成正比,则
;式中, />表示聚焦热力图的权重,取值可以随区域的温度呈比例增加,取值范围为[0.01,1]。
可以理解的是,在整个的图像融合过程中,可以将红外图像归一化为热图。则为了防止某些区域的损失消失,可以将权重的下限设置为0.01。通过引入权重/>的设计,可以使红外图像的输出突出显示温度较高的对象,如行人和车辆等。这些对象通常是下游识别任务所需的主要信息。因此,通过引入权重/>的设计通过增强红外图像的高热辐射区域,以补偿可见光通道中对象不清晰或缺乏细节的问题。
本实施例中,随着卷积神经网络的迭代,当权重减小导致损失值非常小时,可能会出现梯度消失的问题。为了避免这个问题,可以采用一个常数来增加损失函数/>的值。同时,除了检测行人的存在外,在进行图像融合时还希望合成图中具有更详细的纹理。因此,可以将相同的常数/>分配给损失函数/>,以实现两种模式之间的平衡。则总损失函数的定义为:
。
以上描述了本申请的基本原理、主要特征和本申请的优点。本行业的技术人员应该了解,本申请不受上述实施例的限制,上述实施例和说明书中描述的只是本申请的原理,在不脱离本申请精神和范围的前提下本申请还会有各种变化和改进,这些变化和改进都落入要求保护的本申请的范围内。本申请要求的保护范围由所附的权利要求书及其等同物界定。
Claims (6)
1.一种基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:利用卷积神经网络进行图像融合包括如下步骤:
S100:输入可见光图像和红外图像;
S200:利用自注意力机制对可见光图像和红外图像进行关键特征的聚合,并通过交叉注意力机制对提取的关键特征进行混合以得到潜在空间特征表示;
S300:将步骤S100的输入与潜在空间特征表示进行特征重建,进而得到富含纹理信息和热信息的融合图像;
步骤S200中利用自注意力机制进行关键特征聚合的过程如下:
S210:将输入的可见光图像和红外图像均分割成多个小的图像块;
S220:利用自注意力机制分别将可见光通道和红外通道对应的各图像块中的关键特征进行提取;
S230:对可见光通道和红外通道分别叠加权重,以强调图像在不同通道所对应的特征信息;
步骤S230中对可见光通道和红外通道进行叠加权重的步骤如下:
S231:利用特征提取模块分别对步骤S100中输入的可见光图像和红外图像进行特征提取与聚合;
S232:将步骤S231聚合的双通道特征与步骤S220提取的关键特征按照通道对应进行相乘;
在步骤S200中利用交叉注意力机制进行关键特征混合的过程如下:
S240:根据可见光通道和红外通道分别设置两个对应的交叉注意力模块Bvi和Bir;
S250:将经过自注意力机制聚合的红外图像的特征表示作为交叉注意力模块Bvi的查询Q,将自注意力机制聚合的可见光图像的特征表示/>作为交叉注意力模块Bvi的键K和值V;以及
将经过自注意力机制聚合的可见光图像的特征表示作为交叉注意力模块Bir的查询Q,将自注意力机制提取的红外图像的特征表示/>作为交叉注意力模块Bir的键K和值V;
S260:通过权重矩阵xi´将交叉注意力模块Bvi和Bir的输出进行连接以得到潜在空间特征表示;
步骤S300的特征重建包括如下过程:
S310:对可见光图像和红外图像的原始特征进行混合,以得到原始混合输出;
S320:将原始混合输出与交叉注意力机制的输出进行相乘;
S330:将步骤S320的结果传递至图像重新工作层中进行特征重建,以得到所需的融合图像。
2.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:步骤S310中利用线性插值得到原始混合输出的公式如下:
;
式中,表示可见光图像的原始特征,/>表示红外图像的原始特征;λ和(1-λ)分别为可见光通道和红外通道的权重系数,λ∈[0,1]。
3.如权利要求1或2所述的基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:卷积神经网络通过建立损失函数对整个图像融合过程进行调整;其中,可见光图像的原始特征与融合图像/>之间的损失函数为Lvi;红外图像的原始特征/>与融合图像/>之间的损失函数为Lir;则
;
;
式中,和 /> 分别是可见光图像的原始特征 /> 和融合图像特征 /> 之间的曼哈顿距离和欧氏距离;/>和/>分别是红外图像的原始特征/>和融合图像特征 /> 之间的曼哈顿距离和欧氏距离。
4.如权利要求3所述的基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:为了约束融合图像保留可见光和红外模态的有意义信息,在红外图像的曼哈顿距离的计算公式中引入权重wir,权重wir的值与温度成正比,则
;
式中,N表示图像特征中对应的像素数量;表示红外图像的原始特征中像素j对应的特征表示;/>表示融合图像中像素j对应的特征表示; wir表示聚焦热力图的权重,取值随区域温度呈比例增加,取值范围为[0.01,1]。
5.如权利要求3所述的基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:在卷积神经网络的迭代过程中通过引入常数来增强损失函数Lvi和Lir的值;则迭代过程中的总损失函数L定义为:
。
6.如权利要求1所述的基于聚焦损失函数约束的可见光和红外图像的融合方法,其特征在于:可见光图像来自可见光源领域,红外图像来自红外光源领域;则可见光源领域和红外光源领域适于共同生成包括多对图像样本的数据集;每对图像样本包括一张可见光图像和一张红外图像;则将数据集输入卷积神经网络中适于得到融合图像集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386447.2A CN117115065B (zh) | 2023-10-25 | 2023-10-25 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386447.2A CN117115065B (zh) | 2023-10-25 | 2023-10-25 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117115065A CN117115065A (zh) | 2023-11-24 |
CN117115065B true CN117115065B (zh) | 2024-01-23 |
Family
ID=88806002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311386447.2A Active CN117115065B (zh) | 2023-10-25 | 2023-10-25 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115065B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
WO2021120406A1 (zh) * | 2019-12-17 | 2021-06-24 | 大连理工大学 | 一种基于显著图增强的红外和可见光融合方法 |
CN114359838A (zh) * | 2022-01-14 | 2022-04-15 | 北京理工大学重庆创新中心 | 一种基于高斯交叉注意力网络的跨模态行人检测方法 |
CN114820408A (zh) * | 2022-05-12 | 2022-07-29 | 中国地质大学(武汉) | 基于自注意力和卷积神经网络的红外可见光图像融合方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
WO2022183638A1 (zh) * | 2021-03-05 | 2022-09-09 | 浙江商汤科技开发有限公司 | 图像特征匹配方法和相关装置、设备及存储介质 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115861664A (zh) * | 2022-12-18 | 2023-03-28 | 安徽大学 | 基于局部特征融合与自注意力机制的特征匹配方法及系统 |
CN116468644A (zh) * | 2023-03-31 | 2023-07-21 | 云南电网有限责任公司曲靖供电局 | 一种基于自监督特征解耦的红外可见图像融合方法 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
KR102565989B1 (ko) * | 2022-04-18 | 2023-08-11 | 동국대학교 산학협력단 | 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치 및 방법 |
CN116704274A (zh) * | 2023-07-06 | 2023-09-05 | 杭州电子科技大学 | 基于空间相关性注意力的红外和可见光图像融合方法 |
CN116883303A (zh) * | 2023-07-17 | 2023-10-13 | 大连民族大学 | 基于特征差分补偿与融合的红外与可见光图像融合方法 |
-
2023
- 2023-10-25 CN CN202311386447.2A patent/CN117115065B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021120406A1 (zh) * | 2019-12-17 | 2021-06-24 | 大连理工大学 | 一种基于显著图增强的红外和可见光融合方法 |
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
WO2022183638A1 (zh) * | 2021-03-05 | 2022-09-09 | 浙江商汤科技开发有限公司 | 图像特征匹配方法和相关装置、设备及存储介质 |
CN114359838A (zh) * | 2022-01-14 | 2022-04-15 | 北京理工大学重庆创新中心 | 一种基于高斯交叉注意力网络的跨模态行人检测方法 |
KR102565989B1 (ko) * | 2022-04-18 | 2023-08-11 | 동국대학교 산학협력단 | 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치 및 방법 |
CN114820408A (zh) * | 2022-05-12 | 2022-07-29 | 中国地质大学(武汉) | 基于自注意力和卷积神经网络的红外可见光图像融合方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115861664A (zh) * | 2022-12-18 | 2023-03-28 | 安徽大学 | 基于局部特征融合与自注意力机制的特征匹配方法及系统 |
CN116468644A (zh) * | 2023-03-31 | 2023-07-21 | 云南电网有限责任公司曲靖供电局 | 一种基于自监督特征解耦的红外可见图像融合方法 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
CN116704274A (zh) * | 2023-07-06 | 2023-09-05 | 杭州电子科技大学 | 基于空间相关性注意力的红外和可见光图像融合方法 |
CN116883303A (zh) * | 2023-07-17 | 2023-10-13 | 大连民族大学 | 基于特征差分补偿与融合的红外与可见光图像融合方法 |
Non-Patent Citations (4)
Title |
---|
The Infrared and Visible Light Image Fusion Based on the Non-subsample Shearlet Transform and Heat Source Concentration Ratio;Jie Luo等;IEEE Xplore;全文 * |
一种注意力机制的多波段图像特征级融合方法;杨晓莉;蔺素珍;;西安电子科技大学学报(第01期);全文 * |
基于深度学习的红外与可见光图像融合方法;谢春宇;徐建;李新德;吴蔚;;指挥信息系统与技术(第02期);全文 * |
基于自适应像素级注意力模型的场景深度估计;陈裕如;赵海涛;;应用光学(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117115065A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | Low-light image enhancement via a deep hybrid network | |
WO2022042049A1 (zh) | 图像融合方法、图像融合模型的训练方法和装置 | |
Jiang et al. | Night video enhancement using improved dark channel prior | |
CN109871845B (zh) | 证件图像提取方法及终端设备 | |
CN112288663A (zh) | 一种红外与可见光图像融合方法及系统 | |
Wang et al. | Variational single nighttime image haze removal with a gray haze-line prior | |
Peng et al. | LVE-S2D: Low-light video enhancement from static to dynamic | |
Liu et al. | Improving nighttime driving-scene segmentation via dual image-adaptive learnable filters | |
CN109389569B (zh) | 基于改进DehazeNet的监控视频实时去雾方法 | |
CN115330653A (zh) | 基于边窗滤波的多源图像融合方法 | |
CN113159043A (zh) | 基于语义信息的特征点匹配方法及系统 | |
CN102999890B (zh) | 基于环境因素的图像光线强度动态校正方法 | |
CN113313702A (zh) | 基于边界约束与颜色校正的航拍图像去雾方法 | |
Zhou et al. | Underwater image enhancement via two-level wavelet decomposition maximum brightness color restoration and edge refinement histogram stretching | |
CN116681636A (zh) | 基于卷积神经网络的轻量化红外与可见光图像融合方法 | |
Liu et al. | Toward visual quality enhancement of dehazing effect with improved Cycle-GAN | |
Cui et al. | A novel underwater image restoration method based on decomposition network and physical imaging model | |
Shi et al. | Fusion algorithm of UAV infrared image and visible image registration | |
Kınlı et al. | Modeling the lighting in scenes as style for auto white-balance correction | |
Qian et al. | Fast color contrast enhancement method for color night vision | |
Hu et al. | FHSI and QRCPE-Based Low-Light Enhancement With Application to Night Traffic Monitoring Images | |
CN112215766B (zh) | 一种图像复原与图像增强相融合的图像去雾方法及其卷积网络 | |
CN117115065B (zh) | 基于聚焦损失函数约束的可见光和红外图像的融合方法 | |
Liu et al. | An information retention and feature transmission network for infrared and visible image fusion | |
Song et al. | Optimizing Nighttime Infrared and Visible Image Fusion for Long-haul Tactile Internet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Dai Wenjie Inventor after: Zhang Yihan Inventor after: Zhang Qian Inventor after: Li Menjin Inventor before: Dai Wenjie Inventor before: Zhang Yihan Inventor before: Zhang Qian Inventor before: Li Menjin |
|
CB03 | Change of inventor or designer information |