CN117934309A - 基于模态字典和特征匹配的未配准红外可见图像融合方法 - Google Patents
基于模态字典和特征匹配的未配准红外可见图像融合方法 Download PDFInfo
- Publication number
- CN117934309A CN117934309A CN202410307105.5A CN202410307105A CN117934309A CN 117934309 A CN117934309 A CN 117934309A CN 202410307105 A CN202410307105 A CN 202410307105A CN 117934309 A CN117934309 A CN 117934309A
- Authority
- CN
- China
- Prior art keywords
- image
- features
- offset
- infrared
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000005215 recombination Methods 0.000 claims abstract description 21
- 230000006798 recombination Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 235000018902 Bauhinia retusa Nutrition 0.000 description 2
- 244000174040 Bauhinia retusa Species 0.000 description 2
- 101100426064 Homo sapiens TRIM54 gene Proteins 0.000 description 2
- 102100029709 Tripartite motif-containing protein 54 Human genes 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及基于模态字典和特征匹配的未配准红外可见图像融合方法,属于图像融合技术领域。本发明主要解决了现阶段难以应对未对齐红外可见光图像对融合困难的问题,包括步骤:将固定图像和偏移图像输入到特征提取模块中,获得固定特征和偏移特征;将固定特征和偏移特征输入到跨模态表示学习模块中,获得统一表示的固定特征和偏移特征;将统一表示的固定特征和偏移特征输入特征匹配模块中,输出匹配矩阵;将匹配矩阵和偏移特征输入特征重组块中,利用匹配矩阵对偏移特征进行重组;将重组特征和固定特征输入融合模块中,并重构出红外可见光融合图像。本发明能矫正红外可见光图像对在空间上的未对齐,并消除融合结果中的伪影和偏移,提升了融合性能。
Description
技术领域
本发明涉及基于模态字典和特征匹配的未配准红外可见图像融合方法,属于图像融合技术领域。
背景技术
不同的传感器能够捕获到来自不同波段的信息,这取决于它的硬件构成和成像原理。现阶段还不存在能够捕获来自同一场景中所有波段信息的传感器。例如,可见光传感器可以捕获到物体表面的纹理细节,但是一旦受到极端天气、遮挡和光照的影响就会丢失大量信息。然而,红外传感器在恶劣条件下也能够高效地对目标进行突出,但是它对纹理细节的捕获能力不足。因此,为了能够在单张图像中表征出尽量多的场景信息,图像融合技术应运而生。但是传感器在不同环境下拍摄,容易出现红外可见光图像对在空间上的未对齐的情况。对未对齐的红外可见光图像对直接进行融合,往往会得到一张充满伪影和偏移的融合图像,严重影响到下游任务的性能,例如图像识别,语义分割,目标追踪等等。于是,针对上述困境,提出了基于模态字典和特征匹配的未配准红外可见图像融合方法。在减少源图像对未对齐给融合结果带来的负面影响的同时,得到一张不存在伪影和偏移的视觉效果良好且计算机易于分析的融合结果。
发明内容
为了解决现有方法的不足,本发明针对红外可见光图像对在空间上的未对齐,给融合结果中引入伪影和偏移,从而严重影响到下游任务的性能,提出了一种基于模态字典和特征匹配的未配准红外可见图像融合方法。
本发明的技术方案是:基于模态字典和特征匹配的未配准红外可见图像融合方法,所述方法的具体步骤如下:
步骤1:获取用于未对齐红外可见光图像融合的训练数据集;
步骤2:将固定图像和偏移图像输入到特征提取模块中,获得固定特征和偏移
特征;固定特征和偏移特征是能够对场景信息进行高效且全面表征的特征;
步骤3:将固定特征和偏移特征输入到跨模态表示学习模块中,获得统一表示的固定特征和偏移特征;
将固定特征和偏移特征输入到跨模态表示学习模块中后,利用模态可学习字典对不同模态的特征进行一致性表示。具体操作如下:
将不同模态的特征同另一个模态的可学习字典进行注意力计算,并得到一致性表示的特征。
步骤4:将统一表示的固定特征和偏移特征输入特征匹配模块中,输出匹配矩阵;具体过程如下:
首先,将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中,得到增强之后的固定特征和偏移特征;之后,对增强之后的特征计算相似度,并输出匹配矩阵;其中,对增强之后的特征计算相似度即将增强之后的特征通过逐元素内积计算得到两个特征之间的点到点对应关系;
步骤5:将匹配矩阵和偏移特征输入特征重组块中,利用匹配矩阵对偏移特征进行重组,以实现重组特征与固定特征在空间上对齐;
步骤6:将重组特征和固定特征输入融合模块中,并重构出红外可见光融合图像。
作为本发明的进一步方案,所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对,其中每个红外可见光图像对,都由一张红外图像和一张可见光图像组成;每张红外图像和可见光图像的大小均为256×256;首先对用于未对齐红外可见光图像融合的训练数据集进行预处理,预处理的方法具体为,对数据进行随机反转、随机旋转和偏移,对处理之后的图像进行归一化。
作为本发明的进一步方案,所述步骤2中,具体操作如下:
将固定图像和偏移图像输入特征提取模块中,并获
得特征{,,,};其中,表示固定的i模态的图像得到的
用于融合的特征,表示偏移的j模态的图像得到的用于融合的特征,表示固定的i模态的图像得到的用于一致性表示的特征,表
示偏移的j模态的图像得到的用于一致性表示的特征,上述过程表示为:
该特征提取模块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层、批规范化层组成,其中,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
作为本发明的进一步方案,所述步骤3中,跨模态表示学习模块的具体操作如下:
将固定的i模态的图像得到的用于一致性表示的特征同另一个模态
的可学习字典进行注意力计算并得到固定的单一模态特征,即统一表示的
固定特征,表示为:
;
其中,表示由经过线性映射之后得到的结果,作为注意力计算中的查询;表示由经过线性映射之后得到的结果,作为注意力
计算中的键;表示由经过线性映射之后得到的结果,作为注意力
计算中的值,表示的维度大小;
与上述过程类似,将偏移的不同模态特征同另一个模态的可学习
字典进行注意力计算并得到偏移的单一模态特征,即统一表示的偏移特征;其中,i表示
固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图
像;ir表示该图像属于红外模态,即红外图像。
为了使得特征之间有良好的一致性表示,定义了特征一致性损失:
其中,表示范数。同样,类似于上述过程定义了针对偏移特征的相关损失和特征一致性损失。
作为本发明的进一步方案,所述步骤4中,在特征匹配前先针对统一表示的固定特
征和偏移特征采用精心设计的窗口划分方式进行划分;具体地,采用大小的窗口对
统一表示的固定特征进行无重叠地划分,得到,其
中表示窗口个数;之后,采用大小的窗口对统一表示的偏移特征进
行划分,得到,其中。
作为本发明的进一步方案,所述步骤4中,设计了双重特征增强块对特征进行增强,通过增强特征提高后续特征匹配的准确度。具体操作如下:
将分别输入模态规范化块得到两个不同的
特征;模态规范化块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层和实
例规范化层组成;两个特征分别输入参数不共享的U-net网络中进行特征增强;然后,将两
个初步增强之后的特征进行通道维度上的拼接操作,再分别输入到参数不共享的U-net网
络中再次进行特征增强;最后,将两个经过双重增强的特征在通道维度上进行拼接并使用
信息聚合块进行信息整合:
;
其中,表示固定特征中第个窗口经过增强之后的结
果;信息聚合块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层和实例规范化层组
成;同样,根据上述过程,得到经过增强之后的偏移特征,表示通道维度上的拼接操作;表示经过两次特征增强之后的第一支路的特
征;表示经过两次特征增强之后的第二支路的特征。
作为本发明的进一步方案,所述步骤4中,对增强之后的特征进行特征匹配,具体操作如下:
对和的逐像素进行内积
计算,以获得它们之间的对应关系:
;
其中,表示增强之后的偏移特征和固定特征第个窗口之间的匹配矩阵;表示对该矩阵的第0维度进行softmax计算。
匹配矩阵的准确度对后续特征在空间上的对齐有着重要影响。因此,定义了相对
对应损失以监督预测的匹配矩阵具有较高的准确度:
;
其中,表示匹配矩阵的ground truth,该矩阵由0和1构成;表示图像的
高;表示图像的宽;表示窗口个数。
作为本发明的进一步方案,所述步骤5中特征重组块的具体操作如下所示:
将匹配矩阵中的第行与展平的偏移特征
进行相乘:
其中,表示偏移特征中第个窗口经过重组的结果,表示j模态的偏移
特征中的第个窗口的特征。
作为本发明的进一步方案,所述步骤6中,将重组特征和固定特征输入融合模块进行特征融合的具体操作如下所示:
将个按照逆划分规则重构出重组特征,并与固定特征一同输入融合模块,并重建出融合图像:
其中,融合模块由数个卷积核大小为3×3,步长为1的卷积层、ReLU激活层和批规
范化层组成的重建块构成,表示偏移特征中第个窗口经过重组的结果。
融合图像中应该具有清晰的纹理细节信息和显著的目标信息,以实现对场景有效且全面地表征。为了尽可能多地保留红外图像和可见光图像中的纹理细节,定义了纹理损失:
;
其中,表示逐像素最大值选择;表示图像的高;表示图像的宽;表示
j模态偏移图像和i模态固定图像经过上述过程得到的融合图像;表示Sobel算子提取梯
度操作;表示的梯度图;表示的梯度图;表示的梯度图,表示不
带有偏移的j模态图像;
在图像内容信息的保留方面,将融合图像与源图像在像素层面上进行拉近,由此定义内容损失:
;
表示用于平衡子损失项的权重。
本发明的有益效果是:
1、本发明通过模态可学习字典对不同模态的特征进行表示,在特征的相互引导下,获得一致性表示的跨模态特征。以此将后续的跨模态特征匹配问题转化成单模态匹配问题;
2、本发明利用双重特征增强块将更丰富的信息聚合到源特征中,用于增强特征的表征能力,大大地增加了特征匹配的准确率;
3、本发明通过特征匹配的方式,计算出偏移图像和固定图像之间的逐像素对应关系,并利用匹配矩阵的特性对偏移特征进行重组。以一种全新的方式实现了偏移特征和固定特征在空间上的对齐;
4、本发明针对未对齐红外可见光图像对进行融合,并重构出一张不存在伪影和偏移的高质量融合图像,解决了现阶段难以应对未对齐红外可见光图像对融合的困难;
5、针对公开数据集的大量实验结果表明,本发明提出的方法能有效地融合未对齐红外可见光图像对,比现有先进方法性能更好。
附图说明
下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图;
图1为本发明的流程结构示意图;
图2为本发明的跨模态表示学习模块示意图;
图3为本发明的双重特征增强块示意图;
图4为本发明的特征匹配模块示意图;
图5为本发明的特征重组示意图;
图6为本发明方法与现有方法试验效果对比图。
具体实施方式
实施例1:如图1-图6所示,基于模态字典和特征匹配的未配准红外可见图像融合方法,所述方法的具体步骤如下:
步骤1:获取用于未对齐红外可见光图像融合的训练数据集。所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对,其中每个红外可见光图像对,都由一张红外图像和一张可见光图像组成。每张红外图像和可见光图像的大小均为256×256。首先对用于未对齐红外可见光图像融合的训练数据集进行预处理,预处理的方法具体为,对数据进行随机反转、随机旋转和偏移,对处理之后的图像进行归一化。
步骤2:将固定图像和偏移图像输入到特征提取模块中,固定特征和偏移特征
是能够对场景信息进行高效且全面表征的特征。详细地,将固定图像和偏移图
像输入特征提取模块中,并获得特征{,,,};其
中,表示固定的i模态的图像得到的用于融合的特征,表示偏移
的j模态的图像得到的用于融合的特征,表示固定的i模态的图像得到的用于
一致性表示的特征,表示偏移的j模态的图像得到的用于一致性表示的特
征,上述过程表示为:
该特征提取模块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层、批规范化层组成,其中,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
步骤3:将固定特征和偏移特征输入到跨模态表示学习模块中,获得统一表示的固定特征和偏移特征;如图2所示为跨模态表示学习模块示意图;
将固定特征和偏移特征输入到跨模态表示学习模块中后,利用模态可学习字典对不同模态的特征进行一致性表示,以此削弱特征之间的模态差异。具体操作如下:
将不同模态的特征同另一个模态的可学习字典进行注意力计算,并得到一致性表示的特征。
为了实现不同模态特征的一致性表示,将固定的i模态的图像得到的用于一致性
表示的特征同另一个模态的可学习字典进行注意力计算并得到
固定的单一模态特征,即统一表示的固定特征,表示为:
;
其中,表示由经过线性映射之后得到的结果,作为注意力计算中的查询;表示由经过线性映射之后得到的结果,作为注意力
计算中的键;表示由经过线性映射之后得到的结果,作为注意力
计算中的值,表示的维度大小;
与上述过程类似,将偏移的不同模态特征同另一个模态的可学习
字典进行注意力计算并得到偏移的单一模态特征,即统一表示的偏移特征;其中,i表示
固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图
像;ir表示该图像属于红外模态,即红外图像。
为了使得特征之间有良好的一致性表示,定义了特征一致性损失:
其中,表示范数。同样,类似于上述过程定义了针对偏移特征的相关损失和特征一致性损失。
步骤4:将统一表示的固定特征和偏移特征输入特征匹配模块中,输出匹配矩阵。具体过程如下:
首先,将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中,得到增强之后的固定特征和偏移特征;之后,对增强之后的特征计算相似度,并输出匹配矩阵;其中,对增强之后的特征计算相似度即将增强之后的特征通过逐元素内积计算得到两个特征之间的点到点对应关系;如图3为本发明的双重特征增强块示意图;
进一步地,如图4为本发明的特征匹配模块示意图,首先,对人工划分的特定窗口
之间进行特征匹配更为合理且能够大大降低模型的时间复杂度和空间复杂度。若针对固定
特征和偏移特征采用相同大小的窗口进行划分,这会影响到模型的优化和匹配效果。具体
地,在特征匹配前先针对统一表示的固定特征和偏移特征采用精心设计的窗口划分方式进
行划分;具体地,采用大小的窗口对统一表示的固定特征进行无重叠地
划分,得到,其中表示窗口个数;之后,针对偏移特征的窗口
划分是采用大小的窗口对统一表示的偏移特征进行划分,得到,其中。
为了通过聚合多尺度信息的方式来提高后续特征匹配的准确度,设计了双重特征
增强块对特征进行增强。具体地,将分别输入模态规范化块得到两个不同的特征;模态规范化块由卷积核大小为3×3,步长为1
的卷积层、ReLU激活层和实例规范化层组成;两个特征分别输入参数不共享的U-net网络中
进行特征增强;然后,将两个初步增强之后的特征进行通道维度上的拼接操作,再分别输入
到参数不共享的U-net网络中再次进行特征增强;最后,将两个经过双重增强的特征在通道
维度上进行拼接并使用信息聚合块进行信息整合:
;
其中,表示固定特征中第个窗口经过增强之后的结
果;信息聚合块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层和实例规范化层组
成;同样,根据上述过程,得到经过增强之后的偏移特征,表示通道维度上的拼接操作;表示经过两次特征增强之后的第一支路的特
征;表示经过两次特征增强之后的第二支路的特征。
之后,对和的逐像素进行
内积计算,以获得它们之间的对应关系:
;
其中,表示增强之后的偏移特征和固定特征第个窗口之间的匹配矩阵;表示对该矩阵的第0维度进行softmax计算。
匹配矩阵的准确度对后续特征在空间上的对齐有着重要影响。因此,定义了相对
对应损失以监督预测的匹配矩阵具有较高的准确度:
其中,表示匹配矩阵的ground truth,该矩阵由0和1构成;表示图像的
高;表示图像的宽;表示窗口个数。
步骤5:如图5为本发明的特征重组示意图,将匹配矩阵和偏移特征输入特征重组
块中,利用匹配矩阵的性质对偏移特征进行重组,以实现重组特征与固定特征在空间上对
齐。具体地,将匹配矩阵中的第行的数值与展平的
偏移特征进行相乘。将与展平的偏移特征进行矩阵乘法,以实现特征重组:
其中,表示偏移特征中第个窗口经过重组的结果,表示j模态的偏移
特征中的第个窗口的特征。
步骤6:将重组特征和固定特征输入融合模块中,实现模态共有特征和模态特有特
征的融合,并重构出红外可见光融合图像。具体地,将个按照逆划分规则重构出重
组特征,并与固定特征在通道维度上进行拼接后输入融合模块。该特征融合模块主要由卷积核大小为3×3,步长为1的卷积层、ReLU激活层、批规范化层
构成。该模块将两个模态的共享信息和特有信息聚合到融合特征中并将其输入解码器中重
建出融合图像:
融合图像中应该具有清晰的纹理细节信息和显著的目标信息,以实现对场景有效且全面地表征。为了尽可能多地保留红外图像和可见光图像中的纹理细节,定义了纹理损失:
其中,表示逐像素最大值选择;表示图像的高;表示图像的宽;表示
j模态偏移图像和i模态固定图像经过上述过程得到的融合图像;表示Sobel算子提取梯
度操作;表示的梯度图;表示的梯度图;表示的梯度图,表示不
带有偏移的j模态图像;
在图像内容信息的保留方面,将融合图像与源图像在像素层面上进行拉近,由此定义内容损失:
;
其中,表示用于平衡子损失项的权重。最后,该模型完整的损失函数是所有模块
的子损失项的加权和:
其中,是用于调节每一项子损失项平衡的超参数。
为验证本发明方法的有效性,本发明在RoadScene公开的数据集上评估了提出方法的性能。在此过程中,本发明方法对应模型在RoadScene数据集的训练集上进行训练,在验证集上进行结果测试。RoadScene数据集的图像对都是由于红外图像和可见光图像组成。RoadScene中的训练集由200个红外可见光图像对构成;测试集由21个红外可见光图像对构成。本发明算法是在Pytorch1.12.1框架下开发的,并在单张NVIDIA GTX3090显卡(显存24G)上进行训练。在训练中,我们使用Adam优化器来对模型进行参数优化。在此过程中,Batch size设置为4。并利用“warm up”学习策略实现学习率的动态调整,采用“cosinedecay”的学习率衰减策略,初始学习率为0.0002,总共训练了500轮。
进一步地,本发明同MURF、ReCoNet、SemLA、SuperFusion和UMF-CMGR在视觉效果上进行了对比。本发明方法和MURF、ReCoNet、SemLA、SuperFusion和UMF-CMGR方法在针对未对齐红外可见光图像对融合结果如图6所示。由此可以看出,提出的方法可以更好地针对空间上的未对齐进行矫正,并得到不存在伪影和偏移的高保真融合图像。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于:所述方法的具体步骤如下:
步骤1:获取用于未对齐红外可见光图像融合的训练数据集;
步骤2:将固定图像和偏移图像输入到特征提取模块中,获得固定特征和偏移特征;
步骤3:将固定特征和偏移特征输入到跨模态表示学习模块中,获得统一表示的固定特征和偏移特征;
步骤4:将统一表示的固定特征和偏移特征输入特征匹配模块中,输出匹配矩阵;具体过程如下:
首先,将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中,得到增强之后的固定特征和偏移特征;之后,对增强之后的特征计算相似度,并输出匹配矩阵;
步骤5:将匹配矩阵和偏移特征输入特征重组块中,利用匹配矩阵对偏移特征进行重组;
步骤6:将重组特征和固定特征输入融合模块中,并重构出红外可见光融合图像。
2.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对,其中每个红外可见光图像对,都由一张红外图像和一张可见光图像组成;每张红外图像和可见光图像的大小均为256×256;首先对用于未对齐红外可见光图像融合的训练数据集进行预处理,预处理的方法具体为,对数据进行随机反转、随机旋转和偏移,对处理之后的图像进行归一化。
3.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤2中,具体操作如下:
将固定图像和偏移图像/>输入特征提取模块/>中,并获得特征{/>,/>,/>,/>}/>;其中,/>表示固定的i模态的图像得到的用于融合的特征,/>表示偏移的j模态的图像得到的用于融合的特征,/>表示固定的i模态的图像得到的用于一致性表示的特征,/>表示偏移的j模态的图像得到的用于一致性表示的特征,上述过程表示为:
;
该特征提取模块由卷积核大小为3×3,步长为1的卷积层、ReLU激活层、批规范化层组成,其中,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
4.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤3中,跨模态表示学习模块的具体操作如下:
将固定的i模态的图像得到的用于一致性表示的特征同另一个模态的可学习字典/>进行注意力计算并得到固定的单一模态特征/>,即统一表示的固定特征,表示为:
;
其中,表示由/>经过线性映射之后得到的结果,作为注意力计算中的查询;/>表示由/>经过线性映射之后得到的结果,作为注意力计算/>中的键;/>表示由/>经过线性映射之后得到的结果,作为注意力计算/>中的值;
与上述过程类似,将偏移的不同模态特征同另一个模态的可学习字典进行注意力计算并得到偏移的单一模态特征/>,即统一表示的偏移特征;其中,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
5.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤4中,在特征匹配前先针对统一表示的固定特征和偏移特征采用精心设计的窗口划分方式进行划分;具体地,采用大小的窗口对统一表示的固定特征进行无重叠地划分,得到/>,其中/>表示窗口个数;之后,采用/>大小的窗口对统一表示的偏移特征/>进行划分,得到,其中/>,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
6.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤4中,设计了双重特征增强块对特征进行增强,具体操作如下:
将分别输入模态规范化块/>得到两个不同的特征;模态规范化块/>由卷积核大小为3×3,步长为1的卷积层、ReLU激活层和实例规范化层组成;两个特征分别输入参数不共享的U-net网络中进行特征增强;然后,将两个初步增强之后的特征进行通道维度上的拼接操作,再分别输入到参数不共享的U-net网络中再次进行特征增强;最后,将两个经过双重增强的特征在通道维度上进行拼接并使用信息聚合块/>进行信息整合:
;
其中,表示固定特征中第/>个窗口经过增强之后的结果;信息聚合块/>由卷积核大小为3×3,步长为1的卷积层、ReLU激活层和实例规范化层组成;同样,根据上述过程,得到经过增强之后的偏移特征/>,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像,/>表示通道维度上的拼接操作;/>表示经过两次特征增强之后的第一支路的特征;/>表示经过两次特征增强之后的第二支路的特征。
7.根据权利要求6所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤4中,对增强之后的特征进行特征匹配,具体操作如下:
对和/>的逐像素进行内积计算,以获得它们之间的对应关系:
;
其中,表示增强之后的偏移特征和固定特征第/>个窗口之间的匹配矩阵;表示对该矩阵的第0维度进行softmax计算。
8.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤5中特征重组块的具体操作如下所示:
将匹配矩阵中的第/>行与展平的偏移特征进行相乘:
;
其中,表示偏移特征中第/>个窗口经过重组的结果,/>表示j模态的偏移特征中的第/>个窗口的特征,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
9.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法,其特征在于,所述步骤6中,将重组特征和固定特征输入融合模块进行特征融合的具体操作如下所示:
将个/>按照逆划分规则重构出重组特征/>,并与固定特征一同输入融合模块/>,并重建出融合图像/>:
;
其中,融合模块由数个卷积核大小为3×3,步长为1的卷积层、ReLU激活层和批规范化层组成的重建块构成,表示偏移特征中第/>个窗口经过重组的结果,i表示固定图像所属模态,j表示偏移图像所属模态;vis表示该图像属于可见光模态,即可见光图像;ir表示该图像属于红外模态,即红外图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410307105.5A CN117934309B (zh) | 2024-03-18 | 2024-03-18 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410307105.5A CN117934309B (zh) | 2024-03-18 | 2024-03-18 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117934309A true CN117934309A (zh) | 2024-04-26 |
CN117934309B CN117934309B (zh) | 2024-05-24 |
Family
ID=90755977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410307105.5A Active CN117934309B (zh) | 2024-03-18 | 2024-03-18 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117934309B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN113902666A (zh) * | 2021-12-13 | 2022-01-07 | 湖南警察学院 | 一种车载多波段立体视觉感知方法、装置、设备和介质 |
CN114119586A (zh) * | 2021-12-01 | 2022-03-01 | 中国计量大学 | 一种基于机器视觉的飞机蒙皮缺陷智能检测方法 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
CN114842508A (zh) * | 2022-05-20 | 2022-08-02 | 合肥工业大学 | 一种基于深度图匹配的可见光-红外行人重识别方法 |
CN114898429A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种热红外-可见光跨模态人脸识别的方法 |
CN115578428A (zh) * | 2022-10-19 | 2023-01-06 | 国网山东省电力公司电力科学研究院 | 一种考虑模态差异的红外与可见光图像配准方法及系统 |
CN116434019A (zh) * | 2022-12-30 | 2023-07-14 | 郑州大学 | 一种基于特征对齐的图像融合目标检测方法 |
CN116740763A (zh) * | 2023-06-14 | 2023-09-12 | 南京邮电大学 | 一种基于双注意力感知融合网络的跨模态行人重识别方法 |
-
2024
- 2024-03-18 CN CN202410307105.5A patent/CN117934309B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN114119586A (zh) * | 2021-12-01 | 2022-03-01 | 中国计量大学 | 一种基于机器视觉的飞机蒙皮缺陷智能检测方法 |
CN113902666A (zh) * | 2021-12-13 | 2022-01-07 | 湖南警察学院 | 一种车载多波段立体视觉感知方法、装置、设备和介质 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
CN114898429A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种热红外-可见光跨模态人脸识别的方法 |
CN114842508A (zh) * | 2022-05-20 | 2022-08-02 | 合肥工业大学 | 一种基于深度图匹配的可见光-红外行人重识别方法 |
CN115578428A (zh) * | 2022-10-19 | 2023-01-06 | 国网山东省电力公司电力科学研究院 | 一种考虑模态差异的红外与可见光图像配准方法及系统 |
CN116434019A (zh) * | 2022-12-30 | 2023-07-14 | 郑州大学 | 一种基于特征对齐的图像融合目标检测方法 |
CN116740763A (zh) * | 2023-06-14 | 2023-09-12 | 南京邮电大学 | 一种基于双注意力感知融合网络的跨模态行人重识别方法 |
Non-Patent Citations (6)
Title |
---|
CHUANYUN WANG: "DFECF-DET:ALL weather detector based on differential feature enhacement and cross-modal fusion with visible and infrared sensors", IEEE, 19 October 2023 (2023-10-19) * |
HUAFENG LI: "different input resolutions and arbitrary output resolution:a meta learning-based deep framework for infrared and visible image fusion", IEEE, 2 April 2021 (2021-04-02) * |
涂克克: "鼓风机红外和可见光图像配准与融合算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, 15 March 2024 (2024-03-15) * |
程德: "利用混合双通路神经网络的跨模态行人重识别", 西安电子科技大学学报, 31 October 2021 (2021-10-31) * |
解志君;杨伟民;: "基于机器学习的红外激光图像特征定位技术", 激光杂志, no. 09, 25 September 2018 (2018-09-25) * |
赵军智 等: "基于特征信息增强的红外与可见光图像融合算法", 昆明理工大学学报自然科学版, 31 October 2023 (2023-10-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN117934309B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Fully deep blind image quality predictor | |
Zhou et al. | Cross-view enhancement network for underwater images | |
CN112819910B (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
Kim et al. | Deeply aggregated alternating minimization for image restoration | |
CN114897742B (zh) | 一种纹理和结构特征两次融合的图像修复方法 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN114219719A (zh) | 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法 | |
CN113592018B (zh) | 基于残差密集网络和梯度损失的红外光与可见光图像融合方法 | |
CN116309062A (zh) | 一种遥感图像超分辨率重建方法 | |
Xu et al. | Infrared and visible image fusion using a deep unsupervised framework with perceptual loss | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
Wang et al. | Rca-cyclegan: unsupervised underwater image enhancement using red channel attention optimized cyclegan | |
Cherian et al. | A Novel AlphaSRGAN for Underwater Image Super Resolution. | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN117934309B (zh) | 基于模态字典和特征匹配的未配准红外可见图像融合方法 | |
Ma et al. | Light field image quality assessment using natural scene statistics and texture degradation | |
Li et al. | SPN2D-GAN: semantic prior based night-to-day image-to-image translation | |
CN117291850A (zh) | 一种基于可学习低秩表示的红外偏振图像融合增强方法 | |
CN116883303A (zh) | 基于特征差分补偿与融合的红外与可见光图像融合方法 | |
CN116823863A (zh) | 一种红外图像轮廓提取方法及装置 | |
CN114627136B (zh) | 一种基于特征金字塔网络的舌象分割与对齐方法 | |
Chen et al. | Depth map inpainting via sparse distortion model | |
Li et al. | Blind stereoscopic image quality assessment using 3D saliency selected binocular perception and 3D convolutional neural network | |
Ataman et al. | Visible and infrared image fusion using encoder-decoder network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |