CN116071281A - 一种基于特征信息交互的多模态图像融合方法 - Google Patents
一种基于特征信息交互的多模态图像融合方法 Download PDFInfo
- Publication number
- CN116071281A CN116071281A CN202310165311.2A CN202310165311A CN116071281A CN 116071281 A CN116071281 A CN 116071281A CN 202310165311 A CN202310165311 A CN 202310165311A CN 116071281 A CN116071281 A CN 116071281A
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- module
- convolution
- imaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 17
- 238000003384 imaging method Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000003331 infrared imaging Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 230000010287 polarization Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 29
- 230000007547 defect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征信息交互的多模态图像融合方法,本发明用于解决现阶段图像融合技术面对复杂多模态图像时,特征信息之间缺乏内在联系与交互,导致融合图像场景出现失真的难题,本发明的图像融合方法先将多模态图像X1和X2作为卷积模块ConvM的输入,得到浅层特征图S1和S2,接着分别通过注意力模块AttenM1和卷积模块ConvM,得到中间层特征图M1和M2;随后对中间层特征图分别进行序列编码并乘以相应权重Wq,k,v,再将得到矩阵信息值互换后通过上述注意力和卷积模块,得到深层特征图D1和D2;将各层输出特征图进行拼接后,通过注意力模块AttenM2并由CNN网络重建得到多模态融合图像Y。本发明方法可实现对多模态图像的有效融合,具有信息交互性强、成像精度高等特点。
Description
技术领域:
本发明涉及图像融合技术,具体涉及一种基于特征信息交互的多模态图像融合方法。
背景技术:
多模态图像融合是一种将来自不同传感器或不同成像模式相机捕获的多个源图像的互补信息进行组合以生成信息量更大图像的技术。由于受到单一类型传感器或单一成像模式相机的硬件限制,捕获的图像信息不能全面地表征成像场景,并且越来越无法满足智能识别和后续图像任务的需求,因此近年来多模态图像融合技术开始备受重视。
在不同模态成像的组合中,一对红外和可见光图像是最常见的,其中可见光图像包含丰富的纹理细节,但环境条件容易降低其质量,相比之下,红外图像受亮度、天气等环境变化影响小,但却带有噪声分量和较差的场景纹理,显然二者具有很好互补性,它们的融合结果能够显著提高图像处理和计算机视觉性能,目前被广泛用于各种领域,包括目标跟踪、医疗检测、自动驾驶等。
传统的融合技术大多基于信号处理的方法,需要较多计算资源,面对复杂多模态图像时,具有特征信息容易丢失、泛化能力弱等缺陷。近年来,深度学习已经显示出强大的特征表示能力,人们大多开始使用卷积神经网络和生成对抗网络进行红外和可见光图像的融合。然而在面对具有更复杂特征信息的多模态图像时,卷积神经网络中源图像的细节可能随着网络层加深而丢失,并且特征信息之间流动性不强、交互性差,导致融合结果可能包含可见和红外图像之间不平衡信息;基于生成对抗网络的算法是依赖于对抗学习来生成与源图像之一相似的融合图像,不同源图像之间的特征信息缺乏内在联系,所以融合结果可能缺乏另一源图像中的信息。因此,提出一个增强源图像之间特征信息的交互与联系的方法,尤其是针对图像全局与局部之间的信息、不同通道之间的信息、不同模态之间的信息的交互,对于提高多模态图像融合质量是十分必要的。
发明内容:
本发明的目的在于克服现有技术的不足,提供一种基于特征信息交互的多模态图像融合方法,所述图像融合方法可以实现对复杂多模态图像的有效融合,具有信息交互性强、成像精度高等特点。
本发明解决上述技术问题的技术方案是:
一种基于特征信息交互的多模态图像融合方法,包括以下步骤:
(S1)、使用多模态成像相机拍摄一组多模态图像X1和X2,分别作为卷积模块ConvM的输入,得到浅层特征图S1和S2;
(S2)、将浅层特征图S1和S2分别作为注意力模块AttenM1的输入,接着通过卷积模块ConvM,得到中间层特征图M1和M2;
(S3)、将中间层特征图M1和M2分别进行序列编码,乘以权重Wq,k,v分别得到对应的Q、K、V值,接着将两者的Q值和V值进行互换后解码重建回特征图M’1和M’2,作为注意力模块AttenM1的输入,并通过卷积模块ConvM得到深层特征图D1和D2;其中,获得深层特征图D1和D2的表达式为:
[M′1,M′2]=[F(Q2,K1,V2),F(Q1,K2,V1)] (2)
[D1,D2]=[ConvM(AttenM1(M′1),ConvM(AttenM1(M′2)] (3)
上式中,f(·)表示为序列编码函数,F(·)表示为解码重建函数;
(S4)、将上述步骤每层输出的特征图在通道上进行拼接,得到融合特征图F后接着通过注意力模块AttenM2并执行跳跃连接操作,最后由卷积神经网络CNN通过调整通道数重建得到多模态融合图像Y;
(S5)、将上述模块构建成一个多模态图像融合的端到端神经网络FNet,并将输出的多模态融合图像Y与输入的多模态图像X1和X2做损失函数Loss,计算Loss值的梯度做反向传播更新网络中各模块的参数,输入N组多模态图像到神经网络FNet中,训练神经网络FNet直至其Loss值达到收敛则停止更新参数。
优选的,在步骤(S1)中,所述多模态成像包括但不限于可见光成像、不同波段红外成像、偏振成像等。
优选的,在步骤(S1)中,所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成,并执行跳跃连接构成残差结构;其中每个1*1卷积层后进行批量归一化,激活函数可采用S型激活函数、线性整流激活函数或高斯误差线性激活函数。
优选的,所述卷积核为3*3的深度可分离卷积层应在两个卷积核为1*1的卷积层中间,卷积层应设置相应的填充和步长系数,使卷积模块ConvM的输入图像和输出图像大小一致。
优选的,在步骤(S2)中,所述注意力模块AttenM1主要由余弦缩放的移动窗口多头自注意力和层归一化组成,并执行跳跃连接构成残差结构;其中余弦缩放的移动窗口多头自注意力表达式为:
上式中Q、K、V为注意力机制中的三个数值矩阵;B为相对位置偏差矩阵;α表示为可学习的标量,应满足α≥0.01,并且不在多头之间共享。
优选的,在步骤(S4)中,所述注意力模块AttenM2主要沿用旋转变换器的架构,其中窗口多头自注意力用池化层代替,移动窗口多头自注意力采用余弦缩放,多层感知机的层数应小于等于3,激活函数可采用线性整流激活函数或高斯误差线性激活函数。
优选的,所述移动窗口多头自注意力的窗口大小可设置为5*5、7*7或9*9,头的数量应小于等于5。
优选的,在步骤(S5)中,所述输入多模态图像的组数N应大于等于2000,且各组图像成像模式的组合应保持一致,组合包括但不限于可见光成像和短波红外成像、可见光成像和中波红外成像、可见光成像和长波红外成像、可见光成像和偏振成像。
优选的,在步骤(S5)中,所述损失函数Loss采用结构相似性度量SSIM损失函数和L2损失函数相结合的方式;其中损失函数Loss的表达式如下:
LSSIM=λ(1-SSIM(Y,X1))+(1-λ)(1-SSIM(Y,X2)) (5)
Loss=αLSSIM+L2 (7)
上式中H和W分别为图像的高和宽,λ和α针对不同模态图像的输入可取不同的值,其中λ取值范围为0<λ<1,α取值范围为10≤α≤104。
本发明与现有技术相比具有以下的有益效果:
本发明的基于特征信息交互的多模态图像融合方法采用卷积模块ConvM提取输入图像在不同网络层产生的局部特征信息,不同网络层输出具有不同特点的图像信息,如浅层网络输出的特征分辨率高,具有更小的感受野,含有更多的细粒度信息,而深层网络输出的特征被压缩,感受野更大,蕴含着更为抽象的语义信息,后续将上述信息进行拼接,有利于增强不同网络层之间的交互与联系,并且部分特征信息还将引导下一层注意力模块AttenM1来获取图像的全局特征信息,增强不同层之间全局与局部特征信息的交互与联系,能够更好地提升图像融合的效果。
本发明所使用的卷积模块ConvM中采用的卷积核为1*1的卷积层可以对不同通道上的像素点进行线性组合,即可实现特征图升维或降维的功能,有利于增强图像在不同通道之间的特征信息交互和整合;采用的卷积核为3*3的深度可分离卷积是将一个完整的卷积运算分解为两步进行,有利于减少网络计参数量,提高运行效率和推理速度;采用的残差结构可以有效解决网络层加深时特征丢失的问题,充分保留有效的特征信息来实现后续融合任务质量的提高。
本发明的基于特征信息交互的多模态图像融合方法采用注意力模块AttenM1根据上层网络的局部特征信息的指导来学习图像中的全局特征信息,采用注意力模块AttenM2根据融合了各层不同模态图像的特征信息的指导来重建输出多模态融合图像,两个模块均采用了移动窗口多头自注意力机制,将特征信息在相邻的窗口中进行充分的交流与传递,并且在中间网络层注意力模块AttenM1的输入中,将不同模态特征图产生的Q、V值进行互换,都是旨在提高不同模态图像之间特征信息的交互性和流动性,克服现阶段图像融合技术因信息交互性差导致融合效果欠缺和场景失真的缺陷,进而更有利于实现多模态图像信息互补和高精度融合成像。
附图说明:
图1为本发明的基于特征信息交互的多模态图像融合方法的流程框图。
图2为本发明的基于特征信息交互的多模态图像融合方法的使用的卷积模块ConvM结构图。
图3为本发明的基于特征信息交互的多模态图像融合方法的使用的注意力模块AttenM1和AttenM2的结构图。
具体实施方式:
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1,本发明的基于特征信息交互的多模态图像融合方法包括以下步骤:
(S1)、使用多模态成像相机拍摄一组多模态图像X1和X2,分别作为卷积模块ConvM的输入,得到浅层特征图S1和S2;
(S2)、将浅层特征图S1和S2分别作为注意力模块AttenM1的输入,接着通过卷积模块ConvM,得到中间层特征图M1和M2;
(S3)、将中间层特征图M1和M2分别进行序列编码,乘以权重Wq,k,v分别得到对应的Q、K、V值,接着将两者的Q值和V值进行互换后解码重建回特征图M’1和M’2,作为注意力模块AttenM1的输入,并通过卷积模块ConvM得到深层特征图D1和D2;其中,获得深层特征图D1和D2的表达式为:
[M′1,M′2]=[F(Q2,K1,V2),F(Q1,K2,V1)] (9)
[D1,D2]=[ConvM(AttenM1(M′1),ConvM(AttenM1(M′2)] (10)
上式中,f(·)表示为序列编码函数,F(·)表示为解码重建函数;
(S4)、将上述步骤每层输出的特征图在通道上进行拼接,得到融合特征图F后接着通过注意力模块AttenM2并执行跳跃连接操作,最后由卷积神经网络CNN通过调整通道数重建得到多模态融合图像Y;
(S5)、将上述模块构建成一个多模态图像融合的端到端神经网络FNet,并将输出的多模态融合图像Y与输入的多模态图像X1和X2做损失函数Loss,计算Loss值的梯度做反向传播更新网络中各模块的参数,输入N组多模态图像到神经网络FNet中,设置网络初始学习率为10-3、动量为0.9、权重衰减为0.005和融合激活函数为tanh函数,并采用SGD优化器和Sobel梯度算子训练神经网络FNet,当训练轮次达到500论以上且损失函数Loss上下波动范围小于10-4,则可认为训练达到近似收敛,停止更新网络模型参数;其中,训练神经网络Net采用的软件和硬件设备有:
Ubuntu 18.04.3的Linux操作系统、PyCharm编译环境Python 3.9编程语言,pytorch-cuda11.7深度学习应用库,GeForce 3060Ti显卡。
参见图1,所述输出的多模态融合图像Y与输入的多模态图像X1和X2做损失函数Loss是采用结构相似性度量SSIM损失函数和L2损失函数相结合的方式;其中损失函数Loss的表达式如下:
LSSIM=λ(1--SSIM(Y,X1))+(1-λ)(1-SSIM(Y,X2)) (11)
Loss=αLSSIM+L2 (13)
上式中H和W分别为图像的高和宽,其中λ取值为0.5、α取值为103。
参见图2,所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成,并执行跳跃连接构成残差结构;其中每个1*1卷积层后进行批量归一化,激活函采用高斯误差线性激活函数。
参见图2,所述卷积核为3*3的深度可分离卷积层应在两个卷积核为1*1的卷积层中间,卷积层设置相应的填充和步长系数,使卷积模块ConvM的输入图像和输出图像大小一致。
参见图3,所述注意力模块AttenM1主要由余弦缩放的移动窗口多头自注意力和层归一化组成,并执行跳跃连接构成残差结构;其中余弦缩放的移动窗口多头自注意力表达式为:
上式中Q、K、V为注意力机制中的三个数值矩阵;B为相对位置偏差矩阵;α表示为可学习的标量,应满足α≥0.01,并且不在多头之间共享。
参见图3,所述注意力模块AttenM2主要沿用旋转变换器的架构,其中窗口多头自注意力用池化层代替,移动窗口多头自注意力采用余弦缩放且窗口大小设置为7*7、头的数量设置为3,多层感知机的层数设置为2,激活函数采用高斯误差线性激活函数。
另外,本实施例中所述的不同成像模式包括可见光成像、不同波段红外成像和偏振成像。
另外,本实施例中所述所述神经网络FNet输入的多模态图像的组数N为3000,且各组图像成像模式的组合保持一致,组合分别选用了可见光成像和长波红外成像、可见光成像和偏振成像来进行两次实验。
以上所述仅是本发明的优选较佳的实施方式,本发明的保护范围并不仅局限于上述实施例的限制,凡属于本发明的精神实质和原理下的技术方案均属于本发明的保护范围。应当指出,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于特征信息交互的多模态图像融合方法,其特征在于,包括以下步骤:
(S1)、使用多模态成像相机拍摄一组多模态图像X1和X2,分别作为卷积模块ConvM的输入,得到浅层特征图S1和S2;
(S2)、将浅层特征图S1和S2分别作为注意力模块AttenM1的输入,接着通过卷积模块ConvM,得到中间层特征图M1和M2;
(S3)、将中间层特征图M1和M2分别进行序列编码,乘以权重Wq,k,v分别得到对应的Q、K、V值,接着将两者的Q值和V值进行互换后解码重建回新特征图M’1和M’2,作为注意力模块AttenM1的输入,并通过卷积模块ConvM得到深层特征图D1和D2;其中,获得深层特征图D1和D2的表达式为:
[M′1,M′2]=[F(Q2,K1,V2),F(Q1,K2,V1)] (2)
[D1,D2]=[ConvM(AttenM1(M′1),ConvM(AttenM1(M′2)] (3)
上式中,f(·)表示为序列编码函数,F(·)表示为解码重建函数;
(S4)、将上述步骤每层输出的特征图在通道上进行拼接,得到融合特征图F后接着通过注意力模块AttenM2并执行跳跃连接操作,最后由卷积神经网络CNN通过调整通道数重建得到多模态融合图像Y;
(S5)、将上述模块构建成一个多模态图像融合的端到端神经网络FNet,并将输出的多模态融合图像Y与输入的多模态图像X1和X2做损失函数Loss,计算Loss值的梯度做反向传播更新网络中各模块的参数,输入N组多模态图像到神经网络FNet中,训练神经网络FNet直至其Loss值达到收敛则停止更新参数。
2.根据权利要求1所述的基于特征信息交互的多模态图像融合方法,其特征在于,在步骤(S1)中,所述多模态成像包括但不限于可见光成像、不同波段红外成像、偏振成像等。
3.根据权利要求1所述的基于特征信息交互的多模态图像融合方法,其特征在于,在步骤(S1)中,所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成,并执行跳跃连接构成残差结构;其中每个1*1卷积层后进行批量归一化,激活函数可采用S型激活函数、线性整流激活函数或高斯误差线性激活函数。
4.根据权利要求4所述的基于特征信息交互的多模态图像融合方法,其特征在于,所述3*3深度可分离卷积层应在两个1*1卷积层中间,卷积层应设置相应的填充和步长系数,使卷积模块ConvM的输入图像和输出图像大小一致。
6.根据权利要求1所述的基于特征信息交互的多模态图像融合方法,其特征在于,在步骤(S4)中,所述注意力模块AttenM2主要沿用旋转变换器的架构,其中窗口多头自注意力用池化层代替,移动窗口多头自注意力采用余弦缩放,多层感知机的层数应小于等于3,激活函数可采用线性整流激活函数或高斯误差线性激活函数。
7.根据权利要求6所述的基于特征信息交互的多模态图像融合方法,其特征在于,所述移动窗口多头自注意力的窗口大小可设置为5*5、7*7或9*9,头的数量应小于等于5。
8.根据权利要求1所述的基于特征信息交互的多模态图像融合方法,其特征在于,在步骤(S5)中,所述输入多模态图像的组数N应大于等于2000,且各组图像成像模式的组合应保持一致,组合包括但不限于可见光成像和短波红外成像、可见光成像和中波红外成像、可见光成像和长波红外成像、可见光成像和偏振成像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165311.2A CN116071281A (zh) | 2023-02-24 | 2023-02-24 | 一种基于特征信息交互的多模态图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165311.2A CN116071281A (zh) | 2023-02-24 | 2023-02-24 | 一种基于特征信息交互的多模态图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071281A true CN116071281A (zh) | 2023-05-05 |
Family
ID=86176787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310165311.2A Pending CN116071281A (zh) | 2023-02-24 | 2023-02-24 | 一种基于特征信息交互的多模态图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071281A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
-
2023
- 2023-02-24 CN CN202310165311.2A patent/CN116071281A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN116664462B (zh) * | 2023-05-19 | 2024-01-19 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN107123091B (zh) | 一种基于深度学习的近红外人脸图像超分辨率重建方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN114820341A (zh) | 一种基于增强Transformer的图像盲去噪方法及系统 | |
WO2024114321A1 (zh) | 图像数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品 | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN116071281A (zh) | 一种基于特征信息交互的多模态图像融合方法 | |
CN114519731A (zh) | 深度图像补全的方法和装置 | |
Zhao et al. | Deep equilibrium models for video snapshot compressive imaging | |
CN114885144B (zh) | 基于数据融合的高帧率3d视频生成方法及装置 | |
CN117934824A (zh) | 一种超声影像的目标区域分割方法、系统及电子设备 | |
Yang et al. | Mixed-scale UNet based on dense atrous pyramid for monocular depth estimation | |
Tang et al. | MPCFusion: Multi-scale parallel cross fusion for infrared and visible images via convolution and vision Transformer | |
Wang et al. | Global and local spatio-temporal encoder for 3D human pose estimation | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. | |
CN111583345B (zh) | 一种相机参数的获取方法、装置、设备及存储介质 | |
CN110120009B (zh) | 基于显著物体检测和深度估计算法的背景虚化实现方法 | |
CN116934593A (zh) | 基于语义推理和交叉卷积的图像超分辨率方法及系统 | |
CN116168162A (zh) | 一种多视角加权聚合的三维点云重建方法 | |
CN116486107A (zh) | 一种光流计算方法、系统、设备及介质 | |
CN114862951B (zh) | 一种将旋转和平移相解耦的6d位姿估计方法 | |
CN111508024A (zh) | 一种基于深度学习估计机器人位姿的方法 | |
CN114387316A (zh) | 一种融合双注意力机制、残差结构的2d-3d配准方法 | |
CN115564664A (zh) | 基于融合双边重组注意力的二阶段Transformer编解码器的去运动模糊方法 | |
Xie et al. | Event tubelet compressor: Generating compact representations for event-based action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |