CN117274760A - 一种基于多尺度混合变换器的红外与可见光图像融合方法 - Google Patents
一种基于多尺度混合变换器的红外与可见光图像融合方法 Download PDFInfo
- Publication number
- CN117274760A CN117274760A CN202311388503.6A CN202311388503A CN117274760A CN 117274760 A CN117274760 A CN 117274760A CN 202311388503 A CN202311388503 A CN 202311388503A CN 117274760 A CN117274760 A CN 117274760A
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- features
- visible light
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 80
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 239000000284 extract Substances 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 67
- 230000004913 activation Effects 0.000 claims description 62
- 230000002441 reversible effect Effects 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 37
- 230000003993 interaction Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 27
- 230000002452 interceptive effect Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 16
- 230000001131 transforming effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 230000005855 radiation Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000011176 pooling Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度混合变换器的红外与可见光图像融合方法,包括以下步骤:构建基于多尺度混合变换器的红外与可见光图像融合模型框架;模型框架包括辅助编码器、主编码器和解码器;辅助编码器提取红外与可见光的全局信息,主编码器提取红外与可见光的局部上下文信息,辅助编码器引导主编码器融合全局和局部信息,使得融合图像包含多尺度的源图像特征;将多尺度的源图像特征输入到解码器中,完成图像重建。本发明通过多尺度混合变换器引导卷积神经网络进行融合图像特征重建,有效地捕捉低级空间特征和高级语义上下文,从局部和全局进行建模,融合图像的热辐射信息和纹理细节表现能力更强。
Description
技术领域
本发明涉及一种基于多尺度混合变换器的红外与可见光图像融合方法,属于图像处理技术领域。
背景技术
目前,将可见光图像与红外图像融合,可以呈现出具有丰富纹理细节和高亮热辐射目标的图像,进而解决单个种类图像无法满足工程需求,通过图像融合方法以获取高质量、信息量的图像。该方法已经在目标识别、军事应用、医疗诊断等领域有着广阔的应用前景。
现有的红外和可见光图像融合技术主要分为传统融合方法和深度学习融合方法。传统融合方法主要分为多尺度变换等其他方法。2020年CHEN等提出一种基于多尺度低秩分解的红外与可见光图像融合方法,该方法通过多尺度、多层次的融合有效补偿图像信息,通过设计特定融合规则,提升图像融合效果。(陈潮起,孟祥超,邵枫,符冉迪.一种基于多尺度低秩分解的红外与可见光图像融合方法[J].光学学报,2020,40(11).)但这些传统方法挖掘图像复杂特征的能力有限,计算效率低,融合图像视觉效果较差。
此外,基于深度学习的方法在图像融合领域取得很好的效果,其主要分为基于卷积神经网络和基于生成对抗网络等其他方法。2021年LI等人提出一种用于红外与可见光图像融合的端到端的残差融合网络,通过两阶段方法分别训练编码器和中间融合层,由于仅使用卷积提取特征,在捕捉全局上下文信息方面缺乏效率,对于图像细粒度信息提取能力有限。(An end-to-end residual fusion network for infrared and visible images[J].Information Fusion,2021,73:72-86.)为解决此类问题,现有部分图像融合方法仅使用基于自注意力的变换器(Transformer)来建模全局信息。但大部分方法在使用自注意力的同时会削弱变换器全局建模能力,同时单一的多层感知机结构提取、聚合信息能力有限,未针对潜在的图像信息中多尺度信息进行建模,在建模局部信息时缺乏空间归纳偏置。
发明内容
本发明所要解决的问题是为了克服现有技术的缺陷,提供一种基于多尺度混合变换器的红外与可见光图像融合方法。
为解决上述问题,本发明一种基于多尺度混合变换器的红外与可见光图像融合方法,包括:
构建端到端的图像融合网络模型,其中,端到端的图像融合网络模型包括主编码器、辅助编码器和解码器。
所述辅助编码器,通过Transformer对全局远程依赖特征建模,用于提取输入的红外与可见光图像的全局信息特征;
所述主编码器,通过卷积在特定的感受野内提取上下文特征,用与提取输入的红外与可见光图像的局部信息;
所述解码器,将学习到的融合特征映射到原始分辨率,通过从底层到顶层逐步融合图像特征,得到融合图像;
进一步的,所述的辅助编码器包括,红外路径和可见光路径;
所述红外路径和可见光路径均包括阶段1,、阶段2、阶段3和阶段4,并且每个阶段依次连接;
进一步的,每个阶段的输入通道数和输出通道数分别为16,32,64,128和32,64,128,256;
所述4个阶段均包含下采样操作(patch embedding)和多尺度混合注意力模块(Multi-scale Hybrid Attention Block,MSHA),红外和可见光图像分别输入进辅助编码器,依次经过每个阶段,分别得到全局红外信息特征和全局可见光信息特征;
进一步的,所述阶段1、2、4堆叠两次下采样和多尺度混合注意力模块,阶段3堆叠四次下采样和多尺度混合注意力模块;
所述下采样操作将输入特征的通道数转变为原来的两倍,将输入特征的高和宽转变为原来的一半;
所述多尺度混合注意力模块包括窗口多头自注意力模块(W-MSA)、变换窗口多头自注意力模块(SW-MSA)、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作(Layernorm);
窗口多头自注意力模块(W-MSA)、通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接。第一次堆叠输入特征Fl-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图Fl,混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征Hl,计算公式可表示:
Fl=W-MSA(L(Fl-1))+scale×(CW(L(Fl-1))+CH(L(Fl-1)))+Fl-1,
Hl=MSFFN(LN(Fl))+Fl l 1,
第二次堆叠,输入特征F1 l-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图F1 l,混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征H1 l,计算公式可表示:
F1 l=SW-MSA(L(F1 l-1))+scale×(CW(L(F1 l-1))+CH(L(F1 l-1)))+F1 l-1,
H1 l=MSFFN(LN(F1 l))+F1 l,
其中W-MSA为窗口多头自注意力,SW-MSA为变换窗口多头自注意力,旨在捕获长距离依赖关系,获取高级语义特征,L为LayerNorm操作,旨在改善梯度传播,提高泛化能力,CW为通道和宽的空间维度交互注意力,CH为通道和高的空间维度交互注意力,两者皆强调的多维交互而不降低维度的重要性,消除了通道和权重之间的间接对应,MSFFN为多尺度前馈网络,旨在获取图像不同尺度的特征,获取更丰富的图像信息,scale为超参数,这里的scale为0.5,其中阶段3为4次堆叠即重复上述操作两次;
进一步的,所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作,输入特征F1经过Permute操作变换H×C×W维度特征,接着在H维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F2,计算可表示为:
F2=P(P(F1)·Sig(Conv(Z(P(F1))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作,该模块通过捕获通道和空间维度H之间的跨通道交互,增强空间信息交换能力,同时编码更精确的空间信息;
所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作,输入特征F3经过Permute操作变换W×H×C维度特征,接着在W维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F4,计算可表示为:
F4=P(P(F3)·Sig(Conv(Z(P(F3))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作,该模块通过捕获通道和空间维度W之间的跨通道交互,增强空间信息交换能力,同时编码更精确的空间信息;
进一步的,所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作,输入特征分别经过两个并行的不同尺度的分支,其中一个分支,1×1的卷积、3×3的深度可分离卷积和ReLU依次连接,另一个分支,1×1的卷积、5×5的深度可分离卷积和ReLU依次连接,输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M1,输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S1,然后将得到两个特征进行拼接操作后,再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M2和S2,将特征M2和S2进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS,计算可表示为:
M1=R(DW3(Conv1(F)))
S1=R(DW5(Conv1(F))),
其中R为ReLU激活函数,DW为深度可分离卷积(卷积核分别为3×3和5×5),获取更宽广感受野并减少计算量,Conv为1×1的卷积,Concat为通道拼接操作,为逐元素相加操作;
所述的主编码器包括红外路径和可见光路径;
进一步的,红外路径和可见光路径均包括卷积核为1×1的卷积、下采样操作、4个共享的梯度残差可逆神经网络模块和4个通道空间融合模块,在红外路径中,1×1卷积、下采样、第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块依次连接,可见光路径也同样连接;
输入红外与可见光图片分别经过1×1卷积、下采样后,再依次经过第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块得到与辅助编码中全局信息特征融合后的红外图像特征和可见光图像特征;
进一步的,梯度残差可逆神经网络模块的输入输出的通道数为16,32,64,128和32,64,128,256,其中,第四梯度残差可逆神经网络模块堆叠两次,其余均堆叠一次;
所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径,细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络,边缘信息路径包括深度可分离卷积(DWConv)和Scharr梯度算子,输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后,再经过可逆神经网络得到细粒度特征,其次,输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征,两个特征相加再经过4×4的卷积和LeakyReLU激活函数后,最终分别输出红外局部信息特征和可见光局部信息特征;
进一步的,所述的可逆神经网络包括三个可逆残差模块,可逆残差模块包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(ReLU6)和逐元素相加操作,输入特征按通道维度被分为相等的两部分F1和F2,其中一个部分经过1×1的卷积、ReLU6操作、卷积核为3×3的深度可分离卷积、ReLU6操作、1×1的卷积和ReLU6操作后,最终与原输入特征F1通过逐元素相加操作后得到输出特征Y1,其次,第一部分输出特征Y1经过第二个可逆残差块得到的特征指数与第二部分F2相乘得到的特征Y12再与第二部分经过第三个残差模块得到的特征相加得到输出特征Y2,计算可表示为:
Y1=IR(F1),Y2=IR(F2)+Y12,
其中,IR为可逆残差模块,通过可逆残差网络提取细节信息,提升模型高频信息提取能力;
所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径,输入局部信息经过空间注意力得到增强的局部细节特征,输入全局信息经过通道注意力增强全局信息,局部信息和全局信息经过Hadamard得到交互信息,有效地捕获全局和局部上下文信息;
所述通道注意力包括卷积核为1×1的卷积、ReLU激活函数和Sigmoid激活函数,输入特征依次经过1×1的卷积、ReLU激活函数、1×1的卷积和Sigmoid激活函数得到通道注意力图,通道注意力图再与输入特征逐元素相乘得到全局特征;
所述的空间注意力包括卷积核为7×7的卷积、平均池化操作、最大池化操作、拼接操作和Sigmoid激活函数,输入特征分别经过平均池化和最大池化操作后,将两者按通道维度拼接,再经过7×7的卷积和Sigmoid激活函数得到空间注意力图,空间注意力图再与输入特征逐元素相乘得到局部细节特征;
将局部细节特征、全局特征和交互特征进行拼接操作后得到局部-全局特征,主编码器一共可提取4组红外与可见光的局部-全局特征,将每组的红外与可见光的局部-全局特征拼接后,最终得到4组预融合特征;
进一步的,所述的解码器包括4个阶段,其每个阶段操作完全相同,每个阶段之间依次连接,每个阶段包括拼接操作、卷积核为4×4,步长为2,填充为1的反卷积、BatchNorm操作、激活函数ReLU,每个阶段中,输入特征经过反卷积、BatchNorm和ReLU激活函数后得到上采样后的特征;
首先将第四组预融合特征输入到第一个阶段,与第三组融合特征在通道维度上拼接得到融合特征,依次将第三组、第二组、第一组预融合融合特征经过第二、三、四阶段后得到最终的融合图像,其中第四阶段中的ReLU激活函数替换为Tanh;
进一步的,所述一种基于多尺度混合变换器的红外与可见光图像融合方法:
从TNO数据集中选定32对图像作为数据集,将图像灰度值转为[-1,1],用128×128的窗口裁剪图像,步长设置为32,最终获得6184对图像块作为训练集;
设置损失函数Ltotal,表示为:
Ltotal=λ1LSSIM+λ2LpatchNCE
其中,λ1、λ2和λ3均为超参数,LSSIM为结构相似性损失,LpatchNCE为对比损失;
根据训练集和损失函数Ltotal对初始的基于多尺度混合变换器的红外与可见光图像融合模型进行训练,训练过程使用的Adam优化器更新网络模型参数,直到完成训练,得到训练好的基于多尺度混合变换器的红外与可见光图像融合模型。
本发明所达到的有益效果:
1、本发明克服卷积神经网络模型缺乏对长距离远程依赖特征进行建模,本发明将Transformer作为辅助编码器,卷积神经网络作为主编码器,保持对局部上下文信息的敏感性的同时补充学习全局信息,引导主编码器学习更加丰富的特征,模型泛化能力更好;
2、本发明开发了多尺度混合注意力模块(MSHA),构造全新的多尺度混合变换器框架(MHformer),同时引入通道和宽的空间维度交互注意力模块以及通道和高的空间维度交互注意力模块,捕获通道维度和空间维度之间的跨通道交互,以此消除自注意力带来边界模糊的影响,增强信息交换,编码更精确的空间信息;
3、本发明开发了多尺度前馈网络替代传统的多层感知机结构,依据图像多尺度信息聚合融合图像更丰富的特征,提升模型抗干扰能力,克服了一般Transformer对于多尺度信息提取不足的问题;
4、本发明开发了梯度残差可逆神经网络模块,通过可逆神经网络逐步提取图像的局部上下文信息和细粒度特征,通过梯度算子补充学习梯度幅度信息,以残差连接的方式整合两特征,提升边缘轮廓和细节表征能力;
5、本发明引入了通道空间融合模块,特征提取过程中,通过同时利用卷积神经网络和变换器的不同特性,使得融合能力表现更好更紧凑;
附图说明
图1为本发明所述方法的总体融合网络示意图;
图2为多尺度混合变换器结构示意图;
图3为通道和高的空间交互注意力模块结构示意图;
图4为通道和宽的空间交互注意力模块结构示意图;
图5为通道空间融合模块结构示意图;
图6为梯度残差可逆神经网络结构示意图;
图7为多尺度前馈网络结构示意图;
图8为第一组融合图像与源图像(2_men_in_front_of_house)的对比示意图;
图9为第二组融合图像与源图像(soldier_in_trench_1)的对比示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种基于多尺度混合变换器的红外与可见光图像融合方法,包括以下阶段:
S1,如图1所示,构建基于多尺度混合变换器的红外与可见光图像融合模型框架;模型框架主要由主编码器、辅助编码器和解码器组成;主编码器、辅助编码器均包含红外路径和可见光路径,通过主编码器提取红外与可见光的局部上下文信息,辅助编码器提取红外与可见光的全局信息,辅助编码器引导主编码器有效地融合全局和局部信息,使得融合图像包含更加丰富的源图像特征。
S11,如图1所示,构造辅助编码器。所述的辅助编码器包括,红外路径和可见光路径;
所述红外路径和可见光路径均包括阶段1,、阶段2、阶段3和阶段4,并且每个阶段依次连接;
进一步的,每个阶段的输入通道数和输出通道数分别为16,32,64,128和32,64,128,256;
所述4个阶段均包含下采样操作(patch embedding)和多尺度混合注意力模块(Multi-scale Hybrid Attention Block,MSHA),红外和可见光图像分别输入进辅助编码器,依次经过每个阶段,分别得到全局红外信息特征和全局可见光信息特征;
进一步的,所述阶段1、2、4堆叠两次下采样和多尺度混合注意力模块,阶段3堆叠四次下采样和多尺度混合注意力模块;
所述下采样操作将输入特征的通道数转变为原来的两倍,将输入特征的高和宽转变为原来的一半;
S12,如图2所示,构建多尺度混合变换器。所述多尺度混合注意力模块包括窗口多头自注意力模块(W-MSA)、变换窗口多头自注意力模块(SW-MSA)、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作(Layernorm);
窗口多头自注意力模块(W-MSA)、通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接。第一次堆叠输入特征Fl-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图Fl,混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征Hl,计算公式可表示:
Fl=W-MSA(L(Fl-1))+scale×(CW(L(Fl-1))+CH(L(Fl-1)))+Fl-1,Hl=MSFFN(LN(Fl))+Fl,
第二次堆叠,输入特征F1 l-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图F1 l,混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征H1 l,计算公式可表示:
F1 l=SW-MSA(L(F1 l-1))+scale×(CW(L(F1 l-1))+CH(L(F1 l-1)))+F1 l-1,H1 l=MSFFN(LN(F1 l))+F1 l,
其中W-MSA为窗口多头自注意力,SW-MSA为变换窗口多头自注意力,旨在捕获长距离依赖关系,获取高级语义特征,L为LayerNorm操作,旨在改善梯度传播,提高泛化能力,CW为通道和宽的空间维度交互注意力,CH为通道和高的空间维度交互注意力,两者皆强调的多维交互而不降低维度的重要性,消除了通道和权重之间的间接对应,MSFFN为多尺度前馈网络,旨在获取图像不同尺度的特征,获取更丰富的图像信息,scale为超参数,这里的scale为0.5,其中阶段3为4次堆叠即重复上述操作两次;
S13,如图3所示,构建通道和高的空间维度交互注意力模块。所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作,输入特征F1经过Permute操作变换H×C×W维度特征,接着在H维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F2,计算可表示为:
F2=P(P(F1)·Sig(Conv(Z(P(F1))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作,该模块通过捕获通道和空间维度H之间的跨通道交互,增强空间信息交换能力,同时编码更精确的空间信息;
S14,如图4所示,构建通道和宽的空间维度交互注意力模块。所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作,输入特征F3经过Permute操作变换W×H×C维度特征,接着在W维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F4,计算可表示为:
F4=P(P(F3)·Sig(Conv(Z(P(F3))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作,该模块通过捕获通道和空间维度W之间的跨通道交互,增强空间信息交换能力,同时编码更精确的空间信息;
S15,如图7所示,构建多尺度前馈网络。所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作,输入特征分别经过两个并行的不同尺度的分支,其中一个分支,1×1的卷积、3×3的深度可分离卷积和ReLU依次连接,另一个分支,1×1的卷积、5×5的深度可分离卷积和ReLU依次连接,输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M1,输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S1,然后将得到两个特征进行拼接操作后,再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M2和S2,将特征M2和S2进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS,计算可表示为:
M1=R(DW3(Conv1(F)))
S1=R(DW5(Conv1(F))),
其中R为ReLU激活函数,DW为深度可分离卷积(卷积核分别为3×3和5×5),获取更宽广感受野并减少计算量,Conv为1×1的卷积,Concat为通道拼接操作,为逐元素相加操作;
S2,如图1所示,构造主编码器,将S1中辅助编码器的全局信息引导进入主编码器进行有效融合。所述的主编码器包括红外路径和可见光路径;
进一步的,红外路径和可见光路径均包括卷积核为1×1的卷积、下采样操作、4个共享的梯度残差可逆神经网络模块和4个通道空间融合模块,在红外路径中,1×1卷积、下采样、第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块依次连接,可见光路径也同样连接;
输入红外与可见光图片分别经过1×1卷积、下采样后,再依次经过第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块得到与辅助编码中全局信息特征融合后的红外图像特征和可见光图像特征;
进一步的,梯度残差可逆神经网络模块的输入输出的通道数为16,32,64,128和32,64,128,256,其中,第四梯度残差可逆神经网络模块堆叠两次,其余均堆叠一次;
S21,如图6所示,构造梯度残差可逆神经网络模块。所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径,细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络,边缘信息路径包括深度可分离卷积(DWConv)和Scharr梯度算子,输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后,再经过可逆神经网络得到细粒度特征,其次,输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征,两个特征相加再经过4×4的卷积和LeakyReLU激活函数后,最终分别输出红外局部信息特征和可见光局部信息特征;
进一步的,所述的可逆神经网络包括三个可逆残差模块,可逆残差模块包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(ReLU6)和逐元素相加操作,输入特征按通道维度被分为相等的两部分F1和F2,其中一个部分经过1×1的卷积、ReLU6操作、卷积核为3×3的深度可分离卷积、ReLU6操作、1×1的卷积和ReLU6操作后,最终与原输入特征F1通过逐元素相加操作后得到输出特征Y1,其次,第一部分输出特征Y1经过第二个可逆残差块得到的特征指数与第二部分F2相乘得到的特征Y12再与第二部分经过第三个残差模块得到的特征相加得到输出特征Y2,计算可表示为:
Y1=IR(F1),Y2=IR(F2)+Y12,
其中,IR为可逆残差模块,通过可逆残差网络提取细节信息,提升模型高频信息提取能力;
S22,如图5所示,构造通道空间融合模块。所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径,输入局部信息经过空间注意力得到增强的局部细节特征,输入全局信息经过通道注意力增强全局信息,局部信息和全局信息经过Hadamard得到交互信息,有效地捕获全局和局部上下文信息;
所述通道注意力包括卷积核为1×1的卷积、ReLU激活函数和Sigmoid激活函数,输入特征依次经过1×1的卷积、ReLU激活函数、1×1的卷积和Sigmoid激活函数得到通道注意力图,通道注意力图再与输入特征逐元素相乘得到全局特征;
所述的空间注意力包括卷积核为7×7的卷积、平均池化操作、最大池化操作、拼接操作和Sigmoid激活函数,输入特征分别经过平均池化和最大池化操作后,将两者按通道维度拼接,再经过7×7的卷积和Sigmoid激活函数得到空间注意力图,空间注意力图再与输入特征逐元素相乘得到局部细节特征;
将局部细节特征、全局特征和交互特征进行拼接操作后得到局部-全局特征,主编码器一共可提取4组红外与可见光的局部-全局特征,将每组的红外与可见光的局部-全局特征拼接后,最终得到4组预融合特征;
S3,如图1所示,构造解码器,将S2主编码器输出的结果输入到解码器中,完成图像重建。所述的解码器包括4个阶段,其每个阶段操作完全相同,每个阶段之间依次连接,每个阶段包括拼接操作、卷积核为4×4,步长为2,填充为1的反卷积、BatchNorm操作、激活函数ReLU,每个阶段中,输入特征经过反卷积、BatchNorm和ReLU激活函数后得到上采样后的特征;
首先将第四组预融合特征输入到第一个阶段,与第三组融合特征在通道维度上拼接得到融合特征,依次将第三组、第二组、第一组预融合融合特征经过第二、三、四阶段后得到最终的融合图像,其中第四阶段中的ReLU激活函数替换为Tanh双曲正切函数;
S4,网络模型训练。采用TNO图像作为训练数据集,对输入两种模态的源图像进行灰度化和数据增强的操作,采用结构相似度和对比损失对网络模型进行训练,得到网络模型的参数。
S41,数据集预处理。从TNO数据集中选定32对图像作为数据集,将图像灰度值转为[-1,1],用128×128的窗口裁剪图像,步长设置为32,最终获得6184对图像块作为训练集。
S5,设置损失函数。损失函数公式可表示为
Ltotal=λ1LSSIM+λ2LpatchNCE,
其中,λ1和λ2均为超参数。
上述的结构相似性损失LSSIM,结构相似度表示为
其中,μ表示像素均值,σxy表示协方差,σ表示方差。C1、C2是为了避免 接近于零而设定的极小值,通常取0.012、0.032。LSSIM表示为:
其中Ix、Iy和If分别表示可见光图像、红外图像和融合图像,W表示滑动窗口,步幅为1,Pi表示像素i的值,m、n表示滑动窗口大小,本发明将窗口设置为16×16。
上述的对比损失LpatchNCE表示为
其中k表示编码好的特征样本,k+表示与k相似的正样本,k-表示与k不相似的负样本,τ表示温度系数,通常取τ=0.07。S表示图像特征层中采样的位置数,其中s∈{1,2,...,S},Ds表示通道空间上任一特征序列。通过计算空间上某一区域与正负样本的相似度,有效地保留融合图像和源图像最相似的部分。
其中,训练过程使用的Adam优化器更新网络模型参数,学习率设置为0.01,Epoch设置为30,Batchsize设置为22。
进一步地,为验证通过上述方法训练得到的基于多尺度混合变换器的红外与可见光图像的融合效果,本发明实施例还对训练好的基于多尺度混合变换器的红外与可见光图像融合模型从定量和定性两方面验证。
具体地,在测试阶段,从TNO中选取了除训练集外的20组图像进行测试验证,对比方法选择7种典型方法,包括DenseFuse、U2Fusion、RFN-Nest、SEDRFuse、IFCNN、GANMcC、CSF。此外,定量评价指标采用信息熵(EN)、平均梯度(AG),空间频率(SF)、互信息(MI)、标准差(SD)、视觉保真度(VIF)等6个指标,验证结果包括定性评价和定量评价两个方面。
(1)定性评价。图8和图9给出了TNO的两组图片。通过对比,可以发现本发明有两个优势。本发明的融合图像能够更好地捕捉热辐射信息,人物的亮度对比红外图像很大程度地保留了,如图8和图9中人物目标。其次,本发明的融合图像能够较好地将可见光图像中的细节纹理和背景特征表现出来,例如图8中天空的亮度和灌丛纹理轮廓,例如图9中战壕顶端的颜色更接近可光,对红外信息的抗干扰能力更好,并且图像不存在伪影。最后,本发明的融合图像能够获取更丰富的源图像信息,有效地解决了单一传感器的局限性,融合图像更自然清晰。
(2)定量评价。表1给出了TNO数据集的20组图像的客观比较结果。最优平均值和次优平均值分别用加粗和下划线标注。可以看出,本发明取得了EN、MI、SD、AG、VIF、SF的最优平均值,最大值EN、MI表示本发明通道空间融合模块和多尺度前馈网络能够较好地融合能够从源图像中获取局部和全局信息,使得融合图像包含更丰富信息,最大值AG、SF、SD表明梯度残差可逆网络能够提取丰富的细节纹理信息,自注意力与两个空间交互模块能编码更精确的空间信息,最大值VIF表明本发明的融合图像有很好的视觉效果,图像更清晰、自然。本发明通过多尺度混合变换器引导卷积神经网络进行融合图像特征重建,有效地捕捉低级空间特征和高级语义上下文,从局部和全局进行建模,融合图像的热辐射信息和纹理细节表现能力更强。
表1TNO数据集的20组图像的定量比较结果
/>
Claims (10)
1.一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,包括以下步骤:
构建基于多尺度混合变换器的红外与可见光图像融合模型框架;模型框架包括辅助编码器、主编码器和解码器;辅助编码器提取红外与可见光的全局信息,主编码器提取红外与可见光的局部上下文信息,辅助编码器引导主编码器融合全局和局部信息,使得融合图像包含多尺度的源图像特征;将多尺度的源图像特征输入到解码器中,完成图像重建。
2.根据权利要求1所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述辅助编码器包括四个阶段,四个阶段均包含下采样操作和多尺度混合注意力模块,红外和可见光图像分别输入进辅助编码器,依次经过四个阶段,分别得到全局红外信息特征和全局可见光信息特征;
阶段1、阶段2、阶段4堆叠两次下采样和多尺度混合注意力模块,阶段3堆叠四次下采样和多尺度混合注意力模块。
3.根据权利要求2所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述多尺度混合注意力模块包括窗口多头自注意力模块、变换窗口多头自注意力模块、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作;窗口多头自注意力模块、通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接;
所述阶段1、阶段2、阶段4堆叠两次包括:
第一次堆叠,输入特征Fl-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图Fl,混合注意力特征图Fl再依次经过层归一化操作和多尺度前馈网络,得到的特征再与混合注意力特征图Fl相加得到多尺度混合注意力特征Hl,公式表示为:
Fl=W-MSA(L(Fl-1))+scale×(CW(L(Fl-1))+CH(L(Fl-1)))+Fl-1,
Hl=MSFFN(LN(Fl))+Fl;
第二次堆叠,输入特征F1 l-1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图F1 l,混合注意力特征图F1 l再依次经过层归一化操作和多尺度前馈网络,得到的特征再与混合注意力特征图F1 l相加得到多尺度混合注意力特征H1 l,公式表示为:
F1 l=SW-MSA(L(F1 l-1))+scale×(CW(L(F1 l-1))+CH(L(F1 l-1)))+F1 l-1,
H1 l=MSFFN(LN(F1 l))+F1 l;
其中W-MSA为窗口多头自注意力,SW-MSA为变换窗口多头自注意力,L为LayerNorm操作,CW为通道和宽的空间维度交互注意力,CH为通道和高的空间维度交互注意力,MSFFN为多尺度前馈网络,scale为超参数,所述阶段3为四次堆叠即重复上述操作两次。
4.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化和激活函数操作,输入特征F1经过Permute操作变换H×C×W维度特征,接着在H维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F2,公式表示为:
F2=P(P(F1)·Sig(Conv(Z(P(F1))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作。
5.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化和激活函数操作,输入特征F3经过Permute操作变换W×H×C维度特征,接着在W维度上进行Z-Pool,再经过7×7卷积和批量归一化后,继续经过Sigmoid激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F4,公式表示为:
F4=P(P(F3)·Sig(Conv(Z(P(F3))))),
其中P为Permute操作,Z为Z-Pool操作,Sig为Sigmoid激活函数操作,Conv为卷积操作。
6.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作;输入特征分别经过两个并行的不同尺度的分支,其中一个分支,1×1的卷积、3×3的深度可分离卷积和ReLU依次连接,另一个分支,1×1的卷积、5×5的深度可分离卷积和ReLU依次连接,输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M1,输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S1,然后将得到两个特征进行拼接操作后,再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M2和S2,将特征M2和S2进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS,公式表示为:
M1=R(DW3(Conv1(F)))
S1=R(DW5(Conv1(F)))
MS=F⊕Conv1(Concat(R(DW3(Concat(M1,S1))),R(DW5(Concat(M1,S1))))),
其中R为ReLU激活函数,DW为深度可分离卷积,Conv为1×1的卷积,Concat为通道拼接操作,⊕为逐元素相加操作。
7.根据权利要求1所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述的主编码器包括红外路径和可见光路径;
红外路径和可见光路径均包括卷积核为1×1的卷积、下采样操作、四个共享的梯度残差可逆神经网络模块和四个通道空间融合模块;
输入红外与可见光图片分别经过1×1卷积、下采样后,再依次经过第一梯度残差可逆神经网络模块、第一通道空间融合模块、第二梯度残差可逆神经网络模块、第二通道空间融合模块、第三梯度残差可逆神经网络模块、第三通道空间融合模块、第四梯度残差可逆神经网络模块、第四通道空间融合模块得到与辅助编码器中全局信息特征融合后的红外图像特征和可见光图像特征。
8.根据权利要求7所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径,细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络,边缘信息路径包括深度可分离卷积和Scharr梯度算子;输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后,再经过可逆神经网络得到细粒度特征,其次,输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征,两个特征相加再经过4×4的卷积和LeakyReLU激活函数后,最终分别输出红外局部信息特征和可见光局部信息特征。
9.根据权利要求7所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径,输入局部信息经过空间注意力路径得到增强的局部细节特征,输入全局信息经过通道注意力路径得到增强的全局信息,局部信息和全局信息经过Hadamard得到交互特征,将局部细节特征、全局特征和交互特征进行拼接操作后得到局部-全局特征,主编码器提取红外与可见光的局部-全局特征,将每组的红外与可见光的局部-全局特征拼接后,得到预融合特征。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388503.6A CN117274760A (zh) | 2023-10-24 | 2023-10-24 | 一种基于多尺度混合变换器的红外与可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388503.6A CN117274760A (zh) | 2023-10-24 | 2023-10-24 | 一种基于多尺度混合变换器的红外与可见光图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274760A true CN117274760A (zh) | 2023-12-22 |
Family
ID=89202580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311388503.6A Pending CN117274760A (zh) | 2023-10-24 | 2023-10-24 | 一种基于多尺度混合变换器的红外与可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274760A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876836A (zh) * | 2024-03-11 | 2024-04-12 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
CN117949794A (zh) * | 2024-03-27 | 2024-04-30 | 阳谷新太平洋电缆有限公司 | 一种电缆局部放电故障检测方法 |
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
-
2023
- 2023-10-24 CN CN202311388503.6A patent/CN117274760A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876836A (zh) * | 2024-03-11 | 2024-04-12 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
CN117876836B (zh) * | 2024-03-11 | 2024-05-24 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
CN117949794A (zh) * | 2024-03-27 | 2024-04-30 | 阳谷新太平洋电缆有限公司 | 一种电缆局部放电故障检测方法 |
CN117949794B (zh) * | 2024-03-27 | 2024-06-04 | 阳谷新太平洋电缆有限公司 | 一种电缆局部放电故障检测方法 |
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363215B (zh) | 基于生成式对抗网络的sar图像转化为光学图像的方法 | |
CN117274760A (zh) | 一种基于多尺度混合变换器的红外与可见光图像融合方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN111210435A (zh) | 一种基于局部和全局特征增强模块的图像语义分割方法 | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN116757988B (zh) | 基于语义丰富和分割任务的红外与可见光图像融合方法 | |
CN113628261B (zh) | 一种电力巡检场景下的红外与可见光图像配准方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN111145290A (zh) | 一种图像彩色化方法、系统和计算机可读存储介质 | |
CN114881871A (zh) | 一种融合注意力单幅图像去雨方法 | |
CN114266957A (zh) | 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN115511767A (zh) | 一种自监督学习的多模态图像融合方法及其应用 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
Xie et al. | Dual camera snapshot high-resolution-hyperspectral imaging system with parallel joint optimization via physics-informed learning | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN116245861A (zh) | 基于交叉多尺度的无参考图像质量评价方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN113628111B (zh) | 基于梯度信息约束的高光谱图像超分辨方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |