CN115511767A - 一种自监督学习的多模态图像融合方法及其应用 - Google Patents

一种自监督学习的多模态图像融合方法及其应用 Download PDF

Info

Publication number
CN115511767A
CN115511767A CN202211382245.6A CN202211382245A CN115511767A CN 115511767 A CN115511767 A CN 115511767A CN 202211382245 A CN202211382245 A CN 202211382245A CN 115511767 A CN115511767 A CN 115511767A
Authority
CN
China
Prior art keywords
image
lewin
fusion
stage
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211382245.6A
Other languages
English (en)
Other versions
CN115511767B (zh
Inventor
陈勋
张静
刘爱萍
谢洪涛
谢庆国
钱若兵
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211382245.6A priority Critical patent/CN115511767B/zh
Publication of CN115511767A publication Critical patent/CN115511767A/zh
Application granted granted Critical
Publication of CN115511767B publication Critical patent/CN115511767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种自监督学习的多模态图像融合方法及其应用,该方法包括:1、获取大型自然图像数据集并进行预处理,得到随机低分辨图像;2、构建基于Transformer的编码器‑解码器结构的超分辨网络,将随机低分辨图像输入到超分辨网络进行自监督训练,得到优化后的编码器和解码器;3、在优化后的编码器和解码器之间集成融合规则,构建融合模型,以多个模态图像作为输入,输出融合图像。本发明以期能直接从多个模态图像中合成一幅包含所有模态图像重要信息的高质量融合图像,从而能更快捷方便地辅助医生进行临床实践,以及辅助于民用和军用的环境监测系统。

Description

一种自监督学习的多模态图像融合方法及其应用
技术领域
本发明涉及图像融合技术领域,尤其涉及基于深度学习的多模态图像融合方法及其应用。
背景技术
由于硬件设备的限制,单一类型的成像传感器无法刻画出一个场景下的所有信息。多模态图像融合旨在综合同一场景下不同模态图像的重要信息,合成一张信息更丰富的图像。其被广泛应用于民用或军用监控系统,以及临床应用。例如,可见光传感器通过捕捉反射光来生成具有大量细节的图像,而红外传感器通过热辐射能够突出显著的目标。可见光图像和红外图像的融合则给环境监控带来了极大便利。在医学成像领域,计算机断层扫描成像(Computed Tomography, CT)能够反映出诸如骨头和植入物之类的密集结构,而核磁共振成像(Magnetic Resonance Imaging, MRI)主要提供软组织细节信息。CT和MRI的融合帮助精准定位骨肿瘤的边界。
有效的特征提取方式和融合策略是实现多模态图像融合的关键。为此,传统方法提出了许多分解方式来提取源图像的特征,包括多尺度变换、稀疏表示、子空间分析等。然后,不同源图像的分解系数使用某种融合规则进行融合。常用的融合规则有最大值、最小值、求和、L1范数等。最后,将融合后的系数通过分解方式的逆变换重构为融合图像。传统的多模态图像融合方法已经取得了良好的融合效果,但也存在着一些不足,限制了融合性能的进一步提高。首先,以上人为定义的分解方式很难充分提取源图像的重要特征。其次,这些分解方式的设计是非常复杂且耗时的。
近年来,凭借自动提取特征的能力,基于深度学习的方法成为多模态图像融合领域的主流。由于参考融合图像的缺乏,现有的针对多模态图像融合的深度学习方法按照训练方式可以分成两类:无监督学习和自监督学习。无监督学习通过最小化源图像和融合图像之间的损失函数来约束融合图像保留的信息。但是它存在两个问题:一是难以度量和平衡不同源图像保留到融合图像的信息量,容易导致融合图像的信息保留不准确或不充分;二是无监督学习需要大量的训练数据,然而当前的多模态图像融合数据集体量不够大,尤其是医学图像数据集。缺乏大体量的训练集容易导致模型过拟合以及低泛化性。鉴于以上无监督学习中存在的问题,一些研究工作利用自监督学习来实现多模态图像融合。具体而言,这些方法首先用大体量的自然图像数据集通过简单的图像重构任务来训练一个编码器-解码器结构的网络,然后在训练好的编码器之后、解码器之前加入融合规则来融合编码器提取的不同源图像的特征,接着融合特征输入到解码器去重构出融合图像。然而,这些自监督方法忽略了训练数据(自然图像数据集)和测试数据(多模态图像融合数据集)之间的域差异,限制了目标任务的融合性能。
此外,当前基于深度学习的多模态图像融合方法大多基于卷积神经网络(Convolutional Neural Network, CNN)来提取源图像的特征,并实现了不错的融合效果。事实上,一幅高质量的融合图像不仅需要考虑源图像对的局部区域内的像素,也需要考虑整幅图像的像素强度和纹理细节。因此,对多模态图像融合而言,局部和全局信息的捕捉是至关重要的。CNNs擅长提取局部特征,但无法有效地建模长程依赖关系,因此可能会丢失一些重要的信息。
发明内容
本发明为克服现有技术的不足之处,提出一种自监督学习的多模态图像融合方法及其应用,以期能直接从多个模态图像中合成一幅包含了所有模态图像重要信息的融合图像,从而能更快捷方便地辅助医生进行临床实践,以及辅助于民用和军用的环境监测系统。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种自监督学习的多模态图像融合方法的特点在于,包括如下步骤:
步骤一、获取大型自然图像数据集并进行预处理,得到随机低分辨图像集合:
步骤1.1、从大型自然图像数据集获取原始训练图像集合,并将每张原始训练图像转换到灰度空间后,再将得到的每张灰度训练图像裁剪到固定尺寸,从而得到裁剪后的灰度图像集合,其中一张裁剪后的灰度图像记为I;
步骤1.2、为每张裁剪后的灰度图像设置一个随机概率,若随机概率小于阈值p,则将相应裁剪后的灰度图像转换成低分辨图像,否则,不转换,从而得到随机低分辨图像集合,其中,裁剪后的灰度图像I对应的一张随机低分辨率图像记为I';
步骤二、构建超分辨网络,包括一个编码器和一个解码器;并将随机低分辨图像I'输入到超分辨网络中进行自监督训练,得到优化后的编码器和优化后的解码器:
步骤2.1、构建编码器,依次包括一个输入映射层、K个编码阶段、一个瓶颈层:
步骤2.1.1、构建输入映射层,依次包括一个卷积层和一个LeakyReLU激活函数;并将随机低分辨图像I'输入所述输入映射层中进行处理后,得到输入映射层输出的特征图;
步骤2.1.2、构建K个编码阶段,并对所述输入映射层输出的特征图进行处理,从而由第K个编码阶段输出编码特征FeatK
步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层,并将所述编码特征FeatK输入到瓶颈层中,得到瓶颈层输出的编码特征FeatK+1
步骤2.2、构建解码器,依次包括K个解码阶段和一个输出映射层,并对编码特征进行处理,得到超分辨图像Ĩ;
步骤2.3、构建损失函数:
以裁剪后的灰度图像I作为参考超分辨图像,按式(1)构建与所述超分辨图像
Figure 866881DEST_PATH_IMAGE001
之间的损失函数Loss:
Figure 151231DEST_PATH_IMAGE002
(1)
式(1)中,e是一个扰动常数;
步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中,并采用AdamW优化器对损失函数Loss进行最小化求解,以优化超分辨网络中的所有参数,并得到优化后的编码器和优化后的解码器;
步骤三、构建融合模型,包括:优化后的编码器、融合模块、优化后的解码器,并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换,得到最终融合图像:
步骤3.1、将待融合的S个模态图像进行色彩空间转换,得到亮度通道下的S个模态图像{I1,…,Is,…,IS},其中,Is表示亮度通道下的第s个模态图像,s∈{1,2,…,S};
步骤3.2、将所述第s个模态图像Is输入到所述优化后的编码器中,得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s,从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…,Fk,s,…, Fk,S};
步骤3.3、构建融合模块,并对所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合,得到所述S个模态图像{I1,…,Is,…,IS}在所述第k个编码阶段的融合特征图Fk
步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器,得到初步融合图像;
步骤3.5、若待融合的S个模态图像是灰度图像,则初步融合图像即是最终融合图像;若待融合的S个模态图像是RGB色彩空间,则按以下过程处理:
首先将待融合的S个模态图像分别转换到YCbCr空间,得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合;将所述Cb通道上的图像集合和所述Cr通道上的图像集合分别进行加权融合,得到融合后的Cb通道图像和融合后的Cr通道图像;将所述融合后的Cb通道图像、所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间,从而得到最终融合图像。
本发明所述的自监督学习的多模态图像融合方法的特点也在于,所述步骤2.1.2包括:
令K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层,k∈{1,2,…,K};所述第k个编码阶段的Nk个LeWin Transformer模块分别记为LeWink,1,…, LeWink,n,…,
Figure 298179DEST_PATH_IMAGE003
,n∈{1,2,…, Nk},其中,LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块,并依次包括:第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络LeFFk,n
当k=1,n=1时,令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入,记为
Figure 388495DEST_PATH_IMAGE004
,并经过第一个归一化层LNk,n,1的处理后输出特征图Xk,n∈RC´H´W,C、H、W分别代表特征图Xk,n的通道数目、宽、高;所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对所述特征图Xk,n按尺寸为M´M的不重叠窗口进行划分,得到N个窗口的特征图,再将N个窗口的特征图分别拉平,从而得到特征向量
Figure 570077DEST_PATH_IMAGE005
,N=HW/M2;其中,
Figure 152893DEST_PATH_IMAGE006
表示所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量,i∈{1,2,…,N};对所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量
Figure 52716DEST_PATH_IMAGE006
进行第h个头的注意力计算,得到第i个窗口的第h个头的注意力计算结果
Figure 681143DEST_PATH_IMAGE007
,h∈{1,2,…,H'},从而得到所述多头注意力机制模块WMSAk,n中N个窗口的第h个头的注意力计算结果集合
Figure 717232DEST_PATH_IMAGE008
,进而得到所述多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合
Figure 343386DEST_PATH_IMAGE009
并在通道维度上进行拼接后再进行线性映射,最终得到所述多头注意力机制模块WMSAk,n输出的注意力增强特征向量
Figure 464926DEST_PATH_IMAGE010
将所述注意力增强特征向量
Figure 897044DEST_PATH_IMAGE011
与所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入
Figure 53219DEST_PATH_IMAGE004
相加,得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的中间结果
Figure 850273DEST_PATH_IMAGE012
;将所述中间结果
Figure 521426DEST_PATH_IMAGE012
输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后,得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中,并依次经过一个线性层和一个GELU激活函数的映射后,得到映射后的特征向量;再将所述映射后的特征向量重塑为2D特征图后,依次经过一个深度可分卷积层和一个GELU激活函数的处理,得到卷积后的特征图;再将所述卷积后的特征图拉平成特征向量,然后依次经过另一个线性层和另一个GELU激活函数的处理后,得到所述前馈网络LeFFk,n最终输出的局部增强特征向量
Figure 429339DEST_PATH_IMAGE013
;将所述局部增强特征向量
Figure 440021DEST_PATH_IMAGE013
与所述中间结果
Figure 407977DEST_PATH_IMAGE012
进行相加后,得到所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n最终输出的包含局部和全部信息的特征向量
Figure 566426DEST_PATH_IMAGE014
当k=1,n=2,3,…,Nk时,将所述第k个编码阶段的第n-1个LeWin Transformer模块LeWink,n-1最终输出的包含局部和全部信息的特征向量
Figure 278030DEST_PATH_IMAGE015
输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n中进行处理,得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n输出的包含局部和全部信息的特征向量
Figure 408797DEST_PATH_IMAGE014
,从而由第k个编码阶段的第Nk个LeWin Transformer模块
Figure 547654DEST_PATH_IMAGE003
输出包含局部和全部信息的特征向量
Figure 927820DEST_PATH_IMAGE016
第k个编码阶段的下采样层将所述包含局部和全部信息的特征向量
Figure 505432DEST_PATH_IMAGE016
变形为2D特征图后,再用一个卷积层进行下采样,得到第k个编码阶段最终输出的编码特征Featk
当k=2,3,…,K时,将第k-1个编码阶段最终输出的结果Featk-1输入第k个编码阶段,得到第k个编码阶段输出的编码特征Featk,从而得到第K个编码阶段输出的编码特征FeatK
所述步骤2.2包括:
步骤2.2.1、构建K个解码阶段,其中,第k个解码阶段由一个上采样层和NK+1-k个LeWin Transformer模块依次构成,k∈{1,2,…,K};所述第k个解码阶段的上采样层由一个转置卷积层构成;
当k=1时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与所述瓶颈层输出的编码特征FeatK+1在特征维度上进行拼接,再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理,输出上采样后的特征图;将所述上采样后的特征图依次输入到第k个解码阶段的NK+1-k个LeWin Transformer模块,得到第k个解码阶段输出的解码特征向量;
当k=2,3,…,K时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与第k-1个解码阶段输出的解码特征向量在特征维度上进行拼接,再将拼接后的结果输入第k个解码阶段,并得到第k个解码阶段输出的解码特征向量,从而由第K个解码阶段输出最终的解码特征向量;
步骤2.2.2、构建由一个卷积层构成的输出映射层,并将所述第K个解码阶段输出的最终的解码特征向量重塑为2D特征后输入到所述输出映射层,并得到所述超分辨网络最终输出的超分辨图像Ĩ。
所述步骤3.3包括:
步骤3.3.1、计算所述特征图Fk,s在通道维度上的L1范数,得到初始活动水平图Ak,s
步骤3.3.2、利用基于区域的平均算子对所述初始活动水平图Ak,s进行处理,得到最终活动水平图
Figure 490705DEST_PATH_IMAGE017
,从而得到最终活动水平图集合
Figure 800464DEST_PATH_IMAGE018
步骤3.3.3、归一化所述最终活动水平图
Figure 605609DEST_PATH_IMAGE018
,得到所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}对应的权重集合{wk,1,…, wk,s,…, wk,S},其中,wk,s表示所述特征图Fk,s的权重;将所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}在每个通道上的特征集合分别与所述权重集合{wk,1,…, wk,s,…, wk,S}进行加权求和,得到每个通道融合后的特征,并构成第k个编码阶段的融合特征图Fk,从而得到K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述多模态图像融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述多模态图像融合方法的步骤。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过自监督学习和基于Transformer的深度神经网络设计了一种多模态图像融合方法,避免了无监督学习中信息度量难以定义和目标数据缺乏的问题,以及克服了卷积神经网络不能有效建模全局上下文信息的问题,最终获得了高质量的融合图像。
2、本发明提出以随机图像超分辨作为借口任务去训练融合网络。图像超分辨任务所需的训练图像(低分辩图像)和参考图像(高分辨图像)可以通过大型自然图像数据集产生,因此融合网络可以在大型自然图像数据集上得到充分的训练,避免了多模态图像数据集规模小引起的网络训练不充分的问题。其它自监督的多模态图像融合方法是以简单的图像重构作为借口任务来训练网络,而本发明通过以低分辩图像作为网络的输入,用对应的高分辨图像监督网络的输出,提高了最终融合图像的纹理细节信息。随机图像超分辨不仅扩大了训练样本的多样性,有利于提升融合网络的泛化性,并且产生的随机低分辩图像与多模态图像的特点非常相似,有利于减小训练数据(大型自然图像数据集)与目标数据(多模态图像数据集)之间的域差异,从而缓解了域差异引起的性能下降。
3、本发明提出一个基于 Transformer的融合网络,去建模多模态图像的局部和全局上下文关系,即关注了局部区域内的像素信息,又利用了图像强度和纹理细节等全局信息,避免了多模态图像中重要信息的丢失。当前基于深度学习的多模态图像融合方法大多基于卷积神经网络来提取源图像的特征,无法有效地建模长程上下文关系,因此可能会丢失一些重要的信息。有一些多模态图像融合方法提出CNN-Transformer联合的网络或者纯Transformer网络,而本发明是一个多尺度结构下Transformer为主少量卷积层为辅的网络,并且所使用的Transformer的内部结构完全不同于之前已有的多模态图像融合方法,它能够在没有CNN子网络的情况下同时提取局部和全局信息,从而为多模态图像融合领域提供了一种新的网络范式。
4、本发明具有优越的通用性,在不调整任何参数的情况下,可直接应用于多模态图像融合中的医学图像融合以及红外和可见光图像融合,从而更快捷方便地辅助医生进行临床实践,以及辅助于民用和军用的环境监测系统。
附图说明
图1为本发明实施例提供的一种自监督学习的多模态图像融合方法及其应用流程图;
图2为本发明实施例提供的网络自监督训练示意图;
图3为本发明实施例提供的LeWin Transformer模块结构图;
图4为本发明实施例提供的LeFF模块结构图;
图5为本发明实施例提供的多模态图像融合示意图。
具体实施方式
本实施例中,一种自监督学习的多模态图像融合方法,如图1所示,包括如下步骤:
步骤一、获取大型自然图像数据集并进行预处理,得到随机低分辨图像集合:
步骤1.1、从大型自然图像数据集获取原始训练图像集合,并将每张原始训练图像转换到灰度空间后,再将得到的每张灰度训练图像裁剪到固定尺寸,从而得到裁剪后的灰度图像集合,其中一张裁剪后的灰度图像记为I;本实施例中,从MS-COCO数据集网站(http://images.cocodataset.org/zips/train2017.zip) 收集了10000张自然图像作为原始训练图像集合,其中每张图像是RGB色彩空间,通道数为3;具体实施中,裁剪后的图像尺寸可以设置为128×128。
步骤1.2、为每张裁剪后的灰度图像设置一个随机概率,若随机概率小于阈值p,则将相应裁剪后的灰度图像转换成低分辨图像,否则,不转换,从而得到随机低分辨图像集合,其中,裁剪后的灰度图像I对应的一张随机低分辨率图像记为I';本实施例中,阈值p设置为0.5,意味着着每张裁剪后的灰度图像有50%的概率会被转换为低分辩图像,50%的概率维持不变,随机概率的设定增加了训练样本的多样性,有利于提升模型的泛化性;具体实施中,低分辨图像是由将每张裁剪后的图像下采样2倍然后通过双三次插值上采样2倍得到。
步骤二、构建超分辨网络,包括一个编码器和一个解码器;并将随机低分辨图像I'输入到超分辨网络中进行自监督训练,如图2所示,得到优化后的编码器和优化后的解码器:
步骤2.1、构建编码器,依次包括一个输入映射层、K个编码阶段、一个瓶颈层:
步骤2.1.1、构建输入映射层,依次包括一个卷积层和一个LeakyReLU激活函数;并将随机低分辨图像I'输入输入映射层中进行处理后,得到输入映射层输出的特征图。
步骤2.1.2、构建K个编码阶段:
K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层,k∈{1,2,…,K};第k个编码阶段的Nk个LeWin Transformer模块分别记为LeWink,1,…, LeWink,n,…,
Figure 735981DEST_PATH_IMAGE003
,n∈{1,2,…, Nk},其中,LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块,并依次包括:第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络LeFFk,n,按式(1)-式(2)实现,如图3所示;本实施例中,K = 4,对任意k,Nk = 2;
Figure 575761DEST_PATH_IMAGE019
(1)
Figure 56421DEST_PATH_IMAGE020
(2)
式(1)-式(2)中,
Figure 614441DEST_PATH_IMAGE021
Figure 268276DEST_PATH_IMAGE022
Figure 228142DEST_PATH_IMAGE023
分别表示第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入、中间结果、输出;
当k=1,n=1时,令输入映射层输出的特征图作为第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入,记为
Figure 879703DEST_PATH_IMAGE021
,并经过第一个归一化层LNk,n,1的处理后输出特征图Xk,n∈RC´H´W,C、H、W分别代表特征图Xk,n的通道数目、宽、高;第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对特征图Xk,n按尺寸为M´M的不重叠窗口进行划分,得到N个窗口的特征图,再将N个窗口的特征图分别拉平,从而得到特征向量
Figure 721757DEST_PATH_IMAGE024
,N=HW/M2;其中,
Figure 116966DEST_PATH_IMAGE025
表示多头注意力机制模块WMSAk,n中第i个窗口内的特征向量,i∈{1,2,…,N};对多头注意力机制模块WMSAk,n中第i个窗口内的特征向量
Figure 931339DEST_PATH_IMAGE025
按式(3)进行第h个头的注意力计算:
Figure 753801DEST_PATH_IMAGE026
(3)
式(3)中,
Figure 20835DEST_PATH_IMAGE027
Figure 282052DEST_PATH_IMAGE028
Figure 950930DEST_PATH_IMAGE029
是多头注意力机制模块WMSAk,n中第i个窗口内的第h个头的可训练矩阵,尺寸为C×dh,Attention按式(4)计算:
Figure 6611DEST_PATH_IMAGE030
(4)
式(4)中,Softmax表示Softmax函数,B表示相对位置偏置;于是得到第i个窗口的第h个头的注意力计算结果
Figure 760940DEST_PATH_IMAGE031
,h∈{1,2,…,H'},从而得到多头注意力机制模块WMSAk,n中N个窗口的第h个头的注意力计算结果集合
Figure 763531DEST_PATH_IMAGE032
,进而得到多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合
Figure 286917DEST_PATH_IMAGE033
并在通道维度上进行拼接后再进行线性映射,最终得到多头注意力机制模块WMSAk,n输出的注意力增强特征向量
Figure 451182DEST_PATH_IMAGE034
;本实施例中,M=8,H'=8,对任意h,dh=32;
将注意力增强特征向量
Figure 755124DEST_PATH_IMAGE035
与第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入
Figure 358144DEST_PATH_IMAGE036
相加,得到第k个编码阶段的第n个LeWin Transformer模块LeWink,n的中间结果
Figure 736036DEST_PATH_IMAGE037
;将中间结果
Figure 336781DEST_PATH_IMAGE037
输入第k个编码阶段的第n个LeWinTransformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后,得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中,如图4所示,依次经过一个线性层和一个GELU激活函数的映射后,得到映射后的特征向量;再将映射后的特征向量重塑为2D特征图后,依次经过一个深度可分卷积层和一个GELU激活函数的处理,得到卷积后的特征图;再将卷积后的特征图拉平成特征向量,然后依次经过另一个线性层和另一个GELU激活函数的处理后,得到前馈网络LeFFk,n最终输出的局部增强特征向量
Figure 800124DEST_PATH_IMAGE038
;将局部增强特征向量
Figure 206834DEST_PATH_IMAGE038
与中间结果
Figure 439232DEST_PATH_IMAGE037
进行相加后,得到第k个编码阶段的第n个LeWin Transformer模块LeWink,n最终输出的包含局部和全部信息的特征向量
Figure 210879DEST_PATH_IMAGE023
当k=1,n=2,3,…,Nk时,将第k个编码阶段的第n-1个LeWin Transformer模块LeWink,n-1最终输出的包含局部和全部信息的特征向量
Figure 161518DEST_PATH_IMAGE039
输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n中进行处理,得到第k个编码阶段的第n个LeWinTransformer模块LeWink,n输出的包含局部和全部信息的特征向量
Figure 44023DEST_PATH_IMAGE023
,从而由第k个编码阶段的第Nk个LeWin Transformer模块LeWink,Nk输出包含局部和全部信息的特征向量
Figure 461754DEST_PATH_IMAGE040
第k个编码阶段的下采样层将包含局部和全部信息的特征向量
Figure 404302DEST_PATH_IMAGE040
变形为2D特征图后,再用一个卷积层进行下采样,得到第k个编码阶段最终输出的编码特征Featk
当k=2,3,…,K时,将第k-1个编码阶段最终输出的结果Featk-1输入第k个编码阶段,得到第k个编码阶段输出的编码特征Featk,从而得到由第K个编码阶段输出的编码特征FeatK
步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层,并将编码特征FeatK输入到瓶颈层中,得到瓶颈层输出的编码特征FeatK+1;本实施例中,NK+1=2。
步骤2.2、构建解码器,依次包括K个解码阶段和一个输出映射层:
步骤2.2.1、构建K个解码阶段,其中,第k个解码阶段由一个上采样层和NK+1-k个LeWin Transformer模块依次构成,k∈{1,2,…,K};第k个解码阶段的上采样层由一个转置卷积层构成;本实施例中,转置卷积层的核尺寸为2×2、步长为2;
当k=1时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与瓶颈层输出的编码特征FeatK+1在特征维度上进行拼接,再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理,输出上采样后的特征图;将上采样后的特征图依次输入到第k个解码阶段的NK+1-k个LeWin Transformer模块,得到第k个解码阶段输出的解码特征向量;
当k=2,3,…,K时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与第k-1个解码阶段输出的解码特征向量在特征维度上进行拼接,再将拼接后的结果输入第k个解码阶段,并得到第k个解码阶段输出的解码特征向量,从而由第K个解码阶段输出最终的解码特征向量。
步骤2.2.2、构建由一个卷积层构成的输出映射层,并将第K个解码阶段输出的最终的解码特征向量重塑为2D特征后输入到输出映射层,并得到超分辨网络最终输出的超分辨图像Ĩ;本实施例中,卷积层的核尺寸为3×3。
步骤2.3、构建损失函数:
以裁剪后的灰度图像I作为参考超分辨图像,按式(5)构建与超分辨图像
Figure 842236DEST_PATH_IMAGE041
之间的损失函数Loss:
Figure 528433DEST_PATH_IMAGE042
(5)
式(5)中,e是一个扰动常数;本实施例中,e被设置为0.001。
步骤2.4、将低分辩图像集合按B个图像为一批循环输入到超分辨网络中,并采用AdamW优化器对损失函数Loss进行最小化求解,以优化超分辨网络中的所有参数,并得到优化后的编码器和优化后的解码器; 本实施例中,B=32。
步骤三、构建融合模型,包括:优化后的编码器、融合模块、优化后的解码器,并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换,得到最终融合图像:
步骤3.1、将待融合的S个模态图像进行色彩空间转换,得到亮度通道下的S个模态图像{I1,…,Is,…,IS},其中,Is表示亮度通道下的第s个模态图像,s∈{1,2,…,S}。
步骤3.2、将第s个模态图像Is输入到优化后的编码器中,得到优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s,从而得到优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…, Fk,s,…, Fk,S}。
步骤3.3、构建融合模块,并对特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合,得到S个模态图像{I1,…,Is,…,IS}在第k个编码阶段的融合特征图Fk
步骤3.3.1、计算特征图Fk,s在通道维度上的L1范数,得到初始活动水平图Ak,s
Figure 797740DEST_PATH_IMAGE043
(6)
式(6)中,(x, y)表示2D空间像素位置。
步骤3.3.2、利用基于区域的平均算子对初始活动水平图Ak,s进行处理,得到最终活动水平图
Figure 911189DEST_PATH_IMAGE044
Figure 836420DEST_PATH_IMAGE045
(7)
式(7)中,r表示区域的大小;本实施例中,r=1;从而得到最终活动水平图集合
Figure 60728DEST_PATH_IMAGE046
步骤3.3.3、归一化最终活动水平图
Figure 450121DEST_PATH_IMAGE046
,得到特征图集合{Fk,1,…,Fk,s,…, Fk,S}对应的权重集合{wk,1,…, wk,s,…, wk,S},其中,wk,s表示特征图Fk,s的权重:
Figure 468893DEST_PATH_IMAGE047
(8)
将特征图集合{Fk,1,…, Fk,s,…, Fk,S}在第c个通道上的特征集合
Figure 881419DEST_PATH_IMAGE048
分别与权重集合{wk,1,…, wk,s,…, wk,S}进行加权求和,得到第c个通道上融合后的特征Fc k:
Figure 909418DEST_PATH_IMAGE049
(9)
于是得到第k个编码阶段的融合特征图Fk,从而得到K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}。
步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器,得到初步融合图像,如图5所示。
步骤3.5、若待融合的S个模态图像是灰度图像,则初步融合图像即是最终融合图像;若待融合的S个模态图像是RGB色彩空间,则按以下过程处理:
首先将待融合的S个模态图像分别转换到YCbCr空间,得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合;将Cb通道上的图像集合和Cr通道上的图像集合分别进行加权融合,得到融合后的Cb通道图像和融合后的Cr通道图像;将融合后的Cb通道图像、融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间,从而得到最终融合图像。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述多模态图像融合方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述多模态图像融合方法的步骤。
为了说明本发明上述方案的性能,在两个多模态图像融合任务上进行了性能评估,包括:CT和MRI医学图像融合、红外和可见光图像融合,并与代表性多模态图像融合方法IFCNN、PMGI以及U2Fusion进行对比。这两个多模态图像融合任务所需的数据分别来自哈佛医学图像数据集和RoadScene数据集。本发明将互信息、结构相似性作为评价指标,指标值越大,融合图像的质量越高。其中,互信息表示原始多模态图像迁移到融合图像的信息量,而结构相似性表示原始多模态图像与融合图像之间的结构相似性。不同方法在20对CT和MRI医学图像以及40对红外和可见光图像上的平均融合质量如表1:
表1. 不同方法的融合性能
Figure 91001DEST_PATH_IMAGE050
表1实验结果表明,与代表性多模态图像融合方法IFCNN、PMGI以及U2Fusion方法相比,本发明在互信息和结构相似性两个指标上均为最优。对于CT和MRI医学图像融合,对比IFCNN、PMGI和U2Fusion方法,本发明方法在互信息指标上分别提升了18.57%、32.63%和24.32%,在结构相似性指标上分别提升了1.56%、150.41%和207.41%。对于红外和可见光图像融合,对比IFCNN、PMGI和U2Fusion方法,本发明在互信息指标上分别提升了12.60%、20.86%和4.47%,在结构相似性指标上分别提升了5.09%、4.23%和47.82%。
此外,为了说明本发明中随机图像超分辨作为借口任务的有效性,将阈值p设置为0作为对比实验,并增加平均梯度、边界强度以及空间频率三个指标来分别反映融合图像本身的梯度信息、边界强度信息以及梯度分布。P=0时,随机图像超分辨借口任务退化为标准重构借口任务。不同借口任务在20对CT和MRI医学图像以及40对红外和可见光图像上的平均融合质量如表2:
表2. 不同借口任务的融合性能
Figure 608570DEST_PATH_IMAGE051
表2实验结果表明,与标准重构借口任务相比,本发明的随机图像超分辨借口任务在互信息、平均梯度、边界强度以及空间频率四个指标上均为最优,并获得可相媲美的结构相似性指标值。

Claims (6)

1.一种自监督学习的多模态图像融合方法,其特征在于,包括如下步骤:
步骤一、获取大型自然图像数据集并进行预处理,得到随机低分辨图像集合:
步骤1.1、从大型自然图像数据集获取原始训练图像集合,并将每张原始训练图像转换到灰度空间后,再将得到的每张灰度训练图像裁剪到固定尺寸,从而得到裁剪后的灰度图像集合,其中一张裁剪后的灰度图像记为I;
步骤1.2、为每张裁剪后的灰度图像设置一个随机概率,若随机概率小于阈值p,则将相应裁剪后的灰度图像转换成低分辨图像,否则,不转换,从而得到随机低分辨图像集合,其中,裁剪后的灰度图像I对应的一张随机低分辨率图像记为I';
步骤二、构建超分辨网络,包括一个编码器和一个解码器;并将随机低分辨图像I'输入到超分辨网络中进行自监督训练,得到优化后的编码器和优化后的解码器:
步骤2.1、构建编码器,依次包括一个输入映射层、K个编码阶段、一个瓶颈层:
步骤2.1.1、构建输入映射层,依次包括一个卷积层和一个LeakyReLU激活函数;并将随机低分辨图像I'输入所述输入映射层中进行处理后,得到输入映射层输出的特征图;
步骤2.1.2、构建K个编码阶段,并对所述输入映射层输出的特征图进行处理,从而由第K个编码阶段输出编码特征FeatK
步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层,并将所述编码特征FeatK输入到瓶颈层中,得到瓶颈层输出的编码特征FeatK+1
步骤2.2、构建解码器,依次包括K个解码阶段和一个输出映射层,并对编码特征进行处理,得到超分辨图像Ĩ;
步骤2.3、构建损失函数:
以裁剪后的灰度图像I作为参考超分辨图像,按式(1)构建与所述超分辨图像
Figure DEST_PATH_IMAGE001
之间的损失函数Loss:
Figure 58534DEST_PATH_IMAGE002
(1)
式(1)中,e是一个扰动常数;
步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中,并采用AdamW优化器对损失函数Loss进行最小化求解,以优化超分辨网络中的所有参数,并得到优化后的编码器和优化后的解码器;
步骤三、构建融合模型,包括:优化后的编码器、融合模块、优化后的解码器,并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换,得到最终融合图像:
步骤3.1、将待融合的S个模态图像进行色彩空间转换,得到亮度通道下的S个模态图像{I1,…,Is,…,IS},其中,Is表示亮度通道下的第s个模态图像,s∈{1,2,…,S};
步骤3.2、将所述第s个模态图像Is输入到所述优化后的编码器中,得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s,从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…, Fk,s,…,Fk,S};
步骤3.3、构建融合模块,并对所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合,得到所述S个模态图像{I1,…,Is,…,IS}在所述第k个编码阶段的融合特征图Fk
步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器,得到初步融合图像;
步骤3.5、若待融合的S个模态图像是灰度图像,则初步融合图像即是最终融合图像;若待融合的S个模态图像是RGB色彩空间,则按以下过程处理:
首先将待融合的S个模态图像分别转换到YCbCr空间,得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合;将所述Cb通道上的图像集合和所述Cr通道上的图像集合分别进行加权融合,得到融合后的Cb通道图像和融合后的Cr通道图像;将所述融合后的Cb通道图像、所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间,从而得到最终融合图像。
2.根据权利要求1所述的自监督学习的多模态图像融合方法,其特征在于,所述步骤2.1.2包括:
令K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层,k∈{1,2,…,K};所述第k个编码阶段的Nk个LeWin Transformer模块分别记为LeWink,1,…, LeWink,n,…,
Figure DEST_PATH_IMAGE003
,n∈{1,2,…, Nk},其中,LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块,并依次包括:第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络LeFFk,n
当k=1,n=1时,令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入,记为
Figure 498742DEST_PATH_IMAGE004
,并经过第一个归一化层LNk,n,1的处理后输出特征图Xk,n∈RC´H´W,C、H、W分别代表特征图Xk,n的通道数目、宽、高;所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对所述特征图Xk,n按尺寸为M´M的不重叠窗口进行划分,得到N个窗口的特征图,再将N个窗口的特征图分别拉平,从而得到特征向量
Figure DEST_PATH_IMAGE005
,N=HW/M2;其中,
Figure 99488DEST_PATH_IMAGE006
表示所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量,i∈{1,2,…,N};对所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量
Figure 562830DEST_PATH_IMAGE006
进行第h个头的注意力计算,得到第i个窗口的第h个头的注意力计算结果
Figure DEST_PATH_IMAGE007
,h∈{1,2,…,H'},从而得到所述多头注意力机制模块WMSAk,n中N个窗口的第h个头的注意力计算结果集合
Figure 969541DEST_PATH_IMAGE008
,进而得到所述多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合
Figure DEST_PATH_IMAGE009
并在通道维度上进行拼接后再进行线性映射,最终得到所述多头注意力机制模块WMSAk,n输出的注意力增强特征向量
Figure 467518DEST_PATH_IMAGE010
将所述注意力增强特征向量
Figure DEST_PATH_IMAGE011
与所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入
Figure 38833DEST_PATH_IMAGE004
相加,得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的中间结果
Figure 255050DEST_PATH_IMAGE012
;将所述中间结果
Figure 137556DEST_PATH_IMAGE012
输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后,得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中,并依次经过一个线性层和一个GELU激活函数的映射后,得到映射后的特征向量;再将所述映射后的特征向量重塑为2D特征图后,依次经过一个深度可分卷积层和一个GELU激活函数的处理,得到卷积后的特征图;再将所述卷积后的特征图拉平成特征向量,然后依次经过另一个线性层和另一个GELU激活函数的处理后,得到所述前馈网络LeFFk,n最终输出的局部增强特征向量
Figure DEST_PATH_IMAGE013
;将所述局部增强特征向量
Figure 552356DEST_PATH_IMAGE013
与所述中间结果
Figure 229325DEST_PATH_IMAGE012
进行相加后,得到所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n最终输出的包含局部和全部信息的特征向量
Figure 667260DEST_PATH_IMAGE014
当k=1,n=2,3,…,Nk时,将所述第k个编码阶段的第n-1个LeWin Transformer模块LeWink,n-1最终输出的包含局部和全部信息的特征向量
Figure DEST_PATH_IMAGE015
输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n中进行处理,得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n输出的包含局部和全部信息的特征向量
Figure 415773DEST_PATH_IMAGE014
,从而由第k个编码阶段的第Nk个LeWin Transformer模块
Figure 622764DEST_PATH_IMAGE016
输出包含局部和全部信息的特征向量
Figure DEST_PATH_IMAGE017
第k个编码阶段的下采样层将所述包含局部和全部信息的特征向量
Figure 736213DEST_PATH_IMAGE018
变形为2D特征图后,再用一个卷积层进行下采样,得到第k个编码阶段最终输出的编码特征Featk
当k=2,3,…,K时,将第k-1个编码阶段最终输出的结果Featk-1输入第k个编码阶段,得到第k个编码阶段输出的编码特征Featk,从而得到第K个编码阶段输出的编码特征FeatK
3.根据权利要求1所述的自监督学习的多模态图像融合方法,其特征在于,所述步骤2.2包括:
步骤2.2.1、构建K个解码阶段,其中,第k个解码阶段由一个上采样层和NK+1-k个LeWinTransformer模块依次构成,k∈{1,2,…,K};所述第k个解码阶段的上采样层由一个转置卷积层构成;
当k=1时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与所述瓶颈层输出的编码特征FeatK+1在特征维度上进行拼接,再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理,输出上采样后的特征图;将所述上采样后的特征图依次输入到第k个解码阶段的NK+1-k个LeWin Transformer模块,得到第k个解码阶段输出的解码特征向量;
当k=2,3,…,K时,将第K+1-k个编码阶段输出的编码特征FeatK+1-k与第k-1个解码阶段输出的解码特征向量在特征维度上进行拼接,再将拼接后的结果输入第k个解码阶段,并得到第k个解码阶段输出的解码特征向量,从而由第K个解码阶段输出最终的解码特征向量;
步骤2.2.2、构建由一个卷积层构成的输出映射层,并将所述第K个解码阶段输出的最终的解码特征向量重塑为2D特征后输入到所述输出映射层,并得到所述超分辨网络最终输出的超分辨图像Ĩ。
4.根据权利要求1所述的自监督学习的多模态图像融合方法,其特征在于,所述步骤3.3包括:
步骤3.3.1、计算所述特征图Fk,s在通道维度上的L1范数,得到初始活动水平图Ak,s
步骤3.3.2、利用基于区域的平均算子对所述初始活动水平图Ak,s进行处理,得到最终活动水平图
Figure DEST_PATH_IMAGE019
,从而得到最终活动水平图集合
Figure 723761DEST_PATH_IMAGE020
步骤3.3.3、归一化所述最终活动水平图
Figure 948069DEST_PATH_IMAGE020
,得到所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}对应的权重集合{wk,1,…, wk,s,…, wk,S},其中,wk,s表示所述特征图Fk,s的权重;将所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}在每个通道上的特征集合分别与所述权重集合{wk,1,…, wk,s,…, wk,S}进行加权求和,得到每个通道融合后的特征,并构成第k个编码阶段的融合特征图Fk,从而得到K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}。
5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述多模态图像融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述多模态图像融合方法的步骤。
CN202211382245.6A 2022-11-07 2022-11-07 一种自监督学习的多模态图像融合方法及其应用 Active CN115511767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211382245.6A CN115511767B (zh) 2022-11-07 2022-11-07 一种自监督学习的多模态图像融合方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211382245.6A CN115511767B (zh) 2022-11-07 2022-11-07 一种自监督学习的多模态图像融合方法及其应用

Publications (2)

Publication Number Publication Date
CN115511767A true CN115511767A (zh) 2022-12-23
CN115511767B CN115511767B (zh) 2023-04-07

Family

ID=84512231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211382245.6A Active CN115511767B (zh) 2022-11-07 2022-11-07 一种自监督学习的多模态图像融合方法及其应用

Country Status (1)

Country Link
CN (1) CN115511767B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078920A (zh) * 2023-10-16 2023-11-17 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117173525A (zh) * 2023-09-05 2023-12-05 北京交通大学 一种通用型多模态图像融合方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345449A (zh) * 2018-07-17 2019-02-15 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
GB202103715D0 (en) * 2021-03-17 2021-04-28 British Broadcasting Corp Imaging processing using machine learning
CN113313663A (zh) * 2021-06-09 2021-08-27 哈尔滨工业大学 基于零样本学习的多聚焦图像融合方法
CN114565816A (zh) * 2022-03-03 2022-05-31 中国科学技术大学 一种基于全局信息融合的多模态医学图像融合方法
CN114820634A (zh) * 2022-04-15 2022-07-29 新疆大学 融合SwinTransformer和CNN的肝肿瘤图像分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345449A (zh) * 2018-07-17 2019-02-15 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
GB202103715D0 (en) * 2021-03-17 2021-04-28 British Broadcasting Corp Imaging processing using machine learning
CN113313663A (zh) * 2021-06-09 2021-08-27 哈尔滨工业大学 基于零样本学习的多聚焦图像融合方法
CN114565816A (zh) * 2022-03-03 2022-05-31 中国科学技术大学 一种基于全局信息融合的多模态医学图像融合方法
CN114820634A (zh) * 2022-04-15 2022-07-29 新疆大学 融合SwinTransformer和CNN的肝肿瘤图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NGOC LONG NGUYEN,ET AL.: "Self-supervised multi-image super-resolution for push-frame satellite images", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *
ZHANGJING,ET AL.: "Transformer-Based End-to-End Anatomical and Functional Image Fusion", 《 IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》 *
刘花成 等: "用于单幅模糊图像超分辨的Transformer融合网络", 《中国图象图形学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173525A (zh) * 2023-09-05 2023-12-05 北京交通大学 一种通用型多模态图像融合方法及装置
CN117173525B (zh) * 2023-09-05 2024-07-09 北京交通大学 一种通用型多模态图像融合方法及装置
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117115061B (zh) * 2023-09-11 2024-04-09 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117078920A (zh) * 2023-10-16 2023-11-17 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法
CN117078920B (zh) * 2023-10-16 2024-01-23 昆明理工大学 一种基于可变形注意力机制的红外-可见光目标检测方法

Also Published As

Publication number Publication date
CN115511767B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108734659B (zh) 一种基于多尺度标签的亚像素卷积图像超分辨率重建方法
Zhou et al. Pyramid fully convolutional network for hyperspectral and multispectral image fusion
CN115511767B (zh) 一种自监督学习的多模态图像融合方法及其应用
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN112132959B (zh) 数字岩心图像处理方法、装置、计算机设备及存储介质
CN112819910B (zh) 基于双鬼注意力机制网络的高光谱图像重建方法
Zhou et al. Volume upscaling with convolutional neural networks
CN109214989A (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution
CN116468645B (zh) 一种对抗性高光谱多光谱遥感融合方法
Shen et al. A twice optimizing net with matrix decomposition for hyperspectral and multispectral image fusion
CN113139974B (zh) 基于半监督学习的病灶分割模型训练、应用方法
CN117333750A (zh) 空间配准与局部全局多尺度的多模态医学图像融合方法
CN115375711A (zh) 基于多尺度融合的全局上下文关注网络的图像分割方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN112488971A (zh) 基于空间注意力机制和深度卷积生成对抗网络的医学图像融合方法
CN114511470A (zh) 一种基于注意力机制的双分支全色锐化方法
CN116563606A (zh) 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法
Huang et al. RDCa-Net: Residual dense channel attention symmetric network for infrared and visible image fusion
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质
CN116757982A (zh) 一种基于多尺度编解码器的多模态医学图像融合方法
CN116029908A (zh) 基于跨模态和跨尺度特征融合的3d磁共振超分辨率方法
Ye et al. An unsupervised SAR and optical image fusion network based on structure-texture decomposition
CN112990359B (zh) 一种影像数据处理方法、装置、计算机及存储介质
Wang et al. MDC-RHT: Multi-Modal Medical Image Fusion via Multi-Dimensional Dynamic Convolution and Residual Hybrid Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant