CN115511767B

CN115511767B - 一种自监督学习的多模态图像融合方法及其应用

Info

Publication number: CN115511767B
Application number: CN202211382245.6A
Authority: CN
Inventors: 陈勋; 张静; 刘爱萍; 谢洪涛; 谢庆国; 钱若兵; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-04-07
Anticipated expiration: 2042-11-07
Also published as: CN115511767A

Abstract

本发明公开了一种自监督学习的多模态图像融合方法及其应用，该方法包括：1、获取大型自然图像数据集并进行预处理，得到随机低分辨图像；2、构建基于Transformer的编码器‑解码器结构的超分辨网络，将随机低分辨图像输入到超分辨网络进行自监督训练，得到优化后的编码器和解码器；3、在优化后的编码器和解码器之间集成融合规则，构建融合模型，以多个模态图像作为输入，输出融合图像。本发明以期能直接从多个模态图像中合成一幅包含所有模态图像重要信息的高质量融合图像，从而能更快捷方便地辅助医生进行临床实践，以及辅助于民用和军用的环境监测系统。

Description

一种自监督学习的多模态图像融合方法及其应用

技术领域

本发明涉及图像融合技术领域，尤其涉及基于深度学习的多模态图像融合方法及其应用。

背景技术

由于硬件设备的限制，单一类型的成像传感器无法刻画出一个场景下的所有信息。多模态图像融合旨在综合同一场景下不同模态图像的重要信息，合成一张信息更丰富的图像。其被广泛应用于民用或军用监控系统，以及临床应用。例如，可见光传感器通过捕捉反射光来生成具有大量细节的图像，而红外传感器通过热辐射能够突出显著的目标。可见光图像和红外图像的融合则给环境监控带来了极大便利。在医学成像领域，计算机断层扫描成像(Computed Tomography, CT)能够反映出诸如骨头和植入物之类的密集结构，而核磁共振成像(Magnetic Resonance Imaging, MRI)主要提供软组织细节信息。CT和MRI的融合帮助精准定位骨肿瘤的边界。

有效的特征提取方式和融合策略是实现多模态图像融合的关键。为此，传统方法提出了许多分解方式来提取源图像的特征，包括多尺度变换、稀疏表示、子空间分析等。然后，不同源图像的分解系数使用某种融合规则进行融合。常用的融合规则有最大值、最小值、求和、L1范数等。最后，将融合后的系数通过分解方式的逆变换重构为融合图像。传统的多模态图像融合方法已经取得了良好的融合效果，但也存在着一些不足，限制了融合性能的进一步提高。首先，以上人为定义的分解方式很难充分提取源图像的重要特征。其次，这些分解方式的设计是非常复杂且耗时的。

近年来，凭借自动提取特征的能力，基于深度学习的方法成为多模态图像融合领域的主流。由于参考融合图像的缺乏，现有的针对多模态图像融合的深度学习方法按照训练方式可以分成两类：无监督学习和自监督学习。无监督学习通过最小化源图像和融合图像之间的损失函数来约束融合图像保留的信息。但是它存在两个问题：一是难以度量和平衡不同源图像保留到融合图像的信息量，容易导致融合图像的信息保留不准确或不充分；二是无监督学习需要大量的训练数据，然而当前的多模态图像融合数据集体量不够大，尤其是医学图像数据集。

缺乏大体量的训练集容易导致模型过拟合以及低泛化性。鉴于以上无监督学习中存在的问题，一些研究工作利用自监督学习来实现多模态图像融合。具体而言，这些方法首先用大体量的自然图像数据集通过简单的图像重构任务来训练一个编码器-解码器结构的网络，然后在训练好的编码器之后、解码器之前加入融合规则来融合编码器提取的不同源图像的特征，接着融合特征输入到解码器去重构出融合图像。然而，这些自监督方法忽略了训练数据(自然图像数据集)和测试数据(多模态图像融合数据集)之间的域差异，限制了目标任务的融合性能。

此外，当前基于深度学习的多模态图像融合方法大多基于卷积神经网络(Convolutional Neural Network, CNN)来提取源图像的特征，并实现了不错的融合效果。事实上，一幅高质量的融合图像不仅需要考虑源图像对的局部区域内的像素，也需要考虑整幅图像的像素强度和纹理细节。因此，对多模态图像融合而言，局部和全局信息的捕捉是至关重要的。CNNs擅长提取局部特征，但无法有效地建模长程依赖关系，因此可能会丢失一些重要的信息。

发明内容

本发明为克服现有技术的不足之处，提出一种自监督学习的多模态图像融合方法及其应用，以期能直接从多个模态图像中合成一幅包含了所有模态图像重要信息的融合图像，从而能更快捷方便地辅助医生进行临床实践，以及辅助于民用和军用的环境监测系统。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种自监督学习的多模态图像融合方法的特点在于，包括如下步骤：

步骤一、获取大型自然图像数据集并进行预处理，得到随机低分辨图像集合：

步骤1.1、从大型自然图像数据集获取原始训练图像集合，并将每张原始训练图像转换到灰度空间后，再将得到的每张灰度训练图像裁剪到固定尺寸，从而得到裁剪后的灰度图像集合，其中一张裁剪后的灰度图像记为I；

步骤1.2、为每张裁剪后的灰度图像设置一个随机概率，若随机概率小于阈值p，则将相应裁剪后的灰度图像转换成低分辨图像，否则，不转换，从而得到随机低分辨图像集合，其中，裁剪后的灰度图像I对应的一张随机低分辨率图像记为I'；

步骤二、构建超分辨网络，包括一个编码器和一个解码器；并将随机低分辨图像I'输入到超分辨网络中进行自监督训练，得到优化后的编码器和优化后的解码器：

步骤2.1、构建编码器，依次包括一个输入映射层、K个编码阶段、一个瓶颈层：

步骤2.1.1、构建输入映射层，依次包括一个卷积层和一个LeakyReLU激活函数；并将随机低分辨图像I'输入所述输入映射层中进行处理后，得到输入映射层输出的特征图；

步骤2.1.2、构建K个编码阶段，并对所述输入映射层输出的特征图进行处理，从而由第K个编码阶段输出编码特征FeatK；

步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层，并将所述编码特征FeatK输入到瓶颈层中，得到瓶颈层输出的编码特征FeatK+1；

步骤2.2、构建解码器，依次包括K个解码阶段和一个输出映射层，并对编码特征进行处理，得到超分辨图像Ĩ；

步骤2.3、构建损失函数：

以裁剪后的灰度图像I作为参考超分辨图像，按式(1)构建与所述超分辨图像之间的损失函数Loss：

(1)

式(1)中，是一个扰动常数；

步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中，并采用AdamW优化器对损失函数Loss进行最小化求解，以优化超分辨网络中的所有参数，并得到优化后的编码器和优化后的解码器；

步骤三、构建融合模型，包括：优化后的编码器、融合模块、优化后的解码器，并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换，得到最终融合图像：

步骤3.1、将待融合的S个模态图像进行色彩空间转换，得到亮度通道下的S个模态图像{I1,…,Is,…,IS}，其中，Is表示亮度通道下的第s个模态图像，s∈{1,2,…,S}；

步骤3.2、将所述第s个模态图像Is输入到所述优化后的编码器中，得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s，从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…,Fk,s,…, Fk,S}；

步骤3.3、构建融合模块，并对所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合，得到所述S个模态图像{I1,…,Is,…,IS}在所述第k个编码阶段的融合特征图Fk：

步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器，得到初步融合图像；

步骤3.5、若待融合的S个模态图像是灰度图像，则初步融合图像即是最终融合图像；若待融合的S个模态图像是RGB色彩空间，则按以下过程处理：

首先将待融合的S个模态图像分别转换到YCbCr空间，得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合；将所述Cb通道上的图像集合和所述Cr通道上的图像集合分别进行加权融合，得到融合后的Cb通道图像和融合后的Cr通道图像；将所述融合后的Cb通道图像、所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间，从而得到最终融合图像。

本发明所述的自监督学习的多模态图像融合方法的特点也在于，所述步骤2.1.2包括：

令K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层，k∈{1,2,…,K}；所述第k个编码阶段的Nk个LeWin Transformer模块分别记为LeWink,1,…, LeWink,n,…,，n∈{1,2,…, Nk}，其中，LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块，并依次包括：第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络LeFFk,n；

当k=1，n=1时，令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入，记为，并经过第一个归一化层LNk,n,1的处理后输出特征图，C、H、W分别代表特征图Xk,n的通道数目、宽、高；所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对所述特征图Xk,n按尺寸为M×M的不重叠窗口进行划分，得到N个窗口的特征图，再将N个窗口的特征图分别拉平，从而得到特征向量，N=HW/M2；其中，表示所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量，i∈{1,2,…,N}；对所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量进行第h个头的注意力计算，得到第i个窗口的第h个头的注意力计算结果，h∈{1,2,…,H'}，从而得到所述多头注意力机制模块WMSAk,n中N个窗口的第h个头的注意力计算结果集合，进而得到所述多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合并在通道维度上进行拼接后再进行线性映射，最终得到所述多头注意力机制模块WMSAk,n输出的注意力增强特征向量；

将所述注意力增强特征向量与所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入相加，得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n的中间结果；将所述中间结果输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后，得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中，并依次经过一个线性层和一个GELU激活函数的映射后，得到映射后的特征向量；再将所述映射后的特征向量重塑为2D特征图后，依次经过一个深度可分卷积层和一个GELU激活函数的处理，得到卷积后的特征图；再将所述卷积后的特征图拉平成特征向量，然后依次经过另一个线性层和另一个GELU激活函数的处理后，得到所述前馈网络LeFFk,n最终输出的局部增强特征向量；将所述局部增强特征向量与所述中间结果进行相加后，得到所述第k个编码阶段的第n个LeWinTransformer模块LeWink,n最终输出的包含局部和全部信息的特征向量；

当k=1，n=2,3,…,Nk时，将所述第k个编码阶段的第n-1个LeWin Transformer模块LeWink,n-1最终输出的包含局部和全部信息的特征向量输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n中进行处理，得到所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n输出的包含局部和全部信息的特征向量，从而由第k个编码阶段的第Nk个LeWin Transformer模块输出包含局部和全部信息的特征向量；

第k个编码阶段的下采样层将所述包含局部和全部信息的特征向量变形为2D特征图后，再用一个卷积层进行下采样，得到第k个编码阶段最终输出的编码特征Featk；

当k=2,3,…,K时，将第k-1个编码阶段最终输出的结果Featk-1输入第k个编码阶段，得到第k个编码阶段输出的编码特征Featk，从而得到第K个编码阶段输出的编码特征FeatK。

所述步骤2.2包括：

步骤2.2.1、构建K个解码阶段，其中，第k个解码阶段由一个上采样层和NK+1-k个LeWin Transformer模块依次构成，k∈{1,2,…,K}；所述第k个解码阶段的上采样层由一个转置卷积层构成；

当k=1时，将第K+1-k个编码阶段输出的编码特征FeatK+1-k与所述瓶颈层输出的编码特征FeatK+1在特征维度上进行拼接，再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理，输出上采样后的特征图；将所述上采样后的特征图依次输入到第k个解码阶段的NK+1-k个LeWin Transformer模块，得到第k个解码阶段输出的解码特征向量；

当k=2,3,…,K时，将第K+1-k个编码阶段输出的编码特征FeatK+1-k与第k-1个解码阶段输出的解码特征向量在特征维度上进行拼接，再将拼接后的结果输入第k个解码阶段，并得到第k个解码阶段输出的解码特征向量，从而由第K个解码阶段输出最终的解码特征向量；

步骤2.2.2、构建由一个卷积层构成的输出映射层，并将所述第K个解码阶段输出的最终的解码特征向量重塑为2D特征后输入到所述输出映射层，并得到所述超分辨网络最终输出的超分辨图像Ĩ。

所述步骤3.3包括：

步骤3.3.1、计算所述特征图Fk,s在通道维度上的L1范数，得到初始活动水平图Ak,s；

步骤3.3.2、利用基于区域的平均算子对所述初始活动水平图Ak,s进行处理，得到最终活动水平图，从而得到最终活动水平图集合；

步骤3.3.3、归一化所述最终活动水平图，得到所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}对应的权重集合{wk,1,…, wk,s,…, wk,S}，其中，wk,s表示所述特征图Fk,s的权重；将所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}在每个通道上的特征集合分别与所述权重集合{wk,1,…, wk,s,…, wk,S}进行加权求和，得到每个通道融合后的特征，并构成第k个编码阶段的融合特征图Fk，从而得到K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述多模态图像融合方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特点在于，所述计算机程序被处理器运行时执行所述多模态图像融合方法的步骤。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过自监督学习和基于Transformer的深度神经网络设计了一种多模态图像融合方法，避免了无监督学习中信息度量难以定义和目标数据缺乏的问题，以及克服了卷积神经网络不能有效建模全局上下文信息的问题，最终获得了高质量的融合图像。

2、本发明提出以随机图像超分辨作为借口任务去训练融合网络。图像超分辨任务所需的训练图像(低分辩图像)和参考图像(高分辨图像)可以通过大型自然图像数据集产生，因此融合网络可以在大型自然图像数据集上得到充分的训练，避免了多模态图像数据集规模小引起的网络训练不充分的问题。其它自监督的多模态图像融合方法是以简单的图像重构作为借口任务来训练网络，而本发明通过以低分辩图像作为网络的输入，用对应的高分辨图像监督网络的输出，提高了最终融合图像的纹理细节信息。随机图像超分辨不仅扩大了训练样本的多样性，有利于提升融合网络的泛化性，并且产生的随机低分辩图像与多模态图像的特点非常相似，有利于减小训练数据(大型自然图像数据集)与目标数据(多模态图像数据集)之间的域差异，从而缓解了域差异引起的性能下降。

3、本发明提出一个基于 Transformer的融合网络，去建模多模态图像的局部和全局上下文关系，即关注了局部区域内的像素信息，又利用了图像强度和纹理细节等全局信息，避免了多模态图像中重要信息的丢失。当前基于深度学习的多模态图像融合方法大多基于卷积神经网络来提取源图像的特征，无法有效地建模长程上下文关系，因此可能会丢失一些重要的信息。有一些多模态图像融合方法提出CNN-Transformer联合的网络或者纯Transformer网络，而本发明是一个多尺度结构下Transformer为主少量卷积层为辅的网络，并且所使用的Transformer的内部结构完全不同于之前已有的多模态图像融合方法，它能够在没有CNN子网络的情况下同时提取局部和全局信息，从而为多模态图像融合领域提供了一种新的网络范式。

4、本发明具有优越的通用性，在不调整任何参数的情况下，可直接应用于多模态图像融合中的医学图像融合以及红外和可见光图像融合，从而更快捷方便地辅助医生进行临床实践，以及辅助于民用和军用的环境监测系统。

附图说明

图1为本发明实施例提供的一种自监督学习的多模态图像融合方法及其应用流程图；

图2为本发明实施例提供的网络自监督训练示意图；

图3为本发明实施例提供的LeWin Transformer模块结构图；

图4为本发明实施例提供的LeFF模块结构图；

图5为本发明实施例提供的多模态图像融合示意图。

具体实施方式

本实施例中，一种自监督学习的多模态图像融合方法，如图1所示，包括如下步骤：

步骤1.1、从大型自然图像数据集获取原始训练图像集合，并将每张原始训练图像转换到灰度空间后，再将得到的每张灰度训练图像裁剪到固定尺寸，从而得到裁剪后的灰度图像集合，其中一张裁剪后的灰度图像记为I；本实施例中，从MS-COCO数据集网站(http://images.cocodataset.org/zips/train2017.zip) 收集了10000张自然图像作为原始训练图像集合，其中每张图像是RGB色彩空间，通道数为3；具体实施中，裁剪后的图像尺寸可以设置为128×128；

步骤1.2、为每张裁剪后的灰度图像设置一个随机概率，若随机概率小于阈值p，则将相应裁剪后的灰度图像转换成低分辨图像，否则，不转换，从而得到随机低分辨图像集合，其中，裁剪后的灰度图像I对应的一张随机低分辨率图像记为I'；本实施例中，阈值p设置为0.5，意味着着每张裁剪后的灰度图像有50%的概率会被转换为低分辩图像，50%的概率维持不变，随机概率的设定增加了训练样本的多样性，有利于提升模型的泛化性；具体实施中，低分辨图像是由将每张裁剪后的图像下采样2倍然后通过双三次插值上采样2倍得到；

步骤二、构建超分辨网络，包括一个编码器和一个解码器；并将随机低分辨图像I'输入到超分辨网络中进行自监督训练，如图2所示，得到优化后的编码器和优化后的解码器：

步骤2.1.1、构建输入映射层，依次包括一个卷积层和一个LeakyReLU激活函数；并将随机低分辨图像I'输入输入映射层中进行处理后，得到输入映射层输出的特征图；

步骤2.1.2、构建K个编码阶段：

K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层，k∈{1,2,…,K}；第k个编码阶段的Nk个LeWin Transformer模块分别记为LeWink,1,…, LeWink,n,…, ，n∈{1,2,…, Nk}，其中，LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块，并依次包括：第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络LeFFk,n，按式(1)-式(2)实现，如图3所示；本实施例中，K = 4，对任意k，Nk = 2；

(1)

(2)

式(1)-式(2)中，、、分别表示第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入、中间结果、输出；

当k=1，n=1时，令输入映射层输出的特征图作为第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入，记为，并经过第一个归一化层LNk,n,1的处理后输出特征图，C、H、W分别代表特征图Xk,n的通道数目、宽、高；第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对特征图Xk,n按尺寸为M×M的不重叠窗口进行划分，得到N个窗口的特征图，再将N个窗口的特征图分别拉平，从而得到特征向量，N=HW/M2；其中，表示多头注意力机制模块WMSAk,n中第i个窗口内的特征向量，i∈{1,2,…,N}；对多头注意力机制模块WMSAk,n中第i个窗口内的特征向量按式(3)进行第h个头的注意力计算：

(3)

式(3)中，、、是多头注意力机制模块WMSAk,n中第i个窗口内的第h个头的可训练矩阵，尺寸为C×dh，Attention按式(4)计算：

(4)

式(4)中，Softmax表示Softmax函数，B表示相对位置偏置；于是得到第i个窗口的第h个头的注意力计算结果，h∈{1,2,…,H'}，从而得到多头注意力机制模块WMSAk,n中N个窗口的第h个头的注意力计算结果集合，进而得到多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合并在通道维度上进行拼接后再进行线性映射，最终得到多头注意力机制模块WMSAk,n输出的注意力增强特征向量；本实施例中，M=8，H'=8，对任意h，dh=32；

将注意力增强特征向量与第k个编码阶段的第n个LeWinTransformer模块LeWink,n的输入相加，得到第k个编码阶段的第n个LeWinTransformer模块LeWink,n的中间结果；将中间结果输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后，得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中，如图4所示，依次经过一个线性层和一个GELU激活函数的映射后，得到映射后的特征向量；再将映射后的特征向量重塑为2D特征图后，依次经过一个深度可分卷积层和一个GELU激活函数的处理，得到卷积后的特征图；再将卷积后的特征图拉平成特征向量，然后依次经过另一个线性层和另一个GELU激活函数的处理后，得到前馈网络LeFFk,n最终输出的局部增强特征向量；将局部增强特征向量与中间结果进行相加后，得到第k个编码阶段的第n个LeWin Transformer模块LeWink,n最终输出的包含局部和全部信息的特征向量；

当k=1，n=2,3,…,Nk时，将第k个编码阶段的第n-1个LeWin Transformer模块LeWink,n-1最终输出的包含局部和全部信息的特征向量输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n中进行处理，得到第k个编码阶段的第n个LeWin Transformer模块LeWink,n输出的包含局部和全部信息的特征向量，从而由第k个编码阶段的第Nk个LeWin Transformer模块LeWink,Nk输出包含局部和全部信息的特征向量；

第k个编码阶段的下采样层将包含局部和全部信息的特征向量变形为2D特征图后，再用一个卷积层进行下采样，得到第k个编码阶段最终输出的编码特征Featk；

当k=2,3,…,K时，将第k-1个编码阶段最终输出的结果Featk-1输入第k个编码阶段，得到第k个编码阶段输出的编码特征Featk，从而得到由第K个编码阶段输出的编码特征FeatK；

步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层，并将编码特征FeatK输入到瓶颈层中，得到瓶颈层输出的编码特征FeatK+1；本实施例中，NK+1=2；

步骤2.2、构建解码器，依次包括K个解码阶段和一个输出映射层：

步骤2.2.1、构建K个解码阶段，其中，第k个解码阶段由一个上采样层和NK+1-k个LeWin Transformer模块依次构成，k∈{1,2,…,K}；第k个解码阶段的上采样层由一个转置卷积层构成；本实施例中，转置卷积层的核尺寸为2×2、步长为2；

当k=1时，将第K+1-k个编码阶段输出的编码特征FeatK+1-k与瓶颈层输出的编码特征FeatK+1在特征维度上进行拼接，再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理，输出上采样后的特征图；将上采样后的特征图依次输入到第k个解码阶段的NK+1-k个LeWin Transformer模块，得到第k个解码阶段输出的解码特征向量；

步骤2.2.2、构建由一个卷积层构成的输出映射层，并将第K个解码阶段输出的最终的解码特征向量重塑为2D特征后输入到输出映射层，并得到超分辨网络最终输出的超分辨图像Ĩ；本实施例中，卷积层的核尺寸为3×3；

步骤2.3、构建损失函数：

以裁剪后的灰度图像I作为参考超分辨图像，按式(5)构建与超分辨图像之间的损失函数Loss：

(5)

式(5)中，是一个扰动常数；本实施例中，e被设置为0.001；

步骤2.4、将低分辩图像集合按B个图像为一批循环输入到超分辨网络中，并采用AdamW优化器对损失函数Loss进行最小化求解，以优化超分辨网络中的所有参数，并得到优化后的编码器和优化后的解码器；本实施例中，B=32；

步骤3.2、将第s个模态图像Is输入到优化后的编码器中，得到优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s，从而得到优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…, Fk,s,…, Fk,S}；

步骤3.3、构建融合模块，并对特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合，得到S个模态图像{I1,…,Is,…,IS}在第k个编码阶段的融合特征图Fk：

步骤3.3.1、计算特征图Fk,s在通道维度上的L1范数，得到初始活动水平图Ak,s：

(6)

式(6)中，(x, y)表示2D空间像素位置；

步骤3.3.2、利用基于区域的平均算子对初始活动水平图Ak,s进行处理，得到最终活动水平图：

(7)

式(7)中，r表示区域的大小；本实施例中，r=1；从而得到最终活动水平图集合；

步骤3.3.3、归一化最终活动水平图，得到特征图集合{Fk,1,…, Fk,s,…, Fk,S}对应的权重集合{wk,1,…, wk,s,…, wk,S}，其中，wk,s表示特征图Fk,s的权重：

(8)

将特征图集合{Fk,1,…, Fk,s,…, Fk,S}在第c个通道上的特征集合分别与权重集合{wk,1,…, wk,s,…, wk,S}进行加权求和，得到第c个通道上融合后的特征Fc k：

(9)

于是得到第k个编码阶段的融合特征图Fk，从而得到K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}；

步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器，得到初步融合图像，如图5所示；

首先将待融合的S个模态图像分别转换到YCbCr空间，得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合；将Cb通道上的图像集合和Cr通道上的图像集合分别进行加权融合，得到融合后的Cb通道图像和融合后的Cr通道图像；将融合后的Cb通道图像、融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间，从而得到最终融合图像。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述多模态图像融合方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述多模态图像融合方法的步骤。

为了说明本发明上述方案的性能，在两个多模态图像融合任务上进行了性能评估，包括：CT和MRI医学图像融合、红外和可见光图像融合，并与代表性多模态图像融合方法IFCNN、PMGI以及U2Fusion进行对比。这两个多模态图像融合任务所需的数据分别来自哈佛医学图像数据集和RoadScene数据集。本发明将互信息、结构相似性作为评价指标，指标值越大，融合图像的质量越高。其中，互信息表示原始多模态图像迁移到融合图像的信息量，而结构相似性表示原始多模态图像与融合图像之间的结构相似性。不同方法在20对CT和MRI医学图像以及40对红外和可见光图像上的平均融合质量如表1：

表1. 不同方法的融合性能

表1实验结果表明，与代表性多模态图像融合方法IFCNN、PMGI以及U2Fusion方法相比，本发明在互信息和结构相似性两个指标上均为最优。对于CT和MRI医学图像融合，对比IFCNN、PMGI和U2Fusion方法，本发明方法在互信息指标上分别提升了18.57%、32.63%和24.32%，在结构相似性指标上分别提升了1.56%、150.41%和207.41%。对于红外和可见光图像融合，对比IFCNN、PMGI和U2Fusion方法，本发明在互信息指标上分别提升了12.60%、20.86%和4.47%，在结构相似性指标上分别提升了5.09%、4.23%和47.82%。

此外，为了说明本发明中随机图像超分辨作为借口任务的有效性，将阈值设置为0作为对比实验，并增加平均梯度、边界强度以及空间频率三个指标来分别反映融合图像本身的梯度信息、边界强度信息以及梯度分布。P=0时，随机图像超分辨借口任务退化为标准重构借口任务。不同借口任务在20对CT和MRI医学图像以及40对红外和可见光图像上的平均融合质量如表2：

表2. 不同借口任务的融合性能

表2实验结果表明，与标准重构借口任务相比，本发明的随机图像超分辨借口任务在互信息、平均梯度、边界强度以及空间频率四个指标上均为最优，并获得可相媲美的结构相似性指标值。

Claims

1.一种自监督学习的多模态图像融合方法，其特征在于，包括如下步骤：

步骤2.1.2、构建K个编码阶段，并对所述输入映射层输出的特征图进行处理，从而由第K个编码阶段输出编码特征Feat_K；

步骤2.1.3、构建由N_K+1个LeWin Transformer模块构成的瓶颈层，并将所述编码特征Feat_K输入到瓶颈层中，得到瓶颈层输出的编码特征Feat_K+1；

步骤2.3、构建损失函数：

(1)

式(1)中，是一个扰动常数；

步骤3.1、将待融合的S个模态图像进行色彩空间转换，得到亮度通道下的S个模态图像{I₁,…,I_s,…,I_S}，其中，I_s表示亮度通道下的第s个模态图像，s∈{1,2,…,S}；

步骤3.2、将所述第s个模态图像I_s输入到所述优化后的编码器中，得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像I_s的特征图F_k,s，从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I₁,…,I_s,…,I_S}的特征图集合{F_k,1,…, F_k,s,…,F_k,S}；

步骤3.3、构建融合模块，并对所述特征图集合{F_k,1,…, F_k,s,…, F_k,S}进行融合，得到所述S个模态图像{I₁,…,I_s,…,I_S}在所述第k个编码阶段的融合特征图F_k：

步骤3.4、将K个编码阶段的融合特征图集合{F₁,…,F_k,…,F_K}输入到优化后的解码器，得到初步融合图像；

2.根据权利要求1所述的自监督学习的多模态图像融合方法，其特征在于，所述步骤2.1.2包括：

令K个编码阶段中的第k个编码阶段依次包括N_k个LeWin Transformer模块和一个下采样层，k∈{1,2,…,K}；所述第k个编码阶段的N_k个LeWin Transformer模块分别记为LeWin_k,1,…, LeWin_k,n,…,，n∈{1,2,…, N_k}，其中，LeWin_k,n表示第k个编码阶段的第n个LeWin Transformer模块，并依次包括：第一个归一化层LN_k,n,1、一个基于窗口的多头注意力机制模块WMSA_k,n、第二个归一化层LN_k,n,2、一个局部增强的前馈网络LeFF_k,n；

当k=1，n=1时，令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWinTransformer模块LeWin_k,n的输入，记为，并经过第一个归一化层LN_k,n,1的处理后输出特征图，C、H、W分别代表特征图X_k,n的通道数目、宽、高；所述第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n的多头注意力机制模块WMSA_k,n对所述特征图X_k,n按尺寸为M×M的不重叠窗口进行划分，得到N个窗口的特征图，再将N个窗口的特征图分别拉平，从而得到特征向量，N=HW/M²；其中，表示所述多头注意力机制模块WMSA_k,n中第i个窗口内的特征向量，i∈{1,2,…,N}；对所述多头注意力机制模块WMSA_k,n中第i个窗口内的特征向量进行第h个头的注意力计算，得到第i个窗口的第h个头的注意力计算结果，h∈{1,2,…,H'}，从而得到所述多头注意力机制模块WMSA_k,n中N个窗口的第h个头的注意力计算结果集合，进而得到所述多头注意力机制模块WMSA_k,n中N个窗口的H'个头的注意力计算结果集合并在通道维度上进行拼接后再进行线性映射，最终得到所述多头注意力机制模块WMSA_k,n输出的注意力增强特征向量；

将所述注意力增强特征向量与所述第k个编码阶段的第n个LeWinTransformer模块LeWin_k,n的输入相加，得到所述第k个编码阶段的第n个LeWinTransformer模块LeWin_k,n的中间结果；将所述中间结果输入第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n的第二个归一化层LN_k,n,2中进行处理后，得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n的前馈网络LeFF_k,n中，并依次经过一个线性层和一个GELU激活函数的映射后，得到映射后的特征向量；再将所述映射后的特征向量重塑为2D特征图后，依次经过一个深度可分卷积层和一个GELU激活函数的处理，得到卷积后的特征图；再将所述卷积后的特征图拉平成特征向量，然后依次经过另一个线性层和另一个GELU激活函数的处理后，得到所述前馈网络LeFF_k,n最终输出的局部增强特征向量；将所述局部增强特征向量与所述中间结果进行相加后，得到所述第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n最终输出的包含局部和全部信息的特征向量；

当k=1，n=2,3,…,N_k时，将所述第k个编码阶段的第n-1个LeWin Transformer模块LeWin_k,n-1最终输出的包含局部和全部信息的特征向量输入第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n中进行处理，得到所述第k个编码阶段的第n个LeWin Transformer模块LeWin_k,n输出的包含局部和全部信息的特征向量，从而由第k个编码阶段的第N_k个LeWin Transformer模块输出包含局部和全部信息的特征向量；

第k个编码阶段的下采样层将所述包含局部和全部信息的特征向量变形为2D特征图后，再用一个卷积层进行下采样，得到第k个编码阶段最终输出的编码特征Feat_k；

当k=2,3,…,K时，将第k-1个编码阶段最终输出的结果Feat_k-1输入第k个编码阶段，得到第k个编码阶段输出的编码特征Feat_k，从而得到第K个编码阶段输出的编码特征Feat_K。

3.根据权利要求1所述的自监督学习的多模态图像融合方法，其特征在于，所述步骤2.2包括：

步骤2.2.1、构建K个解码阶段，其中，第k个解码阶段由一个上采样层和N_K+1-k个LeWinTransformer模块依次构成，k∈{1,2,…,K}；所述第k个解码阶段的上采样层由一个转置卷积层构成；

当k=1时，将第K+1-k个编码阶段输出的编码特征Feat_K+1-k与所述瓶颈层输出的编码特征Feat_K+1在特征维度上进行拼接，再将拼接后的编码特征输入第k个解码阶段的上采样层中进行处理，输出上采样后的特征图；将所述上采样后的特征图依次输入到第k个解码阶段的N_K+1-k个LeWin Transformer模块，得到第k个解码阶段输出的解码特征向量；

当k=2,3,…,K时，将第K+1-k个编码阶段输出的编码特征Feat_K+1-k与第k-1个解码阶段输出的解码特征向量在特征维度上进行拼接，再将拼接后的结果输入第k个解码阶段，并得到第k个解码阶段输出的解码特征向量，从而由第K个解码阶段输出最终的解码特征向量；

4.根据权利要求1所述的自监督学习的多模态图像融合方法，其特征在于，所述步骤3.3包括：

步骤3.3.1、计算所述特征图F_k,s在通道维度上的L1范数，得到初始活动水平图A_k,s；

步骤3.3.2、利用基于区域的平均算子对所述初始活动水平图A_k,s进行处理，得到最终活动水平图，从而得到最终活动水平图集合；

步骤3.3.3、归一化所述最终活动水平图，得到所述特征图集合{F_k,1,…, F_k,s,…, F_k,S}对应的权重集合{w_k,1,…, w_k,s,…, w_k,S}，其中，w_k,s表示所述特征图F_k,s的权重；将所述特征图集合{F_k,1,…, F_k,s,…, F_k,S}在每个通道上的特征集合分别与所述权重集合{w_k,1,…, w_k,s,…, w_k,S}进行加权求和，得到每个通道融合后的特征，并构成第k个编码阶段的融合特征图F_k，从而得到K个编码阶段的融合特征图集合{F₁,…,F_k,…,F_K}。

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述多模态图像融合方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述多模态图像融合方法的步骤。