CN117115061B

CN117115061B - 一种多模态图像融合方法、装置、设备及存储介质

Info

Publication number: CN117115061B
Application number: CN202311168798.6A
Authority: CN
Inventors: 宋红; 李金夫; 刘磊; 黄钰琪; 杨健; 艾丹妮; 范敬凡; 付天宇; 肖德强
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-04-09
Anticipated expiration: 2043-09-11
Also published as: CN117115061A

Abstract

本发明公开了一种多模态图像融合方法、装置、设备及存储介质，获取待融合的多模态图像对，所述多模态图像对包括三通道RGB图像以及单通道灰度图像；将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间，获得相应的明亮度分量、色度分量以及浓度分量；通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合，以得到融合结果。该方法通过利用迭代的双重注意力机制，能够有效地捕获和聚合来自不同模态的互补信息，从而生成具有丰富、全面特征的高质量融合图像，为多个领域应用提供了一个灵活、高效而又有效的解决方案。

Description

一种多模态图像融合方法、装置、设备及存储介质

技术领域

本发明涉及多模态图像融合技术领域，特别是涉及一种基于迭代双注意力机制的多模态图像融合方法、装置、设备及存储介质。

背景技术

多模态图像融合是计算机视觉领域中一项重要且具有挑战性的任务，旨在将不同成像方式的互补信息融合，以生成一个单一的高质量图像。该任务在军事防御、视频监控、自动驾驶和医学诊断等领域都有广泛的应用。

近年来，解决多模态图像融合相关挑战的研究与日俱增，大致可分为传统方法和深度学习方法两大类。传统的方法，如稀疏表示、多尺度变换、子空间和显著性方法，主要依赖于领域知识或启发式指导的手工特征提取技术。虽然传统方法具有一定的可解释性和对融合过程的显式控制，但它们往往比较复杂、且鲁棒性较差。

相比之下，深度学习方法主要包括卷积神经网络(CNN)、生成对抗网络(GAN)和Transformers，它们避开人工特征技术，利用深度神经网络的非线性拟合能力自动学习特征，在捕获复杂和高级特征方面表现出优异的性能，在多模态图像融合领域占据主导地位。然而，尽管传统方法和深度学习方法都取得了不错的性能，但仍存在一些局限性有待解决。

首先，如图7所示，现有方法通常采用多阶段处理流程，包括特征提取、特征融合和特征重建，缺乏用于无缝集成不同阶段的统一框架，增加了网络的复杂性。

其次，特征融合阶段依赖于预定义的融合规则，如平均、加权平均、最大或最小选择、连接或加法操作等，以聚合所提取的特征。然而，这些规则没有充分考虑到不同模态图像的内在特征，从而影响了特征的有效利用。

最后，多模态图像融合任务包括各种模态组合、图像特征和应用场景，许多现有的方法通常针对特定的融合任务量身定制，缺乏处理不同融合场景所需的适应性。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种多模态图像融合方法、装置、设备及存储介质。该方法基于迭代双注意力机制，具有精简的融合流程和优越的融合效果。

本发明提供了如下方案：

一种多模态图像融合方法，包括：

获取待融合的多模态图像对，所述多模态图像对包括三通道RGB图像以及单通道灰度图像；

将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间，获得相应的明亮度分量、色度分量以及浓度分量；

通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合，以得到融合结果；

通过将所述色度分量以及所述浓度分量与所述融合结果进行合并，并从YUV颜色空间转成RGB颜色空间，获得所述多模态图像对的目标融合结果；

其中，所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络；所述主干网络包括双重注意力模块，所述双重注意力模块包括自注意力机制以及交叉注意力机制；所述自注意力机制用于通过对特定模态图像进行长程依赖建模，以便提取并保留各自模态特定的判别特征；所述交叉注意力机制用于建立不同模态之间的关系，以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。

优选地：所述自注意力机制包括基于窗口的局部多头自注意力机制。

优选地：所述交叉注意力机制包括对称约束策略。

优选地：所述主干网络还包括Patch Embedding处理模块以及Swin TransformerBlock模块；所述双重注意力模块位于所述Patch Embedding处理模块与所述SwinTransformer Block模块之间。

优选地：所述图像重建子网络包括两个卷积层，两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。

优选地：所述三通道RGB图像包括可见光图像、正电子发射式计算机断层成像图像以及单光子发射式计算机断层图像；所述单通道灰度图像包括红外图像以及磁共振图像。

优选地：所述多模态图像对包括可见光图像与红外图像对、正电子发射式计算机断层成像图像与磁共振图像对、单光子发射式计算机断层图像与磁共振图像对。

一种多模态图像融合装置，包括：

图像对获取单元，用于获取待融合的多模态图像对，所述多模态图像对包括三通道RGB图像以及单通道灰度图像；

分量获取单元，用于将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间，获得相应的明亮度分量、色度分量以及浓度分量；

图像融合单元，用于通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合，以得到融合结果；

合并单元，用于通过将所述色度分量以及所述浓度分量与所述融合结果进行合并，并从YUV颜色空间转成RGB颜色空间，获得所述多模态图像对的目标融合结果；

一种多模态图像融合设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的多模态图像融合方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态图像融合方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本申请实施例提供的一种多模态图像融合方法、装置、设备及存储介质，通过利用迭代的双重注意力机制，能够有效地捕获和聚合来自不同模态的互补信息，从而生成具有丰富、全面特征的高质量融合图像，为多个领域应用提供了一个灵活、高效而又有效的解决方案。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多模态图像融合方法的流程图；

图2是本发明实施例提供的一种多模态图像融合方法的网络架构图；

图3是本发明实施例提供的DAB模块的网络结构图；

图4是本发明实施例提供的STB模块的网络结构图；

图5是本发明实施例提供的一种多模态图像融合装置的结构示意图；

图6是本发明实施例提供的一种多模态图像融合设备的结构示意图；

图7是现有技术中多阶段处理流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种多模态图像融合方法，如图1所示，该方法可以包括：

S101：获取待融合的多模态图像对，所述多模态图像对包括三通道RGB图像以及单通道灰度图像；具体的，所述三通道RGB图像包括可见光图像VIS、正电子发射式计算机断层成像图像PET以及单光子发射式计算机断层图像SPECT；所述单通道灰度图像包括红外图像IR以及磁共振图像MRI。进一步的，所述多模态图像对包括可见光图像与红外图像对(VIS-IR)、正电子发射式计算机断层成像图像与磁共振图像对(PET-MRI)、单光子发射式计算机断层图像与磁共振图像对(SPECT-MRI)。

S102：将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间，获得相应的明亮度分量Y、色度分量U以及浓度分量V；

S103：通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合，以得到融合结果；

S104：通过将所述色度分量以及所述浓度分量与所述融合结果进行合并，并从YUV颜色空间转成RGB颜色空间，获得所述多模态图像对的目标融合结果；

本申请实施例提供的多模态图像融合方法，采用双重注意力模块具有精简的融合流程和优越的融合效果。具体实现时，本申请实施例可以提供所述自注意力机制包括基于窗口的局部多头自注意力机制。所述交叉注意力机制包括对称约束策略。

训练多模态图像融合深度网络的核心在于设计一个即插即用的双重注意力模块(Dual Attention Block,DAB)，即利用自注意力和交叉注意力机制将特征提取和特征融合两个阶段无缝衔接起来。自注意力机制通过对特定模态图像进行长程依赖建模，从而提取并保留各自模态特定的判别特征。与此同时，交叉注意力机制建立了不同模态之间的关系，有助于识别和加强相关的互补信息，促进跨模态特征的交互和聚合。

此外，在交叉注意力机制中引入了一种对称约束策略，更有利于约束引导网络优先考虑重要的区域和特征，同时抑制不相关或冗余的信息，从而提高了融合结果的质量和可解释性。

所述主干网络还包括Patch Embedding处理模块以及Swin Transformer Block模块；所述双重注意力模块位于所述Patch Embedding处理模块与所述Swin TransformerBlock模块之间。

所述图像重建子网络包括两个卷积层，两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。

为了构建集特征提取和特征融合功能于一体的主干网络，

首先，将输入图像进行常规的Patch Embedding处理，得到合适的token；PatchEmbedding是一种从自然语言处理任务延伸到图像处理任务的嵌入方法，它可以将给定的图像分割成若干个"补丁”patch，然后将每个patch映射到一维序列到最终的二维图像表示，具体来说，通过一个二维卷积、向量展开和转置操作，那么PatchEmbedding就可以通过将图像中的每个像素映射成特征向量，然后将这些特征向量按照一定的方式进行组合得到图像的最终表示。

其次，将得到的token送入DAB模块中进行特征提取和特征融合，输出特征图；

再次，将特征图输入STB(Swin Transformer Block)模块中进一步加强特征的表征；

最后，以“Patch Embedding+DAB+STB”为单元进行堆叠作为主干网络，本发明以3个单元为例。

进一步地，为了构建图像重建子网络，采用1个3×3卷积核、批归一化(BatchNormalization)、Leaky Relu(Leaky Rectified linear unit，带泄露修正线性单元)激活函数和1个1×1卷积核、批归一化(Batch Normalization)、Tanh激活函数构成。

下面对本申请实施例提供的方法进行详细介绍，该方法可以包括以下步骤。

步骤一：构建并训练多模态图像融合深度网络，所述的深度网络包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络。

步骤二：获取待融合的多模态图像对，可以为可见光图像与红外图像对(VIS-IR)，正电子发射式计算机断层成像图像与磁共振图像对(PET-MRI)，以及单光子发射式计算机断层图像与磁共振图像对(SPECT-MRI)。

步骤三：将VIS、PET或SPECT图像从RGB颜色空间转成YUV颜色空间，获得相应的Y、U、V分量。YUV是编译true-color颜色空间(color space)的种类。YUV分为三个分量：Y表示明亮度(Luminance或Luma)，也就是灰度值；U(Cb)表示色度(Chrominance)，V(Cr)表示浓度(Chroma)，通常UV一起描述影像色彩和饱和度，用于指定像素的颜色。

步骤四：将VIS、PET或SPECT的Y分量和对应IR或MRI图像输入经过训练的多模态图像融合模型中，输出融合结果。

步骤五：将步骤三中U、V分量与步骤四中的融合结果合并，并从YUV颜色空间转成RGB颜色空间，以此作为待融合多模态图像的融合结果。

如图2所示，主干网络的构建主要包括以下步骤：

第一步：获取待融合的多模态图像对，这里是VIS-IR，PET-MRI或SPECT-MRI图像对。由于VIS、PET和SPECT(用I_vis表示)是三通道RGB图像，IR和MRI(用I_ir表示)是单通道灰度图像，所以需要将VIS、PET和SPECT模态图像从RGB转化为YUV颜色空间，获得Y，U，V三个颜色分量；然后，将Y分量与单通道灰度图像I_ir从通道方向进行堆叠，获得堆叠后的特征图像I_input输入主干网络，该过程表示为：

式中，H和W分别表示图像的宽和高，VIS-IR图像对时为128和128，PET-MRI、SPECT-MRI图像对时为224和224。

第二步：对所述的堆叠后的特征图像进行Patch Embedding处理，其实就是将堆叠后的特征图像I_input，经过一个卷积核和层归一化(Layer normalization，LN)等操作输出Z_embed。

为了处理任意分辨率图像，将Patch的大小设置为1。

该过程表示为：

第三步：对第二步Patch Embedding处理后得到的特征向量Z_embed输入第i个DAB模块中进行特征提取和特征融合，得到相应的特征图。

具体地，如图3所示，多模态双重注意力模块DAB的网络结构主要包括自注意力机制(Self-attention)和跨注意力机制(Cross-attention)两个模块。

在Self-attention模块中，首先，将特征向量Z_embed沿着通道方向进行分离，分别获得两个模态的特征向量{Z_vis,Z_ir}，该过程可表示为：

然后，采用基于窗口的局部多头自注意力对特征向量Z_vis和Z_ir分别进行特征提取，也就是在窗口内建模像素之间的长程依赖关系，窗口大小为8×8。此时，获得两个模态的特征为{Z″_vis,Z″_ir}，该处理过程可表示为：

和

式中，W-MSA表示基于窗口的自注意力，FFN表示一个前馈神经网络。

由于在自注意力计算过程中查询Q，键K，值V是同等重要的，假定输入特征Z，三个可学习的加权矩阵为(W^Q,W^K,W^V)，这样可以获得权重矩阵或关联矩阵下标j表示第j个头，从而加权和的值的计算过程可表示为：

式中，d_k表示K_Z的维度。

因此，可以通过下式计算得到所有头的注意力加权和并堆叠所有值。

head_j＝Attention(ZW_j ^Q,ZW_j ^K,ZW_j ^V)

MultiHead(Z)＝Concat(head₁,…,head_h)W^O

式中，h表示计算次数。

在Cross-attention模块中，构建了一种包含对称约束策略的交叉注意力机制加强跨模态信息之间地全局建模。

具体为将两个独立分支的K值(K_vis,K_ir)和V值(V_vis,V_ir)分别进行相加操作，再进行基于滑动窗口的多头自注意力(SW-MSA)操作。

该过程可表示为：

K_d＝Add(K_vis,K_ir)，V_d＝Add(V_vis,V_ir)

第四步：对第三步得到的特征图输入第i个STB模块中，得到特征加强后的特征图。

具体地，如附图4所示，多模态STB的网络结构采用Swin-Transformer Layer，由W-MSA和SW-MSA两个自注意力模块构成。

该过程可表示为：

因此，主干网络提取和融合特征的整个过程可表示为：

图像重建子网络主要包括两个卷积层，由1个3×3卷积核、批归一化(BatchNormalization)、Leaky Relu(Leaky Rectified linear unit，带泄露修正线性单元)激活函数和1个1×1卷积核、批归一化(Batch Normalization)、Tanh激活函数构成。在反向传播过程中，对于Leaky ReLU激活函数输入小于零的部分，也可以计算得到梯度(而不是像ReLU一样值为0)，这样就避免了梯度方向锯齿问题。Tanh是双曲正切函数，它将整个实数区间映射到了(-1,1)，Tanh函数也具有软饱和性，它的输出是以0为中心，收敛速度比sigmoid快。两个卷积层分别表示为：H_CBL(·)和H_CBT(·)。

最后，将图像重建子网络获得融合结果与/>合并转成RGB颜色空间，将该结果输出为融合结果，本申请实施例获得的融合结果可表示为：

总之，本申请提供的多模态图像融合方法，通过利用迭代的双重注意力机制，能够有效地捕获和聚合来自不同模态的互补信息，从而生成具有丰富、全面特征的高质量融合图像，为多个领域应用提供了一个灵活、高效而又有效的解决方案。

参见图5，本申请实施例还可以提供一种多模态图像融合装置，如图5所示，该装置可以包括：

图像对获取单元501，用于获取待融合的多模态图像对，所述多模态图像对包括三通道RGB图像以及单通道灰度图像；

分量获取单元502，用于将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间，获得相应的明亮度分量、色度分量以及浓度分量；

图像融合单元503，用于通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合，以得到融合结果；

合并单元504，用于通过将所述色度分量以及所述浓度分量与所述融合结果进行合并，并从YUV颜色空间转成RGB颜色空间，获得所述多模态图像对的目标融合结果；

本申请实施例还可以提供一种多模态图像融合设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述的多模态图像融合方法的步骤。

如图6所示，本申请实施例提供的一种多模态图像融合设备，可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行多模态图像融合方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如初始化数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图6所示的结构并不构成对本申请实施例中多模态图像融合设备的限定，在实际应用中多模态图像融合设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

本申请实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态图像融合方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态图像融合方法，其特征在于，包括：

其中，所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络；所述主干网络包括双重注意力模块，所述双重注意力模块包括自注意力机制以及交叉注意力机制；所述自注意力机制用于通过对目标模态图像进行长程依赖建模，以便提取并保留各自模态对应的判别特征；所述交叉注意力机制用于建立不同模态之间的关系，以便识别和加强相关的互补信息促进跨模态特征的交互和聚合；

所述主干网络还包括Patch Embedding处理模块以及Swin Transformer Block模块；所述双重注意力模块位于所述Patch Embedding处理模块与所述Swin Transformer Block模块之间。

2.根据权利要求1所述的多模态图像融合方法，其特征在于，所述自注意力机制包括基于窗口的局部多头自注意力机制。

3.根据权利要求1所述的多模态图像融合方法，其特征在于，所述交叉注意力机制包括对称约束策略。

4.根据权利要求1所述的多模态图像融合方法，其特征在于，所述图像重建子网络包括两个卷积层，两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。

5.根据权利要求1所述的多模态图像融合方法，其特征在于，所述三通道RGB图像包括可见光图像、正电子发射式计算机断层成像图像以及单光子发射式计算机断层图像；所述单通道灰度图像包括红外图像以及磁共振图像。

6.根据权利要求5所述的多模态图像融合方法，其特征在于，所述多模态图像对包括可见光图像与红外图像对、正电子发射式计算机断层成像图像与磁共振图像对、单光子发射式计算机断层图像与磁共振图像对。

7.一种多模态图像融合装置，其特征在于，包括：

8.一种多模态图像融合设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的多模态图像融合方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的多模态图像融合方法。