CN114049408A

CN114049408A - 用于加速多模态mr成像的深度网络模型

Info

Publication number: CN114049408A
Application number: CN202111348120.7A
Authority: CN
Inventors: 鄢云路; 徐勇; 冯春梅
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-15
Anticipated expiration: 2041-11-15
Also published as: CN114049408B

Abstract

本发明提供了一种本发明的提出了一种用于加速多模态MR成像的深度网络模型以及基于该模型的多模态MR成像方法。所述用于加速多模态MR成像的深度网络模型融合不同模态磁共振图像特征。该模型利用双支路Transformer产生的多尺度patch来表示不同的模态，并将它们进行合并，使之相互补充。本发明通过多模态交叉注意力机制实现基于Transformer的多模态MR成像的特征融合策略，每个分支都将另一个分支的特征作为键和值，然后使用它们进行有效查询，来从另一种模态中获得有用的信息。此外，两个分支的多尺度patch不仅可以捕获不同的结构信息，还可以捕获细微的像素级信息。结果表明，对于图像重建和超分这两个加速MR成像任务，该方法在定性和定量评价两个方面均优于其他多模态MR成像方法。

Description

用于加速多模态MR成像的深度网络模型

技术领域

本发明涉及磁共振成像技术领域，尤其涉及一种用于加速多模态MR成像的深度网络模型以及基于该模型的多模态MR成像方法。

背景技术

磁共振(MR)成像正迅速成为图像引导的自适应放射治疗的主导技术，因为它提供了比计算机断层扫描(CT)更好的软组织对比，同时避免辐射损伤。然而，由于磁共振成像的物理性质，扫描时间可长达数十分钟，这严重影响患者的体验，并导致成像高成本。因此，加速磁共振成像已经成为一个热门的研究课题，其中从下采样的k-space重建图像是一个标准的策略。然而，采样不足造成的混叠伪影往往影响临床诊断。因此，从欠采样k-space测量中恢复高质量的图像是加速磁共振成像的最终目标。目前，主流的成像方法包括磁共振成像重建和超分辨率。前者旨在消除欠采样造成的混叠现象，后者提高了图像分辨率。

扫描仪根据采集参数的不同，可以提供不同模态的MR图像。对于同一采样对象，这些模态通常具有模态间的一致性信息和模态特有信息。此外，不同模态的获得程序也不尽相同。例如T1和T2加权图像(T1WIs和T2WIs)，以及质子密度和脂肪抑制的质子密度加权图像(PDWIs和FS-PDWIs)，是两对结构互补的图像。由于磁共振成像的物理特征，T1WIs比T2WIs更容易获得，因为它们需要更短的重复时间(TR)和回声时间(TE)，类似地，PDWI需要比FS-PDWI更短的扫描时间。因此，我们可以使用相对容易获取的模态作为补充信息来引导和加速以较慢成像速度获取的目标模态。基于这一点，多模态MR图像的联合学习为加速磁共振成像提供了一个新的框架。

各种传统技术，如压缩感知、贝叶斯学习、字典学习和图表示理论等已经被用于加速MR成像。最近，深度学习已经成为多模态MR成像研究的焦点。例如，Salman et al.将辅助模态作为先验信息添加到生成对抗网络(GAN)的生成器中(参见非专利文献1：SU Dar，MYurt，ME Ildz，M Shahdloo，T Cukur:Prior-Guided Image Reconstruction forAccelerated Multi-Contrast MRI via Generative Adversarial Networks.IEEEJournal of Selected Topics in Signal Processing 14(6),1072–1087(2020))，Lyu etal.在较小尺寸的特征水平上连接两个模态(参见非专利文献2：Lyu,Q.,Shan,H.,Steber,C.,Helis,C.,Whitlow,C.T.,Chan,M.,Wang,G.:Multi-contrast super-resolution mrithrough a progressive network.IEEE Transactions on Medical Imaging(2020))。然而，这些方法中的大多数只是对幅值图像进行向下采样，来模拟欠采样或低分辨率MR图像扫描的获取，这意味着它们对于快速多模态MR成像的有效性仍有待证实。此外，不同的模态在不同的磁场强度分布下有模态特异性表现。因此，如何有效融合两种模态是多模态MR成像中需要解决的固有问题。另一方面，卷积神经网络(CNNs)由于卷积操作的固有局部性，很难完全捕获全局信息，而Transformer可以通过获取远程依赖来学习全局信息。受益于此，Transformer最近在各种计算机视觉任务上取得了最先进的性能。例如，VisionTransformer将图像分割成小块，并使用一个Transformer将它们之间的相关性建模为序列，在图像分类任务中取得了令人满意的效果(参见非专利文献3：Dosovitskiy,A.,Beyer,L.,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,Unterthiner,T.,Dehghani,M.,Minderer,M.,Heigold,G.,Gelly,S.,et al.:An image is worth 16x16 words:Transformers forimage recognition at scale.arXiv preprint arXiv:2010.11929(2020))。目标检测Transformer在Transformer的帮助下将目标检测作为一个端到端预测任务。Transformer也被用于医学成像任务，例如，将Transformer集成到UNet中用于医学图像分割。虽然最近的工作已经证明了Transformer在视觉任务中的优势，但Transformer在多模态MR成像中的潜在优势仍有待验证。

综上所述，加速多模态磁共振成像是一种新的、有效的快速磁共振成像解决方案，在辅助模态的引导下恢复目标模态，展现了其卓越的性能。然而，现有的研究只是简单地将辅助模态作为先验信息进行组合，缺乏对不同模态融合的潜在机制进行更加深入的研究。此外，它们通常依赖于卷积神经网络CNNs，而卷积神经网络在捕获长距离依赖时受到固有的局部性的限制。因此，亟需一种新的用于加速多模态MR成像的深度网络模型。

发明内容

为了解决现有技术中的问题，本发明提供了一种用于加速多模态MR成像的深度网络模型以及基于该模型的多模态MR成像方法。本发明具体通过如下技术方案实现：

一种用于加速多模态MR成像的深度网络模型，所述模型包括网络头部模块、多模态Transformer模块、网络尾部模块；其中，

所述网络头部模块包括目标分支网络头部子模块和辅助分支网络头部子模块，两个网络头部子模块分别从多模态输入图像中提取不同尺度的模态特征；

所述多模态Transformer模块用于融合不同的模态，通过将当前分支的特征作为查询来与另一个分支交换信息；具体地，将可学习的位置编码加入到目标模态的特征向量序列中，而一个不同尺度的位置编码被加入到辅助模态中；经过位置编码嵌入后的patch序列，将被输入到级联的多个交叉Transfomer编码器模块，每个交叉Transfomer编码器由两个组件组成，用于目标模态的交叉Transfomer编码器encoder_tar和用于辅助模态的交叉Transfomer辅助编码器encoder_aux；利用交叉注意力机制将当前分支中的特征作为查询query，通过注意力与其他分支的特征进行交互；

所述网络尾部模块包括目标分支网络尾部子模块和辅助分支网络尾部子模块，两个网络头部子模块分别将特征映射到恢复的图像。

作为本发明的进一步改进，所述网络头部子模块由3个连续的3×3卷积层组成。

作为本发明的进一步改进，所述辅助分支网络头部子模块用于将辅助模态的Ground Truth图像

生成辅助特征

其中C是通道维度，H和W是特征的高和宽；对于重建任务，所述目标分支网络头部子模块用于将零填充图像

生成目标特征

对于超分任务，所述目标分支网络头部子模块用于将低分辨率图像

生成目标特

其中s是分辨率退化尺度因子。

作为本发明的进一步改进，所述多模态Transformer模块采用了两个对称的分支：一个辅助模态分支和一个目标模态分支；首先将辅助模态特征变换成向量序列

其中

是patch的数目，P是patch的分辨率；将目标模态特征变换成向量序列

然后，可学习的位置编码

加入到目标模态的特征向量序列中，而一个不同尺度的位置编码

被加入到辅助模态中，加入的位置编码可以保留每个patch的位置信息；

z和

是经过位置编码嵌入后的patch序列，将被输入到级联的多个交叉Transfomer编码器模块；接下来，

z和

通过线性投影变换对齐维度，得到对齐后的特征

和

和

被输入到Layer Norm层和所述交叉注意力机制进行融合，融合后的特征被进一步输入到一个前馈网络FFN和一个LP层中将特征恢复成初始的维度，整个过程通过残差连接输入和输出：

其中，i＝[1,2,...,N],CA_tar和CA_aux是两条分支的交叉注意力机制，两个分支的输出序列作为下一个交叉Transformer编码器的输入，LN()表示Layer Norm层的操作。

作为本发明的进一步改进，所述交叉注意力机制是一个改进的多头注意力机制，它吸收了辅助模态的特征，有助于增强目标模态特征；具体地，对于目标模态分支，将对齐后的特征

输入到Layer Norm层得到

并作为query，并且它也会和来自于辅助模态的特征

连接作为键，值；辅助模态分支是目标模态分支的镜像操作；接着一个标准的Scaled Dot-Product Attention操作被执行：

z^sa分为目标分支

和辅助分支

交叉注意力机制的整个过程可以表示为：

作为本发明的进一步改进，每个网络尾部子模块由一个1×1卷积层组成。

作为本发明的进一步改进，所述尾部模块将多通道特征映射到图像空间，并得到目标图像

目标图像x′_tar对于重建和超分任务，其大小均是H×W。

作为本发明的进一步改进，损失函数直接采用L1损失函数来训练：

其中，α是两条分支的损失函数的权重因子，M是训练样本的数目。

另一方面，本发明还提供了一种基于该模型的多模态MR成像方法，所述方法包括以下步骤：

从MR图像扫描仪获得图像块；

从所述图像块获得辅助模态的Ground Truth图像

其中，H和W是特征的高和宽；对于重建任务，从所述图像块获得零填充图像

对于超分任务，从所述图像块获得低分辨率图像

将目标模态图像

或

以及辅助模态图像x_aux输入本发明的多模态Transformer模型，得到目标图像x′_tar和x′_aux。

本发明的有益效果是：本发明的提出了一种新的网络模型multi-modal(MTrans)Transformer来融合不同模态磁共振图像特征。该方法利用双支路Transformer产生的多尺度patch来表示不同的模态，并将它们进行合并，使之相互补充。本发明通过多模态交叉注意力机制实现基于Transformer的多模态MR成像的特征融合策略，每个分支都将另一个分支的特征作为键和值，然后使用它们进行有效查询，来从另一种模态中获得有用的信息。此外，两个分支的多尺度patch不仅可以捕获不同的结构信息，还可以捕获细微的像素级信息。结果表明，对于图像重建和超分这两个加速MR成像任务，该方法在定性和定量评价两个方面均优于其他多模态MR成像方法。

附图说明

图1是本发明的多模态Transformer网络模型的功能架构图；

图2是本发明的多模态Transformer模块的原理图；

图3是本发明的交叉Transformer编码器的原理图；

图4是本发明的交叉注意力机制的原理图；

图5是本发明的多模态MR成像方法流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

本发明提出了一种新的网络架构，命名为MTrans，与现有的基于CNN的方法相比，它能够捕获丰富的全局信息。本发明还设计了交叉注意力机制，有效地提取每个分支中的有用信息，然后结合多个尺度的特征，这些特征提供了不同的结构信息和细微的像素级信息。

首先，令y表示从MR图像扫描仪获得的全采样k-space测量值。我们可以通过

得到对应的全采样MR幅值图像，其中F^-1是二维逆傅里叶变换。

在临床实践中，由于只有幅值图像是可见的，医院通常保留这些图像用于医学诊断。在这项工作中，所有的数据(如重建的零填充图像和超分的低分辨率图像)都是从真实的MR图像频率空间数据中获得的，以探索加速磁共振成像的有效性，而这是目前快速多模态磁共振成像方法往往被忽略的一个重要问题。在本发明中，我们考虑两种加速MR成像技术，包括(i)从带混叠伪影的图像(欠采样图像)重建清晰图像和(ii)从退化图像恢复高分辨率图像。

MRI重建：通过对MR图像扫描仪获得的全采样k-space测量值y进行二进制掩码运算，我们可以获得欠采样的k-space数据。本发明可使用6×加速度的随机掩码来获取全采样k-space子集。由此，可以得到零填充图像

和目前直接恢复欠采样图像

不同，我们从一个额外的模态中引入相同结构信息来恢复目标模态。

MRI超分：以往MR图像SR方法的训练时通常在下采样的幅值图像上加入高斯模糊，以获得LR图像。然而，简单地在图像域缩小图像大小与实际的MR图像获取过程相矛盾。本发明中，我们首先截断全采样k-space的边缘测量，然后以所需的退化尺度因子来降低分辨率，然后

来获得LR图像

这更好地模拟了真实的图像采集过程，并且避免产生伪影。

在本发明的MTrans中，图像块被处理成一个线性嵌入序列，以创建一个双分支结构。如图1所示，MTrans整体架构由三个组件组成。具体来说，利用两个网络头部模块从多模态输入图像(如目标零填充的大尺寸全采样辅助模态图像或小尺寸LR图像)中提取不同尺度的模态特征；建立了一个多模态Transformer来融合不同的模态，通过将当前分支的特征作为查询来与另一个分支交换信息；最后通过两个网络尾部模块用于将特征映射到恢复的图像中。特别的是，来自不同模态的输入被分为不同大小的图像块，这能够提取结构特征，同时也捕捉精细的像素级信息，以补充目标模态。MTrans的主要目标是融合不同尺度的多模态图像，接下来将详细介绍MTrans模型的架构。

一、网络头部模块

为了提取不同模态特有的特征，我们通过两个不同的网络头部从两个不同的分支提取初步特征，其中Head_aux是辅助模态分支的网络头部，而Head_tar是目标模态的网络头部，每个网络头部由3个连续的3×3卷积层组成。辅助模态的Ground Truth(GT)图像

被输入到Head来生成辅助特征

其中C是通道维度，H和W是特征的高和宽。对于重建任务，我们将零填充图像

输入到Head_tar来生成目标特征

而对于超分任务，我们输入低分辨率图像

来生成目标特

其中s是分辨率退化尺度因子。

二、多模态Transformer模块

本发明提出的多模态Transformer融合了不同模态的特征，其结构如图2所示，采用了两个对称的分支，一个辅助模态分支和一个目标模态分支。为了降低2D图像特征的维度，我们将两个模态的特征F_aux和F_tar划分为互不重叠的patch(具体操作可参考非专利文献3)。我们首先将辅助模态特征变换成向量序列

其中

是patch的数目，P是patch的分辨率。相似地，我们将目标模态特征变换成向量序列

特别的是，目标模态的patch尺度是辅助模态的一半，我们在辅助和目标模态中使用不同大小的图像块来产生更强的图像特征。然后，可学习的位置编码

被加入到辅助模态中，加入的位置编码可以保留每个patch的位置信息：

和

是经过位置编码嵌入后的patch序列，将被输入到级联的多个交叉Transfomer编码器模块。每个交叉Transfomer编码器由两个组件组成，用于目标模态的交叉Transfomer编码器encoder_tar和用于辅助模态的交叉Transfomer辅助编码器encoder_aux，可以分别融合不同模态之间的信息。这样的交叉模式确保每个分支从其他模态中学习重要信息，图2中的空心箭头对应于当前分支模态的信息更新，实心箭头促进了两种模态之间的信息交换。我们可以将多模态Transfomer写成：

其中

是多模态Transfomer模块，由N个交叉Transformer编码器组成，

和

是两条分支的对应输出。

(1)交叉Transformer编码器：本发明的交叉Transformer编码器旨在有效融合两种模态，如图3所示。

和

首先通过线性投影变换(LinearlyProjected,LP)对齐维度，其过程可以表示为：

和

是对齐后的特征被输入到Layer Norm层和一个交叉注意力机制进行融合，融合后的特征被进一步输入到一个前馈网络(Feedforward network,FFN)和一个LP层中将特征恢复成初始的维度，整个过程通过残差连接输入和输出：

其中，i＝[1,2,...,N],CA_tar和CA_aux是两条分支的交叉注意力机制，两个分支的输出序列作为下一个交叉Transformer编码器的输入，其中，LN()表示Layer Norm层的操作。

(2)交叉注意力机制：本发明的交叉注意力机制是一个改进的多头注意力机制，它吸收了辅助模态的特征，有助于增强目标模态特征。具体来说，为了更有效地融合不同的模态，当前分支中的特征作为查询(query)，通过注意力与其他分支的特征进行交互。其中，query与其它分支的特征进行了对齐，因此这两个分支的特征尺度是不同的，这使得交叉注意融合模块既可以学习清晰的结构信息，也可以学习细微的像素级特征，其具体结构如图4所示。对于目标模态分支，我们将对齐后的特征

输入到Layer Norm层得到

并作为query，并且它也会和来自于辅助模态的特征

连接作为键(key)，值(value)。辅助模态分支是目标模态分支的镜像操作。接着一个标准的Scaled Dot-Product Attention操作被执行：

z^sa分为目标分支

和辅助分支

交叉注意力机制的整个过程可以表示为：

三、网络尾部模块

最后，多模态交叉Transformer编码器的输出会被输入到两个网络尾部得到各个分支的输出，每个网络尾部由一个1×1卷积层组成。尾部模块将多通道特征映射到图像空间，并得到目标图像：

目标图像x′_tar对于重建和超分任务，其大小均是H×W。

四、损失函数

本发明的损失函数直接采用L1损失函数来训练：

如图5所示，本发明的多模态MR成像方法包括以下步骤：

S501，从MR图像扫描仪获得图像块；

S502，从所述图像块获得辅助模态的Ground Truth图像

对于超分任务，从所述图像块获得低分辨率图像

S503，将目标模态图像

或

在本发明中，我们致力于探索丰富的全局信息来加速多模态MR成像。为此，我们提出了一种新的用于加速多模态MR成像的网络模型，该网络可用于MR图像重建和超分，在辅助模态的引导下有效地恢复目标模态。通过融合不同模态的特征，该方法有助于获取多模态MR图像的全局信息，获得更高质量的重建图像，并显著降低失真。特别的是，提出的交叉注意力机制可以很好地探索不同尺度下的融合策略，既能获得清晰的结构信息，又能获得细微的像素级信息。在不同的欠采样模式设置下，我们在fastMRI和真实的临床数据集上进行了大量的实验。结果表明，本发明的模型在加速MR成像方面优于最先进的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。