CN116012344B

CN116012344B - 一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法

Info

Publication number: CN116012344B
Application number: CN202310043858.5A
Authority: CN
Inventors: 邱兆文; 肖辛; 杨光远; 董素宇; 郭子钰
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-10-20
Anticipated expiration: 2043-01-29
Also published as: CN116012344A

Abstract

本发明提供一种基于掩码自编码器CNN‑Transformer的心脏磁共振图像配准方法，属于医学图像处理技术领域。为解决现有技术中图像冗余特征以及注意力权重区分不够差异化所带来的计算量巨大，同时无法达到较高配准精度的问题。通过基于掩码自编码器的Transformer预训练网络获取预训练权重，以用于基于CNN‑Transformer配准网络的权重初始化，配准网络通过空间&通道并行挤压与激励模块生成具有不同维度注意力分布加权的特征图；通过Transformer编码器进行特征提取；通过基于CNN的解码器生成固定图像与浮动图像之间的形变场；将浮动图像、形变场输入空间变换网络，得到配准图像；计算配准图像与固定图像之间的损失，生成最优权重配准网络。本发明方法能够减少计算量的同时，达到更精准的配准结果。

Description

一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法

技术领域

本发明属于医学图像处理技术领域，具体涉及一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法。

背景技术

医学图像配准在医学图像处理中是一项重要的分析任务，尤其是对于可变形的非刚性器官的配准，能够为医生提供病变的多种互补信息。由于医学图像中组织结构的可变性，心脏图像的配准是一个比较复杂的问题，主要体现在：(1)非刚性复杂运动：在心动周期中，心脏会发生十分复杂的整体刚性运动和局部变形，使得心脏在一个心动周期的连续时间帧内获取的切片形态差异很大，很难精准的跟踪心脏的运动过程；(2)解剖标志稀缺：与其它软组织结构相比，刻画心脏运动所需的精确解剖标志要更少且难以标注，尤其是在心肌壁中缺乏可靠的可识别标志，使得对于配准来说存在一定困难。

随着深度学习技术的兴起，基于深度神经网络的深度学习方法已经成为了解决医学图像配准性能提升瓶颈的关键所在。但是，目前的主流框架如VoxelMorph，多采用卷积神经网络作为主干结构，而传统的卷积运算是通过具有卷积核大小的窗口滑动提取特征的，感受野局限于固定大小的区域，只在提取局部特征时具有很好的效果，对于获取全局信息存在一定局限性。Transformer的引入在解决深层局部特征信息丢失等问题上起到了很好的效果，目前也有很多的Transformer基线模型以及融合模型被提出来去缓解这些问题，但实际上，相比于信息密度很大的语言文本信息，图像数据形式本身是具有高度信息冗余的，这使得模型对这类数据的预测难度相对较大，有许多对于任务目标无关的一些信息可能也包含在模型学习的范围内，使得模型需要花费大量的参数计算。因此，亟需一种能够有效减少特征冗余、且在减少模型参数计算的同时提升配准的精度的网络模型。

发明内容

本发明要解决的技术问题是：

本发明为了解决现有技术中存在的图像冗余特征以及注意力权重区分不够差异化所带来的模型计算量巨大，并且配准后图像的心脏心室的轮廓不够明显，同时无法达到较高配准精度的问题。

本发明为解决上述技术问题所采用的技术方案：

本发明提供了一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，设计有掩码的自编码器(MaskedAutoEncoder,MAE)，包括如下步骤：

S1、获取心脏磁共振图像数据集T，对数据集T进行标准预处理，得到数据集T1；获取数据集T中两个时间帧的心脏磁共振影像数据，并随机组合两个时间帧的图像，分别作为固定图像和浮动图像，对图像对进行拼接与标准预处理，得到数据集T2；

S2、分别构建基于掩码自编码器的Transformer预训练网络和基于CNN-Transformer的配准网络；

所述基于CNN-Transformer的配准网络包括空间&通道并行挤压与激励模块、Transformer编码器、基于CNN的解码器以及空间变换网络；

S3、采用数据集T1对基于掩码自编码器的Transformer预训练网络进行训练，得到预训练权重；

S4、根据得到的预训练权重，对基于CNN-Transformer配准网络的权重进行初始化，将数据集T2中的固定图像和浮动图像输入至配准网络中，经过三个下采样操作的卷积层，得到低分辨率特征图；并通过所述空间&通道并行挤压与激励模块将低分辨率特征图的空间维度和通道维度的注意力特征进行并行融合处理，生成具有不同维度注意力分布加权的特征图；

S5、通过Transformer编码器对加权的特征图进行特征提取；

S6、通过基于CNN的解码器进行上采样操作，生成全分辨率的固定图像与浮动图像之间的形变场；

S7、将浮动图像与得到的形变场输入到所述空间变换网络，得到配准图像；

S8、计算配准图像与固定图像之间的损失，通过标准的反向传播训练网络，生成最优权重参数的配准网络；

S9、将待配准图像输入至最优权重参数的配准网络模型，得到配准结果。

进一步地，S1中所述标准预处理包括归一化、尺寸裁剪，以及随机翻转操作进行数据集扩充。

进一步地，S3包括如下步骤：

S31、将数据集T1输入基于掩码自编码器的Transformer预训练网络中，首先，将原始图像切分成小图像块，并随机将大部分像素掩盖掉，将像素信息残缺的部分采用共享的可学习参数进行填充，经过patch嵌入和位置嵌入，将图像块转换为多个高维特征向量；

S32、通过Transformer编码器对所述高维特征向量进行特征提取，得到全局高维特征序列；

S33、通过Transformer解码器使全局高维特征序列通过缺失的像素块学习原始的图像特征，以像素为单位对输入的原始图像进行重建，生成原始分辨率大小的重建图像；以重建图像与原始图像在像素空间中的均方误差MSE为损失函数，经反向传播训练网络，得到包含心脏图像全局特征信息的基于掩码自编码器的Transformer预训练网络的预训练权重。

进一步地，S33中所述均方误差损失MSE，为计算一个图像块中所有像素的均值和标准差，并用它们对该图像块进行归一化，计算公式为：

其中，m为图像像素个数，y_i为真实像素值，为预测像素值。

进一步地，所述Transformer编码器包括多个Transformer块，每个Transformer块包括层归一化正则化层、多头自注意力层、挤压与激励层和多层感知机层，所述挤压与激励层嵌入在多头自注意力层之后，对高维特征向量的自注意力特征进行注意力权重的重新分配，得到带有注意力权重的全局高维特征序列。

进一步地，所述Transformer解码器为一层轻量级解码器。

进一步地，所述多头自注意力的计算公式为：

其中，为缓解梯度消失的注意力放缩因子，Q、K、V分别为查询、键、值，将h次缩放点积Attention的结果进行合并拼接，得到最终的多头注意力的输出特征向量：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

W^Q，W^K，W^V表示Q、K、V分别对应的权重参数矩阵带掩码的高级特征，Concat表示拼接操作。

进一步地，所述挤压与激励层的计算公式为：

s＝F_ex(z′，W)＝σ(g(z′，W))＝σ(W₂δ(W₁z′))

f_c＝F_scale(z_c，s_c)＝s_cz_c

z_c为从多头自注意力层得到的特征，经过挤压操作F_sq，采用全局平均池化将N个D维向量压缩为1×1的向量，生成包含全局特征信息的压缩特征z′_c，然后经过激励操作F_ex，采用两个全连接层加两个激活函数，第一个层中δ为ReLU、第二个层中σ为Sigmoid，W为网络层权重参数，为每个特征通道生成一个代表注意力程度的权重值，通过特征加权操作F_scale，将权重通过乘法逐通道加权作用到特征向量上，使重要的特征权重更趋向于1，而不重要的特征权重则更趋向于0，得到带有注意力权重的全局特征序列。

进一步地，所述空间&通道并行挤压与激励模块包括空间挤压&通道激励块和通道挤压&空间激励块；

所述空间挤压&通道激励块由全局平均池化层和全连接的激活层组成，通过全局平均池化层进行空间挤压操作，生成的中间特征向量，即：

其中，n表示第n个元素，低分辨率特征图为C为通道数，通过全连接层和ReLU激活函数层进行通道激励操作，即：

其中，W₁ ，W₂ 为全连接层和激活层的权重参数矩阵，δ为ReLU激活层，图像特征的全局空间信息通过Sigmoid激活层被嵌入到特征向量中；空间挤压&通道激励块注意力的计算过程为：

其中，c为每个渠道的注意力权重，σ为Sigmoid激活层，为第个通道的特征向量；以强调高重要性的特征，同时抑制低重要性的特征。

所述通道挤压&空间激励块是在通道挤压操作之后对空间特征进行注意力计算，针对心脏磁共振影像中的细粒度像素信息，对特征图的通道信息进行深度挖掘，将输入特征向量按照空间维度表示为通过卷积运算将通道维度进行挤压变换，得到的特征投影/>通道挤压&空间激励块注意力的计算过程为：

其中，X_s(i，j，k) 为空间位置(i，j，k)上所有通道的线性组合的特征，通过Sigmoid层将空间维度注意力进行计算；

将空间挤压&通道激励块和通道挤压&空间激励块两个模块进行结合，使在网络更多考虑特征图在位置(i，j，k，c)处通道维度和空间维度中的特征重要性，即：

进一步地，所述配准网络的损失函数由均方误差MSE相似性损失和正则化损失组成，两者之和作为浮动图像M、固定图像F和形变场之间的损失，损失函数为：

其中，为均方误差相似性损失，α为正则化参数，P为基于折叠惩罚的正则化损失；

同时，

其中，Θ 为待学习的网络参数， Ω为图像域，为经空间变换的浮动图像；

其中，V为三维图像域的体积，T为局部空间变换。

相较于现有技术，本发明的有益效果是：

本发明一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，与现有的基于常规Transformer或者其它深度学习方法的模型方法不同，本发明引入了医学图像预训练方法，在相同的目标数据集上预训练模型，并将预训练的模型权重应用到配准任务中，通过预先学习心脏影像中的形状特性，使配准模型能够在学到心脏形状轮廓的基础上提高模型对其它心脏影像的特征学习能力，以提升模型的性能。本发明预训练网络通过将传统的视觉Transformer编码器替换为基于掩码的Transformer自编码器，并采用轻量级解码器结构，将图像的大部分像素信息遮挡掉，只用一少部分的图像块来学习图像的全局特征，以使模型从自编码器中学习更强的特征；本发明在CNN和Transformer结构中嵌入不同的注意机制模块，在Transforme编码器中引入的挤压与激励层能够在通道维度上学习通道之间特征信息的相互依赖性，同时还可学习空间维度上的局部注意力，输出得到具有更强特征注意力分布的特征，而在CNN中引入的空间&通道并行挤压与激励模块能够针对心脏磁共振影像中的细粒度像素信息，对特征图的通道信息进行深度挖掘，将空间挤压&通道激励块和通道挤压&空间激励块两个模块进行结合，使得网络更多考虑特征图在通道维度和空间维度中的特征重要性，进一步提升模型对图像特征的表达能力，突出图像细节，并能够保持高分辨率全局图像特征，最终实现减少模型参数的数量(即减少计算量)、加速模型训练的目的，同时具有更好的泛化能力，并达到更精准的配准结果。

附图说明

图1是本发明实施例中基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法的流程图；

图2是本发明实施例中基于掩码自编码器的Transformer预训练网络的方法流程图；

图3是本发明实施例中Transformer编码器的结构图以及编码器中挤压与激励层的结构示意图；

图4是本发明实施例中基于掩码自编码器的Transformer预训练网络根据模型参数量不同设计出的三种变体(MAE-ViT-Base、MAE-ViT-Large、MAE-ViT-Huge)的重建结果对比图；从左到右分别给出预处理后的原始图像、掩码后的图像、重建后的图像和带有可见图像特征块的重建图像；

图5是本发明实施例中本发明方法与现有配准网络的Dice性能的曲线对比图；

图6是本发明实施例中基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法得到的配准结果示例图，其中，第1列和第3列分别为来自三个不同时期的浮动图像和固定图像；第2列和第4列分别为包含左心室腔、左心室心肌和右心室三分类分割标签的浮动图像和固定图像；第5列和第6列分别为经过空间变换网络的浮动图像和经过空间变换网络的带有分割标签的浮动图像；第7列为固定图像和浮动图像生成的密集形变场；第8列为雅可比行列式的可视化结果，表示为密集位移向量场(DVF)；第9列为形变图像在配准过程中生成的形变场。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方案一：结合图1和图2所示，本发明提供一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，包括如下步骤：

S5、通过Transformer编码器对加权的特征图进行特征提取；

本实施方案设计有带有掩码的自编码器和轻量级解码器结构，利用从自编码器中学习到的潜在表示和掩码标记，通过遮挡掉大量图像块来恢复原始图像的语义信息。将从CNN提取局部特征的优势与掩码自编码器相结合，用于下游心脏图像配准任务。本实施方案还在CNN和Transformer结构中嵌入不同的注意机制，以突出图像细节，保持高空间分辨率的全局图像特征。本实施方案所提出的方法能够减少模型参数的数量，加速模型训练，具有更好的泛化能力。

本实施方案S1中，获取舒张末期和收缩末期两个时间帧的心脏磁共振影像数据，并随机组合选取多对两个时间帧的图像，分别作为固定图像和浮动图像。S5中，首先将得到的加权的特征图切分成小图像特征块，并重新排列为高维特征向量，再通过Transformer编码器进行特征提取。S6中，首先将特征图恢复为图像数据格式，通过基于CNN的解码器，进行五次卷积上采样，将低分辨率特征恢复为原始辨率大小的特征图，最终生成全分辨率的形变场。

本实施方案中S7中所述空间变换网络为基于线性插值的空间转换网络。

本实施方案中基于CNN-Transformer的配准网络，Patch嵌入部分采用P＝8，且其Transformer编码器的结构和预训练网络中Transformer编码器的结构一致。

具体实施方案二：S1中所述标准预处理包括归一化、尺寸裁剪，以及随机翻转操作进行数据集扩充。本实施方案其他与具体实施方案一相同。

本实施方案采用像素归一化将图像灰度值压缩至[0,1]之间，计算公式为：

具体实施方案三：S3包括如下步骤：

S33、通过Transformer解码器使全局高维特征序列通过缺失的像素块学习原始的图像特征，以像素为单位对输入的原始图像进行重建，生成原始分辨率大小的重建图像；以重建图像与原始图像在像素空间中的均方误差MSE为损失函数，经反向传播训练网络，得到包含心脏图像全局特征信息的基于掩码自编码器的Transformer预训练网络的预训练权重。本实施方案其他与具体实施方案一相同。

本实施方案中，将数据集T1中的图像切分成固定尺寸大小且互不重叠的3D图像块，对于3D图像固定切分尺寸设置为P(P＝16)，即采用P×P×P尺寸大小的非重叠3D图像块将输入的3D图像切分成/>个小图像块/>然后通过遵循均匀分布的随机抽样策略采样图像块的一个子集，引入变量遮挡比(maskingratio)来设置图像块的遮挡比例，将这些图像块遮挡掉，即将这些图像块随机分为可见块(unmaskedtokens)和遮挡块(maskedtokens)。其中，未遮挡的可见块是高级特征的浅层表示，而遮挡的部分由参数共享的可学习特征向量表示，对于遮挡掉的图像块，应使用相同维度的特征向量对遮挡掉的位置进行填充，以不丢失原始图像块在遮挡之前对应块的位置信息。将所有这些包含遮挡与未遮挡部分的图像块展平为P³C维的向量序列(Tokens)，得到N个D维特征表示，其中，C为输入通道数，H、W、L为图像的输入分辨率， D=P³C，然后使用线性映射层每个向量序列投影到D维特征中，图像切分重排(PatchEmbedding)结束。为了保留位置信息，加入了位置嵌入(Position Embedding)，将线性投影层表示为表示为在特征向量序列上增加的可学习的位置嵌入矩阵，故Patch嵌入和位置嵌入的整个过程为：

其中，表示为第个图像块(i∈{1，...，N})，如图2所示，在掩码操作后，只有未遮挡的可见块被送入ViT中进行编码，但遮挡掉部分的位置信息已经通过位置嵌入(PositionEmbedding)保留了下来，经过上述过程，输出N×C维度的高级特征向量z₀。

具体实施方案四：S33中所述均方误差损失MSE，为计算一个图像块中所有像素的均值和标准差，并用它们对该图像块进行归一化，计算公式为：

其中，m为图像像素个数，y_i为真实像素值，为预测像素值。本实施方案其他与具体实施方案三相同。

具体实施方案五：如图3所示，所述Transformer编码器包括多个Transformer块，每个Transformer块包括层归一化正则化层、多头自注意力层、挤压与激励层和多层感知机层，所述挤压与激励层嵌入在多头自注意力层之后，对高维特征向量的自注意力特征进行注意力权重的重新分配，得到带有注意力权重的全局高维特征序列。本实施方案其他与具体实施方案四相同。

具体实施方案六：所述Transformer解码器为一层轻量级解码器。本实施方案其他与具体实施方案五相同。

本实施方案中Transformer解码器包含简单的位置嵌入层，使得解码器输出的每个元素都是一个能表示图像块像素值的向量，且包含图像块之间的相邻位置关系的特征信息。解码器的最后一层为用于重建像素的线性映射层，使特征序列被重塑为图像分辨率形式，以重建原始输入图像。

具体实施方案七：所述多头自注意力的计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^o

W^Q，W^K，W^V表示Q、K、V分别对应的权重参数矩阵带掩码的高级特征，Concat表示拼接操作。本实施方案其他与具体实施方案六相同。

具体实施方案八：如图3所示，所述挤压与激励层的计算公式为：

s＝F_ex(z′，W)＝σ(g(z′，W))＝σ(W₂δ(W₁z′))

f_c＝F_scale(z_c，s_c)＝s_cz_c

z_c为从多头自注意力层得到的特征，经过挤压操作F_sq，采用全局平均池化将N个D维向量压缩为1×1的向量，生成包含全局特征信息的压缩特征z′_c，然后经过激励操作F_ex，采用两个全连接层加两个激活函数，第一个层中δ为ReLU、第二个层中σ为Sigmoid，W为网络层权重参数，为每个特征通道生成一个代表注意力程度的权重值，通过特征加权操作F_scale，将权重通过乘法逐通道加权作用到特征向量z_c上，使重要的特征权重更趋向于1，而不重要的特征权重则更趋向于0，得到带有注意力权重的全局特征序列。本实施方案其他与具体实施方案七相同。

本实施方案中挤压与激励层可在通道维度上学习通道之间特征信息的相互依赖性，同时还可学习空间维度上的局部注意力。

本实施方案中，第lTransformer块的输出流程为：

z′_l＝SE(MHSA(LN(z_l-1)))+z_l-1

z_l＝MLP(LN(z′_l))+z′_l，

其中，z_l为第lTransformer块后输出的编码；经过多个Transformer块，带有掩码的特征输出为具有更强特征注意力分布的特征。

具体实施方案九：所述空间＆通道并行挤压与激励模块包括空间挤压＆通道激励块和通道挤压＆空间激励块；

所述空间挤压＆通道激励块由全局平均池化层和全连接的激活层组成，通过全局平均池化层进行空间挤压操作，生成的中间特征向量z∈R^1×1×1×C，即：

其中，W₁， W₂为全连接层和激活层的权重参数矩阵，δ为ReLU激活层，图像特征的全局空间信息通过Sigmoid激活层被嵌入到特征向量中；空间挤压&通道激励块注意力的计算过程为：

其中，c为每个渠道的注意力权重， σ为Sigmoid激活层，为第个通道的特征向量；以强调高重要性的特征，同时抑制低重要性的特征。

本实施方案其他与具体实施方案一相同。

具体实施方案十：所述配准网络的损失函数由均方误差MSE相似性损失和正则化损失组成，两者之和作为浮动图像M、固定图像F和形变场之间的损失，损失函数为：

同时，

其中，Θ为待学习的网络参数，Ω为图像域，为经空间变换的浮动图像；

其中，V为三维图像域的体积，T为局部空间变换。本实施方案其他与具体实施方案一相同。

实施例1

本实施例使用的数据集是2017年自动心脏诊断挑战(ACDC)中公开可用的基准数据集。该数据集包含150例病例的心脏短轴3D磁共振图像，每例图像包括舒张末期和收缩末期两个时间帧的图像，且包含左心室(LV)、左心室心肌(Myo)和右心室(RV)三个部分的标准分割标签，涉及5类病例(包括正常、心衰合并梗死、扩张型心肌病、肥厚型心肌病、以及右心室异常)。

根据本发明方法，将数据集划分为数据集T1和T2，将数据集T1随机划分训练集和验证集，将数据集T2随机划分为训练集、测试集和验证集；将所有图像裁剪到64×128×128，并采用随机翻转对训练集样本进行扩充；将数据集T2中两个时间帧的图像nii格式转换为3D体积npz格式，将两个时间帧的图像进行随机组合匹配，形成多对固定图像和浮动图像(训练集360对、验证集80对和测试集160对)。根据构建的数据集采用本发明方法对心脏磁共振图像进行配准。

将本发明方法与基于深度学习的几种典型方法进行比较，包括配准基线网络VoxelMorph(基于卷积神经网络)、基于CoTr的配准网络、基于PVT的配准网络以及ViT-V-Net。将各网络模型的初始参数batchsize设置为2、初始学习率设置为0.0001、训练轮次设置为500；采用Dice性能(DSC)和Hausdorff距离(HD)来评价配准结果。

如图4所示，各模型的掩模比均为0.75，可以看到重建后图像的分辨率降低，但依然可以有效地从缺失图像块周围的像素中恢复丢失的信息，达到较好的重建效果。如图5、图6及表1所示，本发明方法与其他方法相比，Dice性能提高0.01甚至更多，且hausdorff距离减小约0.1甚至更多，本发明方法平均Dice性能值达到0.812，与现有方法相比取得了较好的配准效果；并且本发明方法在训练过程中的损失值保持在较低的水平。

表1

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于包括如下步骤：

S1、获取心脏磁共振图像数据集T，对数据集T进行标准预处理，得到数据集T1；获取数据集T中两个时间帧的心脏磁共振图像数据，并随机组合两个时间帧的图像，分别作为固定图像和浮动图像，对图像对进行拼接与标准预处理，得到数据集T2；

S5、通过Transformer编码器对加权的特征图进行特征提取；

S9、将待配准图像输入至最优权重参数的配准网络模型，得到配准结果；

所述空间&通道并行挤压与激励模块包括空间挤压&通道激励块和通道挤压&空间激励块；

所述空间挤压&通道激励块由全局平均池化层和全连接的激活层组成，通过全局平均池化层进行空间挤压操作，生成的中间特征向量z∈R^1×1×1×C，即：

其中，W₁，W₂为全连接层和激活层的权重参数矩阵，δ为ReLU激活层，图像特征的全局空间信息通过Sigmoid激活层被嵌入到特征向量z中；空间挤压&通道激励块注意力的计算过程为：

其中，σ为Sigmoid激活层，为第i个通道的特征向量；以强调高重要性的特征，同时抑制低重要性的特征，

其中，X_s(i，j，k)为空间位置(i，j，k)上所有通道的线性组合的特征，通过Sigmoid层将空间维度注意力进行计算；

将空间挤压&通道激励块和通道挤压&空间激励块两个模块进行结合，使网络更多考虑特征图在位置(i，j，k，c)处通道维度和空间维度中的特征重要性，即：

所述配准网络的损失函数由均方误差MSE相似性损失和正则化损失组成，两者之和作为浮动图像M、固定图像F和形变场之间的损失，损失函数为：

同时，

其中，V为三维图像域的体积，T为局部空间变换。

2.根据权利要求1所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于S1中所述标准预处理包括归一化、尺寸裁剪，以及随机翻转操作进行数据集扩充。

3.根据权利要求1所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于S3包括如下步骤：

4.根据权利要求3所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于S33中所述均方误差MSE，为计算一个图像块中所有像素的均值和标准差，并用它们对该图像块进行归一化，计算公式为：

其中，m为图像像素个数，y_i为真实像素值，为预测像素值。

5.根据权利要求4所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于所述Transformer编码器包括多个Transformer块，每个Transformer块包括层归一化正则层、多头自注意力层、挤压与激励层和多层感知机层，所述挤压与激励层嵌入在多头自注意力层之后，对高维特征向量的自注意力特征进行注意力权重的重新分配，得到带有注意力权重的全局高维特征序列。

6.根据权利要求5所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于所述Transformer解码器为一层轻量级解码器。

7.根据权利要求6所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于所述多头自注意力的计算公式为：

其中，为缓解梯度消失的注意力放缩因子，Q、K、V分别为查询、键、值；

将h次缩放点积Attention的结果进行合并拼接，得到最终的多头注意力的输出特征向量：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

8.根据权利要求7所述的一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法，其特征在于所述挤压与激励层的计算公式为：

s＝F_ex(z′，W)＝σ(g(z′，W))＝σ(W₂δ(W₁z′))

f_c＝F_scale(z_c，s_c)＝s_cz_c

z_c为从多头自注意力层得到的特征，经过挤压操作F_sq，采用全局平均池化将N个D维向量压缩为1×1的向量，生成包含全局特征信息的压缩特征z′_c，然后经过激励操作F_ex，采用两个全连接层加两个激活函数，第一个层中δ为ReLU、第二个层中σ为Sigmoid，W为网络层权重参数，为每个特征通道生成一个代表注意力程度的权重值，通过特征加权操作F_scale，将权重通过乘法逐通道加权作用到特征向量z_c上，使重要的特征权重更趋向于1，而不重要的特征权重则更趋向于0，得到带有注意力权重的全局特征序列。