CN116823850A

CN116823850A - 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统

Info

Publication number: CN116823850A
Application number: CN202310640900.1A
Authority: CN
Inventors: 余伟; 刘瑞刚; 李石君; 余放; 杨济海; 杨俊成; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-29

Abstract

本发明提供一种基于U‑Net和Transformer融合改进的心脏MRI分割方法及系统，进行数据预处理，包括首先对图像进行零均值标准化，并进行数据增强处理以扩充训练数据；利用Transformer优化U‑Net跳跃连接，基于多粒度特征优化U‑Net跳跃连接，基于交叉注意力机制优化U‑Net跳跃连接，根据构建好的模型对心脏MRI数据进行训练，将得到的心脏左心室、右心室、心肌以及背景相应像素概率值再按照不同的像素值进行分类，从而达到不同区域的分割效果，最终得到分割好的标注结果。本发明在捕获更丰富的全局特征的同时也能够降低计算复杂度，以此提高浅层编解码器之间的特征融合的全局性，实现更丰富的特征融合效果，最终实现更高精度的心脏MRI分割效果。

Description

基于U-Net和Transformer融合改进的心脏MRI分割方法及系统

技术领域

本发明属于计算机视觉和医学图像分割的技术领域，在心脏磁共振图像分割中，针对现有图像语义分割在医学图像分割领域应用的一系列问题，提出了一种基于U-Net和Transformer融合改进的心脏MRI分割方法，用来实现心脏MRI的精准分割。

背景技术

医学影像：医学领域的图像与生活中的自然图像具有较大差异，它们的区别如下：(1)医学图像具有丰富的格式，每个格式都有各自的关注点，比如MRI能更高效的对软组织进行检测，X-ray观测骨骼更清楚等。不同型号的成像设备输出的成像结果也在一定程度上存在大大小小的差异。(2)医学影像的像素值范围很大，比如CT一般会在一千以上。(3)受个体自身差异、成像原理和成像设备的影响，医学图像通常包含更多的噪声。同时噪声在空间约束和位置上是分开的，所以可以通过噪声的分布进行降噪，需要注意的是，图像细节的保留问题也是需要考究的。(4)医学图像通常会存在伪影。伪影是在三维重建以及图像配准中产出的，原则上，伪影只能减少，不能去除。

语义分割：语义分割属于像素级别的分类，在有狗和猫的图片中，狗的像素会被归为一个类别，猫的像素会被归为另一类别，同时背景像素也被归为一种类别。由此可见语义分割是从像素级别去理解图像。语义分割任务对分类精度和定位精度要求极高：不仅要精确的定位物体的轮廓边界，还要精准的分类轮廓内的区域，这样才能从背景中精准的分割出对象。

卷积神经网络：卷积神经网络大部分被用来进行物体对象的精准定位，该功能是预测要定位的对象的目标框，之后进行预处理，比如通过裁剪图片等手段来降低计算消耗。卷积神经网络各层中的神经元通过三个维度的方式组成。三个维度中有两个维度往往包含图像的高度和宽度，而第三个维度通常表示特征图的通道数，具体大小通常由卷积核的数量决定。卷积神经网络的基本构造分为输入层、卷积层、激活函数、池化层和全连接层。

U-Net：U-Net虽然也属于全卷积神经网络，具备编-解码器结构，但与普通的全卷积神经网络还是有区别的，最大的区别在于修复下采样中丢失的细节信息的手段是借助跳跃连接，通过该结构产生更精细的分段。U-Net是基于FCN网络的思想设计的，整个网络只有卷积层，没有全连接层。在全卷积神经网络的浓缩路径中，图像分辨率逐渐降低，上下文信息会逐渐增强。在扩展路径中，通过上采样的方式，让特征图的分辨率逐渐增大。同时，为了结合浅层Feature Map的强位置信息，将浓缩路径中的相应部分结合到扩展路径中。U-Net通过多个跳层连接把高分辨率的信息(比如精确的分割定位信息)和低分辨率信息(比如对象的分类识别)有效的的聚合到了一起，能够实现精确的分割，所以在医学领域的影像分割中被广泛使用。

Transformer:Transformer模型是一种神经网络，它通过跟踪序列数据中的关系(比如这句话中的单词)来学习上下文并学习含义。Transformer模型应用了一组不断发展的数学技术，称为注意力或自我注意力，以检测系列中遥远的数据元素相互影响和相互依赖的微妙方式。一个标准的Transformer的组成结构包括一个编码器(Encoder)和一个解码器(Decoder)，这里的编码器解码器结构和全卷积神经网络略有不同，这里的解码器包括一个编解码器注意力层，一个前馈神经网络以及一个自注意力层，而编码器包括一个前馈神经网络和一个自注意力层。自注意力机制(Self-Attention)结构是Transformer网络中最关键的要素，其中用到的Q，K，V矩阵是通过将输出进行线性变换得到的。Transformer能够捕捉单词之间多个维度中的注意力分数，之所以能达到这样的效果的原因在于Transformer里的注意力机制是多头注意力机制(Multi-Head Attention)。

现有心脏MRI分割技术主要通过深度学习算法对心脏磁共振图像中的不同组织进行分割，该技术通常用于医学影像诊断以及治疗方案设计等领域，对于心血管疾病的治疗有着重大意义。目前基于深度神经网络的心脏MRI分割方法众多，但是仍然存在以下问题：第一，由于心脏构造复杂，子结构边界模糊，并且在图像采集中会因为心脏搏动产生运动伪影和噪声，从而导致对心脏结构的精确定位和分割十分困难；第二，在图像分割中表现突出的U-Net网络受限于卷积网络的局部视野特性，制约了全局上下文信息的提取能力，不利于精准分割。

发明内容

针对以上提出的问题进行研究，构建了一种基于U-Net和Transformer融合改进的医学图像分割模型CMT-UNet，提高了心脏MRI分割精度。

另一方面，本发明提供一种基于U-Net和Transformer融合改进的心脏MRI分割方法，包括以下步骤：

步骤1，数据预处理，包括首先对图像进行零均值标准化，并进行数据增强处理以扩充训练数据；

步骤2，利用Transformer优化U-Net跳跃连接，包括将Transformer嵌入到网络中多个跳跃连接上，构成Transformer跳跃连接结构，通过该结构对编码器输出的语义特征进行特征再提取，过滤与任务不相关的语义特征和噪声特征；

步骤3，基于多粒度特征优化U-Net跳跃连接，包括对U-Net的Bottleneck层以及Bottleneck层上方Skip1,Skip2层上嵌入的Transformer进行改进，通过空间转换Unfold构建多粒度特征，让改进的Transformer提取到多粒度的上下文信息；

步骤4，基于交叉注意力机制优化U-Net跳跃连接，包括基于交叉注意力机制对Transformer进行改进，将基于交叉注意力机制改进的Transformer记作CA-MGTransformer，在Skip3,Skip4层中嵌入改进后的Transformer进行编码器解码器的特征融合，在加入的CA-MG Transformer的多头注意力层中计算需要的查询输入序列来自Skip3,Skip4层本身，而计算需要的键值序列来自Bottleneck层，通过交叉注意力计算交互捕捉到的远程交互信息，同时引入尺度较低的Bottleneck层特征图作为键值对序列；

步骤5，根据构建好的模型对心脏MRI数据进行训练，将得到的心脏左心室、右心室、心肌以及背景相应像素概率值再按照不同的像素值进行分类，从而达到不同区域的分割效果，最终得到分割好的标注结果。

而且，对数据的数据增强操作包括弹性形变、平移、缩放和随机旋转。

而且，所述利用Transformer优化U-Net跳跃连接的实现方式如下，

步骤2.1，构建编码器，包含五个卷积-批归一化-ReLu激活函数模块，每层卷积-批归一化-ReLu激活函数模块后面都跟着一个maxpooling操作来进行下采样，采用这种逐步下采样的方式将原始图像编码为低分辨率的特征图来提取抽象的语义信息，同时得到丰富的局部上下文信息；

步骤2.2，构建用于高层语义特征增强的Transformer模块；

步骤2.3，构建跳跃连接结构，包括在编码器与解码器对应的特征图进行拼接之前，首先将编码器的特征图输入到Transformer中提取全局上下文信息，然后再与解码器对应的特征图进行融合，在Bottleneck层以及之上的两个跳跃连接中加入Transformer，将这两个跳跃连接对应的编码器中的特征图输入Transformer后再与解码器中对应位置的特征图以相加的方式进行融合，而最后两个跳跃连接依然以原来的直接拼接的方式来完成；

步骤2.4，构建解码器，包含四个上采样模块，以逐步上采样的形式逐步恢复特征图大小，从而在最后一层得到与原始图像大小一样的分割结果。

而且，所述基于多粒度特征优化U-Net跳跃连接的实现方式如下，

步骤3.1，利用Unfold构建多粒度特征；

步骤3.2，基于多粒度特征改进Transformer，包括将特征图X通过Flattern操作展开为二维向量，之后加上位置编码得到向量V，这里的位置编码采用可学习的位置编码，然后将该向量经过Reshape操作，恢复到三维向量V′，此时维度为(H,W,C)，方便提取局部信息；再通过不同窗口大小的Unfold操作提取局部信息，构建多粒度特征；

经上述处理之后，周围的局部结构被嵌入到生成的Token中，并被输入到Transformer中的多头注意力层进行计算；Fold操作相当于Unfold操作的逆向操作，把多头注意力层输出的Token重新转换为三维张量F，其次通过Flattern操作展开成二维向量F′，之后对二维向量F′进行Sum求和得到新的二维向量Z；接着对二维向量Z进行Layer Norm归一化处理，输入到MLP多层感知机，然后加上残差连接；经过以上操作之后将输出的特征向量Z″与对应上采样中同一层的特征向量相融合。

而且，所述基于交叉注意力机制优化U-Net跳跃连接的实现方式如下，

步骤4.1，计算Attention机制，包括借助键值对中的键Key和Query查询输入序列计算权重分数，利用权重分数映射到键值对的值Value上去；

步骤4.2，交叉注意力机制是利用一个序列用作查询Q的输入，另一层序列作为键和值输入(K,V)，定义交叉注意力机制的两个嵌入序列为S₁，S₂，则计算这两个序列的交叉注意力的公式如下：

Attention(S₁,S₂)＝softmax((W_QS₁)(W_KS₂)^T)W_VS₂

首先计算S₂序列的(K,V)，同时计算S₁序列的Q，然后根据计算得出的K和Q计算注意力矩阵，这里的W_Q,W_K,W_V表示权重矩阵，Attention表示最终计算得到的注意力结果；再通过Softmax函数计算得到注意力的权重，然后将得到的权重映射到对应的V上，最终输出S₁序列和S₂序列的交叉注意力结果；

步骤4.3，从编码器Enc1,Enc2经过改进后的Transformer跳跃连接到解码器进行特征融合的计算过程如下，

I＝Reshape(Flatten(E)+PE)

A＝MCA(Q_Unfold(I),K_BN,V_BN)

U＝add(Flatten(Fold(A)))

Z＝U+MLP(LayerNorm(U))

其中，下标代表Q来自Skip4层的编码器Enc1或者Skip3层的编码器Enc2，X表示特征图输入，通过Encoder模块从编码器输出特征信息，再通过Flatten展平操作展开为二维序列，加上位置编码注意力向量PE，再通过Reshape操作恢复成三维向量I；将得到的I通过Unfold输出转换成为查询输入序列，再和Bottleneck层得到的键值对序列一起输入到多头注意力层MCA中进行注意力计算，下标BN用于标识Bottleneck层，A就是基于交叉注意力机制改进Transformer后注意力计算交互的结果，接着对得到的注意力结果通过Fold操作还原，然后再经过Flatten展平操作展开成向量，然后通过add操作相加得到结果U，然后经过层归一化LayerNorm操作，输入到多层感知机层MLP，然后和U相加，得到输出Z，然后输出，MCA表示多头交叉注意力机制。

另一方面，本发明还提供一种基于U-Net和Transformer融合改进的心脏MRI分割系统，用于实现如上所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

而且，包括以下模块，

第一模块，用于数据预处理，包括首先对图像进行零均值标准化，并进行数据增强处理以扩充训练数据；

第二模块，用于利用Transformer优化U-Net跳跃连接，包括将Transformer嵌入到网络中多个跳跃连接上，构成Transformer跳跃连接结构，通过该结构对编码器输出的语义特征进行特征再提取，过滤与任务不相关的语义特征和噪声特征；

第三模块，用于基于多粒度特征优化U-Net跳跃连接，包括对U-Net的Bottleneck层以及Bottleneck层上方Skip1,Skip2层上嵌入的Transformer进行改进，通过空间转换Unfold构建多粒度特征，让改进的Transformer提取到多粒度的上下文信息；

第四模块，用于基于交叉注意力机制优化U-Net跳跃连接，包括基于交叉注意力机制对Transformer进行改进，将基于交叉注意力机制改进的Transformer记作CA-MGTransformer，在Skip3,Skip4层中嵌入改进后的Transformer进行编码器解码器的特征融合，在加入的CA-MG Transformer的多头注意力层中计算需要的查询输入序列来自Skip3,Skip4层本身，而计算需要的键值序列来自Bottleneck层，通过交叉注意力计算交互捕捉到的远程交互信息，同时引入尺度较低的Bottleneck层特征图作为键值对序列；

第五模块，用于根据构建好的模型对心脏MRI数据进行训练，将得到的心脏左心室、右心室、心肌以及背景相应像素概率值再按照不同的像素值进行分类，从而达到不同区域的分割效果，最终得到分割好的标注结果。

或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

本发明的优点：(1)将Transformer嵌入到网络中多个跳跃连接上，构成了一种Transformer跳跃连接结构。该结构能够对编码器输出的语义特征进行特征再提取，过滤掉与任务不相关的语义特征和噪声特征，从而促进了编-解码器上的多级特征的融合。(2)对嵌入的Transformer进行改进，发挥该模块建立全局依赖的优势，提高模型对局部信息的关注度。通过多个不同窗口大小的Unfold构建不同粒度的特征，同时保留信息的完整性，改进后的Transformer提取到了多粒度的上下文特征，弥补了对卷积网络造成的干扰，从而获得性能上的提升。(3)利用嵌入的Transformer构建U-Net深层语义信息和浅层细节信息的交叉注意力，降低无关语义信息的干扰。在捕获更丰富的全局特征的同时也能够降低计算复杂度，以此提高浅层编解码器之间的特征融合的全局性，实现更丰富的特征融合效果。最终实现更高精度的心脏MRI分割效果。

附图说明

图1是本发明实施例方法的利用Transformer优化U-Net跳跃连接模型结构图。

图2是本发明实施例方法的基于多粒度特征改进Transformer后总体模型结构图。

图3是本发明实施例方法的交叉注意力结构图。

图4是本发明实施例方法的最终改进的CMT-UNet模型结构图。

图5是本发明实施例方法分割心脏MRI的可视化结果图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明构建基于U-Net和Transformer融合改进的心脏MRI分割方法模型，并进行模型训练，利用训练好的模型进行心脏MRI分割。本发明通过将Transformer嵌入到网络中多个跳跃连接上，过滤掉与任务不相关的语义特征和噪声特征，从而促进了编-解码器上的多级特征的融合。通过多个不同窗口大小的Unfold构建不同粒度的特征，弥补了对卷积网络造成的干扰，减少了框架的冗余，从而获得性能上的提升。在捕获更丰富的全局特征的同时也能够降低计算复杂度，以此提高浅层编解码器之间的特征融合的全局性，实现更丰富的特征融合效果。最终构建出的模型实现了更好的心脏MRI分割效果，在分割精度上得到了很好的提升。

参见图4，本发明实施例提供一种基于U-Net和Transformer融合改进的心脏MRI分割方法，包括以下步骤：

步骤1：数据预处理

首先对图像进行零均值标准化，使输入图像均值为0，方差为1。通过零均值归一化操作能够让数据限定在一定范围内，使数据变得规范，加速训练。零均值归一化通常会被称为Z-score标准化，该处理手段利用最初数据的均值(μ)和标准差(σ)来对数据做处理，使之达到标准化的分布。在处理完成之后，新的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

其中x代表原始图像像素，μ表示图像像素的均值，σ代表图像像素的标准差。

其次，对图像数据做增强扩充来提高模型泛化能力。在模型训练阶段，所有的数据都进行了数据增强处理以扩充训练数据，对数据的数据增强操作包括弹性形变、平移、缩放和随机旋转等，弹性形变的α和β的参数范围分别为(0.,350)和(14.,17.)，在图像的宽度和高度方向上还做了平移操作，范围是(-10,10)，缩放倍率的范围为(0.7,1.3)，随机旋转的角度范围为(-π/6,π/6)。

步骤2：利用Transformer优化U-Net跳跃连接

将Transformer嵌入到网络中多个跳跃连接上，构成了一种Transformer跳跃连接结构。该结构能够对编码器输出的语义特征进行特征再提取，过滤掉与任务不相关的语义特征和噪声特征，从而促进了编-解码器上的多级特征的融合。

步骤2.1，构建编码器。模型中编码器结构包含五个卷积-批归一化-ReLu激活函数模块，每层卷积-批归一化-ReLu激活函数模块都包含两个2D卷积，一个批归一化(BN)和一个ReLu激活函数，每层卷积-批归一化-ReLu激活函数模块后面都跟着一个2x2的maxpooling操作来进行下采样，每次下采样之后特征图尺寸减半，同时通道数加倍，这样整个编码结构包含四次下采样，采用这种逐步下采样的方式将原始图像编码为低分辨率的特征图来提取抽象的语义信息，同时得到了丰富的局部上下文信息。在最后一个卷积-批归一化-ReLu激活函数模块之后的Bottleneck层(如图1中的Bottleneck Layer层所示)以及Bottleneck层之上的两层跳跃连接上。在该Transformer的输出之后加入残差连接，与Transformer的输入进行相加得到编码器的输出结果。

步骤2.2，构建用于高层语义特征增强的Transformer模块。如图1中的Transformer模块所示，具体来讲，对于一个特征图首先将其Flatten操作展平为一个二维的Token/>其中N＝H×W，这个过程记做M2T，如图1中“M2T”模块所示。同时，为了编码图像的位置信息，对得到的Token加入位置编码，记为PE，这是一个和E同样大小的可学习参数矩阵，用来表示各Token中各元素的位置关系。将位置编码以直接相加的形式融入TokenE中得到最后的TokenT：T＝E+PE，然后再将T输入Transformer。在引入的Transformer中，Encoder主要包含一个多头自注意力机制(MSA)和一个多层感知机(MLP)这两个模块。如图1中所示，整个Transformer的流程如下：对于一个二维Token T，MSA模块首先利用三组线性映射得到Q,K,V，如下所示：

Q＝TW_Q,K＝TW_k,V＝TW_v

其中，是三个线性映射层的可学习参数，d是(Q,K,V)的第二个维度大小，这样，之后的自注意力机制(SA)可以按照如下公式表示：

其中，分别是Z和Q的第i行，MSA是SA的一个扩展，它包含多个SA操作，最后将得到的多个结果拼接在一起再加入线性映射得到MSA的结果，如下列公式所示：

MSA(Z)＝[SA₁(Z)；SA₂(Z)；...；SA_m(Z)]W_O

其中m是MSA中head的数目，MSA的输出之后会被输入一个多层感知机层(MLP)中进行转换，最后再加入残差连接得到最后的结果，整个过程如下列公式所示：

其中，在数据被输入MSA模块和MLP模块之前都应用了层标准化(LayerNormalization)进行标准化，具体细节如图1所示，经过Transformer处理得到的序列Token需要再转换成二维特征图(Feature Map)的形式才能与解码器对应特征图进行融合，其中C2是Transformer输出的第二个维度大小，和解码器对应特征图的通道数相等，该处理方式如图1中的“T2M”模块所示。

步骤2.3，构建跳跃连接结构。在编码器与解码器对应的特征图进行拼接之前，首先将编码器的特征图输入到Transformer中提取全局上下文信息，然后再与解码器对应的特征图进行融合，考虑到分割任务必须有足够的局部细节信息，比如边缘信息、空间信息等，编码器的浅层特征图往往具有丰富的高分辨率空间细节信息，为了防止Transformer破坏掉这些局部细节信息，同时考虑到浅层特征图尺度较大，计算复杂度过大，所以在浅层特征图编码器与解码器之间的跳跃连接中就没有加入Transformer，而是直接按照原来的方式进行拼接。在Bottleneck层以及之上的两个跳跃连接(记为Skip0、Skip1、Skip2)中加入Transformer，将这两个跳跃连接对应的编码器中的特征图输入Transformer后再与解码器中对应位置的特征图以相加的方式进行融合，而最后两个跳跃连接(记为Skip3、Skip4)依然以原来的直接拼接的方式来完成，最后完整地实现了端到端的分割网络结构。

步骤2.4，构建解码器。在对Bottleneck层及Skip1、Skip2跳跃连接上利用Transformer建立长距离依赖之后，需要将深层特征图大小恢复至原始图像大小来完成端到端分割。解码器主要包含四个上采样模块，前两个上采样模块包括一个Upsample模块，一个1x1卷积，一个批归一化(BN)和一个ReLu激活函数，前两个上采样模块没有再加入进一步的卷积操作，为了保持特征图的局部细节，后两个上采样层(Skip3、Skip4)直接利用跳跃连接与编码器相对应的特征图进行融合，没有被输入到Transformer中，对于后两个上采样层，首先利用和前述上采样一样的模块将解码器特征图上采样至2倍大小，同时通道数减半，之后再与编码器对应的特征图进行拼接，接着后面跟一个卷积模块来进一步融合局部细节特征和全局语义特征，以这样逐步上采样的形式逐步恢复特征图大小，从而在最后一层得到与原始图像大小一样的分割结果。

步骤3：基于多粒度特征优化U-Net跳跃连接，包括对U-Net的Bottleneck层以及Bottleneck层上方Skip1,Skip2层上嵌入的Transformer进行改进，通过Unfold构建多粒度特征，让改进的Transformer提取到多粒度的上下文信息，从而避免了对卷积网络造成的干扰，同时通过对局部结构信息建模减少了框架的冗余，从而得到性能上的提升。

步骤3.1，利用Unfold构建多粒度特征。Unfold是一种数据转换操作，如图2中MultiGranularity Transformer模块中的过程所示，它将一个多维的张量展开成一个二维的矩阵。Unfold操作其实就是从一个Batch图片中提取出滑动的局部区域块，将每一个卷积窗口的向量重排列成一个列向量，然后做拼接。由于在特征图中周围的Token之间应该有更强的关联性，所以可以通过Unfold将局部相邻的Token融合成一个新的Token，模拟周围Tokens的局部结构信息。Unfold操作的具体的公式如下所示：

unfold(X,kernel_size,stride)i,j

＝X:,(i×stride₀):(i×stride₀+kernel_size₀),(j×stride₁):(j×stride₁+kernel_size₁)

其中，X是输入的张量，形状为(N,C,H,W)，其中N为batch_size，C是通道个数，H和W分别是输入张量的高和宽。kernel_size是一个二元组，(kernel_size₀,kernel_size₁)表示要展开的二维矩阵的大小，stride是一个二元组，(stride₀,stride₁)表示展开时的步长。最终展开后的二维矩阵的大小为Unfold通过一个(kernel_size₀,kernel_size₁)的核作用在张量X上，它会像卷积操作一样每次取一个C×kernel_size₀×kernel_size₁的块，然后拉直成C×kernel_size₀×kernel_size₁×1×1的块，这样Unfold之后就会将(H,W)维度上的Patch块扩展到通道维度上，而不至于丢失特征图的信息。通过不同窗口大小的Unfold操作可以构建出多粒度特征。

步骤3.2，基于多粒度特征改进Transformer。

这里将基于多粒度特征改进的Transformer记作MultiGranularityTransformer，如图2中MultiGranularity Transformer模块所示。在Bottleneck Layer层(Skip0)及其上方两层(Skip1、Skip2)的跳跃连接中加入MultiGranularity Transformer进行下采样特征和上采样特征之间的融合。将特征图X通过Flatten操作展开为二维向量，之后加上位置编码得到向量V，这里的位置编码采用可学习的位置编码，经过如上操作之后输出的二维向量V的向量维度为(N,D)，然后将该向量经过Reshape操作，恢复到三维向量V′，此时维度为：(H,W,C)，方便提取局部信息；再通过不同窗口大小的Unfold操作提取局部信息，构建多粒度特征，将周围的Token分割平铺聚集在一起生成新的Token，通过这种方式迭代的减少Token长度，在不丢失信息的基础上变换图像的空间结构。经上述步骤之后，周围的局部结构被嵌入到生成的Token中，并被输入到Transformer中的多头注意力层进行计算。Fold操作相当于Unfold操作的逆向操作，把多头注意力层输出的Token重新转换为三维张量F，其次通过Flattern操作展开成二维向量F′，之后对二维向量F′进行Sum求和得到新的二维向量Z，经过以上的操作之后能够将每个Patch块的内部信息相融合建模局部信息。接着对二维向量Z进行Layer Norm归一化处理，输入到MLP多层感知机，然后加上残差连接。经过以上操作之后将输出的特征向量Z^″与对应上采样中同一层的特征向量相融合。

具体实施时，可采用以下步骤实现：

步骤3.2.1，由于Vision Transformer中的输入是二维向量，这里的输入是三维所以需要将特征图X通过Flatten操作展开为二维向量，之后加上位置编码得到向量V，这里的位置编码采用可学习的位置编码。

步骤3.2.2，经过如上操作之后输出的二维向量V的向量维度为(N,D)，然后将该向量经过Reshape操作，恢复到三维向量V′，此时维度为：(H,W,C)，方便提取局部信息，如图2中MultiGranularity Transformer模块中的过程所示。

步骤3.2.3给定参数t，循环公式

步骤3.2.4，通过Flatten操作展开成二维向量F′，之后对二维向量F′进行Sum求和得到新的二维向量Z，经过以上的操作之后能够将每个Patch块的内部信息相融合建模局部信息。接着对二维向量Z进行Layer Norm归一化处理，输入到MLP多层感知机，然后加上残差连接。经过以上操作之后将输出的特征向量Z″与对应上采样中同一层的特征向量相融合，如图2中MultiGranularity Transformer模块中的过程所示。

步骤4，基于交叉注意力机制优化U-Net跳跃连接。包括基于交叉注意力机制对Transformer进行改进，将基于交叉注意力机制改进的Transformer记作CA-MGTransformer，在Skip3，Skip4层中嵌入改进后的Transformer进行编码器解码器的特征融合，在加入的CA-MG Transformer的多头注意力层中计算需要的Query查询输入序列来自Skip3，Skip4层本身，而计算需要的键值序列来自Bottleneck层，通过交叉注意力计算交互捕捉到远程交互信息，从而提高Skip3，Skip4层的特征融合的效果，同时通过引入尺度较低的Bottleneck层特征图作为键值对序列，也降低了注意力计算开销。

步骤4.1，通过两个步骤来计算Attention机制，第一步借助Key和Query计算权重分数。这个步骤能够分成两个流程：1)通过相似度函数来计算Key和Query两者的相似性，返回注意力Map；2)对第一步的分值做归一化。第二步要利用前面得到的权重分数映射到Value上去。

步骤4.2，交叉注意力机制(Cross Attention)是利用一个序列用作查询Q的输入，另一层序列作为键和值输入(K,V)。定义交叉注意力机制的两个嵌入序列为S₁，S₂，如图3所示。则计算这两个序列的交叉注意力的公式如下：

Attention(S₁,S₂)＝softmax((W_QS₁)(W_KS₂)^T)W_VS₂

首先计算S₂序列的(K,V)，同时计算S₁序列的Q，然后根据计算得出的K和Q计算注意力矩阵。再通过Softmax函数计算得到注意力的权重，然后将得到的权重映射到对应的V上，最终输出S₁序列和S₂序列的交叉注意力结果Attention Scores，交叉注意力计算如图3所示。

步骤4.3，从编码器(Enc1，Enc2)经过改进后的Transformer跳跃连接到解码器进行特征融合的计算过程如下：

I＝Reshape(Flatten(E)+PE)

A＝MCA(Q_Unfold(I),K_BN,V_BN)

U＝add(Flatten(Fold(A)))

Z＝U+MLP(LayerNorm(U))

其中注意力向量A就是基于交叉注意力机制改进Transformer后注意力计算交互的结果，然后输出。Enc1，Enc2表示前两层的跳跃连接，如图4所示。MCA表示多头交叉注意力机制：

MCA(Q,K,V)＝[CA₁(Q,K,V)；CA₂(Q,K,V)；…；CA_{num_heads}(Q,K,V)]W_of

其中m是多头交叉注意力机制MCA中head的数目。

最终构建的模型结构图见说明书附图图4。

步骤5，根据构建好的模型对心脏MRI数据进行训练。

模型在训练中采用了Adam优化方法，其中batch size设置为4，实验总迭代次数为6000次；下采样和上采样的卷积层卷积核大小都是3×3，在下采样过程中各个卷积模块的卷积核数量分别为32，64，128，256，512；初始学习率设为1e-4，学习率每经过30轮迭代就减小1/10，权值衰减值(weight decay)设为1e-3。

模型训练采用的损失函数为Dice Loss损失函数。Dice系数它的值阈在[0,1]之间，最好的结果为1，最差时候结果为0。Dice系数计算公式如下：

其中pred代表预测值的集合，true代表真实值的集合，由公式可知，分子是预测值与真实值之间的交集，为了防止重复计算预测值与真实值之间相同元素，所以在分子上做了乘2的操作，分母是预测值与真实值之间的并集。

而Dice损失函数原理是在Dice系数的基础上进行计算，用1去减Dice系数。其公式如下：

由于Dice Loss更有利于处理正负样本严重不平衡的情况，所以训练中的损失函数采用Dice Loss损失函数。

最后将心脏左心室、右心室、心肌以及背景通过经过softmax处理得到的像素概率值再按照不同的像素值进行分类，从而达到不同区域的分割效果，最终得到分割好的标注结果，绿色代表心肌，红色代表左心室，蓝色代表右心室，分割结果可视化如图5所示。其中Input表示输入数据，Ours表示本发明方法的分割结果，GT表示真实标签。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种基于U-Net和Transformer融合改进的心脏MRI分割系统，包括以下模块，

在一些可能的实施例中，提供一种基于U-Net和Transformer融合改进的心脏MRI分割系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

在一些可能的实施例中，提供一种基于U-Net和Transformer融合改进的心脏MRI分割系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可对所描述的具体实施例做修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于U-Net和Transformer融合改进的心脏MRI分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法，其特征在于：对数据的数据增强操作包括弹性形变、平移、缩放和随机旋转。

3.根据权利要求1所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法，其特征在于：所述利用Transformer优化U-Net跳跃连接的实现方式如下，

步骤2.2，构建用于高层语义特征增强的Transformer模块；

4.根据权利要求1所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法，其特征在于：所述基于多粒度特征优化U-Net跳跃连接的实现方式如下，

步骤3.1，利用Unfold构建多粒度特征；

步骤3.2，基于多粒度特征改进Transformer，包括将特征图X通过Flattern操作展开为二维向量，之后加上位置编码得到向量V，这里的位置编码采用可学习的位置编码，然后将该向量经过Reshape操作，恢复到三维向量V′，此时维度为(,W,C)，方便提取局部信息；再通过不同窗口大小的Unfold操作提取局部信息，构建多粒度特征；

5.根据权利要求1或2或3或4所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法，其特征在于：所述基于交叉注意力机制优化U-Net跳跃连接的实现方式如下，

Attention(S₁,S₂)＝softmax((W_QS₁)(W_KS₂)^T)W_VS₂

I＝Reshape(Flatten(E)+PE)

A＝MCA(Q_Unfold(I),K_BN,V_BN)

U＝add(Flatten(Fold(A)))

Z＝U+MLP(LayerNorm(U))

6.一种基于U-Net和Transformer融合改进的心脏MRI分割系统，其特征在于：用于实现如权利要求1-5任一项所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

7.根据权利要求6所述基于U-Net和Transformer融合改进的心脏MRI分割系统，其特征在于：包括以下模块，

8.根据权利要求6所述基于U-Net和Transformer融合改进的心脏MRI分割系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。

9.根据权利要求6所述基于U-Net和Transformer融合改进的心脏MRI分割系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-5任一项所述的一种基于U-Net和Transformer融合改进的心脏MRI分割方法。