CN116309679A

CN116309679A - 一种适用于多种模态的类mlp医学影像分割方法

Info

Publication number: CN116309679A
Application number: CN202310017346.1A
Authority: CN
Inventors: 陈炳才; 韩超奇; 聂冰洋; 赵楠; 林恺
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-06-23

Abstract

本发明属于医学影像处理领域，公开了一种适用于多种模态的类MLP医学影像分割方法，对输入图像进行特征嵌入操作使其转化成一组特征向量序列；采用完全对称的U型网络结构对特征向量进行编解码；使用Dice loss和修正交叉熵的加权和作为损失函数并用Adam优化器来训练网络。本发明采用改进的ChannelFC作为基本算子提取图像特征，通过一次线性操作计算偏移量，FC运算根据偏移量在空间维度发生形变，使其能更多的提取到细节特征。本发明有效过滤医学影像中大量背景信息的干扰，从而提高分割精度，相比于传统的基于卷积或者自注意力方法，具有更低的计算量和更少的参数，适用于CT、MRI等不同模态的医学影像数据集。

Description

一种适用于多种模态的类MLP医学影像分割方法

技术领域

本发明涉及医学影像处理领域，尤其涉及一种适用于多种模态的类MLP医学影像分割方法。

背景技术

医学图像分割是计算机辅助诊断的重要组成部分，尤其是准确且高效的医学图像分割算法可以在以图像引导的临床手术中发挥重要作用。受益于卷积神经网络和视觉Transformer的发展，医学图像分割也迎来了重大突破。近期，一些类MLP方法在各类计算机视觉任务中取得了良好的表现，成为该领域的一种有效代替方案。

早期的类MLP方法大致分为两个部分，用于提取空间语义信息的空间全连接(SpatialFC)和用于融合通道特征的通道全连接(ChannelFC)。由于SpatialFC是在整个空间维度进行全连接运算，不仅具有相当高的计算复杂度，而且也限制了输入特征图的尺寸使之不能够处理变尺度的输入，因此该方法在语义分割等任务的表现并不理想。除此之外，我们注意到医学影像中普遍存在前景器官占比低的问题，如果直接使用SpatialFC进行全局运算，会导致最后提取到的特征包含大量来自背景信息的干扰。解决这些问题一个思路是放弃全局的SpatialFC，对ChannelFC加以改进使其能够提取局部的空间语义信息。

“T.Yu,X.Li,Y.Cai,M.Sun和P.Li,《S2-MLP:Spatial-Shift MLP Architecturefor Vision》.2021年.”中通过空间移位的方式在两个ChannelFC之间引入spatial-shift操作来提取空间语义信息，S.Chen,E.Xie,C.Ge,D.Liang和P.Luo,《Cyclemlp:A mlp-likearchitecture for dense prediction》,arXiv preprint arXiv:2107.10224,2021.中则是采用循环移动ChannelFC取样位置的方式来提取空间特征，这些方法虽然解决了SpatialFC计算量大的问题，但对于医学影像这种前景稀疏的数据集来说，仍会被大量的背景信息所干扰，因此需要采用一种新的改进方式来解决这一问题。

发明内容

本发明针对上述技术问题，提供了一种适用于多种模态的类MLP医学影像分割方法，使用类MLP运算来提取各种模态的医学影像中前景器官的特征并对其进行分割，通过一次线性操作得到偏移量，并以此来使ChannelFC在空间维度上发生形变，以便提取更多器官的特征，抛弃了计算复杂度极高的SpacialFC以保证分割效率。

为了实现上述目的，本发明的技术方案如下：一种适用于多种模态的类MLP医学影像分割方法，包括以下步骤：

步骤1：收集医学影像分割数据集，根据医学影像分割数据集的模态选择标准化的方式；

步骤2：对标准化后的医学影像分割数据集进行数据预处理，获得切片；

步骤3：构建用于影像分割的完全对称的U型网络，总体结构包括图像嵌入层、编码器、解码器以及分割头；图像嵌入层将预处理好的切片嵌入成特征图；编码器主要由基本块和下采样层组成，对图像嵌入层输出的特征图进行逐级下采样输出一组不同尺度的特征图；解码器主要由基本块和上采样层组成，将特征图逐级上采样并分别与编码器中对应位置输出的特征图在通道维度上进行跳跃连接，最终得到与图像嵌入层的输出尺度一致的特征图；分割头将解码器输出的特征图重塑成切片大小并将通道数压缩到与类别数相同，在通道维度进行SoftMax运算得到每个像素点所属的类别；编码器和解码器中的基本块以改进的Channel FC作为基本算子；

步骤4：选择损失函数与训练策略优化U型网络模型的权重参数，并将训练好的U型网络用于推理。

所述图像嵌入层，输入为预处理好的切片，输出为嵌入特征图；通过滑动窗口将输入的切片分割成等尺寸的图像块，再将图像块转化为嵌入特征向量；将嵌入特征向量按照图像块的相对位置重新排列成嵌入特征图

整个过程如下公式所示，

IEL(img)＝[patch₁；…；(patch)_n]·

其中，

为图像嵌入层的权重矩阵；当滑动窗口的大小取k，步长取s，图像嵌入层的过程等价于内核大小为k、步长取s，输入通道为patch的通道数，输出通道为D的卷积。

所述基本块的基本算子为改进的Channel FC，输入和输出均为维度相同的特征向量序列；

以

表示输入的特征向量序列，/>

表示根据图像嵌入层输出的特征图计算得到的每个特征向量对应的偏移量，/>

是改进的ChannelFC的权重矩阵，/>

是改进的Channel FC的偏置；根据偏移量改变Channel FC的形状，使之在空间维度上更多的偏向前景图像，从而聚合更多特征处的上下文信息，如果仅考虑浮点乘法运算的话，该算子的FLOPs同普通的ChannelFC一样，与输入的特征向量序列的长度N呈线性关系。

改进的Channel FC算子公式如下：

C_in表示输入特征向量的通道数；c为通道；p_i(c,O_i,c)表示Channel FC算子计算第i个特征向量时，在通道c上采样的位置；

为了用更小的代价计算p_i，将特征向量沿通道维度交替分成g组，每组共享一个位置，将偏移量O从

压缩到/>

p_i主要由两部分组成，其具体算法公式如下所示；

以改进的Channel FC作为基本算子构建基本块，输入和输出为大小一致的特征图，基本块包括两个阶段，第一阶段通过改进的Channel FC来提取空间和通道的特征信息，第二阶段引入非线性变换来进一步增强特征表示能力，每个阶段包括一个Layer Norm和残差连接；

(1)：第一阶段对图像嵌入层输出的特征图进行一次线性运算以获取一组偏移量，将这组偏移量同特征图一起输入到改进的Channel FC中执行；由于改进的Channel FC运算只接收二维张量，对图像嵌入层输出的特征图沿空间维度进行展平操作将其转换为特征向量序列，既

采用一种非对称的并行设计，将F沿x轴和y轴两个方向展开并行进行FC运算；为了进一步融合特征图通道维度的特征，额外增加一个ChannelFC分支，最后将其与F两个方向的FC运算结果加和输出；

(2)：第二阶段采用Channel FC→GeLU→Channel FC的方式引入非线性运算来提高特征表示能力；激活函数为GeLU，其表达式如下

x表示特征图某一位置的值；

所述步骤1中根据医学影像分割数据集的模态选择标准化的方式如下：

(1)医学影像分割数据集的模态为CT影像时，先将CT影像像素值剪裁在[-125,275]范围内，然后将其标准化为[0,1]；

(2)医学影像分割数据集的模态为MRI时，不进行剪裁，直接对整个MRI图像标准化为[0,1]。

所述步骤2中预处理的具体方法如下：

将标准化后的医学影像分割数据集按照8:2的比例划分训练集和验证集；训练集中将整个3D图片沿纵向切割成横断面切片，使用双线性插值法将横断面切片缩放到224×224像素，最后采用数据增强方法用于提高U型网络模型的泛化能力。

所述步骤3中构建一个完全对称的U型网络，其具体结构为：图像嵌入层→编码器→解码器→分割头；编码器具体结构为：基本块×2→下采样层→基本块×2→下采样层→基本块×6→下采样层→基本块×2；解码器具体结构为：上采样层→跳跃连接→基本块×6→上采样层→跳跃连接→基本块×2→上采样层→跳跃连接→基本块×2→上采样层。

所述步骤4的具体方法如下：

(1)采用Dice loss和修正的交叉熵的加权和作为损失函数，其计算公式如下

X表示真实的标签，Y表示预测的标签，y_ic表示符号函数，当样本i的真实类别等于c时，y_ic取1，否则取0，β表示Dice的权重、N表示样本数；

使用Adam优化器反向梯度传导来优化权重参数，学习率衰减策略选用Poly衰减，公式如下

lr表示学习率、base_lr表示初始学习率、epoch表示当前的迭代次数、power表示衰减率；

使用高斯分布来初始化U型模型的权重参数，无需在大规模数据集上预训练；

(2)验证时一次向U型网络模型输入一个仅完成标准化的3D实例，U型网络模型沿z轴方向逐层推理，切片送入U型网络模型前缩放到与训练集相同的尺寸以保证最大分割精度，最终将各切片的结果重组成3D分割结果输出，以Dice系数DSC和豪斯多夫距离HD作为评估标准。

所述切片为3D影像的横断面切片

本发明的有益效果：第一，网络没有直接在空间维度进行全连接运算，因此可接受变尺度输入，训练好的U型网络模型对输入图像的尺寸具有一定的泛化能力；

第二，网络完全由沿通道维度的全连接运算组成，对输入图像尺寸具有线性的计算复杂度。

第三，网络利用输入的特征图来计算偏移量，使ChannelFC在空间维度上向器官位置处产生形变，有效降低了大量背景信息造成的干扰，具有更高的精度。

附图说明

图1是本发明适用于多种模态的类MLP医学影像分割方法的整体架构图；

图2是本发明中的图像嵌入层示意图；

图3(a)是普通ChannelFC示意图；图3(b)是改进的ChannelFC示意图。

图4是本发明中提出的基本块第一阶段示意图。

图5(a)是输入图像，图5(b)是真实标签，图5(c)是本发明方法的分割结果图，图5(d)-图5(i)是现有先进方法的分割结果图，依次分别是CycleUnet、SwinUnet、TransUnet、AtteUnet、ResUnet、Unet。

具体实施方式

以下结合附图通对本发明作进一步详细说明。

本发明提供一种适用于多种模态的类MLP医学影像分割方法，包括以下步骤：

步骤1：收集医学影像分割数据集，并根据医学影像分割数据集的模态选择标准化的方式，本实施例中以腹部CT影像和心脏病患者心脏部位的MR图像为例。对于CT影像，先将图像像素值剪裁在[-125,275]范围内，然后将其标准化为[0,1]，对于MRI则不需要剪裁，直接对整个3D图像标准化为[0,1]。

步骤2：进行数据预处理，该步骤先按照8:2的比例划分训练集和验证集，对于训练集，需要将整个3D图片沿纵向切割成横断面切片，使用双线性插值法将图片缩放到224×224像素，最后采用一些如随机翻转等数据增强方法来提高模型的泛化能力；而测试集则不做过多处理。

步骤3：构建用于影像分割的完全对称的U型网络，总体结构包括图像嵌入层、编码器、解码器以及分割头；

构建图像嵌入层(Image embedding layer)将切片转化成嵌入特征向量序列，该过程分为两步，第一步利用滑动窗口将切片分成若干大小相同的图像块，第二步通过一个线性嵌入层将每个图像块嵌入成特征向量，最后将特征向量按照图像块的相对位置重排列成特征图。整个过程如下公式所示

IEL(img)＝[patch₁；…；(patch)_n]·

其中

为线性层的权重矩阵，若滑动窗口的大小取k步长取s，那么该过程等价于内核大小为k步长取s，输入通道为patch的通道数，输出通道为D的卷积，因此本实例采用内核大小为7，步长为4的卷积实现该过程，最终输出的特征图尺寸为/>

设计改进的ChannelFC算子，以

表示输入的特征向量序列，/>

表示根据特征图计算得到的每个特征向量对应的偏移量，/>

和/>

是全连接层的权重矩阵和偏置。改进的FC算子公式如下：

从公式中可以看到，普通的ChannelFC直接沿着特征向量的通道维度采样并和权重矩阵相乘，而改进后的FC则需要额外输入一组偏移量，以改变ChannelFC采样的位置，其中p_i(c,O_i,c)表示计算第i个特征向量时在通道c上采样的位置。为了用更小的代价计算p_i，我们将特征向量沿通道维度交替的分成g组，每组共享一个位置，这样偏移量O便可以从

压缩到/>

p_i的具体算法公式如下所示

p_i由两部分组成，Start_i(c)表示初始位置，是人为设置的。

构建一个用于提取特征的基本块，以改进的Channel FC作为基本算子，以一种类MLP架构作为基本块，其构建方式包括两个阶段，具体如下：

第一阶段通过改进的Channel FC来提取空间和通道的特征信息，第二阶段引入非线性变换来进一步增强特征表示能力，每个阶段包括一个LayerNorm和残差连接。

第一阶段先对输入的特征图进行一次线性运算以获取一组偏移量，然后将这组偏移量同特征图一起输入到改进的ChannelFC中来执行。由于FC运算只接收二维张量，所以需要对特征图沿空间维度进行展平操作将其转换为特征向量序列，既

这里采用了一种非对称的并行设计，既将F沿x轴和y轴两个方向展开并行的进行FC运算，另外为了融合通道特征，我们额外增加了一个Channel FC分支，最后将三者的结果加和输出。对于偏移量的提取操作，该实例使用一次线性操作既内核大小为1的卷积来实现，该操作的输出通道数由组数g决定，由于存在两个改进ChannelFC运算，所以输出的O的通道数应为2g，如图4所示，奇数通道表示x方向的偏置，偶数通道表示y方向的偏置，最后将方向不匹配的偏置屏蔽掉后输入FC，该实例的组数设定为3。

第二阶段用ChannelFC→GeLU→Channel FC的方式引入非线性运算来提高特征表示能力。由于该第二阶段模块与Transformer方法类似，处理的是图像块的嵌入特征向量序列，因此激活函数选用在Transformer中表现较好的GeLU，其近似表达式如下

利用基本块构建一个完全对称的U型网络，包括编码部分，解码部分以及分割头，该实例的构建方式如下：

引入下采样层，搭建一个分层的编码器。该实例以特征向量融合的方式进行下采样，既将空间位置上相邻的2×2个向量首尾相连，再通过一个线性层来转换其通道数，整个过程等价于内核大小为2且步长为2的卷积，该实例便是通过这种方式来实现的。编码器以基本块(BasicBlock)和下采样层(Down Sample)交替堆叠的方式构建，编码过程中仅下采样层会改变特征图的尺寸和通道数，该实例的编码器结构为基本块×2→下采样层→基本块×2→下采样层→基本块×6→下采样层→基本块×2，下采样层之间特征图的空间分辨率和通道数为

引入上采样层，搭建一个与编码器完全对称的解码器，并引入跳跃连接(Skip-connection)，逐级的融合不同尺度的特征图并恢复到原图尺寸。该实例采用双线性插值法(Bilinear)进行上采样。解码器结构为上采样层→跳跃连接→基本块×6→上采样层→跳跃连接→基本块×2→上采样层→跳跃连接→基本块×2→上采样层。

构建分割头，该部分由一个内核大小为1、输入通道数为嵌入特征向量维度D、输出通道数为类别数的卷积和Softmax实现，卷积运算将每个像素点的特征数压缩到与类别数一致，经过Softmax运算得到每个类别的概率，值最大的类别为该像素点所属的类别，该实例中CT数据集共8个类别，MR数据集共4个类别。

步骤4：选择合适的损失函数与训练策略优化模型权重参数，并将训练好的模型用于推理，该实例的训练策略和推理方式如下：

4.1：搭建好U型网络模型后，选择合适的损失函数来优化模型权重参数，该实例采用Dice loss和修正的交叉熵的加权和作为损失函数，其计算公式如下

该实例的超参数β设置为0.7，power设置为0.9，一共训练了200个epoch，初始学习率为0.01，使用高斯分布来初始化模型的权重参数，没有迁移在大规模数据集上预训练的结果。

4.2：将训练好的U型网络模型在验证集上进行验证，该实例推理验证时一次给U型网络模型输入一个仅完成标准化的3D实例，U型网络模型沿z轴方向逐层推理，切片送入U型网络模型前需缩放到与训练集相同的尺寸以保证最大分割精度，最终将各切片的结果重组成3D分割结果输出，以Dice系数(DSC)作为评估标准，其计算方式如下

该实例在CT数据集上的总体平均DSC为80.00％，MRI数据集上的总体DSC为89.95％。

Claims

1.一种适用于多种模态的类MLP医学影像分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的适用于多种模态的类MLP医学影像分割方法，其特征在于，所述图像嵌入层，输入为预处理好的切片，输出为嵌入特征图；通过滑动窗口将输入的切片分割成等尺寸的图像块，再将图像块转化为嵌入特征向量；将嵌入特征向量按照图像块的相对位置重新排列成嵌入特征图；整个过程如下公式所示，

IEL(img)＝[patch₁；…；(patch)_n]·E

其中，

3.根据权利要求1或2所述的适用于多种模态的类MLP医学影像分割方法，其特征在于，所述基本块的基本算子为改进的Channel FC，输入和输出均为维度相同的特征向量序列；

以

表示输入的特征向量序列，/>

是改进的Channel FC的权重矩阵，/>

是改进的Channel FC的偏置；改进的Channel FC算子公式如下：

压缩到/>

p_i主要由两部分组成，其具体算法公式如下所示；

以改进的Channel FC作为基本算子构建基本块，输入和输出为大小一致的特征图，基本块包括两个阶段，第一阶段通过改进的Channel FC来提取空间和通道的特征信息，第二阶段引入非线性变换来进一步增强特征表示能力，每个阶段包括一个LayerNorm和残差连接；

采用一种非对称的并行设计，将F沿x轴和y轴两个方向展开并行进行FC运算；为了进一步融合特征图通道维度的特征，额外增加一个Channel FC分支，最后将其与F两个方向的FC运算结果加和输出；

x表示特征图某一位置的值。

4.根据权利要求1所述的一种适用于多种模态的类MLP医学影像分割方法，其特征在于，所述步骤1中根据医学影像分割数据集的模态选择标准化的方式如下：

5.根据权利要求1所述的一种适用于多种模态的类MLP医学影像分割方法，其特征在于，所述步骤2中预处理的具体方法如下：

6.根据权利要求1所述的一种适用于多种模态的类MLP医学影像分割方法，其特征在于，所述步骤3中构建一个完全对称的U型网络，其具体结构为：图像嵌入层→编码器→解码器→分割头；编码器具体结构为：基本块×2→下采样层→基本块×2→下采样层→基本块×6→下采样层→基本块×2；解码器具体结构为：上采样层→跳跃连接→基本块×6→上采样层→跳跃连接→基本块×2→上采样层→跳跃连接→基本块×2→上采样层。

7.根据权利要求1所述的一种适用于多种模态的类MLP医学影像分割方法，其特征在于，所述步骤4的具体方法如下：

X表示真实的标签，Y表示预测的标签，y_ic表示符号函数，当样本i的真实类别等于c时，y_ic取1，否则取0，β表示Dice Loss的权重、N表示样本数；