CN117274607B

CN117274607B - 基于多路金字塔轻量级医学图像分割网络、方法和设备

Info

Publication number: CN117274607B
Application number: CN202311566301.6A
Authority: CN
Inventors: 刘萍萍; 杜广新; 周求湛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-02
Anticipated expiration: 2043-11-23
Also published as: CN117274607A

Abstract

基于多路金字塔轻量级医学图像分割网络、方法和设备，属于图像分割技术领域，解决医学图像分割技术计算复杂度高和分割性能低问题。本发明的网络包括：提出了一种多路金字塔轻量化模型，称为MPTrans网络。采用金字塔架构作为编码器，以提取多尺度特征，并生成更好的特征图。此外，还使用多个堆叠的Transformer块作为全局特征提取器，以产生全局语义信息。最后，通过语义融合模块将全局语义信息注入到不同尺度的特征中，以增强特征表示。MPTrans在多种医学图像分割任务中表现出更高的分割精度和更低的计算复杂度。本发明适用于医学图像分割。

Description

基于多路金字塔轻量级医学图像分割网络、方法和设备

技术领域

本申请涉及图像分割技术领域，尤其涉及医学图像分割。

背景技术

医学图像分割在临床诊断、治疗计划和疾病评估中起着关键作用。它涉及从医学图像中勾勒和提取解剖结构或病理区域，实现准确的分析和解释。

随着深度学习的进步，卷积神经网络（CNN）在医学图像分割任务中取得了显著的成功。然而，CNN在捕捉全局背景信息方面存在局限性，并且往往因其本身的局部感受野而导致信息丢失。另一方面，Transformer模型在自然语言处理任务中展现出了强大的能力，能够捕捉远程依赖和全局上下文信息。将Transformer融入医学图像分割框架中有望解决这些限制，并提高分割性能。近些年来各种CNN架构，如现有技术的U-Net、SegNet和FCN，已经被提出，并在医学图像分割任务中取得了显著的结果。这些网络利用卷积层提取局部特征，并逐步细化分割边界。

尽管CNN在医学图像分割中取得了成功，但仍存在需要解决的挑战。由于局部感受野的限制，CNN可能导致信息丢失，限制其捕捉全局背景信息的能力。此外，基于CNN的架构具有较高的计算复杂度，限制了其在资源受限环境中的部署。为了克服这些挑战，最近的研究着重于将Transformer模型融入到分割流程中。例如，现有技术的TransUNet将ViT架构修改为一个用于二维医学图像分割的UNet。其他基于Transformer的网络如MedT、TransBTS和UNETR也被提出用于医学图像分割。但几乎所有的上述工作都集中在提高网络的性能上，但没有过多地关注计算复杂性、推理时间或参数数量，而这些在许多现实世界的应用中是至关重要的。

发明内容

本发明目的是为了解决现有医学图像分割技术计算复杂度高和分割性能低的问题，提供了基于多路金字塔轻量级医学图像分割网络、方法和设备。

本发明是通过以下技术方案实现的，本发明一方面，提供一种基于多路金字塔轻量级医学图像分割网络，所述分割网络包括：多路金字塔模块、全局特征提取器、语义融合模块与分割头；

原始图像经过预处理后，进入所述多路金字塔模块，生成多尺度特征；

所述多路金字塔模块利用MobileNet和transformer模块以增强全局特征的提取；

所述全局特征提取器采用Vision Transformer，将池化处理后的所述多尺度特征作为输入，生成全局感知的语义特征；

所述语义融合模块则将所述全局感知的语义特征注入进相应尺度的特征，获取增强后的多尺度特征；

所述分割头使用所述增强后的多尺度特征完成分割任务。

进一步地，所述多路金字塔模块由堆叠的mobile-transformer块组成，所述mobile-transformer模块包括MobileNet、1×1卷积模块和transformer模块，预处理后的图像通过MobileNet提取局部特征，再通过1×1卷积模块融合进transformer模块。

进一步地，所述Vision Transformer由若干个堆叠的Transformer模块组成，

所述Transformer模块由多头自注意力子模块、MLP前馈网络与残差连接组成；将线性层替换为1 × 1的卷积层，同时将Vision Transformer中的GELU激活函数替换为RELU6激活函数。

进一步地，所述多头自注意力子模块将键K和查询Q的头部维度设置为D = 16，将值V的头部设置为2D = 32通道，同时，去掉层归一化层，并对每个卷积附加批归一化。

进一步地，所述前馈网络通过在两个1×1卷积层之间插入一个深度卷积层来增强Vision Transformer的局部连接。

进一步地，所述池化处理具体包括：将所述多尺度特征平均池化到目标大小，沿着通道维度进行拼接，得到池化处理后的所述多尺度特征。

进一步地，所述语义融合模块将多路金字塔模块产生的单种尺度局部特征和全局特征提取器的全局感知的语义特征进行融合，具体包括：

将局部特征通过1×1卷积与批量归一化得到特征，将全局语义信息通过1×1卷积与批量归一化得到特征/>，/>经过Sigmoid层以产生语义权重/>；

通过阿达玛乘积将语义权重与特征/>进行相乘，并且经过通道调整的全局感知的语义特征/>与乘积后的特征相加。

第二方面，本发明提供一种基于多路金字塔轻量级医学图像分割方法，所述方法包括：获取医学图像，将所述医学图像输入至如上文所述的一种基于多路金字塔轻量级医学图像分割网络中，获取分割图像。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于多路金字塔轻量级医学图像分割方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行如上文所述的一种基于多路金字塔轻量级医学图像分割方法。

本发明的有益效果：

本发明设计了一个高效的网络，该网络具有更少的计算开销，更少的参数数量，更快的推理时间，同时保持良好的性能。设计这样一个网络对于适应医学影像从实验室到床边的转变趋势至关重要。

为了解决Transformer在医学图像中信息丢失和计算复杂度过高的问题，本发明提出了一种多路金字塔轻量化模型，称为MPTrans网络。MPTrans在多个数据集上的性能优于现有网络。该模型采用了金字塔架构作为编码器，以提取多尺度特征，并生成更好的特征图。此外，它还使用多个堆叠的Transformer块作为全局特征提取器，以产生全局语义信息。最后，通过语义融合模块将全局语义信息注入到不同尺度的特征中，以增强特征表示。MPTrans在多种医学图像分割任务中表现出更高的分割精度和更低的计算复杂度，证明它可以作为通用医学图像分割的一种替代网络。

本发明适用于医学图像分割。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的多路金字塔Transformer结构示意图;

图2为 mobile-transformer块的结构示意图；

图3为语义融合模块的结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施方式一、一种基于多路金字塔轻量级医学图像分割网络，所述分割网络包括：多路金字塔模块、全局特征提取器、语义融合模块与分割头；

需要说明的是，所述多尺度特征是指不同尺度的局部特征。金字塔模块分为若干层，例如4层，这四层是按照下采样操作来分层的，也就是进行一次下采样就进行一次分层，下采样的同时特征的尺度会改变。因此局部特征指的是不同尺度（4种尺度）的特征，多尺度特征指的是将4种尺度特征组合在一起，称为多尺度的特征。

所述分割头使用所述增强后的多尺度特征完成分割任务。

本实施方式中，为了解决Transformer在医学图像中信息丢失和计算复杂度过高的问题，提出了一种多路金字塔轻量化模型，称为MPTrans网络。MPTrans在多个数据集上的性能优于现有网络。该模型采用了金字塔架构作为编码器，以提取多尺度特征，并生成更好的特征图。此外，它还使用多个堆叠的Transformer块作为全局特征提取器，以产生全局语义信息。最后，通过语义融合模块将全局语义信息注入到不同尺度的特征中，以增强特征表示。MPTrans在多种医学图像分割任务中表现出更高的分割精度和更低的计算复杂度，证明它可以作为通用医学图像分割的一种替代网络。

由于大多数都是在实验室环境下进行分析，因此使用具有高计算能力的机器（如GPU）进行测试。这有助于加快推理的速度，也有助于容纳大量的参数。

实施方式二，本实施方式是对实施方式一所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述多路金字塔模块，做了进一步限定，具体包括：

所述多路金字塔模块由堆叠的mobile-transformer块组成，所述mobile-transformer模块包括MobileNet、1×1卷积模块和transformer模块，预处理后的图像通过MobileNet提取局部特征，再通过1×1卷积模块融合进transformer模块。

本实施方式中，与MobileNet不同之处在于引入了transformer模块来增强局部特征的提取。具体来说，MobileNet用于提取局部特征，而这些特征通过1×1卷积模块融合进transformer块中，不断为transformer提供详细的局部信息。这种做法充分利用了MobileNet在提取局部特征方面的高效性能，同时也充分发挥了transformer在建模全局交互方面的能力。

这种并行解耦的设计使得网络可以同时关注局部和全局的特征，从而在处理视觉任务时能够更加灵活和有效地利用不同类型的信息。

实施方式三，本实施方式是对实施方式一所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述Vision Transformer，做了进一步限定，具体包括：

所述Vision Transformer由若干个堆叠的Transformer模块组成，

本实施方式中，为了降低计算复杂度，可以使用平均池化算子将不同尺度特征的数量减少到输入大小的64×64分之1。不同尺度的特征集合具有相同的分辨率，并连接在一起作为Vision Transformer的输入。这样，Vision Transformer可以获得完整的图像感受野和丰富的语义信息。

具体而言，全局自关注机制通过在特征之间沿空间维度交换信息来进行操作。1×1卷积层用于在不同尺度的特征之间进行信息交换。在每个Transformer块中，通过交换所有尺度特征的信息，学习残差映射，并将其添加到特征中以增强表示和语义。通过多个Transformer块的堆叠，实现尺度感知的语义建模。获得尺度感知的语义信息后，将全局特征提取器得到的特征{}进行拼接，使用1×1卷积层来调整通道得到/>，这样可以将多尺度特征进行融合，以获得全局感知的信息。

实施方式四，本实施方式是对实施方式三所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述多头自注意力子模块，做了进一步限定，具体包括：

所述多头自注意力子模块将键K和查询Q的头部维度设置为D = 16，将值V的头部设置为2D = 32通道，同时，去掉层归一化层，并对每个卷积附加批归一化；

本实施方式中，减少K和Q的通道将减少计算注意图和输出时的计算成本。在推理过程中，批归一化可以与前面的卷积合并，比层归一化运行得更快。

实施方式五，本实施方式是对实施方式四所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述前馈网络，做了进一步限定，具体包括：

所述前馈网络通过在两个1×1卷积层之间插入一个深度卷积层来增强VisionTransformer的局部连接。

本实施方式中，FFN的head设为3，Transformer块的数量为3 ，以减少计算成本。

实施方式六，本实施方式是对实施方式一所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述池化处理，做了进一步限定，具体包括：

所述池化处理具体包括：将所述多尺度特征平均池化到目标大小，沿着通道维度进行拼接，得到池化处理后的所述多尺度特征。

本实施方式中，经过全局平均池化，再将池化后的多尺度特征输入进全局特征提取器中以确保特征维度相同。

实施方式七，本实施方式是对实施方式一所述的一种基于多路金字塔轻量级医学图像分割网络的进一步限定，本实施方式中，对所述语义融合模块，做了进一步限定，具体包括：所述语义融合模块将多路金字塔模块产生的单种尺度局部特征和全局特征提取器的全局感知的语义特征进行融合，具体包括：

本实施方式中，在语义融合后，来自不同尺度的局部特征获得了增强，同时捕获了丰富的空间和语义信息。

需要说明的是，为了缓解不同尺度特征之间的语义差异，采用分割头模块，首先将低分辨率的标记上采样到与高分辨率的特征相同的维度，最终将所有尺度信息进行加和，最终由两个卷积层来产生分割图像。

实施方式八，本实施方式是对如上文所述的一种基于多路金字塔轻量级医学图像分割网络的实施例，具体包括：

网络模型设计：

整体网络如图1所示，其主要由四部分构成：多路金字塔模块、全局特征提取器、语义融合模块与分割头。原始图像经过预处理（即设置固定的图形大小）后进入多路金字塔模块，生成多尺度特征。Vision Transformer被用作全局特征提取器，将金字塔模块生成的多尺度特征作为输入，并产生全局感知的语义特征。语义融合模块则将全局感知信息注入进相应尺度的特征，以增强感知信息。最后分割头使用增强后的多尺度特征来进行分割任务。

4.1.1多路金字塔模块

受到MobileNet与MobileFormer网络的启发，提出的多路金字塔模块（Multiwaypyramid Module）由堆叠的mobile-transformer块组成。所述mobile-transformer模块包括MobileNet、1×1卷积模块和transformer模块。

与MobileNet不同之处在于引入了transformer模块来增强局部特征的提取。具体来说，MobileNet用于提取局部特征，而这些特征通过1×1卷积模块融合进transformer块中，不断为transformer提供详细的局部信息。这种做法充分利用了MobileNet在提取局部特征方面的高效性能，同时也充分发挥了transformer在建模全局交互方面的能力。

如图1所示，图像以I∈R^(3×H×W)为输入，其中3，H，W分别代表图像RGB通道，高度，宽度。多路金字塔模块首先将预处理后的图像通过一些mobile-transformer块，生成一系列的多尺度特征{}，N为下采样的次数。

之后将多种尺度的局部特征{}平均池化到目标大小R^(H/64×W/64)，沿着通道维度进行拼接，最终产生新的多尺度特征。最终新的多尺度特征经过全局特征提取器，产生全局规模感知的语义特征。由于多尺度特征内产生的特征数量较少，即使其中某些特征的通道维度较大，但也可以维持较小的计算成本。

图2具体展示了mobile-transformer块的具体的网络结构。其中mobile子块将特征X作为输入，输出特征X'作为融合模块的一部分输入。transformer子块将特征Z作为输入，首先通过融合模块进行特征融合，再将融合特征输入进自注意力模块与多层感知机前馈网络，最终输出特征Z'。

4.1.2全局特征提取器

全局特征提取器由几个堆叠的Transformer模块组成，模块的数量为L。单个Transformer由多头自注意力子模块、MLP前馈网络与残差连接组成。为了保持标记的空间形状并减少重塑的次数，将线性层替换为1 × 1的卷积层，同时将VIT中的GELU激活函数替换为RELU6激活函数。

对于多头自注意力子模块，遵循LeViT的设置，将键K和查询Q的头部维度设置为D= 16，将值V的头部设置为2D = 32通道。减少K和Q的通道将减少计算注意图和输出时的计算成本。同时，去掉了层归一化层，并对每个卷积附加了批归一化。在推理过程中，批归一化可以与前面的卷积合并，比层归一化运行得更快。

对于前馈网络，通过在两个1×1卷积层之间插入一个深度卷积层来增强VisionTransformer的局部连接。FFN的head设为3，Transformer块的数量为3 ，以减少计算成本。

根据图1所示，Vision Transformer接收来自不同尺度的特征作为输入。为了降低计算复杂度，使用平均池化算子将不同尺度特征的数量减少到输入大小的64×64分之1。不同尺度的特征集合具有相同的分辨率，并连接在一起作为Vision Transformer的输入。这样，Vision Transformer可以获得完整的图像感受野和丰富的语义信息。

4.1.3语义融合模块与分割头

为了减少计算成本，没有将多路金字塔模块用于解码器，而是使用更轻量级的语义融合模块作为特征的解码。

如图3所示，单个语义融合模块将多路金字塔模块产生的单种尺度局部特征和全局特征提取器的全局感知的语义特征结合起来，以全局特征提取器得到的全局感知的语义特征作为输入，局部特征通过1×1卷积与批量归一化产生要融合的特征/>。全局语义信息也通过1×1卷积与批量归一化得到通道调整后的全局感知的语义特征/>，经过Sigmoid层以产生语义权重/>。/>三个特征具有相同的维度，通过阿达玛乘积将语义权重/>与特征/>进行相乘，并且经过通道调整的全局感知的语义特征/>与乘积后的特征相加。

几个语义融合模块SFM的输出共享相同数量的通道，表示为M。公式表示为

（1）

（2）

（3）

+/>（4）

在语义融合后，来自不同尺度的局部特征获得了增强，同时捕获了丰富的空间和语义信息。为了缓解不同尺度特征之间的语义差异，采用分割头模块，首先将低分辨率的标记上采样到与高分辨率的特征相同的维度，最终将所有尺度信息进行加和，最终由两个卷积层来产生分割图像。

最后，给出本申请的发明效果：

为了验证网络架构的有效性，本申请在BUSI数据集上进行实验，并与Unet，TansUnet，Unext，DHMF-MLP，Unet架构做对比。实验结果列于表1。由表1所示，本模型在参数量相近的情况下还维持较高的mIou与Dice指数，相较于其他模型也更优。

表1 实验结果

为了探究多路金字塔模块的作用，将从不同尺度的特征作为输入来探究。分别将多种维度的特征输入到全局特征提取器中与间最后一层特征输入到特征提取器中做对比实验结果如表2所示，证明了多路金字塔模块的有效性。

表2 参考文献类型

全局特征提取器由多个Transformer块堆叠组成，其中每个块包括多头自注意力模块与前馈网络两部分。为了探究全局特征提取器的作用，我们将全局特征提取器删除作为Baseline作为对比，结果如表3所示；同时也试验了不同头数量head，与堆叠次数L的不同结果，结果如表4所示。当head保持一致，堆叠层数越高，分割效果越好，但是当层数特别高时结果上升有限，同时带来参数量巨幅上涨，因此综合考量分割效果与参数量，选取head为3，堆叠次数L为3，此时参数量为2.51M。

表3 多尺度特征的消融实验结果

表4 参数head与L的实验结果

为验证语义融合模块与分割头的有效性，使用BUSI数据集进行消融实验，对比指标为mIou，结果列于表5。

表5 多尺度特征的消融实验结果

综上所述，为了解决Transformer在医学图像中信息丢失和计算复杂度过高的问题，本申请提出了一种多路金字塔轻量化模型，称为MPTrans网络。MPTrans在多个数据集上的性能优于现有网络。该模型采用了金字塔架构作为编码器，以提取多尺度特征，并生成更好的特征图。此外，它还使用多个堆叠的Transformer块作为全局特征提取器，以产生全局语义信息。最后，通过语义融合模块将全局语义信息注入到不同尺度的特征中，以增强特征表示。MPTrans在多种医学图像分割任务中表现出更高的分割精度和更低的计算复杂度，证明它可以作为通用医学图像分割的一种替代网络。

为了充分证明本申请提出的方法的有效性和泛用性，在两个不同类型的数据集上进行了实验。这些数据集包括皮肤病病灶分割数据集（ISIC2018），乳腺超声数据集（BUSI）。ISIC2018数据集收集了2594张由各种皮肤镜从不同部位获得的病变图片及其对应的标注。每个病变图像都包含一个病灶；BUSI数据集包括780张女性患者的乳腺超声图像。患者的年龄范围在25至75岁之间。图像被分为正常、良性和恶性三类。

本申请的算法代码实现均使用PyTorch作为框架，为了加速计算，使用的GPU型号是NVIDIA RTX 2080TI。使用Adam作为训练优化器，学习率初始化为0.002，使用CosineAnnealingLR根据训练批次对学习率进行动态调节。每个批次的批大小设置为16，一共训练600个epoch。图像大小固定为224×224。

损失函数使用二元交叉熵(BCE)和骰子损失相结合的方法来训练MPT网络。损失函数L表示为

（5）

其中，表示预测值，/>表示标准值。

采用平均交并比（mean pixel accuracy, Miou）与Dice系数作为语义分割质量的评价标准。MIou是分割结果真值的交集与其并集的比值，按类计算后取平均值。

7.1参数分析

在本网络中，网络中head的数量与Transformer堆叠次数L是一个影响算法性能的重要参数。Head与L越大，网络结构过于复杂，参数量过多，且针对医学数据集中少样本的特点，网络收缩困难，而容易造成过拟合；相反，Head与L越小，又会导致在训练初期模型难以学习到已标注数据的信息，影响模型的分割性能。因此需要对其进行单独讨论。如表4，对Head与L进行一系列对比实验，讨论了的不同的值对性能的影响，综合考量分割效果与参数量，选取head为2，堆叠次数L为3，此时参数量为2.51M。

7.2训练过程

参数选择完成后，下面将结合本申请方法的整体框架来解释本申请方法的具体实施方式。

将训练集送入一个由多路金字塔轻量级分割网络架构分割框架中，该网络由编码器、语义提取模块与解码器三部分组成。编码器部分产生多种尺度可感知的语义特征，再将这些特征语义提取模块进行处理以获取全局感知特征，最后将全局语义信息注入到相应地局部特征中以增强表示。训练过程结束后，使用训练好的MPTrans网络进行测试，进行分割，并评估分割结果的正确性。

Claims

1.一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述分割网络包括：多路金字塔模块、全局特征提取器、语义融合模块与分割头；

所述分割头使用所述增强后的多尺度特征完成分割任务；

2.根据权利要求1所述的一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述Vision Transformer由若干个堆叠的Transformer模块组成，

3.根据权利要求2所述的一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述多头自注意力子模块将键K和查询Q的头部维度设置为D = 16，将值V的头部设置为2D= 32通道，同时，去掉层归一化层，并对每个卷积附加批归一化。

4.根据权利要求3所述的一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述前馈网络通过在两个1×1卷积层之间插入一个深度卷积层来增强VisionTransformer的局部连接。

5.根据权利要求1所述的一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述池化处理具体包括：将所述多尺度特征平均池化到目标大小，沿着通道维度进行拼接，得到池化处理后的所述多尺度特征。

6.根据权利要求1所述的一种基于多路金字塔轻量级医学图像分割网络，其特征在于，所述语义融合模块将多路金字塔模块产生的单种尺度局部特征和全局特征提取器的全局感知的语义特征进行融合，具体包括：

7.一种基于多路金字塔轻量级医学图像分割方法，其特征在于，所述方法包括：获取医学图像，将所述医学图像输入至权利要求1-6任一项所述的一种基于多路金字塔轻量级医学图像分割网络中，获取分割图像。

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，当所述处理器运行所述存储器存储的计算机程序时执行权利要求7中所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求7中所述的方法。