CN116485815A

CN116485815A - 基于双尺度编码器网络的医学图像分割方法、设备和介质

Info

Publication number: CN116485815A
Application number: CN202310485440.XA
Authority: CN
Inventors: 朱承璋; 张仁茂; 肖亚龙; 柴娴; 杨章正; 段宣初
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-25

Abstract

本发明公开了一种基于双尺度编码器网络的医学图像分割方法、设备和介质，方法针对待分割的医学图像，使用训练好的双尺度编码器网络DSE‑Net对图像的目标进行分割；DSE‑Net由粗分割和细分割部分组成；粗分割部分使用双尺度编码器对医学图像逐层编码，并使用解码器对编码输出的特征图逐层上采样直至恢复到输入图像大小，并输出预测的粗分割图；其中编码器包括两种尺度的编码块；细分割部分使用基于Transformer的细化模块对粗分割图进行细化，得到细化的医学图像分割图。本发明使用双尺度编码器网络，能够捕获不同的视野信息，获取更丰富的上下文信息，对损失的信息进行相互补充，实现对医学图像更精确、更完整的分割。

Description

基于双尺度编码器网络的医学图像分割方法、设备和介质

技术领域

本发明属于医学图像处理技术领域，涉及一种基于双尺度编码器网络的医学图像分割方法、设备和介质。

背景技术

医学图像分割是一个重要而又具有挑战性的研究课题，图像分割为医学图像定量分析提供重要的科学依据。研究一种精准的医学图像分割网络框架不仅提高诊断效率，同时提高诊断的准确率。U-Net在医学图像分割任务上取得了巨大的成功，很多基于U型网络改进的模型也在不断提升医学图像分割的性能。在U型网络中，编码器将捕获到的图像上下文信息提供给解码器，以便增强解码器所损失的信息，解码器逐层上采样恢复到输入图像的分辨率大小。但由于U型分割框架中卷积层的局限性，无法捕获长距离依赖关系。近年来，一种新颖的结构Transformer在计算机视觉中成取得了广泛应用，Transformer作为编码能够捕捉图像中长范围依赖关系，视觉Transformer(ViT)在图像分割中展现出色的性能。同时在分割框架编码阶段，单尺度的卷积层会忽略一些纹理粗糙或者细密纹理的信息。

发明内容

本文所解决的问题是针对现有技术的不足，提出一种基于双尺度编码器网络的医学图像分割方法、设备和介质，能够实现更精确、更完整的医学图像分割性能。

为实现上述技术目的，本发明采用如下技术方案：

一种基于双尺度编码器网络的医学图像分割方法，针对待分割的医学图像，使用训练好的双尺度编码器网络DSE-Net对图像的目标进行分割；

其中DSE-Net由粗分割和细分割部分组成；

粗分割部分使用双尺度编码器对原始输入的医学图像进行逐层编码，并使用解码器对编码输出的特征图逐层上采样直至恢复到输入图像大小，并输出预测的粗分割图；其中，双尺度编码器包括两种尺度的编码块；

细分割部分使用基于Transformer的细化模块对预测的粗分割图进行细化，得到细化的医学图像分割图。

进一步地，粗分割部分采用多层编码器和解码器构成的U型网络结构；在第一层编码器之前包括初始卷积块，用于对原始输入的医学图像进行初始卷积；初始卷积块之后的各层编码器之间，使用池化操作对输入特征图逐级下采样；各层解码器之间采用双线性插值逐级上采样。

进一步地，每层编码器中每种尺度的编码块，均由4个基础残差块和2层4头注意力的Transformer级联组成，输出是由基础残差块的输出和Transformer的输出计算残差所得。

进一步地，在最后一层编码器与解码器之间的桥接层中，将最后一层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合，随后输入到由若干卷积块搭建的桥接层中，并将桥接层的输出特征图与最后一层跳跃连接的输出特征图进行级联，用于最后一层解码器的输入特征图。

进一步地，在同层编码器和解码器之间的跳跃连接中，设置通道注意融合模块以对编码器输出的双尺度特征图进行通道融合；所述通道注意融合模块：一方面将编码器输出的双尺度的特征图Fs_i和Fl_i级联，然后进行conv层、BN层和ReLU层运算得到特征图Ff_i；另一方面，将两种尺度的特征图Fs_i和Fl_i融入到通道注意力模块以捕获通道之间的依赖关系，得到特征图最终将特征图Ff_i和/>经过残差计算得到通道注意融合模块的输出特征图其中下标i指代编码器和解码器所在层的层次。

进一步地，将两种尺度的特征图Fs_i和Fl_i融入到通道注意力模块以捕获通道之间的依赖关系，具体为：

将小尺度特征图Fs_i和大尺度特征图Fl_i整形为一系列平坦二维patch，然后将2个尺度特征图的tokens拼接后作为key和value，即和/>分别表示小尺度和大尺度特征图的tokens，contact表示/>和/>的拼接操作，/>通过将向量/>和/>拼接得到；其中的patch为序列块，tokens为查询，key和value分别为键和值；

将相应的权值矩阵融入Transformer中用于计算注意力值，并计算得到输出O_i：

O_i＝MCA_i+MLP(Qⁱ+MCA_i)

式中，和/>表示第i层小尺度和大尺度的查询矩阵，Kⁱ和Vⁱ分别表示第i层的键、值矩阵，/>和/>分别表示第i层小尺度特征图的查询权重矩阵、大尺度特征图的查询权重矩阵、键的权重矩阵和值的权重矩阵，CA_i表示第i层的通道融合的注意力值，MCA_i表示对第i层的N个注意头进行平均值化，MLP表示多层感知机，d是二维序列块的数量，M_i为相似度矩阵，/>表示第i层的2个尺度特征图的quries；

将输出重塑形成/>并将/>和第i层解码器特征图D_i∈R^Ci×Hi×Wi作为通道交叉注意的输入，将O_i和D_i执行全局平均池得到/>和输出的特征图由使用以下公式生成，即通道注意力掩码σ(·)与特征图O_i相乘，得到通道注意力模块的输出/>

其中，σ(·)表示每个通道的相关性，α₁，α₂分别是两个线性层的权值。

进一步地，所述基于Transformer的细化模块，首先将预测得到的粗分割图S₁进行初始卷积改变其的通道得到S₂；然后将第一层编码器输出的双尺度特征图进行级联、conv和ReLU操作得到特征图F₁∈R^64×H×W，再将初始卷积的输出S₂和F₁进行级联，并使用卷积层、归一化层和ReLU层得到特征图输出C；再将输出特征图C送入具有4层多头注意的Transformer中进行学习，并将Transformer输出的mask与粗分割图S₁进行残差计算得到最终的细化分割图。

进一步地，训练双尺度编码器网络DSE-Net的损失函数设为所有侧边损失输出的总和：

其中，Loss是总损失，l^k是第k边输出的损失，l^k(k＝1,…,M)分别代表总共M-1个解码器输出和细分割部分输出的损失，其中表示第k边输出的骰子损失和二分类交叉熵损失。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项所述的基于双尺度编码器网络的医学图像分割方法方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于双尺度编码器网络的医学图像分割方法方法。

有益效果

本发明使用训练好的DSE-Net对医学图像进行分割，其中DSE-Net使用基于pytorch深度学习框架搭建而成，由粗分割和细分割组成，前者生成粗分割图，后者生成细分割图，骨架网络采用U型结构，每层编码器使用两种尺度的编码块且每个编码块使用基础残差块和Transformer对特征进行提取。其次，为了更好的增强解码器上采样所损失的特征，使用通道注意融合机制对编码器双尺度特征进行深度融合。再次，使用各层解码器和细分割部分的输出损失总和构建损失函数对DSE-Net进行训练。本发明使用不同尺度的卷积层能够捕获不同的视野信息，多尺度的卷积核联合编码能够获取更丰富的上下文信息，不仅能够对所损失的信息进行相互补充，而且更加有利于提高医学图像分割性能，能够对医学图像产生更加精确、完整的分割区域。

附图说明

图1双尺度编码器网络DSE-Net的结构图。

图2用于融合双尺度特征图的通道注意融合结构图。

图3DSE-Net与其他先进模型在MoNuSeg数据集上分割对比图。

图4DSE-Net与其他先进模型在GlaS数据集上分割对比图。

图5DSE-Net与其他先进模型在KvasirCapsule-SEG数据集上分割对比图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实施例提供一种基于双尺度编码器网络的医学图像分割方法，针对待分割的医学图像，使用训练好的双尺度编码器网络DSE-Net进行图像的目标分割。其中的DSE-Net由粗分割和细分割部分组成，其网络结构和训练方法如下详细阐述。

1、选取数据集

首先选取公开的医学图像数据集MoNuSeg、GlaS和KvasirCapsule-SEG，并将这些数据集划分为训练集和测试集。同时为了防止模型出现过拟合的情况，需要对数据集进行数据增强，包括随机放大、旋转和翻转等操作。

2、搭建双尺度编码器网络DSE-Net模型(如图1所示)

双尺度编码器网络DSE-Net由粗分割和细分割两部分组成，粗分割部分采用多层双尺度编码器和解码器构成的U型网络结构，每层的双尺度编码器包括两种尺度的编码块。

(1)编码器阶段

设输入双尺度编码器网络DSE-Net的医学图像为空间分辨率为H×W、通道数为C的图像x∈R^C×H×W。

首先搭建一个对输入图像x∈R^C×H×W进行初始卷积的卷积块，具体使用3×3卷积层、BN层和ReLU层对输入图像进行初始卷积。

然后搭建4层编码器。在每层编码器的每个编码块中，使用4层基础的残差块和2层4个注意头的Transformer用于对输入特征图进行特征提取，输出是由基础残差块的输出和Transformer的输出计算残差所得。

每层两个编码块的卷积尺度分别为3×3和5×5，获得细密纹理和纹理粗糙的特征图，以便进行信息互补。小尺度(3×3)的4层编码块输出尺寸分别为：H×W，H/2×W/2，H/4×W/4，H/8×W/8，大尺度(5×5)的4层编码块输出尺寸与小尺度的输出相同。

在每两层编码器之间，使用池化操作对输入特征图逐级下采样。

(2)跳跃连接

在同层编码器与解码器之间的跳跃连接中设置通道注意融合模块，以对编码器输出的双尺度特征图进行通道融合，有效地利用来自同层编码器双尺度特征图来增强解码器上采样所损失的信息。具体搭建的是4层多头注意的Transformer。

假设同层编码器的小尺度特征和大尺度特征/>i＝(1,2,3,4)，i表示第i层。

首先将Fs_i和Fl_i进行级联，然后进行conv层，BN层和ReLU层运算得到以便后面用于计算通道注意力的残差输出。

其次将Fs_i和Fl_i，i＝(1,2,3,4)特征图整形为一系列尺寸分别为p,p/2,p/4,p/8的平坦二维patch(序列块)。将2个尺度特征图的tokens(查询)(和/>i＝(1,2,3,4))拼接后作为key(键)和value(值)，即/>

其中d是Patch数量。通过生成相似度矩阵M_i，并且与Vⁱ进行加权得到注意力值。

其中表示第i层的2个尺度特征图的quries,/>表示第i层双尺度特征图的token。

O_i＝MCA_i+MLP(Qⁱ+MCA_i)

其中N是注意头的数量。通过应用简单的MLP和残差算子来获得输出。

将输出重塑形成/>并将/>和第i层解码器特征图/>作为通道交叉注意的输入，将O_i和D_i执行全局平均池得到/>和/>输出的特征图由使用以下公式生成，即通道注意力掩码σ(·)与特征图O_i相乘，得到通道注意力模块的输出/>

其中，σ(·)表示每个通道的相关性，α₁，α₂是相应的权值。

最后将Ff_i与经过残差计算得到得到通道注意融合模块的输出特征/>

(3)桥接层

在桥接层中，搭建3个普通的卷积块。首先将第4层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合，得到尺度为(512×H/8×W/8)的特征图，随后将得到的特征图输入到由若干卷积块搭建的桥接层中。然后将经过桥接层的输出特征图与第4层跳跃连接的特征图进行级联，用于第4层解码器上采样恢复分辨率的大小。

(4)解码器阶段，首先将跳跃连接的输出特征图O_i∈R^C×H×W和同层解码器的特征图进行级联得到R^2C×H×W，随后使用conv、BN、ReLU操作恢复通道维度得到R^C×H×W的特征图。

每两层解码器之间使用双线性插值进行上采样，直到恢复到输入图像的分辨率大小。

(5)基于Transformer的细化模块

如图1所示，将粗分割部分输出的特征S1∈R^1×H×W经过conv层、BN层、ReLU层得到S2∈R^64×H×W，其次将第一层双尺度特征经过级联、conv层、BN层、ReLU层得到的特征图F1∈R⁶⁴ ^×H×W与S2∈R^64×H×W级联，并使用卷积、归一化和ReLU得到C∈R^64×H×W。将C送入4层4注意头的Transformer细化模块进行学习，并将输出的mask与预测的mask进行残差计算得到最终的mask。

3、构建损失函数，将损失函数设为所有侧边损失输出的总和，如附图1所示。

其中，l^k是第k边输出的损失，M表示输出的总数。如图DSE-Net结构图1所示，分割框架由5个输出(即M＝5)进行深入监督，包括来自解码器预测的4个输出和来自细化模块的一个输出。

4、训练DSE-Net模型

将前述获得的数据集，按照批次大小将数据输入到模型中进行训练。实验使用基于pytorch深度学习框架。初始学习率设置为le-3，epoch设置为2000，同时为了防止模型过拟合，采用提前结束训练策略。使用Dice和IoU作为三个数据集的评估指标。其中MoNuSeg和KvasirCapsule-SEG数据集的batch size设置为6，GlaS的数据集batch size设置为4。在验证集上保存Dice最好的模型。

5、测试验证

将MoNuSeg、GlaS和KvasirCapsule-SEG数据集上保存最好的模型泛化到测试集上进行测试。在MoNuSeg数据集上得到的Dice和IoU为：81.171％和68.410％。在GlaS数据集上得到的Dice和IoU为：91.334％和84.853％。在KvasirCapsule-SEG数据集上得到的Dice和IpU为：96.421％和93.132。图3为DSE-Net在MoNuSeg数据集上和其他模型的可视化对比图。在红框中是本发明DSE-Net模型比其他方法表现更加优越的区域。图4为DSE-Net在GlaS数据集上和其他模型的可视化对比图。使用红框框出其他模型与本发明DSE-Net模型相比表现不佳的区域。可见，本发明DSE-Net模型分割的结果更加接近真实的分割图。图5为DSE-Net在KvasirCapsule-SEG数据集上和其他模型的可视化对比图。本发明DSE-Net模型分割出来的边界更加的贴近实际的分割图，可见本发明DSE-Net模型具有更加优越的泛化能力和生成能力。

综上，本发明将DSE-Net模型用于医学图像分割的性能具有更加优越的竞争力。在MoNuSeg、GlaS和KvasirCapsule-SEG数据集上的实验结果表明，DSE-Net能够对图像产生更加精确、完整的分割区域。

Claims

1.一种基于双尺度编码器网络的医学图像分割方法，其特征在于，针对待分割的医学图像，使用训练好的双尺度编码器网络DSE-Net对图像的目标进行分割；

其中DSE-Net由粗分割和细分割部分组成；

粗分割部分使用双尺度编码器对原始输入的医学图像进行逐层编码，并使用解码器对编码输出的特征图逐层上采样直至恢复到输入的图像大小，并输出预测的粗分割图；其中，双尺度编码器包括两种尺度的编码块；

2.根据权利要求1所述的医学图像分割方法，其特征在于，粗分割部分采用多层编码器和解码器构成的U型网络结构；在第一层编码器之前包括初始卷积块，用于对原始输入的医学图像进行初始卷积；初始卷积块之后的各层编码器之间，使用池化操作对输入特征图逐级下采样；各层解码器之间采用双线性插值逐级上采样。

3.根据权利要求1所述的医学图像分割方法，其特征在于，每层编码器中每种尺度的编码块，均由4个基础残差块和2层4头注意力的Transformer级联组成，输出是由基础残差块的输出和Transformer的输出计算残差所得。

4.根据权利要求1所述的医学图像分割方法，其特征在于，在最后一层编码器与解码器之间的桥接层中，将最后一层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合，随后输入到由若干卷积块搭建的桥接层中，并将桥接层的输出特征图与最后一层跳跃连接的输出特征图进行级联，用于最后一层解码器的输入特征图。

5.根据权利要求1所述的医学图像分割方法，其特征在于，在同层编码器和解码器之间的跳跃连接中，设置通道注意融合模块以对编码器输出的双尺度特征图进行通道融合；所述通道注意融合模块：一方面将编码器输出的双尺度的特征图Fs_i和Fl_i级联，然后进行conv层、BN层和ReLU层运算得到特征图Ff_i；另一方面，将两种尺度的特征图Fs_i和Fl_i融入到通道注意力模块以捕获通道之间的依赖关系，得到特征图最终将特征图Ff_i和/>经过残差计算得到通道注意融合模块的输出特征图/>其中下标i指代编码器和解码器所在层的层次。

6.根据权利要求5所述的医学图像分割方法，其特征在于，将两种尺度的特征图Fs_i和Fl_i融入到通道注意力模块以捕获通道之间的依赖关系，具体为：

O_i＝MCA_i+MLP(Qⁱ+MCA_i)

将输出重塑形成/>并将/>和第i层解码器特征图作为通道交叉注意的输入，将O_i和D_i执行全局平均池得到/>和输出的特征图由使用以下公式生成，即通道注意力掩码σ(·)与特征图O_i相乘，得到通道注意力模块的输出/>

7.根据权利要求1所述的医学图像分割方法，其特征在于，所述基于Transformer的细化模块，首先将预测得到的粗分割图S₁进行初始卷积改变其的通道得到S₂；然后将第一层编码器输出的双尺度特征图进行级联、conv和ReLU操作得到特征图F₁∈R^64×H×W，再将初始卷积的输出S₂和F₁进行级联，并使用卷积层、归一化层和ReLU层得到特征图C；再将输出特征图C送入具有4层多头注意的Transformer中进行学习，并将Transformer输出的mask与粗分割图S₁进行残差计算得到最终的细化分割图。

8.根据权利要求1所述的医学图像分割方法，其特征在于，训练双尺度编码器网络DSE-Net的损失函数设为所有侧边损失输出的总和：

其中，Loss是总损失，是第k边输出的损失，/>分别代表总共M-1个解码器输出和细分割部分输出的损失，其中/>表示第k边输出的骰子损失和二分类交叉熵损失。

9.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～8中任一项所述的方法。