CN114937044A

CN114937044A - 一种轻量化图像分割方法、装置及存储介质

Info

Publication number: CN114937044A
Application number: CN202210618018.2A
Authority: CN
Inventors: 谌东东; 阮佳程; 李迪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-23

Abstract

本发明提供一种图像分割方法、装置及存储介质。该方法包括：获取第一图像数据；将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果，所述空洞门控注意力模型包括两个部分：编码部分和解码部分；其中，所述编码部分包括普通编码单元和注意力编码单元；所述解码部分包括注意力解码单元和普通解码单元；所述普通编码单元、所述注意力编码单元、所述注意力解码单元以及所述普通解码单元依次连接。通过空洞门控注意力模型对第一图像数据进行分割，较大的减少了图像分割中的参数量和计算量，并获得了较好的分割结果。

Description

一种轻量化图像分割方法、装置及存储介质

技术领域

本发明涉及医学图像分割技术领域，具体涉及一种轻量化图像分割方法、装置及存储介质。

背景技术

医学图像分割是进行医学影像学分析的关键，一个好的医学图像分割模型，可以精确地定位影像中的病灶区域，辅助医生进行病理判断，更好地进行后续的诊疗工作。但是，当前临床所使用的医疗设备，其算力和实验室的计算设备相差甚远，这便导致了，在实验室的计算设备上能够良好运行的医学图像分割模型，在实际临床设备上的应用受到了限制。

近期，UNet模型作为医学图像分割领域中最重要的模型之一，其基本思想为：通过编码器，将图像的宽高减小，将图像的通道数增大，再通过解码器对图像进行恢复，直到和输入图像分辨率一致，中间使用剪裁拼接作为跳跃连接。但是该模型的参数量、计算量较大，在移动端的使用会受到限制。所以，如何将医学图像分割模型进行轻量化，在模型参数量、计算量减小的前提下，还能够使模型的分割表现得到提升，便成为了研究内容。

发明内容

针对现有技术中存在的问题，本发明提供一种轻量化图像分割方法、装置及存储介质。

本发明是通过以下技术方案来实现：

本发明实施例提供一种基于空洞门控注意力的轻量化图像分割方法，包括：

获取第一图像数据；

将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果，所述空洞门控注意力模型包括两个部分：编码部分和解码部分；其中，

所述编码部分包括普通编码单元和注意力编码单元；

所述解码部分包括注意力解码单元和普通解码单元；

所述普通编码单元、所述注意力编码单元、所述注意力解码单元以及所述普通解码单元依次连接。

进一步的，所述将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果之前，还包括：

使用第二图像数据对第一空洞门控注意力模型进行训练，以对所述普通编码单元和所述普通解码单元中二维卷积和批归一化进行训练，并分别对所述注意力编码单元和所述注意力解码单元中空洞门控注意力和批归一化进行训练；

将训练后的空洞门控注意力模型，作为用于对所述第一图像数据进行训练的所述空洞门控注意力模型。

进一步的，所述编码部分中的普通编码单元，包括：

将所输入的所述第一图像数据记作t₀，对其依次进行三次卷积核尺寸为3的二维卷积、批归一化、二倍最大池化以及GELU激活函数操作，将上述三次的特征图输出记作t₁，t₂，t₃，之后将t₃作为所述注意力编码单元的输入。

进一步的，所述编码部分中的注意力编码单元，包括：

将t₃作为输入，依次进行两次空洞门控注意力、批归一化、二倍最大池化以及GELU激活函数操作，将上述两次的特征图输出记作t₄，t₅，之后对t₅再进行一次空洞门控注意力和GELU激活函数操作，得到编码部分的输出结果Out₆。

进一步的，所述解码部分中的注意力解码单元，包括：

将所述Out₆以及t₃，t₄，t₅作为输入，对Out₆进行空洞门控注意力、批归一化以及GELU激活函数操作，将操作的结果再和t₅进行逐元素相加操作，得到特征图Out₅；

对所述特征图Out₅进行空洞门控注意力、批归一化、二倍线性插值上采样以及GELU激活函数操作，将操作的结果再和t₄进行逐元素相加操作，得到特征图Out₄；

对所述特征图Out₄进行空洞门控注意力、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₃进行逐元素相加操作，得到特征图Out₃，作为输出。

进一步的，所述解码部分中的普通解码单元，包括：

将所述特征图Out₃以及t₁，t₂作为输入；

对所述特征图Out₃进行卷积核尺寸为3的二维卷积、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₂进行逐元素相加操作，得到特征图Out₂；

对所述特征图Out₂进行卷积核尺寸为3的二维卷积、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₁进行逐元素相加操作，得到特征图Out₁；

对所述特征图Out₁进行卷积核尺寸为1的二维卷积以及二倍线性插值上采样操作，将特征图尺寸恢复到和数据标签相同，得到特征图Out。

进一步的，所述注意力编码单元和注意力解码单元中的空洞门控注意力，包括：

所述空洞门控注意力包括分裂空洞卷积单元以及门控注意力单元；

所述分裂空洞卷积单元包括：对输入特征图x_i在通道维度上进行分裂，等分为四份，得到分裂后的特征图

再分别通过卷积核尺寸为3但拥有不同空洞率的深度卷积，获取到全局特征信息以及局部特征信息，并得到特征图

所述全局特征信息包括通过空洞率为5和7的深度卷积来获取的特征信息，所述局部特征信息包括通过空洞率为1和2的深度卷积来获取的特征信息；

在通道维度上对

进行拼接操作，将特征图尺寸复原，后接一个卷积核尺寸为1的二维卷积操作得到特征图x′_i，以使全局特征信息和局部特征信息进行交互；

传输至所述门控注意力单元，以通过两个卷积核尺寸为3的深度可分离卷积对输入特征图x′_i进行操作，其中一个后接Sigmoid激活函数来生成注意力图Att，另一个和所生成的注意力图Att进行逐元素相乘操作，后接一个卷积核尺寸为3的深度可分离卷积操作，得到特征图

接着，对输入特征图x′_i进行一个卷积核尺寸为1的二维卷积操作，得到特征图

最后，将特征图

和

进行逐元素相加操作，得到输出特征图x_o。

进一步的，所述获得分割结果之后，还包括：

使用Sigmoid激活函数对特征图Out进行激活，得到最终的预测结果。

本发明实施例还提供一种基于空洞门控注意力的轻量化图像分割装置，包括：

获取模块：用于获取第一图像数据；

处理模块，用于将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果，所述空洞门控注意力模型包括两个部分：编码部分和解码部分；其中，所述编码部分包括普通编码单元和注意力编码单元；所述解码部分包括注意力解码单元和普通解码单元；所述普通编码单元、所述注意力编码单元、所述注意力解码单元以及所述普通解码单元依次连接。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的基于空洞门控注意力的图像分割方法。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的一种基于空洞门控注意力的图像分割方法，获取第一图像数据；将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果，所述空洞门控注意力模型包括两个部分：编码部分和解码部分；其中，所述编码部分包括普通编码单元和注意力编码单元；所述解码部分包括注意力解码单元和普通解码单元；所述普通编码单元、所述注意力编码单元、所述注意力解码单元以及所述普通解码单元依次连接。通过空洞门控注意力模型对第一图像数据进行分割，较大的减少了图像分割中的参数量和计算量，并获得了较好的分割结果。

附图说明

图1为本发明实施例提供的一种基于空洞门控注意力的轻量化图像分割方法框图；

图2为本发明实施例提供的DGA-UNet模型结构图；

图3为本发明实施例提供的分裂空洞卷积单元结构图；

图4为本发明实施例提供的门控注意力单元结构图；

图5为本发明实施例提供的空洞门控注意力模块结构图；

图6为本发明实施例提供的使用不同方法分割皮肤病变与黑色素瘤病灶图像的结果示意图；

图7为本发明实施例提供的基于空洞门控注意力的图像分割装置。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

为了更好地对本发明进行理解，下面将结合附图以及具体实施例来对本发明的技术方案进行完整、清晰的阐述。当然，所阐述的实施例仅为本发明的一部分实施例，而非全部的实施例。

本发明实施例提供的一种基于空洞门控注意力的轻量化医学图像分割方法流程，如图1所示，包括：

S1：获取第一图像数据；

在本实施例中，第一图像数据也可以是原始图像数据，也可以是将图像数据集进行划分获得的，例如，在获取第一图像数据之前，将图像数据集进行划分，以获得第一图像数据和第二图像数据，该第一图像数据可以是测试集，第二图像数据可以是训练集。

举例来讲，该图像数据集可以是ISIC18数据集，即：皮肤病变与黑色素瘤病灶图像数据，以下简称为ISIC18，在ISIC18数据集中，官方所给出的为2594张训练集图片和100张测试集图片；由于测试样本相比于训练集较少，所以在本实施例中，将2694张图片全部打乱，再以7∶3的比例对数据集进行划分，得到1886张图片作为本实施例的训练集，808张图片作为本实施例的测试集。

S2：将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果。

本实施例中的所述空洞门控注意力模型可以包括两个部分：编码部分和解码部分；其中，

所述编码部分包括普通编码单元和注意力编码单元；

所述解码部分包括注意力解码单元和普通解码单元；

具体的，对已经划分好的训练集和测试集进行不同的数据预处理操作；

在所述训练集上，对本发明所提出的空洞门控注意力模型，即DGA-UNet轻量化模型进行训练，以对所述普通编码单元和所述普通解码单元中二维卷积和批归一化进行训练，并分别对所述注意力编码单元和所述注意力解码单元中空洞门控注意力和批归一化进行训练，以得到训练权重；

进一步的使用所述训练权重对测试集影像数据进行分割结果的预测。

在本实施例中，S1所述的原始医学影像数据可以是指ISIC2018皮肤病变与黑色素瘤病灶图像数据，以下简称为ISIC18。

在本实施例中，S2所述数据集的划分是对于所述ISIC18数据集来进行的；在ISIC18数据集中，官方所给出的为2594张训练集图片和100张测试集图片；由于测试样本相比于训练集较少，所以在本实施例中，将2694张图片全部打乱，再以7∶3的比例对数据集进行划分，得到1886张图片作为本实施例的训练集，808张图片作为本实施例的测试集。

在本实施例中，S3所述数据预处理操作对于训练集和测试集是不同的。对于训练集图片的预处理步骤如下：(1)将输入图片进行归一化处理；(2)以50％的概率进行随机水平翻转；(3)以50％的概率进行随机垂直翻转；(4)以50％的概率进行随机旋转，旋转角度的范围为(0，360)；(5)将图片的尺寸缩放到256×256。

对于测试集图片，不进行(2)～(4)的数据增强操作，仅进行归一化以及缩放处理。

在本实施例中，S4所述的DGA-UNet轻量化模型请结合参阅图2-5，所述DGA-UNet轻量化模型的结构包括两个部分：编码部分和解码部分；

所述编码部分包括普通编码单元和注意力编码单元；所述解码部分包括注意力解码单元和普通解码单元；

将所述普通编码单元和注意力编码单元以及注意力解码单元和普通解码单元依次连接，从而进行医学图像分割预测。

本发明提供另一实施例，该实施例在上述图1所示实施例的基础上，将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果之前，还包括：

将训练后的空洞门控注意力模型，作为用于对所述第一图像数据进行测试的所述空洞门控注意力模型。

具体的，所述编码部分中的普通编码单元，具体来说，将所输入的医学图像记作t₀，对其依次进行三次卷积核尺寸为3的二维卷积、批归一化、二倍最大池化以及GELU激活函数操作，将上述三次的特征图输出记作t₁，t₂，t₃，之后将t₃作为后续注意力编码单元的输入；通过公式表示如下：

t_i+1＝GELU(MaxPool(BN(Conv2d_3*3(t_i))))

其中，Conv2d_3*3表示卷积核尺寸为3的二维卷积操作，BN表示批归一化操作，MaxPool表示二倍最大池化，GELU为激活函数，并且在此处，i取0，1，2。

所述编码部分中的注意力编码单元，具体来说，将t₃作为输入，依次进行两次空洞门控注意力、批归一化、二倍最大池化以及GELU激活函数操作，将上述两次的特征图输出记作t₄，t₅，之后对t₅再进行一次空洞门控注意力和GELU激活函数操作，得到编码部分的输出结果，记作Out₆；通过公式表示如下：

t_i+1＝GELU(MaxPool(BN(DGA(t_i))))

Out₆＝GELU(DGA(t₅))

其中，DGA表示空洞门控注意力模块，BN表示批归一化操作，MaxPool表示二倍最大池化，GELU为激活函数，并且在此处，i取3，4。

所述解码部分中的注意力解码单元，具体来说，将Out₆以及t₃，t₄，t₅作为输入；首先，对Out₆进行空洞门控注意力、批归一化以及GELU激活函数操作，再和t₅进行逐元素相加操作，得到特征图Out₅；对特征图Out₅进行空洞门控注意力、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₄进行逐元素相加操作，得到特征图Out₄；对特征图Out₄进行空洞门控注意力、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₃进行逐元素相加操作，得到特征图Out₃，作为输出；通过公式表示如下：

其中，DGA表示空洞门控注意力模块，BN表示批归一化操作，Up表示二倍线性插值上采样，GELU为激活函数，

表示逐元素相加操作，并且在此处.i取3，4。

所述解码部分中的普通解码单元，具体来说，将特征图Out₃以及t₁，t₂作为输入；对特征图Out₃进行卷积核尺寸为3的二维卷积、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₂进行逐元素相加操作，得到特征图Out₂；对特征图Out₂进行卷积核尺寸为3的二维卷积、批归一化、二倍线性插值上采样以及GELU激活函数操作，再和t₁进行逐元素相加操作，得到特征图Out₁；对特征图Out₁进行卷积核尺寸为1的二维卷积以及二倍线性插值上采样操作，将特征图尺寸恢复到和数据标签相同，得到特征图Out；最后，再使用Sigmoid激活函数对特征图Out进行激活，得到最终的预测结果；通过公式表示如下：

Out＝σ(Up(Conv2d_1*1(Out₁)))

其中，Conv2d_3*3表示卷积核尺寸为3的二维卷积操作，BN表示批归一化操作，Up表示二倍线性插值上采样，GELU为激活函数，

表示逐元素相加操作，Conv2d_1*1表示卷积核尺寸为1的二维卷积操作，σ表示Sigmoid激活函数，并且在此处，i取1，2。

所述注意力编码单元和注意力解码单元中的空洞门控注意力模块，具体来说，该模块由两个子单元构成，分别是分裂空洞卷积单元以及门控注意力单元；首先是分裂空洞卷积单元，对输入特征图x_i在通道维度上进行分裂，等分为四份，得到分裂后的特征图

再分别通过卷积核尺寸为3但拥有不同空洞率的深度卷积，从而获取到全局(通过空洞率为5和7的深度卷积来获取)以及局部(通过空洞率为1和2的深度卷积来获取)的特征信息，由此得到特征图

之后，在通道维度上对

进行拼接操作，将特征图尺寸复原，后接一个卷积核尺寸为1的二维卷积操作得到特征图x′_i，此操作能使全局信息和局部信息进行交互；接下来，进入到门控注意力单元，通过两个卷积核尺寸为3的深度可分离卷积对输入特征图x′_i进行操作，其中一个后接Sigmoid激活函数来生成注意力图Att，另一个和所生成的注意力图Att进行逐元素相乘操作，后接一个卷积核尺寸为3的深度可分离卷积操作，得到特征图

此操作能使特征信息中不重要的部分被抑制，使模型关注于重点信息部分；然后，对输入特征图x′_i进行一个卷积核尺寸为1的二维卷积操作，得到特征图

最后，将特征图

和

进行逐元素相加操作，得到输出特征图x_o；通过公式表示如下：

Att＝σ(DW_3*3(x′_i))

其中，Chunk₄表示将输入特征图在通道维度上均分为四份，W_d＝i表示空洞率为i且卷积核尺寸为3的深度卷积操作，Concat表示将特征图在通道维度上进行拼接，Conv2d_1*1表示卷积核尺寸为1的二维卷积操作，DW_3*3表示卷积核尺寸为3的深度可分离卷积操作，σ表示Sigmoid激活函数，⊙代表逐元素相乘操作，

表示逐元素相加操作。

通过在S4中，对本发明所提出的DGA-UNet轻量化模型在所述训练集上进行训练，可得到训练完成后的训练权重。

在模型训练的过程中，使用的优化器为AdamW优化器，学习率调整策略为余弦退火，训练epoch数为300，Batch-size为8，初始学习率为0.001，所有实验均在单卡NVIDIA2080Ti上进行，使用Pytorch架构来对模型进行构建，使用Sklearn架构来对模型表现进行评价，保存在测试集上表现最佳的模型作为最终模型权重。

在模型训练过程中所使用的损失函数表达式如下：

L_BceDice＝λ₁L_Bce+λ₂L_Dice

其中，N表是样本总数，y_i为真实标签，p_i为模型预测值；|X|和|Y|分别表示真实掩膜和预测值；λ₁和λ₂分别表示加权权重，在本实施例中默认这两个权重均取1。

将训练好的模型进行测试，测试所使用的评价指标有：F1得分(DSC)、准确度(Acc)、灵敏度(Sen)、特异度(Spe)以及平均交并比(mIoU)，其表达式如下：

其中，TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。

在ISIC18数据集上的测试结果如表1所示。

表1在ISIC18测试集上的分割结果

由表1的结果，可以看出，本发明的DGA-UNet轻量化模型通过将部分卷积操作替换成本发明所提出的空洞门控注意力模块之后，相较于UNet模型，在mIoU指标上提升了1.26％，在DSC指标上提升了0.88％，在Acc指标上提升了0.28％，在Sen指标上提升了2.39％，使得模型在分割表现上得到了全面的提升，同时，本发明的DGA-UNet轻量化模型相较于UNet模型，在参数量上减小了97倍，在计算量上减小了230倍，极大地减小了模型的参数量、计算量，使模型在实际临床情境下进行医学图像分割成为了可能。

在本实施例中，通过图6对测试样本的可视化，可以更加清楚地看出，本发明所提出DGA-UNet轻量化模型能够提供更加完整、更加精确的分割结果。

本发明提供了一种基于空洞门控注意力的图像分割方法，在本发明中，我们提出了空洞门控注意力模块，并且提出了本发明的DGA-UNet轻量化模型，与现有技术相比，我们的方法使模型在参数量、计算量极大地减小的前提下，还能够提升模型在医学图像分割任务中的表现。

图7为本发明实施例提供的基于空洞门控注意力的图像分割装置，如图7所示，本发明实施例还提供了一种基于空洞门控注意力的图像分割装置，该装置包括：获取模块71和处理模块72；

获取模块71：用于获取第一图像数据；

处理模块72，用于将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果，所述空洞门控注意力模型包括两个部分：编码部分和解码部分；其中，所述编码部分包括普通编码单元和注意力编码单元；所述解码部分包括注意力解码单元和普通解码单元；所述普通编码单元、所述注意力编码单元、所述注意力解码单元以及所述普通解码单元依次连接。

该基于空洞门控注意力的图像分割装置的实现方式与技术效果与上述图1-图6所示实施例的实现方式与技术效果类似，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的基于空洞门控注意力的图像分割方法。

以上对本发明的实施方法做出了详细阐述，但是本发明并不局限于上述的实施方式。对于该领域的技术人员来讲，在不偏离本发明原理和方法的情况下，对这些实施例进行不同的变化、替换、修改或是变形，仍然均处于本发明的保护范围之内。

Claims

1.一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，包括：

获取第一图像数据；

所述编码部分包括普通编码单元和注意力编码单元；

所述解码部分包括注意力解码单元和普通解码单元；

2.根据权利要求1所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述将所述第一图像数据通过空洞门控注意力模型进行分割处理，获得分割结果之前，还包括：

3.根据权利要求2所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述编码部分中的普通编码单元，包括：

将所输入的所述第一图像数据记作t₀，对其依次进行三次卷积核尺寸为3的二维卷积、批归一化、二倍最大池化以及GELU激活函数操作，将上述三次的特征图输出记作t₁,t₂,t₃，之后将t₃作为所述注意力编码单元的输入。

4.根据权利要求3所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述编码部分中的注意力编码单元，包括：

将t₃作为输入，依次进行两次空洞门控注意力、批归一化、二倍最大池化以及GELU激活函数操作，将上述两次的特征图输出记作t₄,t₅，之后对t₅再进行一次空洞门控注意力和GELU激活函数操作，得到编码部分的输出结果Out₆。

5.根据权利要求4所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述解码部分中的注意力解码单元，包括：

将所述Out₆以及t₃,t₄,t₅作为输入，对Out₆进行空洞门控注意力、批归一化以及GELU激活函数操作，将操作的结果再和t₅进行逐元素相加操作，得到特征图Out₅；

6.根据权利要求5所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述解码部分中的普通解码单元，包括:

将所述特征图Out₃以及t₁,t₂作为输入；

7.根据权利要求4、5所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述注意力编码单元和注意力解码单元中的空洞门控注意力，包括：

在通道维度上对

进行拼接操作,将特征图尺寸复原，后接一个卷积核尺寸为1的二维卷积操作得到特征图x′_i，以使全局特征信息和局部特征信息进行交互；

最后，将特征图

和

进行逐元素相加操作，得到输出特征图x_o。

8.根据权利要求6所述的一种基于空洞门控注意力的轻量化图像分割方法，其特征在于，所述获得分割结果之后，还包括：

9.一种基于空洞门控注意力的轻量化图像分割装置，其特征在于，包括：

获取模块，用于获取第一图像数据；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于空洞门控注意力的图像分割方法。