CN117635625A

CN117635625A - 基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法

Info

Publication number: CN117635625A
Application number: CN202311785716.2A
Authority: CN
Inventors: 余宙; 陈仕仲; 赵小明; 张石清
Original assignee: Hangzhou Dianzi University; Taizhou University
Current assignee: Hangzhou Dianzi University; Taizhou University
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-01

Abstract

本发明公开了一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，包括：构建样本集，使用医学图像自动数据增强策略扩充样本，训练多注意力辅助UNet模型至模型收敛，更新并保存最优参数权重；并利用训练后的模型进行胰腺肿瘤分割图；多注意力辅助UNet模型包括：辅助UNet，用于输出原始图像的辅助掩码预测图像的同时，为主UNet提供多尺度特征；特征强化层，用于基于辅助掩码预测图像强化原始图像中的相关特征；主UNet，用于以特征强化图为输入，结合多尺度特征输出主掩码预测图像；特征拼接层，将辅助和主掩码预测图像进行拼接后，通过卷积调整通道，得到原始图像的最终分割结果；各UNet内、辅助UNet与主UNet间均设置有不同的注意力机制模块层。

Description

基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法

技术领域

本发明属于医学图像分割技术领域，尤其涉及一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法。

背景技术

胰腺肿瘤是一种世界范围内普遍存在且五年生存率较低、预后较差的消化道肿瘤，其发病率和死亡率近年来有明显上升。胰腺肿瘤临床症状隐匿且不典型，是诊断过程中存在很大困难的消化道恶性肿瘤，这导致胰腺癌早期的确诊率不高，在初次诊断及后续诊断中经常误诊，从而延误患者治疗癌症的最佳时机，使得肿瘤发展到中晚期，患者病情迅速恶化。

在临床上的胰腺肿瘤影像学筛查中，计算机断层扫描(CT)是一种常见且有效的成像技术辅助诊断工具，特别是在静脉内注射造影剂的增强CT，其提供的高分辨率图像可以显示胰腺结构和异常病变。然而，在实际的胰腺肿瘤医学筛查的图像分析中，由于胰腺深埋在腹腔中心，且病变存在多样性和复杂性，放射科医生在准确检测和分析胰腺肿瘤方面存在较大的困难，这导致胰腺癌的早期确诊率较低。因此，临床上迫切需要一种计算机辅助系统来辅助诊断胰腺肿瘤，以协助医生在临床实践中可以早期发现肿瘤并制定合适的治疗方案。

深度学习是机器学习领域中一个新的研究方向，它模仿人脑神经网络的结构和功能，通过多层次的神经网络进行数据学习和模式识别。深度学习的目的是学习样本数据的内在规律和表示层次，让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习可以应用于医学影像分析，通过训练深度学习模型，自动识别和定位人体器官和肿瘤在超声图像、MRl或CT扫描等医学影像中的特征，深度学习模型可以学习从这些影像中提取有关肿瘤形态、大小、位置等信息，并帮助医生进行准确的诊断。当前，应用于图像分割的深度学习方法有CNN和Transformer两种，其中应用于医学图像分割方向的代表性方法主要是基于CNN或Transformer的UNet和UNet的各种变体如Attention-UNet、TransUNet、Swin-U Net等。

在除胰腺和管腔类结构外的大部分人体器官和大部分器官肿瘤分割方面，传统的深度学习医学图像分割方法已经取得较高的分割精度。但是，因为胰腺肿瘤数据集病例数较少，目前用于增加训练集样本量的自动数据增强策略也不太适用于医学图像，并且胰腺肿瘤不同病例间形变比较大，病灶边界不清晰。因此，现有的深度学习方法用于胰腺肿瘤分割时相对来说还存在一些不足之处：

(1)传统用于增加训练集样本量的自动数据增强策略主要设计用于自然图像，对医学图像而言并不适配，并且大部分自动数据增强方法最初也是针对图像分类任务设计的，因此目前缺乏一种适用于医学图像分割的自动数据增强策略；

(2)基于传统UNet及其变体的方法不能克服胰腺肿瘤不同病例间形变较大、病灶边界不清晰的问题，在胰腺肿瘤图像分割领域取得的性能比较有限。

发明内容

本发明的目的在于提供一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，以解决背景技术中提出的问题。

为实现上述目的，本发明提供技术方案如下：

一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法所述方法包括以下步骤：

步骤1，基于不同胰腺肿瘤患者的病例样本数据及其对应标签构建样本集；

步骤2，使用医学图像自动数据增强策略扩充样本集；

步骤3，基于扩充样本集训练多注意力辅助U N et模型至模型收敛，更新并保存最优参数权重；

步骤4，获取待分割的病例样本数据，并利用训练后的多注意力辅助U N et模型获取胰腺肿瘤分割图；

其中，所述多注意力辅助UNet模型包括：

辅助UNet，用于输出原始图像的辅助掩码预测图像的同时，为主UNet提供多尺度特征；

特征强化层，用于基于辅助掩码预测图像强化原始图像中的相关特征；

主U Net，用于以特征强化图为输入，结合辅助UNet提供的多尺度特征输出主掩码预测图像；

特征拼接层，将辅助掩码预测图像和主掩码预测图像进行拼接后，通过卷积调整通道，得到原始图像的最终分割结果；

各UNet内、辅助UNet与主UNet间均设置有不同的注意力机制模块层。

优选地，所述特征强化层将辅助掩码预测图像和原始图像点乘后，将点乘结果原始图像相加，得到特征强化图。

优选地，所述辅助UNet提供的多尺度特征分别通过注意力机制层后，与主UNet解码器输出的同尺度特征跳跃连接。

优选地，所述辅助UNet、主UNet中，通过编码器输出的特征经多头自注意力模块层处理。

优选地，所述主UNet的编码器与解码器的跳跃连接中设置有残差注意力门控模块层，该残渣注意力门控模块层的输入为主UNet的编码器输出的多尺度特征及解码器中经过上采样处理后对应尺度的特征。

优选地所述医学图像自动数据增强策略为随机使用一种限定组合方式从像素增强空间和空间增强空间中分别进行数据增强操作的随机采样。

优选地，所述像素增强空间的数据增强操作包括亮度调整、对比度调整、色调分离、图像锐化、高斯模糊和高斯噪声。

优选地，所述空间增强空间的数据增强操作包括旋转、水平翻转、垂直翻转、缩放、x轴平移、y轴平移、x轴剪切和y轴剪切。

与现有技术相比，本发明有益效果为：

本发明使用适用于医学图像分割任务的自动数据增强策略扩充样本集，防止模型因没有足够样例概括可区分特征而导致模型容易产生过拟合问题的出现；同时，本发明的多注意力U N et模型通过使用辅助U Net分支为主UNet提供更丰富的多尺度信息和强化原始图像相关特征，并使用多种不同形式的注意力机制来分别获取输入图像不同维度语义空间和局部的信息，以克服胰腺肿瘤病灶形变大、边界不清晰的问题。

附图说明

图1为本发明方法的流程图；

图2为本发明方法中的医学图像自动数据增强策略图；

图3为本发明方法模型总体框图；

图4为本发明方法的MHSA模块原理图；

图5为本发明方法的CBAM模块原理图；

图6为发明方法的RAG模块原理图；

图7为本发明方法同UNet及UNet变体模型的分割指标对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明提供一种技术方案：一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，该方法包括4个步骤：

步骤1，基于不同胰腺肿瘤患者的病例样本数据及其对应分割标签构建样本集，其中每位患者的病例样本数据由3个时期(动脉期、门脉期和实质期)中的至少一个时期的增强CT图像构成，分割标签即为分割图像；不同时期的增强CT图像都有其对应的分割标签，也即一一对应关系。

一般情况下，计算机断层扫描(CT)是目前诊断胰腺肿瘤最佳的无创性影像检查方法。平扫CT可显示病灶的大小、部位，但不能准确定性诊断胰腺病变，对肿瘤与周围结构关系的显示能力较差；而增强CT检查有助于发现胰腺占位性病变，并且可以较好地显示胰腺肿物的大小、部位、形态、内部结构及与周围结构的关系。

这里，采集103位胰腺实性假乳头状瘤患者的共计241张患者腹部增强CT图像，及其对应的分割标签。为了直观了解本发明中多注意力辅助UNet模型的分割性能，将病例样本数据及其对应分割标签以患者为最小单位按7：3的比例划分出训练集和测试集，仅使用训练集进行训练，其中训练集中的腹部增强CT图像数量为169张，测试集的腹部增强CT图像数量为72张。

步骤2，使用医学图像自动数据增强策略扩充样本集。

区别于传统的用于自然图像的自动数据增强方法，这里设计了一个像素增强空间和一个空间增强空间，分别包含六个和八个适合医学图像的数据增强操作，如图2所示，像素增强空间的数据增强操作包括亮度调整、对比度调整、色调分离、图像锐化、高斯模糊和高斯噪声六个数据增强操作；空间增强空间的数据增强造作包括旋转、水平翻转、垂直翻转、缩放、x轴平移、y轴平移、x轴剪切和y轴剪切八个数据增强操作。从两个增强空间中随机采样最多N个数据增强操作，其中N需要大于1，且对像素增强空间的采样数不超过一个；随机采用一种数据增强操作的组合在像素增强空间和空间增强空间中随机选择对应数量的数据增强操作，以扩充样本集。

这里设定N＝3，则有4种从像素增强空间和空间增强空间中随机采样的组合方式，分别是1+2、0+3、1+1和0+2。随机使用一种组合方式从增强空间中进行随机采样，以此来对医学图像训练集进行数据增强。如数据增强操作的组合为1+2，则从像素增强空间中随机选取一种数据增强操作、从空间增强空间中随机选取两种数据增强操作，并以这三种数据增强操作对其中一增强CT图像进行处理，不同的增强CT图像使用的数据增强操作不一定相同，但是必定包括像素增强空间中的一种和空间增强空间中的两种数据增强操作。

步骤3，基于扩充样本集训练多注意力辅助UNet模型至模型收敛，更新并保存最优参数权重。

传统的UNet包括对称的编码器和解码器，编码器和解码器中均包括4个卷积层，编码器部分实现的是特征下采样过程，解码器部分在实现特征上采样的同时，与下采样特征图进行融合，具体来说，使用跳跃连接skip-connection的方式来融合两个过程中对应位置上的特征图，使得解码器在进行上采样时能够获取到更多的高分辨率信息，进而更完善地恢复原始图像中的细节信息，提高分割精度。

本发明中的多注意力辅助UNet模型对传统的UNet进行改进，具体来说，该多注意力辅助UNet模型包括：

主UNet，用于以特征强化图为输入，结合辅助UNet提供的多尺度特征输出主掩码预测图像；

特征拼接层，将辅助掩码预测图像和主掩码预测图像进行拼接后，进行1×1卷积，得到原始图像的最终分割结果；

其中，各UNet内、辅助UNet和主UNet间均设置有不同的注意力机制模块层。

图3示出了多注意力辅助UNet模型的网络结构示意图。参照图3所示该辅助UNet、主UNet中，编码器和解码器均包括4个依次设置的卷积层，每个编码器之后均设置有多头自注意力模块层MHSA，两个UNet的编码器和解码器之间都存在着单独的跳跃连接。编码器中的第一个卷积层用于将原始图像的输入通道数从RGB三通道调整到64个通道，之后的三个卷积层中，每执行一次卷积之前都会通过最大池化层将特征图的尺寸缩小一般，执行卷积操作之后特征图的通道数扩大一倍。具体来说，本实施例中，输入模型的特征张量的初始形状为[c，h，w]＝[3，512,512]，其中c表示channel通道的数量，h表示图像的高，w表示图像的宽度。首先将特征张量输入到辅助UNet的编码器中，经过编码器中的第一个卷积层将输入从RGB三通道调整到64个通道，得到[64,512,512]的张量，然后依次输入3个设置好的卷积层，每次输入前经过一次下采样操作将特征的尺寸大小调整为原来的一半，经过每个卷积层还要将特征张量的通道数调整为原来的2倍，依次得到大小为[128,256,256]、[256,128,128]和[512,64,64]的张量，将最后[512,64,64]的张量输入多头自注意力模块层MHSA，经过MHSA处理的特征其张量大小不变。解码器中，各卷积层在每次输入前会与编码器中对应的下采样特征图进行叠加操作，再经过卷积操作对通道数进行调整，调整后经过一次上采样操作和卷积操作将特征的尺寸大小调整为原来的2倍，将特征张量的通道数调整为原来的一半，使特征张量可以进行下一次叠加操作。具体来说，经MHSA的大小为[512,64,64]特征图与编码器中第4个下采样特征图叠加后，通过卷积操作得到[512,64,64]的特征图，将该特征图执行上采样操作，得到[256,128,128]的上采样特征图，将该上采样特征图与编码器中第3个下采样特征图进行叠加操作后，通过卷积计算得到[256,128,128]；按照上述方法操作依次得到[256,128,128]、[64,512,512]的上采样特征图。

特征强化层中，辅助UNet输出的辅助掩码预测图像将同输入的原始图像相乘后再与其相加，得到特征强化图以强化原始图像中的相关特征，其大小为[2，64,512，512]；特征强化图将会作为主UNet的输入，而主UNet的编码器和解码器的上、下采样操作和卷积操作同辅助UNet相同，但其解码器部分每一层除了需要跟编码器的多尺度特征作叠加操作外，还需要跟辅助UNet各个卷积层卷积处理后的特征作叠加操作；主UNet编码器和解码器每一单独的跳跃连接中均设置有残差注意力门控模块层RAG，其输入是主UNet编码器的多尺度特征及解码器中经过上采样处理后对应相同尺寸大小的特征；辅助UNet编码器各个卷积层卷积处理后的特征会经卷积注意力模块层CBAM处理后输入到主UNet解码器对应特征尺寸的各层中，为主UNet提供更丰富的多尺度信息；模型最后部分的特征拼接层中辅助UNet输出的辅助掩码预测图像会与主UNet输出的主掩码预测图像进行叠加并通过1×1的卷积调整通道，得到最后的分割结果。

多头自注意力模块MHSA由多个头的自注意力函数组成，将输入的图像深层特征进行″嵌入″(Embedding)处理，将高维的特征转换为向量形式，再考虑到绝对的上下文信息，将位置编码添加到嵌入特征中。参照图4所示，嵌入特征经过三个嵌入矩阵(分别表示为W_q、W_k和W_v)处理后，分别得到具有相同大小的查询矩阵Q、键矩阵K和值矩阵V，查询矩阵Q和键矩阵K的转置矩阵K^T作矩阵乘法后再经过SoftMax处理后得到二维注意力矩阵，该注意力矩阵与值矩阵V作矩阵乘法后经过重塑(Reshape)处理后得到新的特征。MHSA的主要目标是将最高级特征图中的每个元素与其他元素相连接，从而提供包含整个输入图像的感受野，使新的特征包含从图像中提取的长距离结构信息。

卷积注意力模块CBAM的目标是通过通道注意力和空间注意力的复合使用聚焦于辅助UNet提供的多尺度特征的有效局部信息。参照图5，CBAM模块会沿着通道和空间两个独立的维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化。卷积层输出的特征，会先通过一个通道注意力模块，得到加权结果之后，会再经过一个空间注意力模块，最终进行加权得到结果。

通道注意力模块是将输入的特征图分别经过基于宽度和高度的全局最大池化(MaxPool)和全局平局池化(AugPool)，然后分别经过MLP,将MLP输出的特征进行基于逐元素的加和操作，再经过Sigmoid激活操作，生成最终的通道注意力特征图，通道注意力特征图表达式如下：

M_C(F)＝Sigmoid(MLP(AugPool(F))+MLP(MaxPool(F)))

将该通道注意力特征图和输入特征做基于逐元素的乘法操作，生成空间注意力模块需要的输入特征。

空间注意力模块将上面输出的特征图作为本模块的输入特征图，首先故一个基于通道的全局最大池化和全局平局池化，然后将这2个结果基于通道做叠加操作，并经过一个卷积核大小为7x7的卷积操作使其降维为1个通道再经过Sigmoid生成空间注意力特征图，空间注意力特征图表达式如下：

M_S(F)＝Sigmoid(f^7×7([MLP(AugPool(F))；MLP(MaxPool(F)]))

最后将该特征图和该模块的输入特征做乘法，得到最终生成的特征。

残差注意力门控模块RAG的目的是抑制输入图像中的不相关区域，同时突出特定局部区域的显著特征。参照图6，其中的编码器特征同解码器特征通过1×1卷积调整通道后作加运算，将两部分特征中相同的感兴趣区域的信号加强，其他区域作为辅助或是补充，在经过ReLU、Sigmoid处理后得到注意力权重图，权重图与编码器输入的特征相乘后作加法处理，强化特定局部区域的显著部分。这种特性有助于应对目标器官在形状和大小方面表现出较大的患者间差异的情况，即有助于克服胰腺肿瘤的病灶形变大、边界不清晰的问题。

本发明步骤3中，训练时选取的优化器为均方根梯度传播方法(Root Mean SquarePropagation，RMSprop)，优化器的学习率(Learning Rate)为0.00001，动量(Momentum)为0.9，权重衰减(Weight Decay)为1e-8，使用一个用于二分类问题的结合了Sigmoid函数和二元交叉熵损失的损失函数BCEWithLogitsLoss。在训练过程中，保存损失函数为最小值时的参数权重，迭代更新至训练结束，此为本领域常规技术手段，在此不做赘述。

这里为了便于直观了解该训练后的多注意力辅助UNet模型的性能将测试集中的每一肺部增强CT图像输入到训练后的多注意力辅助UNet模型中，输出测试集中对应的掩码预测图像；使用所用掩码预测图像和测试集中对应的标签来计算该模型评价指标如图7所示，包括Dice相似系数(DSC)、平均交并比(mloU)、95％豪斯多夫距离(HD95)、阳性预测值(PPV)和真阳性率(TPR)；其中，DSC和mloU用于衡量预测分割结果与真实标签的相似度与重叠程度；而PPV为分割结果中被正确标记为阳性(正类)的像素与所有被标记为阳性的像素之间的比例；TPR为分割结果中被正确标记为阳性(正类)的像素与所有实际为阳性的像素之间的比例；HD95即95％豪斯多夫距离用于衡量图像分割结果与真实标签之间的差异，它计算了分割结果与真实标签之间的最大距离，但只考虑了距离值的前95％的数据点。这些指标在图像分割任务中被广泛使用，用于量化分割算法的性能和准确性，且不同的指标关注分割模型不同方面的性能，这里通过综合使用以提供对分割结果的全面评估。

将上述基于测试集获得的本发明模型评价指标与其他五个医学图像分割的基准模型评价指标进行对比可知，本方法在该胰腺肿瘤数据集上取得了相比于其他医学图像分割基准模型更好的性能，即DSC、mloU、HD95、PPV和TPR分别达到了0.869、0.796、14.70、0.893和0.888，其中DSC、mloU、TPR三个指标在同其他基准模型相比取得了最优。

步骤4，获取待分割的病例样本数据，并利用训练后的多注意力辅助U N et模型获取胰腺肿瘤分割图。

本发明步骤4中，这里的病例样本数据包括至少一个时期的增强CT图像，将每一增强CT图像分别输入到训练后的多注意力辅助UNet模型中，会获得其对应的分割图像。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于自动数据增强策略和多注意力辅助U N et的胰腺肿瘤分割方法，其特征在于，所述方法包括以下步骤：

步骤2，使用医学图像自动数据增强策略扩充样本集；

其中，所述多注意力辅助UNet模型包括：

主U N et，用于以特征强化图为输入，结合辅助U N et提供的多尺度特征输出主掩码预测图像；

2.如权利要求1所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述特征强化层将辅助掩码预测图像和原始图像点乘后，将点乘结果原始图像相加，得到特征强化图。

3.如权利要求2所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述辅助U N et提供的多尺度特征分别通过注意力机制层后，与主UNet解码器输出的同尺度特征跳跃连接。

4.如权利要求2所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述辅助UNet、主UNet中，通过编码器输出的特征经多头自注意力模块层处理。

5.如权利要求2所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述主UNet的编码器与解码器的跳跃连接中设置有残差注意力门控模块层，该残渣注意力门控模块层的输入为主UNet的编码器输出的多尺度特征及解码器中经过上采样处理后对应尺度的特征。

6.如权利要求1所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述医学图像自动数据增强策略为随机使用一种限定组合方式从像素增强空间和空间增强空间中分别进行数据增强操作的随机采样。

7.如权利要求6所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述像素增强空间的数据增强操作包括亮度调整、对比度调整、色调分离、图像锐化、高斯模糊和高斯噪声。

8.如权利要求6所述的一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法，其特征在于，所述空间增强空间的数据增强操作包括旋转、水平翻转、垂直翻转、缩放、x轴平移、y轴平移、x轴剪切和y轴剪切。