CN114445420B

CN114445420B - 编解码结构结合注意力机制的图像分割模型及其训练方法

Info

Publication number: CN114445420B
Application number: CN202111657224.6A
Authority: CN
Inventors: 陈祖国; 黄贺俊; 陈超洋; 卢明; 吴亮红; 张徐卓; 唐志强
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-07-26
Anticipated expiration: 2041-12-31
Also published as: CN114445420A

Abstract

本发明公开了一种编解码结构结合注意力机制的图像分割模型，包括编码模块、解码模块、编解码连接模块、像素分类层；编码模块包括多个串接的编码单元，解码模块包括多个与编码单元一一对应的解码单元，编解码连接模块用于连接编码模块与解码模块，像素分类层用于为每个像素独立的产生类别概率，得到图像分割结果。本发明的图像分割模型结合SegNet在局部环境信息进行建模的优势和Transformer在学习全局语义关联上的优势，通过加强全局语义关联以改善SegNet在数据集较小时易过拟合的局限性，同时提升了网络分割性能。

Description

编解码结构结合注意力机制的图像分割模型及其训练方法

技术领域

本发明涉及视觉图像处理领域，特别涉及一种编解码结构结合注意力机制的图像分割模型及其训练方法。

背景技术

图像分割是图像识别和计算机视觉的重要组成部分，在各领域中具有广阔的应用场景。在计算机视觉领域，图像分割技术经过长时间的发展可以归纳为两大类：一是基于人工提取特征的传统图像分割方法，二是基于深度学习提取特征的图像分割方法。

基于人工提取特征的图像分割方法如基于阈值的图像分割方法、基于边缘检测的图像分割方法、基于区域的图像分割方法等，但传统算法仅针对特定图像形式且大多存在人为偏差。

深度学习可以从多层网络结构中学习目标特征，其中，卷积神经网络(convolutional neural network，CNN)在各种图像处理问题上都有不错的表现。基于CNN基础上的全卷积网络(fully convolutional network，FCN)及在FCN基础上演变出的其他变体网络(如SegNet和U-Net网络)在图像分割任务中都能获得了更好的效果。SegNet在分割精度和训练效率上优于U-Net，但需要较多的训练数据，否则容易出现过拟合导致测试结果不理想。因而在数据量较小的生物医学图像分割领域常使用U-Net网络。

Transformer是由Vaswani等人提出的，用于机器翻译，此后成为许多自然语言处理(natural language processing，NLP)任务中最先进的方法。近期，Transformer用于视觉图像处理且取得了出色的结果。相关工作证明，当对大量数据进行预训练并迁移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时，与先进的卷积网络相比，Transformer获得了出色的结果，同时需要大量的计算资源来训练。

现有的SegNet网络可以充分利用图像的局部信息，具有较高的分割精度和训练效率，在多类分割任务中应用广泛，但通常需要较大的训练数据，否则容易过拟合。SegNet是基于卷积层构建的。如图1所示，SegNet网络结构是具有对称结构的编解码网络。编解码模块各有5个紧密块，13个卷积层。每个卷积层均为3×3卷积层，卷积后进行批归一化，激活层使用整流线性单元(ReLU)作为激活函数。编码紧密块之间由最大池化块连接，最大池化块的池化大小为2×2，步长为2，最大池化块保留池化索引传递给上采样块。每进行一次最大池化，特征图分辨率减小一倍，卷积层的深度增加一倍。解码紧密块之间由上采样块连接，上采样块的采样大小为2×2，步长为2，上采样操作以最大池化块传递的池化索引进行。每进行一次上采样，特征图分辨率增加一倍，卷积层深度减小一倍。解码模块还原特征图为输入图像大小，经过像素分类层，生成最终分割结果。

Transformer在图像处理的应用主要使用的是Transformer的编码部分。如图2所示，输入图像被切分并展平为若干个图像块，经输入嵌入操作后由3通道图像变为1通道图像，每个图像块按元素加入位置向量后，再给输入图像拼接一个与图像块相同大小的学习嵌入向量，经过若干层Transformer编码层后，图像尺寸不变，后经分类头输出。Transformer层由多头自注意力层和前馈神经网络层构成，在每个层前应用层归一化，每个层后应用残差连接。多头自注意力层用于将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息；前馈神经网络层包含两个全连接层，第一个全连接层将特征维度变为4倍，第二个全连接层将特征维度恢复，前馈神经网络层所包含的非线性激活函数均采用高斯误差线性单元(Gaussian Error Linear Unit,GeLU)，整个前馈神经网络层相当于一个多层感知机。

发明内容

为了解决上述技术问题，本发明提供一种能够改善SegNet在数据集较小时易过拟合的局限性的编解码结构结合注意力机制的图像分割模型，并提供其训练方法。

本发明解决上述问题的技术方案是：一种编解码结构结合注意力机制的图像分割模型，所述图像分割模型采用编解码结构，包括编码模块、解码模块、编解码连接模块、像素分类层；

所述编码模块包括若干个串联的编码单元，除最后一个编码单元外每个编码单元包括依次连接的编码紧密块和最大池化块，最后一个编码单元仅有编码紧密块，每个编码紧密块对当前编码单元的输入进行特征提取，得到对应的编码稠密输出；所述编码稠密输出经过最大池化块进行最大池化后得到当前编码单元的输出，并将其作为下一编码单元的输入；所述最大池化块进行最大池化时保留池化索引；

所述解码模块包括多个与所述编码单元一一对应的解码单元，除第一个解码单元外每个解码单元包括上采样块和解码紧密块第一个解码单元仅有解码紧密块，每个解码紧密块对当前解码单元的输入进行特征提取，得到对应的解码稠密输出；所述解码稠密输出经过上采样块进行上采样得到当前解码单元的输出，并将其作为下一解码单元的输入；每个所述上采样块以对应编码单元的池化索引进行上采样，上采样过程中，将池化索引处的值直接填回原处，其余地方补0；第一解码单元的输入为所述编解码连接模块的输出；其余解码单元的输入为上一解码单元的输出经过所述上采样块的上采样后得到；

所述编解码连接模块的输入端连接所述编码模块，输出端连接所述解码模块，对最后一个编码单元的输出进行特征提取后，得到编解码连接模块的输出，并将其输入至第一个解码单元；

所述像素分类层连接解码模块的输出端，像素分类层的输入为所述解码模块的输出，所述像素分类层为每个像素独立的产生类别概率，得到图像分割结果。

上述编解码结构结合注意力机制的图像分割模型，所述编码紧密块与解码紧密块的结构相同，均采用紧密块；所述紧密块包括若干个卷积层；卷积层用于对紧密块的输入进行逐层提取；每个卷积层的输入为前一卷积层的输出；

所述卷积层，包含卷积操作、归一化和激活函数；

所述卷积操作，用于对卷积层的输入进行特征提取；

所述归一化，用于对所述卷积层输出的分布归一化；

所述激活函数，用于在所述卷积层中来为网络引入非线性变化。

上述编解码结构结合注意力机制的图像分割模型，所述编解码连接模块包括依次连接的线性投影块、位置编码块、若干个Transformer层和特征映射块；

线性投影模块用于将编码模块的输出进行投影；

所述位置编码块用于对Transformer层的输入进行位置编码；

所述Transformer层的输入为所述编码模块的输出经过线性投影模块投影后与所述位置编码块的位置信息相加后得到；

所述特征映射块用于对Transformer层的输出进行特征映射以恢复投影前的结构；

所述Transformer层的输出经过所述特征映射块特征映射后作为编解码连接模块的输出。

上述编解码结构结合注意力机制的图像分割模型，所述Transformer层包括依次连接的多头自注意力层和前馈神经网络层，每个多头自注意力层前应用层归一化，每个多头自注意力层后应用残差连接，每个前馈神经网络层前应用层归一化，每个前馈神经网络层后应用残差连接；

所述多头自注意力层，用于将模型分为多个头，形成多个子空间；

所述前馈神经网络层包含两个全连接层，第一个全连接层将特征维度变为4倍，第二个全连接层将特征维度恢复，前馈神经网络层所包含的非线性激活函数均采用高斯误差线性单元，整个前馈神经网络层相当于一个多层感知机。

一种编解码结构结合注意力机制的图像分割模型的训练方法，包括：

(1)将图像样本数据集按照预设的比例划分为训练集、验证集和测试集；

(2)对图像分割模型权重进行初始化，利用训练集对初始化后的图像分割模型进行迭代训练，不断更新模型的权重，得到最新权重的图像分割模型；

(3)利用验证集对最新权重的图像分割模型进行验证，继续更新图像分割模型的权重，对已训练的权重进行调整，直至模型收敛，将此时的图像分割模型参数作为最终的模型参数用于图像分割。

上述编解码结构结合注意力机制的图像分割模型的训练方法，所述步骤(2)中，采用归一化加随机初始化方法来初始化图像分割模型的权重。

上述编解码结构结合注意力机制的图像分割模型的训练方法，所述步骤(2)中，训练方法的损失函数L_dice表示为：

其中，N为图像像素点的个数，g_i为第i个正确分割图像的像素值，t_i为第i个训练出的图像的像素值。

上述编解码结构结合注意力机制的图像分割模型的训练方法，所述步骤(2)中，权重更新规律表示为：

其中，表示现在第k层的权重，表示上一次训练时第k层的权重，η表示学习率，表示损失函数对第k层权重求偏导。

本发明的有益效果在于：本发明的图像分割模型结合SegNet在局部环境信息进行建模的优势和Transformer在学习全局语义关联上的优势，通过加强全局语义关联以改善SegNet在数据集较小时易过拟合的局限性，同时提升了网络分割性能。

附图说明

图1为现有SegNet网络模型的整体结构示意图。

图2为现有Transformer模型的编码部分结构示意图。

图3为本发明的图像分割模型的整体结构示意图。

图4为BraTS2019的原始图像和分割结果。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

如图3所示，本申请提供了一种编解码结构结合注意力机制的图像分割模型，采用编解码结构，包括编码模块、解码模块、编解码连接模块、像素分类层；

在本实施例中，编码模块包括5个串联的编码单元，除最后一个编码单元外每个编码单元包括依次连接的编码紧密块和最大池化块，最后一个编码单元仅有编码紧密块；每个编码紧密块对当前编码单元的输入进行特征提取，得到对应的编码稠密输出；编码稠密输出经过最大池化块进行最大池化后得到当前编码单元的输出，并将其作为下一编码单元的输入；最大池化块进行最大池化时会保留池化索引；4个最大池化块池化大小均为2×2，步长为2。

解码模块包括5个与编码单元一一对应的解码单元，本申请中第i个编码单元与第N+1-i解码单元一一对应，其中，N表示编码单元(解码单元)各自的数量。本实施例中，编码单元与解码单元的数量均为5个，其中，第一解码单元与第五编码单元对应；第二解码单元与第四编码单元对应；第三解码单元与第三编码单元对应；第四解码单元与第二编码单元对应；第五解码单元与第一编码单元对应。

除第一个解码单元外每个解码单元包括上采样块和解码紧密块，第一个解码单元仅有解码紧密块，每个解码紧密块对当前解码单元的输入进行特征提取，得到对应的解码稠密输出；解码稠密输出经过上采样块进行上采样得到当前解码单元的输出，并将其作为下一解码单元的输入；每个上采样块以对应编码单元的池化索引进行上采样，上采样过程中，将池化索引处的值直接填回原处，其余地方补0；第一解码单元的输入为编解码连接模块的输出；其余解码单元的输入为上一解码单元的输出经过上采样块的上采样后得到；4个上采样块中，第五解码单元的上采样块采样大小为1×1，步长为1，其余上采样块采样大小为2，步长为2。

在本实施例中，编码紧密块、解码紧密块的结构相同，均采用紧密块，紧密块包含若干个卷积层。

卷积层均采用卷积核相同的标准卷积层，用于对紧密块的输入进行逐层提取；每个卷积层的输入为前一卷积层的输出。本实施例中将标准卷积层的卷积核的大小设为3×3。本实施例中，第一、第二编码单元的编码紧密块中卷积层数量为2，第三、第四编码单元的编码紧密块中卷积层数量为3，第五编码单元的编码紧密块中卷积层数量为4；本实施例中，第一、第二、第三解码单元的解码紧密块中卷积层数量为3，第四、第五解码单元的解码紧密块中卷积层数量为2，将网络性能调整至优选状态。

本实施例中，紧密块中所有卷积层的激活函数都是整流的线性单元(ReLu)激活函数。

编解码连接模块连接第五编码单元与第一解码单元，对第五编码单元的输出进行特征提取后，得到编解码连接模块的输出，并将其输入至第一解码单元；

所述编解码连接模块包括依次连接的线性投影块、位置编码块、4个Transformer层和特征映射块；

线性投影模块用于将编码模块的输出进行投影；

所述位置编码块用于对Transformer层的输入进行位置编码；

所述Transformer层的输入为所述编码模块的输出经过线性投影模块投影后与所述位置编码块的位置信息相加后得到；本实施例中，Transformer层序列长度为4096，嵌入维度为512。

所述Transformer层包括依次连接的多头自注意力层和前馈神经网络层，每个多头自注意力层前应用层归一化，每个多头自注意力层后应用残差连接，每个前馈神经网络层前应用层归一化，每个前馈神经网络层后应用残差连接；

所述前馈神经网络层包含两个全连接层，第一个全连接层将特征维度变为4倍，第二个全连接层将特征维度恢复，中间的非线性激活函数均采用高斯误差线性单元，整个前馈神经网络层相当于一个多层感知机。

本实施例中，编解码连接层使用了四个Transformer层，序列长度为4096，嵌入维度为512。

本发明还公开了一种用于上述图像分割模型的训练方法，包括：

(1)将图像样本数据集按照预设的比例划分训练集、验证集和测试集。具体地，将图像样本数据集进行四等分，随机选取一份作为测试集，用于后续对图像分割模型进行测试；将剩余的数据集以3:1的比例划分为训练集和验证集。

(2)采用归一化加随机初始化方法对图像分割模型权重进行初始化，利用训练集对初始化后的图像分割模型进行迭代训练，不断更新模型的权重，得到最新权重的图像分割模型。

训练方法的损失函数L_dice表示为：

权重更新规律表示为：

实验验证：

为验证本发明图像分割模型的有效性，本发明采用医学图像数据集进行图像分割实验，并对比本发明的图像分割模型(Seg-Transformer)与现有其他图像分割模型(3D U-Net、V-Net、TransBTS)在同一指标下的分割结果来说明本发明的有效性。在数据集方面，与非医学图像数据集相比，医学图像数据集的获取面临着诸多挑战，如昂贵的图像采集设备、复杂的图像获取方法、耗时的专家注释和隐私问题等。这些都增加了医学影像数据集开发的难度。

实验中使用的三维MRI数据集是由2019年脑肿瘤分割(BraTS)挑战赛提供的。它包含335例患者用于训练，125例用于验证。每个样本由四种模式的脑MRI扫描组成，即原始T1-加权(T1)、对比后T1加权(T1ce)、T2加权(T2)和流体衰减反转恢复(FLAIR)。每种模式的体积为240×240×155的体积，已被调整到同一空间。标签包含4个类别。背景(标签0)，坏死和非增强的肿瘤(标签1)，水肿(标签2)和增强的肿瘤(标签4)。分割的准确性用骰子评分(Dice score，Dice)和豪斯多夫距离(95％)(Hausdorff_95，HD)指标来衡量增强的肿瘤区域(ET，标签1)、肿瘤核心区域(TC，标签1和4)，以及整个肿瘤区域(WT，标签1、2和4)。Dice和HD的表达式如下：

其中，TP为真实值是正确的预测时分为正类的像素个数；FP为真实值是错误的预测时分为正类的像素个数；FN为真实值是错误的像素预测时分为负类的像素个数，X表示预测区域，Y表示真实区域。

图4中(a)(b)分别表示原始图像和Seg-Transformer模型对BraTS2019数据集的分割结果，可以看到Seg-Transformer模型的分割结果在分割内部和分割边缘均表现良好。

3D U-Net、V-Net、TransBTS和Seg-Transformer网络训练BraTS2019数据集所得的性能指标如表1所示。从表1可以看出，对于骰子评分指标而言，Seg-Transformer在增强的肿瘤区域(ET)、肿瘤核心区域(TC)，以及整个肿瘤区域(WT)的表现均优于其他三种网络。对于豪斯多夫距离而言，Seg-Transformer在增强的肿瘤区域(ET)、肿瘤核心区域(TC)，以及整个肿瘤区域(WT)的相较于其他三种网络均有明显的减小，这表明Seg-Transformer网络在分割边缘上的表现明显优于其他三种网络。综上所述，本文提出的Seg-Transformer在两个评价指标上都达到了最好的效果。

表1

Claims

1.一种编解码结构结合注意力机制的图像分割模型，其特征在于，所述图像分割模型采用编解码结构，包括编码模块、解码模块、编解码连接模块、像素分类层；

所述解码模块包括多个与所述编码单元一一对应的解码单元，除第一个解码单元外每个解码单元包括上采样块和解码紧密块，第一个解码单元仅有解码紧密块，每个解码紧密块对当前解码单元的输入进行特征提取，得到对应的解码稠密输出；所述解码稠密输出经过上采样块进行上采样得到当前解码单元的输出，并将其作为下一解码单元的输入；每个所述上采样块以对应编码单元的池化索引进行上采样，上采样过程中，将池化索引处的值直接填回原处，其余地方补0；第一解码单元的输入为所述编解码连接模块的输出；其余解码单元的输入为上一解码单元的输出经过所述上采样块的上采样后得到；

所述像素分类层连接解码模块的输出端，像素分类层的输入为所述解码模块的输出，所述像素分类层为每个像素独立的产生类别概率，得到图像分割结果；

所述编解码连接模块包括依次连接的线性投影块、位置编码块、若干个Transformer层和特征映射块；

线性投影模块用于将编码模块的输出进行投影；

所述位置编码块用于对Transformer层的输入进行位置编码；

所述Transformer层的输出经过所述特征映射块特征映射后作为编解码连接模块的输出；

2.根据权利要求1所述的编解码结构结合注意力机制的图像分割模型，其特征在于，所述编码紧密块与解码紧密块的结构相同，均采用紧密块；所述紧密块包括若干个卷积层；卷积层用于对紧密块的输入进行逐层提取；每个卷积层的输入为前一卷积层的输出；

所述卷积层，包含卷积操作、归一化和激活函数；

所述卷积操作，用于对卷积层的输入进行特征提取；

所述归一化，用于对所述卷积层输出的分布归一化；

3.一种用于权利要求1-2中任一项所述的编解码结构结合注意力机制的图像分割模型的训练方法，其特征在于，包括：

4.根据权利要求3所述的编解码结构结合注意力机制的图像分割模型的训练方法，其特征在于，所述步骤(2)中，采用归一化加随机初始化方法来初始化图像分割模型的权重。

5.根据权利要求3所述的编解码结构结合注意力机制的图像分割模型的训练方法，其特征在于，所述步骤(2)中，训练方法的损失函数L_dice表示为：

6.根据权利要求5所述的编解码结构结合注意力机制的图像分割模型的训练方法，其特征在于，所述步骤(2)中，权重更新规律表示为：