CN114820634A

CN114820634A - 融合SwinTransformer和CNN的肝肿瘤图像分割方法

Info

Publication number: CN114820634A
Application number: CN202210397446.7A
Authority: CN
Inventors: 艾山·吾买尔; 潘诗杰; 李冬; 早克热·卡德尔; 石瑞; 辛向哲
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-29

Abstract

本发明公开了一种融合SwinTransformer和CNN的肝肿瘤图像分割方法，涉及医学图像处理技术领域，该热粘合隐形袜的制造方法分为：裁剪、缝合、定位、粘合、冲片、缝合六步进行，该热粘合隐形袜采用弹性针织面料制造，分为袜底、袜帮、后跟点塑片和热熔胶膜四部分组成。其中袜底和袜帮作为产品主身构件，而后跟点塑片起到防脱落，防滑的作用；热熔胶膜主要用于罗口及后跟，其特征为轻薄，平整，有弹性，穿着舒适；袜帮和袜底通过数控缝纫机缝合，罗口及后跟热熔胶粘合。该热粘合隐形袜产品美观、轻薄、平整、有弹性、工序少、成本低。

Description

融合SwinTransformer和CNN的肝肿瘤图像分割方法

技术领域

本发明涉及医学图像处理技术领域，特别涉及一种融合SwinTransformer和CNN的肝肿瘤图像分割方法。

背景技术

肝肿瘤，也叫肝癌，比起良性肿瘤发生的更为普遍。在以往的临床应用中，一般都是先由医生从患者的计算机断层扫描(Computer Tomography,CT)结果中人工的去区分出肝脏与癌变区域，然后再进行后续的建模和治疗过程。但是随着数据量的爆增，人工标注的方式就显得耗时巨大和效率低下。在整个流程中还有一点不容忽视的是，只有有着丰富临床实践经验的医生才能做到精准分割。近年来常见的计算机辅助诊断方法有基于传统的图像分割方法：阈值法(Threshold)、区域生长(Region Growing)等。在机器学习方面主要用聚类算法、支持向量机(Support Vector)、AdaBoost等方法。不过，无论是传统方法还是基于一般的机器学习图像分割方法，并不是一个端到端的分割模型，提取特征都需要人工的干预，效率低下且性能不高。当面临和训练数据特征分布不一致的数据时，效果表现得不理想——准确率不高，泛化能力不强。

现有基于深度学习的分割方法比传统方法步骤更简单、效率更高、分割效果更好，但是由于标准数据资源稀少、模型表征能力有限、图像复杂度较高等问题的限制，当前的网络仍然不能达到临床所需的效果。。

发明内容

本发明所要解决的技术问题是提供一种融合SwinTransformer和CNN的肝肿瘤图像分割方法，以提高肝脏肿瘤分割精度为目标，主要用来解决传统CNN通过堆叠卷积层由浅入深获取全局信息的过程中损失信息过多，在深层并不能充分的提取出高级语义信息。

为实现上述目的，本发明提供以下的技术方案：

该融合SwinTransformer和CNN的肝肿瘤图像分割方法包括如下步骤：

(1)数据获取和基本分割模型选取:

1)数据获取。本发明所有实验使用的都是MICCAI2017和ISBI2017联合举办的肝脏肿瘤分割挑战赛(Liver Tumor segmentation challenge,LiTS)所公开的数据集。

2)基本分割模型选取。2021年国际医学图像计算和计算机辅助干预国际会议(MICCAI)上提出的分割框架TransUNet，是第一个从序列到序列预测的角度利用自注意力机制设计的医学图像分割网络，带来了较高的分割性能。因此本发明在实验部分使用TransUNet作为基础模型，在上边进行改进。

(2)数据预处理：首先通过对每一层提取变为二维图像，共得到4522张图片，分辨率都为224×224，按照7:3的比例划分为训练集、验证集。

(3)确定损失函数：采用Dice损失函数和交叉熵损失函数混合后的损失函数。详细公式如下：

L＝αL_Dice+(1-α)L_CE#(1)

(4)确定评价指标：下面所有式子中，TP和TN表示分类正确的像素点数量。FP表示为其它区域被错误的分类为目标的个数。FN表示为目标区域被错误的分类为其它区域的像素个数。

1)Dice系数(Dice Similrity Coefficient)：

2)交并比(IOU)：

3)精确率(Precision)：

4)召回率(Recall)：

(5)分割模型搭建：

1)混合编码器模块：本发明提出了一种混合编码器结构，该编码器共有两个分支所构成：CNN分支和SwinTransformer分支，每个分支都是编码器的重要组成部分。其中SwinTransformer分支作为CNN分支的一个补充。当数据送入模型进行编码时，该数据一方面会进入CNN分支，另一方面也会送入SwinTransformer分支。

2)级联解码器模块：通过混合编码器的CNN分支和SwinTransformer分支分别提取到浅层细节信息和全局语义信息后，接下来开始进入解码器进行解码操作。在解码器部分，本发明采用了全卷积神经网络中所应用的级联上采样器,它是由多个上采样步骤组成。

3)跳跃连接方式设计：本发明所提出的混合编码器本质上是利用两种不同的模型共同对数据特征进行提取，然后在后续过程中进行融合。所以在本小节中，本文将对这种存在跳跃连接中的特征融合方式重新设计和讨论。

4)融合SwinTransformer和CNN的肝肿瘤分割模型：通过对混合编码器、解码器和跳跃连接的方式进行设计后，参考TransUNet网络架构可以得到本发明的网络分割模型。首先原始输入数据要进入编码器中进行特征提取。对于编码器最终提取到的特征要输入到解码器，在解码器中不断的执行上采样操作，直到恢复到与输入图像形状大小相同，完成最终的预测。

(6)进行肝肿瘤图像分割，方法如下：

1)训练阶段和验证阶段。利用预处理好的数据对本发明提出的网络分割方法进行训练。实验是在配有1块NVIDIA GeForce GTX 3090Ti的服务器上进行的,操作系统环境为Ubuntu18.04。实验结束后，最终选取整个训练周期内Dice系数评价指标最高所对应的轮数参数作为最终权重，并得到肝肿瘤分割对应的指标参数。

2)测试阶段：首先把训练阶段得到的权重加载进入模型中，随后从验证集中随机抽取图像送进模型中进行测试，得到肝肿瘤的预测分割图。

采用以上技术方案的有益效果是：该融合SwinTransformer和CNN的肝肿瘤图像分割方法以提高肝脏肿瘤分割精度为目标，主要用来解决传统CNN通过堆叠卷积层由浅入深获取全局信息的过程中损失信息过多，在深层并不能充分的提取出高级语义信息，尤其是肿瘤区域太小在下采样过程中很容易被忽略掉。利用SwinTransformer作为CNN的辅助网络，能提取出精确地细节和全局信息，弥补小目标肿瘤特征容易损失的缺陷，进而提升肿瘤的分割精度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1为2020年全球癌症类型患病率和死亡率；

图2为本发明流程图；

图3为本发明数据预处理前后的对比图；

图4为本发明提出的混合编码器模型图；

图5为本发明最终采用的分割模型架构图；

图6为本发明肝肿瘤分割指标与其它模型对比图；

图7为本发明肝肿瘤分割的效果图。

具体实施方式

下面结合附图详细说明本发明融合SwinTransformer和CNN的肝肿瘤图像分割方法的优选实施方式。

图1至图7出示本发明融合SwinTransformer和CNN的肝肿瘤图像分割方法的具体实施方式：

(1)数据获取和基本分割模型选取:

1)数据获取：本发明所有实验使用的都是MICCAI2017和ISBI2017联合举办的肝脏肿瘤分割挑战赛(Liver Tumor segmentation challenge,LiTS)所公开的数据集。LiTS数据集数量相对较多、质量相对较高、目前使用的比较广泛。LiTS数据集共包括两个部分，第一部分为131例CT扫描训练集，第二部分为70例CT扫描测试集，其中第二部分的70例测试集不带人工标注，因此本文只使用其第一部分。

2)分割模型选取：在2021年国际医学图像计算和计算机辅助干预国际会议(MICCAI)上提出的分割框架TransUNet，是第一个从序列到序列预测的角度利用自注意力机制设计的医学图像分割网络。该网络为了克服卷积的局部性操作，将SwinTransformer引入到图像分割任务中并作为特征提取器的一部分。此外，为了克服SwinTransformer在特征提取时带来的特征分辨率损失、空间位置信息缺失和浅层特征提取不足的问题，TransUNet采用CNN和SwinTransformer混合的架构。该网络首先利用CNN来进行浅层特征提取，然后将提取到的特征划分为多个patch，接着映射为多个1D序列送入SwinTransformer中进行下一步特征提取和全局信息的建模。受UNet网络架构的启发，TransUNet同样采用U型结构，把来自CNN和SwinTransformer混合后的编码器中得到深层低分辨率的全局上下文信息进行上采样，并和来自CNN和SwinTransformer混合后的编码器中得到的浅层高分辨率空间信息特征进行跳跃连接，这样可以弥补一定的信息损失，实现精确定位。该网络利用了SwinTransformer和CNN的优点，无论是浅层的局部特征还是深层的全局特征，都能进行充分的提取。并且该网络与之前的基于CNN的自注意力机制网络方法相比，它提供了一种更好的利用自注意力机制的方法，因此本发明也基于该方法进行改进。

(2)数据预处理:首先通过对横断面的每一层利用窗口化等技术提取为二维图像，筛选后共得到5000张图片，分辨率都为448×448，按照7:3的比例划分为训练集、验证集。在预处理过程中对数据利用直方图均衡化处理和弹性形变等。此外，在训练过程中还使用了数据增强技术来扩充数据量，此方法可以增强模型的泛化能力。本发明方法采用的数据增强包括水平翻转、随机调整图像对比度等操作。

(3)确定损失函数：本课题任务中的很多肿瘤的病灶区域较小，而Dice损失函数又是对图像中的全部整体像素作为关注，即对全局信息关注更多，因此很容易忽视掉肿瘤信息。

此外，在分类任务中经常使用的是交叉熵(Cross Entropy)损失函数，如公式所示：

上式中标签值数据分布为p，预测值数据分布为q。该函数可以单独的考虑每个像素，即对图像中的全部像素评估，然后再将结果取平均值。它关注的更多是局部信息。因此本文采用将交叉熵损失和Dice损失结合后的混合损失函数，将二者按照比例进行结合，不仅能加快模型收敛，还能提升模型的性能。详细公式如下：

L＝aL_Dice+(I-α)L_CE

(4)为了更好的评估本文改进的肝脏及肿瘤图像分割方法的有效性，我们使用在图像分割领域比较常用的相关性能指标:Dice系数(Dice Similrity Coefficient)、交叉比(Intersection-over-Union,IOU)、精确率(Precision)、召回率(Recall)共四个指标来进行评估。

1)Dice系数(Dice Similrity Coefficient)，表示的是网络预测结果和真实标签间交叉部分所占全部面积的比值。其值越大，代表预测的结果越接近真实标签，即分割效果越好。

2)交并比(IOU)。表示的是网络预测出的目标区域像素个数与应该被正确分割出肝脏像素数量之间的比例。

3)精确率(Precision)，也叫查准率。描述的是网络预测出来的正确的正样本像素个数占所有预测出来的正样本总像素个数的比例。精确率高表示了网络的误检率低。

4)召回率(Recall)，也叫查全率。描述的是网络预测出来的正确像素个数占集合中所有正确的比例。召回率高表示网络的漏检率低。

上面式子中TP(True Positive)和TN(True Negative)表示分类正确的像素点数量。FP(False Positive)一般称为假阳，表示为其它区域被错误的分类为目标的个数。FN(False Negative)表示为目标区域被错误的分类为其它区域的像素个数，称为假阴。

(5)分割模型搭建：

1)混合编码器模块：首先我们对基础TransUNet进行改进，它将原图送入CNN得到层次化的特征图，最后将得到的深层特征图送入到Transformer中。和它不同的是本发明直接将原图进行切分，然后送入SwinTransformer编码器中进行全局特征的提取，这样提取到的全局特征几乎是没有损失的。但是这样仅仅是提取了全局特征，并没有得到浅层的细节信息，还需要一个CNN结构进行浅层特征的提取。因此，结合肝肿瘤分割的具体任务，为充分利用CNN和SwinTransformer的优点，本发明提出了一种混合编码器结构，该编码器共有两个分支所构成：CNN分支和SwinTransformer分支，每个分支都是编码器的重要组成部分。其中SwinTransformer分支作为CNN分支的一个补充。当数据送入模型进行编码时，该数据一方面会进入CNN分支，另一方面也会送入SwinTransformer分支。对于编码器的CNN分支来说，它和普通的CNN操作几乎一样，不同的是该分支不用为了想要获取到数据的全局语义信息而堆叠的层数过深，相反它的作用主要是利用相对较浅的堆叠层数来获取到局部的细节特征。对于SwinTransformer分支来说，和CNN分支不同，它的主要作用是利用其强大的自注意力结构来提取到数据的全局语义信息。综上，数据在整个混合编码器结构中操作进行完毕后，得到了既有浅层的局部细节信息特征，也能得到有深层的高级语义特征。两种特征用于接下来的解码和跳跃连接操作。

2)级联解码器模块：通过混合编码器的CNN分支和SwinTransformer分支分别提取到浅层细节信息和全局语义信息后，接下来开始进入解码器进行解码操作。在解码器部分，本发明采用了全卷积神经网络中所应用的级联上采样器,它是由多个上采样步骤组成。将混合编码器的SwinTransformer分支中提取出来的全局特征进行解码。首先对于来自SwinTransformer编码器的高级特征

进行形状调整，调整后的形状为：

然后通过多个上采样块来以达到从分辨率

到H×W的变换，在上采样过程中还要利用CNN分支中所提取到的具有相同分辨率的浅层特征信息，它们之间通过跳过连接来实现了深层和浅层特征的融合关于跳跃连接。此外，每个上采样块依次由一个1个转置卷积操作，和浅层信息进行融合后，后边还跟着一个3×3卷积层和一个ReLU层组成。最终，解码器与编码器一起形成了一个U形架构，直到整个解码器执行完毕。

3)跳跃连接方式设计：全卷积神经网络FCN中采用循序上进的方式将编码后的特征图在上采样的过程中和浅层特征图进行融合，这样该模型能得到更高的精度。上述过程巧妙的利用编码器中浅层分辨率高和细节信息多的特点来解决像素定位问题，而经过多层卷积和池化后的深层网络中拥有比较丰富的语义特征信息，有利于物体分类。需要注意的是本发明所提出的混合编码器本质上是利用两种不同的模型共同对数据特征进行提取，然后在后续过程中进行融合。所以在本小节中，本文将对这种存在跳跃连接中的特征融合方式重新设计和讨论。常见的几种特征融合方式(Feature Merge)汇总如下：

1、Addtion：使上采样后得到的特征图与编码器中对应有着一样分辨率的特征图执行相加操作。这种相加的操作是把编码器中的特征图和解码器中上采样后的特征图对应位置具有相同的重要性看待。

2、Multiplication:使上采样后得到的特征图与编码器中对应有着一样分辨率的特征图执行矩阵相乘操作。该操作会进一步放大特征图中的重要特征信息。

3、Concatenation:使上采样后得到的特征图与编码器中对应有着一样分辨率的特征图按照通道维度执行拼接操作。与前面提到的三种特征融合方法相比，优点是该操作在融合过程中不会有信息损失。但是在拼接后通道数会进行加倍，若要得到与拼接前具有相同维度的特征图，则需要拼接后进行线性变换，增加了一定的复杂度。

上面式子中，X_Encoder为经过编码器后得到的每层特征图，X_Decoder为经过解码器中上采样后得到的每层特征图，

为经过融合后的特征图。

4)融合SwinTransformer和CNN的肝肿瘤分割模型：通过前面对混合编码器、解码器和跳跃连接的方式进行设计后，参考TransUNet网络架构可以得到本文的网络分割模型。模型整体仍然参考UNet原始架构，由编码器、解码器和跳跃连接所组成。首先原始输入数据要进入编码器中进行特征提取，在此过程中，特征图的分辨率一步一步减小，通道数步增大。对于编码器最终提取到的特征要输入到解码器，在解码器中不断的执行上采样操作，此过程中，特征图分辨率步步增大，通道数步步减小，直到恢复到与输入图像形状大小相同，完成最终的预测。与传统的U形网络架构和TransUNet不同的是本文设计的网络结构的编码器中是两个部分，一部分为CNN，一部分为SwinTransformerr。CNN和SwinTransformer有着不同的分工，且SwinTransformer是CNN的重要辅助。

(6)进行肝肿瘤图像分割，方法如下：

1)训练和验证阶段。利用预处理好的数据对本发明提出的网络分割方法进行训练。对数据按照7:3的比例划分为训练集、验证集。实验是在配有1块NVIDIA GeForceGTX3090Ti的服务器上进行的,操作系统环境为Ubuntu18.04。实验采用的深度学习框架是pytorch，采用Adam优化器，权重衰减参数weight decay设为0.0001，初始学习率lr为0.001，训练周期设置为100个epoch，批数据大小batchsize设置为16。使用ReduceLROnPlateau动态学习率调整方案，如果在4个epoch内验证集上的损失值都没有减小，则将学习率变为原来的25％。实验结束后，最终选取整个训练周期内Dice系数评价指标最高所对应的轮数参数作为最终权重，并得到肝肿瘤分割对应的指标参数。

本发明所提出方法的主要创新之处和优点在于：将SwinTransformer模型应用到肝脏肿瘤分割任务中。利用其全局自注意力机制不受局部相互作用的限制，建立特征之间的长距离依赖关系又能并行计算，此外还使用CNN在网络的浅层中提取到图像的细节特征。将二者进行有效结合，既能提取出浅层细节信息，也能提取到深层全局信息，使提取的特征更能精确的表达图像信息，进而对肿瘤进行精准分割。

通过上述的技术方案，本发明所带来的有益效果是：提出了一种融合SwinTransformer和CNN的肝肿瘤图像分割方法。该方法通过使用SwinTransformer和CNN进行混合后共同对CT图像数据进行编码，然后参考TransUNet和UNet网络架构不断上采样，从而提取出精确地细节和全局信息。与经典的分割方法相比，尽管数据分布有较大差异，但本发明方法均能表现出最佳的效果，证实了本发明能缓解CNN在进行卷积过程中因局部操作所带来的获取全局信息以及建立上下文强相互关系的困难，弥补小目标肿瘤特征容易损失的缺陷，进而提升肿瘤的分割精度。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种融合SwinTransformer和CNN的肝肿瘤图像分割方法，其特征在于：所述融合SwinTransformer和CNN的肝肿瘤图像分割方法包括如下步骤：

(1)数据获取和基本分割模型选取:

1)数据获取。本发明所有实验使用的都是MICCAI2017和ISBI2017联合举办的肝脏肿瘤分割挑战赛(Liver Tumor segmentation challenge,LiTS)所公开的数据集；

2)基本分割模型选取，在实验部分使用TransUNet作为基础模型，在上边进行改进；

(2)数据预处理：首先通过对每一层提取变为二维图像，共得到4522张图片，分辨率都为224×224，按照7:3的比例划分为训练集、验证集；

(3)确定损失函数：采用Dice损失函数和交叉熵损失函数混合后的损失函数，详细公式如下：

L＝αL_Dice+(1-α)L_CE#(1)

(4)确定评价指标：下面所有式子中，TP和TN表示分类正确的像素点数量，FP表示为其它区域被错误的分类为目标的个数，FN表示为目标区域被错误的分类为其它区域的像素个数；

1)Dice系数(Dice SimilrityCoefficient)：

2)交并比(IOU)：

3)精确率(Precision)：

4)召回率(Recall)：

(5)分割模型搭建：

1)混合编码器模块：本发明提出了一种混合编码器结构，该编码器共有两个分支所构成：CNN分支和SwinTransformer分支，每个分支都是编码器的重要组成部分，其中SwinTransformer分支作为CNN分支的一个补充，当数据送入模型进行编码时，该数据一方面会进入CNN分支，另一方面也会送入SwinTransformer分支；

2)级联解码器模块：通过混合编码器的CNN分支和SwinTransformer分支分别提取到浅层细节信息和全局语义信息后，接下来开始进入解码器进行解码操作，在解码器部分，本发明采用了全卷积神经网络中所应用的级联上采样器,它是由多个上采样步骤组成；

3)跳跃连接方式设计：本发明所提出的混合编码器本质上是利用两种不同的模型共同对数据特征进行提取，然后在后续过程中进行融合，对这种存在跳跃连接中的特征融合方式重新设计和讨论；

4)融合SwinTransformer和CNN的肝肿瘤分割模型：通过对混合编码器、解码器和跳跃连接的方式进行设计后，参考TransUNet网络架构可以得到本发明的网络分割模型，首先原始输入数据要进入编码器中进行特征提取，对于编码器最终提取到的特征要输入到解码器，在解码器中不断的执行上采样操作，直到恢复到与输入图像形状大小相同，完成最终的预测；

(6)进行肝肿瘤图像分割，方法如下：

1)训练阶段和验证阶段。利用预处理好的数据对本发明提出的网络分割方法进行训练，实验是在配有1块NVIDIA GeForce GTX 3090Ti的服务器上进行的,操作系统环境为Ubuntu18.04，实验结束后，最终选取整个训练周期内Dice系数评价指标最高所对应的轮数参数作为最终权重，并得到肝肿瘤分割对应的指标参数；