CN115018824A

CN115018824A - 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

Info

Publication number: CN115018824A
Application number: CN202210858918.4A
Authority: CN
Inventors: 胡凯; 黄扬林; 张园; 高协平
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-09-06
Anticipated expiration: 2042-07-21
Also published as: CN115018824B

Abstract

本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法，其步骤为：S1，将结肠镜息肉图像数据集划分为训练、验证和测试样本集；S2，对样本集进行数据预处理操作；S3，使用预处理后训练和验证样本集对神经网络模型进行训练、验证，并保存训练好的神经网络模型；S4，将预处理后测试样本集输入训练好的神经网络模型中，得到结肠镜息肉图像粗分割结果；S5，对结肠镜息肉图像粗分割结果进行图像后处理操作，得到最终分割结果。本发明创新性设计了一种CNN和Transformer神经网络融合模型，其弥补了CNN和Transformer分支特征融合过程中因学习范式差异而产生的潜在问题，进而充分利用两者特征互补性，有效地解决了息肉难以定位、细节难以捕获以及伪装性区域难以辨别问题。

Description

一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于CNN和Transformer融合的结肠镜息肉图像分割方法。

背景技术

结直肠癌(Colorectal Cancer,CRC)已经逐渐成为对人类健康的严重威胁，据公开文献记载，结直肠癌目前是世界上第三大常见癌症，也是癌症死亡率第四高的病种，且仍呈现逐步上升的趋势。而CRC患者存活率很大程度上取决于检测到病症的阶段，早期的检测和治理可以有效控制病情，大幅提升CRC患者存活率。

现有结直肠癌诊断方法中，结肠镜(Colonoscopy)检查是早期筛查最有效的方法，其可以直观的观察到肿瘤的大小、形状等特征，从而辅助医生及时识别和切除息肉病灶区域，防止其进一步扩散。然而，临床诊断中，息肉区域漏检率高达6％，其中有两方面关键因素影响了诊断结果：1)客观因素。息肉的大小与病变情况多样，导致医生难以检测具有强大伪装性的息肉区域；2)主观因素。息肉检测结果会因医生经验差别以及医生个人状态差别而造成偏差。因此，医生人工检测的方法尚不能充分挖掘患者结肠镜图像信息。

目前，现有结肠镜息肉图像分割方法主要分为传统方法和深度学习方法两大类。传统方法主要依赖于手工提取的特征，但由于制作的特征表达能力相当有限，易受到息肉区域形状等因素的影响，导致对噪声点和对比度非常敏感，因此并不能很好的胜任息肉分割这项工作。近年来，深度学习方法因其高效的特征提取能力和良好的特征表达能力，在息肉分割研究方向上受到了广泛的应用，主要包含CNN和Transformer两大类模型方法。其中CNN模型方法擅长于捕获局部特征中的细节信息，而在建模长距离依赖关系能力上有所不足；与此相反，Transformer模型方法擅长于建模长距离依赖关系，而在捕获细节信息方面能力有所不足。尽管目前已有研究开始尝试将两者结合，但是这种早期的尝试并未充分考虑到由于CNN和Transformer模型间学习范式差异而产生的语义鸿沟问题，因此如何充分利用CNN和Transformer模型各自优势，赋予深度学习模型更强大的特征表达能力，仍是摆在我们面前的难题。

发明内容

为了解决现有技术存在的上述技术问题，本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法，其有效缓解了CNN和Transformer模型因学习范式差异而产生的语义鸿沟问题，进而全面充分利用了CNN和Transformer模型各自优势，使学习的特征表示强大且具有泛化性，提高了结肠镜息肉图像分割的准确性。

本发明解决上述技术问题的技术方案是：一种基于CNN和Transformer融合的结肠镜息肉图像分割方法，包括以下步骤：

S1：将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集；

S2：对步骤S1划分好的样本集，采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作；

S3：使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证，并保存训练完成后的神经网络模型；

S4：将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中，得到结肠镜息肉图像粗分割结果；

S5：对步骤S4获取到的结肠镜息肉图像粗分割结果，采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作，进一步细化并得到结肠镜息肉图像分割最终结果。

优选地，所述步骤S1具体为：将获取到的结肠镜息肉图像数据集按0.8：0.1：0.1比例随机划分为训练样本集、验证样本集和测试样本集。

优选地，所述步骤S2具体为：对步骤S1划分好的样本集统一调整到352×352尺寸大小，在此基础上进一步采用多尺度训练策略按{0.75，1，1.25}缩放系数将统一尺寸后的样本集图像随机调整为264×264、352×352和440×440尺寸大小；

接着，对尺寸调整后的每个样本进行均值方差标准化操作，即按通道减去均值，再除以方差。

优选地，所述步骤S3具体为：使用步骤S2获取到的预处理后训练样本集和验证样本集对CNN和Transformer神经网络融合模型进行训练、验证，当迭代次数达到设定值时停止训练过程，并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型。

优选地，步骤S3中所述CNN和Transformer神经网络融合模型为一个编码-解码架构，具体为：

在CNN和Transformer神经网络融合模型编码部分，将步骤S2获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中，以从局部和全局两个视角对结肠镜下息肉图像进行特征提取。

接着，将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块，获得多尺度下注意力加权的融合特征。这一融合过程具体如下：

S3-1，利用公式

捕获来自不同尺度的信息，并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符。其中，cⁱ表示CNN分支编码的特征；tⁱ表示Transformer分支编码的特征；f_rfb(·)表示RFB策略，用于进行多尺度特征学习；

表示矩阵乘法；Concat(·)表示特征拼接。

S3-2，利用公式

和

将步骤S3-1获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征，此时CNN分支编码特征和Transformer分支编码特征通过多尺度上下文信息加权，缓解了因两者学习范式差异而产生的巨大语义鸿沟，生成了兼具两者特性加权下的融合特征。其中，fⁱ表示多尺度特征信息描述符；cⁱ表示CNN分支编码的特征；tⁱ表示Transformer分支编码的特征；

表示矩阵乘法；f_1×1(·)表示1×1卷积操作。

S3-3，利用公式

将步骤S3-2特征引导后的CNN和Transformer分支编码特征重新融合，加强整体信息表示。其中，

表示对应位置元素相加。

在CNN和Transformer神经网络融合模型解码部分，将步骤S3-3获取到的不同层次双分支融合特征输入到渐进式注意力解码模块，获得逐层高级语义信息指导后的解码特征。这一解码过程具体如下：

S3-4，利用公式

将高层语义信息逐层加权于低层特征信息中，生成全局引导和细节优化后的解码特征。其中，

表示第i层双分支融合特征，为低层特征；

表示第j层双分支融合特征，为高层特征；DA(·)表示双重注意力机制。

S3-5，对步骤S3-4获得的解码特征hⁱ使用1×1卷积和Sigmoid激活层，计算得到结肠镜图像中每个像素属于息肉区域的分类概率。

优选地，所述步骤S4具体为：使用步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的CNN和Transformer神经网络融合模型中，得到每张结肠镜息肉图像区域的像素级概率预测，即结肠镜息肉图像粗分割结果。

优选地，所述步骤S5具体为：将步骤S4获取到的结肠镜息肉图像粗分割结果采用全连接条件随机场来修正细碎的错分区域，以及采用基于漫水填充法的孔洞填充法来填补小孔洞噪声，进而获取细化后的结肠镜息肉图像分割最终结果。

本发明的有益效果是：本发明基于多尺度策略和注意力机制创造性构造的双分支融合模块，有效缓解了CNN和Transformer分支的语义鸿沟，进而充分利用了CNN分支捕获细节信息以及Transformer分支建模长距离依赖关系能力，更好地解决了不同尺寸大小息肉难以定位以及细节难以捕获问题。其次，本发明通过渐进式注意力解码模块，将高层双分支融合特征语义信息逐层加权于低层双分支融合特征，从而达到增强局部细节，抑制不相关区域的目标，更好地解决了伪装性息肉区域难以辨别问题。本发明通过一种简单高效的图像后处理方法，更好地修正了细碎的错分区域和减轻了斑点噪声的影响，优化了最终的分割结果。

附图说明

图1为本发明的流程图；

图2为本发明中CNN和Transformer神经网络融合模型结构示意图；

图3为本发明中CNN和Transformer神经网络融合模型编码部分的双分支融合模块示意图；

图4为本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块示意图。

具体实施方式

下面将结合附图和具体实施例对本发明的实施方案作进一步详细描述。

参见图1，图1为本发明的流程图，本发明中一种基于CNN和Transformer融合的结肠镜息肉图像分割方法整体流程包括：

S1：将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集。具体为：

S1-1：本实施例选用五个公开且具有挑战性的结肠镜息肉图像数据集(CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-LaribPolypDB)作为实验数据集。

S1-2：将获取到的五个结肠镜息肉图像数据集均按0.8：0.1：0.1比例随机划分为训练样本集、验证样本集、测试样本集，再将划分后的训练样本集、验证样本集、测试样本集各自合并，最终得到来自不同采样环境下形式多样的息肉图像样本集。

S2：对步骤S1划分好的样本集进行数据预处理操作。具体为：

S2-1：将步骤S1划分好的样本集中原始分辨率息肉图像统一调整到352×352尺寸大小，在此基础上进一步采用多尺度训练策略按{0.75，1，1.25}缩放系数将统一尺寸后的息肉图像随机调整为264×264、352×352和440×440尺寸大小。

S2-2：对步骤S2-1尺寸调整后的每个样本，采用ImageNet数据集抽样计算的均值[0.485，0.456，0.406]和方差[0.229，0.224，0.225]，进行均值方差标准化操作，即按通道减去均值，再除以方差。

S3：使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证，并保存训练完成后的神经网络模型。具体为：

S3-1：将步骤S2获取到的预处理后训练样本集输入到CNN和Transformer神经网络融合模型进行训练，当迭代次数达到设定值(150个迭代)时停止训练过程。

进一步地，参见图2，本发明中CNN和Transformer神经网络融合模型整体为一个编码-解码架构，具体为：

在CNN和Transformer神经网络融合模型编码部分，将步骤S2获取到的预处理后训练样本集输入到预训练好的CNN模型ResNet34中，用于捕获结肠镜下息肉图像局部细节信息；以及将步骤S2获取到的预处理后训练样本集输入到预训练好的Transformer模型Pyramid Vision Transformer v2-B2中，用于建模结肠镜下息肉图像远距离依赖关系。

接着，将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块，利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题，生成兼具CNN和Transformer双分支各自优势的融合编码特征。

进一步地，参见图3，本发明中CNN和Transformer神经网络融合模型编码部分中双分支融合模块，具体为：

利用公式

表示矩阵乘法；Concat(·)表示特征拼接。

利用公式

和

将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征，此时CNN和Transformer分支编码特征通过多尺度上下文信息加权，缓解了因两者学习范式差异而产生的巨大语义鸿沟，生成了兼具两者特性加权下的融合特征。其中，fⁱ表示多尺度特征信息描述符；cⁱ表示CNN分支编码的特征；tⁱ表示Transformer分支编码的特征；

表示矩阵乘法；f_1×1(·)表示1×1卷积操作。

利用公式

将特征引导后的CNN和Transformer分支编码特征重新融合，加强整体信息表示。其中，

表示对应位置元素相加。

在CNN和Transformer神经网络融合模型解码部分，将融合模型编码部分获取到的不同层次双分支融合特征输入到渐进式注意力解码模块，获得逐层高级语义信息指导后的解码特征。

进一步地，参见图4(a)，本发明中CNN和Transformer神经网络融合模型解码部分中渐进式注意力解码模块，具体为：

利用公式

将高层特征语义信息逐层加权于低层特征信息中，生成全局引导和细节优化后的解码特征。其中，

表示第i层双分支融合特征，为低层特征；

进一步地，参见图4(b)，本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块中双重注意力机制，具体为：

在空间注意力机制上：

利用公式

和

对第i层双分支融合特征图和第j层双分支融合特征图做卷积操作，以获得相同的通道数和尺寸大小。其中，f_1×1(·)表示1×1卷积操作；GN(·)表示组标准化操作。

利用公式

将低层特征

和高层特征

融合得到新融合特征

并对其进行ReLU激活操作。其中，ReLU(·)为线性整流激活函数；

表示对应位置元素相加。

利用公式

对新融合

进行卷积操作，用于整合信息，提高特征的抽象能力，并进一步对卷积后特征使用Sigmoid函数激活，将特征值归一化到[0,1]之间，得到注意力掩膜

其中，f_1×1(·)表示1×1卷积操作。

利用公式

将注意力掩膜

重采样后得到的权重图与第i层双分支融合特征相乘，使目标区域获得更多的关注，进而得到空间引导后的特征

其中，Resample(·)表示重采样操作；

表示对应位置元素相乘。

在通道注意力机制上：

首先，采用全局池化操作对第i层双分支融合特征

进行压缩操作，使二维的特征通道变成一个实数，该实数具有全局感受野。接着，引入两个全连接层来建模通道间的相关性，并输出一个与输入特征

相同数目的权重。其中，在两个全连接层中间引入ReLU函数进行激活，使学习到的特征具有更多的非线性，从而更好地拟合通道间的复杂相关性。最后，通过Sigmoid激活函数获得[0,1]之间的权重

利用公式

将学习到的通道注意力权重加权到经空间引导后的低层特征

上。其中，

表示对应位置元素相乘。

利用公式

对经过空间、通道注意力加权后的特征

采用非线性映射操作，进行信息的整合，增加更多的非线性因素与提高最终的泛化能力，进而得到双重注意力机制最终输出特征Oⁱ。其中，ReLU(·)为线性整流激活函数；GN(·)表示组标准化操作；f_1×1(·)表示1×1卷积操作。

进一步地，对渐进式注意力解码模块获得的解码特征hⁱ使用1×1卷积和Sigmoid激活层，计算得到结肠镜图像中每个像素属于息肉区域的分类概率。

进一步地，对计算得到的概率值利用加权交叉熵和加权IoU混合损失函数得到神经网络模型整体损失值，并通过自适应梯度法(AdamW优化器)来优化模型参数，使损失不断的趋近最小值来训练神经网络模型。

S3-2：将步骤S2获取到的预处理后验证样本集输入到步骤S3-1已训练完成的CNN和Transformer神经网络融合模型中，使用分割常用指标Dice相似系数计算得到验证样本集分割性能，并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型参数相关信息。

S4：将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中，得到结肠镜息肉图像粗分割结果。具体为：

S4-1：将步骤S2获取到的预处理后测试样本集，逐张输入到步骤S3中已训练完成的神经网络模型中，得到结肠镜息肉图像粗分割结果并将其以PNG格式保存用作后续图像后处理操作输入。

S5：对步骤S4获取到的结肠镜息肉图像粗分割结果，采用图像后处理操作进一步细化并得到最终分割结果。具体为：

S5-1：对步骤S4中神经网络模型得到的结肠镜息肉图像粗分割结果，采用全连接条件随机场来修正细碎的错分区域。具体为：

将步骤S4中神经网络模型粗分割结果的概率分布图作为全连接条件随机场的一元势能，原始结肠镜图像则提供二元势能中的位置和颜色信息。其中，全连接条件随机场的能量函数公式如下：

式中，能量函数第一项ψ_U(x_i)为一元势能函数，用于衡量当像素点i的观测值为y_i时，该像素点属于类别标签x_i的概率；能量函数第二项ψ_P(x_i,x_j)为二元势能函数，用于描述像素之间的关系，并将颜色和相对距离较近的像素归为一类，其计算公式如下：

式中，U(x_i,x_j)为标签兼容项，用于约束像素间传导条件，只有相同标签条件下，能量才可以互相传导；ω^m为权值参数，用于平衡函数；

为特征函数，其表达式如下：

式中，p_i和p_j代表像素i与像素j的特征向量。

通过上述过程对结肠镜息肉图像粗分割结果细化时，如果相似区域的像素点被判别为不同类时，能量函数值会变得较大；如果存在差异的区域判别为同一类时，也会产生较大的能量函数值。通过多次迭代，使能量函数值最小化来获得细化后的息肉分割结果。

S5-2：将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图，进一步采用基于漫水填充法的孔洞填充算法来填补因斑点噪声产生的孔洞。具体为：

将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图，用作基于漫水填充法的孔洞填充算法输入I。

首先，创建像素初始值与输入图像I相同的图像I'，并确定图像I'的感兴趣区域。

然后，初始化图像I'的种子点Sp，并对种子点的4邻域像素点进行遍历，如果种子点像素值减去邻域像素点像素值小于设定阈值T，则将该邻域像素点添加进感兴趣区域，并将其设置为新的种子点Sp。

最后，对原始输入图像I与取反后种子填充后图像I'作按位或运算，得到孔洞填充算法细化后的最终分割结果Fpre。

以上所述仅用作说明本发明的设计思路和实施方案，而非对其限制，本领域的技术人员应当理解，对本发明的技术方案进行修改或等同替换的其他方案仍包含在本申请的权利要求所限定范围之内。

Claims

1.一种基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述步骤S2中对步骤S1划分好的样本集调整为352×352，进一步采用多尺度训练策略按{0.75，1，1.25}缩放系数将样本集图像随机调整为264×264、352×352和440×440大小；对调整后的每个样本进行均值方差标准化操作。

3.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述步骤S3中的神经网络模型为CNN和Transformer神经网络融合模型，具体为：

在CNN和Transformer神经网络融合模型编码部分，将获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中，以从局部和全局两个视角对结肠镜下息肉图像进行特征提取，并将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块，利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题，生成兼具CNN和Transformer双分支各自优势的融合编码特征；

在CNN和Transformer神经网络融合模型解码部分，将编码部分中获取到的不同层次双分支融合特征输入到渐进式注意力解码模块，获得逐层高级语义信息指导后的解码特征，并对解码特征使用1×1卷积和Sigmoid激活层，计算得到结肠镜图像中每个像素属于息肉区域的分类概率。

4.根据权利要求3所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述CNN和Transformer神经网络融合模型编码部分中双分支融合模块，具体为：

利用公式

捕获来自不同尺度的信息，并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符；其中，cⁱ表示CNN分支编码的特征；tⁱ表示Transformer分支编码的特征；f_rfb(·)表示RFB策略，用于进行多尺度特征学习；

表示矩阵乘法；Concat(·)表示特征拼接；

利用公式

和

将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征，此时CNN和Transformer分支编码特征通过多尺度上下文信息加权，缓解了因两者学习范式差异而产生的巨大语义鸿沟，生成了兼具两者特性加权下的融合特征；其中，fⁱ表示多尺度特征信息描述符；cⁱ表示CNN分支编码的特征；tⁱ表示Transformer分支编码的特征；