CN112489061A

CN112489061A - 一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法

Info

Publication number: CN112489061A
Application number: CN202011427253.9A
Authority: CN
Inventors: 李胜; 王栋超; 何熊熊; 郝明杰; 夏瑞瑞; 程珊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-12
Anticipated expiration: 2040-12-09
Also published as: CN112489061B

Abstract

一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法，在编码时本发明通过建立分支的方式从更细粒度上提取特征，并通过改进后的压缩激励模块以重新校准特征响应，然后在空洞空间金字塔池化的基础上通过建立分支之间的联系进一步提取并融合特征，能够更精确地提取肠道与息肉的多尺度特征并将其区分来开，很好地解决了分割时常常会将肠道壁褶皱误判为息肉区域的问题；在解码时则抛弃了浅层特征细化了深层特征，并利用注意力机制进一步建立边界关系，能够在缩短训练时间的基础上更精确地分割出息肉边界。

Description

一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法

技术领域

本发明涉及深度学习图像分割领域，具体涉及一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法。

背景技术

胃肠道疾病是最常见的人类疾病，严重影响着人类的生命健康。据统计，胃肠道疾病中，结直肠癌是世界上仅次于肺癌与乳腺癌的第三大癌症，而肠道息肉作为一种高危的癌前疾病，就是结直肠癌的前身。因此，通过检测和清除肿瘤前病变息肉来预防结直肠癌至关重要，这也是世界范围内公共卫生的重点。当前，结肠镜检查是诊断大肠腺瘤和癌症的“金标准”技术。在我国，每年的消化道内镜检查需求在1亿人次以上，临床应用广泛。

但是结肠镜检查诊断的准确性与医生的学识、经验、手术时的状态等有着直接的关系，操作难度不小。此外，肠道息肉通常表现出各种形状，质地和大小特征，即使训练有素的临床医生也可能会产生不同的诊断结果。因此，非常需要开发一种计算机辅助诊断方法来协助医生诊断疾病。计算机辅助系统(CAD)可以通过异常检测算法来协助医生进行息肉的诊断并提供其癌变的风险提示，进而大大提高结肠镜检查的效率。

常见的异常检测方法仅能识别图像中是否存在息肉，但临床中还需要CAD系统能够有具有像素级分割的功能，即将异常区域在图中直观地标注出来。但是息肉分割是一项艰巨的任务，首先，息肉即使是同一类型，其大小、颜色和质地等外观也经常变化；其次，结肠镜检查图像中，息肉及其周围的粘膜之间的边界通常较为模糊，多数息肉的边缘和颜色特征与肠壁非常接近。这些问题导致息肉分割准确度不够高，甚至可能会漏检息肉。

发明内容

为了克服肠道息肉分割精度不足的问题，本发明提出了一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法。在编码时本发明通过建立分支的方式从更细粒度上提取特征，并通过改进后的压缩激励模块以重新校准特征响应，然后在空洞空间金字塔池化的基础上通过建立分支之间的联系进一步提取并融合特征，能够更精确地提取肠道与息肉的多尺度特征并将其区分来开，很好地解决了分割时常常会将肠道壁褶皱误判为息肉区域的问题；在解码时则抛弃了浅层特征细化了深层特征，并利用注意力机制进一步建立边界关系，能够在缩短训练时间的基础上更精确地分割出息肉边界。

本发明采用如下的技术方案：

一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法，包括以下步骤：

步骤1：获取待分割图片：实验数据集是来自公开的息肉数据集CVC-ClinicDB，包含各种类型、形状和颜色的息肉图片。

步骤2：利用Res2Net深度卷积神经网络模块与二重压缩激励模块(DoubleSqueeze and Excited,DSE)作为编码器提取图像的特征；

在进行特征编码时，通过建立4个分支并且建立分支间的联系以细化通道特征，并再此基础上并通过改进后的压缩激励操作进一步模拟通道间的相互依赖关系来重新校准特征响应，这样一来能更好地利用多尺度信息以达到更好的特征提取效果，进行编码后最终得到五个层次的特征{f_i,i＝1,2,…,5}，其中{f_i,i＝1,2}表示为浅层特征，{f_i,i＝3,4,5}表示为深层特征；

步骤3：在解码前通过多尺度空洞空间金字塔池化(Multi-Atrous SpatialPyramidal Pooling,MASPP)模块进一步利用多尺度特征来捕获上下文信息；

以空洞卷积为基础，采用扩张率rate分别为6、12、18的三个并行空洞卷积核对输入特征图进行空洞卷积操作，每个扩张率提取的特征将在各自的分支中建立分支间的相互联系，并通过激活函数与批归一化的方式进一步处理，最终对三个特征进行堆叠融合，这种方式能进一步利用多尺度特征来捕获上下文信息，实现了对单个尺度提取的卷积特征进行重采样，可以对任意尺度的区域进行更加准确有效的分类；

步骤4：通过PD模块进行解码，生成全局特征图S_g；

在解码部分采用了部分解码器(Partial Decoder,PD)p_d(·)，它在skip-connection部分仅聚合了深层特征而舍弃了浅层特征，部分解码器的特征可按PD＝p_d(f₃,f₄,f₅)来计算，解码器输出获得全局特征图S_g；

步骤5：通过反转注意力模块(Reverse Attention,RA)建立区域与边界线索之间的关系，获取完整的预测结果；

使用了三个RA模块，第一个RA模块的输入为深层特征f₅与经过降采样后的全局特征图S_g，并用上述方式分别获取到检测图S₅，接下来用相同的方式获取到S₄、S₃，其中特征图S₃通过一个Sigmoid函数获得最终预测结果；

步骤6：网络模型的训练策略过程如下：

6.1首先获取并划分数据集；

6.2考虑到显存利用率，图片在输入网络前会通过降采样或升采样，在保持图片长宽比例不变的情况下将图片长度调整为256；

6.3训练过程中的梯度下降算法选用了Adam算法；

6.4选用的损失函数结合了加权交并比(Intersection Over Union,IoU)损失与二进制交叉熵(Binary Cross Entropy,BCE)损失，表示为：

在训练过程中，对于步骤4中获取的全局特征图S_g以及步骤5中获取的三个局部特征图S₅、S₄、S₃均上采样到与真实Mask相同尺寸大小，计算总体损失：

并进行反向传播以更新网络参数。

本发明的有益效果表现在：本发明提出了一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法，在编码时通过建立分支的方式从更细粒度上提取特征，并通过改进的压缩激励操作以重新校准特征响应，然后在空洞空间金字塔池化的基础上通过建立分支之间的联系进一步提取并融合特征，能够更精确地提取肠道与息肉的多尺度特征并将其区分来开，很好地解决了分割时常常会将肠道壁褶皱误判为息肉区域的问题。在解码时的并行连接抛弃了浅层特征细化了深层特征，并利用注意力机制进一步建立边界关系，能够在缩短训练时间的基础上更精确地分割出息肉边界。

附图说明

图1是Res模块与Res2Net模块的结构对比图，其中(a)为残差模块结构，(b)为Res2Net模块结构；

图2是DSE模块的原理图，(a)为SE实现原理，(b)为DSE结构图

图3是MASPP模块的实现原理图；

图4是PD模块解码的流程图；

图5是RA模块的内部结构图；

图6是本发明网络的整体架构图；

图7是训练过程中在测试集上的Dice指标变化；

图8是本发明与不同网络的分割结果对比。

具体实施方式

为了阐明本发明的目的、技术方案和优点，以下结合具体实施例及附图，对本发明做进一步详细说明。

参照图1～图8，一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法，包括以下步骤：

步骤1：获取待分割图片：本发明的实验数据集是来自公开的息肉数据集CVC-ClinicDB，包含各种类型、形状和颜色的息肉图片；

残差模块是许多现代主干CNN架构中的基本模块，如图1(a)所示。本发明使用的Res2Net在残差模块的基础上进行改进，如图1(b)所示，经过1×1的卷积后，Res2Net将特征图均匀地分为s个特征子集，以x_i表示，其中i∈{1,2,…,s}。与输入特征图相比，每个特征子集x_i具有相同的空间大小，但通道数为1/s。除了x₁外，每个x_i都有一个对应的3×3卷积核，用K_i()表示，y_i表示K_i的输出。特征子集x_i与K_i-1()输出相加，然后馈入K_i()，因此y_i可以表示为：

本发明使用的DSE模块能够通过显示地模拟通道间的相互依赖关系，自适应地重新校准各通道间的特征响应。DSE模块的基本结构如图2(b)所示，对于任何给定的变换

(如一个卷积或一组卷积)，可以通过构造一个DSE模块来执行特征重新校准。特征U首先通过压缩操作，该操作将空间维度为H×W上的特征图聚合在一起以生成通道描述符s₁。该通道描述符嵌入了通道方式特征响应的全局分布，使来自网络全局接收域的信息能够被其下层利用。接下来是激励操作，通过基于通道依赖的自门控机制对每个通道学习的特定样本激活，控制每个通道的激励，最终特征图U重新加权产生f₁，压缩激励操作的原理如图2(a)所示。接下来对f₁再次执行压缩操作得到s₂，对s₁+s₂执行激励操作以更精确地校准特征得到f₂，最终则以f₁+f₂以表示DSE块的输出，输出可以直接馈入后续层，如图2(b)所示。

本发明一共使用4个Res2Net模块来提取输入图片特征，Res2Net模块之间用DSE模块连接。具体来说，对于输入大小为h×w的息肉图像I，用标准卷积层以及4个以DSE模块连接的Res2Net模块提取大小为[h/2^k-1,w/2^k-1]的5个层次的特征{f_i,i＝1,2,…,5}，其中{f_i,i＝1,2}表示为浅层特征，{f_i,i＝3,4,5}表示为深层特征。

空洞卷积(Atrous Convolution)已经广泛应用于语义分割和目标检测等任务中，空洞卷积对于传统卷积的优势在于可以在不降低分辨率的情况下扩大感受野，并且可以通过设置不同的扩张率rate来获取多尺度信息。

本发明使用的MASPP以空洞卷积为基础，能进一步利用多尺度特征来捕获上下文信息。具体来说，为了对图3中的橙色像素进行分类，MASPP模块采用扩张率rate分别为6、12、18的三个并行卷积核分成三个分支对输入特征图进行空洞卷积操作，其中三个卷积核的有效视野用三个不同的颜色表示，如图3所示。其中rate为6的分支的输出为x₁，x₁与rate为12的分支输出相乘得到x₂，x₂再与rate为18的分支输出相乘得到x₃，以此建立了分支之间的联系，最后则对于最终的输出{x_i,i＝1,2,3}进行堆叠融合。这种方式实现了对单个尺度提取的卷积特征进行重采样，可以对任意尺度的区域进行准确有效的分类。

步骤4：通过PD模块进行解码，生成全局特征图S_g；

步骤2中提取到了5个层次的特征{f_i,i＝1,2,…,5}，其中{f_i,i＝1,2}表示为浅层特征，{f_i,i＝3,4,5}表示为深层特征。与深层特征相比，浅层特征含有较多的噪声信息且由于其较大的空间分辨率会占用更多的计算资源，并对性能的贡献效果较小。因此本发明在解码部分采用了部分解码器(Partial Decoder,PD)p_d(·)，它在skip-connection部分仅聚合了深层特征而舍弃了浅层特征，其结构如图4所示。部分解码器的特征可按PD＝p_d(f₃,f₄,f₅)来计算，解码器输出获得全局特征图S_g。PD模块抛弃了浅层特征后，不仅能大大加快训练速度，并且能更好地细化深层特征来获得精确的显著性图。

从步骤4中提取到的全局特征图S_g只捕获了相对粗糙的位置，而没有轮廓的结构细节。为了获取到更精细的边缘轮廓，本发明使用了一组反转注意力模块，通过擦除前景物体的方式来从粗略的估计中逐步挖掘判别息肉的边界，一步步细化为准确而完整的预测图，其结构如图5所示。具体来说，RA模块通过深层特征{f_i,i＝3,4,5}与反转注意力权重A_i相乘来获得反转注意力特征的输出R_i：

R_i＝f_i⊙A_i (2)

反转注意力权重A_i可以表示为：

其中

表示上采样操作，σ(·)表示Sigmoid函数，

则是减去输入矩阵E的一个反转运算操作。

本发明使用了三个RA模块，第一个RA模块的输入为深层特征f₅与经过降采样后的全局特征图S_g，并用上述方式分别获取到检测图S₅。接下来用相同的方式获取到S₄、S₃，其中特征图S₃通过一个Sigmoid函数获得最终预测结果，如图6中的整个网络架构所示。

步骤6：网络模型的训练策略的过程如下：

6.1首先划分数据集，从原始数据集中随机抽取一定数量图片作为最终的测试集，剩余的数据集按9:1划分为训练集与验证集；

6.2考虑到显存利用率，图片在输入网络前会通过降采样或升采样，在保持图片长宽比例不变的情况下将图片调整到长为256；

6.3训练过程中的梯度下降算法选用了Adam算法。其优点在于计算效率高、所需内存少、可以解决包含很高噪声或稀疏梯度的问题，并且超参数可以直观地得到解释而只需极少量地调参；

6.4本发明选用的损失函数结合了加权交并比(Intersection Over Union,IoU)损失与二进制交叉熵(Binary Cross Entropy,BCE)损失，表示为：

其中

表示加权IoU损失，

表示全局约束与局部约束(像素级)的BCE损失。

并进行反向传播以更新网络参数。

本发明的下效果可通过以下实验进一步说明。

1)实验条件

本发明所有架构均用PyTorch框架作为后端实现。实验所用操作系统为Ubuntu18.04.4 LTS，软件PyCharm(2020.2.3)，处理器为Intel(R)Xeon(R)Silver 4210 CPU@2.20GHz，内存64GB，安装了最新的Cuda 10.2.89，训练过程由NVIDIA RTX 2080 Super GPU加速。本发明选用的Adam优化算法初始学习率设置为1e-3，batch size设为4，所有输入均在保持原图比例的情况下调整到长为256像素，本发明采用多尺度训练策略{0.75,1,1,25}以代替数据增强。整个网络以端到端的方式训练，训练中最终的预测结果S_p由S₃经过一个Sigmoid函数得出。

2)实验结果

Dice指标是语义分割中最常见的评价指标之一，它本质上是两个样本的重叠的度量，此度量值范围是0到1，1表示两个样本完全重叠，对于A与B两个样本，该指标可以表示为

本发明算法与U-Net，U-Net++，Attention U-Net以及PraNet在内的4个SOTA模型在CVC-ClinicDB数据集上的设置了对比实验。所有模型训练过程中在测试集上的Dice指标变化如图7所示，图中的曲线为经过了0.6的smooth之后的结果。结合表1可以看到，本发明的模型相比于其他SOTA模型在CVC-ClinicDB数据集上进行息肉分割有着更优的效果。

表1

图8显示了各个模型对于CVC-ClinicDB数据集的分割结果，从中可以看到本发明有着更加优秀的分割结果，也进一步说明了本发明模型相对于其他基准模型的优越性。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也基于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法，其特征在于，所述方法包括以下步骤：

步骤1：获取待分割图片：实验数据集是来自公开的息肉数据集CVC-ClinicDB，包含各种类型、形状和颜色的息肉图片；

步骤2：利用Res2Net深度卷积神经网络模块与二重压缩激励模块作为编码器提取图像的特征；

在进行特征编码时，通过建立4个分支并且建立分支间的联系以细化通道特征，并再此基础上并通过改进后的压缩激励操作进一步模拟通道间的相互依赖关系来重新校准特征响应，这样一来能更好地利用多尺度信息以达到更好的特征提取效果；进行编码后最终得到五个层次的特征{f_i,i＝1,2,…,5}，其中{f_i,i＝1,2}表示为浅层特征，{f_i,i＝3,4,5}表示为深层特征；

步骤3：在解码前通过多尺度空洞空间金字塔池化模块进一步利用多尺度特征来捕获上下文信息；

以空洞卷积为基础，采用扩张率rate分别为6、12、18的三个并行空洞卷积核对输入特征图进行空洞卷积操作，每个扩张率提取的特征将在各自的分支中建立分支间的相互联系，并通过激活函数与批归一化的方式进一步处理，最终对三个特征进行堆叠融合；

步骤4：通过PD模块进行解码，生成全局特征图S_g；

在解码部分采用了部分解码器p_d(·)，它在skip-connection部分仅聚合了深层特征而舍弃了浅层特征，部分解码器的特征按PD＝p_d(f₃,f₄,f₅)来计算，解码器输出获得全局特征图S_g；

步骤5：通过反转注意力模块建立区域与边界线索之间的关系，获取完整的预测结果；

步骤6：网络模型的训练策略的过程如下：

6.1首先获取并划分数据集；

6.3训练过程中的梯度下降算法选用了Adam算法；

6.4选用的损失函数结合了加权交并比损失与二进制交叉熵损失，表示为：

其中

表示加权交并比损失，

表示全局约束与局部约束(像素级)的二进制交叉熵损失。

并进行反向传播以更新网络参数。