CN113658201B

CN113658201B - 基于增强型多尺度特征的深度学习结直肠癌息肉分割装置

Info

Publication number: CN113658201B
Application number: CN202110879728.6A
Authority: CN
Inventors: 汪淼; 安兴伟; 明东; 刘钢; 杭伟; 李宁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2022-07-29
Anticipated expiration: 2041-08-02
Also published as: CN113658201A

Abstract

本发明公开了一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，所述装置包括：数据预处理模块，用于对结直肠癌息肉图像数据的分辨率进行调整和归一化处理；编码器模块，使用多尺度残差结构的特征提取器和能捕获多尺度感受野的感受野块组件对息肉的多样性特征进行提取；解码器模块，利用密集型多尺度跳跃连接传递上下文信息实现分割细节，通过局部上下文提供的注意力机制完成边界分割；并在上采样过程中使用深监督技术校准，减轻在训练时的梯度消失或爆炸现象。本发明解决了小息肉难以分辨和定位、以及息肉与周围组织边界模糊不清的问题，同时深监督机制的引入优化了网络模型的梯度，加快了网络模型的收敛，缩短了网络模型的训练时间。

Description

基于增强型多尺度特征的深度学习结直肠癌息肉分割装置

技术领域

本发明涉及基于深度学习的图像分割领域，尤其涉及一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置。

背景技术

结直肠癌(colorectal cancer,CRC)是世界上最常见的恶性肿瘤之一，它的死亡率在所有癌症中排名第三。研究表明，多数结直肠癌患者被发现时已经是中晚期伴随着转移，而95％的结直肠癌是由结直肠腺瘤性息肉引起的，整个发展过程大概需要5-10年。在腺瘤性息肉(polyp)阶段将病灶切除，就可以及时预防结直肠癌。因此，息肉的早期检测就显得尤为重要。

结肠镜检查(colonoscopy)被认为是早期检查和切除息肉的最佳诊断工具，是结肠癌筛查的金标准。然而，结肠镜检查质量较低导致漏诊率较高，其中国外息肉的漏诊率为6％-27％，国内的漏诊率约为22.5％。这是由于结肠镜检查需要内窥镜医生手动操作，是一种相对主观的检查方式，进行手术操作医生的技术水平是影响结肠镜检查质量的主要因素。因此，借助人工智能技术开发出一种计算机辅助诊断(computer aided diagnosis，CAD)的装置以辅助内窥镜医生的手术过程是提高结肠镜检查质量的重要手段。

近年来，息肉分割在结直肠癌的诊断和治疗中发挥着重要作用。息肉分割是一种基于结肠镜图像或视频的像素级分类任务，它可以将病变区域清晰地标注，与大肠周围的组织进行区分。然而，息肉分割任务面临着诸多挑战：其一，息肉的大小、形状和颜色等形态学信息具有多样性；其二，息肉与周围组织之间的边界模糊难以分辨。

因此，基于深度学习实现的具有自动和精确分割息肉功能的计算机辅助诊断装置具有重要的临床意义。

发明内容

本发明提供了一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，该装置由数据预处理模块、编码器模块和解码器模块组成，解决了小息肉难以分辨和定位、以及息肉与周围组织边界模糊不清的问题，同时深监督机制的引入优化了网络模型的梯度，加快了网络模型的收敛，缩短了网络模型的训练时间，详见下文描述：

一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，所述装置包括：

数据预处理模块，用于对结直肠癌息肉图像数据的分辨率进行调整和归一化处理；

编码器模块，使用多尺度残差结构的特征提取器和能捕获多尺度感受野的感受野块组件对息肉的多样性特征进行提取；

解码器模块，利用密集型多尺度跳跃连接传递上下文信息实现分割细节，通过局部上下文提供的注意力机制完成边界分割；并在上采样过程中使用深监督技术校准，减轻在训练时的梯度消失或爆炸现象。

其中，所述特征提取器用于提取息肉图像的多样性特征，所述特征提取器由五个编码器块组成，将输出的特征图定义为：

E＝[E₁,E₂,E₃,E₄,E₅]

其中，E₁,E₂,E₃,E₄,E₅均为特征。

进一步地，将E₃,E₄,E₅定义为高级特征，在所述高级特征对应的编码器块后加入感受野块组件，获取输出的特征图的多尺度感受野，将感受野块组件的输出特征表示为：

R_i＝RFB(E_i),i＝3,4,5

其中，E_i表示编码器块输出的拥有高级语义的特征，R_i表示具备多尺度感受野的特征。

其中，所述解码器模块包括：多尺度跳跃连接、局部上下文子模块及深监督子模块。

进一步地，所述多尺度跳跃连接为：

上采样过程中使用多尺度跳跃连接传输来自编码器模块的特征，解码器模块的特征定义为：

D＝[D₁,D₂,D₃,D₄,D₅]

对于每一个特征D_i由下述公式得到：

D₅＝R₅

D₄＝⊙(C(↓(E₁)),C(↓(E₂)),C(↓(R₃)),C(R₄),C(↑(D₅)))

D₃＝⊙(C(↓(E₁)),C(↓(E₂)),C(R₃),C(↑(D₄)),C(↑(D₅)))

D₂＝⊙(C(↓(E₁)),C(E₂),C(↑(D₃)),C(↑(D₄)),C(↑(D₅)))

D₁＝⊙(C(E₁),C(↑(D₂)),C(↑(D₃)),C(↑(D₄)),C(↑(D₅)))

式中，↓(·)表示基于池化的下采样操作，↑(·)表示基于双线性插值的上采样操作，C(·)表示卷积操作，⊙(·)表示复合操作，将得到的通道和尺度大小相同的特征图按照串联形式拼接在一起，使用卷积、ReLU激活函数、批归一化将拼接后的特征图进行融合。

进一步地，所述局部上下文子模块为：

其中，σ(·)表示Sigmoid函数，pred表示输出的预测图在上采样各阶段的表达，AttenMap表示侧重边界像素的注意力图；

表示矩阵逐元素相乘操作，

表示矩阵逐元素相加操作，X表示的是解码器的特征图，X_atten表示经过注意力机制强化后的解码器的特征图。

本发明提供的技术方案的有益效果是：

1、现有的一些息肉分割的装置，虽然考虑到了基于多尺度信息来进一步提升息肉分割装置的性能，但这些方法大多数从1～3个方面挖掘息肉的多尺度特征，并没有充分利用多尺度信息和更有效的注意力机制来处理息肉的多样性特征和息肉边界；

2、本发明从5个方面(多尺度跳跃连接、多尺度残差结构的特征提取器、多尺度感受野块、多尺度训练、局部上下文注意力机制)对息肉的多尺度特征信息进行增强，更好地解决了小息肉难以分辨和定位以及息肉与周围组织边界模糊不清的问题；同时深监督机制的引入优化了网络模型的梯度，加快了网络模型的收敛，缩短了网络模型的训练时间；

3、经过实验验证，本发明提出的装置在三个具有挑战性且开源的结直肠癌息肉分割数据集具有比其他发明装置更好的鲁棒性和泛化能力，结合表1～3可以看出本发明所提出的装置在分割性能上的优越表现。

附图说明

图1为本发明装置的整体架构图；

图2为本发明装置的网络模型架构图；

图3为密集型多尺度跳跃连接的原理图；

图4为感受野组件的原理图；

图5为局部上下文注意力模块的实现原理图；

图6为本发明所提出的方法与其他方法的在CVC-ClinicDB数据集上的结果对比图；

图7为本发明所提出的方法与其他方法的在Kvasir-SEG数据集上的结果对比图。

表1是本发明装置对比其他发明在EndoScene数据集上的表现；

表2是本发明装置对比其他发明在CVC-ClinicDB数据集上的表现；

表3是本发明装置对比其他发明在Kvasir-SEG数据集上的表现。

其中，采用了医学图像分割中常用的指标：Dice、mIou、wfm、Sm、maxEm、MAE。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

由于结肠癌息肉具有多样性的特征和模糊边界，那么同时将这两项问题进行有效的处理就成为了精确息肉分割的关键。针对以上问题，本发明实施例提出了一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，该装置由数据预处理模块、编码器模块和解码器模块组成。数据预处理模块，用于结直肠癌息肉图像数据的分辨率调整和归一化处理等操作，经过归一化处理的数据可以促进卷积神经网络的收敛。编码器模块使用具有多尺度残差结构的特征提取器和能捕获多尺度感受野的感受野块组件(receptive fieldblock,RFB)对息肉的多样性特征进行有效且细粒度的提取，可以更好的解决中小息肉难以分辨和定位的问题。解码器模块利用密集型多尺度跳跃连接(multi-scale skipconnection)传递更丰富的上下文信息实现更好的分割细节，然后进一步借助局部上下文模块(local context attention,LCA)提供的注意力机制完成更准确的边界分割，并在上采样过程中使用深监督技术校准网络模型和减轻其在训练时的梯度消失或爆炸现象，加快网络的收敛速度。

一、实验数据集

选择三个开源且具有挑战性的息肉分割数据集(EndoScene,CVC-ClinicDB,Kvasir-SEG)作为本发明的实验数据集。

其中，该数据集包括多种不同大小、颜色和纹理的息肉图像和对应标注的灰度图像(Ground Truth)。

二、数据预处理模块

将原始数据和对应的标注经一系列预处理，主要目的是为了防止大分辨率的息肉图片占据过多的计算资源以及保证不同的特征在神经网络更新时的一致性，加快神经网络模型的收敛速度。

本发明实施例的预处理依次按照以下流程进行：将原始分辨率下的息肉图像和分割标注的灰度图像调整为352×352大小，按照ImageNet数据集的均值和方差对息肉图像进行归一化，将分割标注的灰度图像的像素值进行全局归一化到[0,1]范围。

为了强化神经网络模型在三个原始数据集上的鲁棒性和泛化能力，本发明实施例中使用多尺度训练对图像按照[0.75,1,1.25]的缩放系数代替数据增强方法。

三、编码器模块

由两部分组成：①多尺度表达的骨干网络；②感受野块组件。

3.1多尺度表达的骨干网络

编码器模块(即下采样过程)使用具有多尺度残差结构的Res2Net作为特征提取器提取息肉图像的多样性特征，其中特征提取器由五个编码器块(Encoder-Block_i,i＝1,2,…,5)组成，将这五个编码器块编码后输出的特征图定义为：

E＝[E₁,E₂,E₃,E₄,E₅] (1)

3.2感受野块组件

在神经网络中较浅层输出是低级特征图，其可以捕获丰富的空间信息和强调目标的边界，但视觉语义不充足；而较深层输出是高级特征图，其视觉语义丰富且拥有较深的感受野，可以体现目标的位置信息。因此，将E_l＝[E₁,E₂]定义为低级特征，E_h＝[E₃,E₄,E₅]定义为高级特征。由于高级特征E_h拥有高级语义和更深的感受野，所以在网络结构较深的三个编码器块(Encoder-Block₃,Encoder-Block₄,Encoder-Block₅)后面加入感受野块组件，可以获取到基于原始图像的特征图的多尺度感受野，增强编码器和解码器之间以及网络最深层的特征表示，将感受野块组件的输出特征表示为：

R_i＝RFB(E_i),i＝3,4，5 (2)

式(2)中的RFB表示感受野块组件中由多分支的卷积和空洞卷积组成的复合运算，E_i表示编码器块输出的拥有高级语义的特征，R_i表示具备多尺度感受野的特征。

四、解码器模块

由三部分组成：①多尺度跳跃连接；②局部上下文模块；③深监督。

4.1多尺度跳跃连接

解码器模块(即上采样过程)使用多尺度跳跃连接传输来自编码器的特征。相比于正常的跳跃连接，密集型多尺度跳跃连接使得一个解码器可以同时获得多个编码器输出的特征，因此解码器所拥有的特征是多尺度且丰富的，可以更好的提升分割性能。将解码器的特征定义为：

D＝[D₁,D₂,D₃,D₄,D₅] (3)

对于每一个特征D_i(i＝1,2,3,4,5)其由下述公式得到：

D₅＝R₅ (4)

D₄＝⊙(C(↓(E₁)),C(↓(E₂)),C(↓(R₃)),C(R₄),C(↑(D₅))) (5)

D₃＝⊙(C(↓(E₁)),C(↓(E₂)),C(R₃),C(↑(D₄)),C(↑(D₅))) (6)

D₂＝⊙(C(↓(E₁)),C(E₂),C(↑(D₃)),C(↑(D₄)),C(↑(D₅))) (7)

D₁＝⊙(C(E₁),C(↑(D₂)),C(↑(D₃)),C(↑(D₄)),C(↑(D₅))) (8)

式(5)～(8)中↓(·)表示基于池化的下采样操作，↑(·)表示基于双线性插值的上采样操作，C(·)表示卷积操作，⊙(·)表示复合操作，即将得到的通道和尺度大小的特征图按照串联形式拼接在一起，然后使用卷积、ReLU激活函数、批归一化将拼接后的特征图进行融合，得到丰富的且多尺度的语义信息特征。

4.2局部上下文模块

解码器模块的多尺度跳跃连接融合了丰富且多尺度的语义特征，提升了多样性息肉的分割效果，但多尺度的特征图在融合过程中也在一定程度上丢失了边界信息。通过使用基于注意力机制的局部上下文模块强化息肉与周围组织的边界轮廓信息，获取更精确的分割结果。局部上下文模块的定义如下：

其中，式(9)中的σ(·)表示Sigmoid函数，pred表示息肉分割装置输出的预测图在上采样各阶段的表达，AttenMap表示侧重边界像素的注意力图。式(10)中的

表示矩阵逐元素相乘操作，

表示矩阵逐元素相加操作，X表示的是解码器的特征图[D₁,D₂,D₃,D₄]，X_atten表示经过注意力机制强化后的解码器的特征图。

4.3深监督

整个网络模型引入了多尺度跳跃连接这种密集型的拓扑结构后，增加了神经网络反向传播中的梯度，为了减轻梯度爆炸或梯度消失对于网络模型的影响，提升收敛速度，故在分割装置中引入了深监督机制，通过辅助损失函数对网络模型起到校准和剪枝的作用。

五、最终分割的预测结果

将解码器的特征D_i和对应的预测值作为局部上下文模块的输入，在上采样过程中逐步获得拥有更准确的息肉特征和更清晰的边界的特征图D_i-1，同时利用深监督机制优化网络模型的梯度。最终，特征图D₁经过LCA模块强化后得到注意力特征图

其通过Sigmoid函数后获得最终分割的预测结果。

本发明实施例通过对结肠镜检查中的内镜图像进行一系列的预处理，如：调整分辨率大小、归一化、多尺度训练等，然后利用具有多尺度残差结构的特征提取器和能捕获多尺度感受野的感受野块组件对息肉的多样性特征进行有效且细粒度的提取，再使用多尺度跳跃连接传递密集且丰富的上下文信息，进一步采用局部上下文注意力机制建立息肉的边界关系，实现精确的边界轮廓提取，最后引入深监督机制优化网络模型的梯度，缩短网络模型的训练时间，加快其收敛速度。

表1

Method	mDice	mIoU	wfm	Sm	maxEm	MAE
							U-Net	0.710	0.627	0.684	0.843	0.876	0.022
U-Net++	0.707	0.624	0.687	0.839	0.898	0.018
							SFA	0.467	0.329	0.341	0.640	0.817	0.065
PraNet	0.871	0.797	0.843	0.925	0.972	0.010
							ours	0.900	0.834	0.885	0.943	0.969	0.006

表2

表3

Method	mDice	mIoU	wfm	Sm	maxEm	MAE
							U-Net	0.818	0.746	0.794	0.858	0.893	0.055
U-Net++	0.821	0.743	0.808	0.862	0.910	0.048
							ResUNet	0.791	n/a	n/a	n/a	n/a	n/a
ResUNet++	0.813	0.793	n/a	n/a	n/a	n/a
							SFA	0.723	0.611	0.670	0.782	0.849	0.075
PraNet	0.898	0.84	0.885	0.915	0.948	0.030
							ours	0.897	0.842	0.889	0.915	0.943	0.026

该发明可有效地实现精确、快速、鲁棒性强、泛化能力好的息肉分割任务，并获得客观的社会效益和经济效益。最佳实施方案拟采用专利转让、技术合作或产品开发。基于该发明开发的产品可以应用于辅助临床医生诊断和筛查结直肠腺瘤性息肉，帮助患者及时预防结直肠癌。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，其特征在于，所述装置包括：

解码器模块，利用密集型多尺度跳跃连接传递上下文信息实现分割细节，通过局部上下文提供的注意力机制完成边界分割；并在上采样过程中使用深监督技术校准，减轻在训练时的梯度消失或爆炸现象；

所述特征提取器用于提取息肉图像的多样性特征，所述特征提取器由五个编码器块组成，将输出的特征图定义为：

E＝[E₁，E₂，E₃，E₄，E₅]

其中，E₁，E₂，E₃，E₄，E₅均为特征；

将E₃，E₄，E₅定义为高级特征，在所述高级特征对应的编码器块后加入感受野块组件，获取输出的特征图的多尺度感受野，将感受野块组件的输出特征表示为：

R_i＝RFB(E_i)，i＝3，4，5

其中，E_i表示编码器块输出的拥有高级语义的特征，R_i表示具备多尺度感受野的特征，RFB表示感受野块组件中由多分支的卷积和空洞卷积组成的复合运算；

所述解码器模块包括：多尺度跳跃连接、局部上下文子模块及深监督子模块；

所述多尺度跳跃连接为：

D＝[D₁，D₂，D₃，D₄，D₅]

对于每一个特征D_i由下述公式得到：

D₅＝R₅

D₄＝⊙(C(↓(E₁))，C(↓(E₂))，C(↓(R₃))，C(R₄)，C(↑(D₅)))

D₃＝⊙(C(↓(E₁))，C(↓(E₂))，C(R₃)，C(↑(D₄))，C(↑(D₅)))

D₂＝⊙(C(↓(E₁))，C(E₂)，C(↑(D₃))，C(↑(D₄))，C(↑(D₅)))

D₁＝⊙(C(E₁)，C(↑(D₂))，C(↑(D₃))，C(↑(D₄))，C(↑(D₅)))

2.根据权利要求1所述的一种基于增强型多尺度特征的深度学习结直肠癌息肉分割装置，其特征在于，所述局部上下文子模块为：

表示矩阵逐元素相乘操作，