CN114627137A

CN114627137A - 基于轻量化网络模型和反向注意力模块的息肉分割方法

Info

Publication number: CN114627137A
Application number: CN202210247287.2A
Authority: CN
Inventors: 龙建武; 宋鑫磊; 曾子秦; 刘�东
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-14

Abstract

本发明提供一种基于轻量化网络模型和反向注意力模块的息肉分割方法，包括通过去掉轻量化网络模型MobileNetV3的最后分类网络部分并用协调注意力模块代替SENet模块改进MobileNetV3，得到轻量化网络分割模型CaNet作为主干网络；将主干网络输出的高级特征并联传入并联轴向感受野模块内，在不丢失细节信息的同时提取到全局依赖关系和局部表示；将并联轴向感受野模块并联输出的特征图经过不同倍数上采样至统一大小，通过逐点相乘进行聚合及双线性插值，初步得到一个全局映射图；利用反向注意力模块通过高级输出特征中擦除现有已估计的息肉区域，从而顺序地挖掘互补区域和细节，得到更加精细化的息肉分割结果，提高了分割精度。本发明对于息肉图像数据集分割更加轻量高效化。

Description

基于轻量化网络模型和反向注意力模块的息肉分割方法

技术领域

本发明涉及息肉分割技术领域，具体涉及一种基于轻量化网络模型和反向注意力模块的息肉分割方法。

背景技术

研究报告数据显示结直肠癌是发病率最高的几大癌症之一，也是死亡率最高的癌症之一。当疾病发展到晚期时，结肠癌的5年生存率远远低于早期检出，最低只有10％，在早期诊断的病例中，如果早期检出治疗成功其5年生存率就会提高到90％以上。因此，通过筛查和切除癌前病变来预防结直肠癌至关重要。在实际切除息肉手术时，需要大量的依赖医师对于息肉部位的观察与分析，如何快速准确的定位出息肉的位置，将不同息肉的尺寸进行测量等操作，均取决于息肉的准确定位与分割。因此，在临床上精确的息肉分割是非常重要且急需的。

近年来，在传统息肉分割方法中，早期基于学习的方法依赖于人工提取的特征，如颜色、纹理、形状、外观以及这些特征的组合。2015年Bernal等提出一种基于纹理检测息肉的方法，其使用窗谷堆积中值深度能量图来获得与息肉相关的连续边界，进而定位息肉区域。2018年Sasmal等基于息肉的形状，采用主成分追踪的方法对图像进行低秩稀疏分解，然后通过Chan-Vese算法对息肉图像进行分割。这类方法无法同时将息肉区域包含的所有特征进行有效结合，只是单一地考虑部分特征，导致分割结果存在一定的局限性。

相比传统息肉分割方法，深度卷积神经网络在医学影像分割中的表现有着更加突出的优势。大部分深度学习方法侧重于对息肉的整个区域进行分割，但忽略了区域边界约束，而精准的边界信息对提高分割性能至关重要。针对以上问题，2019年，Murugesan等在息肉分割中同时利用区域和边界信息，但并没有完全捕捉到区域和边界之间的关系。此外，Fang等还提出了一种同时具有区域和边界约束的三步选择性特征聚集网络用来分割息肉，该方法显式地考虑了区域和边界之间的依赖性，并通过附加的边缘监督获得了良好的结果，但其计算效率较低，并有过拟合的风险。2020年，Fan等提出了一种基于并行局部高级特征解码方案，利用反向注意力机制来更好的寻找目标区域特征和边界细节，并且增加一个感受野模块来获得更多可视化信息，但是它为提高效率舍弃低级特征从而损失了部分语义信息，模型参数量大，计算复杂度高。

针对以上方法存在的一些问题，如何创新性地设计一种高效而精准的息肉分割方法显得尤为重要。

发明内容

针对现有息肉分割方法中存在模型参数量大，计算复杂度高，息肉分割精度低的技术问题，本发明提供一种基于轻量化网络模型和反向注意力模块的息肉分割方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于轻量化网络模型和反向注意力模块的息肉分割方法，包括以下步骤：

S1、利用协调注意力模块改进轻量化网络模型MobileNetV3，具体为通过去掉轻量化网络模型MobileNetV3的最后分类网络部分并用协调注意力模块代替SENet模块，得到轻量化网络分割模型CaNet作为主干网络；

S2、将主干网络输出的高级特征并联传入并联轴向感受野模块内，在不同尺度下进行额外的全局细化并连接输出，在不丢失细节信息的同时提取到全局依赖关系和局部表示；

S3、将并联轴向感受野模块并联输出的特征图经过不同倍数上采样至统一大小，通过逐点相乘进行聚合，再经过双线性插值，初步得到一个具有无结构化的全局映射图，用以提供息肉的粗略定位信息；

S4、将全局映射图及并联轴向感受野模块并联输出的高级侧特征送入多个以级联方式构建的反向注意力模块内，反向注意力模块通过高级输出特征中擦除现有已估计的息肉区域，从而顺序地挖掘互补区域和细节，得到更加精细化的息肉分割结果，最末尾一个反向注意力模块的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图。

进一步，所述步骤S1中协调注意力模块先使用尺寸(H,1)和(1,W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道输入特征图进行编码，之后这两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图，每个方向感知注意力图都捕获了输入特征图沿着一个空间方向的长程依赖，并保存着另一个空间方向的精确位置信息，接着进行正则化和非线性函数后再将特征图进行卷积和Sigmoid函数，最后输出注意力权重。

进一步，所述步骤S2中主干网络输出的高级特征并联传入三个并联轴向感受野模块内，每个并联轴向感受野模块先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，接着分别通过空洞率为3、5、7的空洞卷积模块，并行添加并联轴向注意力模块对每个尺度进行额外的全局细化并连接输出，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

进一步，所述并联轴向注意力模块通过采用轴向注意策略，使用输入特征映射计算采用并联放置方式的水平轴和垂直轴的非局部操作，具体分别在水平轴和垂直轴的轴向中，先经过两个1×1的卷积之后矩阵相乘变换，再和一个1×1卷积进行矩阵相乘变换，最后将两个轴向的输出进行逐点相加，输出特征图。

进一步，所述步骤S4中具体以级联方式构建的有三个反向注意力模块，将下采样后的全局映射图及第一并联轴向感受野模块输出的高级侧特征送入第一反向注意力模块内来获得第一反向注意力特征，第一反向注意力特征和下采样后的全局映射图相加后的输出一方面与第二并联轴向感受野模块输出的高级侧特征送入第二反向注意力模块内来获得第二反向注意力特征，另一方面经过上采样后与第二反向注意力特征相加，该相加后的输出一方面与第三并联轴向感受野模块输出的高级侧特征送入第三反向注意力模块内来获得第三反向注意力特征，另一方面经过上采样后与第三反向注意力特征相加，该相加后的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图。

进一步，每个反向注意力模块通过将对应并联轴向感受野模块输出的高级侧特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i被描述为：

其中，P(·)表示上采样操作，σ(·)是Sigmoid激活函数，

是从全1矩阵E中减去输入的反向运算符。

进一步，每个反向注意力模块的输出和全局映射图采用深监督整体损失函数作为优化目标，整体损失函数定义如下：

其中，G为真值图，S_g为全局映射图，

为全局映射图被上采样，S_i为反向注意力模块的输出，

为反向注意力模块的输出被上采样，L为加权IoU损失函数与加权二进制交叉熵BCE损失函数的结合，具体描述如下：

其中，

表示基于全局约束的加权IoU损失，

表示基于局部约束的加权二进制交叉熵BCE损失；

和

分别定义如下：

其中，i∈I指的是预测值和真值中的像素点，y表示真值，

表示预测值，w是加权值。

进一步，所述方法还包括采用加权Dice度量

结构指标S_α、平均绝对误差MAE、增强对齐指标

指标来度量最终预测图S_p与真值图G之间的相似性与不相似性，各指标具体表述为：

其中，ω是基于各个类别样本数来赋予各个类别的权重；Precision指的是准确率，表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；Recall指的是召回率，表示在原始样本的正样本中，最后被正确预测为正样本的概率；

S_α＝(1-α)*S_o(S_p,G)+α*S_r(S_p,G)

其中，α是用于控制对象级别相似度S_o和区域级别相似度S_r的平衡系数；

其中，w和h代表真值图G的宽和高，(x,y)表示真值图G中每个像素的坐标，符号

是增强对齐矩阵。

与现有技术相比，本发明提供的基于轻量化网络模型和反向注意力模块的息肉分割方法具有以下优点：

1、本发明利用协调注意力模块改进轻量化网络模型MobileNetV3，以改进后得到的轻量化网络分割模型CaNet作为主干网络，以此能更加精准的识别和定位感兴趣位置，提高计算效率和性能，使息肉分割网络模型更加轻量化。

2、本发明中使用的并联轴向感受野模块，在不丢失细节信息的基础上，能更好地进行局部表示和提取到全局依赖关系，可以对不同尺度进行额外的全局细化并连接输出，因而不仅仅只关注于局部表示，其对全局依赖关系也有着较好的提取，从而对区域信息的分割更加全面化。

3、本发明将输出的特征通过反向注意力模块利用一种前景擦除的方式来更好地挖掘息肉目标区域和边界信息，同时利用真值图像对网络进行深度监督，来减少梯度消失和解决网络收敛过慢的问题，从而有效提高了息肉分割精度，使其更加高效化。

附图说明

图1是本发明提供的基于轻量化网络模型和反向注意力模块的息肉分割方法原理框图。

图2是本发明提供的用于改进MobileNetV3得到图1中主干网络CaNet的协调注意力模块结构示意图。

图3是本发明提供的图1中并联轴向感受野模块结构示意图。

图4是本发明提供的图3中并联轴向注意力模块结构示意图。

图5是本发明提供的图1中反向注意力模块结构示意图。

图6是本发明与其他典型模型方法的计算复杂度(FLOPs)对比分析结果图。

图7是本发明与其他典型模型方法的模型参数量(Params)对比分析结果图。

图8是本发明与其他典型模型方法在五个不同的息肉数据集上进行定性结果比较图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

请参考图1所示，本发明提供一种基于轻量化网络模型和反向注意力模块的息肉分割方法，包括以下步骤：

S1、利用协调注意力模块CA(Coordinated Attention)改进轻量化网络模型MobileNetV3，具体为通过去掉轻量化网络模型MobileNetV3的最后分类网络部分并用协调注意力模块CA代替SENet模块，得到轻量化网络分割模型CaNet作为主干网络，以帮助本发明提供的基于轻量化网络模型和反向注意力模块的息肉分割网络模型MobileRaNet更加精准地定位和识别感兴趣的目标，提高计算效率和性能；

S2、将主干网络CaNet输出的高级特征并联传入并联轴向感受野模块PA_RFB(Parallel Axial Receptive Field Module)内，在不同尺度下进行额外的全局细化并连接输出，在不丢失细节信息的同时提取到全局依赖关系和局部表示；

S3、将并联轴向感受野模块PA_RFB并联输出的特征图经过不同倍数上采样至统一大小，通过逐点相乘进行聚合，再经过双线性插值，初步得到一个具有无结构化的全局映射图S_g，用以提供息肉的粗略定位信息；

S4、因为全局映射图S_g来自最深的卷积神经网络，它只能捕捉息肉组织的相对粗略位置，而没有结构细节，所以将全局映射图S_g及并联轴向感受野模块PA_RFB并联输出的高级侧特征送入多个以级联方式构建的反向注意力模块RA(Reverse Attention)内，反向注意力模块RA通过高级输出特征中擦除现有已估计的息肉区域，从而顺序地挖掘互补区域和细节，得到更加精细化的息肉分割结果，提高了分割精度，对于息肉图像数据集分割也更加轻量高效化，最末尾一个反向注意力模块RA的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图S_p。

作为具体实施例，本发明中关于主干网络CaNet的设计背景如下：考虑到轻量级网络有限的计算能力，而目前最流行的注意力机制仍然是SENet中使用的SE Attention，它通过2D全局池化来计算通道注意力，在相当低的计算成本下提供了显著的性能提升。但遗憾的是，SE模块只考虑了通道间信息的编码而忽视了位置信息的重要性，而位置信息其实对于很多需要捕获目标结构的视觉任务至关重要。因此，后来CBAM等方法通过减少通道数继而使用大尺寸卷积来利用位置信息。然而，卷积仅仅能够捕获局部相关性，对建模视觉任务非常重要的长程依赖则显得有些有心无力。基于此，CA模块通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力，同时避免了产生大量的计算开销。为了有效地将空间坐标信息整合到生成的注意图中来提高网络的分割精度，与SENet模块在MobileNetV3的用法相似，将在点向卷积后的SENet模块替换为CA模块。而CA模块可以利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图，然后这两个嵌入特定方向信息的特征图分别被编码为两个注意力图，每个注意力图都捕获了输入特征图沿着一个空间方向的长程依赖。因此，位置信息就被保存在生成的注意力图里了，两个注意力图接着被乘到输入特征图上来增强特征图的表示能力。最终通过在主干网络CaNet中利用CA模块，增加了对全局依赖表示，在几乎不带来额外计算开销的前提下，提升了网络的精度。

作为具体实施例，请参考图2所示，全局池化常用于通道注意力中来全局编码空间信息为通道描述符，因此难以保存位置信息。为了促进注意力模块能够捕获具有精确位置信息的空间长程依赖，将全局池化分解为一对一维特征编码操作。具体而言，所述步骤S1中协调注意力模块CA，对于输入X，先使用尺寸(H,1)和(1,W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道输入特征图进行编码，之后这两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图，每个方向感知注意力图都捕获了输入特征图沿着一个空间方向的长程依赖，并保存着另一个空间方向的精确位置信息，这有助于网络更准确地定位感兴趣的目标，接着进行正则化和非线性函数后再将特征图进行卷积和Sigmoid函数，最后输出注意力权重。因此，本发明提供的协调注意力模块CA，为了缓解2D全局池化造成的位置信息丢失，通过将通道注意力分解为两个并行的1D特征编码过程，有效地将空间坐标信息整合到生成的注意图中，其通过精确的位置信息对通道关系和长程依赖进行编码，不仅能捕获跨通道的信息，还能捕获方向感知和位置感知的信息。

作为具体实施例，本发明所述并联轴向感受野模块PA_RFB是由并联轴向注意力模块PAA(Parallel Axia Attention)和感受野模块RFB(Receptive Field Block)组合而成，用于提取全局依赖关系和局部表示，即为了为了在减少通道数量的同时不丢失任何细节信息，本发明设计了带有感受野模块RFB策略的并联轴向感受野模块PA_RFB。作为具体实施方式，请参考图1和图3所示，所述步骤S2中主干网络CaNet输出的高级特征(左框)并联传入三个并联轴向感受野模块PA_RFB内，每个并联轴向感受野模块PA_RFB先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，以此减少计算量，接着分别通过空洞率为3、5、7的空洞卷积模块，并行添加并联轴向注意力模块PAA对每个尺度进行额外的全局细化并连接输出，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

作为具体实施例，请参考图4所示，在深度学习时代，通常细粒度的特征图都很难提取并相互结合，利用轴向注意力解决了这个问题，它针对单轴执行非局部操作，并将每个操作顺序连接起来。本发明设计并联轴向注意力提取全局依赖和局部表示，通过采用轴向注意力策略，计算水平轴和垂直轴的非局部操作，但是采用的是并联放置方式。通过定位垂直和水平的注意力，这两种方法对最终输出的贡献几乎与顺序方法相同。此外经观察还发现，使用并联连接时，像素级求和比串联更能有效地聚合特征映射，而且不会降低性能。因为水平轴和垂直轴都使用相同的输入，并且它们对平行连接输出的贡献几乎相等。然而，由于基于单个轴的注意力会导致意外变形，像素级的总和可以帮助弥补这种伪像。本发明使用输入特征映射计算了两个非局部操作，一个用于水平轴，另一个用于垂直轴，即使用输入特征映射计算采用并联放置方式的水平轴和垂直轴的非局部操作，具体分别在水平轴和垂直轴的轴向中，先经过两个1×1的卷积之后矩阵相乘变换，再和一个1×1卷积进行矩阵相乘变换，最后将两个轴向的输出进行逐点相加，输出特征图。因此，本发明提供的并联轴向注意力模块，通过采用轴向注意策略来计算水平轴和垂直轴的非局部操作，而且采用的是并联放置方式，实现对每个尺度进行额外的全局细化并连接输出。

作为具体实施例，请参考图1所示，所述步骤S4中具体以级联方式构建的有三个反向注意力模块RA，将下采样后的全局映射图S_g及第一并联轴向感受野模块输出的高级侧特征f₅送入第一反向注意力模块RA1内来获得第一反向注意力特征R₅，第一反向注意力特征R₅和下采样后的全局映射图相加后的输出一方面与第二并联轴向感受野模块输出的高级侧特征f₄送入第二反向注意力模块RA2内来获得第二反向注意力特征R₄，另一方面经过上采样后与第二反向注意力特征R₄相加，该相加后的输出一方面与第三并联轴向感受野模块输出的高级侧特征f₃送入第三反向注意力模块内来获得第三反向注意力特征R₃，另一方面经过上采样后与第三反向注意力特征R₃相加，该相加后的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图S_p。而本实证例中所述三个反向注意力模块以级联方式构建，实质是指第二反向注意力模块RA2的输出要依赖于第一反向注意力模块RA1的输出，而第三反向注意力模块RA3的输出要依赖于第二反向注意力模块RA2的输出，最后，最末尾一个第三反向注意力模块RA3的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图S_p。

作为具体实施例，本发明关于反向注意力模块RA的设计背景如下：在临床上，医生先大致定位息肉区域，然后再仔细检查局部组织，以准确标记息肉。参考其做法，首先通过解码部分高级特征生成一个具有无结构化的全局映射图S_g，用以提供息肉的粗略定位信息；其次利用一个渐进式框架作为精细的标注器，以一种前景擦除的方式逐步挖掘有区别的息肉区域。具体而言，相比于现有简单地聚合所有特征层，本发明选择以一种从高级输出特征中擦除现已估计的息肉区域，从而有顺序地挖掘互补区域和细节信息，而当前预测结果则由更深的网络层的信息上采样得到。

作为具体实施例，请参考图5所示，每个反向注意力模块RA通过将对应并联轴向感受野模块输出的高级侧特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i是已广泛应用在计算机视觉研究领域中的显著目标检测任务，它被描述为：

其中，P(·)表示上采样操作，σ(·)是Sigmoid激活函数，

是从全1矩阵E中减去输入的反向运算符。其中，图5展示出了该过程的细节，由反向注意力驱动的擦除机制最终可以将不精确和粗略的估计细化为准确而完整的边缘预测图。

作为具体实施例，本发明的损失函数L设计为加权IoU损失函数与加权二进制交叉熵BCE损失函数的结合，具体描述如下：

其中，

表示基于全局约束的加权IoU损失，

表示基于局部(像素级)约束的加权二进制交叉熵BCE损失；

和

分别定义如下：

其中，i∈I指的是预测值和真值中的像素点，y表示真值，

表示预测值，w是加权值。与目前广泛应用于分割任务中的标准IoU损失不同，加权IoU损失通过增加困难样本像素的权重来突出其重要性。另外，与标准的BCE损失函数相比，

更注重困难样本像素，而不是对所有像素进行等权重分配。同时，本发明对三个反向注意力模块的输出(即：S₃，S₄，S₅)和全局映射图S_g采用深监督策略，即采用深监督整体损失函数作为优化目标，映射图都被逐一上采样(例如

)到与真值图G相同的大小，从而最终提出的MobileRaNet的整体损失函数定义如下：

其中，G为真值图，S_g为全局映射图，

为全局映射图被上采样，S_i为反向注意力模块的输出，

为反向注意力模块的输出被上采样。

作为具体实施例，本发明将主要使用Kvasir的官方网站作为比较的依据，即meanDice和mean IoU。同时，为了更深入地了解模型性能和其他的方法进行对比，本发明同样会使用在目标检测领域中广泛使用的其他四种度量方法。在对比中，本发明选择具有Sigmoid激活函数的S₃作为最终预测图S_p。因此，本发明息肉分割方法还包括采用加权Dice度量

结构指标S_α、平均绝对误差MAE、增强对齐指标

其中，该

指标用于修正Dice中的“同等重要的缺陷”的问题，ω是基于各个类别样本数来赋予各个类别的权重；Precision指的是准确率，表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；Recall指的是召回率，表示在原始样本的正样本中，最后被正确预测为正样本的概率；

S_α＝(1-α)*S_o(S_p,G)+α*S_r(S_p,G)

其中，该S_α指标用于度量预测图和真值图之间的结构相似度，α是用于控制对象级别相似度S_o和区域级别相似度S_r的平衡系数；

其中，该MAE指标用于同时度量两张二值图之间局部和全部相似度，

指标用于度量最终预测图S_p和真值图G之间像素级别的误差，w和h代表真值图G的宽和高，(x,y)表示真值图G中每个像素的坐标，符号

是增强对齐矩阵。本发明将预测图S_p按照阈值0到255进行阈值化得到一组二值图，从而得到一组

的分数。

具体地，本发明实验遵循和其余方法一样的原则，使用从Kvasir和CVC-ClinicDB中随机选取的图像进行训练，但是本文使用相同的训练数据进行公平比较，这些训练数据已经从Kvasir和CVC-ClinicDB中提取，总共包含1450张图像。对于基准数据集，本文使用五个不同的数据集分别为ETIS[48]、CVC-ClinicDB/CVC-612、CVC-ColonDB、CVC-300和Kvasir，前四个是标准的评测数据集，最后一个是近期公开的最大规模的具有挑战性数据集。下面将详细介绍下五个息肉数据集。

ETIS：该数据集包含了从34个结肠镜视频中采集的196张图像，图像的大小为1225×966，是其他数据集中最大的，这使得该数据集更具挑战性。

CVC-ClinicDB:该数据集也被称为CVC-612，包含了25个结肠镜检查视频中的612个图像，图像的大小为384×288，其中62幅图像用于测试，其余图像用于训练。

CVC-ColonDB:该数据集从15个不同的结肠镜检查序列中收集，并从这些序列中采样380张图像，图像大小为574×500，所有图像都作为本发明的测试集数据。

CVC-300:该数据集是一个来自EndoScene的测试数据集，EndoScene包含了来自36例患者的44个结肠镜检查序列的912张图像，图像大小为574500，EndoScene包括Endosece-CVC300和Endosece-CVC612。因为CVC-612数据集的一部分可能被用于训练，所以本实验只使用Endosece-CVC300测试集，总共有60个样本。

Kvasir：该数据集是最近发布的一个具有挑战性的数据集，它包含从Kvasir数据集的子类(息肉类)中选择的1000张图像，由息肉图像和相应的注释组成。与其他数据集不同，图像的大小从332×487到1920×1072不等，图像中出现的息肉的大小和形状也各不相同，包括有大于160×160的大型息肉700张，小于64×64的小型息肉48张，大小范围内的中型息肉323张。其中900张图像用于训练，100张图像用于测试。具体以上五个息肉数据集的信息如下表1所示。

表1息肉数据集信息

数据集	样本数	样本大小	用途
				ETIS	196	1255×966	测试集(196)
CVC-ClinicDB	612	384×288	训练集(550)测试集(62)
				CVC-ColonDB	380	574×500	测试集(380)
CVC-300	912	574×500	测试集(60)
				Kvasir	1000	332×487～1920×1072	训练集(900)测试集(100)

第一、本发明在Kvasir数据集上进行了一些实验来验证MobileRaNet的每个关键模块(包括CA、PA_RFB、RA)的性能，实验结果如下表2所示。

表2在Kvasir数据集上的消融实验

1)CA的有效性：为了探索CA模块的有效性，本发明得出了两个基线模型：表2中的No.1(仅主干网络Backbone)&No.2(主干网络+CA)，结果清楚表明，CA模块对于性能提高的有效性。

2)RA的有效性：本发明研究了RA模块的重要性，从表2中可以看出，No.3(主干网络+RA)在主要指标方面提高了主干网络性能，这表明引入RA模块可以使本发明的模型能准确区分真正的目标区域。

3)PA_RFB的有效性：本发明验证了PA_RFB的有效性，通过表2观察到No.4，对比于主干网络各个方面性能的提升，这表明了PA_RFB模块的有效性。

4)两个模块组合的有效性：本发明针对RA&CA，RA&PA_RFB，CA&PA_RFB模块间组合的有效性进行了验证，如表2中所示，在重要的指标中，模块组合的性能都要优于单个模块(即：No.5～No.7)。这些改进表明，模块间组合在网络模型中有着优异的表现，并验证了组合模块的有效性。

5)CA&RA&PA_RFB的有效性：最后，本发明研究了三个模块组合的重要性，从表中的这些结果(No.8对比No.1～No.7)，可以清楚的看到三个模块组合相对于其他的单个模块以及两个模块组合的性能优势。这表明三个模块组合可以有效地改善模型的分割效果，达到效果最优。

第二、为了比较息肉区域分割的性能，在五个不同的息肉数据集和六个评价指标上，用四种最典型的方法U-Net、U-Net+、SFA和PraNet进行比较，以验证网络的轻量化和高效性，定量结果展示在下表3中。

表3不同方法在多个息肉数据集上的实验结果对比

在Kvasir数据集中可以看出，MobileRaNet的MeanDice比U-Net高了9.4％，比PraNet高了1.4％，其他指标对比其他方法也都有着明显的优势。在ETIS、CVC-ClinicDB、CVC-ColonDB、CVC-300数据集中，从表3结果中可以清楚地观察到MobileRaNet的绝大多数指标都明显优于其他四种模型方法，在复杂数据集ETIS中，MobileRaNet的MeanDice比U-Net高26.7％，比PraNet高了3.7％。本发明将性能提升归因于模型中三大模块的有效组合，它们提供了鲁棒的特征表达，进一步提高了网络模型的分割性能。

第三、本发明通过计算网络模型的FLOPs和Params来验证本发明方法的轻量化。如图6和图7所示，U-Net++的参数量约是MobileRaNet的5.24倍，其计算复杂度约是MobileRaNet的122倍。U-Net的参数量和计算复杂度分别约是MobileRaNet的4.9倍和60.8倍，而PraNet的参数量和计算复杂度分别约是MobileRaNet的4.3倍和6倍。简单而言，无论MobileRaNet的参数量还是计算复杂度都是最小的，并且通过表3也可以看得到MobileRaNet的性能在五个息肉数据集中，对比其他典型方法绝大多数结果都是最优的。

第四、本发明还可视化了息肉分割结果，如图8所示。从图8所示的可视化结果可以看得出，本发明的MobileRaNet明显优于其他方法的分割结果。具体而言，本发明MobileRaNet产生的分割结果接近于真值图，错误分割的组织区域较少。相反，U-Net给出的结果并不令人满意，因为有着大量的错误分割区域。U-Net++和PraNet模型虽然改善了结果，但是性能仍然不理想。MobileRaNet的成功要归因于本发明提出的由粗略到细化的分割策略，即并行的部分解码器聚合高级特征，并经过并联轴向感受野模块，提高了全局依赖表示，粗略定位息肉分割区域，然后使用多个反向注意力模块进行细化分割。该策略模仿了临床医生如何从二维CT图像中分割出息肉分割区域，从而获得了不错的表现，因此本发明方法得到的结果中所提取的目标分割更为完整准确。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，所述步骤S1中协调注意力模块先使用尺寸(H,1)和(1,W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道输入特征图进行编码，之后这两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图，每个方向感知注意力图都捕获了输入特征图沿着一个空间方向的长程依赖，并保存着另一个空间方向的精确位置信息，接着进行正则化和非线性函数后再将特征图进行卷积和Sigmoid函数，最后输出注意力权重。

3.根据权利要求1所述的基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，所述步骤S2中主干网络输出的高级特征并联传入三个并联轴向感受野模块内，每个并联轴向感受野模块先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，接着分别通过空洞率为3、5、7的空洞卷积模块，并行添加并联轴向注意力模块对每个尺度进行额外的全局细化并连接输出，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

4.根据权利要求3所述的基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，所述并联轴向注意力模块通过采用轴向注意策略，使用输入特征映射计算采用并联放置方式的水平轴和垂直轴的非局部操作，具体分别在水平轴和垂直轴的轴向中，先经过两个1×1的卷积之后矩阵相乘变换，再和一个1×1卷积进行矩阵相乘变换，最后将两个轴向的输出进行逐点相加，输出特征图。

5.根据权利要求3所述的基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，所述步骤S4中具体以级联方式构建的有三个反向注意力模块，将下采样后的全局映射图及第一并联轴向感受野模块输出的高级侧特征送入第一反向注意力模块内来获得第一反向注意力特征，第一反向注意力特征和下采样后的全局映射图相加后的输出一方面与第二并联轴向感受野模块输出的高级侧特征送入第二反向注意力模块内来获得第二反向注意力特征，另一方面经过上采样后与第二反向注意力特征相加，该相加后的输出一方面与第三并联轴向感受野模块输出的高级侧特征送入第三反向注意力模块内来获得第三反向注意力特征，另一方面经过上采样后与第三反向注意力特征相加，该相加后的输出被送入Sigmoid激活函数中，用以生成最终的息肉分割区域的预测图。

6.根据权利要求5所述的基于轻量化网络模型和反向注意力模块的息肉分割方法，其特征在于，每个反向注意力模块通过将对应并联轴向感受野模块输出的高级侧特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i被描述为：