CN114820635A

CN114820635A - 联合注意力u形网络和多尺度特征融合的息肉分割方法

Info

Publication number: CN114820635A
Application number: CN202210424190.4A
Authority: CN
Inventors: 龙建武; 宋鑫磊; 刘�东; 曾子秦
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-29

Abstract

本发明提供一种联合注意力U形网络和多尺度特征融合的息肉分割方法，包括选择U‑Net作为主干网络，通过在U形主干网络结构的编码器和解码器阶段对应层的跳跃连接末端增加注意力门，以抑制不重要特征的同时加强重要信息；然后融合不同尺度特征获得丰富的全局语义信息特征图，特征图经过解码后得到全局映射图以作为后续步骤的初始引导区域；接着将平行高层特征传入到感受野模块中来增强网络深度表示；再在全局映射图指导下被送入多个以级联方式构建的反向注意力模块内，来更好挖掘目标区域特征和边界线索；最后通过精细化残差模块来精细化息肉目标区域和边界信息，得到更加高性能的息肉分割结果。本发明对于息肉图像数据集分割性能更加精准优异。

Description

联合注意力U形网络和多尺度特征融合的息肉分割方法

技术领域

本发明涉及息肉分割技术领域，具体涉及一种联合注意力U形网络和多尺度特征融合的息肉分割方法。

背景技术

根据2020年全球结直肠癌癌症数据报告，结直肠癌是全球第三大最常见的癌症，也是第二大最常见的死亡原因。息肉是身体表面的异常组织生长，可以在结肠、直肠、胃部甚至喉咙中发现。在大多数情况下，息肉是良性的，这意味着它们并不代表着疾病或者恶性，但随着时间的推移，结肠或直肠中一些息肉会变成结直肠癌。

关于结直肠癌，早期筛查和切除是至关重要的。如果结直肠癌患者早诊断早治疗，其5年生存率将会提高到90％以上。反之，当癌症发展到晚期时，患者生存率将会降低很多，甚至最低只有10％。因此，预防结肠癌最好的方法是在息肉变成癌症之前识别并切除息肉。结肠镜检查是目前最常用的检查手段，但这一过程需要人工操作，费用昂贵，误诊率也很高。因此，在临床上精确的息肉分割技术是非常重要且急需的。

传统息肉分割方法主要依赖于人工提取的特征，如颜色、纹理、形状、外观以及这些特征的组合。虽然这些方法在临床上取得了一定的进展，但仍受限于盒级(box-level)预测结果，无法准确捕捉到息肉的形状和轮廓。

相比传统息肉分割方法，深度卷积神经网络在医学影像分割中的表现有着更加突出的优势。2017年，Brandao等人使用基于预训练模型的全卷积神经网络(FullyConvolutional Networks for Semantic Segmentation，FCN)来识别和分割息肉。2018年，Akbari等人对FCN进行改进以此来提高息肉分割的准确性。此外，许多编码器-解码器网络架构的方法在息肉分割任务中也取得了引人注目的成果。2015年，Ronneberger等人提出了U-Net，该方法是采用了编码器-解码器(Encoder-Decoder)架构对生物医学影像进行分割，性能表现优异。受U-Net的启发，U-Net++、ResUNet和ResUNet++等变体被应用在息肉分割任务中并取得了良好的分割效果。然而，上述方法依赖于低分辨率的特征来生成最终的预测，导致分割结果粗糙，边界模糊。

针对忽略区域边界约束的问题，2019年，Murugesan等人在息肉分割中同时利用区域和边界信息取得了更好的效果。2019年，Fang等人提出了一种同时具有区域和边界约束的三步选择性特征聚集网络用来分割息肉。该方法显式地考虑了区域和边界之间的依赖性，并通过附加的边缘监督获得了良好的结果，但其计算效率较低，并有过拟合的风险。2020年，Fan等人提出一种基于并行局部高级特征解码方案，利用反向注意力机制来更好的寻找目标区域特征和边界细节。2021年，Huang等人提出了一种用于息肉分割的HarDNet-MSEG卷积神经网络，可以快速定位目标区域，提高了息肉分割的精度。但这两种方法都舍弃了部分低层语义特征信息，损失了部分细节信息。

发明内容

针对现有息肉分割方法中存在侧重于对息肉的整个区域进行分割，而忽略了区域边界约束，导致息肉分割性能不够理想的技术问题，本发明提供一种联合注意力U形网络和多尺度特征融合的息肉分割方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

联合注意力U形网络和多尺度特征融合的息肉分割方法，包括以下步骤：

S1、选择U-Net作为主干网络，在U形主干网络结构的编码器阶段和解码器阶段之间的跳跃连接末端增加注意力门，以消除跳跃连接带来的语义歧义，并抑制输入图像中不相关区域的特征响应和自动关注重要特征；

S2、主干网络对输入图像中不同尺度特征上采样至统一大小，进行多尺度语义特征信息融合，得到丰富的全局语义信息特征图，特征图经过解码器解码后得到全局映射图，该全局映射图作为后续步骤S4的初始引导区域；

S3、将主干网络输出的三个平行高层特征信息传入到对应三个感受野模块中来增强网络深度表示；

S4、将全局映射图及感受野模块并联输出的高层特征送入多个以级联方式构建的反向注意力模块内，反向注意力模块通过在高层输出特征中以一种前景擦除的方式擦除现有已估计的息肉区域，从而更好地挖掘互补区域和边界细节信息得到具有判别性的信息，最末一个反向注意力模块的输出被送入Sigmoid激活函数中，用以生成息肉粗分割结果图；

S5、将息肉粗分割结果图输入到精细化残差模块中，通过学习粗糙结果图和真值之间的残差来精细化息肉目标区域和边界信息，得到更加全面精细化的息肉精细化分割结果图。

进一步，所述步骤S3中每个感受野模块先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，然后分别通过空洞率为3、5、7的空洞卷积模块，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

进一步，所述步骤S4中具体以级联方式构建的有三个反向注意力模块，将下采样后的全局映射图及第一感受野模块输出的高层特征送入第一反向注意力模块内来获得第一反向注意力特征，第一反向注意力特征和下采样后的全局映射图相加后的输出一方面与第二感受野模块输出的高层特征送入第二反向注意力模块内来获得第二反向注意力特征，另一方面经过上采样后与第二反向注意力特征相加，该相加后的输出一方面与第三感受野模块输出的高层特征送入第三反向注意力模块内来获得第三反向注意力特征，另一方面经过上采样后与第三反向注意力特征相加，该相加后的输出被送入Sigmoid激活函数中，用以生成息肉粗分割结果图。

进一步，每个反向注意力模块通过将对应高级侧输出的高层特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i被描述为：

其中，P(·)表示上采样操作，σ(·)是Sigmoid激活函数，

是从全1矩阵E中减去输入的反向运算符。

进一步，所述精细化残差模块包括顺序连接的输入层、编码器、跳跃连接、解码器和输出层，所述编码器和解码器的每个阶段有个卷积层，每个卷积层后都跟了一个正则化层，所述编码器阶段中使用最大池化进行下采样，所述解码器阶段中使用双线性插值进行上采样；同时，在编码器解码器的各个阶段之间都有跳跃连接。

进一步，每个反向注意力模块的输出和全局映射图采用深监督整体损失函数作为优化目标，整体损失函数定义如下：

其中，G为真值图，S_g为全局映射图，

为全局映射图被上采样，S_i为反向注意力模块的输出，

为反向注意力模块的输出被上采样，L为加权IoU损失函数与加权二进制交叉熵BCE损失函数的结合，具体描述如下：

其中，

表示基于全局约束的加权IoU损失，

表示基于局部约束的加权二进制交叉熵BCE损失；

和

分别定义如下：

其中，i∈I指的是预测值和真值中的像素点，y表示真值，

表示预测值，w是加权值。

进一步，所述方法还包括采用加权Dice度量

结构指标S_α、平均绝对误差MAE、增强对齐指标

指标来度量息肉精细化分割结果图S_p与真值图G之间的相似性与不相似性，各指标具体表述为：

其中，ω是基于各个类别样本数来赋予各个类别的权重；Precision指的是准确率，表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；Recall指的是召回率，表示在原始样本的正样本中，最后被正确预测为正样本的概率；

S_α＝(1-α)*S_o(S_p,G)+α*S_r(S_p,G)

其中，α是用于控制对象级别相似度S_o和区域级别相似度S_r的平衡系数；

其中，w和h代表真值图G的宽和高，(x,y)表示真值图G中每个像素的坐标，符号

是增强对齐矩阵。

与现有技术相比，本发明提供的联合注意力U形网络和多尺度特征融合的息肉分割方法具有以下优点：

1、本发明主要通过结合注意力机制和多尺度特征融合得到性能更加优异的息肉分割结果。

2、本发明中利用在U形网络结构即U-Net主干网络的跳跃连接末端增加注意力门，以消除跳跃连接带来的语义歧义，自动关注显著特征，并通过感受野模块融合不同尺度信息，增强网络特征表示。

3、本发明将输出的特征通过反向注意力机制利用一种前景擦除的方式来更好地挖掘息肉目标区域和边界信息；同时，利用真值图像对网络进行深度监督，来减少梯度消失和解决网络收敛过慢的问题。

4、本发明设计了精细化残差模块，该精细化残差模块通过利用U形网络结构、跳跃连接和残差结构，通过学习粗糙结果图和真值之间的残差来精细化粗糙分割结果预测图，从而得到更加全面精细化的结果。

附图说明

图1是本发明提供的联合注意力U形网络和多尺度特征融合的息肉分割方法流原理框图。

图2是本发明提供的图1中感受野模块结构示意图。

图3是本发明提供的图1中反向注意力模块结构示意图。

图4是本发明提供的图1中精细化残差模块结构示意图。

图5是本发明与其他典型模型方法在五个不同的息肉数据集上进行定性结果比较图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

请参考图1所示，本发明提供一种联合注意力U形网络和多尺度特征融合的息肉分割方法，包括以下步骤：

S1、选择U-Net作为主干网络(Backbone)，在U形主干网络结构的编码器阶段和解码器阶段之间的跳跃连接末端增加注意力门，以消除跳跃连接带来的语义歧义，并抑制输入图像中不相关区域的特征响应和自动关注重要特征。具体地，U-Net主干网络的网络模型整体架构为编码器-解码器结构，通过在网络模型编码器阶段和解码器阶段对应层的跳跃连接末端增加注意力门，来自动学会集中关注重要目标区域。通过注意力门可以自动关注重要特征和抑制输入图像中的不相关区域的特征响应，并消除跳跃连接中不相关语义以及相对应引起的歧义；另外，将注意力门添加到卷积神经网络模型中，极少的额外计算量却能显著增强模型敏感度且提高检测准确率。

S2、主干网络对输入图像中不同尺度特征上采样至统一大小，进行多尺度语义特征信息融合，得到丰富的全局语义信息特征图，特征图经过解码器解码后得到全局映射图S_g，用以提供息肉的粗略定位信息，该全局映射图S_g作为后续步骤S4的初始引导区域。

S3、将主干网络输出的三个平行高层特征信息传入到对应三个感受野模块(Receptive Field Module，RFB)中来增强网络深度表示。

S4、将全局映射图及感受野模块并联输出的高层特征送入多个以级联方式构建的反向注意力模块(Reverse Attention，RA)内，反向注意力模块通过在高层输出特征中以一种前景擦除的方式擦除现有已估计的息肉区域，从而更好地挖掘互补区域和边界细节信息得到具有判别性的信息，使得息肉分割结果更加全面，最末一个反向注意力模块的输出被送入Sigmoid激活函数中，用以生成息肉粗分割结果图。值得注意的是，其中现有已估计是从更深层向上采样，其在全局映射图的指导下被送入多个反向注意力模块来建立区域和边界信息之间的循环合作，且这些反向注意力模块是以级联方式构建的。

S5、将息肉粗分割结果图输入到精细化残差模块(Refined Residual Module，RRM)中，通过学习粗糙结果图和真值之间的残差来精细化息肉目标区域和边界信息，得到更加全面精细化的息肉精细化分割结果图。因此，本发明提供的联合注意力U形网络和多尺度特征融合的息肉分割方法(MAR-UNet)与目前典型的分割网络相比，本发明对于息肉图像数据集分割性能更加精准优异。

作为具体实施例，关于主干网络增加注意力门设计背景如下：U-Net主干网络使用编码器-解码器结构，通过添加编码器-解码器两个阶段之间的跳跃连接以及使用数据增强手段，在医学图像数据较少的情况下依旧表现出不俗的竞争力和优异性能，U-Net的出现为医学图像处理任务提供了巨大帮助。所以，本发明选择U-Net作为主干网络，通过在网络模型编码器阶段和解码器阶段对应层的跳跃连接末端增加注意力门，来自动学会集中关注重要目标区域。通过注意力门可以自动关注重要特征和抑制输入图像中的不相关区域的特征响应，并消除跳跃连接中不相关语义以及相对应引起的歧义。注意力门很容易被整合进模型中，极少的额外计算量却能带来显著的模型敏感度和准确率的提高。

作为具体实施例，感受野模块设计背景如下：起初感受野模块设计来源于人类的视觉系统，人类的视觉系统是由多个具有不同感受野的部分复合而成的。在视觉通路的连续加工阶段，感受野的大小增加，在每个加工阶段，它随着距离注视点(偏心)的距离增加，位于视觉中心、中央凹的视网膜神经节细胞具有最小的感受野，而位于视觉周边的那些具有最大的感受野。因此，感受野的大小和离视网膜中心的远近呈正比关系。视觉外围神经元的大感受野大小解释了在注视点之外的视觉空间分辨率差，在视觉通路的不同阶段，神经元的感受野不仅在大小上，而且在结构上也不同。感受野结构的复杂性，就像感受野大小一样，在视觉通路的连续阶段增加。请参考图2所示，骨干网络的特征图被转发到每个感受野路径，所述步骤S3中每个感受野模块先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，以减少计算量，然后分别通过空洞率为3、5、7的空洞卷积模块，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

作为具体实施例，请参考图1所示，所述步骤S4中具体以级联方式构建的有三个反向注意力模块RA，将下采样后的全局映射图S_g及第一感受野模块输出的高层特征f₅送入第一反向注意力模块RA1内来获得第一反向注意力特征R₅，第一反向注意力特征R₅和下采样后的全局映射图相加后的输出一方面与第二感受野模块输出的高层特征f₄送入第二反向注意力模块RA2内来获得第二反向注意力特征R₄，另一方面经过上采样后与第二反向注意力特征R₄相加，该相加后的输出一方面与第三感受野模块输出的高层特征f₃送入第三反向注意力模块RA3内来获得第三反向注意力特征R₃，另一方面经过上采样后与第三反向注意力特征R₃相加，该相加后的输出被送入Sigmoid激活函数中，用以生成息肉粗分割结果图。而本实施例中所述三个反向注意力模块以级联方式构建，实质是指第二反向注意力模块RA2的输出要依赖于第一反向注意力模块RA1的输出，而第三反向注意力模块RA3的输出要依赖于第二反向注意力模块RA2的输出，最后，最末一个第三反向注意力模块RA3的输出被送入Sigmoid激活函数中，用以生成得到息肉粗分割结果图。

作为具体实施例，本发明关于反向注意力模块RA的设计背景如下：在临床上，医生先大致定位息肉区域，然后再仔细检查局部组织，以准确标记息肉。参考其做法，首先通过解码不同尺度特征生成一个具有结构相对粗糙的全局映射图S_g，用以提供息肉的粗略定位信息；其次利用一个渐进式框架作为精细的标注器，以一种前景擦除的方式逐步挖掘有区别的息肉区域。具体而言，相比于现有简单地聚合所有特征层，本发明选择以一种从高层输出特征中擦除现已估计的息肉区域，从而有顺序地挖掘互补区域和细节信息，而当前预测结果则由更深的网络层的信息上采样得到。

作为具体实施例，请参考图3所示，每个反向注意力模块通过将对应高级侧输出的高层特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i已广泛应用在计算机视觉研究领域中的显著目标检测任务，它被描述为：

其中，P(·)表示上采样操作，σ(·)是Sigmoid激活函数，

是从全1矩阵E中减去输入的反向运算符。图3展示出了该过程的细节，由反向注意力驱动的擦除机制最终可以将不精确和粗略的估计细化为准确而完整的边缘预测图。

作为具体实施例，请参考图4所示，将通过反向注意力模块的息肉粗分割结果输入到精细化残差模块，所述精细化残差模块包括顺序连接的输入层、编码器、跳跃连接、解码器和输出层，所述编码器和解码器的每个阶段有个卷积层，每个卷积层后都跟了一个正则化层，所述编码器阶段中使用最大池化进行下采样，所述解码器阶段中使用双线性插值进行上采样；同时，在编码器解码器的各个阶段之间都有跳跃连接，来解决随着网络层数逐渐加深梯度消失的问题，同时有助于梯度的反向传播和加快训练过程。本精细化残差模块采用类似U-Net的编码器-解码器架构，通过利用U形网络结构、跳跃连接和残差结构对网络的息肉粗分割结果进行精细化，通过学习粗糙结果图和真值之间的残差来精细化粗糙分割结果预测图，得到更加全面精细化的息肉精细化分割结果图，即得到更加高性能的息肉分割结果。

作为具体实施例，本发明的损失函数L设计为加权IoU损失函数与加权二进制交叉熵BCE损失函数的结合，具体描述如下：

其中，

表示基于全局约束的加权IoU损失，

表示基于局部(像素级)约束的加权二进制交叉熵BCE损失；

和

分别定义如下：

其中，i∈I指的是预测值和真值中的像素点，y表示真值，

表示预测值，w是加权值。与目前广泛应用于分割任务中的标准IoU损失不同，加权IoU损失通过增加困难样本像素的权重来突出其重要性。另外，与标准的BCE损失函数相比，

更注重困难样本像素，而不是对所有像素进行等权重分配。同时，本发明对三个反向注意力模块的输出(即：S₃，S₄，S₅)和全局映射图S_g采用深监督策略，即每个反向注意力模块的输出和全局映射图采用深监督整体损失函数作为优化目标，映射图都被逐一上采样(例如

)到与真值图G相同的大小，从而最终提出的MAR-UNet的整体损失函数定义如下：

其中，G为真值图，S_g为全局映射图，

为全局映射图被上采样，S_i为反向注意力模块的输出，

为反向注意力模块的输出被上采样。

作为具体实施例，本发明将主要使用Kvasir的官方网站作为比较的依据，即meanDice和mean IoU。同时，为了更深入地了解模型性能和其他的方法进行对比，本发明同样会使用在目标检测领域中广泛使用的其他四种度量方法。因此，本发明息肉分割方法还包括采用加权Dice度量

结构指标S_α、平均绝对误差MAE、增强对齐指标

其中，该

指标用于修正Dice中的“同等重要的缺陷”的问题，ω是基于各个类别样本数来赋予各个类别的权重；Precision指的是准确率，表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；Recall指的是召回率，表示在原始样本的正样本中，最后被正确预测为正样本的概率；

S_α＝(1-α)*S_o(S_p,G)+α*S_r(S_p,G)

其中，该S_α指标用于度量预测图和真值图之间的结构相似度，α是用于控制对象级别相似度S_o和区域级别相似度S_r的平衡系数；

其中，该MAE指标用于同时度量两张二值图之间局部和全部相似度，

指标用于度量息肉粗分割结果预测图S_p和真值图G之间像素级别的误差，w和h代表真值图G的宽和高，(x,y)表示真值图G中每个像素的坐标，符号

是增强对齐矩阵。本发明将息肉粗分割结果预测图S_p按照阈值0到255进行阈值化得到一组二值图，从而得到一组

的分数。

具体地，本发明实验遵循和其余方法一样的原则，使用从Kvasir和CVC-ClinicDB中随机选取的图像进行训练，但是本文使用相同的训练数据进行公平比较，这些训练数据已经从Kvasir和CVC-ClinicDB中提取，总共包含1450张图像。对于基准数据集，本文使用五个不同的数据集分别为ETIS、CVC-ClinicDB/CVC-612、CVC-ColonDB、CVC-300和Kvasir，前四个是标准的评测数据集，最后一个是近期公开的最大规模的具有挑战性数据集。下面将详细介绍下五个息肉数据集。

ETIS：该数据集包含了从34个结肠镜视频中采集的196张图像，图像的大小为1225×966，是其他数据集中最大的，这使得该数据集更具挑战性。

CVC-ClinicDB:该数据集也被称为CVC-612，包含了25个结肠镜检查视频中的612个图像，图像的大小为384×288，其中62幅图像用于测试，其余图像用于训练。

CVC-ColonDB:该数据集从15个不同的结肠镜检查序列中收集，并从这些序列中采样380张图像，图像大小为574×500，所有图像都作为本发明的测试集数据。

CVC-300:该数据集是一个来自EndoScene的测试数据集，EndoScene包含了来自36例患者的44个结肠镜检查序列的912张图像，图像大小为574×500，EndoScene包括Endosece-CVC300和Endosece-CVC612。因为CVC-612数据集的一部分可能被用于训练，所以本实验只使用Endosece-CVC300测试集，总共有60个样本。

Kvasir：该数据集是最近发布的一个具有挑战性的数据集，它包含从Kvasir数据集的子类(息肉类)中选择的1000张图像，由息肉图像和相应的注释组成。与其他数据集不同，图像的大小从332×487到1920×1072不等，图像中出现的息肉的大小和形状也各不相同，包括有大于160×160的大型息肉700张，小于64×64的小型息肉48张，大小范围内的中型息肉323张。其中900张图像用于训练，100张图像用于测试。具体以上五个息肉数据集的信息如下表1所示。

表1息肉数据集信息

第一、本发明在Kvasir数据集上进行了一些实验来验证MAR-UNet的每个关键模块(包括RFB、RA、RRM)以及模块组合间的性能，实验结果如下表2所示。

表2在Kvasir数据集上的消融实验

1)RFB的有效性：为了探索RFB模块的有效性，本发明得出两个基线模型：表2中的No.1(仅主干网络)&No.2(主干网络+RFB)，结果表明了RFB模块对于性能提高的有效性。

2)RA的有效性：本发明研究了RA模块的重要性，从表2中可以看得出，No.3(主干网络+RA)在主要指标方面提高了主干网络的性能，这表明引入RA组件可以使本发明模型可以得到更多的判别性信息，挖掘到真正的目标区域和边界信息。

3)RRM的有效性：本发明验证了RRM的有效性，通过表2观察到No.4，对于比主干网络各个方面性能的提升，这表明了RRM模块的有效性，可以进一步精细化网络分割结果，提高分割精度。

4)两个模块组合的有效性：本发明针对RA&RFB，RA&RRM，RFB&RRM模块间组合的有效性进行了验证，如表2中所示，在重要的指标中，模块组合的性能都要优于单个模块(即：No.5～No.7)。这些改进表明，模块间组合在网络模型中有着优异的表现，并验证了组合模块的有效性。

5)RFB&RA&RRM的有效性：最后，本发明实验了三个模块组合的有效性，从表2中的这些结果(No.8对比No.1～No.7)，可以清楚的看到三个模块组合相对于其他的模块以及两个模块组合性能的优势。这表明三个模块组合可以有效地改善模型的分割效果，达到效果最优。

第二、为了比较息肉区域分割的性能，在五个不同的息肉数据集和六个评价指标上，用四种最典型的方法U-Net、U-Net+、SFA和PraNet进行比较，以验证网络的高效性，定量结果展示在下表3中。

表3不同方法在多个息肉数据集上的实验结果对比

在Kvasir数据集中可以看出，MAR-UNet的MeanDice比U-Net高了8.5％，比PraNet高了0.5％，其他指标对比其他方法也都有着明显的优势。在ETIS、CVC-ClinicDB、CVC-ColonDB、CVC-300数据集中，从表3结果中可以清楚地观察到MAR-UNet的绝大多数指标都明显优于其他四种模型方法，在复杂数据集ETIS中，MAR-UNet的MeanDice比U-Net高26.3％，比PraNet高了3.3％。本发明将性能提升归因于模型中三大模块的有效组合，它们提供了鲁棒的特征表达，进一步提高了网络模型的分割性能。

第三、本发明还可视化了息肉分割结果，具体请参考图5所示。从该图的可视化结果可以看得出，本发明的MAR-UNet明显优于其他方法的分割结果。具体而言，它们产生的分割结果接近于真值图，错误分割的组织区域较少。相反，U-Net给出的结果并不令人满意，因为有着大量的错误分割区域。U-Net++和PraNet模型虽然改善了结果，但是性能仍然不理想。MAR-UNet的成功要归因于本发明的由粗略到细化的分割策略，即通过粗略定位息肉区域再通过精细化残差模块进一步精细化息肉分割结果。该策略借鉴了临床医师从二维医学图像中分割息肉区域，从而获得了不错的表现。因此，相比较而言，由本发明提出方法得到的结果中所提取的目标分割更为完整准确。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，所述步骤S3中每个感受野模块先分别用1×3和3×1卷积层代替3×3卷积层，用1×5和5×1卷积层代替5×5卷积层，用1×7和7×1卷积层代替7×7卷积层，然后分别通过空洞率为3、5、7的空洞卷积模块，最后与1×1卷积层进行聚合相加再经过3×3的卷积层和1×1的卷积层，输出特征图。

3.根据权利要求1所述的联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，所述步骤S4中具体以级联方式构建的有三个反向注意力模块，将下采样后的全局映射图及第一感受野模块输出的高层特征送入第一反向注意力模块内来获得第一反向注意力特征，第一反向注意力特征和下采样后的全局映射图相加后的输出一方面与第二感受野模块输出的高层特征送入第二反向注意力模块内来获得第二反向注意力特征，另一方面经过上采样后与第二反向注意力特征相加，该相加后的输出一方面与第三感受野模块输出的高层特征送入第三反向注意力模块内来获得第三反向注意力特征，另一方面经过上采样后与第三反向注意力特征相加，该相加后的输出被送入Sigmoid激活函数中，用以生成息肉粗分割结果图。

4.根据权利要求3所述的联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，每个反向注意力模块通过将对应高级侧输出的高层特征f_i与特征图S_i经过Sigmoid激活函数和反转后得到的反向注意力权重A_i相乘，来获得输出的反向注意力特征R_i，具体描述如下：

R_i＝f_i⊙A_i

其中，i＝3,4,5，⊙表示乘，反向注意力权重A_i被描述为：

其中，P(·)表示上采样操作，σ(·)是Sigmoid激活函数，

是从全1矩阵E中减去输入的反向运算符。

5.根据权利要求1所述的联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，所述精细化残差模块包括顺序连接的输入层、编码器、跳跃连接、解码器和输出层，所述编码器和解码器的每个阶段有个卷积层，每个卷积层后都跟了一个正则化层，所述编码器阶段中使用最大池化进行下采样，所述解码器阶段中使用双线性插值进行上采样；同时，在编码器解码器的各个阶段之间都有跳跃连接。

6.根据权利要求1所述的联合注意力U形网络和多尺度特征融合的息肉分割方法，其特征在于，每个反向注意力模块的输出和全局映射图采用深监督整体损失函数作为优化目标，整体损失函数定义如下：