CN117036714A

CN117036714A - 融合混合注意力机制的肠息肉分割方法、系统及介质

Info

Publication number: CN117036714A
Application number: CN202311294605.1A
Authority: CN
Inventors: 徐晨初; 李萌; 王源; 齐荣晖; 宋俞荭; 韩龙飞; 张鼎文; 韩军伟
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-10
Anticipated expiration: 2043-10-09
Also published as: CN117036714B

Abstract

本发明的一种融合混合注意力机制的肠息肉分割方法、系统及介质，包括以下内容：对基于内窥镜下的肠息肉图像进行预处理，包括数据增强、自适应阈值对分割目标的区域提取，用于增强分割模型的鲁棒性和挖掘更准确的目标的边界信息；构建特征令牌金字塔模块提高对肠息肉图像的语义信息提取能力，同时采用更少的模块来构建该特征令牌金字塔可以获取具有多尺度感知的语义信息；构建全局特征提取模块利用局部‑全局训练策略降低分割模型对数据样本量的需求并进一步提高分割性能；构建特征注入模块缓解在融合不同尺度特征令牌之间的语义差异；构建多尺度融合模块从元素角度对所有尺度特征令牌进行融合，减少空间信息的损失并增强网络的鲁棒性。

Description

融合混合注意力机制的肠息肉分割方法、系统及介质

技术领域

本发明涉及医学图像机器视觉处理技术领域，具体涉及一种融合混合注意力机制的肠息肉分割方法、系统及介质。

背景技术

当今社会，肠癌是胃肠道常见的恶性肿瘤疾病，是全球三大癌症之一，已成为威胁人类生命健康的主要杀手。大部分的肠癌主要是由肠息肉演变而来，而肠息肉是在肠黏膜表面异常生长的组织，因此，在肠癌的早期诊断和治疗的过程中，肠息肉的准确分割起着至关重要的作用。目前，内窥镜图像是肠息肉检测的主要方式之一。然而肠息肉表面模糊、边界不清晰、形状不规则等以及肠息肉个体的差异较大，使得肠息肉的准确分割带来了巨大的挑战。

传统的肠息肉分割方法很大程度上取决于临床医生的技术水平，手动提取肠息肉的大小、颜色等特征，即使是丰富经验的临床医生也会遗漏一些不明显的肠息肉。因此，这种方法不仅费时费力，而且肠息肉的分割精度较低。

目前基于深度学习的分割方法在一定程度上提高了肠息肉的分割精度且释放了人力和物力，如基于transformer的方法广泛应用在医学图像分割任务中，获得了令人满意的分割性能。然而，这种方法过于依赖于大量带有标签的数据，数据集样本大小较小是医学图像数据的特点之一，导致在医学图像处理领域中很难得到满足。

综上，现有技术存在分割精度低、依赖大量带有标签数据集的技术问题。

发明内容

本发明提出的一种融合混合注意力机制的肠息肉分割方法、系统及设备，可至少解决背景技术中的技术问题之一。

为实现上述目的，本发明采用了以下技术方案：

一种融合混合注意力机制的肠息肉分割方法，包括以下步骤，

S1、收集多种类型基于内窥镜下的肠息肉图像作为初始数据构成数据集，随后进行数据增强和自适应阈值的肠息肉目标区域提取，按照1:3的数据量组成测试集和训练集；

S2、基于标准的transformer模块构建多种注意力机制融合的神经网络模块，其中，注意力机制包括：门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块，所述的门控轴向注意力机制模块由一个在高度轴上的注意力计算和一个在宽度轴上的注意力计算构成；滑动窗口注意力机制模块由两个连续的Swin-Transformer模块构成，其中第一个Swin-Transformer模块由window的多头注意力机制层和多层增强感知机层组成，所述的window的多头注意力机制层和多层增强感知机层均使用残差连接，多层增强感知机层使用了深度卷积网络。第二个Swin-Transformer模块由SW-Transformer模块和多层增强感知机层组成，它们也均使用了残差连接；卷积自注意力机制模块，将旁路卷积引入transformer模块中，所述模块包括旁路卷积模块、MSA模块和前馈网络模块，通过残差连接共同组成；

S3、构建一个融合的神经网络，所述的融合的神经网络包括特征令牌金字塔模块、全局特征提取模块、特征注入模块和多尺度融合模块；所述的融合的神经网络输入为基于内窥镜的肠息肉图像，输出为相对应的肠息肉图像中目标区域的分割结果图；肠息肉图像的输入分为两路，第一路输入到特征令牌金字塔模块，第二路输入到全局特征提取模块，随后将第一路得到的特征通过语义注入模块进行特征融合，再通过多尺度融合模块获取从元素角度对所有尺度特征令牌进行融合的特征，第二路得到的全局特征与多尺度融合模块输出的特征一起输入到上采样的解码器模块完成解码，得到最终的分割结果；

S4、利用训练样本训练所述的肠息肉分割神经网络，并优化网络参数，确定网络参数以得到最佳肠息肉分割模型；

S5、利用采集到的测试样本输入至所述的神经网络模型中，计算输出肠息肉分割图像，得到最终的分割结果并进行评估。

进一步地，步骤S1具体过程如下：

S11、收集内窥镜下的肠息肉图像数据；

S12、利用线性插值方法将所有获取的图像分辨率调整为224×224或384×384；

S13、对采集到的数据集进行数据增强包括随机对比度增强、0~360度的随机旋转、以及0.70~1.20倍随机多尺度缩放；

S14、利用自适应阈值的方法对所述数据增强后的数据集进行区域提取，即提取内窥镜图像中肠息肉所在区域，并划分训练集和测试集。

进一步地，步骤S2中构建多中注意力机制模块，包括门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块。具体过程如下：

S21、构建了门控轴向注意力机制模块：对初始的自注意力机制模块分为两个部分。第一部分在高度轴方向进行计算，而第二部分在宽度轴方向进行计算。这种设计模式不仅保持自注意力机制的工作原理，还很大程度上降低了计算复杂度，节约计算成本。同时，引入相对位置，增加模块对位置信息的敏感度。即：

,

其中，w表示高度，q、k和v都是通过训练得到的参数，分别表示为查询向量、键向量和值向量，、/>和/>分别表示为宽度轴向中的查询、键和值向量相对应位置的偏置。此外，/>表示在i/>{1,...H}与j/>{1,...W}中任意位置的查询向量，/>、/>分别表示为某一宽轴上i/>{1,...H}中的任意位置的健向量和值向量；

为了更有效的在特征图中学习更为丰富的位置信息，使用门控机制来控制位置信息的权重。即：

,

其中，、/>、/>和/>是坎坷学习的控制参数，共同创建门控机制；

S22、构建滑动窗口注意力机制模块：主要由基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成，即：

=W_MSA(Norm(/>))+/>，

=FFN(Norm(Z`i))+/>，

=SW_MSA(Norm(/>))+/>，

=FFN(Norm(Z`i))+/>

其中，Norm表示为归一化层，FFN为前馈网络，i表示为某一中间模块标识符，为lth基于窗口的多头注意力模块输出的特征表示，/>表示基于移动窗口的多头自注意力模块输出的特征图像。

S23、构建旁路卷积自注意力机制模块：将旁路卷积引入视觉变压器模块中，因此该模块包括旁路卷积模块、多头注意力机制模块和前馈网络模块，通过残差连接共同组建。对于第层模块可以表示为：

=MSA(Norm(/>))+ByConv(Norm(/>))，

=FFN(Norm(/>))+ByConv(Norm(/>))，

其中，ByConv表示旁路卷积模块，主要包括2个卷积核为1×1的卷积层：，其中，/>表示为（l+1）th/>层的第nth/>个特征图，相应的/>表示为第l层的第mth/>个特征图，W表示权重矩阵，*表示2D卷积操作，而b为相对应的偏置，每个所述的1×1的卷积层后添加GELU激活函数。此外在所述2个卷积层之后引入1个卷积核大小为3×3的深度卷积。

进一步地，步骤S3中的特征令牌金字塔生成模块、全局特征提取模块、语义注入模块和多尺度融合模块构建的具体过程如下：

S31、构建特征令牌金字塔模块：每个输入内窥镜肠息肉图像X ，其中，H、W分别表示输入图像的高度和宽度尺寸，C表示相对的通道数，R表示像素所在的空间区域。堆叠的特征令牌生成模块共同构成特征令牌金字塔模块，其中，所述的特征令牌生成器主要由2个卷积核为1×1的卷积层和1个卷积核大小为3×3的深度卷积组成，此外，在第1、2个卷积操作后引入非线性激活函数PRelu6。即：

=PRelu6（Conv1（X）），

=PRelu6（DeConv（/>）），

=Liner（Conv1（/>）），

通过所述模块在获取丰富的语义特征和较大的接收域，同时采用更少的模块来构建局部特征令牌金字塔模块。通过所述构建的模块产生出一系列局部特征令牌{，…，/>}，其中，N表示尺度数，随后令牌{/>，…，/>}被平均池化到目标大小，随后将来自不同尺度的特征令牌沿着通道维度连接起来，以产生新的特征标记输入到所述的旁路卷积自注意力机制模块，生成特征图/>。即：

=ByViT（/>），

其中，ByViT表示使用堆叠（×12）的旁路卷积注意力机制模块作为编码器，学习、提取输入的特征令牌，获得局部尺度感知语义。

S32、构建语义注入模块：将每个通道获得的尺度语义与特征令牌金字塔模块生成的多通道局部令牌/>作为语义注入模块的输入，来弥补令牌{/>，…，/>}之间存在显著的语义差距差异。

S33、构建全局特征提取模块：将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块。

S34、构建多尺度融合模块：将不同尺度下的聚合的特征令牌进行融合，挖掘更精细的边界信息、获取更丰富的空间信息和语义信息，增强网络对边界模糊的肠息肉分割的能力。

进一步地，步骤S4具体过程如下：

S41、构建融合混合注意力机制的肠息肉分割模型，使用初始学习率为0.001的Adam优化算法进行训练。

S42、利用混合损失函数缓解基于内窥镜的肠息肉图像中实例不平衡的问题。网络的损失函数为：

=α/>，

（/>）=L={/>,…,/>,/>

其中，p表示分割网络预测的肠息肉图像，g表示肠息肉图像的真实结果，Ω表示为图像域，α和β表示两种损失函数的约束权重，N表示训练集中的实例数，（/>）表示二分类交叉熵损失，/>表示第n个样本对应的loss，/>表示设置的超参数；此外，/>是一种创新的损失函数，用于解决语义分割中的问题，尤其针对基于内窥镜肠息肉图像的情境；该方法对于纠正类间实例分布不平衡问题，这是因为在大部分分割目标呈现出相连性并且易于预测；

S43、利用所述的训练样本多所述分割模型进行训练，优化参数，得到最佳的神经网络模型。

进一步地，步骤S5具体过程如下：

S51、利用所述测试样本验证训练后的分割模型的分割性能；

S52、使用水平集函数对分割图像想优化；

S53、将最终的分割结果与所述测试样本的标签进行对比，以评估分割模型的分割性能。

另一方面，本发明还包括一种融合混合注意力的肠息肉图像分割系统，该分割系统采用了前文所述的基于融合混合注意力的肠息肉分割方法，对肠息肉图像数据进行分割，进而得到最终的分割预测结果。

该内窥镜图像的肠息肉分割系统包括：特征令牌金字塔模块，全局特征提取模块、多尺度融合模块以及解码器模块。

其中，特征令牌金字塔模块用于丰富基于内窥镜的肠息肉图像的语义信息。使用较少的模块来构建特征令牌金字塔模块，获得不同尺度的语义信息。

全局特征提取模块是两种特定的注意力机制模块的组合。将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块。其中，门控轴向注意力机制模块：对初始的自注意力机制模块分为两个部分。第一个部分在高度轴方向进行计算，而第二部分在宽度轴方向进行计算。这种设计模式不仅保持自注意力机制的工作原理，还很大程度上降低了计算复杂度，节约计算成本，同时，引入相对位置，增加模块对位置信息的敏感度。为了更有效的在特征图中学习更丰富的位置信息，通过使用门控机制来控制位置信息的权重。滑动窗口注意力机制模块：主要由基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成。输入的肠息肉图像通过全局特征提取模块的处理后，输出为标记序列融合特征；

多尺度融合模块使不同尺度下的聚合的特征令牌进行融合，学习更精细的特征信息，获取更丰富的空间，增强网络对边界模糊的肠息肉分割的能力。

解码器模块接收多尺度融合模块输出的特征和特征融合网络模块与语义融合模块融合输出的特征进行融合，然后将二者解码，得到所需的医学图像的语义分割结果。

再一方面，本发明还包括了一种融合混合注意力的肠息肉图像分割装置，该装置包括了：

全局特征信息融合单元，利用门控轴向注意力机制模块和滑动窗口注意力机制模块对输入样本进行全局特征信息提取并融合，得到全局特征令牌表示。

多尺度特征提取单元，利用深度神经网络对输入肠息肉图像进行多尺度特征提取，用于得到更精细的特征信息，得到更丰富的空间特征和语义信息，以丰富目标的局部特征信息。

语义信息聚合单元，利用注意力门控机制模块和旁路注意力机制模块对得到的多尺度特征信息进行特征提取，得到相对应的特征图表示并与多尺度特征进行融合，得到融合特征图。

多尺度融合单元，将得到的多尺度融合特征再次融合，以增强空间信息提高模型鲁棒性及优化特征表示。

优化单元，利用损失函数对所述的分割模型进行监督与优化，得到优化后的肠息肉图像的分割模型。

分割单元，利用所述分割模型对图像样本进行分割，得到分割结果。

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。

由上述技术方案可知，本发明的一种融合混合注意力机制的肠息肉分割方法、系统及介质，包括以下内容：对基于内窥镜下的肠息肉图像进行预处理，包括数据增强、自适应阈值对分割目标的区域提取，用于增强分割模型的鲁棒性和挖掘更准确的目标的边界信息；构建特征令牌金字塔模块提高对肠息肉图像的语义信息提取能力，同时采用更少的模块来构建该特征令牌金字塔可以获取具有多尺度感知的语义信息；构建全局特征提取模块利用局部-全局训练策略降低分割模型对数据样本量的需求并进一步提高分割性能；构建特征注入模块缓解在融合不同尺度特征令牌之间的语义差异；构建多尺度融合模块从元素角度对所有尺度特征令牌进行融合，减少空间信息的损失并增强网络的鲁棒性。该分割模型在一定程度上解决了医学图像数据匮乏的问题。

具体的说，本发明优点如下：

（1）本发明对内窥镜下肠息肉图像进行了适当的预处理，包括数据增强和自适应阈值方法，通过数据增强的方式，加入了基于内窥镜图像中肠息肉的结构变化，包括增强对比度、随机旋转以及多尺度缩放，进而提高所述图像分割模型的鲁棒性，采用自适应阈值方的方法提取内窥镜图像中的目标区域，进一步挖掘目标的边界信息。

（2）本发明设计全局特征提取模块利用局部-全局训练策略，通过将门控轴向注意力机制模块和基于滑动窗口注意力机制模块融合机制，较低分割模型对数据样本数量的需求并进一步提高分割性能。

（3）本发明构建特征令牌金字塔模块对每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，提高对肠息肉图像提取更丰富语义信息和使用更少的模块来构建特征令牌金字塔，以产生具有多尺度感知的语义信息。

（4）本发明构建特征注入模块缓解在融合不同尺度特征令牌之间的语义差异以及消除语义鸿沟的的现象；构建多尺度融合模块从元素角度对所有尺度特征令牌进行融合，减少空间信息的损失并提高分割网络的鲁棒性。

附图说明

图1为本发明实施例提供的融合混合注意力机制的肠息肉分割方法流程示意图；

图2为本发明实施例的一种融合混合注意力机制的肠息肉分割网络示意图；

图3为本发明实施例提供的门空轴向注意力机制模型示意图；

图4为本发明实施例提供的基于滑动窗口的注意力机制模块示意图；

图5为本发明实施例提供的旁路卷积注意力模块示意图；

图6为本发明实施例提供的语义注入模块示意图；

图7为本发明实施例提供的多尺度融合模块示意图；

图8为本发明实施例中的一种融合混合注意力机制的肠息肉分割系统模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的融合混合注意力机制的肠息肉分割方法，具体步骤如下：收集多种类型内窥镜下的肠息肉图像，并进行数据增强和自适应阈值的肠息肉目标区域提取，组成训练样本和测试样本；构建多种注意力机制的神经网络，其中结合了门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块；构建融合的神经网络，其中包括了特征令牌金字塔模块、全局特征提取模块、特征注入模块和多尺度融合模块；利用训练样本训练所述肠息肉分割神经网络，优化网络参数，确定网络参数以得到最佳肠息肉分割模型；利用采集到的测试样本输入至所述的神经网络模型中，计算输出肠息肉分割图像，得到最终的分割结果。

具体的说，包括以下步骤，

S2、基于标准的transformer模块构建多种注意力机制融合的神经网络模块，其中，注意力机制包括：门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块，所述的门控轴向注意力机制模块由一个在高度轴上的注意力计算和一个在宽度轴上的注意力计算；滑动窗口注意力机制模块由两个连续的Swin-Transformer模块构成，其中第一个Swin-Transformer模块由window的多头注意力机制层和多层增强感知机层组成，所述的window的多头注意力机制层和多层增强感知机层均使用残差连接，多层增强感知机层使用了深度卷积网络。第二个Swin-Transformer模块由SW-Transformer模块和多层增强感知机层组成，它们也均使用了残差连接；卷积自注意力机制模块，将旁路卷积引入transformer模块中，所述模块包括旁路卷积模块、MSA模块和前馈网络模块，通过残差连接共同组成；

S3、构建一个融合的神经网络，所述的融合的神经网络包括特征令牌金字塔模块、全局特征提取模块、特征注入模块和多尺度融合模块；所述的融合的神经网络输入为基于内窥镜的肠息肉图像，输出为相对应的肠息肉图像中目标区域的分割结果图；肠息肉图像的输入分为两路，第一路输入到特征令牌金字塔模块，第二路输入到全局特征提取模块，随后将第一路得到的特征通过语义注入模块进行特征融合，再通过多尺度融合模块获取从元素角度对所有尺度特征令牌进行融合的特征，第二路得到的全局特征与多尺度融合模输出的特征一起输入到上采样的解码器模块完成解码，得到最终的分割结果；

以下分别具体说明：

步骤S1：收集内窥镜下的肠息肉图像数据，组成数据集样本，利用数据增强的方式进行图像增强，利用自适应阈值的方法获取肠息肉目标区域，再划分为训练样本和测试样本。

具体过程如下：

步骤S11、采集内窥镜下的肠息肉图像数据；

步骤S12、利用线性插值方法将所有获取的图像分辨率调整为224×224或384×384；

步骤S13、对采集到的数据集进行数据增强包括随机对比度增强、0~360度的随机旋转、以及0.70~1.20倍随机多尺度缩放；

步骤S14、利用自适应阈值的方法对所述数据增强后的数据集进行区域提取，即提取内窥镜图像中肠息肉所在区域，并划分训练集和测试集。

步骤S2：构建混合注意力机制模块作为主编码器，提取特征信息。其中包括门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块。

具体过程如下：

所述的融合混合注意力机制的肠息肉分割方法，其特征在于，步骤S2中构建多中注意力机制模块，包括门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块。具体过程如下：

步骤S21、构建门控轴向注意力机制模块。如图3所示，对初始的自注意力机制模块分为两个部分。第一个部分在高轴方向进行计算，第二部分在宽轴方向进行计算。这种设计模式不仅保持自注意力机制的工作原理，还很大程度上降低了计算复杂度，节约计算成本。同时，引入相对位置，增加模块对位置信息的敏感度。即：

,

其中，w表示高度，q、k和v都是通过训练得到的参数，分别表示为查询向量、键向量和值向量，、/>和/>分别表示为宽度轴向中的查询、键和值向量相对应位置的偏置。此外，/>表示在i/>{1,...H}与j/>{1,...W}中任意位置的查询向量，/>、/>分别表示为某一宽轴上i/>{1,...H}中的任意位置的健向量和值向量。为了更有效的的在特征图中学习更为丰富的位置信息，使用门控机制来控制位置信息的权重。即：

,

其中，、/>、/>和/>是可学习的控制参数，共同创建门控机制；

步骤S22、构建滑动窗口注意力机制模块。如图4所示，主要由基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成，即：

=W_MSA(Norm(/>))+/>，

=FFN(Norm(Z`i))+/>，

=SW_MSA(Norm(/>))+/>，

=FFN(Norm(Z`i))+/>

步骤S23、构建旁路卷积自注意力机制模块。如图5所示，将旁路卷积引入视觉变压器模块中，因此该模块包括旁路卷积模块、多头注意力机制模块和前馈网络模块，通过残差连接共同组建。对于第ith层模块可以表示为：

=MSA(Norm(/>))+ByConv(Norm(/>))，

=FFN(Norm(/>))+ByConv(Norm(/>))，

其中，ByConv表示旁路卷积模块，主要由2个卷积核为1×1的卷积层：，其中，/>表示为（l+1）th/>层的第nth/>个特征图，相应的/>表示为第l层的第mth/>个特征图，W表示权重矩阵，*表示2D卷积操作，而b为相对应的偏置，每个所述的1×1的卷积层后添加GELU激活函数。此外在所述2个卷积层之引入1个卷积核大小为3×3的深度卷积。

步骤S3：网络的肠息肉图像分割网络。

如图2所示，使用所构建的门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路卷积注意力机制模块作为特征提取的编码器主干，利用特征令牌金字塔模块初步获取肠息肉图像特征，再利用语义注入模块将局部特征与全局特征进行交互，这不仅可以对远程依赖关系进行建模，还可以对局部特征建立上下文依赖关系。利用全局特征提取模块构建局部-全局训练模式，获取更丰富的边缘细节的低级、高级语义特征。将获取的特征图依次与语义注入模块的得到的特征令牌依次送入到解码器获取全分辨率特征图，通过多尺度融合机制将不同尺度下的特征令牌进行聚合，挖掘更精细的边界信息、增强网络对边界模糊的肠息肉分割的能力。最后将聚合特征与全分辨率进行拼接得到最终的预测。

具体过程如下：

步骤S31：构建特征令牌金字塔模块：每个输入内窥镜肠息肉图像X ，其中，H、W分别表示输入图像的高度和宽度尺寸，C表示相对的通道数，R表示像素所在的空间区域。堆叠的特征令牌生成模块共同构成特征令牌金字塔模块，其中，所述的特征令牌生成器主要由2个卷积核为1×1的卷积层和1个卷积核大小为3×3的深度卷积组成，此外，在第1、2个卷积操作后引入非线性激活函数PRelu6。即：

=PRelu6(Conv1(X))，

=PRelu6(DeConv(/>))，

=Liner(Conv1(/>))，

通过所述模块在获取丰富的语义特征和较大的接收域的同时，使用更少的模块来构建局部特征令牌金字塔模块。通过所述构建的模块产生出一些列局部特征令牌：{，…，}，其中，N表示尺度数，随后令牌{/>，…，/>}被平均池化到目标大小，平均持家层可表示为：/>，其中m和n表示被池化窗口所覆盖的区域；随后将来自不同尺度的特征令牌沿着通道维度连接起来，以产生新的特征标记输入到所述的旁路卷积自注意力机制模块，生成特征图/>。即：

=ByViT（/>），

步骤S32：构建语义注入模块，如图6所示，将每个通道获得的尺度语义与特征令牌金字塔模块生成的多通道局部令牌/>作为语义注入模块的输入，来弥补令牌{/>，…，}之间存在显著的语义差距差异。

步骤S33：构建全局特征提取模块，如图2所示，将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块。

步骤S34：构建多尺度融合模块：如图7所示，将不同尺度下的聚合的特征令牌进行融合，挖掘更精细的边界信息、获取更丰富的空间信息和语义信息，增强网络对边界模糊的肠息肉分割的能力。

步骤S4：利用训练样本训练所述网络，优化网络参数，确定网络参数，得到最佳分割模型。

具体过程如下：

步骤S41：构建融合混合注意力机制的肠息肉分割模型，使用初始学习率为0.001的Adam优化算法进行训练。

步骤S42：利用混合损失函数缓解内窥镜下肠息肉图像中实例不平衡的问题。网络的损失函数为：

=α/>，

（/>）=L={/>,…,/>,/>

其中，p表示分割网络预测的肠息肉图像，g表示肠息肉图像的真实结果，Ω表示为图像域，α和β表示两种损失函数的约束权重，N表示训练集中的实例数，（/>）表示二分类交叉熵损失，/>表示第n个样本对应的loss，/>表示设置的超参数。此外，/>是一种创新的损失函数，用于解决语义分割中的问题，尤其针对基于内窥镜肠息肉图像的情境；该方法对于纠正类间实例分布不平衡问题，这是因为在大部分分割目标呈现出相连性并且易于预测。

步骤S43：利用所述的训练样本多所述分割模型进行训练，优化参数，得到最佳的神经网络模型。

步骤S5：应用时，将测试样本输入所述分割模型中，计算得到肠息肉分割图像并进行评估。

具体过程如下：

步骤S51、利用所述测试样本验证训练后的分割模型的分割性能；

步骤S52、使用水平集函数对分割图像想优化；

步骤S53、将最终的分割结果与所述测试样本的标签进行对比，以评估分割模型的分割性能。

实施例2

本发明还包括一种融合混合注意力的肠息肉图像分割系统，该分割系统采用了前文所述的基于融合混合注意力的肠息肉分割方法，对肠息肉图像数据进行分割，进而得到最终的分割预测结果。

如图8所示，该内窥镜图像的肠息肉分割系统包括：特征令牌金字塔模块，全局特征提取模块、多尺度融合模块以及解码器模块。

全局特征提取模块是两种特定的注意力机制模块的组合。将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块。其中，门控轴向注意力机制模块：对初始的自注意力机制模块分为两个部分。第一个部分在高度轴方向进行计算，而第二部分在宽度轴方向进行计算。这种设计模式不仅保持自注意力机制的工作原理，还很大程度上降低了计算复杂度，节约计算成本，同时，引入相对位置，增加模块对位置信息的敏感度。为了更有效的在特征图中学习更丰富的位置信息，通过使用门控机制来控制位置信息的权重。滑动窗口注意力机制模块：主要由基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成。输入的肠息肉图像通过全局特征提取模块的处理后，输出为标记序列融合特征。

多尺度融合模块使不同尺度下的聚合的特征令牌进行融合，学习更精细的特征信息、获取更丰富的空间、语义信息，增强网络对边界模糊的肠息肉分割的能力。

实施案例3

本发明还包括一种融合混合注意力的肠息肉图像分割装置，该融合混合注意力的肠息肉图像分割装置用于执行前述的基于内窥镜的肠息肉图像分割方法的实施例1。该装置包括了：

多尺度信息提取单元，利用深度神经网络对输入肠息肉图像进行多尺度特征提取，用于得到更精细的特征信息，得到更丰富的空间特征，以丰富目标的局部特征信息。

综上，本实例提供的一种融合混合注意力机制的肠息肉分割方法，是一种新颖的融合分割网络。本发明通过构建特征令牌金字塔模块提高对肠息肉图像的语义信息提取能力，同时采用更少的模块来构建该特征令牌金字塔可以获取具有多尺度感知的语义信息；构建全局特征提取模块利用局部-全局训练策略降低分割模型对数据样本量的需求并进一步提高分割性能；构建特征注入模块缓解在融合不同尺度特征令牌之间的语义差异；构建多尺度融合模块从元素角度对所有尺度特征令牌进行融合，减少空间信息的损失并增强网络的鲁棒性。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一融合混合注意力机制的肠息肉分割方法。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述融合混合注意力机制的肠息肉分割方法。

上述电子设备提到的通信总线可以是外设部件互连标准（英文：PeripheralComponent Interconnect，简称：PCI）总线或扩展工业标准结构（英文：Extended IndustryStandard Architecture，简称：EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（英文：Random Access Memory，简称：RAM），也可以包括非易失性存储器（英文：Non-Volatile Memory，简称：NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（英文：Central ProcessingUnit，简称：CPU）、网络处理器（英文：Network Processor，简称：NP）等；还可以是数字信号处理器（英文：Digital Signal Processing，简称：DSP）、专用集成电路（英文：ApplicationSpecific Integrated Circuit，简称：ASIC）、现场可编程门阵列（英文：Field-Programmable Gate Array，简称：FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合混合注意力机制的肠息肉分割方法，其特征在于，包括以下步骤，

S2、基于标准的transformer模块构建多种注意力机制融合的神经网络模块，其中，注意力机制包括：门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块，所述门控轴向注意力机制模块包括一个在高度轴上的注意力计算和一个在宽度轴上的注意力计算；滑动窗口注意力机制模块由两个连续的Swin-Transformer模块构成，其中第一个Swin-Transformer模块由window的多头注意力机制层和多层增强感知机层组成，所述的window的多头注意力机制层和多层增强感知机层均使用残差连接，多层增强感知机层使用了深度卷积网络；第二个Swin-Transformer模块由SW-Transformer模块和多层增强感知机层组成，它们也均使用了残差连接；卷积自注意力机制模块，将旁路卷积引入Transformer模块中，所述模块包括旁路卷积模块、MSA模块和前馈网络模块，通过残差连接共同组成；

S3、构建一个融合的神经网络，所述融合的神经网络包括特征令牌金字塔模块、全局特征提取模块、特征注入模块和多尺度融合模块；所述的融合的神经网络输入为基于内窥镜的肠息肉图像，输出为相对应的肠息肉图像中目标区域的分割结果图；肠息肉图像的输入分为两路，第一路输入到特征令牌金字塔模块，第二路输入到全局特征提取模块，随后将第一路得到的特征通过语义注入模块进行特征融合，再通过多尺度融合模块获取从元素角度对所有尺度特征令牌进行融合的特征，第二路得到的全局特征与多尺度融合模输出的特征一起输入到上采样的解码器模块完成解码，得到最终的分割结果；

S5、利用采集到的测试样本输入至最佳肠息肉分割模型中，计算输出肠息肉分割图像，得到最终的分割结果并进行评估。

2.根据权利要求1所述的融合混合注意力机制的肠息肉分割方法，其特征在于：所述步骤S1具体过程如下：

S11、收集内窥镜下的肠息肉图像数据；

3.根据权利要求2所述的融合混合注意力机制的肠息肉分割方法，其特征在于：所述步骤S2具体包括，

S21、构建门控轴向注意力机制模块，对初始的自注意力机制模块分为两个部分；第一个部分在高度轴方向进行计算，而第二部分在宽度轴方向进行计算；

同时，引入相对位置，增加模块对位置信息的敏感度；即：

，

其中，w表示高度，q、k和v都是通过训练得到的参数，分别表示为查询向量、键向量和值向量，、 />和 />分别表示为宽度轴向中的查询、键和值向量相对应位置的偏置；此外，/>表示在i/>{1,...H}与j/>{1,...W}中任意位置的查询向量，/>、/>分别表示为某一宽轴上i/>{1,...H}中的任意位置的健向量和值向量；

使用门控机制来控制位置信息的权重；即：

，

S22、构建滑动窗口注意力机制模块；基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成，即：

= W_MSA(Norm(/>)) + />，

= FFN(Norm(Z`i)) + />，

= SW_MSA(Norm(/>)) + />，

= FFN(Norm(Z`i)) + />，

其中，Norm表示为归一化层，FFN为前馈网络，i表示为某一中间模块标识符，W_MSA表示为输入特征通过的基于窗口的注意力机制模块，SW_MSA则表示为基于滑动窗口注意力机制模块，表示为第/>层中基于窗口的多头注意力模块输出的特征表示，/>表示为基于移动窗口的多头自注意力模块输出的特征图像；

S23、构建旁路卷积自注意力机制模块，将旁路卷积引入视觉变压器模块中，该模块包括旁路卷积模块、多头注意力机制模块和前馈网络模块，通过残差连接共同组建；

对于第ith层模块表示为：

= MSA(Norm(/>))+ByConv(Norm(/>))，

= FFN(Norm(/>)) +ByConv(Norm(/>))，

其中，ByConv表示旁路卷积模块，包含2个卷积核为1×1的卷积层：，其中，/>表示为（l+1）th/>层的第nth/>个特征图，相应的/>表示为第l层的第mth/>个特征图，W表示权重矩阵，*表示2D卷积操作，而b为相对应的偏置，每个所述的1×1的卷积层后添加GELU激活函数；

此外在所述2个卷积层后引入1个卷积核大小为3×3的深度卷积。

4.根据权利要求3所述的融合混合注意力机制的肠息肉分割方法，其特征在于：所述步骤S3具体包括，

S31、构建特征令牌金字塔模块；每个输入内窥镜肠息肉图像X ，其中，H、W分别表示输入图像的高度和宽度尺寸，C表示相对的通道数，R表示像素所在的空间区域；堆叠的特征令牌生成模块共同构成特征令牌金字塔模块，其中，所述的特征令牌生成器由2个卷积核为1×1的卷积层和1个卷积核大小为3×3的深度卷积组成，此外，在第1、2个卷积操作后引入非线性激活函数PRelu6；即：

= PRelu6（Conv1（X）），

= PRelu6（DeConv（/>）），

= Liner（Conv1（/>）），

通过构建的模块产生出一系列局部特征令牌{，…，/>}，其中，N表示尺度数，随后令牌{/>，…，/>}被平均池化到目标大小，随后将来自不同尺度的特征令牌沿着通道维度连接起来，以产生新的特征标记输入到旁路卷积自注意力机制模块，生成特征图/>；即：

=ByViT（/>），

其中，ByViT表示使用堆叠的旁路卷积注意力机制模块作为编码器，学习、提取输入的特征令牌，获得局部尺度感知语义；

S32、构建语义注入模块；将每个通道获得的尺度语义与特征令牌金字塔模块生成的多通道局部令牌/>作为语义注入模块的输入，来弥补令牌{/>，…，/>}之间存在显著的语义差距差异；

S33、构建全局特征提取模块，将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块；

S34、构建多尺度融合模块，将不同尺度下的聚合的特征令牌进行融合。

5.根据权利要求4所述的融合混合注意力机制的肠息肉分割方法，其特征在于：所述步骤S4具体包括，

S41、构建融合混合注意力机制的肠息肉分割模型，使用初始学习率为0.001的Adam优化算法进行训练；

S42、利用混合损失函数缓解内窥镜下肠息肉图像中实例不平衡的问题；网络的损失函数为：

=α/>，

（/>）=L={/>,…,/>,/>；

；

其中，p表示分割网络预测的肠息肉图像，g表示肠息肉图像的真实结果，Ω表示为图像域，α和β表示两种损失函数的约束权重，N表示训练集中的实例数；（/>）表示二分类交叉熵损失，/>表示第n个样本对应的loss，/>表示设置的超参数；/>是一种损失函数；

S43、利用训练样本对分割模型进行训练，优化参数，得到最佳的神经网络模型。

6.根据权利要求5所述的融合混合注意力机制的肠息肉分割方法，其特征在于：所述步骤S5具体包括，

S51、利用测试样本验证训练后的分割模型的分割性能；

S52、使用水平集函数对分割图像想优化；

7.一种融合混合注意力的肠息肉图像分割系统，该分割系统采用了权利要求1-6任意一项所述的融合混合注意力机制的肠息肉分割方法，对肠息肉图像数据进行分割，进而得到最终的分割预测结果；其特征在于，包括：特征令牌金字塔模块，全局特征提取模块、多尺度融合模块以及解码器模块；

其中，特征令牌金字塔模块用于丰富基于内窥镜的肠息肉图像的语义信息，构建特征令牌金字塔模块，获得不同尺度的语义信息；

全局特征提取模块是两种注意力机制模块的组合，将门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块；

其中，门控轴向注意力机制模块：对初始的自注意力机制模块分为两个部分；第一个部分在高度轴方向进行计算，而第二部分在宽度轴方向进行计算；同时，引入对应位置，增加模块对位置信息的敏感度；为了更有效的在特征图中学习更丰富的位置信息，通过使用门控机制来控制位置信息的权重；滑动窗口注意力机制模块由基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成；输入的肠息肉图像通过全局特征提取模块的处理后，输出为标记序列融合特征；

多尺度融合模块使不同尺度下的聚合的特征令牌进行融合，学习更精细的特征信息、获取更丰富的空间，增强网络对边界模糊的肠息肉分割的能力；

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。