CN116935044A

CN116935044A - 一种多尺度引导和多层次监督的内镜息肉分割方法

Info

Publication number: CN116935044A
Application number: CN202310709584.9A
Authority: CN
Inventors: 韩军伟; 吴英杰; 杨乐; 韩龙飞; 张鼎文; 黄培亮
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-24
Anticipated expiration: 2043-06-14
Also published as: CN116935044B

Abstract

本发明公开了一种多尺度引导和多层次监督的内镜息肉分割方法，包括获取数据集；将数据集输入基于多尺度卷积注意力模块构建的用于下采样提取特征的编码器，并进行处理形成加权语义图；采用转置卷积构建用于上采样恢复原图尺寸的解码器；将加权语义图作为高级语义导引模块，传递至各层解码器，并采用多尺度的特征聚合模块处理特征图后送入各层解码器；将数据集输入构建的联合网络进行训练，并采用多重监督模块将真实标签经resize后传递到各层解码器计算损失，得到最终的内镜息肉分割模型，并保存模型进行内镜息肉分割。本发明通过设计内镜息肉分割方法处理实现对图像逐像素分类，生成质量更高的内窥镜肠道息肉分割图。

Description

一种多尺度引导和多层次监督的内镜息肉分割方法

技术领域

本发明涉及内镜息肉图像分割技术领域，特别涉及一种多尺度引导和多层次监督的内镜息肉分割方法。

背景技术

结直肠癌(Colorectal cancer CRC)常年以来占据癌症病例的前三位,严重威胁人类的生命健康。它通常由结肠息肉引起。息肉最初是良性的，但如果不及时治疗，随着时间的推移，它们可能会变成恶性。因此，通过筛查测试和切除肿瘤前病变(大肠腺瘤)来预防CRC是非常关键的，并已成为全世界公共卫生的优先事项。结肠镜检查是一种有效的CRC筛查和预防技术，因为它可以提供结直肠息肉的位置和外观信息，使医生能够在这些息肉发展成CRC之前切除它们。一些研究表明，早期结肠镜检查促使CRC的发病率下降了30％。

现有技术的不足之处在于，过去息肉的检测都是通过内窥镜医生人工观察判断的，很大程度上依赖于医生的经验和能力并且需要大量时间和精力，且许多肠道息肉在结肠镜检查时因医生长时间工作时视觉疲劳导致误诊或漏诊，因此急需探索使用计算机自动指明肠道中息肉位置的技术，计算机辅助检测系统可以实时地在结肠镜视频中显示息肉的位置，辅助内窥镜医生进行判断。

发明内容

本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种多尺度引导和多层次监督的内镜息肉分割方法，以解决上述背景技术中提出的问题。

一种多尺度引导和多层次监督的内镜息肉分割方法，包括以下步骤：

步骤S1、获取内镜息肉的检测图像，并进行预处理和标注，得到数据集；

步骤S2、将预处理和标注后的数据集输入基于多尺度卷积注意力模块构建的用于下采样提取特征的编码器，并在最深特征层后增加分类模块，用于判断特征图中是否存在息肉，并将最深特征层各层特征图根据分类层进行权重加权后形成加权语义图；

步骤S3、采用转置卷积构建用于上采样恢复原图尺寸的解码器，并通过横向连接将编码器输出的特征图直接传递至解码器，并使用卷积模块消除语义后融合；

步骤S4、将根据分类层权重加权后形成的加权语义图作为高级语义导引模块，传递至各层解码器，并采用多尺度的特征聚合模块处理特征图后送入各层解码器；

步骤S5、将步骤S1中的数据集输入步骤S2至S4中的联合网络进行训练，并采用多重监督模块直接将真实标签经resize后传递到各层解码器与相应解码器的输出计算损失，得到最终的内镜息肉分割模型，并保存模型进行内镜息肉分割。

作为本发明的进一步的方案：所述步骤S1中的具体步骤包括：

通过采集真实的医院内镜诊断场景的原始视频数据作为数据集，其中数据集信息包含病灶名称，以及病灶出现的时间段；

对获取的原始视频数据进行视频拆分成帧，且去除每帧画面中的内镜厂商附带信息，统一图像大小；

采用标注工具labelme根据专业医生的指导进行标注，使用折线框出息肉病灶的边缘，生成前景为白色，背景为黑色的标签为正样本，其中，对于不含息肉的帧，则生成全黑的标签为负样本；

并根据预设比例8:1:1对原始数据进行划分为训练集、验证集，以及测试集。

作为本发明的进一步的方案：所述步骤S2中的具体步骤包括：

结合深度学习的卷积和transformer两种基本架构，采用深度可分离卷积和通道逐点卷积构建具有多尺度卷积注意力模块的编码器，其中，多尺度卷积注意力模块的主体由多个尺度并行的卷积，用以检测不同形状和尺寸的息肉，所述多尺度卷积注意力模块的前端用以下采样抽象特征，所述多尺度卷积注意力模块的后端通过注意力机制进行尺寸调整权重；

所述多尺度卷积注意力模块的最深特征层后增加分类模块，利用全局平均池化对每个通道赋予一个权重进行分类。

作为本发明的进一步的方案：所述多尺度卷积注意力模块包括用以聚集局部信息的depth wise卷积、连接于depth wise卷积之后的四个多分支多尺度用以捕捉多尺度背景的depth wise卷积，以及一个1×1卷积。

作为本发明的进一步的方案：所述步骤S3中的具体步骤包括：

所述解码器由若干个上采样模块堆积组成，将特征图恢复至原始尺寸水平，并对每个像素二分类，判断其是否为前景；

其中，上采样的方法采用转置卷积，将较小的特征图周围填充足够的0后进行卷积生成更大但通道数更少的特征图，同时采用横向连接将包含更多信息的同一尺度的编码器特征图与之进行通道方向的叠加，用以充分利用信息，再使用3×3卷积层消除编码器和解码器语义差距并恢复至原通道数。

作为本发明的进一步的方案：所述采用横向连接的具体步骤包括：

将每一层编码器对特征图的缩小比例与对应层的解码器的恢复比例相同并层层对应，用于逐层编解码。

作为本发明的进一步的方案：所述编码器和解码器通过层层堆叠构成U型网络主体，其中，编码器输入特征尺寸与相应解码器输出相同，输出尺寸与相应输入尺寸相同。

作为本发明的进一步的方案：所述步骤S4中的具体步骤包括：

所述分类层的分类模块使用GAP在分类过程中，为每个通道赋予一个权重，使用所有权重将将最深特征层各层特征图根据分类层进行权重加权后形成加权语义图，并在解码器一步步恢复图像尺寸时，将加权语义图直接传递至各层解码器。

作为本发明的进一步的方案：所述步骤S5中的具体步骤包括：

利用多层特征图加强监督，在decoder部分增加一层监督，在解码的每一个步骤，将groudtruth放缩至相应层特征图的大小；

各个层按照上述步骤述进行上采样，通过高层语义指导，利用横向连接并经过卷积层微调后形成一个初步的加权语义图，根据加权语义图和resize到当前维度的真实标签进行对比计算损失，最终的损失为：

其中，l_i为单个像素的分类损失，为调节相应损失贡献的系数，可根据实验进行选取。

与现有技术相比，本发明存在以下技术效果：

采用上述的技术方案，通过获取数据集输入基于多尺度卷积注意力模块构建的编码器，并形成加权语义图，同时构建解码器，并通过横向连接将编码器输出连通至解码器，以及采用多尺度的特征聚合模块处理特征图和多重监督模块处理各层解码器与相应解码器的输出计算损失，得到最终的内镜息肉分割模型，并保存模型进行内镜息肉分割，获得良好初始权重的卷积注意力模块用于提取高质量的视觉概念，并采用了全局指导模块用于兼顾高低层视觉信息在特征提取和目标分割的重要作用，从而更加智能的模仿医生的学习、检测过程，生成质量更高的内窥镜肠道息肉分割图，实现对图像逐像素分类，息肉的部分用特殊颜色突出，可在1K分辨率下达到30FPS以上的实时分割。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1为本申请公开实施例的内镜息肉分割方法的步骤示意图；

图2为本申请公开实施例的内镜息肉分割方法的总体结构示意图；

图3为本申请公开实施例的构成编码器的卷积注意力模块示意图；

图4为本申请公开实施例的编解码器横向连接与加入语义引导示意图；

图5为本申请公开实施例的多重反复监督模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，本发明实施例中，一种多尺度引导和多层次监督的内镜息肉分割方法，包括以下步骤：

步骤S1、获取内镜息肉的检测图像，并进行预处理和标注，得到数据集，具体步骤包括：

通过采集真实的医院内镜诊断场景的原始视频数据作为数据集，并针对隐私和伦理问题不含任何病人的个人信息，其中数据集信息包含病灶名称，以及病灶出现的时间段；

对获取的原始视频数据进行视频拆分成帧，且去除每帧画面中的内镜厂商附带信，如时间戳等息，统一图像大小，统一为1160×1080大小；

采用标注工具labelme根据专业专科医生以此为依据指导数据标注，使用折线框出息肉病灶的边缘，生成前景(息肉)为白色，背景(肠道)为黑色的标签为正样本，正负样本采用同一命名，其中，对于不含息肉的帧，则生成全黑的标签为负样本；

并根据预设比例8:1:1对原始数据进行划分为训练集、验证集，以及测试集；

本实施例中，可在pytorch环境下加载存储系统的数据集，按照标准神经网络训练流程训练完毕，生成pth模型字典文件后，可以直接部署在拥有高级科学计算卡的高性能linux服务器上，这种方式无须额外转换，可在pytorch环境下直接加载pth推理使用，也可部署在相对差的设备上。

步骤S2、将预处理和标注后的数据集输入基于多尺度卷积注意力模块构建的用于下采样提取特征的编码器，并在最深特征层后增加分类模块，用于判断特征图中是否存在息肉，并将最深特征层各层特征图根据分类层进行权重加权后形成加权语义图，具体步骤包括：

本实施例中，所述多尺度卷积注意力模块包括用以聚集局部信息的depth wise卷积、连接于depth wise卷积之后的四个多分支多尺度用以捕捉多尺度背景的depth wise卷积，以及一个1×1卷积。

具体实施方式中，如图3所示，图示为构成编码器的多尺度卷积注意力模块示意图，多尺度卷积注意力模块M1，包含三个子模块，其中一个depth wise(以下简称为DW)卷积来聚集局部信息，而后是四个多分支多尺度的DW卷积来捕捉多尺度背景，以及一个1×1卷积来模拟不同通道之间的关系。1×1卷积的输出被直接用作注意力权重，以重新权衡多尺度卷积注意力模块M1的输入。

具体实施方式中，在数学上，多尺度卷积注意力模块M1对数据的处理为：

其中，F代表输入特征。Att和Out分别为注意图和输出。是逐元素的矩阵乘法运算，即对F中的每一个点都与Att中的相应权重相乘从而构成注意力机制，DW_Conv表示深度卷积，Scale_i，i∈{1,2,3,4}，表示图3中的第i个分支。Scale₁是不变等价连接，以模仿resnet中的残差。

在每个分支中，我们使用两个DW的带状卷积来近似于更大卷积核的标准深度明智的卷积。具体的，每个分支的卷积核大小分别被设定为7、11和21。选择条带状DW卷积的原因有两个方面。一方面，带状卷积是轻量级的。为了模仿核大小为7×7的标准二维卷积，我们只需要一对7×1和1×7的卷积。另一方面，在实际诊断中存在普通块球状息肉，也存在条棒状息肉，通常还会对应不同的诊断思路，因此，条状卷积可以作为作为网格卷积的补充，有助于提取条状特征。

本实施例中，DW卷积是简化卷积的一种形式，K×K的标准卷积通常接受D_F×D_F×M的输入产生D_F×D_F×N的输出，在一个步骤中既过滤又将输入合并为一组新的输出，它可以被分解为DW卷积和1×1卷积，DW卷积对每个输入通道只用一个卷积核。然后，1×1卷积负责将通道数调整到指定输出。标准卷积的计算方法是：

G_k,l,n＝∑_i,j,mK_i,j,m,n·F_{k+i-1,l+j-1,m}；

参数量为：

D_K·D_KM·N·D_F·D_F；

而DW卷积为

其中，指拥有D_K·D_K·M的DW卷积，/>中第m个卷积核将只应用于F中的第m个通道产生一个特征图/>配合1×1点状卷积调整输出通道其总的参数量为：

D_K·D_K·M·D_F·D_F+M·N·D_F·D_F；

降低参数的比例为：

本实施例中，将一连串的多尺度卷积注意力模块堆叠在一起，就得到了卷积编码器，采用一个普通的分层结构，它包含四个空间分辨率递减的阶段，分别是：

其中，H和W分别是输入图像的高度和宽度。每个阶段都包含一个下采样块和一堆构建块；下采样块有一个步幅为2和内核大小为3×3的卷积，后面是归一化层，每个构建块中，我们使用批归一化而不是层归一化，因为批归一化对分割性能的提升更大。

步骤S3、采用转置卷积构建用于上采样恢复原图尺寸的解码器，并通过横向连接将编码器输出的特征图直接传递至解码器，并使用卷积模块消除语义后融合，具体步骤包括：

具体实施方式中，每个解码器块都采用转置卷积将下层传来的较低分辨率的特征图在尺寸上恢复一倍，与每个编码器下采样的缩小比例相同，从而形成一一对应，所谓转置卷积是图像处理中一种常用的上采样方法，其优势在于可以无缝衔接到神经网络中，有和普通卷积类似的可学习参数，比双线性插值等方法更加智能，可以融入整体的前向推理和反向传播中一起计算，则输入输出公式为：

output＝stride×(input-1)+kernel_size-2×padding；

其中，四个解码器层依此堆叠逐步恢复至原尺寸：

本实施例中，采用横向连接的具体步骤包括：

编码器和解码器通过层层堆叠构成U型网络主体，其中，编码器输入特征尺寸与相应解码器输出相同，输出尺寸与相应输入尺寸相同。

具体实施方式中，如图4所示，图是为编码器、解码器横向连接与加入语义引导示意图，将相同尺寸的编码器特征图直接传递至解码器，进行通道上的连接合并，而后通过卷积层融合后成为下一层解码器的输出，其过程可形式化为：

output＝f(Concat(F₁,F₂))；

其中，F₁∈(H,W,C₁),F₂∈(H,W,C₂)，H,W为特征图的高和宽，C₁,C₂编解码器的通道数；

经过concat后变为：F^t＝(H,W,C₁+C₂)；

其中，f(.)为拥有(3×3×(C₁+C₂)×C_out)尺寸的融合卷积，负责不改变特征图尺寸下将通道调整为指定数目，使用转置卷积解码较高层特征图会引入很多的空白padding，因此在解码过程中语义信息被一步步稀释，到了最后几层，可能大部分的信息都将是模型“想象”出来的噪声，不能用于图像分割，此外编码器下采样的过程采用的pooling操作也会不可恢复的损失图片的信息。因此，将各个编码器层的特征图都采用横向连接传到解码器，也避免了只使用最高层特征图带来的信息损失；

步骤S4、将根据分类层权重加权后形成的加权语义图作为高级语义导引模块，传递至各层解码器，并采用多尺度的特征聚合模块处理特征图后送入各层解码器，具体步骤包括：

具体实施方式中，产生生成加权语义图采用了global average pooling(GAP)技术，原本是分类任务的正则化手段，传统的分类网络在最后一层往往要将特征图展平放入全连接层中预测类别分数从而因为通道很多而引入了过多参数造成模型过拟合，GAP则将各个通道池化为一个点从而形成(H×W)维向量用于全连接层分类，从而大大减少了参数量；

因此，利用GAP的思路，我们将softmax全连接层赋予各通道的权重利用起来，形成类激活图(class activation maps,CAM)：

利用一个特定类别的类激活图表示CNN用来识别该类别的鉴别性图像区域，则可以通过将输出层的权重投射到卷积特征图上来确定图像区域的重要性，即类激活映射；

本实施例中，计算最后一个卷积层的特征图的加权和，以获得我们的类激活图：

设f_k(x,y)代表最后一个卷积层中的通道k在空间位置(x,y)的激活情况,而后对单元k,GAP的结果为：

F^k＝∑_x,(f_k(x,y))；

之后全连接层输出的结果为：

其中，表示了F^k对类别c的重要性，之后类别c的概率将由/>给出。

根据输出可知：

则令则直接表明在空间网格(x,y)上的激活对于将图像分类到c类的重要性。

因为本次分类仅涉及有无息肉的二分类，于是F2＝∑_kw_kf_k(x,y)；

其中，k为通道数，F2是各通道的重新加权；

具体实施方式中，编码器和解码器通过层层堆叠构成U型网络主体，则U型网络架构的一个问题是：高层特征在传输到低层时将被逐渐稀释，则导致CNN的经验感受野比理论上的感受野小得多，特别是对于较深的层，所以整个网络的感受野不够大，无法捕捉到输入图像的整体信息。因此，我们引入了一个全局引导模块，包含一系列全局引导流，以明确地使每一级的特征图都知道突出对象的位置。

该全局引导模块独立于U型网络结构，高层次的语义信息来自经过GAP处理的特征图，可以很容易地传递给不同层次的解码器。明确地增加了全局引导信息在自上而下路径的每个部分的权重，以确保在建立解码器放大尺寸时，高级语义信息不会被稀释。

然而一个值得提出的新问题是：如何使来自GGM的粗放级特征图与解码器不同尺度的特征图无缝合并起来。

其中C＝{C2，C3，C4，C5}的特征图与输入图像的大小相比，其下采样率分别为{4，8，16，32}。我们的指导模块向上传递需要更大的上采样率(例如，8)。如何有效地弥塔和不同尺度的特征图之间的巨大差距是非常重要的。

因此，采用特征聚合模块M4，每个模块包含四个子分支，如图4所示。在前向通道中，输入的特征图首先被转换为不同尺度的空间，将其送入具有不同下采样率的平均池层。然后，来自不同子分支的上采样特征图被合并在一起，接着是一个3×3的卷积层。

一般来说，特征聚合模块M4有两个优点：首先，它可以帮助我们的模型减少上采样的混叠效应，特别是当上采样率较大时(例如，8)。此外，它允许每个空间位置在不同的尺度空间查看本地环境，进一步扩大整个网络的感受野。

步骤S5、将步骤S1中的数据集输入步骤S2至S4中的联合网络进行训练，并采用多重监督模块直接将真实标签经resize后传递到各层解码器与相应解码器的输出计算损失，得到最终的内镜息肉分割模型，并保存模型进行内镜息肉分割，具体步骤包括：

本实施例中，相比起要求更低的分类任务，分割任务要求数据集做到像素级的分类，这对数据的收集标注要求更高，U-NET还具有两个不足之处：

其一，U-NET类网络拥有复杂的上采样操作，从某种程度上讲，这是在“想象”图像的细节，缺乏监督，仅有最后的分割监督是不足以应对多层上采样的；

其二，skip connection传递过来的特征进行融合后经一定的卷积层处理消除语义鸿沟也缺乏明确目标。

如图5所示，图示为多重反复监督模块示意图，利用多层特征图加强监督，在decoder部分增加一层监督，在解码的每一个步骤，将groudtruth放缩至相应层特征图的大小；

本实施例中，公开的SUN-SEG数据集上，采用其官方划定的训练集，在其easy/unseen和hard/unseen的测试集标准下进行测试，在多个衡量图像分割的深度学习指标上达到了优越的实验结果，则测试成绩如下表所示：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，均应包含在本发明的保护范围之内。

Claims

1.一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述步骤S1中的具体步骤包括：

3.根据权利要求1所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述步骤S2中的具体步骤包括：

4.根据权利要求3所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述多尺度卷积注意力模块包括用以聚集局部信息的depth wise卷积、连接于depthwise卷积之后的四个多分支多尺度用以捕捉多尺度背景的depth wise卷积，以及一个1×1卷积。

5.根据权利要求1所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述步骤S3中的具体步骤包括：

6.根据权利要求5所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述采用横向连接的具体步骤包括：

7.根据权利要求6所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述编码器和解码器通过层层堆叠构成U型网络主体，其中，编码器输入特征尺寸与相应解码器输出相同，输出尺寸与相应输入尺寸相同。

8.根据权利要求1所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述步骤S4中的具体步骤包括：

9.根据权利要求1所述一种多尺度引导和多层次监督的内镜息肉分割方法，其特征在于，所述步骤S5中的具体步骤包括：