CN115331024A

CN115331024A - 一种基于深度监督和逐步学习的肠道息肉检测方法

Info

Publication number: CN115331024A
Application number: CN202211007876.XA
Authority: CN
Inventors: 郑建炜; 严亦东; 全玥芊; 邵安昊; 潘翔
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-11

Abstract

本发明公开了一种基于深度监督和逐步学习的肠道息肉检测方法，利用PVT_V2对肠镜拍摄图像进行多尺度特征提取；将提取到的多尺度特征输入细节增强模块，输出细节增强后的特征；将细节增强后的特征输入指导融合模块，使低层特征在高层特征的指导下与高层特征进行融合；将最高层的特征输入多分支解码器模块，得到多尺度信息融合解码后的特征；将细节增强后的特征与前一个多尺度解码器的输出结果输入多尺度解码器，逐步学习得到每一层多尺度解码器的输出特征；将多尺度解码器的输出特征通过一个一层卷积层，得到检测结果。本发明在多尺度解码器中继续突出多尺度的细节信息，实现了对肠道息肉的精准定位和准确检测，并具有良好的泛化能力。

Description

一种基于深度监督和逐步学习的肠道息肉检测方法

技术领域

本申请属于图像处理技术领域，具体涉及一种基于深度监督和逐步学习的肠道息肉检测方法。

背景技术

医学图像检测是人工智能辅助诊断的重要组成部分，它可以为医生提供一些细节信息，辅助医生进行诊断。对于常见的癌症结肠癌来说，早期发现并切除息肉是预防癌症发作的有效手段。在肠镜捕获图像中检测息肉对于预防结肠癌有重要意义。最近，自然图像的图像检测取得了很大的进展，相比之下，医学图像中的检测问题仍面临着巨大的挑战。由于医学图像的数据集一般比较小，检测目标的形状又具有很大区别，所以很难将自然图像的检测方法的直接迁移应用到医学图像检测中去。因此，如何准确捕捉图像特征，提高模型的泛化能力，对医学图像检测的进一步探索至关重要。

最近，基于卷积神经网络(CNN)的医学图像检测方法在许多数据集中取得了良好的表现。其中最具代表性的方法是U-Net，它通过跳跃连接很好地捕获了上下文信息。但是由于CNN模型的自顶向下建模方法以及息肉形态的多变性，这些模型缺乏对全局信息的捕获能力和泛化能力，很多时候会识别不出一些不明显的息肉。Xie等人在2021年提出了SegFormer，将Transformer应用到图像检测领域，并提出了一种多阶段特征聚合多分支解码器，通过简单的上采样然后并行融合分别预测不同尺度和深度的特征。Ange等人提出的CaraNet利用反向注意力提取小物体的细节信息，然后通过Transformer对全局关系进行建模。CaraNet对于小物体的检测非常精准，在医学图像检测任务中创造了新的记录。这些基于Transformer的方法对检测的主体把握的很好，但是对于低级纹理信息的处理还有所欠缺，导致检测结果的边界并不精准。

发明内容

本发明要克服现有技术的缺点，提供基于深度监督和逐步学习的肠道息肉检测方法。通过Transformer中的变体PVT来提取特征，用卷积层来捕获多尺度的细节信息，通过深度监督的方式逐层进行学习，逐步融合各层特征以获得精确的检测结果。

为实现上述目的，本发明所采取的技术方案为：

一种基于深度监督和逐步学习的肠道息肉检测方法，包括：

输入待检测的352×352×3的肠道息肉图像，使用PVT_V2对肠镜拍摄图像进行特征提取，提取四个尺度特征，四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512；

将提取到的四个尺度的特征输入细节增强模块，输出细节增强并压缩通道数为64后的第一至第四增强特征；

将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块，输出融合后的第一至第三融合特征；

将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器，第一至第四层各个多分支解码器依次连接，后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入，得到多分支解码器解码后的第一至第四解码特征；

将第一至第四解码特征分别通过一个3×3的卷积，得到四个通道数为1的检测结果，以第一解码特征对应的检测结果作为最终检测结果。

进一步的，所述细节增强模块，执行如下操作：

S21、将提取得到的任一尺度特征

通过一层1×1卷积，使其压缩到64个通道并保持原有空间尺度，去除检测任务中冗余的通道信息，输出尺度为H_i×W_i×64，H_i、W_i分别为特征

的高度和宽度；

S22、将S21的结果分别通过1×1，3×3，5×5，7×7的4个卷积核，得到捕获了不同尺度信息的四个特征

尺度均为H_i×W_i×64；

S23、将S22的结果在通道维度上进行拼接，得到尺度为H_i×W_i×256的融合特征

S24、将获得的特征

通过两层3×3卷积，融合捕获了不同尺度信息的特征，生成增强特征

其尺度为H_i×W_i×64。

进一步的，所述指导融合模块，执行如下操作：

S31、对于提取到的四个增强特征

将其以

的对应关系输入指导融合模块；

S32、将

用双线性插值的方式进行上采样，得到与

的空间维度相同的特征

S33、将上采样后的特征

通过空间注意处理，得到注意力权重smap_i+1表示，计算公式如下：

其中，SA(·)为空间注意力；

S34、令特征

和smap_i+1进行元素乘法，突出显著区域的特征，计算公式如下：

其中，

为元素乘法；

S35、将

与

进行残差连接，使之保留低层特征的信息，提高训练稳定性，计算公式如下：

S36、将

与

在通道维度上拼接融合，得到尺度为H_i×W_i×128的结果

S37、将获得的特征

通过一层3×3卷积，融合捕获不同尺度信息的特征，输出融合特征

其尺度为H_i×W_i×64。

进一步的，所述第四层多分支解码器，执行如下操作：

S411、将第四增强特征

输入一个1×1卷积，进一步学习不同通道上的信息得到尺度为11×11×64结果；

S412、将S41的结果分别通过1×1，3×3，5×5的4个卷积核，得到捕获了不同尺度信息的3个特征

三个特征的尺度均为H_i×W_i×64；

S413、将S42的三个结果在通道维度上进行拼接，得到尺度为H_i×W_i×192的融合特征

S414、将获得的特征

通过两层3×3卷积，融合捕获了不同尺度信息的特征，生成解码特征

其尺度为H_i×W_i×64；

所述第一至第三层多分支解码器，解码过程如下：

S421、将融合特征

和前一个多分支解码器输出的解码特征

在通道维度上进行拼接，得到尺度为H_i×W_i×64的融合特征

S422、将

输入一个1×1卷积，融合该层特征和上层特征的结果得到尺度为H_i×W_i×64的结果

S423、将

分别通过1×1，3×3，5×5的3个卷积核，得到捕获了不同尺度信息的3个特征

三个特征的尺度均为H_i×W_i×64；

S424、将特征

在通道维度上进行拼接，得到尺度为H_i×W_i×192的融合特征

S425、将获得的特征

其尺度为H_i×W_i×64。

本申请提供的基于深度监督和逐步学习的肠道息肉检测方法，利用利用深度监督对PVT_V2提取的特征进行逐层学习。通过细节增强捕获细节信息并去除冗余的通道信息，利用指导融合模块逐步融合高语义信息和低语义信息，让高层学习结果指导低层的学习。并通过多分支解码器进行检测，得到更准确的肠道息肉检测结果。

附图说明

图1为本申请基于深度监督和逐步学习的肠道息肉检测方法的流程图；

图2为本申请网络模型整体架构图；

图3为本申请实施例细节增强模块结构示意图；

图4为本申请指导融合模块结构示意图；

图5为本申请多分支解码器模块结构示意图；

图6为本申请空间注意SA模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，提供了一种基于深度监督和逐步学习的肠道息肉检测方法，充分利用了Transformer的全局依赖捕获能力和CNN的细节捕获能力，实现肠道息肉图像的准确检测。

具体的，如图1所示，本实施例中基于深度监督和逐步学习的肠道息肉检测方法，包括：

步骤S1、输入待检测的352×352×3的肠道息肉图像，使用PVT_V2对肠镜拍摄图像进行特征提取，提取四个尺度特征，四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512。

首先，获取待检测肠道息肉图像，然后缩放为352×352×3，作为后续处理的输入图像。

本实例中，为了更好利用Transformer的自注意力机制更好的捕获图像中的全局依赖关系，使用PVT_V2骨干网络对图像进行特征提取。利用PVT_V2对输入的353×352×3肠道息肉图像进行特征提取，旨在提取不同尺度的特征，高层次的网络的感受野比较大，语义信息表征能力强，能够准确的定位目标位置；低层次的网络的感受野比较小，几何细节信息表征能力强，有助于补全边界细节信息。

经过PVT_V2进行特征提取后，得到的四个尺度的特征分别为88×88×64、44×44×128、22×22×320和11×11×512，在图2中对应PVT1、PVT2、PVT3和PVT4的输出。

步骤S2、将提取到的四个尺度的特征输入细节增强模块，输出细节增强并压缩通道数为64后的第一至第四增强特征。

本实例中，如图2所示，对于四个不同尺度的特征输出

先通道压缩以去除通道冗余信息并提高模型计算速度，然后分别通过四个大小不一的卷积核提取不同尺度的细节特征，再将这些不同尺度的特征在通道维度上连接起来，通过两层3×3的卷积核融合各尺度的信息并降低通道数。

肠镜拍摄图像通过PVT_V2的特征提取得到四个尺度的特征

其尺度分别为88×88×64，44×44×128，22×22×320，11×11×512，将其分别输入细节增强模块。本实施例中细节增强模块如图3所示，过程如下：

S21、将提取得到的任一特征f_i ^o通过一层1×1卷积，使其压缩到64个通道并保持原有空间尺度，去除检测任务中冗余的通道信息，输出尺度为H_i×W_i×64，H_i、H_i分别为特征f_i ^o的高度和宽度。

尺度均为H_i×W_i×64。

S24、将获得的特征

其尺度为H_i×W_i×64。

步骤S3、将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块，输出融合后的第一至第三融合特征。

本实例中，如图4所示，对于输入特征

和

由

上采样后通过SA模块生成空间注意力图smap_i+1，用空间注意力图与低层特征

进行元素乘法，得到凸显显著区域的

并于

作跳跃连接。将结果

与

拼接后用3×3的卷积层融合，得到输出

本实施例中指导融合模块过程如下：

S31、对于提取到的四个增强特征

将其以

的对应关系输入指导融合模块。

S32、将

用双线性插值的方式进行上采样，得到与

的空间维度相同的特征

S33、将上采样后的特征

通过空间注意处理，得到注意力权重，用smap_i+1表示，计算公式如下：

其中，SA(·)为空间注意力，SA模块结构如图6所示。

S34、令特征

其中，

为元素乘法。

S35、将

与

S36、将

与

在通道维度上拼接融合，得到尺度为H_i×W_i×128的结果

S37、将获得的特征

其尺度为H_i×W_i×64。

步骤S4、将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器，第一至第四层各个多分支解码器依次连接，后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入，得到多分支解码器解码后的第一至第四解码特征。

本实例中，分别将第一至第三融合特征和第四增强特征输入到各自对应的多分支解码器，第四增强特征输入到第四层多分支解码器，第一至第三融合特征依次输入到第一至第三层多分支解码器。

如图5所示，多分支解码器对于输入特征，先通过1×1卷积，进一步学习不同通道上的信息为，再通过三个不同的卷积分支提取不同尺度的信息，再次拼接融合得到最后的结果

本实施例，将第四增强特征

输入第四层多分支解码器，其尺度为11×11×64，解码过程如下：

S411、将第四增强特征

输入一个1×1卷积，进一步学习不同通道上的信息得到尺度为11×11×64结果。

三个特征的尺度均为H_i×W_i×64。

S414、将获得的特征

其尺度为H_i×W_i×64。

本实施例中，对于第一至第三层多分支解码器，输入特征为融合特征

和上一个多分支解码器输出的解码特征

先拼接通道后融合为

再通过三个不同的卷积分支提取不同尺度的信息，再次拼接融合得到最后的结果

本实施例中，第一至第三层多分支解码器，解码过程如下：

S421、将融合特征

和前一个多分支解码器输出的解码特征

在通道维度上进行拼接，得到尺度为H_i×W_i×64的融合特征

本实施例将前一个多分支解码器的输出

用双线性插值的方式进行上采样，得到与

的空间维度相同的特征

然后将

和

在通道维度上进行拼接，得到尺度为H_i×W_i×64的融合特征

S422、将

S423、将

三个特征的尺度均为H_i×W_i×64。

S424、将特征

在通道维度上进行拼接，得到尺度为H_i×W_i×192的融合特征

S425、将获得的特征

其尺度为H_i×W_i×64。

步骤S5、将第一至第四解码特征分别通过一个3×3的卷积，得到四个通道数为1的检测结果，以第一解码特征对应的检测结果作为最终检测结果。

本步骤将解码后的特征分别通过一个3×3的卷积，得到四个通道数为1的检测结果。

在训练时，还将检测结果用插值法上采样的原图大小，计算损失函数并执行反向传播，来完成整个网络模型的训练。在训练好网络模型之后，采用训练好的网络模型，对输入的肠道息肉图像进行检测，输出检测结果。

本实例中利用BCE损失和IOU损失来计算最终的显著目标检测结果与真实标签之间的损失。

本实例中利用二进制交叉熵(BCE)计算真实标签和检测结果之间的差距。BCE是分类中一种广泛使用的损失，计算的公式如下：

IOU损失主要用于测量两幅图像在整体上的相似性，计算公式如下：

其中，g(x,y)∈[0,1]是检测图片的真实标签，p(x,y)∈[0,1]是模型对检测图片的检测结果。

在使用训练好的模型时，只使用第一层的多分支解码器的输出结果，将其用3×3卷积把通道数降为1，得到每一个像素是息肉目标的概率值。将概率值大于等于0.5的标注为是息肉目标的白色像素，将概率值小于等于0.5的像素标注为不是息肉目标的黑色像素，得到最终的检测结果，即以白色像素标注息肉目标的黑白图像。

本实例中，利用交互编码器融合了主体特征和边缘特征，再反馈给主体编码器和边缘编码器进行二次迭代，二次迭代的输出将具有更清晰的边缘特征，更符合实际标签。

本实施例利用多分支融合网络，将主体与边缘分开进行特征的多尺度提取和融合，有利于显著目标的边缘刻画。在实例中引入标签解耦的方法，该方法对肠道息肉图像标签进行解耦，利用距离变换法将原有标签解耦为主体标签和边缘标签，解耦后的标签有利于对模型的监督和评估。

本实施例设计了细节增强模块、指导融合模块和多分支解码模块。在使用Transformer骨干网络提取特征的基础上，用卷积神经网络进行局部信息的增强和特征融合。用深度监督使每一层的特征融合结果都得到学习，逐步融合得到清晰准确的最终结果。在Transformer的自注意力机制准确定位检测区域的基础上，用卷积神经网络捕捉细节信息并进行融合，充分利用两者的优势，得到清晰准确的结果。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。