CN115423788A

CN115423788A - 一种基于深度学习的消化道识别系统及方法

Info

Publication number: CN115423788A
Application number: CN202211128727.9A
Authority: CN
Inventors: 赵子健; 逄雪娇
Original assignee: Shandong University
Current assignee: One Key Intelligent Technology (Jinan) Co.,Ltd.
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-02

Abstract

本发明公开的一种基于深度学习的消化道识别系统及方法，包括：输入处理模块，用于获取消化道图像，并对消化道图像进行预处理，获得预处理后输入数据；消化道识别模块，用于根据预处理后输入数据和训练好的消化道识别模型，获得消化道识别结果；其中，训练好的消化道识别模型通过全局信息提取路径从预处理后输入数据中提取不同空间维度的全局特征信息，通过局部信息提取路径从预处理后输入数据提取局部特征信息，通过特征信息融合模块将全局特征信息和局部特征信息进行特征融合，获得融合后特征，根据融合后特征获得消化道识别结果。提高了消化道识别的准确率。

Description

一种基于深度学习的消化道识别系统及方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于深度学习的消化道识别系统及方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现有的通过内窥镜对消化道进行观测识别时，主要通过对内窥镜获取的消化道图像进行特征提取，再通过对提取的特征进行识别，获得消化道的识别结果。

发明人发现，目前主要采用人工特征提取器和卷积神经网络(CNN)从消化道图像中提取特征，由于人工特征提取器的简单性和局部性，使得特征提取的能力有限，CNN虽然通过卷积核滑动窗口有效地提取了局部信息，但是由于消化道的复杂性和多样性，消化道待识别部位大小不一，待识别的部位可能占据消化道图像的所有部分，且受消化道图像成像过程中的角度等的影响，当仅通过局部信息进行消化道的识别时，识别准确率较低。

发明内容

本发明为了解决上述问题，提出了一种基于深度学习的消化道识别系统及方法，通过获取消化道图像不同空间维度的全局特征信息和局部特征信息，并将全局特征信息和局部特征信息进行融合获得融合后特征，根据融合特征进行消化道识别，提高了识别的准确性，且在局部信息提取路径和特征信息融合模块中使用CSA(channel and spatialattention)模块，减少重要信息的丢失，进一步提高了消化道识别的准确率。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了一种基于深度学习的消化道识别系统，包括：

输入处理模块，用于获取消化道图像，并对消化道图像进行预处理，获得预处理后输入数据；

消化道识别模块，用于根据预处理后输入数据和训练好的消化道识别模型，获得消化道识别结果；

其中，训练好的消化道识别模型通过全局信息提取路径从预处理后输入数据中提取不同空间维度的全局特征信息，通过局部信息提取路径从预处理后输入数据中提取局部特征信息，通过特征信息融合模块将全局特征信息和局部特征信息进行特征融合，获得融合后特征，根据融合后特征获得消化道识别结果。

第二方面，提出了一种基于深度学习的消化道识别方法，包括：

通过输入处理模块获取消化道图像，并对消化道图像进行预处理，获得预处理后输入数据；

消化道识别模块根据预处理后输入数据和训练好的消化道识别模型，获得消化道识别结果；

其中，训练好的消化道识别模型通过全局信息提取路径从预处理输入数据中提取不同空间维度的全局特征信息，通过局部信息提取路径从预处理后输入数据中提取局部特征信息，通过CSA模块减少特征信息在空间维度变换过程中的丢失，通过特征信息融合模块将全局特征信息和局部特征信息进行特征融合，获得融合后特征，根据融合后特征获得消化道识别结果。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于深度学习的消化道识别方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于深度学习的消化道识别方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明包含两条不同编码方式的特征提取路径，能够提取丰富的全局特征信息和局部特征信息，弥补了transformer和CNN的不足，利用全局特征信息和局部特征信息进行消化道识别时，提高了消化道识别的准确率。

2、本发明在包含transformer架构的全局信息路径中进行空间维度变换时通过卷积操作进行下采样以得到不同尺度的全局信息，进一步丰富了特征表示，减少了计算量和内存占用。

3、本发明提出了参数量较少的CSA模块，通过分别提取空间维度和通道维度的最大值和平均值并逐个元素的相加融合的方式进行注意力权重的提取，并对原始特征图进行注意力加权，使得本发明所提系统在空间维度变换过程中更加关注目标区域，减少重要信息的丢失，有效地提升了系统的性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例1公开系统的工作流程图；

图2为实施例1公开系统的网络结构图；

图3为实施例1公开的CSA模块结构图；

图4为实施例1公开系统的性能验证图；

图5为实施例3公开的电子设备结构图。

其中：500、电子设备，510、处理器，520、存储器，530、总线。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

在该实施例中，公开了一种基于深度学习的消化道识别系统(TransMSF)，如图1、图2所示，包括：

具体的，输入处理模块对消化道图像进行的预处理操作，包括：

对获取到的消化道图像进行归一化、裁剪和重新调整大小等数据处理，得到预设尺寸的输入图像，将其划分为相同大小的图像块，并通过图像块映射层转换为一维向量，获得预处理后输入数据。

在具体实施中，为了减少来自不同对比度和不同对象的影响，通过将消化道图像的各点像素强度值减去像素强度的最小值并除以像素强度的总体范围，将图像数据归一化为0到1之间。

对消化道识别模型进行详细说明。

消化道识别模型包括全局信息提取路径、局部信息提取路径、特征信息融合模块和分类器；全局信息提取路径包括三个依次连接的transformer编码层，且相邻transformer编码层之间设置下采样，所有transformer编码层的输出构成不同空间维度的全局特征信息。

通过卷积操作和CSA模块搭建了一个四层的局部信息提取路径用于捕获局部特征信息，每一层均由一个卷积层、批归一化层、激活函数和CSA模块构成，最后输出提取的局部特征信息。考虑到越深的卷积神经网络感受野越大，局部特征信息越少且计算量和内存占用量较大，不使用像ResNet这种深度神经网络获取局部特征信息。

局部信息提取路径包括多层特征提取网络，每层特征提取网络均包括依次连接的卷积层、批归一化层、激活函数和CSA模块，最后一层特征提取网络输出局部特征信息。

特征信息融合模块将全局特征信息和局部特征信息进行特征融合，获得融合后特征，分类器对融合后特征进行识别，获得消化道识别结果。

由于消化道识别中识别位置大小不确定，有的识别位置面积较大，全局信息尤为重要，因此通过transformer结构中的自注意力机制提取输入中的全局特征信息。

全局信息提取路径包括三个依次连接的transformer编码层，且相邻transformer编码层之间设置下采样，所有transformer编码层的输出构成不同空间维度的全局特征信息，

具体为：包括三个transformer编码层，将预处理后输入数据输入到第一个transformer编码层中，第一个transformer编码层的输出经下采样后输入第二个transformer编码层中，第二个transformer编码层的输出经下采样后输入第三个transformer编码层中，每个transformer编码层的输出构成不同空间维度的全局特征信息。

三个transformer编码层包含不同个数的transformer块，其中，第一个transformer编码层包含2个transformer块，第二个transformer编码层包含6个transformer块，第三个transformer编码层包含4个transformer块。每个transformer块均包括交替的多头注意力机制和多层感知机，通过交替的多头注意力机制和多层感知机提取输入图像中的全局特征信息。

为了进一步丰富特征信息，获得不同空间维度的全局特征信息，并减少模型的计算量和内存占用量，在相邻两个transformer编码层之间通过卷积操作实现两倍下采样，缩小了所获特征图的空间维度，获得了不同空间维度的全局特征信息，进一步丰富了特征信息表示，同时减少了计算量和内存占用量，有效提升了模型性能。

将预处理后输入数据输入局部信息提取路径中，获得局部特征信息，局部信息提取路径包括多层特征提取网络，每层特征提取网络均包括依次连接的卷积层、批归一化层、激活函数和CSA模块，最后一层特征提取网络输出局部特征信息。

在具体实施中，通过卷积操作和CSA模块搭建了一个四层的局部信息提取路径用于捕获局部特征信息，每一层均由一个卷积层、批归一化层、激活函数和CSA模块构成。考虑到越深的卷积神经网络感受野越大，局部特征信息越少且计算量和内存占用量较大，不使用像ResNet这种深度神经网络获取局部特征信息。

为减少特征信息在维度变换过程中的信息丢失，设计的CSA模块，如图3所示，包括通道注意力模块和空间注意力模块，通道注意力模块和空间注意力模块分别提取各自输入特征图的最大值和平均值，并将提取到的最大值和平均值相加，加权到输入特征图中，获得各自的输出特征图。通道注意力模块的输入为CSA模块的输入特征图，将经过通道注意力加权的特征图与CSA模块的输入特征图相加后获得通道注意力模块的输出特征图，空间注意力模块的输入为通道注意力模块的输出特征图，将经过空间注意力加权的特征图与通道注意力模块的输出特征图相加后获得空间注意力模块的输出特征图，将CSA模块的输入特征图与空间注意力模块的输出特征图相加后，获得经过CSA模块的输出特征图。

如图3所示，对于一张给定的特征图，CSA模块分别在通道维度和空间维度上提取特征图的最大值和平均值，将提取到的最大值和平均值相加并通过一个多层感知机层(或批归一化层)和激活函数层计算得分并附加到输入特征图中。同时，为了最大程度上保留特征信息，将经过通道和空间维度整合后的特征图与CSA模块的输入特征图相加得到最后整合的特征图信息。其公式如下：

F_CSA＝F”+F

其中，F,F',F”和F_CSA分别代表输入特征图、通道注意力模块输出特征图、空间注意力模块输出特征图和CSA模块的输出特征图。

代表特征图在通道维度上提取到的平均值；

代表特征图在通道维度上提取到的最大值；

代表特征图在空间维度上提取到的平均值；

代表特征图在空间维度上提取到的最大值；B_C(F)代表经过通道注意力加权的特征图。B_S(F′)代表经过空间注意力加权的特征图。MLP代表多层感知机，W₀和W₁代表多层感知机层的权重矩阵,σ代表激活函数，BN代表批归一化层，AvgPool代表提取输入特征图平均值的操作；MaxPool代表提取输入特征图最大值的操作。

CSA模块提取平均值的主要作用是对特征图上的每个像素点产生反馈，而提取最大值的功能是只对特征图上最大值的点产生反馈，将上述两种反馈相加，既能对特征图上的每个点产生反馈又能重点关注特征图中响应最大的点，这样可以最大程度上聚合了特征图中的信息，从而提升消化道的识别准确率。表1展示了不使用注意力模块以及分别使用注意力模块Squeeze and Excitation(SE)、Convolutional Block Attention Module(CBAM)和本实施例所提出的CSA模块的实验效果的差异，可以看出，使用本实施例提出的CSA模块能够有效提升诊断性能。

表1

为将上述所提取到的不同空间维度的全局特征信息和局部特征信息进行充分融合，在消化道识别模型的最后设计了特征信息融合模块。

特征信息融合模块将不同空间维度的全局特征信息进行维度和尺度统一后融合，获得融合后全局特征信息，将融合后全局特征信息与局部特征信息融合，输出融合后特征。

具体的：特征信息融合模块包括三个CSA模块，全局信息提取路径中第一个transformer编码层、第三个transformer编码层的输出分别输入对应的CSA模块中，两个CSA模块的输出分别经过下采样和上采样后与第二个transformer编码层的输出相加，获得融合后全局特征信息，将融合后全局特征信息与局部特征信息融合后输入第三个CSA模块中，输出融合后特征。

在该模块中，通过卷积操作实现不同空间维度的全局特征信息维度以及尺度的统一以及利用所提出的CSA模块在使用较少参数量的同时，减少了特征信息在融合过程中的丢失。

最后，通过全局平均池化层压缩融合后特征并通过一个线性分类器实现最后的预测。

将本实施例所提的消化道识别模型与其他先进的模型在一个消化道识别数据集上进行了定量的性能比较，如表2所示，由表中数据可以看出，本实施例所提系统在精确率、召回率、准确率和F1分数等指标上均获得了最优的性能。为了更直观的比较，绘制了受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)，如图4所示，可以直观地看出，本实施例所提系统的性能优于其他先进的模型。

表2

本实施例所提系统，包含两条不同编码方式的特征提取路径，能够提取丰富的全局特征信息和局部特征信息，弥补了transformer和CNN的不足，利用全局特征信息和局部特征信息进行消化道识别时，提高了消化道识别的准确率；且在包含transformer架构的全局信息路径中进行空间维度变换时通过卷积操作进行下采样以得到不同尺度的全局信息，进一步丰富了特征表示，减少了计算量和内存占用。

本实施例还提出了参数量较少的CSA模块，通过分别提取空间维度和通道维度的最大值和平均值并逐个元素的相加融合的方式进行注意力权重的提取，并对原始特征图进行注意力加权，使得本发明所提系统在空间维度变换过程中更加关注目标区域，减少重要信息的丢失，有效地提升了系统的性能。

实施例2

在该实施例中，提出了一种基于深度学习的消化道识别方法，包括：

获取消化道图像，并对消化道图像进行预处理，获得预处理后输入数据；

根据预处理后输入数据和训练好的消化道识别模型，获得消化道识别结果，其中，训练好的消化道识别模型通过全局信息提取路径从预处理后输入数据中提取不同空间维度的全局特征信息，通过局部信息提取路径从预处理后输入数据中提取局部特征信息，通过特征信息融合模块将全局特征信息和局部特征信息进行特征融合，获得融合后特征，根据融合后特征获得消化道识别结果。

实施例3

在该实施例中，公开了一种电子设备500，如图5所示，包括存储器520和处理器510以及存储在存储器520上并在处理器510上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例2公开的一种基于深度学习的消化道识别方法所述的步骤。

其中，处理器510与存储器520之间通过总线530通信连接。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于深度学习的消化道识别方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的消化道识别系统，其特征在于，包括：

2.如权利要求1所述的一种基于深度学习的消化道识别系统，其特征在于，对消化道图像进行归一化、裁剪和重新调整大小操作，得到预设尺寸的输入图像，将其划分为相同大小的图像块，并通过图像块映射层转换为一维向量，获得预处理后输入数据。

3.如权利要求1所述的一种基于深度学习的消化道识别系统，其特征在于，全局信息提取路径包括三个依次连接的transformer编码层，且相邻transformer编码层之间设置下采样，所有transformer编码层的输出构成不同空间维度的全局特征信息。

4.如权利要求3所述的一种基于深度学习的消化道识别系统，其特征在于，三个transformer编码层包含不同个数的transformer块，每个transformer块均包括交替的多头注意力机制和多层感知机。

5.如权利要求1所述的一种基于深度学习的消化道识别系统，其特征在于，通过卷积操作和CSA模块搭建了一个四层的局部信息提取路径用于捕获局部特征信息，每一层均由一个卷积层、批归一化层、激活函数和CSA模块构成，最后输出提取的局部特征信息。

6.如权利要求5所述的一种基于深度学习的消化道识别系统，其特征在于，CSA模块包括通道注意力模块和空间注意力模块，通道注意力模块的输入为CSA模块的输入特征图，将经过通道注意力加权的特征图与CSA模块的输入特征图相加后获得通道注意力模块的输出特征图，空间注意力模块的输入为通道注意力模块的输出特征图，将经过空间注意力加权的特征图与通道注意力模块的输出特征图相加后获得空间注意力模块的输出特征图，将CSA模块的输入特征图与空间注意力模块的输出特征图相加后，获得CSA模块的输出特征图。

7.如权利要求1所述的一种基于深度学习的消化道识别系统，其特征在于，特征信息融合模块将不同空间维度的全局特征信息进行维度和尺度统一后融合，获得融合后全局特征信息，将融合后全局特征信息与局部特征信息融合，输出融合后特征。

8.一种基于深度学习的消化道识别方法，其特征在于，包括：

获取消化道图像，并对消化道图像进行预处理操作，获得预处理后输入数据；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求8任一项所述的一种基于深度学习的消化道识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求8任一项所述的一种基于深度学习的消化道识别方法的步骤。