CN117974603A

CN117974603A - 消化道多病变检测与分割方法、装置、设备及存储介质

Info

Publication number: CN117974603A
Application number: CN202410146279.8A
Authority: CN
Inventors: 晏涛; 鲍勇; 郭正浩; 何华威; 李聚龙; 王中任; 高山; 李峥; 胡艳艳; 张子健
Original assignee: Hubei University of Arts and Science
Current assignee: Hubei University of Arts and Science
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-03

Abstract

本发明涉及图像识别领域，公开了一种消化道多病变检测与分割方法、装置、设备及存储介质，该方法通过获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；将眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，获得模型检测结果；基于模型检测结果输出消化道的病变位置、病变类型以及病变图像。由于是将眼动凝视数据作为多病变检测与分割模型的监督信号，通过眼动凝视数据的引导，实现了端到端的训练，有效地避免了训练过程中的信息丢失和不一致，能够更好地捕捉图像的细节信息，提高了图像分割效果。

Description

消化道多病变检测与分割方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种消化道多病变检测与分割方法、装置、设备及存储介质。

背景技术

消化道是人体消化系统的关键部件，当消化道出现病变时，往往会严重影响患者的身体健康和生活质量。如果不及时检查和治疗，可能会导致严重的后果，甚至危及患者的生命安全。因此，对于消化道病变的早期检测十分重要。

传统的消化道病变检测方法主要依赖于医生的经验和专业水平，需要通过胃镜、超声波等检查手段进行。这种方法费时费力费财，且检测准确度不够。并且受限于医生的专业水平和经验，容易产生误判，从而造成患者不必要的痛苦和资源的浪费。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种消化道多病变检测与分割方法、装置、设备及存储介质，旨在解决现有技术中消化道病变检测结果不准确的技术问题。

为实现上述目的，本发明提供了一种消化道多病变检测与分割方法，所述方法包括以下步骤：

获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；

将所述眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过所述多病变检测与分割模型对所述待检测影像数据进行检测，获得模型检测结果；

基于所述模型检测结果输出消化道的病变位置、病变类型以及病变图像。

可选地，预训练获得所述多病变检测与分割模型的步骤，包括：

获取预训练消化道图像数据集，以及获取预训练眼动凝视数据集；

从所述预训练消化道图像数据集中获得预设格式的训练数据集；

通过所述训练数据集和所述预训练眼动凝视数据集对初始多病变检测与分割模型进行预训练，获得多病变检测与分割模型。

可选地，所述初始多病变检测与分割模型包括：特征提取模块、凝视注意力模块、语义分割模块以及目标检测模块；

所述通过所述训练数据集和所述预训练眼动凝视数据集对初始多病变检测与分割模型进行预训练，获得多病变检测与分割模型的步骤，包括：

通过特征提取模块提取获得所述训练数据集的图像特征；

通过所述凝视注意力模块根据所述图像特征和预训练眼动凝视数据确定注意力图谱，并确定所述注意力图谱与所述预训练眼动凝视数据对应的人类眼动凝视热图之间的图像差异；

通过所述语义分割模块对所述注意力图谱进行分割，获得高级语义特征；

通过所述目标检测模块基于所述高级语义特征获得训练结果以及置信度；

根据所述图像差异调节所述凝视注意力模块的注意力参数，根据所述置信度调节所述语义分割模块的分割参数与所述目标检测模块的检测参数，获得调节后的初始多病变检测与分割模型；

在所述初始多病变检测与分割模型的模型参数满足训练停止条件时，将当前的所述初始多病变检测与分割模型作为训练获得的多病变检测与分割模型，所述模型参数包括注意力参数、检测参数和分割参数。

可选地，所述凝视注意力模块包括：图像学习模型注意力生成单元和监督模型注意力生成单元；

所述通过所述凝视注意力模块根据所述图像特征和预训练眼动凝视数据确定注意力图谱，并确定所述注意力图谱与所述预训练眼动凝视数据对应的人类眼动凝视热图之间的图像差异的步骤，包括：

通过所述监督模型注意力生成单元将所述预训练眼动凝视数据作为监督信号，引导所述图像学习模型生成注意力图谱；

获取所述预训练眼动凝视数据对应的眼动凝视热图；

通过所述凝视注意力模块的预设损失函数确定所述注意力图谱和所述眼动凝视热图之间的图像差异。

可选地，所述语义分割模块包括：金字塔池化单元和解码器单元；

所述通过所述语义分割模块对所述注意力图谱进行分割，获得高级语义特征的步骤，包括：

通过所述金字塔池化单元对所述注意力图谱进行卷积，以提取不同层次的分割图像特征；

通过所述金字塔池化单元基于上采样操作对所述分割图像特征进行拼接，获得编码图像特征；

通过所述解码器单元基于若干卷积层与反卷积层对所述编码图像特征进行解码，获得高级语义特征。

可选地，所述通过所述目标检测模块基于所述高级语义特征获得训练结果以及置信度的步骤，包括：

通过所述目标检测模块对所述高级语义特征进行转化，获得不同尺度的特征图；

通过所述目标检测模块对所述不同尺度的特征图进行目标检测，获得训练结果；

通过所述目标检测模块的预设损失函数确定所述训练结果的置信度。

可选地，所述从所述预训练消化道图像数据集中获得预设格式的训练数据集的步骤，包括：

对所述预训练消化道图像数据集中的预训练消化道图像数据进行标注，获得带标签的预训练消化道图像数据集；所述标签用于表征所述预训练消化道图像数据的病变信息，所述病变信息包括病变区域以及病变类型；

根据所述病变信息确定预设格式的训练数据集。

此外，为实现上述目的，本发明还提出一种消化道多病变检测与分割装置，所述消化道多病变检测与分割装置包括：

数据采集模块，用于获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；

模型应用模块，用于将所述眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过所述多病变检测与分割模型对所述待检测影像数据进行检测，获得模型检测结果；

结果输出模块，用于基于所述模型检测结果输出消化道的病变位置、病变类型以及病变图像。

此外，为实现上述目的，本发明还提出一种消化道多病变检测与分割设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消化道多病变检测与分割程序，所述消化道多病变检测与分割程序配置为实现如上文所述的消化道多病变检测与分割方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有消化道多病变检测与分割程序，所述消化道多病变检测与分割程序被处理器执行时实现如上文所述的消化道多病变检测与分割方法的步骤。

本发明通过获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；将眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，获得模型检测结果；基于模型检测结果输出消化道的病变位置、病变类型以及病变图像。由于是将眼动凝视数据作为多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，实现了更快的图像处理速度，同时保持了图像分割的高准确性。通过眼动凝视数据的引导，实现了端到端的训练，有效地避免了训练过程中的信息丢失和不一致，能够更好地捕捉图像的细节信息，提高了图像分割效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的消化道多病变检测与分割设备的结构示意图；

图2为本发明消化道多病变检测与分割方法第一实施例的流程示意图；

图3为本发明消化道多病变检测与分割方法第二实施例的流程示意图；

图4为本发明一种实施方式中Gaze-Attention YOLOv8-SEG模型的训练流程图；

图5为本发明实施例Gaze-Attention YOLOv8-SEG模型的部分网络结构示意图；

图6为本发明凝视注意力模块的处理流程示意图；

图7为本发明方法对胃部癌变的检测及分割效果图；

图8为本发明方法对巴雷特食道的检测及分割效果图；

图9为本发明方法对息肉的检测及分割效果图；

图10为本发明方法对食管反流性食道炎的检测及分割效果图；

图11为本发明消化道多病变检测与分割装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的消化道多病变检测与分割设备结构示意图。

如图1所示，该消化道多病变检测与分割设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对消化道多病变检测与分割设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及消化道多病变检测与分割程序。

在图1所示的消化道多病变检测与分割设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明消化道多病变检测与分割设备中的处理器1001、存储器1005可以设置在消化道多病变检测与分割设备中，所述消化道多病变检测与分割设备通过处理器1001调用存储器1005中存储的消化道多病变检测与分割程序，并执行本发明实施例提供的消化道多病变检测与分割方法。

本发明实施例提供了一种消化道多病变检测与分割方法，参照图2，图2为本发明消化道多病变检测与分割方法第一实施例的流程示意图。

本实施例中，所述消化道多病变检测与分割方法包括以下步骤：

步骤S10：获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据。

需要说明的是，本实施例方法的执行主体可以是具有图像识别、数据处理以及程序运行功能的终端设备，例如计算机、服务器等，也可以是具有相同或相似功能的电子设备，例如上述消化道多病变检测与分割设备。以下以消化道多病变检测与分割设备(以下简称病变识别设备)为例对本实施例及下述各实施例进行说明。

可以理解的是，消化道影像数据也即对人体消化道内部进行成像获得的影像资料，通过消化道影像数据可以实现对消化道是否存在病变以及病变位置的检测和治疗。本发明实施例中，不对消化道的待检测影像数据的获取方式进行限定，现有的消化道影像获取方式都可以作为本发明实施例的获取方式，例如X线造影法、内窥镜检查法、CT扫描法、超声内镜法等。

应当理解的是，眼动凝视数据也即通过眼动追踪技术获取到的人眼在观看消化道影像过程中的运动轨迹和停留位置的数据。通过对内窥镜医生的眼动凝视数据进行分析，可以确定内窥镜医生的视觉分布和注视习惯，从而为内窥镜医生提供更清晰、直观的消化道病变检测结果，有助于医生对于病变进行准确地诊断和检测。

可以理解的是，上述眼动凝视数据可以是通过眼动仪、虹膜追踪仪等具备眼动追踪技术的设备进行获得，本发明实施例对此不加以限制。

需要说明的是，在进行消化道多病变检测与分割时，上述内窥镜医生的眼动凝视数据可以是实时检测获得，也可以是根据事先检测保存的数据获得，本发明实施例对此不加以限制。

在本发明的一种实施方式中，可以通过眼动仪收集内窥镜医生观察病变图像时的眼动凝视数据。通过将这些数据转化为眼动凝视热图，可以展示内窥镜医生观察病变图像时的注意力分布。

在具体实现中，病变识别设备获取消化道的待检测影像与内窥镜医生的眼动凝视数据。由于是基于消化道的待检测影像和眼动凝视数据进行消化道多病变检测与分割，可以使得生成的检测与分割结果更符合内窥镜医生的注意力分布，助于医生对于病变进行准确地诊断和检测。

步骤S20：将所述眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过所述多病变检测与分割模型对所述待检测影像数据进行检测，获得模型检测结果。

需要说明的是，上述多病变检测与分割模型是本发明实施例提出的一种用于通过将眼动凝视数据作为模型的监督信号，并基于消化道的待检测影像数据进行消化道多病变检测的一种模型。通过多病变检测与分割模型，可以实现对待检测影像数据的病变图像检测，并将检测到的病变图像进行分割、拼接等操作，从而获得模型检测结果。

可以理解的是，在执行对消化道的待检测影像数据之前，本发明实施例设置预训练的多病变检测与分割模型。该模型可以由病变识别设备进行训练，也可以由其他具备数据处理、模型训练功能的设备训练完成后发送至病变识别设备，本发明实施例对此不加以限制。

应当理解的是，上述监督信号是一种模型训练与应用中用于指导模型学习和优化的信号。通过眼动凝视数据对多病变检测与分割模型的训练进行监督，可以使得输出的结果结合内窥镜医生的注意力分布，使得内窥镜医生可以更方便、快捷的确定病变类型以及病变区域，提高了消化道多病变检测的准确性。

在具体实现中，病变识别设备将眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，获得模型检测结果。由于是通过预训练获得的多病变检测与分割模型对待检测影像数据进行检测，并将内窥镜医生的眼动凝视数据作为监督信号，实现了更快的图像处理速度，能够更好地捕捉图像的细节信息，提高了图像分割效果。

步骤S30：基于所述模型检测结果输出消化道的病变位置、病变类型以及病变图像。

可以理解的是，通过多病变检测与分割模型的模型检测结果，病变识别设备可以确定消化道的病变位置、病变类型、病变图像等检测结果参数，并将该病变位置、病变类型以及病变图像等检测结果参数进行输出，以使内窥镜医生可以根据这些检测结果参数对患者的病症进行进一步地判断。

在具体实现中，病变识别设备基于模型检测结果输出消化道的病变位置、病变类型以及病变图像。由于是通过将检测结果参数进行输出，使得内窥镜医生可以直观、准确地对患者的病症进行判断，提高了消化道多病变检测的准确性。

本发明实施例通过获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；将眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，获得模型检测结果；基于模型检测结果输出消化道的病变位置、病变类型以及病变图像。由于是将眼动凝视数据作为多病变检测与分割模型的监督信号，通过多病变检测与分割模型对待检测影像数据进行检测，实现了更快的图像处理速度，同时保持了图像分割的高准确性。通过眼动凝视数据的引导，实现了端到端的训练，有效地避免了训练过程中的信息丢失和不一致，能够更好地捕捉图像的细节信息，提高了图像分割效果。

基于上述本发明消化道多病变检测与分割方法的第一实施例，为了获得多病变检测与分割模型，提出本发明消化道多病变检测与分割方法的第二实施例。

参考图3，图3为本发明消化道多病变检测与分割方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，预训练获得所述多病变检测与分割模型的步骤，包括：

步骤S100：获取预训练消化道图像数据集，以及获取预训练眼动凝视数据集。

可以理解的是，为了获得多病变检测与分割模型，需要构建初始多病变检测与分割模型，并通过训练数据对该初始多病变检测与分割模型进行训练。本发明以病变识别设备作为多病变检测与分割模型的预训练设备为例，对本发明多病变检测与分割模型的训练过程加以详细说明。

具体地，可以获取图像数据，也即预训练消化道图像数据集以及预训练眼动凝视数据集。

应当理解的是，上述预训练消化道图像数据集和预训练眼动凝视数据集可以从现有的数据源中进行获取，也可以是根据历史的医疗检测数据进行获取，本发明实施例对此不加以限制。

应当理解的是，现有的基于深度学习算法需要通过对大量的图像进行标注，无法有效地应用在消化道病变检测上。本发明实施例在现有深度学习算法的基础上，结合眼动凝视数据作为监督信号进行优化，有效地改进了现有的图像识别算法在消化道病变检测应用上的缺陷。

在具体实现中，病变识别获取预训练消化道图像数据集，以及获取预训练眼动凝视数据集。在现有深度学习算法的基础上，结合眼动凝视数据作为监督信号进行优化，有效地改进了现有的图像识别算法在消化道病变检测应用上的缺陷。

步骤S200：从所述预训练消化道图像数据集中获得预设格式的训练数据集；

步骤S300：通过所述训练数据集和所述预训练眼动凝视数据集对初始多病变检测与分割模型进行预训练，获得多病变检测与分割模型。

需要说明的是，本发明的初始多病变检测与分割模型可以基于现有的模型进行建模，例如U-NET模型、YOLO模型等，本发明实施例对此不加以限制。

在本发明实施例的一种实现方式中，本发明实施例结合眼动凝视注意力与语义分割对YOLOv8模型进行改进，提出了一种Gaze-Attention YOLOv8-SEG模型作为本发明的初始病变检测与分割模型。如图4所示，图4为本发明一种实施方式中Gaze-AttentionYOLOv8-SEG模型的训练流程图。

本实施例利用训练集、测试集及验证集对初始Gaze-Attention YOLOv8-SEG模型进行训练、测试及验证，即可得到训练后的Gaze-Attention YOLOv8-SEG模型，也即多病变检测与分割模型。

应当理解的是，YOLOv8是YOLO(You Only Look Once)系列目标检测模型的一种变体。YOLO是一种实时目标检测算法，具备处理速度快、准确率高等特点。YOLOv8能够在保持较高速度的同时实现较好的检测精度，使其在实时目标检测应用场景中具有很高的价值和潜力。

可以理解的是，语义分割(Semantic Segmentation，SEG)可以将图像分为不同的语义区域并为每个像素分配相应的类别标签，从而实现对图像不同区域的分割。

应当理解的是，为了将图像输入至Gaze-Attention YOLOv8-SEG模型中，需要先对图像进行预处理，以去除图像中的一些不合格图像。

在本发明实施例的一种实现方式中，为了增强模型的稳定性和鲁棒性，在进行模型训练前，还可以对训练数据集进行数据增强。具体地，可以对预设格式的训练数据集进行离线扩增。离线扩增的操作可以包括：随机反转所有像素、随机左右、上下翻转、随机高斯模糊、随机旋转、平移、随机亮度、随机对比度增强以及应用CutMix数据增强算法等方法，本发明实施例对此不加以限制。

应当理解的是，CutMix数据增强算法是一种流行的数据增强技术，它可以通过以一定比例裁剪一张图像的一部分并将其粘贴到另一张图像上，从而生成一个具有两个图像特征的新图像。具体原理如下：

设定CutMix参数c为随机裁剪区域在图像中的面积占比，参数λ为混合比例，I_i和y_i分别是第i个原始图像和标签，ω_i为该图像的权重，则CutMix的计算公式如下所示：

R_i＝rh，ω；

y_mix＝λy_i+(1-λ)y_i；

ω_mix＝λω_i+(1-λ)ω_i；

其中，R_i表示随机的归一化裁剪区域大小，rh,ω表示在h×ω的矩形区域内随机裁剪，表示向下取整，H和W分别表示原始图像的高度和宽度，I_mix表示混合后的图片，I_j表示第j张随机图像，M为掩码，y_mix和ω_mix表示混合后的标签和权重。混合比例λ通过Beta分布(Beta distribution)进行采样，用于控制着该重要部位，防止影响低精度区域的学习效果。掩码M是根据两张图像的裁剪区域生成的，当且仅当在两个裁剪区域的重叠部分内。

可以理解的是，为了实现语义分割，还需要对输入的训练数据进行数据标注，从而为每个像素分配正确的标签，以标记其是否属于病变区域以及病变区域的病变类型。具体地，所述从所述预训练消化道图像数据集中获得预设格式的训练数据集的步骤，包括：对所述预训练消化道图像数据集中的预训练消化道图像数据进行标注，获得带标签的预训练消化道图像数据集；所述标签用于表征所述预训练消化道图像数据的病变信息，所述病变信息包括病变区域以及病变类型；根据所述病变信息确定预设格式的训练数据集。

需要说明的是，为了便于模型的图像识别，可以先将所述带标签的预训练消化道图像数据集的格式转化为YOLO格式的数据集。因此，对于输入至初始多病变检测与分割模型的训练数据，需要先对其进行格式转换处理，以获得预设格式(也即YOLO格式)的训练数据集。

应当理解的是，可以将获得的预设格式的训练数据集进行数据集划分，从而获得训练集、测试集和验证集。通过训练集、测试集和验证集对搭建的Gaze-Attention YOLOv8-SEG模型分别进行训练、验证和测试，从而将符合需求的多病变检测与分割模型进行保存，进而通过该模型进行数据检测，并进行检测结果输出。

本发明实例中，将不同病变图像的病变区域进行裁剪拼接，生成一个具有两个病变特征的新图像，从而大幅增加训练数据集的数量和质量，有助于降低过拟合风险并增强模型的泛化能力。

在本发明的一种实施方式中，所述初始多病变检测与分割模型包括：特征提取模块、凝视注意力模块、语义分割模块以及目标检测模块；如图5所示，图5为本发明实施例Gaze-Attention YOLOv8-SEG模型的部分网络结构示意图。

通过特征提取模块提取获得所述训练数据集的图像特征；

由图5可知，本发明的Gaze-Attention YOLOv8-SEG模型的该部分基于YOLOv8模型的结构进行改进。具体地，YOLOv8模型中包括Backbone主干网络、Neck中间层和Head输出层。本发明实施例在Neck中间层中加入了凝视注意力模块，并将语义分割替代传统的输出层，从而实现了对输入数据的检测和分割。

可以理解的是，Backbone网络采用Darknet53网络结构进行特征提取，其中包括conv层、c2f层、SPPF层等。

Neck通过对Backbone主干网络输出的特征进行多尺度特征图融合，从而输出不同的特征至语义分割模块(segment)，其中包括c2f层、Concat层、Upsample层等。

需要说明的是，本发明Backbone主干网络及Neck中间层中的各层次的功能及具体结构可以参照现有的结构，本发明实施例对此不加以赘述。

需要解释的是，对于凝视注意力模块，本发明实施例通过将内窥镜医生的凝视数据作为监督信号，对Backbone主干网络提取获得的图像特征进行处理，从而实现对Neck层中的两个图像学习单元的引导，进而生成注意力图谱。由于是采用监督学习的方法，通过比较模型生成的注意力图谱和人类眼动凝视热图之间的相似度或差异来调整模型的训练过程，使得模型的注意力更符合内窥镜医生观察的模式。

具体地，凝视注意力模块的处理如下所示：

设模型生成的注意力图谱为A_model,A_model(i,j)表示在位置(i,j)处的注意力值。

设医生记录的眼动凝视热图谱为A_hunman,A_human(i,j)表示在位置(i,j)处的注意力值。

通过损失函数使用均方误差(Mean Squared Error)来衡量两个图谱之间的差异：

其中,N和M分别是图像的高度和宽度，A_model(i,j)和A_human(i,j)是模型生成的注意力图谱和医生眼动凝视热图在位置(i,j)处的值。

通过该损失函数表示模型生成的注意力图谱与医生眼动凝视热图之间的每个像素位置上的差异，并且通过对所有位置的差异求和来计算损失。在训练过程中，可以尝试最小化这个损失函数，使得模型生成的注意力图谱更接近于内窥镜医生的眼动凝视热图。

如图6所示，图6为本发明凝视注意力模块的处理流程示意图。

需要说明的是，凝视注意力模块可以通过对眼动凝视数据进行VAM(VisualAttention Mechanism)处理，获得眼动凝视热图。通过对特征提取模块获得的图像特征基于眼动凝视数据进行编码，获得编码特征。对于编码特征，可以输出至语义分割模块进行语义分割，再对语义分割处理后的特征进行目标检测。对于编码特征，还可以对其进行解码，并通过损失函数对解码特征和眼动凝视热图之间的图像差异进行评价。在训练过程中，根据损失函数不断调整模型参数，使得该图像差异满足终止条件。

也即，所述凝视注意力模块包括：图像学习模型注意力生成单元和监督模型注意力生成单元；

获取所述预训练眼动凝视数据对应的眼动凝视热图；

本发明实施例通过初始多病变检测与分割模型包括：特征提取模块、凝视注意力模块、语义分割模块以及目标检测模块；通过特征提取模块提取获得训练数据集的图像特征；通过凝视注意力模块根据图像特征和预训练眼动凝视数据确定注意力图谱，并确定注意力图谱与预训练眼动凝视数据对应的人类眼动凝视热图之间的图像差异；通过语义分割模块对注意力图谱进行分割，获得高级语义特征；通过目标检测模块基于高级语义特征获得训练结果以及置信度；根据图像差异调节凝视注意力模块的注意力参数，根据置信度调节语义分割模块的分割参数与目标检测模块的检测参数，获得调节后的初始多病变检测与分割模型；在初始多病变检测与分割模型的模型参数满足训练停止条件时，将当前的初始多病变检测与分割模型作为训练获得的多病变检测与分割模型，模型参数包括注意力参数、检测参数和分割参数。由于是采用监督学习的方法，通过比较模型生成的注意力图谱和人类眼动凝视热图之间的相似度或差异来调整模型的训练过程，使得模型的注意力更符合医生观察的模式。

基于上述各实施例，为了对病变图像进行分割，提出本发明方法的第三实施例。

在本实施例中，所述语义分割模块包括：金字塔池化单元和解码器单元；

需要说明的是，Gaze-Attention YOLOv8-SEG模型在Backbone网络的基础上加入了一个语义分割模块来生成像素级别的分割结果。语义分割模块采用了金字塔池化单元和解码器单元的结构。

需要解释的是，在金字塔池化单元中，使用卷积来提取不同层次的特征，并通过上采样操作将其拼接在一起。在解码器单元中，使用了一系列的反卷积层和卷积层，可以将低分辨率的特征图映射回原始图像的分辨率，从而获得高级语义特征。

需要说明的是，目标检测模块是Gaze-Attention YOLOv8-SEG中用于目标检测任务的部分，它基于语义分割模块进行构建，可以用于将语义分割模块的高级语义特征转化为目标检测所需要的不同尺度的特征图，并输出检测框的位置和置信度。也即，所述通过所述目标检测模块基于所述高级语义特征获得训练结果以及置信度的步骤，包括：通过所述目标检测模块对所述高级语义特征进行转化，获得不同尺度的特征图；通过所述目标检测模块对所述不同尺度的特征图进行目标检测，获得训练结果；通过所述目标检测模块的预设损失函数确定所述训练结果的置信度。

可以理解的是，通过该置信度即可实现对目标检测模块和语义分割模块的模型参数迭代。

需要注意的是，在Gaze-Attention YOLOv8-SEG模型中，损失函数同时考虑了目标检测和语义分割两个任务。在目标检测任务中，模型采用如下的损失函数：

其中，分别表示目标检测中的分类、位置和置信度损失；ω_b是边界框损失的系数；B是每个格子负责预测的边界框数；s²是特征图的大小；是一个指示函数，作用是负责判断第i个格子是否用于预测第j个边界框。

在本发明的一种实施方式中，本发明实施例在语义分割模块中使用Lovász Loss损失函数来替代原有的像素交叉熵损失函数，可以有效解决图像分割任务中的类别不平衡问题。具体使用步骤如下：

1.计算模型预测输出的矩阵，该矩阵的形状参数为H、W、C，其中H、W、C分别表示像素高度、宽度和分类数量；

2.依据分类的得分对进行排序，之后将排序后的矩阵降为一维；

3.计算每一维的单调递减差异分数，其公式为：

Δ_y(i)＝y(i)-y(i+1)

4.计算与标签y之间的Lovász Hinge Loss。在Lovász Hinge Loss中添加Dice距离，将该距离通过以上方法转化为单调递减的点集。定义向量g∈{-1，1}ⁿ，其中n是标注的像素总数，g中每个元素表示相应像素的类别标签与给定平衡权重，之后便可计算LovászHinge Loss，其公式为：

其中g是由标注类别标签和中心频率决定的权重向量，v_i(g)和分别是向量y和的第i个元素。

进一步地，对于语义分割模块，为了提升学习的效率和模型的鲁棒性，可以先通过获取COCO Stuff Segmentation数据集对模型进行迁移学习与训练。

需要说明的是，在对Gaze-Attention YOLOv8-SEG模型训练完成时，即可进行测试和验证，在模型满足预设训练终止要求时，即可对模型的网络结构进行保存，获得多病变检测与分割模型。使得在需要进行消化道影像检测时，通过多病变检测与分割模型获得检测结果，并根据检测结果输出具体病变的类型、位置、轮廓等分析报告，之后再由内窥镜医生修改和确认。

需要说明的是，为了定量评估本发明的性能，本实施例采用常见的三个评估指标，分别为预测图像与真实图像的交集比上并集的平均值(Mean Intersection Over Union，mIoU)，像素精确度(Pixel Accuracy，PA)以及F1-Score，并具体定义为以下内容：

其中TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性，Precision表示预测为正例中真正为正例的比例，Recall表示真正为正例中被预测为正例的比例。

本发明实施例语义分割模块包括：金字塔池化单元和解码器单元；通过金字塔池化单元对注意力图谱进行卷积，以提取不同层次的分割图像特征；通过金字塔池化单元基于上采样操作对分割图像特征进行拼接，获得编码图像特征；通过解码器单元基于若干卷积层与反卷积层对编码图像特征进行解码，获得高级语义特征。由于是通过语义分割模块进行图像分割，通过目标检测模块对分割后的图像进行目标检测，从而将病变图像从待检测影像数据中分割出来，并确定了目标的病变图像，提升了消化道多病变检测的准确性。

如图7至图10所示，图7为本发明方法对胃部癌变的检测及分割效果图；图8为本发明方法对巴雷特食道的检测及分割效果图；图9为本发明方法对息肉的检测及分割效果图；图10为本发明方法对食管反流性食道炎的检测及分割效果图。由图可示出，本发明的方法具备良好的分割效果。通过本发明的方法，对于胃部息肉的检测精度为90％，对于反流性食道炎的检测精度为80％-90％,对于巴雷特食道的检测精度为80％-90％，对于胃部癌变的检测精度为88％。可以实现高精度的消化道多病变检测与切割。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有消化道多病变检测与分割程序，所述消化道多病变检测与分割程序被处理器执行时实现如上文所述的消化道多病变检测与分割方法的步骤。

基于本发明消化道多病变检测与分割方法的第一实施例，提出本发明消化道多病变检测与分割装置的第一实施例，参照图11，图11为本发明消化道多病变检测与分割装置第一实施例的结构框图。

如图11所示，本发明实施例提出的消化道多病变检测与分割装置包括：

数据采集模块1101，用于获取消化道的待检测影像数据与内窥镜医生的眼动凝视数据；

模型应用模块1102，用于将所述眼动凝视数据作为预训练获得的多病变检测与分割模型的监督信号，通过所述多病变检测与分割模型对所述待检测影像数据进行检测，获得模型检测结果；

结果输出模块1103，用于基于所述模型检测结果输出消化道的病变位置、病变类型以及病变图像。

进一步地，所述数据采集模块1101，还用于获取预训练消化道图像数据集，以及获取预训练眼动凝视数据集；从所述预训练消化道图像数据集中获得预设格式的训练数据集。

进一步地，所述消化道多病变检测与分割装置还包括：模型训练模块；所述模型训练模块，用于通过所述训练数据集和所述预训练眼动凝视数据集对初始多病变检测与分割模型进行预训练，获得多病变检测与分割模型。

进一步地，所述初始多病变检测与分割模型包括：特征提取模块、凝视注意力模块、语义分割模块以及目标检测模块；所述模型训练模块，还用于通过特征提取模块提取获得所述训练数据集的图像特征；通过所述凝视注意力模块根据所述图像特征和预训练眼动凝视数据确定注意力图谱，并确定所述注意力图谱与所述预训练眼动凝视数据对应的人类眼动凝视热图之间的图像差异；通过所述语义分割模块对所述注意力图谱进行分割，获得高级语义特征；通过所述目标检测模块基于所述高级语义特征获得训练结果以及置信度；根据所述图像差异调节所述凝视注意力模块的注意力参数，根据所述置信度调节所述语义分割模块的分割参数与所述目标检测模块的检测参数，获得调节后的初始多病变检测与分割模型；在所述初始多病变检测与分割模型的模型参数满足训练停止条件时，将当前的所述初始多病变检测与分割模型作为训练获得的多病变检测与分割模型，所述模型参数包括注意力参数、检测参数和分割参数。

进一步地，所述凝视注意力模块包括：图像学习模型注意力生成单元和监督模型注意力生成单元；所述模型训练模块，还用于通过所述监督模型注意力生成单元将所述预训练眼动凝视数据作为监督信号，引导所述图像学习模型生成注意力图谱；获取所述预训练眼动凝视数据对应的眼动凝视热图；通过所述凝视注意力模块的预设损失函数确定所述注意力图谱和所述眼动凝视热图之间的图像差异。

进一步地，所述语义分割模块包括：金字塔池化单元和解码器单元；所述模型训练模块，还用于通过所述金字塔池化单元对所述注意力图谱进行卷积，以提取不同层次的分割图像特征；通过所述金字塔池化单元基于上采样操作对所述分割图像特征进行拼接，获得编码图像特征；通过所述解码器单元基于若干卷积层与反卷积层对所述编码图像特征进行解码，获得高级语义特征。

进一步地，所述模型训练模块，还用于通过所述目标检测模块对所述高级语义特征进行转化，获得不同尺度的特征图；通过所述目标检测模块对所述不同尺度的特征图进行目标检测，获得训练结果；通过所述目标检测模块的预设损失函数确定所述训练结果的置信度。

进一步地，数据采集模块1101，还用于对所述预训练消化道图像数据集中的预训练消化道图像数据进行标注，获得带标签的预训练消化道图像数据集；所述标签用于表征所述预训练消化道图像数据的病变信息，所述病变信息包括病变区域以及病变类型；根据所述病变信息确定预设格式的训练数据集。

本发明消化道多病变检测与分割装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种消化道多病变检测与分割方法，其特征在于，所述方法包括：

2.如权利要求1所述的消化道多病变检测与分割方法，其特征在于，预训练获得所述多病变检测与分割模型的步骤，包括：

3.如权利要求2所述的消化道多病变检测与分割方法，其特征在于，所述初始多病变检测与分割模型包括：特征提取模块、凝视注意力模块、语义分割模块以及目标检测模块；

通过特征提取模块提取获得所述训练数据集的图像特征；

4.如权利要求3所述的消化道多病变检测与分割方法，其特征在于，所述凝视注意力模块包括：图像学习模型注意力生成单元和监督模型注意力生成单元；

获取所述预训练眼动凝视数据对应的眼动凝视热图；

5.如权利要求3所述的消化道多病变检测与分割方法，其特征在于，所述语义分割模块包括：金字塔池化单元和解码器单元；

6.如权利要求3所述的消化道多病变检测与分割方法，其特征在于，所述通过所述目标检测模块基于所述高级语义特征获得训练结果以及置信度的步骤，包括：

7.如权利要求2所述的消化道多病变检测与分割方法，其特征在于，所述从所述预训练消化道图像数据集中获得预设格式的训练数据集的步骤，包括：

根据所述病变信息确定预设格式的训练数据集。

8.一种消化道多病变检测与分割装置，其特征在于，所述消化道多病变检测与分割装置包括：

9.一种消化道多病变检测与分割设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消化道多病变检测与分割程序，所述消化道多病变检测与分割程序配置为实现如权利要求1至7中任一项所述的消化道多病变检测与分割方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有消化道多病变检测与分割程序，所述消化道多病变检测与分割程序被处理器执行时实现如权利要求1至7任一项所述的消化道多病变检测与分割方法的步骤。