CN115908298A

CN115908298A - 内窥镜图像中息肉的目标预测方法、模型及存储介质

Info

Publication number: CN115908298A
Application number: CN202211408998.XA
Authority: CN
Inventors: 曹鱼; 王德纯; 陈齐磊; 刘本渊
Original assignee: Suzhou Huiwei Intelligent Medical Technology Co ltd
Current assignee: Suzhou Huiwei Intelligent Medical Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-04
Anticipated expiration: 2042-11-10
Also published as: CN115908298B

Abstract

本发明公开了一种内窥镜图像中息肉的目标预测方法、模型及存储介质。所述目标预测方法，包括：进行特征提取，获得特征信息；获取语义信息；获取分类分支特征和回归分支特征，并获取初始分类分数和位置信息；基于自注意力方法给予动态权重并进行融合，获得预测框质量分数，用于指示预测框的分类分数的置信度，并对所述分类分数进行修正，获得修正分类分数。本发明所述交叉通道自注意力融合单元采用自适应的选择分类分支与回归分支的最合适特征来有效的提高预测框质量分支的预测结果，并且减少由于质量预测分支的预测分数过高导致的误报，由此带来显著更低的误报率，提高了目标检测的质量以及检测结果的可参考性。

Description

内窥镜图像中息肉的目标预测方法、模型及存储介质

技术领域

本发明涉及图像处理技术领域，特别是视频图像的图形预测处理技术领域，尤其涉及一种内窥镜图像中息肉的目标预测方法、模型及存储介质。

背景技术

近年来，随着爆发式的数据量增长和硬件水平的极大提升，深度学习模型被大量的应用到不同的领域，尤其是生命健康领域的辅助病变识别，尤其是实时的辅助式视频分析与预测等细分领域。

在临床需求的驱动下，基于深度学习的通用物体预测模型越来越多的被应用到医疗图像领域。然而现阶段的通用物体预测模型通常都是针对自然图像中的物体和特征分布来进行设计的，因此在针对医疗图像复杂的环境下，通用的模型通常表现不佳。

具体的，现有的通用单阶段物体预测模型，例如，FCOS，RetinaNet和YOLO，在预测基于时序的连续肠道内窥镜帧时易出现大量的单帧或多帧连续误报，误报种类包括光斑，气泡，消化道食物残渣，异物和肠壁等类别，为此Wang等人提出了AFP-NET和APF-MASK等模型针对肠镜下的息肉预测进行了了优化。不同于传统的图像处理方法，深度学习模型调用了大规模的卷积神经网络CNN来提取图像特征信息，用更多的特征来分辨容易混淆的息肉形态特征和正常肠壁的形态特征。

然而上述预测模型并未针对基于时序的帧做优化，导致帧中易产生单帧误报。因此如何利用多帧之间的时序信息，并以此来辅助模型压制单帧误报的方法就显得非常必要。除此之外，如何对网络特征进行设计，并且针对误报进行合理的压制也称为一个越来越重要的研究方向。比如FCOS和YOLO都使用一个额外的质量预测分支产生针对每个预测框的质量分数，通过引入额外的监督信号来优化预测结果。但是在具体应用到包含息肉的内窥镜图像的预测领域时，大量的误报往往产生于不可靠的质量预测分支的预测结果，即：预测框质量分数高于预测框类别分数，因此需要针对该应用设计一个可靠的预测框质量分支。过多的误报会严重影响预测结果对于内窥镜操作者的可参考性，因此需要开发一个能够准应用简单时序信息并且通过可靠的预测分支来降低误报来有效提升内窥镜操作者的使用体验和图像预测的质量。

发明内容

针对现有技术的不足，本发明的目的在于提供一种内窥镜图像中息肉的目标预测方法、模型及存储介质。

为实现前述发明目的，本发明采用的技术方案包括：

第一方面，本发明提供一种内窥镜图像中息肉的目标预测方法，包括：

1)对内窥镜图像进行特征提取，获得特征信息；

2)基于所述特征信息获取语义信息；

3)基于所述语义信息获取分类分支特征和回归分支特征，并基于所述分类分支特征和回归分支特征获取用于指示息肉的预测框的初始分类分数和位置信息；

4)基于自注意力方法对分类分支特征和回归分支特征给予动态权重并进行融合，获得预测框质量分数，所述预测框质量分数用于指示预测框的初始分类分数的置信度，并至少基于所述预测框质量分数对所述初始分类分数进行修正，获得修正分类分数，用于指示所述预测框内是否包含息肉目标。

在一些优选的实施方案中，步骤4)具体包括：

基于所述分类分支特征和回归分支特征进行特征融合，获得融合特征；

对所述融合特征进行通道归一化，获得归一化特征；

使所述归一化特征通过全连接层，获得全连接特征；

分别基于所述分类分支特征和回归分支特征对所述全连接特征进行压缩扩张，获得分类全局语义信息和回归全局语义信息；

分别对所述分类全局语义信息和回归全局语义信息进行指数归一化，获得分类自适应注意力分数和回归自适应注意力分数；

融合所述分类自适应注意力分数和分类分支特征的乘积以及回归自适应注意力分数和回归分支特征的乘积，获得融合结果，将所述融合结果作为所述置信度，用于计算所述修正分类分数。

第二方面，本发明还提供一种内窥镜图像中息肉的目标预测模型，用于执行上述目标预测方法，包括骨干网络、语义提取模块以及预测模块；

所述骨干网络用于对内窥镜图像进行特征提取，获得特征信息，所述语义提取模块用于基于所述特征信息获取语义信息；

所述预测模块包括分类分支、回归分支以及预测框质量分支；

所述分类分支用于基于所述语义信息获取分类分支特征，并基于所述分类分支特征获取用于指示息肉的预测框的初始分类分数；所述回归分支用于基于所述语义信息获取回归分支特征，并基于所述回归分支特征获取用于指示息肉的预测框的位置信息；

所述预测框质量分支用于基于自注意力方法对分类分支特征和回归分支特征给予动态权重并进行融合，获得预测框质量分数，所述预测框质量分数用于指示预测框的初始分类分数的置信度，并至少基于所述预测框质量分数对所述初始分类分数进行修正，获得修正分类分数用于指示所述预测框内是否包含息肉目标。

在一些优选实施方案中，所述预测框质量分支包括交叉通道自注意力融合单元，所述交叉通道自注意力融合单元包括：

特征融合子单元，用于基于所述分类分支特征和回归分支特征进行特征融合，获得融合特征；

通道归一化子单元，用于对所述融合特征进行通道归一化，获得归一化特征；

全连接子单元，用于使所述归一化特征通过全连接层，获得全连接特征；

全局语义子单元，用于分别基于所述分类分支特征和回归分支特征对所述全连接特征进行压缩扩张，获得分类全局语义信息和回归全局语义信息；

自适应注意力分数子单元，用于分别对所述分类全局语义信息和回归全局语义信息进行指数归一化，获得分类自适应注意力分数和回归自适应注意力分数；

融合结果子单元，用于融合所述分类自适应注意力分数和分类分支特征的乘积以及回归自适应注意力分数和回归分支特征的乘积，获得融合结果，所述融合结果作为置信度用于计算所述修正分类分数。

第三方面，本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序和/或上述目标预测模型，所述计算机程序被运行时执行上述目标预测方法的步骤。

基于上述技术方案，与现有技术相比，本发明的有益效果至少包括：

本发明所提供的本发明所述交叉通道自注意力融合单元能有自适应的选择分类分支与回归分支的最合适特征来有效的提高预测框质量分支的预测结果，并且减少由于质量预测分支的预测分数过高导致的误报，由此带来显著更低的误报率，提高了图像预测的质量以及预测结果的可参考性。

上述说明仅是本发明技术方案的概述，为了能够使本领域技术人员能够更清楚地了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合详细附图说明如后。

附图说明

图1是本发明一典型实施案例提供的目标预测模型的结构示意图；

图2是本发明一典型实施案例提供的目标预测模型中的交叉通道自注意力融合单元的具体结构示意图；

图3是本发明一典型实施案例提供的目标预测方法的过程示意图。

具体实施方式

鉴于现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。具体的，为了减少基于图像级别的物体预测模型在肠胃镜连续帧下息肉预测的误报，本文发明了一种息肉预测模型误报压制方法。本发明在应用在单阶段物体预测模型后能大幅度减少单帧误报和大部分针对异物，气泡和光斑的误报，同时不影响模型的召回率。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

现有技术中，通用的目标预测模型例如FCOS和YOLO都使用一个额外的预测框质量分支产生针对每个预测框的质量分数(γ)，通过引用额外的监督信号来优化分类预测结果，即分类分数(x)，通常情况下会通过

产生最终预测框的分类分数(s)。

但是本发明的发明人发现，在应用到息肉预测领域时，预测框质量分支经常不可靠，其分数远高于预测框类别分数，导致大量的误报的产生。对预测分支的架构设计分析发现其主要原因是因为质量预测的结果来自对预测框回归分支特征的卷积操作，因此，当预测框回归分支特征有强信号时，即对某个物体边界确定性高，将会导致预测框质量分支的分数过高，从而影响最终的分类分数。

参见图1-图3，为了解决上述问题，本发明实施例提供一种内窥镜图像中息肉的目标预测方法，包括如下的步骤：

1)对内窥镜图像进行特征提取，获得特征信息。

2)基于所述特征信息获取语义信息。

3)基于所述语义信息获取分类分支特征和回归分支特征，并基于所述分类分支特征和回归分支特征获取用于指示息肉的预测框的初始分类分数和位置信息。

需要说明的是，本发明所提供的目标预测方法属于图像中间信息的加工或获得方法，所获得的信息作为参考信息，而非直接的指导信息，而非直接用于诊断或治疗的直接信息的获取方法，其本质仍然在于对图像的处理和信息加工，而非属于疾病的诊断与治疗方法。

本发明实施例所提供的目标预测方法基于时序累计交叉通道自注意力息肉预测模型，是一种基于CNN的单阶段无锚框物体预测器，其技术实现包括采用当前通用的卷积神经网络图像分类器模型为骨干网络(例如：ResNet，Res2Net，ConvNext，VAN等)用于提取视频图片的特征信息，通过使用特征金字塔方法来增强浅层特征层的语义信息，提高对小物体的准确率。其预测头为单阶段无锚框预测头，包含以下三个分支：分类分支，回归分支和预测框质量分支。其中，分类分支负责预测息肉分类，提供初始分类分数，预测框分支负责预测息肉位置，提供预测框的位置信息，例如中心点位置、框的尺寸等等；预测框质量分支用于辅助筛选预测框置信度，以对初始分类分数进行修正。该目标预测模型及方法能够将内镜视频中的单帧图像作为输入，输出息肉预测框位置大小信息与其置信度或者经过修正后的初始分类分数，即所述修正分类分数。

上述基本骨架属于本领域常见的网络骨架，本发明的重点在于对于检测头的改进，上述骨干网络和特征金字塔能够实现相应的功能即可。

具体的，分类分支负责预测息肉分类，回归分支负责预测息肉位置，质量分支用于辅助筛选预测框置信度。

上述技术方案中，为了避免因为质量预测分支的预测分数过高而忽略了分类分支的特征，从而导致质量分数过高的情况，本发明的第一创新部分提出了交叉通道自注意力特征融合方法，通过融合多个预测分支(物体分类分支，物体回归分支)的特征信息增强质量预测分支的可靠性。交叉通道自注意力特征融合方法会动态的选择来自两个分支的特征信息，同时基于自注意力方法对两个分支给予不同的权重。

在一些实施方案中，步骤4)具体可以包括如下的步骤：

基于所述分类分支特征和回归分支特征进行特征融合，获得融合特征。

对所述融合特征进行通道归一化，获得归一化特征。

使所述归一化特征通过全连接层，获得全连接特征。

分别基于所述分类分支特征和回归分支特征对所述全连接特征进行压缩扩张，获得分类全局语义信息和回归全局语义信息。

分别对所述分类全局语义信息和回归全局语义信息进行指数归一化，获得分类自适应注意力分数和回归自适应注意力分数。

在一些实施方案中，步骤4)还可以包括如下的步骤：

基于所述融合结果与所述初始分类分数的乘积计算所述修正分类分数。

在一些实施方案中，在进行所述特征融合前，所述分类分支特征和回归分支特征经过特征转换。

在一些实施方案中，所述特征转换包括卷积、组归一化以及激活函数运算。

在一些实施方案中，步骤4)可以表示为：

E＝A_X·X+A_Z·Z

其中，X代表所述分类分支特征；

代表特征转换后的所述分类分支特征；Z代表所述回归分支特征；

代表特征转换后的所述回归分支特征；G代表所述融合特征；

代表所述归一化特征；U代表所述全连接特征；

代表所述分类全局语义信息；

代表所述回归全局语义信息；A_X代表所述分类自适应注意力分数；A_Z代表所述回归自适应注意力分数；E代表所述融合结果。

和

代表特征转换，包括卷积、组归一化以及激活函数运算。

代表所述通道归一化。

代表全连接操作。

代表基于所述分类分支特征通过全连接层进行通道扩张，

代表基于所述回归分支特征通过全连接层进行通道扩张。

在一些实施方案中，所述预测框质量分数的计算方法可以为：

其中，t代表所述修正分类分数；x代表所述初始分类分数。

在一些实施方案中，所述内窥镜图像为视频图像，包括前序帧和当前帧，所述前序帧在当前帧之前。

可以采用点对点特征平滑时序累计效应算法对所述前序帧和当前帧对应的修正分类分数进行特征平滑，获得分类平滑分数，以所述分类平滑分数作为指示所述预测框内是否包含息肉目标的直接标准。

在一些实施方案中，所述特征平滑的计算方法可以为：

其中，t_n代表所述当前帧对应的修正分类分数；

代表所述当前帧的分类平滑分数；

代表基于同样的特征平滑方式由更前的帧累积计算获得的所述前序帧的分类平滑分数；α代表平滑系数。

上述技术方案中，在视频预测阶段，视频中由于成像器产生的噪点会影响模型的稳定性，使更容易产生单帧误报，本发明提出了时序累计效应算法，一种基于前后帧信息的点对点特征平滑方案能够有效去除单帧误报。具体的，针对当前帧的修正分类分数t_n，计算

其中α取值0.7。

为经过多帧之间累计的平滑后的最终分类分数，其由当前帧分类分数t_n与前帧

计算得出的多帧平滑时序累计分数加权平滑之后的结果。在加入点对点特征平滑时序累计之后，如果当前帧t_n因为噪音产生的分数激增将会因为时序累计出的较低分数

而被平滑降低，只有在时序累计分数较高时才会输出较高的分数，简而言之针对当前帧突发的误报高分类分数会因前帧的低分数而被压制。

作为上述技术方案的实际应用，实时的息肉目标位置的预测可以包括下述的主要步骤：

步骤一：通过消化内镜设备实时获取内窥镜图像。

步骤二：对采集的原始图像进行预处理包括缩放和像素平均。

步骤三：通过使用通用骨干网络对图像进行特征提取。

步骤四：通过使用特征金字塔提高对小物体的语义信息。

步骤五：预测分支和回归分支产生物体分类分数。

步骤六通过使用交叉通道自注意力融合单元自适应选择预测分支和回归分支特征信息预测预测框质量分数。

步骤七：通过使用时序累计效应模块融合前帧累计置信度信息生成当前帧预测框置信度

步骤八：基于置信度修正分类分数，实时展示预测框结果在显示装置的内窥镜图像上。

继续参见图1-图2，一种内窥镜图像中息肉的目标预测模型，用于执行上述任一实施方式中的目标预测方法，其包括骨干网络、语义提取模块以及预测模块。

所述骨干网络用于对内窥镜图像进行特征提取，获得特征信息，所述语义提取模块用于基于所述特征信息获取语义信息。

所述预测模块包括分类分支、回归分支以及预测框质量分支。

所述分类分支用于基于所述语义信息获取分类分支特征，并基于所述分类分支特征获取用于指示息肉的预测框的初始分类分数；所述回归分支用于基于所述语义信息获取回归分支特征，并基于所述回归分支特征获取用于指示息肉的预测框的位置信息。

具体的，图1为本发明实施例所述交叉通道自注意力目标预测模型框架，其中骨干网络和特征金字塔属于标准模型结构，但独立预测头是本发明实施例新设计的预测头模块，包含分类分支，预测框质量分支，回归分支。预测头的输入为经过骨干网络和特征金字塔优化过后的特征层，这些特征层将会经过分类分支和预测框回归分支生成最后的预测结果。其中交叉通道自注意力模块为可插拔式模块，其输入来自分类分支和预测框回归分支以便动态的选择来自两个分支的特征信息输出最优的预测框质量分数。

在一些实施方案中，所述预测框质量分支包括交叉通道自注意力融合单元，所述交叉通道自注意力融合单元包括：

特征融合子单元，用于基于所述分类分支特征和回归分支特征进行特征融合，获得融合特征。

通道归一化子单元，用于对所述融合特征进行通道归一化，获得归一化特征。

全连接子单元，用于使所述归一化特征通过全连接层，获得全连接特征。

全局语义子单元，用于分别基于所述分类分支特征和回归分支特征对所述全连接特征进行压缩扩张，获得分类全局语义信息和回归全局语义信息。

自适应注意力分数子单元，用于分别对所述分类全局语义信息和回归全局语义信息进行指数归一化，获得分类自适应注意力分数和回归自适应注意力分数。

具体的，图2.为交叉通道自注意力融合单元的结构，其输入为分类预测分支的分类分支特征

和回归分支特征

两个预测分支特征分别经过一次卷积操作进行特征转换产生

和

其中

和

由3x3卷积，GroupNorm和RELU激活函数组成，上述卷积、归一化和激活为常规的方法，多见于多种现有技术。紧接着，为了更好的获取两个分支的信息，使用元素和融合产生融合特征

为了更有效的获得两个分支的全局信息，首先对特征G进行针对H和W的通道归一化得到归一化特征

通道归一化极大的降低了特征数量，使其能够更有效的通过全连接层获得

经过降维的U能够有效的获取全局信息。紧接着使用

该转换用全连接层进行压缩扩张的方式来获得全局语义信息，增加维度后的全局语义经过归一化指数函数获得针对各个分支的全局自适应注意力

和

其中

最后将每个分支全局自适应注意力以点积的方式与原始特征融合，达到对不同通道选择最合适的特征来源，交叉通道自注意力融合单元最后结果输出预测框质量分数为E＝A_X·X+A_Z·Z。相同的，可以通过引用融合模块最后结果输出来优化分类预测结果，及初始分类分数(x)，最终预测框的修正分类分数分数

在一些实施方案中，所述目标预测模型通过如下的方法训练获得：

提供基础模型和训练数据集。

基于所述训练数据集及对所述基础模型进行参数更新，获得所述目标预测模型。

其中，所述参数更新所基于的损失函数为：

其中，

代表所述损失函数；a_i代表训练过程中产生的预测框；b_i代表数据集中对应的样本的样本框；y_i代表所述样本的样本标注，负样本时取值为0，正样本时取值为1；q(y_i)代表y_i经过分类分支预测的计算结果。

在训练阶段，现有方法针对预测框质量预测分支损失函数为

其中

为正样本所对应的样本，y_i∈(0，1)为所对应样本标注，根据正负样本取值0或1(0为负样本，1为正样本)。根据其损失函数可以看出，只有正样本才会参与计算最后的损失并且受训练过程影响。在持续的训练过程中，质量预测分支针对正样本的分数会持续上升，但是负样本并没有归纳进训练过程，这将会导致实际预测过程中质量预测分数过高。因此本发明对此进行了修改，使损失函数包含针对负样本的计算，并且样本标注为软标注，可以给模型带来更强的泛化能力，对噪声更加鲁棒。本发明实施例提出了使用质量分数

其目标为训练过程中预测框(a_i)与样本框(b_j)间的预测质量分数，预测不佳的预测框会有较低的质量分数。该质量分数例如是指预测框和样本框的重叠面积与总面积的比值。

由此，本发明实施例还提供了上述模型的训练方法。

基于上述技术方案，针对传统预测模型在视频连续帧上容易产生单帧误报和大部分针对异物、气泡和光斑的误报问题，本发明实施例所提供的技术方案主要提出了以下三个创新之处：

(1)针对预测框质量分支进行结构优化，提出了交叉通道自注意力特征融合方法，通过融合多个分支的特征信息增强预测框质量分支的预测可靠性。

(2)训练阶段针对预测框质量分支目标和损失函数进行优化，通过使用全局标注和动态预测目标使其成为强监督前后背景分类器，辅助筛选前后背景预测框。

(3)针对时序预测下的单帧误报，提出了一种基于前后帧信息的点对点特征平滑方案来去除单帧误报。

本发明实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序和/或上述任一项实施方式所提供的目标预测模型，所述计算机程序被运行时执行上述任一实施方式所提供的目标预测方法的步骤。

同时本发明实施例还提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器运行时执行上述任一实施方式所提供的目标预测方法的步骤。

而应用上述电子设备或上述模型的任一内窥镜系统，例如其包括内窥镜组件、显示装置以及电子设备，例如主机、计算机等，在功能上，实现实时地内窥镜图像显示及图像中的息肉的目标识别，并优选以识别框或称之为预测框的形式显示在显示装置中，其利用了本发明所提供的技术构思以及技术方案的各个组成部分或各种实现形式，亦应属于本发明的保护范围之内。

基于上述实施例可以明确，本发明所提供的减少基于图像级别的目标检测模型以及方法，作为一种在肠胃镜连续视频帧下息肉检测误报压制方法，能有效减少单帧误报和大部分针对异物，气泡和光斑的误报，同时不影响召回能力，能有极大的提升操作体验。

本发明实施例所提供的交叉通道自注意力融合单元能有自适应的选择分类分支与回归分支的最合适特征来有效的提高检测框质量分支的预测结果，并且减少由于质量预测分支的预测分数过高导致的误报。

在提升质量分支的同时，本发明同时改变质量分支的损失函数，为其提供更强的监督信号，能够有效的提供前后背景分数并且辅助筛选前后背景预测框。

为了减少由于成像器产生的噪点对模型稳定性的影响，本发明提出了基于前后帧信息的点对点特征平滑方案能够有效去除单帧误报。

本发明的发明人发现，在实际应用中，基于以上方法和模型，本发明所提供的技术方案相较于FCOS模型算法能够减少大约50％的误报，同时对视频息肉检测能够拥有于现有方法和模型相同的甚至稍高息肉的召回率。

在一个具体的实际应用场景中，采用现有的模型，在面对肠道准备较差(例如有大量气泡或内镜视野有食物残渣)情况时，其误报率为平均每分钟3.97次，而同样的环境下，换用本发明实施例所提供的模型及方法进行图像处理和目标预测，误报率为平均每分钟1.76次。同时本发明实施例所提供的模型在视频下的息肉检测成功帧数相比现有的模型提高10.98％。

应当理解，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。