CN116580027B

CN116580027B - 一种结直肠内窥镜视频的实时息肉检测系统及方法

Info

Publication number: CN116580027B
Application number: CN202310851611.6A
Authority: CN
Inventors: 陈雪锦; 马祎婷
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-11-28
Anticipated expiration: 2043-07-12
Also published as: CN116580027A

Abstract

本发明公开一种结直肠内窥镜视频的实时息肉检测系统及方法，属医学影像处理领域。系统包括：基础目标检测模块，对各帧依次进行息肉检测并在当前帧存在可信息肉时输出当前帧息肉基础检测候选区域；筛选模块能筛选出当前帧的息肉检测结果；息肉模板提取模块能提取用于下一帧检测的息肉模板区域；目标注意力模块能增强基础目标检测模块进行息肉检测得出下一帧息肉基础检测候选区域；息肉目标追踪模块根据息肉模板区域进行追踪得出下一帧息肉追踪检测候选区域；筛选模块能筛选得到最后的息肉包围框作为下一帧的息肉检测结果。该系统能对连续结直肠内窥镜帧进行高效且准确的息肉检测，平衡息肉检测的准确率与效率。

Description

一种结直肠内窥镜视频的实时息肉检测系统及方法

技术领域

本发明涉及医学影像处理领域，尤其涉及一种结直肠内窥镜视频的实时息肉检测系统及方法。

背景技术

结直肠癌是一种发生在结肠和直肠肠道中的恶性肿瘤，是消化系统中最常见的恶性肿瘤之一，也是致死率位居全世界第三的疾病。对于结直肠肿瘤，想要更好地进行预防，及时的发现显得更为重要。而内窥镜检查是目前能够准确识别息肉——结直肠肿瘤的早期病灶体现、判断息肉病变程度的最有效的手段之一。

但由于内窥镜检查中肠道环境复杂，息肉检测过程中受到来自各种因素的影响面临着极大的挑战，如肠道准备情况较差，内窥镜摄像机快速移动，息肉形态多样等，即使是经验丰富的专家，也很难保证能捕捉到所有的息肉。而计算机辅助诊断(Computer-aideddiagnosis, CAD)系统的出现不仅减少了临床筛查过程的工作量，也提高了诊断准确性。一方面，计算机辅助诊断系统可极大地降低一些由人为因素，如眨眼和视觉疲劳造成的息肉漏检，避免不必要的二次检查使得成本增加。另一方面，计算机辅助诊断系统可以帮助缺乏经验的临床医生在复杂的肠道环境中更有效地检测到形状各异的息肉。

早在20世纪70年代，研究人员就尝试过将计算机视觉技术应用于医疗诊断中。早期的方法主要采用人为设计的特征，如形状、纹理和颜色等，通过模板匹配确定内窥镜图像是否包含息肉。这些基于手工设计的方法在特征表达上难以满足复杂的息肉形态与肠道环境。

在过去的十年里随着深度学习的快速发展，基于卷积神经网络CNN的目标检测器展现出了非常强大的特征表达能力，科研工作者们开始将在大规模自然图像数据集上训练的通用目标检测方法通过在静态息肉数据集上微调迁移到息肉检测这一任务中，并结合一些针对内窥镜图像的设计，例如：特定地后处理和不同的训练策略等来实现在内窥镜图像上的息肉检测。这些方法在静态清晰图像上的测试达到了令人满意的效果。然而，实际临床中由于肠道褶皱、快速镜头移动以及肠道内液体反射等原因使得肠道环境非常复杂，也使得息肉影像展现出极大的差异性，这对目前这些基于静态图像的息肉检测方法来说是极大的挑战。

为解决上述问题，研究人员们开始尝试利用视频中的时序相关性来帮助检测息肉。相比于基于单张静态图像的息肉检测框架，这些针对内窥镜视频的方法通过视频的相邻帧间的关联信息传递来提升检测的准确率。邻近帧间的特征融合和互相增强可以有效提升特征的表达能力。然而，这种提升是以极大的计算开销为代价得到的。尽管也有工作致力于提升检测速度，但现有这些方法在临床数据中都很难在检测准确率和检测效率之间取得很好的平衡。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供了一种结直肠内窥镜视频的实时息肉检测方法，能以较低的计算开销，达到较高的息肉检测准确率，很好的平衡息肉检测的准确率与效率，进而解决现有技术中存在的上述技术问题。

本发明的目的是通过以下技术方案实现的：

一种结直肠内窥镜视频的实时息肉检测系统，包括：

基础目标检测模块、筛选模块、息肉模板提取模块、目标注意力模块和息肉目标追踪模块；其中，

所述基础目标检测模块，分别设有图像输入端、编码特征输出端、检测输入端和检测输出端，能通过图像输入端依次接收待检测的结直肠内窥镜视频的各帧，并对各帧依次进行息肉检测，在当前帧存在可信息肉时得到经检测输出端输出的当前帧息肉基础检测候选区域；

所述筛选模块，与所述基础目标检测模块的检测输出端通信连接，能以同样的权重对所述基础目标检测模块输出的当前帧息肉基础检测候选区域进行非极大值抑制操作，得到息肉包围框作为当前帧的息肉检测结果；

所述息肉模板提取模块，分别与所述基础目标检测模块的编码特征输出端和筛选模块的输出端通信连接，能根据所述筛选模块输出的当前帧的息肉检测结果对所述基础目标检测模块的编码特征输出端输出的当前帧特征进行裁剪得到用于下一帧检测的息肉模板区域；

所述目标注意力模块，连接在所述基础目标检测模块的编码特征输出端与检测输入端之间，并与所述息肉模板提取模块的输出端通信连接，能在当前帧存在可信息肉并进行下一帧检测时，接收所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域，以该息肉模板区域特征对所述编码特征输出端输出的下一帧特征进行增强得到强化特征，并用强化特征代替下一帧特征经所述基础目标检测模块进行息肉检测得出下一帧息肉基础检测候选区域；

所述息肉目标追踪模块，与所述基础目标检测模块的编码特征输出端通信连接，并与所述息肉模板提取模块的输出端通信连接，能以所述基础目标检测模块的编码特征输出端输出的下一帧特征以及所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域为输入，提取出与所述息肉模板区域最相似部分作为下一帧息肉追踪检测候选区域；

所述筛选模块，与所述息肉目标追踪模块的追踪特征输出端通信连接，能以同样的权重对所述基础目标检测模块输出的下一帧息肉基础检测候选区域以及息肉目标追踪模块输出的下一帧息肉追踪检测候选区域进行非极大值抑制操作，得到最后的息肉包围框作为下一帧的息肉检测结果。

一种采用本发明所述结直肠内窥镜视频的实时息肉检测系统的结直肠内窥镜视频的实时息肉检测方法，包括如下步骤：

通过所述系统的基础目标检测模块，依次接收待检测的结直肠内窥镜视频的各帧，并对各帧依次进行息肉检测，在当前帧存在可信息肉时得到经检测输出端输出的当前帧息肉基础检测候选区域；

通过所述系统的筛选模块，以同样的权重对所述基础目标检测模块输出的当前帧息肉基础检测候选区域进行非极大值抑制操作，得到息肉包围框作为当前帧的息肉检测结果；

通过所述系统的息肉模板提取模块，根据所述筛选模块输出的当前帧的息肉检测结果对所述基础目标检测模块的编码特征输出端输出的当前帧特征进行裁剪得到用于下一帧检测的息肉模板区域；

通过所述系统的目标注意力模块，在当前帧存在可信息肉并进行下一帧检测时，接收所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域，以该息肉模板区域特征对编码特征输出端输出的下一帧特征进行增强得到强化特征，并用强化特征代替下一帧特征经所述基础目标检测模块进行息肉检测得出下一帧息肉基础检测候选区域；

通过所述系统的息肉目标追踪模块，以所述基础目标检测模块的编码特征输出端输出的下一帧特征以及所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域为输入，提取出与所述息肉模板区域最相似部分作为下一帧息肉追踪检测候选区域；

通过所述系统的所述筛选模块，以同样的权重对所述基础目标检测模块输出的下一帧息肉基础检测候选区域以及息肉目标追踪模块输出的下一帧息肉追踪检测候选区域进行非极大值抑制操作，得到最后的息肉包围框作为下一帧的息肉检测结果。

与现有技术相比，本发明所提供的结直肠内窥镜视频的实时息肉检测系统及方法，其有益效果包括：

通过在基础目标检测模块的基础上，设置息肉模板提取模块配合息肉目标追踪模块能对基础目标检测模块的息肉遗漏进行补充，由于息肉目标追踪模块以基础目标检测模块配合息肉模板提取模块提取的息肉模板区域的特征作为输入，使得其仅需要极少量的参数并且不会对运行速度造成太大的影响，属于轻量级的目标追踪模块，在保证检测准确性和效率的前提下，有效降低了计算开销；通过在基础目标检测模块内设置目标注意力模块对局部特征进行增强，实现一个简单却有效的特征融合来增强特征表达，利用目标区域对待分类或回归的特征进行增强后使其对与目标接近的区域更敏感，可以指导特征检测器更多地关注在这些区域内，这样由于放弃了对全图进行特征增强，避免了在特征融合或者特征传递中避免过大的运算量和复杂度。本发明的系统及方法，由于不需要较大的计算开销，在准确率和检测效率之间达到了很好的平衡。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的结直肠内窥镜视频的实时息肉检测系统的框架图。

图2为本发明实施例提供的实时息肉检测系统的息肉目标追踪模块的结构示意图。

图3为本发明实施例提供的实时息肉检测系统的目标注意力模块的结构示意图。

图4为本发明实施例提供的结直肠内窥镜视频的实时息肉检测方法的流程图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的结直肠内窥镜视频的实时息肉检测系统及方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施例提供一种结直肠内窥镜视频的实时息肉检测系统，包括：

所述基础目标检测模块，分别设有图像输入端、编码特征输出端、检测输入端和检测输出端，能通过图像输入端依次接收待检测的结直肠内窥镜视频的各帧，并对各帧依次进行息肉检测，在当前帧存在可信息肉时得到经检测输出端输出的当前帧息肉基础检测候选区域；其中的结直肠内窥镜视频是指结直肠内窥镜检测的实时视频，各帧指实时视频的各帧图像；

所述目标注意力模块，连接在所述基础目标检测模块的编码特征输出端与检测输入端之间，并与所述息肉模板提取模块的输出端通信连接，能在当前帧存在可信息肉并进行下一帧检测时，接收所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域，以该息肉模板区域特征对所述编码特征输出端输出的下一帧特征进行目标注意力增强得到强化特征，并用强化特征代替下一帧特征经所述基础目标检测模块进行息肉检测得出下一帧息肉基础检测候选区域；

优选的，上述检测系统中，所述基础目标检测模块由编码器和检测器组成，所述编码器设置所述图像输入端和所述编码特征输出端，检测器的输入端与编码器的编码特征输出端通信连接，该检测器设置所述检测输出端；该检测器采用基于深度卷积网络的目标检测器；

优选的，上述的基础目标检测模块的检测器采用无需锚框的单阶段目标检测器，该无需锚框的单阶段目标检测器的检测器由并列设置的分类子网络、回归子网络和中心度估算网络构成；

该无需锚框的单阶段目标检测器的编码器选择特征金字塔结构中的P3到P7层作为提取的多尺度的图像特征，视频第t帧的图像I_t第j层的特征表示为F_t,j；为方便说明，后续的描述中，将视频第t帧称为当前帧，而下标为t+1的视频帧称为下一帧。

该无需锚框的单阶段目标检测器分别用构成检测器的分类子网络，回归子网络和中心度估算网络对图像I_t的每一层特征预测得到对应的息肉分数c_t,j、候选框偏移量P_t,j和中心度分数ctr_t,j，所有层预测得到的息肉分数组成息肉分数集合{c_t,j}，所有层预测得到的候选框偏移量组成候选框偏移量集合{P_t,j}，所有层预测得到的中心度分数组成中心度分数集合{ctr_t,j}，其中，、/>和/>，H_j和W_j分别表示该层特征的长度与宽度；

对于每一层特征中每一个空间位置(x,y)，分类子网络预测一个息肉分数c_x,y表示该空间位置(x,y)属于息肉的概率；回归子网络预测一个候选框偏移量p_x,y=(l,t,r,b)表示从该空间位置(x,y)到预测物体候选框四边的距离，其中，l为该空间位置(x,y)到预测物体候选框左边的距离，t为该空间位置(x,y)到预测物体候选框上边的距离,r为该空间位置(x,y)到预测物体候选框右边的距离,b为该空间位置(x,y)到预测物体候选框下边的距离；中心度估算网络预测一个中心度分数ctr_x,y表示该预测包围框中心点与实际息肉中心点的归一化距离。同一层所有位置的息肉分数c_x,y组成该层特征的息肉分数c_t,j，同一层所有位置的候选框偏移量p_x,y组成该层特征的候选框偏移量P_t,j，同一层所有位置的中心度分数ctr_x,y组成该层特征的中心度分数ctr_t,j。每个位置最后的置信度为该点息肉分数与中心度分数的乘积；

之后通过筛选模块进行非极大值抑制筛除置信度低于阈值的候选框，得到在图像I_t上的息肉检测结果，其中各项表示在t时刻的图像上检测到的第i个息肉的坐标，根据该息肉所在的空间位置(x,y)和对应的候选框偏移量计算得出，i=1…m。

息肉模板提取模块按以下方式裁剪和提取息肉模板区域，包括：

根据息肉检测结果，对图像特征金字塔中的每一层特征围绕中心点c裁剪出K×K的区域，获得该区域对应的特征集合/>作为息肉模板区域，并且，其中，/>为中心点(x_i,y_i)的息肉区域在第j层的特征上对应的中心点；s_j为当前帧第j层特征的步长；C为特征通道数量。该特征作为息肉模板区域输出，用于下一帧的息肉检测。

所述息肉目标追踪模块设有数量与所述息肉模板提取模块输出端输出的息肉模板区域数量相同的追踪器，各追踪器并列设置，各追踪器的输入端分别与所述基础目标检测模块的编码器的编码特征输出端通信连接。每个追踪器对应处理息肉模板提取模块输出的一个息肉模板区域。

这样的息肉目标追踪模块的各追踪器不需要单独设置编码器，相当于与基础目标检测模块共用编码器，使得其仅需要极少量的参数且不会对运行速度造成太大的影响，属于轻量级的目标追踪器，在保证检测准确性和效率的前提下，有效降低了计算开销。

如图2所示，上述系统中的所述息肉目标追踪模块中的每个追踪器的结构均包括：

回归子网络和分类子网络；其中，

所述回归子网络，设有两个输入端和一个输出端，第一输入端与所述息肉模板提取模块输出端连接，能输入息肉模板区域特征；第二输入端与所述基础目标检测模块的编码特征输出端连接，能输入下一帧图像经所述基础目标检测模块的编码器后的下一帧特征，分别经过两个卷积-批标准化-非线性激活层后计算输入的息肉模板区域特征与下一帧特征之间的深度方向相关性，再经过一个卷积-批标准化-非线性激活层操作后分别进入回归子网络和中心度估算网络，输出回归偏移量和中心度估值；

所述分类子网络，设有两个输入端和一个输出端，第一输入端与所述息肉模板提取模块输出端连接，能输入息肉模板区域特征；第二输入端与所述基础目标检测模块的编码特征输出端连接，能输入下一帧图像经所述基础目标检测模块的编码器后的下一帧特征，分别经过两个卷积-批标准化-非线性激活层后计算输入的息肉模板区域特征与下一帧特征之间的深度方向相关性，再经过一个卷积-批标准化-非线性激活层操作后分别进入分类子网络，分类子网络输出的息肉分数与其对应的中心度分数相乘得到最后的分类结果并输出。

优选的，上述检测系统中，所述基础目标检测模块和息肉目标追踪模块在训练阶段均输出一个分类图、一个回归图和一个中心度估值图，采用多任务损失函数对整个网络进行简单地端到端训练；

对于在检测的下一帧中的某个空间位置(x,y)，基础目标检测模块和息肉目标追踪模块均会预测一个息肉分数c_x,y以及该息肉分数c_x,y对应的候选框偏移量p_x,y和中心度分数ctr_x,y；基础目标检测模块预测得到的息肉分数、该息肉分数对应的候选框偏移量和中心度分数分别为、/>和/>，息肉目标追踪模块预测得到的息肉分数、该息肉分数对应的候选框偏移量和中心度分数分别为/>、/>和/>；

给定一个息肉真值标签来表示该空间位置是否属于息肉以及回归目标/>和该空间位置的真实中心度/>，则基础目标检测模块的检测损失函数和息肉目标追踪模块的追踪损失函数分别为：

；

其中，检测损失使用局部损失函数；回归损失/>使用IOU损失函数；中心度损失/>使用线性交叉熵损失函数； N_pos是正样本的数量；/>是判断该空间位置(x,y)在真值中是否属于息肉的指示函数；

该实时息肉检测系统的整个网络的损失函数为上述两个任务损失函数的和：

；

其中，λ为追踪损失函数的权重，取值为1。

优选的，上述检测系统中，所述目标注意力模块的结构如图3所示，包括：

感兴趣区域调整层和缩放点乘注意力子模块；其中，

所述感兴趣区域调整层，设有多个输入端和一个输出端，能分别输入当前帧第j层感兴趣区域的特征，并将所有从当前帧第j层的特征F_t,j裁剪得到的区域特征级联成一个当前帧级联特征后输出，其中，j代表当前帧特征金字塔的层数，N代表当前帧检测到的息肉数量，C代表特征通道数量；

所述缩放点乘注意力子模块，设有四个输入端和一个输出端，两个输入端分别与所述感兴趣区域调整层的输出端通信连接，其中第一输入端输入一个键值K，第二输入端输入一个维度为d_V的值，第三输入端输入的是从第四输入端输入的下一帧第j层的特征F_t+1,j 获取的维度为d_K的查询Q，第二输入端输入的维度为d_V的值与第三输入端输入的维度为d_K的查询Q经过矩阵点乘器进行矩阵点乘后得出下一帧第j层的特征F_t+1,j与当前帧级联特征S_t,j 之间联系的权重，权重与第一输入端输入的键值K经矩阵乘法器进行矩阵相乘后得出注意力值，得出的注意力值与第四输入端输入的下一帧第层的特征F_t+1,j经级联层进行级联后，再经卷积层进行卷积得出下一帧的强化特征。

优选的，上述目标注意力模块中，矩阵点乘器通过以下公式来计算出下一帧第j层的特征F_t+1,j与当前帧级联特征S_t,j之间联系的权重：

；

其中，W_K和W_Q是分别用于将当前帧级联特征S_t,j以及下一帧第j层的特征F_t+1,j映射到相同维度以对它们相似度进行计算的矩阵；，/>，d_k代表投影空间的维度；

矩阵乘法器通过以下公式将权重用于计算注意力值：

；

其中，W_V是用于将当前帧级联特征变换到与下一帧第j层的特征F_t+1,j相同大小的矩阵；

按以下公式将得出的注意力值与第四输入端输入的下一帧第层的特征 F_t+1,j经级联层进行级联后，再经卷积层进行卷积得到下一帧的强化特征：

；

该目标注意力模块的输入和输出拥有同样大小的维度。

参见图4，本发明实施例还提供一种采用上述结直肠内窥镜视频的实时息肉检测系统的结直肠内窥镜视频的实时息肉检测方法，包括如下步骤：

通过所述系统的目标注意力模块，在当前帧存在可信息肉并进行下一帧检测时，接收所述息肉模板提取模块输出的用于下一帧检测的息肉模板区域，以该息肉模板区域特征对编码特征输出端输出的下一帧特征进行目标注意力增强得到强化特征，并用强化特征代替下一帧特征经所述基础目标检测模块进行息肉检测得出下一帧息肉基础检测候选区域；

优选的，上述检测方法中，若在当前帧中没有检测到任何息肉，则在下一帧只使用基础检测器进行检测；所述目标注意力模块和息肉目标追踪模块不参与下一帧检测。这样能提高检测效率，也减低计算开销。

综上可见，本发明实施例的检测系统及方法，通过在基础目标检测模块的基础上，设置息肉目标追踪模块能对基础目标检测模块的遗漏进行补充，由于息肉目标追踪模块利用与基础目标检测模块同一个编码器提取的息肉模板区域特征作为输入，使得其仅需要极少量的参数并且不会对运行速度造成太大的影响，属于轻量级的目标追踪模块，在保证检测准确性和效率的前提下，有效降低了计算开销；通过在基础目标检测模块内设置目标注意力模块对局部特征进行增强，实现一个简单却有效的特征融合来增强特征表达，利用目标区域对用于分类或回归的特征进行增强后使其对与目标接近的区域更敏感，可以指导特征检测器更多地关注在这些区域内，这样由于放弃了对全图进行特征增强，避免了在特征融合或者特征传递中过大的运算量和复杂度。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的结直肠内窥镜视频的实时息肉检测系统及方法进行详细描述。

实施例1：

如图1所示，本发明实施例提供一种结直肠内窥镜视频的实时息肉检测系统，是一种针对结直肠内窥镜视频上的基于目标指导的息肉检测系统，该系统可称为Tracking-Aided Polyp Detection Network, TAPolypDNet，来实现快速息肉的检测。该系统基于目标指导进行实时息肉检测，并通过一个目标注意力模块来对图像特征进行有效且快速的增强，通过与一个轻量级的息肉目标追踪模块的结合，使得即使在复杂的临床视频数据中，也能进行精确并快速的息肉检测。该实时息肉检测系统包括：

所述的基础目标检测模块由编码器和检测器构成，其中，检测器采用无需锚框的单阶段目标检测器FCOS，FCOS使用特征金字塔结构来提取多尺度的图像特征；对于视频帧的图像，其第j层的特征表示为F_t,j。本实施例选择图像特征金字塔中的P3到P7层特征作为后续的输入，对于每一层特征，分别使用一个分类子网络、一个回归子网络和一个中心度估算网络构成的检测器来对图像I_t的每一层特征预测得到对应的息肉分数c_t,j、候选框偏移量P_t,j和中心度分数ctr_t,j，所有层预测得到的息肉分数组成息肉分数集合{c_t,j}，所有层预测得到的候选框偏移量组成候选框偏移量集合{P_t,j}，所有层预测得到的中心度分数组成中心度分数集合{ctr_t,j}，其中，、、，H_j和W_j分别表示该层特征的长度与宽度；

对于每一层特征中每一个空间位置(x,y)，分类子网络预测一个息肉分数c_x,y表示该空间位置(x,y)属于息肉的概率；回归子网络预测一个候选框偏移量p_x,y=(l,t,r,b)表示从该空间位置(x,y)到预测物体候选框四边的距离，其中，l为该空间位置(x,y)到预测物体候选框左边的距离，t为该空间位置(x,y)到预测物体候选框上边的距离,r为该空间位置 (x,y)到预测物体候选框右边的距离,b为该空间位置(x,y)到预测物体候选框下边的距离；中心度估算网络预测一个中心度分数ctr_x,y表示该预测包围框中心点与实际息肉中心点的归一化距离。同一层所有位置的息肉分数c_x,y组成该层特征的息肉分数c_t,j，同一层所有位置的候选框偏移量组成该层特征的候选框偏移量P_t,j，同一层所有位置的中心度分数 ctr_x,y组成该层特征的中心度分数ctr_t,j。每个位置最后的置信度为该点息肉分数与中心度分数的乘积；

之后通过筛选模块进行非极大值抑制筛除置信度低于阈值的候选框，得到在图像I_t上的息肉检测结果，其中各项表示在t时刻的图像上检测到的第i个息肉的坐标，根据该息肉所在的空间位置(x,y)和对应的候选框偏移量计算得出，i=1…m；

息肉模板提取模块根据息肉检测结果，对图像特征金字塔中的每一层特征围绕中心点c裁剪出K×K的区域，获得该区域对应的特征集合/>作为息肉模板区域，并且/>，其中，/>为中心点(x_i,y_i)的息肉区域在第j层的特征上对应的中心点；s_j为当前帧第j层特征的步长；C为特征通道数量。该特征作为息肉模板区域输出，用于下一帧的息肉检测。

可以知道，由于息肉目标追踪模块是一个独立于基础目标检测模块的额外分支网络，且目标注意力模块也不会对基础目标检测模块带来结构上的变化，因此，理论上任何基于深度卷积网络的目标检测器都可以作为本发明的基础目标检测模块，而本实施例选择的无需锚框的单阶段目标检测器FCOS能更好的在准确率和检测速度之间取得平衡。

由于在视频中即便是相邻帧也十分相近，甚至具有肉眼难以辨别的相似度，这种相似度即使在静态图像上的目标检测方法也很难做到连续一致的检测，因此本实施例通过息肉目标追踪模块将基础目标基础模块得到的检测结果作为先验知识对整个息肉检测系统进行补充与提升。

息肉目标追踪模块与基础目标检测模块采用一种基于孪生网络的结构，能利用基础目标检测模块的编码器输出的特征，实现了与基础目标检测模块共享编码器，即捕捉下一帧中与当前帧得到的目标最相似的区域来弥补基础目标检测模块的漏检。

将下一帧第j层的特征F_t+1,j与当前帧中通过息肉模板提取模块得到的息肉模板区域作为息肉目标追踪模块的输入。需要注意的是，基于孪生网络的息肉目标追踪模块相比于基础目标检测模块，在特征提取阶段需要一个更小的步长来保证更丰富的局部信息，在特征金字塔中高层的图像特征对于追踪任务而言步长太大了，因此本实施例选择P3层的特征，这样可有效地降低计算量，对于m个息肉模板区域，即前一帧中检测得到的息肉模板区域，共有m个权重共享的追踪器包含在息肉目标追踪模块内，每个追踪器的网络结构如图2所示。

如图2所示，对于息肉目标追踪模块中的每一个追踪器都分别包含一个分类子网络以及一个回归子网络。首先，对于当前帧得到的第i个息肉模板区域特征以及下一帧特征F_t+1,j，分类子网络与回归子网络均对其进行一系列的卷积-批标准化-非线性激活 (Convs-BN-ReLU)操作，并计算它们的深度方向的相关性(depth-wise cross correlation)；接着，再一次进行卷积-批标准化-非线性激活操作使得它们的特征在通道层面上得到更深入的融合；最后，使用一个卷积层来获得对应的分类、回归或者中心值的结果，计算目标偏移图以及分类分数。同时，在回归子网络中加入了中心度估算网络来对分类结果进行优化，中心度估算网络与基础目标检测模块的检测器中的中心度估算网络结构相同。具体的，中心度估算网络在实现中可包含在回归子网络中，与回归子网络前几层共享，通过最后一层网络单独估计得出一个中心度。

本发明的息肉目标追踪模块直接利用当前帧特征中进行裁剪得到需要的息肉模板区域作为下一帧检测用的追踪模板，这样做的好处是可以避免多次的特征提取而显著提升计算速度与效率；同时，本发明直接采用了息肉模板区域特征金字塔中的第3层特征输入追踪器，使得从特征金字塔中得到的特征均保持在相同的维度，因此并不需要额外的降维或升维操作，可以有效地提升计算效率，降低运行成本；在最后分类和回归的任务中舍弃了锚框设计，而是在特征上直接预测每个点的息肉分数以及其对应的候选框偏移量，同时也加入了中心值的预测来优化最后的分类结果，具体结构如图2所示。

在此基础上，追踪模块得到的候选框将和检测器生成的候选框一起进行非极大值抑制来得到最终结果。

由于息肉目标追踪模块使用与基础目标检测模块同一个骨干网络提取的特征作为输入，使得其仅需要极少量的参数并且不会对运行速度造成太大的影响，属于使用轻量级的息肉目标追踪模块来对基础目标检测模块的遗漏进行补充，降低了计算开销。

由于息肉目标追踪模块主要利用当前帧得到的息肉模板区域对下一帧进行追踪，将追踪结果作为对检测器的补充，并不会对检测器本身带来任何优化，并且，当前帧中得到的息肉位置与纹理信息不仅可以作为息肉目标追踪模块的输入，也可以将其当作一种可信的先验，让基础目标检测模块更关注下一帧中与该息肉目标更相似的区域，因此增加了该目标注意力模块，通过该目标注意力模块来指导基础目标检测模块对下一帧的检测。

图3展示了本发明实施例的目标注意力模块的基本结构。在经过感兴趣区域的感兴趣区域调整层（ROI Align Layer）后，将所有从当前帧第j层的特征F_t,j裁剪得到的区域级联成一个当前帧级联特征，其中j代表当前帧特征金字塔的层数，N代表当前帧检测到的息肉数量，C表示特征通道数量。

对于一个基础的缩放点乘注意力（scaled dot-product attention），其输入包含一个维度为d_K的查询（Query, Q），键值（Key, K）以及维度为d_V的值（Value, V）。对于每一组Q和K都用点乘的方法来计算它们之间的相似性。在本发明的检测任务中，给定下一帧第j层的特征F_t+1,j以及当前帧级联特征S_t,j，则通过以下公式计算出能表达两者之间联系的权重：

；

其中，W_K和W_Q分别是用于将当前帧级联特征S_t,j以及下一帧的特征F_t+1,j映射到相同的维度使得可以对其相似度进行计算的矩阵；，，d_k代表投影空间的维度；

接着通过该权重计算注意力值：

；

其中，W_V是用于将级联特征变换到与F_t+1,j相同的大小的矩阵。

最后，将下一帧的特征与重新加权后的目标特征级联到一起并通过一个卷积层来得到下一帧的强化特征：

；

该目标注意力模块的输入和输出拥有同样大小的维度。可以认为是在基础目标检测模块上的一个附加模块。在测试阶段还未有息肉目标存在时，系统能自动的跳过该目标注意力模块。通过加入目标注意力模块，实现一个简单却有效的特征融合来增强特征表达，利用目标区域对待分类或回归的特征进行增强后使其对与目标接近的区域更敏感，可以指导特征检测器更多地关注在这些区域内，由于放弃对全图进行特征增强，在特征融合或者特征传递中避免了过大的运算量和复杂度。

由于以上息肉目标追踪模块和目标注意力模块的设计均考虑到了本检测系统的运行效率，不管是目标注意力模块还是息肉目标追踪模块，都只需要极少的计算复杂度，并不会对整个息肉检测过程带来太多的时间增长，能很好的平衡检测效率与准确率。

本发明实施例的检测系统按以下方式进行训练与测试：

在训练阶段，检测系统的基础目标检测模块和息肉目标追踪模块都会输出一个分类图、一个回归图和一个中心度估值图，因此采用多任务损失函数对整个网络进行简单地端到端训练。

对于在检测的下一帧中的某个空间位置(x,y)，基础目标检测模块和息肉目标追踪模块均会预测一个息肉分数c_x,y以及该息肉分数c_x,y对应的偏移量p_x,y和中心度分数ctr_x,y；基础目标检测模块预测得到、/>和/>，息肉目标追踪模块预测得到/>、和/>；

给定一个息肉真值标签来表示该位置是否属于息肉以及回归目标/>和该位置的真实中心度/>，则基础目标检测模块的检测损失函数和息肉目标追踪模块的追踪损失函数分别为：/>

；

其中分类损失使用了局部损失函数；而回归损失/>使用了IOU损失函数；中心度损失/>使用线性交叉熵损失函数；N_pos是正样本的数量；/>是一个指示函数来判断该空间位置(x,y)在真值中是否属于息肉。

整个系统的整体损失函数为上述两个任务损失函数相加的和：

；

其中，λ为追踪损失函数的权重，本实施例中λ取1。

在测试阶段，通过基础目标检测模块对内窥镜视频进行逐帧检测；对于下一帧，息肉目标追踪模块和目标注意力模块将根据基础目标检测模块对当前帧的检测结果对下一帧的息肉检测提供先验指导；如果在当前帧中并没有检测到任何息肉，则在下一帧只使用基础目标检测模块进行检测；若当检测目标检测模块认为当前帧中存在息肉时，则将这些或这个息肉模板区域的特征输入到息肉目标追踪模块和目标注意力模块中对基础目标检测模块进行优化与补充；最后基础目标检测模块检测得到的息肉基础检测候选区域和息肉目标追踪模块的检测得到的息肉追踪检测候选区域将同时进行非极大值抑制，得到最后的当前帧的息肉检测结果。

实施例2

参见图4，本实施例提供一种结直肠内窥镜视频的实时息肉检测方法，采用实施例1的实时息肉检测系统，步骤如下：

对于输入的一系列息肉检测的帧，首先通过基础目标检测模块对其进行息肉检测；

当前帧存在可信的息肉时，根据该息肉出现的位置对当前帧的特征进行裁剪与提取，裁剪与提取的这个目标特征作为息肉模板区域特征将对下一帧进行两方面的指导：

首先，该息肉模板区域特征作为追踪模板进入息肉目标追踪模块，如图2所示。在追踪过程中，将在下一帧中寻找与目标最接近的区域，当某个部分的相似度达到一定阈值时，该部分将被作为息肉追踪候选区域进行最终的筛选；

其次，这个息肉模板区域特征同时会通过目标注意力模块对下一帧特征进行增强，如图3所示，使得基础目标检测模块更加关注与目标相近的区域，提高检测精度。增强后的强化特征进入到基础目标检测模块的检测器，即分类子网络、回归子网络和中心度估算网络，得到下一帧的息肉基础检测候选区域；

最后，结合上述两个模块检测得出所有的候选区域，通过筛选模块进行非极大值抑制操作后筛选出最后的包围框，即为检测得到的下一帧的息肉检测结果，这一结果也将用于后一帧的检测。

通过以上方法，本发明方案可以高效且准确地对内窥镜视频进行自动息肉检测，来辅助医生在临床中进行结直肠健康检查。本发明方案在现有的息肉检测公开视频数据库CVC-ClinicVideo和更大规模的临床数据库LDPolypVideo上进行了实验与分析。在CVC-ClinicVideo数据库上，本发明方案以19.1的帧率达到了96.7%的检测准确率以及89.8%的召回率。在LDPolypVideo数据库上，本发明方案也达到了79.8%的准确率和69.5%的召回率。而对于综合准确率和召回率的指标——F1分数，本发明方案在两个公开数据集上均超过了现有的其他方法。具体参见以下表1和表2。

表1为本发明实施例提供的息肉检测量化结果对比结果，其中TAPolypDNet对应的是本发明的方法：

；

表2为本发明实施例提供的各模块消融实验结果：

。

本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种结直肠内窥镜视频的实时息肉检测系统，其特征在于，包括：

2.根据权利要求1所述的结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述基础目标检测模块由编码器和检测器组成，所述编码器设置所述图像输入端和所述编码特征输出端，检测器的输入端与编码器的编码特征输出端通信连接，该检测器设置所述检测输出端；该检测器采用基于深度卷积网络的目标检测器；

所述息肉目标追踪模块设有数量与所述息肉模板提取模块输出的息肉模板区域数量相同的追踪器，各追踪器并列设置，各追踪器的输入端分别与所述基础目标检测模块的编码器的编码特征输出端和所述息肉模板提取模块的输出端通信连接。

3.根据权利要求2所述的结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述基础目标检测模块的检测器采用由并列设置的分类子网络、回归子网络和中心度估算网络构成的无需锚框的单阶段目标检测器。

4.根据权利要求2所述的结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述息肉目标追踪模块中的每个追踪器的结构均包括：

回归子网络和分类子网络；其中，

所述回归子网络，设有两个输入端和一个输出端，第一输入端与所述息肉模板提取模块输出端连接，能输入从当前帧特征获得的息肉模板区域特征；第二输入端与所述基础目标检测模块的编码特征输出端连接，能输入下一帧图像经所述基础目标检测模块的编码器后的下一帧特征，分别经过两个卷积-批标准化-非线性激活层后计算输入的息肉模板区域特征与下一帧特征之间的深度方向相关性，再经过一个卷积-批标准化-非线性激活层操作后分别进入回归子网络和中心度估算网络，输出回归偏移量和中心度估值；

所述分类子网络，设有两个输入端和一个输出端，第一输入端与所述息肉模板提取模块输出端连接，能输入从当前帧特征获得的息肉模板区域特征；第二输入端与所述基础目标检测模块的编码特征输出端连接，能输入下一帧图像经所述基础目标检测模块的编码器后的下一帧特征，分别经过两个卷积-批标准化-非线性激活层后计算输入的息肉模板区域特征与下一帧特征之间的深度方向相关性，再经过一个卷积-批标准化-非线性激活层操作后分别进入分类子网络，输出分类结果。

5.根据权利要求2-4任一项所述的结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述基础目标检测模块和息肉目标追踪模块在训练阶段均输出一个分类图，一个回归图和一个中心度估值图，采用多任务损失函数对整个网络进行简单地端到端训练；

给定一个息肉真值标签表示该空间位置是否属于息肉以及回归目标/>和该空间位置的真实中心度/>，则基础目标检测模块的检测损失函数

和息肉目标追踪模块的追踪损失函数

分别为：

；

其中，分类损失使用局部损失函数；回归损失/>使用IOU损失函数；中心度损失使用线性交叉熵损失函数；N_pos是正样本的数量；/>是判断该空间位置（x,y）在真值中是否属于息肉的指示函数；

；

其中，λ为追踪损失函数的权重，取值为1。

6.根据权利要求1-4任一项所述的结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述目标注意力模块包括：

感兴趣区域调整层和缩放点乘注意力子模块；其中，

所述缩放点乘注意力子模块，设有四个输入端和一个输出端，两个输入端分别与所述感兴趣区域调整层的输出端通信连接，其中第一输入端输入一个键值K，第二输入端输入一个维度为d_V的值，第三输入端输入的是从第四输入端输入的下一帧第j层的特征F_t+1,j获取的维度为d_K的查询Q，第二输入端输入的维度为d_V的值与第三输入端输入的维度为d_K的查询Q经过矩阵点乘器进行矩阵点乘后得出下一帧第层的特征F_t+1,j与当前帧级联特征S_t,j之间联系的权重/>，权重/>与第一输入端输入的键值K经矩阵乘法器进行矩阵相乘后得出注意力值/>，得出的注意力值/>与第四输入端输入的下一帧第j层的特征F_t+1,j经级联层进行级联后，再经卷积层进行卷积得出强化特征/>。

7.根据权利要求6所述结直肠内窥镜视频的实时息肉检测系统，其特征在于，所述目标注意力模块中的矩阵点乘器通过以下公式来计算出下一帧第j层的特征F_t+1,j与当前帧级联特征S_t,j之间联系的权重：

；

所述目标注意力模块中的矩阵乘法器通过以下公式将权重用于计算注意力值：

；

所述目标注意力模块按以下公式将得出的注意力值与第四输入端输入的下一帧第/>层的特征F_t+1,j经级联层进行级联后，再经卷积层进行卷积得到下一帧的强化特征：

；

该目标注意力模块的输入和输出拥有同样大小的维度。

8.一种采用权利要求1-7任一项所述结直肠内窥镜视频的实时息肉检测系统的结直肠内窥镜视频的实时息肉检测方法，其特征在于，包括如下步骤：

9.根据权利要求8所述的结直肠内窥镜视频的实时息肉检测方法，其特征在于，所述方法中，若在当前帧中没有检测到任何息肉，则在下一帧只使用基础检测器进行检测；所述目标注意力模块和息肉目标追踪模块不参与下一帧检测。