CN117789921A

CN117789921A - 基于文本可提示的在线手术视频器械跟踪系统

Info

Publication number: CN117789921A
Application number: CN202410199196.5A
Authority: CN
Inventors: 王轩慧; 董坪鑫; 王赞; 王轩力; 马媛媛; 谢德燕; 凌一茗; 孙文峰; 葛敬光; 罗慧; 王鹏; 刘潇洋; 吴伟
Original assignee: Jiangsu Yueguang Intelligent Technology Group Co ltd; Qingdao Agricultural University
Current assignee: Jiangsu Yueguang Intelligent Technology Group Co ltd; Qingdao Agricultural University
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-03-29
Anticipated expiration: 2044-02-23
Also published as: CN117789921B

Abstract

本发明涉及手术器械跟踪技术领域，具体涉及基于文本可提示的在线手术视频器械跟踪系统包括视觉编码器：用于提取帧级视觉嵌入作为密集线索；文本编码器：用于提取语言嵌入作为稀疏线索；分层跨模态融合模块：用于融合视觉语义信息和稀疏线索，以获得细粒度的密集线索；掩码解码器：用于进行掩码预测实现多模态查询图元输出；显式时序线索传播模块：对掩码解码器历史信息进行编码。本申请以提高手术器械分割模型的实时性、精准性和鲁棒性为目标，通过精确的仪器分割增强手术过程的自动感知，将文本提示和时序线索作为手术器械分割的补充信息，促进了手术机器人与外科医生的实时交互。

Description

基于文本可提示的在线手术视频器械跟踪系统

技术领域

本发明涉及手术器械跟踪技术领域，具体涉及基于文本可提示的在线手术视频器械跟踪系统。

背景技术

内窥镜微创手术与传统的开放式手术相比，具有减轻患者不适感、缩短恢复时间等优点，因此在医学领域受到广泛关注。尽管如此，内窥镜视野和定位有限，操作范围狭窄，术中组织遮挡器械、运动模糊、血液浸染等干扰因素给正常手术流程造成诸多影响。得益于计算机技术的高速发展，基于深度学习算法的手术器械目标检测和分割能够在复杂的手术场景中准确无误地识别并定位手术器械，如公开号为CN113538522 A公开的一种用于腹腔镜微创手术的器械视觉跟踪方法，新技术的出现推动了机器人辅助微创手术的进一步发展。然而实际应用中手术器械检测与分割会受到各种干扰因素影响，使得目前的机器人辅助手术必须在外科医生的直接控制下运行。此外，该领域现有方法并未充分探索如何以在线的方式利用文本提示和连续帧中包含的时序线索，有效提高分割结果的实时交互性和时空一致性。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供了基于文本可提示的在线手术视频器械跟踪系统，本申请立足于解决内窥镜微创手术的临床实际问题，以提高手术器械分割模型的实时性、精准性和鲁棒性为目标，通过精确的仪器分割增强手术过程的自动感知，将文本提示和时序线索作为手术器械分割的补充信息促进了手术机器人与外科医生的实时交互。

本发明为解决其技术问题所采用的技术方案为：基于文本可提示的在线手术视频器械跟踪系统包括：

视觉编码器：用于提取帧级视觉嵌入作为密集线索；

文本编码器：用于提取语言嵌入作为稀疏线索；

分层跨模态融合模块：用于融合视觉语义信息和稀疏线索，以获得细粒度的密集线索；

掩码解码器：用于进行掩码预测实现多模态查询图元输出；

显式时序线索传播模块：对掩码解码器历史信息进行编码。

所述视觉编码器对于视频片段/>中的每一帧/>进行提取，生成特征图集合/>；

通过在每一帧上独立应用视觉编码器为视频片段中T帧获得一组视觉特征图；

其中t∈[1,T]，T为自然数。

给定L个单词的指代表达式，文本编码器将相应的语言嵌入作为稀疏线索，在嵌入时先给定引用表达式E，其中/>，e表示单词，l∈[1,L],L为自然数，随后将L个单词标记为Z，/>，z为被标记的单词，将上述标记导入文本编码器/>中获得最终的嵌入。

文本编码器采用跨模态线性层/>得到最终的稀疏线索，其表达式如下：

式中，∈/>为L个词的C_t维嵌入序列，其中每个单词都由一个C_t维嵌入表示；

通过将上述单词嵌入应用池化操作获得句子级嵌入，即：∈/>。

所述分层跨模态融合模块接收视觉特征图集合以及对齐的稀疏线索中句子嵌入/>；

对于每个视觉特征图，将其与分层跨模态融合模块中对齐的稀疏线索相结合，进行像素级融合；

给定视觉嵌入，将视觉嵌入的每个元素与/>进行逐元素相乘得到融合后的跨模态嵌入，生成最终的密集线索/>。

掩码解码器接收稀疏线索/>和/>与密集线索/>进行掩码预测M的计算，其计算公式为：

。

显式时序线索传播模块从掩码解码器中提取多模态查询标记/>，并将其输入到显式时序线索传播模块/>中得到时间线索/>。

的形状与/>相同，即

。

掩码解码器进行预测生成多模态查询图元输出时，

对于第一帧：从掩码解码器中得到，即

。

对于后续帧：在掩码解码器中输入稀疏线索、/>、密集线索/>及最后一帧的时间线索/>获得预测的掩码M和/>，即

。

与现有技术相比，本发明具有以下有益效果：

1、提出了一种新的在线文本可提示手术器械分割任务的方法，以克服微创手术中与手术器械的多样性和差异化相关的挑战。本申请将文本可提示手术器械分割任务重新定义为在线范式，以在线方式合并来自不同模态和不同时间戳的连续帧多视图信息，从而能够更细致地感知手术器械，并适应新的器械类型。

2、该方法利用轻量级模块和一种有效的微调策略，以端到端的方式对齐和融合语言和视觉特征，旨在为基于在线文本可提示的手术器械分割方法提供简单而强大的基线。

3、本申请设计的分层跨模态融合模块，利用不同层次的视觉特征和文本特征有效地实现了对不同大小的对象进行跨模态分割。通过设计显式时序线索传播模块生成时序线索，历史信息被无缝集成到掩码解码过程中，有效地提高了分割结果的时空一致性。

4、本申请在具有挑战性的EndoVis2018 数据集进行了全面的实验。实验结果表明本申请实现了先进的性能并展示了出色的泛化能力，同时显著提高了训练效率，为机器人辅助手术领域的实际应用提供了巨大的潜力。

附图说明

图1为本发明器械分割与现有器械分割比较示意图；

图2为本发明运行流程图；

图3为本发明分层跨模态融合模块运行示意图；

图4为本发明掩码解码器和显式时序线索传播模块运行示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1-图4，本申请基于预训练的视觉基础模型—分割一切模型（SegmentAnything Mode，SAM) 和视觉语言模型—对比语言图像预训练模型(ContrastiveLanguage-Image Pre-training, CLIP)分别设计图像和文本编码器，从手术图像和文本提示中提取特征。分层跨模态融合模块和明确的时间线索传播模块被专门用于有效地对不同大小的物体进行跨模态分割，并增强了分割结果的时空一致性。

现有的SAM主要由图像编码器、提示编码器和掩码解码器三个组件组成。图像编码器是一个基于ViT的骨干系统，用于提取图像特征。提示编码器负责对两组提示进行编码：稀疏提示（由点和框组成）和密集提示（包括掩码）。这些提示包含交互式位置信息，然后将其提供给掩码解码器以进行进一步处理。掩码解码器由两层转换器组成。它将图像嵌入、输出标记和提示标记作为输入，并生成三个尺度的掩码以及相应的IoU分数作为输出。SAM在分割任务中表现出强大的零样本泛化。然而，SAM在有效利用文本进行分割方面存在局限性，并且由于SA-1B数据集的大规模和大量参数，其训练过程的计算成本很高。

基于此本申请引入了一个新的模型，有效地将SAM适应于在线文本可提示手术视频器械分割任务，提高了SAM的潜在分割能力。

具体地说，基于文本可提示的在线手术视频器械跟踪系统包括：

视觉编码器：用于提取帧级视觉嵌入作为密集线索；本申请中使用SAM 的图像编码器，即ViT主干，作为我们的视觉编码器。

文本编码器：用于提取语言嵌入作为稀疏线索；对于文本编码器，使用了广泛应用的CLIP 模型的轻量级文本分支。

分层跨模态融合模块：用于融合分层视觉语义信息和对齐的稀疏线索，以获得细粒度的密集线索；跨模态线性层包括一个隐藏层，该隐藏层采用整流线性单元激活函数。

掩码解码器：用于利用稀疏线索、密集线索进行最终掩码预测并生成多模态查询图元输出；

显式时序线索传播模块：用于利用输出的多模态查询图元和显式传播时间线索等对掩码解码器历史信息进行编码。显式时序传播模块包括两层前馈神经网络及一个残差连接。

本申请在整个训练阶段，冻结了视觉编码器和文本编码器的参数。掩码解码器的多视图线索(包括稀疏线索、密集线索和时间线索) 的维数为256。

在训练期间，本申请重用视觉编码器和文本编码器的预训练权重，同时仅微调轻量级模块，即分层跨模态融合模块、显式时序线索传播模块和掩码解码器，从而实现参数高效的微调。在推理过程中，我们通过选择得分最高的掩码作为最终结果来直接输出掩码预测。

进一步地说，所述视觉编码器中对于视频片段/>中的每一帧/>, 采用视觉编码器/>提取该帧的特征图集合。

本申请中采用SAM的图像编码器作为视觉编码器，提取视频片段中每一帧的视觉特征图。图像编码器/>是一个MAE（Masked Autoencoder，掩码自动编码器）预训练的ViT骨干。视觉编码器主要由Swin Transformer模型中使用的局部注意力层堆叠而成，以对图像中的短程依赖关系进行建模；此外还有4个Vision Transformer模型中使用的全局注意力层穿插其中，以对图像中的长距离远程依赖关系进行建模。

具体地说，对于视频片段中的每一帧/>，采用视觉编码器/>提取该帧的特征图集合/>，其表示如下：

式中：∈/>，/>∈/>，/>∈/>，/>、/>、/>依次为帧/>经过视觉编码器/>中最后三个全局注意力层时输出的特征图。通过在每一帧上独立应用视觉编码器/>，可以为视频片段中T帧获得一组视觉特征图/>。由于SAM具有较强的零样本分割性能，我们冻结图像编码器/>的参数，在后续训练过程中保留其特征提取的能力。

给定L个单词的指代表达式，利用文本编码器将相应的语言嵌入作为稀疏线索，具体地说，给定引用表达式E，其/>，e表示单词，l∈[1，L]，L为自然数，先将L个单词标记为Z，/>，z与e对应，表示被标记的单词；随后将这些标记导入文本编码器/>中获得最终的嵌入。

文本编码器由自然语言处理领域中常用的全局注意力层堆叠而成，最后一个隐藏状态是通过将经过文本编码器编码过后的序列在文本维度上取最大值获得的。本申请采用的文本编码器是一个预训练模型（例如CLIP），在模型中编码器的最后一个隐藏层之后提取特征向量作为词嵌入。然而，语言嵌入空间和视觉嵌入空间之间存在显著的语义差距。因此，本申请使用了由一个隐藏层组成的跨模态线性层/>以有效地对齐语言嵌入空间和视觉嵌入空间。

通过对上述词嵌入应用池化操作获得句子级嵌入，即：∈/>。

若SAM的原始管道仅利用掩码解码器中视觉编码器的输出，难以有效识别微小物体并利用复杂的文本提示。基于此，本申请设计了分层跨模态融合模块，该模块利用不同级别的视觉特征和文本特征来获取细粒度的跨模态嵌入。具体地说，将视觉特征图集合以及对齐的稀疏线索中句子嵌入/>输入到分层跨模态融合模块中。对于每个特征图，将其与分层跨模态融合模块中对齐的稀疏线索相结合，进行像素级融合。为了增强视觉特征并为掩码解码器提供额外的线索，提出了跨模态融合模块，用于在像素级融合视觉和稀疏线索。

给定视觉嵌入，将视觉嵌入的每个元素与/>进行逐元素相乘得到融合后的跨模态嵌入，此处受到特征金字塔网络的启发，每个跨模态融合模块的输出以类似特征金字塔网络的方式链接起来，生成最终的密集线索/>，并使用1×1卷积层进行必要的维度变换。

除此以外，本申请还使用来表示视频片段中T帧的密集嵌入序列。即，，其中/>∈/>是第t帧的密集线索。

参照图3，输入视觉嵌入和稀疏线索，输出细粒度的密集线索。

vanilla SAM的掩码解码器利用来自提示编码器的稀疏线索（点和框）和来自SAM预测器的密集线索（掩码）获得最终预测。基于这一原则，本申请构建了稀疏线索和密集线索，对来自跨模态线性层和分层跨膜态融合模块的有用视觉和语言特征进行编码。将稀疏线索和/>与密集线索/>一同输入掩码解码器/>中得到掩码预测M，其表达式为：

式中，M为掩码解码器的输出，将最后Mask Decoder使用得分最高的输出M作为最终的掩码预测。

在文本可提示手术视频器械分割任务的上下文中，历史线索的利用起着至关重要的作用。为此，我们设计了一个显式时序线索传播模块将历史信息转移到后续帧中。具体地说，从掩码解码器中提取主要的多模态查询标记/>，并将其输入到/>中得到时间线索/>。/>的形状与/>相同，即

。

由于对当前帧中目标对象的掩码进行编码，因此生成的时间线索/>可以为目标对象在后续帧中的位置提供有价值的指导，即/>显著发挥着作为时间线索传播的作用。

由此对于第一帧从掩码解码器中得到，即

。

对于后续帧，我们将稀疏线索、/>、密集线索/>与最后一帧的时间线索/>输入到掩码解码器中获得预测的掩码M和/>，即

。

参照图4，输入前一帧的稀疏线索、密集线索和时间线索，输出掩码预测及更新的时间线索。

实施例2

在实施例1的基础上，本申请引入了在线文本可提示手术视频仪器分割分法，在EndoVis2018 数据集上广泛的实验展示了该方法先进的性能。此外，我们通过在EndoVis2018数据集上的交叉验证来评估我们模型的泛化能力，验证结果展示了模型优良的分割效果和显著的应用潜力。

在训练时默认两种图像大小，896×896和448×448。我们采用学习率为1e4的Adam优化器训练50个epoch，在第35个epoch时将学习率降低到1e5。为了增强模型的泛化能力，我们对图像应用了数据增强技术，包括随机裁剪、水平翻转、随机旋转和亮度扰动等。该模型在4个V100 gpu上进行训练，批处理大小为16。在评估过程中，我们将分割预测恢复到原始图像的大小。我们采用阈值T = 0.35对掩码进行变换。

进一步地说，数据集包括15个视频序列，其中有11个为训练序列，剩余4个为测试序列。以及7个预定义的仪器类别(双极镊子、前抓镊子、大针头驱动器、单极弯剪、超声探头、抽吸器、夹子夹持器）。该数据集提供了二进制和部分分割标签。二值分割包括背景组织和仪器，而部件分割将仪器组件区分为轴、腕和分类器。

对于N帧图像组成的视频片段，第i帧图像对应的模型预测掩码为P，真实标签掩码为G。本申请使用了三种流行的评估指标: Ch_IoU、ISI_IoU及mc_IoU。其计算公式如下：

其中，Ch_IoU用于计算图像中存在的每个类别的平均IoU，随后在所有图像中取平均值。C^p代表只考虑那些帧中出现的类别。

ISI_IoU用于通过计算所有预测类别的平均IoU 来扩展Ch_IoU，而不管它们是否存在于图像的真实标签中，我们将这种情况下的类别记为C^u。一般来说，Ch_IoU大于或等于ISI_IoU。

mc_IoU是通过改变ISI_IoU的平均顺序来解决类别不平衡的度量。

本申请对双极镊子、前抓镊子、大针头驱动器、抽吸器、夹子夹持器、单极弯剪、超声探头这些手术器械与EndoVis2018数据集上的一系列先进方法进行识别跟踪对比，其识别精度及对应的评估指标数值对比如下表所示：

由上表可知，基于本申请的三个评估指标相对与其他模型均较高，尤其是Ch_IoU和 ISI_IoU 之间的差异较小，表明其错误分类类别较少。本申请产生了明显优越的结果，验证了我们专门为手术器械跟踪或分割量身定制系统的有效性。

本申请可以实现跟踪每时每刻或每帧图像中都在使用哪些手术器械。比如图像中有左右各一个不同的器械，如果文本提示给的是“instrument”，那么两个都会分割出来。如果给的文本提示是其中某一个类别的名，那就只分割对应的那一个。本申请可以通过文本提示去控制分割或是跟踪指定手术器械。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于文本可提示的在线手术视频器械跟踪系统，其特征在于，包括

视觉编码器：用于提取帧级视觉嵌入作为密集线索；

文本编码器：用于提取语言嵌入作为稀疏线索；

掩码解码器：用于进行掩码预测实现多模态查询图元输出；

显式时序线索传播模块：对掩码解码器历史信息进行编码。

2.根据权利要求1所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，所述视觉编码器对于视频片段/>中的每一帧/>进行提取，生成特征图集合/>；

其中t∈[1,T]，T为自然数。

3.根据权利要求1所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，给定L个单词的指代表达式，文本编码器将相应的语言嵌入作为稀疏线索，在嵌入时先给定引用表达式E，随后将L个单词标记为Z，将上述标记导入文本编码器/>中获得最终的嵌入。

4.根据权利要求3所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，文本编码器采用跨模态线性层/>得到最终的稀疏线索，其表达式如下：

5.根据权利要求4所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，所述分层跨模态融合模块接收视觉特征图集合以及对齐的稀疏线索中句子嵌入/>；

6.根据权利要求5所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，掩码解码器接收稀疏线索/>和/>与密集线索/>进行掩码预测M的计算，其计算公式为：

。

7.根据权利要求6所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，显式时序线索传播模块从掩码解码器中提取多模态查询标记/>，并将其输入到显式时序线索传播模块/>中得到时间线索/>。

8.根据权利要求7所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，的形状与/>相同，即

。

9.根据权利要求8所述的基于文本可提示的在线手术视频器械跟踪系统，其特征在于，掩码解码器进行预测生成多模态查询图元输出时，

对于第一帧：从掩码解码器中得到，即

；

。