CN114842394A

CN114842394A - 基于Swin Transformer的手术视频流程自动识别方法

Info

Publication number: CN114842394A
Application number: CN202210534650.9A
Authority: CN
Inventors: 潘晓英; 毕曼蓉; 高炫蓉; 王昊
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-02
Anticipated expiration: 2042-05-17
Also published as: CN114842394B

Abstract

本发明属于计算机视觉领域，特别提供一种基于Swin Transformer的手术视频流程自动识别方法。以克服对于长时间序列视频，现有技术存在的不足以表征手术视频中帧的复杂视觉特征、容易出现过拟合和不能对代表性特征进行有效抓取和利用的问题。本发明包括如下步骤：1)、准备Cholec80数据集；2)、视频数据预处理；3)、针对手术视频建立网络模型STMNet；4)、将生成的模型用于测试集中，得到手术视频流程分类结果；5)、采用基于先验知识的修正算法PCA，对步骤四提出的STMNet网络识别的结果进行修正。

Description

基于Swin Transformer的手术视频流程自动识别方法

技术领域

本发明属于计算机视觉领域，特别提供一种基于Swin Transformer的手术视频流程自动识别方法。

背景技术

计算机辅助干预领域内诸多前沿技术的发展为解决医疗手术室中众多痛点提供了解决方案。以往的研究发现计算机辅助系统有助于提高手术安全性，减少术中不良事件的发生。为了进一步改善病人的治疗效果，医疗手术室需要上下文感知系统来监控、识别手术工作流，从而辅助系统实时优化手术过程，提供上下文感知的决策支持，并及时预警术中的潜在偏差和异常。

目前，单纯基于视觉的工作流识别非常困难。在视频拍摄过程中，常常出现镜头模糊，拍摄光线明暗变化无规律，烟雾和血液不可避免地遮挡视觉，镜头清洗过程中容易引入伪影，以及复杂的手术背景下存在手术流程间差异小，而手术流程内差异大等问题，从而增加了手术感知的难度。目前，大部分工作都选择CNN作为手术流程识别任务的基准网络，但对于长时间序列视频，浅层的CNN不足以表征手术视频中帧的复杂视觉特征，当CNN卷积层较多时，又容易出现过拟合。且在视频背景复杂的情况下，CNN缺乏对一些代表性特征有效的抓取和利用。

发明内容

本发明的目的在于提供一种基于Swin Transformer的手术视频流程自动识别方法，以克服对于长时间序列视频，现有技术存在的不足以表征手术视频中帧的复杂视觉特征、容易出现过拟合和不能对代表性特征进行有效抓取和利用的问题。

为了达到本发明的目的，本发明提供的技术方案是：

基于Swin Transformer的手术视频流程自动识别方法，其特征在于：包括如下步骤：

步骤一、准备Cholec80数据集；

步骤二、视频数据预处理：在Cholec80数据集中的每段视频数据上，以滑动窗口的形式，每次将滑动窗口向后移动一帧，顺序创建每个序列长度；在得到所需的m组序列后，在组间做随机打乱处理；

步骤三、针对手术视频建立网络模型STMNet：将预处理后的视频数据输入到此网络中以端到端的方式训练，将Swin Transformer获得的视觉特征顺序地输入到LSTM网络中，并利用LSTM网络的记忆细胞来维护过去帧的时间信息，充分编码视觉和时间特征的互补信息，共同优化两个模块的网络参数；

步骤四、将生成的模型用于测试集中，得到手术视频流程分类结果；

步骤五、采用基于先验知识的修正算法PCA，对步骤四提出的STMNet网络识别的结果进行修正。

滑动窗口大小为n帧，前一组序列删去第一帧、更新最后一帧得到新的序列，两个连续序列之间有n-1帧重叠。

窗口大小设置为10-30帧。

步骤五具体的方法是：

步骤1、用λ_t∈(0…L，L＝6)表示网络对当前帧x_t的阶段预测，其中L为阶段数，其次设置一个状态收集器(用S表示)用于记录先前帧的所有阶段预测，从而给当前帧x_t提供先验知识；

步骤2、通过S收集的先验知识，推断出当前帧最有可能的先验阶段：为每个收集到的可能阶段设置一个累加器A，以分别计数分类到该阶段帧的数量，且每个可能阶段的累加器A只有当连续的序列帧都被预测到当前阶段时才生效，否则，A将被置0，同时开始该阶段的新一轮计数；

步骤3、当该阶段的计数达到设定的阈值时就可以确定阶段先验，使用获取的阶段先验来校准当前帧的阶段预测；

步骤4、对当前帧的三种处理分别为：(1)当前帧的预测结果与阶段先验一致时，认为预测正确，保持该预测；(2)当前帧的预测结果与下一可能阶段一致时，则判断可能进入到下一阶段；为了确保该先验阶段的准确性，启动累加器，当累加器达到阈值δ时，则确定进入了下一阶段；若未达到阈值，则认为先验阶段仍在当前阶段，并清空累加器；(3)当前帧的预测结果既与先验不一致也不属于的下一可能阶段，则将当前帧的预测直接修正为阶段先验。

与现有技术相比，本发明的有益效果为：

1、本发明引入以注意力机制为核心的Swin Transformer网络作为手术流程识别任务的骨干网络，首先使用迁移学习的方法，在Imagenet大型数据集上对Swintransformer模型进行预训练，再通过微调Fine-tuning的方式提取视觉特征，并且利用长短期记忆(LSTM)网络来进一步学习时间依赖关系。本发明中建立的网络模型STMNet无缝集成了Swin Transformer和LSTM网络，以端到端进行训练，生成视觉和时间信息互补的时空特征，可有效对代表性特征进行有效抓取和利用，最后，利用针对手术视频数据集获得的先验知识，进行结果修正。

2、视频数据预处理时，使数据保持局部有序全局无序的特点，从而解决了手术视频数据直接按顺序送入网络导致的过拟合现象；之后预处理后的数据顺序输入到SwinTransformer和LSTM网络中，以端到端的方式训练，共同优化两个模块的网络参数，因此视觉和时间信息都可以被充分利用，从而协同增强此网络的识别能力，以实现精确的手术流程识别。

3、与自然视频不同的是，大多数手术视频的内容都比较有规律性和条理性，这是因为外科医生须按照规定的工作流程和指令进行手术视频，因此，可通过跟踪工作流来获得有用的先验信息，判断所获手术阶段是否合理，这将极大地帮助修正手术流程内部帧的错误预测。数据在阶段转换期间(每个阶段开始时)，由于关键动作的变化带来了更丰富的时空信息，这时就需要STMNet能够准确地识别手术流程之间的过渡序列。针对常见的手术视频数据集Cholec80数据集，我们提出的修正算法简单而有效，即利用有用的先验信息，提高了预测的一致性。

附图说明

图1数据处理策略；

图2网络架构图；

图3手术流程顺序。

具体实施方式

下面将结合附图和实施例对本发明进行详细地说明。

本发明提供的一种基于Swin Transformer的手术视频流程自动识别方法，包括以下步骤：

步骤一、准备Cholec80数据集，具体为：

Cholec80数据集由13位外科医生做的80个胆囊切除手术视频组成，并且由资深医生进行了手术阶段和手术器械标注，构建了手术阶段识别任务和手术工具检测任务，其中1-40个视频为训练集，40-48为验证集，48-80为测试集。Cholec80数据集的手术阶段标注采用了逐帧标注的方式，手术器械标注采用了逐秒标注，即每25帧标注一张图像。

步骤二、视频数据预处理：

以滑动窗口的形式，每次向后移动一帧，顺序创建每个序列长度，具体来说，若窗口大小为n帧，则前一组序列删去第一帧、更新最后一帧得到新的序列,两个连续序列之间有n-1帧重叠，如图1所示；为了实现更好的结果，并且根据硬件等实际因素限制，通常可以将窗口大小设置为10-30帧以满足要求，本实施例中设置为10帧；在得到所需的m组序列后，在组间做随机打乱处理，最终使数据保持局部序列内有序、全局序列间无序的特点，从而解决了手术视频数据按顺序直接送入网络导致的过拟合现象；

步骤三、针对手术视频建立网络模型：

将预处理后的数据输入到STMNet网络中以端到端的方式训练，如图2所示，在STMNet网络中将Swin Transformer获得的视觉特征顺序地输入到LSTM网络中，并利用LSTM网络的记忆细胞来维护过去帧的时间信息，共同优化两个模块的网络参数，因此视觉和时间信息都可以被充分利用，从而协同增强此网络的识别能力，以实现精确的手术流程识别。

具体地说：使用Swin transformer在Imagenet-22k大型数据集上预训练模型用于Cholec80数据集进行Fine-tuning微调，移除最后一层预测层，换为初始值为0的D×K全连接层，D是patch操作后经线性变换转为D维特征向量，K是目标数据集的类别个数。

在线模式下进行，对Swin transformer的输出采用单向LSTM。具体来说将Swintransformer输出的1024维特征作为输入连接一个单向LSTM网络，也就是在全连接层之前。LSTM网络有512个神经元，10倍步长。因此，Swin transformer网络的输入是由10个连续的关键帧组成的向量单元。LSTM模块完成后，通过全连接层输出预测的关键帧类别，为全连接层设置了7个神经元，以对应7个手术类别。

本发明中提出使用Swin Transformer网络作为STMNet的基准网络。SwinTransformer的多尺度注意力融合的网络结构，充分利用图像在多个尺度上的特征信息，在网络提取深层的语义信息的同时融合浅层语义信息，这有助于正确识别手术流程。

步骤四、将生成的模型用于测试集中，以准备、Calot三角解剖、裁剪、胆囊剥离术、胆囊包装、清洗和凝固、胆囊收缩为手术流程的七个阶段，得到手术视频流程分类结果。

步骤五、在充分理解手术视频自然特性的基础上，总结获得Cholec80数据集上的手术流程顺序作为先验知识，如图3所示，采用基于此先验知识的修正算法PCA，对STMNet网络识别的结果进行修正，进一步改善识别效果。

具体为：

步骤1、用λ_t∈(0…L，L＝6)表示网络对当前帧x_t的阶段预测，其中L为阶段数。其次设置一个状态收集器(用S表示)用于记录先前帧的所有阶段预测，从而给当前帧x_t提供先验知识；

表1与经典网络进行对比实验

将本发明与经典网络进行对比，从表1可以看到：本发明提出的手术流程自动识别方法在Cholec80数据集上准确率可以达到93.5％，优于其他先进方法，进一步验证了本发明的有效性。

本发明未尽事宜为公知技术。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.基于Swin Transformer的手术视频流程自动识别方法，其特征在于：包括如下步骤：

步骤一、准备Cholec80数据集；

2.根据权利要求1所述的基于Swin Transformer的手术视频流程自动识别方法，其特征在于：滑动窗口大小为n帧，前一组序列删去第一帧、更新最后一帧得到新的序列，两个连续序列之间有n-1帧重叠。

3.根据权利要求2所述的基于Swin Transformer的手术视频流程自动识别方法，其特征在于：窗口大小设置为10-30帧。

4.根据权利要求3所述的基于Swin Transformer的手术视频流程自动识别方法，其特征在于：所述步骤五具体的方法是：