CN114359782B

CN114359782B - 基于多任务学习的手术工具和手术阶段识别方法

Info

Publication number: CN114359782B
Application number: CN202111466043.5A
Authority: CN
Inventors: 吴秋遐; 韦喆艺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2024-05-31
Anticipated expiration: 2041-12-03
Also published as: CN114359782A

Abstract

本发明公开了一种基于多任务学习的手术工具和手术阶段识别方法，包括：1)收集微创外科手术视频并处理得到图片序列数据集；2)利用Backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取，得到的初始特征图作为后续特征增强模块的输入；3)使用特征增强模块对初始特征图进行特征融合；4)利用双头分类器分别得到手术工具和手术阶段的识别结果，双头分类器其中一个分支使用Sigmoid激活函数计算得到手术工具的预测结果，另外一个分支使用SoftMax函数计算得到手术阶段的预测结果。本发明通过共享手术工具和手术阶段的特征信息实现互补，充分捕获手术工具和手术阶段之间的关联信息，同时对这些特征信息进行多尺度融合，增强深层语义特征的几何表达。

Description

基于多任务学习的手术工具和手术阶段识别方法

技术领域

本发明涉及微创外科手术图像处理的技术领域，尤其是指一种基于多任务学习的手术工具和手术阶段识别方法。

背景技术

早期通过在手术工具上固定传感器或从手术机器人获取数据，来识别当前时刻外科医生使用的手术工具类型和正在进行的手术阶段。但是收集这些信号通常需要在手术工具或外科医生的手上安装额外的设备，这可能会干扰手术的正常操作。另一类方法是使用来自视频或图像序列的视觉特征进行自动化识别。研究人员使用手动提取特征的方法局限于他们个人的领域知识，难以泛化地描述复杂的手术视频变化情况。而基于深度学习的方法可以从手术视频中自动捕获高级语义特征，识别准确率比人工特征法更高。

然而，仅依靠视觉信息来利用深度学习的方法去进行手术工具和手术阶段的识别仍然具有挑战性。首先，各个类别的工具的外观可能非常相似。其次，相机的快速移动或燃烧组织时产生的烟雾会导致图像模糊。第三，摄像机在操作过程中可能不会始终聚焦在操作区域，从而在视频录制过程中引入额外的噪音。

由于各种工具的使用通常与特定的手术阶段有密切的联系，因此手术工具的识别任务作为辅助任务来帮助手术阶段的识别的方法被提出。利用手术视频中手术工具和手术阶段之间的相关性对于提高手术阶段识别被证明是有效的。

但是，此外，通过在多任务特征提取网络中嵌入双向特征金字塔可以增强对精细手术视频视觉特征的表示能力。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于多任务学习的手术工具和手术阶段识别方法，能够实现自动化识别任务，无需额外人工制作特征，又能实现多任务高效训练，而且还大幅提升了腹腔镜手术工具和手术阶段识别的准确度。

为实现上述目的，本发明所提供的技术方案为：基于多任务学习的手术工具和手术阶段识别方法，包括以下步骤：

1)收集微创外科手术视频，每个视频一场记录外科医生进行腹腔微创外科手术的全过程，然后将微创外科手术视频按帧切割成图片，得到图片序列数据集；

2)利用Backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取，共享手术工具和手术阶段的信息，得到的初始特征图作为后续特征增强模块的输入，其中，初始特征图为多尺度特征图；

3)使用特征增强模块对初始特征图进行特征融合，将浅层特征的边缘信息和深层特征的语义信息互相补充；

4)利用双头分类器分别得到手术工具和手术阶段的识别结果，双头分类器其中一个分支为手术工具识别分支，用于将手术工具识别任务建模为多标签分类任务，使用Sigmoid激活函数计算得到手术工具的预测结果，同时使用BCE损失函数计算该分支的损失值，另外一个分支为手术阶段识别分支，用于将手术阶段识别任务建模为多类别分类任务，使用SoftMax函数计算得到手术阶段的预测结果，同时使用CE损失函数计算该分支的损失值。

进一步，在步骤1)中，在得到图片序列数据集之前要进行数据预处理，包括：对原始视频的帧率进行下采样，并在输入网络之前通过随机裁剪、中心反转、洗乱顺序的方式对样本进行数据增强。

进一步，在步骤2)中，Backbone网络由EfficientNet-b0的前5层组成，负责为特征增强模块提供128*128、64*64、32*32、16*16、8*8这5种尺寸的特征图作为后续特征增强模块的输入；其中C₃、C₄、C₅用于表示来自EfficientNet-b0第3、4、5层的特征图，特征图C₆和C₇分别通过从C₅和C₆进行下采样获得，特征图C₃至C₇的下标统一用n＝3,4,5,6,7表示。

进一步，在步骤3)中，特征增强模块由双向特征金字塔构成，用于实现多尺度特征融合功能；双向特征金字塔对Backbone网络输入的多尺度特征图统一进行上采样和下采样，使得高层的特征图能够以相同的尺寸与底层特征图相加，达到信息融合的目的，其融合过程如下公式(1)和(2)：

式中，是第n级的输入特征，/>是自顶向下路径中第n级的中间特征，/>是自顶向下路径中第n+1级的中间特征，/>是自下而上路径中第n层的输出特征，/>是自下而上路径中第n-1层的输出特征；ω₁、ω₂、ω’₁、ω’₂、ω’₃是可学习的权重，每个权重的取值范围均在0到1之间；ε是一个自定义参数，用于避免数值不稳定。

进一步，在步骤4)中，双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成；特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活，得到统一尺寸的融合特征图；随后融合特征图被送入平均池化层中下采样；手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC，最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。

进一步，全连接层分支Tool_FC包括一个全连接层，用于将手术工具的特征图展平为一维的特征序列，随后使用Sigmoid函数计算出手术工具的识别结果；全连接层分支Phase_FC包括一个全连接层，用于将手术阶段的特征图展平为一维的特征序列，随后使用SoftMax函数计算出手术阶段的识别结果。

进一步，在步骤4)中，手术工具识别分支的BCE损失函数如下公式(3)：

式中，是第t帧中手术工具的真实标签，g∈G是手术工具的类别名称；当第g类手术工具出现在第t帧中时，/>等于1；/>表示在第t帧中出现的第g类工具的预测值；L_G表示手术工具识别任务的损失值；

手术阶段识别分支的CE损失函数如下公式(4)：

式中，表示第t帧样本属于手术阶段类别j的预测概率，j∈J是手术阶段的类别名称；/>表示第t帧样本属于手术阶段类别j的真实标签；L_J表示手术阶段识别任务的损失值；

总体损失函数L_total如下公式(5)：

L_total＝L_G+λ₁L_J (5)

式中，λ₁是用于平衡损失的超参数，用于确定L_J的贡献。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明使用EfficientNet作为骨干网络同时进行手术工具和手术阶段的初始特征提取，与传统的骨干网络相比精度更高且训练速度更快。

2、本发明使用双向特征金字塔作为特征增强模块为初始特征添加细粒度信息。通过跨层级的信息交互，本发明的特征增强模块可以提升相似样本之间的区分度。

3、本发明设计了一个双头分类器，可以同时对手术工具和手术阶段的类别进行准确预测，具有良好的实用价值和广阔的应用前景。

4、本发明方法在医学图像分类任务中具有广泛的使用空间，操作简单、泛化能力强，对于不同类型的手术视频都能有较好的识别效果。

附图说明

图1为本发明方法的逻辑流程示意图。

图2为本发明方法的架构图。

图3为本发明的网络结构示意图。

图4为本发明的特征增强模块示意图。

图5为本发明的双头分类器示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本实施例所提供的基于多任务学习的手术工具和手术阶段识别方法，包括以下步骤：

1)对原始手术视频数据进行预处理，首先使用ffmpeg将原视频按帧切割成图片序列形式，构建手术工具和手术阶段数据集。随后生成索引文件，将图片地址、图片帧数、当前帧的手术工具标签、当前帧的手术阶段标签生成相应的文本文件，用于指导后续训练。然后将数据集划分为训练集、验证集和测试集。在输入网络之前将原始尺寸1920×1080调整为256×256，通过随机裁剪、中心反转、洗乱顺序对样本进行数据增强。

2)处理好的数据集被送入Backbone网络中进行特征提取。如图3所示，Backbone网络由EfficientNet-b0的前5层组成，负责为特征增强模块提供5种尺寸128*128、64*64、32*32、16*16、8*8的特征图作为后续特征增强模块的输入。其中C₃、C₄、C₅用于表示来自EfficientNet-b0第3、4、5层的特征图。C₆和C₇分别通过从C₅和C₆进行下采样获得。特征图C₃至C₇的下标统一用n＝3,4,5,6,7表示。

3)对于Backbone网络输出的多尺度特征图，特征增强模块会对其进行跨尺度融合，以增强特征区分度的表达。如图4所示，特征增强模块由双向特征金字塔构成，分别按自上而下和自下而上两种方向进行特征融合。为了使高层特征图与底层特征图在做融合操作时尺寸一致，双向特征金字塔对这些多尺度特征图统一进行上采样和下采样，其融合过程为公式(1)和(2)：

式中，是第n级的输入特征，/>是自顶向下路径中第n级的中间特征，/>是自顶向下路径中第n+1级的中间特征，/>是自下而上路径中第n层的输出特征，/>是自下而上路径中第n-1层的输出特征；ω₁、ω₂、ω’₁、ω’₂、ω’₃是可学习的权重，每个权重的取值范围均在0到1之间；ε是一个自定义参数，用于避免数值不稳定，通常设置ε＝0.0001。

4)特征增强完毕后，会送入双头分类进行手术工具和手术阶段的类别预测。如图5所示，双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成。特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活，得到统一尺寸为1*1364的融合特征图；随后融合特征图被送入平均池化层中下采样；手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC，最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。全连接层分支Tool_FC包括一个全连接层，用于将手术工具的特征图展平为一维的特征序列，随后使用Sigmoid函数计算出手术工具的识别结果；全连接层分支Phase_FC也包括全连接层，用以将手术阶段的特征图展平为一维的特征序列，随后使用SoftMax函数计算出手术阶段的识别结果。

手术工具识别分支的BCE损失函数如下公式(3)：

式中，是第t帧中手术工具的真实标签，g∈G是手术工具的类别名称。当第g类手术工具出现在第t帧中时，/>等于1。/>表示在第t帧中出现的第g类工具的预测值。L_G表示手术工具识别任务的损失值。

手术阶段识别分支的CE损失函数如下公式(4)：

式中，表示第t帧样本属于手术阶段类别j的预测概率，j∈J是手术阶段的类别名称；/>表示第t帧样本属于手术阶段类别j的真实标签。L_J表示手术阶段识别任务的损失值。

总体损失函数L_total如下公式(5)：

L_total＝L_G+λ₁L_J (5)

式中，λ₁是用于平衡损失的超参数，用于确定L_J的贡献。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于多任务学习的手术工具和手术阶段识别方法，其特征在于，包括以下步骤：

Backbone网络由EfficientNet-b0的前5层组成，负责为特征增强模块提供128*128、64*64、32*32、16*16、8*8这5种尺寸的特征图作为后续特征增强模块的输入；其中C₃、C₄、C₅用于表示来自EfficientNet-b0第3、4、5层的特征图，特征图C₆和C₇分别通过从C₅和C₆进行下采样获得，特征图C₃至C₇的下标统一用n＝3,4,5,6,7表示；

特征增强模块由双向特征金字塔构成，用于实现多尺度特征融合功能；双向特征金字塔对Backbone网络输入的多尺度特征图统一进行上采样和下采样，使得高层的特征图能够以相同的尺寸与底层特征图相加，达到信息融合的目的，其融合过程如下公式(1)和(2)：

式中，是第n级的输入特征，/>是自顶向下路径中第n级的中间特征，/>是自顶向下路径中第n+1级的中间特征，/>是自下而上路径中第n层的输出特征，/>是自下而上路径中第n-1层的输出特征；ω₁、ω₂、ω′₁、ω′₂、ω′₃是可学习的权重，每个权重的取值范围均在0到1之间；ε是一个自定义参数，用于避免数值不稳定；

4)利用双头分类器分别得到手术工具和手术阶段的识别结果，双头分类器其中一个分支为手术工具识别分支，用于将手术工具识别任务建模为多标签分类任务，使用Sigmoid激活函数计算得到手术工具的预测结果，同时使用BCE损失函数计算该分支的损失值，另外一个分支为手术阶段识别分支，用于将手术阶段识别任务建模为多类别分类任务，使用SoftMax函数计算得到手术阶段的预测结果，同时使用CE损失函数计算该分支的损失值；

手术工具识别分支的BCE损失函数如下公式(3)：

手术阶段识别分支的CE损失函数如下公式(4)：

式中，表示第t帧样本属于手术阶段类别j的预测概率，j∈J是手术阶段的类别名称；表示第t帧样本属于手术阶段类别j的真实标签；L_J表示手术阶段识别任务的损失值；

总体损失函数L_total如下公式(5)：

L_total＝L_G+λ₁L_J (5)

式中，λ₁是用于平衡损失的超参数，用于确定L_J的贡献。

2.根据权利要求1所述的基于多任务学习的手术工具和手术阶段识别方法，其特征在于，在步骤1)中，在得到图片序列数据集之前要进行数据预处理，包括：对原始视频的帧率进行下采样，并在输入网络之前通过随机裁剪、中心反转、洗乱顺序的方式对样本进行数据增强。

3.根据权利要求1所述的基于多任务学习的手术工具和手术阶段识别方法，其特征在于：在步骤4)中，双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成；特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活，得到统一尺寸的融合特征图；随后融合特征图被送入平均池化层中下采样；手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC，最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。

4.根据权利要求3所述的基于多任务学习的手术工具和手术阶段识别方法，其特征在于：全连接层分支Tool_FC包括一个全连接层，用于将手术工具的特征图展平为一维的特征序列，随后使用Sigmoid函数计算出手术工具的识别结果；全连接层分支Phase_FC包括一个全连接层，用于将手术阶段的特征图展平为一维的特征序列，随后使用SoftMax函数计算出手术阶段的识别结果。