CN114359782B - 基于多任务学习的手术工具和手术阶段识别方法 - Google Patents

基于多任务学习的手术工具和手术阶段识别方法 Download PDF

Info

Publication number
CN114359782B
CN114359782B CN202111466043.5A CN202111466043A CN114359782B CN 114359782 B CN114359782 B CN 114359782B CN 202111466043 A CN202111466043 A CN 202111466043A CN 114359782 B CN114359782 B CN 114359782B
Authority
CN
China
Prior art keywords
surgical
feature
stage
surgical tool
tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111466043.5A
Other languages
English (en)
Other versions
CN114359782A (zh
Inventor
吴秋遐
韦喆艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111466043.5A priority Critical patent/CN114359782B/zh
Publication of CN114359782A publication Critical patent/CN114359782A/zh
Application granted granted Critical
Publication of CN114359782B publication Critical patent/CN114359782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多任务学习的手术工具和手术阶段识别方法,包括:1)收集微创外科手术视频并处理得到图片序列数据集;2)利用Backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取,得到的初始特征图作为后续特征增强模块的输入;3)使用特征增强模块对初始特征图进行特征融合;4)利用双头分类器分别得到手术工具和手术阶段的识别结果,双头分类器其中一个分支使用Sigmoid激活函数计算得到手术工具的预测结果,另外一个分支使用SoftMax函数计算得到手术阶段的预测结果。本发明通过共享手术工具和手术阶段的特征信息实现互补,充分捕获手术工具和手术阶段之间的关联信息,同时对这些特征信息进行多尺度融合,增强深层语义特征的几何表达。

Description

基于多任务学习的手术工具和手术阶段识别方法
技术领域
本发明涉及微创外科手术图像处理的技术领域,尤其是指一种基于多任务学习的手术工具和手术阶段识别方法。
背景技术
早期通过在手术工具上固定传感器或从手术机器人获取数据,来识别当前时刻外科医生使用的手术工具类型和正在进行的手术阶段。但是收集这些信号通常需要在手术工具或外科医生的手上安装额外的设备,这可能会干扰手术的正常操作。另一类方法是使用来自视频或图像序列的视觉特征进行自动化识别。研究人员使用手动提取特征的方法局限于他们个人的领域知识,难以泛化地描述复杂的手术视频变化情况。而基于深度学习的方法可以从手术视频中自动捕获高级语义特征,识别准确率比人工特征法更高。
然而,仅依靠视觉信息来利用深度学习的方法去进行手术工具和手术阶段的识别仍然具有挑战性。首先,各个类别的工具的外观可能非常相似。其次,相机的快速移动或燃烧组织时产生的烟雾会导致图像模糊。第三,摄像机在操作过程中可能不会始终聚焦在操作区域,从而在视频录制过程中引入额外的噪音。
由于各种工具的使用通常与特定的手术阶段有密切的联系,因此手术工具的识别任务作为辅助任务来帮助手术阶段的识别的方法被提出。利用手术视频中手术工具和手术阶段之间的相关性对于提高手术阶段识别被证明是有效的。
但是,此外,通过在多任务特征提取网络中嵌入双向特征金字塔可以增强对精细手术视频视觉特征的表示能力。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多任务学习的手术工具和手术阶段识别方法,能够实现自动化识别任务,无需额外人工制作特征,又能实现多任务高效训练,而且还大幅提升了腹腔镜手术工具和手术阶段识别的准确度。
为实现上述目的,本发明所提供的技术方案为:基于多任务学习的手术工具和手术阶段识别方法,包括以下步骤:
1)收集微创外科手术视频,每个视频一场记录外科医生进行腹腔微创外科手术的全过程,然后将微创外科手术视频按帧切割成图片,得到图片序列数据集;
2)利用Backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取,共享手术工具和手术阶段的信息,得到的初始特征图作为后续特征增强模块的输入,其中,初始特征图为多尺度特征图;
3)使用特征增强模块对初始特征图进行特征融合,将浅层特征的边缘信息和深层特征的语义信息互相补充;
4)利用双头分类器分别得到手术工具和手术阶段的识别结果,双头分类器其中一个分支为手术工具识别分支,用于将手术工具识别任务建模为多标签分类任务,使用Sigmoid激活函数计算得到手术工具的预测结果,同时使用BCE损失函数计算该分支的损失值,另外一个分支为手术阶段识别分支,用于将手术阶段识别任务建模为多类别分类任务,使用SoftMax函数计算得到手术阶段的预测结果,同时使用CE损失函数计算该分支的损失值。
进一步,在步骤1)中,在得到图片序列数据集之前要进行数据预处理,包括:对原始视频的帧率进行下采样,并在输入网络之前通过随机裁剪、中心反转、洗乱顺序的方式对样本进行数据增强。
进一步,在步骤2)中,Backbone网络由EfficientNet-b0的前5层组成,负责为特征增强模块提供128*128、64*64、32*32、16*16、8*8这5种尺寸的特征图作为后续特征增强模块的输入;其中C3、C4、C5用于表示来自EfficientNet-b0第3、4、5层的特征图,特征图C6和C7分别通过从C5和C6进行下采样获得,特征图C3至C7的下标统一用n=3,4,5,6,7表示。
进一步,在步骤3)中,特征增强模块由双向特征金字塔构成,用于实现多尺度特征融合功能;双向特征金字塔对Backbone网络输入的多尺度特征图统一进行上采样和下采样,使得高层的特征图能够以相同的尺寸与底层特征图相加,达到信息融合的目的,其融合过程如下公式(1)和(2):
式中,是第n级的输入特征,/>是自顶向下路径中第n级的中间特征,/>是自顶向下路径中第n+1级的中间特征,/>是自下而上路径中第n层的输出特征,/>是自下而上路径中第n-1层的输出特征;ω1、ω2、ω’1、ω’2、ω’3是可学习的权重,每个权重的取值范围均在0到1之间;ε是一个自定义参数,用于避免数值不稳定。
进一步,在步骤4)中,双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成;特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活,得到统一尺寸的融合特征图;随后融合特征图被送入平均池化层中下采样;手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC,最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。
进一步,全连接层分支Tool_FC包括一个全连接层,用于将手术工具的特征图展平为一维的特征序列,随后使用Sigmoid函数计算出手术工具的识别结果;全连接层分支Phase_FC包括一个全连接层,用于将手术阶段的特征图展平为一维的特征序列,随后使用SoftMax函数计算出手术阶段的识别结果。
进一步,在步骤4)中,手术工具识别分支的BCE损失函数如下公式(3):
式中,是第t帧中手术工具的真实标签,g∈G是手术工具的类别名称;当第g类手术工具出现在第t帧中时,/>等于1;/>表示在第t帧中出现的第g类工具的预测值;LG表示手术工具识别任务的损失值;
手术阶段识别分支的CE损失函数如下公式(4):
式中,表示第t帧样本属于手术阶段类别j的预测概率,j∈J是手术阶段的类别名称;/>表示第t帧样本属于手术阶段类别j的真实标签;LJ表示手术阶段识别任务的损失值;
总体损失函数Ltotal如下公式(5):
Ltotal=LG1LJ (5)
式中,λ1是用于平衡损失的超参数,用于确定LJ的贡献。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明使用EfficientNet作为骨干网络同时进行手术工具和手术阶段的初始特征提取,与传统的骨干网络相比精度更高且训练速度更快。
2、本发明使用双向特征金字塔作为特征增强模块为初始特征添加细粒度信息。通过跨层级的信息交互,本发明的特征增强模块可以提升相似样本之间的区分度。
3、本发明设计了一个双头分类器,可以同时对手术工具和手术阶段的类别进行准确预测,具有良好的实用价值和广阔的应用前景。
4、本发明方法在医学图像分类任务中具有广泛的使用空间,操作简单、泛化能力强,对于不同类型的手术视频都能有较好的识别效果。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为本发明方法的架构图。
图3为本发明的网络结构示意图。
图4为本发明的特征增强模块示意图。
图5为本发明的双头分类器示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1和图2所示,本实施例所提供的基于多任务学习的手术工具和手术阶段识别方法,包括以下步骤:
1)对原始手术视频数据进行预处理,首先使用ffmpeg将原视频按帧切割成图片序列形式,构建手术工具和手术阶段数据集。随后生成索引文件,将图片地址、图片帧数、当前帧的手术工具标签、当前帧的手术阶段标签生成相应的文本文件,用于指导后续训练。然后将数据集划分为训练集、验证集和测试集。在输入网络之前将原始尺寸1920×1080调整为256×256,通过随机裁剪、中心反转、洗乱顺序对样本进行数据增强。
2)处理好的数据集被送入Backbone网络中进行特征提取。如图3所示,Backbone网络由EfficientNet-b0的前5层组成,负责为特征增强模块提供5种尺寸128*128、64*64、32*32、16*16、8*8的特征图作为后续特征增强模块的输入。其中C3、C4、C5用于表示来自EfficientNet-b0第3、4、5层的特征图。C6和C7分别通过从C5和C6进行下采样获得。特征图C3至C7的下标统一用n=3,4,5,6,7表示。
3)对于Backbone网络输出的多尺度特征图,特征增强模块会对其进行跨尺度融合,以增强特征区分度的表达。如图4所示,特征增强模块由双向特征金字塔构成,分别按自上而下和自下而上两种方向进行特征融合。为了使高层特征图与底层特征图在做融合操作时尺寸一致,双向特征金字塔对这些多尺度特征图统一进行上采样和下采样,其融合过程为公式(1)和(2):
式中,是第n级的输入特征,/>是自顶向下路径中第n级的中间特征,/>是自顶向下路径中第n+1级的中间特征,/>是自下而上路径中第n层的输出特征,/>是自下而上路径中第n-1层的输出特征;ω1、ω2、ω’1、ω’2、ω’3是可学习的权重,每个权重的取值范围均在0到1之间;ε是一个自定义参数,用于避免数值不稳定,通常设置ε=0.0001。
4)特征增强完毕后,会送入双头分类进行手术工具和手术阶段的类别预测。如图5所示,双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成。特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活,得到统一尺寸为1*1364的融合特征图;随后融合特征图被送入平均池化层中下采样;手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC,最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。全连接层分支Tool_FC包括一个全连接层,用于将手术工具的特征图展平为一维的特征序列,随后使用Sigmoid函数计算出手术工具的识别结果;全连接层分支Phase_FC也包括全连接层,用以将手术阶段的特征图展平为一维的特征序列,随后使用SoftMax函数计算出手术阶段的识别结果。
手术工具识别分支的BCE损失函数如下公式(3):
式中,是第t帧中手术工具的真实标签,g∈G是手术工具的类别名称。当第g类手术工具出现在第t帧中时,/>等于1。/>表示在第t帧中出现的第g类工具的预测值。LG表示手术工具识别任务的损失值。
手术阶段识别分支的CE损失函数如下公式(4):
式中,表示第t帧样本属于手术阶段类别j的预测概率,j∈J是手术阶段的类别名称;/>表示第t帧样本属于手术阶段类别j的真实标签。LJ表示手术阶段识别任务的损失值。
总体损失函数Ltotal如下公式(5):
Ltotal=LG1LJ (5)
式中,λ1是用于平衡损失的超参数,用于确定LJ的贡献。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.基于多任务学习的手术工具和手术阶段识别方法,其特征在于,包括以下步骤:
1)收集微创外科手术视频,每个视频一场记录外科医生进行腹腔微创外科手术的全过程,然后将微创外科手术视频按帧切割成图片,得到图片序列数据集;
2)利用Backbone网络共享中间层对图片序列数据集中的手术工具和手术阶段进行初步特征提取,共享手术工具和手术阶段的信息,得到的初始特征图作为后续特征增强模块的输入,其中,初始特征图为多尺度特征图;
Backbone网络由EfficientNet-b0的前5层组成,负责为特征增强模块提供128*128、64*64、32*32、16*16、8*8这5种尺寸的特征图作为后续特征增强模块的输入;其中C3、C4、C5用于表示来自EfficientNet-b0第3、4、5层的特征图,特征图C6和C7分别通过从C5和C6进行下采样获得,特征图C3至C7的下标统一用n=3,4,5,6,7表示;
3)使用特征增强模块对初始特征图进行特征融合,将浅层特征的边缘信息和深层特征的语义信息互相补充;
特征增强模块由双向特征金字塔构成,用于实现多尺度特征融合功能;双向特征金字塔对Backbone网络输入的多尺度特征图统一进行上采样和下采样,使得高层的特征图能够以相同的尺寸与底层特征图相加,达到信息融合的目的,其融合过程如下公式(1)和(2):
式中,是第n级的输入特征,/>是自顶向下路径中第n级的中间特征,/>是自顶向下路径中第n+1级的中间特征,/>是自下而上路径中第n层的输出特征,/>是自下而上路径中第n-1层的输出特征;ω1、ω2、ω′1、ω′2、ω′3是可学习的权重,每个权重的取值范围均在0到1之间;ε是一个自定义参数,用于避免数值不稳定;
4)利用双头分类器分别得到手术工具和手术阶段的识别结果,双头分类器其中一个分支为手术工具识别分支,用于将手术工具识别任务建模为多标签分类任务,使用Sigmoid激活函数计算得到手术工具的预测结果,同时使用BCE损失函数计算该分支的损失值,另外一个分支为手术阶段识别分支,用于将手术阶段识别任务建模为多类别分类任务,使用SoftMax函数计算得到手术阶段的预测结果,同时使用CE损失函数计算该分支的损失值;
手术工具识别分支的BCE损失函数如下公式(3):
式中,是第t帧中手术工具的真实标签,g∈G是手术工具的类别名称;当第g类手术工具出现在第t帧中时,/>等于1;/>表示在第t帧中出现的第g类工具的预测值;LG表示手术工具识别任务的损失值;
手术阶段识别分支的CE损失函数如下公式(4):
式中,表示第t帧样本属于手术阶段类别j的预测概率,j∈J是手术阶段的类别名称;表示第t帧样本属于手术阶段类别j的真实标签;LJ表示手术阶段识别任务的损失值;
总体损失函数Ltotal如下公式(5):
Ltotal=LG1LJ (5)
式中,λ1是用于平衡损失的超参数,用于确定LJ的贡献。
2.根据权利要求1所述的基于多任务学习的手术工具和手术阶段识别方法,其特征在于,在步骤1)中,在得到图片序列数据集之前要进行数据预处理,包括:对原始视频的帧率进行下采样,并在输入网络之前通过随机裁剪、中心反转、洗乱顺序的方式对样本进行数据增强。
3.根据权利要求1所述的基于多任务学习的手术工具和手术阶段识别方法,其特征在于:在步骤4)中,双头分类器由一个融合模块、一个平均池化层、手术工具识别分支和手术阶段识别分支组成;特征增强模块输出的多尺度增强特征输入融合模块中经过深度可分离卷积、BN层和swish激活,得到统一尺寸的融合特征图;随后融合特征图被送入平均池化层中下采样;手术工具识别分支和手术阶段识别分支分别为全连接层分支Tool_FC和Phase_FC,最后两个全连接层分支Tool_FC和Phase_FC分别用Sigmoid函数和SoftMax函数计算得出手术工具和手术阶段的预测结果。
4.根据权利要求3所述的基于多任务学习的手术工具和手术阶段识别方法,其特征在于:全连接层分支Tool_FC包括一个全连接层,用于将手术工具的特征图展平为一维的特征序列,随后使用Sigmoid函数计算出手术工具的识别结果;全连接层分支Phase_FC包括一个全连接层,用于将手术阶段的特征图展平为一维的特征序列,随后使用SoftMax函数计算出手术阶段的识别结果。
CN202111466043.5A 2021-12-03 2021-12-03 基于多任务学习的手术工具和手术阶段识别方法 Active CN114359782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111466043.5A CN114359782B (zh) 2021-12-03 2021-12-03 基于多任务学习的手术工具和手术阶段识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111466043.5A CN114359782B (zh) 2021-12-03 2021-12-03 基于多任务学习的手术工具和手术阶段识别方法

Publications (2)

Publication Number Publication Date
CN114359782A CN114359782A (zh) 2022-04-15
CN114359782B true CN114359782B (zh) 2024-05-31

Family

ID=81097555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111466043.5A Active CN114359782B (zh) 2021-12-03 2021-12-03 基于多任务学习的手术工具和手术阶段识别方法

Country Status (1)

Country Link
CN (1) CN114359782B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765835A (zh) * 2019-08-19 2020-02-07 中科院成都信息技术股份有限公司 一种基于边缘信息的手术视频流程识别方法
CN113627281A (zh) * 2021-07-23 2021-11-09 中南民族大学 一种基于SK-EfficientNet的轻量级农作物病害识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765835A (zh) * 2019-08-19 2020-02-07 中科院成都信息技术股份有限公司 一种基于边缘信息的手术视频流程识别方法
CN113627281A (zh) * 2021-07-23 2021-11-09 中南民族大学 一种基于SK-EfficientNet的轻量级农作物病害识别方法

Also Published As

Publication number Publication date
CN114359782A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
WO2021098261A1 (zh) 一种目标检测方法与装置
CN108334847B (zh) 一种真实场景下的基于深度学习的人脸识别方法
CN109598231A (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN113076871B (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN109767456A (zh) 一种基于SiameseFC框架和PFP神经网络的目标跟踪方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN112163498A (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN114066884B (zh) 视网膜血管分割方法及装置、电子设备和存储介质
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
CN109636788A (zh) 一种基于深度神经网络的ct图像胆结石智能检测模型
CN109447095B (zh) 视觉属性识别方法、装置及存储介质
CN111860077A (zh) 人脸检测方法、装置、计算机可读存储介质及设备
CN113421240A (zh) 一种基于超声自动乳腺全容积成像的乳腺分类方法及装置
CN112668672A (zh) 基于TensorRT的目标检测模型加速方法及装置
CN116309359A (zh) 一种用于肝癌患者pd-1和pd-l1表达的无创预测方法
CN117351487A (zh) 一种邻近区域与边缘信息融合的医学图像分割方法、系统
CN117557774A (zh) 一种基于改进YOLOv8的无人机图像小目标检测方法
Wang et al. MeDERT: A metal surface defect detection model
CN114648604A (zh) 一种图像渲染方法、电子设备、存储介质及程序产品
CN114359782B (zh) 基于多任务学习的手术工具和手术阶段识别方法
CN111767919B (zh) 一种多层双向特征提取与融合的目标检测方法
CN113269734A (zh) 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
CN112800942A (zh) 一种基于自校准卷积网络的行人检测方法
CN116823868A (zh) 一种黑色素肿瘤图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant