CN111783520A

CN111783520A - 基于双流网络的腹腔镜手术阶段自动识别方法及装置

Info

Publication number: CN111783520A
Application number: CN202010420545.3A
Authority: CN
Inventors: 丛伟建; 范敬凡; 丁媛
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-10-16

Abstract

基于双流网络的腹腔镜手术阶段自动识别方法及装置，既能够满足识别任务的需求，又实现了网络端到端的训练优化，并且大大提升了腹腔镜手术阶段识别的准确度。方法包括：获取腹腔镜胆囊切除手术视频，得到视频关键帧序列；利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取，得到的特征图作为后续双流网络结构的输入；利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息，其中视觉分支承接Shared CNN进一步提取深层视觉语义信息，时序分支利用三维卷积和非局部卷积，充分捕获相邻N张图像的时间关联信息；双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充，利用融合后特征得到手术阶段识别结果。

Description

基于双流网络的腹腔镜手术阶段自动识别方法及装置

技术领域

本发明涉及医学图像处理的技术领域，尤其涉及一种基于双流网络的腹腔镜手术阶段自动识别方法，以及基于双流网络的腹腔镜手术阶段自动识别装置。

背景技术

在计算机辅助手术领域，外科手术工作流程识别是一个重要的课题，因为它为现代手术室的众多需求提供了解决方案。具体来说，自动化的手术工作流程识别可以解释当前正在进行的具体活动，并且有利于手术程序标准化。在术中在线执行的工作流程识别有助于提高手术效率，并辅助医生做出正确的决策，特别是对于经验较少的外科医生。另外，手术视频的自动工作流程识别对于外科医生技能评估和手术视频数据库的索引也很有用。

早期的研究通过使用各种信息来识别手术的工作流程或阶段，包括二进制仪器使用信号、射频识别标签，通过工具跟踪设备上的传感器或手术机器人获得的数据等。但收集这些信息通常需要繁琐的手动标签或其他设备的手术室集成，对于普通微创手术来说都是额外的工作负担。因此，研究人员已经尝试研究手术室中已存在的可用信息(例如，来自视频的视觉线索)来完成手术阶段识别。在视觉特征提取方面，低水平的传统视觉特征(例如强度和梯度，形状，颜色等)不足以表征复杂的外科手术视觉特征。

随着深度学习在医学领域的应用，近年来已提出利用卷积神经网络来提取手术视频中更多的视觉信息来识别手术阶段。然而，单纯使用视频的视觉信息来自动识别手术阶段是相当具有挑战性的。手术过程中产生的水雾会导致严重的场景模糊，增加了识别难度。另外，在复杂的手术过程中，摄像机可能并不总是聚焦于手术场景，会给视频图像带来额外的噪声和伪影。鉴于手术视频实际上是序列数据，为了应对这些挑战，许多研究致力于先从视频帧中提取具有区别性的视觉特征后，对帧之间的时间依赖性进行建模以提高识别精度。例如，一系列利用随机森林模型或条件随机场和隐马尔可夫模型(HMM)建模时间信息的方法被提出来。

但是，上述大多数方法都是预定义的线性模型，无法实现端到端的学习和优化。为此，有学者改进了时间信息建模的方法。在网络中集成了用于提取深层次视觉信息的高级残差网络，并引入了用于建立非线性时间依赖性的长期和短期记忆(LSTM)网络，从而通过端到端学习实现了最先进的手术流程识别性能。然而，在利用高级残差网络提取高层视觉信息的过程中，某些运动信息已经丢失。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于双流网络的腹腔镜手术阶段自动识别方法，其既能够满足识别任务的需求，又实现了网络端到端的训练优化，并且大大提升了腹腔镜手术阶段识别的准确度。

本发明的技术方案是：这种基于双流网络的腹腔镜手术阶段自动识别方法，其包括以下步骤：

(1)获取腹腔镜胆囊切除手术视频，得到视频关键帧序列；

(2)利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取，得到的特征图作为后续双流网络结构的输入；

(3)利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息，其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息，时序分支Temporal branch利用三维卷积和非局部卷积，充分捕获相邻N张图像的时间关联信息；

(4)双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充，利用融合后特征得到手术阶段识别结果。

本发明利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取，得到的特征图作为后续双流网络结构的输入，利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息，通过共享卷积层与双流结构的串行，减少了网络的参数数量，因此既能够满足识别任务的需求，又实现了网络端到端的训练优化；双流网络分别获取视频图像的空间信息和时间信息，二者融合的互补性大大提升了腹腔镜手术阶段识别的准确度。

还提供了基于双流网络的腹腔镜手术阶段自动识别装置，其包括：

图像获取模块，其配置来获取腹腔镜胆囊切除手术视频，得到视频关键帧序列；

阶段识别模块，其配置来利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取，得到的特征图作为后续双流网络结构的输入；

信息提取模块，其配置来利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息，其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息，时序分支Temporal branch利用三维卷积和非局部卷积，充分捕获相邻N张图像的时间关联信息；

特征融合模块，其配置来将双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充，利用融合后特征得到手术阶段识别结果。

附图说明

图1是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的网络的整体架构。

图2是2D卷积的结构图，Shared CNN为图2左，Visual branch为图2右。

图3是3D卷积的结构图，即Temporal branch。

图4是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的流程图。

图5是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的框架图。

具体实施方式

以往基于神经网络的方法通常采用‘顺序结构’，先进行深层次视觉信息提取，之后建模时间依赖。本方法将二者组成‘并行结构’，在获取深层次视觉信息的同时，可以减少进行时间依赖建模时的信息损失。

如图4所示，这种基于双流网络的腹腔镜手术阶段自动识别方法，其包括以下步骤：

(1)获取腹腔镜胆囊切除手术视频，得到视频关键帧序列；

优选地，所述步骤(2)中，Shared CNN由BN-inception第一部分组成，该第一部分直到inception-3c层，负责获得N张尺寸为28*28的特征图作为后续双流网络结构的输入。BN-inception在inception网络基础上增加了batch-normalization的操作，使得网络增加了正则化的效果且可以采用更大的学习率可以加快训练速度。另外，相比性能相对优越的Resnet,BN-inception可以为网络的双流主体结构节省出更多的网络深度和宽度，轻量化的网络实时性能更优。

优选地，所述步骤(3)中，Visual branch在双流网络结构中用于获取更深层次的静态视觉语义信息，Visual branch是BN-inception的第二部分，该第二部分不包括全连接层；Visual branch末尾有两个平均池化层，前边的平均池化层负责为每一帧生成1024维特征向量；后边的平均池化层通过对batch通道相邻N张图做全局平均池化，以生成与Temporal branch相对应的视频级特征。

优选地，所述步骤(3)中，Temporal branch作用在堆叠的连续N帧图像上，被用来进行时间依赖的建模；鉴于3D CNN在处理视频数据时有良好的表现，另外Resnet的残差结构可以避免深层网络的梯度消失和退化，采用多层3D-Resnet18作为Temporal branch基础架构。此外，Shared CNN输出的特征图尺寸为28*28，因此网络结构直接从Resnet18的第三层开始。

优选地，所述步骤(3)中，在3D-Resnet18结构中嵌入非局部模块Non-local。非局部块的主要功能是突破传统卷积局部感受野的局限性，建立一像素点与其他所有点之间的关系。对于3D非局部模块，所谓的“所有其他点”不仅指同一图像上的点，还指不同图像上的点。因此，非局部块的嵌入不仅可以建模时间依赖性，还同时可以兼顾到空间全局信息。非局部模块实质上把视频额外的时空信息提取作为一个残差操作，不会更改通道数量和特征图大小，因此可以轻松有效地将其嵌入3D Resnet中以完善3DNet的功能。

优选地，所述步骤(3)中，在3D-Resnet18结构中，只在res3、res4、res5模块之后分别嵌入一个Non-local。

优选地，全局交叉熵损失为公式(1)：

其中C表示类别的数量，z＝[z₀，...，z_c-1]表示对应于全连接层fc的每个类的逻辑输出；

局部交叉熵损失为公式(2)：

作用于Visual branch，在Visual branch的末尾添加了额外的全连接层fc'；

其中z'＝[z0′,…,zc-1′]代表对应于全连接层fc'的每个类的逻辑输出；

在利用深度学习进行网络的训练过程中，需要指定每次训练在训练集中取的图片样本个数，即为batch。一个batch通道激活的截断均方误差

截断的均方误差为公式(3)：

其中B表示批次的大小，τ是阈值，y′_b-1和y′_b是同一批次中两相邻特征向量的逻辑输出，分别在批次维度上进行归一化；

总体损失为公式(4)：

其中λ1，λ2是模型超参数,用于确定不同损失函数的贡献。

优选地，所述步骤(3)中，C＝8；τ＝3；λ1＝0.1，λ2＝0.15。

优选地，在所述步骤(2)之前还包括数据预处理，将原始25fps视频下采样为1fps，并预先将其尺寸从1920×1080调整为250×250；在输入到网络之前，通过224×224随机裁剪对图像做进一步的增强；所有手术阶段识别实验均以在线模式执行。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种基于双流网络的腹腔镜手术阶段自动识别装置，该装置通常以与方法各步骤相对应的功能模块的形式表示。

该装置包括：

以下更详细地说明本发明。

在阶段识别方法中，通常是先提取视觉信息再提取时序关联信息进行识别。本文同时提取视觉和时序关联信息，在获取深层次视觉信息的同时可以减少进行时间依赖建模时的信息损失。如图1所示，共享卷积层(Shared CNN)作用于输入的连续N张图像，旨在获得尺寸为28*28的特征图。为了产生更具判别力的时空特征，堆叠的N张特征图整合为N*28*28的视频级数据被输入到时间依赖时序分支(Temporal branch)中。至于Visual branch，它被用来进一步提取深层次视觉语义信息。将双流网络输出的特征进行融合而非独立识别，这样可以利用视觉和时间特征的互补信息实现更准确的识别。

图2为网络中2D卷积的结构图，包括Shared CNN和Visual branch两部分，主要负责视觉语义信息的提取。图3为网络中3D卷积的结构图，即Temporal branch。在利用3D卷积捕捉时序关联的同时，可以兼顾视觉信息的提取，使得最后的视觉信息提取更充分。嵌入的非局部卷积模块，突破传统卷积局部感受野的局限性，可以建立一像素点与其他所有点之间的关系，对于提高Temporal branch的时序关联捕捉能力有很大帮助。

借鉴ECO视频理解网络框架，某些超参数设置是参考该网络设置的。使用8个连续帧(N＝8)作为网络的输入，其大小为8×224×224。另外，由于利用连续8帧得到的预测结果作为第8帧的识别结果，因此对于每个视频的前7帧都不进行预测。这种方法完全可行，因为按照常识，视频的前7帧必然属于阶段0(套管针放置)。

将损失函数用公式表达出来如下：

全局交叉熵损失：

其中C表示类别的数量，本文中C＝8。z＝[z₀，…，z_c-1]表示对应于全连接层fc的每个类的逻辑输出(未经softmax的输出)。

局部交叉熵损失：

作用于Visual branch。为此，在Visual branch的末尾添加了额外的全连接层fc'。

可以提高所有2D卷积层提取单个帧的视觉语义信息的能力，并进一步提高同时馈入Temporal branch分支的特征图的质量。

其中z'＝[z0′,…,zc-1′]代表对应于全连接层fc'的每个类的逻辑输出。

截断的均方误差：

由于不同阶段数据的不均衡性(阶段0，7图像偏少，阶段2,4图像偏多)，同一batch内相邻图像很有可能属于同一阶段。针对以上情况，受运动识别的启发，我们设计了一个batch通道激活的截断均方误差

从而进一步提高识别效果。另外，mse损失本身也可以起到正则化的作用。

其中B表示批次的大小，τ是阈值(本实验中τ＝3)，y′_b-1和y′_b是同一批次中两相邻特征向量的逻辑输出，分别在批次维度上进行归一化。

总体损失：

其中λ1，λ2是模型超参数,用于确定不同损失函数的贡献。在本实验中，λ1＝0.1，λ2＝0.15。

数据预处理：

所用数据集为公开手术数据集，数据集包括27个带有阶段注释的胆囊切除术视频和8个手术阶段的标注。有经验的专家将胆囊切除手术划分为八个阶段，包括(0)套管针放置，(1)准备，(2)刀尖三角解剖，(3)剪裁，(4)胆囊解剖，(5)胆囊包装，(6)清洁和混凝，以及(7)胆囊回缩。在获取手术视频数据之后，将原始25fps视频下采样为1fps，并预先将其尺寸从1920×1080调整为250×250。在输入到网络之前，通过224×224随机裁剪对图像做进一步的增强。所有手术阶段识别实验均以在线模式执行，即在识别t时刻的手术阶段时，不会用到t时刻之后的视频图像。

评估标准：

对于阶段识别，使用精度(AC)，精度(PR)，召回率(RE)和F1分数来定量分析阶段识别的性能。PR和RE是分阶段计算的，F1分数可以看作是PR和RE的一种调和平均,定义分别为：

其中GT和P分别代表一个阶段的真值集和预测集。在计算每个阶段的PR和RE之后，我们将所有阶段的这些值取平均值，并获得整个视频的PR和RE。AC是直接以视频为单位计算的，定义为在整个视频中正确分类的帧的百分比。

本文展示了一种基于深度学习的手术阶段自动识别框架，用于学习手术视频有效的视觉信息与时序关联信息。利用BN_inception和嵌入non-

local模块的3D Resent18分别提取视觉特征和时序关联信息。最后将整个2D CNN提取的深层视觉特征与考虑时间依赖的特征相结合以完成识别任务。相较于以往采用CNN提取视觉特征后，送入LSTM提取时序关联信息的方法，提出的算法实现了最先进的端到端性能。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：其包括以下步骤：

(1)获取腹腔镜胆囊切除手术视频，得到视频关键帧序列；

2.根据权利要求1所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(2)中，Shared CNN由BN-inception第一部分组成，该第一部分直到inception-3c层，负责获得N张尺寸为28*28的特征图作为后续双流网络结构的输入。

3.根据权利要求2所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(3)中，Visual branch在双流网络结构中用于获取更深层次的静态视觉语义信息，Visual branch是BN-inception的第二部分，该第二部分不包括全连接层；Visualbranch末尾有两个平均池化层，前边的平均池化层负责为每一帧生成1024维特征向量；后边的平均池化层通过对batch通道相邻N张图做全局平均池化，以生成与Temporal branch相对应的视频级特征。

4.根据权利要求3所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(3)中，Temporal branch作用在堆叠的连续N帧图像上，被用来进行时间依赖的建模；采用多层3D-Resnet18作为基础架构，网络结构从Resnet18的第三层开始。

5.根据权利要求4所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(3)中，在3D-Resnet18结构中嵌入非局部模块Non-local。

6.根据权利要求5所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(3)中，在3D-Resnet18结构中，只在res3、res4、res5模块之后分别嵌入一个Non-local。

7.根据权利要求6所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：

全局交叉熵损失为公式(1)：

其中C表示类别的数量，z＝[z₀，...，z_c-1]表示对应于全连接层fc的每个类的逻辑输出，未经softmax的输出；

局部交叉熵损失为公式(2)：

一个batch通道激活的截断均方误差

截断的均方误差为公式(3)：

总体损失为公式(4)：

其中λ1，λ2是模型超参数,用于确定不同损失函数的贡献。

8.根据权利要求7所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：所述步骤(3)中，C＝8；τ＝3；λ1＝0.1，λ2＝0.15。

9.根据权利要求1所述的基于双流网络的腹腔镜手术阶段自动识别方法，其特征在于：在所述步骤(2)之前还包括数据预处理，将原始25fps视频下采样为1fps，并预先将其尺寸从1920×1080调整为250×250；在输入到网络之前，通过224×224随机裁剪对图像做进一步的增强；所有手术阶段识别实验均以在线模式执行。

10.基于双流网络的腹腔镜手术阶段自动识别装置，其特征在于：其包括：