CN109934125B

CN109934125B - 一种半监督手术视频流程识别方法

Info

Publication number: CN109934125B
Application number: CN201910142716.8A
Authority: CN
Inventors: 陈芋文; 唐鹏; 钟坤华; 祁宝莲; 孙启龙; 汪鹏; 王飞
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS; First Affiliated Hospital of Army Medical University
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS; First Affiliated Hospital of Army Medical University
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-11-25
Anticipated expiration: 2039-02-26
Also published as: CN109934125A

Abstract

本发明涉及一种半监督手术视频流程识别方法，属于人工智能与医疗应用领域。该方法包括步骤1.用卷积自编码器对视频进行空间特征提取；2.从同视频上下文中提取一对视频帧进行时序排序任务学习，提取时序特征；3.通过多分类识别网络识别手术视频流程阶段；4.输出手术视频流程阶段识别结果。本发明作为开放性外科手术视频流程自动识别检测工具，是实现未来人工智能医疗手术室的一种低代价实现高效判别手术视频流程阶段的方法。

Description

一种半监督手术视频流程识别方法

技术领域

本发明属于人工智能和医疗应用领域涉及一种半监督手术视频流程识别方法。

背景技术

随着现代精准外科范式的建立，手术种类与形式也越来越多、过程越来越复杂，利用术前和术中的多种影像全面助力外科手术是大势所趋。鉴于此围绕外科手术及其相关活动的智能化已经成为当前AI医疗的研究热点。然而实现真正意义上的手术及其相关活动智能化，核心前提和挑战在于计算机对外科手术视频流程的识别和理解。由于手术视频流程是一个具有很强逻辑性的动态过程，而计算机对其进行智能分解、识别是一个情景感知的过程。要求计算机根据人类的思维和感知来分析手术流程，从低级像素特征和高级语义特征之间实现跨越是手术视频流程理解中最重要的一步，也是计算机视觉视频理解领域颇具挑战的一个研究课题。目前，人们利用人工智能和计算机视觉的方法进行手术流程识别检测已取得不少突破，但是训练这种方法，需要大量的标记手术视频数据，然而在医学领域，对外科手术视频数据的标记需要专家知识。收集足够数量的标记外科手术视频数据是困难的、耗时的。因此，急需以深度学习理论中卷积神经为研究基础，采用半监督的方式对腹腔镜胆囊切除术手术进行流程自动化识别研究。

发明内容

有鉴于此，本发明的目的在于提供一种半监督手术视频流程识别方法。

为达到上述目的，本发明提供如下技术方案：

一种半监督手术视频流程识别方法，该方法包括以下步骤：

S1：用卷积自编码器对视频进行空间特征提取；

S2：从同视频上下文中提取一对视频帧进行时序排序任务学习，提取时序特征；

S3：通过多分类识别网络识别手术视频流程阶段；

S4：输出手术视频流程阶段识别结果。

进一步，在所述步骤S1中，卷积自编码器经过无监督逐层贪心预训练和系统性参数优化的多层非线性卷积网络从无类标数据中提取高维复杂输入数据的分层特征。

进一步，在所述步骤S2中，通过外科手术具有相对固定的逻辑顺序特性，设计卷积时序判别网络对手术视频进行时序排序任务学习，以减少模型训练所需要的样本数量。

进一步，在所述步骤S2中，将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习，将来自同一视频的一对帧被送到已训练的Encoder网络的两个输入层，并且两条链中的相应层分享权重。

进一步，在所述步骤S2中，将两个Encoder网络的输出连接起来，并用两个全连接层进行处理；如果第一帧先于第二帧则输出1，否则输出0；进行无监督的二次特征提取。

进一步，在所述步骤S3中，基于卷积自编码、时序判别网络无监督的方式训练网络模型，将卷积时序判别网络的损失函数调整为softmax函数，对手术视频数据进行半监督的学习，微调整体网络，对手术流程进行识别。

进一步，在所述步骤S3中，取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络；并将通道数降为原始网络的一半，去掉原始网络的快捷连接。

进一步，在所述步骤S3中，通过无监督训练后Encoder网络再连接两层全连接层；采样手术视频分辨率为256×256，将帧中RGB通道像素值映射到[-0.5,0.5]；

初始学习率λ被设置为10-3，动量设置为0.9，批量大小为256，为防止过拟合采用L1和L2正则化。

进一步，在所述步骤S3中，整个网络有18个卷积层，4次下采样，4次上采样，通过机SGD优化算法进行训练网络求解参数。

进一步，在所述步骤S4中，对手术视频流程识别结果进行分析，评估的指标包括精确率、召回率、准确率和Jaccard系数。

本发明的有益效果在于：通过本发明的半监督手术流程识别方法，将非结构化的手术视频数据结构化，构建低层手术视频特征到高层外科手术流程语义之间的桥梁，尝试以低代价实现对手术视频流程的智能化识别检测，高效判定手术流程进展。并通过实现验证本文提出的半监督算法能有效的提取手术特征并进行流程判定。通过手术流程自动化检测，能解决当前非常耗时的手术视频数据库的索引自动化问题，以减轻外科工作人员执行简单耗时的任务，并帮助他们处理单调乏味的工作,如提醒临床医生在手术过程中可能出现的并发症，自动触发提醒手术的剩余时间、自动生成手术记录报告、向临床工作人员提供自动化协助等。因此,对手术视频进行有效分析在大数据智能时代极其重要。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例所述卷积自编码网络；

图2为本发明实施例所述卷积时序判断网络；

图3为本发明实施例所述手术流程识别示意图；

图4为本发明实施例所述卷积自编码器设计图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，一种新闻稿件主题分类及审核方法，包括以下步骤：

100：用卷积自编码器对视频进行空间特征提取；

200：从同视频上下文中提取一对视频帧进行时序排序任务学习，提取时序特征；

300：通过多分类识别网络识别手术视频流程阶段；

400：输出手术视频流程阶段识别结果。

图2为本发明实施例所述卷积时序判断网络；

步骤200中，将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习，以每秒一帧的间隔提取帧来自同一视频的一对帧被馈送到已训练的Encoder网络的两个输入层，每帧都由Encoder网络处理，两条链中的相应层分享权重。

步骤200中，将两个Encoder网络的输出连接起来。并用两个全连接层进行处理，如果第一帧先于第二帧则输出1，否则输出0。进行无监督的二次特征提取。

步骤300中，基于卷积自编码、时序判别网络无监督的方式训练网络模型，将卷积时序判别网络的损失函数调整为softmax函数，对手术视频数据进行半监督的学习，微调整体网络，对手术流程进行流程识别，如图3所示。

在步骤300中，其中softmax损失函数定义如下：

假设手术视频帧数据集D＝{(x₁,y₁),.......(x_m,y_m)}，其中x_m表示手术帧特征，k维向量，y_m表示该帧对应的手术阶段号，对于给定手术视频第i帧，定义每个流程阶段的概率为：

然后通过最小化预测概率和Groundtruth真实类别的KL散度，则有如下损失函数：

p_ij表示第i帧属于第j个流程阶段的概率；

为真实类别概率。

步骤300中：取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络。此外将通道数降为原始网络的一半，去掉原始网络的快捷连接。

可选地，在步骤300中，通过无监督训练后Encoder网络在连接两层全连接层如图3所示。采样手术视频分辨率为256×256，将帧中RGB通道像素值映射到[-0.5，0.5]，整个网络有18个卷积层，4次下采样，4次上采样，通过机SGD优化算法进行训练网络求解参数。

可选地，在步骤300中：可选择不同的参数设置，例如：初始学习率λ被设置为10-3，动量设置为0.9，批量大小为256，采用了L1和L2正则化来防止过拟合。

图4为本发明实施例所述卷积自编码器设计图。

可选地，在步骤300中：可选择不同的待识别的手术视频数据。例如：手术流程检测竞赛的m2cai16-workflow数据集进行实验验证。该数据集包含41个腹腔胆囊切除术视频，可分为两部分：训练子集(包含27个视频)和测试子集(14个视频)。将手术分为8个流程阶段进行注释标记，详细如表1所示。

表1本发明实施例所述腹腔镜胆囊切除手术8个流程阶段的注释标记

阶段号	阶段名称
		1	trocar placement
2	preparation
		3	Calot triangle dissection
4	clipping and cutting
		5	gallbladder dissection
6	galbladder packaging
		7	cleaning and coagulation
8	gallbladder retraction

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种半监督手术视频流程识别方法，其特征在于：该方法包括以下步骤：

S1：用卷积自编码器对视频进行空间特征提取；

S3：通过多分类识别网络识别手术视频流程阶段；

S4：输出手术视频流程阶段识别结果；

在所述步骤S1中，卷积自编码器经过无监督逐层贪心预训练和系统性参数优化的多层非线性卷积网络从无类标数据中提取高维复杂输入数据的分层特征；

在所述步骤S2中，通过外科手术具有相对固定的逻辑顺序特性，设计卷积时序判别网络对手术视频进行时序排序任务学习，以减少模型训练所需要的样本数量；

在所述步骤S2中，将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习，将来自同一视频的一对帧被送到已训练的Encoder网络的两个输入层，并且两条链中的相应层分享权重；

在所述步骤S2中，将两个Encoder网络的输出连接起来，并用两个全连接层进行处理；如果第一帧先于第二帧则输出1，否则输出0；进行无监督的二次特征提取；

在所述步骤S3中，基于卷积自编码、时序判别网络无监督的方式训练网络模型，将卷积时序判别网络的损失函数调整为softmax函数，对手术视频数据进行半监督的学习，微调整体网络，对手术流程进行识别；

在所述步骤S3中，取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络；并将通道数降为原始网络的一半，去掉原始网络的快捷连接；

在所述步骤S3中，通过无监督训练后Encoder网络再连接两层全连接层；采样手术视频分辨率为256×256，将帧中RGB通道像素值映射到[-0.5,0.5]；

初始学习率λ被设置为10^-3，动量设置为0.9，批量大小为256，为防止过拟合采用L1和L2正则化。

2.根据权利要求1所述的一种半监督手术视频流程识别方法，其特征在于：在所述步骤S3中，整个网络有18个卷积层，4次下采样，4次上采样，通过机SGD优化算法进行训练网络求解参数。

3.根据权利要求1所述的一种半监督手术视频流程识别方法，其特征在于：在所述步骤S4中，对手术视频流程识别结果进行分析，评估的指标包括精确率、召回率、准确率和Jaccard系数。