CN109934125B - 一种半监督手术视频流程识别方法 - Google Patents
一种半监督手术视频流程识别方法 Download PDFInfo
- Publication number
- CN109934125B CN109934125B CN201910142716.8A CN201910142716A CN109934125B CN 109934125 B CN109934125 B CN 109934125B CN 201910142716 A CN201910142716 A CN 201910142716A CN 109934125 B CN109934125 B CN 109934125B
- Authority
- CN
- China
- Prior art keywords
- network
- video
- time sequence
- encoder
- surgery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种半监督手术视频流程识别方法,属于人工智能与医疗应用领域。该方法包括步骤1.用卷积自编码器对视频进行空间特征提取;2.从同视频上下文中提取一对视频帧进行时序排序任务学习,提取时序特征;3.通过多分类识别网络识别手术视频流程阶段;4.输出手术视频流程阶段识别结果。本发明作为开放性外科手术视频流程自动识别检测工具,是实现未来人工智能医疗手术室的一种低代价实现高效判别手术视频流程阶段的方法。
Description
技术领域
本发明属于人工智能和医疗应用领域涉及一种半监督手术视频流程识别方法。
背景技术
随着现代精准外科范式的建立,手术种类与形式也越来越多、过程越来越复杂,利用术前和术中的多种影像全面助力外科手术是大势所趋。鉴于此围绕外科手术及其相关活动的智能化已经成为当前AI医疗的研究热点。然而实现真正意义上的手术及其相关活动智能化,核心前提和挑战在于计算机对外科手术视频流程的识别和理解。由于手术视频流程是一个具有很强逻辑性的动态过程,而计算机对其进行智能分解、识别是一个情景感知的过程。要求计算机根据人类的思维和感知来分析手术流程,从低级像素特征和高级语义特征之间实现跨越是手术视频流程理解中最重要的一步,也是计算机视觉视频理解领域颇具挑战的一个研究课题。目前,人们利用人工智能和计算机视觉的方法进行手术流程识别检测已取得不少突破,但是训练这种方法,需要大量的标记手术视频数据,然而在医学领域,对外科手术视频数据的标记需要专家知识。收集足够数量的标记外科手术视频数据是困难的、耗时的。因此,急需以深度学习理论中卷积神经为研究基础,采用半监督的方式对腹腔镜胆囊切除术手术进行流程自动化识别研究。
发明内容
有鉴于此,本发明的目的在于提供一种半监督手术视频流程识别方法。
为达到上述目的,本发明提供如下技术方案:
一种半监督手术视频流程识别方法,该方法包括以下步骤:
S1:用卷积自编码器对视频进行空间特征提取;
S2:从同视频上下文中提取一对视频帧进行时序排序任务学习,提取时序特征;
S3:通过多分类识别网络识别手术视频流程阶段;
S4:输出手术视频流程阶段识别结果。
进一步,在所述步骤S1中,卷积自编码器经过无监督逐层贪心预训练和系统性参数优化的多层非线性卷积网络从无类标数据中提取高维复杂输入数据的分层特征。
进一步,在所述步骤S2中,通过外科手术具有相对固定的逻辑顺序特性,设计卷积时序判别网络对手术视频进行时序排序任务学习,以减少模型训练所需要的样本数量。
进一步,在所述步骤S2中,将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习,将来自同一视频的一对帧被送到已训练的Encoder网络的两个输入层,并且两条链中的相应层分享权重。
进一步,在所述步骤S2中,将两个Encoder网络的输出连接起来,并用两个全连接层进行处理;如果第一帧先于第二帧则输出1,否则输出0;进行无监督的二次特征提取。
进一步,在所述步骤S3中,基于卷积自编码、时序判别网络无监督的方式训练网络模型,将卷积时序判别网络的损失函数调整为softmax函数,对手术视频数据进行半监督的学习,微调整体网络,对手术流程进行识别。
进一步,在所述步骤S3中,取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络;并将通道数降为原始网络的一半,去掉原始网络的快捷连接。
进一步,在所述步骤S3中,通过无监督训练后Encoder网络再连接两层全连接层;采样手术视频分辨率为256×256,将帧中RGB通道像素值映射到[-0.5,0.5];
初始学习率λ被设置为10-3,动量设置为0.9,批量大小为256,为防止过拟合采用L1和L2正则化。
进一步,在所述步骤S3中,整个网络有18个卷积层,4次下采样,4次上采样,通过机SGD优化算法进行训练网络求解参数。
进一步,在所述步骤S4中,对手术视频流程识别结果进行分析,评估的指标包括精确率、召回率、准确率和Jaccard系数。
本发明的有益效果在于:通过本发明的半监督手术流程识别方法,将非结构化的手术视频数据结构化,构建低层手术视频特征到高层外科手术流程语义之间的桥梁,尝试以低代价实现对手术视频流程的智能化识别检测,高效判定手术流程进展。并通过实现验证本文提出的半监督算法能有效的提取手术特征并进行流程判定。通过手术流程自动化检测,能解决当前非常耗时的手术视频数据库的索引自动化问题,以减轻外科工作人员执行简单耗时的任务,并帮助他们处理单调乏味的工作,如提醒临床医生在手术过程中可能出现的并发症,自动触发提醒手术的剩余时间、自动生成手术记录报告、向临床工作人员提供自动化协助等。因此,对手术视频进行有效分析在大数据智能时代极其重要。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例所述卷积自编码网络;
图2为本发明实施例所述卷积时序判断网络;
图3为本发明实施例所述手术流程识别示意图;
图4为本发明实施例所述卷积自编码器设计图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,一种新闻稿件主题分类及审核方法,包括以下步骤:
100:用卷积自编码器对视频进行空间特征提取;
200:从同视频上下文中提取一对视频帧进行时序排序任务学习,提取时序特征;
300:通过多分类识别网络识别手术视频流程阶段;
400:输出手术视频流程阶段识别结果。
图2为本发明实施例所述卷积时序判断网络;
步骤200中,将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习,以每秒一帧的间隔提取帧来自同一视频的一对帧被馈送到已训练的Encoder网络的两个输入层,每帧都由Encoder网络处理,两条链中的相应层分享权重。
步骤200中,将两个Encoder网络的输出连接起来。并用两个全连接层进行处理,如果第一帧先于第二帧则输出1,否则输出0。进行无监督的二次特征提取。
步骤300中,基于卷积自编码、时序判别网络无监督的方式训练网络模型,将卷积时序判别网络的损失函数调整为softmax函数,对手术视频数据进行半监督的学习,微调整体网络,对手术流程进行流程识别,如图3所示。
在步骤300中,其中softmax损失函数定义如下:
假设手术视频帧数据集D={(x1,y1),.......(xm,ym)},其中xm表示手术帧特征,k维向量,ym表示该帧对应的手术阶段号,对于给定手术视频第i帧,定义每个流程阶段的概率为:
然后通过最小化预测概率和Groundtruth真实类别的KL散度,则有如下损失函数:
pij表示第i帧属于第j个流程阶段的概率;
步骤300中:取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络。此外将通道数降为原始网络的一半,去掉原始网络的快捷连接。
可选地,在步骤300中,通过无监督训练后Encoder网络在连接两层全连接层如图3所示。采样手术视频分辨率为256×256,将帧中RGB通道像素值映射到[-0.5,0.5],整个网络有18个卷积层,4次下采样,4次上采样,通过机SGD优化算法进行训练网络求解参数。
可选地,在步骤300中:可选择不同的参数设置,例如:初始学习率λ被设置为10-3,动量设置为0.9,批量大小为256,采用了L1和L2正则化来防止过拟合。
图4为本发明实施例所述卷积自编码器设计图。
可选地,在步骤300中:可选择不同的待识别的手术视频数据。例如:手术流程检测竞赛的m2cai16-workflow数据集进行实验验证。该数据集包含41个腹腔胆囊切除术视频,可分为两部分:训练子集(包含27个视频)和测试子集(14个视频)。将手术分为8个流程阶段进行注释标记,详细如表1所示。
表1本发明实施例所述腹腔镜胆囊切除手术8个流程阶段的注释标记
阶段号 | 阶段名称 |
1 | trocar placement |
2 | preparation |
3 | Calot triangle dissection |
4 | clipping and cutting |
5 | gallbladder dissection |
6 | galbladder packaging |
7 | cleaning and coagulation |
8 | gallbladder retraction |
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (3)
1.一种半监督手术视频流程识别方法,其特征在于:该方法包括以下步骤:
S1:用卷积自编码器对视频进行空间特征提取;
S2:从同视频上下文中提取一对视频帧进行时序排序任务学习,提取时序特征;
S3:通过多分类识别网络识别手术视频流程阶段;
S4:输出手术视频流程阶段识别结果;
在所述步骤S1中,卷积自编码器经过无监督逐层贪心预训练和系统性参数优化的多层非线性卷积网络从无类标数据中提取高维复杂输入数据的分层特征;
在所述步骤S2中,通过外科手术具有相对固定的逻辑顺序特性,设计卷积时序判别网络对手术视频进行时序排序任务学习,以减少模型训练所需要的样本数量;
在所述步骤S2中,将预先训练的Encoder网络对手术视频帧按时间顺序进行排序学习,将来自同一视频的一对帧被送到已训练的Encoder网络的两个输入层,并且两条链中的相应层分享权重;
在所述步骤S2中,将两个Encoder网络的输出连接起来,并用两个全连接层进行处理;如果第一帧先于第二帧则输出1,否则输出0;进行无监督的二次特征提取;
在所述步骤S3中,基于卷积自编码、时序判别网络无监督的方式训练网络模型,将卷积时序判别网络的损失函数调整为softmax函数,对手术视频数据进行半监督的学习,微调整体网络,对手术流程进行识别;
在所述步骤S3中,取U-NET网络的Encoder网络进行改进为卷积编码的Encoder网络;并将通道数降为原始网络的一半,去掉原始网络的快捷连接;
在所述步骤S3中,通过无监督训练后Encoder网络再连接两层全连接层;采样手术视频分辨率为256×256,将帧中RGB通道像素值映射到[-0.5,0.5];
初始学习率λ被设置为10-3,动量设置为0.9,批量大小为256,为防止过拟合采用L1和L2正则化。
2.根据权利要求1所述的一种半监督手术视频流程识别方法,其特征在于:在所述步骤S3中,整个网络有18个卷积层,4次下采样,4次上采样,通过机SGD优化算法进行训练网络求解参数。
3.根据权利要求1所述的一种半监督手术视频流程识别方法,其特征在于:在所述步骤S4中,对手术视频流程识别结果进行分析,评估的指标包括精确率、召回率、准确率和Jaccard系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910142716.8A CN109934125B (zh) | 2019-02-26 | 2019-02-26 | 一种半监督手术视频流程识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910142716.8A CN109934125B (zh) | 2019-02-26 | 2019-02-26 | 一种半监督手术视频流程识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109934125A CN109934125A (zh) | 2019-06-25 |
CN109934125B true CN109934125B (zh) | 2022-11-25 |
Family
ID=66985977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910142716.8A Active CN109934125B (zh) | 2019-02-26 | 2019-02-26 | 一种半监督手术视频流程识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934125B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488932B (zh) * | 2020-04-10 | 2021-03-16 | 中国科学院大学 | 一种基于帧率感知的自监督视频时-空表征学习方法 |
CN112560602A (zh) * | 2020-12-02 | 2021-03-26 | 中山大学中山眼科中心 | 一种白内障手术步骤的识别方法及装置 |
CN112818959B (zh) * | 2021-03-25 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 手术流程识别方法、装置、系统及计算机可读存储介质 |
CN113288452B (zh) * | 2021-04-23 | 2022-10-04 | 北京大学 | 手术质量检测方法及装置 |
CN113662664B (zh) * | 2021-09-29 | 2022-08-16 | 哈尔滨工业大学 | 一种基于仪器追踪的外科手术质量客观自动化评估方法 |
CN114005022B (zh) * | 2021-12-30 | 2022-03-25 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104661582A (zh) * | 2012-05-14 | 2015-05-27 | 高斯外科公司 | 处理患者失血的系统与方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301447A1 (en) * | 2010-06-07 | 2011-12-08 | Sti Medical Systems, Llc | Versatile video interpretation, visualization, and management system |
WO2015160997A1 (en) * | 2014-04-15 | 2015-10-22 | Gauss Surgical, Inc. | Method for estimating a quantity of a blood component in a fluid canister |
CN109379572B (zh) * | 2018-12-04 | 2020-03-06 | 北京达佳互联信息技术有限公司 | 图像转换方法、装置、电子设备及存储介质 |
-
2019
- 2019-02-26 CN CN201910142716.8A patent/CN109934125B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104661582A (zh) * | 2012-05-14 | 2015-05-27 | 高斯外科公司 | 处理患者失血的系统与方法 |
Non-Patent Citations (4)
Title |
---|
"Semi-supervised spatio-temporal CNN for recognition of surgical workflow";Yuwen Chen;《EURASIP Journal on Image and Video Processing》;20180825;第1-9页 * |
"Surgical workflow image generation based on generative adversarial networks";Yuwen Chen;《in international conference on artificial intelligence and big data》;20180628;第82-86页 * |
"基于卷积神经网络的半监督手术视频流程识别";祁宝莲;《计算机科学》;20200615;第47卷(第S1期);第172-175页 * |
"基于多视图半监督学习的图像识别";奚晓钰;《计算机技术与发展》;20170927;第27卷(第12期);第48-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109934125A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934125B (zh) | 一种半监督手术视频流程识别方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN107145503A (zh) | 基于word2vec的远监督非分类关系提取方法及系统 | |
CN111783534B (zh) | 一种基于深度学习的睡眠分期方法 | |
CN112766355B (zh) | 一种标签噪声下的脑电信号情绪识别方法 | |
Militante | Malaria disease recognition through adaptive deep learning models of convolutional neural network | |
CN107563389A (zh) | 一种基于深度学习的农作物病害识别方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN110704662A (zh) | 一种图像分类方法及系统 | |
CN115221969A (zh) | 基于emd数据增强和并行scn的运动想象脑电信号识别方法 | |
Nigam et al. | Wheat rust disease identification using deep learning | |
CN112990270B (zh) | 一种传统特征与深度特征的自动融合方法 | |
Banerjee et al. | A regularized cnn-svm framework for improved diagnosis of citrus fruit diseases, both common and exotic | |
CN111543985A (zh) | 一种基于新型深度学习模型的脑控混合智能康复方法 | |
CN115661739A (zh) | 基于属性特征知识图谱的葡萄园病虫害细粒度识别方法 | |
Araujo et al. | Disease identification in chilli leaves using machine learning techniques | |
CN115114437A (zh) | 基于bert和双分支网络的胃镜文本分类系统 | |
CN114022698A (zh) | 一种基于二叉树结构的多标签行为识别方法及装置 | |
CN109002863B (zh) | 一种基于紧凑卷积神经网络的图像处理方法 | |
CN112836593A (zh) | 一种融合先验与自动脑电特征的情绪识别方法及系统 | |
CN113128354B (zh) | 一种洗手质量检测方法及装置 | |
CN117494013B (zh) | 一种多尺度权值共享卷积神经网络及其脑电情感识别方法 | |
Hosseini et al. | Pathological voice classifcation using local discriminant basis and genetic algorithm | |
CN117809792B (zh) | 一种跨病种迁移时病种数据结构化的方法及系统 | |
CN112906539B (zh) | 一种基于eeg数据的物体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |