CN111783520A - 基于双流网络的腹腔镜手术阶段自动识别方法及装置 - Google Patents
基于双流网络的腹腔镜手术阶段自动识别方法及装置 Download PDFInfo
- Publication number
- CN111783520A CN111783520A CN202010420545.3A CN202010420545A CN111783520A CN 111783520 A CN111783520 A CN 111783520A CN 202010420545 A CN202010420545 A CN 202010420545A CN 111783520 A CN111783520 A CN 111783520A
- Authority
- CN
- China
- Prior art keywords
- flow network
- visual
- video
- double
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000002357 laparoscopic surgery Methods 0.000 title claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims abstract description 79
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000001356 surgical procedure Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 9
- 238000002192 cholecystectomy Methods 0.000 claims abstract description 8
- 230000000295 complement effect Effects 0.000 claims abstract description 5
- 230000002123 temporal effect Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000036962 time dependent Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 description 19
- 108091006146 Channels Proteins 0.000 description 4
- 210000000232 gallbladder Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002224 dissection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000002324 minimally invasive surgery Methods 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于双流网络的腹腔镜手术阶段自动识别方法及装置,既能够满足识别任务的需求,又实现了网络端到端的训练优化,并且大大提升了腹腔镜手术阶段识别的准确度。方法包括:获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支承接Shared CNN进一步提取深层视觉语义信息,时序分支利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
Description
技术领域
本发明涉及医学图像处理的技术领域,尤其涉及一种基于双流网络的腹腔镜手术阶段自动识别方法,以及基于双流网络的腹腔镜手术阶段自动识别装置。
背景技术
在计算机辅助手术领域,外科手术工作流程识别是一个重要的课题,因为它为现代手术室的众多需求提供了解决方案。具体来说,自动化的手术工作流程识别可以解释当前正在进行的具体活动,并且有利于手术程序标准化。在术中在线执行的工作流程识别有助于提高手术效率,并辅助医生做出正确的决策,特别是对于经验较少的外科医生。另外,手术视频的自动工作流程识别对于外科医生技能评估和手术视频数据库的索引也很有用。
早期的研究通过使用各种信息来识别手术的工作流程或阶段,包括二进制仪器使用信号、射频识别标签,通过工具跟踪设备上的传感器或手术机器人获得的数据等。但收集这些信息通常需要繁琐的手动标签或其他设备的手术室集成,对于普通微创手术来说都是额外的工作负担。因此,研究人员已经尝试研究手术室中已存在的可用信息(例如,来自视频的视觉线索)来完成手术阶段识别。在视觉特征提取方面,低水平的传统视觉特征(例如强度和梯度,形状,颜色等)不足以表征复杂的外科手术视觉特征。
随着深度学习在医学领域的应用,近年来已提出利用卷积神经网络来提取手术视频中更多的视觉信息来识别手术阶段。然而,单纯使用视频的视觉信息来自动识别手术阶段是相当具有挑战性的。手术过程中产生的水雾会导致严重的场景模糊,增加了识别难度。另外,在复杂的手术过程中,摄像机可能并不总是聚焦于手术场景,会给视频图像带来额外的噪声和伪影。鉴于手术视频实际上是序列数据,为了应对这些挑战,许多研究致力于先从视频帧中提取具有区别性的视觉特征后,对帧之间的时间依赖性进行建模以提高识别精度。例如,一系列利用随机森林模型或条件随机场和隐马尔可夫模型(HMM)建模时间信息的方法被提出来。
但是,上述大多数方法都是预定义的线性模型,无法实现端到端的学习和优化。为此,有学者改进了时间信息建模的方法。在网络中集成了用于提取深层次视觉信息的高级残差网络,并引入了用于建立非线性时间依赖性的长期和短期记忆(LSTM)网络,从而通过端到端学习实现了最先进的手术流程识别性能。然而,在利用高级残差网络提取高层视觉信息的过程中,某些运动信息已经丢失。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于双流网络的腹腔镜手术阶段自动识别方法,其既能够满足识别任务的需求,又实现了网络端到端的训练优化,并且大大提升了腹腔镜手术阶段识别的准确度。
本发明的技术方案是:这种基于双流网络的腹腔镜手术阶段自动识别方法,其包括以下步骤:
(1)获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
(2)利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
(3)利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
(4)双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
本发明利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入,利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,通过共享卷积层与双流结构的串行,减少了网络的参数数量,因此既能够满足识别任务的需求,又实现了网络端到端的训练优化;双流网络分别获取视频图像的空间信息和时间信息,二者融合的互补性大大提升了腹腔镜手术阶段识别的准确度。
还提供了基于双流网络的腹腔镜手术阶段自动识别装置,其包括:
图像获取模块,其配置来获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
阶段识别模块,其配置来利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
信息提取模块,其配置来利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
特征融合模块,其配置来将双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
附图说明
图1是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的网络的整体架构。
图2是2D卷积的结构图,Shared CNN为图2左,Visual branch为图2右。
图3是3D卷积的结构图,即Temporal branch。
图4是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的流程图。
图5是根据本发明的基于双流网络的腹腔镜手术阶段自动识别方法的框架图。
具体实施方式
以往基于神经网络的方法通常采用‘顺序结构’,先进行深层次视觉信息提取,之后建模时间依赖。本方法将二者组成‘并行结构’,在获取深层次视觉信息的同时,可以减少进行时间依赖建模时的信息损失。
如图4所示,这种基于双流网络的腹腔镜手术阶段自动识别方法,其包括以下步骤:
(1)获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
(2)利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
(3)利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
(4)双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
本发明利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入,利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,通过共享卷积层与双流结构的串行,减少了网络的参数数量,因此既能够满足识别任务的需求,又实现了网络端到端的训练优化;双流网络分别获取视频图像的空间信息和时间信息,二者融合的互补性大大提升了腹腔镜手术阶段识别的准确度。
优选地,所述步骤(2)中,Shared CNN由BN-inception第一部分组成,该第一部分直到inception-3c层,负责获得N张尺寸为28*28的特征图作为后续双流网络结构的输入。BN-inception在inception网络基础上增加了batch-normalization的操作,使得网络增加了正则化的效果且可以采用更大的学习率可以加快训练速度。另外,相比性能相对优越的Resnet,BN-inception可以为网络的双流主体结构节省出更多的网络深度和宽度,轻量化的网络实时性能更优。
优选地,所述步骤(3)中,Visual branch在双流网络结构中用于获取更深层次的静态视觉语义信息,Visual branch是BN-inception的第二部分,该第二部分不包括全连接层;Visual branch末尾有两个平均池化层,前边的平均池化层负责为每一帧生成1024维特征向量;后边的平均池化层通过对batch通道相邻N张图做全局平均池化,以生成与Temporal branch相对应的视频级特征。
优选地,所述步骤(3)中,Temporal branch作用在堆叠的连续N帧图像上,被用来进行时间依赖的建模;鉴于3D CNN在处理视频数据时有良好的表现,另外Resnet的残差结构可以避免深层网络的梯度消失和退化,采用多层3D-Resnet18作为Temporal branch基础架构。此外,Shared CNN输出的特征图尺寸为28*28,因此网络结构直接从Resnet18的第三层开始。
优选地,所述步骤(3)中,在3D-Resnet18结构中嵌入非局部模块Non-local。非局部块的主要功能是突破传统卷积局部感受野的局限性,建立一像素点与其他所有点之间的关系。对于3D非局部模块,所谓的“所有其他点”不仅指同一图像上的点,还指不同图像上的点。因此,非局部块的嵌入不仅可以建模时间依赖性,还同时可以兼顾到空间全局信息。非局部模块实质上把视频额外的时空信息提取作为一个残差操作,不会更改通道数量和特征图大小,因此可以轻松有效地将其嵌入3D Resnet中以完善3DNet的功能。
优选地,所述步骤(3)中,在3D-Resnet18结构中,只在res3、res4、res5模块之后分别嵌入一个Non-local。
优选地,全局交叉熵损失为公式(1):
其中C表示类别的数量,z=[z0,...,zc-1]表示对应于全连接层fc的每个类的逻辑输出;
局部交叉熵损失为公式(2):
其中z'=[z0′,…,zc-1′]代表对应于全连接层fc'的每个类的逻辑输出;
其中B表示批次的大小,τ是阈值,y′b-1和y′b是同一批次中两相邻特征向量的逻辑输出,分别在批次维度上进行归一化;
总体损失为公式(4):
其中λ1,λ2是模型超参数,用于确定不同损失函数的贡献。
优选地,所述步骤(3)中,C=8;τ=3;λ1=0.1,λ2=0.15。
优选地,在所述步骤(2)之前还包括数据预处理,将原始25fps视频下采样为1fps,并预先将其尺寸从1920×1080调整为250×250;在输入到网络之前,通过224×224随机裁剪对图像做进一步的增强;所有手术阶段识别实验均以在线模式执行。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于双流网络的腹腔镜手术阶段自动识别装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。
该装置包括:
图像获取模块,其配置来获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
阶段识别模块,其配置来利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
信息提取模块,其配置来利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
特征融合模块,其配置来将双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
以下更详细地说明本发明。
在阶段识别方法中,通常是先提取视觉信息再提取时序关联信息进行识别。本文同时提取视觉和时序关联信息,在获取深层次视觉信息的同时可以减少进行时间依赖建模时的信息损失。如图1所示,共享卷积层(Shared CNN)作用于输入的连续N张图像,旨在获得尺寸为28*28的特征图。为了产生更具判别力的时空特征,堆叠的N张特征图整合为N*28*28的视频级数据被输入到时间依赖时序分支(Temporal branch)中。至于Visual branch,它被用来进一步提取深层次视觉语义信息。将双流网络输出的特征进行融合而非独立识别,这样可以利用视觉和时间特征的互补信息实现更准确的识别。
图2为网络中2D卷积的结构图,包括Shared CNN和Visual branch两部分,主要负责视觉语义信息的提取。图3为网络中3D卷积的结构图,即Temporal branch。在利用3D卷积捕捉时序关联的同时,可以兼顾视觉信息的提取,使得最后的视觉信息提取更充分。嵌入的非局部卷积模块,突破传统卷积局部感受野的局限性,可以建立一像素点与其他所有点之间的关系,对于提高Temporal branch的时序关联捕捉能力有很大帮助。
借鉴ECO视频理解网络框架,某些超参数设置是参考该网络设置的。使用8个连续帧(N=8)作为网络的输入,其大小为8×224×224。另外,由于利用连续8帧得到的预测结果作为第8帧的识别结果,因此对于每个视频的前7帧都不进行预测。这种方法完全可行,因为按照常识,视频的前7帧必然属于阶段0(套管针放置)。
将损失函数用公式表达出来如下:
全局交叉熵损失:
其中C表示类别的数量,本文中C=8。z=[z0,…,zc-1]表示对应于全连接层fc的每个类的逻辑输出(未经softmax的输出)。
局部交叉熵损失:
作用于Visual branch。为此,在Visual branch的末尾添加了额外的全连接层fc'。可以提高所有2D卷积层提取单个帧的视觉语义信息的能力,并进一步提高同时馈入Temporal branch分支的特征图的质量。
其中z'=[z0′,…,zc-1′]代表对应于全连接层fc'的每个类的逻辑输出。
截断的均方误差:
由于不同阶段数据的不均衡性(阶段0,7图像偏少,阶段2,4图像偏多),同一batch内相邻图像很有可能属于同一阶段。针对以上情况,受运动识别的启发,我们设计了一个batch通道激活的截断均方误差从而进一步提高识别效果。另外,mse损失本身也可以起到正则化的作用。
其中B表示批次的大小,τ是阈值(本实验中τ=3),y′b-1和y′b是同一批次中两相邻特征向量的逻辑输出,分别在批次维度上进行归一化。
总体损失:
其中λ1,λ2是模型超参数,用于确定不同损失函数的贡献。在本实验中,λ1=0.1,λ2=0.15。
数据预处理:
所用数据集为公开手术数据集,数据集包括27个带有阶段注释的胆囊切除术视频和8个手术阶段的标注。有经验的专家将胆囊切除手术划分为八个阶段,包括(0)套管针放置,(1)准备,(2)刀尖三角解剖,(3)剪裁,(4)胆囊解剖,(5)胆囊包装,(6)清洁和混凝,以及(7)胆囊回缩。在获取手术视频数据之后,将原始25fps视频下采样为1fps,并预先将其尺寸从1920×1080调整为250×250。在输入到网络之前,通过224×224随机裁剪对图像做进一步的增强。所有手术阶段识别实验均以在线模式执行,即在识别t时刻的手术阶段时,不会用到t时刻之后的视频图像。
评估标准:
对于阶段识别,使用精度(AC),精度(PR),召回率(RE)和F1分数来定量分析阶段识别的性能。PR和RE是分阶段计算的,F1分数可以看作是PR和RE的一种调和平均,定义分别为:
其中GT和P分别代表一个阶段的真值集和预测集。在计算每个阶段的PR和RE之后,我们将所有阶段的这些值取平均值,并获得整个视频的PR和RE。AC是直接以视频为单位计算的,定义为在整个视频中正确分类的帧的百分比。
本文展示了一种基于深度学习的手术阶段自动识别框架,用于学习手术视频有效的视觉信息与时序关联信息。利用BN_inception和嵌入non-
local模块的3D Resent18分别提取视觉特征和时序关联信息。最后将整个2D CNN提取的深层视觉特征与考虑时间依赖的特征相结合以完成识别任务。相较于以往采用CNN提取视觉特征后,送入LSTM提取时序关联信息的方法,提出的算法实现了最先进的端到端性能。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
1.基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:其包括以下步骤:
(1)获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
(2)利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
(3)利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
(4)双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
2.根据权利要求1所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(2)中,Shared CNN由BN-inception第一部分组成,该第一部分直到inception-3c层,负责获得N张尺寸为28*28的特征图作为后续双流网络结构的输入。
3.根据权利要求2所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(3)中,Visual branch在双流网络结构中用于获取更深层次的静态视觉语义信息,Visual branch是BN-inception的第二部分,该第二部分不包括全连接层;Visualbranch末尾有两个平均池化层,前边的平均池化层负责为每一帧生成1024维特征向量;后边的平均池化层通过对batch通道相邻N张图做全局平均池化,以生成与Temporal branch相对应的视频级特征。
4.根据权利要求3所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(3)中,Temporal branch作用在堆叠的连续N帧图像上,被用来进行时间依赖的建模;采用多层3D-Resnet18作为基础架构,网络结构从Resnet18的第三层开始。
5.根据权利要求4所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(3)中,在3D-Resnet18结构中嵌入非局部模块Non-local。
6.根据权利要求5所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(3)中,在3D-Resnet18结构中,只在res3、res4、res5模块之后分别嵌入一个Non-local。
7.根据权利要求6所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:
全局交叉熵损失为公式(1):
其中C表示类别的数量,z=[z0,...,zc-1]表示对应于全连接层fc的每个类的逻辑输出,未经softmax的输出;
局部交叉熵损失为公式(2):
其中z'=[z0′,…,zc-1′]代表对应于全连接层fc'的每个类的逻辑输出;
其中B表示批次的大小,τ是阈值,y′b-1和y′b是同一批次中两相邻特征向量的逻辑输出,分别在批次维度上进行归一化;
总体损失为公式(4):
其中λ1,λ2是模型超参数,用于确定不同损失函数的贡献。
8.根据权利要求7所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:所述步骤(3)中,C=8;τ=3;λ1=0.1,λ2=0.15。
9.根据权利要求1所述的基于双流网络的腹腔镜手术阶段自动识别方法,其特征在于:在所述步骤(2)之前还包括数据预处理,将原始25fps视频下采样为1fps,并预先将其尺寸从1920×1080调整为250×250;在输入到网络之前,通过224×224随机裁剪对图像做进一步的增强;所有手术阶段识别实验均以在线模式执行。
10.基于双流网络的腹腔镜手术阶段自动识别装置,其特征在于:其包括:
图像获取模块,其配置来获取腹腔镜胆囊切除手术视频,得到视频关键帧序列;
阶段识别模块,其配置来利用共享卷积层Shared CNN同时对N张图像的视觉特征进行初步提取,得到的特征图作为后续双流网络结构的输入;
信息提取模块,其配置来利用双流网络结构分别提取视频序列的时间关联信息和深层视觉语义信息,其中视觉分支Visual branch承接Shared CNN进一步提取深层视觉语义信息,时序分支Temporal branch利用三维卷积和非局部卷积,充分捕获相邻N张图像的时间关联信息;
特征融合模块,其配置来将双流网络结构提取到的深层视觉语义信息与时间关联信息互为补充,利用融合后特征得到手术阶段识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420545.3A CN111783520A (zh) | 2020-05-18 | 2020-05-18 | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420545.3A CN111783520A (zh) | 2020-05-18 | 2020-05-18 | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783520A true CN111783520A (zh) | 2020-10-16 |
Family
ID=72753916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010420545.3A Pending CN111783520A (zh) | 2020-05-18 | 2020-05-18 | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783520A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560602A (zh) * | 2020-12-02 | 2021-03-26 | 中山大学中山眼科中心 | 一种白内障手术步骤的识别方法及装置 |
CN112818959A (zh) * | 2021-03-25 | 2021-05-18 | 杭州海康威视数字技术股份有限公司 | 手术流程识别方法、装置、系统及计算机可读存储介质 |
CN113284110A (zh) * | 2021-05-26 | 2021-08-20 | 复旦大学附属中山医院 | 基于双流法的胃镜视频部位识别网络结构 |
CN113813053A (zh) * | 2021-09-18 | 2021-12-21 | 长春理工大学 | 一种基于腹腔镜内窥影像的手术进程分析方法 |
CN113888541A (zh) * | 2021-12-07 | 2022-01-04 | 南方医科大学南方医院 | 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 |
CN114005022A (zh) * | 2021-12-30 | 2022-02-01 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114372962A (zh) * | 2021-12-27 | 2022-04-19 | 华南理工大学 | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 |
CN114842394A (zh) * | 2022-05-17 | 2022-08-02 | 西安邮电大学 | 基于Swin Transformer的手术视频流程自动识别方法 |
CN115187596A (zh) * | 2022-09-09 | 2022-10-14 | 中国医学科学院北京协和医院 | 用于腹腔镜结直肠癌手术的神经智能辅助识别系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132785A1 (en) * | 2015-11-09 | 2017-05-11 | Xerox Corporation | Method and system for evaluating the quality of a surgical procedure from in-vivo video |
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
CN110298332A (zh) * | 2019-07-05 | 2019-10-01 | 海南大学 | 行为识别的方法、系统、计算机设备和存储介质 |
CN110765835A (zh) * | 2019-08-19 | 2020-02-07 | 中科院成都信息技术股份有限公司 | 一种基于边缘信息的手术视频流程识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN110991278A (zh) * | 2019-11-20 | 2020-04-10 | 北京影谱科技股份有限公司 | 计算机视觉系统的视频中人体动作识别方法和装置 |
-
2020
- 2020-05-18 CN CN202010420545.3A patent/CN111783520A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132785A1 (en) * | 2015-11-09 | 2017-05-11 | Xerox Corporation | Method and system for evaluating the quality of a surgical procedure from in-vivo video |
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
CN110298332A (zh) * | 2019-07-05 | 2019-10-01 | 海南大学 | 行为识别的方法、系统、计算机设备和存储介质 |
CN110765835A (zh) * | 2019-08-19 | 2020-02-07 | 中科院成都信息技术股份有限公司 | 一种基于边缘信息的手术视频流程识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN110991278A (zh) * | 2019-11-20 | 2020-04-10 | 北京影谱科技股份有限公司 | 计算机视觉系统的视频中人体动作识别方法和装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560602A (zh) * | 2020-12-02 | 2021-03-26 | 中山大学中山眼科中心 | 一种白内障手术步骤的识别方法及装置 |
CN112818959A (zh) * | 2021-03-25 | 2021-05-18 | 杭州海康威视数字技术股份有限公司 | 手术流程识别方法、装置、系统及计算机可读存储介质 |
CN112818959B (zh) * | 2021-03-25 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 手术流程识别方法、装置、系统及计算机可读存储介质 |
CN113284110A (zh) * | 2021-05-26 | 2021-08-20 | 复旦大学附属中山医院 | 基于双流法的胃镜视频部位识别网络结构 |
CN113813053A (zh) * | 2021-09-18 | 2021-12-21 | 长春理工大学 | 一种基于腹腔镜内窥影像的手术进程分析方法 |
CN113888541A (zh) * | 2021-12-07 | 2022-01-04 | 南方医科大学南方医院 | 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 |
CN114372962A (zh) * | 2021-12-27 | 2022-04-19 | 华南理工大学 | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 |
CN114005022A (zh) * | 2021-12-30 | 2022-02-01 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114005022B (zh) * | 2021-12-30 | 2022-03-25 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114842394A (zh) * | 2022-05-17 | 2022-08-02 | 西安邮电大学 | 基于Swin Transformer的手术视频流程自动识别方法 |
CN114842394B (zh) * | 2022-05-17 | 2024-04-16 | 西安邮电大学 | 基于Swin Transformer的手术视频流程自动识别方法 |
CN115187596A (zh) * | 2022-09-09 | 2022-10-14 | 中国医学科学院北京协和医院 | 用于腹腔镜结直肠癌手术的神经智能辅助识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783520A (zh) | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 | |
CN109815919B (zh) | 一种人群计数方法、网络、系统和电子设备 | |
Singh et al. | Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods | |
Mocanu et al. | Deep-see face: A mobile face recognition system dedicated to visually impaired people | |
CN111160264A (zh) | 一种基于生成对抗网络的漫画人物身份识别方法 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN108564582B (zh) | 一种基于深度神经网络的mri脑肿瘤图像自动优化方法 | |
JP2022082493A (ja) | ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法 | |
Yin et al. | Dynamic difference learning with spatio-temporal correlation for deepfake video detection | |
CN116311384A (zh) | 基于中间模态和表征学习的跨模态行人重识别方法、装置 | |
CN110087097B (zh) | 一种基于电子内窥镜的自动去除无效视频剪辑方法 | |
CN114372962A (zh) | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 | |
CN109871790A (zh) | 一种基于混合神经网络模型的视频去色方法 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning | |
CN112949451A (zh) | 通过模态感知特征学习的跨模态目标跟踪方法及系统 | |
CN110992320B (zh) | 一种基于双重交错的医学图像分割网络 | |
Guo et al. | Efficient shadow detection and removal using synthetic data with domain adaptation | |
Yoon et al. | Object-centric scene understanding for image memorability prediction | |
CN111368663A (zh) | 自然场景中静态面部表情识别方法、装置、介质及设备 | |
CN116092189A (zh) | 一种基于rgb数据和骨骼数据的双模态人体行为识别方法 | |
CN116189027A (zh) | 基于多层特征融合的Faster R-cnn上下文机制优化方法 | |
CN116188486A (zh) | 一种面向腹腔镜肝脏手术的视频分割方法及系统 | |
Pang et al. | Rethinking feature extraction: Gradient-based localized feature extraction for end-to-end surgical downstream tasks | |
CN114897887A (zh) | 基于改进YOLOv5s的X光安检图像违禁物品检测方法 | |
CN114724058A (zh) | 基于人体姿态识别的融合特征运动类视频关键帧提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201016 |
|
RJ01 | Rejection of invention patent application after publication |