CN112037263A - 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 - Google Patents
基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 Download PDFInfo
- Publication number
- CN112037263A CN112037263A CN202010961112.9A CN202010961112A CN112037263A CN 112037263 A CN112037263 A CN 112037263A CN 202010961112 A CN202010961112 A CN 202010961112A CN 112037263 A CN112037263 A CN 112037263A
- Authority
- CN
- China
- Prior art keywords
- surgical tool
- frame image
- neural network
- frame
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 54
- 230000015654 memory Effects 0.000 title claims description 31
- 230000033001 locomotion Effects 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 abstract description 6
- 230000007787 long-term memory Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 44
- 238000012549 training Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002674 endoscopic surgery Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- -1 machinery Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于卷积神经网络和长短期记忆网络的手术工具跟踪系统,获取模块,获取内窥镜手术工具工作状态视频流,从视频流中提取相邻两帧图像;对第一帧图像的手术工具边界框进行标记;特征提取模块,对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;特征融合模块,将特征输入到第一LSTM模型中,第一LSTM模型对手术工具的空间运动特征进行处理得到第一特征向量;特征识别模块,将特征与第一特征向量进行融合后,输入到第二LSTM模型中,第二LSTM模型输出第二特征向量;对第二特征向量输入到全连接层中,得到最终特征向量;得到第二帧图像的手术工具的边界框。
Description
技术领域
本申请涉及内窥镜手术工具跟踪技术领域,特别是涉及基于卷积神经网络和长短期记忆网络的手术工具跟踪系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
计算机辅助手术是集医学、机械、材料学、计算机技术、信息管理、通讯技术等诸多学科为一体的新型交叉研究领域。其目的是:使用计算机技术(主要是计算机图形学技术)来解决医学手术所涉及的各种问题,包括手术规划、手术导航、辅助性治疗规划等。
手术工具跟踪算法:是利用手术工具跟踪技术、深度学习技术,分析视频图像,确定微创手术工具的位置和空间姿态,为外科手术医生或者手术机器人提供精确且实时的导航,使手术过程更加顺利安全。
手术工具跟踪算法的研究始于美国斯坦福大学医学博士Robets,他将计算机辅助手术工具跟踪算法用在临床中,他将手术显微镜和CT图像结合起来,并利用超声定位来实施手术导航。而我国对这个领域的研究起步较晚,最早提出的是一种电磁跟踪的方法。随着卷积神经网络和深度学习的复兴,基于深度学习的手术工具跟踪算法随之被提出,并在此领域取得良好的效果。发明人发现,使用基于深度学习的目标检测算法来做手术跟踪跟踪,虽然可以保证较高的准确度,但是对算力和计算机硬件水平要求较高。
发明内容
为了解决现有技术的不足,本申请提供了基于卷积神经网络和长短期记忆网络的手术工具跟踪系统;将卷积神经网络和循环神经网络结合到一起,能够将时间信息纳入网络模型中。而不是专注于有限的数据集或在测试时训练模型以跟踪特定目标;提高了手术工具跟踪的速度、抗干扰力,降低了对算力的要求。
第一方面,本申请提供了基于卷积神经网络和长短期记忆网络的手术工具跟踪系统;
基于卷积神经网络和长短期记忆网络的手术工具跟踪系统,包括:
获取模块,其被配置为:获取内窥镜手术工具工作状态视频流,从视频流中提取相邻两帧图像;所述相邻两帧图像分别为:第一帧图像和第二帧图像;对第一帧图像的手术工具边界框进行标记;
特征提取模块,其被配置为:对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;
特征融合模块,其被配置为:将手术工具的空间运动特征输入到第一LSTM模型中,第一LSTM模型对手术工具的空间运动特征进行处理得到第一特征向量;
特征识别模块,其被配置为:将手术工具的空间运动特征与第一特征向量进行融合后,输入到第二LSTM模型中,第二LSTM模型输出第二特征向量;对第二特征向量输入到全连接层中,得到最终特征向量;根据所述最终特征向量,得到第二帧图像的手术工具的边界框。
第二方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的系统的功能。
第三方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的系统的功能。
与现有技术相比,本申请的有益效果是:
1、本发明利用了手术工具的运动特征,而不是像目标检测网络一样,仅仅依靠工具的外观特征来判断手术工具的位置。我们的网络通过卷积神经网络提取外观特征。然后比较前后两帧的特征向量的差距,学习并记忆了手术工具的运动特征,大大减小了程序运算时间,提高了检测速度,实时性好,满足实时检测要求。
2、由于输入到网络的图像是裁剪下来的而不是原图像,所以单个网络只能跟踪单个目标开启多线程可以同时跟踪多个工具。
3、不同深度的卷积神经网络提取不同层次的外观特征,两个LSTM模块学习并记忆手术工具的运动特征,最后回归出手术工具的位置。使用时要提前预训练卷积神经网络,测试时不更新卷积神经网络的参数,而是调节LSTM神经网络的参数来表示跟踪状态,通过这种方式,网络可以学习并记忆工具的运动特征。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的训练使用的数据集及跟踪效果图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
术语解释:
CNN,Convolutional Neural Network的缩写,是一类包含卷积计算且具有深度结构的前馈神经网络,主要用于对图片上的特征进行提取。
LSTM,Long Short-Term Memory的缩写,是一种时间循环神经网络,是为了解决一般的循环神经忘了存在的长期依赖问题而专门设计出来的,所有的循环神经网络都具有一种重复神经网络模块的链式形式。LSTM主要用于对手术工具的空间特征进行记忆与更新。
实施例一
本实施例提供了基于卷积神经网络和长短期记忆网络的手术工具跟踪系统;
基于卷积神经网络和长短期记忆网络的手术工具跟踪系统,包括:
获取模块,其被配置为:获取内窥镜手术工具工作状态视频流,从视频流中提取相邻两帧图像;所述相邻两帧图像分别为:第一帧图像和第二帧图像;对第一帧图像的手术工具边界框进行标记;
特征提取模块,其被配置为:对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;
特征融合模块,其被配置为:将手术工具的空间运动特征输入到第一LSTM模型中,第一LSTM模型对手术工具的空间运动特征进行处理得到第一特征向量;
特征识别模块,其被配置为:将手术工具的空间运动特征与第一特征向量进行融合后,输入到第二LSTM模型中,第二LSTM模型输出第二特征向量;对第二特征向量输入到全连接层中,得到最终特征向量;根据所述最终特征向量,得到第二帧图像的手术工具的边界框。
作为一个或多个实施例,对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;具体步骤包括:
将第一帧图像输入到第一卷积神经网络中,得到第一张量;将第二帧图像输入到第二卷积神经网络中,得到第二张量;将第一张量与第二张量进行拼接,得到第三张量;将第三张量输入到全连接层中进行处理,得到手术工具的空间运动特征。
作为一个或多个实施例,所述对第一帧图像的手术工具边界框进行标记,允许采用手动标记,或者采用神经网络进行标记。
作为一个或多个实施例,所述将第一帧图像输入到第一卷积神经网络中,得到第一张量;具体步骤包括:
将第一帧图像输入到第一卷积神经网络中,提取第一帧图像中手术工具的第一低级特征和第一高级特征;将第一低级特征和第一高级特征进行拼接,得到第一张量。
作为一个或多个实施例,所述将第二帧图像输入到第二卷积神经网络中,得到第二张量;具体步骤包括:
将第二帧图像输入到第二卷积神经网络中,提取第二帧图像的第二低级特征和第二高级特征;将第二低级特征和第二高级特征进行拼接,得到第二张量。
进一步地,所述第一卷积神经网络与第二卷积神经网络的内部结构是一样的。
所述第一卷积神经网络,包括:依次连接的第一卷积层和第一池化层,所述第一池化层的输出端与两个并列的分支连接,其中第一个分支包括依次连接的第二卷积层、第三卷积层、第四卷积层和第五卷积层;第二卷积层的输入端与第一池化层的输出端连接;第二个分支包括依次连接的第六卷积层和第七卷积层;第六卷积层的输入端与第一池化层的输出端连接;所述第五卷积层的输出端和第七卷积层的输出端与拼接单元连接。
第二卷积神经网络的输出端也与拼接单元连接。
应理解的,所述第一卷积神经网络的工作原理与第二卷积神经网络的工作原理是一样的。
进一步地,第一卷积神经网络的工作原理为:
第一卷积层对输入图像做卷积操作,将得到的特征图输入到第一池化层中进行处理;将第一池化层处理后的特征图分别送入第一分支和第二分支中,其中第一分支提取手术工具的低级特征(例如:边角特征);第二分支提取手术工具的高级特征(例如:颜色特征和轮廓特征)。
应理解的,所述第一卷积神经网络与第二卷积神经网络均为经过预训练得到的卷积神经网络;所述第一卷积神经网络与第二卷积神经网络的预训练步骤是一样的,其中,第一卷积神经网络的预训练的步骤包括:
构建训练集;所述训练集是视频数据集ILSVRC(ImageNet Large Scale VisualRecognition Challenge)2016;
构建第一卷积神经网络;
将训练集输入到第一卷积神经网络中进行训练,得到训练好的第一卷积神经网络。
应理解的,所述第一LSTM模型的工作原理与第二LSTM模型的工作原理是一样的。
进一步地,第一LSTM模型的工作原理为:
将两帧图像中的手术工具空间运动特征与视频流中的手术工具空间运动特征进行融合,由输入门对两帧的特征进行筛选,由遗忘门对视频流中的特征进行筛选,最终由输出门输出一个特征向量。
应理解的,所述视频流中的手术工具空间特征,是指将视频流输入到第一LSTM模型中后,在第一LSTM模型中驻留的数据特征。
进一步地,所述第一帧图像的长边为第一帧图像的手术工具边界框的长边的两倍;所述第一帧图像的短边为第一帧图像的手术工具边界框的短边的两倍;手术工具边界框在第一帧图像中居中显示。
进一步地,所述第二帧图像的长边为第一帧图像的手术工具边界框的长边的两倍;所述第二帧图像的短边为第一帧图像的手术工具边界框的短边的两倍。
进一步地,第二帧图像裁剪的位置与第一帧图像裁剪的位置是相同的。
应理解的,裁剪框相对于原始边界框的倍数的大小可以根据手术工具运动的极限速度调整,我们使用两倍。一般两倍大小就可以保证下一帧裁剪的图像里完整的包含了整个手术工具。
通过将相邻两帧的裁剪图像分别输入到第一卷积神经网络和第二卷积神经网络中,第一卷积神经网络和第二卷积神经网络可以直接比较前后两帧特征向量的不同,长短期记忆LSTM模型可以学习并记忆运动是如何影响图像像素变化的。
边界框的大小是变化的,为了使输入到网络的图像大小固定,将裁剪的图像整型到227*227。
第一卷积神经网络和第二卷积神经网络的一个主要的子任务是将视频流中的原始像素转换为更高级别的特征向量表示,这里选用卷积神经网络提取特征,使用大量的训练样本进行端到端的预训练,如果不预训练,则网络收敛的速度会变慢。
为了迅速的降低特征图的大小,第一卷积层采用11*11*3的卷积核对输入的图像做卷积;第一卷积层卷积的步长为4(此参数可根据手术工具在视野中的大小来调整,尺寸越大,步长也就可以越大);第一卷积层的激活函数使用ReLU。
经过第一卷积层的卷积后,将特征图输入到2*2且步长为2的第一池化层中;
第一卷积神经网络的两个并列的分支将得到得特征图分两步使用,即进行两种不同层级的卷积,从而提取不同级别的特征;
第一个分支将得到得特征图,经过两个5*5*3,步长为2的卷积层;得到新的特征图;此步骤得到的是手术工具的低级特征,如边角特征等;
第二个分支将得到得特征图,经过四个5*5*3,步长为2的卷积层;得到新的特征图,此步骤得到的是手术工具的高级特征,如颜色、大致轮廓等;
将第一分支得到的特征图和第二分支得到的特征图进行展开为一维的张量,此张量代表了手术工具不同层级的外观特征,使用这种跳跃链接的方式,当空间分辨率降低时可以得到足够的特征,从而提高跟踪的准确率;
将第一帧图像和第二帧图像卷积池化展开得到的第一张量与第二张量级联,得到一个第三张量;第三张量经过一个全连接层,降低了张量中的数据量,得到了手术工具的空间运动特征;
手术工具的空间运动特征输入到第一LSTM模型,同时输入的还有视频流中工具的运动特征;
第一LSTM模型对当前帧手术工具的空间运动特征与之前视频流中的工具空间运动特征进行融合,由输入门对当前帧的特征进行筛选,由遗忘门对之前的空间特征进行筛选,最终由输出门输出一个特征向量(此特征向量还要作为第二LSTM模型的输入);
第一LSTM模型得到的张量与第三张量进行级联,输入到第二个LSTM模块中,第二个LSTM模块的工作原理与第一个LSTM模块类似;
使用第一LSTM模型和第二LSTM模型(外观特征同时输入到这两个模块中),比单层LSTM模型的表现要好,因为两层的LSTM模块可以捕获、学习、记忆更复杂的手术工具运动信息,从而使得即使手术工具在运动时被遮挡,跟踪结果依然准确;
第二LSTM模型输出的张量(1*1024)经过全连接,得到一个最终特征向量(1*4);
最终特征向量表示的是裁剪的两张图像的第二张中工具的位置(左上角、右下角的横纵坐标);使用L1范数损失函数,使结果逼近于真实值;
调用opencv函数库,根据(x1,y1)左上角、(x2,y2)右下角坐标在第二帧图像上画出新的边界框的位置。
训练阶段:
结合使用真实数据和模拟数据(3个视频,7个手术工具,10000张图片)来训练我们的深度学习网络。这使我们的跟踪网络能够在不同的场景下跟踪各种各样的手术工具;
由于训练数据的标定工作量很大,选用30%的数据进行训练,初步得到的网络去预处理剩下的70%的图片,然后再手动矫正,减少标定的工作量;
测试阶段:
为了生成实时的预测,我们把相邻两帧的裁剪图像输入到网络中,经过32次迭代,然后重置LSTM的状态。
图1为本发明的流程图;图中右上角是各模块的含义;流程图的卷积神经网络,提取工具的外观特征,跳跃连接得到一个不同层级的特征图(我们的网络用了两种不同层级的特征);流程图的两个LSTM模块,学习并记忆工具的运动特征。
LSTM(Long Short-Term Memory)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。这里没有用普通的神经网络的原因是一般神经网络没有考虑整个视频流中数据的持续影响。考虑到这点或者说为了解决传统卷积神经网络不能捕捉和利用前面的整个视频流的特征,所以这里我们使用LSTM模块来做长期的学习和记忆。LSTM的长短期记忆原理较为复杂,长期记忆是手术工具的运动规律,短期记忆的是手术工具前后两帧特征图变化;下面是对LSTM原理的解释:
步骤一:选择(ceil state)记忆细胞状态是中要被丢弃的信息,这一步由被称为“遗忘门”的sigmoid layer(激活层)完成;sigmoid layer(激活层)根据输入ht-1和xt,并为cell state(细胞状态)Ct-1中每个值输出一个介于0-1之间的数字。当输出为1表示完全保留这个cell state(细胞状态)信息,当输出为0表示完全抛弃。
步骤二:接下来选择和决定要存入到cell state(细胞状态)的新信息。这一步骤有两个部分。首先,被称为“输入门”的sigmoid layer(激活函数)决定我们将更新哪些值。接下来,tanh层创建一个新的候选值向量Ct,可以添加到状态中。接下来,我们将结合这两者来完成cell state(细胞状态)的更新。经实验表明,用一个LSTM模块来学习并记忆手术工具的运动特征远没有两个LSTM模块准确。图2为训练使用的数据集及跟踪效果图。
实验环境:我们在Pytorch 0.4.1(Ubuntu)上实现了本发明中提出的跟踪方法,使用NVIDIA GeForce GTX TITAN X GPU加速器的16.04LTS
具体步骤如下:
使用Pytorch机器学习库搭建网络:调用其中的卷积层、激活函数、池化层、全连接层、LSTM模块;
确定各层的参数:根据被跟踪目标及背景的复杂度确定各层的深度,卷积层尺度为5*5*3,步长为2;池化层尺度为2*2,步长为2;
确定深度学习算法及参数:使用Adam算法训练网络,初始学习率为1*10-5,权重衰减率为5*10-4;
为了评估我们的跟踪方法的准确性,我们使用以下评估方法:如果预测边界框与真实的边界框的交并比(IoU)大于0.5,我们认为该工具已成功跟踪;
为了更准确地评估该发明中提出的网络结构,我们还使用基于距离评估方法进行评估;如果预测边界框的中心与真实边界框的中心之间的距离小于图像坐标中的阈值,则认为手术工具在当前帧是跟踪成功的。
实验结果表明:卷积神经网络提取外观特征外加LSTM模块学习并记忆运动特征的跟踪算法在跟踪单个手术工具时取得的很好的效果。虽然我们的网络相对于目标检测网络来说是轻量级的;但如果不加以优化,用多个线程对多个手术工具进行跟踪也是会消耗大量的CPU资源和算力。
下面将描述此网络在进行多个手术工具跟踪时的一些改动;
输入图像先进行预处理:遍历整张图上的所有像素点,如果此像素点的红色通道的值明显大于蓝色通道和绿色通道的值,则认为此像素点属于背景,同理,如果此像素点三通道的值相近,则认为此像素点属于手术工具。此推论是基于真实内窥镜手术场景下建立的,其背景为组织器官、血液,偏向于红色;手术工具多呈金属色,银白色;但如果是一些模拟实验的数据,比如用模拟的器官做的实验,则不一定满足这个条件。真实手术场景下,按照此推论,输入图像可以由三通道减少为二通道(红绿或红蓝),然后等比例的缩减网络中各层的层数,降低单个工具的跟踪成本,从而使得使多线程跟踪多个手术工具时也能达到实时的效果。
手术工具跟踪时,记录下手术工具尖端的运动轨迹,运动速度等参数,术后与标准的手术流程做对比;进行术后评价;
记录多次手术中同种手术工具运动的平均极限速度和加速度,从而在新一次手术工具跟踪时给出一个阈值参考;例如手术工具速度运动过快或加速度过大则标定的边界框标记为红色,起到一个警示的作用;
为了避免该算法中第一帧数据需要手动标定;可以使用目标检测网络(YOLO3)检测出手术工具在第一帧中出现的位置。
卷积神经网络提取外观特征,不同层级的外观特征级联;前后两帧的多层次外观特征级联后输入到LSTM模块中;LSTM模块经过遗忘门、输入门、输出门,得到新的特征向量;得到的特征向量与得到的特征向量级联;得到的特征向量经过一个全连接层,输出一个1*4的张量,表示下一帧的边界框的左上角和右下角的坐标;调用opencv库函数,在当前帧画出边界框的位置。
本发明利用了手术工具的运动特征,而不是像目标检测网络一样只利用单帧的手术工具的外观特征;大大减小了程序运算时间,提高了检测速度,实时性好,满足实时检测要求。本发明采用卷积神经网络进行特征提取,然后使用不同维度的特征向量进行级联,输入到长短期记忆网络中,最后用长短期记忆网络的输出回归出边界框的坐标,经实验表明,使用我们提出的算法来进行手术工具跟踪对光照变化和遮挡情况有较好的鲁棒性,并且检测精度和速度也完全达到实用要求。
实施例二
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的系统的功能。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例三
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的系统的功能。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于卷积神经网络和长短期记忆网络的手术工具跟踪系统,其特征是,包括:
获取模块,其被配置为:获取内窥镜手术工具工作状态视频流,从视频流中提取相邻两帧图像;所述相邻两帧图像分别为:第一帧图像和第二帧图像;对第一帧图像的手术工具边界框进行标记;
特征提取模块,其被配置为:对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;
特征融合模块,其被配置为:将手术工具的空间运动特征输入到第一LSTM模型中,第一LSTM模型对手术工具的空间运动特征进行处理得到第一特征向量;
特征识别模块,其被配置为:将手术工具的空间运动特征与第一特征向量进行融合后,输入到第二LSTM模型中,第二LSTM模型输出第二特征向量;对第二特征向量输入到全连接层中,得到最终特征向量;根据所述最终特征向量,得到第二帧图像的手术工具的边界框。
2.如权利要求1所述的系统,其特征是,所述对第一帧图像和第二帧图像进行特征提取,得到手术工具的空间运动特征;具体步骤包括:
将第一帧图像输入到第一卷积神经网络中,得到第一张量;将第二帧图像输入到第二卷积神经网络中,得到第二张量;将第一张量与第二张量进行拼接,得到第三张量;将第三张量输入到全连接层中进行处理,得到手术工具的空间运动特征。
3.如权利要求2所述的系统,其特征是,所述将第一帧图像输入到第一卷积神经网络中,得到第一张量;具体步骤包括:
将第一帧图像输入到第一卷积神经网络中,提取第一帧图像中手术工具的第一低级特征和第一高级特征;将第一低级特征和第一高级特征进行拼接,得到第一张量。
4.如权利要求2所述的系统,其特征是,所述将第二帧图像输入到第二卷积神经网络中,得到第二张量;具体步骤包括:
将第二帧图像输入到第二卷积神经网络中,提取第二帧图像的第二低级特征和第二高级特征;将第二低级特征和第二高级特征进行拼接,得到第二张量。
5.如权利要求2所述的系统,其特征是,所述第一卷积神经网络,包括:依次连接的第一卷积层和第一池化层,所述第一池化层的输出端与两个并列的分支连接,其中第一个分支包括依次连接的第二卷积层、第三卷积层、第四卷积层和第五卷积层;第二卷积层的输入端与第一池化层的输出端连接;第二个分支包括依次连接的第六卷积层和第七卷积层;第六卷积层的输入端与第一池化层的输出端连接;所述第五卷积层的输出端和第七卷积层的输出端与拼接单元连接。
6.如权利要求2所述的系统,其特征是,第一卷积神经网络的工作原理为:
第一卷积层对输入图像做卷积操作,将得到的特征图输入到第一池化层中进行处理;将第一池化层处理后的特征图分别送入第一分支和第二分支中,其中第一分支提取手术工具的低级特征;第二分支提取手术工具的高级特征。
7.如权利要求1所述的系统,其特征是,第一LSTM模型的工作原理为:
将两帧图像中的手术工具空间运动特征与视频流中的手术工具空间运动特征进行融合,由输入门对两帧的特征进行筛选,由遗忘门对视频流中的特征进行筛选,最终由输出门输出一个特征向量。
8.如权利要求1所述的系统,其特征是,所述第一帧图像的长边为第一帧图像的手术工具边界框的长边的两倍;所述第一帧图像的短边为第一帧图像的手术工具边界框的短边的两倍;手术工具边界框在第一帧图像中居中显示;
所述第二帧图像的长边为第一帧图像的手术工具边界框的长边的两倍;所述第二帧图像的短边为第一帧图像的手术工具边界框的短边的两倍;
第二帧图像裁剪的位置与第一帧图像裁剪的位置是相同的。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-8任一项所述的系统的功能。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-8任一项所述的系统的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010961112.9A CN112037263B (zh) | 2020-09-14 | 2020-09-14 | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010961112.9A CN112037263B (zh) | 2020-09-14 | 2020-09-14 | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037263A true CN112037263A (zh) | 2020-12-04 |
CN112037263B CN112037263B (zh) | 2024-03-19 |
Family
ID=73589139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010961112.9A Active CN112037263B (zh) | 2020-09-14 | 2020-09-14 | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037263B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699879A (zh) * | 2020-12-30 | 2021-04-23 | 山东大学 | 基于注意力引导的实时微创手术工具检测方法及系统 |
CN113850186A (zh) * | 2021-09-24 | 2021-12-28 | 中国劳动关系学院 | 基于卷积神经网络的智能流媒体视频大数据分析方法 |
CN114220060A (zh) * | 2021-12-24 | 2022-03-22 | 萱闱(北京)生物科技有限公司 | 基于人工智能的器具标注方法、装置、介质和计算设备 |
CN115359873A (zh) * | 2022-10-17 | 2022-11-18 | 成都与睿创新科技有限公司 | 用于手术质量的控制方法 |
WO2023105467A1 (en) * | 2021-12-08 | 2023-06-15 | Verb Surgical Inc. | Tracking multiple surgical tools in a surgical video |
WO2023193238A1 (zh) * | 2022-04-08 | 2023-10-12 | 中国科学院深圳先进技术研究院 | 一种手术器械、行为和目标组织联合识别的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410242A (zh) * | 2018-09-05 | 2019-03-01 | 华南理工大学 | 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及系统 |
CN110211152A (zh) * | 2019-05-14 | 2019-09-06 | 华中科技大学 | 一种基于机器视觉的内窥镜器械跟踪方法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN111652175A (zh) * | 2020-06-11 | 2020-09-11 | 山东大学 | 应用于机器人辅助手术视频分析的实时手术工具检测方法 |
-
2020
- 2020-09-14 CN CN202010961112.9A patent/CN112037263B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410242A (zh) * | 2018-09-05 | 2019-03-01 | 华南理工大学 | 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及系统 |
CN110211152A (zh) * | 2019-05-14 | 2019-09-06 | 华中科技大学 | 一种基于机器视觉的内窥镜器械跟踪方法 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN111652175A (zh) * | 2020-06-11 | 2020-09-11 | 山东大学 | 应用于机器人辅助手术视频分析的实时手术工具检测方法 |
Non-Patent Citations (1)
Title |
---|
孙洁娣 等: "深度卷积长短期记忆网络的轴承故障诊断", 机械科学与技术 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699879A (zh) * | 2020-12-30 | 2021-04-23 | 山东大学 | 基于注意力引导的实时微创手术工具检测方法及系统 |
CN113850186A (zh) * | 2021-09-24 | 2021-12-28 | 中国劳动关系学院 | 基于卷积神经网络的智能流媒体视频大数据分析方法 |
WO2023105467A1 (en) * | 2021-12-08 | 2023-06-15 | Verb Surgical Inc. | Tracking multiple surgical tools in a surgical video |
CN114220060A (zh) * | 2021-12-24 | 2022-03-22 | 萱闱(北京)生物科技有限公司 | 基于人工智能的器具标注方法、装置、介质和计算设备 |
WO2023193238A1 (zh) * | 2022-04-08 | 2023-10-12 | 中国科学院深圳先进技术研究院 | 一种手术器械、行为和目标组织联合识别的方法及装置 |
CN115359873A (zh) * | 2022-10-17 | 2022-11-18 | 成都与睿创新科技有限公司 | 用于手术质量的控制方法 |
CN115359873B (zh) * | 2022-10-17 | 2023-03-24 | 成都与睿创新科技有限公司 | 用于手术质量的控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112037263B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037263B (zh) | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 | |
CN108960086B (zh) | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 | |
CN106709461B (zh) | 基于视频的行为识别方法及装置 | |
CN111401517B (zh) | 一种感知网络结构搜索方法及其装置 | |
CN109190537A (zh) | 一种基于掩码感知深度强化学习的多人物姿态估计方法 | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN107529650A (zh) | 网络模型的构建和闭环检测方法、相应装置及计算机设备 | |
JP7263216B2 (ja) | ワッサースタイン距離を使用する物体形状回帰 | |
CN108121995A (zh) | 用于识别对象的方法和设备 | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
CN111611851B (zh) | 模型生成方法、虹膜检测方法及装置 | |
CN113673510A (zh) | 一种结合特征点和锚框共同预测和回归的目标检测算法 | |
CN111768375A (zh) | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 | |
CN113706579A (zh) | 一种基于工厂化养殖的对虾多目标跟踪系统及方法 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN113673505A (zh) | 实例分割模型的训练方法、装置、系统及存储介质 | |
CN110705564B (zh) | 图像识别的方法和装置 | |
CN115578770A (zh) | 基于自监督的小样本面部表情识别方法及系统 | |
Zhang et al. | Surgical gesture recognition based on bidirectional multi-layer independently RNN with explainable spatial feature extraction | |
CN117854155B (zh) | 一种人体骨骼动作识别方法及系统 | |
CN115565146A (zh) | 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 | |
CN111339934A (zh) | 一种融合图像预处理与深度学习目标检测的人头检测方法 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning | |
CN114792401A (zh) | 行为识别模型的训练方法、装置、设备及存储介质 | |
CN116958872A (zh) | 一种羽毛球运动的智能化辅助训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |