CN113361437A - 一种微创手术器械类别及位置检测方法与系统 - Google Patents
一种微创手术器械类别及位置检测方法与系统 Download PDFInfo
- Publication number
- CN113361437A CN113361437A CN202110667703.XA CN202110667703A CN113361437A CN 113361437 A CN113361437 A CN 113361437A CN 202110667703 A CN202110667703 A CN 202110667703A CN 113361437 A CN113361437 A CN 113361437A
- Authority
- CN
- China
- Prior art keywords
- network
- soft
- surgical instrument
- image
- minimally invasive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000001629 suppression Effects 0.000 claims abstract description 13
- 238000002324 minimally invasive surgery Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 26
- 238000005065 mining Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 6
- 238000001356 surgical procedure Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000002357 laparoscopic surgery Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000002192 cholecystectomy Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229940059082 douche Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种微创手术器械类别及位置检测方法和系统,涉及深度学习与计算机视觉技术领域,所述方法包括:采集微创手术过程图像数据集并进行人工标注;构建Soft‑ANL‑RCNN网络模型,所述Soft‑ANL‑RCNN网络模型以resnet101网络为骨干网络提取图像特征,采用非对称Non‑local结构对提取的特征图进行融合并挖掘特征图中的长距离信息,采用Soft‑NMS网络进行非极大值抑制处理;通过标注后的数据集对上述网络模型进行优化以获取最佳模型参数;将待检测图像输入模型中,对图像中的手术器械位置进行检测。本发明的方法能够准确检测微创手术器械的类别及位置,便于医护人员学习并使用。
Description
技术领域
本发明涉及深度学习与计算机视觉技术领域,具体涉及一种微创手术器械类别及位置检测方法和系统。
背景技术
微创手术(Minimally Invasive Surgery,MIS)是指在手术过程中,使用各种特制的手术器械通过一个小切口插入到病人身体中进行操作的一类手术。与传统在腹部或胸部做切口进行的开放性手术不同,外科医生通过在病人体内的摄像头回传的实时画面,确定病人病患位置,进而实施手术操作。因为MIS具有更快的恢复速度,更低的疼痛指数等特点,被广泛用于各种外科手术中。但独特的手术器械操作方式和通过摄像头间接观察病人患处给腹腔镜手术带来了前所未有的挑战。这些挑战包括医生缺乏对深度的感知、缺乏触觉感知信息与手术器械的运动范围有限等。因此,外科医生需要经过大量的特殊训练才能达到所要求的熟练程度,而手术过程视频是医生学习训练的重要资源。
虽然微创手术视频蕴藏着巨大的研究价值,但是挖掘这些价值也是一项富有挑战性的工作,因为手术过程中出现的血迹、不稳定的光线照明、由于呼吸和心跳导致的器官的运动、以及反射的光线等都会干扰到腹腔镜中手术器械的检测。
发明内容
为了解决上述问题,本发明提供一种微创手术器械位置检测方法,包括:
S1:采集微创手术过程视频和图像数据集并进行人工标注;
S2:构建Soft-ANL-RCNN网络模型,所述Soft-ANL-RCNN网络模型以resnet101网络为骨干网络提取图像特征获得特征图,采用非对称Non-local结构对提取的特征图进行融合并挖掘特征图中的长距离信息,采用Soft-NMS网络进行非极大值抑制处理;
S3:通过标注后的数据集对步骤S2中的模型进行训练以获取最佳模型参数;
S4:将待检测图像输入模型中对图像中的手术器械类别及位置进行检测。
进一步地,所述方法还包括采用Faster RCNN网络生成候选区并对候选区域进行检测和分类。
更进一步地,所述Faster RCNN网络中RPN网络的损失函数如公式(1)所示:
其中p i 为第i个anchor的预测分类置信度,p i *为真实数据,正样本时为1,负样本时为0,本网络中规定满足anchor与真实检测框的IoU大于0.7为正样本,小于0.3为负样本,IoU在0.3至0.7之间的anchor抛弃,N cls 为batch size的值,N reg 为anchor location的数目,L cls 为类别损失,L reg 为回归损失,λ 1用于调节L cls 和L reg 的权重,第i个anchor的参数化坐标为t i ,第i个anchor对应的真实框的参数化坐标为t i *;t i 与t i *的形式如公式(2)所示:
其中,x,y,w,h分别代表预测框的中心点的坐标、宽度以及高度;以字母x为例,x,x a ,x*分别对应预测框、anchor以及真实值的中心点坐标,其他三个字母同理。
更进一步地,步骤S2中所述resnet101骨干网络包括Stage1、Stage2、Stage3、Stage4、Stage5五个阶段,获得五个特征图,且Stage3、Stage4、Stage5三个阶段之间的池化层用空洞卷积代替用于获得相同尺寸的特征图。
更进一步地,步骤S2中所述非对称Non-local结构为在Non-local网络的φ(x)和g(x)经过重排之后与其它向量相乘之前加入一个下采样。
更进一步地,所述下采样的具体过程为:对步骤S2中提取的特征图进行一层1*1的卷积,经过reshape后进行不同尺寸的最大池化操作,获得四个不同大小的特征向量。
更进一步地,采用Soft-NMS网络进行非极大值抑制处理的具体过程为:
S71:把所有预选框的置信度按从高到底依次排序,选出最高分和对应的预选框;
S72:遍历其余剩下的预选框,如果和当前最高置信度的预选框IoU大于阈值时,降低预选框的分类置信度,以进入下一次迭代,所述降低预选框分类置信度的线性惩罚函数如公式(3)所示:
S73:从未处理的预选框中继续选一个置信度最高的预选框,重复步骤S72至处理完所有预选框;
S74:采用f函数降低所有处理后的预选框的置信度,解决降低预选框的分类置信度后预选框置信度出现断层的问题,所述f函数公式(4)所示:
本发明还提供一种微创手术器械位置检测系统,所述检测系统包括:
图像预处理模块,用于采集微创手术过程图像数据集并进行人工标注;
Soft-ANL-RCNN网络模型生成模块,用于建立Soft-ANL-RCNN的网络模型;
所述Soft-ANL-RCNN的网络模型生成模块包括:
图像特征提取单元,用于通过resnet101网络进行图像特征的提取,获取不同尺寸的特征图;
特征图融合单元,用于通过非对称Non-local结构对提取出的特征图进行融合;
长距离信息挖掘单元,用于通过非对称Non-local结构对图像中长距离信息进行挖掘;
非极大值抑制单元,用于通过Soft-NMS网络对预选框进行非极大值抑制;
模型训练模块,用于通过标注后的数据集对模型进行训练以获取最佳模型参数;
检测模块,用于将待检测图像输入模型中对图像中的手术器械类别及位置进行检测。
进一步地,所述Soft-ANL-RCNN的网络模型生成模块还包括检测和分类单元,用于通过Faster RCNN网络生成候选区并对候选区域进行检测和分类。
本发明的有益效果:
首先,本申请针对手术器械检测领域的图像成像纵深不足,轻微的成像深度变化都可以导致物体的成像大小剧烈变化的问题,在Soft-ANL-RCNN网络模型中引入了一个特征融合模块,通过融合不同层次的特征,给网络模型带来尺度不变性,增强模型对不同尺度目标的检测能力。
其次,本申请的Soft-ANL-RCNN网络中还引入了长距离信息挖掘模块,采用非对称Non-local模块增强特征,在网络的计算量没有明显增长的条件下,达到提升网络性能的目的,并通过计算特征图中点与点的相关性来挖掘手术器械之间的逻辑关系,增强了特征表达。
最后,针对微创手术期间,手术器械共同集结在病患处,器械之间距离过近或存在相互遮挡的情况,容易出现严重漏检的问题,本申请的模型中采用Soft-NMS进行极大值抑制,提高模型对密集目标的检测能力。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的Soft-ANL-RCNN网络模型的总体架构图;
图2为本发明实施例的微创手术器械示意图;
图3为本发明实施例的第一数据集;
图4为本发明实施例的数据集标注格式;
图5为本发明实施例的Soft-ANL-RCNN网络模型中resnet的bottleneck块示意图;
图6为本发明实施例的Soft-ANL-RCNN网络模型中特征融合模块示意图;
图7为本发明实施例的Non-local结构示意图;
图8为本发明实施例的非对称Non-local结构示意图;
图9为本发明实施例的Soft-ANL-RCNN网络模型中RPN区域提案网络示意图;
图10为本发明实施例的RPN的类别分类损失;
图11为本发明实施例的RPN的坐标回归损失;
图12为本发明实施例的模型分类损失;
图13为本发明实施例的模型坐标回归损失;
图14为本发明实施例的网络总损失;
图15为本发明实施例的第一数据集的手术器械同框频率示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种微创手术器械位置检测方法,包括:
S1:采集微创手术过程图像数据集并进行人工标注;
具体的,第一数据集:对15个时长在20分钟到75分钟不等的腹腔镜手术视频中选取2532帧进行手术器械位置标注,标注的对象包括抓取器(grasper),镊子(bipolar),钩子(hook),剪刀<小>(scissors),剪刀<大>(clipper),灌洗器(irrigator),和标本袋(specimen bag)等七种手术器械,如图2所示,之后把标注好的数据集按50%、30%、20%的比例分配为训练集、验证集、测试集。类别与坐标信息的记录方式按PASCAL VOC目标检测公开数据集标准进行,使得该数据集具有质量高、通用性强等特点,为手术视频的更高层次分析创造良好条件,数据集真实数据如图3所示,数据集标注格式如图4所示。
第二数据集:本申请考虑到手术环境的复杂背景,单一的数据集可能会降低检测模型的性能。为了解决这个问题,在吉林大学第二医院的帮助下,获得了20个腹腔镜胆囊切除手术视频,使用图像标记工具labelTool标注出手术器械的类别与位置信息,形成第二数据集。该数据集包含3164个标签帧,每一帧都在专业外科医生的协助下审核完成,视频中的所有手术器械都已被准确标注,训练集、验证集、测试集的分配比例与第一数据集相同,两个数据集的标注详情如表1所示。
表1 两个数据集详细图
本申请为了解决数据量不足的问题,对采集的图像进行翻转处理以增加数据量,为模型创造了更好的训练环境,增强了网络模型的检测能力。
S2:如图1所示,构建Soft-ANL-RCNN网络模型,所述Soft-ANL-RCNN网络模型以resnet101网络为骨干网络提取图像特征,采用非对称Non-local结构对提取的特征图进行融合并挖掘特征图中的长距离信息,采用Soft-NMS网络进行非极大值抑制处理;resnet101网络为骨干网络提取图像特征的具体过程为:该网络分为五个阶段,Stage1对输入的图片先进行步长为2、7×7的卷积操作,获得第一特征图;Stage2对第一特征图进行一层步长为2、3×3的最大池化操作后与三个串联的bottleneck块得到第二特特征图,bottleneck块的结构如图5所示,Stage3对第二特征图进行串联的4个bottleneck块与最大池化操作后,得到第三特征图,Stage4对第三特征图进行串联的23个bottleneck块和空洞卷积操作后获得第四特征图,Stage5对第四特征图进行3个串联的bottleneck块卷积与空洞卷积后获得第五特征图,第三特征图、第四特征图和第五特征图的尺寸相同。
本申请将resnet101网络第Stage3、Stage4、Stage5之间的池化层用空洞卷积代替,不仅可以获得相同尺寸的第三特征图、第四特征图和第五特征图,为下一步的特征融合提供方便,而且采用空洞卷积扩大了特征图的感受野。
采用非对称Non-local结构对上述获得的特征图进行融合的具体过程为:申请人考虑到在手术器械检测领域的图像成像纵深不足,导致轻微的成像深度变化都可以导致物体的成像大小剧烈变化,所以采用非对称Non-local结构并加入AFNB模块对获取的特征图进行融合处理。
具体为,对第四特征图进行1*1卷积和如图6所示的下采样,其目的是为了减少网络模型的参数量,进而减少计算量。对第五特征图的处理参考图7,第五特征图先经过θ、φ、g三个1*1卷积层,分别得到了θ(x)、φ(x)、g(x),特征的尺寸由H*W*C变换成H*W*Ĉ,这里的Ĉ远小于C,实现了第五特征图的降维处理,可以用于压缩特征图的大小,同时1*1卷积还融合了第五特征图中不同通道间的信息,给模型带来了非线性特征,提升了网络的表达能力。图中θ(x)展开后变成了HW*Ĉ,而φ(x)经过展开和转置操作后变成了Ĉ*HW,两个矩阵相乘得到了HW*HW的关系矩阵,这个矩阵包含的是相似度信息,然后将这个矩阵使用softmax进行归一化操作,得到的输出与转置后的g(x)进行矩阵乘法,得到一个形状为HW*Ĉ的矩阵,再将这个矩阵通过重排成三维,尺寸变成H*W*Ĉ,再通过1*1卷积进行通道上还原,由原来的C还原成Ĉ,得到一个形状为H*W*C的特征图,最后这个特征图与最开始的输入对位相加并输出。将经过上述处理后的第四特征图与第五特征图融合后输入非对称Non-local结构中进行长距离信息挖掘。
所述非对称Non-local结构为在Non-local网络的φ(x)和g(x)经过重排之后与其它向量相乘之前加入一个下采样,具体结构如图8所示。
下采样的具体过程为对提取的特征图进行一层1*1的卷积,经过reshape后进行不同尺寸的最大池化操作,获得四个不同大小的特征向量。
采用Faster RCNN网络生成候选区并对候选区域进行检测和分类的具体过程为:
Faster RCNN模型分为提案网络模块和分类网络模块,提案网络模块(RPN)对上一步长距离信息挖掘获得的特征图生成anchor集合,每一个anchor对应一个分类信息与四个坐标偏移信息,分类信息即对前景还是后景的分类;分类网络模块是用于对RPN生成的候选区域进行检测和分类,四个坐标偏移信息通过回归对之前每个anchor的坐标进行微调得到。具体而言,RPN使用两条支路分别得到分类信息与坐标偏移信息,分类支路中,首先对每个anchor进行裁剪和过滤操作,之后使用softmax判断每个anchor属于前景还是后景。另一分支使用回归操作来修正anchor的坐标,形成较精确的预选框。具体做法如图9所示。
经过RPN后,得到覆盖原图的几百个预选框,每个预选框如上所述,包含简单前后景信息与四个坐标偏移信息,之后把这些信息都输入RoI Pooling模块中,结合输入进RPN的特征图,得到固定大小的特征图,为之后的全连接层做好准备,在全连接层之后,分类模块使用softmax进行分类操作,坐标回归模块进行回归处理,两个模块得到的结果输入到Soft-NMS中,进行非极大值抑制处理,最终得到检测结果。
RPN网络的损失函数如公式(1)所示:
其中p i 为第i个anchor的预测分类置信度,p i *为真实数据,正样本时为1,负样本时为0,本网络中规定满足anchor与真实检测框的IoU大于0.7为正样本,小于0.3为负样本,IoU在0.3至0.7之间的anchor抛弃,N cls 为batch size的值,N reg 为anchor location的数目,L cls 为类别损失,L reg 为回归损失,λ 1用于调节L cls 和L reg 的权重,第i个anchor的参数化坐标为t i ,第i个anchor对应的真实框的参数化坐标为t i *;t i 与t i *的形式如公式(2)所示:
其中,x,y,w,h分别代表预测框的中心点坐标、宽度以及高度;以字母x为例,x,x a ,x*分别对应预测框、anchor以及真实值的中心点坐标,其他三个字母同理。
图1中右方的分类模块与坐标回归模块的损失函数如公式(5)所示:
其中,L表示分类模块与坐标回归模块的损失函数,L cls 表示类别损失,L loc 表示位置坐标损失;p表示anchor的预测分类置信度,t表示anchor的参数化坐标,用来衡量坐标间的偏差,v表示物体标记框真实坐标的四个数值,用于预测框的回归目标,λ 2是一个超参,平衡分类损失与回归损失的权重,在本申请中令λ 2为1。
公式(5)中,中括号代表艾弗森括号函数:
该函数规定u=0为负标签类,此时[u≥1]为0,表示负样本不参与坐标回归损失的训练,t u 表示物体标记框预测坐标。
本申请中非极大值抑制处理的具体过程为:
S71:把所有预选框的置信度按从高到底依次排序,选出最高分和对应的预选框;
S72:遍历其余剩下的预选框,如果和当前最高置信度的预选框IoU大于阈值时,降低预选框的分类置信度,以进入下一次迭代,所述降低预选框分类置信度的线性惩罚函数如公式(3)所示:
具体为,当框与框之间的IoU小于阈值Nt时,不做处理,比阈值Nt大时,将原得分score和1-iou相乘,得到处理后的置信度。由于1-iou介于0-1之间,这样就实现了较高IoU的候选框得分降低的操作。
S73:从未处理的预选框中继续选取一个置信度最高的预选框,重复步骤S72至处理完所有预选框;但这样会导致选框得分的断层。
S74:为解决预选框得分出现断层的问题,采用f函数降低所有处理后的预选框的置信度,所述f函数如下:
S3:通过标注后的数据集对步骤S2中的模型进行优化以获取最佳模型参数;
S4:将待检测图像输入模型中对图像中的手术器械位置进行检测。
在对本申请的Soft-ANL-RCNN网络模型性能进行评价时,主要参考mAP(meanaverage precision)数据,mAP数据在计算之前需要得到每一个类单独的AP(averageprecision)数据,而计算这个数据需要以下四个数据的支撑:
其中,TP表示在预测为正例的样本中,被判定为正确的样本数目;FP表示被预测为正例的样本中,被判定为错误的样本数目;TN表示在被预测为负例的样本中,被判定为正确的样本数目;FN表示在被预测为负例的样本中,被判定错误的样本数目。本申请中使用的精准率(precision)、召回率(recall)、AP、mAP均由这四个基本数据演化获得,具体计算方法见公式(6)和公式(7):
在模型训练阶段,本申请设置了一个阈值来辨别该预测结果是正例还是负例,每一个阈值对应一对精准率与召回率,两个数在坐标上对应一个点,随着选取的阈值增多,坐标上的点可以连接成线,获得P-R曲线,所述曲线与两个坐标轴形成的封闭图形的面积,即为这个类别的AP,此方法重复多次,计算出所有类别的AP并求平均值得到整个模型的mAP。
模型的运行环境如表2所示。
表2 模型运行环境
在模型训练中,主要的超参设置如表3所示。
表3 主要超参
训练完成后,本申请使用TensorFlow自带的查看工具Tensorboard查看训练结果,如图10所示,图中细线条为模型训练时的真实数值,由于训练过程中模型不会一直完美,损失会有偶尔增大的情况,反映在损失曲线上为大大小小的起伏,为了更好地查看分析模型损失结果,本申请使用Tensorboard对数据进行Smoothing操作,获得图中的粗线条。本申请还从官网上下载了基于VOC通用目标检测数据库的预训练模型参数,这样操作可以加快本实验中模型的训练收敛速度。
以下展示Soft-ANL-RCNN在第一数据集上的表现。
图10反映的是Soft-ANL-RCNN网络中RPN模块的类别分类损失在训练过程中的收敛情况,对应公式(1)的左侧L cls 部分,从图中可以看出,整个训练过程曲线完美,符合预期。图11反映的是本网络中RPN模块的坐标回归损失训练的收敛情况,对应公式(1)的右侧L reg 部分,训练过程中虽有起伏,但在可接受范围内。
图12是RPN结构之后的模型分类模块的训练收敛情况,对应公式(5)中的左侧L cls ()部分,可以看出曲线收敛完美,5000次迭代后达到了最佳训练状态,进入平稳期。图13在为坐标回归模块的收敛情况,对应公式(5)中的右侧L cls (),由于本申请使用了预训练模型微调操作,所以会出现如图所示的损失先变大,随后匹配本申请的手术器械数据集而减小。
图14展示了Soft-ANL-RCNN网络总体损失的收敛情况,总体走向符合预期。
Soft-ANL-RCNN网络在第一数据集上的表现结果如图15和表4所示。
表4 第一数据集的平均精度结果
从表4中可以看出本申请的Soft-ANL-RCNN模型在第一数据集上表现出卓越的性能,mAP为73.1,其中两个类别取得了最佳成绩,分别是灌洗器与标本袋。图15可以看出,在第一数据集的手术器械同框频率图中,灌洗器与标本袋都有相当一部分是与其他手术器械同时出现,并且相对数量与大类器械有一定差距,由于本网络模型侧重于挖掘手术器械之间的逻辑关系,所以灌洗器与标本袋这两类器械的检测结果获得大幅提升,也验证了Soft-ANL-RCNN网络的有效性。
本申请的Soft-ANL-RCNN网络模型在第二数据集的七种器械以及mAP表现如表5所示:
表5 第二数据集的平均精度结果
两个数据集所得到的结果证明本申请的网络模型能够克服手术环境的复杂背景,对未来更普适性地应用提供数据支撑,具有积极影响。
为测试Soft-ANL-RCNN网络各部件的有效性,本申请在第一数据集上进行了消融实验。在消融实验中,本申请做了5组对比实验,分别是基本检测模型、基本检测模型+特征融合模块、基本检测模型+长距离信息挖掘模块、基本检测模型+特征融合模块+长距离信息挖掘模块、基本检测模型+特征融合模块+长距离信息挖掘模块+Soft-NMS。实验结果如表6所示,因为表格空间位置有限,本实施例中对名称进行了缩写,对应如下:基本检测模型(Base,B)、特征融合模块(Feature Fusion, F)、长距离信息挖掘模块(Long RangeFeature, L)、Soft-NMS简称为S。
表6 消融实验对比
从上表可以看出,加入特征融合模块后,模型的检测结果提高了1.7mAP,而加入长距离信息挖掘模块后,检测结果提升了5.9mAP,可以证明长距离信息挖掘模块对网络的提升更加明显。加入Soft-NMS算法之后,体积较小的抓取器、钩子与灌洗器类别进步最为明显,表明在手术视频中,这些较小体积的手术器械因为遮挡等原因,存在漏检的情况。与之相比的是两个体积较大的手术器械大剪刀与标本袋因为不存在漏检情况,而检测结果未发生变化。
一种微创手术器械位置检测系统,所述检测系统包括:
图像预处理模块,用于对获取的微创手术器械图像进行预处理;
Soft-ANL-RCNN网络模型生成模块,用于建立Soft-ANL-RCNN的网络模型;
所述Soft-ANL-RCNN的网络模型生成模块包括:
图像特征提取单元,用于通过resnet101网络进行图像特征的提取,获取不同尺寸的特征图;
特征图融合单元,用于通过非对称Non-local结构对提取出的特征图进行融合;
长距离信息挖掘单元,用于通过非对称Non-local结构对图像中长距离信息进行挖掘;
非极大值抑制单元,用于通过Soft-NMS网络对预选框得分降分处理;
模型训练模块,用于通过数据集对模型参数进行优化;
检测模块,用于图像中微创手术器械位置的检测。
所述Soft-ANL-RCNN的网络模型生成模块还包括检测和分离单元,用于通过Faster RCNN网络生成候选区并对候选区域进行检测和分离。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种微创手术器械类别及位置检测方法,其特征在于,包括:
S1:采集微创手术过程视频和图像数据集并进行人工标注;
S2:构建Soft-ANL-RCNN网络模型,所述Soft-ANL-RCNN网络模型以resnet101网络为骨干网络提取图像特征,采用非对称Non-local结构对提取的特征图进行融合并挖掘特征图中的长距离信息,采用Soft-NMS网络进行非极大值抑制处理;
S3:通过标注后的数据集对步骤S2中的模型进行训练以获取最佳模型参数;
S4:将待检测图像输入模型中,对图像中的手术器械类别及位置进行检测。
2.根据权利要求1所述的微创手术器械类别及位置检测方法,其特征在于,所述方法还包括采用Faster RCNN网络生成候选区并对候选区域进行检测和分类。
3.根据权利要求2所述的微创手术器械类别及位置检测方法,其特征在于,所述FasterRCNN网络中RPN的损失函数如公式(1)所示:
其中p i 为第i个anchor的预测分类置信度,p i *为真实数据,正样本时为1,负样本时为0,N cls 为batch size的值,N reg 为anchor location的数目,L cls 为类别损失,L reg 为回归损失,λ 1用于调节L cls 和L reg 的权重,第i个anchor的参数化坐标为t i ,第i个anchor对应的真实框参数化坐标为t i *;t i 与t i *的形式如公式(2)所示:
其中,x,y,w,h分别代表预测框的中心点坐标、宽度以及高度;以字母x为例,x,x a ,x*分别对应预测框、anchor以及真实值的中心点坐标,其他三个字母同理。
4.根据权利要求1所述的微创手术器械类别及位置检测方法,其特征在于,步骤S2中所述resnet101骨干网络包括Stage1、Stage2、Stage3、Stage4、Stage5五个阶段,获得五个特征图,且Stage3、Stage4、Stage5三个阶段之间的池化层用空洞卷积代替,用于获得相同尺寸的特征图。
5.根据权利要求1所述的微创手术器械类别及位置检测方法,其特征在于,步骤S2中所述非对称Non-local结构为在Non-local网络的φ(x)和g(x)经过重排之后与其它向量相乘之前加入一个下采样。
6.根据权利要求5所述的微创手术器械类别及位置检测方法,其特征在于,所述下采样的具体过程为:对步骤S2中提取的特征图进行一层1*1的卷积,经过reshape后进行不同尺寸的最大池化操作,获得四个不同大小的特征向量。
7.根据权利要求1所述的微创手术器械类别及位置检测方法,其特征在于,采用Soft-NMS网络进行非极大值抑制处理的具体过程为:
S71:把所有预选框的置信度按从高到底依次排序,选出最高分和对应的预选框;
S72:遍历其余剩下的预选框,如果和当前最高置信度的预选框IoU大于阈值时,降低预选框的得分以进入下一次迭代,所述降低预选框得分的线性惩罚函数如公式(3)所示:
S73:从未处理的预选框中继续选一个置信度最高的预选框,重复步骤S72至处理完所有的预选框;
S74:采用f函数降低所有处理后的预选框的置信度,解决降低预选框得分后预选框得分出现断层的问题,所述f函数如公式(4)所示:
8.一种微创手术器械类别及位置检测系统,其特征在于,所述检测系统包括:
图像预处理模块,用于采集微创手术过程图像数据集并进行人工标注;
Soft-ANL-RCNN网络模型生成模块,用于建立Soft-ANL-RCNN的网络模型;
所述Soft-ANL-RCNN的网络模型生成模块包括:
图像特征提取单元,用于通过resnet101网络进行图像特征的提取,获取不同尺寸的特征图;
特征图融合单元,用于通过非对称Non-local结构对提取出的特征图进行融合;
长距离信息挖掘单元,用于通过非对称Non-local结构对图像中长距离信息进行挖掘;
非极大值抑制单元,用于通过Soft-NMS网络对预选框进行非极大值抑制;
模型训练模块,用于通过标注后的数据集对模型进行训练以获取最佳模型参数;
检测模块,用于将待检测图像输入模型中对图像中的手术器械类别及位置进行检测。
9.根据权利要求8所述的微创手术器械类别及位置检测系统,其特征在于,所述Soft-ANL-RCNN的网络模型生成模块还包括检测和分类单元,用于通过Faster RCNN网络生成候选区并对候选区域进行检测和分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667703.XA CN113361437A (zh) | 2021-06-16 | 2021-06-16 | 一种微创手术器械类别及位置检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667703.XA CN113361437A (zh) | 2021-06-16 | 2021-06-16 | 一种微创手术器械类别及位置检测方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113361437A true CN113361437A (zh) | 2021-09-07 |
Family
ID=77534548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667703.XA Pending CN113361437A (zh) | 2021-06-16 | 2021-06-16 | 一种微创手术器械类别及位置检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361437A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114005022A (zh) * | 2021-12-30 | 2022-02-01 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114494406A (zh) * | 2022-04-13 | 2022-05-13 | 武汉楚精灵医疗科技有限公司 | 医学图像处理方法、装置、终端及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN110210463A (zh) * | 2019-07-03 | 2019-09-06 | 中国人民解放军海军航空大学 | 基于Precise ROI-Faster R-CNN的雷达目标图像检测方法 |
CN110503112A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 一种增强特征学习的小目标检测及识别方法 |
CN111091536A (zh) * | 2019-11-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 医学图像处理方法、装置、设备、介质以及内窥镜 |
CN111783590A (zh) * | 2020-06-24 | 2020-10-16 | 西北工业大学 | 一种基于度量学习的多类别小目标检测方法 |
-
2021
- 2021-06-16 CN CN202110667703.XA patent/CN113361437A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN110210463A (zh) * | 2019-07-03 | 2019-09-06 | 中国人民解放军海军航空大学 | 基于Precise ROI-Faster R-CNN的雷达目标图像检测方法 |
CN110503112A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 一种增强特征学习的小目标检测及识别方法 |
CN111091536A (zh) * | 2019-11-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 医学图像处理方法、装置、设备、介质以及内窥镜 |
CN111783590A (zh) * | 2020-06-24 | 2020-10-16 | 西北工业大学 | 一种基于度量学习的多类别小目标检测方法 |
Non-Patent Citations (2)
Title |
---|
N. BODLA等: "Soft-NMS — Improving Object Detection with One Line of Code", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
Z. ZHU等: "Asymmetric Non-Local Neural Networks for Semantic Segmentation", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114005022A (zh) * | 2021-12-30 | 2022-02-01 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114005022B (zh) * | 2021-12-30 | 2022-03-25 | 四川大学华西医院 | 一种手术器械使用的动态预测方法及系统 |
CN114494406A (zh) * | 2022-04-13 | 2022-05-13 | 武汉楚精灵医疗科技有限公司 | 医学图像处理方法、装置、终端及计算机可读存储介质 |
CN114494406B (zh) * | 2022-04-13 | 2022-07-19 | 武汉楚精灵医疗科技有限公司 | 医学图像处理方法、装置、终端及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112932663B (zh) | 一种提高腹腔镜胆囊切除术安全性的智能辅助系统 | |
CN111429407B (zh) | 基于双通道分离网络的胸部x光疾病检测装置及方法 | |
CN113361437A (zh) | 一种微创手术器械类别及位置检测方法与系统 | |
Mountney et al. | A probabilistic framework for tracking deformable soft tissue in minimally invasive surgery | |
CN109948671B (zh) | 图像分类方法、装置、存储介质以及内窥镜成像设备 | |
CN111524170A (zh) | 一种基于无监督深度学习的肺部ct图像配准方法 | |
Su et al. | Comparison of 3d surgical tool segmentation procedures with robot kinematics prior | |
CN113782184A (zh) | 一种基于面部关键点与特征预学习的脑卒中辅助评估系统 | |
Wang et al. | Object detection of surgical instruments based on Yolov4 | |
Li et al. | SE-OHFM: A surgical phase recognition network with SE attention module | |
CN110277166A (zh) | 一种宫腹腔镜辅助诊断系统及方法 | |
CN113813053A (zh) | 一种基于腹腔镜内窥影像的手术进程分析方法 | |
Le et al. | Robust Surgical Tool Detection in Laparoscopic Surgery using YOLOv8 Model | |
CN117218127A (zh) | 超声内镜辅助监测系统及方法 | |
Zhou et al. | Detection of surgical instruments based on YOLOv5 | |
CN111640126B (zh) | 基于医学影像的人工智能诊断辅助方法 | |
Wei et al. | Laparoscopic scene reconstruction based on multiscale feature patch tracking method | |
Lou et al. | Self-supervised surgical instrument 3D reconstruction from a single camera image | |
CN114078137A (zh) | 一种基于深度学习的阴道镜图像筛选方法、装置和电子设备 | |
CN111640127A (zh) | 一种用于骨科的精准临床诊断导航方法 | |
Wang et al. | Dynamic interactive relation capturing via scene graph learning for robotic surgical report generation | |
CN112734707A (zh) | 一种3d内窥镜辅助检测方法、系统、装置及存储介质 | |
Huang et al. | Enhanced u-net tool segmentation using hybrid coordinate representations of endoscopic images | |
Harika et al. | Pneumonia Detection Using Deep Learning Based On Convolutional Neural Network (CNN) Model | |
Xu et al. | Surgical action and instrument detection based on multiscale information fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |