CN112347908B - 一种基于空间分组注意力模型的外科手术器械图像识别方法 - Google Patents

一种基于空间分组注意力模型的外科手术器械图像识别方法 Download PDF

Info

Publication number
CN112347908B
CN112347908B CN202011219934.6A CN202011219934A CN112347908B CN 112347908 B CN112347908 B CN 112347908B CN 202011219934 A CN202011219934 A CN 202011219934A CN 112347908 B CN112347908 B CN 112347908B
Authority
CN
China
Prior art keywords
feature map
sub
feature
image
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011219934.6A
Other languages
English (en)
Other versions
CN112347908A (zh
Inventor
候亚庆
张文凯
葛宏伟
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011219934.6A priority Critical patent/CN112347908B/zh
Publication of CN112347908A publication Critical patent/CN112347908A/zh
Application granted granted Critical
Publication of CN112347908B publication Critical patent/CN112347908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉图像分类领域,涉及一种基于空间分组注意力模型的外科手术器械图像识别方法。本方法先针对常见的外科手术采集对应的手术器械图像构建原始数据集,并进行图像增强操作;然后将得到的图像送入神经网络,通过神经网络中嵌入的轻量级空间分组注意力模块来挖掘手术器械图像在特征空间和通道的关联性,对某些特定区域的特征进行增强或抑制,从而达到更好的分类效果,实现对该手术所使用的手术器械的精准分类。

Description

一种基于空间分组注意力模型的外科手术器械图像识别方法
技术领域
本发明属于计算机视觉图像分类领域,涉及一种基于空间分组注意力模型的外科手术器械图像识别方法。
背景技术
手术器械作为手术过程中最为重要的工具之一,对保证手术的顺利完成起着不容忽视的作用。然而,在手术过程中器械丢失的情况时有发生。从较轻的方面来讲,器械可能仅仅是遗落在手术台上;从较重的方面来讲,器械可能遗留在患者体内,危及患者的生命。因此,手术器械的清点工作对手术的顺利开展及完成起着至关重要的作用。手术器械的清点工作通常会在手术前后进行,涉及对该手术所使用器械的识别分类工作。对于手术过程中出现的手术器械丢失的情况,通过清点工作可以快速排查出来,并及时发现遗落的器械,从而减少因手术器械丢失带来的危害。目前手术器械的清点工作均由相关医护人员来完成,但人为的清点工作会受到各种各样因素的影响,例如身体疲累、精神恍惚等,从而导致清点工作的失误。基于以上考虑,本发明提出一种基于深度学习的图像分类方法来辅助手术器械清点工作的开展。
随着人工智能的高速发展,计算机视觉作为人工智能的主要研究领域之一,正在受到越来越多的关注。其中,图像分类作为计算机视觉领域最为基础和活跃的研究方向之一,已经广泛应用于各个领域,例如疾病诊断。然而利用图像分类技术来考察手术器械却鲜有研究涉及。本发明针对手术器械的清点工作,利用图像分类技术提出对手术器械的分类研究。不同于传统的图像分类任务,外科手术器械分类涉及对子类的分类,称为细粒度图像分类。传统意义上的图像分类一般只能识别出图像所属的大类,例如手术刀和手术钳;而细粒度图像分类致力于区分大类下的子类,例如组织镊和敷料镊。细粒度图像分类能够对同属于一个大类下的不同子类进行更加严格的区分,以此来满足更高分类精度场景下的图像分类要求。目前基于深度学习的细粒度图像分类方法主要分为两种:强监督学习方法和弱监督学习方法。
强监督学习方法在相对于弱监督学习仅依赖图像标签的基础之上,还需要依赖人工的标注信息。例如,在训练网络时,需要额外把基于人工的边框标注信息加入到网络进行强监督学习,使网络能够学习到目标的位置信息。此类方法虽然能够取得较好的分类效果,但其不足之处在于:1.需要大量的人力资源进行图像的标注,代价昂贵,操作复杂;2.人工标注的信息并非完全准确。因此,该类方法实用性较差,难以应用到不同的复杂场景中。
目前主流的细粒度图像分类方法是基于注意力机制的弱监督学习方法。该方法在仅仅依赖图像标签信息的情况下,能够实现自动获取图像中具有区分性的区域,通过将所获取的区域图像信息与全局图像信息结合起来对图像进行分类。基于注意力的方法大致分为两种:一阶段注意力学习方法和两阶段注意力学习方法。一阶段注意力学习方法通过把轻量级注意力机制嵌入到网络模型中来保证网络模型的简单性,同时提高原网络在子类上的学习能力。目前该类方法通常是通过压缩通道或空间维度来获得中间注意力特征图。但是该类方法在仅仅依靠注意力特征图的情况下难以准确获取图像中的目标及定位区分性区域,使其对子类的辨别能力不足。两阶段注意力学习通过训练两个网络来达到细粒度分类的效果。通过利用第一阶段的网络模型用来学习一个或多个具有区分性语义信息的区域并把训练所得的区域特征映射到原图得到若干子图,结合第二阶段的网络模型提取子图与原图的特征并融合来实现对该图像的分类。该方法的不足之处是两阶段的训练学习加大了模型的复杂度,使其难以应用到实际应用中。
总之,对于强监督学习方法,人工标注需要耗费财力物力且标注信息未必适合网络模型的学习。对于弱监督学习方法,通过两阶段注意力学习的方法,细粒度图像分类的性能较高,但其网络模型复杂且实时性较差,难以投入实际应用;一阶段注意力学习的方法虽然能够实现一阶段的端到端学习,但其受制于嵌入的注意力模块的设计,不能取得较好的分类效果。
发明内容
为了克服以上不足,本发明提出了一种基于空间分组注意力模型的外科手术器械图像识别的方法,目的在于构建一种高效的、低消耗的一阶段注意力学习网络模型,实现对外科手术器械图像的精准分类,进而辅助医护人员完成手术器械的清点工作。通过本发明方法,首先针对常见的外科手术采集对应的手术器械图像构建原始数据集,并进行图像增强操作;然后将得到的图像送入神经网络,通过神经网络中嵌入的轻量级空间分组注意力模块来挖掘手术器械图像在特征空间和通道的关联性,对某些特定区域的特征进行增强或抑制,从而达到更好的分类效果,实现对该手术所使用的手术器械的精准分类。
本发明包括两个模块:
(1)图像采集模块,实现外科手术器械数据集的构建。对于常见的外科手术,利用摄像头采集该手术所使用的每一类手术器械的若干张图像构成针对该手术的数据集。将获得的数据集按照一定的比例随机划分训练集和测试集并送入分类网络训练,使用交叉验证方法选择出较为稳定的划分方法作为该数据集的训练集与测试集。
(2)图像分类模块,实现对外科手术器械图像的精准分类。首先对图像采集模块获得的图像进行预处理,将得到的图像作为分类模型的输入,训练一个嵌入了空间分组注意力模块的卷积神经网络。通过使用深度残差网络(ResNet)作为骨干网络,在网络中间过程的残差块中嵌入空间分组注意力模块,实现对区分性区域特征的增强和背景特征的抑制,最终得到图像的特征向量。然后将特征向量输入到全连接层得到最终的分类结果。
为了达到上述目的,本发明采用的技术方案如下:
一种基于空间分组注意力模型的外科手术器械图像识别方法,具体步骤如下:
步骤1、数据采集,进行针对常见外科手术的数据集构建。
(1.1)针对常见外科手术使用到的手术器械包,通过模拟手术室环境,利用摄像头结合不同的拍摄角度对包中的所有手术器械进行图像采集,构成原始数据集。为了保证分类精度,摄像头分别为每一个器械采集多张图片且每张图片内仅包含该器械;
(1.2)对步骤(1.1)获得的原始数据集进行训练集与测试集的划分。将原始数据集平均划分为n部分,随机取其中的若干部分作为训练集,剩余部分作为测试集,得到m种组合方法。将划分后的数据集送入分类网络实现对m种组合的稳定性验证,最终选取最稳定的训练集与测试集用于后续的训练与测试。
步骤2、外科手术器械图像分类,使用基于空间分组的注意力模块的卷积神经网络实现对外科手术器械图像的分类。
(2.1)对步骤1所得的图像利用随机剪裁、翻转等技术预处理得到数据增强及数据扩增后的图像;
(2.2)将经过步骤(2.1)预处理过的图像X送入嵌入了空间分组注意力模块的ResNet网络,经过多层卷积操作,得到多通道的特征图X′∈R7×7×C,其中7×7和C分别为特征图X′的空间维度和通道维度;
进一步地,步骤(2.2)中所述的空间分组注意力模块包括以下步骤:
(2.2.1)对于神经网络层中的中间特征图X0∈RH×W×C,先将其送入卷积核大小为1×1的卷积层进行降维操作得到特征图X1∈RH×W×C1来减少参数及运算量,其中H×W表示对应特征图的空间维度,H表示特征图的高度,W表示特征图的宽度,C和C1表示对应特征图的通道维度;
(2.2.2)采用组卷积对特征图X1进行基于通道分组操作,得到多个维度相同的子特征图X1={x1,x2,…,xi,…,xgroup},xi∈RH×W×C1/group,其中group表示子特征图个数,i=[1,…,group],xi表示第i个子特征图;
(2.2.3)对于每个子特征图xi,分别采取空间组增强注意力变换,具体操作如下:
(a)对于所有得到的子特征图xi∈Rm×c,对其进行基于空间的全局平均池化操作Fgp(·),得到子特征图xi的全局语义向量g∈R1×c,其中m=H×W,表示子特征图的空间维度,H表示子特征图的高度,W表示子特征图的宽度,c=C1/group,表示子特征图的通道维度;
(b)使用子特征图xi的全局语义向量,让其与每个子特征图点乘得到与每个子特征图对应的重要性系数ci∈Rm×1
(c)对每个重要性系数ci在空间维度做标准化得到c′i
(d)对每个经过标准化的重要性系数c′i进行尺度和平移变换得到ai
(e)对于每个新生成的重要性系数ai,通过一个sigmoid函数σ(·)并与ai对应的子特征图xi结合生成每个子特征图的空间增强子特征图x′i
(f)结合步骤(e)中得到的空间增强子特征图x′i,得到特征图X′1={x′1,x′2,…,x′i,…,x′group′},x′i∈RH×W×C1/group′,其中group′表示空间增强子特征图个数,i=[1,…,group′],x′i表示第i个增强后的子特征图;
(g)将X′1送入卷积核为1×1的卷积层进行升维操作,得到与X0维度相同的特征图X′0∈RH×W×C,其中H×W表示特征图X′0的空间维度,H表示特征图X′0的高度,W表示特征图X′0的宽度,C表示特征图X′0的通道维度;
(h)将步骤(2.2.1)中的中间特征图X0与步骤(g)得到的特征图X′0结合得到空间分组注意力模块的输出特征图
Figure BDA0002761647550000061
其中H×W表示特征图
Figure BDA0002761647550000062
的空间维度,H表示特征图
Figure BDA0002761647550000063
的高度,W表示特征图
Figure BDA0002761647550000064
的宽度,C表示特征图
Figure BDA0002761647550000065
的通道维度;
(2.3)将特征图X′送入全局平均池化层得到特征向量Z∈R1×1×C,其中C表示特征向量Z的维度;
(2.4)将特征向量Z送入全连接层和SoftMax得到预测的类别;
(2.5)利用步骤1中构建的数据集训练步骤(2.1)~(2.4)所构建的基于空间分组的注意力模块的卷积神经网络,得到预训练的网络结构,并用训练好的网络实现对外科手术器械图像的识别。
与现有方法相比,本发明具有如下有益效果:
首先,针对手术前后手术器械的清点工作,通过选取三种常见的外科手术的手术器械包,本发明方法提出外科手术器械数据集的构建。其次,本发明方法使用基于空间分组注意力模块的ResNet网络作为特征提取器,得到输入图像的深层次语义特征,利用嵌入网络中间层的空间分组注意力模块,通过增强局部具有区分性的特征并抑制无用背景的特征来使得最终得到的深层次语义特征具有更好的表征能力。该方法通过在网络中嵌入模块来使得整个网络是一个端到端的训练模式,相比于两阶段注意力学习方法,该方法在保证了准确率的情况下保持了易于训练的特性;相比于其它一阶段注意力学习方法,该方法嵌入的注意力模块没有引入较大的参数量及计算量且能够达到较高的准确率。
附图说明
图1是本发明的实施例的具体流程图;
图2(a)和图2(b)分别是空间分组注意力模块和ResNet标准残差块的原理图;
图3是具体的空间分组注意力模块的原理图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体地操作过程,但本发明的保护范围不限于下述的实施例。
本发明针对手术器械的清点工作提出外科手术医疗器械数据集的构建并提供一种基于空间分组注意力模型的外科手术器械图像分类方法(记为SGENeXt),利用组卷积的方式对中间层的特征进行基于通道维度的分组,每组产生一个空间域的注意力,通过利用这些注意力来增强具有判别区域的特征。使用ResNet嵌入该方法作为特征提取器,采用SoftMax分类器进行分类,最终提高外科手术器械图像分类的准确率。
请参阅图1,本发明实施例一种基于空间分组注意力模型的外科手术器械图像分类方法,包括以下步骤:
(1)数据采集,针对某种或某类手术构建数据集。步骤包括:
(1.1)收集数据:选取最常见的三种外科手术(阑尾切除术、胆囊切除术和剖宫产)所用到的手术器械包作为原材料采集每个器械的图像组成原始数据集。在采集图像时,利用补光灯模拟手术室环境,并在器械下方放置吸光黑布来抑制其反光效应。同时,为了增加数据的复杂性,分别采集器械在不同状态(张开和闭合)和不同摄像头角度(主要有90°和30°)下的图像。该数据集包含19类手术器械,每类器械采集200张图片,一共得到含有3800张图像的原始数据集;
(1.2)划分训练集与测试集:首先将步骤(1.1)所得的原始数据集随机分为五部分。随机取其中三部分作为训练集,剩余两部分为测试集,一共得到十组不同划分的数据集。对十组数据集分别采用ResNet-50网络进行训练,保留训练过程中的数据并绘制训练曲线。比较十组曲线,选择较为稳定的训练曲线对应的数据集作为后续进行分细粒度分类使用的数据集。
(2)图像分类,针对步骤(1)所得的数据集,使用基于空间分组注意力模块的卷积神经网络进行精准分类。步骤包括:
(2.1)图像预处理模块:将原始图像调整为固定大小,得到大小为224的图像。对调整大小后的图像进行数据增强及扩增操作,本实施例采取随机翻转,添加噪声,颜色抖动等方法。将处理后的图像作为分类网络的输入;
(2.2)特征提取模块:使用ResNet作为基础网络,在网络中间层加入空间分组注意力模块进行特征提取。本实施例采用ResNet-50为例进行说明,通过在网络中的残差块中嵌入该注意力模块(记为GEA残差块),以此来增强网络特征提取器的特征表达,GEA残差块与ResNet的标准残差块对比如图2(a)和图2(b)表示。在ResNet-50中,第二结构层至第五结构层包含了关键的48层结构,即包含了48个残差块结构。在本方法中,该残差块被替换为GEA残差块。以第三结构层的GEA残差块为例并结合图3来说明其工作原理:
(2.2.1)将GEA残差块的输入特征图表示为X0∈R56×56×256,将X0送入卷积层conv_1×1进行降维操作得到降维后的特征X1∈R56×56×128。对X1采用组卷积来对其进行通道维度的划分得到多个子特征图x,在图2中,子特征图个数为32,即x∈R56×56×4。其中RH×W×C分别表示特征图的高度H、宽度W和通道数C,conv_1×1表示卷积核为1×1的卷积层;
(2.2.2)对于步骤(2.2.1)得到的子特征图xi∈Rm×4(m=56*56,i=[1,…,32]),对其进行基于空间的全局平均池化操作Fgp(·),得到该子特征图xi的空间语义向量gi∈R1×4,一共得到32个与子特征图对应的语义向量:
Figure BDA0002761647550000091
其中,m表示空间维度,xij∈R1×4(j=[1,…,m]),表示为xi的第j个空间向量;
(2.2.3)将步骤(2.2.2)得到的所有语义向量与其对应的子特征图进行点乘得到每个子特征图对应的重要性系数ci∈Rm×1,该步操作通过点乘得到:
ci=gi·xi. (2)
其中,i=[1,…,32];
(2.2.4)对每个ci进行如下操作:为了防止不同样本之间重要性系数的偏差量过大,对重要性系数ci在空间维度进行标准化,并对每个经过标准化的重要性系数c′i进行尺度和平移变换得到ai∈Rm×1
Figure BDA0002761647550000092
Figure BDA0002761647550000093
ai=αc′i+β. (5)
其中,cij(i=[1,…,32],j=[1,…,m],m=56×56)表示第i个重要性系数的第j个元素,μc表示该重要性系数的m个元素的均值,
Figure BDA0002761647550000094
为其对应的方差,∈是为了保持数值稳定性而添加的常量,α和β表示对重要性系数进行尺度和平移变换的系数;
(2.2.5)使用新生成的重要性系数ai通过一个sigmoid函数σ(·)来对与其对应的子特征图xi结合生成每个子特征图的空间组增强注意力特征x′i
x′i=xi·σ(ai). (6)
其中,i=[1,…,32];
(2.2.6)聚合group个增强后的子特征图x′i,得到特征组X′1={x′1…32},其中,X′1∈Rm×128,x′i∈Rm×4,m=56×56;
(2.2.7)将X′1送入卷积核为1×1的卷积层进行升维操作,得到与X0维度相同的特征图X′0∈R56×56×256;将原始的特征图X0与新得到的特征图X′0结合得到该空间分组注意力模块的最终结果
Figure BDA0002761647550000101
(2.2.8)通过在网络结构中嵌入重复(2.2.1)~(2.2.7)过程的GEA残差块,最终得到该输入图像的深层特征图X;将特征图进行全局平均池化得到图像的特征向量V;
(2.3)图像分类模块:将得到的特征向量送入全连接层与SoftMax得到每个类别的预测概率,取最高值所属的类别即为预测的类别;全连接层的分类损失函数采用交叉熵损失函数,即
Figure BDA0002761647550000102
其中,N表示该次迭代过程中输入图像的数量,pi和qi分别表示其真实标签和预测标签。
(3)采用搜集好的外科手术器械图像数据集训练出步骤(2)构建出所提出模型的初始网络权重参数,并采用训练好网络权重参数的网络模型对外科手术器械图像进行分类。

Claims (1)

1.一种基于空间分组注意力模型的外科手术器械图像识别方法,其特征在于,具体步骤如下:
步骤1、数据采集,进行针对常见外科手术的数据集构建;
(1.1)针对外科手术使用到的手术器械包,通过模拟手术室环境,利用摄像头结合不同的拍摄角度对包中的所有手术器械进行图像采集,构成原始数据集;摄像头分别为每一个器械采集多张图片且每张图片内仅包含该器械;
(1.2)对步骤(1.1)获得的原始数据集进行训练集与测试集的划分;将原始数据集平均划分为n部分,随机取其中的若干部分作为训练集,剩余部分作为测试集,得到m种组合方法;将划分后的数据集送入分类网络实现对m种组合的稳定性验证,最终选取最稳定的训练集与测试集用于后续的训练与测试;
步骤2、外科手术器械图像分类,使用基于空间分组的注意力模块的卷积神经网络实现对外科手术器械图像的分类;
(2.1)对步骤1所得的图像利用随机剪裁或翻转技术预处理得到数据增强及数据扩增后的图像;
(2.2)将经过步骤(2.1)预处理过的图像X送入嵌入了空间分组注意力模块的ResNet网络,经过多层卷积操作,得到多通道的特征图X′∈R7×7×C,其中7×7和C分别为特征图X′的空间维度和通道维度;
进一步地,步骤(2.2)中所述的空间分组注意力模块包括以下步骤:
(2.2.1)对于神经网络层中的中间特征图X0∈RH×W×C,先将其送入卷积核大小为1×1的卷积层进行降维操作得到特征图X1∈RH×W×C1,其中H×W表示对应特征图的空间维度,C和C1表示对应特征图的通道维度;
(2.2.2)采用组卷积对特征图X1进行基于通道分组操作,得到多个维度相同的子特征图X1={x1,x2,…,xi,…,xgroup},xi∈RH×W×C1/group,,其中group表示子特征图个数,i=[1,…,group],xi表示第i个子特征图;
(2.2.3)对每个子特征图xi分别采取空间组增强注意力变换,具体操作如下:
(a)对于所有得到的子特征图xi∈Rm×c,对其进行基于空间的全局平均池化操作Fgp(·),得到子特征图xi的全局语义向量g∈R1×c,其中m=H×W,表示子特征图的空间维度,c=C1/group,表示子特征图的通道维度;
(b)使用子特征图xi的全局语义向量,让其与每个子特征图点乘得到与每个子特征图对应的重要性系数ci∈Rm×1
(c)对每个重要性系数ci在空间维度做标准化得到c′i
(d)对每个经过标准化的重要性系数c′i进行尺度和平移变换得到ai
(e)新生成的重要性系数ai通过一个sigmoid函数σ(·)并与ai对应的子特征图xi结合生成每个子特征图的空间增强子特征图x′i
(f)结合步骤(e)中得到的空间增强子特征图x′i,得到特征图X′1={x′1,x′2,…,x′i,…,x′group′},x′i∈RH×W×C1/group′,其中group′表示空间增强子特征图个数,i=[1,…,group′],x′i表示第i个增强后的子特征图;
(g)将X′1送入卷积核为1×1的卷积层进行升维操作,得到与X0维度相同的特征图X′0∈RH×W×C,其中H×W表示特征图X′0的空间维度,C表示特征图X′0的通道维度;
(h)将步骤(2.2.1)中的中间特征图X0与步骤(g)得到的特征图X′0结合得到空间分组注意力模块的输出特征图
Figure FDA0002761647540000021
其中H×W表示特征图
Figure FDA0002761647540000022
的空间维度,C表示特征图
Figure FDA0002761647540000023
的通道维度;
(2.3)将特征图X′送入全局平均池化层得到特征向量Z∈R1×1×C,其中C表示特征向量Z的维度;
(2.4)将特征向量Z送入全连接层和SoftMax得到预测的类别;
(2.5)利用步骤1中构建的数据集训练步骤(2.1)~(2.4)所构建的基于空间分组的注意力模块的卷积神经网络,得到预训练的网络结构,并用训练好的网络实现对外科手术器械图像的识别。
CN202011219934.6A 2020-11-04 2020-11-04 一种基于空间分组注意力模型的外科手术器械图像识别方法 Active CN112347908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011219934.6A CN112347908B (zh) 2020-11-04 2020-11-04 一种基于空间分组注意力模型的外科手术器械图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219934.6A CN112347908B (zh) 2020-11-04 2020-11-04 一种基于空间分组注意力模型的外科手术器械图像识别方法

Publications (2)

Publication Number Publication Date
CN112347908A CN112347908A (zh) 2021-02-09
CN112347908B true CN112347908B (zh) 2022-10-18

Family

ID=74429872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219934.6A Active CN112347908B (zh) 2020-11-04 2020-11-04 一种基于空间分组注意力模型的外科手术器械图像识别方法

Country Status (1)

Country Link
CN (1) CN112347908B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971667B (zh) * 2021-11-02 2022-06-21 上海可明科技有限公司 一种仓储环境手术器械目标检测模型训练及优化方法
CN113887545B (zh) * 2021-12-07 2022-03-25 南方医科大学南方医院 一种基于目标检测模型的腹腔镜手术器械识别方法及装置
WO2023193238A1 (zh) * 2022-04-08 2023-10-12 中国科学院深圳先进技术研究院 一种手术器械、行为和目标组织联合识别的方法及装置
WO2024040601A1 (en) * 2022-08-26 2024-02-29 Intel Corporation Head architecture for deep neural network (dnn)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084794B (zh) * 2019-04-22 2020-12-22 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110414551A (zh) * 2019-06-14 2019-11-05 田洪涛 一种基于rcnn网络对医疗器械进行自动分类的方法及系统
CN110717907A (zh) * 2019-10-06 2020-01-21 浙江大学 一种基于深度学习的手部肿瘤智能检测方法
CN111161290B (zh) * 2019-12-27 2023-04-18 西北大学 一种图像分割模型的构建方法、图像分割方法及系统
CN111667489B (zh) * 2020-04-30 2022-04-05 华东师范大学 基于双分支注意力深度学习的癌症高光谱图像分割方法及系统

Also Published As

Publication number Publication date
CN112347908A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347908B (zh) 一种基于空间分组注意力模型的外科手术器械图像识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN110532859A (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
US7702596B2 (en) Probabilistic boosting tree framework for learning discriminative models
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Hoque et al. Real time bangladeshi sign language detection using faster r-cnn
US20090116747A1 (en) Artificial intelligence systems for identifying objects
CN110969191B (zh) 基于相似性保持度量学习方法的青光眼患病概率预测方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Alkan et al. A smart agricultural application: automated detection of diseases in vine leaves usinghybrid deep learning
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN111291809A (zh) 一种处理装置、方法及存储介质
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
Chandran et al. Missing child identification system using deep learning and multiclass SVM
CN116580394A (zh) 一种基于多尺度融合和可变形自注意力的白细胞检测方法
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN114332572B (zh) 基于显著图引导分层密集特征融合网络用于提取乳腺病变超声图像多尺度融合特征参数方法
CN109919084A (zh) 一种基于深度多索引哈希的行人重识别方法
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
CN117333669A (zh) 基于有用信息引导的遥感影像语义分割方法、系统及设备
Yin et al. Pyramid tokens-to-token vision transformer for thyroid pathology image classification
CN114882351A (zh) 一种基于改进YOLO-V5s的多目标检测与跟踪方法
Li et al. High-order correlation-guided slide-level histology retrieval with self-supervised hashing
CN117095173A (zh) 一种结直肠癌h&e染色病理图像语义分割方法及系统
CN114913368B (zh) 基于自步双向对抗学习的融合遥感图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Hou Yaqing

Inventor after: Zhang Wenkai

Inventor after: Ge Hongwei

Inventor after: Zhang Qiang

Inventor after: Wei Xiaopeng

Inventor before: Zhang Wenkai

Inventor before: Hou Yaqing

Inventor before: Ge Hongwei

Inventor before: Zhang Qiang

Inventor before: Wei Xiaopeng

GR01 Patent grant
GR01 Patent grant