CN112347908A

CN112347908A - 一种基于空间分组注意力模型的外科手术器械图像识别方法

Info

Publication number: CN112347908A
Application number: CN202011219934.6A
Authority: CN
Inventors: 张文凯; 候亚庆; 葛宏伟; 张强; 魏小鹏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-09
Anticipated expiration: 2040-11-04
Also published as: CN112347908B

Abstract

本发明属于计算机视觉图像分类领域，涉及一种基于空间分组注意力模型的外科手术器械图像识别方法。本方法先针对常见的外科手术采集对应的手术器械图像构建原始数据集，并进行图像增强操作；然后将得到的图像送入神经网络，通过神经网络中嵌入的轻量级空间分组注意力模块来挖掘手术器械图像在特征空间和通道的关联性，对某些特定区域的特征进行增强或抑制，从而达到更好的分类效果，实现对该手术所使用的手术器械的精准分类。

Description

一种基于空间分组注意力模型的外科手术器械图像识别方法

技术领域

本发明属于计算机视觉图像分类领域，涉及一种基于空间分组注意力模型的外科手术器械图像识别方法。

背景技术

手术器械作为手术过程中最为重要的工具之一，对保证手术的顺利完成起着不容忽视的作用。然而，在手术过程中器械丢失的情况时有发生。从较轻的方面来讲，器械可能仅仅是遗落在手术台上；从较重的方面来讲，器械可能遗留在患者体内，危及患者的生命。因此，手术器械的清点工作对手术的顺利开展及完成起着至关重要的作用。手术器械的清点工作通常会在手术前后进行，涉及对该手术所使用器械的识别分类工作。对于手术过程中出现的手术器械丢失的情况，通过清点工作可以快速排查出来，并及时发现遗落的器械，从而减少因手术器械丢失带来的危害。目前手术器械的清点工作均由相关医护人员来完成，但人为的清点工作会受到各种各样因素的影响，例如身体疲累、精神恍惚等，从而导致清点工作的失误。基于以上考虑，本发明提出一种基于深度学习的图像分类方法来辅助手术器械清点工作的开展。

随着人工智能的高速发展，计算机视觉作为人工智能的主要研究领域之一，正在受到越来越多的关注。其中，图像分类作为计算机视觉领域最为基础和活跃的研究方向之一，已经广泛应用于各个领域，例如疾病诊断。然而利用图像分类技术来考察手术器械却鲜有研究涉及。本发明针对手术器械的清点工作，利用图像分类技术提出对手术器械的分类研究。不同于传统的图像分类任务，外科手术器械分类涉及对子类的分类，称为细粒度图像分类。传统意义上的图像分类一般只能识别出图像所属的大类，例如手术刀和手术钳；而细粒度图像分类致力于区分大类下的子类，例如组织镊和敷料镊。细粒度图像分类能够对同属于一个大类下的不同子类进行更加严格的区分，以此来满足更高分类精度场景下的图像分类要求。目前基于深度学习的细粒度图像分类方法主要分为两种：强监督学习方法和弱监督学习方法。

强监督学习方法在相对于弱监督学习仅依赖图像标签的基础之上，还需要依赖人工的标注信息。例如，在训练网络时，需要额外把基于人工的边框标注信息加入到网络进行强监督学习，使网络能够学习到目标的位置信息。此类方法虽然能够取得较好的分类效果，但其不足之处在于：1.需要大量的人力资源进行图像的标注，代价昂贵，操作复杂；2.人工标注的信息并非完全准确。因此，该类方法实用性较差，难以应用到不同的复杂场景中。

目前主流的细粒度图像分类方法是基于注意力机制的弱监督学习方法。该方法在仅仅依赖图像标签信息的情况下，能够实现自动获取图像中具有区分性的区域，通过将所获取的区域图像信息与全局图像信息结合起来对图像进行分类。基于注意力的方法大致分为两种：一阶段注意力学习方法和两阶段注意力学习方法。一阶段注意力学习方法通过把轻量级注意力机制嵌入到网络模型中来保证网络模型的简单性，同时提高原网络在子类上的学习能力。目前该类方法通常是通过压缩通道或空间维度来获得中间注意力特征图。但是该类方法在仅仅依靠注意力特征图的情况下难以准确获取图像中的目标及定位区分性区域，使其对子类的辨别能力不足。两阶段注意力学习通过训练两个网络来达到细粒度分类的效果。通过利用第一阶段的网络模型用来学习一个或多个具有区分性语义信息的区域并把训练所得的区域特征映射到原图得到若干子图，结合第二阶段的网络模型提取子图与原图的特征并融合来实现对该图像的分类。该方法的不足之处是两阶段的训练学习加大了模型的复杂度，使其难以应用到实际应用中。

总之，对于强监督学习方法，人工标注需要耗费财力物力且标注信息未必适合网络模型的学习。对于弱监督学习方法，通过两阶段注意力学习的方法，细粒度图像分类的性能较高，但其网络模型复杂且实时性较差，难以投入实际应用；一阶段注意力学习的方法虽然能够实现一阶段的端到端学习，但其受制于嵌入的注意力模块的设计，不能取得较好的分类效果。

发明内容

为了克服以上不足，本发明提出了一种基于空间分组注意力模型的外科手术器械图像识别的方法，目的在于构建一种高效的、低消耗的一阶段注意力学习网络模型，实现对外科手术器械图像的精准分类，进而辅助医护人员完成手术器械的清点工作。通过本发明方法，首先针对常见的外科手术采集对应的手术器械图像构建原始数据集，并进行图像增强操作；然后将得到的图像送入神经网络，通过神经网络中嵌入的轻量级空间分组注意力模块来挖掘手术器械图像在特征空间和通道的关联性，对某些特定区域的特征进行增强或抑制，从而达到更好的分类效果，实现对该手术所使用的手术器械的精准分类。

本发明包括两个模块：

(1)图像采集模块，实现外科手术器械数据集的构建。对于常见的外科手术，利用摄像头采集该手术所使用的每一类手术器械的若干张图像构成针对该手术的数据集。将获得的数据集按照一定的比例随机划分训练集和测试集并送入分类网络训练，使用交叉验证方法选择出较为稳定的划分方法作为该数据集的训练集与测试集。

(2)图像分类模块，实现对外科手术器械图像的精准分类。首先对图像采集模块获得的图像进行预处理，将得到的图像作为分类模型的输入，训练一个嵌入了空间分组注意力模块的卷积神经网络。通过使用深度残差网络(ResNet)作为骨干网络，在网络中间过程的残差块中嵌入空间分组注意力模块，实现对区分性区域特征的增强和背景特征的抑制，最终得到图像的特征向量。然后将特征向量输入到全连接层得到最终的分类结果。

为了达到上述目的，本发明采用的技术方案如下：

一种基于空间分组注意力模型的外科手术器械图像识别方法，具体步骤如下：

步骤1、数据采集，进行针对常见外科手术的数据集构建。

(1.1)针对常见外科手术使用到的手术器械包，通过模拟手术室环境，利用摄像头结合不同的拍摄角度对包中的所有手术器械进行图像采集，构成原始数据集。为了保证分类精度，摄像头分别为每一个器械采集多张图片且每张图片内仅包含该器械；

(1.2)对步骤(1.1)获得的原始数据集进行训练集与测试集的划分。将原始数据集平均划分为n部分，随机取其中的若干部分作为训练集，剩余部分作为测试集，得到m种组合方法。将划分后的数据集送入分类网络实现对m种组合的稳定性验证，最终选取最稳定的训练集与测试集用于后续的训练与测试。

步骤2、外科手术器械图像分类，使用基于空间分组的注意力模块的卷积神经网络实现对外科手术器械图像的分类。

(2.1)对步骤1所得的图像利用随机剪裁、翻转等技术预处理得到数据增强及数据扩增后的图像；

(2.2)将经过步骤(2.1)预处理过的图像X送入嵌入了空间分组注意力模块的ResNet网络，经过多层卷积操作，得到多通道的特征图X′∈R^7×7×C，其中7×7和C分别为特征图X′的空间维度和通道维度；

进一步地，步骤(2.2)中所述的空间分组注意力模块包括以下步骤：

(2.2.1)对于神经网络层中的中间特征图X₀∈R^H×W×C，先将其送入卷积核大小为1×1的卷积层进行降维操作得到特征图X₁∈R^H×W×C1来减少参数及运算量，其中H×W表示对应特征图的空间维度，H表示特征图的高度，W表示特征图的宽度，C和C1表示对应特征图的通道维度；

(2.2.2)采用组卷积对特征图X₁进行基于通道分组操作，得到多个维度相同的子特征图X₁＝{x₁,x₂,…,x_i,…,x_group},x_i∈R^{H×W×C1/group}，其中group表示子特征图个数，i＝[1,…,group]，x_i表示第i个子特征图；

(2.2.3)对于每个子特征图x_i，分别采取空间组增强注意力变换，具体操作如下：

(a)对于所有得到的子特征图x_i∈R^m×c，对其进行基于空间的全局平均池化操作F_gp(·)，得到子特征图x_i的全局语义向量g∈R^1×c，其中m＝H×W，表示子特征图的空间维度，H表示子特征图的高度，W表示子特征图的宽度，c＝C1/group，表示子特征图的通道维度；

(b)使用子特征图x_i的全局语义向量，让其与每个子特征图点乘得到与每个子特征图对应的重要性系数c_i∈R^m×1；

(c)对每个重要性系数c_i在空间维度做标准化得到c′_i；

(d)对每个经过标准化的重要性系数c′_i进行尺度和平移变换得到a_i；

(e)对于每个新生成的重要性系数a_i，通过一个sigmoid函数σ(·)并与a_i对应的子特征图x_i结合生成每个子特征图的空间增强子特征图x′_i；

(f)结合步骤(e)中得到的空间增强子特征图x′_i，得到特征图X′₁＝{x′₁,x′₂,…,x′_i,…,x′_group′},x′_i∈R^H×W×C1/group′，其中group′表示空间增强子特征图个数，i＝[1,…,group′]，x′_i表示第i个增强后的子特征图；

(g)将X′₁送入卷积核为1×1的卷积层进行升维操作，得到与X₀维度相同的特征图X′₀∈R^H×W×C，其中H×W表示特征图X′₀的空间维度，H表示特征图X′₀的高度，W表示特征图X′₀的宽度，C表示特征图X′₀的通道维度；

(h)将步骤(2.2.1)中的中间特征图X₀与步骤(g)得到的特征图X′₀结合得到空间分组注意力模块的输出特征图

其中H×W表示特征图

的空间维度，H表示特征图

的高度，W表示特征图

的宽度，C表示特征图

的通道维度；

(2.3)将特征图X′送入全局平均池化层得到特征向量Z∈R^1×1×C，其中C表示特征向量Z的维度；

(2.4)将特征向量Z送入全连接层和SoftMax得到预测的类别；

(2.5)利用步骤1中构建的数据集训练步骤(2.1)～(2.4)所构建的基于空间分组的注意力模块的卷积神经网络，得到预训练的网络结构，并用训练好的网络实现对外科手术器械图像的识别。

与现有方法相比，本发明具有如下有益效果：

首先，针对手术前后手术器械的清点工作，通过选取三种常见的外科手术的手术器械包，本发明方法提出外科手术器械数据集的构建。其次，本发明方法使用基于空间分组注意力模块的ResNet网络作为特征提取器，得到输入图像的深层次语义特征，利用嵌入网络中间层的空间分组注意力模块，通过增强局部具有区分性的特征并抑制无用背景的特征来使得最终得到的深层次语义特征具有更好的表征能力。该方法通过在网络中嵌入模块来使得整个网络是一个端到端的训练模式，相比于两阶段注意力学习方法，该方法在保证了准确率的情况下保持了易于训练的特性；相比于其它一阶段注意力学习方法，该方法嵌入的注意力模块没有引入较大的参数量及计算量且能够达到较高的准确率。

附图说明

图1是本发明的实施例的具体流程图；

图2(a)和图2(b)分别是空间分组注意力模块和ResNet标准残差块的原理图；

图3是具体的空间分组注意力模块的原理图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体地操作过程，但本发明的保护范围不限于下述的实施例。

本发明针对手术器械的清点工作提出外科手术医疗器械数据集的构建并提供一种基于空间分组注意力模型的外科手术器械图像分类方法(记为SGENeXt)，利用组卷积的方式对中间层的特征进行基于通道维度的分组，每组产生一个空间域的注意力，通过利用这些注意力来增强具有判别区域的特征。使用ResNet嵌入该方法作为特征提取器，采用SoftMax分类器进行分类，最终提高外科手术器械图像分类的准确率。

请参阅图1，本发明实施例一种基于空间分组注意力模型的外科手术器械图像分类方法，包括以下步骤：

(1)数据采集，针对某种或某类手术构建数据集。步骤包括：

(1.1)收集数据：选取最常见的三种外科手术(阑尾切除术、胆囊切除术和剖宫产)所用到的手术器械包作为原材料采集每个器械的图像组成原始数据集。在采集图像时，利用补光灯模拟手术室环境，并在器械下方放置吸光黑布来抑制其反光效应。同时，为了增加数据的复杂性，分别采集器械在不同状态(张开和闭合)和不同摄像头角度(主要有90°和30°)下的图像。该数据集包含19类手术器械，每类器械采集200张图片，一共得到含有3800张图像的原始数据集；

(1.2)划分训练集与测试集：首先将步骤(1.1)所得的原始数据集随机分为五部分。随机取其中三部分作为训练集，剩余两部分为测试集，一共得到十组不同划分的数据集。对十组数据集分别采用ResNet-50网络进行训练，保留训练过程中的数据并绘制训练曲线。比较十组曲线，选择较为稳定的训练曲线对应的数据集作为后续进行分细粒度分类使用的数据集。

(2)图像分类，针对步骤(1)所得的数据集，使用基于空间分组注意力模块的卷积神经网络进行精准分类。步骤包括：

(2.1)图像预处理模块：将原始图像调整为固定大小，得到大小为224的图像。对调整大小后的图像进行数据增强及扩增操作，本实施例采取随机翻转，添加噪声，颜色抖动等方法。将处理后的图像作为分类网络的输入；

(2.2)特征提取模块：使用ResNet作为基础网络，在网络中间层加入空间分组注意力模块进行特征提取。本实施例采用ResNet-50为例进行说明，通过在网络中的残差块中嵌入该注意力模块(记为GEA残差块)，以此来增强网络特征提取器的特征表达，GEA残差块与ResNet的标准残差块对比如图2(a)和图2(b)表示。在ResNet-50中，第二结构层至第五结构层包含了关键的48层结构，即包含了48个残差块结构。在本方法中，该残差块被替换为GEA残差块。以第三结构层的GEA残差块为例并结合图3来说明其工作原理：

(2.2.1)将GEA残差块的输入特征图表示为X₀∈R^56×56×256，将X₀送入卷积层conv_1×1进行降维操作得到降维后的特征X₁∈R^56×56×128。对X₁采用组卷积来对其进行通道维度的划分得到多个子特征图x,在图2中，子特征图个数为32,即x∈R^56×56×4。其中R^H×W×C分别表示特征图的高度H、宽度W和通道数C，conv_1×1表示卷积核为1×1的卷积层；

(2.2.2)对于步骤(2.2.1)得到的子特征图x_i∈R^m×4(m＝56*56,i＝[1,…,32])，对其进行基于空间的全局平均池化操作F_gp(·)，得到该子特征图x_i的空间语义向量g_i∈R^1×4，一共得到32个与子特征图对应的语义向量：

其中，m表示空间维度，x_ij∈R^1×4(j＝[1,…,m])，表示为x_i的第j个空间向量；

(2.2.3)将步骤(2.2.2)得到的所有语义向量与其对应的子特征图进行点乘得到每个子特征图对应的重要性系数c_i∈R^m×1，该步操作通过点乘得到：

c_i＝g_i·x_i. (2)

其中，i＝[1,…,32]；

(2.2.4)对每个c_i进行如下操作：为了防止不同样本之间重要性系数的偏差量过大，对重要性系数c_i在空间维度进行标准化，并对每个经过标准化的重要性系数c′_i进行尺度和平移变换得到a_i∈R^m×1：

a_i＝αc′_i+β. (5)

其中，c_ij(i＝[1,…,32],j＝[1,…,m],m＝56×56)表示第i个重要性系数的第j个元素，μ_c表示该重要性系数的m个元素的均值，

为其对应的方差，∈是为了保持数值稳定性而添加的常量，α和β表示对重要性系数进行尺度和平移变换的系数；

(2.2.5)使用新生成的重要性系数a_i通过一个sigmoid函数σ(·)来对与其对应的子特征图x_i结合生成每个子特征图的空间组增强注意力特征x′_i：

x′_i＝x_i·σ(a_i). (6)

其中，i＝[1,…,32]；

(2.2.6)聚合group个增强后的子特征图x′_i，得到特征组X′₁＝{x′_1…32}，其中，X′₁∈R^m×128,x′_i∈R^m×4,m＝56×56；

(2.2.7)将X′₁送入卷积核为1×1的卷积层进行升维操作，得到与X₀维度相同的特征图X′₀∈R^56×56×256；将原始的特征图X₀与新得到的特征图X′₀结合得到该空间分组注意力模块的最终结果

(2.2.8)通过在网络结构中嵌入重复(2.2.1)～(2.2.7)过程的GEA残差块，最终得到该输入图像的深层特征图X；将特征图进行全局平均池化得到图像的特征向量V；

(2.3)图像分类模块：将得到的特征向量送入全连接层与SoftMax得到每个类别的预测概率，取最高值所属的类别即为预测的类别；全连接层的分类损失函数采用交叉熵损失函数，即

其中，N表示该次迭代过程中输入图像的数量，p_i和q_i分别表示其真实标签和预测标签。

(3)采用搜集好的外科手术器械图像数据集训练出步骤(2)构建出所提出模型的初始网络权重参数，并采用训练好网络权重参数的网络模型对外科手术器械图像进行分类。

Claims

1.一种基于空间分组注意力模型的外科手术器械图像识别方法，其特征在于，具体步骤如下：

步骤1、数据采集，进行针对常见外科手术的数据集构建；

(1.1)针对外科手术使用到的手术器械包，通过模拟手术室环境，利用摄像头结合不同的拍摄角度对包中的所有手术器械进行图像采集，构成原始数据集；摄像头分别为每一个器械采集多张图片且每张图片内仅包含该器械；

(1.2)对步骤(1.1)获得的原始数据集进行训练集与测试集的划分；将原始数据集平均划分为n部分，随机取其中的若干部分作为训练集，剩余部分作为测试集，得到m种组合方法；将划分后的数据集送入分类网络实现对m种组合的稳定性验证，最终选取最稳定的训练集与测试集用于后续的训练与测试；

步骤2、外科手术器械图像分类，使用基于空间分组的注意力模块的卷积神经网络实现对外科手术器械图像的分类；

(2.1)对步骤1所得的图像利用随机剪裁或翻转技术预处理得到数据增强及数据扩增后的图像；

(2.2.1)对于神经网络层中的中间特征图X₀∈R^H×W×C，先将其送入卷积核大小为1×1的卷积层进行降维操作得到特征图X₁∈R^H×W×C1，其中H×W表示对应特征图的空间维度，C和C1表示对应特征图的通道维度；

(2.2.2)采用组卷积对特征图X₁进行基于通道分组操作，得到多个维度相同的子特征图X₁＝{x₁,x₂,…,x_i,…,x_group},x_i∈R^{H×W×C1/group}，，其中group表示子特征图个数，i＝[1,…,group]，x_i表示第i个子特征图；

(2.2.3)对每个子特征图x_i分别采取空间组增强注意力变换，具体操作如下：

(a)对于所有得到的子特征图x_i∈R^m×c，对其进行基于空间的全局平均池化操作F_gp(·)，得到子特征图x_i的全局语义向量g∈R^1×c，其中m＝H×W，表示子特征图的空间维度，c＝C1/group，表示子特征图的通道维度；

(c)对每个重要性系数c_i在空间维度做标准化得到c′_i；

(e)新生成的重要性系数a_i通过一个sigmoid函数σ(·)并与a_i对应的子特征图x_i结合生成每个子特征图的空间增强子特征图x′_i；

(f)结合步骤(e)中得到的空间增强子特征图x′_i，得到特征图X′₁＝{x′₁,x′₂,…,x′_i,…,x′_group′},x′_i∈R^{H×W×C1/group′}，其中group′表示空间增强子特征图个数，i＝[1,…,group′]，x′_i表示第i个增强后的子特征图；

(g)将X′₁送入卷积核为1×1的卷积层进行升维操作，得到与X₀维度相同的特征图X′₀∈R^H×W×C，其中H×W表示特征图X′₀的空间维度，C表示特征图X′₀的通道维度；

其中H×W表示特征图

的空间维度，C表示特征图

的通道维度；

(2.4)将特征向量Z送入全连接层和SoftMax得到预测的类别；