CN113887545A

CN113887545A - 一种基于目标检测模型的腹腔镜手术器械识别方法及装置

Info

Publication number: CN113887545A
Application number: CN202111482896.8A
Authority: CN
Inventors: 陈豪; 李国新; 余江; 陈浩彬; 苟龙飞; 陈翊; 闫滕
Original assignee: Southern Hospital Southern Medical University
Current assignee: Southern Hospital Southern Medical University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-04
Anticipated expiration: 2041-12-07
Also published as: CN113887545B

Abstract

本发明提供了一种基于目标检测模型的腹腔镜手术器械识别方法及装置。方法包括：提取输入图像的特征图；对特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，特定方向维度由待识别的目标外形确定；基于增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。本发明能够对输入图像的特征图进行与待识别目标相契合的方向维度的注意力增强，进而进行目标检测，从而得到更加准确的识别结果，即能够从采集到的图像对应的注意力增强的特征图中准确地识别出所有操作器械，同时提升了识别出的操作器械的器械信息的识别结果，从而提高了操作过程中对于操作器械进行识别的准确率。

Description

一种基于目标检测模型的腹腔镜手术器械识别方法及装置

技术领域

本发明的实施方式涉及人工智能领域，更具体地，本发明的实施方式涉及一种基于目标检测模型的腹腔镜手术器械识别方法及装置。

背景技术

近年来，腹腔镜手术是一门新发展起来的微创方法，随着以机器学习尤其是深度学习为代表的人工智能技术的迅猛发展，以及相关学科的融合都为开展新技术、新方法奠定了坚定的基础，许多过去的开放性手术目前已被腔内手术所取代，大大增加了手术选择范围。

目前，在进行腔内手术的过程中通常需要基于人工智能的手术分析系统对正在进行的手术进行分析，以使手术分析系统能够及时地对操作手术的医生进行提示（例如提示当前手术操作区域存在的操作器械等）。然而，在实践中发现，现有的系统在操作器械较多的场景中，通常无法准确地识别出所有操作器械。

发明内容

在本上下文中，本发明的实施方式期望提供一种准确率高的，基于目标检测模型的腹腔镜手术器械识别方法，包括：

提取输入图像的特征图；

对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度由待识别的目标外形确定；

基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

在本实施方式的一个实施例中，对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，包括：

对所述特征图在横向进行平均池化操作，得到横向特征向量；和/或

对所述特征图在纵向进行平均池化操作，得到纵向特征向量；

对所述横向特征向量和/或所述纵向特征向量进行特征增强，得到相应方向上特征增强的增强注意力权重。

在本实施方式的一个实施例中，对所述横向特征向量和所述纵向特征向量进行特征增强，得到相应方向上特征增强的增强注意力权重，包括：

将所述横向特征向量和所述纵向特征向量进行拼接，得到拼接特征向量；

对所述拼接特征向量分别进行三次卷积操作，得到所述拼接特征向量的自注意力键值、自注意力特征值以及查询信息；

对所述自注意力键值、所述自注意力特征值以及所述查询信息进行计算，得到自注意力增强的特征权重；

对所述特征权重进行切片操作，得到横向特征增强的横向增强注意力权重和纵向特征增强的纵向增强注意力权重。

在本实施方式的一个实施例中，基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识，包括：

基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图；

对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

在本实施方式的一个实施例中，基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图，包括：

对所述横向增强注意力权重和所述纵向增强注意力权重进行扩展，得到扩展后的横向增强注意力权重和纵向增强注意力权重，其中，扩展后的横向增强注意力权重和纵向增强注意力权重的尺寸均与所述特征图的尺寸相同；

将所述扩展后的横向增强注意力权重和纵向增强注意力权重与所述特征图进行点积计算，得到自注意力增强的增强特征图。

在本实施方式的一个实施例中，对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识，包括：

对所述增强特征图进行卷积操作，得到卷积特征图；

基于所述卷积特征图进行目标检测，得到第一检测结果；所述第一检测结果用于表示所述输入图像中包含的器械信息及相应的标识。

在本实施方式的一个实施例中，得到第一检测结果之后，所述方法还包括：

将所述第一检测结果与预先存储的隐式向量进行点乘计算，得到学习后的第二检测结果，所述第二检测结果用于表示所述输入图像中包含的器械信息及相应的标识，其中，所述隐式向量基于预先设置的器械类别构建，所述第二检测结果表示的所述器械信息与预先设置任一所述器械类别对应。

在本发明实施方式的第二方面中，提供了一种基于目标检测模型的腹腔镜手术器械识别装置，包括：

提取单元，用于提取输入图像的特征图；

增强单元，用于对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度与待识别的目标外形相似；

检测单元，用于基于所述增强注意力权重进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括第三方面所述的存储介质。

根据本发明实施方式的基于目标检测模型的腹腔镜手术器械识别方法、装置和计算设备，能够对输入图像的特征图进行与待识别目标相契合的方向维度的注意力增强，进而进行目标检测，从而得到更加准确的识别结果，即能够从采集到的图像对应的注意力增强的特征图中准确地识别出所有操作器械，同时提升了识别出的操作器械的器械信息的识别结果，从而提高了操作过程中对于操作器械进行识别的准确率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明第一实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图；

图2为本发明第二实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图；

图3（a）为本发明实施例目标检测模型中的一种横注意力模块的结构示意图；

图3（b）为本发明实施例目标检测模型中包含横注意力模块的增强CBL模块的结构示意图；

图4（a）为本发明实施例目标检测模型中的一种纵注意力模块的结构示意图；

图4（b）为本发明实施例目标检测模型中包含纵注意力模块的增强CBL模块的结构示意图；

图5为本发明第三实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图；

图6（a）为本发明实施例目标检测模型中的一种横纵注意力模块的结构示意图；

图6（b）为本发明实施例目标检测模型中包含横纵注意力模块的增强CBL模块的结构示意图；

图7为本发明实施例目标检测模型的网络结构示意图；

图8为本发明一实施例提供的基于目标检测模型的腹腔镜手术器械识别装置的结构示意图；

图9示意性地示出了本发明实施例的一种介质的结构示意图；

图10示意性地示出了本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于目标检测模型的腹腔镜手术器械识别方法、装置和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

首先，具体描述本发明的器械识别方法：

下面参考图1，图1为本发明第一实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图1所示的本发明第一实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程，包括：

步骤S101，提取输入图像的特征图；

步骤S102，对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度由待识别的目标外形确定；

步骤S103，基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

本申请中提出的基于目标检测模型的腹腔镜手术器械识别方法所针对的是基于以机器学习尤其是深度学习为代表的人工智能所构建的目标检测模型，包括但不限于目标检测、图像识别、手术过程中采集到的图像中包含的多种目标的识别等各个适用不同应用场景的目标检测模型，例如可以用于对胃癌手术过程中内窥镜采集到的图像中包含的操作器械的识别等。

本发明能够提取得到输入图像的特征图，并对提取到的特征区从特定的方向上进行注意力增强，并对提升了注意力的特征图进行目标检测，从而得到更加准确的识别结果，即能够从手术采集到的图像对应的注意力增强的特征图中准确地识别出所有操作器械，同时提升了识别出的操作器械的器械信息的识别结果，从而提高了手术操作过程中对于操作器械进行识别的准确率。

下面结合附图说明如何提升目标的识别结果，从而提升手术操作过程中对于操作器械进行识别的准确率：

本发明实施例中，目标检测模型可以基于Yolo v5网络优化得到，可以在Yolo v5网络的主干网络中加入注意力机制模块，以提高目标检测模型对特征图的自注意力的增强，从而更准确的识别出输入图像中存在的器械信息。

本发明实施例中，输入图像可以为从图像采集设备（如摄像机、内窥镜等）采集到的图片或者视频等影像数据中得到，可以将采集到的图像输入至目标检测模型进行目标检测，通过对检测得到的目标进行识别可以得到输入图像中包含的多个目标，例如，当本实施例应用于腹腔镜手术场景时，可以使用内窥镜等图像采集设备对患者进行图像采集，并且可以将采集到的图像输入至目标检测模型中进行目标检测，即可以先对输入图像进行特征提取得到输入图像的特征图，再对特征图按照特定方向维度进行特征增强，得到相应方向上特征增强的增强注意力权重，以及可以基于增强的注意力权重对特征图进行注意力增强，以使基于注意力增强后的特征图进行的目标检测结果更加准确，得到的目标检测结果中可以包含内窥镜拍摄到的图像中包含的一个或多个操作器械的器械信息以及用于在图像中用于指示各个器械所在位置的标识，该标识可以为包围框（例如矩形包围框、圆形包围框等）等。其中，器械信息至少可以包含以下类型：戳卡、戳卡内芯、肠钳、胃钳、超声刀、荷包针、荷包线、分离钳、Hem-o-lok夹白色止血夹、施夹钳、直线切割闭合器、巴克钳、腔镜纱、针、持针器、腔镜剪以及吸引器等。

本发明实施例中，可以通过目标检测模型中新增的注意力机制模块在特定方向维度上对特征图进行注意力增强，从而提高基于特征图进行目标检测的准确性。

此外，还可以基于SE模块（Squeeze-and-Excitation Networks）和GC模块（GlobalContext）对特征图实现注意力增强，具体为：

SE模块可以首先对卷积得到的特征图进行Squeeze操作，得到特征图通道级的全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，从而得到不同通道对应的权重，最后将不同通道对应的权重乘以最初的特征图得到最终特征。本质上，SE模块是在通道维度上做注意力机制或者gating操作，这种注意力机制让模型可以更加关注信息量最大的通道特征，而抑制不重要的通道特征。GC模块为SE模块的升级版本，都是为了解决特征图的长距离依赖（long-range dependency）的问题。

请参阅图2，图2为本发明第二实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图，图2所示的本发明第二实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程包括：

步骤S201，提取输入图像的特征图；

步骤S202，对所述特征图在横向进行平均池化操作，得到横向特征向量；和/或对所述特征图在纵向进行平均池化操作，得到纵向特征向量；所述特定方向维度由待识别的目标外形确定；

步骤S203，对所述横向特征向量和/或所述纵向特征向量进行特征增强，得到相应方向上特征增强的增强注意力权重。

实施上述的步骤S202~步骤S203，可以从横向、纵向或者横向以及纵向等多个方向上对特征图进行池化操作以及特征增强操作，以得到横向的特征增强的增强注意力权重，或者得到纵向的特征增强的增强注意力权重，还可以的得到横向和纵向都进行运算的特征增强的增强注意力权重，提高了对特征图计算的多样性，从而可以得到更多样化的特征增强的增强注意力权重，提升了特征增强的多样性。

步骤S204，基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

本发明实施例中，可以对特征图在横向进行平均池化操作，得到横向特征向量；和/或对特征图在纵向进行平均池化操作，得到纵向特征向量。对特征图进行不同方向维度上的特征增强可以根据待识别的目标外形确定。且对特征图在不同方向维度上进行特征增强后，再对特征增强的特征图进行目标检测会采用不同的方式，具体的：

当仅对特征图在横向进行特征增强时，得到特征图在横方向的增强注意力权重的具体方式可以为：

对特征图在横向进行平均池化操作，得到横向特征向量；对横向特征向量分别进行三次卷积操作，得到横向特征向量的自注意力键值、自注意力特征值以及查询信息；对横向特征向量的自注意力键值、自注意力特征值以及查询信息进行计算，得到横方向自注意力增强的增强注意力权重。

更进一步，可以对横方向的增强注意力权重进行扩展，得到扩展后的横向增强注意力权重，扩展后的横向增强注意力权重与特征图的尺寸相同；并且可以基于横向增强注意力权重和输入图像的特征图进行点积计算，得到横向注意力增强的增强特征图；以及可以对横向注意力增强的增强特征图进行目标检测，得到输入图像中包含的器械信息及相应的标识。

请一并参阅图3（a）和图3（b），图3（a）为本发明实施例目标检测模型中的一种横注意力模块的结构示意图；图3（b）为本发明实施例目标检测模型中包含横注意力模块的增强CBL模块的结构示意图；其中，图3（b）所示的增强CBL模块是目标检测模型中的模块，能够实现对输入特征图进行横方向的注意力增强，增强CBL模块中可以包含横注意力模块、归一化层和Leakyrelu激活函数，其中，横注意力模块的结构图如图3（a）所示，横注意力模块中包含横方向平均池化层、三个1´1的卷积以及注意力机制模块，特征图可以作为输入进入到横方向平均池化层，以使横方向平均池化层对特征图在进行平均池化操作，得到横向特征向量；横向特征向量分别被输入至三个1´1的卷积中，通过各个1´1的卷积对横向特征向量分别进行三次卷积操作，得到横向特征向量的自注意力键值k、自注意力特征值v以及查询信息q；并且可以将得到的横向特征向量的自注意力键值k、自注意力特征值v以及查询信息q输入至注意力机制模块中，以使注意力机制模块对横向特征向量的自注意力键值k、自注意力特征值v以及查询信息q进行计算，得到横方向自注意力增强的增强注意力权重，最后将得到的横方向的增强注意力权重与输入的特征图进行点积计算，得到横向注意力增强的增强特征图。

当仅对特征图在纵向进行特征增强时，得到特征图在纵方向的增强注意力权重的具体方式可以为：

对特征图在纵向进行平均池化操作，得到纵向特征向量；对纵向特征向量分别进行三次卷积操作，得到纵向特征向量的自注意力键值、自注意力特征值以及查询信息；对纵向特征向量的自注意力键值、自注意力特征值以及查询信息进行计算，得到纵方向自注意力增强的增强注意力权重。

更进一步，可以对纵方向的增强注意力权重进行扩展，得到扩展后的纵向增强注意力权重，扩展后的纵向增强注意力权重与特征图的尺寸相同；并且可以基于纵向增强注意力权重和输入图像的特征图进行点积计算，得到纵向注意力增强的增强特征图；以及可以对纵向注意力增强的增强特征图进行目标检测，得到输入图像中包含的器械信息及相应的标识。

请一并参阅图4（a）和图4（b），图4（a）为本发明实施例目标检测模型中的一种纵注意力模块的结构示意图；图4（b）为本发明实施例目标检测模型中包含纵注意力模块的增强CBL模块的结构示意图，其中，图4（b）所示的增强CBL模块是目标检测模型中的模块，能够实现对输入特征图进行纵方向的注意力增强，增强CBL模块中可以包含纵注意力模块、归一化层和Leakyrelu激活函数，其中，纵注意力模块的结构图如图4（a）所示，纵注意力模块中包含纵方向平均池化层、三个1´1的卷积以及注意力机制模块，特征图可以作为输入进入到纵方向平均池化层，以使纵方向平均池化层对特征图在进行平均池化操作，得到纵向特征向量；纵向特征向量分别被输入至三个1´1的卷积中，通过各个1´1的卷积对纵向特征向量分别进行三次卷积操作，得到纵向特征向量的自注意力键值k、自注意力特征值v以及查询信息q；并且可以将得到的纵向特征向量的自注意力键值k、自注意力特征值v以及查询信息q输入至注意力机制模块中，以使注意力机制模块对纵向特征向量的自注意力键值k、自注意力特征值v以及查询信息q进行计算，得到纵方向自注意力增强的增强注意力权重，最后将得到的纵方向的增强注意力权重与输入的特征图进行点积计算，得到纵向注意力增强的增强特征图。

请参阅图5，图5为本发明第三实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程示意图，图5所示的本发明第三实施例提供的基于目标检测模型的腹腔镜手术器械识别方法的流程包括：

步骤S501，提取输入图像的特征图；

步骤S502，对所述特征图在横向进行平均池化操作，得到横向特征向量；和对所述特征图在纵向进行平均池化操作，得到纵向特征向量；所述特定方向维度由待识别的目标外形确定；

步骤S503，将所述横向特征向量和所述纵向特征向量进行拼接，得到拼接特征向量；

步骤S504，对所述拼接特征向量分别进行三次卷积操作，得到所述拼接特征向量的自注意力键值、自注意力特征值以及查询信息；

步骤S505，对所述自注意力键值、所述自注意力特征值以及所述查询信息进行计算，得到自注意力增强的特征权重；

步骤S506，对所述特征权重进行切片操作，得到横向特征增强的横向增强注意力权重和纵向特征增强的纵向增强注意力权重。

实施上述的步骤S503~步骤S506，可以将得到的横向特征向量和纵向特征向量进行拼接，得到拼接特征向量，在对拼接特征向量进行三次卷积操作，根据三次卷积操作得到的数据再进行计算，从而得到自注意力增强的特征权重，以及可以将得到的自注意力增强的特征权重进行切片，从而得横向特征增强的横向增强注意力权重和纵向特征增强的纵向增强注意力权重，通过提升特征图的自注意力，从而提高了基于特征图进行目标识别的准确性。

本发明实施例中，对特征图在横向进行平均池化操作，得到横向特征向量；和对特征图在纵向进行平均池化操作，得到纵向特征向量，得到的横向特征向量和纵向特征向量的尺寸都可以为C´1´W，提取输入图像得到的特征图的尺寸可以为C´H´W，经过拼接操作，可以得到尺寸为C´（W+H）´1的拼接特征向量；之后可以经过3个1´1的通道数为1的卷积对拼接特征向量进行三次卷积操作，分别生成拼接特征向量的自注意力键值、自注意力特征值以及查询信息；以及可以将拼接特征向量的自注意力键值、自注意力特征值以及查询信息输入至标准的注意力机制模块，得到尺寸为C´（W+H）´1的自注意力增强的特征权重；以及可以对自注意力增强的特征权重进行切片操作，将自注意力增强的特征权重划分为尺寸为C´W´1的横向增强注意力权重和尺寸为C´H´1的纵向增强注意力权重。

步骤S507，基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图；

步骤S508，对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

实施上述的步骤S507~步骤S508，可以基于得到的横向增强注意力权重和纵向增强注意力权重对特征图进行计算，以使得到的增强特征图在横向和纵向上都进行了注意力增强，进一步使得基于增强特征图进行目标检测的结果更加准确。

作为一种可选的实施方式，步骤S507基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图的方式具体可以包含以下步骤：

其中，实施这种实施方式，可以对横向增强注意力权重和纵向增强注意力权重进行扩展，以使扩展后的横向注意力权重的尺寸与特征图的尺寸相同，以及扩展后的纵向注意力权重的尺寸也与特征图的尺寸相同，以使尺寸相同的横向增强注意力权重和纵向增强注意力权重对特征图进行点积计算，得到的增强特征图的自注意力增强的效果更好。

本发明实施例中，可以对横向增强注意力权重和纵向增强注意力权重进行扩展，将横向增强注意力权重和纵向增强注意力权重的尺寸都扩展至与输入的特征图相同的尺寸，并且将扩展后的横向增强注意力权重和纵向增强注意力权重都与输入的特征图进行点积运算，最后输出的自注意力增强的增强特征图的尺寸依然为C´H´W。

作为一种可选的实施方式，步骤S508对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识的方式具体可以包含以下步骤：

对所述增强特征图进行卷积操作，得到卷积特征图；

其中，实施这种实施方式，可以对得到的增强特征图进行卷积计算，并将得到的卷积特征图进行目标检测，得到的第一检测结果中可以包含一个或多个检测到的目标，并且还可以包含用于指示每个检测到的目标的标识，以及各个目标对应的器械信息，从而提高了目标检测的全面性。

本发明实施例中，目标检测模型可以对特征图进行检测，输出一个或多个检测结果，输出的多个检测结果可以为检测到的不同的目标，得到的第一检测结果中可以包含检测到的目标对应的器械信息以及用于在输如图像中指示检测到的目标所在位置的标识。

更进一步，得到第一检测结果之后，还可以包括以下步骤：

其中，实施这种实施方式，可以通过隐式向量与第一检测结果进行点乘计算，得到第二检测结果，由于隐式向量中包含了各种不同器械类别对应的信息，因此，第一检测结果基于隐式向量进行学习，从而使得到的第二检测结果中对于器械类型的目标的识别更加准确。

本发明实施例中，可以在目标检测模型中加入预先存储的可学习的隐式向量，隐式向量的尺寸可以为（66，1，1），其中，66可以表示目标检测模型的检测头模块中可以包含3个预测box，每个预测box包含5个基本参数，预先设置的待识别的器械类别可以有17个，因此3×(5+17) = 66，同理，当预先设置的待识别的器械类别数量发生改变时，可以使用同样的方式计算出隐式向量的尺寸；以及隐式向量可以与检测头模块输出的第一检测结果进行点乘运算，得到最终的第二检测结果。经过这样的操作，可使模型学习到隐式的器械的相关知识，作为一维向量存储在模型中。从而能有效提高模型的检测精度。隐式向量是为了目标检测模型能够记忆每类操作器械的特征，在检测输入图像中包含的操作器械时，通过隐式向量，目标检测模型可以自动关注特征区域，从而能有效提高模型检测精度。隐式向量为可学习的向量，在预先训练目标检测模型的过程中，通过误差的反向传播，对操作器械的特征进行学习。

请一并参阅图6（a）、图6（b）以及图7，图6（a）为本发明实施例目标检测模型中的一种横纵注意力模块的结构示意图；图6（b）为本发明实施例目标检测模型中包含横纵注意力模块的增强CBL模块的结构示意图；图7为本发明实施例目标检测模型的网络结构示意图；其中，图6（b）所示的增强CBL模块是目标检测模型中的模块，能够实现对输入特征图进行横纵两个方向的注意力增强，增强CBL模块中可以包含横纵注意力模块、归一化层和Leakyrelu激活函数，其中，横纵注意力模块的结构图如图6（a）所示，纵注意力模块中包含横方向平均池化层、纵方向平均池化层、Concat+卷积、三个1´1的卷积以及注意力机制模块，特征图可以作为输入进入到横方向平均池化层和纵方向平均池化层，以使横方向平均池化层对特征图在进行平均池化操作，得到横向特征向量，以及使纵方向平均池化层对特征图在进行平均池化操作，得到纵向特征向量；并通过Concat+卷积对横向特征向量和纵向特征向量进行拼接操作，得到拼接特征向量；拼接特征向量分别被输入至三个1´1的卷积中，通过各个1´1的卷积对拼接特征向量分别进行三次卷积操作，得到拼接特征向量的自注意力键值k、自注意力特征值v以及查询信息q；并且可以通过注意力机制模块对拼接特征向量的自注意力键值k、自注意力特征值v以及查询信息q进行计算，得到拼接特征向量的自注意力增强的特征权重，并对自注意力增强的特征权重进行切片操作，将自注意力增强的特征权重划分为横向增强注意力权重和纵向增强注意力权重，最后将得到的横向增强注意力权重和纵向增强注意力权重与输入的特征图进行点积计算，输出自注意力增强的增强特征图。

图7中表示了隐式向量的插入位置，其中，图7中的目标检测模型中包含了主干网络模块（Backbone模块）、Neck模块以及检测头模块（Head模块），Head模块包含了三个检测头，三个检测头都包含有Concat、CSP2_1、增强CBL（如图6（a）和图6（b）所示）、卷积层以及隐式向量，输入图像输入至目标检测模型中，通过Backbone模块和Neck模块对输入图像进行特征提取，得到输入图像的特征图，并且将得到的特征图输入至Head模块中的三个检测头中，以使各个检测头中的Concat、CSP2_1、增强CBL以及卷积层对输入的特征图进行运算，得到各个检测头输出的第一检测结果，之后通过隐式向量对各个第一检测结果分别进行点乘计算，从而输出各个检测头对应的第二检测结果（Output1、Output2、Output3）。

本发明能够提升目标的识别结果，从而提升手术操作过程中对于操作器械进行识别的准确率。此外，本发明还可以提升特征增强的多样性。此外，本发明还可以提高基于特征图进行目标识别的准确性。此外，本发明还可以使基于增强特征图进行目标检测的结果更加准确。此外，本发明还可以使得到的增强特征图的自注意力增强的效果更好。此外，本发明还可以提高目标检测的全面性。此外，本发明还可以使得到的第二检测结果中对于器械类型的目标的识别更加准确。

下面进一步详细描述本发明的装置：

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的一种基于目标检测模型的腹腔镜手术器械识别装置进行说明，该装置包括：

提取单元801，用于提取输入图像的特征图；

增强单元802，用于对提取单元801提取的所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度与待识别的目标外形相似；

检测单元803，用于基于增强单元802得到的所述增强注意力权重进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。

作为一种可选的实施方式，增强单元802对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重的方式具体为：

其中，实施这种实施方式，可以从横向、纵向或者横向以及纵向等多个方向上对特征图进行池化操作以及特征增强操作，以得到横向的特征增强的增强注意力权重，或者得到纵向的特征增强的增强注意力权重，还可以的得到横向和纵向都进行运算的特征增强的增强注意力权重，提高了对特征图计算的多样性，从而可以得到更多样化的特征增强的增强注意力权重，提升了特征增强的多样性。

作为一种可选的实施方式，增强单元802对所述横向特征向量和所述纵向特征向量进行特征增强，得到相应方向上特征增强的增强注意力权重的方式具体为：

其中，实施这种实施方式，可以将得到的横向特征向量和纵向特征向量进行拼接，得到拼接特征向量，在对拼接特征向量进行三次卷积操作，根据三次卷积操作得到的数据再进行计算，从而得到自注意力增强的特征权重，以及可以将得到的自注意力增强的特征权重进行切片，从而得横向特征增强的横向增强注意力权重和纵向特征增强的纵向增强注意力权重，通过提升特征图的自注意力，从而提高了基于特征图进行目标识别的准确性。

作为一种可选的实施方式，检测单元803基于所述增强注意力权重进行目标检测，得到所述输入图像中包含的器械信息及相应的标识的方式具体为：

其中，实施这种实施方式，可以基于得到的横向增强注意力权重和纵向增强注意力权重对特征图进行计算，以使得到的增强特征图在横向和纵向上都进行了注意力增强，进一步使得基于增强特征图进行目标检测的结果更加准确。

作为一种可选的实施方式，检测单元803基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图的方式具体为：

作为一种可选的实施方式，检测单元803对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识的方式具体为：

对所述增强特征图进行卷积操作，得到卷积特征图；

作为一种可选的实施方式，检测单元803还可以用于：得到第一检测结果之后将所述第一检测结果与预先存储的隐式向量进行点乘计算，得到学习后的第二检测结果，所述第二检测结果用于表示所述输入图像中包含的器械信息及相应的标识，其中，所述隐式向量基于预先设置的器械类别构建，所述第二检测结果表示的所述器械信息与预先设置任一所述器械类别对应。

下面进一步描述本发明的存储介质：

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图9对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图9，其示出的计算机可读存储介质为光盘90，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，提取输入图像的特征图；对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度由待识别的目标外形确定；基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

下面进一步描述本发明的计算设备：

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图10对本发明示例性实施方式的用于基于目标检测模型的腹腔镜手术器械识别的计算设备。

图10示出了适于用来实现本发明实施方式的示例性计算设备100的框图，该计算设备100可以是计算机系统或服务器。图10显示的计算设备100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算设备100的组件可以包括但不限于：一个或者多个处理器或者处理单元1001，系统存储器1002，连接不同系统组件（包括系统存储器1002和处理单元1001）的总线1003。

计算设备100典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备100访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器1002可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）10021和/或高速缓存存储器10022。计算设备100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM10023可以用于读写不可移动的、非易失性磁介质（图10中未显示，通常称为“硬盘驱动器”）。尽管未在图10中示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1003相连。系统存储器1002中可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块10024的程序/实用工具10025，可以存储在例如系统存储器1002中，且这样的程序模块10024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块10024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备100也可以与一个或多个外部设备1004（如键盘、指向设备、显示器等）通信。这种通信可以通过输入/输出（I/O）接口1005进行。并且，计算设备100还可以通过网络适配器1006与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图10所示，网络适配器1006通过总线1003与计算设备100的其它模块（如处理单元1001等）通信。应当明白，尽管图10中未示出，可以结合计算设备100使用其它硬件和/或软件模块。

处理单元1001通过运行存储在系统存储器1002中的程序，从而执行各种功能应用以及数据处理，例如，提取输入图像的特征图；对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，所述特定方向维度由待识别的目标外形确定；基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了基于目标检测模型的腹腔镜手术器械识别装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

Claims

1.一种基于目标检测模型的腹腔镜手术器械识别方法，包括：

提取输入图像的特征图；

2.根据权利要求1所述的基于目标检测模型的腹腔镜手术器械识别方法，对所述特征图进行特定方向维度的特征增强，得到相应方向上特征增强的增强注意力权重，包括：

3.根据权利要求2所述的基于目标检测模型的腹腔镜手术器械识别方法，对所述横向特征向量和所述纵向特征向量进行特征增强，得到相应方向上特征增强的增强注意力权重，包括：将所述横向特征向量和所述纵向特征向量进行拼接，得到拼接特征向量；

4.根据权利要求3所述的基于目标检测模型的腹腔镜手术器械识别方法，基于所述增强注意力权重和输入图像的特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识，包括：

5.根据权利要求4所述的基于目标检测模型的腹腔镜手术器械识别方法，基于所述横向增强注意力权重和所述纵向增强注意力权重与所述特征图进行计算，得到自注意力增强的增强特征图，包括：

6.根据权利要求4或5所述的基于目标检测模型的腹腔镜手术器械识别方法，对所述增强特征图进行目标检测，得到所述输入图像中包含的器械信息及相应的标识，包括：

对所述增强特征图进行卷积操作，得到卷积特征图；

7.根据权利要求6所述的基于目标检测模型的腹腔镜手术器械识别方法，得到第一检测结果之后，所述方法还包括：

8.一种基于目标检测模型的腹腔镜手术器械识别装置，包括：

提取单元，用于提取输入图像的特征图；

9.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1~7中的任一项所述的方法。

10.一种计算设备，包括如权利要求9所述的存储介质。