CN112784672A

CN112784672A - 基于计算机视觉的手术场景评估

Info

Publication number: CN112784672A
Application number: CN202011230081.6A
Authority: CN
Inventors: 许婉欣; 黄科凯
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2019-11-08
Filing date: 2020-11-06
Publication date: 2021-05-11
Also published as: KR20210056239A; EP3819867A1; US11625834B2; US20210142487A1; JP2021099789A

Abstract

实施方式通常涉及基于计算机视觉的手术场景评估。在一些实施方式中，一种方法包括：接收与手术场景相关联的多个图像帧中的第一图像帧。该方法还包括检测第一图像帧中的一个或多个对象。该方法还包括确定与所述一个或多个对象相对应的一个或多个位置。该方法还包括跟踪一个或多个对象在多个图像帧的其他图像帧中的每个位置。

Description

基于计算机视觉的手术场景评估

相关申请的交叉引用

本申请要求在2019年11月8日提交的、标题为“具有基于计算机视觉的检测和跟踪的手术场景理解系统(A Surgical Scene Understanding System with ComputerVision-based Detection and Tracking)”的美国临时专利申请第62/932595号的权益，该申请通过引用结合于此，就像在本申请中为了所有目的而全面阐述一样。

背景技术

计算机辅助手术使用计算机技术来引导或执行医疗过程，诸如涉及内窥镜检查、腹腔镜检查等的过程。在手术期间，外科医生可能需要使用各种工具来执行手术。相机和监视器可以帮助外科医生执行手术过程。然而，手术相机或视频序列未被充分利用。

发明内容

实施方式总体上涉及基于计算机视觉的手术场景评估。在一些实施方式中，系统包括一个或多个处理器，并且包括编码在一个或多个非瞬态计算机可读存储介质中以供由一个或多个处理器执行的逻辑。当被执行时，所述逻辑可操作以使得所述一个或多个处理器执行操作，所述操作包括：接收与手术场景相关联的多个图像帧中的第一图像帧；检测所述第一图像帧中的一个或多个对象；确定与所述一个或多个对象相对应的一个或多个位置；以及跟踪所述一个或多个对象在所述多个图像帧中的其他图像帧中的每个位置。

进一步关于该系统，在一些实施方式中，一个或多个对象中的至少一个对象是手术工具。在一些实施方式中，一个或多个对象中的至少一个对象是纱布。在一些实施方式中，一个或多个对象中的至少一个对象是出血区域。在一些实施方式中，一个或多个对象中的至少一个对象是烟雾。在一些实施方式中，利用卷积神经网络来执行对第一图像帧中的一个或多个对象的检测。在一些实施方式中，实时地执行操作。

在一些实施方式中，提供了一种其上具有程序指令的非瞬态计算机可读存储介质。当由一个或多个处理器执行时，所述指令可操作以使得所述一个或多个处理器执行操作，所述操作包括：接收与手术场景相关联的多个图像帧中的第一图像帧；检测所述第一图像帧中的一个或多个对象；确定与所述一个或多个对象相对应的一个或多个位置；以及跟踪所述一个或多个对象在所述多个图像帧中的其他图像帧中的每个位置。

进一步关于计算机可读存储介质，在一些实施方式中，一个或多个对象中的至少一个对象是手术工具。在一些实施方式中，一个或多个对象中的至少一个对象是纱布。在一些实施方式中，所述一个或多个对象中的至少一个对象是出血区域。在一些实施方式中，一个或多个对象中的至少一个对象是烟雾。在一些实施方式中，利用卷积神经网络来执行对第一图像帧中的一个或多个对象的检测。在一些实施方式中，实时地执行操作。

在一些实施方式中，一种方法包括：接收与手术场景相关联的多个图像帧中的第一图像帧；检测所述第一图像帧中的一个或多个对象；确定与所述一个或多个对象相对应的一个或多个位置；以及跟踪所述一个或多个对象在所述多个图像帧中的其他图像帧中的每个位置。

进一步关于该方法，在一些实施方式中，一个或多个对象中的至少一个对象是手术工具。在一些实施方式中，一个或多个对象中的至少一个对象是纱布。在一些实施方式中，一个或多个对象中的至少一个对象是出血区域。在一些实施方式中，一个或多个对象中的至少一个对象是烟雾。在一些实施方式中，利用卷积神经网络来执行对第一图像帧中的一个或多个对象的检测。

通过参考说明书的其余部分和附图，可以实现对本文所公开的特定实施方式的性质和优点的进一步理解。

附图说明

图1示出了可以用于本文所述的实施方式的示例性工作环境的框图。

图2示出了根据一些实施方式的用于分析手术场景的示例流程图。

图3示出了根据一些实施方式的用于基于计算机视觉来评估手术场景的示例流程图。

图4示出了根据一些实施方式的示出两个工具和两个对应的边界框的示例屏幕截图。

图5示出了根据一些实施方式的示出纱布和对应的边界框的示例屏幕截图。

图6示出了根据一些实施方式的示出出血区域和对应的边界框的示例屏幕截图。

图7示出了根据一些实施方式的示出烟雾和对应的边界框的示例屏幕截图。

图8示出了可以用于本文所述的一些实施方式的示例网络环境的框图。

图9示出了可以用于本文描述的一些实施方式的示例计算系统的框图。

具体实施方式

本文描述的实施方式实现并促进基于计算机视觉的手术场景的评估。一种系统利用基于深度学习的方法来进行对象检测和跟踪。如本文更详细地描述的，在各种实施例中，系统接收捕获手术场景的视频流。视频流包括包含手术场景中的一个或多个对象的图像帧。例如，对象可以包括手术工具、纱布、出血区域、烟雾等。该系统跨视频流的不同图像帧检测一个或多个对象。然后，系统确定与所检测的对象对应的位置。该系统还跟踪对象跨视频流的不同图像帧的每个位置。检测和跟踪提供工具、纱布、血液和烟雾的外观和轨迹信息。工具使用模式、移动范围或时间使用的进一步分析对于手术室中实时或手术后的外科医生可能是有用的。

图1示出了可以用于在此描述的实施方式的示例工作环境100的框图。示出了手术场景分析系统102或系统102，其执行本文描述的各种实施方式。系统102控制相机104，其捕获工作区域106中的手术场景的视频。系统102使相机104经由网络110将视频流从相机104发送到观看者客户端108。如本文更详细地描述的，系统102分析由相机104捕获的工具112和114的特性。网络110可以是任何合适的通信网络，诸如Wi-Fi网络、蓝牙网络、因特网等。在各种实施方式中，工作环境100可以不具有所示的所有组件和/或可以具有包括代替或除了本文所示的组件之外的其他类型的组件的其他元件。

如本文更详细地描述的，在手术室中仅有相机而没有其他感测或检测装置的情况下，系统102使用计算机视觉技术自动分析手术场景而无需人为干预。系统102可以检测和跟踪手术场景中的元件或对象。这种对象可以包括例如手术工具、纱布、出血区域、烟雾等。虽然在手术工具、纱布、出血区域和烟雾的背景下描述了各种示例性实施例，但是这些实施例可以应用于可能出现在手术场景中并且可以由相机捕获的其他类型的对象。

在各种实施例中，系统102包括用于检测和跟踪对象、学习视觉特征、以及强制对检测和跟踪流水线的约束的端到端监督的深度架构。在各种实施例中，系统102还包括基于卷积神经网络的外观描述符。在一些实施例中，可以使用诸如Siamese架构的架构来训练外观描述符以用于图像块的特征表示和数据关联。

图2示出了根据一些实施方式的用于分析手术场景的示例流程图。在各种实施例中，流程图提供了检测和跟踪框架。如图所示，在框202，诸如图1的系统102的系统检测所接收的视频流中的对象。在各种实施例中，系统检测视频流的一系列图像帧中的每个图像帧中的对象。例如，系统102可以检测由相机104捕获的图像帧中的手术工具、纱布、出血区域、烟雾等。对象的特定类型可以根据特定实施方式而变化。在各种实施例中，系统将一个或多个对象分类为一个或多个类别。

在各种实施方式中，该系统利用深度学习网络来将对象分类为各种对象类别。在一些实施方式中，系统使用利用由深度学习网络学习的已知特征来训练的分类器。该系统使用已知特征来基于系统在图像帧中识别的特征确定和辨别对象。该系统将特征与对象的已知特征进行比较，然后将一个或多个特征与已知特征进行匹配。在各种实施方式中，系统将关于已知特征的信息存储在合适的存储位置中。任何新的信息可以用于帮助辨别新检测到的对象的特征并帮助对这些对象进行分类。然后，系统基于匹配将一个或多个对象分类为一个或多个工具类别。

在框204，系统将每个对象与跟踪器相关联。在各种实施例中，系统为每个对象生成跟踪器。在各种实施例中，跟踪器可以是系统执行以预测和更新在视频中捕获的场景中的对象的位置的软件算法。然后，系统将每个跟踪器与相应的对象相关联。例如，系统可生成用于第一对象的第一跟踪器和用于第二对象的第二跟踪器，这导致每个对象一个跟踪器。在任何给定的后续图像帧中，如果系统检测到新的或第三对象，则系统生成新的或第三跟踪器。如本文更详细地描述，系统针对每个对象使用相同的相关联跟踪器来逐个图像帧地跟踪每个对象。这样，系统迭代地检测和跟踪视频流中的对象(例如，逐帧地等)。

在框206，系统跟踪检测到的对象。如上所述，系统针对系统跨视频流的图像帧检测到的每个新对象关联新跟踪器。在各种实施例中，系统利用跟踪器来使用任何合适的跟踪技术(例如，距离度量、外观描述符等)从一个帧到另一帧地跟踪给定对象。

在各种实施例中，系统(例如，使用卡尔曼滤波器等)预测并更新视频流的图像帧中的每个对象的位置。该系统可以利用具有特征金字塔网络(例如，Darknet等)的卷积神经网络来检测对象。

在各种实施例中，系统跟踪每个对象，包括随着时间以及在每个对象出现的不同图像帧上保持对每个对象的识别。在各种实施例中，系统确定给定对象的当前位置，并且还(例如，使用卡尔曼滤波器、扩展卡尔曼滤波器、粒子滤波器等)基于当前位置来预测给定对象的未来位置。在各种实施例中，系统可以利用任何合适的技术来生成各种信息并将其与每个对象相关联，所述技术包括例如用于外观匹配的卷积神经网络(例如，Siamese网络)以及用于位置匹配的距离度量(例如，欧几里得距离或余弦距离)和/或重叠度量(例如，并集或IoU上的交集)等。

在框208，系统更新每个跟踪器。在各种实施例中，系统针对在视频流中检测到的每个后续图像帧更新每个对象的位置。这样，系统可以跟踪视频流中任何给定对象的移动。

尽管步骤、操作或计算可以以特定的顺序呈现，但是在特定的实施方式中可以改变该顺序。取决于特定的实施方式，步骤的其他排序是可能的。在一些特定实施方式中，可同时执行在本说明书中示出为顺序的多个步骤。此外，一些实施方式可以不具有所示的所有步骤和/或可以具有代替或除了本文所示的那些步骤之外的其他步骤。

如下面更详细描述的，在各种实施例中，系统从自动来自手术相机或视频的视频流中提取有用的信息，诸如工具类型、工具状态、出血区域、纱布、烟雾水平等。本文更详细地描述了针对这些步骤的进一步示例实施方式。

图3示出根据一些实施方式的用于基于计算机视觉评估手术场景的示例流程图。参考图1和2，在框302开始一种方法，其中诸如系统102的系统接收与手术场景相关联的第一图像帧。第一图像帧是视频流中的一系列或一序列图像帧中的一个图像帧。

在框304，系统检测第一图像帧中的一个或多个对象。在各种实施方式中，系统可以使用对象识别技术来检测所接收的图像帧中的对象。如上所述，系统可以使用卷积神经网络来辨别和/或识别感兴趣的对象。在一些实施例中，系统可以使用特征金字塔网络，例如Darknet等。

在框306，系统确定对应于一个或多个对象的一个或多个位置。该系统可以利用任何合适的技术来确定每个物体的位置。

在框308，系统跟踪一个或多个对象在多个图像帧中的其他图像帧中的每个位置。

尽管步骤、操作或计算可以以特定的顺序呈现，但是在特定的实施方式中可以改变该顺序。取决于特定的实施方式，步骤的其他排序是可能的。在一些特定的实施方式中，可同时执行在本说明书中示出为顺序的多个步骤。此外，一些实施方式可以不具有所示的所有步骤和/或可以具有代替或除了本文所示的那些步骤之外的其他步骤。

在各种实施例中，系统使用计算机视觉和机器学习来视觉地识别各种不同类型的对象，诸如工具、纱布、出血区域、烟雾等，以用于高度可变的手术场景的实时鲁棒性分析。如上所述，在各种实施例中，系统可以从自动来自手术相机或视频的视频流中提取有用的信息，诸如工具类型、工具状态、出血区域、纱布、烟雾水平等。

图4示出了根据一些实施方式的示出两个工具402和404以及两个对应的边界框406和408的示例屏幕截图400。在各种实施例中，所述一个或多个对象中的至少一个对象是手术工具。在该示例中，存在两种手术工具。在各种实施例中，系统检测图像中的每个工具的状态。例如，系统可以确定工具是打开的还是关闭的。例如，系统可以检测剪刀工具并确定剪刀工具的工具状态是打开的还是闭合的。在一些实施例中，还可以确定工具打开或关闭的程度。在各种实施例中，系统对每个工具或对象进行分类以确定工具或对象的类型。这可以有助于改善手术工作流程、培训等。如下面的示例性实施例所示，虽然在手术工具的上下文中描述了一些对象，但是系统可以检测其他类型的对象。

在各种实施方式中，所述一或多个工具分类指示工具的类型，包括工具功能。示例性工具可以包括切割或解剖器械，诸如解剖刀、剪刀、锯等。工具可以包括双极镊子和冲洗器。工具可以包括抓取或保持器械，诸如光滑的和带齿的镊子、毛巾夹、血管夹、器官保持器等。工具可包括止血器械，诸如夹子、止血钳、无创伤止血钳等。工具可包括牵开器器械，诸如C形薄片状钩、钝齿状钩、尖齿状钩、带槽探针、捣钳等。工具可包括组织一体化器械和材料，诸如持针器、手术针、缝合器、夹持器、粘合带等。所检测的特定工具可以变化，并且将取决于特定实施方式。虽然本文在手术工具的背景下描述了实施方式，但是这些实施方式和其他实施方式也可以应用于其他工具(例如，诸如纱布等的非手术工具)。

在各种实施例中，系统生成一个或多个边界框(例如，边界框406和408)并且在显示屏中显示边界框作为用于任何一个或多个感兴趣对象(例如，手术工具、纱布、出血区域、烟雾等)的视觉指示器。

而示例边界框被示为正方形。视觉指示器的实际形状可以是任何形状。例如，在一些实施方式中，边界框或视觉指示符可以遵循给定对象的一般形状。在各种实施方式中，系统可在视频帧上实时叠加边界框和任何相关联的标签以供用户观看。这帮助用户知道在显示器上正在观看哪些对象。在一些实施方式中，系统可以使能用户将视觉指示器断开。

图5示出了根据一些实施方式的示出纱布502和对应的边界框504的示例屏幕截图500。在各种实施例中，所述一个或多个对象中的至少一个对象是纱布。这可有助于提高系统在对手术中使用的纱布进行跟踪、检索和计数的能力。

图6示出了根据一些实施方式的示出出血区域602和对应的边界框604的示例屏幕截图600。在各种实施例中，所述一个或多个对象中的至少一个对象是出血区域。这可以有助于检测外科医生可能不能看到的出血。例如，系统可以视觉地指示(例如，经由视觉注释)出血区域、血流方向等。在各种实施例中，系统还可实时和/或后处理确定出血运动估计。例如，系统可以估计检测到的血流的方向，并且生成出血情况的警报或警告。

图7示出了根据一些实施方式的示出烟雾702和对应的边界框704的示例屏幕截图700。在各种实施例中，所述一个或多个对象中的至少一个对象是烟雾。这可以有助于警告外科医生烟雾在环境中的存在，而且当在烟雾排除过程中使用工具去除烟雾时也是有帮助的。在各种实施例中，系统还可以确定手术场景中的烟雾(烟雾性)量。例如，系统可估计检测到的烟雾的水平(例如，0……1等)，其可用来控制烟雾排除器。

如上文所指示，在各种实施例中，利用卷积神经网络来执行对第一图像帧中的一或多个对象的检测。在各种实施例中，系统实时地执行框302至308的操作，使得系统能够在高度复杂的手术场景下以高准确度和鲁棒性执行描述的实施例。系统也可执行一些后处理操作(例如，在稍后时间离线的进一步分析对象。

以下是附加的实时应用，包括可以根据需要使用的一些附加的后处理操作。在一些实施方式中，系统可以启用和监测智能(例如，机器人)手术导航以减少手术期间所需的助手。在一些实施方式中，系统可以监测和预测针对医院手术室效率的手术进展。在一些实施方式中，系统可以向手术技术提供客观反馈以用于手术过程教育和改进。在一些实施方式中，系统可以分析手术过程的技能和质量。在一些实施方式中，系统可以在这些示例应用中对视频进行注释以用于快速内容管理(例如，搜索、检索、回顾和编辑等)。

在各种实施例中，当系统在不同图像帧中检测到对象时，系统可处理给定对象的外观的任何可变性。例如，系统可以检测相同类型的手术工具并对其进行分类，即使这种工具可能在不同的工具制造商之间变化。在各种实施例中，系统可以处理各种手术动态，包括运动模糊、其他工具和组织的闭塞、视点的变化等，这增加了跟踪的复杂性等。例如，系统可以检测任何形状变形、动态纹理和可变强度。

图8示出了可用于本文所述的一些实施方式的示例网络环境800的框图。在一些实施方式中，网络环境800包括系统802，其包括服务器装置804和网络数据库806。例如，系统802可用于实现图1的系统102，以及执行本文描述的实施例。网络环境800还包括客户端装置810、820、830和840，其可以直接或经由系统802彼此通信。网络环境800还包括网络850。

为了便于说明，图8示出了系统802、服务器装置804和网络数据库806中的每一个的一个框，并且示出了客户端装置810、820、930和840的四个框。虽然在一个客户端装置用于观看手术过程的视频(例如，一个外科医生观看视频)的背景下描述了一些实施方式，但是这些实施方式和其他实施方式可以应用于多个客户端装置。例如，可能存在其他医师和/或其他临床医师和/或学生观看视频。

框802、804和806可以表示多个系统、服务器装置和网络数据库。而且，可以存在任何数量的客户端装置。在其他实施方式中，网络环境800可以不具有所示的所有组件和/或可以具有其他元件，包括代替或附加于本文所示的那些元件的其他类型的元件。在各种实施方式中，用户U1、U2、U3和U4可以使用各自的客户端装置810、820、830和840相互交互或与系统802交互。

在本文描述的各种实施方式中，系统802的处理器和/或任何客户端装置810、820、830和840的处理器使得本文描述的元素(例如，信息等)被显示在一个或多个显示屏上的用户界面中。

实施方式可以应用于任何网络系统和/或可以本地应用于单独的用户。例如，本文描述的实施方式可以由系统802和/或任何客户端装置810、820、830和840实现。系统802可以在独立计算机、平板计算机、智能电话等上执行本文描述的实施方式。系统802和/或客户端装置810、820、830和840中的任何一个可以单独地或与其他装置组合地执行本文描述的实施方式。

图9示出了可用于本文所述的一些实施方式的示例计算系统900的框图。例如，计算系统900可以用于实现图1的系统102和/或图8的系统802，以及执行本文描述的实施方式。在一些实施方式中，计算系统900可以包括处理器902、操作系统904、存储器906和输入/输出(I/O)接口908。在各种实施方式中，处理器902可以用于实现本文描述的各种功能和特征，以及执行本文描述的方法实施方式。虽然处理器902被描述为执行本文描述的实施方式，但是计算系统900的任何合适的组件或组件的组合或者与计算系统900或任何合适的系统相关联的任何合适的一个或多个处理器可以执行所描述的步骤。本文描述的实施方式可以在用户装置上、在服务器上或在两者的组合上执行。

计算系统900还包括软件应用910，其可以存储在存储器906上或任何其他合适的存储位置或计算机可读介质上。软件应用910提供使得处理器902能够执行本文描述的实施方式和其他功能的指令。软件应用程序还可包括诸如网络引擎的用于执行与一个或多个网络和网络通信相关联的各种功能的引擎。计算系统900的组件可以由一个或多个处理器或硬件装置的任何组合以及硬件、软件、固件等的任何组合来实现。

为了便于说明，图9示出了用于处理器902、操作系统904、存储器906、I/O接口908和软件应用910中的每一个的一个框。这些框902、904、906、908和910可以表示多个处理器、操作系统、存储器、I/O接口和软件应用。在各种实施方式中，计算系统800可以不具有所示的所有组件和/或可以具有包括代替或附加于本文所示的组件的其他类型的组件的其他元件。

尽管已经关于其特定实施例描述了本说明书，但是这些特定实施例仅仅是说明性的，而不是限制性的。在示例中示出的概念可以应用于其他示例和实施方式。

在各种实施方式中，软件被编码在一个或多个非暂态计算机可读介质中以供一个或多个处理器执行。当由一个或多个处理器执行时，该软件可操作以执行本文描述的实施方式和其他功能。

任何合适的编程语言都可以用来实现特定实施例的例程，包括C、C++、Java、汇编语言等。可以采用不同的编程技术，诸如过程的或面向对象的。例程可以在单个处理装置或多个处理器上执行。尽管步骤、操作或计算可以以特定顺序呈现，但是在不同的特定实施例中可以改变该顺序。在一些特定实施例中，在本说明书中被示为顺序的多个步骤可以同时执行。

特定实施例可以在非暂时性计算机可读存储介质(也称为机器可读存储介质)中实现，以供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用。特定实施例可以以软件或硬件或两者的组合中的控制逻辑的形式来实现。控制逻辑在由一个或多个处理器执行时可操作以执行本文描述的实施方式和其他功能。例如，诸如硬件存储装置的有形介质可以用于存储控制逻辑，其可以包括可执行指令。

特定实施例可以通过使用可编程通用数字计算机和/或通过使用专用集成电路、可编程逻辑器件、现场可编程门阵列、光学、化学、生物、量子或纳米工程系统、组件和机构来实现。通常，特定实施例的功能可以通过本领域已知的任何方式来实现。可以使用分布式、联网的系统、组件和/或电路。数据的通信或传送可以是有线的、无线的或通过任何其他方式。

“处理器”可以包括处理数据、信号或其他信息的任何合适的硬件和/或软件系统、机构或组件。处理器可以包括具有通用中央处理单元、多个处理单元、用于实现功能的专用电路的系统，或者其他系统。处理不需要限于地理位置或具有时间限制。例如，处理器可以“实时”、“离线”、以“批处理模式”等执行其功能。处理的各部分可以由不同(或相同)的处理系统在不同时间和不同位置执行。计算机可以是与存储器通信的任何处理器。存储器可以是任何合适的数据储存器、存储器和/或非瞬态计算机可读存储介质，包括电子存储装置，诸如随机存取存储器(RAM)、只读存储器(ROM)、磁存储装置(硬盘驱动器等)、闪存、光存储装置(CD、DVD等)、磁盘或光盘、或适合于存储由处理器执行的指令(例如，程序或软件指令)的其他有形介质。例如，诸如硬件存储装置的有形介质可以用于存储控制逻辑，其可以包括可执行指令。指令还可以包含在电子信号中，并且作为电子信号提供，例如以从服务器(例如，分布式系统和/或云计算系统)递送的软件即服务(SaaS)的形式。

还应理解，在附图/图中描绘的一个或多个元件还可以以更分离或集成的方式实现，或者甚至在某些情况下被去除或使其不可操作，如根据特定的应用程序有用。实施可以存储在机器可读介质中以允许计算机执行上述任何方法的程序或代码也在本发明的精神和范围内。

如本文的说明书和随后的权利要求书中所使用的，除非上下文另外明确指出，否则“一个”，“一种”和“该”包括复数引用。另外，如本文的说明书和随后的整个权利要求书中所使用的，除非上下文另外明确指出，否则“在……中”的含义包括“在……中”和“在……上”。

因此，尽管本文已经描述了特定实施例，但是在前述公开中意图进行多种修改、各种改变和替换，并且应当理解，在某些情况下，在不脱离所阐述的范围和精神的情况下，将采用特定实施例的某些特征而没有相应使用其他特征。因此，可以进行许多修改以使特定情况或材料适应基本范围和精神。

Claims

1.一种系统，包括：

一个或多个处理器；以及

在一个或多个非暂时性计算机可读存储介质中编码的逻辑，以由所述一个或多个处理器执行，并且在被执行时可操作以使所述一个或多个处理器执行以下操作，包括：

接收与手术场景相关联的多个图像帧中的第一图像帧；

检测第一图像帧中的一个或多个对象；

确定与所述一个或多个对象对应的一个或多个位置；以及

跟踪所述一个或多个对象在所述多个图像帧中的其他图像帧中的每个位置。

2.根据权利要求1所述的系统，其中，所述一个或多个对象中的至少一个对象是手术工具。

3.根据权利要求1所述的系统，其中，所述一个或多个对象中的至少一个对象是纱布。

4.根据权利要求1所述的系统，其中，所述一个或多个对象中的至少一个对象是出血区域。

5.根据权利要求1所述的系统，其中，所述一个或多个对象中的至少一个对象是烟雾。

6.根据权利要求1所述的系统，其中，利用卷积神经网络执行对第一图像帧中的所述一个或多个对象的检测。

7.根据权利要求1所述的系统，其中，所述操作是实时执行的。

8.一种其上存储有程序指令的非暂时性计算机可读存储介质，所述程序指令在由一个或多个处理器执行时可操作以使所述一个或多个处理器执行以下操作，包括：

接收与手术场景相关联的多个图像帧中的第一图像帧；

检测第一图像帧中的一个或多个对象；

确定与所述一个或多个对象对应的一个或多个位置；以及

9.根据权利要求8所述的计算机可读存储介质，其中，所述一个或多个对象中的至少一个对象是手术工具。

10.根据权利要求8所述的计算机可读存储介质，其中，所述一个或多个对象中的至少一个对象是纱布。

11.根据权利要求8所述的计算机可读存储介质，其中，所述一个或多个对象中的至少一个对象是出血区域。

12.根据权利要求8所述的计算机可读存储介质，其中，所述一个或多个对象中的至少一个对象是烟雾。

13.根据权利要求8所述的计算机可读存储介质，其中，利用卷积神经网络来执行对第一图像帧中的所述一个或多个对象的检测。

14.根据权利要求8所述的计算机可读存储介质，其中，所述操作是实时执行的。

15.一种计算机实现的方法，包括：

接收与手术场景相关联的多个图像帧中的第一图像帧；

检测第一图像帧中的一个或多个对象；

确定与所述一个或多个对象对应的一个或多个位置；以及

16.根据权利要求15所述的方法，其中，所述一个或多个对象中的至少一个对象是手术工具。

17.根据权利要求15所述的方法，其中，所述一个或多个对象中的至少一个对象是纱布。

18.根据权利要求15所述的方法，其中，所述一个或多个对象中的至少一个对象是出血区域。

19.根据权利要求15所述的方法，其中，所述一个或多个对象中的至少一个对象是烟雾。

20.根据权利要求15所述的方法，其中，利用卷积神经网络执行对第一图像帧中的所述一个或多个对象的检测。