CN115298706A

CN115298706A - 用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法

Info

Publication number: CN115298706A
Application number: CN202180021024.3A
Authority: CN
Inventors: M·H·艾伦; M·阿兹兹安; A·J·麦克劳德
Original assignee: Intuitive Surgical Operations Inc
Current assignee: Intuitive Surgical Operations Inc
Priority date: 2020-01-20
Filing date: 2021-01-18
Publication date: 2022-11-04
Also published as: US20230050857A1; WO2021150459A1; EP4094184A1

Abstract

示例性对象掩蔽系统被配置为在将合成元素应用于原始图像期间掩蔽所识别的对象。例如，所述对象掩蔽系统访问在场景的原始图像中描绘的所识别的对象的模型。所述对象掩蔽系统将所述模型与所识别的对象相关联。然后，所述对象掩蔽系统生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，在所述增强版本中基于与所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所识别的对象的至少一部分。以这种方式，使所述合成元素看起来好像位于所识别的对象后面。还公开了对应的系统和方法。

Description

用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法

相关申请的交叉引用

本申请要求2020年1月20日提交的美国临时专利申请号62/963,249的优先权，该专利申请的内容通过引用以其整体并入本文。

背景技术

在各种场景中并且针对各种用例，使用具有各种成像模态的图像捕获设备来捕获影像，该影像包括在不同部位和位置处可见的对象和景色。作为一个示例，可使用相机来捕获参加活动的人、沿着道路行驶的汽车、待售房屋的内部等的照片。作为另一个示例，可使用内窥镜或其他医疗成像模态来捕获外科部位(例如，患者身体内的外科空间)处的内窥镜影像。

由这些设备捕获的影像最终可能会呈现给观看者。参考上面的示例，例如，人的照片可与人的朋友和家人共享，汽车的照片可用于杂志中的印刷广告，房屋内部的照片可包括在房屋的房地产张贴中等。在外科成像示例中，可通过不同类型的显示设备将内窥镜影像呈现给外科团队以由此促进外科团队在执行外科程序/手术(procedure)的同时可视化外科空间。

在这些或各种其他示例中的任一者中，可能期望通过向图像添加合成元素(例如，增强现实叠加等)来增强所捕获的图像。例如，可添加合成元素，诸如对象的描绘、影像、信息和/或由捕获设备关于影像的其余部分未实际捕获的其他增强(例如，叠加到其他影像上)。然而，可能并不总是期望将此类合成元素呈现在特定图像中描绘的所有其他影像的前面。

发明内容

以下描述呈现了本文所述的系统和方法的一个或多个方面的简化概述。本发明内容不是对所有预期方面的排他性概述，并且既不旨在识别所有方面的关键或重要元素，也不旨在界定任何或所有方面的范围。其唯一目的是呈现本文所述的系统和方法的一个或多个方面作为下面呈现的详细描述的序言。

一种示例性系统包括：存储器，所述存储器存储指令；以及处理器，所述处理器通信地耦接到所述存储器并且被配置为执行所述指令以在将合成元素应用于原始图像期间掩蔽所识别的对象。更具体地，所述示例性系统访问在场景的原始图像中描绘的所识别的对象的模型；将所述模型与所识别的对象相关联；以及生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所识别的对象的至少一部分。

用于在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性方法由对象掩蔽系统执行。所述方法包括：访问在场景的原始图像中描绘的所识别的对象的模型；将所述模型与所识别的对象相关联，以及生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所识别的对象的至少一部分。

示例性非暂态计算机可读介质存储指令，所述指令在被执行时引导计算设备的处理器在将合成元素应用于原始图像期间掩蔽所识别的对象。更具体地，所述指令指示所述处理器访问在场景的原始图像中描绘的所识别的对象的模型；将所述模型与所识别的对象相关联，以及生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所识别的对象的至少一部分。

附图说明

附图示出了各种实施例并且是说明书的一部分。所示的实施例仅是示例并且不限制本发明的范围。在整体附图中，相同或类似的附图标记指定相同或类似的元件。

图1示出了根据本文描述的原理的描绘包括各种对象的影像的示例性图像。

图2示出了根据本文描述的原理的图1的图像的示例性增强版本并且其中将合成元素应用于图像。

图3示出了根据本文描述的原理的在将合成元素应用于图像时可如何检测和使用深度数据来掩蔽被包括在影像中的对象的示例性方面。

图4示出了根据本文描述的原理的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性对象掩蔽系统。

图5示出了根据本文描述的原理的示例性配置，在该配置中图4的对象掩蔽系统可进行操作以便在将合成元素应用于原始图像期间掩蔽所识别的对象。

图6示出了根据本文描述的原理的表示分割图像并且被配置用于由呈现系统使用的掩蔽数据的示例性表示。

图7示出了根据本文所述的原理的在将图6的掩蔽数据应用于合成元素之后的示例性合成元素。

图8示出了根据本文描述的原理的在将合成元素应用于原始图像时可如何检测和使用深度数据(包括来自所识别的对象的模型的深度数据)来改善所识别的对象的掩蔽的示例性方面。

图9示出了根据本文描述的原理的示例性计算机辅助外科系统。

图10示出了根据本文描述的原理的在使用图9的计算机辅助外科系统来执行的外科程序期间，在将合成元素应用于描绘外科部位的原始图像期间掩蔽所识别的对象的示例性方面。

图11示出了根据本文描述的原理的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性方法。

图12示出了根据本文描述的原理的示例性计算设备。

具体实施方式

本文描述了用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法。当通过一个或多个合成元素(例如，增强现实叠加等)增强原始图像时，常规系统以将合成元素放在图像的所有其他内容的前面或顶部的方式(即，在图形层中，该合成元素是可见的，同时覆盖在叠加内容层后方或后面的其他内容的其他层)将合成元素添加到原始图像的其他内容(例如，将合成元素叠加到其上)。然而，本文描述的系统和方法有助于解决其中图像的某些内容(例如，图像中描绘的一个或多个特定对象)被描绘成好像在增强材料的前面(或顶上)的场景。

如本文所使用，增强现实技术、场景、图像等将被理解为在以任何合适方式混合原始元素和增强元素的现实的呈现中包括原始元素(例如，从真实世界场景捕获的影像)和增强(例如，实际上并没有出现在现场，但使得看起来就像它们出现在现场的合成元素)。因此，将理解的是，术语“增强现实”可指如可用于特定实施方式的虚拟频谱上的任何点处的任何类型的增强、混合、虚拟或其他类型的扩展现实，并且不限于可在本领域中使用的“增强现实”的任何特定定义。

本文描述的系统和方法改善场景的增强现实，其中在正在执行外科程序时捕获的增强内窥镜图像中呈现诸如三维(“3D”)解剖模型的增强。在这种情况下，外科团队的成员受益于增强现实体验，其中增强(例如，3D解剖模型)被描绘在内窥镜视图中所示的外科器械后面。例如，与在增强现实图像中叠加在外科器械前面的增强相比，这种分层可使增强看起来更自然并且更少分散注意力或迷失方向，和/或可以以其他方式促进外科程序或被观看内窥镜增强现实图像的外科团队成员偏好。

为此，本文描述的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法可涉及通过基于可用于系统的器械的3D模型(例如，计算机辅助设计(“CAD”)模型、预先扫描的3D表示等)生成器械表面的密集、准确的深度图来跟踪特定对象的3D位置(例如，诸如以上外科程序示例中的外科器械的所识别的对象)。例如，可通过使用允许系统跟踪外科器械在空间中的位置和取向的运动学数据和/或计算机视觉技术，以及通过使用相机校准数据(例如，针对内窥镜定义的固有参数等)来基于器械在空间中的位置和取向确定如何在由内窥镜捕获的影像中描绘外科器械，生成该示例中的深度图。以这种方式生成或获取的深度图可用于有效且准确地创建掩码，当将叠加应用于图像(例如，叠加到图像上或以其他方式与图像集成)时，该掩码允许对象看起来在叠加的前面，而不是像常规设计中那样的叠加似乎在对象的前面。

根据本文描述的实施例的示例性对象掩蔽系统可包括存储器，所述存储器存储指令；以及处理器，所述处理器通信地耦接到所述存储器并且被配置为执行用于执行各种操作的所述指令以在将合成元素应用于原始图像期间掩蔽所识别的对象。更具体地，对象掩蔽系统可访问在场景的原始图像中描绘的所识别的对象的模型；将所述模型与所识别的对象相关联；以及生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所识别的对象的至少一部分。

此类功能可以任何合适的方式执行。作为一个示例，例如，示例性对象掩蔽系统可执行操作，该操作诸如在由图像描绘的影像内识别可用于系统的模型的所识别的对象。例如，在上述外科示例中，图像可以是描绘外科部位的内窥镜图像，并且所识别的对象可以是器械或其模型(例如，3D CAD模型等)可用的其他已知对象。这样，对象掩蔽系统可响应于所识别的对象的识别来访问所识别的对象的模型，并且可将模型与所识别的对象相关联。这种关联可包括以任何方式将模型配准(registering)到如图像中所描绘的所识别的对象。在一些示例中，对象掩蔽系统可分割图像(例如，基于模型与所识别的对象的关联或作为其一部分)以将描绘所识别的对象的图像的像素与不描绘所识别的对象的图像的像素区分开。例如，基于上述示例中的外科器械的模型，以及基于跟踪或访问的数据(诸如某些示例中的外科器械的位置和取向和/或内窥镜的相机校准参数)，对象掩蔽系统可准确且精确地识别特定内窥镜图像中的哪些像素是外科器械的一部分，以及哪些像素是除了外科器械之外的其他内容的一部分。

在以这种方式将模型与所识别的对象相关联(例如，以及，在某些示例中，对图像进行分割)之后，对象掩蔽系统可执行其中生成呈现数据的另一个操作。在某些示例中，呈现数据可包括图像数据(例如，表示原始图像的增强版本的图像数据等)，并且在相同或其他示例中，可包括表示分割图像的掩蔽数据。在任一种情况下，呈现数据可被生成以便由被提供呈现数据的呈现系统(增强现实呈现系统等)使用。呈现系统可呈现基于原始图像(例如，在上面的示例中描绘外科部位的内窥镜图像)的原始图像的增强版本(即，增强现实图像)。在增强现实图像中，合成元素(例如，增强现实叠加，诸如被配置为促进上述示例中的外科程序的基础解剖模型的视图或其他此类信息)可以这样的方式添加到原始图像，使得基于与所识别的对象相关联的模型来防止合成元素遮挡所识别的对象的至少一部分。

例如，合成元素可仅应用于不描绘所识别的对象的图像的像素。更具体地，在外科器械示例中，外科器械的描绘可被过滤以便不被合成元素覆盖，使得合成元素在原始图像的增强版本中显示为位于所识别的对象后面。以这种方式，外科器械可在外科增强现实示例中被清楚地看到，并且解剖模型(或其他合成元素或增强现实叠加)可被描绘成在器械后面(例如，看起来直接投影到器械后面的组织上)。

本文所描述的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法可提供各种益处和优点并且与各种益处和优点相关联。例如，通过在图像中的某些影像或对象的前面和其他影像或对象的后面描绘合成元素(例如，增强现实叠加)，本文所描述的系统和方法可促进增强现实图像的生成，与其中合成元素叠加在所有影像和其他对象前面的常规增强现实图像相比，所述增强现实图像看起来更自然且更集成，更有用且更有吸引力，并且更少分散注意力和/或迷失方向。

用于创建深度图以辅助对象分割的常规技术仅依赖于常规深度检测技术，诸如立体深度检测技术、来自运动的单视场结构(“SfM”)技术、同时定位和映射(“SLAM”)技术以及其他此类深度检测技术。然而，此类技术不可避免地提出了各种挑战和限制，这些挑战和限制在应用于掩蔽某些对象而非其他对象的问题时留下改进空间，以便在生成增强现实图像时将合成元素应用于原始图像。

作为一个此类挑战的示例，实时(例如，在向用户呈现增强现实图像的渲染时间)检测对象的深度数据的尝试的成功有限，这是由于实时处理和延迟限制，实时处理和延迟限制使得具有有限处理资源的给定系统难以或无法实时地完全且准确地捕获场景的深度数据。由于这些限制，并且将在下面更详细地描述，在常规示例中捕获的深度数据可能导致相对稀疏的深度图，并且要出现在增强现实叠加前面的对象的边缘可能相对较差地定义或者可能表现出不想要的伪影，这些伪影可能会分散注意力并降低效果。

有利地，本文描述的系统和方法可针对某些对象生成深度图，该深度图基于系统已经可用(即，其已经生成而不是需要在运行时生成)的详细模型(例如，2D模型、3D模型等)。以这种方式，本文所述的系统和方法可获得对高度密集且准确的深度图的访问，当与图像相关联时，该深度图允许准确且精确地分割图像以将所识别的对象的描绘与其他描绘影像区分开。这样，可极大地改善出现在增强现实叠加前面的真实对象的效果。

现在将参考附图更详细地描述各种实施例。所公开的系统和方法可提供上述益处中的一者或多者和/或将在本文中显而易见的各种附加和/或另选益处。

图1示出了描绘包括各种对象的影像的示例性图像100。具体地，例如，对象102被示出为中空的方形对象，而对象104(即对象104-1至104-4)被示出为具有其他基本几何形状(例如，矩形形状、圆形形状等)。如图所示，形状102和104中的每一者通过表示每个对象可能具有的不同颜色、纹理和/或深度(相对位置)的不同样式的交叉阴影线来加阴影。另外，对象102和104中的每一者被描绘为处于背景106的前面，该背景在图像100中无阴影(即白色)。

虽然为了说明的清楚性而在图1和附图中的其他附图中描绘了简单的几何对象，但应当理解，在图像(诸如图像100)中描绘的对象和其他影像可包括如可用于特定具体实施方式的任何类型的对象和/或影像。例如，对象102和/或104可表示上述示例中提到的类型的对象中的任一者(例如，人、汽车、住宅等)或可在特定图像中描绘的任何其他类型的对象。虽然本文描述的原理可应用于大量不同类型的用例，但下面将更详细描述的一个特定用例是外科用例，其中在图像中描绘的对象各自与外科程序相关。例如，如将描述的，在此类示例中的对象和影像可包括在其上执行外科程序的身体内部的解剖对象和影像、用于执行外科程序的外科器械和/或工具等。

图2示出了以下将被称为增强现实图像200的原始图像100的示例性增强版本。在增强现实图像200内，将合成元素202(也称为增强现实叠加202)应用于图像100。如图所示，合成元素202是通过纯黑色遮蔽的椭圆形对象。如上面关于图1提到的，虽然基本几何形状用于图2中的说明目的，但应当理解，合成元素202可表示如可用于特定实施方式的任何合适类型的增强。例如，合成元素202可表示被呈现为隐藏在现实世界中以供用户在增强现实游戏中寻找的假想生物、呈现在家里的某个位置处以帮助用户想象该家具在房间中的外观和位置的虚拟家具、被配置为向用户通知图像100中描绘的真实对象102或104中的一者的数据图形、或如在另一个增强现实实施例中可能适当的另一个合适类型的增强。作为另一个示例，合成元素202可被实现为已经提到的增强现实强化的外科程序示例中的解剖结构(例如，表面下解剖结构的术前扫描3D模型等)或另一个外科手术相关对象的表示。

如针对增强现实的常规实施方式的典型情况，合成元素202在图2中被示为叠加在场景中的处于合成元素202附近的所有对象102和104的前面。也就是说，合成元素202被示为“遮挡”其他对象和背景中的每一者、在其他对象和背景中的每一者的“其顶部上”或在其他对象和背景中的每一者的“前方”，因为合成元素202遮挡这些对象和影像而不是被它们遮挡(在这种情况下，可以说合成元素202被其他对象“遮挡”、“在其后面”、“在其下面”或“在其背面”等)。

虽然在图2中未示出，但将理解的是，在某些场景和用例中，可能期望要描绘的合成元素202被图像100中描绘的对象中的一者或多者遮挡。例如，出于以下描述的目的，将假定期望对象102被描绘在合成元素202的前面(即，对于要描绘在对象102后面的合成元素202)，即使合成元素202仍被描绘在对象104和背景106的前面。为了实现合成元素202被对象102遮挡(或至少部分地遮挡)的这种效果，可为图像100生成深度图，该深度图将允许对象102与图像的其他对象和影像区分开，使得表示对象102的像素可被掩蔽以便在将合成元素202应用于图像100以形成增强现实图像200时不被合成元素202覆盖。

为了说明，图3示出了根据本文描述的原理的在将合成元素202应用于原始图像100以形成增强现实图像期间可如何检测和使用深度数据来掩蔽对象102的示例性方面。具体地，图3中的表示300-1示出了图像100的对象和影像的实际深度数据，表示300-2示出了可如何基于常规深度检测技术来生成图像100的对象和影像的相对稀疏的深度图，并且表示300-3示出了增强现实图像200的实施方式，其中合成元素202被描绘为位于对象102后面(尽管以非理想的方式，这是因为由于常规深度检测技术的限制而生成的相对稀疏的深度图)。现在将更详细地描述表示300中的每一者(即，表示300-1至300-3)。

表示300-1描绘了图像100中的对象102和104中的每一者以及背景106的实际深度数据。具体地，为了说明的目的，采用了使用1位数字(例如，0、1、2等)的简单标记法来区分描绘相对于捕获图像100的图像捕获设备(例如，相机、内窥镜等)位于不同深度处的影像的图像100的区域。例如，在该标记法中，深度“0”(即，背景106的深度)将被理解为被示为相对于图像捕获设备的有利点的任何最远深度，而深度“9”(即，对象102的深度)将被理解为被示为相对于图像捕获设备的有利点的最近深度。表示300-1中所示的其他深度，诸如深度“1”(即，对象104-1和104-3的深度)、深度“2”(即，对象104-2的深度)、并且深度“3”(即，对象104-4的深度)将被理解为比背景106的深度“0”更接近有利点，但是比对象102的深度“9”更远离有利点。

如果可通过一种或多种常规深度检测技术来分析图像100中描绘的影像，而对用于执行该技术的时间或资源没有任何限制，则系统可生成所捕获的影像的完整且准确的深度图。然而，不幸的是，在许多真实世界场景中存在显著的限制，这使得生成此类理想深度图存在挑战或不可能。例如，当用户环顾世界时，通常必须实时生成增强现实并将其呈现给用户，这意味着非常严格的时间限制可能与所执行的世界的任何处理或分析相关联，包括用于分析由图像捕获设备捕获的图像中的对象的深度的分析。因此，当考虑与给定增强现实应用相关联的实际时间限制时，使用常规深度检测技术来生成影像的密集深度图可能是不可能的或不可行的。

表示300-2示出了此类实际限制的结果。具体地，与如在给定足够的时间和资源的情况下可能是理想的能够检测由图像100描绘的每个点(例如，每个像素)处的深度不同，实际限制可约束真实世界系统检测图像100的显著更少点的深度。如图所示，例如，系统可仅具有用于使用常规深度检测技术来检测在图像100的每个点(在表示300-2中由黑色“x”划分)处的深度的时间和资源，但可能没有足够的时间和资源来确定图像100中的其他点的深度(例如，在需要继续处理视频图像中的后续帧之前)。因此，可实时生成深度图，但深度图可能相对稀疏，并且可能无法很好地捕获对象边缘和图像的深度值突然改变的其他部分的复杂情况。例如，如在表示300-2中所示，可在几个点处捕获对象102的深度，但关于对象102的边缘的精确位置的细节以及对象102是中空的事实可能无法根据可被检测的相对稀疏的深度数据来辨别。

表示300-3示出了使用表示300-2的相对稀疏的深度图来区分对象102并试图掩蔽对象以便看起来遮挡合成元素202(即，以便看起来在合成元素202的前面)的结果。如表示300-3所示，合成元素202的一部分已经以粗略近似对象102的位置的方式被掩蔽，以便在将合成元素202应用于图像100时不覆盖对象102。然而，由于相对稀疏的深度图，掩蔽部分的边缘不会良好地与对象102的边缘对准并且没有适当地考虑中空部分。因此，对象102似乎在某种程度上与合成元素202相互作用，但对于期望看到合成元素202被描绘在对象102后面的观看者来说，该效果可能是不令人信服的(例如，并且可能分散注意力、迷失方向等)。尽管为了说明的目的，在图3中可能稍微夸大深度数据的稀疏性及其影响，但应当理解的原理是，如果增强现实叠加(诸如合成元素202)要令人信服地被描绘为由对象(诸如对象102)遮挡，则可能需要比实际使用常规深度检测技术来实时生成的深度图更密集的深度图。

为此，图4示出了根据本文描述的原理的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性对象掩蔽系统400(“系统400”)。在某些示例中，系统400可由用于各种目的的增强现实设备或通用计算设备(例如，诸如智能电话或平板电脑设备等的移动设备)实现。在本文描述的某些增强现实强化的外科程序示例中，系统400可被包括在计算机辅助外科系统(诸如下面将结合图9描述的示例性计算机辅助外科系统)的一个或多个部件中、由其实现或连接到计算机辅助外科系统(诸如下面将结合图9描述的示例性计算机辅助外科系统)的一个或多个部件。例如，在此类示例中，系统400可由计算机辅助外科系统(诸如操纵系统、用户控制系统或辅助系统)的一个或多个部件实现。在另一些示例中，系统400可由独立计算系统(例如，通信地耦接到计算机辅助外科系统或实现另一个非外科应用或用例的独立计算系统)实现。

如图4所示，系统400可包括但不限于彼此选择性地且通信地耦接的存储设施402和处理设施404。设施402和404可各自包括一个或多个物理计算设备或由其实现，该物理计算设备包括硬件和/或软件部件，诸如处理器、存储器、存储驱动器、通信接口、存储在存储器中以供处理器执行的指令等。尽管设施402和404在图4中被示出为单独设施，但设施402和404可被组合成更少设施(诸如被组合成单个设施)，或者被划分成如可用于特定实施方式的更多设施。在一些示例中，设施402和404中的每一者可分布在多个设备和/或多个位置之间，如可用于特定实施方式。

存储设施402可维持(例如，存储)由处理设施404使用以执行本文描述的任何功能的可执行数据。例如，存储设施402可存储可由处理设施404执行以执行本文描述的操作中的一者或多者的指令406。指令406可由任何合适的应用程序、软件、代码和/或其他可执行数据实例实现。存储设施402还可维持由处理设施404接收、生成、管理、使用和/或传输的任何数据。

处理设施404可被配置为执行(例如，执行存储在存储设施402中的指令406以执行)与在将合成元素应用于原始图像期间掩蔽所识别的对象相关联的各种操作(即，在应用增强现实叠加期间掩蔽所识别的对象)。例如，此类操作可包括，访问在场景的原始图像中描绘的所识别的对象的模型，将模型与所识别的对象相关联，以及生成呈现数据以供呈现系统使用以呈现原始图像的增强版本(例如，增强现实图像，其中基于与所识别的对象相关联的模型来防止添加到原始图像的合成元素遮挡所识别的对象的至少一部分)。

此类操作可以任何合适的方式执行。例如，处理设施404可被配置为识别(例如，在由诸如图像100的图像描绘的影像内)其模型对于系统400可用的所识别的对象，并且响应于该识别而访问模型。所识别的对象可以是待呈现在增强现实叠加的前面的对象，诸如上述示例中的对象102(假设模型可用于对象102)。

在访问模型时，处理设施404可通过访问指示如何在图像内或以可用于特定实施方式的任何其他方式描绘所识别的对象的信息来将模型与所识别的对象相关联。在一个示例中，如将在下面更详细地描述的，如果空间数据可用于所识别的对象和/或捕获图像的图像捕获设备，此类空间数据可由处理设施404使用以配准所识别的对象相对于捕获设备的位置和/或取向。空间数据可包括支持基于运动学的跟踪、基于计算机视觉的跟踪、电磁标记跟踪和/或本文所述或者可用于特定实施方式的其他方法的数据。还可访问与捕获设备相关联的相机校准参数(例如，固有参数)以供处理设施404用于基于所识别的对象的位置和/或取向以及基于3D模型来配准模型或以其他方式将模型与如图像中所描绘的所识别的对象相关联。

基于模型与如在图像中描绘的所识别的对象的关联(即，基于所访问的信息中的任一者或全部，诸如所识别的对象的模型、相机校准参数、用于确定位置和/或取向的空间数据等)，处理设备404可分割图像以将描绘所识别的对象的图像的像素与不描绘所识别的对象的图像的像素区分开。例如，参考以上图1的示例，处理设施404可使用该信息来将表示对象102的像素与表示对象104和/或背景106的像素进行区分。

基于模型与所识别的对象的关联，处理设施104可生成呈现数据以供呈现系统(例如，增强现实呈现系统)来呈现原始图像的增强版本(例如，类似于增强现实图像200)。在一些示例中，呈现数据可包括或被实现为被配置为由呈现系统渲染和呈现的图像数据。在另一些示例中，呈现数据可包括可由其构造这种可渲染图像的数据。例如，呈现数据可包括对应于原始图像的图像数据的掩蔽数据(例如，表示图像的分割的掩蔽数据)，如将在下面更详细地描述和示出的。在又一些示例中，呈现数据可以是被配置用于由呈现系统使用以呈现原始图像的增强版本的另一种合适类型的呈现数据。在任何情况下，呈现数据可允许呈现系统呈现增强版本，使得防止添加到原始图像的合成元素遮挡(即，至少部分遮挡)所识别的对象的至少一部分。如将在下面更详细地描述的，基于所访问的和与所识别的对象相关联的模型，该呈现可被生成为具有此类特性。

基于呈现数据，呈现系统(例如，由系统400实现或系统400通信地耦接到的系统)可呈现增强现实图像，(诸如增强现实图像200的实现)，其基于原始图像并且其中增强现实叠加(诸如合成元素202)仅应用于不描绘所识别的对象的原始图像的像素。以这种方式，在增强现实图像中，增强现实叠加可被描绘为位于所识别的对象后面。例如，参考以上示例，增强现实叠加202可仅应用于不描绘对象102的图像100的像素，使得增强现实叠加202被描绘为位于所得的增强现实图像中的对象102的后面。

如上所述，由于增强现实的性质和各种增强现实用例，系统400的各种实施方式可被配置为在应用增强现实叠加期间实时掩蔽所识别的对象，诸如通过在将增强现实图像呈现给用户时执行上述或其他操作。如本文所使用，当操作被立即执行并且没有过度延迟时，可“实时”执行操作。在一些示例中，可相对于高度动态和时间敏感的数据(例如，在非常短的时间之后变得不相关的数据，诸如由用户移动和重新定向以捕获表示在图像捕获设备的部位处的影像的图像序列的图像捕获设备所捕获的图像数据)执行实时数据处理操作。因此，实时操作将被理解为旨在基于相关且最新的数据应用合成元素期间掩蔽所识别的对象的那些操作，即使还将理解实时操作不是瞬时执行的。

本文更详细地描述了上述操作以及可由处理设施404执行的其他合适的操作。在下面的描述中，对由系统400执行的功能的任何引用可理解为由处理设施404基于存储在存储设施402中的指令406执行。

图5示出了示例性配置500，系统400可在该示例性配置500中操作以在将合成元素应用于原始图像期间掩蔽所识别的对象。具体地，如将在下面更详细地描述的，配置500描绘了由图像捕获设备504捕获以生成提供给系统400或以其他方式由系统400访问的图像数据506的场景502。在某些实施方式中，将一个或多个模型508与一些附加深度数据510和/或空间数据512一起使用，系统400生成被提供给呈现系统516或以其他方式由该呈现系统访问的呈现数据514的集合。呈现系统516通过监视器518向用户520呈现图像数据506的增强版本(例如，基于图像数据506的增强现实图像)。现在将参照图5以及参照图6-8描述配置500的部件中的每一者。

场景502可被实现为任何类型的真实世界(与纯粹虚拟相反)场景、工作场所、位置、区域、或由图像捕获设备(诸如图像捕获设备504)捕获(例如，拍摄、视频记录等)的其他类型的场景。在一些示例中，场景502可以是大或小、存在于室内或室外、并且包括本文描述的任何类型的对象和/或景色(例如，人、汽车、住宅、家具等)的真实世界场景。在另一些示例中，如将在下面参考图9和图10更具体地详细描述的，场景502可与专门的真实世界场景相关联，诸如在其上正执行外科程序的身体(例如，活病人的身体、尸体、训练装置、动物等)内的外科部位。

图像捕获设备504可被实现为用于在场景502处捕获影像的任何合适设备。例如，如果场景502是相对大规模的真实世界场景，诸如室外场景、家庭、工作场所等，则图像捕获设备504可被实现为相机(例如，静态相机、摄像机等)。此类相机可以是从单个有利点捕获场景502的影像的单视场相机，或者如图像捕获设备504的双右(“R”)和左(“L”)元件所示，可以是从立体有利点(使用从图像捕获设备504的相应元件延伸到场景502的拐角的虚线示出)捕获场景502的影像的立体相机。在又一些示例中，图像捕获设备504可具有被配置为允许图像捕获设备504捕获诸如全景图像(例如，360°图像、球形图像等)等的较宽角度图像的附加元件。

如下面将结合图9和图10更详细地描述的，系统400的某些实施方式可在计算机辅助外科程序的上下文中实现。在此类实施方式中，图像捕获设备504可被实现为内窥镜(例如，单视场或立体内窥镜)或被配置为在实现场景502或包括在场景内的外科部位处捕获影像的另一个合适的医疗成像模态。

图像数据506被示为在图像捕获设备504和系统400之间通信。例如，图像数据506可表示由图像捕获设备504捕获的图像(例如，诸如图像100的原始图像)、用于捕获此类图像的指令(例如，用于捕获图像的命令、同步信息等)、或在系统400和图像捕获设备504之间传送的任何其他图像相关信息。取决于用例或应用程序，由图像数据506表示的图像可以是各种类型的图像并且可包括可用于特定实施方式的各种类型的影像。

例如，在某些实施方式中，图像数据506可表示静止图像，诸如由图像捕获设备504捕获的照片。在一些示例中，此类图像可包括场景502的大致相同部分的在大致相同时间捕获的不同图像的集合。例如，立体图像可包括从不同有利点同时捕获的两个或更多个类似图像，使得深度信息可从图像之间的差异导出。在另一些示例中，静止图像可包括场景502的叠加部分的捕获(例如，在相同或不同时间)的不同图像的集合，以便能够组合以形成全景图像(例如，360°图像、球形图像等)。在这些或其他实施方式中，图像数据506可表示由图像帧序列(即，诸如由摄像机在连续时间依次捕获的相同场景502的图像)组成的视频图像。当对象相对于图像中描绘的影像的剩余部分移动时，此类视频图像中的每个图像帧可描绘场景502处的对象(例如，包括所识别的对象)。

如上文相对于图4详细描述的，系统400可被配置为执行各种操作以将模型与所识别的对象相关联，并且基于与所识别的对象相关联的模型来生成表示所识别的对象的掩蔽的呈现数据。例如，系统400可接收或以其他方式访问来自图像捕获设备504的图像数据506，并且分析在该图像数据中表示的图像，可识别其模型(例如，3D模型)在模型508中可用的所识别的对象。模型508可表示模型(例如，2D模型、3D模型等)的存储库，其包括在系统400内(例如，存储在存储设施402内)或存储在通信地耦接到系统400并可由该系统访问的存储库(例如，数据库或其他此类数据存储装置)中。

模型508各自可以是当运行时，在系统400正执行操作以生成深度图并且分析场景502的捕获的图像以生成呈现数据514的时刻之前生成的对象的任何类型的表示。例如，模型508可表示详细表示某些对象的CAD模型。此类CAD模型可用于各种类型的对象的设计并且可在购买和使用对象时可用。例如，外科器械可与可供使用外科器械的人和系统使用的高度详细和准确的CAD模型相关联。在另一些示例中，模型508可表示先前(例如，在放松本文所述的实时处理的限制的时段期间的运行时间之前)已经执行的对象的详细的高密度扫描(例如，3D扫描)。例如，3D扫描仪可用于生成各种类型的对象的高密度3D模型，这些对象被预期为特定增强现实体验的一部分并且期望在增强现实体验中处于前景(即，在增强现实叠加的前面)。

基于图像数据506和模型508中的一者或多者，系统400可将一个或多个模型与图像数据506中描绘的一个或多个所识别的对象相关联，并且使用该关联来执行场景502的原始图像的其他分析。例如，一旦模型与原始图像中的所描绘的识别的对象相关联，系统400可准确地分割原始图像以将描绘一个或多个所识别的对象的图像的像素与不描绘一个或多个所识别的对象的像素区分开来。由图像数据506表示的图像的这种分割可以以任何合适的方式执行，包括通过使用语义场景分割技术，其中图像中的每个像素被指定为对应于一个特定对象或影像集合(例如，所识别的对象诸如对象102、另一个对象诸如对象104中的一者、影像的另一个部分诸如背景106等)。

对于某些图像并且在至少某种程度上，可仅基于表示在图像数据506内捕获的对象和景色的表面上的每个点的颜色和/或阴影(即，当图像捕获设备504捕获在此类点处反射或起源的光时所捕获的内容)的数据来执行图像分割。这种类型的数据在本文中将被称为颜色数据，尽管将理解的是，在某些示例中，此类颜色数据可由灰度图像数据、红外图像数据或不明确地与可见颜色相关联的其他类型的图像数据实现。虽然颜色数据可用于执行图像分割，但仅颜色数据可能无法提供用于执行某些图像的准确、详细和实时分割的充分基础。在此类示例中，可代替颜色数据或除了颜色数据之外使用深度数据来准确且有效地分割图像。虽然颜色数据表示部位处的对象的表面点的外观(例如，颜色、纹理等)，但深度数据表示表面点相对于特定位置(诸如与图像捕获设备相关联的有利点)的位置(即，表面点的深度、每个表面点离有利点有多远等)。

因此，系统400可生成由图像捕获设备504捕获并且由图像数据506表示的图像所描绘的影像的深度图。此类深度图可基于已经与场景中的一个或多个所识别的对象相关联(例如，与场景中的一个或多个所识别的对象配准或以其他方式绑定到或使其对应于)场景中的一个或多个所识别的对象的一个或多个模型508，以及在某些示例中，附加深度数据510、空间数据512和/或可用于特定实施方式的其他数据来生成。深度图可包括用于描绘影像内的所识别的对象的第一深度数据和用于影像的其余部分的第二深度数据。例如，如果图像是图像100并且对象102是所识别的对象，则系统400可使用模型508、附加深度数据510和/或空间数据512来生成深度图，深度图包括对象102的详细深度数据(例如，在图3的示例中的级别“9”附近的深度数据)以及对象104和/或背景106的附加深度数据(例如，在图3的示例中的级别“0”-“3”附近的深度数据)。

第一深度数据(例如，对象102的深度数据)可比第二深度数据更密集，并且可基于上述模型508中的一者或多者(例如，对象102的3D模型)，并且基于已经用于配准或以其他方式将模型与对象102相关联的空间数据512(例如，用于图像捕获设备504的相机校准数据、指示对象102相对于图像捕获设备504的位置和/或取向的运动学数据等)。可使用常规实时科技和技术根据附加深度数据510生成或访问第二深度数据(例如，由立体图像捕获设备504进行的立体深度检测、由内置于或以其他方式与图像捕获设备504相关联的飞行时间扫描仪执行的飞行时间深度检测、SLAM技术、单视场SfM技术等)。

一旦生成深度图，系统400就可使用深度图来分割原始图像以将描绘对象102(所识别的对象)的原始图像的像素与不描绘对象102的原始图像的像素区分开。例如，可通过基于第一深度数据识别描绘对象102的图像的像素，以及通过基于第二深度数据识别不描绘所识别的对象的图像的像素来执行该分割。基于以本文所述的方式执行的图像的分割，或者基于不涉及诸如已经描述的显式分割的其他操作，系统400可生成呈现数据514，并且在诸如配置500中所示的某些示例中，可将所生成的呈现数据提供给呈现系统516以用于向用户520呈现原始图像的增强版本(例如，增强现实图像)。

如已经提到的，在某些示例中，系统400可生成作为表示原始图像的增强版本的图像数据的呈现数据514，并且该呈现数据可由呈现系统516立即呈现。然而，在另一些示例中，系统400可以以另一种形式生成呈现数据514，该形式被配置为以其他方式促进呈现系统516呈现原始图像的增强版本。例如，在某些实施方式中，呈现数据514可包括原始图像数据(例如，图像数据506)以及用于指导呈现系统516本身以构建和呈现原始图像的增强版本的所生成的掩蔽数据和/或其他数据(例如，元数据、表示将用作用于增强原始图像的增强的合成元素的数据等)。

图6示出了可包括在呈现数据514中的这种掩蔽数据的示例性表示600。具体地，表示600包括与图像100的原始像素中的每一者相关联的黑色像素和白色像素。如图所示，表示600中的白色像素对应于已经基于模型508与所识别的对象的关联以及从影像的其余部分对于对象进行的所得密集分割而被确定为对应于对象102(即，该示例中的所识别的对象)的图像100的像素。相比之下，表示600中的黑色像素对应于已经基于该相同分割而被确定为对应于除了对象102之外的对象或影像(例如，对象104、背景106等)的图像100的像素。虽然黑色像素和白色像素用于描绘表示600中的掩蔽数据514，但应当理解，掩蔽数据514可采取如可用于向呈现系统指示图像的哪些像素对应于所识别的对象以及哪些像素不对应于所识别的对象的任何合适的形式。例如，在某些示例中可切换黑白颜色，可使用其他颜色，或者可采用指示每个像素是否描绘所识别的对象的另一个数据结构。

系统400可生成诸如由表示600示出的掩模，该掩模可应用于诸如合成元素202的合成元素(例如，增强现实叠加)。当应用这种掩模时，如果合成元素202的像素要被对象102覆盖(即，使其看起来在对象102后面)，则可从合成元素202减去或移除该像素。

为了说明，图7示出了合成元素702。合成元素702将被理解为上面描述的将在如图2所示的相同位置处叠加到图像100上的合成元素202的版本。然而，如图所示，在由图6中的表示600示出的示例性掩蔽数据已经应用于合成元素202之后描绘合成元素702。因此，将被描绘为在对象102后面的合成元素202的像素已经从合成元素702中移除或掩蔽。

为了说明由系统400基于模型508执行的分割可如何改善在应用增强现实叠加期间的所识别的对象102的掩蔽，可将上面描述的图3与图8进行比较。

类似于图3，图8示出了在将合成元素应用于原始图像以形成原始图像的增强版本时可如何检测和使用深度数据来掩蔽对象102的示例性方面。然而，与图3相反，图8示出了其中来自所识别的对象的模型508的深度数据与常规深度数据(例如，附加深度数据510)一起使用以在应用合成元素时改进所识别的对象102的分割和掩蔽的示例。

具体地，图8中的表示800-1示出了如图3中的表示300-1所示的图像100的对象和影像的相同实际深度数据，表示800-2示出了不同密度的第一深度数据和第二深度数据如何组合在图像100的对象和影像的单个深度图中，并且表示800-3示出了增强现实图像200的实施方式，其中以实际上看起来位于对象102后面的方式描绘合成元素702。现在将更详细地描述表示800中的每一者(即，表示800-1至800-3)。

表示800-1描绘了图像100中的对象102和104中的每一者以及背景106的实际深度数据。表示800-1与表示300-1相同，并且如上所述，使用1位数字的简单标记法(例如，0、1、2等)来区分描绘相对于捕获图像100的图像捕获设备位于不同深度处的影像的图像100的区域。如上文关于图3所描述的，实时生成高度详细或密集的深度图以捕获表示800-1中示出的实际深度数据的所有细微差别可能是不可能的或不可行的。

与上面的表示300-2一样，表示800-2示出了由使用常规深度检测技术的实时深度检测施加的一些实际限制的结果。如在表示300-2中，不是在每个点(例如，每个像素)处针对图像100捕获深度，而是仅在表示800-2中由黑色“x”划分的图像100的每个点处检测深度。虽然针对对象104和背景106，表示800-2中的深度图的密度与表示300-2中的深度图的密度相同，但图8示出了所识别的对象102的深度图的密度在表示800-2中可能与在表示300-2中非常不同。具体地，黑色“x”被示为在对象102上是如此密集的，以至于它们甚至在图8中不能彼此区分开(使得对象102几乎表现为实心黑格)。这是因为所识别的对象102的深度数据不基于(或至少不专门地基于)针对图像100中的影像的其余部分执行的实时深度检测技术。相反，如上所述，所识别的对象102的深度数据(“第一深度数据”)基于对象102的模型508来生成，该模型以大量细节表示对象102并且已经配准或以其他方式与图像100中的对象102相关联，使得对象102的细节不需要被实时扫描和确定。因为对象102的深度数据是如此密集，所以表示800-2示出了对象102的每个边缘可由系统400很好地定义以便能够生成呈现数据，该呈现数据描绘合成元素202的适当部分的准确应用掩蔽，或者至少包括使得呈现系统516能够将掩蔽数据准确地应用于合成元素202(参见图7)的非常准确的掩蔽数据(参见图6)。

其结果及其一些益处在表示800-3中示出。如图所示，增强现实叠加202的一部分已经被掩蔽以形成合成元素702，其非常准确和精确地说明对象102以便不覆盖对象102。因此，与表示300-3相比，表示800-3提供了在增强现实叠加前面的所识别的对象102的更令人信服的表示。如表示800-3所示，合成元素702被很好地对准以便令人信服地看起来位于对象102的后面(即，被其遮挡)，同时仍然位于对象104和背景106的前面(即，仍然用于遮挡其)。

由于场景502处捕获的影像动态改变(例如，由于对象102和104相对于背景106移动等)，可能期望在视频图像中逐帧地跟踪所识别的对象102，使得呈现数据可被连续更新以提供对象102在合成元素202前面的外观，即使当对象102和/或合成元素处于运动中时也是如此。为此，系统400可被配置为通过以下方式来连续地识别由视频图像描绘的影像内的所识别的对象102：在图像帧序列的第一图像帧中初始识别所识别的对象102，并且当所识别的对象102在图像帧序列的后面图像帧中相对于影像的其余部分移动时逐图像帧地跟踪(例如，基于初始识别)所识别的对象102。例如，可通过计算机视觉和/或依赖于颜色数据、深度数据、对象102的先前识别(例如，机器获悉)等的对象识别技术，在由图像数据506表示的视频图像的第一图像帧中识别所识别的对象102。一旦对象102已经被识别，则系统400就可通过当对象在场景502处逐渐移动时逐帧地跟踪对象102来避免必须针对每个帧再次执行对象识别技术。

返回到图5，空间数据512也可由系统400接收或以其他方式访问，以辅助最初在第一图像帧中识别对象102，在后面图像帧中逐帧地跟踪对象102，将模型508中的一者与对象102相关联，基于模型508和对象102之间的这种关联(如上所述)分割图像，和/或用于如可用于特定实施方式的任何其他用途。更具体地，空间数据512可包括用于确定所识别的对象的空间特性(特别是关于图像捕获设备504和由图像捕获设备504捕获的图像)的各种类型的数据中的任一者。例如，空间数据512可包括与计算机视觉和/或对象识别技术(例如，包括利用机器获悉并且使用从过去捕获和分析的影像获得的数据来训练的技术)相关联的数据。因此，虽然模型508可被配置为定义所识别的对象102的几何细节，但可生成或访问空间数据512以关联模型508如何与图像中的对象102相关。例如，空间数据512可包括表示所识别的对象102的空间姿态的各种类型的数据中的任何一种(即，关于所识别的对象102在任何给定时刻相对于场景502和/或图像捕获设备504定位的精确位置和方式的信息)。

在某些实施方式中，空间数据512可包括由计算机辅助医疗系统跟踪的运动学数据，该计算机辅助医疗系统被配置为移动机器人臂以执行本文所述的某些示例中的机器人辅助外科手术。在此类示例中，精确的运动学数据可用于每个机器人臂和由此类机器人臂保持的任何外科器械或其他对象以便允许用户(例如，外科医生等)对机器人臂的精确控制。因此，通过访问包括在空间数据512内的运动学数据，系统400可至少部分地基于该运动学数据来识别所识别的对象(例如，包括最初识别对象、稍后跟踪对象等)，并且可精确地确定所识别的对象是如何定位、定向等以将模型508与所识别的对象相关联。

在相同或其他实施方式中，空间数据512可被配置为支持除识别对象和/或确定对象的位置和取向的基于运动学的方法之外的其他方法。例如，某些实施方式可依赖于如上所述的计算机视觉技术，并且空间数据512可包括被配置为支持计算机视觉技术的数据(例如，用于机器获悉的训练数据集等)。作为另一个示例，某些实施方式可涉及其中嵌入电磁跟踪器的所识别的对象，并且经由通过电磁场监测电磁跟踪器的移动来跟踪所识别的对象的位置和取向。在该示例中，空间数据512可包括与电磁场和/或电磁跟踪器在场内的位置、取向和移动相关联的数据。

与提供表示场景502处的对象(例如，包括所识别的对象)的位置和取向的数据一起，空间数据512还可包括图像捕获设备504的相机校准数据。例如，空间数据512可包括表示图像捕获设备504的内在或外在参数的数据，包括表示图像捕获设备504的焦距、图像捕获设备504的透镜畸变参数、图像捕获设备504的主点等的数据。一旦已经确定了所识别的对象的位置和取向，此类数据可有助于准确地生成用于生成呈现数据的深度图的密集部分(例如，区分所识别的对象、分割图像、生成掩蔽数据等)。这是因为相机校准参数可允许系统400通过针对所识别的对象相对于图像捕获设备504的给定位置和取向精确地确定如何在由图像捕获设备504捕获的图像中描绘所识别的对象来精确地将模型与所识别的对象相关联。

呈现系统516可从系统400接收呈现数据514并且呈现(例如，渲染)呈现数据，或者基于可能适合于所提供的呈现数据514的性质的呈现数据514来构造可渲染图像。例如，如果呈现数据514包括诸如由图6中的表示600所示的掩蔽数据，则呈现系统516可将由掩蔽数据表示的掩蔽应用于要与原始图像集成的合成元素以形成将通过监视器518呈现给用户520的原始图像的增强版本(即，增强现实图像)。例如，如图8的表示800-3所示，呈现系统516可呈现描绘位于所识别的对象102后面的合成元素702的增强现实图像。为此，呈现系统516可由被配置为向用户呈现增强现实体验或其他此类体验的任何合适的呈现系统来实现，包括但不限于增强现实媒体播放器设备(例如，专用的头戴式增强现实设备等)、可通过装置保持在手臂长度或安装在头部上的标准移动设备(诸如智能电话)、诸如将在下面更详细地描述的计算机辅助医疗系统的外科医生控制台或辅助控制台、或任何其他合适的呈现系统。在一些示例中，呈现系统516可并入系统400(即，内置于系统中、与系统集成等)，而在另一些示例中，呈现系统516可与系统400分离但与系统400通信地耦接。

监视器518可以是被配置为向用户520呈现增强现实图像的任何合适类型的呈现屏幕或其他监视器(或多个监视器)。在一些示例中，监视器518可由计算机监视器、电视、智能电话或平板电脑的设备屏幕等实现。在另一些示例中，监视器518可由被配置为向用户520的每只眼睛呈现影像的一对小显示屏实现(例如，头戴式增强现实设备、呈现立体影像的外科医生控制台等)。这样，用户520可表示体验呈现系统516基于从系统400接收的数据呈现的内容(例如，增强现实内容)的任何人。例如，用户520可以是玩增强现实游戏或使用另一类型的扩展现实应用程序的人、帮助执行外科程序的外科医生或外科团队成员、或体验由呈现系统516呈现的内容的任何其他合适的人。

呈现系统516可基于呈现数据514以适于防止诸如增强内容(添加到原始图像的合成元素)遮挡(完全或部分遮挡)原始图像中描绘的所识别的对象的任何方式呈现原始图像的增强版本。在某些示例中，例如，呈现系统516可基于呈现数据514来呈现包括通过合成元素的仅一部分(或其他增强内容的仅一部分)增强的原始图像的增强图像。合成元素的显示部分可以是合成元素的任何部分，诸如由连续像素组成的部分或由非连续像素组成的聚合部分(例如，一起组成该部分的单独组的连续像素)。通过在增强图像中呈现合成元素的仅一部分，呈现系统516从增强图像中省略合成元素的不同部分。例如，代替呈现与合成元素的省略部分相关联的像素，呈现系统516可呈现与所识别的对象相关联的像素以防止通过合成元素的省略部分遮挡所识别的对象。要在增强图像中呈现或不呈现的像素可由呈现系统516基于呈现数据514以任何合适方式识别，包括通过执行本文描述的任何掩蔽操作。

在整个以上描述中，已经描述了各种类型的用例，所有这些用例可由系统400以及本文描述的用于在将合成元素应用于原始图像期间掩蔽所识别的对象的系统和方法很好地服务。如已经提到的，现在将更详细地描述与计算机辅助外科程序有关的一个具体示例。出于将变得显而易见的原因，本文描述的系统400及其原理可特别好地适用于这种增强现实辅助外科手术示例。

如本文所使用，外科程序可包括任何医疗程序，包括其中在患者或其他受试者的身体上使用手动和/或器械技术以调查或治疗身体状况的任何诊断、医治或治疗程序。外科程序可指医疗程序的任何阶段，诸如外科程序的术前阶段、手术(即，术中)阶段和术后阶段。

在本文描述的系统和方法的此类应用中，场景502将被理解为包括与外科程序相关联的任何体积空间的外科部位。例如，外科部位可包括在与外科程序相关联的空间中的外科手术的患者或其他受试者的身体的任何一个或多个部分。在某些示例中，外科部位可完全设置在身体内并且可包括身体内的接近计划执行、正在执行或已经执行的外科程序的位置的空间。例如，对于在患者内部的组织上执行的微创外科程序，外科部位可包括表面组织、表面组织下方的解剖结构，以及例如用于执行外科程序的外科器械位于其中的组织周围的空间。在另一些示例中，外科部位可至少部分地设置在患者的外部。例如，对于在患者上执行的开放式外科程序，外科部位的一部分(例如，正在其上操作的组织)可在患者内部，而外科部位的另一个部分(例如，其中可设置有一个或多个外科器械的组织周围的空间)可在患者外部。

图9示出了示例性计算机辅助外科系统900(“外科系统900”)。如已经提到的，系统400可由外科系统900实现或在该外科系统内实现，或者可与外科系统900分离但通信地耦接。例如，系统400可从外科系统900接收输入并且向该外科系统900提供输出，和/或可从外科系统900访问外科部位的影像、关于外科部位的信息和/或关于外科系统900的信息。系统400可使用该访问的影像和/或信息来执行本文描述的任何处理以生成外科部位的复合影像，并且将表示复合影像的数据提供给外科系统900以供显示。

如图所示，外科系统900可包括彼此通信地耦接的操纵系统902、用户控制系统904(在本文中也称为外科医生控制台)和辅助系统906(在本文中也称为辅助控制台)。外科系统900可由外科团队利用以对患者908执行计算机辅助外科程序。如图所示，外科团队可包括外科医生910-1、助理910-2、护士910-3和麻醉师910-4，所有这些都可统称为“外科团队成员910”。在外科会话期间可存在附加或另选的外科团队成员，如可用于特定实施方式的外科团队成员。

虽然图9示出了正在进行的微创外科程序，但应当理解，外科系统900可类似地用于执行开放式外科程序或可类似地受益于外科系统900的准确性和便利性的其他类型的外科程序。另外，将理解的是，可在其中采用外科系统900的外科阶段不仅可包括如图9所示的外科程序的手术阶段，而且还可包括外科程序的术前阶段、术后阶段和/或其他合适的阶段。

如图9所示，操纵系统902可包括多个外科器械(例如，如上所述的可由系统400识别为具有可用相应模型508的所识别的对象的外科器械)可耦接到的多个操纵器臂912(例如，操纵器臂912-1至912-4)。每个外科器械可由任何合适的治疗器械(例如，具有组织相互作用功能的工具)、成像设备(例如，内窥镜、超声工具等)、诊断器械、可用于对患者908的计算机辅助外科程序的类似物(例如，通过至少部分地插入患者908中并被操纵以在患者908上执行计算机辅助的外科程序)实现。在一些示例中，外科器械中的一者或多者可包括力感测和/或其他感测能力。在一些示例中，外科器械可由超声模块实现，或者此类超声模块可连接到上述的其他外科器械中的一者或与其耦接。虽然操纵系统902在本文中被描绘和描述为包括四个操纵器臂912，但将认识到，操纵系统902可仅包括单个操纵器臂912或任何其他数量的操纵器臂，如可用于特定实施方式。

操纵器臂912和/或附接到操纵器臂912的外科器械可包括用于生成原始(即，未校正的)运动学信息的一个或多个位移换能器、取向传感器和/或位置传感器。例如，此类运动学信息可由被包括在上述空间数据512内的运动学数据表示。如已经提到的，系统400和/或外科系统900可被配置为使用运动学信息来跟踪外科器械(例如，确定外科器械的位置)和/或控制外科器械(以及由器械保持或连接到器械的任何东西，诸如针、超声模块、缩回的组织块等)。

用户控制系统904可被配置为有助于外科医生910-1对操纵器臂912和附接到操纵器臂912的外科器械的控制。例如，外科医生910-1可与用户控制系统904交互以远程移动或操纵操纵器臂912和外科器械。为此，用户控制系统904可向外科医生910-1提供由图像捕获设备(例如，图像捕获设备504)捕获的与患者908相关联的外科部位(例如，场景502)的影像。在某些示例中，用户控制系统904可包括具有两个显示器的立体观看器，在该两个显示器上与患者908相关联并且由立体成像系统生成的外科部位的立体图像可由外科医生910-1观看。如上所述，在某些示例中，由系统400或呈现系统516生成的增强现实影像可由用户控制系统904显示。在此类情况下，外科医生910-1可利用由用户控制系统904显示的影像来执行一个或多个程序，其中一个或多个外科器械附接到操纵器臂912。

为了有助于控制外科器械，用户控制系统904可包括一组主控件。这些主控件可由外科医生910-1操纵以控制外科器械的移动(例如，通过利用机器人和/或遥操作技术)。主控件可被配置为检测由外科医生910-1进行的各种各样的手部、手腕和手指移动。以这种方式，外科医生910-1可使用一个或多个外科器械来直观地执行程序。

辅助系统906可包括被配置为执行外科系统900的主要处理操作的一个或多个计算设备。在此类配置中，被包括在辅助系统906中的一个或多个计算设备可控制和/或协调由外科系统900的各种其他部件(例如，操纵系统902和用户控制系统904)执行的操作。例如，被包括在用户控制系统904中的计算设备可通过被包括在辅助系统906中的一个或多个计算设备向操纵系统902传输指令。作为另一个示例，辅助系统906可(例如，从操纵系统902)接收表示由图像捕获设备(诸如图像捕获设备504)捕获的影像的图像数据并且可处理该图像数据。

在一些示例中，辅助系统906可被配置为向可能无法访问在用户控制系统904处提供给外科医生910-1的图像的外科团队成员910呈现视觉内容。为此，辅助系统906可通过包括显示监视器914来实现图5的监视器518，该显示监视器被配置为显示一个或多个用户界面和/或外科部位的增强现实图像、与患者908和/或外科程序相关联的信息和/或可用于特定实施方式的任何其他视觉内容。例如，显示监视器914可显示外科部位的增强现实图像，该增强现实图像包括实时视频捕获以及与图像同时显示的诸如文本和/或图形内容(例如，术前生成的解剖模型、上下文信息等)的增强。在一些实施例中，显示监视器914由触摸屏显示器实现，外科团队成员910可与触摸屏显示器交互(例如，通过触摸手势)以向外科系统900提供用户输入。

操纵系统902、用户控制系统904和辅助系统906可以以任何合适的方式彼此通信地耦接。例如，如图9所示，操纵系统902、用户控制系统904和辅助系统906可通过控制线916通信地耦接，该控制线可表示如可用于特定实施方式的任何有线或无线通信链路。为此，操纵系统902、用户控制系统904和辅助系统906可各自包括一个或多个有线或无线通信接口，诸如一个或多个局域网接口、Wi-Fi网络接口、蜂窝接口等。

为了将本文描述的原理应用于关于图9描述的外科上下文，以上已经相对一般地描述和示出的若干概念可具体应用于外科上下文。例如，在增强现实强化的外科程序示例中，由图像描绘的影像可以是外科部位的影像，在该外科部位处，通过计算机辅助外科器械执行外科程序，所识别的对象可以是计算机辅助外科器械，并且被描绘为位于计算机辅助外科器械后面的增强现实叠加可以是在外科程序之前使用术前成像模态来生成的解剖模型。

为了说明，图10示出了在涉及使用外科系统900来执行的外科程序的特定场景中，在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性方面。具体地，如图所示，图像1000描绘了外科场景，其包括通过外科器械1002来操纵或以其他方式手术操作的组织和其他解剖结构。图像1000表示未向其应用增强的原始图像(例如，类似于以上更一般地描述的图像100)。

图10还包括两个图像1004(即，图像1004-1和1004-2)以证明采用本文所述的系统和方法的结果和益处。图像1004可各自表示采用增强现实或其他此类扩展现实技术来添加与应用于图像100的合成元素202类似的合成元素1006(例如，增强现实叠加)以用于上述增强现实图像200的已处理图像。

在增强现实图像1004-1中，合成元素1006以常规方式(例如，典型的增强现实叠加技术)应用于图像1000，该常规方式不考虑外科部位处的任何对象，而是叠加要位于图像1000中描绘的所有对象和其他景色的前面(即，遮挡)的合成元素1006。这种类型的叠加应用程序可能适用于某些用例，但要注意的是，在这种类型的增强现实强化的外科程序示例中，它可能是不期望的，或者至少是非理想的。这部分地是由于合成元素1006的性质以及系统旨在通过包括增强现实叠加来帮助用户做的事情。

合成元素1006可以是可用于特定实施方式以辅助外科团队成员执行外科程序的信息的任何合适的图像、描绘或表示。例如，在某些示例(诸如所示示例)中，合成元素1006可通过在外科手术进行时对于外科团队而言感兴趣但不可见的表面下解剖结构的模型或其他表示来实现。作为一个示例，合成元素1006可表示刚好位于组织的可见表面之下的脉管系统，该脉管系统已经通过除内窥镜捕获图像1000之外的另一个模态(例如，在术中对脉管系统成像的超声模式、在术前对脉管系统进行成像的磁共振成像(“MRI”)或计算机断层扫描(“CT”)等)来成像。当外科医生控制外科器械1002时，这种脉管系统可能对他/她不可见，但可能是令人感兴趣的，因为某些脉管系统的精确位置可能影响外科医生做出的决定。

在另一些示例中，合成元素1006可表示期望直接投影到表面组织上的文本或图形信息、组织本身的清理渲染(例如，就像如果淤积血液、脂肪、烟雾、或其他遮挡物不存在时的组织的表示)、或其他此类增强。在所有这些示例中，不一定期望合成元素1006阻挡外科器械1002的描绘。例如，如图像1004-1所示，其中合成元素1006遮挡外科器械1002，合成元素1006以这种方式阻挡器械1002的视图可能是迷失方向、分散注意力的、不方便的、美学上不吸引人的或另外不期望的。

因此，在图像1004-2中，根据本文所述的方法和技术将合成元素1006应用于图像1000以便以不掩盖或遮盖外科器械1002的方式(即，以看起来位于外科器械1002后面的方式)应用合成元素1006。出于上述原因，与图像1004-1的呈现相比，这种类型的叠加应用程序可以是更少迷失方向的、更少分散注意力的、更方便的、更美观的等。此外，由于可基于例如外科器械1002的CAD模型针对外科器械1002生成的高度密集的深度信息，将合成元素1006应用于图像1004-2中的图像1000会准确地对准合成元素1006和外科器械1002以提供诸如图8所示的实施方式的准确和有吸引力的增强现实图像(并且与图3所示的未对准和不太准确的实施方式形成对比)。

虽然外科器械1002在图10中用作示例性的所识别的对象，但应当理解，在特定示例中，可使外科部位的图像(诸如图像1000)中描绘的任何合适对象出现在合成元素或增强现实叠加的前面。如果所识别的对象是用于执行外科程序的计算机辅助外科器械(诸如外科器械1002)，则由系统400访问的模型可被实现为计算机辅助外科器械的3D CAD模型。然而，在另一些示例中，所识别的对象可由计算机辅助外科器械保持(而不是器械本身)，或者可位于图像内的其他地方。作为一个示例，所识别的对象可以是由外科器械1002(未明确示出)保持以用于缝合外科程序的缝合部的针和/或线。作为另一个示例，所识别的对象可以是保持或以其他方式连接到外科器械1002的超声模块。在所识别的对象由用于执行外科程序的计算机辅助外科器械保持的此类示例中，由系统400访问的模型可能已经通过所识别的对象的3D扫描(例如，如果CAD模型不可用，则在术前或术中执行3D扫描)生成。

图11示出了用于在将合成元素应用于原始图像期间掩蔽所识别的对象的示例性方法1100。虽然图11示出了根据一个实施例的示例性操作，但其他实施例可省略、添加、重新排序、组合和/或修改图11中所示的任何操作。图11所示的操作中的一者或多者可由诸如系统400的对象掩蔽系统、包括在其中的任何部件和/或其任何实施方式执行。

在操作1102中，对象掩蔽系统可访问在场景的原始图像中描绘的所识别的对象的模型。操作1102可以以本文所述的任何方式执行。

在操作1104中，对象掩蔽系统可将在操作1102中访问的模型与在原始图像中描绘的所识别的对象相关联。操作1104可以以本文所述的任何方式执行。

在操作1106中，对象掩蔽系统可生成呈现数据供呈现系统使用以呈现原始图像的增强版本。在一些示例中，合成元素将被添加到原始图像以用于增强版本。因此，可以以这样的方式执行操作1106，其中基于与操作1104中的所识别的对象相关联的模型防止合成元素遮挡所识别的对象的至少一部分。以这种方式，合成元素可被描绘在原始图像的增强版本中以看起来好像合成元素位于所识别的对象后面。操作1106可以以本文所述的任何方式执行。

在一些示例中，可根据本文描述的原理来提供存储计算机可读指令的非暂态计算机可读介质。当由计算设备的处理器执行时，指令可指导处理器和/或计算设备执行一个或多个操作，包括本文描述的一个或多个操作。可使用各种已知的计算机可读介质中的任一者来存储和/或传输此类指令。

如本文所提及的非暂态计算机可读介质可包括参与提供可由计算设备(例如，由计算设备的处理器)读取和/或执行的数据(例如，指令)的任何非暂态存储介质。例如，非暂态计算机可读介质可包括但不限于非易失性存储介质和/或易失性存储介质的任何组合。示例性非易失性存储介质包括但不限于只读存储器、闪存存储器、固态驱动器、磁存储设备(例如，硬盘、软盘、磁带等)、铁电随机存取存储器(“RAM”)和光盘(例如，光碟、数字视频光盘、蓝光光盘等)。示例性易失性存储介质包括但不限于RAM(例如，动态RAM)。

图12示出了示例性计算设备1200，其可被特定地配置为执行本文描述的过程中的一者或多者。本文描述的系统、单元、计算设备和/或其他部件中的任一者可由计算设备1200实现。

如图12所示，计算设备1200可包括经由通信基础设施1210彼此通信地连接的通信接口1202、处理器1204、存储设备1206和输入/输出(“I/O”)模块1208。虽然在图12中示出了示例性计算设备1200，但在图12中示出的部件并不旨在是限制性的。在其他实施例中可使用附加的或另选的部件。现在将更详细地描述图12所示的计算设备1200的部件。

通信接口1202可被配置为与一个或多个计算设备通信。通信接口1202的示例包括但不限于有线网络接口(诸如网络接口卡)、无线网络接口(诸如无线网络接口卡)、调制解调器、音频/视频连接以及任何其他合适的接口。

处理器1204通常表示能够处理数据和/或解释、执行本文描述的指令、过程和/或操作中的一者或多者和/或指导其执行的任何类型或形式的处理单元。处理器1204可通过执行存储在存储设备1206中的计算机可执行指令1212(例如，应用程序、软件、代码和/或其他可执行数据实例)来执行操作。

存储设备1206可包括一个或多个数据存储介质、设备或配置，并且可采用任何类型、形式和组合的数据存储介质和/或设备。例如，存储设备1206可包括但不限于本文描述的非易失性介质和/或易失性介质的任何组合。包括本文描述的数据在内的电子数据可暂时和/或永久地存储在存储设备1206中。例如，表示被配置为指导处理器1204执行本文描述的任何操作的计算机可执行指令1212的数据可被存储在存储设备1206内。在一些示例中，数据可布置在驻留在存储设备1206内的一个或多个数据库中。

I/O模块1208可包括被配置为接收用户输入并提供用户输出的一个或多个I/O模块。I/O模块1208可包括支持输入和输出能力的任何硬件、固件、软件或其组合。例如，I/O模块1208可包括用于捕获用户输入的硬件和/或软件，包括但不限于键盘或小键盘、触摸屏部件(例如，触摸屏显示器)、接收器(例如，RF或红外接收器)、运动传感器和/或一个或多个输入按钮。

I/O模块1208可包括用于向用户呈现输出的一个或多个设备，包括但不限于图形引擎、显示器(例如，显示屏)、一个或多个输出驱动器(例如，显示驱动器)、一个或多个音频扬声器，以及一个或多个音频驱动器。在某些实施例中，I/O模块1208被配置为向显示器提供图形数据以用于呈现给用户。图形数据可表示一个或多个图形用户界面和/或如可用于特定实施方式的任何其他图形内容。

在一些示例中，本文描述的任何设施可由计算设备1200的一个或多个部件实现或在其内实现。例如，驻留在存储设备1206内的一个或多个应用程序1212可被配置为指导处理器1204的实施以执行与系统400的处理设施404相关联的一个或多个操作或功能。同样地，系统400的存储设施402可由存储设备1206的实施方式实现或在其内部实现。

在前面的描述中，已经参考附图描述了各种示例性实施例。然而，将显而易见的是，可对其进行各种修改和改变，并且可实现附加实施例，而不脱离如所附权利要求中所述的本发明的范围。例如，本文描述的一个实施例的某些特征可与本文描述的另一个实施例的特征组合或由其替代。因此，本说明书和附图被认为是说明性的而不是限制性的。

Claims

1.一种系统，包括：

存储器，所述存储器存储指令；以及

处理器，所述处理器通信地耦接到所述存储器并且被配置为执行所述指令，以：

访问在场景的原始图像中描绘的所识别的对象的模型；

将所述模型与所述所识别的对象相关联；以及

生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所述所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所述所识别的对象的至少一部分。

2.根据权利要求1所述的系统，其中所述模型与所述所识别的对象的所述关联包括：

生成由所述原始图像描绘的影像的深度图，所述深度图包括用于描绘所述影像内的所述所识别的对象的第一深度数据和用于所述影像的其余部分的第二深度数据，所述第一深度数据基于所述所识别的对象的所述模型并且比所述第二深度数据更密集；以及

分割所述原始图像以通过以下方式将描绘所述所识别的对象的所述原始图像的像素与不描绘所述所识别的对象的所述原始图像的像素区分开

基于所述第一深度数据，识别描绘所述所识别的对象的所述原始图像的所述像素；以及

基于所述第二深度数据，识别不描绘所述所识别的对象的所述原始图像的所述像素。

3.根据权利要求1所述的系统，其中：

所述原始图像是由图像帧序列组成的视频图像，每个图像帧在所述所识别的对象相对于由所述原始图像描绘的其他影像移动时描绘所述所识别的对象；并且

所述处理器被进一步配置为执行所述指令以通过以下方式在由所述视频图像描绘的影像内识别所述所识别的对象：

在所述图像帧序列的第一图像帧中初始识别所述所识别的对象，以及

基于所述初始识别，当所述所识别的对象在所述图像帧序列的后续图像帧中相对于所述其他影像移动时，逐图像帧地跟踪所述所识别的对象。

4.根据权利要求1所述的系统，其中所述处理器被进一步配置为执行所述指令以：

访问表示所述所识别的对象的姿态的运动学数据；以及

基于所述运动学数据在由所述原始图像描绘的影像中识别所述所识别的对象。

5.根据权利要求1所述的系统，其中：

由所述原始图像描绘的所述场景包括外科部位，在所述外科部位处通过用于执行外科程序的计算机辅助外科器械来执行外科程序；

所述所识别的对象是所述计算机辅助外科器械；并且

添加到所述原始图像以用于所述原始图像的所述增强版本的所述合成元素是在所述外科程序之前使用术前成像模态来生成的解剖模型。

6.根据权利要求1所述的系统，其中所述所识别的对象是用于执行外科程序的计算机辅助外科器械，并且所述模型是所述计算机辅助外科器械的三维(“3D”)计算机辅助设计(“CAD”)模型。

7.根据权利要求1所述的系统，其中所述所识别的对象由用于执行外科程序的计算机辅助外科器械保持，并且通过对所述所识别的对象的3D扫描来生成所述模型。

8.根据权利要求1所述的系统，其中所述处理器被进一步配置为执行所述指令以将所生成的呈现数据提供给所述呈现系统以用于呈现所述原始图像的所述增强版本。

9.一种方法，包括：

由对象掩蔽系统访问在场景的原始图像中描绘的所识别的对象的模型；

由所述对象掩蔽系统将所述模型与所述所识别的对象相关联；以及

由所述对象掩蔽系统生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，其中基于与所述所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所述所识别的对象的至少一部分。

10.根据权利要求9所述的方法，其中所述模型与所述所识别的对象的所述关联包括：

11.根据权利要求9所述的方法，其中：

12.根据权利要求9所述的方法，还包括：

由所述对象掩蔽系统访问表示所述所识别的对象的姿态的运动学数据；以及

由所述对象掩蔽系统基于所述运动学数据在由所述原始图像描绘的影像中识别所述所识别的对象。

13.根据权利要求9所述的方法，其中：

所述所识别的对象是所述计算机辅助外科器械；并且

14.根据权利要求9所述的方法，其中所述所识别的对象是用于执行外科程序的计算机辅助外科器械，并且所述模型是所述计算机辅助外科器械的三维(“3D”)计算机辅助设计(“CAD”)模型。

15.根据权利要求9所述的方法，其中所述所识别的对象由用于执行外科程序的计算机辅助外科器械保持，并且通过对所述所识别的对象的3D扫描来生成所述模型。

16.根据权利要求9所述的方法，还包括：

基于所述呈现数据来呈现增强图像，所述增强图像包括通过所述合成元素的仅一部分增强的所述原始图像。

17.一种存储指令的非暂态计算机可读介质，所述指令在被执行时引导计算设备的处理器：

访问在场景的原始图像中描绘的所识别的对象的模型；

将所述模型与所述所识别的对象相关联；以及

生成呈现数据供呈现系统使用以呈现所述原始图像的增强版本，在所述增强版本中基于与所述所识别的对象相关联的所述模型来防止添加到所述原始图像的合成元素遮挡所述所识别的对象的至少一部分。

18.根据权利要求17所述的非暂态计算机可读介质，其中所述模型与所述所识别的对象的所述关联包括：

19.根据权利要求17所述的非暂态计算机可读介质，其中：

所述指令进一步引导所述处理器通过以下方式在由所述视频图像描绘的影像内识别所述所识别的对象：

20.根据权利要求17所述的非暂态计算机可读介质，其中所述指令进一步引导所述处理器：

访问表示所述所识别的对象的姿态的运动学数据；以及