CN114730454A

CN114730454A - 场景感知系统和方法

Info

Publication number: CN114730454A
Application number: CN202080078181.3A
Authority: CN
Inventors: O·莫哈雷里; S·P·迪马奥; Z·李; A·沙班; J-G·西玛德
Original assignee: Intuitive Surgical Operations Inc
Current assignee: Intuitive Surgical Operations Inc
Priority date: 2019-11-15
Filing date: 2020-11-13
Publication date: 2022-07-08
Also published as: US20220392084A1; WO2021097332A1; EP4058975A1

Abstract

本文描述了场景感知系统和方法。在某些说明性示例中，系统组合与包括在动态多设备架构中的成像设备相关联的数据集，并且使用组合的数据集来感知由成像设备成像的场景(例如，手术场景)。为了说明，系统可访问用于捕获场景图像的成像设备的跟踪数据，并且基于跟踪数据，融合分别与成像设备相关联的数据集，以生成场景的融合数据集。跟踪数据可表示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化。融合的数据集可表示或用于生成对场景的感知。在某些说明性示例中，使用反馈控制回路来动态优化场景感知。

Description

场景感知系统和方法

相关申请

本申请要求2020年4月29日提交的题为“场景感知系统和方法(SCENE PERCEPTIONSYSTEMS AND METHODS)”的美国临时专利申请第63/017,506号和2019年11月15日提交的题为“用于分割的动态多摄像机数据集融合(DYNAMIC MULTI-CAMERA DATA SET FUSION FORSEGMENTATION)”的美国临时专利申请第62/936,343号的优先权，其全部内容通过引用并入本文。

背景技术

计算机实施的场景感知典型地涉及场景影像的捕获和处理，以确定场景的特性。对于动态和/或复杂环境，常规的场景感知可能缺乏期望水平的准确性和/或可靠性。例如，动态复杂环境(诸如与手术程序相关联的环境)中的一些对象可能会从成像设备的视野中受阻。

发明内容

以下描述给出了本文所描述的系统和方法的一个或多个方面的简要概述。本概述并非对所有预期方面的广泛综述，并且既不旨在标识所有方面的关键或重要元素，也不描绘任何或所有方面的范围。其唯一目的是呈现本文所描述的系统和方法的一个或多个方面，作为下面呈现的详细描述的序言。

一种示例性装置，其包括存储指令的存储器和可通信地耦合到存储器的处理器，该处理器经配置以执行指令以：访问用于捕获场景图像的成像设备的第一跟踪数据；基于第一跟踪数据，融合分别与成像设备相关联的第一数据集，以生成场景的第一融合数据集；访问用于捕获场景图像的成像设备的第二跟踪数据，该第二跟踪数据表示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化；以及基于所述第二跟踪数据，融合分别与成像设备相关联的第二数据集，以生成场景的第二融合数据集。

示例性系统包括第一成像设备；第二成像设备，至少基于在由第一和第二成像设备对场景的成像期间第二成像设备可相对于第一成像设备动态移动，第二成像设备与第一成像设备具有动态关系；以及处理系统，其可通信地耦合到成像设备，并且经配置以在由第一和第二成像设备对场景的成像期间访问第二成像设备的第一跟踪数据；基于第一跟踪数据，融合分别与第一和第二成像设备相关联的第一数据集，以生成场景的第一融合数据集；在第一和第二成像设备对场景的成像期间访问第二成像设备的第二跟踪数据，第二跟踪数据表示在由第一和第二成像设备对场景的成像期间发生的第二图像设备的姿态的变化；以及基于第二跟踪数据，融合分别与第一和第二成像设备相关联的第二数据集，以生成场景的第二融合数据集。

一种示例性方法，其包括由处理系统访问用于捕获场景图像的成像设备的第一跟踪数据；由处理系统基于第一跟踪数据融合分别与成像设备相关联的第一数据集，以生成场景的第一融合数据集；由处理系统访问用于捕获场景图像的成像设备的第二跟踪数据，该第二跟踪数据表示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化；以及由处理系统基于第二跟踪数据融合分别与成像设备相关联的第二数据集，以生成场景的第二融合数据集。

一种存储指令的示例性非暂时性计算机可读介质，所述指令可由处理器执行以：访问用于捕获场景图像的成像设备的第一跟踪数据；基于第一跟踪数据，融合分别与成像设备相关联的第一数据集，以生成场景的第一融合数据集；访问用于捕获场景图像的成像设备的第二跟踪数据，该第二跟踪数据表示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化；以及基于第二跟踪数据，融合分别与成像设备相关联的第二数据集，以生成场景的第二融合数据集。

附图说明

随附的附图说明了各种实施例，并且是说明书的一部分。所示实施例仅仅是示例，并不限制本公开的范围。在整个附图中，相同或相似的附图标记表示相同或相似的元件。

图1描绘了根据本文所描述原理的示例性场景感知系统。

图2A-图2B描绘了根据本文所描述原理由处理系统处理的说明性的数据流。

图3描绘了根据本文所描述原理经配置以使用反馈控制回路来促进场景感知优化的说明性场景感知系统。

图4描绘了根据本文所描述原理的示例性计算机辅助机器人手术系统。

图5描绘了根据本文所描述原理附接到机器人手术系统的成像设备的说明性配置。

图6-图7描绘了根据本文所描述原理的说明性方法。

图8描绘了根据本文所描述原理的说明性计算设备。

具体实施方式

本文描述了用于场景感知的系统和方法。场景感知系统可包括多个成像设备，这些成像设备以动态多设备架构布置并且经配置以从不同视点捕获场景的影像(imagery)。多成像设备架构是动态的，至少是因为当成像设备捕获场景影像以进行场景感知时，成像设备中的一个或多个可相对于一个或多个其他成像设备和/或相对于场景动态移动。这可被称为成像设备的动态移动，并且可包括任意数量的成像设备的移动(例如，一个成像设备的移动、两个成像设备的移动等)，其导致在成像设备正在捕获场景影像以用于场景感知时成像设备和/或场景之间的至少一种关系的改变。

系统可为一个或多个场景感知操作访问和使用成像设备的跟踪数据。跟踪数据可指示和/或用于导出关于成像设备中的一个或多个的信息，诸如成像设备中的一个或多个的姿态信息(例如，位置和取向信息)。因此，跟踪数据可表示成像设备中的一个或多个的动态移动，诸如在成像设备捕获场景图像时发生的成像设备中的一个或多个姿态的变化。

在某些说明性示例中，系统可组合与动态多设备架构中包括的成像设备相关联的数据集，并且使用组合的数据集来感知(例如，分割)由成像设备成像的场景。为了说明，系统可访问用于捕获场景图像的成像设备的第一跟踪数据，并且基于第一跟踪数据来融合分别与成像设备相关联的第一数据集，以生成场景的第一融合数据集。系统还可访问用于捕获场景图像的成像设备的第二跟踪数据，该第二跟踪数据表示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化，并且基于第二跟踪数据来融合分别与成像设备相关联的第二数据集，以生成场景的第二融合数据集。

每个融合的数据集可表示或用于生成由成像设备成像的场景的感知(例如，分割)。例如，系统可基于融合的数据集来生成场景的合并分割，其中分类标签应用于表示成像场景的数据点。分类标签可指示场景中被预测为由数据点表示的对象或对象类型。

在某些说明性示例中，系统可经配置以基于系统生成的场景感知数据来调整场景感知。例如，系统可使用与图像合并和/或场景分割相关联的数据来动态调整场景感知系统和/或场景的元素，以优化场景的感知。在某些示例中，例如，基于与场景感知相关联的数据，系统可促进成像设备从一个视点到另一个视点的自动或手动移动，这可提供场景的更有用视图。成像设备的此类基于反馈的控制可按优化场景感知的方式配置多设备架构。可在执行场景感知时实时动态地执行优化。本文描述了用于优化场景感知的反馈控制回路的示例。

本文所描述的系统和方法可提供各种优点和益处。例如，本文所描述的系统和方法可提供准确、动态和/或灵活的场景感知(例如，成像场景的分割)。本文所描述的动态多设备场景感知的说明性示例可能比基于单设备场景感知或固定多设备场景感知的常规场景感知更准确。本文所描述的动态多设备场景感知的说明性示例可很好地适用于动态和/或复杂场景(诸如与手术程序相关联的场景)的场景感知。

现在将更详细地描述各种说明性实施例。所公开的系统和方法可提供上述益处中的一个或多个和/或本文将显而易见的各种附加和/或替代益处。虽然本文所描述的场景感知的某些示例针对场景的分割，但本文所描述的一个或多个系统、方法和/或操作可用于附加或替代场景感知任务，诸如对象检测(例如，检测对象类型，诸如人、设备等)、姿态估计(例如，确定对象相对于机器人系统的姿态)和/或场景内的对象跟踪(例如，场景中的时间对象跟踪)。

图1描绘了说明性场景感知系统100(“感知系统100”或“系统100”)。如图所示，系统100可包括相对于场景104定位的多个成像设备102-1和102-2(统称为“成像设备102”)。成像设备102可经配置以通过同时捕获场景104的图像，诸如通过以分解帧速率(shredframe rate)捕获场景104的图像来对场景104成像。

场景104可包括可由成像设备102成像的任何环境和/或环境元素。例如，场景104可包括物理元素的有形现实世界场景。在某些说明性示例中，场景104与诸如手术程序的医疗程序相关联。例如，场景104可包括手术场所(诸如手术设施、手术室或诸如此类)的手术场景。例如，场景104可包括手术室的全部或部分，在手术室中可对患者执行手术程序。在某些实施方式中，场景104包括靠近用于执行手术程序的机器人手术系统的手术室区域。虽然本文所描述的某些说明性示例针对包括手术设施处的场景的场景104，但本文所描述的一个或多个原理可应用于其他实施方式中的其他合适场景。

成像设备102可包括经配置以捕获场景104的图像的任何成像设备。例如，成像设备102可包括视频成像设备、红外成像设备、可见光成像设备、非可见光成像设备、强度成像设备(例如，彩色、灰度、黑白成像设备)、深度成像设备(例如，立体成像设备、飞行时间成像设备、红外成像设备等)、任何其他成像设备，或此类成像设备的任何组合或子组合。成像设备102可经配置以按任何合适的捕获速率捕获场景104的图像。成像设备102可按任何合适的方式同步，以同步场景104的图像的捕获。同步可包括成像设备的操作被同步和/或成像设备输出的数据集通过匹配数据集到共同的时间点而被同步。

图1示出了两个成像设备102的简单配置，它们被定位为从两个不同的视点捕获场景104的图像。这种配置是说明性的。应当理解，多成像设备架构可包括被定位为从两个或多个不同视点捕获场景104的图像的两个或多个成像设备。

成像设备102可具有相同或不同的内因性参数。成像设备102具有不同的外部参数，这至少是因为成像设备102相对于场景104具有不同的姿态。成像设备的姿态可包括成像设备的空间位置和取向，其至少部分地定义了成像设备相对于场景104的视点。成像设备102可与用于定义成像设备的姿态的各个参考坐标框架106相关联。如图所示，成像设备102-1可与具有轴X1、Y1和Z1的坐标框架106-1相关联，并且成像设备102-2可与具有轴X2、Y2和Z2的坐标框架106-2相关联。

成像设备102可被视为形成动态多成像设备架构，其中成像设备102中的至少一个可相对于场景104和/或相对于架构中的一个或多个其他成像设备102动态移动，同时成像设备102捕获场景104的图像。成像设备102相对于场景104和/或另一成像设备102的移动可包括成像设备102相对于场景104和/或另一成像设备102的姿态的变化。姿态的变化可包括一个或多个自由度的变化，诸如成像设备102的位置和/或取向的(一种或多种)变化(例如，俯仰、偏航和/或滚动的变化)。对成像设备102的姿态的此类改变可被认为是(例如，通过改变成像设备102之间的空间关系)改变成像设备102相对于场景104的视点和/或改变成像设备102和包括在动态多成像设备架构中的一个或多个其他成像设备102之间的关系。图1中所示的虚线示出了成像设备102-1从第一姿态到第二姿态的物理移动，该移动包括成像设备102-1的位置和取向的变化。与成像设备102-1相关联的坐标框架106-1相应地移动，如具有轴X1’、Y1’和Z1’的虚线坐标框架106-1’所表示的。成像设备102-1的移动改变了成像设备102-1相对于场景104的视点，以及成像设备102-1和成像设备102-2之间的关系。例如，成像设备102-1和102-2之间的空间关系已经改变。

成像设备102可按任何合适的方式相对于场景104和/或其他成像设备102进行物理移动。例如，成像设备102可包括经配置以相对于场景104进行铰接的铰接成像设备。在某些示例中，成像设备102可铰接，因为成像设备102附接到铰接支撑结构，使得当铰接支撑结构铰接时，成像设备102相应地铰接。在某些示例中，成像设备102安装在机器人系统的铰接臂上，诸如机器人系统的遥控机器人臂。在某些示例中，成像设备102安装到手术设施中的铰接支撑结构，诸如安装到手术设施中的铰接成像设备吊杆、手术推车或其他结构。

除了或替代成像设备102相对于场景104和/或另一成像设备102的物理移动，成像设备102可被视为以一种或多种其他方式相对于场景104和/或另一成像设备102移动。例如，在某些实施例中，成像设备102的移动可包括对成像设备102的视野的任何变化。视野的变化可由成像设备102的一个或多个参数的任何适当变化引起，包括成像设备102的内因性和/或外因性参数的变化。例如，变焦参数的变化改变成像设备102的视野。作为另一示例，对成像设备102的空间位置和/或取向的变化改变成像设备102的视野。对成像设备102的视野的变化可改变成像设备102相对于场景104和/或另一成像设备102的视野，并且可被认为是成像设备102相对于场景104和/或另一成像设备102的移动。

在某些说明性示例中，动态多成像设备架构可包括安装在机器人手术系统不同部件上的多个成像设备102，其中部件中的一个或多个经配置以相对于成像场景和机器人手术系统的其他部件中的一个或多个进行铰接。例如，成像设备102-1可安装在机器人系统的铰接部件或非铰接部件上，并且成像设备102-2可安装在机器人系统的另一铰接部件上。

在某些说明性示例中，动态多成像设备体系结构的一个或多个成像设备102可安装在手术设施的附加或替代部件上，诸如手术室中的其他部件。例如，成像设备102-1可安装在手术设施的铰接部件或非铰接部件上，并且成像设备102-2可安装在手术设施的另一铰接部件上。作为另一个示例，成像设备102-1可安装在机器人系统的铰接部件上，并且成像设备102-1可安装在手术设施的铰接部件或非铰接部件上。

在某些说明性示例中，动态多成像设备架构的一个或多个成像设备102可安装在未通过机械基座连接或不具有固定或可预测的机械连接的独立系统或部件上。例如，成像设备102可安装在不同的机器人系统上(例如，安装在机器人系统的不同可移动推车或基座上)。例如，成像设备102-1可安装在第一机器人系统的铰接部件或非铰接部件上，并且成像设备102-2可安装在与第一机器人系统没有固定或可预测的机械连接的第二机器人系统的铰接部件上。作为另一个示例，成像设备102-1可安装在机器人系统的铰接或非铰接部件上，并且成像设备102-2可安装在手术设施的铰接或非铰接部件上，其中部件不具有与机器人系统的固定或可预测的机械连接。

当成像设备102安装在它们之间没有固定或可预测的机械连接的独立系统上时，可按任何合适的方式确定独立系统之间的关系，并且用于确定成像设备102之间的关系。例如，可基于描绘独立系统的姿态的图像数据和/或基于任何其他合适的数据来将独立系统彼此配准。在某些示例中，安装在单独系统上的成像设备102可按照2018年11月13日提交的题为“用于远程操作的主/从配准和控制(Master/Slave Registration and Control forTeleoperation)”的国际申请第PCT/US18/0606号中描述的任何方式彼此配准，该申请通过引用并入本文。

在某些示例中，包括在动态多成像设备架构中的成像设备102可包括动态可移动成像设备和固定姿态成像设备的任何组合。在其他示例中，包括在动态多成像设备架构中的成像设备102可包括动态可移动成像设备的任何组合。

成像设备102的一个或多个参数可在成像设备102捕获用于场景感知的场景图像时动态地改变。例如，动态可移动成像设备102可在成像设备102捕获用于感知场景104的场景图像时动态地改变姿态。随着成像设备102的姿态改变，成像设备102的视点的关系相对于场景104和同时捕获场景104的图像的一个或多个其他成像设备102动态地改变。

动态多成像设备架构中的成像设备102的一个或多个参数可被跟踪并用于场景感知操作。例如，可跟踪动态多成像设备架构中的一个或多个成像设备102的姿态，并且将其用于场景感知操作，诸如融合分别与成像设备102相关联的数据集以形成表示或用于生成场景104的感知的融合数据集的操作。跟踪数据可指示成像设备102中的至少一个的动态移动，诸如成像设备102中的至少一个的姿态的变化。因此，当执行场景感知操作时，跟踪数据可被访问并用于说明一个或多个成像设备102的动态移动。在某些实施方式中，跟踪数据可被访问并用于确定成像设备102之间和/或与场景104或另一坐标框架之间的关系。例如，动态多成像设备架构中的成像设备102的姿态可被跟踪并用于确定成像设备102之间和/或与场景104或另一坐标框架之间的关系。所确定的关系可用于融合分别与成像设备102相关联的数据集(例如，由成像设备102捕获的视频影像)，以形成用于场景104的感知(例如，场景104的分割)的融合数据集。

成像设备102的参数和成像设备102的参数变化(例如，成像设备102的姿态和姿态的变化)可按任何合适的方式跟踪或以其他方式检测。例如，传感器可在成像设备102和/或成像设备102所附接的铰接支撑结构上实施。传感器可感测运动并提供代表感测运动的传感器数据。可处理传感器数据以确定成像设备102的当前姿态和/或姿态的变化。附加地或可替代地，成像设备102的图像可由成像设备监控系统的一个或多个附加成像设备捕获，并且经处理以使用计算机视觉技术来确定成像设备102的姿态和/或姿态的变化。附加地或可替代地，可访问和处理感测或导出的运动学数据，诸如机器人运动学数据(例如，描述机器人系统的运动学链中的连杆的速度和加速度的数据)，以确定成像设备102的姿态和/或姿态的变化。附加地或可替代地，可使用用于确定成像设备102的姿态和/或姿态的变化的任何其他合适机制。还可使用确定成像设备102的姿态和/或姿态的变化的各种方式的任何合适的组合。例如，运动学数据可与视觉数据结合使用，以确定成像设备102的姿态和/或姿态的变化。在一些示例中，视觉数据可用于获取缺失的运动学数据和/或调整运动学数据。

可执行校准，诸如一次性校准，以校准成像设备102和用于跟踪成像设备102姿态的数据。校准可按任何合适的方式执行，并且可产生成像设备102和用于跟踪成像设备102的姿态的数据之间的已知关系。因此，跟踪数据和跟踪数据与成像设备102的校准的已知关系可用于跟踪成像设备102的姿态，包括当成像设备102捕获场景104的影像时，成像设备102中的一个或多个的姿态动态地改变。例如，成像设备102可被校准到成像设备102所安装到的铰接结构的运动学数据，以确定可应用于铰接结构的运动学数据以确定成像设备姿态的关系。姿态可用于确定成像设备102的视点和/或视野。

如图1所示，系统100可包括可通信地耦合到成像设备102的处理系统108。处理系统108可经配置以检测成像设备的移动，诸如通过访问表示成像设备102的参数的数据，并且从数据中标识成像设备102的移动。当成像设备102从不同视点捕获场景104的图像时，数据可指示成像设备102相对于彼此、场景104和/或另一坐标框架的动态移动。处理系统108可基于数据生成分别与成像设备102相关联的数据集，以生成融合的数据集。为此，处理系统108可访问或生成分别与成像设备102相关联的数据集，并且处理这些数据集，诸如通过应用基于图像设备跟踪数据生成的一个或多个变换来生成融合的数据集。

融合可包括处理系统108基于从成像设备跟踪数据确定的成像设备102的姿态生成一个或多个变换，并且将变换应用于一个或多个数据集以生成融合的数据集。对数据集应用变换可将数据集合并到公共坐标框架中。公共坐标框架可为任何合适的参考框架，诸如世界坐标框架、场景104的坐标框架、成像设备102中的一个的坐标框架或任何其他合适的坐标框架。将数据集合并到公共坐标框架中可基于成像设备的姿态(例如，基于成像设备102之间确定的空间关系)对准由成像设备102捕获的图像的数据点，诸如三维(3D)体素或二维(2D)像素。处理系统108可经配置以融合与在公共时间点从场景104的不同视点捕获的图像相关联的二维或三维地理空间数据集。

在某些示例中，融合可能包括合并对准(或重叠)体素或像素，诸如通过共混对准体素或像素的强度和/或深度值。共混(blending)可包括加权共混，其中基于一个或多个因素对被共混的数据点进行加权，诸如成像设备102中的哪个具有数据点的最佳视图(例如，通过对由具有最佳视角的成像设备102捕获的数据进行更重的加权)。在某些示例中，融合可附加地或可替代地包括将非重叠体素或像素拼接在一起，诸如通过沿着图像的非重叠边界将图像拼接在一起。

与成像设备102相关联的数据集可包括由成像设备102生成的和/或由成像设备102产生的数据衍生的任何数据。例如，数据集可包括表示场景104的三维影像的三维数据集、表示场景104的二维影像的二维数据集和/或表示来自成像设备102的视点的场景104的单视点分割的分割数据集。在数据集包括表示场景104的单视点分割的分割数据集的示例中，数据集的融合可包括将分割数据集合并成分割数据的融合集。

处理系统108可使用融合数据集来执行一个或多个场景感知操作。例如，处理系统108可使用融合数据集来生成场景104的融合分割，其在图1中表示为场景分割110。在某些示例中，融合数据集可表示场景104的合并分割。在其他示例中，融合数据集可输入到场景分割算法，以基于融合数据集生成场景104的合并分割。

图2A描绘了由处理系统108处理的数据的说明性流程。如图所示，处理系统108可包括关系模块202，该关系模块接收表示关于诸如成像设备102的成像设备的信息的成像设备数据204。该信息可包括成像设备的一个或多个参数的参数信息，诸如成像设备的内因性和/或外因性参数。该信息可直接或间接地表示成像设备的姿态信息。成像设备数据204可包括或被称为成像设备的跟踪数据。

关系模块202可经配置以处理成像设备数据204以确定成像设备关系206，其可包括成像设备102之间、成像设备102与场景104之间和/或成像设备102与公共坐标框架之间的关系。成像设备关系206可指示任何合适的关系，诸如成像设备的姿态、视点和/或视野之间、成像设备的姿态、视点和/或视野与场景或公共参照框架之间的空间关系。成像设备关系206可由任何合适的关系数据来表示，包括通过经配置以应用于成像设备数据集以将数据集变换到公共坐标框架的一个或多个变换来表示。

关系模块202可经配置以连续(例如，以任何合适的帧速率周期性地)接收成像设备数据204，并且基于成像设备数据204生成成像设备关系206数据。因此，当成像设备数据204指示诸如成像设备姿态的变化的移动时，关系模块202可更新成像设备关系206数据以反映该变化。

处理系统108还可包括分别接收图像210-1和210-2的单独分割模块208-1和208-2。图像210-1可表示从成像设备102-1接收的图像数据集，并且图像210-2可表示从成像设备102-2接收的图像数据集。图像210-1和210-2可为由成像设备102-1和102-2从不同视点同时捕获的场景104的图像。图像210-1和210-2可包括场景104的三维或二维影像。对于图2A所示的示例，图像210-1和210-2被视为场景104的二维投影图像。

分割模块208-1和208-2可各自经配置以分别对图像210-1和210-2执行分割操作，以生成相应的分割图像212-1和212-2。分割图像212-1可包括分配给图像210-1的像素的分类标签，并且分割图像212-2可包括分配给图像210-2的像素的分类标签。

处理系统108可进一步包括合并模块214，其从关系模块202接收成像设备关系206数据，以及分别从分割模块208-1和208-2接收分割图像212-1和212-2。合并模块214可经配置以基于成像设备关系206融合分割图像212-1和212-2，以生成场景104的融合分割图像216。合并模块214可经配置以执行任何合适的合并操作，以融合分割图像212-1和212-2，从而形成场景104的融合分割图像216。此类操作的示例包括但不限于，应用一个或多个变换(其表示成像设备关系206或从成像设备关系206导出)以将分割图像212-1和212-2组合到公共坐标框架，使得分割图像212-1和212-2中的对应数据点在公共坐标框架中对准，共混对准数据点的值以确定对准数据点的共混值(例如，共混分类标签以确定对准数据点的分类标签)和诸如此类。

与基于单个成像设备的分割(例如单个分割图像212-1和212-2)相比，融合分割图像216可更准确地对成像场景104中的对象进行分类。准确性的提高可由许多因素引起，这些因素可以包括使用来自多个不同视点的图像数据来分类图像数据点、传感器冗余、抗遮挡的鲁棒性和/或成像设备在捕获时间期间以有利于分类由成像设备捕获的数据点(例如，通过改变成像设备的姿态)的方式被动态调整的能力。

图2A所示的数据流是一个示例的说明。在其他示例中，可按其他合适的流程或方式处理数据。例如，数据流中的图像可包括三维数据集而不是二维数据集。作为另一个示例，合并模块可被放置在数据流中更靠前的位置，使得在执行任何分割之前，接收到的图像被融合成融合图像，并且然后分割模块可对融合图像执行分割。

图2B描绘了由处理系统108的另一实施方式处理的另一说明性数据流。如图所示，处理系统108可包括接收成像设备数据204并基于成像设备数据204确定成像设备关系206的关系模块202。处理系统108还可包括合并模块218，其接收图像210-1、图像210-2和成像设备关系206数据，并且使用成像设备关系206数据来融合图像210-1和210-2以形成融合图像220。处理系统108还包括分割模块222，其接收并处理融合图像220以生成融合分割图像224。

图2A中的分割图像212和融合分割图像216以及图2B中的融合分割图像224可表示可由处理系统108生成的场景感知数据的说明性形式。在其他示例中，处理系统108可经配置以生成附加和/或替代形式的场景感知数据。

在某些实施方式中，处理系统108可经配置以基于处理系统108访问和/或生成的数据，包括处理系统108生成的场景感知数据，执行一个或多个操作以调整场景感知。例如，处理系统108可使用与图像合并和/或场景分割相关联的数据来动态调整场景感知系统100和/或场景104的元素，以优化场景104的感知。这可形成反馈控制回路，处理系统108在执行场景感知时使用该反馈控制回路来实时动态优化场景感知。

为了促进场景感知的此类优化，处理设施108可经配置以分析与场景感知相关联的数据。这可包括分析由处理设施108访问和/或生成的任何数据，包括例如成像设备数据204、成像设备关系206数据、图像210、分割图像212、融合分割图像216、融合图像220、融合分割图像224、由处理系统108访问或生成的任何其他数据，或此类数据的任何组合或子组合。分析可能包括对数据的任何(一个或多个)方面的分析。作为示例，处理系统108可分析与一个或多个图像(例如，分割图像212、融合分割图像216和/或融合分割图像224)的图像数据的分割分类相关联的置信度得分。作为另一示例，处理系统108可分析图像(例如，图像210-1、图像210-2、融合图像220和/或分割图像212、216、224)的内容和/或参数，诸如通过分析图像来检查不良的图像质量、场景中预期对象的遮挡等)

基于对与场景感知相关联的数据的分析，处理系统108可确定场景感知的改进的潜力。改进的潜力可包括任何合适的改进，诸如在处理系统108正在执行场景感知时可动态地做出的改进。在某些示例中，改进的潜力可包括改进与场景分割相关联的置信度得分的潜力，诸如通过改进置信度得分以满足定义的阈值(例如，通过将置信度得分从低于阈值改进到高于阈值)。附加地或可替代地，改进的潜力可包括改进图像内容和/或质量的潜力。

处理系统108可按任何合适的方式确定场景感知的改进的潜力。例如，处理系统108可将与场景感知相关联的数据集的值与一个或多个定义的阈值进行比较，并且在值低于定义的阈值时标识改进的潜力。这可包括分割数据的置信度得分与置信度阈值的比较、图像参数值(例如，亮度、对比度、饱和度、曝光、色度等)与图像阈值的比较，和诸如此类。

作为另一示例，处理系统108可比较与不同成像设备图像相关联的数据，并且使用该比较来确定场景感知的改进的潜力。例如，处理系统108可将一个成像设备捕获的图像数据与另一个成像设备捕获的图像数据进行比较，并且基于该比较确定场景感知的改进的潜力。例如，比较可能揭示图像中的一个在质量和/或内容上不同于另一个图像，这具有改进的潜力。作为另一个示例，处理系统108可将一个成像设备捕获的图像的分割数据与另一个成像设备捕获的另一个图像的分割数据进行比较，并且基于该比较确定场景感知的改进的潜力。例如，一个图像的分割数据的置信度得分可能显著低于另一个图像的分割数据的置信度得分，这可指示该图像的分割数据具有改进的潜力。

为了说明确定场景感知的改进的潜力的具体示例，处理系统108可确定融合分割图像216的分割数据的置信度得分低于定义的阈值。作为响应，处理系统108可分析分割图像212-1和212-2的分割数据的置信度得分，并且可确定分割图像212-1的置信度得分高于阈值，而分割图像212-2的置信度得分低于阈值。基于此，处理系统108可通过提高分割图像212-2的置信度得分来标识场景感知的改进的潜力。

这些示例是说明性的。处理系统108可使用任何合适的附加或替代数据和定义的规则来标识场景感知中的改进的潜力。

基于对场景感知的改进的潜力的确定，处理系统108可执行一个或多个操作来改进场景感知。这可包括处理系统108生成并提供优化输出，该优化输出指示要执行以改进对场景的感知的操作。图3示出了场景感知系统100，其进一步经配置以使用反馈控制回路来优化场景感知。如图所示，处理系统108可提供优化输出302，该优化输出可经配置以指示要被执行以优化场景感知的一个或多个操作。处理系统108可经配置以向任何合适的目的地提供优化输出302，包括向场景感知系统100的一个或多个部件(例如，成像设备102)、与场景感知系统100相关联的机器人系统、用于呈现的输出设备(例如，显示设备)和/或场景感知系统100或机器人系统的用户。优化输出302可经配置以指示这些目的地执行一个或多个操作，这些操作经配置以促进对场景104的感知的优化。

例如，优化输出302可指示对多成像设备架构的一个或多个成像设备102的一个或多个参数进行的改变。例如，优化输出302可指示对成像设备的任何可调节设置(例如，焦距、变焦、快门速度、自动曝光设置、亮度、增益等)的改变和/或对成像设备的姿态、视点和/或视野的改变。附加地或可替代地，优化输出302可指示对感知系统100(包括处理系统108)的一个或多个其他部件的一个或多个参数进行的改变。

作为另一个示例，优化输出302可指示对与系统100(诸如用于在系统100执行感知场景104的操作时执行手术程序的机器人手术系统)相关联的机器人系统的一个或多个部件的一个或多个参数进行的改变。场景104可按任何合适的方式与手术程序相关联，诸如通过作为手术程序的位置和/或与手术程序的执行相关联的位置(例如，机器人手术系统在其中操作的医疗手术室内的空间)。优化输出302可指示对机器人系统的任何部件的改变。例如，优化输出302可指示附接到机器人手术系统的手术器械姿态的变化(例如，将手术器械移出成像设备102的视野，以便不干扰成像设备102捕获的场景104的影像)。作为另一个示例，优化输出302可指示机器人系统的铰接部件的部件定位的变化，诸如机器人系统的操纵器、控制台或推车的定位的变化(例如，移动部件，使得一个或多个成像设备102的视点被改变为可能对场景104的感知更有利的新视点)。

作为另一个示例，优化输出302可指示对与系统100相关联的手术设施的一个或多个部件的一个或多个参数进行的改变。例如，优化输出302可指示对手术设施处的铰接部件(例如，铰接相机吊杆)的改变、诸如手术车或手术台的部件在手术设施处的重新定位、手术团队成员在手术设施处的重新定位、手术设施处灭菌帘的调整和诸如此类。

这些优化操作的示例是说明性的。在其他示例中，处理系统108可生成和提供附加的或可替代的优化操作。

处理系统108可向任何目的地提供优化输出302，该优化输出可促进用于优化场景感知的操作的执行。例如，处理系统108可向系统100(例如，一个或多个成像设备102和/或处理系统108)、与系统100相关联的机器人系统、用于呈现的输出设备(例如，显示设备)和/或任何其他合适的目的地提供优化输出302。优化输出302可经配置以指示任何此类(一个或多个)目的地设备执行一个或多个操作，这些操作被设计成促进改进对场景104的感知，包括本文所描述的任何示例操作。

优化输出302可经配置以促进场景感知的自动和/或手动改进。例如，优化输出302可经配置以指示目的地设备以自动方式(例如，通过自动调整成像设备102的姿态)执行操作来改进场景感知。在另一个示例中，优化输出302可经配置以指示目的地设备执行操作，以提示系统100的用户和/或与系统100相关联的机器人系统执行经配置以改进场景感知的手动操作(例如，通过提示手术团队成员将机器人系统的部件或手术设施移动到不同位置)。

为了继续分割图像212-1的置信度得分高于阈值且分割图像212-2的置信度得分低于阈值的特定示例，处理系统108可以确定可执行的一个或多个操作，以提高分割图像212-2的置信度得分，并且提供指示所确定的(一个或多个)操作的输出。例如，处理系统108可确定成像设备102-2的潜在的更优姿态，并且可指示机器人系统以机器人方式将成像设备102-2移动到新姿态。

处理系统108可持续执行上述操作，以在场景感知正在进行时继续动态优化场景感知。此类操作可由处理系统108在执行场景感知操作时实时执行。

虽然上文参考包括多个成像设备的动态场景感知架构描述了场景感知的优化，但优化原则中的一个或多个可应用于其他场景感知架构。例如，某些优化原则可应用于单个成像设备架构和/或固定成像设备架构。

在某些示例中，系统100可经配置以实施和应用人工智能算法，诸如机器学习算法，以执行本文所描述的一个或多个操作。可使用任何合适形式的人工智能和/或机器学习，包括深度学习、神经网络等。

在某些示例中，人工智能算法可被采用以将与不同成像设备相关联的数据集融合成融合数据集。例如，机器学习算法可通过机器学习程序生成，并且应用于融合操作。机器学习算法可作为融合函数运行，其与确定的成像设备关系结合使用，以融合差别性的数据集。

在某些示例中，人工智能算法可用于分割场景图像。例如，机器学习算法可通过机器学习程序生成，并且应用于分割操作。机器学习算法可作为应用于单独和/或融合影像的分割函数来操作，以对影像中的数据点(例如像素)进行分类。

在某些示例中，人工智能算法可用于优化场景感知，诸如通过优化动态多成像设备架构。例如，机器学习算法可通过机器学习程序生成，并且应用于控制动态多成像设备架构中的一个或多个成像设备的移动，使得动态多成像设备架构中的一个或多个成像设备例如在捕获时间期间被最优地、自动地和/或动态地定位，以捕获非常适合于准确融合和/或分割的影像。例如，可移动成像设备可被引导成相对于场景和/或其他成像设备移动到特定姿态，其中相对姿态有助于捕获促进场景的准确融合和/或分割的影像。

在某些示例中，系统100可与机器人系统相关联，诸如通过被包括在机器人系统(例如，机器人手术系统和/或遥控机器人系统)的一个或多个部件中、由机器人系统的一个或多个部件实施或连接到机器人系统的一个或多个部件。例如，系统100可由或作为机器人系统的一个或多个部件来实施。作为另一个示例，系统100可由可通信地耦合到机器人系统的独立计算系统来实施。

图4显示了与系统100相关联的示例性计算机辅助机器人手术系统400(“手术系统400”)。系统100可由手术系统400实施，连接到手术系统400，和/或以其他方式与手术系统400结合使用。

如图所示，手术系统400可包括彼此通信耦合的操纵系统402、用户控制系统404和辅助系统406。手术团队可利用手术系统400对患者408执行计算机辅助手术程序。如图所示，手术团队可包括外科医生410-1、助手410-2、护士410-3和麻醉师410-4，所有这些人可统称为“手术团队成员410”。在外科会诊期间，可能会有附加的或替代的手术团队成员在场。

虽然图4示出了正在进行的微创手术程序，但可理解的是，手术系统400可类似地用于执行开放式手术程序或其他类型的手术程序，这些手术程序也可类似地受益于手术系统400的准确性和便利性。此外，应当理解，可使用手术系统400的整个外科会诊不仅可包括如图4所示的手术程序的手术阶段，还可包括手术程序的术前(其可包括手术系统400的设置)、术后和/或其他适当阶段。

如图4所示，操纵系统402可包括多个操纵器臂412(例如，操纵器臂412-1至412-4)，多个手术器械可耦合到该操纵器臂。每个手术器械可由任何合适的手术工具(例如，具有组织相互作用功能的工具)、医疗工具、成像设备(例如，内窥镜、超声波工具等)、传感器械(例如，力传感手术器械)、诊断器械或类似物实施，其可用于对患者408进行计算机辅助手术程序(例如，通过至少部分插入患者408并被操纵以在患者408上执行计算机辅助手术程序)。虽然操纵系统402在本文中被描绘和描述为包括四个操纵器臂412，但应认识到，操纵系统402可仅包括单个操纵器臂412或可用于特定实施的任何其他数量的操纵器臂。

操纵器臂412和/或附接到操纵器臂412的手术器械可包括一个或多个位移换能器、取向传感器和/或位置传感器，用于生成原始(即未校正的)运动学信息。手术系统400的一个或多个部件可经配置以使用运动学信息来跟踪(例如，确定手术器械的姿态)和/或控制手术器械，以及连接到器械和/或臂的任何东西。如本文所述，系统100可使用运动学信息来跟踪手术系统400的部件(例如，操纵器臂412和/或附接到操纵器臂412的手术器械)。

用户控制系统404可经配置以便于外科医生410-1控制操纵器臂412和附接到操纵器臂412的手术器械。例如，外科医生410-1可与用户控制系统404交互以远程移动或操纵操纵器臂412和手术器械。为此，用户控制系统404可向外科医生410-1提供由成像系统(例如，内窥镜)捕获的与患者408相关联的手术部位的影像(例如，高清三维影像)。在某些示例中，用户控制系统404可包括具有两个显示器的立体查看器，在立体查看器处外科医生410-1可查看由立体成像系统生成的与患者408相关联的手术部位的立体图像。外科医生410-1可利用用户控制系统404显示的影像，用附接到操纵器臂412的一个或多个手术器械执行一个或多个程序。

为了便于控制手术器械，用户控制系统404可包括一组主控件。这些主控件可由外科医生410-1操纵，以控制手术器械的移动(例如，通过利用机器人和/或远程操作技术)。主控件可经配置以由外科医生410-1检测外科医生410-1的各种手、手腕和手指运动。以这种方式，外科医生410-1可直观地使用一个或多个手术器械执行程序。

辅助系统406可包括经配置以执行手术系统400的处理操作的一个或多个计算设备。在此类配置中，包括在辅助系统406中的一个或多个计算设备可控制和/或协调手术系统400的各种其他部件(例如，操纵系统402和用户控制系统404)执行的操作。例如，包括在用户控制系统404中的计算设备可通过包括在辅助系统406中的一个或多个计算设备向操纵系统402传送指令。作为另一示例，辅助系统406可接收和处理代表由附接到操纵系统402的一个或多个成像设备捕获的影像的图像数据。

在一些示例中，辅助系统406可经配置以向可能无法访问在用户控制系统404处提供给外科医生410-1的图像的手术团队成员410呈现视觉内容。为此，辅助系统406可包括显示监视器414，该显示监视器经配置以显示一个或多个用户界面，诸如手术部位的图像、与患者408和/或手术程序相关联的信息，和/或可用于特定实现的任何其他视觉内容。例如，显示监视器414可显示手术部位的图像以及与图像同时显示的附加内容(例如，图形内容、上下文信息等)。在一些实施例中，显示监视器414由触摸屏显示器实施，手术团队成员410可与之交互(例如，通过触摸手势)以向手术系统400提供用户输入。

操纵系统402、用户控制系统404和辅助系统406可按任何合适的方式彼此通信耦合。例如，如图4所示，操纵系统402、用户控制系统404和辅助系统406可通过控制线416进行通信耦合，控制线416可表示可服务于特定实施方式的任何有线或无线通信链路。为此，操纵系统402、用户控制系统404和辅助系统406各自可包括一个或多个有线或无线通信接口，诸如一个或多个局域网接口、Wi-Fi网络接口、蜂窝接口等。

在某些示例中，成像设备(诸如成像设备102)可附接到手术系统400的部件和/或设置手术系统400的手术设施的部件。例如，成像设备可附接到操纵系统402的部件。因此，操纵系统402的部件的运动学信息可被系统100使用，以在已经执行一次性校准以标识操纵系统402的部件的跟踪运动学和附接到操纵系统402的部件的成像设备之间的关系之后，导出附接的成像设备的运动学信息。

图5描绘了附接到操纵系统402的部件的成像设备102(成像设备102-1到102-4)的说明性配置500。如图所示，成像设备102-1可附接到操纵系统402的定向平台(OP)502，成像设备102-2可附接到操纵系统402的操纵器臂412-1，成像设备102-3可附接到操纵系统402的操纵器臂412-4，并且成像设备102-4可附接到操纵系统402的基座504。附接到OP 502的成像设备120-1可称为OP成像设备，附接到操纵器臂412-1的成像设备120-2可称为通用设置操纵器1(USM1)成像设备，附接到操纵器臂412-4的成像设备120-3可称为通用设置操纵器4(USM4)成像设备，并且附接到基座504的成像设备120-4可被称为BASE(基部)成像设备。在操纵系统402被定位在患者附近(例如，作为患者侧推车)的实施方式中，成像设备402在操纵系统402上的战略位置的放置提供了靠近患者和对患者执行的手术程序的有利成像视点。

在某些实施方式中，操纵系统402(或其他示例中的其他机器人系统)的部件可能具有冗余自由度，冗余自由度允许部件的多个配置到达附接到部件的末端执行器(例如，连接到操纵器臂412的器械)的相同输出位置。因此，处理系统108可指示操纵系统402的部件移动，而不影响附接到部件的末端执行器的位置。这可能允许在不改变附接到部件的末端执行器的位置的情况下，为场景感知执行部件的重新定位。

所示的对操纵系统402的部件的放置是说明性的。任何适当数量的成像设备102在操纵系统402、手术系统400的其他部件和/或手术设施处的其他部件上的附加和/或替代放置可用于其他实施方式中。成像设备102可按任何合适的方式附接到操纵系统402的部件、手术系统400的其他部件和/或手术设施处的其他部件。

可执行校准过程，以将成像设备102校准到手术系统400。校准过程可经配置以确定成像设备102(例如，成像设备102的视点)与手术系统400的部件之间的空间关系。这可产生部件跟踪数据(例如手术系统400的机器人运动学数据)与成像设备102之间的已知或确定性关系。所确定的空间关系可用于确定成像设备102的空间信息(例如，基于手术系统400的部件的空间信息(例如，操纵系统402的运动学链的运动学数据、视觉跟踪信息等)的成像设备102的位置、取向、姿态、视点和/或视野)。将成像设备102校准到操纵系统402可将成像设备102配准到操纵系统402的运动学链，并且允许由成像设备102捕获的数据集在公共坐标框架(诸如操纵系统402的基础框架)中表达。

在某些示例中，可对附接到手术系统400的成像设备102执行一次性校准过程。一次性校准的结果随后可用于手术系统上成像设备的其他实施方式，其中成像设备到手术系统的附接是刚性的并且在成像设备和手术系统的部件之间提供相同的空间关系。这提供了一个可扩展性的解决方案，不需要为手术系统上成像设备的每个实施方式执行校准过程。

示例性校准过程使用自定义校准夹具(fixture)，该夹具包括不同颜色的非共面放置的四个球形物体。不同的颜色用于通信。成像设备102捕获包括校准夹具的图像。这些图像可包括强度图像和深度图像。可从深度图像生成三维点云。

为了基于校准夹具的图像校准成像设备102的位置，可使用手眼校准管道的改进版本。在此过程中，操纵系统402和校准夹具彼此保持静止。成像设备在位置C₁处安装在操纵系统402上，该位置C₁相对于操纵系统402的关节具有未知变换X，具有已知正向运动学T₁。为了确定位置C₁处成像设备的坐标框架中基准点的位置，使用球体拟合算法来估计校准夹具的球体的中心，从而近似基准点的位置。由于基准点相对于彼此是静态的，因此它们可定义局部坐标框架。从位置C₁处成像设备的坐标框架到校准夹具的局部坐标框架的变换可表示为S₁。校准过程的目标是使用上述信息确定X。

然后通过操纵系统402将成像设备移动到另一个位置C₂，具有新的正向运动学T₂和新的基准位置S₂。此配置和过程提供

T₁XS₁＝T₂XS₂

T₁ ^-1T₂X＝XS₁S₂ ^-1

AX＝XB (公式1)

其中A＝T₁ ^-1T₂是关节的相对运动，并且B＝S₁S₂ ^-1是成像设备框架中基准点的反向相对移动，这可通过最小二乘估计来找到。等式1进一步分解为

R_AR_X＝R_XR_B

R_At_X+t_A＝R_Xt_B+t_X

其可表示为以下形式

其中I是指单位矩阵，并且R_A、R_B和t_A、t_B分别是指变换A、B的旋转和平移分量。符号

是指克罗内克积(Kronecker积)，而vec符号是指矩阵的行主展平(row majorflattening)。为了求解等式1，当收集A和B的相对运动时，涵盖所有六个自由度(DoF)移动。操纵系统402的旋转可被限制为围绕垂直轴线(与操纵系统402被部署在其上的地板平面正交的轴线)的旋转，该轴线可被称为Z轴。旋转R_X可被确定，而只有平移的一部分作为

tx(α)＝t_┴+αn_z (等式3)

其中n_z是旋转轴线(操纵系统402的Z轴线)，t_┴是沿着法线为n_z的平面的平移，α是任何标量。因此，可校准OP、USM1和USM4成像设备的位置，并且沿着操纵系统402的Z轴没有平移。

由于BASE成像设备相对于操纵系统402的基座504是静态的，因此上述校准过程不适用。为了校准从操纵系统402的基座504到BASE成像设备的变换，应用了不同的方法。通过使用来自前一步骤的OP X_OP的校准结果，从操纵系统402到夹具T(fixture，robot)(T(夹具，机器人))的变换可表示为

其中X_base是目标未知BASE成像设备校准，T_OP来自操纵系统402运动学，并且S_baseS_OP ^-1可通过最小二乘法来估计。通过收集几组数据，可将误差降至最低。

为了求解最后一个自由度，通过使用辅助系统406(其可被称为视觉侧推车)作为校准夹具，遵循迭代最接近点(ICP)程序。先前的校准结果可作为ICP算法的热启动。

在使用上述校准过程校准BASE成像设备后，校准结果可用于成像设备和操纵系统402的相同配置，因为成像设备的安装位置是确定的。

在将感知系统100设置并配准到手术系统400之后，感知系统100可按本文所描述的任何方式操作，以生成接近手术系统400的手术场景的感知数据。该操作可包括处理系统108以本文所描述的任何方式融合对应于成像设备102的数据集，诸如通过将数据集融合到操纵系统402的坐标框架。在某些示例中，融合数据集可形成融合分割数据集，该融合分割数据集以手术场景的语义分割数据的形式指示场景感知数据。在其他示例中，融合数据集可作为输入提供给场景分割过程，该场景分割过程生成融合分割数据集，该融合分割数据集以手术场景的语义分割数据的形式指示场景感知数据。

在某些示例中，处理系统108可经配置以执行新的多视图语义分割融合算法，该算法经由数据驱动方法共享不同成像设备102的数据集的置信度。现在将描述此类算法的示例。

处理系统108可使对应于成像设备102的图像数据集经受单独的分割处理，这些分割处理为相应的成像设备102生成分割数据集。分割数据集可包括图像数据点的潜在分类和分配给图像数据点的潜在分类的置信度得分。置信度得分可以表示潜在分类的置信度水平。在某些示例中，数据点的置信度得分可以被提供给可能被分配给数据点的每个类别。潜在类别可包括手术室(或)手术台类别、操纵系统402类别(可称为患者侧推车(PSC)类别)、辅助系统406类别(可称为视觉侧推车(VSC)类别、人类类别、吸顶灯类别、医疗支架类别(例如，用于诸如梅奥支架的器械托盘支架的类别)、手术台类别，还有麻醉推车类别。这个类别的示例集是说明性的。在其他示例中可使用其他类别集。

在某些示例中，置信度得分可表示为概率张量(probability tensor)。例如，在使用四个成像设备102的实施方式中，处理系统108可为图像的帧集输出四个概率张量(每个成像设备一个张量)，并且每个张量的大小可等于图像的分辨率乘以多个潜在类别。

由于手术场景由多个成像设备102观察，因此处理系统108可经配置以在成像设备102之间共享置信度得分，诸如通过在成像设备102之间共享概率张量。可使用新颖的多视图投影和合并(MVPM)技术来执行共享。MVPM技术可通过以每类方式组合不同视图的置信度来增强像素到像素的关系，提供区域平滑，和/或改进难以分割的对象的预测。

现在将结合图5的配置500中的OP成像设备102-1来描述执行说明性MVPM技术的处理系统108的示例。通过使用OP成像设备102-1与配置500中的其他成像设备102-2、102-3和102-4之间的相对变换，以及OP成像设备102-1的内因性参数，可将来自其他成像设备102-2、102-3和102-4的概率投影到OP成像设备102-1平面，导致具有像素对应性的三倍以上的二维概率张量。对于配置500，该操作将OP成像设备102-1的信息增加四倍。深度图像数据也可被投影以近似条件随机场(CRF)算法并尝试解决视线问题。

在投影操作之后，对概率和深度值进行排序，使得OP成像设备102-1的置信度和深度值始终在第一个C+1通道中。其他成像设备102-2、102-3和102-4的数据集可按以下顺序排序：成像设备102-2(USM1成像设备)、成像设备102-3(USM4成像设备)和成像设备102-4(BASE成像设备)。这种排序允许合并过程从成像设备接收非随机数据。

合并过程可包括使用合适的编码-解码形状的处理系统108，以将四个成像设备的通道和潜在类别组组合成与该组中潜在类别数量相等的通道组(例如，通过将4x(C+1)组合成C个通道)。通道的输出组表示不同类别中的概率。然后，处理系统108可通过采用最大概率，将每个图像的概率的低级嵌入转换为分割图。在某些示例中，处理系统108可仅基于概率并且在不知道输入图像的情况下执行合并过程。只要分割提供合理的预测，这可允许合并模块从分割模块单独训练并推广到其他数据。

以这种方式，处理系统108可生成并输出OP成像设备102-1的预测(例如，OP成像设备102-1捕获的图像的分割)，该预测基于所有四个成像设备102-1到102-4的预测的置信度得分。处理系统108可为每个成像设备102执行该过程，并且为每个成像设备102输出此类预测。因此，四个成像设备102捕获的图像的分割的置信度在成像设备102之间共享，并且由处理系统108用于改进图像的感知。语义分割的评估指示，与常规的分割技术相比，MVPM过程提高了对象的预测能力。

图6示出了场景感知的示例性方法600。虽然图6示出了根据一个实施例的示例性操作，但其他实施例可省略、添加、重新排序、组合和/或修改图6所示的任何操作。图6所示的操作中的一个或多个可由场景感知系统(例如系统100)、其中包括的任何部件和/或其任何实施方式来执行。

在操作602中，场景感知系统可访问用于捕获场景图像的成像设备的第一跟踪数据。操作602可按本文所描述的任何方式执行。

在操作604中，场景感知系统可基于第一跟踪数据，融合分别与成像设备相关联的第一数据集，以生成场景的第一融合数据集。操作606可按本文所描述的任何方式执行。

在操作606中，场景感知系统可访问用于捕获场景图像的成像设备的第二跟踪数据。第二跟踪数据可指示在成像设备捕获场景图像时发生的图像设备中的至少一个的姿态的变化。操作606可按本文所描述的任何方式执行。

在操作608中，场景感知系统可基于第二跟踪数据，融合分别与成像设备相关联的第二数据集，以生成场景的第二融合数据集。操作608可按本文所描述的任何方式执行。

在某些实施方式中，融合的数据集可以是场景的融合分割，融合分割可被视为对场景的感知。在其他实施方式中，融合的数据集可用于生成场景的感知，诸如场景的融合分割。在后一种情况下，方法600可包括操作610，其中场景感知系统可基于每个融合的数据集生成对场景的感知，诸如由成像设备成像的场景的融合分割。操作610可按本文所描述的任何方式执行。

方法600可由场景感知系统重复，以自动、动态且持续地实时感知场景，即使成像设备在场景感知系统感知场景时动态移动。例如，方法600的操作602、604和任选的610可针对由成像设备捕获的时间上相关联的帧集来执行，并且方法600的操作606、608和任选的610可针对由成像设备捕获的后续时间上相关联的帧集来执行。针对由成像设备捕获的其他时间上相关联的帧集，可重复方法600。

图7示出了场景感知的示例性方法700。虽然图7示出了根据一个实施例的示例性操作，但其他实施例可省略、添加、重新排序、组合和/或修改图7所示的任何操作。图7所示的操作中的一个或多个可由诸如系统100的场景感知系统、其中包括的任何部件和/或其任何实施方式来执行。

在操作702中，场景感知系统生成场景感知。操作702可按本文所描述的任何方式执行。在某些示例中，可通过执行方法600的操作中的一个或多个来执行操作702。

在操作704中，场景感知系统确定改进对场景的感知的潜力。操作704可按本文所描述的任何方式执行。

在操作706中，场景感知系统提供输出，该输出指示要执行以改进对场景的感知的操作。操作706可按本文所描述的任何方式执行，包括由场景感知系统将输出提供给一个或多个成像设备、与场景感知系统相关联的机器人系统(例如，机器人手术系统的一个或多个部件)和/或提供给与场景感知系统相关联的手术设施的一个或多个部件。该输出可经配置以指示任何合适的一个或多个设备执行该操作。该操作可经配置以按任何合适的方式改进对场景的感知，诸如通过动态移动成像设备的姿态、视点和/或视野、将视点遮挡对象移出成像设备的路径，调整成像设备的设置(例如，改变变焦设置)等。

方法700可从操作706继续到操作702，以形成反馈控制回路，该反馈控制回路经配置以在场景感知系统感知场景时自动、动态且持续地实时优化对场景的感知。

在某些示例中，方法700可与方法600结合执行。例如，可执行方法700来优化从对应于一个时间点的时间上对准的帧集到对应于后续时间点的后续时间上对准的帧集的场景感知。

本文所描述的场景感知原理、系统和方法可用于各种应用。作为示例，本文所描述的场景感知方面中的一个或多个可用于识别部署了医疗系统的医疗设施(诸如部署了手术系统的手术设施)中的对象和活动。作为另一个示例，本文所描述的场景感知方面中的一个或多个可用于获得或改进手术程序的情境认知。作为另一个示例，本文所描述的场景感知方面中的一个或多个可用于实时或回顾性的手术工作流程分析。作为另一个示例，本文所描述的场景感知方面中的一个或多个可用于手术程序的自动转录(例如，出于记录、进一步规划和/或资源分配的目的)。作为另一示例，本文所描述的场景感知方面中的一个或多个可用于手术子任务的自动化。作为另一个示例，本文所描述的场景感知方面中的一个或多个可用于手术系统和/或手术设施的计算机辅助设置(例如，用于设置机器人手术系统的一个或多个操作可基于对手术场景的感知和机器人手术系统的自动移动而自动化)。本文所描述的场景感知原理、系统和方法的这些应用示例是说明性的。本文所描述的场景感知原理、系统和方法可针对其他合适的应用来实施。

在一些示例中，可根据本文所描述的原理提供存储计算机可读指令的非暂时性计算机可读介质。当由计算设备的处理器执行时，这些指令可指示处理器和/或计算设备执行一个或多个操作，包括本文所描述的操作中的一个或多个。此类指令可使用各种已知的计算机可读介质中的任何一种来存储和/或传输。

本文所指的非暂时性计算机可读介质可包括参与提供可由计算设备(例如，计算设备的处理器)读取和/或执行的数据(例如，指令)的任何非暂时性存储介质。例如，非暂时性计算机可读介质可包括但不限于非易失性存储介质和/或易失性存储介质的任何组合。示例性非易失性存储介质包括但不限于只读存储器、闪存、固态驱动器、磁存储设备(例如硬盘、软盘、磁带等)、铁电随机存取存储器(“RAM”)和光盘(例如光盘、数字视频光盘、蓝光光盘等)。示例性易失性存储介质包括但不限于RAM(例如，动态RAM)。

图8示出了示例性计算设备800，其可经具体配置以执行本文所描述的过程中的一个或多个。本文所描述的任何系统、单元、计算设备和/或其他部件可实施计算设备800或由计算设备800实施。

如图8所示，计算设备800可包括经由通信基础设施810彼此通信连接的通信接口802、处理器804、存储设备806和输入/输出(“I/O”)模块808。虽然图8中示出了示例性计算设备800，但图8中所示的部件并不旨在是限制性的。其他实施例中可使用附加或替代部件。现在将附加地详细描述图8所示的计算设备800的部件。

通信接口802可经配置以与一个或多个计算设备通信。通信接口802的示例包括但不限于有线网络接口(例如网络接口卡)、无线网络接口(例如无线网络接口卡)、调制解调器、音频/视频连接和任何其他合适的接口。

处理器804通常表示能够处理数据和/或解释、执行和/或指导本文所描述的指令、过程和/或操作中的一个或多个的执行的任何类型或形式的处理单元。处理器804可通过执行存储在存储设备806中的计算机可执行指令812(例如，应用、软件、代码和/或其他可执行数据实例)来执行操作。

存储设备806可包括一个或多个数据存储介质、设备或配置，并且可采用任何类型、形式和组合的数据存储介质和/或设备。例如，存储设备806可包括但不限于本文所描述的非易失性介质和/或易失性介质的任何组合。电子数据(包括本文所描述的数据)可临时和/或永久地存储在存储设备806中。例如，代表经配置以指示处理器804执行本文所描述的任何操作的计算机可执行指令812的数据可存储在存储设备806中。在一些示例中，数据可被安置在驻留在存储设备806内的一个或多个数据库中。

I/O模块808可包括一个或多个I/O模块，其经配置以接收用户输入并提供用户输出。I/O模块808可包括支持输入和输出能力的任何硬件、固件、软件或其组合。例如，I/O模块808可包括用于捕获用户输入的硬件和/或软件，包括但不限于键盘或小键盘、触摸屏部件(例如，触摸屏显示器)、接收器(例如，RF或红外接收器)、运动传感器和/或一个或多个输入按钮。

I/O模块808可包括用于向用户呈现输出的一个或多个设备，包括但不限于图形引擎、显示器(例如显示屏)、一个或多个输出驱动器(例如显示器驱动器)、一个或多个音频扬声器和一个或多个音频驱动器。在某些实施例中，I/O模块808经配置以向显示器提供图形数据以向用户呈现。图形数据可代表一个或多个图形用户接口和/或可服务于特定实施方式的任何其他图形内容。

在一些示例中，本文所描述的任何系统、模块和/或设施可由计算设备800的一个或多个部件实施，或在其中实施。例如，驻留在存储设备806内的一个或多个应用程序812可经配置以指示处理器804的实施方式执行与系统100的处理系统108相关联的一个或多个操作或功能。

如前所述，本文所描述的一个或多个操作可动态和/或实时执行。如本文所用，被描述为“实时”发生的操作将被理解为立即执行，而没有不适当的延迟，即使绝对零延迟是不可能的。被描述为“动态”执行的操作将被理解为在执行场景捕获和/或场景感知操作的同时被执行。

任何系统、设备和/或其部件可按任何合适的组合或子组合实施。例如，系统、设备和/或其部件中的任何一个可被实施为经配置以执行本文所描述的操作中的一个或多个的装置。

在本文的描述中，已经描述了各种示例性实施例。然而，显而易见的是，可对其进行各种修改和改变，并且可实施附加的实施例，而不脱离如所附权利要求中阐述的本发明的范围。例如，本文所描述的一个实施例的某些特征可与本文所描述的另一个实施例的特征组合或替换。因此，说明书和附图被认为是说明性的，而不是限制性的。

Claims

1.一种装置，其包括：

存储器，其存储指令；以及

处理器，其可通信地耦合到所述存储器，并且经配置以执行所述指令以：

访问用于捕获场景图像的成像设备的第一跟踪数据；

基于所述第一跟踪数据，融合分别与所述成像设备相关联的第一数据集，以生成所述场景的第一融合数据集；

访问用于捕获所述场景图像的所述成像设备的第二跟踪数据，所述第二跟踪数据表示在所述成像设备捕获所述场景图像时发生的所述图像设备中的至少一个的姿态的变化；以及

基于所述第二跟踪数据，融合分别与所述成像设备相关联的第二数据集，以生成所述场景的第二融合数据集。

2.根据权利要求1所述的装置，其中：

所述第一数据集的所述融合包括基于所述第一跟踪数据对准由所述成像设备捕获的所述图像的数据点；以及

所述第二数据集的所述融合包括基于所述第二跟踪数据对准由所述成像设备捕获的所述图像的数据点。

3.根据权利要求1所述的装置，其中所述处理器进一步经配置以执行以下指令：

基于所述第一融合数据集生成所述场景的第一融合分割；以及

基于所述第二融合数据集生成所述场景的第二融合分割。

4.根据权利要求1所述的装置，其中：

分别与所述成像设备相关联的所述第一和第二数据集包括分别与所述成像设备相关联的第一和第二分割数据集；

所述融合所述第一数据集以生成所述第一融合数据集包括融合所述第一分割数据集以形成第一融合分割数据集；以及

所述融合所述第二数据集以生成所述第二融合数据集包括融合所述第二分割数据集以形成第二融合分割数据集。

5.根据权利要求1所述的装置，其中：

分别与所述成像设备相关联的所述第一和第二数据集包括分别与所述成像设备相关联的第一和第二图像数据集；

所述融合所述第一数据集以生成所述第一融合数据集包括融合所述第一图像数据集以形成第一融合图像数据集；以及

所述融合所述第二数据集以生成所述第二融合数据集包括融合所述第二图像数据集以形成第二融合图像数据集。

6.根据权利要求1所述的装置，其中所述成像设备中的至少一个安装在机器人系统的铰接部件上。

7.根据权利要求1所述的装置，其中所述成像设备中的至少一个被安装到手术设施中的铰接支撑结构。

8.根据权利要求1所述的装置，其中：

所述指令包括机器学习算法；以及

所述处理器经配置以应用机器学习算法来执行所述第一数据集的所述融合以生成所述第一融合数据集，以及所述第二数据集的所述融合以生成所述第二融合数据集。

9.根据权利要求1所述的装置，其中所述处理器进一步经配置以执行所述指令以：

基于所述第一融合数据集生成对所述场景的感知；

确定改进对所述场景的所述感知的潜力；以及

提供输出，所述输出指示要执行以改进对所述场景的所述感知的操作。

10.根据权利要求9所述的装置，其中所述处理器向所述机器人系统提供所述输出，以指示所述机器人系统改变所述成像设备中的至少一个的所述姿态。

11.根据权利要求1所述的装置，其中所述成像设备中的所述至少一个的所述姿态的所述变化引起所述成像设备中的一个的视野相对于所述成像设备中的另一个的视野的变化。

12.根据权利要求1所述的装置，其中所述成像设备中的所述至少一个的所述姿态的所述变化包括所述成像设备中的一个相对于所述成像设备中的另一个的姿态的变化。

13.一种系统，其包括：

第一成像设备；

第二成像设备，至少基于所述第二成像设备在由所述第一和第二成像设备对场景的成像期间能够相对于所述第一成像设备动态移动，所述第二成像设备与所述第一成像设备具有动态关系；以及

处理系统，其可通信地耦合到所述成像设备，并且经配置以：

在由所述第一和第二成像设备对所述场景成像期间，访问所述第二成像设备的第一跟踪数据；

基于所述第一跟踪数据，融合分别与所述第一和第二成像设备相关联的第一数据集，以生成所述场景的第一融合数据集；

在由所述第一和第二成像设备对所述场景的所述成像期间访问所述第二成像设备的第二跟踪数据，所述第二跟踪数据表示在由所述第一和第二成像设备对所述场景的所述成像期间发生的所述第二图像设备的姿态的变化；以及

基于所述第二跟踪数据，融合分别与所述第一和第二成像设备相关联的第二数据集，以生成所述场景的第二融合数据集。

14.根据权利要求13所述的系统，其中：

所述场景包括接近机器人手术系统的手术场景；

所述第一成像设备安装在所述机器人手术系统的第一部件上；以及

所述第二成像设备安装在所述机器人手术系统的第二部件上，所述第二部件被配置成铰接。

15.根据权利要求13所述的系统，其中：

所述场景包括手术设施处的手术场景；

所述第一成像设备被安装在所述手术设施处的第一部件上；以及

所述第二成像设备被安装在所述手术设施处的第二部件上，所述第二部件被配置成铰接。

16.根据权利要求13所述的系统，其中：

所述第一成像设备被安装在第一机器人系统上；并且

所述第二成像设备被安装在与所述第一机器人系统分离的第二机器人系统上。

17.一种方法，其包括：

由处理系统访问用于捕获场景图像的成像设备的第一跟踪数据；

由所述处理系统基于所述第一跟踪数据融合分别与所述成像设备相关联的第一数据集，以生成所述场景的第一融合数据集；

由所述处理系统访问用于捕获所述场景图像的所述成像设备的第二跟踪数据，所述第二跟踪数据表示在所述成像设备捕获所述场景图像时发生的所述图像设备中的至少一个的姿态的变化；以及

由所述处理系统基于所述第二跟踪数据融合分别与所述成像设备相关联的第二数据集，以生成所述场景的第二融合数据集。

18.根据权利要求17所述的方法，其中：

19.根据权利要求17所述的方法，其进一步包括：

由所述处理系统基于所述第一融合数据集生成所述场景的第一融合分割；以及

由所述处理系统基于所述第二融合数据集生成所述场景的第二融合分割。

20.根据权利要求17所述的方法，其中：

21.根据权利要求17所述的方法，其中：

22.根据权利要求17所述的方法，其中：

所述第一数据集的所述融合包括将机器学习算法应用于所述第一数据集以生成所述第一融合数据集；以及

所述第二数据集的所述融合包括将所述机器学习算法应用于所述第二数据集以生成所述第二融合数据集。

23.根据权利要求17所述的方法，其进一步包括：

由所述处理系统基于所述第一融合数据集生成对所述场景的感知；

由所述处理系统确定改进对所述场景的所述感知的潜力；以及

由所述处理系统提供输出，所述输出指示要执行以改进对所述场景的所述感知的操作。

24.根据权利要求23所述的方法，其中提供所述输出包括向机器人系统提供所述输出，以指示所述机器人系统改变所述成像设备中的至少一个的所述姿态。

25.一种存储指令的非暂时性计算机可读介质，所述指令可由处理器执行以：

访问用于捕获场景图像的成像设备的第一跟踪数据；

访问用于捕获所述场景图像的所述成像设备的第二跟踪数据，所述第二跟踪数据指示在所述成像设备捕获所述场景图像时发生的所述图像设备中的至少一个的姿态的变化；以及