CN115104078A

CN115104078A - 用于增强型远程协作的系统和方法

Info

Publication number: CN115104078A
Application number: CN202180014796.4A
Authority: CN
Inventors: 田原; 徐毅; 全书学
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-03-24
Filing date: 2021-03-05
Publication date: 2022-09-23
Also published as: WO2021190280A1

Abstract

用于增强现实系统的技术。计算机系统从第一设备的摄像头接收场景的图像流。计算机系统从图像流构建场景的三维表示，并将场景中的物体转换为虚拟物体。计算系统在第一显示器上渲染三维表示。计算系统还向第二设备发送三维表示。计算系统在第二设备的第二显示器上渲染三维表示和虚拟物体。计算系统接收对三维表示中的虚拟物体的注释。计算系统在第一显示器上用注释更新虚拟物体。

Description

用于增强型远程协作的系统和方法

背景技术

增强现实(augmented reality，AR)将虚拟内容叠加在用户的真实世界的视图之上。使用AR，用户可以使用摄像头扫描环境，计算系统实时执行视觉惯性里程计(visualinertial odometry，VIO)。一旦持续追踪了摄像头姿势，就可以将虚拟物体放置在AR场景中，以产生一种真实物体和虚拟物体融合在一起的错觉。

发明内容

本公开总体上涉及与增强现实应用相关的方法和系统。更具体地，本公开实施例提供了使用增强现实进行远程协作的方法和系统。

描述了使用增强现实进行远程协作的技术。计算机系统用于远程协作。计算机系统被配置为执行各种操作。这些操作包括从第一设备的摄像头接收场景的图像流。操作还包括从图像流构建场景的三维表示，并将场景中的物体转换为虚拟物体。操作还包括在第一设备的第一显示器上渲染三维表示。该操作还包括向第二设备发送三维表示。操作还包括在第二设备的第二显示器上渲染三维表示和虚拟物体。操作还包括在第二设备上接收对三维表示中的虚拟物体的注释。操作还包括在第一显示器上用注释更新虚拟物体。

相对于传统技术，通过本公开实现了许多益处。例如，本公开实施例涉及提供基于增强现实的远程协作、远程呈现、以及远程沉浸的方法和系统。用例示例包括制造、医药、通信、设计和娱乐。本公开的这些实施例和其他实施例及其许多优点和特征将结合下面的文字和相应的附图进行更详细的描述。

附图说明

将参考附图描述根据本公开的各种实施例，在附图中：

图1示出了根据本公开的至少一个实施例的增强现实远程协作环境的示例。

图2示出了根据本公开的至少一个实施例的用于增强现实应用的计算机系统的示例。

图3示出了根据本公开的至少一个实施例的语义物体数据库的示例。

图4示出了根据本公开的至少一个实施例的基于增强现实的远程协作过程的示例。

图5示出了根据本公开的至少一个实施例的基于增强现实的远程协作环境中的示例性交互时间线。

图6示出了根据本公开实施例的示例性计算机系统。

具体实施方式

在以下描述中，将描述各种实施例。出于解释的目的，阐述了具体配置和细节以便提供对实施例的透彻理解。然而，对于本领域技术人员来说显而易见的是，实施例也可以在没有具体细节的情况下实施。此外，为了不模糊所描述的实施例，可以省略或简化众所周知的特征。

本公开实施例尤其针对基于增强现实的远程协作。远程协作可以为地理上分散的用户提供电子共享工作空间，支持通信、协作和协调。公开的解决方案可以使用增强现实(AR)技术来改善远程协作。例如，公开的解决方案使操作远程计算系统的远程用户能够与操作本地计算系统的本地用户的场景中的物体进行虚拟交互。

相对于现有解决方案，公开的技术提供了益处。例如，虽然现有解决方案可以使本地用户能够将视频和音频实时流式传输到远程专家，但这种解决方案并不能促进本地用户和远程专家之间有意义的交互。例如，二维视频流无法传达本地用户视图中物体的物理结构，不利于与物体的虚拟交互，而是依赖本地用户和远程专家之间的口头交流。相比之下，本公开实施例使用包括场景理解、物体检测、物体的语义标记、和/或高级用户手势的AR技术来改进本地用户和远程用户之间的交互和协作。

出于讨论的目的，引入以下简化的示例。本地用户和远程用户均佩戴AR耳机。每个AR耳机与相应的计算系统和相应的用户输入设备连接。两个计算系统通过网络实时连接。本地计算系统处理来自摄像头的输入视频流并重建三维(three-dimensional，3D)场景。本地计算系统将重建的场景(例如，包括识别的物体)发送到远程计算系统。进而，远程计算系统在远程用户的AR耳机中的显示器内显示场景，以便远程用户看到本地用户正在看到和正在做什么。远程用户也可以与虚拟场景交互。例如，可以将远程用户的虚拟的手传达到本地用户，这使本地用户能够更好地理解远程用户，远程用户可以是专家。远程用户还可以添加视觉或音频指令或注释。在一些情况下，可以确定和共享虚拟物体的语义信息。

现在转向附图，图1示出了根据本公开的至少一个实施例的增强现实远程协作环境的示例。图1描绘了远程协作环境100，远程协作环境100包括本地增强现实系统110、远程增强现实系统120、真实世界物体130、以及网络160。

在图1描绘的示例中，本地用户操作本地增强现实系统110(即，第一设备)。本地增强现实系统110观察包括真实世界物体130的场景，并将关于场景和真实世界物体130的信息发送到远程增强现实系统120(即，第二设备)，远程增强现实系统120可以可视化场景和真实世界物体130。此外，远程增强现实系统120可以接收来自远程用户的交互并且通过网络160将交互发送回本地增强现实系统110，其中，本地用户可以进一步可视化交互。

本地增强现实系统110包括本地计算系统112、显示器114(即，第一显示器)、输入设备116、以及摄像头118中的一个或多个。远程增强现实系统120包括远程计算系统122、显示器124(即，第二显示器)、以及输入设备126中的一个或多个。合适的计算系统的示例将参考图2和图6进一步讨论。例如，如关于图2所讨论的，计算系统可以包括AR能力，AR能力包括深度传感器和光学传感器。

合适的显示器的示例包括液晶显示器(liquid crystal display，LCD)或发光二极管(light emitting diode，LED)屏幕。显示器可以是独立的，可以与诸如手持设备或智能手机等其他设备集成，也可以放置在AR耳机中。在实施例中，显示器可以划分为分屏视图，这允许将注释、文档、或图像流与虚拟环境一起可视化。

输入设备能够从用户接收例如通过用户的手、手臂、或手指进行的输入。合适的输入设备的示例包括追踪运动的摄像头或可穿戴手臂或手部传感器，或响应触摸、轻敲、滑动、或其他手势的触摸屏或触摸表面。

摄像头118可用于采集静止图像或图像数据帧或图像数据流。摄像头118的示例包括标准智能手机摄像头(前置或后置)、深度传感器、红外摄像头等。

输入设备116和126可以各自接收来自相应用户的交互。例如，操作本地增强现实系统110的本地用户可以通过注释、移动、或改变虚拟物体来与虚拟物体交互。此外，操作本地增强现实系统110的本地用户可以将注释添加到重建场景作为虚拟物体。这些改变可以通过网络160发送到远程增强现实系统120。操作远程增强现实系统120的远程用户也可以与从本地增强现实系统110接收的虚拟物体交互。例如，远程用户可以在场景中插入手以说明如何对表示为虚拟物体的物体进行修复。可以将远程用户的手可视化为虚拟物体并包括在更新的场景中，可以将更新的场景发送到本地增强现实系统110并在显示器114上渲染。可以移动虚拟手以使物体看起来在场景中移动。

网络160连接本地计算系统112和远程计算系统122。网络160可以是有线或无线网络。可以通过网络160传输各种信息，例如，关于三维物体的信息、由摄像头118采集的场景的图像或视频、注释、交互、以及语义信息。

在实施例中，如关于图3进一步讨论的，本地计算系统112或远程计算系统122中的一个或多个可以执行检测到的物体的语义分析。这种分析可以在线(例如实时)或离线(例如在使用增强现实系统之前)进行。例如，可以确定关于真实世界物体130的语义信息，例如类型、大小、位置、所有者等。

图2示出了根据本公开的至少一个实施例的用于AR应用的计算机系统的示例。计算机系统210是本地计算系统112和远程计算系统122的示例。本地计算系统112和远程计算系统122中的每个可以包括AR能力。

更具体地，AR应用可以由计算机系统210的AR模块216实现。通常，RGB光学传感器214生成包括例如真实世界物体230的真实世界环境的RGB图像。深度传感器212生成关于真实世界环境的深度数据，其中，该数据包括例如深度图，该深度图显示真实世界物体230的深度(例如，深度传感器212和真实世界物体230之间的距离)。在AR会话初始化之后(其中，该初始化可以包括校准和追踪)，AR模块216在AR会话中渲染真实世界环境的AR场景220，其中，该AR场景220可以在计算机系统210的显示器上的图形用户界面(graphical userinterface，GUI)上呈现。AR场景220将真实世界物体230的真实世界物体表示222显示为例如显示器上的视频。此外，AR场景220显示了真实世界环境中不存在的虚拟物体224。AR模块216可以从RGB图像和深度图生成红绿蓝深度(RGBD)图像，以检测真实世界物体表示222的至少一部分对虚拟物体224的遮挡，反之亦然。AR模块216可以附加地或替代地基于深度图生成真实世界环境的3D模型，其中，3D模型包括多级体素。这种体素用于检测虚拟物体224和真实世界物体表示222的至少一部分之间的碰撞。可以渲染AR场景220以正确地显示遮挡并避免对碰撞的渲染。

在示例中，计算机系统210表示合适的用户设备，除深度传感器212和RGB光学传感器214外，该用户设备还包括一个或多个图形处理单元(graphical processing unit，GPU)、一个或多个通用处理器(general purpose processor，GPP)，以及存储计算机可读指令的一个或多个存储器，这些计算机可读指令可由处理器中的至少一个执行以执行本公开实施例的各种功能。例如，计算机系统210可以是智能手机、平板电脑、AR耳机、或可穿戴AR设备中的任何一种。

深度传感器212具有已知的最大深度范围(例如，最大工作距离)并且该最大值可以本地存储和/或可由AR模块216访问。深度传感器212可以是ToF摄像头。在这种情况下，深度传感器212生成的深度图包括深度图像。RGB光学传感器214可以是彩色摄像头。深度图像和RGB图像可以具有不同的分辨率。通常，深度图像的分辨率小于RGB图像的分辨率。例如，深度图像的分辨率为640x180，而RGB图像的分辨率为2920x1280。

此外，安装在计算机系统210中的深度传感器212和RGB光学传感器214可以通过变换(例如距离偏移、视场角差等)分离。该变换可能是已知的并且其值可以本地存储和/或可由AR模块216访问。当使用摄像头时，ToF摄像头和彩色摄像头可以具有相似的视场。但是由于这种变换，这些视场将部分重叠而不是完全重叠。

AR模块216可以实现为专用硬件和/或硬件和软件的组合(例如通用处理器和存储在存储器中并且可由通用处理器执行的计算机可读指令)。除初始化AR会话和执行视觉惯性里程计(VIO)外，AR模块216还可以检测遮挡和碰撞以正确渲染AR场景220。

在一些实施例中，AR模块216可以执行物体检测。图像处理技术可用于检测到的图像数据以识别物体。例如，边缘检测可用于识别图像数据中包括物体的部分。可以在整个图像中识别亮度、颜色、和/或纹理的不连续之处，以检测图像内各种物体的边缘。

在一些情况下，生成深度图。深度图可用于诸如物体检测等实施例。例如，从深度传感器212采集的传感器数据和/或从RGB光学传感器214采集的图像数据可用于确定深度图。深度信息可以包括分配给每个像素的值。每个值表示用户设备与对应于该像素的位置的特定点之间的距离。可以分析深度信息以检测深度的突然变化。例如，距离的突然变化可能表示物体的边缘或边界。

在一些实施例中，可以使用图像数据和深度信息。在实施例中，可以首先在图像数据或深度信息中识别物体，并且可以从其他信息确定物体的各种属性。例如，边缘检测技术可用于识别图像数据的包括物体的部分。然后可以将该部分映射到深度信息中的对应部分以确定识别的物体的深度信息(例如点云)。在另一示例中，可以首先在深度信息中识别包括物体的部分。在该示例中，然后可以将该部分映射到图像数据中的对应部分以确定识别的物体的外观属性(例如颜色或纹理值)。

在一些实施例中，在传感器数据中识别的物体的各种属性(例如颜色、纹理、点云数据、物体边缘)可以用作机器学习模块的输入，以识别或生成与识别的物体匹配的3D模型。在一些实施例中，物体的点云可以从深度信息和/或图像数据生成并且与存储在数据库中的点云数据进行比较以识别最匹配的3D模型。或者，可以使用传感器数据生成物体(例如用户或产品)的3D模型。可以根据从深度信息的一部分获得的点云数据创建网格。然后，该系统可以将与该部分对应的图像数据部分中的外观数据映射到网格以生成基本3D模型。尽管描述了特定的技术，但应注意，存在许多技术可用于从传感器输出识别特定物体。

图3示出了根据本公开的至少一个实施例的语义物体数据库的示例。在图3所示的示例中，物体数据库302包括条目304a-n。物体数据库302可用于确定关于在图像或视频流中检测到的物体的语义信息。每个条目304a-n包括表示物体的语义信息。在一些情况下，物体是出现在场景中的物体。在其他情况下，物体可能是已知的，并且关于物体的信息存储在数据库中。

物体数据库302可以是域特定的。例如，对于与修理汽车相关的增强现实应用，物体数据库302可以包含关于汽车零件的语义和其他信息。在另一示例中，对于关于家庭装修的增强现实应用，物体数据库302可以包含关于通用工具、标准建筑材料等的语义和其他信息。

在图3中描绘的示例中，条目304a-n各自指代真实世界物体130中的不同物体。例如，条目304a指代真实世界物体130中描绘的桌子，条目304b指代第一条腿，条目304c指代第二条腿，条目304d指代桌面，条目304n指代圆柱体等。

图4示出了根据本公开实施例的基于增强现实的远程协作的示例流程。结合作为本文描述的计算机系统的示例的计算机系统来描述该流程。流程的一些或全部操作可以通过计算机系统上的特定硬件实现和/或可以实现为存储在计算机系统的非暂时性计算机可读介质上的计算机可读指令。存储的计算机可读指令表示可编程模块，可编程模块包括可由计算机系统的处理器执行的代码。这种指令的执行将计算机系统配置为执行相应的操作。与处理器结合的每个可编程模块代表用于执行相应操作的装置。虽然以特定顺序说明操作，但应理解，特定顺序不是必须的并且可以省略、跳过和/或重新排序一个或多个操作。

流程400涉及增强现实系统。例如，第一设备(例如本地增强现实系统110)和第二设备(例如远程增强现实系统120)相互通信。

在一些情况下，在执行流程400之前或期间执行认证。可以从第一设备向第二设备发送认证请求。因此，流程400中执行的操作(例如接收图像流或通过网络发送信息)可以以第二设备接受认证请求为条件。

在框402，计算机系统从第一设备的摄像头接收场景的图像流。例如，返回参考图1，本地增强现实系统110的本地计算系统112从摄像头118接收场景的图像流。图像流可以包括不同的信息，例如颜色空间(例如RGB)中的像素、红外光谱信息、或深度信息。场景可以包括存在但未被检测到的一个或多个真实世界物体(例如真实世界物体130)的像素表示。

在框404，计算机系统从图像流构建场景的三维表示，将物体转换为虚拟物体。本地计算系统112构建场景的三维表示。三维表示包括场景中的物体的表示。

在实施例中，计算机系统可以识别一个或多个物体，然后将物体转换为虚拟物体。一旦检测到物体，就会生成环境的3D重建。该重建可以是具有纹理的场景的多边形网格模型。

继续该示例，三维表示包括真实世界物体130的三维表示。一旦检测到真实世界物体130，本地计算系统112将真实世界物体130转换为虚拟物体。可以对虚拟物体执行操作，例如旋转、翻转、调整大小等。

在另一实施例中，如关于图3所讨论的，可以在语义数据库中识别和匹配物体。可以在本地计算系统112、远程计算系统122或这两个系统上执行物体的识别和标签的匹配。可以基于确定的物体特征(例如形状、大小、轮廓、边缘等)执行匹配。例如，当在图像流中检测到物体时，本地计算系统112可以为该物体创建视觉签名并搜索物体数据库。如果找到匹配项，则可以通过网络160将对应的语义信息发送到远程计算系统122并在显示器124上显示标签。以这种方式，远程用户可以受益于物体的识别。语义信息可以包括描述、部件名称、序列号等。在一些情况下，可以对物体的图像执行光学字符识别(optical characterrecognition，OCR)，从而可以确定语义信息。

在框406，计算机系统在第一设备的第一显示器上渲染三维表示。继续该示例，本地计算系统112在显示器114上渲染真实世界物体130。

在实施例中，显示器114可以被细分为两个或两个以上的部分。例如，第一部分可以显示包括渲染的真实世界物体130的渲染场景，第二部分可以显示批注、评论、或注释。

在框408，计算机系统向第二设备发送三维表示。本地计算系统112通过网络160向远程增强现实系统120发送三维表示。远程计算系统122接收三维表示。如果被加密和/或编码，远程计算系统122可以根据需要对三维表示进行解密和/或解码。

在实施例中，图像流与三维表示分开发送或一起发送。例如，本地计算系统112可以将来自摄像头118的(可选地，编码和/或加密的)图像流通过网络160发送到远程增强现实系统120。

在框410，计算机系统在第二设备的第二显示器上渲染三维表示和虚拟物体。远程计算系统122接收三维表示并在显示器124上渲染三维表示。例如，在显示器124上渲染真实世界物体130。以这种方式，操作远程增强现实系统120的用户可以以虚拟方式与真实世界物体130交互。

如所讨论的，在实施例中，可以通过网络160发送图像流。如果发送了图像流，则远程计算系统122对该流进行解密和/或解码。该流可以在远程增强现实系统120在显示器124上可视化。在另一实施例中，当在远程增强现实系统120在图像流中检测到物体时，远程计算系统122可以为该物体创建视觉签名并搜索物体数据库。如果找到匹配项，则可以在显示器124上显示相应的语义信息。在初始3D重建之后，可以以流式方式将增量更新发送到远程系统。

在框412，计算机系统在第二设备上接收对三维表示中的虚拟物体的注释。继续该示例，用户注释真实世界物体130的一个或多个实施例。例如，为了本地增强现实系统110的本地用户的利益，操作远程增强现实系统120的远程用户专家可以提供批注或评论。注释还可以包括诸如旋转之类的运动，这可能比单独的文本或音频更好地说明一个概念。例如，通过旋转虚拟物体，远程用户可以说明关于可能已被遮蔽的物体的实施例的一点。

因为具有AR功能的设备上的摄像头的位置和方向被持续追踪，所以可以在本地用户的屏幕上渲染视觉指令，就好像这些视觉指令处于与其在远程用户的3D虚拟工作空间中相同的位置和方向一样，反之亦然。例如，本地用户还可以使用手势和其他工具在场景中放置标记，远程专家也可以查看这些标记以确认本地用户的潜在问题。

操作本地计算系统112或远程计算系统122的用户可以以多种方式与虚拟物体交互。例如，计算系统从输入设备接收与虚拟物体的交互。交互可以由任何方式的用户界面手势(例如点击、触摸、拖动或手势)触发。然后，计算系统例如根据交互的预定义含义相应地执行动作。一个系统(例如本地增强现实系统110)上的交互可以发送到另一系统(例如远程增强现实系统120)，反之亦然。以这种方式，每个用户都可以看到其他用户正在做什么。

注释的其他示例包括文本、音频、以及视频。在实施例中，远程计算系统122可以记录远程用户解释概念的音频文件，并通过网络160发送音频文件作为注释。然后，本地用户可以在本地增强现实设备上播放该音频文件。

在框414，计算机系统在第一显示器上用注释更新虚拟物体。继续该示例，本地计算系统112使虚拟物体与来自远程增强现实系统120的注释一起显示在显示器114上。

应理解，根据实施例，图4中所示的特定步骤提供了一种执行基于增强现实的远程协作的特定方法。根据替代实施例，也可以执行其他步骤序列。例如，本公开替代实施例可以以不同的顺序执行上述步骤。此外，图4所示的各个步骤可以包括多个子步骤，这些子步骤可以根据各个步骤以各种顺序执行。此外，可以根据特定应用添加或删除附加步骤。本领域的普通技术人员将认识到许多变化、修改和替代。

在实施例中，摄像头118的位置和方向被持续追踪。使用摄像头姿势渲染虚拟物体，并且虚拟物体看起来好像附着在本地用户的物理环境中一样。以这种方式，本地用户和远程用户都可以继续与虚拟环境交互，并且更新两个设备的显示器。图5描绘了一个这种示例。

图5示出了根据本公开的至少一个实施例的基于增强现实的远程协作环境中的示例性交互时间线。图5描绘了视图501-504。视图501-504中的每个视图包括(本地增强现实系统110上的)显示器114和(远程增强现实系统120上的)显示器124的内容。例如，视图501-504在时间上按顺序出现，但其他顺序也是可以的。显示器114包括两个子显示器114a-b。显示器124包括两个子显示器124a-b。子显示器可以是虚拟的(例如，一个分屏)或物理的(例如，两个物理显示器)。

在视图501中，显示器114将子显示器114a显示为空。子显示器114b显示真实世界物体。如子显示114b中所描绘的，本地用户正在指向桌子上的圆柱体物体。本地增强现实系统110将真实世界物体的3D表示和本地用户正在指向真实世界物体的指示发送到远程增强现实系统120。

进而，如视图502中所描绘的，远程增强现实系统120的显示器124b显示突出显示的圆柱体物体和本地用户指向该物体的手。

在视图503中，远程用户看到用户的手和/或突出显示的物体并定位相关文档(例如，说明手册)。远程用户使文档显示在显示器124a中。此外，远程用户用两只手在物体上使用捏合技术。

在视图504中，远程用户演示的捏合技术显示在显示器114b上。此外，远程用户选择的文档显示在显示器114a中。

图6示出了根据本公开实施例的示例性计算机系统600。计算机系统600是上文描述的计算机系统的示例。尽管这些组件示为属于同一计算机系统600，但是计算机系统600也可以是分布式的。

计算机系统600至少包括处理器602、存储器604、存储设备606、输入/输出外围设备(input/output，I/O)608、通信外围设备610和接口总线612。接口总线612用于在计算机系统600的各种组件之间通信、发送和传输数据、控制和命令。存储器604和存储设备606包括计算机可读存储介质，例如RAM、ROM、电可擦可编程只读存储器(electrically erasableprogrammable read-only memory，EEPROM)、硬盘驱动器、CD-ROM、光存储设备、磁存储设备、电子非易失性计算机存储，例如

存储器、以及其他有形存储介质。任何这样的计算机可读存储介质都可以用于存储实施本公开实施例的指令或程序代码。存储器604和存储设备606还包括计算机可读信号介质。计算机可读信号介质包括传播的数据信号，其中包含计算机可读程序代码。这种传播的信号采用多种形式中的任何一种，包括但不限于电磁、光学、或其任何组合。计算机可读信号介质包括不是计算机可读存储介质并且可以通信、传播或传输用于与计算机系统600结合使用的程序的任何计算机可读介质。

此外，存储器604包括操作系统、程序和应用。处理器602用于执行存储的指令，并且例如包括逻辑处理单元、微处理器、数字信号处理器等。存储器604和/或处理器602可以被虚拟化并且可以托管在例如云网络或数据中心的另一计算机系统中。I/O外围设备608包括用户界面，例如键盘、屏幕(例如，触摸屏)、麦克风、扬声器、其他输入/输出设备，以及计算组件，例如图形处理单元、串行端口、并行端口、通用串行总线和其他输入/输出外围设备。I/O外围设备608通过耦合到接口总线612的任何端口连接到处理器602。通信外围设备610用于促进计算机系统600和其他计算设备之间通过通信网络的通信，并且包括例如网络接口控制器、调制解调器、无线和有线接口卡、天线和其他通信外围设备。

虽然本主题已针对其特定实施例进行了详细描述，但应理解，本领域技术人员在获得对前述内容的理解后，可以容易地产生对这样的实施例的改变、变化和等同物。因此，应理解，本公开是为了示例而非限制的目的而呈现的，并且不排除包括对于普通技术人员来说是显而易见的对本主题的这种修改、变化和/或添加。实际上，本文描述的方法和系统可以以多种其他形式实施；此外，在不背离本公开的精神的情况下，可以对本文描述的方法和系统的形式进行各种省略、替换和改变。所附权利要求及其等价物旨在覆盖落入本公开的范围和精神内的此类形式或修改。

除非另有明确说明，否则应了解，贯穿本说明书的讨论使用诸如“处理”、“计算”、“运算”、“确定”和“识别”等术语是指计算设备(例如一个或多个计算机或类似的电子计算设备)的动作或过程，计算设备在计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备中操纵或转换表示为物理电子或磁量的数据。

本文讨论的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括提供以一个或多个输入为条件的结果的任何合适的组件布置。合适的计算设备包括访问存储的软件的基于微处理器的多用途计算机系统，该软件将计算机系统从通用计算装置编程或配置为实现本公开的一个或多个实施例的专用计算装置。任何合适的编程、脚本或其他类型的语言或语言的组合可用于在用于编程或配置计算设备的软件中实施本文中包含的教导。

本文公开的方法的实施例可以在这样的计算设备的操作中执行。以上示例中呈现的框的顺序可以改变——例如，框可以被重新排序、组合和/或分解成子框。某些框或过程可以并行执行。

本文使用的条件性语言，例如“可以”、“可能”、“例如”等，除非另有明确说明，或在所使用的上下文中以其他方式理解，通常旨在传达某些示例包括而其他示例不包括某些特征、元素和/或步骤。因此，这种条件性语言通常并不意味着一个或多个示例以任何方式需要特征、元素和/或步骤，或者一个或多个示例必须包括用于在有或没有作者输入或提示的情况下决定是否包括或将在任何特定示例中执行这些特征、元素和/或步骤的逻辑。

术语“包括”、“包含”、“具有”等是同义词，并且以开放式的方式包容性地使用，并且不排除其他元素、特征、动作、操作等。此外，术语“或”以其包容性(而不是排他性)使用，从而当例如用于连接元素列表时，术语“或”表示列表中的一个、一些或全部元素。此处使用的“适用于”或“用于”是指开放和包容性的语言，不排除适用于或用于执行附加任务或步骤的设备。此外，“基于”的使用意味着开放和包容，因为“基于”一个或多个列举的条件或值的过程、步骤、计算或其他动作实际上可以基于列举的之外的附加条件或值。类似地，“至少部分基于”的使用意味着开放和包容，因为“至少部分基于”一个或多个列举的条件或值的过程、步骤、计算或其他动作在实践中可以基于列举的附加条件或值。本文包括的标题、列表和编号仅是为了便于解释，并不意味着限制。

上述各种特征和过程可以彼此独立地使用，或者可以以各种方式组合使用。所有可能的组合和子组合旨在落入本公开的范围内。此外，在一些实施方式中可以省略某些方法或过程框。本文描述的方法和过程也不限于任何特定的顺序，并且与其相关的框或状态可以以其他适当的顺序来执行。例如，所描述的框或状态可以以不同于具体公开的顺序执行，或者多个框或状态可以组合在单个框或状态中。示例框或状态可以串行、并行或以某种其他方式执行。可以将框或状态添加到公开的示例中或从公开的示例中删除。类似地，本文描述的示例系统和组件可以被配置为与所描述的不同。例如，与公开的示例相比，可以添加、移除、或重新排列元素。

Claims

1.一种增强型远程协作的方法，包括：

从第一设备的摄像头接收场景的图像流；

从所述图像流构建所述场景的三维表示，并将所述场景中的物体转换为虚拟物体；

在所述第一设备的第一显示器上渲染所述三维表示；

向第二设备发送所述三维表示；

在所述第二设备的第二显示器上渲染所述三维表示和所述虚拟物体；

在所述第二设备上接收对所述三维表示中的所述虚拟物体的注释；以及

在所述第一显示器上用所述注释更新所述虚拟物体。

2.根据权利要求1所述的方法，还包括：

向所述第二设备发送所述图像流；以及

在所述第二显示器上可视化所述图像流。

3.根据权利要求1所述的方法，还包括从所述第一设备向所述第二设备发送认证请求，其中，接收所述图像流发生在所述第二设备接受所述认证请求之后。

4.根据权利要求1所述的方法，还包括：

从所述第二设备上的用户输入设备接收用户输入手势；

识别对应于所述用户输入手势的动作；以及

对所述虚拟物体执行所述动作。

5.根据权利要求1所述的方法，还包括：

识别与所述虚拟物体相关联的语义标签；

向所述第二设备发送所述语义标签；以及

在所述第二显示器上渲染所述语义标签。

6.根据权利要求1所述的方法，其中，所述注释包括音频，并且所述方法还包括在所述第一设备上播放所述音频。

7.根据权利要求1所述的方法，还包括：

在所述第一设备上接收对所述三维表示中的所述虚拟物体的注释；以及

向所述第二设备发送所述注释。

8.一种增强现实系统，包括：

一个或多个处理器；

第一设备，包括摄像头和第一显示器；

第二设备，包括第二显示器；以及

一个或多个存储器，存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，将所述处理器配置为：

从所述摄像头接收场景的图像流；

在所述第一显示器上渲染所述三维表示；

在所述第二显示器上渲染所述三维表示和所述虚拟物体；

在所述第一显示器上用所述注释更新所述虚拟物体。

9.根据权利要求8所述的增强现实系统，其中，所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为：

向所述第二设备发送所述图像流；以及

在所述第二显示器上可视化所述图像流。

10.根据权利要求8所述的增强现实系统，其中，所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为从所述第一设备向所述第二设备发送认证请求，其中，接收所述图像流发生在接受认证请求之后。

11.根据权利要求8所述的增强现实系统，其中，所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为：

从所述第一设备上的用户输入设备接收用户输入手势；

识别对应于所述用户输入手势的动作；以及

对所述虚拟物体执行所述动作。

12.根据权利要求8所述的增强现实系统，其中，所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为：

在所述第二设备识别与所述虚拟物体相关联的语义标签；

向所述第一设备发送所述语义标签；以及

在所述第一显示器上渲染所述语义标签。

13.根据权利要求8所述的增强现实系统，其中，所述注释包括音频，并且所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为播放所述音频。

14.根据权利要求8所述的增强现实系统，其中，所述一个或多个存储器存储计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，还将所述处理器配置为：

向所述第二设备发送所述注释。

15.一个或多个非暂时性计算机存储介质，存储指令，所述指令在计算机系统上执行时，使所述计算机系统执行操作，所述操作包括：

从第一设备的摄像头接收场景的图像流；

在所述第一设备的第一显示器上渲染所述三维表示；

向第二设备发送所述三维表示；

在所述第一显示器上用所述注释更新所述虚拟物体。

16.根据权利要求15所述的非暂时性计算机存储介质，其中，所述操作还包括：

从所述第二设备上的用户输入设备接收用户输入手势；

识别对应于所述用户输入手势的动作；以及

对所述虚拟物体执行所述动作。

17.根据权利要求15所述的非暂时性计算机存储介质，其中，所述操作还包括：

识别与所述虚拟物体相关联的语义标签；

向所述第二设备发送所述语义标签；以及

在所述第二显示器上渲染所述语义标签。

18.一种增强型远程协作的方法，包括：

从第一设备的摄像头接收场景的图像流；

在所述第一设备的第一显示器上渲染所述三维表示；

向第二设备发送所述三维表示，其中，发送的所述三维表示用于所述第二设备在所述第二设备的第二显示器上渲染所述三维表示和所述虚拟物体；

在所述第一显示器上用对所述三维表示中的所述虚拟物体的注释更新所述虚拟物体，其中，对所述三维表示中的所述虚拟物体的所述注释在所述第二设备上被接收到。

19.根据权利要求18所述的方法，还包括：

识别与所述虚拟物体相关联的语义标签；

向所述第二设备发送所述语义标签；以及

在所述第二显示器上渲染所述语义标签。

20.根据权利要求18所述的方法，还包括：

向所述第二设备发送所述注释。