CN107924575A

CN107924575A - 视频序列的异步3d注释

Info

Publication number: CN107924575A
Application number: CN201680048023.7A
Authority: CN
Inventors: H·Y-T·陈; B·V·泰勒; M·R·斯威夫特; A·S·李; R·S·梅内泽斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-08-20
Filing date: 2016-08-19
Publication date: 2018-04-17
Also published as: WO2017031385A1; US20170053455A1

Abstract

通信架构内的用户设备，所述用户设备包括异步会话查看器，所述异步会话查看器被配置为：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与相机姿态数据相关联的表面重建数据；选择视野位置；并通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

Description

视频序列的异步3D注释

背景技术

通信系统允许诸如个人计算机之类的设备的用户在计算机网络上进行通信。例如使用诸如因特网协议(IP)的分组协议，基于分组的通信系统可以用于各种类型的通信事件。可以建立的通信事件包括语音通话、视频通话、即时消息传递、语音邮件、文件传输等等。这些系统对用户是有益的，因为它们通常比固定线路或移动网络的成本低得多。长途通信尤其如此。要使用基于分组的系统，用户将在其设备上安装并执行客户端软件。客户端软件提供基于分组的连接以及诸如注册和认证等其他功能。

通信系统允许设备的用户通过诸如因特网的计算机网络进行通信。可以建立的通信事件包括语音通话、视频通话、即时消传递、语音邮件、文件传输等等。利用视频通话，呼叫者可以查看视频图像。

然而，在一些情况下，通信可以被存储而不是(接近)实时地传输，并且在稍后的时间被最终用户接收。

发明内容

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的概念的选择。本发明内容部分不旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。所要求保护的主题也不限于解决背景技术部分中提到的任何或全部缺点的实现方式。

本公开的实施例涉及诸如在协作混合现实应用程序中生成的共享场景内的对象的管理和同步。在协作混合现实应用程序中，参与者可以在共享场景中对对象进行可视化，放置并且与对象进行交互。共享场景通常是参与者之一的周围空间的表示，例如场景可以包括来自参与者之一的视点的视频图像。对象或虚拟对象可以被“放置”在场景中，并且可以具有可以被参与者“看见”并与之交互的视觉表示。此外，对象可以具有关联的内容。例如，对象可以具有诸如音频/视频或文本的关联的内容。例如，参与者可以将视频播放器对象放置在共享场景中，并且与其交互以开始播放供所有参与者观看的视频。然后另一个参与者可以与视频播放器对象交互以控制回放或改变其在场景中的位置。

发明人已经认识到，为了保持这些对象在该方案内的同步，表面重创建数据(也被称为网格数据)的高效传送可能是重要的。

根据本公开的第一方面，提供了一种通信架构内的用户设备，所述用户设备包括异步会话查看器，所述异步会话查看器被配置为：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿势数据以及与所述相机姿势数据相关联的表面重建数据；选择视野位置；并通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

根据本公开的另一方面，提供了一种在通信架构内实现的方法，所述方法包括：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与相机姿态数据相关联的表面重建数据；选择视野位置；以及通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

根据本公开的另一方面，提供了一种计算机程序产品，所述计算机程序产品被实施在非暂时计算机可读介质上，并且被配置为当在通信架构内的协议端点实体的处理器上执行时用于：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与所述相机姿态数据相关联的表面重建数据；选择视野位置；并通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

附图说明

为了更好地理解本公开内容并示出如何实施本公开内容，现在将通过举例的方式参考以下附图，其中：

图1示出了通信系统的示意图；

图2示出了用户设备的示意图；

图3示出了作为可佩戴式耳机的用户设备的示意图；

图4示出了适合于实现异步会话的示例用户设备的示意图；

图5示出了异步会话生成实现和异步会话复查实现示例的示意图；

图6示出了如图5所示的用于添加、编辑和删除注释对象的示例异步会话复查植入用户接口的示意图；

图7示出了根据一些实施例的生成异步会话数据的过程的流程图；

图8示出了根据一些实施例的复查异步会话数据以生成或修改注释对象的过程的流程图；

图9示出了根据一些实施例的用于在异步会话复查过程内导航异步会话数据以生成、修改或删除如图8中所示的注释对象的过程的流程图；

图10示出了根据一些实施例的复查异步会话数据以呈现注释对象的过程的流程图；

图11示出了根据一些实施例的复查异步会话数据以选择性地呈现注释对象的过程的流程图；以及

图12示出根据一些实施例的复查异步会话数据以将用户引导到注释对象的过程的流程图。

具体实施方式

仅以示例的方式描述本公开的实施例。

图1示出适合于实现异步会话的通信系统100。所示出的通信系统100包括与用户终端或设备102相关联的第一用户104(用户A)，与第二用户终端或设备108相关联的第二用户110(用户B)以及与第三用户终端或设备116相关联的第三用户120(用户C)。用户设备102、108和116可以经由同步设备130在通信系统100中的通信网络106上进行通信，从而允许用户104、110和120在通信网络106上彼此异步通信。通信网络106可以是能够在用户设备102、第二用户设备108和第三用户设备116之间提供通信信道的任何合适的网络。例如，通信网络106可以是互联网或其他类型的网络，诸如高数据速率蜂窝或移动网络，诸如第三代(“3G”)移动网络。

注意，在替代实施例中，用户设备可以经由图1中未示出的附加中间网络连接到通信网络106。例如，如果用户设备102是移动设备，则其可以通过例如GSM，UMTS，4G或类似的网络的蜂窝或移动网络(图1中未示出)连接到通信网络106。

用户设备102、108和116可以是任何合适的设备，并且可以例如是移动电话，个人数字助理(“PDA”)，个人计算机(“PC”)(包括，例如，Windows^TM，Mac OS^TM和Linux^TM PC)，平板电脑，游戏设备，可穿戴设备或能够连接到通信网络106的其他嵌入式设备。可穿戴设备可以包括可佩戴式耳机。

应该理解的是，一个或多个用户设备可以由单个设备提供。一个或多个用户设备可以由协作提供用户设备或终端的两个或更多个设备提供。

用户设备102被配置为从用户A 104接收信息并将信息输出到用户A 104。

用户设备102执行由与通信系统100相关联的软件提供商提供的通信客户端应用112。通信客户端应用112是在用户设备102中的本地处理器上执行的软件程序。通信客户端应用112执行在用户设备102处所需的处理，以便用户设备102通过通信系统100发送和接收数据。在用户设备102处执行的通信客户端应用112可以通过数字证书的呈现而被认证为通过通信系统进行通信(例如，以证明用户104是通信系统的真实用户，这在WO2005/009019中更详细地描述)。

第二用户设备108和第三用户设备116可以与用户设备102相同或不同。

第二用户设备108在本地处理器上执行与在用户终端102处执行的通信客户端应用112对应的通信客户端应用114。以与用户设备102处的通信客户端应用112执行允许用户A 104通过网络106进行通信所需的处理相同的方式，第二用户设备108处的通信客户端应用114执行允许用户B 110通过网络106进行通信所需的处理。

第三用户设备116在本地处理器上执行与在用户终端102处执行的通信客户端应用112对应的通信客户端应用118。以与用户设备102处的通信客户端应用112执行允许用户A 104通过网络106进行通信所需的处理相同的方式，第三用户设备116处的通信客户端应用118执行允许用户C 110通过网络106进行通信所需的处理。

用户设备102、108和116是通信系统中的端点。

为了清楚起见，图1仅示出三个用户(104、110和120)和三个用户设备(102、108和116)，但是更多的用户和用户设备可以被包括在通信系统100中，并且可以通过该通信系统100使用在各个用户设备上执行的各个通信客户端进行通信，如本领域中已知的那样。

此外，图1示出了允许用户104、110和120通过通信网络106彼此异步通信的同步设备130。

同步设备130可以是任何合适的设备。例如，同步设备130可以是服务器，分布式服务器系统，或者在一些实施例中是用户设备之一。同步设备130可以被配置为接收、存储和发送诸如在此描述的异步会话数据。异步会话数据可以例如从用户设备中的一个接收。然后可以在稍后将异步会话数据发送给用户设备之一以进行复查。异步会话数据然后可以被用户设备修改，该用户设备被配置为生成，修改或删除注释对象数据。修改的异步会话数据可以被存储在同步设备130上，并且在稍后的时间被传回给生成用户设备或另外的用户设备以允许注释对象以适当的方式被呈现。

在一些实施例中，同步设备130可以被配置为在用户设备协作编辑异步会话的过程中(接近)实时地启用同步。例如，同步设备130可以被配置为从用户设备接收注释对象编辑(其中注释对象被生成，修改或删除)。这些接收到的注释对象编辑随后可以被记录或确认，然后被传递给任何另外的用户设备以与协同异步会话合并。

此外，在一些实施例中，同步设备130可以被配置为使得能够合并异步会话的并行或同时编辑。例如，两个用户设备可以分别检查和编辑异步会话。例如，当用户设备关闭他们的审阅和编辑会话时，编辑可以被传递到同步设备130，并且同步设备130然后可以合并编辑。例如，同步设备130可以确定是否存在任何冲突的编辑，并且在存在任何冲突的编辑的情况下确定哪个编辑是主导的。合并的编辑的注释对象数据然后可以被存储并被发送到请求异步会话数据的下一个用户设备。

同步设备130可以例如执行由与通信系统100相关联的软件提供商提供的通信客户端应用134。通信客户端应用134是在同步设备130中的本地处理器上执行的软件程序。通信客户端应用134执行在同步设备130处所需的处理，以便同步设备130通过通信系统100发送和接收数据。在同步设备130处执行的通信客户端应用134可通过数字证书的呈现而被认证为通过通信系统进行通信。

同步设备130可以被进一步配置为包括存储应用132。存储应用132可以被配置为存储如本文所描述的任何接收到的异步会话数据，并且使得存储的异步会话数据能够在被请求时被用户设备取回。

图2示出了其上执行通信客户端应用以在通信系统100上进行通信的用户设备102的示意图。用户设备102包括中央处理单元(“CPU”)202，连接到其的是诸如屏幕或触摸屏的显示器204，诸如用户接口206(例如小键盘)的输入设备，相机208和触摸屏204。

在一些实施例中，用户接口206可以是小键盘、键盘、鼠标、定点设备、触摸板或类似物。然而，用户接口206可以是任何合适的用户接口输入设备，例如手势或运动控制用户输入、头部追踪或眼睛追踪用户输入。此外，在一些实施例中，用户接口206可以是被配置为确定用户与显示器204的接近度的“触摸”或“接近度”检测输入。

在下面描述的实施例中，相机208可以是集成到用户设备102中或者经由有线或无线连接耦合到用户设备的传统网络摄像机。可替代地，相机208可以是深度感知相机，例如飞行时间或结构化光相机。而且，相机208可以包括多个图像捕获元件。图像捕获元件可以位于不同的位置或者以不同的点或视图指向，使得来自每个图像捕获元件的图像可以被处理或组合。例如，可以比较图像捕获元件图像，以便基于视差误差来确定距离图像的深度或对象距离。此外，在一些示例中，图像可以被组合以产生比单个图像捕获元件图像可能具有更高的分辨率或更大的视角的图像。

输出音频设备210(例如一个扬声器，多个扬声器，头戴受话器，听筒)和输入音频设备212(例如一个麦克风或多个麦克风)连接到CPU 202。显示器204、用户接口206、相机208、输出音频设备210和输入音频设备212可以被集成到用户设备102中，如图2所示。在替代的用户设备中，显示器204、用户接口206、相机208、输出音频设备210和输入音频设备212中的一个或多个可以不被集成到用户设备102中，并且可以经由相应的接口连接到CPU202。这种接口的一个示例是USB接口。

CPU 202连接到诸如调制解调器之类的网络接口224以与通信网络106进行通信。网络接口224可以被集成到用户设备102中，如图2所示。在替代的用户设备中，网络接口224未被集成到用户设备102中。用户设备102还包括用于存储数据的存储器226，如本领域中已知的。存储器226可以是永久性存储器，例如ROM。存储器226也可以是临时存储器，例如RAM。

用户设备102与通信客户端应用112一起安装，其中通信客户端应用112被存储在存储器226中并被安排在CPU 202上执行。图2还示出了在CPU 202上执行的操作系统(“OS”)214。在OS 214之上运行的是用于上面提到的通信客户端应用112的软件栈216。软件栈显示I/O层218、客户端引擎层220和客户端用户接口层(“UI”)222。每个层负责特定的功能。因为每层通常与另外两层通信，所以它们被认为是按照图2所示的堆叠排列的。操作系统214管理计算机的硬件资源，并处理通过网络接口224发送到通信网络106和从通信网络106发送的数据。I/O层218包括音频和/或视频编解码器，其接收传入的编码流并对它们进行解码以适当地输出到扬声器210和/或显示器204，并且从麦克风212和/或相机208接收未编码的音频和/或视频数据，并对它们进行编码以作为流发送到通信系统100的其他终端用户设备。客户端引擎层220处理如上所述的系统的连接管理功能。这可以包括用于通过基于服务器或对等(P2P)地址查找和认证建立呼叫或其他连接的操作。客户端引擎也可以负责这里没有讨论的其他辅助功能。客户端引擎220还与客户端用户接口层222进行通信。客户端引擎220可以被布置为控制客户端用户接口层222以经由被显示在显示器204上的通信客户端应用112的用户接口向用户设备102的用户呈现信息其并且经由用户接口从用户设备102的用户接收信息。

也在OS 214之上运行的是另外的应用230。下面参照另外的应用程序230和通信客户端应用112是分开的应用来描述实施例，然而下面更详细描述的另外的应用程序230的功能可以被合并到通信客户端应用112中。

在图3所示的一个实施例中，用户设备102采用耳机或头戴式用户设备的形式。头戴式用户设备包括框架302，该框架302具有旨在装配在佩戴者的鼻梁上的中央部分304以及旨在装配在使用者的耳朵上的左侧和右侧支撑延伸部306，308。尽管支撑延伸部306，308显示为基本笔直，但是它们可以以弯曲部分终止，以常规眼镜的方式更舒适地装配于耳朵上。

框架302支撑标记为310L和310R的左和右光学组件，其可以是例如由玻璃或聚合物形成的波导。

中央部分304可以容纳诸如图2中所描述的CPU 303、存储器328和网络接口324。此外，框架302可以容纳微型显示器形式的光引擎和凸透镜形式的成像光学器件和准直透镜。在一些实施例中，光引擎可以包括另外的处理器或者使用CPU 303来为微型显示器生成图像。微型显示器可以是任何类型的图像光源，例如液晶显示器(LCD)，背光LCD，LED矩阵阵列(无论是有机的还是无机的)以及任何其他合适的显示器。显示器可以由激活显示器的各个像素以产生图像的电路来驱动。来自每个显示器的基本上准直的光通过设置在每个组件上的相应耦入区312L，312R输出或耦合到每个光学组件310L，310R中。然后，耦入的光可以在相应的中间(折叠)区314L，314R中通过涉及衍射和TIR的横向于光学组件的机构来引导，并且还向下引导到相应的出射区316L，316R中，在出射区中耦入的光朝向用户的眼睛出射。

光学组件310可以是基本透明的，使得用户不仅可以观看来自光引擎的图像，还可以通过光学组件观看真实世界的视图。

光学组件可以具有这样的折射率n，即使得发生全内反射以将来自光引擎的光束沿着中间展开区域314引导并向下朝向出射区316。

头戴式耳机或头戴式设备形式的用户设备102还可以包括至少一个相机，该至少一个相机被配置为捕获佩戴头戴式耳机的用户的视野。例如，图3中所示的头戴式耳机包括立体相机318L和318R，立体相机318L和318R被配置为分别从用户的左眼和右眼捕获近似视图(或视野)。在一些实施例中，一个相机可以被配置为捕获合适的视频图像，另一个相机或范围感测传感器被配置为捕获或确定从用户到用户环境中的对象的距离。

类似地，头戴式耳机形式的用户设备102可以包括安装在头戴式耳机的框架306上的多个麦克风。图3所示的例子示出了分别位于支撑延伸部或臂306和308的“前”端的左麦克风322L和右麦克风322R。支撑延伸部或臂306和308还可以包括“左”和“右”通道扬声器、听筒或其他音频输出换能器。例如，图3所示的头戴式耳机包括一对用作左右声道输出扬声器的骨传导音频换能器320L和320R。

这里关于用于混合现实(MR)应用的异步会话来描述这些概念，但是在其他实施例中，相同的概念可以应用于任何多方通信应用。异步会话混合现实应用程序可以例如涉及共享可以在第一时间被记录并且在稍后被查看和编辑的场景。例如，包括相机的设备可以被配置为捕获图像或视频。通过生成包括图像数据、表面重建(3D网格)数据、音频数据和注释对象数据层的适当数据格式，图像可以被传递到其他设备。

例如，异步会话数据可以被传递到同步设备130，在那里它被存储并且可以在稍后的时间被转发到第二和第三用户设备，诸如在用户设备102离线或者关掉之后。

第二和第三用户设备可以被配置为通过添加、修改或删除注释对象来扩充或修改异步会话数据内的图像或视频数据。这些注释对象(或虚拟对象)可以被‘放置’在图像场景中，并且可以具有可以被其他参与者(包括场景生成器)“看到”并且与之交互的视觉表示。这些注释对象不仅可以由位置来定义，而且还可以包括其他属性，如对象类型、对象作者/编辑者、对象日期和对象状态。注释对象例如可以具有诸如音频/视频/文本内容的关联内容。例如，参与者可以将视频播放器对象放置在场景中。这个注释对象属性可以被进一步传递给同步设备130，使得另一个参与者可以随后查看该对象并与之交互。例如，另一个参与者可以与视频播放器对象交互以开始播放观看的视频。然后相同或其他参与者可以进一步与视频播放器对象交互以控制回放或改变其在场景中的位置。

可以相对于场景进行注释对象的放置，并且还可以关于场景的三维表示进行注释对象的放置。为了能够准确地放置要在远程设备上表示或呈现的注释对象，与场景相关联的表面重建(SR)或者网格数据可以被传递给用户设备不能够生成或确定表面重建(SR)本身的异步会话的参与者。

关于图4，示出了用于实现异步通信会话的合适的功能架构的示意图。在图4所示的示例中，用户设备102被配置为可穿戴场景生成器或所有者。

用户设备102因此可以包括相机208，例如RGB(红-绿-蓝)RGB传感器/相机。RGB传感器/相机可以配置为传递捕获的RGB原始数据，并且还将任何相机姿态/投影矩阵信息传递给合适的异步会话数据生成器404。

此外，用户设备102可以包括深度传感器/相机402，深度传感器/相机402被配置为捕获可以被传递到异步会话数据生成器404的深度信息。

异步会话数据生成器404可以被配置为接收深度信息并且根据已知的网格/SR方法生成表面重建(SR)原始数据。

异步会话数据生成器404可以被配置为处理SR原始数据和RGB原始数据以及任何相机姿态/投影矩阵信息。例如，异步会话数据生成器404可以被配置为对视频原始数据和SR原始数据(以及相机姿态/投影矩阵数据)进行编码。

在一些实施例中，异步会话数据生成器404可以被配置为实现合适的视频编码，诸如视频数据的H.264信道编码。应该理解，在一些其他实施例中，所使用的视频编解码器是任何合适的编解码器。例如，编码器和解码器可以使用高效率视频编码HEVC实现。

视频数据的编码还可以包括相机姿态或投影矩阵信息。因此，异步会话数据生成器404可以被配置为接收原始图像/视频帧和相机姿态/投影矩阵数据，并处理这些数据以生成编码帧和包括相机姿态信息的SEI(补充增强信息)消息数据。

相机内在(相机本身一体化)和外在(相机位于其中的3D环境的一部分)数据或信息，例如相机姿态(外在的)和投影矩阵(内在的)数据，描述了相机捕获属性。诸如帧时间戳和帧朝向等的该信息应该与视频帧同步，因为它可能会逐帧变化。

异步会话数据生成器404可以被配置为使用任何合适的音频编解码器对捕获的音频数据进行编码。

异步会话数据生成器404还可以被配置为对SR原始数据进行编码以生成合适的编码SR数据。SR数据还可以与相机姿态或投影矩阵数据相关联。

此外，异步会话数据生成器404可以进一步初始化到至少一个注释对象的链接(或者启用至少一个注释对象的存储)。因此，在一些实施例中，注释对象可以以使得注释对象能够链接到SR数据或与SR数据相关联的方式来编码，以便将注释“绑定”到场景内的SR对象。

架构应该以平台不可知的方式携带数据。例如，针对发送者流水线描述了应用程序接口(API)调用序列。

例如，RGB相机可以被配置为生成RGB帧数据。RGB帧数据然后可以被传递到OS/平台层和媒体捕获(和源读取器)实体。媒体捕获实体还可以被配置为接收相机姿态和投影矩阵，并将这些相机内在和外在值附加为定制属性。媒体样本和自定义属性然后可以被传递给视频编码器。视频编码器可以例如是H.264信道编码器。视频编码器然后可以将相机姿态和投影矩阵带内和注释对象层嵌入为用户数据未注册的SEI消息。

SEI消息可以例如在SEI附加实体中与从H.264编码器输出的视频帧数据组合。下面定义了一个示例SEI消息：

其中

F(1比特)是forbidden_zero_bit，例如在[RFC6184]第1.3节中指定的，

NRI(2比特)是nal_ref_idc，诸如在[RFC6184]的第1.3节中指定的，

Type(5比特)是nal_unit_type，例如在[RFC6184]第1.3节中规定的，在一些实施例中其被设定为6.，

payloadType(1字节)是SEI有效载荷类型，并且在一些实施例中被设置为5以指示用户数据未注册的SEI消息。该协议使用的语法如在[ISO/IEC14496-10:2010]第7.3.2.3.1节中所定义。

payloadSize(1字节)是SEI有效载荷大小。这个协议对这个字段使用的语法与[ISO/IEC14496-10:2010]第7.3.2.3.1节中定义的相同。payloadSize值是不包括F，NRI，Type，payloadType和payloadSize字段的流布局SEI消息的大小。

uuid_iso_iec_11578(16字节)是用于指示SEI消息是流布局的通用唯一标识符(UUID)并且在一些实施例中被设置为{0F5DD509-CF7E-4AC4-9E9A-406B68973C42}，

T(1字节)是类型字节，并且在一些实施例中，值1被用于标识相机姿态信息，值2被用于标识相机投影矩阵信息，

L(1字节)是后续值字段的字节长度减1，并具有0-254的有效值范围，指示1-255字节。

V(N字节)是值，并且该值的长度被指定为L字段的值。

异步会话数据生成器404经由适当的输出将视频、SR、音频和注释对象数据输出到同步设备130，在同步设备130中，数据可以并且存储并且在稍后由另一用户设备(或相同的用户设备)回索。

在图5和6中示出了示例异步会话生成实现和异步会话复查实现。用户设备102记录包括门513，515，桌子509和橱柜505的房间500的场景。由用户A操作的用户设备102可以例如在通过第一门513进入房间500时开始记录场景，并且沿着路径503直到经由第二门515离开房间500为止。在如图5所示的特定情况下，用户设备相机视图507是桌子509、窗户511和桌子509后面的墙壁中的一个。

关于图7，关于一些实施例示出了生成异步会话数据的方法的流程图。

在这样的例子中，相机图像帧被捕获并被编码。

图7中通过步骤701示出了确定图像帧的操作。

此外，还确定表面重建(SR)或网格或3D模型信息。

在图7中通过步骤703示出确定SR或网格数据的操作。

然后可以将图像和网格数据进行组合以生成异步会话数据。异步会话数据还可以包括音频数据以及还包括注释对象数据。在一些实施例中，注释对象数据包括空字段或占位符，该空字段或占位符指示在创建注释时可以存储注释对象数据的位置，或者另外指示注释对象数据可以在其上传输和/或在用户之间同步的数据信道的标识符，如本文所述。

图7中通过步骤705示出了生成包括图像数据、SR(网格)数据和注释对象数据的异步会话数据的操作。

然后可以将异步会话数据存储在例如同步设备130内。

图7中通过步骤707示出了存储包括图像数据、SR(网格)数据和注释对象数据的异步会话数据的操作。

同步设备130因此可以被配置为接收异步会话数据对象并存储异步会话数据。

此外，在一些实施例中，同步设备130可以包括同步应用134，其被配置为维护异步会话数据。会话数据的维护，特别是注释对象数据的维护可以以这样的方式执行，即当多于一个的用户同时查看或编辑异步会话数据时所经历的场景是一致的。

这可以例如被表达为同步应用134被配置为实现用户设备的协作之间的会话数据的同步。

例如，在一些实施例中，同步设备130可以被配置为从用户设备102，108和116接收标识与异步会话相关联的任何新的或添加的、修改的或删除的注释对象的信息。此外，同步应用134可以确定尝试对注释对象进行改变的用户设备102，108，116是否具有关联的许可来进行改变并且同步异步会话数据内的改变。

关于图4中所示的示例，示出了第二用户设备108和第三用户设备116查看和编辑数据对象。

在第一示例中，第二用户设备108被配置为从同步设备130取回所存储的异步会话数据。第二用户设备108包括异步会话查看器或编辑器422，该异步会话查看器或编辑器422被配置为取回、解析和解码异步会话数据，使得视频分量可以被传递到合适的显示器420。此外，异步会话查看器或编辑器422可以被配置为解析异步会话数据以提取并显示与当前以适当形式显示的视频图像相关联的任何注释对象。尽管这里给出的示例示出正在显示的视频图像，但是应该理解的是，在一些实施例中，注释对象可以包括音频分量，并且尽管相对于图像被定位，并且SR数据可以经由音频输出呈现给用户，例如通过空间音频信号处理注释对象音频信号。

例如，编码的SR数据可以被传递到SR信道解码器以生成SR原始数据。

编码的H.264视频数据可以进一步被解码以输出合适的原始帧和相机姿态/投影矩阵数据。然后可以将SR原始数据和原始帧以及相机姿态/投影信息传递给视频宿。

然后，视频宿可以被配置为将接收到的SR原始数据以及原始帧和相机姿态/投影数据输出到任何合适的远程视频应用或库以进行合适的3D场景渲染(在3D场景渲染器处)和视频服务渲染(在视频表面渲染器处)。

视频解码器可以实现为H.264信道解码器，其可以包括SEI提取器，该SEI提取器被配置为从H.264帧数据中检测并提取与相机内在和外在数据值相关联的任何接收到的SEI数据(相机姿态和/或投影矩阵数据)。这可以通过解码器扫描并从每帧附加的SEI消息中提取相机内在和外在数据以及注释对象数据(如果存在)在视频解码器内实现。然后可以通过解码器选项使数据可用于解码器扩展和解码器回调。

视频解码器(例如H.264解码器)然后可以解码不包含SEI消息的编码的H.264数据。

解码器还可以包括渲染器，该渲染器被配置为同步内在和外在数据，注释对象数据和帧数据，并将其传递给OS/平台层。

OS/平台层还可以包括3D渲染引擎，该3D渲染引擎被配置为将视频帧图像以及内在和外在数据、注释对象数据和SR数据转换以生成适合于传递到显示器或者屏幕的合适的3D渲染。可以理解的是，在一些实施例中，3D渲染引擎可以被实现为应用程序。

如本文所述，异步会话场景复查或编辑的一个方面是注释捕获的场景的能力。例如，由场景中的一个参与者捕获的视频可以通过添加注释对象来注释。注释对象可以位于场景中并具有定义的位置和/或方位的。此外，这里描述的注释对象可以与诸如视频、图像、音频或文本的媒体类型相关联。注释对象在某些情况下可以是交互式对象，因为注释对象可以是可移动的或改变的。

例如，注释对象可以与视频文件相关联，并且当对象被参与者“触摸”或选择时，视频被播放给观看场景的参与者。

在场景内添加、移除和修改对象可能是有问题的。然而，根据本文进一步详细描述的用于对象信息的示例架构和协议，可以处理这些问题。

因此在一些实施例中异步会话编辑器或查看器422可以进一步包括异步会话导航器。异步会话导航器可以被配置为“导航”取回的异步会话数据，以便使用户能够查看(和编辑)异步会话。

在这样的实施例中，第二用户设备108包括合适的用户接口输入424，例如小键盘或触摸屏输入，可以从其访问异步会话数据内的存储场景内的位置。

图5中的示例示出了第二用户设备108在何处接收并显示异步会话数据。这例如在图6所示的示例性用户接口显示中示出。在图6所示的示例中，异步会话导航器用户接口由擦除器或滑块601提供，用户可以通过在擦除器601的长度上移动索引603而擦除器或滑块601进行选择在以沿着记录的路径导航，以便查看和识别用户B希望在其上附着、修改或移除注释对象或与注释对象交互的SR对象。

尽管图6所示的示例示出了随着捕获的场景相机视图随时间改变而提供捕获的场景异步会话的位置导航的擦除器或滑块，但是应当理解，异步会话导航器可以根据任何合适的方法导航场景。例如，在一些实施例中，首先分析所捕获的异步会话场景数据，并确定相机位置的范围，使对象导航器能够直接按查看位置进行搜索。

因此，在图6中，索引沿着擦除器或滑块移动，使得呈现给用户的图像如图5所示。

此外，在一些实施例中，异步会话编辑器或查看器422可以允许用户设备通过在异步会话数据内添加、修改或删除注释对象来编辑异步会话数据。在一些实施例中，异步会话编辑器或查看器422可以允许在用户设备具有合适的许可级别的情况下编辑异步会话数据。

换句话说，异步会话编辑器或查看器422可以允许用户通过向记录的图像(和SR数据)添加、移除或编辑注释来编辑存储的场景。

在一些实施例中，异步会话编辑器或查看器422可以将编辑的注释对象信息传递或发送到同步设备130，同步设备130确定用户设备是否具有所要求的许可级别并且包括由用户设备异步会话编辑器或查看器422进行的任何编辑，使得编辑可以被任何其他用户设备查看。

因此，在图6中，用户B能够将诸如第一注解对象611(文本对象)的注释对象添加到表格509中，将第二注释对象615(视频对象)也添加到表格509中，并且将第三注解对象613(窗口的图像对象)添加到表格509后面的墙壁中。这些注释可以作为注释对象层被添加到异步会话数据中，并且这些编辑被传回到同步设备130以被存储。

图8中示出了根据用户设备内的一些实施例编辑数据对象的过程的概要。

在一些实施例中，用户设备108接收包括视频数据、SR(或网格)数据以及还有注释对象(或编辑层)数据的异步会话数据。

图8中通过步骤801示出了例如从同步设备130接收异步会话数据的操作。

此外，用户设备可以被配置为生成与异步会话数据(以及表面重建数据)相关联并且关于捕获事件的相机位置的注释对象。

在图8中由步骤803示出生成注释对象的操作。

用户设备还可以被配置为输出生成的注释对象数据作为编辑数据对象。

图8中通过步骤805示出了输出注释对象作为编辑数据对象的操作。

图9还示出了在异步会话复查过程内导航异步会话数据以生成、修改或删除诸如图8所示的注释对象的过程的流程图。

因此，在接收异步会话数据的初始步骤之后，用户设备基于所渲染的视频和用户接口输入来生成视觉输出，以允许导航通过所捕获的场景。

如本文所述，在一些实施例中，导航可以是通过使用时间擦除器上的时间索引导航到位置中的一个，使得选择遵循捕获设备遵循的路径。在一些实施例中，导航操作通过位置擦除器或其他用户接口来实现，使观看者的位置和朝向能够被直接确定。例如，在一些实施例中，通过从用户接口生成位置选择来导航场景，其可以映射到异步会话数据。例如，映射可以遵循位置索引操作，其中使用相机姿态数据来生成可从中选择视点的可用相机位置的索引。

图9中通过步骤1001示出了显示导航界面的操作。

图9中通过步骤1003示出了基于导航界面确定导航输入的操作。

因此，用户设备可以基于导航输入从异步会话数据中选择图像和关联的SR(或网格)数据。在一些实施例中，用户设备可以进一步确定在相机视点内是否存在任何当前注释对象或者如稍后描述的是否存在任何当前注释对象，并且生成要显示的合适图像覆盖图。

图9中通过步骤1005示出了基于导航输入选择要显示的图像和关联的SR(或网格)数据的操作。

用户然后可以生成选择图像的一部分以生成注释对象修改、添加或删除。注释对象可以被添加，修改，交互或删除。因此，因而将包括具有诸如“锚定位置”，创建/编辑日期，对象状态等属性的注释对象的生成。可以理解的是，生成对象包括生成“删除”注释对象或“修改”注释对象的动作。

图9中通过步骤1007示出了通过编辑图像来生成注释对象的操作。

然后可以输出注释对象，例如注释对象可以被输出到同步设备130。

在图9中由步骤805示出输出注释对象的操作。

如先前所描述的捕获的场景中的这样的对象的可视化，定位和与这样的对象的交互可能存在问题。例如在另一个示例中，第三用户设备116可以被进一步配置成从同步设备130取回所存储的异步会话数据。第三用户设备116可以包括异步会话编辑器或查看器432，其被配置为取回、解析和解码异步会话数据，使得视频分量可以被传递给合适的显示器430。此外，异步会话编辑器或查看器432可以被配置以解析异步会话数据以提取并显示当前与以适当形式显示的视频图像相关联的任何注释对象。在一些实施例中，第二和第三用户设备可以运行非并发会话(换句话说，其中一个设备在其他设备开始查看和编辑相同场景之前完成查看和编辑所捕获的异步会话场景)。在这样的实施例中，同步设备可以被配置为存储注释对象，使得稍后的观看者能够取回由较早的观看者生成(添加，修改或删除)的注释对象。

此外，在一些实施例中，第二和第三用户设备可以分别复查和编辑异步会话，但同时进行。在这样的实施例中，同步设备130可以被配置为使得能够合并对异步会话的并行或同时编辑。编辑可以被传递到同步设备130，同步设备130然后可以合并编辑。例如，同步设备130可以确定是否存在任何冲突的编辑以及哪里存在任何冲突的编辑确定哪个编辑是主导的。合并的编辑的注释对象数据然后可以被存储并被发送到请求异步会话数据的下一个用户设备。

在一些实施例中，用户设备可以正在运行并发会话(换句话说，两个设备可能能够同时编辑异步会话场景)。在这样的实施例中，同步设备130可以被配置为在用户设备之间(接近)实时地实现同步。例如，同步设备130可以被配置为从用户设备接收注释对象编辑(其中注释对象被生成，修改或删除)。这些接收到的注释对象编辑随后可以被记录或确认，然后被传递给任何另外的用户设备以与协同异步会话合并。

注释对象可以具有可视表示并且具有关联的内容(诸如音频/视频/文本)。例如，参与者可以将视频播放器对象置于捕获的场景中，并且使其他参与者能够与其交互以开始播放视频。另一个参与者可以尝试与同一个注释对象进行交互，以控制回放或更改对象在场景中的位置。因此，注释对象应该出现在相对于参与协同异步会话的所有参与者的视频或图像以及其他(虚拟)对象内的真实世界对象的相同位置处。

此外，对于参与协作异步会话的所有参与者，注释对象的状态也应该一致，受到可接受的延迟的影响。因此，例如，播放视频时的视频对象应该在大致相同的位置显示相同的视频。

捕获的异步会话场景或混合现实应用也应当被实现，使得随时加入协作会话的参与者能够将其异步会话场景的视图与其他参与者的视图同步。换句话说，异步会话场景对于所有参与者来说都是相同的，而不管参与者什么时候加入会话。

这里描述的架构可以用于实现被设计为高效地满足上述要求的消息协议和通信机制集合。因此，该概念可以涉及通信机制，例如‘仅最新的可靠的消息传送’和‘基于对象’的流量控制。“仅最新的消息传送”的实现可以减少发送和/或接收的对象信息业务的量，并因此高效利用处理器和网络带宽。对于移动设备和可穿戴设备来说，这是一个重要且令人满意的成就，其中最小化处理器利用率和网络带宽是常见的设计目标。类似地，基于对象的流量控制允许发送器和接收器选择性地限制用于同步给定对象的状态的业务需求。

在一些实施例中，同步设备130可以被配置为在用户设备之间以编辑的注释对象数据的形式中继消息，使得同时查看或编辑所捕获的场景的用户设备可以查看相同的场景。

用户设备因此可以采用作为协议客户端实体操作的应用(或app)。协议客户端实体可以被配置为控制用于传送和控制协议端点之间的数据流的协议端点。

在以下示例中，使用同步设备130执行注释对象消息交换。换言之，注释对象消息经由同步设备130传递，同步设备130将每个消息转发到其目的地。

应该理解，在一些实施例中，消息交换是在对等基础上执行的。由于对等消息交换情况在概念上是场景所有者端点和服务器端点共同位于相同设备上的服务器中介情况的特例，因此以下示例也可以应用于对等实施例。

这里的数据模型可以用于促进对用于同步在此描述的对象(以及因此注释)的协议的描述。在每个协议端点(诸如同步设备和用户设备)处，会话管理实体或会话管理实体应用可以维护共享场景的视图。捕获的异步会话场景的视图可以是异步会话场景内的对象(或注释)的表示。注释对象表示可以包括注释数据对象，注释数据对象包括诸如空间或场景中的对象类型、坐标和朝向的属性。然后，协议端点可以使用会话管理实体应用来使用对象表示维持一致的场景视图。以这种方式，可以对异步会话场景对象的表示的任何更新进行版本化并使用协议消息传送给其他端点。同步设备130可以中继所有这些注释对象消息，并在适用的情况下基于陈旧版本丢弃更新。

在一些实施例中，用于交换注释对象消息的协议可以被分成数据平面和控制平面。在每个协议端点，数据平面可以实现注释对象消息传送实体应用程序和分组传送实体应用程序，它们负责维护注释对象消息队列/分组队列并跟踪排队的发送和/或接收注释对象消息和分组的传送状态。在以下实施例中，未完成的出站注释对象消息是已经被发送但尚未被接收器确认的注释对象消息。未完成的入站注释对象消息是已经被接收但尚未被传送到本地端点(例如会话管理实体)的注释对象消息。

控制平面可以在同步设备130端点内实现，并且可以被配置为保持当前观看异步会话场景的参与者之间的场景的状态。例如，同步设备130可以被配置为维护每个连接的端点的协议版本和端点能力。

在以下示例中，同步设备130可以被配置为使用协议客户端实体创建端点并获得服务器端点的地址。地址确定可以通过静态配置地址或通过域名系统(DNS)查询。

协议客户端实体应用程序然后可以将自己声明为场景所有者。

然后，参与者端点可以在接收到数据对象之后使用其协议客户端应用来注册维护场景同步的兴趣。

同步设备130然后可以确定参与者是否被授权参与并且生成同步响应消息。同步响应消息然后可以被发送到用户设备。

同步设备130和用户设备可以保持合适的定时器。例如，在一些实施例中可以采用保活定时器来触发保活消息的发送。类似地，重传计时器可以被实施以仅触发可靠消息的重传。

在一些实施例中，架构包括逻辑层，其可以包括任何合适的处理对象信息的应用程序。

逻辑层可以被配置为经由(出站)发送路径和(入站)接收路径与I/O或客户端层进行通信。

I/O或客户端层可以包括资源管理器。资源管理器可以控制对象数据的处理。此外，资源管理器可以被配置为控制(出站消息)发送队列和(入站消息)接收队列。

此外，资源管理器可以被配置为将控制信号发送到OS层505和NIC驱动器。这些控制信号例如可以是可以经由控制路径发送到OS层和NIC驱动器的取消发送(CancelSend)和/或置位接收速率限制(SetReceiveRateLimit)信号。

发送队列可被配置为从资源管理器接收分组，并通过所发送的路径将分组发送到OS层。接收队列可以被配置为经由接收路径从OS层接收消息。

OS层可以接收来自发送队列的出站消息，并通过发送路径将这些出站消息传递给NIC驱动器。此外，OS层可以通过接收路径从NIC驱动器接收消息，并进一步通过接收路径将这些消息传递给接收队列。

实现会话管理实体的同步设备130可以被配置为维护或接收注释对象表示属性，并且还检测何时接收到任何注释对象交互指令。例如，用户可以移动注解对象或者与注解对象交互，从而引起注释对象的属性之一改变。会话管理实体可以被配置为处理注释对象交互指令/输入，并且生成或者输出要被传递到消息传送实体/分组传送实体的修改的注释对象属性。此外，连接状态实体应用程序可以被配置为控制消息传送实体/分组传送实体。

因此，例如，实现会话管理实体的同步设备130可以生成新的或修改的注释对象属性消息。

注释对象属性消息可以被传递给消息传送实体，并且该消息被标记或者与序列号和对象标识值相关联。对象标识值可以标识对象，序列号标识一系列修改内的位置。

消息传送实体然后可以被配置为确定所确定的传输时段是否已经结束。

当该时段还没有结束时，该方法可以返回到产生下一个修改的对象属性消息的操作。

然而，当确定了时段时，消息传送实体可以被配置为利用确定的对象标识符值来检查所有消息的时段。

消息传送实体然后可以被配置为基于序列号从该时段中的消息确定最新消息数量(或最新消息)。

消息传送实体然后可以被配置为在发送路径中删除具有该特定时间段的对象标识值的所有其他消息。

该方法然后可以返回到检查进一步的对象交互指令或输入。

在实现这样的实施例中，可以控制用于给定时段的特定对象的注释对象属性消息的消息流，使得存在至少一个消息的传输，更新给定对象的状态或位置，但是网络没有充斥着消息。此外，发送路径API可以在应用程序的所有层上可用，以丢弃针对给定对象ID在发送路径排队的多余消息。

此外，在一些实施例中，发送器可以被配置为提供关于尝试或取消的传输的反馈。

在实现如上所述的这种实施例的同步设备130可以被配置为提供或执行应用层多播，而不超过接收者的消息速率限制。

类似地，注释对象同步的接收路径实现可以指代在端点、底层操作系统和网络驱动器处具有应用的传输层实体的所有传入队列阶段。

在一些实施例中，接收诸如关于发送路径描述的注释对象属性消息。

消息传送实体还可以被配置为确定所确定的时段是否已经结束。

当时段还没有结束时，该方法可以循环以接收进一步的注释对象属性消息。

当该时段结束时，则连接状态实体应用程序可以被配置为确定一些参数估计和决策变量，在该参数估计和决策变量上可以对接收消息进行控制。

例如，在一些实施例中，连接状态实体应用可以被配置为确定每个更新过程所需要或消耗的CPU周期的数量。

在一些实施例中，连接状态实体应用程序可被配置为确定或估计当前CPU负载和/或网络带宽。

此外，在一些实施例中，连接状态实体应用程序可以被配置为确定特定注释对象的注释对象优先级。例如，注释对象优先级可以基于注释对象是否在视图中，该对象是否最近被查看过，或者该注释对象是否最近与之交互过。

然后，在一些实施例中，连接状态实体应用程序可以被配置为基于所确定的变量和容量确定中的至少一个来设置注释对象更新的“速率限制”。

消息传送实体然后可以被配置为确定该时段内对象的最后“n”个消息，其中“n”是速率限制。这可以例如通过确定在该时段内在对象ID的接收消息上的最后“n”个序列号来执行。

然后，应用程序可以在接收的路径中删除除了最后的'n'个消息之外的该时段的该对象ID的所有消息。

该方法然后可以返回到接收进一步的对象消息的操作。

以这种方式，接收器不会过载注解对象属性消息。

此外，同步设备130因此保持注释对象数据的当前和最新列表，使得当没有用户正在查看或编辑异步会话时，注释对象数据不会丢失。

因此，例如在更晚的时间，第一用户设备102可以被配置为从同步设备130取回编辑的异步会话数据。第一用户设备102可以例如包括异步会话查看器405，其被配置为取回、解析和解码异步会话数据，使得注释对象的表示可以被传递到合适的显示器204，而不需要解码或显示视频数据。

在这样的实施例中，异步会话查看器或编辑器405可被认为是第二用户设备和第三用户设备中所示的异步会话查看器或编辑器的修改版本。

为了能够在诸如用户设备102或另一可穿戴用户设备所示的可穿戴设备上查看或编辑异步会话，用户设备可以被配置为识别场景。换句话说，用户设备可以被配置为从所生成的异步会话中识别房间是相同的房间。然后，用户设备可以被配置为接收并渲染已经与该场景一起存储的注释对象。

在一些实施例中，用户设备可以被配置为仅接收注释对象数据。在这样的实施例中，可选地接收视频、相机姿态和SR数据。换句话说，不存在相机姿态或者网格数据的同步，因为可穿戴用户设备可能能够生成两者的更新版本。

例如：用户A可以携带用户设备102并扫描他的卧室。用户B进行卧室扫描，并在一面墙上用平板电脑写上“生日快乐”，生成供以后回调的注释对象。用户A稍后再次再次将用户设备102打开并进入卧室并在墙上看到“生日快乐”。在这样的示例中，为了显示该消息，稍后观看不需要知道FOV用户A在扫描房间的同时具有该知识。用户是否站在一个位置对于看到注释并不重要，由于用户正在用自己的力量环顾四周。

不需要具有先前的网格数据来确定用于显示所生成的图像覆盖图的位置。例如，如果用户A在卧室中移动了一把椅子，在再次穿戴上用户设备时捕获场景和用注解查看场景之间，他现在可能不明白为什么当他添加注释对象文本“Thanks！”时，它正在不正常地出现在一个实际上不再在那里的椅子周围。所以，使用来自最新会话的更新网格才有意义。

总之，基于相机姿势的相机视图的知识不需要在房间中显示或编辑注释。

在一些实施例中，异步会话查看器或编辑器405可以被配置为使得用户设备102的用户A能够生成修改的或新的注释对象。

在一些实施例中，异步会话查看器405(或异步会话编辑器)可以被配置为确定设备的当前位置(或当前导航或查看的相机位置)与注释对象位置之间的差异，以便生成合适的覆盖图以表示注释对象并输出图像覆盖图。因此可以基于当前的相机/用户位置和注释对象位置来生成图像覆盖图。

例如，图10示出了复查异步会话数据以呈现注释对象的过程的流程图。

用户设备(例如用户设备102)因此可以接收包括注释对象数据的异步会话数据。如本文所述，在一些实施例中，注释对象数据可以与其他数据组件分开接收。例如，数据可以作为文件接收，或者可以作为数据流或文件和流数据的组合来接收。

图10中通过步骤901示出了接收异步会话数据的操作。

用户设备然后可以被配置为确定设备的当前位置。对于可穿戴设备，设备的当前位置可以是设备在场景中的物理位置。在一些实施例中，设备的当前位置可以是设备在场景中的导航位置。

图10中通过步骤903示出了确定设备的当前位置的操作。

用户设备还可以被配置为确定至少一个注释对象的位置。注释对象的位置可以直接从注释对象数据中确定，或者可以通过参考关于SR数据和/或视频数据中的至少一个的注释对象数据来确定。

图10中通过步骤904示出了确定至少一个注释对象的位置的操作。

此外，在一些实施例中，用户设备可以被配置为基于用户设备和注释对象的当前位置来确定图像覆盖图。图像覆盖图可以例如是要通过可穿戴设备输出投影到用户的图像，使得覆盖图被显示在用户看到作为增强现实视图的形式的现实世界图像上。在一些实施例中，图像覆盖图可以是要被呈现在所捕获的图像上的图像。

图10中通过步骤905示出了基于当前位置和注释对象位置生成图像覆盖图的操作。

在图10中通过步骤907示出将图像覆盖图显示为编辑层的操作。

在一些实施例中，异步会话编辑器或异步会话查看器可以进一步被配置为能够选择性地复查注释对象的更新。这例如可以通过基于用户或用户设备标识符对注释对象版本化并且标识修订来实现。复查用户设备因此可以基于用户标识符来过滤注释对象修改，或者可以被配置为基于用户标识符来过滤覆盖图像的生成。

图11例如示出了根据一些实施例的复查异步会话数据以选择性地呈现注释对象的过程的另一示例的流程图。

用户设备(例如用户设备102)因此可以接收包括视频数据、SR数据和注释对象数据的异步会话数据。

接收异步会话数据的操作在图11中由步骤901示出。

图11中通过步骤903示出了确定设备的当前位置的操作。

用户设备然后可以被配置为选择至少一个“编辑层”。换句话说，用户设备可以被配置为选择与定义的用户或用户设备相关联并且可以在逻辑上关联在一起作为编辑层的注释对象。

图11中通过步骤1101示出了选择至少一个要显示的编辑层的操作。

然后，用户设备可以被配置为通过图11中的步骤1103识别与所选择的编辑层相关联的注释对象。

用户设备还可以被配置为确定所识别的注释对象相对于用户设备的当前位置的相对位置。

图11中通过步骤1105示出了确定所识别的注释对象相对于用户设备的当前位置的相对位置的操作。

在确定了相对位置之后，用户设备还可以在一些实施例中被配置为基于由用户设备和注释对象的当前位置所定义的相对位置来确定图像覆盖图。

图11中通过步骤905示出了基于当前位置和注释对象位置生成图像覆盖图的操作。

在图11中通过步骤907示出了将图像覆盖层显示为编辑层的操作。

在一些实施例中，异步会话编辑器或异步会话查看器可以进一步被配置为能够选择性地指示接收到的注释对象的更新，以便能够高效地监视场景内的注释对象。这例如可以通过基于设备位置和注释对象位置之间的相对距离生成图像覆盖类型来实现。此外，在一些实施例中，图像覆盖类型还可以指示注释对象是“可见的”还是“隐藏的”。

例如，图12示出了基于观看场景的用户设备和场景内的注释对象之间的“相对距离”来识别和显示其中不同的覆盖类型被显示的注释对象的方法的另一示例的流程图。

用户设备，例如用户设备102因此可以接收包括视频数据、SR数据和注释对象数据的异步会话数据。

在图12中由步骤901示出接收异步会话数据的操作。

图12中通过步骤903示出了确定设备的当前位置的操作。

用户设备还可以被配置为确定至少一个注释对象的位置。

在图12中通过步骤904示出了确定注释对象位置的操作。

用户设备还可以被配置为确定注释对象位置和用户设备的当前位置之间的相对或差异。

在图12中通过步骤1201示出确定相对/差异位置的操作。

在确定了设备和对象位置之间的相对/差异之后，用户设备还可以在一些实施例中被配置为确定该差异是否大于第一或“远”阈值。

图1203示出了确定差异是否大于“远”阈值的操作。

在差值大于远阈值的情况下，则用户设备可以被配置为基于由用户设备和注释对象的当前位置所定义的相对位置来生成“远”图像覆盖图。例如在一些实施例中，图像覆盖图可以包括指示与对象的相对取向和/或距离的标记(例如在罗盘图像覆盖图上)。

在图12中通过步骤1206示出生成“远”图像覆盖图的操作。

在已经确定设备和对象位置之间的相对/差异小于远阈值后，用户设备在一些实施例中可以进一步被配置为确定该差异是否大于第二阈值或“近”阈值。

图1205示出了确定差异是否大于“近”阈值的操作。

在差异大于近阈值的情况下，则用户设备可以被配置为基于由用户设备和注释对象的当前位置所定义的相对位置来生成“中”图像覆盖图。例如，在一些实施例中，图像覆盖图可以包括指示注释对象的位置的指引(例如，在显示器上的箭头)。

在图12中通过步骤1208示出生成“中”图像覆盖图的操作。

在差异小于近阈值的情况下，则用户设备可以被配置为基于由用户设备和注释对象的当前位置所定义的相对位置来生成“近”图像覆盖图。例如，在一些实施例中，图像覆盖图可以包括注释对象表示，该注释对象表示被突出显示(例如，通过围绕显示器上的对象的微弱辉光)来指示注释对象的位置。

在图12中由步骤1210示出生成“近”图像覆盖图的操作。

图12中通过步骤907示出了将图像覆盖层显示为编辑层的操作。

应该理解的是，除了基于从用户设备到对象的距离来显示用于注释对象的指引，图像覆盖类型可以基于其他因素，诸如注释对象是否是新的，对象最近是否被修改了，注释对象的‘所有者’等等。

通常，可以使用软件、固件、硬件(例如，固定逻辑电路)或这些实现的组合来实现本文所描述的功能中的任一个。这里使用的术语“控制器”，“功能”，“组件”和“应用”通常表示软件、固件、硬件或其组合。在软件实现方式的情况下，控制器、功能、组件或应用表示在处理器(例如，一个CPU或多个CPU)上执行时执行指定任务的程序代码。程序代码可以存储在一个或多个计算机可读存储设备中。下面描述的技术的特征是独立于平台的，意味着这些技术可以在具有各种处理器的各种商业计算平台上实现。

例如，用户终端还可以包括使得用户终端的硬件执行操作的实体(例如软件)，例如处理器功能块等等。例如，用户终端可以包括计算机可读介质，该计算机可读介质可以被配置为维护使得用户终端，并且更具体地使用户终端的操作系统和相关硬件执行操作的指令。因此，指令的作用是配置操作系统和相关的硬件来执行操作，并以这种方式导致操作系统和相关硬件的转换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给用户终端。

计算机可读介质的一种这样的配置是信号承载介质，并且因此被配置为将诸如经由网络指令(例如作为载波)发送到计算设备。计算机可读介质还可以被配置为计算机可读存储介质，因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)，只读存储器(ROM)，光盘，闪速存储器，硬盘存储器以及可以使用磁、光学和其他技术来存储指令和其他数据的其他存储器设备。

提供了一种通信架构内的用户设备，所述用户设备包括异步会话查看器，所述异步会话查看器被配置为：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与相机姿态数据相关联的表面重建数据；选择视野位置；并通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

所述至少一个图像可以用时间值来索引，并且被配置为选择视野位置的异步会话查看器可以被配置为：选择时间索引值；并且基于所选择的时间值来确定所述至少一个图像的视野位置。

用户设备可以进一步包括被配置为接收至少一个用户输入的用户接口，其中用户接口可以被配置为接收来自用户的时间索引输入，并且异步会话查看器可以被配置为基于来自用户的时间索引输入确定时间索引。

用户接口可以被配置为接收时间索引输入作为擦除器用户接口元素输入。

异步会话查看器可以被配置为：根据与至少一个图像相关联的相机姿态数据来确定视野位置的范围；并从所确定的视野位置范围中选择视野位置。

用户设备可以进一步被配置为：与至少一个另外的用户设备就添加/修改/删除至少一个注释对象进行通信，使得由用户设备执行的编辑存在于由所述至少一个另外的用户设备接收的异步会话数据内。

用户设备可以被配置为经由异步会话同步器与至少一个另外的用户设备通信，所述异步会话同步器被配置为在用户设备和至少一个另外的用户设备之间同步与异步会话相关联的至少一个注释对象。

用户设备可以进一步包括异步会话同步器。

异步会话查看器可以被配置为从通信架构内的另外的用户设备接收异步会话数据，包括异步会话生成器的另外的用户设备可以被配置为：捕获至少一个图像；确定与所述至少一个图像相关联的相机姿势数据；捕获表面重建数据，所述表面重建数据与所述相机姿态数据相关联；并且生成包括异步会话数据的异步会话，所述异步会话数据包括所述至少一个图像、所述相机姿态数据和表面重建数据，其中所述异步数据被配置为进一步与所述至少一个注释对象相关联。

注释对象可以包括以下中的至少一个：视觉对象；音频对象；和文本对象。

异步会话数据可以进一步包括与至少一个图像相关联的至少一个音频信号。

根据另一方面，提供了一种在通信架构内实现的方法，所述方法包括：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与相机姿态数据相关联的表面重建数据；选择视野位置；以及通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

所述至少一个图像可以用时间值编索引，并且选择视野位置可以包括：选择时间索引值；以及基于所选择的时间值来确定所述至少一个图像的视野位置。

该方法还可以包括：接收至少一个用户输入，其中用户输入可以是从用户输入的时间索引；基于从用户输入的时间索引来确定时间索引。

用户接口可以被配置为接收时间索引输入作为擦除器用户接口元件输入。

该方法可以进一步包括：根据与所述至少一个图像相关联的相机姿态数据来确定视野位置的范围；以及从所确定的视野位置范围中选择视野位置。

该方法可以进一步包括：与至少一个用户设备就添加/修改/删除至少一个注释对象进行通信，使得编辑存在于由至少一个用户设备接收的异步会话数据内。

所述方法可以进一步包括经由异步会话同步器与所述至少一个用户设备通信，所述异步会话同步器被配置为同步与所述异步会话相关联的所述至少一个注释对象。

该方法还可以包括：在用户设备处捕获至少一个图像；在所述用户设备处确定与所述至少一个图像相关联的相机姿势数据；在所述用户设备捕获表面重建数据，所述表面重建数据与所述相机姿态数据相关联；在所述用户设备处生成包括异步会话数据的异步会话，所述异步会话数据包括所述至少一个图像、所述相机姿态数据和表面重建数据，其中所述异步数据被配置为进一步与所述至少一个注释对象相关联；以及在通信架构内从用户设备接收异步会话数据。

异步会话数据还可以包括与至少一个图像相关联的至少一个音频信号。

根据另一方面，提供了一种计算机程序产品，所述计算机程序产品被实施在非暂时性计算机可读介质上，并被配置为当在通信架构内的协议端点实体的处理器上执行时，用于：接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与所述相机姿态数据相关联的表面重建数据；选择视野位置；并通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑异步会话数据。

所述至少一个图像可以用时间值进行索引，并且可以进一步使被致使选择视野位置的所述处理器：选择时间索引值；并且基于所选择的时间值来确定所述至少一个图像的视野位置。

还可以使处理器从用户接口接收至少一个用户输入，其中用户输入可以是从用户输入的时间索引，并且进一步使得处理器基于从用户输入的时间索引来确定时间索引。

还可以使处理器：从与至少一个图像相关联的相机姿态数据确定视野位置的范围；并从所确定的视野位置范围中选择视野位置。

还可以使得处理器：与至少一个用户设备就添加/修改/删除至少一个注释对象进行通信，使得由处理器执行的编辑存在于由至少一个用户设备接收的异步会话数据内。

可以使处理器经由异步会话同步器与至少一个用户设备进行通信，异步会话同步器被配置为同步与异步会话数据相关联的至少一个注释对象。

虽然已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，在所附权利要求中限定的主题不一定限于上面描述的具体特征或动作。相反，上述的具体特征和动作被公开为实施权利要求的示例形式。

Claims

1.一种通信架构内的用户设备，所述用户设备包括异步会话查看器，所述异步会话查看器被配置为：

接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据、以及与所述相机姿态数据相关联的表面重建数据；

选择视野位置；以及

通过基于所选择的视野而添加/修改/删除至少一个注释对象来编辑所述异步会话数据。

2.如权利要求1所述的用户设备，其中，所述至少一个图像以时间值被索引，并且被配置为选择视野位置的所述异步会话查看器被配置为：

选择时间索引值；以及

基于所选择的时间值来确定所述至少一个图像的视野位置。

3.如权利要求2所述的用户设备，还包括被配置为接收至少一个用户输入的用户接口，其中用户接口被配置为接收来自所述用户的时间索引输入，并且所述异步会话查看器被配置为基于从所述用户输入的时间索引来确定时间索引。

4.如权利要求3所述的用户设备，其中，所述用户接口被配置为接收所述时间索引输入作为擦除器用户接口元素输入。

5.如权利要求1所述的用户设备，其中，所述异步会话查看器被配置为：

从与所述至少一个图像相关联的所述相机姿态数据确定视野位置的范围；以及

从所确定的视野位置的范围中选择视野位置。

6.如权利要求1所述的用户设备，其中，所述用户设备还被配置为：

与至少一个另外的用户设备就所述添加/修改/删除所述至少一个注释对象进行通信，使得由所述用户设备执行的编辑存在于由所述至少一个另外的用户设备接收的所述异步会话数据内。

7.如权利要求6所述的用户设备，其中所述用户设备被配置为经由异步会话同步器与所述至少一个另外的用户设备通信，所述异步会话同步器被配置为同步与在所述用户设备与所述至少一个另外的用户设备之间的异步会话相关联的所述至少一个注释对象。

8.如权利要求6所述的用户设备，还包括所述异步会话同步器。

9.如权利要求1所述的用户设备，其中所述异步会话查看器被配置为从所述通信架构内的另一用户设备接收所述异步会话数据，所述另一用户设备包含异步会话产生器，所述异步会话产生器被配置为：

捕获至少一个图像；

确定与所述至少一个图像相关联的相机姿势数据；

捕获表面重建数据，所述表面重建数据与所述相机姿态数据相关联；以及

生成包括异步会话数据的异步会话，所述异步会话数据包括所述至少一个图像、所述相机姿态数据和表面重建数据，其中所述异步数据被配置为进一步与所述至少一个注释对象相关联。

10.如权利要求1所述的用户设备，其中，所述注释对象包括以下中的至少一个：

视觉对象；

音频对象；以及

文本对象。

11.如权利要求1所述的用户设备，其中，所述异步会话数据还包括与所述至少一个图像相关联的至少一个音频信号。

12.一种在通信架构内实现的方法，所述方法包括：

接收异步会话数据，所述异步会话数据包括至少一个图像、与所述至少一个图像相关联的相机姿态数据以及与所述相机姿态数据相关联的表面重建数据；

选择视野位置；以及

通过基于所选择的视野添加/修改/删除至少一个注释对象来编辑所述异步会话数据。

13.如权利要求12所述的方法，其中，所述至少一个图像以时间值被索引，并且选择视野位置包括：

选择时间索引值；以及

基于所选择的时间值确定所述至少一个图像的视野位置。

14.如权利要求13所述的方法，还包括：

接收至少一个用户输入，其中，所述用户输入是从所述用户输入的时间索引；

基于从所述用户输入的时间索引来确定时间索引。

15.一种计算机程序产品，所述计算机程序产品被实施在非暂时计算机可读介质上，并且被配置为当在通信架构内的协议端点实体的处理器上执行时：

选择视野位置；以及