CN110809149A

CN110809149A - 用于计算机生成现实的媒体合成器

Info

Publication number: CN110809149A
Application number: CN201910694857.0A
Authority: CN
Inventors: A·M·莫夫肖维奇; G·S·桑德; P·A·卡罗; R·德赛; V·M·达格涅尼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-08-06
Filing date: 2019-07-30
Publication date: 2020-02-18
Anticipated expiration: 2039-07-30
Also published as: US11308696B2; CN110809149B; US20200043237A1; CN114615486A; US20220207842A1; US11804019B2; CN114615486B

Abstract

一种具体实施使用与计算机生成的现实(CGR)体验相关的多个数据流来形成CGR内容的合成流以有利于记录或流式传输。媒体合成器获取渲染帧的第一数据流和附加数据的第二数据流。渲染帧内容(例如，3D模型)表示在多个时间点处的CGR体验期间呈现的真实内容和虚拟内容。第二数据流的附加数据涉及CGR体验，例如，与音频、音频源、识别CGR体验的检测到的属性的元数据、图像数据、来自涉及CGR体验的其他设备的数据等有关。媒体合成器形成合成流，该合成流使所述渲染帧内容与多个时间点的附加数据对齐，例如，通过形成对应于单个时间点的时间戳n维数据集(例如，图像)。

Description

用于计算机生成现实的媒体合成器

相关申请的交叉引用

本申请要求2018年8月6日提交的美国临时申请序列号62/714,869的权益，该申请全文以引用方式并入本文。

技术领域

本公开整体涉及三维(3D)内容，并且具体地涉及用于记录或流式传输计算机生成现实(CGR)内容的系统、方法和设备。

背景技术

现有计算系统和应用程序不能充分促进CGR内容的记录或流式化。

发明内容

本文所公开的各种具体实施包括将与CGR体验相关联的多个数据流合成以形成合成流以有利于CGR内容的记录或流式传输的设备、系统和方法。合成流可被存储用于稍后回放或实时流式传输以在一个或多个其他设备上进行实时回放。合成流表示CGR内容，其本身可以是真实内容，自身渲染的内容(例如，仅VR内容)，内容的3D表示(例如，未渲染的模型)，或它们的组合。

一些具体实施涉及在具有一个或多个处理器和计算机可读存储介质的设备处执行操作。该设备获得包括渲染帧的第一数据流和包括附加数据的一个或多个附加数据流。渲染帧内容(例如，2D图像或3D模型)表示在多个时间点的CGR体验中呈现的真实内容或虚拟内容。一个或多个附加数据流的附加数据与多个时间点处的CGR体验相关。在一个示例中，附加数据是来自作为CGR体验一部分的真实或虚拟音频源的音频。在另一个示例中，附加数据是识别CGR体验的检测到的属性的元数据，诸如实际物理特性(例如，照明，温度等)，涉及CGR体验或在CGR体验中检测到的人等。在另一个示例中，附加数据为来自作为相同共享CGR体验一部分的第二设备的渲染帧内容，这可能来自不同的查看透视图。

设备使用数据流(例如，使用来自第一数据流和第二数据流的数据)形成合成流。合成流使渲染帧内容与多个时间点的附加数据对齐。例如，音频片段可与在相同时间点处或周围呈现的对应渲染帧相关联。又如，关于人的身份的元数据与该人在其中出现的渲染帧相关联。在一些具体实施中，合成流具有合成帧，每个合成帧提供对应于单个时间点或时间片段的时间戳n维数据集(例如，图像)。此类n维数据集/图像的尺寸可对应于所述渲染帧以及附加数据(例如，音频，元数据，捕获的图像等)的两个或三个维度。合成流可存储为CGR体验的记录或实时流式传输以允许其他人经由其他设备体验CGR内容。

一些具体实施提供了合成流，其包括关于CGR体验的比传统视频记录技术的屏幕和音频捕获信息更丰富的信息。合成流可包括关于CGR体验中的真实对象或虚拟对象的3D几何形状的信息。在合成流中包括真实对象或虚拟对象的3D模型能够增强记录或实时流式传输的观看者的体验，例如允许观看者从不同于创作者的视点的视点体验场景，从而允许观看者移动或旋转对象。又如，在合成流中包括音频源信息同样能够增强体验，例如，允许观看者基于其自身的头部取向，相对于音频源的相对定位等来体验声音。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；这一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且这一个或多个程序包括用于执行或导致执行本文所述方法中的任一种的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，当由设备的一个或多个处理器执行时，这些指令使得该设备执行或导致执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个处理器、非暂态存储器，以及用于执行或导致执行本文所述方法中的任一种的装置。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1为根据一些具体实施的示例性操作环境的框图，其中提供CGR环境的设备创建第一时间点的CGR体验的合成体。

图2为根据一些具体实施的创建第二时间点的CGR体验的合成体的图1的设备的框图。

图3为根据一些具体实施的创建第三时间点的CGR体验的合成体的图1的设备的框图。

图4为根据一些具体实施的创建第四时间点的CGR体验的合成体的图1的设备的框图。

图5A为根据一些具体实施的基于图1至图4的合成体的合成流以及使用合成流来重放CGR体验的框图。

图5B为合成流以及在另一个设备上使用合成流来重放CGR体验的框图。

图6为示出了根据一些具体实施的示例性设备的设备部件的框图。

图7为示出了根据一些具体实施的示例性媒体合成器的框图。

图8为表示用于使用与CGR体验相关联的多个数据流来创建合成流的方法的流程图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将会知道，其他有效方面或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

参见图1，其示出了一些具体实施的示例性操作环境。通常，操作环境包括呈现CGR内容20的设备10，所述CGR内容描绘基于真实世界场景5的一个或多个图像的CGR环境。CGR环境是指人们经由电子系统感测和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子组或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，所述音频对象创建3D或空间音频环境，所述3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或与之交互的虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像为虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境为完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过他直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。如本文所用，其中物理环境的至少一些光可穿过透明或半透明显示器的HMD称为“光学透视”HMD。

另选地，系统可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。

进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得修改后的部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除或模糊其部分而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置为接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。

头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过所述媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或他们的任意组合。在一个具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

在一些具体实施中，设备10是被配置为向用户呈现CGR内容20的手持式电子设备(例如，智能电话或平板电脑)。在一些具体实施中，设备10是一种由用户佩戴的头戴式设备(HMD)。此类HMD可包围用户的视场。在一些具体实施中，佩戴HMD是一个或多个屏幕被定位成在用户的视野中显示CGR内容的方式。在一些具体实施中，两个设备(例如，HMD和与HMD无线通信的控制器设备)彼此通信以提供CGR内容(例如，使用相机和传感器来编译关于真实世界场景5的信息并且具有用于显示CGR内容的一个或多个显示器的HMD，以及处理该相机/传感器数据和其他数据以向HMD提供CGR内容的控制器设备)。在一些具体实施中，设备10是被配置为呈现CGR内容的舱室、壳体或房间，在该CGR内容中，用户不穿戴或手持设备10。

设备10被配置为使用基于设备10上的相机或其他传感器检测到的图像或其他真实世界信息。在一些具体实施中，为了提供CGR内容，设备10使用由相机捕获的一个或多个相机图像的至少一部分。在图1的示例中，在第一时间点21处的CGR内容20包括对由设备10的相机捕获的项目的描述。在图1的示例中，真实世界场景5包括办公桌13上的第二设备12，壁挂图14和沙发15。在第一时间点21处的CGR内容20包括第二设备12的第二设备描述22，办公桌13的办公桌描述23，壁挂图14的壁挂图描述24，和沙发15的沙发描述25。

在图1中，通过合成渲染帧110和附加数据111(例如元数据112和2D视图113)来记录第一时间点21处的CGR内容20来创建合成体115。渲染帧110包括在第一时间点21处的CGR内容20中所示的真实(如果有)和虚拟(如果有)对象的2D图像或3D模型。元数据112包括描述CGR内容中所示的真实(如果有)或虚拟(如果有)对象的数据。元数据112可基于相机/传感器数据，算法或机器学习解释(例如，语音识别，对象检测等)，用户输入，或在第一时间点21处的CGR内容20处的CGR体验期间检测，记录或识别的任何其他信息。2D视图113是表示在设备10上显示的实际2D图像的图像，其描绘了在第一时间点21处的CGR内容20。又如，设备10呈现两个同时图像(例如，一个用于左眼，一个用于右眼)，并且2D视图113是组合这两个图像的裁切图像(例如，提供图像的公共内容的单个裁切图像)。例如，在希望减少合成体115中的数据量(例如，以解决带宽考虑)的具体实施中，单个裁切图像可能是期望的。

本文所述的一些具体实施使得能够记录CGR内容以用于存储和稍后重新播放或实时流式传输。例如，用户可使用设备10具有五分钟CGR体验，其中用户围绕真实世界场景5移动以查看来自不同视点的CGR内容，添加，改变或移除CGR内容中的真实或虚拟对象，或者以其他方式与CGR内容交互。在五分钟CGR体验期间的CGR内容通过将与CGR内容20相关联的数据流合成合成流(例如，合成体125)和其他时间点的其他合成体来记录。在一些具体实施中，将第一数据流(例如，渲染帧内容诸如真实或虚拟对象的3D模型)和附加数据流(例如，音频内容，元数据，2D裁切帧等)组合在一起以形成合成帧流，所述帧流在5分钟的体验期间使渲染帧内容与所述多个时间点的附加数据(例如，帧)对齐。

用户可记录CGR体验，上载或流式传输所合成的CGR内容流，并且其他用户可访问并体验他们自己的设备上的CGR内容记录。例如，用户可将CGR内容记录作为媒体上载/发布在CGR内容共享网站上，并且其他用户可使用该网站来访问和体验(例如，使用适当的查看器或浏览器插件)CGR内容记录。合成的CGR内容流包括关于CGR内容的丰富数据，例如，包括有关真实世界场景5的特性(例如，温度，照明，识别的面部，检测到的对象，检测到的模式等)，基本或高级音频信息(例如，音频源信息，16信道音频等)的元数据。

合成的CGR内容流可包括渲染帧内容，其包括用于提供CGR体验的3D几何信息(例如，3D模型)以及2D视图(例如，创建CGR内容记录的用户体验的2D视图113或组合用户或多个用户的视图的组合/裁切视图)。在一个示例中，CGR内容的合成流包括用于生成长沙发描述25的长沙发15的3D模型。在合成CGR内容流中包括此3D模型允许其他用户从不同于创建CGR内容记录时用户所做的不同视点查看沙发。

图2至图4为创建第二、第三和第四时间点处的CGR体验的合成体的

图1的设备10的框图。

图2表示在图1的第一时间点20之后的第二时间点30。用户已将相对于真实世界场景5的位置从第一时间点21改变为第二时间点30，并且在图2中更靠近桌13和第二设备12。因此，桌23的描述和第二设备22的描述在第二时间点30(图2)处比在第一时间点21(图1)处相对更大。在图2中，通过合成渲染帧120和附加数据121(例如元数据122和2D视图123)来记录第二时间点30处的CGR内容20以创建合成体125。渲染帧120包括在第二时间点30处的CGR内容20中所示的对象的2D图像或3D模型。元数据122包括描述在第二时间点30处的CGR内容20中所描绘的对象的数据。2D视图123是表示在设备10上显示的实际2D图像的图像，其描绘了在第二时间点30处的CGR内容20。

图3表示在图2的第二时间点之后的第三时间点。用户从第二时间点到第三时间点期间相对于在真实世界场景5中的位置保持在相同位置。然而，用户已添加若干虚拟对象：虚拟盆花34和虚拟祖父时钟35。在图3中，通过合成渲染帧130和附加数据131(例如元数据132，2D视图133和音频样本134)来记录第三时间点40处的CGR内容20以创建合成体135。渲染帧130包括在第三时间点40处的CGR内容20中所示的对象的2D图像或3D模型。元数据132包括描述在第三时间点40处的CGR内容20中所描绘的对象的数据。2D视图133是表示在设备10上显示的实际2D图像的图像，其描绘了在第三时间点40处的CGR内容20。

音频样本134包括来自两个不同源的音频流：用户语音的第一音频片段(例如，“我正在添加我喜欢的时钟和花以增加一些快乐”)和与虚拟祖父时钟35相关联的第二音频片段(例如，“滴答、滴答、滴答”)。需注意，虽然每个音频片段持续一段时间，但其相关联并包括在合成体135中，在该具体实施中，该合成体针对单个时间点/合成帧。在一些具体实施中，在合成体中包括音频片段，该音频片段与音频片段开始的时间点、音频片段的中点、音频片段的结尾或片段期间的任何其他预先确定的点相关联。音频片段可分为子部分(例如，对于较小的时间间隔，离散的声音，暂停之间的声音等)，组合成与多个合成体相关联的更长的片段，或以其他方式组织在合成流内，以允许与其他CGR内容精确关联，平滑回放以及CGR内容的有效表示(例如，最小化或减少不必要的重复等)。

图4表示在图3的第二时间点之后的第四时间点。用户从第三时间点到第四时间点期间相对于真实世界场景5中的位置保持在相同位置。然而，用户已添加另一个虚拟对象：虚拟时钟无线电部件36。在图4中，通过合成渲染帧140和附加数据141(例如元数据142，2D视图143和具有源ID的音频样本144)来记录第四时间点50处的CGR内容以创建合成体145。渲染帧140包括在第四时间点50处的CGR内容中所示的对象的2D图像或3D模型。元数据142包括描述在第四时间点50处的CGR内容中所描绘的对象的数据。2D视图143是表示在设备10上显示的实际2D图像的图像，其描绘了在第四时间点50处的CGR内容。

具有源ID的音频样本144包括与两个不同源相关联的音频流：虚拟时钟无线电部件36的第一音频片段(例如，音乐)和与虚拟祖父时钟35相关联的第二音频片段(例如，“滴答、滴答、滴答”)。这些不同音频片段的源彼此区分并且在具有源ID的音频样本144中被识别。源可识别或可用于识别例如相对于3D坐标系的3D模型内的声音产生对象的位置。当其他用户后来体验CGR内容记录时，相对于用户的头部位置和取向的这些源位置可用于改善他们的体验。例如，体验CGR内容记录的另一用户可单独控制音频源，例如，以关闭来自虚拟时钟无线电部件36的音乐。

CGR内容诸如图1至图4的示例中所记录的CGR内容可包括任何类型的2D或3D对象，包括真实或虚拟内容。2D和3D内容的示例包括但不限于桌子，地板，墙壁，课桌，书，水体，山，田，车，计数器，人脸，人手，人的毛发，另一个人体部分，整个人体，动物或其他活体，衣服，一张纸，杂志，书籍，车辆，机器或其他人造对象，以及可识别和表示的任何其他项目或项目组。2D或3D对象可附加地或另选地包括可或可能不对应于真实世界内容的已创建内容，包括但不限于外星人，向导，飞船，独角兽，以及计算机生成的图形和模型。

图5A是基于图1至图4的合成体115,125,135,145的合成流210和使用另一设备200上的合成流210重放CGR体验的框图。在该示例中，每个合成体115，125，135，145包括与在序列中依次体验的相应时间点相关联的CGR内容。因此，在重放期间，用户依次体验来自第一时间点21的CGR内容20，来自第二时间点30的CGR内容20，来自第三时间点40的CGR内容20，然后是来自第四时间点50的CGR内容20。在一些具体实施中，合成体115，125，135，145中的每一个对应于CGR内容的帧，并且这些帧以设定的时间间隔依次播放，例如，第一CGR帧被播放1/24秒，然后被第二CGR帧替换，该第二CGR帧被播放1/24秒，然后被替换等。

在图5A中，在重放期间CGR内容的视图与在创建CGR内容的合成流210的用户查看的第一至第四时间点20，30，40，50处的CGR内容的视图相同。然而，在其他具体实施中，在重放期间CGR内容的视图与合成流210创建期间的视图不同。在一些具体实施中，用于流接收/重放用户的CGR内容的视觉外观取决于该用户自身的视点(例如，3D空间中的位置，移动或取向)，该视点可不同于创建CGR内容的合成流210的用户的视点。在一些具体实施中，合成流210中的3D几何信息和查看器位置信息用于创建3D内容的视图，该视图不同于由用户查看的创建CGR内容记录的3D内容的视图。在一些具体实施中，合成流包括真实对象的3D几何信息，该信息还基于除了关于当前时间点信息之外的信息来确定。例如，3D几何信息可基于多个捕获的图像来确定(例如，对于在CGR体验期间的多个时间点的多个渲染帧)，该多个捕获图像可用于调整任何时间点的CGR内容的视图。图5B提供以这种方式使用3D几何信息的示例。

图5B是合成流210以及使用另一设备300上的合成流210来重放CGR体验的框图。在重放期间，用户体验来自第一时间点21的CGR内容20，来自第二时间点30的CGR内容20，来自第三时间点40的CGR内容，然后是来自第四时间点40的CGR内容。在该示例中，在CGR体验期间，从在图1所示的第一时间点21的真实世界场景5捕获的图像以及在其他(之前或之后)时间点的长沙发25的附加图像确定长沙发25的3D几何形状。在该示例中，在第三时间点处的重放期间，用户已向右旋转他的头部以改变他在CGR重放体验中的视图。因此，设备300在第三和第四时间点40，50处呈现CGR内容的视图，包括长沙发15和壁挂画14的描述25,24的视图。尽管在第三和第四时间点(例如，图3和图4)期间向创建合成流的用户显示的视图中示出了长沙发15和壁挂画44，但是这些视图是针对第三和第四时间点处的CGR内容呈现的。在该示例中，长沙发15和壁挂画14未被相机在第三和第四时间点处捕获，然而仍可作为第三和第四时间点40,50的CGR内容的一部分被查看。

在一些具体实施中，使用合成流重放CGR体验涉及移除或模糊对象(例如，真实世界对象)。例如，真实的绘画24可被移除或覆盖有覆盖其后面的整个壁的虚拟绘画或墙纸。在一些具体实施中，使用合成流重播CGR体验涉及对象的移动而不是或与观察者的移动相组合。例如，如果真实的狗从左到右地穿过场景，或者如果虚拟猫从右到左地穿过场景，则两者都将被合成在记录中并且可在重放期间被体验到。

图6是示出了根据一些具体实施的设备10的设备部件的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，设备10包括一个或多个处理单元602(例如，微处理器、ASIC、FPGA、GPU、CPU、处理内核等)、一个或多个输入/输出(I/O)设备和传感器606、一个或多个通信接口608(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C或类似类型的接口)、一个或多个编程(例如，I/O)接口610、一个或多个显示器612、存储器620以及用于互连这些部件和各种其他部件的一条或多条通信总线604。

在一些具体实施中，一条或多条通信总线604包括互连和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备和传感器606包括触摸屏、软键、键盘、虚拟键盘、按钮、旋钮、操纵杆、开关、拨号盘、惯性测量单元(IMU)、加速度计、磁力仪、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测器、心率监测器、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎或者一个或多个深度传感器(例如，结构化光、飞行时间等)等的至少其中之一。在一些具体实施中，由一个或多个I/O设备和传感器606检测到的设备10的移动、旋转或位置向设备10提供输入。

在一些具体实施中，I/O设备和传感器606被配置为获得对应于设备10的本地场景的至少一部分的图像数据。I/O设备和传感器606可以包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机或者基于事件的相机等。在各种具体实施中，一I/O设备和传感器606还包括发射光的照明源，诸如闪光灯。

在一些具体实施中，一个或多个显示器612被配置为呈现CGR内容。在一些具体实施中，一个或多个显示器612对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)或者类似显示器类型。在一些具体实施中，一个或多个显示器612对应于衍射、反射、偏振、全息等波导显示器。例如，设备10包括单个显示器。又如，设备10包括针对每只眼睛的显示器。

存储器620包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器620包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器620任选地包括远离一个或多个处理单元602定位的一个或多个存储设备。存储器620包括非暂态计算机可读存储介质。在一些具体实施中，存储器620或存储器620的非暂态计算机可读存储介质存储以下程序、模块和数据结构，或它们的子集，包括可选的操作系统630以及一个或多个应用程序640。

操作系统630包括用于处理各种基础系统服务和用于执行硬件相关的任务的过程。在一些具体实施中，操作系统630包括被配置为提供或记录CGR体验的媒体合成器632。在该示例中，媒体合成器632包括被配置为创建或显示2D图像或3D模型的帧的帧渲染单元633。帧渲染单元633可以接收来自I/O设备和传感器606的图像和其他传感器信息，创建真实世界对象的3D模型，将真实世界内容(例如，3D模型)与虚拟内容组合，以及确定3D内容的视图，例如用于在显示器612上显示。

媒体合成器632还包括音频单元634，该音频单元被配置为捕获音频样本，在格式之间转换音频样本或确定音频源信息。媒体合成器632还包括元数据单元635，该元数据单元被配置为在CGR体验期间例如从来自I/O设备和传感器606的数据导出元数据。

媒体合成器632还包括2D帧单元636以在CGR体验的记录期间捕获或转换在显示器612上显示的图像。在一些具体实施中，2D帧单元636提供用于右眼视图的图像帧和用于左眼视图的图像帧。在一些具体实施中，2D帧单元通过在用于右眼视图的图像帧和用于左眼视图的图像帧两者中找到中心区来创建单个裁切帧(例如，具有90度视场)。该组合/裁切可实现为优化以节省带宽，并且可基于带宽条件或用户偏好选择性地实施。

媒体合成器632还包括被配置为存储例如在计算机可读介质上的CGR内容的合成体的合成流的记录单元637。媒体合成器632还包括实时流单元638，其被配置为以实时流式传输格式编码CGR内容的合成体的合成流，例如用于通过网络分配给其他用户。媒体合成器632还包括应用程序接口单元639，该应用程序接口单元被配置为包括CGR内容中的应用程序内容和交互和/或允许应用程序提供，控制，使用，记录或流式传输CGR内容。

在一些具体实施中，一个或多个应用程序640例如应用程序642a-n中的每一个提供包括在CGR体验中的虚拟内容。例如，祖父时钟应用程序可提供虚拟内容，例如，祖父时钟35的描述(图4)及其相关联的功能和交互性，例如，摇摆臂，节拍铃声，用户控制的时间设置等。这些应用程序642a-n提供可包括在提供CGR体验的共享虚拟平台中的独立内容源。媒体合成器632被配置为接收，显示和记录关于由应用程序642a-n提供的用于包括在CGR内容的合成流中的虚拟对象的信息。

在一些具体实施中，设备10是一种头戴式设备(HMD)。此类HMD可包括容纳HMD的各种部件的外壳(或壳体)。外壳可包括(或联接到)设置在外壳的近侧(至用户)端的眼垫。在一些具体实施中，眼垫是将HMD舒适且紧密地保持在用户面部上的适当位置(例如，围绕用户的眼睛)的塑料或橡皮片。外壳可容纳显示器，该显示器显示图像，向用户的一个或两个眼睛发射光。

图6更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图6中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块/单元的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

图7是示出了系统700的框图，该系统包括将渲染帧，音频，元数据和2D图像组合以提供CGR内容的n维合成流的示例性媒体合成器702。在该示例中，CGR体验的一些CGR内容元素从应用程序(例如，图6的应用程序642a-n)接收。两种类型的应用程序(独占应用程序和非排他性应用程序)可提供包含在CGR内容中的虚拟内容。诸如CGR应用程序706的独占应用程序可在CGR共享空间框架内执行，并且在执行时使用框架的所有资源，例如，使用所显示的CGR内容的整个视图。相比之下，诸如CGR应用程序708的非排他性应用程序可在执行时共享框架的资源，例如，应用程序可提供祖父时钟虚拟对象，而另一个应用程序在CGR共享空间框架上提供时钟无线电虚拟对象。

CGR界面/访问渲染帧单元704从现实引擎或其他统一渲染单元访问关于CGR内容的渲染帧的信息。渲染帧110，120，130，140的示例在图1至图4中示出。现实引擎(未示出)或其他统一渲染单元(未示出)创建CGR内容的渲染帧。在一些情况下，通过将虚拟对象(来自应用程序或其他源)与真实世界对象组合以创建一个或多个3D模型或通过将虚拟对象叠加在真实世界场景的2D图像上来创建渲染帧。在一些具体实施中，CGR界面/访问渲染帧单元704可接收来自多个源的渲染帧，例如，来自现实引擎和来自独立的统一渲染单元。在一些具体实施中，多个源中的每一个的输出是具有一个对象的帧，其可以是该对象的3D几何形状，与该对象相关联的元数据或其他信息。例如，现实引擎可渲染夹心框并且统一渲染引擎可渲染瓶子，并且两者均可被CGR界面/访问渲染帧单元704访问以包括在合成流728中。关于这两个对象的信息被馈入(或由其检索)媒体合成器702中，并作为渲染帧704存储在存储器存储中。因此，存储器存储中的渲染帧704中的每一者可包括比仅2D图像更多的信息。在一些具体实施中，信息具有与单个时间点(例如基于CGR内容记录过程的开始的时间戳)相关联的n维图像的形式。

媒体合成器702还接收具有附加数据的附加数据流。音频样本114，124，134，144的示例在图1至图4中示出。音频引擎接口712提供音频样本714。音频样本714可为空间化音频样本。在一些具体实施中，将空间化音频样本直接用作合成合成流728的输入。因此，如果5个人在CGR内容内说话，则音频空间化器可基于源的位置来混合所有声音样本，使得如果用户转动她的头部，她将根据空间来更好地听到某些声音。在其他具体实施中，如图7所示，例如，通过应用变换以识别与特定音频片段相关联的音频源，媒体合成器702内的重分类音频样本单元722将空间化音频样本非空间化到它们的单个源。用户然后可基于它们的源来单独控制声音，例如，在关闭祖父时钟的节拍声音的同时打开时钟无线电的音量等。

媒体合成器702还从聚合元数据单元716接收元数据718。元数据112，122，132，142的示例在图1至图4中示出。元数据718通过元数据跟踪单元724与特定轨道相关联。媒体合成器702还接收2D图像(例如，裁切的帧)。2D视图113，123，133，143的示例在图1至图4中示出。渲染帧710，音频样本714，元数据718和2D图像726被输入以形成合成流728。

在输入渲染帧710之前，可对其进行处理以创建合成流728。在该示例中，媒体合成器702包括可被配置为执行各种类型的后处理的打开(un-warp)和后处理单元720。例如，打开和后加工单元720可在所渲染的帧中打开中间凹(foveated)内容，使得合成流将不受中间凹的限制。这可能涉及通过应用反向变换并应用缺陷去除过程来重建内容的原始中间凹版本。又如，打开和后处理单元720将内容从球形坐标空间转换为矩形坐标空间。

合成流728组合渲染帧710，音频样本714，元数据718和2D图像726。合成流可对CGR内容进行索引以进行检索，并且包括用于组合CGR内容的逻辑。媒体合成器702可以指定的格式编写合成流728(例如，用于存储在非暂态计算机可读介质上)，或者编码用于实时流式传输的合成流728，如图730所示。在实时流式传输的情况下，媒体合成器702可识别与一个或多个时间点相关联的CGR内容块(例如，帧，切片等)并以指定的间隔发送CGR内容块。

图8是表示用于使用与CGR体验相关联的多个数据流来创建合成流的方法的流程图。在一些具体实施中，方法800由设备(例如，图1至图6的设备10)执行。方法800可在移动设备，HMD，控制器设备，桌面，膝上型计算机，服务器设备上或在一个或多个此类设备的组合上执行。方法800可以在具有用于显示2D图像的屏幕或用于观看立体图像的屏幕的HMD上执行。在一些具体实施中，方法800由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法800由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。

在框810处，方法800获取在CGR体验期间渲染的渲染帧内容的渲染帧的第一数据流。渲染帧内容表示在CGR体验期间在多个时间点处呈现的真实内容或虚拟内容。示例性渲染帧包括图1至图4中所示的示例性渲染帧110,120,130,140。在一些具体实施中，虚拟内容由独占使用CGR框架的CGR资源而执行的应用程序、与其他应用程序共享使用CGR框架的CGR资源而执行的应用程序、或此类应用程序的组合来提供。

在框820处，方法800获取与CGR体验相关的附加数据的第二数据流。附加数据涉及CGR体验期间的时间点，例如，当音频开始时，在针对其确定元数据的对象被引入时，等等。在一些具体实施中，第二数据流是音频数据流，例如，图1至图4的音频样本114,124,134,144。方法800可识别在CGR体验期间产生音频的真实或虚拟音频源。在一些具体实施中，第二数据流是一个元数据流，该元数据流提供与多个时间点中的各个时间点相关联的元数据，例如，在时间点的阈值时间内检测到面部的人的名字、在时间点处的CGR体验中检测到的真实对象(例如，身体部位，桌子，绘画等)的身份、包括在时间点处的CGR体验中的虚拟对象的身份、在时间点处由温度传感器或照明传感器检测到的温度或照明，等等。例如，第二数据流可包括图1至图4中所示的元数据112,122,132,142。

在一些具体实施中，第二流包括与多个时间点的特定用户视点相关联的CGR体验的2D视图的帧流，例如，显示创建CGR内容记录的用户在其自己的设备上实际查看的内容。例如，第二流可包括图1至图4中所示并在设备10上在那些时间点21,30,40,50处显示的2D视图113,123,133,143(例如，截屏/图像捕获)。帧流可包括裁切的帧，每个裁切的帧均通过识别CGR体验的左眼视图和右眼视图的公共部分来形成。

在一些具体实施中，第二流包括来自与设备分开的第二设备的CGR体验的渲染内容。例如，两个用户可体验来自场景内不同位置的共享CGR体验。可将来自其相应设备的渲染帧组合成用于CGR体验的单个合成流。

在框830处，方法800基于第一数据流和第二数据流来形成合成流。合成流使渲染的帧内容与附加数据对齐以记录多个时间点的CGR内容。方法800可通过在非暂态计算机可读介质上记录合成流来记录CGR体验。图5A和图5B示出了形成合成流的示例。方法800可通过根据预先确定的实时流式传输格式对合成流进行编码来实时流式传输CGR体验。合成流可包括表示虚拟内容的3D几何形状或CGR体验的真实内容的三维(3D)模型。合成流可包括合成帧，其各自具有对应于单个时间点的时间戳n维图像。

方法800提供了许多有益效果。例如，通过由两个或更多个其他流形成合成流，该方法产生可容易地由其他用户或在稍后时间提供，存储或访问的内容。例如，集成在网页内的播放器应用程序可被配置为具有插件或其他功能以从合成流播放或重放CGR体验。合成流可提供具有已知格式的单个源，其从所记录/流式传输的CGR体验捕获丰富的信息。

本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而，本领域的技术人员将理解，可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中，没有详细地介绍普通技术人员已知的方法、装置或系统，以便不使要求保护的主题晦涩难懂。

除非另外特别说明，否则应当理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程，诸如一个或多个计算机或类似的电子计算设备，其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。

本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统，其访问存储的软件，该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。

本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化，例如，可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”(“a”“an”)和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“comprises”或“comprising”)本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的，而非限制性的，并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定，而是根据专利法允许的全部广度。应当理解，本文所示和所述的具体实施仅是对本发明原理的说明，并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims

1.一种方法，包括：

在具有处理器和计算机可读存储介质的设备处：

获得包括渲染帧的第一数据流，所述渲染帧包括渲染帧内容，所述渲染帧内容表示在多个时间点处的用户体验期间渲染的真实内容和虚拟内容；

获得第二数据流，所述第二数据流包括与所述多个时间点处的所述用户体验相关的附加数据；以及

基于所述第一数据流和所述第二数据流来形成合成流，所述合成流使所述渲染帧内容与所述附加数据对齐，以记录所述多个时间点的内容。

2.根据权利要求1所述的方法，还包括通过在非暂态计算机可读介质上记录所述合成流来记录所述用户体验。

3.根据权利要求1至2中任一项所述的方法，还包括通过根据预先确定的实时流式传输格式对所述合成流进行编码来实时流式传输所述体验。

4.根据权利要求1至3中任一项所述的方法，其中所述合成流包括表示所述虚拟内容或所述真实内容的三维(3D)几何形状的3D模型。

5.根据权利要求1至4中任一项所述的方法，其中所述附加数据包括音频。

6.根据权利要求1至5中任一项所述的方法，还包括识别在所述用户体验期间产生音频的真实或虚拟音频源，其中所述合成流识别所述真实或虚拟音频源。

7.根据权利要求1至6中任一项所述的方法，其中所述附加数据包括与所述多个时间点中的单个时间点相关联的元数据。

8.根据权利要求7所述的方法，其中所述元数据识别所述用户体验的真实物理特性(例如，照明、温度)。

9.根据权利要求7所述的方法，其中所述元数据识别经由计算机实现的对象检测而检测到的人。

10.根据权利要求7所述的方法，其中所述元数据识别经由计算机实现的对象检测而检测到的用户的身体部位。

11.根据权利要求1至10中任一项所述的方法，其中所述附加数据包括来自与所述设备分开的第二设备的所述用户体验的第二渲染内容。

12.根据权利要求1至11中任一项所述的方法，其中所述附加数据流包括与所述多个时间点的用户视点相关联的所述用户体验的2D视图的帧流。

13.根据权利要求12所述的方法，其中所述帧流包括裁切的帧，所述裁切的帧各自包括所述用户体验的左眼视图和右眼视图的公共部分。

14.根据权利要求1至13中任一项所述的方法，其中所述虚拟内容由在提供所述用户体验的帧内执行的应用程序提供，其中所述应用程序具有所述帧的资源的独占使用。

15.根据权利要求1至14中任一项所述的方法，其中所述虚拟内容由在提供所述用户体验的帧内执行的应用程序提供，其中所述应用程序将所述帧的资源的使用与其他应用程序共享。

16.根据权利要求1至15中任一项所述的方法，其中所述合成流包括合成帧，所述合成帧各自包括对应于单个时间点的时间戳n维图像。

17.根据权利要求1至16中任一项所述的方法，还包括对所述渲染帧中的展开的中间凹图像施加逆变换以产生非中间凹图像，其中所述合成流包括所述非中间凹图像。

18.根据权利要求1至17中任一项所述的方法，其中所述设备为头戴式设备(HMD)、在与所述HMD相同的物理环境中通信地耦接到所述HMD的控制器、或在与所述HMD分开的物理环境中通信地耦接到所述HMD的服务器。

19.一种系统，包括：

非暂态计算机可读存储介质；以及

一个或多个处理器，所述一个或多个处理器耦接到所述非暂态计算机可读存储介质，其中所述非暂态计算机可读存储介质包括程序指令，所述程序指令在所述一个或多个处理器上执行时，使所述系统执行包括以下操作的操作：

获得包括渲染帧的第一数据流，所述渲染帧包括呈现在多个时间点的用户体验期间渲染的真实内容和虚拟内容的渲染帧内容；

基于所述第一数据流和所述第二数据流来形成合成流，所述合成流使所述渲染帧内容与所述附加数据对齐，以形成所述多个时间点的内容。

20.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储能够在计算机上执行以执行操作的程序指令，所述操作包括：

获得包括渲染帧的第一数据流，所述渲染帧包括表示在多个时间点处的用户体验期间渲染的真实内容和虚拟内容的内容；