CN112189183A

CN112189183A - 用于呈现音频和合成现实体验的方法和设备

Info

Publication number: CN112189183A
Application number: CN201980032347.5A
Authority: CN
Inventors: I·M·里克特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-05-30
Filing date: 2019-05-29
Publication date: 2021-01-05
Also published as: US11783548B2; US20210082196A1; US20240054734A1; WO2019232005A1

Abstract

在各种实施方式中，公开了呈现音频/SR体验的方法。在一个实施例中，在环境中播放音频文件时，响应于确定满足SR内容事件的相应时间标准和相应环境标准，与该环境相关联地显示该SR内容事件。在一个实施例中，基于音频文件和环境的3D点云来获取SR内容并与该环境相关联地显示SR内容。在一个实施例中，基于环境的真实声音的说出的字词来获取SR内容并与该环境相关联地显示SR内容。

Description

用于呈现音频和合成现实体验的方法和设备

技术领域

本公开整体涉及音频和合成现实体验，并且具体地，涉及用于伴随音频呈现合成现实体验的系统、方法和设备。

背景技术

物理布景是指无需电子系统帮助个体就能够感知和/或个体能够交互的世界。物理布景(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理布景相互作用和/或感知物理布景，诸如通过触摸、视觉、嗅觉、听觉和味觉。

相比之下，合成现实(SR)布景是指经由电子系统个体能够感知并且/或者个体能够与其交互的完全或部分由计算机创建的布景。在SR中，监测个体移动的子集，并且响应于此，以符合一个或多个物理定律的方式使SR布景中的一个或多个虚拟对象的一个或多个属性变化。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何变化的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR布景中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感知SR对象。例如，个体可与创建多维(例如，三维)或空间听觉布景和/或实现听觉透明性的听觉对象进行交互和/或感知听觉对象。多维或空间听觉布景为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明性选择性地结合来自物理布景的声音。在一些SR布景中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

SR的一个示例是虚拟现实(VR)。VR布景是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟布景。VR布景包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的布景内模拟个体动作的子集和/或通过对个体或其在计算机创建的布景内的存在的模拟，来与VR布景中的虚拟对象进行交互和/或感知VR布景中的虚拟对象。

SR的另一个示例是混合现实(MR)。MR布景是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理布景的感官输入或其表示集成的模拟布景。在现实谱系上，混合现实布景介于一端的VR布景和另一端的完全物理布景之间并且不包括这些布景。

在一些MR布景中，计算机创建的感官输入可以适应于来自物理布景的感官输入的变化。另外，用于呈现MR布景的一些电子系统可以监测相对于物理布景的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理布景的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

混合现实的一个示例是增强现实(AR)。AR布景是指至少一个虚拟对象叠加在物理布景或其表示之上的模拟布景。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理布景的图像或视频，这些图像或视频是物理布景的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体使用系统经由物理布景的图像或视频间接地查看物理布景，并且观察叠加在物理布景之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理布景的图像，并且使用那些图像在不透明显示器上呈现AR布景时，所显示的图像被称为视频透传。另选地，用于显示AR布景的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理布景。该系统可在透明或半透明显示器上显示虚拟对象，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理布景中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。

增强现实布景也可指其中物理布景的表示被计算机创建的感官信息改变的模拟布景。例如，物理布景的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表一个或多个初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于一个或多个图像传感器捕获的视点的特定视点。再如，物理布景的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

混合现实的另一个示例是增强虚拟(AV)。AV布景是指计算机创建布景或虚拟布景并入来自物理布景的至少一个感官输入的模拟布景。来自物理布景的一个或多个感官输入可为物理布景的至少一个特征的表示。例如，虚拟对象可呈现由一个或多个成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理布景中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

许多电子系统使得个体能够与各种SR布景进行交互和/或感知各种SR布景。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计为接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理布景的图像/视频和/或捕获物理布景的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，表示图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施例中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理布景中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括抬头显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。虽然音乐通常是音频体验，但歌词内容、声音动态或其他特征适合于补充视觉体验。先前可获得的视听体验，诸如音乐视频和/或算法音频可视化，不是真正沉浸式的和/或不是针对用户环境定制的。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性实施方式的方面，其中一些实施方式在附图中示出。

图1A是根据一些实施方式的示例性操作架构的框图。

图1B是根据一些实施方式的示例性操作架构的框图。

图2是根据一些实施方式的示例性控制器的框图。

图3是根据一些实施方式的示例性头戴式设备(HMD)的框图。

图4A-4G示出了根据一些实施方式的在第一音频文件的回放期间的SR体积环境。

图5A-5G示出了根据一些实施方式的在第一音频文件的回放期间的另一SR体积环境。

图6示出了根据一些实施方式的音频/SR体验数据对象。

图7是根据一些实施方式的呈现音频/SR体验的第一方法的流程图表示。

图8A-8B示出了根据一些实施方式的在第二音频文件的回放期间的图4A的SR体积环境。

图9A-9C示出了根据一些实施方式的在第三音频文件的回放期间的图4A的SR体积环境。

图10A-10E示出了根据一些实施方式的在第四音频文件的回放期间的图4A的SR体积环境。

图11是根据一些实施方式的呈现音频/SR体验的第二方法的流程图表示。

图12A-12E示出了根据一些实施方式的在讲故事的人讲出的故事期间的图4A的SR体积环境。

图13是根据一些实施方式的呈现音频/SR体验的第三方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种实施方式包括用于呈现音频/SR体验的设备、系统和方法。在各种实施方式中，第一方法由包括一个或多个处理器、非暂态存储器、扬声器和显示器的设备执行。该方法包括：将具有相关联时间线的音频文件存储在该非暂态存储器中。该方法包括：与该音频文件相关联地将多个SR内容事件存储在该非暂态存储器中，其中该多个SR内容事件中的每个SR内容事件与相应时间标准和相应环境标准相关联。在经由该扬声器播放该音频文件时，该方法包括：使用该处理器基于该音频文件的该时间线上的当前位置确定满足该多个SR内容事件中的特定SR内容事件的该相应时间标准。在经由该扬声器播放该音频文件时，该方法包括：使用该处理器基于环境的环境数据确定满足该多个SR事件中的该特定SR事件的该相应环境标准。在经由该扬声器播放该音频文件时，该方法包括：响应于确定满足该多个SR内容事件中的该特定SR内容事件的该相应时间标准和该相应环境标准，与该环境相关联地在该显示器上显示该多个SR内容事件中的该特定SR内容事件。

在各种实施方式中，第二方法由包括一个或多个处理器、非暂态存储器、扬声器和显示器的设备执行。该方法包括：获取环境的三维(3D)点云。该方法包括：基于音频文件和该环境的该3D点云来获取SR内容。该方法包括：同时地经由该扬声器播放该音频文件并与该环境相关联地在该显示器上显示该SR内容。

在各种实施方式中，第三方法由包括一个或多个处理器、非暂态存储器、扬声器和显示器的设备执行。该方法包括：经由该麦克风记录在环境中产生的真实声音。该方法包括：使用该一个或多个处理器检测该真实声音中的一个或多个说出的字词。该方法包括：基于该一个或多个说出的字词来获取SR内容。该方法包括：与该环境相关联地在该显示器上显示该SR内容。

根据一些实施方式，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；一个或多个程序被存储于非暂态存储器中并且被配置为由一个或多个处理器执行。一个或多个程序包括用于执行或促使执行本文描述的任何方法的指令。根据一些实施方式，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些实施方式，一种设备包括：一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

具体实施方式

描述了许多细节以便提供对附图中所示的示例实施方式的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性实施方式的更多相关方面。

如上所述，先前可获得的视听体验，诸如音乐视频和/或算法音频可视化，不是真正沉浸式的和/或不是针对用户环境定制的。因此，在本文所述的各种实施方式中，呈现音频/SR体验。在本文所述的各种实施方式中，音频文件的时间线与基于对用户环境的分析而显示的策划SR内容事件相关联。在各种实施方式中，在音频文件(例如，音频或元数据[歌词、标题、艺术家等])的播放期间基于对该音频文件的分析即时获取SR内容并呈现在用户环境中。在各种实施方式中，基于在用户听到的音频中检测到的说出的字词来呈现SR内容。

图1A是根据一些实施方式的示例性操作架构100A的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性实施方式的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作架构100A包括电子设备120A。

在一些实施方式中，电子设备120A被配置为向用户呈现CGR内容。在一些实施方式中，电子设备120A包括软件、固件和/或硬件的合适组合。根据一些实施方式，在用户物理地存在于物理环境103内时，电子设备120A经由显示器122向用户呈现SR内容，该物理环境包括处于电子设备120A的视场111内的桌子107。在一些实施方式中，用户将电子设备120A拿在他/她的一只或两只手中。在一些实施方式中，在提供增强现实(AR)内容的同时，电子设备120A被配置为显示AR对象(例如，AR立方体109)并在显示器122上实现物理环境103(例如，包括桌子107的表示117)的视频透传。

图1B是根据一些实施方式的示例性操作架构100B的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性实施方式的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境100B包括控制器110和头戴式设备(HMD)120B。

在一些实施方式中，控制器110被配置为管理和协调SR内容对用户的呈现。在一些实施方式中，控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些实施方式中，控制器110是相对于场景105处于本地或远程位置的计算设备。例如，控制器110是位于场景105内的本地服务器。又如，控制器110是位于场景105之外的远程服务器(例如，云服务器、中央服务器等)。在一些实施方式中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE802.11x、IEEE 802.16x、IEEE 802.3x等)与HMD 120B通信耦接。又如，控制器110包括在HMD 120B的外壳内。

在一些实施方式中，HMD 120B被配置为向用户呈现SR内容。在一些实施方式中，HMD 120B包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述HMD 120B。在一些实施方式中，控制器110的功能由HMD 120B提供和/或与HMD 120B结合。

根据一些实施方式，当用户虚拟地和/或物理地存在于场景105内时，HMD 120B向用户提供SR内容。

在一些实施方式中，用户将HMD 120B戴在他/她的头上。因此，HMD 120B包括被提供用于显示SR内容的一个或多个SR显示器。例如，在各种实施方式中，HMD 120B包围用户的视场。在一些实施方式中，如图1A所示，使用被配置为呈现SR内容的手持设备(诸如智能电话或平板电脑)代替HMD 120B，并且用户不再佩戴HMD 120B而是手持该设备，同时使显示器朝向用户的视场，并且使相机朝向场景105。在一些实施方式中，手持设备可被放置在可被佩戴在使用者的头部的外壳内。在一些实施方式中，使用被配置为呈现SR内容的SR舱、外壳或室替代HMD 120B，其中用户不再佩戴或手持HMD 120B。

图2是根据一些实施方式的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的实施方式的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些实施方式中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理核心等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、蓝牙、ZIGBEE和/或相似类型接口)、一个或多个编程(例如，I/O)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些实施方式中，所述一条或多条通信总线204包括互连系统部件和控制系统部件之间的通信的电路。在一些实施方式中，一个或多个I/O设备206包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一种。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些实施方式中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些实施方式中，存储器220或者存储器220的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统230和SR体验模块240。

操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些实施方式中，SR体验模块240被配置为管理和协调一个或多个用户的单重或多重SR体验(例如，一个或多个用户的单重SR体验，或一个或多个用户的相应群组的多重SR体验)。为此，在各种实施方式中，SR体验模块240包括数据获取单元242、跟踪单元244、协调单元246和数据传输单元248。

在一些实施方式中，数据获取单元242被配置为至少从HMD 120B获取数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。为此，在各种实施方式中，数据获取单元242包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些实施方式中，跟踪单元244被配置为映射场景105并且至少跟踪HMD 120B相对于场景105的位置/定位。为此，在各种实施方式中，跟踪单元244包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些实施方式中，协调单元246被配置为管理和协调由HMD 120B向用户呈现的SR体验。为此，在各种实施方式中，协调单元246包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些实施方式中，数据传输单元248被配置为至少向HMD 120B传输数据(例如，呈现数据、位置数据等)。为此，在各种实施方式中，数据传输单元248包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

尽管数据获取单元242、跟踪单元244、协调单元246和数据传输单元248被示为驻留在单个设备(例如，控制器110)上，但应当理解，在其他实施方式中，数据获取单元242、跟踪单元244、协调单元246和数据传输单元248的任何组合可位于单独计算设备中。

此外，图2更多地用作可以存在于特定实施例中的各种特征的功能描述，与本文所述的实施方式的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种实施方式中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据实施方式而变化，并且在一些实施方式中，部分地取决于为特定实施例选择的硬件、软件和/或固件的特定组合。

图3是根据一些实施方式的HMD 120B的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的实施方式的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些实施方式中，HMD 120B包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器306、一个或多个通信接口308(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个SR显示器312、一个或多个面向内部和/或面向外部的图像传感器314、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些实施方式中，一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些实施方式中，一个或多个I/O设备和传感器306包括惯性测量单元(IMU)、加速度计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风307A、一个或多个扬声器307B(例如，耳机或扩音器)、触觉引擎以及/或者一个或多个深度传感器(例如，结构光、飞行时间等)等中的至少一者。

在一些实施方式中，一个或多个SR显示器312被配置为向用户提供SR体验。在一些实施方式中，一个或多个SR显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)以/或者类似的显示器类型。在一些实施方式中，一个或多个SR显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，HMD 120B包括单个SR显示器。又如，HMD 120B针对用户的每只眼睛包括SR显示器。在一些实施方式中，一个或多个SR显示器312能够呈现AR和VR内容。

在一些实施方式中，一个或多个图像传感器314被配置为获取对应于用户面部的至少一部分(包括用户的眼睛)的图像数据(因而可称为眼睛跟踪摄像机)。在一些实施方式中，一个或多个图像传感器314被配置成面向前方，以便获取对应于当不存在HMD 120B时用户将看到的场景的图像数据(因而可以被称为场景相机)。一个或多个图像传感器314可包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、一个或多个红外(IR)相机以及/或者一个或多个基于事件的相机等。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些实施方式中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些实施方式中，存储器320或者存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括可选的操作系统330和SR呈现模块340。

操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些实施方式中，SR呈现模块340被配置为经由一个或多个SR显示器312向用户呈现SR内容。为此，在各种实施方式中，SR呈现模块340包括数据获取单元342、音频/SR呈现单元344和数据传输单元348。

在一些实施方式中，数据获取单元342被配置为从控制器110(例如，经由通信接口308)、I/O设备和传感器306或者一个或多个图像传感器314中的一者或多者获取数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。为此，在各种实施方式中，数据获取单元342包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些实施方式中，音频/SR呈现单元344被配置为经由一个或多个SR显示器312(以及各种实施方式中的扬声器307B和/或麦克风307A)呈现音频/SR体验。为此，在各种实施方式中，SR呈现单元344包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。

在一些实施方式中，数据传输单元346被配置为至少向控制器110传输数据(例如，呈现数据、位置数据等)。为此，在各种实施方式中，数据传输单元346包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

尽管数据获取单元342、音频/SR呈现单元344和数据传输单元346被示为驻留在单个设备(例如，HMD 120B)上，但应当理解，在其他实施方式中，数据获取单元342、音频/SR呈现单元344和数据传输单元346的任何组合可位于独立计算设备中。

此外，图3更多地用作可能存在于特定实施例中的各种特征的功能描述，与本文所述的实施方式的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种实施方式中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据实施方式而变化，并且在一些实施方式中，部分地取决于为特定实施例选择的硬件、软件和/或固件的特定组合。

图4A示出了基于由设备的场景相机勘察的真实环境的SR体积环境400。在各种实施方式中，场景相机是设备的一部分，该设备由用户佩戴并包括显示SR体积环境400的显示器。因而，在各种实施方式中，用户物理地存在于环境中。在各种实施方式中，场景相机是将图像从场景相机传输到本地设备的远程设备(诸如无人机或机器人头像)的部分，该本地设备由用户佩戴并且包括显示SR体积环境400的显示器。

图4A示出了在第一音频文件(例如，由名为“ArtistName1”的艺术家所作的名称为“SongName1”的歌曲)的回放期间的第一时间的SR体积环境400。

SR体积环境400包括多个对象，包括一个或多个真实对象(例如，照片411、桌子412、电视413、灯414和窗户415)和一个或多个虚拟对象(例如，音频回放指示器420)。在各种实施方式中，在第一SR体积环境400中的位置处(例如，在由三维(3D)SR坐标系中的三个坐标限定的位置处)显示每个对象。因此，当用户在SR体积环境400中移动(例如，改变位置和/或取向)时，对象在HMD的显示器上移动，但保持其在SR体积环境400中的位置。在各种实施方式中，在显示器上的位置处显示某些虚拟对象(诸如音频回放指示器420)，使得当用户在SR体积环境400中移动时，对象在HMD上的显示器上为静止的。

音频回放指示器420包括关于音频文件的回放的信息。在各种实施方式中，音频文件与时间线相关联，使得在各种时间，播放音频文件的各种部分。在各种实施方式中，音频回放指示器420包括文本，诸如与音频文件相关联的艺术家和/或与音频文件相关联的标题。在各种实施方式中，音频回放指示器420包括音频进度条，其指示正在播放的音频文件的时间线上的当前位置。在各种实施方式中，音频回放指示器420包括事件标记，其指示SR内容事件的时间标准。尽管在图4A中显示了音频回放指示器420，但在各种实施方式中，不显示音频回放指示器420，即使正在播放音频文件也是如此。

图4B示出了在第一音频文件的回放期间的第二时间的图4A的SR体积环境400。响应于确定满足第一SR内容事件的第一时间标准和第一SR内容事件的第一环境标准，SR体积环境400包括第一SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第一事件标记指示)时，满足第一SR内容事件的第一时间标准。当SR体积环境400包括具有特定反射率的正方形对象时，满足第一SR内容事件的第一环境标准。在图4B中，因为SR体积环境400包括照片411，所以满足第一环境标准。在其他实施方式中，因为SR体积环境包括数字相框或裱框毕业证书，所以满足第一环境标准。显示第一SR内容事件包括在具有特定反射率的正方形对象之上显示虚拟对象(例如，破裂的玻璃421)。

图4C示出了在第一音频文件的回放期间的第三时间的图4A的SR体积环境400。响应于确定满足第二SR内容事件的第二时间标准和第二SR内容事件的第二环境标准，SR体积环境400包括第二SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第二事件标记指示)时，满足第二SR内容事件的第二时间标准。当SR体积环境400包括具有顶部是较大部分的长的纤细部分的特定形状的对象时，满足第二SR内容事件的第二环境标准。在图4C中，因为SR体积环境400包括灯414，所以满足第二环境标准。在其他实施方式中，因为SR体积环境包括树、雕塑或佩戴大帽子的人，所以满足第二环境标准。显示第二SR内容事件包括显示虚拟对象(例如，外星人422)，该虚拟对象从特定形状的对象的较大部分之内或之后退出并且缩回并隐藏在较大部分之内或之后。

图4D示出了在第一音频文件的回放期间的第四时间的图4A的SR体积环境400。响应于确定满足第三SR内容事件的第三时间标准和第三SR内容事件的第三环境标准，SR体积环境400包括第三SR内容事件。当第一音频文件的时间线上的当前位置在触发窗口(例如，由音频回放指示器420的第三事件标记指示)内时，满足第三SR内容事件的第三时间标准。当SR体积环境400包括特定反射率的动态正方形对象时，满足第三SR内容事件的第三环境标准。在图4D中，因为SR体积环境400包括电视413，所以满足第三环境标准。在其他实施方式中，因为SR体积环境包括数字相框或计算机监视器，所以满足第三环境标准。显示第三SR内容事件包括在具有特定反射率的动态正方形对象之上显示虚拟对象(例如，演奏歌曲的一部分的ArtistName1的视频片段423)。

图4E示出了在第一音频文件的回放期间的第五时间的图4A的SR体积环境400。响应于确定满足第四SR内容事件的第四时间标准和第四SR内容事件的第四环境标准，SR体积环境400包括第四SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第四事件标记指示)时，满足第四SR内容事件的第四时间标准。当SR体积环境400包括桌子时，满足第四SR内容事件的第四环境标准。在图4E中，因为SR体积环境400包括桌子412，所以满足第四环境标准。在其他实施方式中，因为SR体积环境包括不同的桌子或被归类为桌子的另一个对象，所以满足第四环境标准。显示第四SR内容事件包括显示在桌子上移动的虚拟对象(例如，另一个外星人424)。

图4F示出了在第一音频文件的回放期间的第六时间的图4A的SR体积环境400。响应于确定满足第五SR内容事件的第五时间标准和第五SR内容事件的第五环境标准，并且进一步响应于确定满足第五SR内容事件的另一回放标准，SR体积环境400包括第五SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第五事件标记指示)时，满足第五SR内容事件的第五时间标准。当SR体积环境400包括具有特定反射率的正方形对象时，满足第五SR内容事件的第五环境标准(像第一SR内容事件的第一环境标准)。在图4F中，因为SR体积环境400包括照片411，所以满足第五环境标准。在其他实施方式中，因为SR体积环境包括数字相框或裱框毕业证书，所以满足第五环境标准。当先前显示第一SR内容事件时，满足第五SR内容事件的另一回放标准。因此，在各种实施方式中，因为未显示第一SR内容事件(例如，因为照片411在对应触发时间不在场景相机的视场中)，所以即使满足第五时间标准和第五环境标准，也不显示第五SR内容事件。显示第五SR内容事件包括显示从具有特定反射率的正方形对象的位置落下的虚拟对象(例如，破裂的玻璃425)。

图4G示出了在第一音频文件的回放期间的第七时间的图4A的SR体积环境400。响应于确定满足第六SR内容事件的第六时间标准和第六SR内容事件的第六环境标准，SR体积环境400包括第六SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第六事件标记指示)时，满足第六SR内容事件的第六时间标准。当SR体积环境400被归类为内部时，满足第六SR内容事件的第六环境标准。在图4G中，因为SR体积环境400在房间内，所以满足第六环境标准。显示第六SR内容事件包括显示闯入房间中的虚拟对象(例如，另一个外星人426)。因此，在各种实施方式中，包括窗口(诸如汽车内部或房屋外部)但被分类为外部的SR环境将不触发第六SR内容事件的显示。

图5A示出了基于由设备的场景相机勘察的真实环境(不同于图4A-4G的真实环境)的SR体积环境500。在各种实施方式中，场景相机是设备的一部分，该设备由用户佩戴并包括显示第一SR环境500的显示器。因而，在各种实施方式中，用户物理地存在于环境中。在各种实施方式中，场景相机是将图像从场景相机传输到本地设备的远程设备(诸如无人机或机器人头像)的部分，该本地设备由用户佩戴并且包括显示SR环境500的显示器。

图5A示出了在第一音频文件(例如，由名为“ArtistName1”的艺术家所作的名称为“SongName1”的歌曲)的回放期间的第一时间的另一个SR体积环境500。

SR体积环境500包括多个对象，包括一个或多个真实对象(例如，天空511、树512、桌子513和沙滩514)和一个或多个虚拟对象(例如，音频回放指示器420)。在各种实施方式中，在第一SR体积环境400中的位置处(例如，在由三维(3D)SR坐标系中的三个坐标限定的位置处)显示每个对象。因此，当用户在SR体积环境500中移动(例如，改变位置和/或取向)时，对象在HMD的显示器上移动，但保持其在SR体积环境500中的位置。在各种实施方式中，在显示器上的位置处显示某些虚拟对象(诸如音频回放指示器420)，使得当用户在SR体积环境400中移动时，对象在HMD上的显示器上为静止的。

图5B示出了在第一音频文件的回放期间的第二时间的图5A的SR体积环境500。因为SR体积环境500不包括具有特定反射率的正方形对象，所以不显示第一SR内容事件(在图4B中显示)。然而，响应于确定满足第七SR内容事件的第七时间标准和第七SR内容事件的第七环境标准，SR体积环境500包括第七SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第一事件标记指示，例如，第一SR内容事件的相同触发时间)时，满足第七SR内容事件的第七时间标准。当SR体积环境500包括天空时，满足第七SR内容事件的第七环境标准。在图5B中，因为SR体积环境500包括天空511，所以满足第五环境标准。显示第七SR内容事件包括显示在天空上移动的虚拟对象(例如，宇宙飞船521)。

图5C示出了在第一音频文件的回放期间的第三时间的图5A的SR体积环境500。类似于图4C，响应于确定满足第二SR内容事件的第二时间标准和第二环境标准，SR体积环境500包括第二SR内容事件。如上所述，当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第二事件标记指示)时，满足第二SR内容事件的第二时间标准，并且当SR体积环境500包括具有顶部是较大部分的长的纤细部分的特定形状的对象时，满足第二SR内容事件的第二环境标准。在图5C中，因为SR体积环境500包括树512，所以满足第二环境标准。如上所述，显示第二SR内容事件包括显示虚拟对象(例如，外星人422)，该虚拟对象从较大部分之内或之后退出并且缩回并隐藏在较大部分之内或之后。

图5D示出了在第一音频文件的回放期间的第四时间的图5A的SR体积环境500。因为SR体积环境500不包括具有特定反射率的动态正方形对象，所以不显示第三SR内容事件(在图4D中显示)。在图5D的实施方式中，在第四时间不显示SR内容事件。

图5E示出了在第一音频文件的回放期间的第五时间的图5A的SR体积环境500。类似于图4E，响应于确定满足第四SR内容事件的第四时间标准和第四SR内容事件的第四环境标准，SR体积环境500包括第四SR内容事件。如上所述，当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第四事件标记指示)时，满足第四SR内容事件的第四时间标准，并且当SR体积环境400包括桌子时，满足第四SR内容事件的第四环境标准。在图5E中，因为SR体积环境500包括桌子513，所以满足第四环境标准。如上所述，显示第四SR内容事件包括显示在桌子上移动的虚拟对象(例如，另一个外星人424)。

图5F示出了在第一音频文件的回放期间的第六时间的图5A的SR体积环境500。响应于确定满足第八SR内容事件的第八时间标准和第八SR内容事件的第八环境标准，并且进一步响应于确定满足第八SR内容事件的另一回放标准，SR体积环境500包括第八SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第五事件标记指示)时，满足第八SR内容事件的第八时间标准。当SR体积环境500包括天空时，满足第八SR内容事件的第八环境标准(像第七SR内容事件的第七环境标准)。在图5F中，因为SR体积环境500包括天空511，所以满足第八环境标准。当先前显示第七SR内容事件时，满足第八SR内容事件的另一回放标准。因此，在各种实施方式中，因为未显示第七SR内容事件(例如，因为天空511在对应触发时间(诸如当用户曾在内部、但已移到外部时)不在场景相机的视场中)，所以即使满足第八时间标准和第八环境标准，也不显示第八SR内容事件。显示第八SR内容事件包括显示以下虚拟对象(例如，第七SR内容事件的宇宙飞船521)，该虚拟对象与另一虚拟对象(例如，战斗机525)一起在天空上移动。

图5G示出了在第一音频文件的回放期间的第七时间的图5A的SR体积环境500。因为SR体积环境500未被分类为内部，因此不显示第六SR内容事件(在图4G中显示)。然而，响应于确定满足第九SR内容事件的第九时间标准和第九SR内容事件的第九环境标准，SR体积环境500包括第九SR内容事件。当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第六事件标记指示)时，满足第九SR内容事件的第九时间标准。当SR体积环境500被归类为外部时，满足第五SR内容事件的第九环境标准。在图5G中，因为SR体积环境500在外部、在海滩上，所以满足第九环境标准。显示第九SR内容事件包括显示从地面掘出的多个虚拟对象(例如，多个外星人526A-526B)。

图6示出了根据一些实施方式的音频/SR体验数据对象600。音频/SR体验数据对象600包括音频/SR体验元数据610。在各种实施方式中，音频/SR体验元数据610包括音频/SR体验数据对象600的标题。在各种实施方式中，音频/SR体验元数据610包括指示音频/SR体验的创建者或提供者的数据。在各种实施方式中，音频/SR体验元数据610包括指示音频/SR体验的创建时间的数据(例如，日期或年份)。

音频/SR体验数据对象600包括音频文件620。在各种实施方式中，音频文件是例如MP3文件、AAC文件或WAV文件。音频文件620包括音频文件元数据622。在各种实施方式中，音频文件元数据622包括指示标题、艺术家、专辑、发布年份、歌词等的数据。音频文件620包括音频数据624。在各种实施方式中，音频数据624包括指示扬声器可播放的音频的数据。在各种实施方式中，音频数据624包括指示歌曲或说出的字词的数据。

音频/SR体验数据对象600包括SR内容包630。在各种实施方式中，SR内容包630包括SR内容包元数据632和多个SR内容事件634。多个SR内容事件634包括第一SR内容事件640A、第二SR内容事件640B和第三SR内容事件640C。在各种实施方式中，SR内容包630可包括任何数量的SR内容事件640A-640C。

第一SR内容事件640A包括元数据(诸如事件标识符或SR内容事件的名称)。第一SR内容事件640A包括指示时间标准的数据。在各种实施方式中，当音频文件的时间线上的当前位置与SR内容事件的触发时间匹配时，满足时间标准。在各种实施方式中，当音频文件的时间线上的当前位置在SR内容事件的触发时间范围内时，满足时间标准。

第一SR内容事件640A包括指示环境标准的数据。在各种实施方式中，当勘察环境的场景相机的环境为特定环境类别时，满足环境标准。例如，在各种实施方式中，环境被分类为大房间、小房间、内部、外部、明亮或黑暗。因此，在各种实施方式中，环境标准包括指示环境类别的数据。在各种实施方式中，当勘测环境的场景相机的环境包括特定形状的对象时，满足环境标准。例如，在各种实施方式中，特定形状是在一定大小范围内的大致圆形的对象或高于第一阈值但窄于第二阈值的对象。因此，在各种实施方式中，环境标准包括形状或形状类别的定义，诸如形状匹配标准。在各种实施方式中，当勘测环境的场景相机的环境包括特定类型的对象时，满足环境标准。例如，在各种实施方式中，特定类型可以是窗口、桌子、镜子、显示屏等。因此，在各种实施方式中，环境标准包括指示对象类型的数据。

第一SR内容事件640A包括指示其他标准的数据。在各种实施方式中，其他标准与用户设置、先前已播放的其他SR内容事件、用户触发/动作、一天中的时间、用户生物计量、环境声音、随机数等中的一者或多者相关。

第一SR内容事件640A包括当满足时间标准和环境标准(以及任何其他标准)时显示的SR内容。在各种实施方式中，SR内容显示在环境中真实对象的表示之上。在各种实施方式中，SR内容包括与音频文件同时播放的补充音频文件。

第二SR内容事件640B和第三SR内容事件640C包括与第一SR内容事件640A基本上类似的字段。在各种实施方式中，多个SR内容事件634包括具有相同时间标准但不同环境标准的两个事件。在各种实施方式中，多个SR内容事件634包括具有相同环境标准但不同时间标准的两个事件。

在各种实施方式中，音频/SR体验数据对象600被存储为文件。在各种实施方式中，音频/SR体验数据对象600由人类设计者使用例如计算设备的编程接口来创建，例如设计、工程化和/或编程。

在各种实施方式中，多个音频/SR体验数据对象存储在非暂态存储器中。在各种实施方式中，多个音频/SR体验数据对象由内容提供者存储。此外，内容提供者可提供用于向消费者销售音频/SR体验数据对象的虚拟店面。因此，在各种实施方式中，多个音频/SR体验数据对象中的一个或多个正在传输和/或已下载(例如，由消费者流式传输或保存在不同的非暂态存储器上)。

在各种实施方式中，SR内容包与音频文件分开存储、销售、传输、下载和/或流式传输。因此，在各种实施方式中，SR内容包元数据包括与其相关联的音频文件的指示。

图7是根据一些实施方式的呈现音频/SR体验的第一方法700的流程图表示。在各种实施方式中，方法700由具有一个或多个处理器、非暂态存储器、扬声器和显示器的设备(例如，图3的HMD 120B)执行。在一些实施方式中，方法700由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些实施方式中，方法700由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法700开始于框710，其中设备存储具有相关联时间线的音频文件。在各种实施方式中，音频文件是MP3文件、AAC文件、WAV文件等。在各种实施方式中，音频文件包括表示音乐和/或说出的字词(例如，有声读物)的音频数据。

方法700在框720中继续，其中设备与音频文件相关联地存储多个SR内容事件。多个SR内容事件中的每个SR内容事件与相应时间标准和相应环境标准相关联。在各种实施方式中，多个SR内容事件与音频文件相关联地存储为单个数据对象，诸如图6的音频/SR体验数据对象600。在各种实施方式中，多个SR内容事件与音频文件相关联地与音频文件分开存储，但是与指示与多个SR内容事件相关联的音频文件的元数据一起存储。

方法700在框730中继续，其中在播放音频文件时，设备基于音频文件的时间线上的当前位置确定满足多个SR内容事件中的特定SR内容事件的相应时间标准。在各种实施方式中，当音频文件的时间线上的当前位置与多个SR内容事件中的特定SR内容事件的触发时间匹配时，满足相应时间标准。例如，在图4B中，当第一音频文件的时间线上的当前位置匹配触发时间(例如，由音频回放指示器420的第一事件标记指示)时，满足第一SR内容事件的第一时间标准。在各种实施方式中，当音频文件的时间线上的当前位置在多个SR内容事件中的特定SR内容事件的触发时间范围内时，满足多个SR内容事件中的特定SR内容事件的相应时间标准。例如，在图4D中，当第一音频文件的时间线上的当前位置在触发窗口(例如，由音频回放指示器420的第三事件标记指示)内时，满足第三SR内容事件的第三时间标准。在各种实施方式中，SR内容事件具有与时间窗口共延的SR内容时间线，并且当满足相应环境标准时，显示多个SR内容事件中的特定SR内容事件的对应部分(如下文相对于框750所述)。例如，在各种实施方式中，多个SR内容事件中的特定SR内容事件包括视频片段，并且每当场景相机的视场在时间窗口期间包括电视时，视频片段的对应部分就显示在电视上。

方法700在框740中继续，其中在播放音频文件时，设备基于环境(例如，由设备的场景相机勘察的环境)的环境数据确定满足多个SR内容事件中的特定SR内容事件的相应环境标准。在各种实施方式中，场景相机是由用户穿戴的设备的一部分，并且包括显示多个SR内容事件中的特定SR内容事件的显示器(如下文相对于框750所述)。因而，在各种实施方式中，用户物理地存在于环境中。在各种实施方式中，场景相机是将图像从场景相机传输到本地设备的远程设备(诸如无人机或机器人头像)的部分，该本地设备由用户佩戴并且包括显示多个SR内容事件中的特定SR内容事件的显示器。

在各种实施方式中，当环境是特定环境类别时，满足多个SR内容事件中的特定SR内容事件的相应环境标准。在各种实施方式中，设备将环境分类为内部、外部、大房间、小房间、明亮、黑暗等。例如，在图4G中，因为SR体积环境400在房间内并因此被归类为“内部”的环境类别，所以满足第六SR内容事件的第六环境标准。又如，在图5G中，因为SR体积环境500未被分类为“内部”的环境类别，所以不满足第六环境标准，但是因为SR体积环境500在外部、在海滩上并因此被分类为“外部”的环境类别，所以满足第九SR内容事件的第九环境标准。

在各种实施方式中，设备通过对环境(例如，由设备的场景相机捕获的环境)的图像执行图像分析来确定满足多个SR内容事件中的特定SR内容事件的相应环境标准。因此，在各种实施方式中，环境的环境数据包括环境的图像。在各种实施方式中，对环境的图像执行图像分析包括执行对象检测和/或分类。

在各种实施方式中，当环境的图像包括特定形状的对象时，满足多个SR内容事件中的特定SR内容事件的相应环境标准。例如，在图4C中，因为SR体积环境400包括具有顶部是较大部分的长的纤细部分的特定形状的对象(例如，灯414)，所以满足第二SR内容事件的第二环境标准。又如，在图5C中，因为SR体积环境500也包括具有顶部是较大部分的长的纤细部分的特定形状的对象(例如，树512)，所以也满足第二环境标准。

在各种实施方式中，特定形状是一定大小范围内的大致圆形的对象。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在大致圆形的对象之上显示迪斯科球。在各种实施方式中，特定形状是至少阈值大小的平坦表面。因此，在各种实施方式中，显示SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在平坦表面上显示视频内容。

在各种实施方式中，当环境的图像包括特定类型的对象时，满足多个SR内容事件中的特定SR内容事件的相应环境标准。例如，在图4E中，因为SR体积环境400包括被归类为“桌子”的对象(具体地，桌子412)，所以满足第四SR内容事件的第四环境标准。又如，在图5E中，因为SR体积环境500也包括被归类为“桌子”的对象(具体地，桌子513)，所以也满足第四环境标准。

在各种实施方式中，特定类型是“镜子”。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在镜子之上显示SR内容，诸如仅存在于“镜子世界”中的虚拟对象。在各种实施方式中，特定类型是“窗口”。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在窗口之上显示SR内容，诸如看起来在外部、在窗口之外的虚拟对象。在各种实施方式中，特定类型是“显示屏”。因此，在各种实施方式中，显示所述多个SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在显示屏上显示SR内容，诸如电视上的艺术家的视频片段。在各种实施方式中，特定类型是“照片”。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件(如下文相对于框750所述)包括在照片之上显示SR内容，诸如将家庭照片替换为艺术家的照片或将猫的海报替换为由艺术家主演的音乐会促销的海报。

如上所述，在各种实施方式中，环境数据包括环境的图像。在各种实施方式中，环境数据包括设备的GPS位置。因此，在各种实施方式中，当GPS位置指示设备位于特定位置时，满足相应环境标准。在各种实施方式中，环境数据包括网络连接性信息。因此，在各种实施方式中，当设备连接到用户的家庭WiFi时，满足相应环境标准。在各种实施方式中，当设备连接到公共WiFi网络时，满足相应环境标准。

在各种实施方式中，环境数据包括环境的声音记录。因此，在各种实施方式中，当检测到特定声音或当环境安静时，满足相应环境标准。

方法700在框750中继续，其中在播放音频文件时并且响应于确定满足相应时间标准和相应环境标准，设备与环境相关联地显示多个SR内容事件中的特定SR内容事件。在各种实施方式中，显示多个SR内容事件中的特定SR内容事件包括在于环境中检测到的对象之上显示内容。在各种实施方式中，显示多个SR内容事件中的特定SR内容事件包括在所检测到的对象之上显示内容。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件包括将SR体积环境中的真实对象替换为SR体积环境中的虚拟对象。在各种实施方式中，显示多个SR内容事件中的特定SR内容事件包括显示与所检测到的对象邻近或附接到所检测到的对象的内容。因此，在各种实施方式中，显示多个SR内容事件中的特定SR内容事件包括显示附接到SR体积环境中的真实对象的虚拟对象。

图8A示出了在第二音频文件(例如，由名为“ArtistName2”的艺术家所作的名称为“SongName2”的歌曲)的回放期间的第一时间的图4A的SR体积环境400。

图8B示出了在第二音频文件的回放期间的第二时间的图4A的SR体积环境400。在图8B中，SR内容(基于音频文件和真实环境)显示在SR体积环境400中。

在图8B中，照片411替换为与第二音频文件的专辑相关联的专辑封面811。电视413从显示新闻节目更改为显示演奏第二音频文件的歌曲的艺术家的音乐会片段813。窗口415更改为使得雨815出现在外部(例如，基于包括字词“雨”的第二音频文件的标题)。灯414替换为希腊柱814(例如，基于第二音频文件的流派是“希腊”)。壁炉816显示在SR体积环境400的墙壁上(例如，基于包括短语“坐在火旁”的第二音频文件的歌词)。蜡烛812显示在桌子412上(例如，响应于第二音频文件的歌词/音乐分析指示其被分类为情歌)。

图9A示出了在第三音频文件(例如，由名为“ArtistName2”的艺术家所作的名称为“SongName3”的歌曲)的回放期间的第一时间的图4A的SR体积环境400。

图9B示出了在第三音频文件的回放期间的第二时间的图4A的SR体积环境400。在图9B中，SR内容(基于音频文件和真实环境)显示在SR体积环境400中。

在图9B中，第一组音频/SR线911A显示在SR体积环境400的房间边界(例如，天花板、地板和墙壁)上。音频/SR线911A基于第三音频文件的音频数据。例如，在各种实施方式中，音频/SR线911A基于第二时间的第三音频文件的音频数据的音量和/或频率。因此，音频/SR线911A是使用音频可视化算法生成的。音频/SR线911A基于真实环境，因为它们仅显示在SR体积环境400的房间边界上。因此，音频/SR线911A被电视413遮挡。类似地，音频/SR线911A因房间边界的位置而失真，例如，在SR体积环境400的房间的拐角处弯曲。

图9C示出了在第三音频文件的回放期间的第三时间的图4A的SR体积环境400。在图9C中，SR内容(基于音频文件和真实环境)显示在SR体积环境400中。

在图9C中，第二组音频/SR线911B显示在SR体积环境的房间边界(例如，天花板、地板和墙壁)上。音频/SR线911B基于第三时间的第三音频文件的音频数据。例如，在各种实施方式中，音频/SR线911B基于第三时间的第三音频文件的音频数据的音量和/或频率。因此，音频/SR线911B是使用音频可视化算法生成的。音频/SR线911B基于真实环境，因为它们仅显示在SR体积环境400的房间边界上。因此，音频/SR线911B被电视413、桌子412和灯414遮挡。类似地，音频/SR线911B因房间边界的位置而失真，例如，在SR体积环境400的房间的拐角处弯曲。

图10A示出了在第四音频文件(例如，由名为“ArtistName2”的艺术家所作的名称为“SongName4”的歌曲)的回放期间的第一时间的图4A的SR体积环境400。

图10B示出了在第四音频文件的回放期间的第二时间的图4A的SR体积环境400。在图10B中，SR内容(基于音频文件和真实环境)显示在SR体积环境400中。

在图10B中，第一组音频/SR魔法球1011A显示在SR体积环境400中。音频/SR魔法球1011A基于第四音频文件的音频数据。例如，在各种实施方式中，音频/SR魔法球1011A基于第二时间的第四音频文件的音频数据的音量和/或频率。例如，在各种实施方式中，各种位置处的音频/SR魔法球1011A的大小基于第二时间的第四音频文件的音频数据的各种频率下的音量。因此，在各种实施方式中，音频/SR魔法球1011A是使用音频可视化器算法生成的。

音频/SR魔法球1011A基于真实环境，因为它们是位于SR体积环境400中的各种位置处的与SR虚拟环境400交互(如下所述)并且受SR虚拟环境400影响(例如，被从灯414发射或通过窗口415的光照亮)的虚拟对象。

图10C示出了在第四音频文件的回放期间的第三时间的图4A的SR体积环境400。在图10C中，第一组音频/SR魔法球1011A已在SR体积环境400中移动(例如，坠落)。

图10D示出了在第四音频文件的回放期间的第四时间的图4A的SR体积环境400。在图10D中，第一组音频/SR魔法球1011A已经在SR体积环境400中移动(例如，进一步坠落并与桌子412交互)。如图10D所示，音频/SR魔法球1011A中的几个已受到SR体积环境400影响。具体地，音频/SR魔法球1011A中的三个音频/SR魔法球的路径已因SR体积环境400中的桌子412的存在而改变。

在图10D中，第二组音频/SR魔法球1011B显示在SR体积环境400中。音频/SR魔法球1011B基于第四时间的第四音频文件的音频数据。例如，在各种实施方式中，音频/SR魔法球1011B基于第四时间的第四音频文件的音频数据的音量和/或频率。例如，在各种实施方式中，各种位置处的音频/SR魔法球1011B的大小基于第四时间的第四音频文件的音频数据的各种频率下的音量。因此，在各种实施方式中，音频/SR魔法球1011A是使用音频可视化器算法生成的。

图10E示出了在第四音频文件的回放期间的第五时间的图4A的SR体积环境400。在图10E中，第一组音频/SR魔法球1011A已经在SR体积环境400中移动(例如，进一步坠落并与桌子412和地板交互)。如图10E所示，音频/SR魔法球1011A中的几个已受到SR体积环境400影响。具体地，音频/SR魔法球1011A中的许多音频/SR魔法球的路径已被SR体积环境400的底板改变。此外，音频/SR魔法球1011A中的两个被灯414遮挡。类似地，第二组音频/SR魔法球1011B已经在SR体积环境400中移动(例如，坠落)。

图11是根据一些实施方式的呈现音频/SR体验的第二方法1100的流程图表示。在各种实施方式中，方法1100由具有一个或多个处理器、非暂态存储器、扬声器和显示器的设备(例如，图3的HMD 120B)执行。在一些实施方式中，方法1100由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些实施方式中，方法1100由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法1100开始于框1110，其中设备获取环境的三维(3D)点云。在各种实施方式中，点云基于由场景相机和/或其他硬件获取的环境的图像。在各种实施方式中，设备包括场景相机和/或其他硬件。在各种实施方式中，场景相机和/或其他硬件是由用户穿戴的设备的一部分，并且包括显示SR内容的显示器(如下文相对于框1130所述)。因而，在各种实施方式中，用户物理地存在于环境中。在各种实施方式中，场景相机是将图像从场景相机传输到本地设备的远程设备(诸如无人机或机器人头像)的部分，该本地设备由用户佩戴并且包括显示SR内容的显示器。

在各种实施方式中，点云包括3D SR坐标系内的多个3D点。在各种实施方式中，3DSR坐标系是重力对准的，使得坐标之一(例如，z坐标)与重力向量的方向反向延伸。重力向量可通过设备的加速度计来获取。点云中的每个点表示环境的表面上的点，例如，相对于图4A的SR体积环境400，是墙壁(或墙壁上的照片411、电视413或窗口415)、地板、灯414或桌子412上的点。在各种实施方式中，点云是使用VIO(视觉惯性里程计)和/或深度传感器获取的。在各种实施方式中，点云以环境的图像以及按照不同角度拍摄的环境的先前图像为基础，以提供立体成像。在各种实施方式中，点云中的点与元数据相关联，元数据可以是诸如环境中表面上的点的颜色、纹理、反射率或透射率或者环境中的表面上的点的位置方面的置信度。

因此，在各种实施方式中，从由环境中(例如，在各种取向和/或位置处)的多个位姿表征的透传图像数据(例如，由场景相机捕获的图像)获取环境的3D点云，其中环境中的多个位姿中的每一个与图像传感器(例如，场景相机)的相应视场相关联。

在各种实施方式中，设备生成3D点云的点的表征向量，其中表征向量中的每一个包括一个或多个标签。3D点云的特定点的特定表征向量的一个或多个标签与物理对象的类型和/或其特征相关联。例如，表征向量可包括指示3D点云的特定点对应于真实环境中的房间边界(诸如天花板、地板或墙壁)、桌子或灯的表面的标签。在各种实施方式中，表征向量包括与宏信息和微信息相关联的多个标签。例如，表征向量可包括指示3D点云的特定点对应于房间边界的表面的第一标签和指示3D点云的特定点对应于墙壁的表面的第二标签。又如，表征向量可包括指示3D点云的特定点对应于桌子的表面的第一标签和指示3D点云的特定点对应于桌子的腿部的表面的第二标签。

在各种实施方式中，表征向量由机器学习过程(例如，由神经网络)生成。在一些实施方式中，生成表征向量包括自3D点云消除点群，其中点群的表征向量满足对象置信度标准。在各种实施方式中，如果相应点的表征向量中所包括的机器学习分派的标签彼此足够相似，则满差阈值。在各种实施方式中，识别多个候选对象的多个点集群。

在各种实施方式中，生成表征向量包括确定点群的体积区域，其中该体积区域对应于对象在空间中的3D表示。在各种实施方式中，当相对于特定候选对象，3D点云包括足够数量的点以便满足关于对象的标识的阈值置信度水平和/或关于所计算体积的准确度的阈值置信度水平时，满足对象置信度标准。在各种实施方式中，当相对于特定候选对象，3D点云的点彼此足够接近以便满足关于对象的标识的阈值置信度水平和/或关于所计算体积的准确度的阈值置信度水平时，满足对象置信度标准。因此，在各种实施方式中，设备基于3D点云的点的表征向量来检测环境中具有特定对象类型的对象。

在各种实施方式中，设备检测环境中的一个或多个表面。在各种实施方式中，标记表面(例如，基于表征向量)。在各种实施方式中，表面不被标记并且仅由其位置和边界限定。设备可采用多种方法来从点云检测表面(例如，平面表面)。例如，在各种实施方式中，使用RANSAC(随机抽样一致性)方法基于点云检测表面。在一种检测平面表面的RANSAC方法中，迭代包括选择点云中的三个随机点，确定由这三个随机点限定的平面，以及确定点云中处于平面的预设距离(例如，1cm)以内的点的数量。点的数量形成平面的评分(或置信度)，并且在若干次迭代之后，选择具有最高评分的平面作为所检测到的平面表面。在将所检测到的该平面上的点从点云移除的情况下，可重复该方法以检测另一平面表面。

方法1100在框1120中继续，其中设备基于音频文件和环境的3D点云来获取SR内容。

在各种实施方式中，设备基于音频文件的音频数据获取SR内容。例如，在图9B-9C中，设备基于第三音频文件的音频数据(例如，音量和/或频率)来获取包括音频/SR线911A-911B的SR内容。又如，在图10B-10E中，设备基于第四音频文件的音频数据(例如，音量和/或频率)来获取包括音频/SR魔法球1011A-1011B的SR内容。因此，在各种实施方式中，SR内容包括基于音量动态和/或频率动态的抽象可视化。又如，在图8B中，设备至少部分地基于对第二文件的音频数据的分析(例如，节奏或情绪[连同任选地歌词]指示对应于第二文件的歌曲是情歌)来获取包括蜡烛812的SR内容。

在各种实施方式中，设备基于音频文件的元数据诸如标题、艺术家、专辑、流派、歌词等来获取SR内容。例如，在图8B中，设备基于第二音频文件的元数据包括具有指示特定专辑的专辑字段值的专辑字段来获取包括特定专辑的专辑封面811的SR内容。又如，在图8B中，设备基于第二音频文件的元数据包括具有指示艺术家的艺术家字段值的艺术家字段来获取包括演奏第二音频文件的歌曲的艺术家的音乐会片段813的SR内容。又如，在图8B中，设备基于第二音频文件的元数据包括具有包括字词“雨”的标题字段值的标题字段来获取包括雨815的SR内容。又如，在图8B中，设备基于第二音频文件的元数据包括具有“希腊语”的流派字段值的流派字段来获取包括希腊柱814的SR内容。

在各种实施方式中，设备基于音频文件的歌词、通过确定歌词的音频分析或基于音频文件的元数据的歌词字段的歌词字段值来获取SR内容。例如，在图8B中，设备基于第二音频文件的元数据包括具有包括短语“坐在火旁”的歌词字段值的歌词字段来获取包括壁炉816的SR内容。又如，在图8B中，设备至少部分地基于第二文件的歌词指示对应于第二音频文件的歌曲是情歌来获取包括蜡烛812的SR内容。又如，设备基于唤起空间主题的歌词(例如，“今天的星星看起来非常不同……远在月亮之上/行星地球是蓝色的”)来获取将SR体积环境转到空间中的SR内容。

在各种实施方式中，设备基于在环境的3D点云中检测到的一个或多个表面的表面组满足呈现标准来获取SR内容。例如，在各种实施方式中，设备基于检测到对于呈现SR内容来说足够大的平坦竖直表面来获取SR内容。例如，在图8B中，设备基于检测到至少用于显示壁炉的阈值大小的平坦竖直表面(例如，墙壁)来获取包括壁炉816的SR内容。又如，在各种实施方式中，设备基于检测到限定特定形状的对象的多个表面来获取SR内容。例如，在图8B中，设备基于检测到高的纤细的对象(例如，灯414)来获取包括希腊柱814的SR内容。又如，设备基于检测到直径为大约一英尺的圆形对象来获取包括迪斯科球的SR内容。

在各种实施方式中，设备基于环境的3D点云的表征向量来获取SR内容。例如，在各种实施方式中，设备基于检测到环境中的具有特定对象类型的对象来获取SR内容。例如，在图8B中，设备基于检测到照片411来获取包括专辑封面811的SR内容。又如，在图8B中，设备基于检测到电视413来获取包括演奏第二音频文件的歌曲的艺术家的音乐会片段813的SR内容。又如，在图8B中，设备基于检测到窗口415来获取包括雨815的SR内容。又如，在图8B中，设备基于检测到桌子412来获取包括蜡烛812的SR内容。

在各种实施方式中，设备通过基于音频文件和环境的一个或多个特性从标记的SR内容元素的库中选择SR内容来获取SR内容。在各种实施方式中，库远离设备存储，例如，可通过互联网获得。

方法1100在框1130中继续，其中设备同时地经由扬声器播放音频文件并且与环境相关联地在显示器上显示SR内容。在各种实施方式中，显示SR内容包括在于环境中检测到的对象(在特定实施方式中，获取SR内容所基于的对象)之上显示SR内容。因此，在各种实施方式中，显示SR内容包括将SR体积环境中的真实对象替换为SR体积环境中的虚拟对象。在各种实施方式中，显示SR内容包括显示与所检测到的对象(具体地，获取SR内容所基于的对象)邻近或附接到所检测到的对象的内容。因此，在各种实施方式中，显示SR内容包括显示附接到SR体积环境中的真实对象的虚拟对象。

在各种实施方式中，与环境相关联地显示SR内容包括与音频文件同时地经由扬声器播放与SR内容相关联的补充音频文件。例如，在图8B中，音乐会片段813可包括观众欢呼的音频，雨水815可包括下雨的音频，或者壁炉816可包括火焰燃烧的音频。

图12A示出了在讲故事的人490讲出的故事期间的第一时间的图4A的SR体积环境400。在各种实施方式中，讲故事的人490存在于SR体积环境中。在各种实施方式中，讲故事的人490为真实对象，例如人或音频产生设备。在各种实施方式中，讲故事的人490为由设备显示的虚拟对象。

图12B示出了在故事期间的第二时间的图4A的SR体积环境400。在各种实施方式中，讲故事的人490在环境中产生真实声音。在各种实施方式中，真实声音包括一个或多个说出的字词。在图12B中，基于说出的字词和任选地真实环境的SR内容显示在SR体积环境400中。

在图12B中，响应于确定故事的第一部分491的说出的字词包括字词“狗”，SR体积环境400包括另外的虚拟对象，例如狗441。

图12C示出了在故事期间的第三时间的图4A的SR体积环境400。在图12C中，响应于确定故事的第二部分492的说出的字词包括短语“不良视力”，SR体积环境400透过虚拟对象例如光学滤光器442来显示。

图12D示出了在故事期间的第四时间的图4A的SR体积环境400。在图12D中，响应于确定故事的第三部分493的说出的字词包括字词“食物”和修饰短语“在桌子上”，并且进一步响应于在SR体积环境400中检测到桌子412，SR体积环境400包括另一个虚拟对象，例如食物443。

图12E示出了在故事期间的第五时间的图4A的SR体积环境400。在图12E中，响应于确定故事的第四部分494的说出的字词包括字词“雨”和修饰短语“外部”，并且进一步响应于在SR体积环境400中检测到窗口415，SR体积环境400包括另一虚拟对象，例如雨444。

图13是根据一些实施方式的呈现音频/SR体验的第三方法1300的流程图表示。在各种实施方式中，方法1300由具有一个或多个处理器、非暂态存储器和一个或多个SR显示器的设备(例如，图3的HMD 120B)执行。在一些实施方式中，方法1300由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些实施方式中，方法1300由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法1300开始于框1310，其中设备经由麦克风记录在环境中产生的真实声音。在各种实施方式中，设备包括麦克风。在各种实施方式中，麦克风是由用户佩戴的设备的一部分，并且包括显示SR内容的显示器(如下文相对于框1340所述)。因而，在各种实施方式中，用户物理地存在于环境中。在各种实施方式中，场景相机是将图像从场景相机传输到本地设备的远程设备(诸如无人机或机器人头像)的部分，该本地设备由用户佩戴并且包括显示SR内容的显示器。

方法1300在框1320中继续，其中设备检测真实声音中的一个或多个说出的字词。在各种实施方式中，设备采用一种或多种语音识别算法来检测真实声音中的说出的字词。

方法1300在框1330中继续，其中设备基于一个或多个说出的字词获取SR内容。在各种实施方式中，设备在一个或多个说出的字词中检测触发字词并且基于触发字词来获取SR内容。例如，在图12B中，响应于检测到触发字词“狗”，设备获取包括狗441的SR内容。在各种实施方式中，设备进一步检测与触发字词相关联的修饰语字词并且基于修饰语字词来获取SR内容。例如，在图12D中，响应于检测到触发字词“雨”和修饰语字词“外部”，设备获取包括雨444的SR内容。

在各种实施方式中，获取SR内容进一步基于环境的一个或多个空间特性(例如，除环境中存在声音之外的特性)。

例如，在各种实施方式中，基于环境是特定环境类别来获取SR内容。在各种实施方式中，基于环境包括特定形状的对象来获取SR内容。例如，在图12E中，响应于检测到相位“外部”并且进一步响应于检测到窗口415，SR内容包括窗口415外部的雨444。在各种实施方式中，基于环境包括特定类型的对象来获取SR内容。例如，在图12D中，响应于检测到短语“在桌子上”并且进一步响应于在SR体积环境400中检测到桌子412，SR内容包括桌子412上的食物443。

在各种实施方式中，获取SR内容包括基于一个或多个说出的字词中的至少一个说出的字词来从标记的SR内容元素的库中选择SR内容。在各种实施方式中，库远离设备存储，例如通过互联网存储。

方法1300在框1340处继续，其中设备与环境相关联地在显示器上显示SR内容。在各种实施方式中，显示SR内容包括在于环境中检测到的对象(在特定实施方式中，获取SR内容所基于的对象)之上显示SR内容。因此，在各种实施方式中，显示SR内容包括将SR体积环境中的真实对象替换为SR体积环境中的虚拟对象。在各种实施方式中，显示SR内容包括显示与所检测到的对象(具体地，获取SR内容所基于的对象)邻近或附接到所检测到的对象的内容。因此，在各种实施方式中，显示SR内容包括显示附接到SR体积环境中的真实对象的虚拟对象。

在各种实施方式中，与环境相关联地显示SR内容包括经由扬声器播放与SR内容相关联的补充音频文件。例如，在图12E中，狗441可包括狗吠叫的音频，或者雨水444可包括下雨的音频。

虽然上文描述了在所附权利要求书范围内的实施方式的各个方面，但是应当显而易见的是，上述实施方式的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定实施方式并非旨在对权利要求进行限制。如在本实施方式的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括处理器、非暂态存储器、扬声器和显示器的设备处：

将具有相关联时间线的音频文件存储在所述非暂态存储器中；

与所述音频文件相关联地将多个SR内容事件存储在所述非暂态存储器中，其中所述多个SR内容事件中的每个SR内容事件与相应时间标准和相应环境标准相关联；

在经由所述扬声器播放所述音频文件时：

使用所述处理器基于所述音频文件的所述时间线上的当前位置确定满足所述多个SR内容事件中的特定SR内容事件的所述相应时间标准；

使用所述处理器基于环境的环境数据确定满足所述多个SR事件中的所述特定SR事件的所述相应环境标准；以及

响应于确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应时间标准和所述相应环境标准，与所述环境相关联地在所述显示器上显示所述多个SR内容事件中的所述特定SR内容事件。

2.根据权利要求1所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应时间标准包括：确定所述音频文件的所述时间线上的所述当前位置匹配所述多个SR内容事件中的所述特定SR内容事件的触发时间。

3.根据权利要求1所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应时间标准包括：确定所述音频文件的所述时间线上的所述当前位置在所述多个SR内容事件中的所述特定SR内容事件的触发时间范围内。

4.根据权利要求1至3中任一项所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应环境标准包括：确定所述环境是特定环境类别。

5.根据权利要求1至4中任一项所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应环境标准包括：对所述环境的图像的图像分析。

6.根据权利要求5所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应环境标准包括：确定所述环境的图像包括特定形状的对象。

7.根据权利要求5所述的方法，其中确定满足所述多个SR内容事件中的所述特定SR内容事件的所述相应环境标准包括：确定所述环境的所述图像包括特定类型的对象。

8.根据权利要求1至7中任一项所述的方法，其中与所述环境相关联地在所述显示器上显示所述多个SR内容事件中的所述特定SR内容事件进一步响应于确定满足一个或多个另外的标准而执行。

9.根据权利要求1至8中任一项所述的方法，其中与所述环境相关联地在所述显示器上显示所述多个SR内容事件中的所述特定SR内容事件包括：与所述音频文件同时地经由所述扬声器播放与所述多个SR内容事件中的所述特定SR内容事件相关联的补充音频文件。

10.根据权利要求1至9中任一项所述的方法，其中：

所述多个SR内容事件中的第一SR内容事件与第一时间标准和第一环境标准相关联；

所述多个SR内容事件中的第二SR内容事件与第二时间标准和第二环境标准相关联；

所述第一时间标准与所述第二时间标准相同；

所述第一环境标准不同于所述第二环境标准；以及

所述第一SR内容事件不同于所述第二SR内容事件；

所述方法包括：与所述环境相关联地在所述显示器上显示所述第一SR内容事件，而不显示所述第二SR内容事件。

11.根据权利要求1至10中任一项所述的方法，其中：

所述第一时间标准不同于所述第二时间标准；

所述第一环境标准与所述第二环境标准相同；

所述第一SR内容事件不同于所述第二SR内容事件；

所述方法包括：在所述显示器上根据所述第一时间标准显示所述第一SR内容事件并且根据所述第二时间标准显示所述第二SR内容事件。

12.根据权利要求1至11中任一项所述的方法，包括：

将多个音频文件存储在所述非暂态存储器中，每个音频文件具有相关联时间线；以及

与所述多个音频文件中的相应音频文件相关联地将多个SR内容封装存储在所述非暂态存储器中，每个SR内容封装包括与相应时间标准和相应环境标准相关联的多个SR内容事件。

13.一种设备，包括：

一个或多个处理器；

非暂态存储器；

扬声器；

显示器；以及

一个或多个程序，所述一个或多个程序存储在所述非暂态存储器中，当由所述一个或多个处理器执行时，所述一个或多个程序使得所述设备执行权利要求1至12中的任一项所述的方法。

14.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序当由具有扬声器和显示器的设备的一个或多个处理器执行时使所述设备执行权利要求1至12中的任一项所述的方法。

15.一种设备，包括：

一个或多个处理器；

非暂态存储器；

扬声器；

显示器；以及

用于使得所述设备执行权利要求1至12中的任一项所述的方法的装置。

16.一种设备，包括：

扬声器；

显示器；

非暂态存储器；以及

一个或多个处理器，所述一个或多个处理器用于：

在经由所述扬声器播放所述音频文件时：

基于所述音频文件的所述时间线上的当前位置确定满足所述多个SR内容事件中的特定SR内容事件的所述相应时间标准；

基于环境的环境数据确定满足所述多个SR事件中的所述特定SR事件的所述相应环境标准；以及

17.一种方法，包括：

在包括处理器、非暂态存储器、扬声器和显示器的设备处：

获取环境的三维(3D)点云；

基于音频文件和所述环境的所述3D点云来获取SR内容；

同时地：

经由所述扬声器播放所述音频文件；以及

与所述环境相关联地在所述显示器上显示所述SR内容。

18.根据权利要求17所述的方法，其中获取所述环境的所述3D点云包括：从由所述环境中的多个位姿表征的透传图像数据获取所述环境的所述3D点云，其中所述环境中的所述多个位姿中的每个位姿与图像传感器的相应视场相关联。

19.根据权利要求18所述的方法，其中：

基于所述音频文件和所述环境的所述3D点云来获取SR内容包括：基于所述3D点云来检测满足呈现标准的所述环境的一个或多个表面的表面组；以及

与所述环境相关联地显示所述SR内容包括：与所述表面组相关联地显示所述SR内容。

20.根据权利要求17至19中任一项所述的方法，还包括：生成所述3D点云的点的表征向量，其中所述表征向量中的每个表征向量包括一个或多个标签，其中获取所述SR内容进一步基于所述3D点云的点的所述表征向量。

21.根据权利要求20所述的方法，其中：

基于所述音频文件、所述环境的所述3D点云、以及所述3D点云的点的所述表征向量来获取SR内容包括：基于所述3D点云的点的所述表征向量来检测所述环境中具有特定对象类型的对象；以及

与所述环境相关联地显示所述SR内容包括：与所述环境中具有所述特定对象类型的所述对象相关联地显示所述SR内容。

22.根据权利要求17至21中任一项所述的方法，其中基于音频文件和所述环境的所述3D点云来获取SR内容基于所述音频文件的音频数据。

23.根据权利要求17至22中任一项所述的方法，其中基于音频文件和所述环境的所述3D点云来获取SR内容基于所述音频文件的元数据。

24.根据权利要求17至23中任一项所述的方法，其中与所述环境相关联地在所述显示器上显示所述SR内容包括：与所述音频文件同时地经由所述扬声器播放与所述SR内容相关联的补充音频文件。

25.根据权利要求17至24中任一项所述的方法，其中基于音频文件和所述环境的所述3D点云来获取SR内容包括：基于所述音频文件和所述环境的一个或多个特性来从标记的SR内容元素的库中选择所述SR内容。

26.一种设备，包括：

一个或多个处理器；

非暂态存储器；

扬声器；

显示器；以及

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序当由所述一个或多个处理器执行时使所述设备执行权利要求17至25中的任一项所述的方法。

27.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序当由具有扬声器和显示器的设备的一个或多个处理器执行时使所述设备执行权利要求17至25中的任一项所述的方法。

28.一种设备，包括：

一个或多个处理器；

非暂态存储器；

扬声器；

显示器；以及

用于使所述设备执行权利要求17至25中的任一项所述的方法的装置。

29.一种设备，包括：

扬声器；

显示器；以及

一个或多个处理器，所述一个或多个处理器用于：

获取环境的三维(3D)点云；

基于音频文件和所述环境的所述3D点云来获取SR内容；

同时地：

经由所述扬声器播放所述音频文件；以及

与所述环境相关联地在所述显示器上显示所述SR内容。

30.一种方法，包括：

在包括处理器、非暂态存储器、麦克风和显示器的设备处：

经由所述麦克风记录在环境中产生的真实声音；

使用所述一个或多个处理器检测所述真实声音中的一个或多个说出的字词；

基于所述一个或多个说出的字词来获取SR内容；以及

与所述环境相关联地在所述显示器上显示所述SR内容。

31.根据权利要求30所述的方法，其中基于所述一个或多个说出的字词来获取所述SR内容包括：在所述一个或多个说出的字词中检测触发字词，并且基于所述触发字词来获取所述SR内容。

32.根据权利要求31所述的方法，其中基于所述一个或多个说出的字词来获取所述SR内容包括：在所述一个或多个说出的字词中检测与所述触发字词相关联的修饰语字词，并且基于所述修饰语字词来获取所述SR内容。

33.根据权利要求30至32中任一项所述的方法，其中基于所述一个或多个说出的字词来获取所述SR内容包括：基于所述一个或多个说出的字词中的至少一个说出的字词来从标记的SR内容元素的库中选择所述SR内容。

34.根据权利要求30至33中任一项所述的方法，其中与所述环境相关联地在所述显示器上显示所述SR内容包括：经由扬声器播放与所述SR内容相关联的音频文件。

35.根据权利要求30至34中任一项所述的方法，其中获取所述SR内容进一步基于所述环境的一个或多个空间特性。

36.根据权利要求35所述的方法，其中获取所述SR内容基于所述环境的环境类别。

37.根据权利要求35或36所述的方法，其中获取所述SR内容基于在所述环境中检测到的特定形状的对象。

38.根据权利要求35至37中任一项所述的方法，其中获取所述SR内容基于在所述环境中检测到的特定类型的对象。

39.一种设备，包括：

一个或多个处理器；

非暂态存储器；

麦克风；

显示器；以及

一个或多个程序，所述一个或多个程序存储在所述非暂态存储器中，当由所述一个或多个处理器执行时，所述一个或多个程序使得所述设备执行权利要求30至38中的任一项所述的方法。

40.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序当由具有麦克风和显示器的设备的一个或多个处理器执行时使所述设备执行权利要求30至38中的任一项所述的方法。

41.一种设备，包括：

一个或多个处理器；

非暂态存储器；

麦克风；

显示器；以及

用于使所述设备执行权利要求30至38中的任一项所述的方法的装置。

42.一种设备，包括：

麦克风；

显示器；以及

一个或多个处理器，所述一个或多个处理器用于：

经由所述麦克风记录在环境中产生的真实声音；

基于所述一个或多个说出的字词来获取SR内容；以及

与所述环境相关联地在所述显示器上显示所述SR内容。