CN115087957A

CN115087957A - 虚拟场景

Info

Publication number: CN115087957A
Application number: CN202180012502.4A
Authority: CN
Inventors: A·J·埃罗南; S·S·梅特; A·J·勒蒂涅米; M·T·维勒莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-02-03
Filing date: 2021-01-27
Publication date: 2022-09-20
Also published as: WO2021156112A1; EP3859516A1; US20230077102A1

Abstract

描述了一种装置、方法和计算机程序，包括：基于用户在虚拟场景内的位置和/或移动来确定多个音频模式中的用于向用户呈现第一音频的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。

Description

虚拟场景

技术领域

本说明书涉及虚拟场景，例如涉及根据用户在虚拟场景内的虚拟位置向用户呈现音频。

背景技术

虚拟场景使得用户能够在虚拟场景中移动并且根据用户在场景内的虚拟位置以不同方式体验内容。仍然需要用于在虚拟场景中提供和控制音频内容的替代布置。

发明内容

在第一方面，本说明书描述了一种装置，该装置包括用于执行以下操作的部件：基于用户在虚拟场景(例如，虚拟现实、混合现实或增强现实场景，上述虚拟场景例如可以是三维虚拟场景)内的位置和/或移动，确定多个音频模式中的用于向用户呈现第一音频(例如，体积音频)的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的(例如，使得用户可以相对于音轨移动)，并且在多个音频模式中的第二音频模式(例如，所谓的“以用户为中心”的模式)下，音轨在虚拟场景内的位置随用户移动。在第二音频模式下，音轨在虚拟场景内的位置可以相对于用户是固定的。第一音频可以在用户可以关于其移动的虚拟场景内提供(例如，使用6-DoF移动，如下面进一步讨论的)。第一音频模式可以是六自由度音频模式和/或第二音频模式可以是三自由度音频模式。

在一些示例实施例中，用于确定多个音频模式中的一个音频模式的部件还可以被配置为：根据用户在虚拟场景内相对于与第一音频相关联的第一区域的位置来确定音频模式。用于确定多个音频模式中的一个音频模式的部件还可以被配置为：当用户从第一区域外部进入该第一区域或接近该第一区域时，确定第一音频模式被用于呈现第一音频。一些示例实施例还包括：在发起第一音频模式时，在虚拟场景内定位与第一音频相关联的第一区域，使得用户位于上述第一区域的中心点。

用于确定多个音频模式中的一个音频模式的部件还可以被配置为：当用户从上述区域内部接近第一区域的边缘时，确定第二音频模式被用于呈现第一音频。该部件还可以被配置为执行：在第二音频模式下，随着用户移动移动(例如，逐渐移动，例如使得音频的移动是平滑的)第一区域和第一音频的音轨。

该部件还可以被配置为使得用户能够退出第一区域。退出第一区域可以导致第一音频发生变化。

用于确定多个音频模式中的一个音频模式的部件还可以被配置为执行：在用户被确定为静止的情况下(例如，如果用户不移动持续超过阈值时段——阈值时段可以是可变的，诸如是上下文特定于的)，确定第一音频模式被用于向用户呈现第一音频。因此，可以实现从第二音频模式到第一音频模式的转变。

该部件还可以被配置为：基于确定用户在虚拟场景中位于所选择的第一音频的音轨的星座(constellation)内，从多个候选第一音频中选择第一音频。

该部件还可以被配置为执行：确定用户已经退出第一音频的音轨的星座/该星座；以及响应于对该退出的确定，停止向用户渲染上述第一音频。

在一些示例实施例中，来自不同乐器的音频可以被指派给第一音频的不同音轨。例如，不同音乐指令可以在相关虚拟空间内的不同位置呈现(例如，使得能够提供“乐器星座”)。

上述部件可以包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序被配置为与至少一个处理器一起引起该装置的操作。

在第二方面，本说明书描述了一种方法，该方法包括：基于用户在虚拟场景内的位置和/或移动，确定多个音频模式中的用于向用户呈现第一音频的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。在第二音频模式下，音轨在虚拟场景内的位置可以相对于用户是固定的。

一些示例实施例还包括：根据用户在虚拟场景内相对于与第一音频相关联的第一区域的位置来确定音频模式。确定多个音频模式中的一个音频模式可以包括当用户从第一区域外部进入该第一区域或接近该第一区域时，确定第一音频模式被用于呈现第一音频。

一些示例实施例还包括：在发起第一音频模式时，在虚拟场景内定位与第一音频相关联的第一区域，使得用户位于上述第一区域的中心点。

在一些示例实施例中，确定多个音频模式中的一个音频模式还包括：当用户从上述区域内部接近第一区域的边缘时，确定第二音频模式被用于呈现第一音频。一些示例实施例还包括：在第二音频模式下，随着用户移动移动(例如，逐渐移动)第一区域和第一音频的音轨。

一些示例实施例还包括使得用户能够退出第一区域。

一些示例实施例还包括：在用户被确定为静止的情况下，确定第一音频模式被用于向用户呈现第一音频。

一些示例实施例还包括：基于确定用户在虚拟场景中位于所选择的第一音频的音轨的星座内，从多个候选第一音频中选择第一音频。

一些示例实施例还包括：确定用户已经退出第一音频的音轨的星座/该星座；以及响应于对该退出的确定，停止向用户渲染上述第一音频。

在一些示例实施例中，来自不同乐器的音频可以被指派给第一音频的不同音轨。

在第三方面，本说明书描述了一种装置，该装置被配置为执行参考第二方面描述的任何方法。

在第四方面，本说明书描述了一种计算机可读指令，该计算机可读指令在由计算装置执行时引起计算装置执行参考第二方面描述的任何方法。

在第五方面，本说明书描述了一种包括指令的计算机程序，该指令用于引起装置至少执行以下操作：基于用户在虚拟场景内的位置和/或移动，确定多个音频模式中的用于向用户呈现第一音频的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。

在第六方面，本说明书描述了一种计算机可读介质(诸如非暂态计算机可读介质)，该计算机可读介质包括存储在其上的程序指令，该程序指令用于执行至少以下操作：基于用户在虚拟场景内的位置和/或移动，确定多个音频模式中的用于向用户呈现第一音频的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。

在第七方面，本说明书描述了一种装置，该装置包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该计算机程序代码在由至少一个处理器执行时引起该装置：基于用户在虚拟场景内的位置和/或移动，确定多个音频模式中的用于向用户呈现第一音频的一个音频模式，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及以所确定的音频模式向用户渲染第一音频，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。

在第八方面，本说明书描述了一种装置，该装置包括：用于基于用户在虚拟场景内的位置和/或移动来确定多个音频模式中的用于向用户呈现第一音频的一个音频模式的部件(诸如第一处理器，其可以例如形成控制系统的一部分)，其中第一音频包括位于虚拟场景内的不同位置的多个音轨；以及用于以所确定的音频模式向用户渲染第一音频的部件(诸如渲染部件，例如媒体播放器)，其中：在多个音频模式中的第一音频模式下，音轨在虚拟场景内的位置是固定的，并且在多个音频模式中的第二音频模式下，音轨在虚拟场景内的位置随用户移动。

附图说明

现在将仅通过示例的方式参考以下示意图来描述示例实施例，在附图中：

图1是可以在其中实现示例实施例的虚拟现实显示系统的框图；

图2是根据示例实施例的虚拟环境；

图3和图4是示出根据示例实施例的算法的流程图；

图5至图7是根据示例实施例的虚拟环境；

图8是示出根据示例实施例的算法的流程图；

图9和图10是根据示例实施例的虚拟环境；

图11是示出根据示例实施例的算法的流程图；

图12是根据示例实施例的虚拟环境；

图13是根据示例实施例的系统的框图；

图14是根据示例实施例的系统的组件的框图；以及

图15A和图15B示出了存储计算机可读代码的有形介质，分别是可移动非易失性存储器单元和光盘(CD)，该计算机可读代码在由计算机运行时执行根据示例实施例的操作。

具体实施方式

本发明的各种实施例所寻求的保护范围由独立权利要求规定。说明书中描述的不属于独立权利要求的范围的实施例和特征(如果有的话)将被解释为对理解本发明的各种实施例有用的示例。

在说明书和附图中，相同的附图标记自始至终指代相同的元素。

虚拟现实(VR)通常可以理解为视觉和/或音频场景的渲染版本。渲染可以被设计为模拟真实世界的视觉和听觉感官刺激，以便根据由内容和/或应用定义的限制，为用户提供至少与其在虚拟场景中的移动显著一致的自然体验。

在很多情况下，但不一定是所有情况下，VR需要用户佩戴头戴式显示器(HMD)，以用模拟的视觉呈现完全取代用户的视场，并且需要用户佩戴耳机，以为用户提供模拟的音频内容，以相似地完全取代物理空间的声音场景。对消费VR内容的用户的某些形式的头部跟踪和一般运动跟踪也可能是必要的。这允许更新模拟的视觉和音频呈现，以确保从用户的角度来看，诸如项目和声源等各种场景组件与用户运动保持一致。可以提供用于与虚拟现实模拟交互的附加部件，诸如控件或其他用户界面(UI)，但这些对于提供体验而言并非绝对必要。

在某些用例中，VR可以是纯视觉或纯音频虚拟现实。例如，纯音频VR体验可以与新型音乐聆听或任何其他音频体验相关。

增强现实(AR)通常是指向用户提供附加信息或人工生成的项目或内容，这些附加信息或人工生成的项目或内容至少显著覆盖在用户当前的真实世界环境刺激之上。在一些这样的情况下，增强内容可以至少部分替换用户的真实世界内容。附加信息或内容可以是视觉的和/或听觉的。AR可以具有纯视觉或纯音频呈现。例如，用户可以在城市中移动并且接收与例如导航、基于位置的广告和任何其他基于位置的信息有关的音频指南。

混合现实(MR)有时被认为是一种更高级的AR形式，其中至少一些虚拟元素被插入到物理场景中，使得它们提供这些元素是真实场景的一部分的错觉，并且相应地表现。对于音频内容，或者实际上对于纯音频用例，AR和MR的很多应用对于用户来说似乎很难相互区分。但是，差异不仅在于视觉内容，还可能与音频相关。例如，MR音频渲染可能会考虑本地房间混响，而AR音频渲染可能不会。

在3D空间中，总共有六个自由度(DoF)，这六个自由度(DoF)定义了用户可以在空间内移动的方式。这种运动分为两类：旋转运动和平移运动(每个有三个自由度)。对于简单的VR体验，旋转运动就足够了，其中用户可以转动他/她的头(俯仰、左右摇摆和滚动)以从静止点或沿着自动移动轨迹体验空间。平移运动表示用户也可以根据自己的意愿改变渲染的位置，即在欧几里得空间中沿着x、y和z轴移动。自由视角的AR/VR体验允许旋转和平移运动两者。通常使用术语3DoF、3DoF+和6DoF来谈论各种自由度和相关经验。3DoF+介于3DoF与6DoF之间，并且通常允许一些有限的用户移动，例如，可以考虑实现受限的6DoF，其中用户坐下但可以将头向各个方向倾斜。

图1是可以在其中实现示例实施例的虚拟现实显示系统的框图，该虚拟现实显示系统总体上由附图标记10指示。虚拟现实显示系统10包括以下形式的用户设备：用于为虚拟现实空间显示视觉数据和/或呈现音频数据的虚拟现实头戴器(headset)14，以及用于在虚拟现实头戴器14上渲染视觉和/或音频数据的虚拟现实媒体播放器12。在一些示例实施例中，单独的用户控件(未示出)可以与虚拟现实显示系统相关联，例如手持控制器。

虚拟空间、世界或环境可以是用户可以沉浸在其中的空间(例如，捕获的真实世界空间)的计算机生成的版本。在一些示例实施例中，虚拟空间或场景可以完全由计算机生成。虚拟现实头戴器14可以是任何合适的类型。虚拟现实头戴器14可以被配置为向用户提供虚拟现实视频和/或音频内容数据。这样，用户可以沉浸在虚拟空间中。

在示例虚拟现实显示系统10中，虚拟现实头戴器14从虚拟现实媒体播放器12接收虚拟现实内容数据。虚拟现实媒体播放器12可以是通过有线或无线连接而连接到虚拟现实头戴器14的单独设备的一部分。例如，虚拟现实媒体播放器12可以包括被配置为将视觉数据传送到虚拟现实头戴器14的游戏控制台或PC(个人计算机)。

替代地，虚拟现实媒体播放器12可以形成虚拟现实头戴器14的一部分。

虚拟现实媒体播放器12可以包括被配置为通过其显示器提供内容的移动电话、智能手机或平板电脑。例如，虚拟现实媒体播放器12可以是在设备的主表面上具有较大显示器的触摸屏设备，通过该设备可以显示视频内容。虚拟现实媒体播放器12可以插入到虚拟现实头戴器14的支架中。使用这种虚拟现实头戴器14，智能手机或平板电脑可以显示视觉数据，该视觉数据经由虚拟现实头戴器14中的相应镜头提供给用户的眼睛。例如，虚拟现实音频可以通过集成到虚拟现实头戴器14中的扬声器或与其连接的耳机来呈现。虚拟现实显示系统10还可以包括被配置为将设备转换为作为虚拟现实显示系统10的一部分进行操作的硬件。替代地，虚拟现实媒体播放器12可以集成到虚拟现实头戴器14中。虚拟现实媒体播放器12可以用软件实现。在一些示例实施例中，包括虚拟现实媒体播放器软件的设备被称为虚拟现实媒体播放器12。

虚拟现实显示系统10可以包括用于确定用户的空间位置和/或用户头部的取向的部件。这可以通过确定虚拟现实头戴器14的空间位置和/或取向来实现。因此，在连续时间帧上，可以计算和存储运动的度量。这样的部件可以包括虚拟现实媒体播放器12的一部分。替代地，该部件可以包括虚拟现实头戴器14的一部分。例如，虚拟现实头戴器14可以结合运动跟踪传感器，运动跟踪传感器可以包括陀螺仪、加速度计和结构化光系统中的一种或多种。这些传感器生成位置数据，根据该位置数据，可以确定当前视场(FOV)，并且随着用户及因此虚拟现实头戴器14改变位置和/或取向而更新FOV。虚拟现实头戴器14可以包括用于在用户的相应眼睛前面显示虚拟世界的立体视频图像的两个数字屏幕、以及用于传递音频的两个耳机、听筒或扬声器。本文中的示例实施例不限于特定类型的虚拟现实头戴器14。

在一些示例实施例中，虚拟现实显示系统10可以使用上述六自由度方法来确定用户头部的空间位置和/或取向。这些可以包括俯仰、滚动和左右摇摆的测量、以及欧几里得空间中沿着左右、前后和上下轴的平移运动。

虚拟现实显示系统10可以被配置为基于虚拟现实头戴器的空间位置和/或取向来向虚拟现实头戴器14显示虚拟现实内容数据。检测到的空间位置和/或取向的变化(即，一种形式的运动)可以导致视觉和/或音频数据的对应变化，以反映用户相对于视觉数据被投影到其中的空间的位置或取向变换。这允许通过用户体验3D虚拟现实环境来消费虚拟现实内容数据。

在体积(volumetric)虚拟现实空间或世界的上下文中，可以检测用户相对于在体积虚拟现实内容中提供的内容的位置，例如，使得用户可以在给定虚拟现实空间或世界内围绕个体对象或对象组自由移动，并且可以根据其头部的旋转从不同角度查看和/或收听对象。

音频数据可以提供给作为虚拟现实头戴器14的一部分而提供的耳机。音频数据可以表示空间音频源内容。空间音频可以是指虚拟现实空间或世界中的音频的定向渲染，使得检测到的用户空间位置或其头部取向的变化可能导致空间音频渲染的对应变化，以反映参考空间音频数据被渲染到其中的空间的变换。

图2是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记20指示。虚拟环境20可以使用上述虚拟现实显示系统10来实现。虚拟环境20示出了用户22和第一音频源24至第三音频源26。用户22可以佩戴上述虚拟现实头戴器14以体验虚拟环境20。

虚拟环境20因此可以向用户22呈现虚拟场景(例如，虚拟现实、混合现实或增强现实场景)。场景可以例如是三维虚拟现实场景。

虚拟环境20是虚拟音频场景，并且用户22在场景内具有位置和取向。呈现给用户22的音频(例如，使用虚拟现实头戴器14)取决于用户22的位置和取向，使得可以提供6DoF场景。

例如，第一音频源24至第三音频源26可以用于向用户22输出歌曲。在一个示例实施例中，不同乐器(或来自不同乐器的音频)被指派给第一音频的不同音频源(或音轨)24至26。因此，不同乐器可以在虚拟环境20内的不同位置处呈现(例如，使得能够提供“仪器星座”)。这种星座特别适用于呈现传统内容，诸如可用作多轨录音的音乐轨道。

6DoF音频提供用户22可以在音频场景中移动的音频体验。然而，提供完整的6DoF内容体验可能需要专门为6DoF消费而在空间上布置和创建内容。这样的系统可能与传统音频内容不兼容。

图3是示出根据示例实施例的算法的流程图，该算法总体上由附图标记30指示。

算法30开始于操作32，其中确定多个音频模式中的用于向用户(例如，用户22)呈现第一音频(例如，体积音频)的一个音频模式。音频模式的确定可以基于用户在诸如虚拟环境20等虚拟场景内的位置和/或移动。因此，第一音频在用户可以在其中移动(例如，以6-DoF运动)的虚拟场景内提供。第一音频可以包括位于虚拟场景内的不同位置的多个音轨。音频源24至26是这种音轨的示例。

在操作34，以所确定的音频模式(即，在操作32中确定的模式)渲染音频(例如，向用户22)。

如下面详细描述的，音频模式可以包括第一音频模式和第二音频模式，在第一音频模式下，音轨在虚拟场景内的位置是固定的(使得用户可以相对于音轨移动)，在第二音频模式下，音轨在虚拟场景内的位置随用户而移动。第一音频模式可以是6-DoF音频模式。第二音频模式可以是3-DoF音频模式。

图4是示出根据示例实施例的算法的流程图，该算法总体上由附图标记40指示。算法40在下面参考图5至图7进一步描述。

算法40开始于可选操作42，其中用户(诸如用户22)进入音频星座，诸如音频源或音轨的星座。例如，第一音频源24至第三音频源26可以构成音频星座。例如，操作42可以涉及通过确定用户在虚拟场景中位于多个候选第一音频中的所选择的第一音频的音轨星座内或附近，来从多个候选第一音频中选择第一音频。

在算法40的操作44中，确定音频模式。

图5是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记50指示。虚拟环境50包括用户22以及第一音频源24至第三音频源26。虚拟环境50还包括第一区域52。如图5所示，用户22在第一区域52外部。该区域可以在虚拟环境内以某种方式对用户可见，例如对象根据用户22是在第一区域52内部还是外部而具有不同颜色(尽管这不是对于所有示例实施例都是必需的)。

在算法40的操作44中，音频模式的确定可以取决于用户22相对于第一区域52的位置。例如，音频模式选择可以取决于用户22是在第一区域52外部(如虚拟环境50中所示)还是在第一区域内部(如下所述)。

图6是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记60指示。虚拟环境60包括用户22、第一音频源24至第三音频源26和第一区域52。在虚拟环境60中，用户22从上述区域外部接近第一区域。

在算法40的操作46中，发起第一音频模式。当用户接近(例如，接触)第一区域52时(如虚拟环境60中所示)，操作46可以发起第一音频模式。

在算法40的操作48中，在发起第一音频模式时，第一区域52位于虚拟空间内，使得用户22处于上述第一区域的中心点。

图7是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记70指示。虚拟环境70包括用户22、第一音频源24至第三音频源26和第一区域52。在虚拟环境70中，第一区域52被定位为使得用户处于该区域的中心点。因此，虚拟环境70示出了在算法40的操作48启动之后的情况。

在用户在第一音频模式下体验包括第一音频源24至第三音频源26的星座的虚拟环境70中，音频源以六个自由度呈现给用户22。因此，用户能够移动，而音频源的位置保持固定(所谓的“世界锁定”)。因此，用户可以通过相对于音频源24至26(以及可能形成音频星座的一部分的任何其他音频源(未示出))移动，来不同地体验声音场景。

图8是示出根据示例实施例的算法的流程图，该算法总体上由附图标记80指示。算法80将在下面参考图9和图10进一步描述。

算法80开始于操作82，其中确定音频模式。

图9是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记90指示。虚拟环境90包括用户22、第一音频源24至第三音频源26和第一区域52。在虚拟环境90中，用户22接近或触摸星座的第一区域52的边缘或边界。作为响应，在算法80的操作82中确定应当进入第二音频模式。

在算法80的操作84，发起第二音频模式。在第二音频模式下，第一音频的音频源24至26和第一区域52的位置随着用户移动而移动。因此，第一音频星座不是移动到第一区域52外部，而是移动以使得用户停留在第一区域内。因此，与第一音频模式的6DoF音频呈现相比，第二音频模式将音频星座作为3DoF音频呈现给用户22。

在算法80的操作86，随着用户移动而调节向用户22的音频渲染。

图10是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记100指示。虚拟环境100包括用户22、第一音频源24至第三音频源26和第一区域52。

如图10所示，随着用户22移动，第一区域52从初始位置移动到位置102，使得用户保持在第一区域的中心。音频星座(包括第一音频源24至第三音频源26)和第一区域的位置逐渐移动，使得用户最终处于星座的中心和/或最佳收听位置。这种变化可以是逐渐的，使得对象慢慢地滑向新的位置，从而使音频的移动平滑。第三方应用(诸如沉浸式电话呼叫)可以触发该功能以更好地允许用户移动。在沉浸式呼叫场景中，呼叫音频场景将跟随用户可能是有益的。作为另一示例，启动诸如运动追踪器等应用可以触发该功能。

图11是示出根据示例实施例的示例算法的流程图，该算法总体上由附图标记110指示。算法110包括上述算法40和80的很多特征。

算法110开始于操作111，其中发起第一音频模式(如在上述操作46中)。如上所述，在第一音频模式下，包括位于虚拟场景内的不同位置的多个音轨的第一音频被渲染给用户。音轨在虚拟场景内的位置是固定的。因此，第一音频是在用户可以在其中移动(使用6自由度移动)的VR世界中提供的。

在算法110的操作112，用户被放置在第一区域(和相关音频星座)的中心，如在上述操作48中。

在操作114，确定用户是否处于(或接近)第一区域52的边缘，例如如图9所示。如果不是，则算法保持在第一音频模式下(并且用户22能够相对于相关音频星座的音轨移动)。如果用户处于(或接近)第一区域52的边缘，则算法110移动到操作115。

在操作115，确定用户是否正在退出第一音频的音轨星座(如下面进一步讨论的)。如果是，则算法110移动到操作119，其中退出算法，导致停止向用户渲染第一音频。如果不是，则算法110移动到操作116(下面讨论)。在一个示例实施例中，当向用户呈现的音频输出(诸如歌曲)结束时，用户自动退出星座。然后用户可以进入另一星座并且开始消费该星座内的音频。

在操作116，已经确定用户处于或接近第一区域52的边界，并且用户没有退出该区域。作为响应，发起第二音频模式。例如，该行为可以由外部应用(诸如沉浸式呼叫)触发。用户22能够通过交互来避免这种行为，诸如在退出第一区域时避开对象。(这是一种机制，通过该机制用户可以在上述操作115中退出第一区域。)

在算法110的操作117，确定用户22是静止的还是移动的。例如，可以确定用户是否已经静止超过阈值时间段。如果用户22被确定为静止，则算法移动到操作111(其中重新进入第一音频模式)。否则，算法110保持在第二音频模式。注意，阈值时间段可以是可变的(例如，上下文特定的)。

在算法110的操作118中，算法110处于第二操作模式。在第二模式下，音轨24至26的星座以用户为中心，使得用户可以以3DoF拖动内容。调节音轨的渲染。例如，可以逐渐调节渲染以使得运动平滑。以这种方式，可以逐渐更新音频星座，使得用户最终处于星座的中心和/或最佳收听位置。当用户处于相关音频星座的中间时，星座自动与用户一起移动(即，音频以用户为中心)。如上所述，这样的星座特别适合于呈现传统内容，诸如可用作多轨记录的音乐轨道。该方法方便地支持用户随着对象星座被自动随其携带而收听背景音乐，以便即使在运动中也能保证良好的收听体验。

算法110的操作118重复(并且算法在第二音频模式下保持)，直到在操作117的实例中用户被认为是静止的。

图12是根据示例实施例的虚拟环境，该虚拟环境总体上由附图标记120指示。虚拟环境120包括用户22、第一音频源24至第三音频源26以及第一区域102。在虚拟环境120中，用户22已经退出第一区域102(从而实现算法110的操作119)。

用户22可以通过定义的交互退出第一区域102，诸如在退出第一区域102时避开对象。一旦用户22在第一区102外部，则可以向用户可视化功能的改变，例如，使用不同颜色的对象。替代地或另外地，用户可以因为外部因素的结果而退出第一区102，诸如提供相关音频内容的媒体项目的结束。

图13是根据示例实施例的系统的框图，该系统总体上由附图标记130指示。

系统130是用于MPEG-I 6DoF音频的6DoF渲染器的示例部署。本领域技术人员将意识到本文中描述的原理的替代可能实现。

MPEG-I 6DoF音频渲染器130接收编码器输入格式规范或其他规范，该规范描述场景图(例如，场景几何和对象位置)。这样的输入场景还可以定义内容星座的元数据。

由系统130使用的定义包括以下中的至少一些：

·音频对象(诸如音频源24至26)的(多个)位置；

·第一区域52或102的位置；

·当用户位置与第一区域52或102匹配并且用户在星座中居中时，用于音频星座的用户锁定(第二音频模式)的触发条件；

·当用户位置在第一区域52或102内时，用于音频星座的世界锁定(第一音频模式)的触发条件；

·当与星座对象相关联的音频输出(例如，音乐轨道)结束时，用于音频星座的世界锁定(第一音频模式)的触发条件。

触发可以在渲染侧进行处理(诸如系统130中的块“交互处理”和“位置和姿势更新”)。

在世界锁定模式(第一音频模式)下，音频对象相对于用户的位置在考虑到欧几里得坐标x、y、z中的用户平移以及左右摇摆、俯仰、滚动中的旋转的情况下被更新。在用户锁定模式(第二音频模式)下，相对于用户的对象位置仅在考虑到在左右摇摆、俯仰和滚动中的用户头部旋转的情况下被更新。

在对象位置更新之后，可以使用头部相关传递函数(HRFT)过滤和距离/增益衰减从正确的方向和距离渲染音频。根据虚拟空间的特性而调节的诸如混响等虚拟声学可以用于增强沉浸感。本领域技术人员将意识到这样的功能的替代实现。

可以实现对MPEG-I编码器输入格式(EIF)的很多扩展或修改，以便支持本文中描述的示例实施例的方面。这些可以包括：

·将收听者靠近条件从世界锁定位置扩展到音频元素和音频元素组。

·MPEG-I音频EIF中的通道源支持可以扩展为支持多个对象源或HOA组。

·EIF可以被扩展以触发更新，该更新也是参与(engagement)持续时间。这可能需要在开始时将星座附接到用户或稍后脱离(disengagement)。

·从一种状态到另一种状态(例如，从一种音频模式到另一种音频模式)的转变可以是立即的或连续的。当用户在到达内圆的边缘之后进行移动时，这可以扩展为包含整个星座的平移。

·收听者条件从早期禁用的启用进一步扩展为将坐标系从世界锁定修改为用户相对(relative)。

·此外，条件利用相对和世界锁定的混合，以用于条件和动作。

作为对编码器输入格式(EIF)的示例修改，可以进行以下修改以实现MPEG-I 6DoF音频内容的内容区域功能。

修改ObjectSource如下所示：

创建名为ContentZone的新实体：

不同类型的firstRenderingMode可以如下：

为了完整起见，图14是先前描述的示例实施例中的一个或多个的组件的示意图，该组件在下文中统称为处理系统300。处理系统300例如可以是在以下权利要求中提及的装置。

处理系统300可以具有处理器302、紧密耦合到处理器并且包括RAM 314和ROM 312的存储器304、以及可选的用户输入310和显示器318。处理系统300可以包括一个或多个网络/装置接口308，网络/装置接口308用于到网络/装置的连接，例如，可以是有线或无线的调制解调器。网络/装置接口308还可以作为与其他装置的连接来操作，诸如不是网络侧装置的设备/装置。因此，无需网络参与的设备/装置之间的直接连接是可能的。

处理器302连接到其他组件中的每个以便控制其操作。

存储器304可以包括非易失性存储器，诸如硬盘驱动器(HDD)或固态驱动器(SSD)。存储器304的ROM 312尤其存储操作系统315，并且可以存储软件应用316。存储器304的RAM314由处理器302用来临时存储数据。操作系统315可以包含在由处理器执行时实现算法30、40、80和110的方面的代码。注意，在小型设备/装置的情况下，存储器可能最适合小尺寸使用，即，并不总是使用硬盘驱动器(HDD)或固态驱动器(SSD)。

处理器302可以采取任何合适的形式。例如，它可以是一个微控制器、多个微控制器、一个处理器或多个处理器。

处理系统300可以是独立计算机、服务器、控制台或其网络。处理系统300和所需要的结构部分可以全部在诸如IoT设备/装置等设备/装置内部，即，嵌入到非常小的尺寸。

在一些示例实施例中，处理系统300还可以与外部软件应用相关联。这些可以是存储在远程服务器设备/装置上的应用，并且可以部分或专门在远程服务器设备/装置上运行。这些应用可以称为云托管应用。处理系统300可以与远程服务器设备/装置通信，以便利用存储在那里的软件应用。

图15A和图15B示出了存储计算机可读代码的有形介质，分别是可移动存储器单元365和光盘(CD)368，该计算机可读代码在由计算机运行时可以执行根据上述示例实施例的方法。可移动存储器单元365可以是记忆棒，例如，USB记忆棒，该记忆棒具有存储计算机可读代码的内部存储器366。内部存储器366可以由计算机系统经由连接器367来访问。CD 368可以是CD-ROM或DVD等。可以使用其他形式的有形存储介质。有形介质可以是能够存储可以在设备/装置/网络之间交换的数据/信息的任何设备/装置。

本发明的实施例可以以软件、硬件、应用逻辑、或者软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集被维护在各种常规计算机可读介质中的任何一种计算机可读介质上。在本文档的上下文中，“存储器”或“计算机可读介质”可以是可以包含、存储、传送、传播或传输指令以供指令执行系统、装置或设备(诸如计算机)使用或与其相结合使用的任何非暂态介质或装置。

在相关的情况下，对“计算机可读介质”、“计算机程序产品”、“有形地体现的计算机程序”等或者“处理器”或“处理电路系统”等的引用应当理解为不仅包括具有不同架构(诸如单/多处理器架构和定序器/并行架构)的计算机，还包括专用电路，诸如现场可编程门阵列FPGA、应用指定电路ASIC、信号处理设备/装置和其他设备/装置。对计算机程序、指令、代码等的引用应当理解为表示用于可编程处理器固件的软件，诸如作为用于处理器的指令的硬件设备/装置的可编程内容、或者用于固定功能设备/装置、门阵列、可编程逻辑器件/设备等的已配置或配置设置。

如果需要，本文中讨论的不同功能可以以不同顺序和/或彼此同时执行。此外，如果需要，上述功能中的一个或多个可以是可选的或者可以组合。类似地，还将理解，图3、图4、图8和图11的流程图和消息序列仅是示例，并且其中描述的各种操作可以被省略、重新排序和/或组合。

应当理解，上述示例实施例纯粹是说明性的并且不限制本发明的范围。在阅读本说明书之后，其他变化和修改对于本领域技术人员将是很清楚的。

此外，本申请的公开应当被理解为包括本文中明确或隐含地公开的任何新颖特征或任何新颖特征组合或其任何概括，并且在本申请或从其衍生的任何申请的审查期间，新的权利要求可以被制定以涵盖任何这样的特征和/或这样的特征的组合。

尽管在独立权利要求中阐述了本发明的各个方面，但是本发明的其他方面包括来自所描述的示例实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不仅仅是权利要求中明确给出的组合。

在此还应当注意，虽然以上描述了各种示例，但这些描述不应当被视为限制性的。相反，在不脱离如所附权利要求中所限定的本发明的范围的情况下，可以进行若干变化和修改。

Claims

1.一种装置，包括用于执行以下的部件：

基于用户在虚拟场景内的位置和/或移动，确定多个音频模式中的用于向所述用户呈现第一音频的一个音频模式，其中所述第一音频包括位于所述虚拟场景内的不同位置的多个音轨；以及

以所确定的音频模式向所述用户渲染所述第一音频，其中：在所述多个音频模式中的第一音频模式下，所述音轨在所述虚拟场景内的所述位置是固定的，并且在所述多个音频模式中的第二音频模式下，所述音轨在所述虚拟场景内的所述位置随所述用户移动。

2.根据权利要求1所述的装置，其中在所述第二音频模式下，所述音轨在所述虚拟场景内的所述位置相对于所述用户是固定的。

3.根据权利要求1或权利要求2所述的装置，其中用于确定所述多个音频模式中的一个音频模式的所述部件还被配置为：根据所述用户在所述虚拟场景内相对于与所述第一音频相关联的第一区域的所述位置，确定所述音频模式。

4.根据权利要求3所述的装置，其中用于确定所述多个音频模式中的一个音频模式的所述部件还被配置为：当所述用户从所述第一区域外部进入所述第一区域或接近所述第一区域时，确定所述第一音频模式被用于呈现所述第一音频。

5.根据权利要求3或权利要求4所述的装置，其中所述部件还被配置为执行：在发起所述第一音频模式时，在所述虚拟场景内定位与所述第一音频相关联的所述第一区域，使得所述用户处于所述第一区域的中心点。

6.根据权利要求3至5中任一项所述的装置，其中用于确定所述多个音频模式中的一个音频模式的所述部件还被配置为：当所述用户从所述区域内部接近所述第一区域的边缘时，确定所述第二音频模式被用于呈现所述第一音频。

7.根据权利要求6所述的装置，其中所述部件还被配置为执行：在所述第二音频模式下，随着所述用户移动而移动所述第一区域和所述第一音频的所述音轨。

8.根据权利要求7所述的装置，其中所述部件还被配置为执行：在所述第二音频模式下，随着所述用户的移动而逐渐移动所述第一区域和所述第一音频的所述音轨。

9.根据权利要求3至8中任一项所述的装置，其中所述部件还被配置为：使得所述用户能够退出所述第一区域。

10.根据前述权利要求中任一项所述的装置，其中用于确定所述多个音频模式中的一个音频模式的所述部件还被配置为执行：在所述用户被确定为静止的情况下，确定所述第一音频模式被用于向所述用户呈现所述第一音频。

11.根据前述权利要求中任一项所述的装置，其中所述部件还被配置为：基于确定所述用户在所述虚拟场景中位于所选择的第一音频的音轨的星座内，从多个候选第一音频中选择所述第一音频。

12.根据前述权利要求中任一项所述的装置，其中所述部件还被配置为执行：

确定所述用户已经退出所述第一音频的音轨的星座/所述星座；以及

响应于对所述退出的所述确定，停止向所述用户渲染所述第一音频。

13.根据前述权利要求中任一项所述的装置，其中所述第一音频模式是六自由度音频模式和/或所述第二音频模式是三自由度音频模式。

14.根据前述权利要求中任一项所述的装置，其中来自不同乐器的音频被指派给所述第一音频的不同音轨。

15.一种方法，包括：

以所确定的音频模式向所述用户渲染所述第一音频，其中：在所述多个音频模式中的第一音频模式下，所述音轨在所述虚拟场景内的所述位置是固定的，并且在所述多个音频模式中的第二音频模式下，所述音轨在所述虚拟场景中的所述位置随所述用户移动。