CN112689825A

CN112689825A - 实现远程用户访问介导现实内容的装置、方法、计算机程序

Info

Publication number: CN112689825A
Application number: CN201980059221.7A
Authority: CN
Inventors: S·S·马特; A·勒蒂涅米; A·埃罗南; L·拉克索南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-09-11
Filing date: 2019-09-05
Publication date: 2021-04-20
Anticipated expiration: 2039-09-05
Also published as: EP3623934A1; EP3623934B1; CN112689825B; WO2020053074A1; US20210321211A1; US11570565B2

Abstract

一种装置，包括用于以下的部件：同时控制由手持便携式设备呈现的内容和由空间音频设备呈现的内容；并且响应于用户的动作，经由手持便携式设备而不是空间音频设备来向用户提供空间音频内容的第一部分而不是第二部分的呈现。

Description

实现远程用户访问介导现实内容的装置、方法、计算机程序

技术领域

本公开的实施例涉及实现通过远程用户来访问介导现实(mediated reality)内容。

背景技术

当介导现实被呈现给用户时，用户例如在视觉上和/或/或在听觉上体验完全或部分人造的环境，如至少部分地由装置呈现给用户的虚拟场景。虚拟场景通过虚拟用户在虚拟空间内的视点被确定。

增强现实是介导现实的一个形式，其中用户体验作为虚拟场景的部分人造的环境，该虚拟场景包括由装置向用户呈现的一个或多个视觉或音频元素所补充的物理真实环境的真实场景，例如真实视觉场景和/或真实声音场景。术语增强现实意味着混合现实(mixed reality)或混杂现实(hybrid reality)。虚拟现实是介导现实的一个形式，其中用户体验完全人造的环境，如由装置呈现给用户的虚拟场景。

应用于介导现实的第一人称视角介导意味着用户的真实视点(地点和/或定向)确定虚拟用户的虚拟空间内的视点(地点和/或定向)。

当将介导现实作为声音场景呈现给用户时，可以创建三维声场。

发明内容

根据各种但非全部的实施例，提供了一种装置，该装置包括用于以下的部件：

同时控制由手持便携式设备呈现的内容和由空间音频设备呈现的内容；和

响应于用户的动作，经由手持便携式设备而不是空间音频设备，向用户提供空间音频内容的第一部分而不是第二部分的呈现。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：在用户的动作之前，引起经由空间音频设备的空间音频内容的第一部分和空间音频内容的第二部分的同时呈现。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：响应于用户动作，确定空间音频内容的第一部分和空间音频内容的第二部分。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：响应于用户动作，引起经由手持便携式设备对空间音频内容的第一部分、以及经由空间音频设备对空间音频内容的第二部分的向用户的同时呈现。

在一些但并不一定所有的示例中，空间音频内容由装置从通信网络被接收到，作为来自远程人员的下行链路通信信道，并且其中空间音频内容的第一部分可以包括远程人员的语音。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：响应于用户动作，引起经由手持便携式设备的一个或多个扬声器来呈现空间音频内容的第一部分。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：引起经由手持便携式设备对空间音频内容的第一部分以及经由空间音频设备的扬声器对空间音频内容的第二部分的同时呈现，作为双声道音频。

在一些但并不一定所有的示例中，该装置包括用于与手持便携式设备和/或空间音频设备通信以确定用户的动作何时已经发生的部件，其中用户的动作包括手持便携式设备朝向用户的头部的移动。

在第一实施例的一些但并不一定所有的示例中，该装置包括用于以下的部件：响应于用户的动作，引起向用户同时地经由手持便携式设备呈现空间音频内容的第一部分、以及经由空间音频设备呈现空间音频内容的第二部分。

在第一实施例的一些但并不一定所有的示例中，由空间音频内容的第二部分定义的空间音频场景取决于手持便携式设备的位置而被修改。

在第一实施例的一些但并不一定所有的示例中，至少部分地定义空间音频场景的一个或多个音频对象取决于手持便携式设备的位置而被移动，以避免音频对象和由手持便携式设备的位置确定的空间音频内容的第一部分位于相同地点。

在第一实施例的一些但并不一定所有的示例中，空间音频内容的第一部分与关联于用户的第一耳朵的第一语音相关，手持便携式设备被定位在该第一耳朵处，并且其中空间音频内容与至少不同的第二语音相关，其中由空间音频内容的第二部分定义的空间音频场景被修改为将第二语音设置在用户的与第一耳朵相对的第二耳朵处。

在一些但并不一定所有的示例中，该装置包括：响应于手持便携式设备的移动来编辑空间音频内容的第二部分的部件。

在一些但并不一定所有的示例中，空间音频内容的第一部分与传入呼叫相关，并且空间内容的第二部分至少与在接收到传入呼叫之后要被继续呈现的内容相关。

在第二实施例的一些但并不一定所有的示例中，该装置包括用于通过用户使用第一人称视角介导现实来实现选择空间音频内容的第一部分的部件。

在第二实施例的一些但并不一定所有的示例中，空间音频内容的第一部分是通过用户注意的方向而被选择的音频对象、或通过用户注意的方向而被选择的音频场景。

在第二实施例的一些但并不一定所有的示例中，空间音频内容的第一部分是第一移动音频对象，其中音频内容的第一部分被呈现为好像第一音频对象是静止的。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：在至少使用空间音频设备时的用户动作之后，使用第一人称视角介导现实来实现空间音频内容的第二部分的适配。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：在用户动作之后，根据第一人称视角介导现实来实现空间音频内容的第二部分适配、以及经由至少空间音频设备来呈现空间音频内容的第二部分。

在一些但并不一定所有的示例中，该装置包括用于以下的部件：在用户动作之后根据第一人称视角介导现实来实现空间音频内容的第二部分的适配、以及经由至少空间音频设备呈现空间音频内容的第二部分；

用于以下的部件：在随后的用户动作之后，禁止根据第一人称视角介导现实的空间音频内容的第二部分的适配、以及经由空间音频设备根据固定的第一人称视角来呈现空间音频内容的第二部分；

在一些但并不一定所有的示例中，手持便携式设备包括显示器，并且被配置作为该装置或容纳该装置。

根据各种但不一定所有的实施例，提供了一种方法，包括：

同时控制由手持便携式设备呈现的内容和由空间音频设备呈现的内容；以及

响应于用户的动作，经由手持便携式设备而不是空间音频设备来向用户提供空间音频内容的第一部分而不是第二部分的呈现。

根据各种但不一定所有的实施例，提供了一种计算机程序，该计算机程序在一个或多个处理器上运行时，实现：

根据各种但非全部的实施例，提供了一种装置，包括：

至少一个处理器；和

包括计算机程序代码的至少一个存储器，

至少一个存储器和计算机程序代码被配置为与至少一个处理器一起，使该装置至少执行：

根据各种但不是所有的实施例，提供了如所附权利要求中要求保护的示例。

附图说明

现在将参考附图描述一些示例实施例，其中：

图1A、图1B、图1C、图1D、图1E和图1F示出了本文所述主题的示例实施例；

图2示出了本文所述主题的另一示例实施例；

图3A、图3B、图3C示出了本文所述主题的另一示例实施例；

图4A、图4B、图4C示出了本文所述主题的另一示例实施例；

图5A、图5B、图5C示出了本文所述主题的另一示例实施例；

图6A、图6B、图6C示出了本文所述主题的另一示例实施例；

图7A、图7B、图7C示出了本文所述主题的另一示例实施例；

图8示出了本文所述主题的另一示例实施例；

图9A、图9B、图9C、图9D、图9E示出了本文所述主题的另一示例实施例；

图10A、图10B、图10C、图10D示出了本文所述主题的另一示例实施例；

图11A、图11B示出了本文所述主题的另一示例实施例；和

图12A、图12B示出了本文所述主题的另一示例实施例。

定义

“人造环境”可以是已经记录或生成的东西。

“虚拟视觉空间”是指可以被观看的完全或部分人造的环境，其可以是三维的。

“虚拟视觉场景”是指从虚拟视觉空间内的特定视点(位置)观看的虚拟视觉空间的表示。

“虚拟视觉对象(virtual visual object)”是虚拟视觉场景内的可见虚拟对象。

“声音空间”(或“虚拟声音空间”)是指三维空间中的声源的布置。可以相对于记录声音(记录的声音空间)并且相对于呈现声音(呈现的声音空间)定义声音空间。

“声音场景”(或“虚拟声音场景”)是指从声音空间内的特定视点(位置)聆听的声音空间的表示。

“声音对象”是指可以位于声音空间内的声源。对照与虚拟视觉空间中的对象相关联的声源，源声音对象表示声音空间内的声源。记录的声音对象表示在特定麦克风或地点处记录的声音。呈现的声音对象表示从特定地点呈现的声音。

“虚拟空间”可以意指虚拟视觉空间，意指声音空间或意指虚拟视觉空间和对应的声音空间的组合。在一些示例中，虚拟空间可以水平地延伸到360°，并且可以垂直地延伸到180°。

“虚拟场景”可以意指虚拟视觉场景，意指声音场景或意指虚拟视觉场景和对应的声音场景的组合。

“虚拟对象”是虚拟场景内的对象，它可以是增强的虚拟对象(例如，计算机生成的虚拟对象)，或者它也可以是实况或记录的真实空间中的真实对象的图像。它可以是声音对象和/或虚拟视觉对象。

“虚拟位置”是虚拟空间内的位置。可以使用虚拟地点和/或虚拟定向来定义它。它可能被认为是一个可移动的“视点”。

当相对于声音空间和虚拟视觉空间使用时，“对应”或“对应的”意指声音空间和虚拟视觉空间是时间和空间对准的，即它们是在相同时间处的相同空间。

当相对于声音场景和虚拟视觉场景(或视觉场景)使用时，“对应”或“对应的”意指声音空间和虚拟视觉空间(或视觉场景)是对应的，并且其视点定义了声音场景的名义(虚拟)听众和其视点定义了虚拟视觉场景(或视觉场景)的名义(虚拟)观众处于相同地点和定向，即它们具有相同的视点(相同的虚拟位置)。

“真实空间”(或“物理空间”)是指真实环境，其可以是三维的。

“真实场景”是指从真实空间内的特定视点(位置)对真实空间的表示。

“真实视觉场景”是指从真实空间内的特定真实视点(位置)观看的真实空间的视觉表示。

“介导现实(mediated reality)”在本文档中是指用户例如在视觉上和/或在听觉上体验的完全或部分人造的环境(虚拟空间)，作为至少部分地由装置呈现给用户的虚拟场景。虚拟场景由虚拟空间内的视点(虚拟位置)确定。显示虚拟场景意指以用户可以感知的形式提供虚拟视觉场景。

“增强现实”在本文档中是指介导现实的一种形式，其中用户体验作为虚拟场景的部分人造的环境(虚拟空间)，该虚拟场景包括由装置向用户呈现的一个或多个视觉或音频元素所补充的物理真实环境(真实空间)的真实场景，例如真实视觉场景。术语增强现实意味着混合现实或混杂现实，并不一定意味着虚拟的程度(相对于现实)或中间的程度；

“虚拟现实”在本文档中是指介导现实的一种形式，其中用户体验完全人造的环境(虚拟视觉空间)，作为装置向用户显示的虚拟场景；

“虚拟内容”是除了来自真实场景的真实内容(如果有的话)之外的内容，该内容通过例如提供一个或多个增强的虚拟对象来实现介导现实。

“介导现实内容”是虚拟内容，其使得用户能够例如在视觉上和/或在听觉上体验作为虚拟场景的完全或部分人造的环境(虚拟空间)。介导现实内容可以包括诸如视频游戏之类的交互式内容或诸如运动视频之类的非交互式内容。

“增强现实内容”是介导现实内容的一种形式，其使得用户能够例如在视觉上和/或在听觉上体验作为虚拟场景的部分人造的环境(虚拟空间)。增强现实内容可以包括诸如视频游戏之类的交互式内容或诸如运动视频之类的非交互式内容。

“虚拟现实内容”是介导现实内容的一种形式，其使得用户能够例如在视觉上和/或在听觉上体验作为虚拟场景的完全人造的环境(虚拟空间)。虚拟现实内容可以包括诸如视频游戏之类的交互式内容或诸如运动视频之类的非交互式内容。

应用于介导现实、增强现实或虚拟现实的“视角介导”意指用户动作确定虚拟空间内的视点(虚拟位置)，从而改变虚拟场景；

应用于介导现实、增强现实或虚拟现实的“第一人称视角介导”意指具有以下附加约束的视角介导：用户的真实视点(地点和/或定向)确定虚拟用户的虚拟空间内的视点(虚拟位置)；

应用于介导现实、增强现实或虚拟现实的“第三人称视角介导”意指具有以下附加约束的视角介导：用户的真实视点不确定虚拟空间内的视点(虚拟位置)；

应用于介导现实、增强现实或虚拟现实的“用户交互”意指用户动作至少部分确定了虚拟空间内发生的事情；

“显示”意指以用户在视觉上感知(观看)的形式来提供。

“呈现(rendering)”意指以用户感知的形式来提供。

“虚拟用户”定义了在虚拟空间中被用来生成视角介导的声音场景和/或视觉场景的视点(虚拟位置、地点和/或定向)。虚拟用户可以是名义听众和/或名义观众。

“名义听众”定义了在虚拟空间中被用来生成视角介导的声音场景的视点(虚拟位置、地点和/或定向)，无论用户是否实际在聆听

“名义观众”定义了在虚拟空间中被用来生成视角介导的视觉场景的视点(虚拟位置、地点和/或定向)，无论用户是否实际在观看。

三自由度(3DoF)描述了虚拟位置仅由定向(例如，三维定向的三个度)确定的介导现实。三维定向的三个度的示例是俯仰、翻滚和偏航。关于第一人称视角介导现实3DoF，只有用户的定向才能确定虚拟位置。

六自由度(6DoF)描述了虚拟位置由定向(例如，三维定向的三个度)和地点(例如，三维地点的三个度)共同确定的介导现实。三维定向的三个度的示例是俯仰、翻滚和偏航。三维地点的三个度的示例是欧几里得空间中由正交轴(诸如，从左到右(x)、从前到后(y)和向下到上(z)轴)跨越的三维坐标。关于第一人称视角介导现实6DoF，在真实空间中的用户的定向和用户的地点以确定虚拟位置。关于第三人称视角介导现实6DoF，在真实空间中的用户的地点不确定虚拟位置。在真实空间中的用户的定向可能会或可能不会确定虚拟位置。

三自由度“加”(3DoF+)描述了六个自由度的示例，其中地点的变化(例如三维地点的三个度)是相对于用户的地点的变化，其可能是由于用户头部和/或身体的姿态变化而引起的，并且不涉及用户通过例如步行而在真实空间中的平移。

具体实施方式

图1A、图1B、图1C、图1D、图1E和图1F示出了第一人称视角介导现实。在此上下文中，介导现实意指出于实现针对远程用户的介导现实(例如增强现实或虚拟现实)的目的来呈现介导现实。它可以是用户交互式的，也可以不是。介导现实可以支持3DoF、3DoF+或6DoF。备选地，介导现实可以支持3DoF或6DoF，而不支持3DoF+。

图1A、图1C和图1E图示了在第一时间处的真实空间50、声音空间60和视觉空间62。在声音空间60和虚拟视觉空间62之间存在对应性。真实空间50中的用户51具有由地点52和定向53定义的视点(point of view)(位置)54。该地点是三维地点并且该定向是三维定向。

在3DoF介导现实的示例中，用户的真实视点54(定向)确定虚拟用户的虚拟空间内的视点74(虚拟位置)。用户51的定向53控制虚拟用户71的虚拟定向73。定向53与虚拟定向73之间存在对应关系，使得定向53的变化产生虚拟定向73的相同变化。

虚拟用户71的虚拟定向73与虚拟视野78的组合定义了虚拟视觉空间62内的虚拟视觉场景75。在一些示例中，它可以附加地或备选地定义虚拟声音场景76。

虚拟视觉场景75是虚拟视觉空间62的被显示给用户的那部分。虚拟声音场景76是虚拟声音空间60的被呈现给用户的那部分。虚拟声音空间60和虚拟视觉空间62相对应，因为虚拟声音空间60内的位置在虚拟视觉空间62内具有等效的位置。在3DoF介导现实中，用户51的地点52的变化不会改变虚拟用户71的虚拟地点72或虚拟定向73。

在6DoF介导现实的示例中，用户的真实视点54(地点和/或定向)确定虚拟用户71的虚拟空间内的视点74(虚拟位置)。该情况如针对3DoF所述，另外，通过用户51的地点52的移动来改变所呈现的虚拟声音场景76和所显示的虚拟视觉场景75是可能的。例如，在用户51的地点52和虚拟用户71的虚拟地点72之间可以存在映射。用户51的地点52的变化会产生虚拟用户71的虚拟地点72的对应变化。虚拟用户71的虚拟地点72的变化改变所呈现的声音场景76并且改变所呈现的视觉场景75。

这可以从图1B、图1D和图1F中理解，这些图例图示了用户51分别在所呈现的声音场景76(图1D)和所呈现的视觉场景75(图1F)上的地点52和定向53的变化的后果。地点的变化可以源自于用户的姿态改变和/或用户通过步行或其他方式的平移。

取决于实现，第一人称视角介导现实可以仅控制虚拟声音场景76、虚拟视觉场景75、以及虚拟声音场景76和虚拟视觉场景75二者。

在一些情形中，例如，当声音场景通过头戴式音频输出设备(例如使用双耳音频编码的耳机)被呈现给听众时，在听众在空间中转头时，可能期望所呈现的声音空间的一部分在真实空间中保持固定。这意味着所呈现的声音空间需要相对于音频输出设备在与头部旋转相反的意义上旋转相同的量。呈现声音空间的该部分的定向跟踪听者头部的旋转，使得所呈现的声音空间的定向在空间中保持固定并且不会随听者头部移动。

被“锁定”到真实世界的声音可以被称为“剧情(diegetic)声音”。

被“锁定”到用户头部的声音可以被称为非剧情声音。

虚拟声音场景76的呈现还可以被描述为提供空间音频或提供沉浸式音频。虚拟声音场景76包括在声音空间60中的不同位置处的一个或多个声源。被呈现给用户的音频取决于虚拟用户与声源的位置的相对位置。视角介导虚拟现实，例如第一人称视角介导现实，使用户51能改变在声音空间60内的虚拟用户71的位置，从而改变声源相对于虚拟用户的位置，这改变了被呈现给用户51的虚拟声音场景76。

可以使用基于通道的音频，例如，n、m个环绕声(例如5.1、7.1或22.2环绕声)或双耳音频，或者可以使用基于场景的音频，包括有关声场和声源的空间信息。

音频内容可以将空间音频编码为音频对象。示例包括但不限于MPEG-4和MPEGSAOC。MPEG SAOC是元数据辅助空间音频的示例。

音频内容可以将空间音频编码为移动虚拟扬声器形式的音频对象。

音频内容可以将空间音频编码为带有参数辅助信息或元数据的音频信号。音频信号可以是例如一阶高保真度立体声响复制(FOA)或其特殊情况的B格式、高阶高保真度立体声响复制(HOA)信号或中侧立体声。对于这样的音频信号，利用音频信号和参数元数据的合成被用来合成音频场景，从而创建期望的空间感知。

参数元数据(parametric metadata)可以通过不同的技术来产生。例如，可以使用诺基亚的空间音频捕获(OZO音频)或定向音频编码(DirAC)。两者都捕获声场并使用参数元数据来表示之。参数元数据可以例如包括：方向参数，其指示每个频带的方向；距离参数，其指示每个频带的距离；能量分割参数，其指示每个频带的扩散与总能量之比。对于直接版本，每个时频方块都可以被视为具有基于方向参数控制矢量的幅度平移(panning)的声源，而对于间接(与装饰相关)版本，则可以被视为能量分割参数则控制差分增益的声源。

已编码的音频内容可以是话音和/或音乐和/或通用音频。

当前正在开发中的3GPP IVAS(3GPP，沉浸式语音和音频服务)预期支持新的沉浸式语音和音频服务，例如介导现实。

在一些但并不一定所有的示例中，幅度平移技术可以被用来创建或定位声音对象。例如，基于矢量的幅度平移(VBAP)的已知方法可以被用来定位声源。

声音对象可以通过将对象的一部分直接形式(经衰减和定向滤波的直接声音)与对象的间接形式(例如经定位的定向早期反射和/或扩散混响)混合而被重新定位。

图2图示了用于控制空间音频内容102的呈现的系统100的示例。

在该示例中，系统100包括装置112，该装置112接收空间音频内容102并产生用于第一设备130的空间音频内容102的第一部分113(第一音频内容)、以及用于第二设备120的空间音频内容102的第二部分111(第二音频内容)。在该示例中，第一设备130是手持便携式设备。手持便携式设备是具有允许用手携带之的大小和质量的设备。在一些示例中，它的大小和质量允许其可以相对于用户的身体移动，例如用户可以轻松地用一只手将其朝着用户的耳朵举起。在一些示例中，它的尺寸和质量使其可以被携带于用户的口袋中。在该示例中，第二设备120是空间音频设备，而空间音频内容102的第二部分111是空间音频内容-空间音频设备120被配置为利用已定位的呈现声源将空间音频内容102的第二部分111呈现为所呈现的声音场景76。

空间音频设备120可以被配置为仅呈现空间音频，或者可以被配置为呈现空间音频以及虚拟视觉场景78。

立体声扬声器被配置为呈现双耳音频内容(binaural audio content)或其他空间音频内容。扬声器将声源140(在图2中未例示出)定位在声音空间60内。所呈现的声音场景76取决于接收到的空间音频内容102的第二部分111，并且在一些示例中取决于空间音频设备120的个人呈现设置。空间音频内容120的第二部分111具有或被转换为具有适合于由第二设备120呈现的格式。

空间音频设备120可以是头戴式音频输出设备，例如耳机。耳机可以使用入耳式扬声器、带有扬声器的耳罩或近耳式扬声器，例如，它们是用于眼镜框架的“太阳穴”(temples)的一部分。

空间音频设备120可以是直通耳机，其允许用户不仅听到由空间音频设备120的一个或多个扬声器呈现的音频，而且还清楚地听到诸如从手持便携式设备130输出的音频之类的环境音频。

空间音频设备120被配置为实现第一人称视角介导现实。例如，空间音频设备120可以包括在用户佩戴空间音频设备120时能够跟踪用户的头部运动的电路系统。

在一些但不必是全部的示例中，空间音频设备120可以包括用于用户51的单眼或双眼的头戴式显示器。

手持便携式设备130包括一个或多个扬声器，并且被配置为经由一个或多个扬声器引起空间音频内容102的第一部分113的呈现。

尽管在一些示例中手持便携式设备130能够从多个扬声器进行组合回放，但是其不一定能够进行空间音频输出。因此，听到输出音频131，就像从手持便携式设备130发出的一样。

与之相比，空间音频设备120能够将声源140放置在声音空间60内。

在一些但并不一定所有的示例中，手持便携式设备130是移动蜂窝电话。

装置112对接收到的空间音频内容102进行解码，并引起经由手持便携式设备130向用户51呈现空间音频内容102的第一部分113，并经由空间音频设备120向用户51呈现空间音频内容102的第二部分111。装置112包括用于对空间音频内容102进行解码的解码器104。解码产生具有一种格式的空间音频内容102，该格式可以被用来标识并单独地处理声源140。将经解码的空间音频内容提供给呈现控制块106和呈现器110。呈现控制块106确定将如何呈现空间音频内容102内的声源140。该确定基于接收到的分配信息108。呈现控制块106将控制输出提供给呈现器110。

呈现器110在来自呈现控制块106的控制信号的控制下，将从解码器104接收到的空间音频内容呈现为用于由手持便携式设备130呈现的第一部分113以及呈现为用于由空间音频设备120呈现的第二部分111。第二部分111是空间音频内容。

呈现器110被配置为关于空间音频内容102的第二部分111实现第一人称视角介导现实。因此，呈现器110考虑了用户51的视点54。

可以通过任何合适的链路将空间音频内容102的第二部分111传送到空间音频设备120。在一些但并不一定所有的示例中，该链路是无线链路，例如无线电链路。可以通过诸如蓝牙或WLAN的任何合适的协议来提供无线电链路。

空间音频内容102的第一部分113可以通过任何合适的链路传送到手持便携式设备130。在一些但并不一定所有的示例中，链路是无线链路，诸如无线电链路。可以通过诸如蓝牙或WLAN之类的任何合适的协议来提供无线电链路。

在一些但并不一定所有的示例中，呈现器100可以包括用于空间音频内容102的第一部分113和第二部分111的不同呈现器。

呈现控制块106被配置为在需要时单独地标识和控制每个声源。它能够响应于空间音频内容102的第二部分111而控制呈现器110来组合所呈现的声音场景76内的一个或多个声源。

在一些示例中，分配信息108是可选的。例如，在嵌入式编解码器中，最低层(单声道monovoice)可以作为空间音频内容102的第一部分113被自动传送，并且其他层(空间增强层)可以作为空间音频内容102的第二部分111而被提供。

在其他示例中，所呈现的声音场景76的形式可以由分配信息108控制。

在该示例中，呈现控制块106和呈现器110被容纳在相同装置112内，在其他示例中，呈现控制块106和呈现器110可以被容纳在单独的设备中。在任一实现中，提供了一种装置112，包括用于以下的部件：同时地控制由手持便携式设备130呈现的内容131和由空间音频设备120呈现的内容76；并响应于用户51的动作，经由手持便携式设备130而不是空间音频设备120向用户51提供空间音频内容102的第一部分113、而不是第二部分111的呈现。

装置112可以包括诸如呈现控制块106的部件，用于响应于用户动作来确定空间音频内容102的第一部分113和空间音频内容102的第二部分111。

装置112还包括用于以下的部件：响应于用户的动作，引起同时向用户经由手持便携式设备130呈现空间音频内容102的第一部分113以及经由空间音频设备120呈现空间音频内容102的第二部分111。空间音频设备120呈现第二部分111，而不是第一部分113，并且手持便携式设备130呈现第一部分113，而不是第二部分111。在一些示例中，手持便携式设备130仅呈现第一部分113，并且空间音频设备120仅呈现第二部分111。

在一些但并不一定所有的示例中，空间音频内容102由装置112从通信网络接收。空间音频内容102可以例如定义声音场景，或者例如可以是沉浸式呼叫。在来自远程人员的下行链路通信链路中提供沉浸式呼叫，并且在此示例中，但不一定是所有示例中，空间音频内容102的第一部分113可以包括远程人员的语音和/或环境声音。

呈现控制模块106可以被配置为控制声源140被呈现为剧情内容还是被呈现为非剧情内容。剧情内容在声音空间60中具有与真实空间50中的位置相对应的位置。声源相对于用户51的地点由第一人称视角介导现实控制。对照而言，非剧情内容在真实空间50中没有位置，并且由于第一人称视角介导现实而不经受修改。非剧情内容的示例包括例如环境声音或“叙述者(narrator)”语音。

声源140被呈现为剧情内容还是非剧情内容可以取决于声源140在手持便携式设备130被呈现还是空间音频设备120上被呈现。例如，空间音频内容102的第一部分113可以是非剧情声源140。空间音频内容102的第二部分110可以是剧情内容和/或非剧情内容。

在图3A、图3B和图3C的示例中，引起以下的用户动作是将手持便携式设备130朝着用户51的耳朵举起：经由手持便携式设备130向用户呈现空间音频内容102的第一部分113并经由空间音频设备120向用户呈现空间音频内容102的第二部分111。当然，应当意识到，不同的用户动作(包括例如交互和/或指示)也可以引起这种呈现。

图3A图示了其中手持便携式设备130呈现131空间音频内容102的第一部分113的示例。

图3B图示了一个示例，其中空间音频设备120将空间音频内容102的第二部分111呈现为包括声源140的被呈现的声音场景76。呈现声音场景76包括在声音空间60中的相应位置处呈现一个或多个声源。

图3C图示了响应于用户51的动作，向用户51同时地经由手持便携式设备130呈现空间音频内容102的第一部分113、以及经由空间音频设备120呈现空间音频内容102的第二部分111。在该示例中，由用户执行以引起以下的动作是将手持便携式设备130向用户的左耳51举起：经由手持便携式设备130向用户51呈现空间音频内容102的第一部分113。

在该示例中，装置112包括用于与手持便携式设备130和/或空间音频设备120进行通信以确定用户的动作何时发生的部件。例如，这可以通过使用用于手持便携式设备130的接近度检测器而被检测到，该接近度检测器通过例如测量声学阻抗来检测手持便携式设备130接近用户51的耳朵，或者通过检测空间音频设备120来检测手持便携式设备130接近空间音频设备120。备选地，手持便携式设备130可以使用惯性测量单元来测量手持便携式设备130的移动并与手持便携式设备130的直立定向相组合地检测与移动设备130的向上举起相对应的移动。

在其他示例中，空间音频设备120可以包括用于检测手持便携式设备130的接近度的接近度检测器。

当空间音频内容102与传入的沉浸式电话呼叫相关时，使用手持便携式设备130向用户51的耳朵的举起来引起将空间音频数据102划分成用于手持便携式设备130的第一部分113和用于空间音频设备120的第二部分111是特别有用的。沉浸式电话呼叫是包括空间音频内容的电话呼叫。

在传入的空间音频内容102是沉浸式电话呼叫的情况下，空间音频内容102的第一部分113可以是呈现呼叫者的语音的内容。然后可以从由传入的沉浸式电话呼叫的空间音频内容所定义的空间声音场景中移除呼叫者的语音，以产生由空间音频设备120呈现的空间音频内容102的第二部分111作为所呈现的声音场景76。

在一些示例中，在用户动作引起将空间音频内容102划分成用于手持便携式设备130的第一部分113和用于空间音频设备120的第二部分111之前，空间音频内容102可以完全由空间音频设备120呈现。因此，在用户的动作之前，空间音频内容102的第一部分113和第二部分111可以同时由空间音频设备120呈现。

以下是系统100的用例的示例。用户51正佩戴着空间音频设备120，并且手持便携式设备130在他的口袋中。用户的朋友例如使用IVAS通过沉浸式电话呼叫来呼叫他。经由手持便携式设备130的铃声、经由空间音频设备120呈现的内容或者通过二者，用户51被警报该传入的沉浸式呼叫。用户51想要在他的手持便携式设备130上接收传入的沉浸式呼叫，但是还希望听到他朋友的环境信号。用户51通过在他耳朵处抵靠空间音频设备120触碰手持便携式设备130来应答该传入的沉浸式呼叫。可以是手持便携式设备130的呼叫软件的一部分的呈现控制模块106，将呼叫者的语音(朋友的语音)作为空间音频内容102的第一部分113分配给手持便携式设备130并将环境信号作为空间音频内容102的第二部分111分配给空间音频设备120。空间音频设备120不仅允许用户听到由空间音频设备120的一个或多个扬声器呈现的音频，而且还清楚地听到诸如从手持便携式设备130输出的音频之类的环境音频。用户听到在他周围发射的环境信号，作为由空间音频设备120呈现的被呈现的声音场景76，并且以传统的方式使用手持便携式设备130来听到呼叫者的语音。用户51可以例如将手持便携式设备130从耳朵切换到耳朵，并且在一些示例中，可以能够以免提模式使用手持便携式设备130。手持便携式设备130和/或空间音频设备120上的用户界面使得用户51能够控制分配信息108。例如，可以改变分配信息108以控制由空间音频设备120呈现的空间音频内容的第二部分111的音量和/或控制由手持便携式设备130呈现的空间音频内容102的第一部分113的音量。

在图4A至图4C以及图5A至图5C所图示的示例中，手持便携式设备130被用来呈现空间音频内容102的第一部分113，并且空间音频设备120被用来呈现空间音频内容102的第二部分111。因此，手持便携式设备130和空间音频设备120被同时地用于音频内容的呈现。因此，来自一个设备呈现的音频内容可以影响用户对其他设备呈现的音频内容的感知。在所图示的示例中，空间音频内容的第二部分111适于在空间音频内容的第二部分111内移动一个或多个声源140以避免该问题。被移动的声源140是附加的声源。例如，它可以是来自沉浸式呼叫内容内的内部剧情声源，而不是呼叫者的主要语音，或者它可以是来自内容的外部附加声源，而不是沉浸式呼叫。

内部附加声源例如可以是另一个人在说话(不是周围的背景噪音)。例如，如果沉浸式呼叫是多人电话会议呼叫，则可能会出现这种情况。在一些示例中，当手持便携式设备130和空间音频设备120的用户与第二远程方、第三远程方、第四远程方等进行多方电话会议时，那么用户可以选择哪个远程方的语音从手持便携式设备130被呈现，而其他两个远程方将继续在空间音频设备120的空间音频输出中被呈现。用户可以个体地选择参与多方电话会议呼叫的多个远程方中的哪些方以分别分离到手持便携式设备130和空间音频设备12。

外部附加声源可以例如来自于正在进行的内容，这些内容不会被停止或暂停，并且在接收到沉浸式电话时会持续(至少部分地)，或者可以是与沉浸式分离的新内容呼叫，在收到沉浸式呼叫后开始。

在一些但并不一定所有的示例中，用户可以例如使用手持便携式设备130或空间音频设备120的用户界面来选择附加声源。

外部附加声源的示例包括例如音乐播放、消息、广告和上下文指导。

在图4A至图4C以及图5A至图5C中，由空间音频内容102的第二部分111定义的空间音频场景76取决于手持便携式设备130的位置133而被修改。

例如，附加源140’的位置基于用户动作137，例如，手持便携式设备130移动到新位置，而被移动144。

图4A图示了在响应于用户动作137将空间音频内容102划分成用于手持便携式设备130的第一部分113和用于空间音频设备120的第二部分111之前，特定声源140’在空间音频内容102中的位置。

图4B图示了在用户51已经执行了引起空间音频内容102被划分成第一部分113和第二部分111的动作137之后的情形。第一部分113由或将由手持便携式设备130呈现为手持便携式设备130所在的用户的左耳中的音频内容131。如图4C中所例示，呈现控制模块106引起呈现器110适配空间音频内容102的第二部分111以改变空间音频源140’的位置。在该示例中，声源140’被移动144以接近用户51的右耳。

图5A、图5B和图5C类似于图4A、图4B和图4C，然而，现在存在两个原始声源A、B，并且被移动的特定声源B 140的初始位置是不同的。在图5B的示例中，所呈现的声音场景76的特定声源140’直接接近用户的左耳，并且其被移动144远离用户的左耳以在附加声源140’和手持便携式设备130之间创建空间分离。

分配信息108可以提供标识在三维空间中的手持便携式设备130的地点的信息。例如，这可以指示它靠近用户的左耳或右耳，或者可以提供在真实空间50中的三维位置。

呈现控制模块106被配置为确定手持便携式设备130的位置与附加声源140’之间的距离分隔。如果分隔距离低于阈值，则呈现控制模块106确定附加声源140′被次优地放置。例如，它可以确定如图4B中所例示存在空间冲突，或者如图5B中所例示存在处于同一地点。

呈现控制模块106通过至少移动附加声源140’来修改空间音频声音场景76。在一些但并不一定所有的示例中，仅移动被确定为次优放置的附加声源140’。在其他示例中，相对于用户51旋转整个呈现声音场景76以移除空间冲突或处于相同地点。

在图4A和图5A的示例中，在用户动作137通过将空间音频内容102划分成用于手持便携式设备130的第一部分113和用于空间音频设备120的第二部分111而引起空间音频内容102的修改之前，使用第一人称视角介导现实向用户51呈现空间音频内容102。例如，当用户51改变他们的视点54时，附加声源140’可以在真实空间中具有固定位置。

在图4C和图5C的示例中，在用户动作137通过将空间音频内容102划分成用于手持便携式设备130的第一部分113和用于空间音频设备120的第二部分111而引起空间音频内容102的修改之后，使用第一人称视角介导现实，包括重新定位的附加声源140’的空间音频内容102被呈现给用户51。例如，当用户51改变他们的视点54时，重新定位的附加声源140’可以在真实空间中具有固定位置。

在一些但并不一定所有的示例中，空间音频内容102的第一部分113涉及与用户51的第一耳朵相关联的第一语音，其中手持便携式设备130被定位在第一耳朵处。空间音频内容的第二部分111涉及至少第二不同的语音，其中由空间音频内容102的第二部分111定义的空间音频场景76被修改以将第二语音140’放置在用户的与第一耳朵相对的第二耳朵处。

在一些但并不一定所有的示例中，第一语音和第二不同语音可以涉及沉浸式电话呼叫内的不同声源。在这样的示例中，图4A至图4C和图5A至图5C的示例可以发生在对空间音频内容102的任何呈现之前的预处理中。沉浸式电话呼叫的空间音频内容102仅可在图4C和图5C中例示出的对空间音频内容102的第二部分111的修改之后才第一次被呈现。

图6A至图6C图示了其中用户51编辑空间音频内容102的第二部分111的示例。在该示例中，响应于手持便携式设备130的移动来编辑空间音频内容102的第二部分111。

在一些但并不一定所有的示例中，用户51可以控制用于手持便携式设备130的第一部分113与用于空间音频设备120的第二部分111之间的声源140的分配。这可以通过修改分配信息108来实现。

在一些但并不一定所有的示例中，用户51可以通过将声源140从作为呈现场景76的一部分由空间音频设备120呈现移动成由手持便携式设备130呈现，来控制声源140的分配，和/或控制声源140从由手持便携式设备130呈现到由空间音频设备120呈现的重新分配。

在其他示例中，用户可以例如通过单独地控制设备的音量或通过使由任一设备呈现的声源140静音，来控制由手持便携式设备130和空间音频设备120输出的音频之间的平衡。

在图6A的示例中，由接近用户51的左耳的手持便携式设备130呈现131主声源Y。同时，空间音频设备120将附加声源140’呈现为所呈现的声音场景76。该附加声源140’是辅助声源X。主声源Y可以例如是沉浸式电话呼叫中的语音。附加声源140’可以例如是沉浸式呼叫中的不同语音或其他不同的内容。

如图6B中所例示，系统100被配置为使用户51能控制呈现设备120、130之间的声源140的分配。在该示例中，用户使用手持便携式设备130上的用户界面来切换主声源Y与辅助声源X。现在，主声源Y被呈现为在由空间音频设备120呈现的呈现声音场景76中的声源140。这通过响应于来自呈现控制模块106的控制信号修改空间音频内容102的第二部分111而被实现。现在，第二声源X由手持便携式设备130呈现。这是通过在呈现控制模块106的控制下修改空间音频内容102的第一部分113来实现的。

如图6C中所例示，用户现在能够放低手持便携式设备130，使得用户不再能够听到辅助声音对象X。然后，用户能够收听主声音对象Y，作为由空间音频设备120呈现的被呈现的声音场景76中的声源140。

在一些但并不一定所有的示例中，放低手持便携式设备120的动作135可以引起辅助声源X从空间音频内容102的第二部分111中的移除。随后将手持便携式设备举高到用户的耳朵处然后可以致使主声源Y被传送回空间音频内容102的第一部分113。结果，用户已经返回到类似于图6A中所例示的情形中，除了已经从由空间音频设备120呈现的声音场景76中移除了附加声源140’之外。

在图6C的示例中，如果用户51要在沉浸式呼叫期间讲话，那么空间音频设备120将需要有麦克风，或者需要分开提供附加的麦克风139，例如领夹式麦克风，或者由手持便携式设备130提供。

图7A图示了其中空间音频设备120正在向用户51呈现空间音频内容102的示例。所呈现的空间音频内容定义了包括多个声源140的声音场景76。图7B和图7C图示了用户可以执行一个动作，该动作引起声源140从所呈现的声音场景76中被移走，使得它改为从手持便携式设备130被呈现。返回去参见图2，这对应于分配信息108的变化，使得呈现控制块106控制呈现器110将特定声源140放置到由手持便携式设备130呈现的空间音频内容的第一部分113中。减去特定声源140的剩余空间音频内容作为空间音频内容102的第二部分111提供给空间音频设备120，以被呈现为声音场景76。

因此，装置112包括用于以下的部件：同时控制由手持便携式设备130呈现的内容和由空间音频设备120呈现的内容，并响应于用户的动作，而向用户提供经由手持便携式设备130呈现空间音频内容102的第一部分113而不是经由空间音频设备120呈现空间音频内容102的第二部分111。

在该示例中，在用户经由空间音频设备120对空间音频内容的第一部分和第二音频内容的第二部分的动作(图7A)之前，存在同时呈现。装置112包括用于经由用户51使用第一人称视角介导现实来实现选择空间音频内容102的第一部分113的部件。这在图7C中被例示出。在图7C示例中，用户可以通过改变被用来选择期望声源140的用户51的视点74来选择79期望声源140。

空间音频内容102的所选的第一部分113可以在由手持便携式设备130呈现之前被修改，例如以在单声道下混频中强调特定音频源。

在该示例中，用户动作是将手持便携式设备130举起到用户的头部。如前所述，装置112向用户51同时经由手持便携式设备130呈现空间音频内容102的第一部分113并经由空间音频设备120呈现空间音频内容102的第二部分111。

在一些但并不一定所有的示例中，第一部分113包括由用户51选择的单个声源140。在其他示例中，第一部分113包括由用户51分开并顺序选择的多个声源140。

图8图示了可以由装置112执行的方法200的示例。在框202处，装置112接收沉浸式呼叫。在框204处，沉浸式音频102由空间音频设备120呈现。在框206处，装置112检测到用户51已经将手持便携式设备130举高到接近用户的耳朵。在框208处，响应于呈现控制框106，由呈现器110创建空间音频内容102的第一部分113。在一些示例中，沉浸式呼叫的所有空间音频内容102被下混频以形成由手持便携式设备130呈现的单个第一部分113。在此示例中，呈现器110可能不将空间音频内容102的任何第二部分111提供给空间音频设备120。在其他示例中，呈现器110在呈现控制块106的控制下控制空间音频内容的第二部分111以包括一个或多个特定声源140。在此示例中，空间音频内容102的第二部分111包括在减去第一部分113之后剩余的空间音频内容102的那部分。

在框210，装置112对用户51的视点54的变化进行响应。视点的该变化作为分配信息108被提供，并且引起由手持便携式设备130呈现的音频内容的选择的变化。

例如，可以在强调与用户51的视点54相对应的特定到达方向上的一个或多个声源的情况下，从空间音频内容102创建的单声道下混频被创建。同样，特定声源140的选择可以对应于与用户51的视点54对准的声源。因此，随着用户51的视点54改变，则空间音频内容102的第一部分113的内容也改变。

在框212，将空间音频内容102的第一部分113递送给手持便携式设备130以进行呈现。

图9A至图9E详细图示了装置112如何使用户能使用第一人称视角介导现实来选择空间音频内容的第一部分。图9A图示了虚拟用户71，该虚拟用户71在包括声源140的声音空间60内具有视点74。如前所述，在第一人称视角介导现实中，虚拟用户71与用户51以及虚拟用户71的视点74和用户51的视点54之间存在对应关系。用户51通过改变用户的头部的定向来改变视点54。这改变了虚拟视点74。

在该沉浸式音频场景中，所呈现的声音场景76包括多个声源140。在该示例中，这些声源被固定在空间中，使得当用户51改变其视点54时，声源140的位置相对于用户51也改变。

在图9B的示例中，用户已经将手持便携式设备130举高到他的左耳或已经执行了任何其他合适的手势，以引起经由手持便携式设备130呈现空间音频内容102的第一部分113以及经由空间音频设备120呈现空间音频内容102的第二部分111。空间音频内容的第一部分113强调与虚拟用户71的视点74对准或最接近的声源140。在单声道下变频的示例中，在虚拟视点74的方向上强调单声道下变频。在声音对象的示例或特定声源140的选择中，视点74选择与虚拟视点74对准或最接近的声源140。所选的声源140被包括在空间音频内容102的第一部分113中，但是不被包括在空间音频内容102的第二部分111中。在图9B的示例中，在空间音频内容102的第一部分113中选择并强调被标记为“2”的声源140。

在图9C的示例中，用户51已经通过改变他的头部的定向来改变了他的视点54。这引起虚拟用户71的视点74因此改变。虚拟用户的视点74的变化会改变在空间音频内容102的第一部分113中强调声音场景的哪一部分。选择如针对图9B所述的那样，唯一的不同是视点74的改变。在图9C的示例中，在空间音频内容102的第一部分113中选择并强调被标记为“4”的声源140。

在图9D的示例中，用户51已经移除空间音频设备120。现在冻结了所选的声源140。在图9D的示例中，选择并强调被标记为“4”的声源140。用户头部的随后移动和用户51的视点54的变化没有改变虚拟用户71的视点74。因此，所强调的声源140的选择没有改变，如图9E中所例示。在图9E的示例中，被标记为“4”的声源保持在空间音频内容102的第一部分113中所强调的声源140。

因此，将意识到，尽管用户佩戴了具有头部跟踪能力的空间音频设备120，但是第一人称视角介导现实被启用。用户51的视点54和虚拟用户71的虚拟视点74彼此对应并跟踪。虚拟视点71被用来强调在空间音频内容内与虚拟视点74对准的特定声源140。在空间音频内容102的第一部分113中强调特定声源140。可以通过改变用户的视点54来改变所强调的声源140，这改变了虚拟用户的视点74。但是，一旦空间音频设备120被移除，就不再可以跟踪用户51的头部移动并且用户的视点54与虚拟用户的虚拟视点74解除耦合。因此，用户51的视点54的变化不会致使虚拟用户71的虚拟视点74的变化，也不会致使用于在空间音频内容102的第一部分113中强调的所选的声源140的变化。

在图10A和图10B的示例中，用户51选择特定声源140，并且该声源被强调，而与虚拟视点74和所选的声源140之间的对准的后续相对变化无关。例如，可能会出现这种缺乏对准的情况，这是因为所选的声源140正在移动和/或因为用户51改变了他的视点54。这种情况的结果是，所选的在移动的声源140被呈现为好像在移动的声源是静止的。

在图10A中，虚拟用户71的视点74与特定声音对象140被对准。这种对准选择特定声音对象140，该特定声音对象140然后被包括在空间音频内容的第一部分113中并且由手持便携式设备130呈现。声音对象140的选择可以作为用户51的动作的结果。

在图10B中，所选的声源140已经移动，但是虚拟用户71的视点74没有移动。尽管虚拟用户71的视点74不再指向所选的声音对象140，但是所选的声音对象140仍保持被选择，并被包括在由手持便携式设备130呈现的空间音频内容的第一部分113中。所选的声音对象140不是基于用户的视点而是基于跟踪来保持被选择，并且被包括在由手持便携式设备130呈现的空间音频内容的第一部分113中。所选的声音对象140的位置可以被跟踪并且因此，它被包括在由手持便携式设备130呈现的空间音频内容的第一部分113中的方式可以随所选的声音对象140的跟踪位置的变化而变化。因此，在图10A和图10B中，声音对象“1”、“3”、“4”由空间音频设备120呈现，由空间音频内容102的第二部分111所控制。此外，在图10A和图10B中，声音对象“2”在空间音频内容102的第一部分113的控制下由手持便携式设备130呈现。

在10C的示例中，空间音频设备120已被移除。尽管如此，在空间音频内容102的第一部分113的控制下，所选的空间声音对象2仍保持被选择并继续由手持便携式设备130呈现——即使它正在移动。

图10D图示了即使用户51改变了他的视点54，在空间音频内容102的第一部分113的控制下，所选的声音对象“2”继续由手持便携式设备130呈现，如先前在图10A至图10C中。

返回去参见图9B和图9C中所图示的示例，将意识到，当用户51改变他的视点54时，他改变了虚拟用户的视点74，这改变了在由手持便携式设备130呈现的空间音频内容102的第一部分113中强调的声源140。在强调的声源140是声音对象的示例中，声音场景的剩余声音对象由空间音频设备120呈现。也就是说，空间音频内容102的第一部分113包括声音对象“2”并且空间音频对象的第二部分111包括声音对象“1”、“3”、“4”。当用户改变定向，改变视点54时，那么用户的虚拟视点74也改变。这在图9C中被例示出。如前所述，这将改变所选择的声音对象。空间音频内容102的第一部分113包括声音对象“4”。因此，空间音频内容的第二部分111的内容现在包括声音对象“1”、“2”、“3”。另外，由于空间音频设备120启用了第一人称视角介导现实，所以，作为虚拟用户的视点改变的结果，与图9B和图9C比较，经由空间音频设备120向用户呈现的声音对象“1”和“3”的位置已经相对于用户进行了旋转。类似的考虑也适用于图10A至图10D。

因此，将意识到，在确定音频内容102的第一部分113的用户动作之后，装置112使得能够使用第一人称视角介导现实来适配空间音频内容102的第二部分111，同时至少使用空间音频设备120。装置112还实现至少经由空间音频设备120来呈现空间音频内容102的经适配的第二部分111。

在一些但并不一定所有的示例中，用户51可以能够锁定所选的对象而无需锁定空间音频场景。结果，装置112能够经由空间音频设备120呈现空间音频内容102的第二部分111，其中已经根据第一人称视角介导现实对第二部分111而被适配。

用户还能够响应于随后的用户动作来锁定所呈现的声音场景76。装置112然后被配置为在该随后的用户动作之后，根据第一人称视角介导现实来禁用对空间音频内容的第二部分111的适配，并致使经由空间音频设备120根据固定的第一人称视角来呈现空间音频内容102的第二部分111。

在图9B的示例中，空间音频设备120的移除同时锁定对象并锁定场景。

图11A图示了图2中所图示的系统100的实现的示例，其操作已在前面的描述中被描述。在该示例中，分配信息108从手持便携式设备130被提供给包括呈现控制块106的远程服务器180。在该示例中，服务器180还包括呈现器110。但是，在其他示例中，它可以位于手持便携式设备130中。

呈现器110在呈现控制块106的控制下以允许手持便携式设备130呈现第一部分113的方式将空间音频内容102的第一部分111和第二部分111提供给手持便携式设备130，并且将第二部分111提供给空间音频设备120以用于呈现。手持便携式设备130向服务器180提供分配信息108。例如，这可以包括与控制命令相关联的用户动作的指示。

图11B图示了图2中所图示的系统100的实现的示例，其操作已在前面的描述中进行了描述。在该示例中，分配信息108被内部地提供在包括呈现控制块106的手持便携式设备130内。在该示例中，手持便携式设备130包括呈现器110。服务器180提供空间音频内容102。

呈现器110在呈现控制块106的控制下以允许手持便携式设备130呈现第一部分113的方式将空间音频内容102的第一部分111和第二部分111提供给手持便携式设备130并且将第二部分111提供给空间音频设备120进行呈现。分配信息108可以例如包括与控制命令相关联的用户动作的指示。

图12A图示了控制器400的示例。这样的控制器可以被用来控制装置112的任何或所有功能的执行，控制手持便携式设备130的任何或所有功能的执行，控制空间音频设备120的任何或所有功能的执行。

控制器400的实现可以作为控制器电路系统。控制器400可以仅以硬件来实现，可以在包括单独固件的软件中具有某些方面，或者可以是硬件和软件(包括固件)的组合。

如图12A中所例示，控制器400可以使用使能硬件功能性的指令来实现，例如通过使用通用或专用处理器402中的计算机程序412的可执行指令来实现，其可以被存储在由这样的处理器402执行的计算机可读存储介质(磁盘，存储器等)中。

处理器402被配置为从存储器410读取和写入存储器410。处理器402还可以包括：输出接口，处理器402经由该输出接口输出数据和/或命令；以及输入接口，数据和/或命令经由该输入接口输入到处理器402。

存储器410存储计算机程序412，该计算机程序412包括计算机程序指令(计算机程序代码)，该计算机程序指令在被加载到处理器402中时控制装置112的操作。计算机程序412的计算机程序指令提供逻辑和例程，该逻辑和例程使得装置能够执行图1至图13中所例示的方法。通过读取存储器410，处理器402能够加载并执行计算机程序412。

因此，装置112包括：

至少一个处理器402；和

包括计算机程序代码的至少一个存储器410，

至少一个存储器410和计算机程序代码被配置为与至少一个处理器402一起使装置112至少执行：

同时控制由手持便携式设备130呈现的内容和由空间音频设备120呈现的内容；以及

响应于用户的动作，经由手持便携式设备而不是空间音频设备120来向用户提供空间音频内容102的第一部分113而不是第二部分的呈现。

因此，装置112可以包括：

至少一个处理器402；和

包括计算机程序代码的至少一个存储器410，

响应于用户的动作，经由手持便携式设备而不是空间音频设备120来向用户51提供空间音频内容102的第一部分113而不是第二部分的呈现。

如图12B中所例示，计算机程序412可以经由任何合适的递送机制420到达装置112。递送机制420可以是例如机器可读介质、计算机可读介质、非瞬态计算机可读存储介质、计算机程序产品、存储器设备、诸如压缩盘只读存储器(CD-ROM)或数字多功能盘(DVD)或固态存储器之类的记录介质、包括或有形地体现计算机程序412的制品。递送机制可以是被配置为可靠地传送计算机程序412的信号。装置11可以将计算机程序412作为计算机数据信号传播或传输。

在至少一些示例中，计算机程序指令被配置为使装置至少执行以下操作：

同时控制由手持便携式设备130呈现的内容和由空间音频设备120呈现的内容；和

响应于用户的动作，引起经由手持便携式设备而不是空间音频设备120向用户51呈现空间音频内容102的第一部分113而不是第二部分。

计算机程序指令可以被包括在计算机程序、非瞬态计算机可读介质、计算机程序产品、机器可读介质中。在一些但并不一定所有的示例中，计算机程序指令可以被分布在一个以上的计算机程序上。

尽管存储器410被例示为单个组件/电路系统，但是其可以被实现为一个或多个分开的组件/电路系统，其中一些或全部可以是集成/可移动的和/或可以提供永久/半永久/动态/缓存的存储。

尽管处理器402被例示为单个组件/电路系统，但是其可以被实现为一个或多个分开的组件/电路系统，其中一些或全部可以是集成/可移动的。处理器402可以是单核或多核处理器。

对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应被理解为不仅包括具有不同架构的计算机，诸如单/多处理器架构和顺序(冯·诺依曼)/并行架构，而且还包括专用电路，诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其他处理电路系统。对计算机程序、指令、代码等的引用应被理解为涵盖用于可编程处理器或固件的软件，诸如例如硬件设备的可编程内容——无论是用于处理器的指令，还是用于固定功能设备的配置设置、门阵列或可编程逻辑器件等

在本申请中，术语“电路系统”可以指以下的一个或多个或全部：

(a)纯硬件电路实现(例如仅在模拟和/或数字电路中的实现)和

(b)硬件电路和软件的组合，诸如(如果适用的话)：

(i)(一个或多个)模拟和/或数字硬件电路与软件/固件的组合，以及

(ii)具有软件的(一个或多个)硬件处理器的任何部分(包括(一个或多个)数字信号处理器)、软件和(一个或多个)存储器，它们一起工作以使诸如移动电话或服务器之类的装置执行各种功能)，和

(c)需要软件(例如，固件)来运行的(一个或多个)硬件电路和/或(一个或多个)处理器，诸如(一个或多个)微处理器或(一个或多个)微处理器的一部分，但在不需要运行时该软件可能不存在。

电路系统的这种定义适用于该术语在本申请中——包括在任何权利要求中的所有使用。作为进一步的示例，如在本申请中所使用的，术语电路系统也涵盖仅硬件电路或处理器及它(或它们)随附软件和/或固件的一部分的实现。举例而言并且在适用于特定权利要求元素的情况下，术语电路系统还涵盖用于手持便携式设备的基带集成电路，或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

图1至图13中所例示的框可以表示计算机程序412中的方法和/或代码段中的步骤。框的特定顺序的例示并不一定意味着该框具有所要求或所优选的顺序并且框的顺序和布置可以改变。此外，省略一些框是可能的。

在已经描述了结构特征的情况下，可以借助于用于执行结构特征的一个或多个功能的部件来替换该结构特征，无论那个功能或那些功能是显式还是隐式地进行了描述。

上面描述的示例将应用用作以下方面的启用组件：

汽车系统；电信系统；包括消费电子产品的电子系统；分布式计算系统；用于生成或呈现包括音频、视觉和视听内容在内的媒体内容以及混合、介导、虚拟和/或增强现实的媒体系统；包括个人健康系统或个人健身系统的个人系统；导航系统；也被称为人机界面的用户界面；包括蜂窝、非蜂窝和光网络在内的网络；自组织网络；互联网；物联网；虚拟网络；以及相关软件和服务。

本文档中使用的术语“包括”具有包容性而非排他性含义。也就是说，对包括Y的X的任何引用都指示X可以仅包括一个Y或可以包括一个以上的Y。如果意欲使用具有排他性含义的“包括”，那么在上下文中通过提及“仅包括一个..”或使用“由...组成”来使其明确。

在该描述中，已经对各种示例进行了参考。与示例相关的特征或功能的描述指示那些特征或功能存在于该示例中。不管是否明确声明，在本文中使用术语“示例”或“例如”或“可以”或“可能”表示至少在所描述的示例中存在这样的特征或功能，无论是否被描述为示例，并且它们可以但不一定存在于一些或所有其他示例中。因此，“示例”、“例如”、“可以”或“可能”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性，也可以是该类的属性，或者是该类的子类的属性，该子类包括该类中的一些但不是全部实例。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征，在可能的情况下可以在该另一示例中被用作工作组合的一部分，但不一定必须被用在该另一示例中。

尽管在前面的段落中已经参照各种示例描述了实施例，但是应当意识到，可以在不脱离权利要求的范围的情况下对给出的示例进行修改。

除了以上明确描述的组合之外，可以以组合方式使用在先前描述中描述的特征。

尽管已经参考某些特征描述了各功能，但是无论是否描述，那些功能都可以由其他特征来执行。

尽管已经参考某些实施例描述了特征，但是无论是否描述，那些特征也可以存在于其他实施例中。

本文档中使用的术语“一个”或“该”具有包容性而非排他性含义。也就是说，除非上下文清楚地表明相反，否则对包括一个/该的X的任何引用都指示X可以仅包括一个Y或可以包括一个以上的Y。如果意欲使用具有排他性含义的“一个”或“该”，那么在上下文中将使其明确。在一些情况下，“至少一个”或“一个或多个”的使用被用来强调一种包容性含义，但是不应将缺少这些术语用于推断和排除性含义。

特征(或特征的组合)在权利要求中的存在是对该特征(或特征的组合)本身的引用，也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征包括例如是作为变体并且以基本相同的方式实现基本相同的结果的特征。等效特征包括例如以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在该描述中，已经对使用形容词或形容词短语来描述示例的特性的各种示例进行了参考。与示例相关的特性的这种描述指示该特性在某些示例中完全如所述地存在，并且在其他示例中基本上如所述地存在。

不管是否明确声明，在本文中使用术语“示例”或“例如”或“可以”或“可能”表示至少在所描述的示例中存在这样的特征或功能，无论是否被描述为示例，并且它们可以但不一定存在于一些或所有其他示例中。因此，“示例”、“例如”，“可以”或“可能”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性，也可以是该类的属性，或者是该类的子类的属性，该子类包括该类中的一些但不是全部实例。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征，在可能的情况下可以在该另一示例中被用作工作组合的一部分，但不一定必须被用在该另一示例中。

尽管尽力在前述说明书中引起对那些被认为是重要的特征的注意，但是应该理解，无论是否已对其进行强调，本申请人都可以通过权利要求书来寻求关于在上文中参考和/或在附图中示出的任何可获专利的特征或特征的组合的保护。

Claims

1.一种装置，包括用于以下的部件：

响应于用户的动作，经由所述手持便携式设备而不是所述空间音频设备，向所述用户提供空间音频内容的第一部分而不是第二部分的呈现。

2.根据权利要求1所述的装置，包括用于以下的部件：在所述用户的所述动作之前，引起经由所述空间音频设备的所述空间音频内容的所述第一部分和所述空间音频内容的所述第二部分的同时呈现。

3.根据权利要求1所述的装置，包括用于以下的部件：响应于所述用户动作，确定所述空间音频内容的所述第一部分和所述空间音频内容的所述第二部分。

4.根据权利要求1、2或3所述的装置，包括用于以下的部件：响应于所述用户的所述动作，引起经由所述手持便携式设备对所述空间音频内容的所述第一部分、以及经由所述空间音频设备对所述空间音频内容的所述第二部分的向所述用户的同时呈现。

5.根据任一项前述权利要求所述的装置，其中所述空间音频内容由所述装置从通信网络作为来自远程人员的下行链路通信信道而接收，并且其中所述空间音频内容的所述第一部分可以包括所述远程人员的语音。

6.根据任一项前述权利要求所述的装置，其中所述装置包括用于以下的部件：与所述手持便携式设备和/或所述空间音频设备通信以确定所述用户的所述动作何时已经发生，其中所述用户的所述动作包括所述手持便携式设备朝向所述用户的头部的移动。

7.根据权利要求4或在权利要求4之后当从属于权利要求4时的任何权利要求所述的装置，其中由所述空间音频内容的所述第二部分定义的空间音频场景取决于所述手持便携式设备的位置而被修改。

8.根据权利要求7所述的装置，其中所述空间音频内容的所述第一部分与关联于所述用户的第一耳朵的第一语音相关，所述手持便携式设备被定位在所述用户的所述第一耳朵处，并且其中所述空间音频内容的所述第二部分与至少不同的第二语音相关，其中由所述空间音频内容的所述第二部分定义的所述空间音频场景被修改为将所述第二语音设置在所述用户的与所述第一耳朵相对的第二耳朵处。

9.根据任一项前述权利要求所述的装置，包括：响应于所述手持便携式设备的所述移动来编辑所述空间音频内容的所述第二部分的部件。

10.根据任一项前述权利要求所述的装置，其中所述空间音频内容的所述第一部分与传入呼叫相关，并且所述空间内容的所述第二部分至少与在接收到所述传入呼叫之后继续被呈现的内容相关。

11.根据权利要求1至5中任一项所述的装置，包括用于以下的部件：使用第一人称视角介导现实来实现由所述用户对所述空间音频内容的所述第一部分的选择。

12.根据权利要求11所述的装置，其中所述空间音频内容的所述第一部分是通过用户注意的方向而被选择的音频对象、或通过用户注意的方向而被选择的音频场景，或者其中所述空间音频内容的所述第一部分是第一移动音频对象，其中所述音频内容的所述第一部分被呈现为好像所述第一音频对象是静止的。

13.一种手持便携式设备，包括显示器并且被配置作为任何前述权利要求所述的装置，或容纳任何前述权利要求所述的装置。

14.一种方法，包括：

15.一种计算机程序，所述计算机程序当在一个或多个处理器上运行时，实现：