CN112313972B

CN112313972B - 用于音频呈现的装置和相关联的方法

Info

Publication number: CN112313972B
Application number: CN201980042786.4A
Authority: CN
Inventors: L·拉克索南; A·勒蒂涅米; A·埃罗宁; J·莱帕南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-06-26
Filing date: 2019-06-17
Publication date: 2021-09-10
Anticipated expiration: 2039-06-17
Also published as: US11228833B2; US20210227320A1; US20220095047A1; JP7037671B2; CN112313972A; EP3588988B1; WO2020002023A1; EP3588988A1; JP2021528916A

Abstract

一种装置，包括被配置为执行以下操作的部件：从远程用户设备接收音频内容，该音频内容包括主要音频和次要音频，该次要音频与主要音频不同并包括环境音频；接收次要音频重要性信息，该次要音频重要性信息与所述音频内容相关联并指示次要音频的重要性；接收当前音频呈现信息，该当前音频呈现信息至少指示来自一个或多个音频源的音频当前是否正被呈现为空间音频以使得一个或多个音频源的相应的音频将被感知为源自参考点周围的一个或多个相应的方向或方向范围；提供主要音频的呈现；以及基于次要音频重要性信息和当前音频呈现信息，提供次要音频的呈现。

Description

用于音频呈现的装置和相关联的方法

技术领域

本公开涉及音频呈现领域，特别地，涉及诸如电信音频内容或沉浸式电信音频内容之类的音频内容的呈现。本公开还涉及相关联的装置、方法和计算机程序。

背景技术

发展中的电信或电话系统不仅仅提供音频的单声道捕获和呈现。这种电话的音频可以包括空间音频。这种音频的呈现可能需要仔细考虑以确保远程通信清晰有效。

在本说明书中对先前出版的文献或任何背景的列举或讨论不应被认为是承认该文献或背景是现有技术的一部分或是公知常识。本公开的一个或多个方面/示例可以或可以不解决一个或多个背景问题。

发明内容

在本公开的第一方面中，提供了一种装置，包括被配置为执行以下操作的部件：

从远程用户设备接收音频内容，该音频内容包括主要音频和次要音频，该次要音频与主要音频不同并包括环境音频；

接收次要音频重要性信息，该次要音频重要性信息与所述音频内容相关联并指示次要音频的重要性；

接收当前音频呈现信息，该当前音频呈现信息至少指示来自一个或多个音频源的音频当前是否正被呈现为空间音频以使得一个或多个音频源的相应的音频将被感知为源自参考点周围的一个或多个相应的方向或方向范围；

提供主要音频的呈现；

以及基于次要音频重要性信息和当前音频呈现信息，提供次要音频的呈现。

在一个或多个示例中，参考点指示向其呈现音频内容的用户的位置。在一个或多个示例中，主要音频包括语音音频，该语音音频包括被确定为由一个或多个远程用户的语音生成的音频，诸如用于与该用户进行远程通信，而次要音频包括环境音频，该环境音频包括除了被确定为由一个或多个远程用户的语音生成的音频之外的音频。在一个或多个示例中，主要音频包括空间音频，该空间音频包括方向信息以使得当空间音频被呈现时它将被感知为源自根据方向信息的方向或方向范围，而次要音频包括不具有所述方向信息的音频和具有所述方向信息的空间音频中的至少一个，其中方向信息定义音频应被感知来自其中的方向范围，其大于阈值方向范围。在一个或多个示例中，音频内容包括电信音频内容，该电信音频内容包括为了电信目的而提供的音频内容，该音频内容可以经由传统的电信网络或者由基于IP的语音或者任何其他基于分组或电路交换的电话服务来提供。在主要音频和/或次要音频包括空间音频的一个或多个示例中，主要音频可以包括一个或多个音频通道，每个音频通道与相应的一个或多个音频对象相关联，每个音频对象具有定义的位置，相关联的音频通道在被呈现时将被感知为来自该位置。在一个或多个示例中，与主要音频相关联的位置被定位成这种和/或具有小于阈值方向范围的宽度。在一个或多个示例中，与次要音频相关联的位置被定位成这种和/或具有大于阈值方向范围的宽度。

在一个或多个示例中，所述次要音频重要性信息与所述音频内容一起从远程用户设备被接收。在一个或多个示例中，所述音频内容被提供为远程用户与该装置的用户之间的呼叫的一部分，并且其中，次要音频重要性信息由远程用户设置或者至少针对每个呼叫自动地确定。在一个或多个示例中，所述次要音频重要性信息由远程用户经由远程用户设备设置并基于所述音频内容。在一个或多个示例中，所述次要音频重要性信息由服务器确定并从服务器接收，该服务器从远程用户设备接收所述音频内容。

在一个或多个示例中，次要音频重要性信息定义包括重要和不重要的至少两个重要性级别，并且其中，该装置包括被配置为执行以下操作的部件：

基于次要音频重要性信息指示次要音频是重要的，提供次要音频的呈现，所述呈现基于当前音频呈现信息；以及以下至少一个：

基于次要音频重要性信息指示次要音频是不重要的并且当前音频呈现信息指示一个或多个音频源当前均未在呈现音频，提供次要音频的呈现；以及

基于次要音频重要性信息指示次要音频是不重要的并且当前音频呈现信息指示一个或多个音频源中的至少一个音频源当前在呈现音频，不提供次要音频的呈现。

在一个或多个示例中，所述部件被配置为：

基于次要音频重要性信息指示次要音频是重要的并且当前音频呈现信息指示一个或多个音频源中的至少一个音频源当前在呈现音频，提供次要音频的呈现，以及提供对一个或多个音频源中的至少一个音频源被呈现的音频的音量或方向范围中的一个或两者的修改，以适应次要音频的呈现。

在一个或多个示例中，所述部件被配置为：

基于次要音频重要性信息指示次要音频是重要的并且当前音频呈现信息指示一个或多个音频当前均未在呈现音频，提供次要音频的呈现，以使得次要音频被感知为源自用户周围的所有方向。

在一个或多个示例中，该部件被配置为：基于当前音频呈现信息，提供将主要音频呈现为空间音频，以使得主要音频将被感知为源自和与一个或多个音频源的音频相关联的方向或方向范围不重叠的方向或方向范围。

在一个或多个示例中，该部件被配置为：

接收默认感知位置信息，该默认感知位置信息定义针对音频内容的默认感知位置；

提供至少将所述音频内容的所述主要音频呈现为将被感知为源自所述默认感知位置的空间音频。

在一个或多个示例中，该部件可以被配置为：如果没有接收到所述默认感知位置信息，则提供将所述音频内容的所述主要音频呈现为将被感知为来自与由一个或多个音频源呈现的任何一个音频不重叠的方向或方向范围的空间音频。

在一个或多个示例中，所述部件被配置为：

捕获用户的用户音频内容；

向远程用户设备发送所捕获的用户音频内容以提供该用户与远程用户设备的远程用户之间的远程通信，其中，所述用户音频内容包括主要音频和次要音频，该次要音频与主要音频不同并包括环境音频；以及

发送与所述用户音频内容相关联并指示由远程用户设备使用的用户音频内容的次要音频的重要性的次要音频重要性信息，该次要音频重要性信息是基于从该用户接收的用户输入。

在一个或多个示例中，主要音频包括语音音频，该语音音频包括被确定为至少由该用户的语音生成的音频，诸如用于与远程用户进行远程通信，而次要音频包括环境音频，该环境音频包括除了被确定为由该用户的语音生成的音频之外的音频。在一个或多个示例中，主要音频包括空间音频，该空间音频包括方向信息以使得当空间音频被呈现时它将被感知为源自根据方向信息的方向或方向范围，而次要音频包括不具有所述方向信息的音频和具有所述方向信息的空间音频中的至少一个，其中方向信息定义音频应被感知来自其中的方向范围，其大于阈值方向范围。

在一个或多个示例中，次要音频重要性信息基于以下中的一个或多个：

用户音频内容的音频分析；以及

用户的所确定的当前位置。

在一个或多个示例中，该部件被配置为：在确定与所捕获的用户音频内容相关联的次要音频重要性信息指示用户音频内容是不重要的时候，，将所捕获的用户音频内容从被分类为主要音频和次要音频修改成单声道音频和立体声音频之一，然后发送所捕获的用户音频内容，或者将用户音频内容捕获为单声道音频和立体声音频之一。

在一个或多个示例中，所述部件被配置为：向远程用户设备发送用户监视信息，该用户监视信息指示次要音频是否正被呈现以用于至少通知所述远程用户。

在一个或多个示例中，所述部件被配置为向远程用户设备发送用户监视信息，该用户监视信息指示以下中的一个或多个：

呈现方向，该呈现方向包括相对于参考方向而定义的方向，该方向包括当该装置在使用中时音频内容将被感知来自哪里，该呈现方向用于由远程用户设备向远程用户呈现音频内容；

如在当前音频呈现信息中定义的被呈现给用户的一个或多个音频源中的至少一个音频源的音频，以用于由远程用户设备呈现给远程用户；以及

如在当前音频呈现信息中定义的对被呈现给用户的一个或多个音频源中的至少一个音频源的引用，所述音频能够从该引用中取得以用于由远程用户设备将一个或多个音频源中的至少一个音频源的所述音频呈现给远程用户。

在一个或多个示例中，所述部件被配置为：

从远程用户设备接收远程用户监视信息；以及以下中的一个或多个：

提供被感知为源自与呈现位置相对应的位置的用户音频内容的呈现，其中，来自远程用户设备的远程用户监视信息包括呈现位置，该呈现位置指示相对于远程用户的位置，该用户音频内容在被远程用户设备呈现时将被感知为来自该位置；以及

提供当前正被呈现给远程用户的一个或多个音频源中的至少一个音频源的音频的呈现，其中，从远程用户设备接收的所述远程用户监视信息包括所述音频或对被呈现给远程用户的一个或多个音频源中的至少一个音频源的引用。

在另一方面中，提供了一种方法，该方法包括：

提供主要音频的呈现；

在另一方面中，提供了一种计算机可读介质，包括在其上存储的计算机程序代码，该计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时执行包括以下步骤的方法：

提供主要音频的呈现；

在另一方面中，提供了一种装置，该装置包括被配置为执行以下操作的部件：

向远程用户设备发送由本地用户设备捕获的用户音频内容以呈现给远程用户，所述用户音频内容包括主要音频和次要音频，该次要音频与主要音频不同并且包括环境音频；以及

发送次要音频重要性信息，该次要音频重要性信息与所述用户音频内容相关联并指示次要音频的重要性。

在一个或多个示例中，所述用户音频内容包括至少本地用户设备的用户的音频。

在另一方面中，提供了一种方法，该方法包括：

在另一示例性方面中，提供了一种装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，

该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得该装置至少执行以下操作：

提供主要音频的呈现；

在另一示例性方面中，提供了一种装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，

本公开以单独或各种组合的方式包括一个或多个对应的方面、示例或特征，无论是否以组合或单独的方式具体说明(包括要求保护的)。用于执行一个或多个所讨论的功能的对应的部件和对应的功能单元(例如，功能启动器、扬声器选择器、放大器、显示器设备)也在本公开内。

用于实现一个或多个所公开的方法的对应的计算机程序也在本公开内，并且被一个或多个所描述的示例涵盖。

以上概述旨在仅仅是示例性而非限制性的。

附图说明

现在仅以示例的方式参考附图进行描述，其中：

图1示出用于提供音频呈现的示例性装置；

图2示出用户与远程用户之间的远程通信；

图3示出沉浸式空间音频编码器的示例性框图；

图4示出在其中向用户呈现音频的示例性呈现空间；

图5示出相同但覆盖有示例性空间音频场景的呈现空间，该示例性空间音频场景示出了在装置的控制下被提供给用户的音频被感知为源自哪里；

图6示出图5的平面图；

图7示出音频向用户和远程用户的呈现，以举例说明用户监视信息的使用；

图8示出装置和远程装置在进行电信呼叫中的动作；

图9示出图示示例性方法的流程图；

图10示出计算机可读介质。

具体实施方式

发展中的电信或电话系统不仅仅提供音频的单声道捕获和单声道呈现。正在开发沉浸式电话系统，诸如由第三代合作伙伴计划(3GPP)，这将使电话服务中的沉浸度达到新的水平。沉浸式电话可以包括空间音频呈现技术的使用以及在用户之间提供远程通信时空间音频内容的捕获。这种服务例如可以在移动4G或5G网络上，通过多麦克风空间音频捕获和处理、以合适的沉浸式音频格式进行编码、传输和解码、以及双耳或扬声器呈现来实现。这种系统可以提供沉浸式空间音频内容(诸如参数空间音频)的传输和呈现。这可以使得能够从电信呼叫参加者或用户接收包络音频场景，或向电信呼叫参加者或用户发送包络音频场景。因此，例如，当远程用户呼叫用户时，该用户可以体验到远程用户周围的音频环境，就像他/她在物理上位于远程用户的位置一样，反之亦然。

然而，在一个或多个示例中，用户可能已在体验来自一个或多个音频源的沉浸式空间音频内容。因此，可能需要仔细考虑以与预先存在的空间音频场景相结合的方式来提供沉浸式音频电信内容，该预先存在的空间音频场景包括来自被呈现为空间音频以使得所述音频被感知为来自一个或多个相应的方向的一个或多个音频源的音频。例如，对于在同时呈现期间的一个或多个音频源中的至少一个音频源，可能出现与在时间、频率和/或空间准确性方面的听觉遮蔽有关的复杂问题。

在一个或多个示例中，被提供为所述远程通信的一部分的音频内容可以被分类为主要音频和次要音频。主要音频可以包括用于理解电信呼叫的重要音频，而次要音频可以包括环境音频。环境音频可以被认为是音频内容的背景音频。将理解，尽管本文中的示例涉及电信领域中的音频内容，但是这些原理可以被应用到其他音频内容呈现领域。

在一个或多个示例中，主要音频可以包括语音音频，该语音音频包括被确定为由与用户(其可以被称为本地用户)进行远程通信的一个或多个远程用户的语音生成的音频。可以使用音频分析技术，或者通过服务器或所述远程通信中所涉及的任何其他实体在捕获点或播放点对“语音”主要音频进行分类。在一个或多个示例中，次要音频可以包括环境音频，该环境音频包括除了被确定为由一个或多个远程用户的语音生成的音频之外的音频。因此，在一个或多个示例中，被配置为检测用户的语音的第一麦克风可以提供主要音频，而被配置为检测来自其他地方的音频的一个或多个其他麦克风可以提供次要音频。将理解，在多麦克风布置的情况下，相同的音频可以由一个以上的麦克风来检测，因此，可以使用音频处理技术将主要由第一麦克风检测到的语音音频与由其他麦克风检测到的音频分开。例如，如果使用移动电话来捕获音频，则可以将在用户的嘴附近的麦克风配置为主要捕获语音音频，并且可以将在移动电话的背面上的麦克风配置为捕获环境音频。在一个或多个示例中，可以使用单个麦克风，并且可以使用音频处理算法将语音音频与任何环境噪声分开，以提供被分类为主要音频和次要音频的音频内容，其中，这种算法对于本领域技术人员是已知的。在其他示例中，可以使用一个或多个近距离麦克风来捕获语音音频，而可以使用可在场景中有固定位置的麦克风阵列(诸如全景环绕声(Ambisonics)麦克风)来捕获环境音频。

在一个或多个示例中，主要音频可以包括空间音频内容，该空间音频内容包括方向信息，以使得当主要音频被呈现时它将被感知为源自根据方向信息的一个或多个方向。在一个或多个示例中，主要音频可以不包括方向信息。在一个或多个示例中，次要音频可以包括环境音频，该环境音频包括不具有所述方向信息或不具有在阈值水平之上可区分的到达方向的音频。在一个或多个示例中，环境音频包括空间音频，但是可没有用户可以感知或者可以从所捕获的音频确定的明确方向(例如，在阈值方向水平之上)。因此，在一个或多个示例中，次要音频也可以包括至少一些方向信息。然而，发送端或任何其他单元可以认为这些定向声音分量没有提供对于通信特别相关或在感知上重要的信息。因此，在一个或多个示例中，可以执行分类或内容分析，以确定哪个音频应被分类为主要音频，哪个音频应被分类为次要音频，并且可选地，确定方向信息是否应与音频相关联。

将理解，在一个或多个示例中，主要音频对于理解电信呼叫可以是重要的，而次要的环境音频可以被认为是在远程用户的位置处的背景音频，并因此仅“可能”对于电信呼叫很重要。在默认情况下，次要音频可以被配置用于呈现以使得它被听见来自宽广的范围或所有方向，或者以使得其它被感知为不是来自任何特定方向或位置。因此，在默认情况下，次要音频可以被配置为向用户提供复制远程用户的环境音频环境，反之亦然。如果音频内容是有声读物，则主要音频可以包括有声读物的阅读者音频，而次要音频可以包括被提供以补充故事的背景声音。在一个或多个示例中，可以基于次要音频的重要性和在接收到电信呼叫后已被呈现给用户的音频中的一个或两者来选择性地呈现次要音频或从其默认呈现修改其呈现。

基于包括空间音频内容的主要音频，当通过使用空间音频呈现将音频呈现给第一用户(或任何其他用户)时，可以再现在远程用户的位置处接收的音频所来自的方向。在一个或多个示例中，可以将主要音频(诸如从空间音频内容)转换成单声道音频并且可以使用空间音频呈现来呈现，以使它被感知为来自期望的方向或位置。

空间音频包括以如下的方式被呈现给用户的音频：它被感知为源自特定位置或方向，就像该音频的源位于该特定位置或方向一样。空间音频内容包括用于呈现为空间音频的音频，因此，它通常包括如下的音频：具有方向信息(被明确指定为例如元数据，或者固有地以音频被捕获的方式存在)，以使得空间音频内容可以被呈现以使得其分量音频被感知为源自根据方向信息的一个或多个点或一个或多个方向。用于对用于沉浸式音频电信呼叫的空间音频进行编码和传送的一种方法是分别对用户的语音和空间环境进行编码。存在各种编码格式，例如包括远近立体声、一阶Ambisonics(FOA)/高阶Ambisonics(HOA)(+对象)、以及其他空间音频编码方案。在一个或多个示例中，可以通过在上面提及的编码方案来提供主要和次要音频的提供。

在一个或多个示例中，非空间音频内容可以被呈现为空间音频。因此，可以提供“常规的”单声道或立体声音频(或被转换成这种格式的音频)以进行呈现，以使得它将被感知为源自特定位置或方向。本文描述的一个或多个实施例可以基于空间音频内容或非空间音频内容来呈现空间音频。

空间音频的空间定位可以由3D音频效果来提供，诸如那些利用头部相关传递函数来创建其中音频可以被定位以呈现给用户的空间音频空间(在增强现实的情况下与真实世界空间对齐)的空间定位。可以通过使用头部相关传递函数(HRTF)滤波技术通过耳机来呈现空间音频，或者对于扬声器，可以通过使用基于向量的幅度平移技术以定位音频内容的感知听觉源来呈现空间音频。在其他实施例中，Ambisonics音频呈现可以被用于呈现空间音频。

空间音频可以使用向用户的每个耳朵的可听呈现之间的音量差异、定时差异和音高差异中的一个或多个来创建如下的感知：音频的源在空间中的特定位置处或特定方向上。与音频的感知源的感知距离可以通过控制混响和增益的量以指示与空间音频的感知源的接近度或距离来渲染。将理解，本文所描述的空间音频呈现可以涉及仅具有朝向其源的感知方向的音频呈现、以及使得音频的源具有感知位置(例如，包括与用户的距离感知)的音频呈现。

示例性图1和示例性图2示出了装置100，其可以被用于控制或提供音频内容向用户200的呈现。装置100可以在电信领域中应用，因此，在以下示例中，音频内容被称为电信音频内容。然而，将理解，音频内容未必用于电信。还将理解，提及电信音频内容并非意指对音频内容的传送方式的任何限制，并且可以经由传统的电话网络、基于移动或蜂窝电话的网络、数据网络(诸如使用基于IP的语音的因特网或任何电话服务，无论是基于分组还是电路交换的)来传送。装置100可以包括用于接收电信音频内容或有关由另一装置接收电信音频内容的信息的部件，诸如输入I。将理解，装置100可以包括其他输入，诸如从其他音频源接收音频以用于呈现给用户200或有关由另一装置呈现给用户200的其他音频的信息。输入I可以从(如图2中所示的)远程用户设备202接收音频，诸如包括主要和次要音频的沉浸式音频。在一个或多个示例中，装置100可以包括本地用户设备201的一部分，该本地用户设备201可以具有经由电信网络203提供与远程用户设备202的远程通信的能力。本地用户设备201和/或远程用户设备202可以包括移动电话或任何其他电信设备。因此，第一用户200可能够与远程用户204通信，该远程用户204与远程用户设备202相关联。

尽管下面的描述主要将装置100描述为本地用户设备201的一部分，但是将理解，可以将对应的远程装置(虽未示出但相当于装置100)提供为远程用户设备202的一部分，并且可以对从位于其远程的一方接收的音频和信息执行等效的功能。

装置100可以包括或被连接到处理器108和存储器109，并且可以被配置为执行计算机程序代码。装置100可以仅具有一个处理器108和一个存储器109，但是将理解，其他实施例可以使用多于一个的处理器和/或多于一个的存储器(例如，相同或不同的处理器/存储器类型)。此外，装置100可以是专用集成电路(ASIC)。

处理器可以是专用于根据以计算机程序代码的形式存储在存储器中的指令来执行/处理从其他组件接收的信息(诸如电信音频内容)的通用处理器。由处理器的这种操作生成的输出信令被继续提供给其他组件，诸如扬声器，耳机、放大器或其他音频呈现设备(未示出)以将音频呈现给用户200。

存储器109(不必是单个存储器单元)是存储计算机程序代码的计算机可读介质(在此示例中是固态存储器，但是可以是其他类型的存储器，诸如硬盘驱动器、ROM、RAM、闪存等)。计算机程序代码存储当该程序代码在处理器上运行时可由处理器执行的指令。在一个或多个示例性实施例中，存储器与处理器之间的内部连接可以被理解为是在处理器与存储器之间提供活动耦合，以允许处理器访问存储在存储器上的计算机程序代码。

在此示例中，相应的处理器和存储器在内部彼此电连接以允许在相应的组件之间的电通信。在此示例中，组件彼此都被靠近放置，以便在一起构成ASIC，换句话说，以使得将它们集成为可以被安装到电子设备中的单个芯片/电路。在一些示例中，一个或多个组件或所有组件可以彼此被分开放置。

因此，可以向用户200呈现来自一个或多个音频源(未示出)的音频，诸如来自音乐播放器的音乐、来自在便携式计算机上提供的工作演示的音频、以及也来自便携式计算机的向用户提示电子邮件或消息到达的音频。装置100可以提供来自音频源的前述音频的呈现，或者可以控制来自音频源的音频的呈现，或者可以从音频呈现设备接收有关正将来自音频源的哪些音频呈现给用户200的信息。装置100可以提供电信音频内容的呈现，或者以与来自一个或多个音频源的音频相结合的方式控制电信音频内容的呈现。在一个或多个示例中，装置100可以提供用于控制来自远程通信的前述音频和音频内容的呈现的用户接口。

图3示出了由沉浸式音频编码器捕获和编码沉浸式音频内容的示例性框图。框301示出了通过一个或多个麦克风从一个或多个源(诸如从移动电话、沉浸式视频捕获设备、计算机或智能手机)捕获音频。框302示出了可以以各种格式捕获的音频的接收，诸如单声道、Ambisonics音频、多个通道或流，其中，在一个或多个示例中，所述音频可以与元数据相关联，该元数据至少可以定义音频从源到达的方向或音频源的位置。编码器框303接收以其各种格式捕获的音频。编码器框303可以提供音频混合。与音频相关联的元数据可以以多种不同的格式捕获。在一个或多个示例中，框303可以将元数据转换成标准格式。在一个或多个示例中，音频本身可以以不同的格式被捕获并被编码，而框303可以将该音频转码成一种或多种标准格式。框304提供采用沉浸式音频编码格式的比特流的生成。在一个或多个示例中，本文所涉及的音频内容可以如上所述地进行处理。

示例性图4示出了在包括他们的客厅的音频呈现空间400中的用户200。客厅400包括沙发401、书架402、大屏幕TV 403、以及扬声器404、405。用户200可正在体验以沉浸式方式呈现的音频内容，诸如空间音频呈现。音频内容可以来自一个或多个音频源。音频源可以提供采用各种格式的音频，诸如空间音频、单声道或立体声音频。音频呈现设备(未示出，然而耳机406可以包括一部分)可以将音频呈现为来自一个或多个源的空间音频，或者可以与音频源进行通信以协调他们各自如何相对于参考点呈现他们的音频，或者协调他们各自将他们的音频相对于参考点呈现为来自哪个感知位置。参考点通常是用户的位置。因此，在一个或多个示例中，一个或多个音频源的音频将被感知为源自用户周围的一个或多个相应的方向或方向范围。

能够渲染空间音频内容(例如，头部跟踪式双耳音频)的高质量空间音频服务、应用和设备的激增可能会导致其使用的显著增加。反之，对沉浸式媒体的兴趣的增长将会导致市场上提供越来越多的产品。随着使用的增加，可能出现以下情况：当远程用户204向用户200发送电信呼叫时，用户200将会消费空间音频内容(或被呈现为空间音频的单声道或立体声内容)。此外，用户200可能希望执行多任务，并因此以新颖和创造性的方式来利用空间音频呈现的能力。

在此示例以及一个或多个示例中，用户200可正在体验沉浸式空间音频，如下所述。用户200可正在使用客厅大屏幕TV 403在计算机上工作，并且可以经由头部跟踪式耳机406而被呈现空间音频。耳机406可以配备有麦克风(不可见)，以使得用户能够参加与远程用户204的电信呼叫，如果已建立了这种电信呼叫。将理解，麦克风可以独立于耳机406。用户200可已经决定接收与他们正在工作的内容有关的音频，(从社交媒体应用音频源)接收与社交媒体更新的到达相关联的音频，(从音乐播放器音频源)接收音乐，以及(从电信设备，如果用户接收或拨打电话)接收电信音频内容。将理解，用户200可不必决定音频源的音频将被感知来自哪里，而是布置可以基于预定义的偏好或规则，或者其中与其他音频源没有重叠。在一些示例中，用户可以经由用于控制空间音频渲染和呈现的至少某些方面的用户接口来定义他们感知音频来自的感知方向或位置中的至少一些。在一个或多个示例中，可以相对于用户所在的房间或空间来定义用户感知音频来自的方向或位置。因此，随着用户旋转他们的头部或在房间中移动，可以修改音频的渲染以解决他们在房间中的新定向或位置，以将感知方向/位置保持在固定的感知方向/位置上。

图5和图6示出了用户可如何布置空间音频场景500，该空间音频场景500定义了他们在空间中何处感知来自各种音频源的音频。如先前所述，可以在具有或没有用户控制的情况下自动创建空间音频场景。图5示出了与图4相同的视图，而图6示出了相同的音频呈现空间400的平面图。

用户200已经播放他们的与工作有关的音频，以使得当该音频被呈现时它将被感知为源自前方位置501。空间音频场景500还被配置为使得当音乐被呈现时它将被感知为源自右前方位置502。空间音频场景500还被配置为使得社交媒体更新的音频将被感知为源自后方位置503。空间音频场景500还被配置为使得任何到来的电信音频内容的音频将被呈现为使得它将被感知为源自左前方位置504。因此，可以创建空间音频场景，其中，来自一个或多个音频源的音频通过耳机406或扬声器404、405或其组合被呈现为空间音频，例如被呈现给用户200，以使得来自每个音频源的音频被感知为来自相对于用户200的不同的方向或位置。因此，可以理解，音频源的音频的感知源已被虚拟地定位在用户200周围。

当接收到到来的沉浸式音频电信呼叫时，并未构成本发明一部分的空间音频场景500的默认配置可以用到来的电信音频代替音频源的音频的空间音频呈现。然而，这对于当前正在进行多任务并且甚至已经在空间音频场景500中建立了音频源的优选布置的用户200而言可能是令人厌烦或不便的。

如将在下面描述的，如何按照已有的空间音频场景500内的呈现来呈现电信音频内容或者替换或修改用户200的空间音频场景500中其他音频的呈现可以基于由装置100接收的信息。因此，装置100可以接收有关电信音频内容的次要音频的重要性的信息。此外，装置100可以接收有关在已有的空间音频场景500中呈现的音频(如果有)的信息。

因此，在一个或多个示例中，装置100可以包括被配置为至少部分地基于以下内容来提供到来的电信音频内容的呈现的部件：

所述音频内容的接收；

次要音频重要性信息的接收；以及

当前音频呈现信息的接收。

装置100可以诸如经由它们的本地用户设备201接收可来自远程用户设备202的电信音频内容以用于呈现给用户200。电信音频内容可以包括远程用户204的语音和可在远程用户204的位置处听见的环境音频。如上所述，电信音频内容因此可以被分类为主要音频和次要音频。

因此，在一个或多个示例中，主要音频可以被定义为包括语音音频。因此，主要音频可以包括被确定由与用户200进行远程通信的远程用户204的语音生成的音频。次要音频可以被定义为包括环境音频。因此，环境音频可以包括与被确定由远程用户204的语音生成的音频不同的音频。

在一个或多个其他示例中，主要音频可以被定义为包括空间音频内容，该空间音频内容包括方向信息，以使得当主要音频被呈现给用户200时它被感知为源自根据该方向信息的特定方向或方向范围。在这些一个或多个示例中，可能期望区分将被感知来自更具体的方向或方向范围的音频与将被感知来自不那么具体的方向或方向范围的更扩散的音频。在一些示例中，这可以基于方向信息是否与音频相关联来实现，并因此具有方向信息的音频被分类为主要音频，而没有方向信息的音频被分类为次要音频，因为它被认为构成音频环境。在其他示例中，可能期望将具有相关联的方向信息的音频分类为次要音频，但所述相关联的方向信息指示应将次要音频呈现为使得它被感知为来自在阈值方向范围之上的宽广的方向范围。因此，阈值范围可以包括180°，并因此，如果音频的方向信息指示它应当用小于180°的源的感知方向被呈现，则它被认为是主要音频，如果音频的方向信息指示等于或大于180°的感知方向，则它被认为是次要音频。将理解，阈值可以包括区分主要音频与次要音频的任何期望阈值。

在一个或多个示例中，次要音频重要性信息与所述电信音频内容相关联并指示其次要音频的重要性。该重要性可以是由远程用户204设置的感知重要性。例如，远程用户204可从他们的嘈杂的办公室进行电信呼叫，并且认为次要的环境音频是不重要的。在其他示例中，远程用户204可以在音乐会上，并且可希望用户200听见他们的音频体验。因此，远程用户204可认为次要音频是重要的，并且可以向他们的远程装置或远程用户设备202指示这一点，以用于远程装置或远程用户设备提供次要音频重要性信息以由装置100接收。在一个或多个示例中，认为环境音频不重要的远程用户204可以使用“语音呼叫”应用快捷方式发出呼叫。在另一个示例中，认为环境音频重要的远程用户204可以使用“沉浸式呼叫”应用快捷方式发出呼叫。换句话说，例如，针对次要环境音频的相对重要性的两种情况，远程用户设备202的智能手机用户接口上的应用图标可以是不同的。也可以使用指示环境或次要音频的重要性的任何其他合适的方式以用于用户进行他们的选择。可理解，“语音呼叫”在本文中可以是指其中次要音频内容可以或可以不存在以时变方式(例如，基于音频重要性信息和诸如网络拥塞之类的其他比特率确定因素)传输的比特流的电信呼叫，而“沉浸式呼叫”在本文中可以是指其中次要音频内容优选可用于在整个呼叫中进行呈现的电信呼叫。

在一些示例中，远程装置或远程用户设备202例如可以基于感测数据来分析当前环境的预期或语境重要性，该感测数据是由远程装置或远程用户设备202收集的，例如是从云或附近终端或其组合接收的。远程装置或远程用户设备202可以被配置为基于此信息来适配用户接口，以使得例如在当前环境或语境被认为对于提供次要音频或环境很重要时，首先显示“沉浸式呼叫”应用，或者以其他方式将其提供给用户作为首选选项。另一方面，当通过分析认为次要音频或环境不重要时，可以首先显示“语音呼叫”快捷方式，或者以其他方式将其提供给用户作为首选或默认选项。在至少一些示例中，网络可以为设备提供进一步的信息以进行这种适配。例如，网络可以指示网络拥塞(并且“语音呼叫”应为首选，因为沉浸式呼叫需要更多带宽)，或者指示在当前小区或当前时间针对“沉浸式呼叫”有特殊定价。根据各种示例，远程用户204因此可以经由至少一种手段来选择“环境”或次要音频的重要性。

因此，在一个或多个示例中，从远程用户设备202接收所述次要音频重要性信息以及所述电信音频内容，其可以由远程用户设备202捕获。在一个或多个示例中，次要音频重要性信息按照每电信呼叫来设置。因此，对于建立的每个电信呼叫，远程用户204可以设置用于发送到装置100的次要音频重要性信息。在一个或多个其他示例中，可以基于预定准则或基于自动音频分析来自动地进行次要音频重要性信息的设置。例如，如果远程用户204位于他们经常在的位置，则次要音频可以被自动设置为是不重要的。然而，如果远程用户204位于诸如野生动物园之类的不寻常的位置，则次要音频可以被自动设置为是重要的以用于传送为次要音频重要性信息。在一个或多个示例中，所述次要音频重要性信息由服务器205(在图2中作为网络203的一部分示出)确定并从服务器205被接收，服务器205从远程用户设备202接收所述电信音频内容并将其转发到本地用户设备201以提供所述远程通信。

在一个或多个示例中，当前音频呈现信息至少指示来自一个或多个音频源的音频当前是否作为空间音频被呈现给用户。因此，当前音频呈现信息可以向装置100提供有关已有的空间音频场景500的信息。该信息可以是当前是否在呈现任何音频源，或者它可以包括用于音频源的音频的空间音频呈现的位置的具体细节。在一个或多个示例中，装置100可以被配置为呈现音频源的音频，并因此当前音频呈现信息对于装置100可以是已知的。

到来的电信音频内容的呈现可以包括：提供电信音频内容的主要音频的呈现；以及基于次要音频重要性信息和当前音频呈现信息，提供次要音频的呈现。因此，可以独立于(即不考虑)次要音频重要性信息来呈现主要音频。装置100可以被配置为基于当前音频呈现信息来提供主要音频的呈现。然而，装置100可以被配置为基于次要音频重要性信息和当前音频呈现信息两者来确定是否和/或如何(即，被感知为来自哪个方向)来呈现次要音频。

在一个或多个示例中，装置100被配置为提供将主要音频的呈现为空间音频，以使得它被感知为源自一方向或方向范围。在一个或多个示例中，所述“方向范围”包括以下中的一个或两者：(1)音频的感知源的方向/位置的“宽度”或“空间范围”(即，音频不是被感知为源自点源)；(2)音频被感知为源自点源的区域/扇区，该点源被配置为随时间在所述方向范围上移动。主要音频被感知为来自哪个方向可以基于当前音频呈现信息来确定。例如，如果用户200已经指定了从中感知电信音频的位置或区域504，则装置100可以被配置为将电信音频的主要音频呈现为空间音频以使得它被感知为来自所述预定位置504。在一个或多个其他示例中，如果尚未预先确定用于电信音频的预定位置504，则装置100可以被配置为基于当前音频呈现信息来识别和与一个或多个音频源的音频相关联的方向或方向范围(即，例如从位置501、502和503朝向用户200的方向)不重叠的位置。因此，装置100可以被配置为识别已有的空间音频场景500中未使用的位置，以在将主要音频呈现为被感知为来自所述未使用的位置的空间音频时使用。在一个或多个其他示例中，当前音频呈现信息可以指示当前没有音频被呈现，并且装置100可以被配置为将电信音频内容的主要音频呈现为来自用户200前面的感知位置的空间音频，或者根据由伴随电信音频内容的空间音频内容的方向信息所定义的任何其他布置来呈现电信音频内容的主要音频。

次要音频重要性信息可以定义至少两个重要性级别，例如包括重要和不重要。将理解，可以定义两个以上的重要性级别。

在一个或多个示例中，次要音频重要性信息可以包括接收者自适应信息，其中，远程用户或远程用户设备202例如可以被配置为接收有关本地用户的当前呈现音频的信息，并且次要音频重要性信息可以基于所接收的信息。此外，次要音频重要性信息可以包括由次要音频内容提议替换至少一个当前呈现的音频源的定义。在接收到这种提议时，装置100可以被配置为提供用户接口的呈现以从本地用户接收用户输入，该本地用户可以至少选择接受或拒绝用于修改当前音频呈现的所述提议。

通常，该装置可以被配置为基于次要音频重要性信息和当前音频呈现信息来确定是否呈现次要音频。此外，在一个或多个示例中，该装置可以被配置为在应呈现次要音频的情况下，基于当前音频呈现信息来确定被呈现为空间音频的次要音频将被感知为源自哪里。

在一个或多个示例中，次要音频可以被认为是电信呼叫的环境音频，而不是电信呼叫的主要内容。

因此，装置100可以被配置为基于次要音频重要性信息指示次要音频是重要的(或者指示其重要性高于次要音频重要性信息的另一个“重要性”指定)来提供次要音频的呈现，所述呈现基于当前音频呈现信息。因此，基于次要音频被认为或被指定为对于呈现而言是重要或期望的，装置100可以认为它有必要呈现它。进而，装置100可以基于当前音频呈现信息来考虑呈现它的方式。例如，可以基于当前音频呈现信息来确定次要音频被听见来自哪个方向。如果用户已经指定了从中感知电信音频的位置或区域504，则装置100可以被配置为将电信音频的次要音频呈现为空间音频以使得它被感知为来自所述预定位置504。在一个或多个其他示例中，如果尚未预先确定用于电信音频的预定位置504，则装置100可以被配置为基于当前音频呈现信息来识别和与一个或多个音频源的音频相关联的方向或方向范围(即，例如从位置501、502和503朝向用户200的方向)不重叠的位置。在一个或多个示例中，次要音频可以被呈现为单声道音频，并因此可以在没有感知源位置或方向的情况下被呈现。在其中当前音频呈现信息指示当前没有音频被呈现的一个或多个其他示例中，装置100可以被配置为根据由伴随电信音频内容的次要音频的方向信息所定义的空间布置，将电信音频内容的次要音频呈现为来自用户200周围的所有感知位置或方向的空间音频。

在其中次要音频重要性信息指示次要音频是重要的并且当前音频呈现信息指示一个或多个音频源中的至少一个音频源当前在向用户200呈现音频的一个或多个示例中，装置100可以被配置为提供次要音频的呈现，以及提供对一个或多个音频源中的至少一个音频源被呈现的音频的音量或方向范围中的一个或两者的修改，以适应次要音频的呈现。因此，被呈现来自感知位置501、502、503的音频的音量可以被减小。在一个或多个示例中，感知位置501、502、503的大小可以被减小，以使得每个音频源的音频被感知为来自更窄的方向范围。在一个或多个示例中，感知位置501、502、503的位置可以被移动，以使得在已有的空间音频场景500中有更大量的空间以用于次要音频的呈现。将理解，音频源音频的音量、感知位置以及位置501、502、503的感知大小中的一个或多个的修改的程度可以基于预定准则和/或次要音频的内容来提供。例如，如果次要音频包括空间音频内容，则方向信息可以指示次要音频应被呈现的方向范围以复制远程用户204的音频体验。因此，装置100可以被配置为使用此方向范围来修改已有的空间音频场景。

在其中次要音频重要性信息指示次要音频不重要的一个或多个示例中，装置100可以被配置为根本不呈现次要音频。在一个或多个其他示例中，装置100可以被配置为基于当前音频呈现信息指示一个或多个音频源中的至少一个音频源当前在向用户200呈现音频，不提供次要音频的呈现。因此，如果其他音频源正被呈现，则对于也将被呈现的非重要次要音频可能会过于令人混乱，因此它可被忽略。在一个或多个示例中，将次要音频指定为不重要可以提供由远程用户设备202不进行次要音频的发送。因此，装置100可以接收不存在次要音频且仅包括主要音频的电信音频内容。

在其中次要音频重要性信息指示次要音频不重要的一个或多个其他示例中，装置100可以被配置为仅在当前音频呈现信息指示一个或多个音频源中没有一个音频源当前在向用户200呈现音频时才提供次要音频的呈现。因此，如果不存在当前已有的空间音频场景500，则可以呈现次要音频，而不管它在次要音频重要性信息中是否被认为是不重要的。在其中次要音频重要性信息包括三个或更多个级别的一个或多个示例中，最低级别的重要性可以始终提供次要音频的不呈现，而更高但非最高级别的重要性可以提供仅在基于当前音频呈现信息的受限情况下的次要音频的呈现，诸如在当前音频呈现信息指示一个或多个音频源中没有一个音频源当前在向用户200呈现音频时。

在一个或多个示例中，装置100可以接收默认感知位置信息，该默认感知位置信息定义了针对音频内容的默认感知位置。因此，该装置可以提供将诸如位置504之类的位置设置为用于呈现电信音频内容的默认感知位置。所述默认感知位置的设置可以在当前音频呈现信息中提供。将意识到在其他示例中，可以独立于当前音频呈现信息来提供默认感知位置的单独指定，以由装置100在电信音频内容的呈现中使用。在一个或多个示例中，装置100可以被配置为使得在接收到电信音频内容时，至少所述内容的所述主要音频被提供，以用于呈现为被感知为源自所述默认感知位置的空间音频，如果所述默认感知位置已被设置。在一个或多个示例中，装置100可以被配置为使得在接收到电信音频内容时并且如果所述默认感知位置未被设置，则至少所述内容的所述主要音频被提供，以用于呈现为空间音频以使得它被感知为来自与从一个或多个音频源呈现的任何音频不重叠的方向或方向范围。因此，该方向被自动确定以避免在不同音频之间的感知空间重叠。

因此，装置100可以是有益处的，因为在接收到包括主要和次要音频的电信音频内容(诸如所提出的沉浸式音频呼叫)时，可以通过至少次要音频重要性信息的存在来控制电信音频内容的呈现。次要音频重要性信息可以有利地向远程用户204、远程用户设备202或服务器205提供用于向装置100发信号通知关于次要音频有多重要的手段，并因此，装置100可以做出关于如何向用户200渲染和/或呈现到来的电信音频内容的知情选择。

在上文中，本地用户设备201被描述为从远程用户设备202接收电信音频内容。然而，如将理解的，为了提供双向通信，本地用户设备201可以类似地被配置为捕获用户200及其周围环境的音频内容，被称为用户电信音频内容(或更一般地“用户音频内容”，以在语义上将其与上述音频内容区分开)。因此，装置100可以被配置为将所述用户电信音频内容发送给远程用户设备202，以提供用户200与远程用户设备202的远程用户204之间的远程通信。装置可以控制电信设备或发射机，以提供用户电信音频内容的发送。在一个或多个示例中，类似于电信音频内容，所述用户电信音频内容包括主要音频和次要音频。

此外，装置100例如可以被配置为提供次要音频重要性信息的生成和发送以由远程用户设备202的远程装置使用。将理解，由装置100提供的次要音频重要性信息可以与所述用户电信音频内容相关联，并指示用户电信音频内容的次要音频的重要性。

与被发送到远程用户设备202的用户电信音频内容相关联的次要音频重要性信息可以是基于从用户200接收的用户输入。因此，在一个或多个示例中，用户200可以通过用户输入来指示当发起电信呼叫时和/或在电信呼叫期间他们的次要音频的重要性。在一个或多个其他示例中，与用户电信音频内容相关联的次要音频重要性信息可以通过由装置100、本地用户设备201或服务器205执行的音频分析来自动地确定。用户200可以或可以不需要确认次要音频重要性信息的自动确定，并因此，装置100可以或可以不被配置为接收确认用户输入。在一个或多个其他示例中，与用户电信音频内容相关联的次要音频重要性信息可以基于用户200的当前位置来自动地确定。例如，可以将用户200的当前位置与地图数据或用户200(或许多其他用户)已出现过的历史位置进行比较，以确定当前位置是否异常或值得注意，并因此确定次要音频的潜在重要性。

如上所述，当次要音频重要性信息指示次要音频不重要时，装置100可以被配置为不呈现它或不将它呈现为来自特定位置的空间音频或不进行空间音频呈现。因此，可以在网络203上提供次要音频，但最终并不使用。因此，在一个或多个示例中，装置100可以基于与用户电信内容相关联的次要音频重要性信息指示次要音频是不重要的，提供用户电信音频内容的修改以修改次要音频或移除次要音频，然后向远程用户设备202发送用户电信音频内容。在一个或多个示例中，可以仅提供主要音频以在具有或没有相关联的方向信息的情况下进行发送。在一个或多个示例中，装置100可以被配置为提供用户电信音频内容的音频修改，将其从被分类为主要音频和次要音频修改成包括单声道音频和立体声音频之一。因此，如果次要音频是不重要的，则可能会失去提供沉浸式呼叫的相关性，并且电信呼叫可能会被“降级”为单声道或立体声音频呼叫。在一些示例中，这种单声道或立体声音频呼叫至少可以包括用于主要音频内容的至少一些空间信息，该主要音频内容可以是在音频呼叫期间仅被发送的音频内容。

如何呈现次要音频或者是否完全呈现次要音频可以由装置100至少基于次要音频重要性信息来进行选择。在一个或多个示例中，对于远程用户204或远程用户设备202而言，知道由装置100做出的选择可以是有利的。因此，在一个或多个示例中，装置100可以被配置为提供将用户监视信息发送给远程用户设备202，该用户监视信息至少指示电信音频的次要音频是否正被呈现给用户200，以用于至少通知所述远程用户204或远程用户设备。

因此，基于用户监视信息，相当于与远程用户设备202相关联的装置100的远程装置可以被配置为提供向远程用户204通知他们在向用户200发送的次要音频是否正被呈现给用户200。

同样地，基于由装置100从远程用户设备202或远程装置接收的用户监视信息，装置100可以被配置为向用户200通知他们在向远程用户204发送的用户电信音频内容的次要音频是否正被呈现给远程用户204。

向相关用户200、204进行通知可以包括诸如文本或图画或听觉或触觉消息之类的消息的呈现。

用户监视信息可以被认为是对电信音频或用户电信音频的源的反馈，以提供有关它在其目的地如何被呈现的信息。

用户监视信息可以指示有关(用户)电信音频内容的呈现的其他参数。

在一个或多个示例中，用户监视信息可以指示呈现位置504，该呈现位置504包括相对于用户200的与电信音频内容向用户200的呈现相关联的位置，以使得用户200将感知到电信音频内容源自所述呈现位置504。因此，远程用户设备202或其远程装置将被通知用户200当前在感知电信音频内容的源在呈现空间400或空间音频场景500中何处。

远程用户设备202或远程装置可以被配置为用等效的呈现位置504向远程用户202提供电信音频内容的呈现。因此，远程用户他自己生成的音频即电信音频内容，将被捕获并被呈现给远程用户204，以使得它被感知为来自相当于相对于用户200的位置504的左前方位置。

同样地，装置100可以被配置为从远程用户设备202或其远程装置接收对应的用户监视信息，为了清楚起见，其被称为远程用户监视信息。因此，基于远程用户监视信息，装置100可以被配置为从相对于用户200的方向或位置向用户200提供用户电信音频内容的呈现，该方向或位置对应于在所述远程用户监视信息中指示的呈现位置。

参考示例性图7，在701处示出了远程用户204，其图示了他们的音频环境。电信音频内容至少包括作为主要音频的远程用户204的语音，以及从位置705(包括猫)和706(包括狗)接收的环境次要音频的至少两个实例。

在702处示出了用户200，其图示了用户200的音频环境和被呈现给用户200的空间音频场景。来自远程用户的电信音频内容(主要和次要音频)刚好被呈现为使得它被感知为源自位置707。用户200还正在收听音频源的音频，该音频被呈现为使得它被感知为源自位置708。在此示例中，音频源的音频是音乐，由音符示出。在位置709(一小孩)和710(第二个小孩)处还存在一些在用户200周围的环境音频的源。

由装置100提供的用户监视信息可以包括指示位置707的信息，该信息包括用户200将从其感知电信音频内容的位置，即，位置707。

在703处示出了远程用户204已经接收到所述用户监视信息。因此，远程用户设备的远程装置已经在位置711处提供了电信音频内容的呈现，该位置对应于位置707。远程用户204因此知道用户200在空间音频场景500中何处在感知他们的电信音频内容。这对于理解远程方的音频场景可以是有利的。因此，将要被用户感知或正在被用户感知的相对于参考方向(例如，用户面向的方向)的音频内容(例如，主要音频和/或次要音频)的方向可以被提供给远程用户设备作为用户监控信息。进而，可以通过远程用户设备操作用户监视信息而将音频内容呈现给远程用户，以使远程用户了解他们的音频内容在如何被呈现给用户。

在一个或多个示例中，如在当前音频呈现信息中所定义的，用户监视信息可以指示被呈现给用户的一个或多个音频源中的至少一个音频源的音频，以由远程用户设备202或其等效的远程装置呈现给远程用户204。因此，用户监视信息可以包括被发送到远程用户设备202的由用户200收听的音频源音频的音频流。在一个或多个示例中，由用户200指定为私有的音频将不进行流传输。在一个或多个示例中，用户监视信息可以指示对被呈现给用户200的一个或多个音频源中的至少一个音频源(即，在708处被呈现的音乐)的引用，诸如URL或链接。

在704处示出了当用户监视信息包括音频源音频或其引用时该用户监视信息的使用。在704处示出了在音频场景中的远程用户204，该音频场景同样包括在位置711(其对应于位置707)处的电信音频内容以及在706和705处的环境音频。然而，附加地，基于用户监视信息，远程装置可以提供由音符所示出的由用户200所收听的音乐向远程用户204的呈现，如在712(其可以对应于位置708)处所示。在此示例中，用户电信音频的次要音频在对应于位置709和710的位置713和714处被呈现。在框中示出了一小孩和第二个小孩，以图示只有他们的音频存在于远程用户204的空间音频场景中，而不是他们与远程用户204一起实际存在。

将理解，尽管图7的描述涉及远程用户设备202或其相当于装置100的远程装置可以如何基于用户监视信息来提供音频的呈现，但装置100可以基于来自远程用户设备202的用户监视信息(被称为远程用户监视信息)来执行等效的动作。

因此，基于从远程用户设备接收的远程用户监视信息，装置100可以被配置为向用户200提供用户电信内容的呈现，以使得它将被感知为来自相对于用户200的位置，该位置对应于相对于远程用户202的远程用户从其感知用户电信内容的位置。因此，在此示例中，远程用户监视信息包括呈现位置，该呈现位置包括相对于远程用户204的与用户电信音频内容向远程用户204的呈现相关联的位置，以使得远程用户将感知到用户电信音频内容(至少其主要音频)源自所述呈现位置。

在一个或多个示例中，基于从远程用户设备202接收的远程用户监视信息，装置100可以被配置为向用户200提供当前被呈现给远程用户204的一个或多个音频源中的至少一个音频源的音频向用户200的呈现。在此示例中，从远程用户设备202接收的所述远程用户监视信息包括所述音频或对被呈现给远程用户202的一个或多个音频源中的至少一个音频源的引用。

图8示出了一对流程图，其从在801处的远程装置和在802处的装置100的角度图示了电信呼叫。将理解，所述电信呼叫通常是双向的，并因此，每个装置100可以至少部分地基于从另一个流程图接收的信息和内容来执行这两个流程图中的动作。

因此，流程图801示出了远程用户204在803处发起沉浸式电信呼叫。远程用户204还可以提供用户输入以指示次要音频804的重要性。基于该用户输入，合适的信令(被称为次要音频重要性信息)在805处被生成并被发送。在806处，远程装置可以从用户200的装置100接收用户监视信息。

流程图802示出了用户200使音频源的音频被呈现。在步骤807处，用户200可以设置当前音频呈现信息。在808处，装置100可以从远程用户接收电信音频内容以及在步骤805处发送的次要音频重要性信息。在步骤809处，基于次要音频重要性信息和当前音频呈现信息以及任何可选的默认感知位置，装置100可以提供音频源的音频以及电信音频内容的渲染。

因此，我们还公开了一种装置100，其被配置为经由本地用户设备将用户电信音频内容提供给远程用户设备202以用于呈现给远程用户204，所述用户电信音频内容包括至少本地用户设备201的用户的音频，所述电信音频内容包括主要音频和次要音频。装置100还可以被配置为提供与所述用户电信音频内容相关联的次要音频重要性信息，该次要音频重要性信息指示了所述用户电信音频内容的次要音频的重要性。

图9示出了图示以下步骤的流程图：从远程用户设备接收900音频内容，该音频内容包括主要音频和次要音频，该次要音频与主要音频不同并包括环境音频：

接收901次要音频重要性信息，该次要音频重要性信息与所述音频内容相关联并指示次要音频的重要性；

接收902当前音频呈现信息，该当前音频呈现信息至少指示来自一个或多个音频源的音频当前是否正被呈现为空间音频以使得一个或多个音频源的相应的音频将被感知为源自参考点周围的一个或多个相应的方向或方向范围；

提供主要音频的呈现903；以及

基于次要音频重要性信息和当前音频呈现信息，提供次要音频的呈现904。

图10示意性地示出了根据示例的提供程序的计算机/处理器可读介质1000。在此示例中，计算机/处理器可读介质是诸如数字多功能光盘(DVD)或压缩光盘(CD)之类的光盘。在一些示例中，计算机可读介质可以是已经以执行发明功能的方式被编程的任何介质。计算机程序代码可以分布在相同类型的多个存储器之间，或分布在不同类型的多个存储器之间，诸如ROM，RAM、闪存、硬盘、固态硬盘等。

用户输入可以是手势，其包括以下中的一个或多个：轻击、轻扫、滑动、按压、保持、旋转手势、靠近设备的用户接口的静态悬停手势、靠近设备的移动悬停手势、弯曲设备的至少一部分、挤压设备的至少一部分、多手指手势、倾斜设备、或翻转控制设备。此外，这些手势可以是使用诸如他们的手臂之类的用户的身体、或手写笔或适合于执行自由空间用户手势的其他元素的任何自由空间用户手势。

在以上示例中示出的装置可以是便携式电子设备、膝上型计算机、移动电话、智能电话、平板计算机、个人数字助理、数字照相机、智能手表、智能眼镜、基于笔的计算机、非便携式电子设备、台式计算机、监视器、智能TV、服务器、可穿戴装置、虚拟现实装置、或用于其中一个或多个的模块/电路。

任何提及的装置和/或特别提及的装置/设备的其他特征可以由被设置成使得它们被配置为仅在被使能(例如，被开启等)时执行所需的操作的装置来提供。在这种情况下，它们可不必在非使能(例如，关闭状态)下将合适的软件加载到活动存储器中，而仅在使能状态(例如，开启状态)下加载合适的软件。该装置可包括硬件电路和/或固件。该装置可包括加载到存储器上的软件。这种软件/计算机程序可被记载在相同的存储器/处理器/功能单元上和/或在一个或多个存储器/处理器/功能单元上。

在一些示例中，特别提及的装置可以用合适的软件预编程以执行所需的操作，其中可通过用户下载“密钥”来使能合适的软件的使用，例如，以解锁/使能该软件及其相关的功能。与这种示例相关的优点可以包括当设备需要进一步的功能时减少对下载数据的需求，这可用于感知设备具有足够的容量来存储用于可能不被用户使能的功能的这种预编程的软件的示例中。

除了所提及的功能之外，任何提及的装置/电路/元件/处理器可具有其他功能，这些功能可由相同的装置/电路/元件/处理器执行。一个或多个所公开的方面可包括记载在合适的载体(例如，存储器、信号)上的计算机程序(其可以是源/传输编码的)和相关的计算机程序的电子分布。

本文描述的任何“计算机”可包括一个或多个单独的处理器/处理元件的集合，其可以或可以不位于同一电路板上、或者电路板或者甚至相同的设备的相同区域/位置上。在一些示例中，任何提及的处理器中的一个或多个可以分布在多个设备上。相同或不同的处理器/处理元件可以执行本文所描述的一个或多个功能。

术语“信令”可以指作为一系列发送和/或接收的电/光信号而传输的一个或多个信号。该系列信号可以包括一个、两个、三个、四个、或者甚至更多的单独的信号分量或者不同的信号以构成所述信令。这些单独的信号中的一些或全部可以同时、按顺序、和/或使它们在时间上彼此相互重叠地通过无线或有线通信来发送/接收。

参考任何提及的计算机和/或处理器和存储器(例如，包括ROM、CD-ROM等)的任何讨论，它们可以包括计算机处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或已经以执行本发明功能的方式被编程的其他硬件组件。

申请人特此以单独的方式公开本文所描述的每个单独的特征和两个或者更多这样的特征的任何组合，以使得根据本领域技术人员的公知常识，这样的特征或组合能够基于本发明的说明书整体来执行，无论这样的特征或特征的组合是否解决本文所公开的任何问题，并且不对权利要求的范围进行限制。申请人指示所公开的方面/示例可以包括任何这样的单独的特征或特征的组合。鉴于前面的描述，对于本领域技术人员显而易见的，可以在本公开的范围内进行各种修改。

虽然已经示出、描述和指出被应用于其示例的基本上新颖的特征，但是应当理解，本领域技术人员可以在不背离本公开的范围的情况下对所描述的设备和方法的形式和细节进行各种省略、替换和改变。例如，以基本上相同的方式基本上执行相同的功能以实现相同的结果的那些元件和/或方法步骤的所有组合都明确旨在落入本公开的范围内。此外，应当认识到，与任何公开的形式或示例相关地示出和/或描述的结构和/或元件和/或方法步骤可以并入作为一般设计选择主题的任何其他公开或描述或建议的形式或示例中。此外，在权利要求中，“装置+功能”语句旨在涵盖执行所描述的功能的本文所描述的结构，而不仅仅是结构等同物，还包括等效的结构。因此，尽管钉子和螺钉可能不是结构等同物，因为钉子采用圆柱形表面以将木制部件固定在一起，而螺钉采用螺旋表面，但在紧固木制部件的环境中，钉子和螺钉可以是等效的结构。

Claims

1.一种装置，包括被配置为执行以下操作的部件：

从远程用户设备接收音频内容，所述音频内容包括主要音频和次要音频，所述次要音频与所述主要音频不同并包括环境音频；

接收次要音频重要性信息，所述次要音频重要性信息与所述音频内容相关联并指示所述次要音频的重要性；

接收当前音频呈现信息，所述当前音频呈现信息至少指示来自一个或多个音频源的音频当前是否正被呈现为空间音频以使得所述一个或多个音频源的相应的音频将被感知为源自参考点周围的一个或多个相应的方向或方向范围；

提供所述主要音频的呈现；以及

基于所述次要音频重要性信息和所述当前音频呈现信息，提供所述次要音频的呈现。

2.根据权利要求1所述的装置，其中，所述次要音频重要性信息定义包括重要和不重要的至少两个重要性级别，并且其中，所述装置包括被配置为执行以下操作的部件：

基于所述次要音频重要性信息指示所述次要音频是重要的，提供所述次要音频的呈现，所述呈现基于所述当前音频呈现信息；以及以下至少一个：

基于所述次要音频重要性信息指示所述次要音频是不重要的并且所述当前音频呈现信息指示所述一个或多个音频源当前均未在呈现音频，提供所述次要音频的呈现；以及

基于所述次要音频重要性信息指示所述次要音频是不重要的并且所述当前音频呈现信息指示所述一个或多个音频源中的至少一个音频源当前在呈现音频，不提供所述次要音频的呈现。

3.根据权利要求2所述的装置，其中，所述部件被配置为：

基于所述次要音频重要性信息指示所述次要音频是重要的并且所述当前音频呈现信息指示所述一个或多个音频源中的至少一个音频源当前在呈现音频，提供所述次要音频的呈现，以及

提供对所述一个或多个音频源中的至少一个音频源的所述音频被呈现的音量或方向范围中的一个或两者的修改，以适应所述次要音频的呈现。

4.根据权利要求2或权利要求3所述的装置，其中，所述部件被配置为：

基于所述次要音频重要性信息指示所述次要音频是重要的并且所述当前音频呈现信息指示所述一个或多个音频当前均未在呈现音频，提供所述次要音频的呈现，以使得所述次要音频被感知为源自所述用户周围的所有方向。

5.根据前述权利要求中任一项所述的装置，其中，所述装置包括被配置为执行以下操作的部件：基于所述当前音频呈现信息，提供将所述主要音频呈现为空间音频，以使得所述主要音频将被感知为源自和与所述一个或多个音频源的所述音频相关联的方向或方向范围不重叠的方向或方向范围。

6.根据前述权利要求中任一项所述的装置，其中，所述部件被配置为：

接收默认感知位置信息，所述默认感知位置信息定义针对所述音频内容的默认感知位置；

7.根据前述权利要求中任一项所述的装置，其中，所述部件被配置为：

捕获用户的用户音频内容；

向所述远程用户设备发送所捕获的用户音频内容以提供所述用户与所述远程用户设备的远程用户之间的远程通信，其中，所述用户音频内容包括主要音频和次要音频，所述次要音频与所述主要音频不同并包括环境音频；以及

发送与所述用户音频内容相关联并指示由所述远程用户设备使用的所述用户音频内容的所述次要音频的重要性的次要音频重要性信息，所述次要音频重要性信息是基于从所述用户接收的用户输入。

8.根据权利要求7所述的装置，其中，所述次要音频重要性信息是基于以下中的一个或多个：

所述用户音频内容的音频分析；以及

所述用户的所确定的当前位置。

9.根据权利要求7或权利要求8所述的装置，其中，所述部件被配置为：在确定与所捕获的用户音频内容相关联的所述次要音频重要性信息指示所述用户音频内容是不重要的时候，将所捕获的用户音频内容从被分类为主要音频和次要音频修改成单声道音频和立体声音频之一，然后发送所捕获的用户音频内容，或者将所述用户音频内容捕获为单声道音频和立体声音频之一。

10.根据前述权利要求中任一项所述的装置，其中，所述部件被配置为：向所述远程用户设备发送用户监视信息，所述用户监视信息指示所述次要音频是否正被呈现以用于至少通知所述远程用户或远程用户设备。

11.根据前述权利要求中任一项所述的装置，其中，所述部件被配置为：向所述远程用户设备发送用户监视信息，所述用户监视信息指示以下中的一个或多个：

呈现方向，所述呈现方向包括相对于参考方向而定义的方向，该方向包括当所述装置在使用中时所述音频内容将被感知来自哪里，所述呈现方向用于由所述远程用户设备向所述远程用户呈现所述音频内容；

如在所述当前音频呈现信息中定义的被呈现给所述用户的所述一个或多个音频源中的至少一个音频源的音频，以用于由所述远程用户设备呈现给所述远程用户；以及

如在所述当前音频呈现信息中定义的对被呈现给所述用户的所述一个或多个音频源中的至少一个音频源的引用，所述音频能够从所述引用中取得，以用于由所述远程用户设备将所述一个或多个音频源中的所述至少一个音频源的所述音频呈现给所述远程用户。

12.根据权利要求7所述的装置，其中，所述部件被配置为：

从所述远程用户设备接收远程用户监视信息；以及以下中的一个或多个：

提供将被感知为源自与呈现位置相对应的位置的所述用户音频内容的呈现，其中，来自所述远程用户设备的所述远程用户监视信息包括所述呈现位置，所述呈现位置指示相对于所述远程用户的位置，所述用户音频内容在被所述远程用户设备呈现时将被感知为来自所述位置；以及

提供当前正被呈现给所述远程用户的一个或多个音频源中的至少一个音频源的所述音频的呈现，其中，从所述远程用户设备接收的所述远程用户监视信息包括所述音频或对被呈现给所述远程用户的所述一个或多个音频源中的所述至少一个音频源的引用。

13.一种方法，所述方法包括：

提供所述主要音频的呈现；以及

14.一种计算机可读介质，包括在其上存储的计算机程序代码，所述计算机可读介质和所述计算机程序代码被配置为当在至少一个处理器上运行时执行包括以下步骤的方法：

提供所述主要音频的呈现；以及

15.一种装置，所述装置包括被配置为执行以下操作的部件：

向远程用户设备发送由本地用户设备捕获的用户音频内容以用于呈现给远程用户，所述用户音频内容包括主要音频和次要音频，所述次要音频与所述主要音频不同并且包括环境音频；以及

发送次要音频重要性信息，所述次要音频重要性信息与所述用户音频内容相关联并指示所述次要音频的重要性。