CN118435629A

CN118435629A - 用于生成空间音频输出的装置、方法和计算机程序

Info

Publication number: CN118435629A
Application number: CN202280085240.9A
Authority: CN
Inventors: S·S·马特; J·A·勒帕宁; A·J·莱赫蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-12-22
Filing date: 2022-11-25
Publication date: 2024-08-02

Abstract

本公开的示例可以被用于在大收听空间中存在多个声源(103)或者多个声源(103)可以被分布在多个不同的收听空间内的情况下生成空间音频。本公开的示例可以使用户(107)能够在与用户(107)的当前位置(109)不同的收听位置(111)中收听声源。这可以使用户(107)能够听到远处和/或位于不同的收听空间中的声源(103)。

Description

用于生成空间音频输出的装置、方法和计算机程序

技术领域

本公开的示例涉及用于生成空间音频输出的装置、方法和计算机程序。一些示例涉及用于从包括多个源的音频场景生成空间音频输出的装置、方法和计算机程序。

背景技术

空间音频使能为用户再现声音场景的空间特性，从而用户可以感知这些空间特性。这可以为用户提供沉浸式音频体验或者可以被用于其他应用。

发明内容

根据本公开的各种但未必所有示例，提供了一种用于生成空间音频输出的装置，该装置包括用于执行以下操作的部件：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

将针对收听位置的空间音频参数映射到与用户的位置对应的区域中；以及

将针对用户的位置的空间音频与针对收听位置的空间音频合并，以使针对用户的位置的空间音频能够与针对收听位置的空间音频同时播放。

收听位置可以包括缩放位置。

上述部件可以用于针对缩放位置适配空间音频参数以相对于缩放位置考虑用户的位置。

上述部件可以用于将空间音频参数重新映射到减小的区域以相对于收听位置考虑用户的位置。

减小的区域的大小可以由用户的位置与收听位置之间的距离来确定。

减小的区域可以被配置为减少位于用户的位置与收听位置之间的声音的渲染。

减小的区域的角位置可以基于连接收听位置和用户的位置的轴来确定的。

用户的位置和缩放位置可以被包括在相同的收听空间内。

用户的位置可以被包括在第一收听空间内，并且收听位置可以被包括在第二收听空间内。

收听空间可以由多个音频信号内容集合表示。

收听位置可以由一个或多个用户输入来确定。

上述部件可以用于通过增加音频的扩散度来适配用户的位置的空间音频参数。

空间音频参数可以包括空间元数据参数。

空间音频参数可以包括针对一个或多个频率子带，指示以下项的信息：

声音方向(sound direction)，以及

声音定向性(sound directionality)。

根据本公开的各种但未必所有示例，提供了一种装置，其包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少执行：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

根据本公开的各种但未必所有示例，提供了一种电子设备，其包括本文描述的装置，其中，该电子设备是以下中的至少一项：电话，相机，计算设备，电话会议装置。

根据本公开的各种但未必所有示例，提供了一种用于生成空间音频输出的方法，该方法包括：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

根据本公开的各种但未必所有示例，提供了一种包括计算机程序指令的计算机程序，这些计算机程序指令在由处理电路执行时使得：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

附图说明

现在将参考附图来描述一些示例，其中：

图1示出示例收听空间；

图2示出另一种示例方法；

图3示意性地示出空间音频参数；

图4示意性地示出空间音频参数的映射；

图5A和图5B示意性地示出空间音频参数的重映射；

图6示意性地示出用户的位置和所映射的空间音频参数；

图7示出另一种方法；

图8示出一种装置；以及

图9示出一种系统。

具体实施方式

本公开的示例可以被用于在大收听空间中存在多个声源或者多个声源可以被分布在多个不同的收听空间中的情况下生成空间音频。本公开的示例可以使用户能够在与用户的当前位置不同的收听位置中收听声源。这可以使用户能够听到远处和/或位于不同的收听空间中的声源。

图1示出了示例收听空间101。收听空间101可以是受限的或不受限的。在受限的收听空间101中，收听空间101的边界是预定义的，而在不受限的收听空间101中，边界不是预定义的。

收听空间101是表示音频场景的体积。在图1的示例中，用户107被示出为在收听空间101内的第一位置109处。用户107可以在收听空间101内自由移动，从而用户107可以处于不同的位置。因此，收听空间101包括可以被用于体验该音频场景的多个收听位置。

用户107对音频场景的感知取决于他们在收听空间101内的位置。用户对音频场景的感知取决于他们在收听空间101内相对于声源103的位置以及影响声音从声源103到用户107的位置的轨迹的任何其他因素。

用户107的位置109可以包括地点和定向两者的组合。也就是说，用户107可以通过进行旋转移动来改变他们的位置109，例如，他们可能转身或转动他们的头部以面向不同的方向。用户107还可以通过进行平移移动来改变位置109，例如，他们可能沿着轴或在平面内移动。

在一些示例中，收听空间101可以被配置为使用户107能够在收听空间101内以六自由度(6DOF)移动。这可以使用户107能够以三个平移自由度(向前/向后、向左/向右和向上/向下)和三个旋转自由度(偏航、俯仰和滚转)移动。为了使能感知空间音频，被提供给用户107的音频取决于用户位置109。

收听空间101包括多个声源103。在该示例中，收听空间101包括五个声源103。在其他示例收听空间101中，可以使用其他数量的声源103。

声源103被分布在整个收听空间101中。声源103被分布为使得它们位于与第一位置109中的用户107不同的距离和/或方向。声源103可以位于收听空间101内或位于收听空间101以外。也就是说，声源103不需要位于收听空间101内而可在收听空间101内听到。

该音频场景和收听空间101由多个音频信号内容集合105表示。音频信号内容集合105可以包括多通道音频信号集合或任何其他类型的音频信号集合。在该示例中，音频信号内容集合105包括高阶全景环绕声(Ambisonic)源。HOA源是包括HOA信号的音频信号集合。HOA源还可以包括与HOA信号相关的元数据。元数据可以包括空间元数据，该空间元数据使能进行HOA信号的空间渲染。在一些示例中，HOA源可以包括不同类型的音频信号，诸如立体声信号或任何其他类型的音频信号。在本公开的其他示例中，可以使用其他类型的音频信号内容集合105。

音频信号内容集合105可以表示与可在收听空间101内听到的声源103对应的音频。在一些示例中，每个音频信号内容集合105可以表示可在收听空间101内听到的一个或多个声源103。

在一些示例中，音频信号内容集合105可以位于收听空间101内。在一些示例中，音频信号内容集合105不需要位于收听空间101内，但可以被定位为使得由音频信号内容集合105表示的声源103可在收听空间101内听到。

不需要知道声源103的地点。即使声源103的地点未知，音频信号内容集合105也可以被用于表示音频场景。

在本公开的示例中，用户107可以选择与用户107的位置不同的收听位置111。用户107可以使用任何合适的手段来选择收听位置111。例如，用户107可以在电子设备的用户接口上或者通过任何其他合适的手段进行输入。用户107可以选择收听位置111，而无需改变他们当前的位置109。用户107不需要从第一位置109移动来选择收听位置111。

第一空间音频参数113可以被用于使空间音频能够被渲染给在第一位置109处的用户107。在图1的示例中，这些空间音频参数113将通过最接近第一位置109的音频信号内容集合105的空间内插来获得。这些音频信号内容集合105由图1中的第一位置109周围的三角形指示。空间音频参数113已由图1中的用户107周围的虚线圆圈表示。

然而，将需要不同的第二空间音频参数115以使能针对收听位置111渲染空间音频。在图1的示例中，这些空间音频参数115将通过最接近第一位置109的音频信号内容集合105的空间内插来获得。这些音频信号内容集合105由图1中的收听位置111周围的三角形指示。空间音频参数115已由图1中的收听位置111周围的虚线圆圈表示。

为了使用户107能够收听针对第一位置109的空间音频和针对第二位置111的空间音频两者，可以合并针对两个不同位置的空间音频以获得经合并的空间音频115。图2的示例方法可以被用于获得经合并的空间音频115。

图2示出了可以被用于合并针对用户位置109和收听者位置111的空间音频的示例方法。图2的方法可以使用如图8中所示的装置801和/或如图9中所示的系统901和/或任何其他合适的装置或设备来实现。

该方法包括在框201处，获得针对用户107的位置109的空间音频参数。位置109可以包括用户107的地点和定向的组合。也就是说，面向不同的方向而不改变地点将会导致用户107的位置109发生变化。

空间音频参数可以包括空间元数据参数或任何其他合适类型的参数。空间音频参数可以包括任何表示收听空间101中的音频场景的空间特征的数据。例如，空间音频参数可以包括以下中的一项或多项：方向参数、直接对总比率(direct-to-total ratio)参数、扩散对总比率(diffuse-to-total ratio)参数、空间相干性(spatial coherence)参数(指示在周围方向的相干声音)、扩展相干性(spread coherence)参数(指示在空间弧或区域的相干声音)、方向向量值、以及任何其他表示空间声音分布的空间特性的合适参数。

在一些示例中，空间音频参数可以包括指示声音方向和声音定向性的信息。声音定向性可以指示声音的定向或非定向/环绕如何(程度)。该空间元数据可以是到达声音的方向和直接对总比率参数。空间音频参数可以在频带中提供。在本公开的其他示例中，可以使用其他参数。

在一些示例中，空间音频参数可以包括针对一个或多个频率子带，指示声音方向和声音定向性的信息。

在框203处，该方法包括获得针对收听位置111的空间音频参数。收听位置111可以是与用户107的位置109不同的位置。在一些示例中，收听位置111可以具有相同的定向，但具有与用户107的位置109不同的地点。在其他示例中，地点和定向都可以不同。

收听位置111可以与用户109的位置109处于相同的收听空间101内，如图1的示例中所示。这可以使用户107能够收听同一收听空间101的不同部分。

在其他示例中，收听位置111可以位于不同的收听空间101内。在这种示例中，用户107的位置109被包括在第一收听空间101内，并且收听位置111被包括在第二收听空间101内。在这种示例中，用户107可以使用包括多个收听空间101的应用(诸如游戏或其他内容)，并且可以进行用户输入以选择不同的收听空间101中的收听位置111而无需他们的位置109。这可以使用户107能够窥视或窃听不同的音频场景。

在某些示例中，收听位置111可以是缩放位置。也就是说，用户107可以进行输入，这使音频能够缩放或聚焦到收听空间101内的特定位置。

收听位置111可以是收听空间101内的一个位置，与用户107的位置109相比，在该位置中将可听到不同的声音。例如，收听位置111可以包括远离用户107的位置109的地点。这可意味着在收听位置111处可听到的声音在用户107的位置109处将会是听不到的。

针对收听位置111获得的空间音频参数可以与针对用户107的位置109获得的参数的类型相同。也就是说，它们可以包括空间元数据参数，诸如方向参数、接对总比率参数、扩散对总比率参数、空间相干性参数(指示在周围方向的相干声音)、扩展相干性参数(指示在空间弧或区域的相干声音)、方向向量值、以及任何其他表示空间声音分布的空间特性的合适参数。

在框205处，该方法包括针对用户107的位置109，渲染空间音频。可以使用任何合适的过程来针对用户107的位置109渲染空间音频。在框201处获得的空间音频参数可以被用于针对用户107的位置109渲染空间音频。

在框207处，该方法包括针对收听位置111，渲染空间音频。可以使用任何合适的过程来针对收听位置111渲染空间音频。在框203处获得的空间音频参数可以被用于针对收听位置111渲染空间音频。用于针对收听位置111渲染空间音频的过程可以与用于针对用户107的位置109渲染空间音频的过程相同。

在框209处，该方法包括将针对收听位置111的空间音频参数映射到与用户107的位置109对应的区域中。

在一些示例中，针对收听位置111的空间音频参数的映射可以包括重新映射针对收听位置111的空间音频参数或任何其他合适的过程。这可以包括有效地重新定位一些空间音频参数，以使得它们位于如由该区域定义的预定区域内。

在一些示例中，针对收听位置111的空间音频参数的映射可以包括将空间音频参数重新映射到减小的区域。减小的区域可以包括比在应用重映射之前参数所在的范围更小的范围。

空间音频参数所映射到的区域可以相对于收听位置111考虑用户107的位置109。例如，如果用户107的位置109和收听位置111在相同的收听空间101中，则减小的区域的大小可以由用户107的位置109与收听位置111之间的距离来确定。在这种示例中，用户107的位置109与收听位置111之间的距离越大，减小的区域将越小。

在一些示例中，空间音频参数所映射到的区域可以考虑用户107的视场。例如，它可以考虑用户107所面向的方向以及与收听位置111的距离。这可以创建一个角范围，该角范围定义了空间音频参数可以被重新映射到的区域。

减小的区域的定向可以基于收听位置111相对于用户109所面向的方向的定向来确定。

如果收听位置111在与用户107的位置109不同的收听空间101内，则减小的区域的大小可以基于其他因素来确定。在一些示例中，减小的区域的大小和定向可以基于不同的收听空间与用户107所在的收听空间的相对位置来确定。

减小的区域可以被配置为减少位于用户107的位置109与收听位置111之间的声音的渲染。例如，如果在用户107与收听位置111之间存在一个或多个声源103，则这将会在用户107的位置109处呈现为在用户107前面的声音，但将会在收听位置处呈现为在用户107后面的声音。为了避免该声音被包括在收听位置111处的声音中，可以衰减或以其他方式减小这种声源109。

在框209处，该方法包括将针对用户107的位置109的空间音频与针对收听位置111的空间音频合并。空间音频的合并使得针对用户109的位置109的空间音频能够与针对收听位置111的空间音频同时播放。空间音频的合并可以使针对用户109的位置109的空间音频能够以与针对收听位置111的空间音频不同的方向被播放。这可以使用户107能够听到针对他们当前的位置109的音频和针对收听位置111的音频两者。

该方法还可以包括图2中未示出的附加框或过程。例如，在一些示例中，该方法可以包括针对收听位置101适配空间音频参数以相对于该收听位置考虑用户107的位置109。

在一些示例中，该方法可以包括适配用户107的位置的空间音频参数。适配来自用户107的位置109的空间音频参数可以包括任何修改，该修改使来自用户107的位置109和收听位置111两者的音频都可被用户107清楚地听到。例如，它可以包括增加在用户107的位置109处的音频的扩散度。增加扩散度可以通过减少直接对总能量、通过减少在特定方向上的增益或声音水平和/或通过使用任何其他合适的过程来实现。

本公开的示例为用户107提供了改进的空间音频体验。例如，如果用户107在大收听空间101(诸如体育场)中，则他们可以选择放大到不同的收听位置111以听到在不同位置处的音频。例如，用户坐在体育场的座位上，但可能想要听到来自体育场地的声音。如本文所描述的空间音频的合并使用户107能够听到来自人群的欢呼声以及来自体育场地的一些音频。

在另一个示例中，用户可以使用本公开的示例来窥视或窃听不同的收听空间101。例如，用户可能正在玩包括多个不同的收听空间101的游戏或者渲染包括多个不同的收听空间101的内容。用户可以通过进行适当的用户输入来选择不同的收听空间101来收听。进而，可以使用本公开的示例来合并来自不同的收听空间的空间音频。

图3示意性地示出了可以在本公开的示例中使用的空间音频参数301。空间音频参数301既可以被用于用户107的位置109，也可以被用于收听位置111。空间音频参数301的相同格式可以被用于用户107的位置109和收听位置111两者。

可以针对与用户107的位置109或收听位置111重合的音频信号内容集合105来确定空间音频参数301。如果没有与用户107的位置109或收听位置111重合的音频信号内容集合105，则可以通过从靠近用户107的位置109或收听位置111的音频信号内容集合105进行内插来确定空间音频参数301。

在图3的示例中，空间音频参数301包括多个不同的频带303。不同的频带303由图3中的方框表示。在图3的示例中，空间音频参数301包括十六个不同的频带303。在其他示例中，空间音频参数301可以包括任何合适数量的频带303。

在图3的示例中，每个频带303具有相同的大小。在其他示例中，不同的频带303可以具有不同的大小。例如，较低的频带可以具有比更高的频率范围更大的频带大小。

空间音频参数301可以包括针对每个频带303的任何适合的信息。在一些示例中，空间音频参数301可以包括指示方位角的信息、指示仰角的信息、指示直接对总能量比率的信息、指示总能量的信息、和/或任何其他合适的信息或信息组合。

可以使用任何合适的手段和过程来确定空间音频参数301。

在一些示例中，可以使用以下语法或任何其他合适的语法来描述空间音频参数301。

图4示意性地示出了空间音频参数301的映射。空间音频参数301可以如图3中所示。在本公开的其他示例中，可以使用其他类型的空间音频参数301。空间音频参数301可以是用户107的位置109或者收听位置111的空间音频参数301。

在该示意性示例中，空间音频参数301被映射到圆圈401。圆圈401的中心位置可以是用户107的位置109或收听位置111或任何其他合适的位置。

多个小圆圈403被示出为被映射到大圆圈401上。小圆圈403表示不同频带303的主频率。小圆圈403被映射到大圆圈401的基于主频率的方向的位置。

在该示例中，示出了四个小圆圈403A、403B、403C和403D。这些小圆圈表示四个不同频带303的主频率。在空间音频参数301中，针对每个频带303都将会存在一个小圆圈403，但为了清楚起见仅示出了四个。

在图4的示例中，小圆圈403A、403B、403C和403D具有不同的大小。不同的大小指示每个频带303内不同的总能量。不同的小圆圈还可以具有不同的扩散度水平。

在本公开的示例中，表示主频率的小圆圈403A、403B、403C和403D可能将会至少部分地重叠。然而，在图4中，为了清楚起见，它们已被分开显示。

图5A和图5B示意性地示出了空间音频参数301的重映射。在这种情况下，空间音频参数301将会是收听位置111的空间音频参数301。

图5A示出了对于其中用户实际位于收听位置111处的场景而将会如何映射空间音频参数301。在该示例中，小圆圈403全部位于圆圈401的周围。也就是说，它们位于圆圈401的左侧和右侧。

图5B示出了在用户位于收听位置111的左侧的情况下而将会如何针对收听位置111映射空间音频参数301。在这种情况下，空间音频参数301被重新映射到与用户107的位置109对应的区域501。区域501包括圆圈401的区域。区域501的地点可以由用户107的视场来确定。例如，在这种情况下，用户107位于收听位置111的左侧。在这种情况下，空间音频参数301被重新映射到圆圈401的右侧的区域。这使圆圈401的左侧变得清晰。

在图5B的示例中，区域501包括圆圈401的一半。在其他示例中，可以使用区域501的其他角范围。区域501的角范围可以由收听位置111与用户107的位置109之间的距离来确定。例如，如果用户107距离较远，则区域501的角范围将会更小。

在一些示例中，可以使用重映射函数将空间音频参数301重新映射到区域501。

示例重映射函数可以是：

FOV_remapped＝(FOV_original)/K

其中，K是与用户107的位置109与收听位置111之间的距离成比例的常数。

K＝m*D

其中，D是用户107的位置109与收听位置111之间的距离，m是常数。m可以是内容创建器指定的对象，或者它可以是经由任何其他合适的方法导出的乘数。

FOV可以是视场。这可以是空间音频参数可以被映射到的收听位置111周围的圆圈401的角范围。原始视场可以是空间音频参数的原始位置。经重映射的视场可以包括空间音频参数所重新映射到的区域。

在一些示例中，重映射函数可以被用于仅修改一些空间音频参数。例如，重映射函数可以被用于基于收听位置111和用户107的位置109的相对地点来修改方位角参数和仰角参数。例如，可以调整spatial_meta_azimuth和spatial_meta_elevation值。

可以基于收听位置111与用户107的位置109之间的角方向来选择用于重映射的参考轴。例如，参考方向可以是连接收听位置111和用户107的位置109的轴。

在图5A和图5B的示例中，空间音频参数已被重新映射。也就是说，它们已被重新定位。在一些示例中，空间音频参数可能已经被定位在适当的区域501内。在这种示例中，该过程不需要重新映射空间音频参数，而只需确保映射位于正确的区域501中。

图6示意性地示出了用户107的位置109以及针对收听位置111的经映射的空间音频参数。

在该示例中，用户107的位置109和收听位置位于相同的收听空间101内。这可以是如图1中所示的收听空间101或任何其他合适的收听空间。

收听位置111位于距离用户107的位置109的距离D处，并且相对于参考坐标系601的方位为θ。轴603连接收听位置111和用户107的位置109。轴603可以被用作用于重映射函数的参考轴。

在该示例中，空间音频参数将要被映射到的收听位置111的区域501由粗线指示。该区域501包括收听位置111周围的圆圈的一半。在本公开的其他示例中，可以使用区域501的其他角范围。

基于参考轴603来确定区域501的角位置。在该示例中，区域501的角位置被旋转，以使得它与方位θ对齐。

图7示出了可以被用于合并针对用户位置109和收听者位置111的空间音频的另一种示例方法。图7的方法可以使用如图8中所示的装置801和/或如图9中所示的系统901和/或任何其他合适的装置或设备来实现。

在框701处，该方法包括接收指示用户107的当前位置109的信息。在一些示例中，用户107的当前位置109可以是真实世界位置或者基于真实世界位置。在这种示例中，指示用户107的当前位置109的信息可以从任何合适的定位系统接收。在一些示例中，用户107的当前位置109可以是虚拟世界内的位置，例如，介导现实环境和/或游戏环境中的位置。在这种示例中，指示用户107的当前位置109的信息可以从虚拟世界的提供方或任何其他合适的源接收。

用户107的位置109可以包括用户107的地点。例如，它可以包括笛卡尔坐标系内的X、Y和Z坐标。在一些示例中，用户107的位置109可以包括用户107的定向。这可以指示用户109所面向的方向。这可以被表示为任何合适的坐标系中的偏航角、俯仰角和滚转角

在框703处，该方法包括接收指示收听位置111的信息。用户107可以通过经由用户接口或任何其他合适的手段进行适当的用户输入来选择收听位置111。例如，他们可以在收听空间101的表示上选择收听位置111。这可以被归类为“放大”输入。

进而，用户接口可以向执行该方法的装置提供以下信息，指示收听位置111和在收听位置处的音频信号内容集合105的信息。

hoa_source_pos_x、hoa_source_pos_y、hoa_source_pos_z的值定义在任何合适的坐标系中收听位置111的位置。可以使用任何合适的单位来定义该地点。hoa_source_rot_yaw和hoa_source_rot_roll可以是在-180°到+180°之间的任何角。hoa_source_rot_pitch可以是在-90°到+90°之间的任何角。可以使用任何合适的单位或步长大小以用于这些角度。

在框705处，确定参考轴603。在框701和703处接收到的与用户107的位置109和收听位置111相关的信息可以被用于确定参考轴603。参考轴603可以连接收听位置111和用户107的位置109。参考轴603可以如图6中所示，或者可以是任何其他合适的轴。

在框707处，确定区域501。区域501是收听空间111的空间音频参数将要被映射到的区域。区域501与用户107的位置对应，以使得可以基于用户107的位置109和收听位置111的相对位置来确定区域501。对于如图6中所示的布置，可以基于用户107的位置109与收听位置111之间的距离D和/或用户107的位置109与收听位置111之间的方位θ来确定区域501。在框705处确定的参考轴603可以被用于确定区域501的角定向。

在框709处，针对收听位置的空间音频参数被重新映射到区域501。可以使用任何合适的重映射函数来重新映射空间音频参数。重映射可以有效地重新定位空间音频参数，以使得它们被定位在区域501内。

重映射可以将空间音频参数移动到定义的角范围中。该角范围可以由用户107的位置109与收听位置111之间的距离来定义。可以旋转空间音频参数，以使得区域501与用户107的位置109与收听位置111之间的方位θ对齐。该旋转可以由参考轴603定义，以使得区域501与参考轴603对齐。

在框711处，可以应用衰减掩蔽。该衰减掩蔽可以包括任何可以被用于滤除在用户107与收听位置111之间的不想要的声音的手段。例如，如果在用户107与收听位置111之间存在一个或多个声源103，则这将会在用户107的位置109处呈现为在用户107前面的声音，但将会在收听位置处呈现为在用户107后面的声音。为了避免该声音被包括在收听位置111处的声音中，可以使用衰减掩蔽衰减或以其他方式减小这种声源109。

在框713处，该方法包括使能使用经重映射的空间音频参数来在收听位置111处渲染音频。可以使用任何合适的手段进行此渲染。进而，可以将针对收听位置111的经渲染的音频与针对用户的位置109的经渲染的音频合并，以使针对该用户的位置的空间音频能够与针对该收听位置的空间音频同时播放。该合并可以包括将来自收听位置111的经重映射的音频添加到针对用户107的位置109的当前音频中。

在图7的示例中，仅对收听位置111的空间音频参数执行重映射。这可以使能针对更靠近用户107的声源103保持视听对齐。在一些示例中，可以对收听位置111的空间音频参数和用户107的位置109的空间音频参数两者执行重映射。这可以使针对不同位置的音频能够被映射到用户107周围的不同区域。这可以使用户107能够基于音频的相对位置来区分来自用户107的位置109的音频和来自收听位置111的音频。

在图7的示例中，用户107的位置109和收听位置111可以位于相同的收听空间101中，因此，可以基于它们的相对位置来定义参考轴603。在其他示例中，收听位置111可以位于与用户107不同的收听空间101内。例如，多个收听空间101可以可用，用户可以选择多个不同的收听空间101中的任何一个收听空间内的收听位置。这可以使用户107能够窥视或窃听不同的收听空间101。

为了实现包括多个不同收听空间101的示例，可以定义相应的收听空间101之间的相对位置。在一些示例中，可以生成针对每个收听空间101的音频内容集合105，进而可以定义音频内容集合105之间的相对位置。在一些示例中，可以在不同的收听空间111内提供多个音频内容集合105。

在示例实现中，可以使用以下笛卡尔坐标系来定义针对每个收听空间的位置：

该信息可以由装置或其他合适的设备用于确定用户107已选择以从他们当前的位置进行窥视的收听空间111。

在不同的实现中，不同的收听空间111可以由内容创建器逻辑地定位。在这种示例中，使用户107能够选择收听位置111的用户接口还可以被配置为基于这些逻辑位置来选择位置和定向值。逻辑位置可以被变换到笛卡尔坐标或任何其他合适的坐标系。

在一些示例中，内容创建器可以针对相应的收听位置111选择适当的距离和位置。这些距离和位置可以被用于生成距离效应并创建缩放体验，例如，可以使用更大的距离来给出一种印象，即，在这种示例中收听位置111更远，收听位置111距离用户位置越远，被用于空间音频参数的区域则越窄。

图8示意性地示出了可以在本公开的一些示例使用的示例装置801。在图8的示例中，装置801包括至少一个处理器803和至少一个存储器805。将理解，装置801可以包括图8中未示出的附加组件。

装置801可以被配置为基于本公开的示例生成空间音频输出。

在图8的示例中，装置801的实现可以被实现为处理电路。在一些示例中，装置801可以单独以硬件实现，具有软件(包括固件)中的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图8中所示，装置801可以使用实现硬件功能的指令来实现，例如，通过使用通用或专用处理器803中的计算机程序807的可执行指令来实现，这些指令可以被存储在计算机可读存储介质(磁盘、存储器等)上以由这种处理器803执行。

处理器803被配置为从存储器805读取以及向存储器805写入。处理器803还可以包括输出接口和输入接口，处理器803经由输出接口输出数据和/或命令，数据和/或命令经由输入接口被输入到处理器803。

存储器805被配置为存储计算机程序807，该计算机程序包括计算机程序指令(计算机程序代码809)，其在被加载到处理器803中时控制装置801的操作。计算机程序807的计算机程序指令提供使装置801能够执行图2和图7中所示的方法的逻辑和例程。处理器803通过读取存储器805而能够加载和执行计算机程序807。

因此，装置801包括：至少一个处理器803；以及包括计算机程序代码809的至少一个存储器805，至少一个存储器805和计算机程序代码809被配置为与至少一个处理器803一起使装置801至少执行：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

如图8中所示，计算机程序807可以经由任何合适的递送机制813到达装置801。递送机制813例如可以是机器可读介质、计算机可读介质、非暂时性计算机可读介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字通用光盘(DVD)或固态存储器之类的记录介质、包括或有形地体现计算机程序807的制品。该递送机制可以是被配置为可靠地传送计算机程序807的信号。装置801可以将计算机程序807传播或发送为计算机数据信号。在一些示例中，可以使用无线协议(诸如蓝牙、蓝牙低功耗、智能蓝牙、6LoWPan(基于低功率个域网的IPv6)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN)、或任何其他合适的协议)将计算机程序807发送到装置801。

计算机程序807包括计算机程序指令，这些计算机程序指令用于使装置807至少执行以下操作：

获得针对用户的位置的空间音频参数；

获得针对与用户的位置不同的收听位置的空间音频参数；

针对用户的位置，渲染空间音频；

针对收听位置，渲染空间音频；

计算机程序指令可以被包括在计算机程序807、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但未必所有示例中，计算机程序指令可以被分布在多于一个计算机程序807上。

尽管存储器805被示出为单个组件/电路，但它可以被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成的/可移除的和/或可以提供永久/半永久/动态/缓存存储。

尽管处理器803被示出为单个组件/电路，但它可以被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成的/可移除的。处理器803可以是单核或多核处理器。

对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的提及应被理解为不仅涵盖具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构之类的不同架构的计算机，而且还涵盖诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路之类的专用电路。对计算机程序、指令、代码等的提及应被理解为涵盖用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中所使用的，术语“电路”可以指以下中的一项或多项或全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)硬件电路和软件的组合，诸如(如果适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合；以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器之类的装置执行各种功能)；以及

(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)来操作，但操作不需要软件时可能不存在软件。

“电路”的这一定义适用于在本申请中该术语的全部使用，包括在任何权利要求中的使用。作为另一示例，如在本申请中使用的，术语“电路”还涵盖仅硬件电路或处理器及其伴随的软件和/或固件的实现。术语“电路”还涵盖(例如且如果适用于特定权利要求元素)用于移动设备的基带集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

图2和图7中所示的框可以表示方法中的步骤和/或计算机程序807中的代码段。对框的特定顺序的图示并非意味着存在针对这些框的所需或优选顺序，而是可以改变框的顺序和布置。此外，可以省略一些框。

图9示出了可以被用于实现本公开的一些示例的示例系统901。系统901包括一个或多个内容创建器设备903、一个或多个内容托管设备905、以及一个或多个播放设备907。在其他示例中，系统901内可以包括其他类型的设备。

内容创建器设备903包括音频模块909。音频模块909可以包括被配置为生成空间音频的任何部件。例如，音频模块909可以包括多个空间分布式麦克风或任何其他合适的部件。

由音频模块生成的音频可以被提供给MPEG-H编码器/解码器模块911。MPEG-H编码器/解码器模块911将音频编码成MPEG-H格式。在本公开的其他示例中，可以使用其他类型的音频格式。

MPEG-H编码器/解码器模块911提供经MPEG-H编码/解码的音频913作为输出。经MPEG-H编码/解码的音频913可以作为输入被提供给内容创建器设备903内的编码器模块917。经MPEG-H编码/解码的音频913还可以作为输入被提供给系统901的其他部分。在图9的示例中，经MPEG-H编码/解码的音频913作为输入被提供给内容主机设备905。

内容创建器设备903还包括编码器模块917。编码器模块917被配置为从音频模块909接收音频。在该示例中，编码器模块917可以从音频模块909接收原始音频数据。编码器模块917还接收包括编码器输入格式915的输入。编码器输入格式915包括与收听空间101相关的信息以及将要由编码器模块917使用的格式。

编码器模块917还接收经MPEG-H编码/解码的音频913作为输入。

编码器模块917使用来自音频模块909的原始音频数据、经MPEG-H编码/解码的音频913以及编码器输入格式915来生成空间音频参数或元数据，以使能音频的空间渲染。在一些示例中，编码器模块917可以被配置为生成空间音频参数，以使能允许用户107以六自由度移动的空间音频渲染。该渲染可以包括音频信号内容集合105，诸如HOA源或任何其他合适类型的空间音频参数。

编码器模块917提供空间音频参数919作为输出。空间音频参数919可以被提供给内容主机设备905。

内容主机设备905将空间音频参数919与经MPEG-H编码/解码的音频913组合以生成内容比特流921。

内容主机设备905被配置为生成内容选择清单923。内容选择清单923使播放设备907的用户107能够从可用内容中进行选择。例如，它可以使用户107能够选择收听位置111和与收听位置111对应的内容。该清单还可以使能选择与用户107的当前位置109对应的内容。

播放设备907被配置为取回针对用户107的当前位置109的音频内容927以及针对目标收听位置111的音频内容925。目标收听位置111可以通过用户输入或任何其他合适的手段来定义。

播放设备907可以包括内容选择模块933。该内容选择模块可以接收用户输入937。用户输入937可以使用任何合适的用户接口或用户输入设备进行。该用户输入可以使能选择收听位置111。响应于收听位置111的选择，内容选择模块933可以使能选择针对目标收听位置111的音频内容925。

内容选择模块933可以在媒体播放器模块929内提供。媒体播放器模块929还可以被配置为接收指示用户107的位置109的输入935。指示用户107的位置109的输入935可以从任何合适的定位部件生成。该定位部件可以在由用户107佩戴的头戴式耳机中提供，或者可以在系统901的任何其他合适的部分中提供。

针对用户107的当前位置109的音频内容927和针对目标收听位置111的音频内容925可以被提供给播放设备907内的媒体播放器模块929。在该示例中，媒体播放器模块929包括HOA渲染器模块931。HOA渲染器模块931可以被配置为渲染针对用户位置109的空间音频以及针对收听位置111的空间音频。HOA渲染器931还可以被配置为根据本公开的示例来重新映射针对收听位置111的空间音频。HOA渲染器模块931还可以被配置为将针对用户107的位置109的空间音频与针对收听位置111的空间音频合并，以使针对用户107的位置109的空间音频能够与针对收听位置111的空间音频同时播放。

HOA渲染器模块931向用户设备提供音频输出939。该用户设备可以是耳机或者使能将音频信号转换为可听声音信号的任何其他设备。

在图9的示例中，使用了HOA渲染器。在本公开的其他示例中，可以使用其他类型的内容和渲染。

在本文档中使用的术语“包括”具有包容而非排他性的含义。也就是说，任何表述“X包括Y”表示X可以仅包括一个Y或者可以包括多于一个Y。如果意图使用具有排他性含义的“包括”，则将在上下文中通过提及“仅包括一个……”或者使用“由……组成”来明确。

已经在本说明中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此，“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分，但并非必须用于其他示例。

尽管已经在前面的段落中参考各种示例描述了示例，但应当理解，可以在不背离权利要求的范围的情况下对给出的示例进行修改。

在前面的说明中所描述的特征可以在除了上面明确描述的组合以外的组合中使用。

尽管已经参考某些特征描述了功能，但这些功能可以由其他特征来执行，无论是否被描述。

尽管已经参考某些示例描述了特征，但这些特征也可以存在于其他示例中，无论是否被描述。

在本文中使用的术语“一/一个”或“该”具有包容而非排他性的意义。也就是说，任何提到“X包括一/一个/该Y”指示“X可以仅包括一个Y”或者“X可以包括多于一个Y”，除非上下文清楚地指出并非如此。如果意图使用具有排他性意义的“一/一个”或“该”，则将在上下文中明确说明。在某些情况下，可使用“至少一个”或“一个或多个”来强调包容性的意义，但缺少这些术语不应被视为意指任何非排他性的意义。

权利要求中特征(或特征的组合)的存在是对该特征(或特征的组合)本身的引用，并且也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征例如包括是变体并以基本相同的方式实现基本相同的结果的特征。等效特征例如包括以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在本说明中已经参考了使用形容词或形容词短语的各种示例来描述示例的特性。这种关于示例对特性的描述表示该特性在一些示例中完全如所描述地存在，而在其他示例中基本上如所描述地存在。

尽管在前面的说明中试图指出那些被认为是重要的特征，但应当理解，申请人可以经由权利要求来寻求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已强调。

Claims

1.一种用于生成空间音频输出的装置，所述装置包括用于执行以下操作的部件：

获得针对用户的位置的空间音频参数；

获得针对与所述用户的所述位置不同的收听位置的空间音频参数；

针对所述用户的所述位置，渲染空间音频；

针对所述收听位置，渲染空间音频；

将针对所述收听位置的空间音频参数映射到与所述用户的所述位置对应的区域中；以及

将针对所述用户的所述位置的空间音频与针对所述收听位置的空间音频合并，以使针对所述用户的所述位置的空间音频能够与针对所述收听位置的空间音频同时播放。

2.根据权利要求1所述的装置，其中，所述收听位置包括缩放位置。

3.根据权利要求2所述的装置，其中，所述部件用于针对所述缩放位置适配所述空间音频参数以相对于所述缩放位置考虑所述用户的所述位置。

4.根据前述权利要求中任一项所述的装置，其中，所述部件用于将所述空间音频参数重新映射到减小的区域以相对于所述收听位置考虑所述用户的所述位置。

5.根据权利要求4所述的装置，其中，所述减小的区域的大小由所述用户的所述位置与所述收听位置之间的距离来确定。

6.根据权利要求4至5中任一项所述的装置，其中，所述减小的区域被配置为减少位于所述用户的所述位置与所述收听位置之间的声音的渲染。

7.根据权利要求4至6中任一项所述的装置，其中，所述减小的区域的角位置是基于连接所述收听位置和所述用户的所述位置的轴来确定的。

8.根据前述权利要求中任一项所述的装置，其中，所述用户的所述位置和所述缩放位置被包括在相同的收听空间内。

9.根据权利要求1至7中任一项所述的装置，其中，所述用户的所述位置被包括在第一收听空间内，并且所述收听位置被包括在第二收听空间内。

10.根据前述权利要求中任一项所述的装置，其中，所述收听空间由多个音频信号内容集合表示。

11.根据前述权利要求中任一项所述的装置，其中，所述收听位置由一个或多个用户输入来确定。

12.根据前述权利要求中任一项所述的装置，其中，所述部件用于通过增加所述音频的扩散度来适配所述用户的所述位置的空间音频参数。

13.根据前述权利要求中任一项所述的装置，其中，所述空间音频参数包括空间元数据参数。

14.根据前述权利要求中任一项所述的装置，其中，所述空间音频参数包括针对一个或多个频率子带，指示以下项的信息：

声音方向，以及

声音定向性。

15.一种电子设备，包括根据前述权利要求中的任何一项所述的装置，其中，所述电子设备是以下中的至少一项：电话，相机，计算设备，电话会议装置。

16.一种用于生成空间音频输出的方法，所述方法包括：

获得针对用户的位置的空间音频参数；

针对所述用户的所述位置，渲染空间音频；

针对所述收听位置，渲染空间音频；

17.根据权利要求16所述的方法，其中，所述收听位置包括缩放位置。

18.根据权利要求17所述的方法，其中，所述部件用于针对所述缩放位置适配所述空间音频参数以相对于所述缩放位置考虑所述用户的所述位置。

19.一种计算机程序，包括计算机程序指令，所述计算机程序指令在由处理电路执行时使得：

获得针对用户的位置的空间音频参数；

针对所述用户的所述位置，渲染空间音频；

针对所述收听位置，渲染空间音频；

20.根据权利要求19所述的计算机程序，其中，所述收听位置包括缩放位置。

21.一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得针对用户的位置的空间音频参数；

针对所述用户的所述位置，渲染空间音频；

针对所述收听位置，渲染空间音频；