CN108605195B

CN108605195B - 智能音频呈现

Info

Publication number: CN108605195B
Application number: CN201680080223.0A
Authority: CN
Inventors: A·埃罗宁; J·莱佩宁; A·莱蒂尼米; F·克里克里
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-11-27
Filing date: 2016-11-22
Publication date: 2021-03-16
Anticipated expiration: 2036-11-22
Also published as: EP3174316A1; PH12018501120A1; US20180338215A1; EP3174316B1; WO2017089650A1; US10524074B2; CN108605195A

Abstract

一种方法，包括：对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的一个；以及如果声音对象不满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的另一个，其中，声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现声音对象，并且其中，声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现声音对象或者在呈现声音场景中不呈现声音对象。

Description

智能音频呈现

技术领域

本发明的实施例涉及智能音频呈现(rendering)。更具体地，本发明的实施例涉及包括多个声音对象的声音场景的智能音频呈现。

背景技术

本文中的声音场景用于指示三维空间中的声源的布置。当声源改变位置时，声音场景发生变化。当声源改变其音频特性(诸如其音频输出)时，声音场景会发生变化。

可以定义与记录声音有关的声音场景(记录声音场景)和与呈现声音有关的声音场景(呈现声音场景)。

一些当前技术致力于在距记录声音场景的时间和空间距离处将记录声音场景精确再现为呈现声音场景。记录声音场景被编码以存储和/或传输。

声音场景内的声音对象可以是表示声音场景内的声源的源声音对象，或者可以是表示在特定麦克风处记录的声音的记录声音对象。在本文中，对声音对象的提及是指记录声音对象和源声音对象两者。然而，在一些示例中，声音对象可能只是源声音对象，而在其它示例中，声音对象可能只是记录声音对象。

通过使用音频处理，在某些情况下可以将记录声音对象转换为源声音对象和/或将源声音对象转换为记录声音对象。

在某些情况下，可能需要使用多个麦克风来记录音频场景。一些麦克风(诸如Lavalier麦克风)或其它便携式麦克风可被附着到声音场景中的声源或者可以跟随声音场景中的声源。其它麦克风在声音场景中可以是静态的。

来自各种麦克风的输出的组合定义了记录声音场景。然而，可能并不总是需要像被记录一样精确呈现声音场景。因此，在某些情况下，需要自动调适记录声音场景以产生替代的呈现声音场景。

发明内容

根据本发明的各种但并非全部实施例，提供一种方法，包括：对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的一个；以及如果声音对象不满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的另一个，其中，声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现声音对象，并且其中，声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现声音对象或者在呈现声音场景中不呈现声音对象。

根据本发明的各种但并非全部实施例，提供一种装置，包括：用于自动确定声音对象是否满足一个或多个选择标准的装置；用于如果声音对象满足一个或多个选择标准则执行声音对象的正确或不正确呈现中的一个的装置；以及用于如果声音对象不满足一个或多个选择标准则执行声音对象的正确或不正确呈现中的另一个装置，其中，声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现声音对象，并且其中，声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现声音对象或者在呈现声音场景中不呈现声音对象。

根据本发明的各种但并非全部实施例，提供一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器；至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使所述装置至少执行：对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的一个；以及如果声音对象不满足一个或多个选择标准，则执行声音对象的正确或不正确呈现中的另一个，其中，声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现声音对象，并且其中，声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现声音对象或者在呈现声音场景中不呈现声音对象。

根据本发明的各种但并非全部实施例，提供如所附权利要求中要求保护的示例。

附图说明

为了更好地理解有助于理解简要说明的各种示例，现在将仅以示例的方式参照附图，其中：

图1示出系统的示例以及用于对声音场景进行记录和编码的方法的示例；

图2示意性地示出便携式麦克风(PM)和静态麦克风(SM)相对于任意参考点(REF)的相对位置；

图3示出图1中所示的系统，其被修改为相对于记录声音场景旋转呈现声音场景；

图4A和图4B示出收听者与呈现声音场景之间的相对定向变化，使得呈现声音场景在空间中保持固定；

图5示出例如可用于执行系统的定位块、定向块和距离块的功能的模块；

图6A和图6B示出用于在图5的模块中使用的直接模块和间接模块的示例；

图7示出使用装置实现的系统的示例；

图8示出对声音对象自动应用一个/多个选择标准以决定正确还是不正确呈现声音对象的方法的示例；

图9示出用于对记录音频场景中的声音对象应用一个/多个选择标准以确定正确还是不正确呈现声音对象的方法的示例；

图10示出用于对记录音频场景中的声音对象应用一个/多个选择标准以确定正确还是不正确呈现声音对象的方法的示例；

图11A示出记录声音场景，而图11B示出对应的呈现声音场景。

具体实施方式

图1示出了系统100的示例以及方法200的示例。系统100和方法200记录声音场景10并处理记录声音场景以使得能够针对在记录声音场景10内的特定位置(原点)处的收听者，将记录声音场景准确呈现为呈现声音场景。

在该示例中，声音场景的原点位于麦克风120处。在该示例中，麦克风120是静态的。它可以记录一个或多个声道，例如它可以是麦克风阵列。

在该示例中，仅示出了单个静态麦克风120。然而，在其它示例中，可以独立使用多个静态麦克风120，或者可以不使用静态麦克风。在这种情况下，原点可以位于这些静态麦克风120中的任一个处，并且在某些情况下，可能需要在静态麦克风120之间切换原点或者将原点定位在声音场景内的任意位置。

系统100还包括一个或多个便携式麦克风110。便携式麦克风110例如可以在记录声音场景10内随着声源一起移动。例如可以使用悬臂式麦克风或者例如将麦克风附着到声源(例如，通过使用Lavalier麦克风)实现此目的。便携式麦克风110可以记录一个或多个记录声道。

图2示意性地示出了便携式麦克风(PM)110和静态麦克风(SM)120相对于任意参考点(REF)的相对位置。静态麦克风120相对于参考点REF的位置由矢量x表示。便携式麦克风PM相对于参考点REF的位置由矢量y表示。便携式麦克风110与静态麦克风SM的相对位置由矢量z表示。应当理解，z＝y-x。由于静态麦克风SM是静态的，因此矢量x是恒定的。因此，如果知道x并跟踪y的变化，则也可以跟踪z的变化。矢量z给出便携式麦克风110相对于作为声音场景10的原点的静态麦克风120的相对位置。因此，矢量z相对于记录声音场景10的名义收听者定位便携式麦克风110。

有许多不同的技术可用于定位包括无源系统和有源系统的对象，在无源系统中，所定位的对象是无源的并且不产生信号，而在有源系统中，所定位的对象产生信号。在Kinnect^TM设备中使用的无源系统的示例是使用红外光在对象上绘制非均匀符号图案，使用多个相机测量反射光，然后使用视差效应对其进行处理以确定对象的位置。有源系统的示例是对象具有发射机，其向多个接收机发送无线电信号以使得能够例如通过三边测量来定位对象。有源系统的示例是对象具有一个或多个接收机，其接收来自多个发射机的无线电信号以使得能够例如通过三边测量来定位对象。

当所记录的声音场景10由图1中的系统100呈现给用户(收听者)时，呈现给收听者的效果如同收听者位于记录声音场景10的原点处一样。因此重要的是，当便携式麦克风110在记录声音场景10中移动时，其相对于记录声音场景10的原点的位置z被跟踪，并且在呈现声音场景中被正确表示。系统100被配置为实现此目的。

在图1的示例中，从静态麦克风120输出的音频信号122由音频编码器130编码为多声道音频信号132。如果存在多个静态麦克风，则每个静态麦克风的输出将由音频编码器单独编码为多声道音频信号。

音频编码器130可以是空间音频编码器，使得多声道132表示由静态麦克风120记录声音场景10，并且可以被呈现以给出空间音频效果。例如，音频编码器130可被配置为根据所定义的标准(例如，双声道编码、5.1环绕声编码、7.1环绕声编码等)产生多声道音频信号132。如果存在多个静态麦克风，则根据相同的所定义的标准(例如，双声道编码、5.1环绕声编码、7.1环绕声编码等)，并且关于相同的公共呈现声音场景产生每个静态麦克风的多声道信号。

来自一个或多个静态麦克风120的多声道音频信号132通过混合器102与来自一个或多个便携式麦克风110的多声道音频信号142混合，以产生多麦克风多声道音频信号103，其表示相对于原点的记录声音场景10，并且可以通过与音频编码器130对应的音频解码器来呈现，以在对应于记录声音场景的收听者位于原点处时，向该收听者再现呈现声音场景。

来自便携式麦克风110或每个便携式麦克风110的多声道音频信号142在混合之前进行处理，以考虑便携式麦克风110相对于静态麦克风120处的原点的任何移动。

从便携式麦克风110输出的音频信号112由定位块140进行处理，以调整便携式麦克风110相对于静态麦克风120处的原点的移动。定位块140将矢量z或取决于矢量z的某个或某些参数作为输入。矢量z表示便携式麦克风110相对于静态麦克风120处的原点的相对位置。

定位块140可被配置为针对由便携式麦克风110记录的音频信号112与由静态麦克风120记录的音频信号122之间的任何时间未对齐进行调整，以使得它们共享公共时间参考帧。例如，可以通过将来自便携式麦克风110的音频信号112内存在的自然发生的或人为引入的(不可听)音频信号与来自静态麦克风120的音频信号122内的音频信号相关联来实现此目的。在定位块140进行处理之前，可以使用通过相关性识别的任何定时偏移来延迟/推进来自便携式麦克风110的音频信号112。

考虑便携式麦克风110相对于静态麦克风120处的原点的相对定向(Arg(z))，定位块140处理来自便携式麦克风110的音频信号112。

产生多声道音频信号132的静态麦克风音频信号122的音频编码假设呈现声音场景相对于记录声音场景定向的特定定向，并且音频信号122相应地被编码为多声道音频信号132。

确定记录声音场景10中的便携式麦克风110的相对定向Arg(z)，并且将表示声音对象的音频信号112编码到由音频编码130定义的多声道，使得声音对象在呈现声音场景内以与收听者的相对定向Arg(z)被正确定向。例如，音频信号112可以首先被混合或编码为多声道信号142，然后可以使用变换T在由这些多个声道定义的空间内将表示移动声音对象的多声道音频信号142旋转Arg(z)。

参考图4A和图4B，在一些情况下，例如当音频场景通过头戴式音频输出设备300(例如使用双声道音频编码的头戴式耳机)呈现给收听者时，当收听者在空间中转动他们的头部330时，可能需要呈现声音场景310在空间320中保持固定。这意味着呈现声音场景310需要相对于音频输出设备300沿头部旋转的反方向旋转相同的量。

在图4A和图4B中，收听者与呈现声音场景310之间的相对定向由角度θ表示。声音场景由在空间320中物理旋转的音频输出设备300来呈现。音频输出设备300与呈现声音场景310之间的相对定向由角度α表示。由于音频输出设备300不相对于用户的头部330移动，因此在该示例中，θ与α之间存在90°的固定偏移。当用户转动其头部时，发生θ的变化。如果音频场景要在空间中固定呈现，则α必须沿相同的方向改变相同的量。

从图4A移到图4B，用户顺时针转动其头部，θ增加量Δ，并且α增加量Δ。呈现声音场景沿逆时针方向相对于音频设备旋转量Δ，使得呈现声音场景310在空间中保持固定。

呈现声音场景310的定向跟踪收听者的头部的旋转，使得呈现声音场景310的定向在空间320中保持固定并且不随着收听者的头部330而移动。

图3示出了图1中所示的系统100，其被修改为相对于记录声音场景10旋转呈现声音场景310。这将使得呈现声音场景310相对于与记录声音场景10具有固定关系的音频输出设备300旋转。

定向块150用于将多声道音频信号142旋转Δ，其由用户的头部的旋转确定。

类似地，定向块150用于将多声道音频信号132旋转Δ，其由用户的头部的旋转确定。

定向块150的功能与定位块140的定向功能的功能性极为类似。

产生多声道音频信号132的静态麦克风信号122的音频编码假设呈现声音场景相对于记录声音场景的特定定向。该定向偏移Δ。相应地，音频信号122被编码为多声道音频信号132，并且音频信号112被相应地编码为多声道音频信号142。变换T可用于在由这些多个声道定义的空间内将多声道音频信号132旋转Δ。可以使用附加变换T在由这些多个声道定义的空间内将多声道音频信号142旋转Δ。

在图3的示例中，附加处理便携式麦克风信号112以控制对呈现声音场景中的声音对象与收听者的距离D的感知，例如以匹配记录声音场景10中的声音对象与原点的距离|z|。当使用双声道编码时这可能是有用的，以使得声音对象例如对于用户呈外部化，并且仿佛来自远处而非用户的头部内，用户的耳朵之间。距离块160处理多声道音频信号142以修改距离的感知。

虽然针对图3中的块140、150、160示出特定顺序，但可以使用不同的顺序。虽然不同的定向块150被示为单独对多声道音频信号142和多声道音频信号132进行操作，但在混合器102进行混合之后，代替地单个定向块150可以对多麦克风多声道音频信号103进行操作。

图5示出了模块170，其例如可用于执行图3中的定位块140、定向块150和距离块160的功能。模块170可以使用电路和/或编程处理器(诸如计算机中央处理单元或由软件控制的其它通用处理器)来实现。

该图示出了在多声道音频信号142与多声道音频信号132混合以形成多麦克风多声道音频信号103之前对多声道音频信号142的单个声道的处理。多声道信号142的单个输入声道被作为信号187输入。

输入信号187并行通过“直接”路径和一个或多个“间接”路径，然后通过混合器196将来自这些路径的输出混合在一起作为多声道信号，以产生输出多声道信号197。每个输入声道的输出多声道信号197被混合在一起以形成与多声道音频信号132混合的多声道音频信号142。

直接路径表示对于收听者而言直接从音频源接收的音频信号，而间接路径表示对于收听者而言经由间接路径(诸如多路径或反射路径或折射路径)从音频源接收的音频信号。

距离块160通过修改直接路径与间接路径之间的相对增益，改变对呈现音频场景310中的声音对象与收听者的距离D的感知。

每个并行路径包括由距离模块160控制的可变增益设备181、191。

可以通过控制直接路径与间接(去相关)路径之间的相对增益来控制距离的感知。增加间接路径相对于直接路径的增益则增加了距离的感知。

在直接路径中，输入信号187在定位块160的控制下由可变增益设备181放大，以产生增益调整信号183。增益调整信号183由直接处理模块182进行处理以产生直接多声道音频信号185。

在间接路径中，输入信号187在定位块160的控制下由可变增益设备191放大，以产生增益调整信号193。增益调整信号193由间接处理模块192进行处理以产生间接多声道音频信号195。

直接多声道音频信号185和一个或多个间接多声道音频信号195在混合器196中混合在一起以产生输出多声道音频信号197。

直接处理块182和间接处理块192两者都接收到达方向信号188。到达方向信号188给出记录声音场景10中的便携式麦克风110(移动声音对象)的定向Arg(z)和呈现声音场景310相对于音频输出设备300的定向Δ。

当便携式麦克风110在记录声音场景10中移动时，移动声音对象的位置改变，当呈现声音场景的头戴式音频输出设备旋转时，呈现声音场景310的定向改变。

直接模块182例如可以包括与图6A中所示类似的系统184，其在适当的多声道空间中旋转单声道音频信号(增益调整输入信号183)从而产生直接多声道音频信号185。

系统184使用传递函数来执行变换T，其在由这些多个声道定义的空间内将多声道信号旋转Arg(z)和由到达方向信号188定义的Δ。例如，头部相关传递函数(HRTF)内插器可用于双声道音频。

间接模块192例如可以如图6B中所示地实现。在该示例中，到达方向信号188使用可变增益设备194来控制单声道音频信号(增益调整输入信号193)的增益。然后使用静态去相关器196处理所放大的信号，然后系统198应用静态变换T以产生输出多声道音频信号193。该示例中的静态去相关器使用至少2ms的预延迟。变换T以与系统184类似的方式在由这些多个声道定义的空间内旋转多声道信号，但旋转固定的量。例如，静态头部相关传递函数(HRTF)内插器可用于双声道音频。

因此，应当理解，模块170可用于处理便携式麦克风信号112并执行以下功能：

(i)改变呈现声音场景中由便携式麦克风音频信号112表示的声音对象与收听者的相对位置(定向Arg(z)和/或距离|z|)；以及

(ii)改变呈现声音场景(包括根据(i)而定位的声音对象)相对于旋转呈现音频输出设备300的定向。

还应当理解，当处理由静态麦克风120提供的音频信号122时，模块170还可用于仅执行定向模块150的功能。然而，到达方向信号将仅包括Δ并且将不包括Arg(z)。在一些但并非全部示例中，可以将修改间接路径的增益的可变增益设备191的增益设置为“零”，并且可以固定用于直接路径的可变增益设备181的增益。在这种情况下，模块170精简为图6A中所示的系统184，其旋转记录声音场景以根据仅包括Δ并且不包括Arg(z)的到达方向信号来产生呈现声音场景。

图7示出了使用装置400(例如，便携式电子设备400)实现的系统100的示例。便携式电子设备400例如可以是尺寸适合于拿在用户的手掌中或放在用户的夹克口袋内携带的手持便携式电子设备。

在该示例中，装置400包括作为集成麦克风的静态麦克风120，但不包括一个或多个远程的便携式麦克风110。在该示例但并非全部示例中，静态麦克风120是麦克风阵列。

装置400包括外部通信接口402，以用于与远程的便携式麦克风110进行外部通信。这例如可以包括无线收发机。

示出了定位系统450。该定位系统450用于相对于静态麦克风120定位便携式麦克风110。在该示例中，定位系统450被示为位于便携式麦克风110和装置400的外部。它向装置400提供取决于便携式麦克风110相对于静态麦克风120的位置z的信息。在该示例中，信息经由外部通信接口402而提供，但在其它示例中，可以使用其它接口。此外，在其它示例中，定位系统可以全部或部分地位于便携式麦克风110内和/或装置400内。

定位系统450以特定频率提供便携式麦克风110的位置的更新，并且术语声音对象的“准确”和“不准确”定位应当被理解为表示通过位置更新频率施加的约束内的准确或不准确。也即是说，准确和不准确是相对术语而非绝对术语。

装置400完全或部分地操作上述系统100和方法200以产生多麦克风多声道音频信号103。

装置400经由输出通信接口404向音频输出设备300提供多麦克风多声道音频信号103以进行呈现。

在一些但并非全部示例中，音频输出设备300可以使用双声道编码。可替代地或附加地，在一些但并非全部示例中，音频输出设备可以是头戴式音频输出设备。

在该示例中，装置400包括控制器410，其被配置为处理由静态麦克风120和便携式麦克风110以及定位系统450提供的信号。在一些示例中，控制器410可能需要对从麦克风110、120接收的信号执行模数转换和/或对发往音频输出设备300的信号执行数模转换，这取决于麦克风110、120和音频输出设备300的功能。然而，为了清楚地展示，在图7中未示出任何转换器。

控制器410的实现可以是控制器电路。控制器410可以只采用硬件实现，可具有采用只包括固件的软件的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图7中所示，控制器410可以使用执行硬件功能的指令来实现，例如，通过在通用或专用处理器412中使用可被存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器412执行的计算机程序416的可执行指令来实现。

处理器412被配置为从存储器414读取和向存储器414写入。处理器412还可以包括处理器412经由其输出数据和/或命令的输出接口以及经由其向处理器412输入数据和/或命令的输入接口。

存储器414存储包括计算机程序指令(计算机程序代码)的计算机程序416，其在被加载到处理器412中时控制装置400的操作。计算机程序416的计算机程序指令提供使装置能够执行在图1至图10中示出的方法的逻辑和例程。通过读取存储器414，处理器412能够加载并执行计算机程序416。

如图7中所示，计算机程序416可经由任何适合的传送机制430到达装置400。传送机制430例如可以是非暂时性计算机可读存储介质、计算机程序产品、存储器件、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、有形具体化计算机程序416的制造产品。传送机制430可以是被配置为可靠传送计算机程序416的信号。装置400可将计算机程序416作为计算机数据信号进行传播或传输。

虽然存储器414被示出为单个组件/电路，但其可被实现为一个或多个单独的组件/电路，其中的一些或全部可以是集成/可移除的和/或可提供永久/半永久/动态/缓存存储。

虽然处理器412被示出为单个组件/电路，但其可被实现为一个或多个单独的组件/电路，其中的一些或全部可以是集成/可移除的。处理器412可以是单核或多核处理器。

前面的描述描述了可以在呈现声音场景内定位声音对象并且可以旋转呈现声音场景的系统100和方法200。所描述的系统100已被用于在呈现声音场景内正确定位声源，以使得呈现声音场景准确再现记录声音场景。然而，发明人已经意识到系统100还可用于通过控制z，在呈现声音场景内不正确定位声源。在这种情况下，不正确定位意味着故意在呈现声音场景内误定位声源，以使得呈现声音场景通过设计而故意不准确再现记录声音场景(因为声源被不正确定位)。

不正确定位例如可以涉及通过控制替换作为定位块140的输入的Arg(z)的值来控制声音对象相对于收听者的定向。如果采用球面坐标系来表示，则值Arg(z)包括极角(从垂直天顶通过原点而测量的)和方位角(在水平面中与极角正交)。

例如，不正确定位可以涉及作为控制声音对象的定向的附加或替代，通过控制替换作为距离块160的输入的|z|的值来控制声音对象的感知距离。

可以独立于其它声音对象来控制特定声音对象的定位，使得在其它声音对象被正确定位时该特定声音对象被不正确定位。

经由旋转头戴式音频输出设备300重定向呈现声音场景的功能仍然可以如上述地执行。可以通过在上述方法200和系统100中改变距离块160和/或定位块140的输入来实现特定声音对象的不正确定位。定向块150的操作可以继续保持不变。

图8示出了方法500的示例，其包括在框502处对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则在框504处执行声音对象的正确或不正确呈现中的一个；以及如果声音对象不满足一个或多个选择标准，则在框506处执行声音对象的正确或不正确呈现中的另一个。

方法500例如可以由系统100例如使用装置400的控制器410来执行。

在方法500的一个示例中，在框502处，方法500对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则在框504处执行声音对象的正确呈现；以及如果声音对象不满足一个或多个选择标准，则在框506处执行声音对象的不正确呈现。所述一个或多个选择标准可被称为“满足然后正确呈现”标准，因为所述一个或多个标准的满足导致声音对象的正确呈现。

在方法500的一个示例中，在框502处，方法500对声音对象自动应用一个或多个选择标准；如果声音对象满足一个或多个选择标准，则在框506处执行声音对象的不正确呈现；以及如果声音对象不满足一个或多个选择标准，则在框504处执行声音对象的正确呈现。所述一个或多个选择标准可被称为“满足然后不正确呈现”标准，因为所述一个或多个标准的满足导致声音对象的不正确呈现。

主题声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现主题声音对象。如果呈现声音场景和记录声音场景对齐，使得场景中的所选择的声音对象在这两个场景中具有对齐的位置，则呈现声音场景中的主题声音对象的位置与记录声音场景的主题声音对象的位置对齐。

对象声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现主题声音对象或者在呈现声音场景中不呈现声音对象。

在呈现声音场景中的不正确位置处呈现主题声音对象意味着如果呈现声音场景和记录声音场景对齐，使得场景中的所选择的声音对象在这两个场景中具有对齐的位置，则主题对象声音在呈现声音场景中的位置未对齐，并且故意且有目的地与记录声音场景中的主题声音对象的位置误对齐。

在呈现声音场景中不呈现声音对象意味着抑制该声音对象以使其没有任何音频输出功率，也即是说，使声音对象静音。在声音场景中不呈现声音对象可以包括在一段时间内不连续呈现声音对象，或者可以包括在该时间段内不频繁呈现声音对象。

图11A示出了包括在声音场景内的不同位置处的多个声音对象12的记录声音场景10。

图11B示出了包括多个声音对象12的呈现声音场景310。

每个声音对象具有距记录声音场景10的原点O的位置z(t)。正确呈现的那些声音对象具有距呈现声音场景310的原点O相同的位置z(t)。

通过比较图11A和图11B可以看出，声音对象12A、12B、12C、12D在呈现声音场景310中被正确呈现。这些声音对象在记录声音场景10中的位置与在呈现声音场景310中的位置相同。

通过比较图11A和图11B可以看出，声音对象12E在呈现声音场景310中被不正确呈现。该声音对象在记录声音场景10中的位置与在呈现声音场景310中的位置不同。声音对象12E在呈现声音场景中的位置故意且有目的地与声音对象12E在记录声音场景10中的位置不同。

通过比较图11A和图11B可以看出，声音对象12F在呈现声音场景310中被不正确呈现。该声音对象在记录声音场景10中的位置与在呈现声音场景310中的位置不同。记录声音场景10的声音对象12F在呈现声音场景中被故意且有目的地抑制，并且在呈现声音场景310中不呈现。

方法500可以应用于多个声音对象12中的一些或全部，以产生与记录声音场景10有意不同的呈现声音场景310。

方法500使用的一个或多个选择标准对于每个声音对象12可以是相同的或不同的。

方法500使用的一个或多个选择标准可以评估所述一个或多个选择标准被应用的声音对象12的特性。

图9示出了用于分析呈现音频场景中的每个声音对象12的方法500的示例。该分析可以实时动态地执行。

在该示例中，该方法由系统600执行，系统600可以是系统100和/或装置400的一部分。系统600经由一个或多个输入612、614、616接收关于声音对象12的特性(参数)的信息，并使用算法620处理这些参数，以执行方法500的方框502，从而决定该声音对象应当在正确的位置处被呈现504还是在不正确的位置处被呈现506。

系统600接收第一输入612，其指示声音对象12是否在移动和/或指示声音对象的移动速度。例如，可以通过提供在时间段δt上的z(t)和/或z(t)的变化δz(t)来实现此目的。

系统600接收第二输入614，其指示声音对象12重要还是不重要和/或指示“重要”的值或等级。

系统600接收第三输入616，其指示声音对象12是处于优选位置还是非优选位置。

尽管在该示例中，系统600接收第一、第二和第三输入612、614、616，但在其它示例中，它可以接收三个输入中的一个或多个或它们的任何组合。

尽管在该示例中，系统600接收第一、第二和第三输入612、614、616，但在其它示例中，它可以接收附加输入。

尽管在该示例中，系统600接收指示声音对象12的特性(参数，诸如移动还是静止、重要还是不重要以及优选位置/非优选位置)的第一、第二和第三输入612、614、616，但在其它示例中，系统600可以接收其它信息，诸如z(t)和声音对象元数据，并且通过处理声音对象12的特性(参数)来进行确定。

系统600使用声音对象12的特性(参数)对声音对象执行方法500。方法500使用的一个或多个选择标准可以评估一个或多个选择标准被应用的声音对象的特性。

如果声音对象在特定时间没有移动，则声音对象12在该时间是静态声音对象。静态声音对象可以是与便携式麦克风110相关联的可变静态声音对象，该便携式麦克风110在记录声音场景10期间的该特定时间没有移动但可以或在记录声音场景10期间的其它时间移动。静态声音对象可以是与在记录声音场景10期间没有移动的静态麦克风120相关联的固定静态声音对象。

如果声音对象12在特定时间相对于记录声音场景10中的静态声音对象在记录声音场景10中移动，则该声音对象12在该时间是移动声音对象。

移动声音对象可以是与在记录声音场景期间的特定时间移动的便携式麦克风110相关联的便携式麦克风声音对象。

声音对象12在该特定时间是静态声音对象还是移动声音对象是声音对象12的特性(参数)，其可通过框500确定和/或在框600根据一个或多个标准进行测试。

例如，全部静态声音对象可被正确呈现，而只有一些移动声音对象可被正确呈现。

例如，可用于正确呈现的必要但并非充分必要条件是声音对象12是静态声音对象。在作为正确呈现的必要但并非充分条件时，正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要足够重要和/或具有优选位置和/或需要具有声音对象12将至少在最小时间段内保持静止和/或重要和/或处于优选位置的置信度。

例如，可用于不正确呈现的必要但并非充分必要条件是声音对象12是移动声音对象。在作为不正确呈现的必要但并非充分条件时，不正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要足够不重要和/或具有非优选位置和/或需要具有声音对象12将至少在最小时间段内保持移动和/或不重要和/或处于非优选位置的置信度。

如果声音对象12在特定时间在记录声音场景中是重要的，则该声音对象在该时间是重要声音对象。

声音对象12的重要性可由编辑者或作者指定，编辑者和作者向声音对象12添加元数据来描述其在该时间对于记录声音场景10而言是重要的。例如，元数据可通过麦克风自动添加或在处理期间添加。

重要声音对象可以是可变的重要声音对象，其重要性在记录期间发生变化。该重要性可以在记录期间由编辑者/作者指定，或者可通过处理音频场景以识别最重要的声音对象来指定。

重要声音对象可以是固定的重要声音对象，其重要性在记录期间是固定的。例如，如果便携式麦克风由主演或歌手携带，则关联的声音对象可以是固定的重要声音对象。

声音对象12在特定时间是重要声音对象或不重要声音对象或“重要”的值或等级是声音对象12的特性(参数)，其可通过框600确定和/或在框600根据一个或多个标准进行测试。

例如，全部重要声音对象可被正确呈现。一些或全部不重要声音对象可被不正确呈现。

例如，可用于正确呈现的必要但并非充分必要条件是重要声音对象。在作为正确呈现的必要但并非充分条件时，正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要是静态的或足够缓慢地移动和/或具有优选位置和/或需要具有声音对象将至少在最小时间段内保持重要和/或静态和/或缓慢移动和/或处于优选位置的置信度。

例如，可用于不正确呈现的必要但并非充分必要条件是声音对象12是不重要声音对象。在作为不正确呈现的必要但并非充分条件时，不正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要足够快速地移动和/或具有非优选位置和/或需要具有声音对象12将至少在最小时间段内保持不重要和/或快速移动和/或具有非优选位置的置信度。

如果声音对象12在特定时间在呈现声音场景310内位于优选位置320内，则该声音对象12在该时间是优选位置声音对象。

如果声音对象12在特定时间在呈现声音场景310内位于非优选位置320内，则该声音对象12在该时间是非优选位置声音对象。

图11B示出了呈现声音场景310内的优选位置320的示例和呈现声音场景310内的非优选位置322的示例。在该示例中，优选位置320由呈现声音场景310的面积或体积定义。非优选位置322由剩余的面积或体积定义。

在下文中，将假设优选位置320是二维的(面积)并且在该示例中被使用极坐标定义为二维扇区。然而，优选位置320可以是三维的(体积)，并且可以在三维中被定义为三维扇区。对于球面三维扇区的情况，对向二维扇区的极角由对向三维球面扇区的两个可独立地变化的正交球面角替换。术语“场”包括二维扇区的对向角和三维扇区的对向角。

在该示例中，优选位置320是以原点O为中心的圆326的扇区。扇区320对向角度

具有方向λ和范围κ。角度

的大小可被选择为例如在“-X”度到“+X”度之间，其中，“X”是30到120之间的值。例如，“X”可以是60或90。

优选位置320可以模拟收听者的视场。在该示例中，当收听者的定向在呈现音频场景310内发生变化时，优选位置320的方向λ跟踪收听者的定向。

在收听者穿戴输出音频的头戴式设备300的示例中，呈现音频场景310在空间中固定，并且优选位置320相对于收听者固定。因此，当收听者转动他或她的头部时，作为优选位置声音对象的声音对象12的分类可发生变化。

头戴式音频设备300可以是仅提供音频输出的设备，也可以是除了其它输出(例如，视觉输出和/或触觉输出)之外还提供音频输出的设备。例如，音频输出设备300可以是头戴式介导现实设备，其包括音频输出用户界面和/或视频输出用户界面，例如，提供视觉输出和音频输出两者的虚拟现实眼镜。

优选位置320的定义可以由编辑者或作者指定。它可以是固定的，或者可以在记录期间发生变化。可以改变

λ和κ中的一个或多个的值。

在一些示例中，优选位置320可以仅由场

(无限κ)定义。在这种情况下，优选位置320是无限半径圆的扇区。在一些示例中，优选位置320可以仅由距离κ

定义。在这种情况下，优选位置320是具有有限半径的圆。在一些示例中，优选位置320可以由场

和距离κ定义。在这种情况下，优选位置320是具有有限半径的圆的扇区。在一些示例中，优选位置320可以由场

方向λ(有或没有距离κ)定义。在这种情况下，优选位置320是在特定方向上对齐的圆的扇区，在一些示例中，对应于收听者的视场。例如，当设备300除了经由音频输出用户界面提供音频输出之外，还经由视频输出用户界面提供视觉输出时，经由视频输出用户界面的视觉输出可以经由场

和方向λ(有或没有距离κ)确定收听者的视场和优选位置320。

声音对象12在特定时间是否为优选位置声音对象或其位置是否处于优选位置320是声音对象的特性(参数)，其可通过框600确定和/或在框600根据一个或多个标准进行测试。

例如，全部优选位置声音对象可被正确呈现。一些或全部非优选位置声音对象可被不正确呈现。

例如，可用于正确呈现的必要但并非充分必要条件是声音对象12是优选位置声音对象。在作为正确呈现的必要但并非充分条件时，正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要是静态的或足够缓慢地移动和/或足够重要和/或需要具有声音对象将至少在最小时间段内保持处于优选位置和/或静态和/或足够缓慢地移动和/或重要的置信度。

例如，可用于不正确呈现的必要但并非充分必要条件是声音对象12是非优选位置声音对象。在作为不正确呈现的必要但并非充分条件时，不正确呈现需要声音对象12具有一个或多个附加特性(参数)。例如，声音对象12需要足够快速地移动和/或足够不重要和/或需要具有声音对象12将至少在最小时间段内保持处于非优选位置和/或快速移动和/或不重要的置信度。

声音对象12的正确定位505涉及在呈现声音场景310中相对于其它声音对象12的正确位置处呈现声音对象12，无论呈现声音场景310是否相对于头戴式音频设备300被重定向。

声音对象12的不正确呈现涉及故意在呈现声音场景310中相对于其它声音对象12的不正确位置处呈现声音对象12，无论呈现声音场景310是否相对于头戴式音频设备300被重定向。

在一个示例中，记录声音场景10中的移动声音对象的不正确定位505涉及在呈现声音场景310中将移动声音对象呈现为静态声音对象。例如，在记录时，声音对象12E可在距记录声音场景10的原点O的第一距离处，而在呈现时，声音对象12E可在距呈现声音场景310的原点O的第二不同距离处。

在一些示例中，需要将记录声音场景10中的缓慢移动的声音对象视为呈现声音场景310中的固定位置处的静态声音对象。在一些示例中，需要将记录声音场景10中的快速移动的声音对象视为呈现声音场景310中的固定位置处的静态声音对象。在一些示例中，需要将记录声音场景10中以中间速度移动的移动声音对象视为呈现声音场景中的移动声音对象并对它们进行正确定位。

在时间t声音对象的不正确呈现可以包括在呈现声音场景中的位置z*(t)处呈现声音对象，该位置等同于记录声音场景中的当前位置z(t)与记录声音场景中的前一位置z(t-τ)的中间位置。

例如，z*(t)可以等于1/2(z(t)+z(t-τ))或(a.z(t)+b.z(t-τ))/(a+b)。

中间位置处的声音对象的呈现可以在时间t发生，作为z(t-τ)(从时间τ到时间t)处的不正确呈现声音对象与将来t+t'时间的正确呈现声音对象之间的过渡措施。当从不正确定位呈现过渡到正确定位呈现之后，声音对象12在呈现声音场景310中的位置变化超过阈值(即，如果|z(t)-z(t-τ)|>阈值)时，可以认为该过渡措施是适当的。

图10示出了可由系统600执行的方法500的示例。

在该示例中，方法500仅应用于记录声音场景310中的移动声音对象。记录声音场景中的静态声音对象被正确呈现。

在框620，评估声音对象12的重要参数。如果其满足阈值，则声音对象12足够重要并且被正确呈现504。如果不满足阈值，则该方法移到框622。

在框622，评估声音对象12的位置参数，例如，z(t)。如果其满足优选位置标准，则声音对象被正确呈现504。如果不满足优选位置标准，则方法500移到框624。优选位置标准可以是声音对象12在收听者的视场内。

在框624，评估声音对象12的位置参数，例如，z(t)。如果确定其可能在未来的时间窗口满足优选位置标准，则声音对象12被正确呈现(504)。如果确定不可能在未来的时间窗口满足优选位置标准，则声音对象12被不正确呈现。

从上文中可以理解，所描述的各种方法500可由装置400执行，例如，电子装置400。

在一些示例中，电子装置400可以是音频输出设备300(诸如头戴式音频输出设备或者用于这种音频输出设备300的模块)的一部分。

从上文中可以理解，所描述的各种方法500可由这种装置400使用的计算机程序来执行。

例如，装置400可以包括：

至少一个处理器412；以及

包括计算机程序代码的至少一个存储器414，

至少一个存储器414和计算机程序代码被配置为与至少一个处理器412一起使装置400至少执行：

对声音对象12自动应用一个或多个选择标准；

如果声音对象12满足一个或多个选择标准，则使得执行声音对象12的正确504或不正确506呈现中的一个；以及

如果声音对象12不满足一个或多个选择标准，则使得执行声音对象12的正确504或不正确506呈现中的另一个，其中，声音对象12的正确呈现504至少包括与记录声音场景10相比在呈现声音场景310内的正确位置z(t)处呈现声音对象12，并且其中，声音对象12的不正确呈现506至少包括与记录声音场景10相比在呈现声音场景310中的不正确位置处呈现声音对象12或者在呈现声音场景310中不呈现声音对象12。

提及“计算机可读存储介质”、“计算机程序产品”、“有形具体化计算机程序”等，或者“控制器”、“计算机”、“处理器”等，应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机，而且还包括诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理器件和其它处理电路的专用电路。提及计算机程序、指令、代码等，应当被理解为包括用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中使用的，术语“电路”是指以下的全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)电路和软件(和/或固件)的组合，诸如(如果适用)：(i)处理器的组合或(ii)处理器/软件的部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器的装置执行各种功能)；

(c)电路，诸如微处理器或微处理器的一部分，其需要软件或固件来操作，即使软件或固件并不是物理存在的。

“电路”的这一定义应用于在本申请中的该术语的全部使用，包括在任何权利要求中的使用。作为另一个示例，如在本申请中使用的，术语“电路”还涵盖仅处理器(或多个处理器)或处理器的部分及其伴随的软件和/或固件的实现。术语“电路”还涵盖(例如且如果适用于具体要求的元件)用于移动电话或服务器中的类似集成电路、蜂窝网络设备或其它网络设备的基带集成电路或应用处理器集成电路。

图1-10中示出的框可以表示方法中的步骤和/或计算机程序416中的代码段。对框的特定顺序的描述并不意味着对于框存在要求或优选的顺序，并且框的顺序和布置可变化。此外，可以省略某些框。

在已经描述结构特征的情况下，其可被用于执行该结构特征的一个或多个功能的装置替换，无论该功能或那些功能是明确还是隐含描述。

如在本文中所使用的，“模块”是指除了由终端制造商或用户添加的某些部件/组件的单元或装置。

在本文中使用的术语“包括”具有包容而非排它性的含义。也即是说，任何提到“X包括Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”。如果意图使用具有排它性含义的“包括”，则将通过提及“仅包括一个”或通过使用“由...组成”在上下文中明确说明。

在此简要描述中，已经参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必存在于一些或所有其它示例中。因此“示例”、“例如”或“可以”是指一类示例中的特定的实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开针对一个示例但未针对另一个示例描述的特征可以但不必用于其它示例。

尽管本发明的实施例已经在前面的段落中参考各种示例进行了描述，但应当理解，可在不背离本发明要求保护的范围的情况下对给出的示例进行修改。

在前面的描述中描述的特征可用于除了明确描述的组合以外的组合中。

尽管已经参考某些特征描述了功能，这些功能可由其它特征来执行，无论是否描述。

尽管已经参考某些实施例描述了特征，这些特征也可存在于其它实施例中，无论是否描述。

在前面的描述中试图指出被认为是特别重要的本发明的特征时，应当理解，申请人要求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已经强调。

Claims

1.一种方法，包括：

对声音对象自动应用一个或多个选择标准；

如果所述声音对象满足所述一个或多个选择标准，则执行所述声音对象的正确呈现或不正确呈现中的一个；以及

如果所述声音对象不满足所述一个或多个选择标准，则执行所述声音对象的正确呈现或不正确呈现中的另一个，其中，所述声音对象的正确呈现至少包括与记录声音场景相比在呈现声音场景内的正确位置处呈现所述声音对象，并且其中，所述声音对象的不正确呈现至少包括与记录声音场景相比在呈现声音场景中的不正确位置处呈现所述声音对象或者在所述呈现声音场景中不呈现所述声音对象；

其中，用于不正确呈现的声音对象的选择的必要条件是所述声音对象相对于所述记录声音场景中的静态声音对象在所述记录声音场景内移动；和/或

其中，用于不正确呈现的声音对象的选择的必要条件是所述声音对象的位置参数不满足一个或多个优选位置标准，其中，所述一个或多个优选位置标准定义所述声音对象相对于收听者的优选位置。

2.根据权利要求1所述的方法，其中，记录声音场景包括在所述声音场景内的不同位置处的多个声音对象，并且其中，权利要求1的方法被应用于所述多个声音对象中的多个以产生不同于所述记录声音场景的呈现声音场景。

3.根据权利要求1所述的方法，其中，尽管呈现所述呈现声音场景的头戴式音频设备的空间定向发生变化，但通过相对于所述头戴式音频设备重定向所述呈现声音场景，所述呈现声音场景以固定空间定向来呈现。

4.根据权利要求1所述的方法，其中，在不正确的位置处呈现声音对象包括：相对于所述呈现声音场景中的其它声音对象在不正确的位置处呈现所述声音对象，无论所述呈现声音场景是否相对于头戴式音频设备被重定向。

5.根据权利要求1所述的方法，其中，所述一个或多个选择标准评估所述一个或多个选择标准被应用的所述声音对象的特性。

6.根据权利要求1所述的方法，其中，用于不正确呈现的声音对象的选择的附加必要条件是所述声音对象的重要参数不满足阈值。

7.根据权利要求1所述的方法，其中，所述一个或多个选择标准评估所述声音对象是否在用户的视场内或者所述声音对象是否不在所述用户的视场内。

8.根据权利要求1所述的方法，其中，不正确呈现包括：将在记录声音场景中移动的声音对象在呈现声音场景中呈现为静态。

9.根据权利要求8所述的方法，其中，所述移动声音对象的位置变化是正确或不正确呈现所述移动声音对象的条件，其中，移动超过阈值的声音对象被正确呈现，而移动小于阈值的声音对象被不正确呈现。

10.根据权利要求1所述的方法，其中，在声音场景中不呈现声音对象包括不连续呈现所述声音对象，或者包括不频繁呈现所述声音对象。

11.根据权利要求1所述的方法，其中，所述声音对象的不正确呈现包括：在所述呈现声音场景中等同于所述记录声音场景中的当前位置与所述记录声音场景中的前一位置的中间位置的位置处呈现所述声音对象。

12.根据权利要求11所述的方法，其中，当所述呈现声音场景中的声音对象的位置的后续变化超过阈值时，发生所述声音对象在中间位置处的呈现，作为不正确呈现声音对象与正确呈现声音对象之间的过渡措施。

13.根据前述权利要求中任一项所述的方法，其中，所述声音场景内的静态声音对象被正确呈现，所述声音场景内的移动声音对象或者被正确呈现或者被不正确呈现，其中，不正确呈现至少取决于所述声音对象相对于用户的视场的位置和/或所述声音对象的重要参数。

14.一种计算机可读存储介质，在其上存储计算机程序指令，其在被加载到处理器中时，执行根据权利要求1至13中任一项所述的方法。

15.一种装置，包括被配置为执行根据权利要求1至13中任一项所述的方法的电路；或者

一种装置，包括用于执行根据权利要求1至13中任一项或多项所述的方法的装置；或者

一种用于音频设备的模块，其被配置为执行根据权利要求1至13中任一项或多项所述的方法；或者

一种头戴式音频设备，其被配置为执行根据权利要求1至13中任一项或多项所述的方法；或者

一种头戴式介导现实设备，包括音频输出用户接口和视频输出用户接口，并且被配置为执行根据权利要求1至13中任一项或多项所述的方法。