CN112567763B

CN112567763B - 用于音频信号处理的装置和方法

Info

Publication number: CN112567763B
Application number: CN201980046030.7A
Authority: CN
Inventors: M-V·莱蒂南; J·维尔卡莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-05-09
Filing date: 2019-05-07
Publication date: 2023-03-31
Anticipated expiration: 2039-05-07
Also published as: GB201807537D0; CN112567763A; GB2573537A; WO2019215391A1; CN116193320A; EP3791605A1; EP3791605A4; US20220417656A1; US11950063B2; US11457310B2; US20210076130A1

Abstract

本公开的示例涉及装置、电子设备、方法和计算机程序。该装置被配置为获得至少第一音频信号和第二音频信号(411)，其中第一音频信号和第二音频信号被包括至少两个麦克风(205)的麦克风阵列捕获。该装置还被配置为标识至少第一方向(607)和至少第二方向(609)。所述第一方向和所述第二方向是针对多个频带(611)标识的。通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识所述第一方向和所述第二方向。

Description

用于音频信号处理的装置和方法

技术领域

本公开的示例涉及一种用于音频信号处理的装置、方法和计算机程序。该装置、方法和计算机程序可被配置为处理空间音频信号。

背景技术

当音频信号被两个或更多个麦克风捕获时，可以处理音频信号以从音频信号获得空间信息。这可以包括有关这样的方向的信息，声音相对于麦克风从该方向到达。空间信息可以用于使音频信号能够被渲染以为用户提供现实的空间音频体验。

发明内容

根据本公开的各种但并非全部的示例，提供了一种装置，包括：处理电路；以及包括计算机程序代码的存储器电路，该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置：获得至少第一音频信号和第二音频信号，其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获；针对多个频带，标识至少第一方向；以及针对多个频带，标识至少第二方向；其中，通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置标识第一能量参数并标识第二能量参数。

能量参数可以包括比率。

可以针对每个频带确定方向和能量参数。

可以使用与第一方向和/或第一能量参数不同的频带来标识第二方向和/或第二能量参数。

可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。

第一方向可以对应于声音的第一到达方向，而第二方向可以对应于声音的第二到达方向。

可以同时捕获所述第一音频信号和所述第二音频信号。

可以从同时捕获的音频信号中标识出所述第一方向和所述第二方向。

可以通过在至少第一音频信号和第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。

可以在时频域中执行相干性分析。

相干性分析可以包括标识在第一音频信号和第二音频信号之间具有最高相干性水平的时间延迟。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置定义围绕一个方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。

相干性分析可以包括估计对于第一方向的能量比和估计对于第二方向的能量比。

存储器电路和计算机程序代码可被配置为与处理电路一起，使装置获得至少第三音频信号，其中所述第三音频信号被所述麦克风阵列捕获，其中，所述麦克风阵列包括至少三个麦克风。

可以作为空间音频捕获过程的一部分标识所述第一方向和/或所述第二方向。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得第一音频信号和第二音频信号和元数据能够用于合成空间音频信号，其中该元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

根据本公开的各种但并非全部的示例，提供了一种装置，包括用于以下的元件(means)：获得至少第一音频信号和第二音频信号，其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获；针对多个频带，标识至少第一方向；以及针对多个频带，标识至少对应的第二方向；其中，通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

该装置可被配置为执行以下描述的任何方法。

根据本公开的各种但并非全部的示例，提供了一种电子设备，其包括如上所述的装置和多个麦克风。

该电子设备可以包括被配置为实现无线通信的一个或多个收发器。

根据本公开的各种但不一定全部的示例，提供了一种方法，该方法包括：获得至少第一音频信号和第二音频信号，其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获；针对多个频带，标识至少第一方向；以及针对多个频带，标识至少对应的第二方向；其中，通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

该方法可以包括标识第一能量参数和标识第二能量参数。

能量参数可以包括比率。

可以针对每个频带确定方向和能量参数。

其中，可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。

可以同时捕获所述第一音频信号和所述第二音频信号。

可以通过在至少所述第一音频信号和所述第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。

可以在时频域中执行相干性分析。

相干性分析可以包括标识具有在所述第一音频信号和所述第二音频信号之间的最高相干性水平的时间延迟。

该方法可以包括定义围绕方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。

该方法可以包括获得至少第三音频信号，其中所述第三音频信号被所述麦克风阵列捕获，其中，所述麦克风阵列包括至少三个麦克风。

可以作为空间音频捕获过程的一部分，标识所述第一方向和/或所述第二方向。

该方法可以包括向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得所述第一音频信号和所述第二音频信号和所述元数据能够用于合成空间音频信号，其中所述元数据包括指示所述第一方向和所述第二方向的信息和/或指示所述第一能量比和所述第二能量比的信息。

根据本公开的各种但并非全部的示例，提供了一种包括计算机程序指令的计算机程序，该计算机程序指令在由处理电路执行时促使：获得至少第一音频信号和第二音频信号，其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获；针对多个频带，标识至少第一方向；以及针对多个频带，标识至少对应的第二方向；其中，通过使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识所述第一方向和所述第二方向。

根据本公开的各种但并非全部的示例，提供了一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部的示例，提供了一种携带上述计算机程序的电磁载波信号。

根据本公开的各种但并非全部的示例，提供了一种装置，包括：处理电路；以及包括计算机程序代码的存储器电路，该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置：接收至少第一音频信号、第二音频信号和元数据；使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号，其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

根据本公开的各种但并非全部的示例，提供了一种装置，包括用于以下的元件：接收至少第一音频信号、第二音频信号和元数据；使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号，其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

附图说明

为了更好地理解有助于理解详细描述的各种示例，现在将仅以示例方式参考附图，其中：

图1示出了示例装置；

图2示出了示例电子设备；

图3示出了示例方法；

图4示出了示例系统；

图5示出了示例分析处理器；

图6示出了示例空间分析过程；

图7示出了用于标识第二方向的示例方法；

图8示出了示例合成处理器；

图9示出了可以由空间合成模块执行的空间合成的另一示例方法；

图10A和10B是估计方向和第一方向的能量比的曲线图；

图11A和11B是估计方向和第一方向和第二方向的能量比的曲线图；

图12示出了示例电子设备；

图13示出了另一示例电子设备；以及

图14示出了另一示例电子设备。

具体实施方式

本公开的示例涉及空间音频处理。在本公开的示例中，可以标识声音的两个或更多个到达方向。声音可以在频谱和时间上同时发生。也就是说，声音可以同时被麦克风检测到，并且还可以覆盖一些相同的频带。在一些示例中，可以基于麦克风信号同时检测声音。本公开的示例减少了所渲染的音频中的伪像(artifact)，并且因此提供了改进的空间音频输出。可以使用处理技术来实现该方法。在本公开的示例中，该方法不依赖于被用于捕获以特定配置和/或特定类型的麦克风设置的音频信号的麦克风。这使得本发明能够与诸如移动电话的设备一起使用，其中所使用的麦克风的类型和设备内麦克风的布置可以受到该设备内其他硬件组件、设备形状和/或其他因素的限制。

图1示意性地示出了根据本公开的示例的装置101。图1所示的装置 101可以是芯片或芯片组。在一些示例中，装置101可被提供在诸如音频捕获设备之类的设备内。在一些示例中，装置101可被提供在诸如移动电话或其他通信设备的电子设备内。

装置101包括控制电路103。控制电路103可以提供用于控制电子设备的元件。控制电路103还可以提供用于执行本公开的示例的方法或方法的至少一部分的元件。

装置101包括处理电路105和存储器电路107。处理电路105可被配置为从存储器电路107读取和向存储器电路107写入。处理电路105可以包括一个或多个处理器。处理电路105还可以包括输出接口以及输入接口，通过输出接口处理电路105输出数据和/或命令，通过输入接口向处理电路 105输入数据和/或命令。

存储器电路107可被配置为存储计算机程序109，该计算机程序109 包括计算机程序指令(计算机程序代码111)，该计算机程序指令在被加载到处理电路105中时控制装置101的操作。计算机程序109的计算机程序指令提供使装置101能够执行上述示例方法的逻辑和例程。通过读取存储器电路107，处理电路105能够加载并执行计算机程序109。

计算机程序109可以经由任何合适的传递机制到达装置101。传递机制可以是例如非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、或切实体现计算机程序的制品。传递机制可以是被配置为可靠地传输计算机程序109的信号。该装置可以将计算机程序109作为计算机数据信号来传播或发送。在一些示例中，可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个人局域网上的IPv6)ZigBee、ANT+、近场通信(NFC)、射频标识、无线局域网(无线LAN)之类的无线协议或任何其他合适的协议，向装置101发送计算机程序代码109。

尽管存储器电路107在图中被示为单个组件，但是应当理解，它可被实现为一个或多个单独的组件，其中一些或全部可以是集成/可移动的和/ 或可以提供永久/半永久的/动态的/缓存的存储。

尽管处理电路105在图中被示为单个组件，但是应当理解，它可被实现为一个或多个单独的组件，其中一些或全部可以是集成/可移动的。

应当将对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用理解为不仅包括具有不同架构(例如单/多处理器架构、精简指令集计算 (RISC)和顺序(冯·诺依曼)/并行架构)的计算机，还包括专用电路，例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路。对计算机程序、指令、代码等的引用应理解为涵盖用于可编程处理器或固件的软件，例如硬件设备的可编程内容，无论是用于处理器的指令还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。

在本申请中使用的术语“电路”指的是以下所有内容：

(a)仅硬件的电路实施方式(例如仅采用模拟和/或数字电路的实施方式)和

(b)电路和软件(和/或固件)的组合，例如(如适用)：(i)处理器的组合或(ii)处理器/软件(包括数字信号处理器)的部分、软件和存储器，它们一起工作以使诸如移动电话或服务器之类的装置执行各种功能，和

(c)需要软件或固件用于运行的电路(例如微处理器或微处理器的一部分)，即使物理上并不存在该软件或固件。

该“电路”的定义适用于本申请中该术语的所有使用，包括任何权利要求。作为另一示例，如在本申请中使用的，术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分及其(或它们)附带的软件和/ 或固件的实施方式。术语“电路”还将覆盖(例如，如果适用于特定的权利要求要素)用于移动电话的基带集成电路或应用处理器集成电路或在服务器、蜂窝网络设备或其他网络中的类似集成电路。

图2示出了根据本公开的示例的示例电子设备201。电子设备201包括装置101、用户接口203，多个麦克风205和一个或多个收发器207。应当理解，图2中仅示出了说明书中所指的组件，并且电子设备201可以包括图2中未示出的附加组件。例如，电子设备201还可以包括电源和其他合适的组件。

用户接口203可以包括使得电子设备201的用户能够进行用户输入和/ 或使得能够向用户提供输出的任何元件。在一些示例中，用户接口203可以包括显示器。显示器可以是触敏显示器，其可以使得能够将信息提供给用户，并且还可以使用户能够进行触摸用户输入。在本公开的其他示例中可以使用其他类型的用户接口。

多个麦克风205包括被配置成将声音信号转换成电输出信号的任何元件。麦克风205因此可以捕获声音信号并且提供音频信号作为输出。音频信号可以是表示捕获的声音信号的电信号。

在本公开的示例中，电子设备201可以包括多个麦克风205。多个麦克风205可被设置在麦克风阵列中。多个麦克风205可以包括两个或更多个麦克风205。例如，诸如移动电话的电子设备201可以包括三个或更多个麦克风205。其他类型的电子设备201可以包括其他数量的麦克风。

多个麦克风205可以在空间上分布在电子设备201内，使得不同的麦克风205位于电子设备201内的不同位置。麦克风205的位置可以至少部分地由电子设备201的其他组件确定。例如，在用户接口203包括显示器的情况下，第一麦克风可以位于显示器的第一端，第二麦克风可以位于显示器的第二端。

收发器207可以包括用于接收和/或发送信息的任何合适的元件。收发器207可包括一个或多个发射机和/或接收机。收发器207可以使得能够在电子设备201与另一实体之间进行无线连接。无线连接可以是例如蜂窝连接、Wi-Fi连接、蓝牙连接的无线连接或任何其他合适类型的连接。

电子设备201可以是任何合适类型的电子设备201。在一些示例中，电子设备201可以是通信设备，诸如移动电话、个人计算机或其他合适的设备。在一些示例中，电子设备可以是诸如照相机的成像设备，其可被配置为记录静止的和/或视频图像。电子设备201可以是手持设备，其可以在电子设备201的正常使用期间被握在用户的手中。

图3示出了可以使用所描述的装置101和电子设备201来实现的示例方法。

该方法包括，在框301处，获得至少第一音频信号和第二音频信号。第一音频信号和第二音频信号可以从可以提供给装置101的多个麦克风 205输出。第一音频信号和第二音频信号可以由包括多个麦克风的麦克风阵列捕获。可以通过第一麦克风捕获第一音频信号，并且可以通过第二麦克风捕获第二音频信号。麦克风205可以位于电子设备201内的不同位置，以使第二音频信号与第一音频信号相比的延迟(反之亦然)给出有关声音相对于麦克风205到达的方向的信息。

第一音频信号和第二音频信号是同时被捕获的。这可以使得能够从同时捕获的音频信号中标识出第一方向和第二方向。

在框303处，该方法包括标识针对多个频带的至少第一方向。第一方向对应于声音的第一到达方向。第一声音可被标识为从第一方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行相干性分析来标识第一方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第一方向。在一些示例中，可以针对频带的至少一个子集确定第一方向。

相干性分析可以在时频域中执行。相干性分析包括标识在第一音频信号和第二音频信号之间具有最高相关性水平的时间延迟。

该方法还包括，在框305处，标识针对多个频带的至少第二方向。第二方向对应于声音的第二到达方向。第二声音可被标识为从第二方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行进一步的相干性分析来标识第二方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第二方向。在一些示例中，可以针对频带的至少一个子集确定第二方向。

用于标识第二方向的进一步的相干性分析可以包括与用于标识第一方向的相干性分析类似的过程。在一些示例中，用于标识第二方向的相干性分析可以使用与用于标识第一方向的相干性分析不同的频带。在一些示例中，用于标识第二方向的相干性分析比用于标识第一方向的相干性分析使用更宽的频带。

在本公开的示例中，相干性分析可以包括估计对于第一方向的能量参数，并且进一步的相干性分析可以包括估计对于第二方向的能量参数。能量参数可以是比率。在其他示例中，能量参数可以是方向稳定性指数或任何其他合适的参数。可以针对多个频带确定能量参数。可以针对多个频带中的每个频带来确定能量参数。在一些示例中，可以针对多个频带中的子集确定能量参数。

在一些示例中，进一步的相干性分析可以包括定义围绕第一方向的角度范围，并且从进一步的相干性分析中省略不在该角度范围中的方向以标识第二方向。

在一些示例中，可以通过使用空间音频捕获过程来标识第一方向和/ 或第二方向和/或能量参数。

在图3的示例中，该方法包括获得第一音频信号和第二音频信号。应当理解，在其他示例中，该方法可以包括获得两个以上的音频信号。例如，如果获得了三个或更多个音频信号，则可以实现三维方向的分析。在这样的示例中，该方法可以包括获得至少第三音频信号，其中第三音频信号被第三麦克风捕获。

图4示出了根据本公开的示例的示例系统401。系统401包括电子设备201和渲染设备403。应当理解，在一些示例中，系统401可以包括附加设备。例如，可以提供存储设备来存储来自电子设备201的信号，以便渲染设备403可以访问它们。

电子设备201可以是如图2所示的设备，或者是任何其他合适类型的电子设备，其包括两个或更多个麦克风205。在图2的示例中，电子设备 201包括移动电话。在本公开的其他示例中可以使用其他类型的电子设备 201。

电子设备201包括多个麦克风205。多个麦克风205可被配置成阵列，其中多个麦克风205彼此在空间上分布。多个麦克风205被配置为捕获两个或更多个音频信号411。

电子设备201被配置为使得由多个麦克风205捕获的音频信号411被提供给处理电路103。处理电路103可被配置为分析音频信号411。处理电路103因此可以提供分析处理器405。

处理电路103可被配置为分析音频信号411以确定这样的方向，声音从相对于麦克风205的该这样的方向到达。处理电路103可被配置为标识声音的两个或更多个到达方向。处理电路103可被配置为针对多个不同频带标识声音的两个或更多个到达方向。

处理电路103可被配置为针对每个频带标识声音的两个或更多个到达方向。

一旦方向被标识，处理电路103就提供数据输出信号413。数据输出信号413包括指示捕获的音频信号的信息。在一些示例中，数据输出信号 413可以包括处理的音频信号。例如，诸如降噪、均衡、增益控制或任何其他合适的过程之类的过程可能已经被应用于音频信号。

数据输出信号413还可以包括元数据。元数据可以包括与捕获的音频信号有关的空间信息。空间信息可以包括与两个或更多个到达方向以及那些方向中的每个方向的能量比有关的信息。空间信息可以包括作为处理电路103执行的分析的结果而获得的信息。

电子设备201可被配置为发送输出数据信号413。电子设备201的一个或多个收发器207可以使输出数据信号413能够通过无线通信链路或任何其他合适类型的通信链路来发送。

在图4的示例系统中，数据输出信号413被发送给渲染设备403。渲染设备403可以包括处理电路103，并且数据输出信号413可被提供给渲染设备403内的处理电路103。在其他示例中，可以将数据输出信号413 提供给处理电路103，处理电路103然后可被配置为将数据输出信号413 发送给单独的渲染设备403。

在图4的示例中，渲染设备403包括耳机。在其他示例中，数据输出信号413可被发送给其他类型的设备，例如数据输出信号413可被发送给一个或多个远程服务器以使数据输出信号能够被远程存储。当数据输出信号413存储在远程服务器中时，远程服务器可以由一个或多个设备(例如渲染设备403)访问。

渲染设备403可以包括可被配置为获得电输入信号并将电输入信号转换为可听输出信号的任何元件。在图4的示例系统401中，渲染设备403 包括头戴式耳机。头戴式耳机可被配置为向用户提供双耳音频输出。在本公开的其他示例中可以使用其他类型的渲染设备403。例如，渲染设备403 可以是扬声器或任何其他类型的渲染设备。

当渲染设备403获得数据输出信号413时，数据输出信号413可被提供给处理电路103。处理电路103可被配置为合成已经由渲染设备403获得的数据输出信号413。渲染设备403的处理电路103因此可以提供合成处理器407。

在图4的示例中，渲染设备403的处理电路103可被配置为使用数据输出信号413的元数据来提供双耳输出信号415。双耳输出信号415可以是空间输出信号，其使得用户能够感知捕获的音频的空间特性。在本公开的其他示例中可以提供其他类型的空间输出信号。例如，在渲染设备403 包括一个或多个扬声器的情况下，空间输出信号可以包括多声道信号。

在图4的示例系统401中，电子设备201被配置为既捕获音频信号又处理音频信号。应当理解，在其他示例系统401中，音频捕获和音频处理可以由两个或更多个不同的设备执行。例如，音频捕获可以由诸如移动电话或成像捕获设备的电子设备201执行，并且音频处理可以由诸如一个或多个服务器的远程处理设备执行。

同样在图4的示例系统中，捕获电子设备201和渲染设备403被提供为单独的设备。在其他示例中，捕获音频信号的电子设备201也可被布置为渲染音频信号。例如，电子设备201可以在第一时间点捕获并处理音频信号。数据输出信号413然后可以在稍后的时间点被相同电子设备201存储和访问，以使数据输出信号413能够被呈现给用户可听见的信号。在其他示例中，数据输出信号413可在麦克风205正在检测音频信号时被临时存储和渲染。这可以使得音频信号在被捕获之后立即和/或以很小的延迟被渲染。

图5示出了根据本公开的示例的分析处理器405。分析处理器405可以设置有音频捕获设备和/或设置在音频处理设备内。如上所述，分析处理器405可被设置在电子设备201内。分析处理器405可以由电子设备201 的处理电路103提供。

分析处理器405被配置为接收音频信号411作为输入。音频信号411 可以包括由多个麦克风205捕获的信号。

分析处理器405包括传输模块501、空间分析模块503和复用模块505。应当理解，在本公开的其他示例中，分析处理器405可以包括不同的模块。

传输模块501可以包括用于创建传输音频信号的元件。可以使用任何适当的过程来创建传输音频信号511。在一些示例中，可以从输入音频信号411中选择传输音频信号511。在一些示例中，传输音频信号511可以从输入音频信号411下缩混(downmix)，或使用波束成形技术或任何其他合适的过程从输入音频信号411处理。在一些示例中，可以通过处理输入音频信号411来获得传输音频信号511。输入音频信号411的处理可以包括噪声衰减、均衡、增益控制和/或任何其他合适的处理。

传输音频信号511可以包括任何合适数量的信号。在一些示例中，传输音频信号可以包括两个传输音频信号。

在一些示例中，传输模块501还可以包括对传输音频信号511进行编码的元件。任何合适的处理都可以用于编码。例如，可以使用高级音频编码(AAC)、增强语音服务(EVS)或任何其他合适的音频编码技术。

空间分析模块503包括用于确定输入音频信号411的方向性信息的元件。空间分析模块505可以提供包括空间元数据513的输出信号。空间元数据513包括与捕获的音频信号有关的空间信息。空间元数据513可以包括使捕获的音频的空间特性能够被重新创建的任何信息。在一些示例中，空间元数据513可以包括与两个或更多个到达方向以及多个频带中的那些方向中的每个方向的能量比有关的信息。在一些示例中，空间元数据513 可以包括与两个或更多个到达方向以及每个可用频带的那些方向中的每个方向的能量比有关的信息。空间元数据513可以包括作为由空间分析模块505执行的分析的结果而获得的信息。空间元数据513可以在频带中被提供。

传输音频信号511和空间元数据513被提供作为到复用模块505的输入。复用模块505包括用于复用传输音频信号511和空间元数据513以提供数据输出信号413的元件。

图6示出了示例空间分析过程。示例性空间分析过程可以由空间分析模块505或通过任何其他合适的元件来执行。

在框601处，获得音频信号411。音频信号411可以从多个麦克风205 获得。

在框603处，将音频信号411从时域变换到时频域。在图6的示例中，该变换通过使用短时傅立叶变换(STFT)来执行。在其他示例中，该变换可以使用复数正交镜滤波器组(complex quadrature mirror filterbank) (QMF)或任何其他合适的元件来执行。

在框605处，该变换的输出被提供为时频域音频信号611。时频域音频信号611可被标示为S_i(b，n)，其中i是麦克风声道索引，b是频率仓索引，n是时间帧索引。可以将频率仓分组为子带，这些子带将频率仓中的一个或多个分组为频带索引k，其中k＝0，...k-1。每个子带k具有最低频率仓b_k，low和最高频率仓b_k，high，并且该子带包含b_k，low和b_k，high之间的所有频率仓。可以选择子带的宽度以近似任何合适的分布，例如等效矩形带宽(ERB)、Bark标度或任何其他合适的分布。

在框607处，分析时频域音频信号611以获得第一方向613和对于该第一方向的能量比615。在框607处，可以分析时频域音频信号611以针对每个频带产生方向θ₁(k，n)的估计和能量比r₁(k，n)的估计。可以使用任何合适的过程来估计方向和能量比。在一些示例中，该过程可以包括空间音频捕获(SPAC)过程，在该过程中，估计频带中声音从其到达的最突出方向。SPAC过程还可以包括估计来自最突出方向的能量相对于频带的总能量的比率。

在框607处执行的分析的输出是第一方向信号613和第一能量比信号 615，第一方向信号613包括第一方向θ₁(k，n)的估计的信息，第一能量比信号615包括能量比r₁(k，n)的信息。

在框609处，分析时频域音频信号611以获得第二方向θ₂(k，n)和对于第二方向的能量比r₂(k，n)。第一方向信号613和第一能量比信号615可以被使用以使得第二方向617和对于第二方向的能量比619能够被估计。可以使用任何合适的过程来估计第二方向617和第二能量比 619。在一些示例中，该过程可以包括空间音频捕获(SPAC)过程，在该过程中，估计频带中声音从其到达的一个或多个突出方向。这可以类似于用于获得第一方向613和第一能量比615的估计的方法。

在框609处执行的分析的输出是第二方向信号617和第二能量比信号 619，第二方向信号617包括第二方向θ₂(k，n)的估计的信息，第二能量比信号619包括能量比r₂(k，n)的信息。

可以使用任何合适的方法来估计第一方向θ₁(k，n)和对应的能量比 r₁(k，n)。例如，在输入音频信号411包括两个麦克风声道的情况下，分析处理器405可被配置为找到对于给定的频带k使两个麦克风声道之间的相关性最大化的延迟τ_k。在一些示例中，可以通过创建麦克风声道之一的时移版本并将它们与另一个麦克风声道的进行比较来确定延迟τ_k。时频信号S_m，τ(b，n)的时移版本可以通过以下获得：

其中N表示用于将音频信号411从时域变换到时频域的STFT变换的长度。

对于给定的频带k和给定的时间索引n使两个麦克风声道之间的相关性最大化的延迟τ_k从以下获得：

其中，Re表示结果的实部，＊表示复共轭。基于到达两个麦克风205 的声音的最大时间延迟来选择被搜索的延迟D_max的范围。最大声音延迟可以对应于从一对麦克风205确定的轴到达的声音的延迟。

由于麦克风205的物理分布是已知的，例如根据电子设备内的麦克风 205的配置，因此可以从估计的延迟τ_k确定第一方向。如果D_max是到达两个麦克风205的声音的最大时间延迟，则在麦克风205处于水平面的示例中，可以将延迟τ_k转换为角度值θ₁，其中

因此，角度θ₁提供了第一估计方向。

一旦已经估计了第一方向，就可以确定能量比r₁(k，n)。能量比r₁ (k，n)表示源自第一估计方向的能量相对于频带的总能量的比率。可以从归一化的相关性值来估计能量比r₁(k，n)，

在该描述的示例中，输入音频信号411包括两个麦克风声道。这可以使得能够在单个平面中的180度弧内估计方向。如果提供了两个以上的麦克风声道，则这可以使得能够在更大的角度范围内估计方向。例如，它可以使得能够在360度之内估计方向，或者可以使得能够进行三维估计。

图7示出了可以在本公开的一些示例中使用的用于标识第二方向的方法。图7的方法可以由分析处理器405或通过任何其他合适的元件来执行。

在框701处，获得时频域音频信号611。时频域音频信号611可以使用图6的方法或任何其他合适的方法来获得。

在框703处，针对不同的延迟计算由不同的麦克风获得的音频信号之间的相干性。可以通过时移一个或多个麦克风声道来创建延迟。这在框705 处提供了输出信号，该输出信号包括指示延迟的信息和指示相干性的信息。

在框703处，可以针对不同的频带计算相干性。用于估计第二方向的相干性的频带可以与用于估计第一方向的相干性的频带不同。用于估计第二方向的频带的边界可以与用于估计第一方向的频带的边界不同。也就是说，与第二方向相比，用于第二方向的b_k，low和b_k，high可以不同。因此，用于估计第二方向的频带的边界表示为b’_k，low和b’_k，high。例如，在一些示例中，用于第一方向的频带可以通过ERB标度来近似，而用于第二方向的频带可以更宽。较宽的频带减少了对第二方向的来自第一方向的干扰以及环境能量。在一些示例中，用于第二方向的频带可以包括整个音频频带或几乎整个音频频带。在一些示例中，用于第二方向的每个频带可以具有相同的宽度，以便降低计算复杂度。

从关系γ’(k，n，τ)中获得对于给定频带k和给定时间索引n的麦克风声道之间的延迟估计

在框707处，选择提供最大相干性γ’₁的延迟τ’₁，使得在框709，提供输出信号，该输出信号包括指示给出最大相干性的延迟和最大相干性的信息。

在框711处，计算与所标识的延迟相对应的临时方向α′₁。可以使用多个麦克风205的已知配置来计算方向。方向α′₁是临时的，因为除了第二临时方向α′₂之外还使用了方向α′₁以获得最终的第二输出方向θ₂。

在框711处，也可以计算围绕临时方向α′₁的弧。弧可以表示围绕该方向的角度范围。角度范围可以是预定值。弧可被确定为

α’₁-ξ＜β′₁＜α’₁+ξ

其中2ξ是弧的宽度。弧的宽度可以是30度或任何其他合适的角宽度。

这在框713处给出输出，该输出包括指示所计算的方向和具有归一化形式的对应相干性的信息。该信息可以包括与弧内的角度β′₁相对应的延迟值集合。延迟值集合可被表示为τ_ξ。

框711处的过程还在框715处产生输出，该输出包括指示弧的信息。

在框717处，指示弧的信息用于选择弧之外的延迟。这在框719处给出了弧外的延迟和弧外的相干性γ′_ξ的输出。

在框721处，选择提供最大相干性γ′₂的弧外的延迟τ′₂，使得在框723 处，提供这样的输出信号，该输出信号包括指示给出了最大相干性的延迟τ′₂和具有归一化形式的对应最大相干性γ′₂的信息。

在框725处，计算与所标识的延迟τ′₂相对应的方向α′₂。可以使用多个麦克风205的已知配置来计算方向α′₂。这在框727处给出这样的输出，该输出包括指示所计算的方向α′₂和具有归一化形式的对应最大相干性γ′₂的信息。

在框729处，从在框711和725获得的方向α′₁和α′₂中选择第二方向。默认的第二方向可以是α′₂，其对应于第二最大相干性γ′₂。然而，这可能并非总是如此，由于使用不同的频带来确定第一方向θ₁以及可能的第二方向α′₁和α′₂。不同频带的使用可以导致θ₁和α′₂相同或接近相同。在这种情况下，可以将α′₁选择为θ₂。在一些示例中，θ₂(k，n)可被选择为

阈值χ可以是任何合适的角度范围。在一些示例中，阈值χ可以是20 度。

在此示例中，绝对值运算符|.|还可以在获得绝对值之前将角度差包裹 (wrap)到±180度。

在框729处，还估计第二能量比。在一些示例中，可以从相干性γ′₂的归一化值获得第二能量比r′₂(k，n)的估计。替代地，在一些示例中，可以从与之相对应选择角度α′₁和α′₂的相干性值γ′1或γ′₂的归一化值，获得第二能量比r′₂(k，n)的估计。

在一些示例中，可以调整第二能量比r′₂(k，n)以确保第一能量比和第二能量比之和小于1。在一些示例中，可以调整第二能量比，使得第一能量比和第二能量比的总和具有小于一的值，例如0.9。这可以避免环境能量中的伪像。在这样的示例中，经调整的第二能量比r′₂(k，n)可以由下式给出：

r″₂(k，n)＝max(T₁-r₁(k，n)，0)，if r₁(k，n)+r′₂(k，n)＞T₁

r″₂(k，n)＝r₂(k，n)，其他

在一些示例中，由于第一能量比对应于主方向，所以第二能量比r₂(k， n)也可被调整以确保第二能量不大于第一能量比r₁(k，n)。在这样的示例中，第二能量比r₂(k，n)可被限制为小于第一能量比r₁(k，n)。在一些示例中，第二能量比r₂(k，n)可被限制为小于第一能量r₁(k，n) 的分数，例如第一能量比r₁(k，n)的0.9。这可以通过将第一能量比r₁ (k，n)乘以阈值T₂来获得，其中阈值T₂小于1。在这样的示例中，第二能量比r₂(k，n)可以由下式给出：

r₂(k，n)＝T₁r₁(k，n)，if r″₂(k，n)＞T₂r₁(k，n)

r₂(k，n)＝r₂(k，n)，其他

因此，框727处给出了输出729，其包括第二方向θ₂和第二能量比 r₂(k，n)。

在一些示例中，可以在第二方向θ₂上和以第二能量比r₂(k，n)执行进一步的修改。例如，可以在时间上使第二方向θ₂和第二能量比r₂(k，n)平滑。

在图7的示例中，从两个麦克风205获得时频域音频信号611。这使得能够针对180度孤估计方向和能量比。应当理解，在本公开的其他示例中，可以从多于两个麦克风205获得时频域音频信号611。这可以使得能够在360度弧中获得方向和能量比。在这样的示例中，可以修改图7的方法以使得能够使用附加的时频域音频信号611。

例如，在时频域音频信号611包括从三个麦克风获得的至少三个音频信号的情况下，对第一时频域样本S₁(b，n)和第二时频域样本S₂(b，n) 进行延迟调整并加总。延迟调整可以基于第一方向θ₁(k，n)。这可以提供临时样本S_s(b，n)。该过程可以实际上是朝向估计的第一方向θ₁(k，n)的延迟加波束成形(delay-sum beamforming)。然后以两个可能延迟来对第三时域样本S₃(b，n)进行延迟。两个可能延迟可以对应于可能的前角和后角。例如，如果θ₁(k，n)的值为30度，则前角可能为30度或后角可能为150度。然后可以针对两个延迟值在临时样本S_s(b，n)和第三时域样本S₃(b，n)之间计算相干性。选择产生较高相干性的延迟值作为正确的延迟。如果需要，可以校正估计的第一方向θ₁(k，n)。例如，第一方向θ₁(k，n)可以从30度的前角切换到150度的后角。对于第二方向θ₂(k，n)也可以重复该过程。

图8示出了根据本公开的示例的合成处理器407。可以在渲染设备403 内提供合成处理器407。可以通过渲染设备403的处理电路103来提供合成处理器407。

合成处理器407包括解复用模块801和空间合成模块803。应当理解，在本公开的其他示例中，合成处理器407可以包括不同的模块。

合成处理器407被配置为接收数据输出信号413作为输入。数据输出信号413可以包括可以如上所述获得的传输音频信号511和空间元数据 513。

数据输出信号413作为输入被提供给解复用模块801。解复用模块801 包括用于将数据输出信号413解复用为传输音频信号511和空间元数据 513的元件。在一些示例中，数据输出信号413也可被解码。使用的解码器类型可以取决于在传输模块中使用的编码的类型。

传输音频信号511和空间元数据513被提供作为对空间合成模块803 的输入。空间合成模块803可以包括可被配置为合成传输音频信号511和空间元数据513以提供双耳输出信号415的任何元件。应当理解，在本公开的其他示例中，可以提供其他类型的空间音频信号作为输出。

可以使用任何合适的方法来合成传输音频信号511和空间元数据513，以提供双耳输出信号415。例如，在一些示例中，可以将频带信号乘以三个不同的因子以获得三个不同的频带信号。可以将频带信号乘以因子

以获得具有与第一方向相对应的能量的信号。可以将频带信号乘以因子/>

以获得具有与第二方向相对应的能量的信号。可以将频带信号乘以因子/>

以获得具有与环境能量相对应的能量的信号。环境能量可以是与第一方向或第二方向都不对应的剩余能量。

可以使用头部相关传递函数(HRTF)来获得方向信号，其中渲染设备403包括耳机。可以在本公开的其他示例中使用用于获得方向信号的其他方法。例如，在渲染设备403包括扬声器的情况下，可以通过使用振幅平移或任何其他合适的手段来获得方向信号。

在一些示例中，也可以处理环境能量。对环境能量执行的处理可以取决于正在使用的渲染设备403的类型。例如，在渲染设备403包括耳机的情况下，表示环境能量的信号可以在频带上被去相关并且被调整，以便提供双耳扩散场相干性。在渲染设备403包括一个或多个扬声器的情况下，环境能量可被去相关并且在空间上分配给可用扬声器。

图9示出了可以由空间合成模块803执行的空间合成的另一示例方法。

在框901处，接收输入音频信号。输入音频信号可以包括空间元数据，该空间元数据包括关于多个不同方向的信息。

在框903处，将输入音频信号变换到时频域。在图9的示例方法中，通过使用STFT将音频信号变换到时频域。在本公开的其他示例中可以使用用于执行变换的其他元件。在框905处，这提供了时频域输入信号。

在框907处，对时频域输入信号进行自适应处理。在一些示例中，可以使用混合矩阵来自适应地处理时频域输入信号。在一些示例中，也可以通过使用去相关来自适应地处理时频域输入信号。除混合矩阵之外，还可以使用去相关。在框909处，这提供了时频域输出信号。

在框911处，可通过使用逆STFT或任何其他合适的过程在框913处将时频域输出信号变换回时域，以提供空间化音频输出。

为了使混合矩阵能够用于时频域输入信号的自适应处理，该方法还可以包括使得能够形成(formulate)混合矩阵的块。在图9的示例中，在框921处，从音频输入估计输入协方差矩阵。在框923处，这提供了指示输入信号的总能量的输出，并且在框931处，还提供了指示输入协方差矩阵的输出。

在框925处，指示输入信号的总能量和空间元数据927的输出被用于确定目标协方差矩阵。在框933处，提供包括目标协方差矩阵的输出。

在框929处，使用目标协方差矩阵和实际协方差矩阵来形成混合矩阵。混合矩阵可以是最佳混合矩阵。如上所述，形成的混合矩阵在框935处被作为输出提供，并且可以在框907处被如上使用。

用于确定目标协方差矩阵的方法可以取决于正用于渲染空间音频的渲染设备403的类型。例如，在渲染设备包括一个或多个扬声器的情况下，与渲染设备包括耳机的情况相比，可以使用不同的方法。

例如，在渲染设备403包括扬声器的情况下，可以基于输入协方差矩阵来估计目标协方差矩阵的总能量E。总能量可以是输入协方差矩阵的对角元素之和。应当理解，可以针对不同的时间索引n和频带k确定能量E。然而，为了清楚起见，在以下描述中，在不必要时省略了时间和频率索引 n和k。

一旦确定了总能量E，就在互不相关的部分中确定目标协方差矩阵C_T。互不相关的部分包括方向性部分C_D和环境或非方向性部分C_A。目标协方差矩阵C_T因此可以由下式给出

C_T＝C_D+C_A

环境或非方向性部分C_A可以确定为

其中I是单位矩阵，M是输出声道的数量。环境或非方向性部分C_A是对角线，其提供扬声器声道之间的非相关性。

方向性部分C_D可被确定为

其中v_VBAP(θ)是标示用于扬声器设置的振幅平移增益和来自空间元数据的方向信息的列向量。列向量v_VBAP(θ)可以具有两个非零值，其中两个扬声器用于振幅平移。在扬声器具有三维布局的情况下，列向量v_VBAP(θ) 可以具有三个非零值。

因此，目标协方差矩阵C_T可以如下给出

在渲染设备403包括耳机的示例中，可以提供双耳输出。为了提供双耳输出，可以使用类似的方法来确定目标协方差矩阵C_T。然而，可以使用作为频带k和方向θ的函数的HRTF数据v_HRTF(k，θ)来代替振幅平移数据以渲染直接部分。同样，在要提供双耳输出的情况下，在渲染环境部分时，使用双耳相干性而不是声道间相干性。

在提供双耳输出的情况下，则可以将环境或非方向性部分C_A确定为

其中c_bin(k)是对于第k个频率索引的频率的双耳扩散场相干性。c_bin (k)的值对于高频可以为零或接近于零，而对于低频可以具有较高的值。

同样，在要提供双耳输出的情况下，方向部分C_D可被确定为

因此，双耳输出的目标协方差矩阵C_T由下式给出：

在空间输出包括球形谐波输出(例如全景声(Ambisonics)输出)的情况下，用于确定目标协方差矩阵C_T的方法可以类似于用于扬声器示例的方法。但是，在空间输出包括全景声的情况下，可以使用全景声平移增益代替振幅平移增益。同样，环境或非方向性部分C_A中的能量分布矩阵

可被不同能量分布矩阵代替。该不同能量分布矩阵可以是具有对应于全景声归一化方案的系数的对角矩阵。例如，对于一阶全景声输出的SN3D 归一化方案，矩阵对角线值为/>

对于二阶输出，对角线值将是相同的，但会附加/>

的五个值，从而得出大小为9x9的矩阵。

在一些示例中，该方法还包括确定原型矩阵。该原型矩阵基于输入信号定义用于渲染的参考输出信号。可以参考原型矩阵来形成最小二乘优化混合解决方案。在渲染设备403包括扬声器的情况下，原型矩阵可被配置为使得相对于音频输入的左声道优化用于左手侧扬声器的信号，以及类似地相对于音频输入的右声道优化用于右手侧扬声器的信号。可以相对于左手侧和右手侧的总和来优化中央声道。在渲染设备403包括耳机的情况下，原型矩阵可被配置为使得用于左耳输出信号的参考声道是左音频输入信号，并且类似地，用于右耳输出信号的参考声道是右音频输入信号。原型矩阵可以使用任何合适的过程来确定。

图10A和10B是所估计方向和针对第一方向的能量比的曲线图。图 10A是以度为单位的所估计的第一角度相对于以秒为单位的时间的曲线图，而图10B是对于相同时间段的所估计的能量比的曲线图。剩余能量也显示在图10B的曲线图上。

图11A和11B是所估计方向和针对第一方向和第二方向的能量比的曲线图。图11A是以度为单位的所估计的第一角度和所估计的第二角度相对于以秒为单位的时间的曲线图，图11B是对于相同时间段的所估计的能量比的曲线图。图11B的曲线图示出了针对第一方向的和针对第二方向的能量比。剩余能量也显示在图11B的曲线上。

绘制在图10A至11B中的结果是从其中在无声环境中模拟两个噪声源的模拟场景中获得的。在+30度处模拟第一声源，在-30度处模拟第二声源。第一声源比第二声源大1dB。由模拟的声源提供的声音场景是通过模拟的麦克风阵列205捕获的。麦克风阵列205包括两个彼此间隔14cm的麦克风。

图10A和10B示出了仅估计第一方向时获得的结果。在这些结果中，估计的方向主要指向更大声的声源，但是在某些情况下，估计的方向也指向次要的、较安静的声源。这可以导致在渲染的音频信号中可以感知的伪像。

同样如图10B所示，能量比与环境能量相比较低。有大量的能量被确定为在剩余能量中，剩余能量被再现为环境能量。由于再现环境能量所需的去相关性，这可以导致消声(anechoic)的声音场景被转换成更混响 (reverberant)的声音场景。

图11A和图11B示出其中第一方向和第二方向都被估计的结果。在这种情况下，对于每个时间帧，第一方向或第二方向指向声源。因此，当再现音频信号时，提供了稳定的音频对象，并且没有由波动引起的伪像。

同样如图11B所示，由于大多数能量可归因于第一方向或第二方向，因此环境能量的能量比要低得多。这导致较少的声音被再现为环境声音，因此可以保留模拟的环境的消声音响效果(anechoic acoustics)。因此，这提供了改善的音频质量。

图12示出了可以在本公开的示例中使用的示例电子设备201。在图12 的示例中，电子设备201包括麦克风阵列205、分析处理器405、合成处理器407、压缩模块1201和存储元件1203。分析处理器405、合成处理器407、压缩模块1201和存储元件1203可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内，以使得能够捕获空间音频。例如，第一麦克风可以位于电子设备201的第一端，第二麦克风可以位于电子设备201的不同端。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图12的示例中，音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。

分析处理器405被配置为处理音频信号411以提供传输音频信号511 和空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息，并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。

电子设备201被配置为使得传输音频信号511和空间元数据513被提供给合成处理器407。合成处理器407被配置为处理传输音频信号511和空间元数据513以提供双耳输出信号415。在本公开的其他示例中可以提供各种类型的空间输出信号。

可以将双耳输出信号415提供给压缩模块1201。压缩模块1201可以包括可被配置为减小用于存储的双耳输出信号415的大小的任何元件。在图12的示例中，压缩模块1201包括高级音频编码(AAC)压缩模块。压缩模块1201提供压缩的双耳输出信号1211作为输出。

压缩的双耳输出信号1211被提供给存储元件1203。存储元件1203可以包括存储器电路107或任何其他合适的元件。压缩的双耳输出信号1211 可以与空间元数据513一起存储，使得可以利用压缩的双耳输出信号1211 来检索空间元数据。

压缩的双耳输出信号1211可以从存储元件1203中取出来，以使得能够为用户渲染空间音频。在用户使用耳机作为渲染设备的情况下，可以通过直接再现存储的压缩双耳输出信号1211来渲染空间音频。如果用户使用不同类型的渲染设备，则其他类型的空间音频输出(例如多声道)可以通过使用存储的空间元数据513处理压缩的双耳输出信号1211来获得。

图13示出了可以在本公开的示例中使用的另一示例电子设备201。在图13的示例中，电子设备201包括麦克风阵列205、分析处理器405、编码器模块1301和发射机1305。分析处理器405和编码器模块1301可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图13的示例中，音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。

电子设备201被配置为使得传输音频信号511和空间元数据513被提供给编码器模块1301。编码器模块1301可以包括可被配置为将传输音频信号511和空间元数据513处理为适合传输的格式的任何元件。在图13 的示例中，编码器模块1301包括被配置为接收音频信号和相关联的空间元数据作为输入的编码器。编码器被配置为将传输音频信号511和空间元数据513编码并复用到比特流1303。编码器提供比特流513作为输出。在本公开的示例中可以使用任何合适类型的编码器模块1301。

比特流1303被提供给发射机1305，以使比特流1303能够被发送给另一设备。另一个设备可以是渲染设备。在这样的示例中，解码器可被渲染设备用来解码比特流1303。在其他示例中，比特流1303可被发送给诸如远程服务器的存储设备。远程服务器可被配置为使得渲染设备能够从远程服务器访问比特流1303。应当理解，在本公开的其他示例中，比特流1303 可被存储在电子设备201中，而不是被发送给另一设备。

图14示出了可以在本公开的示例中使用的另一示例电子设备201。在图14的示例中，电子设备201包括麦克风阵列205、分析处理器405和合成处理器407。可以通过控制电路103或任何其他合适的元件来提供分析处理器405和合成处理器407。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图14的示例中，音频信号411被提供给分析处理器405以及合成处理器407。

分析处理器405被配置为处理音频信号411以提供空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息，并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。

合成处理器407被配置为处理空间元数据513和音频信号411以提供空间音频信号1401。在一些示例中，可以在将音频信号411提供给合成处理器407之前对其进行处理。在一些示例中，音频信号411的全部可被提供给合成处理器407。在其他示例中，仅音频信号411的子集需要被提供给合成处理器407。

合成处理器407被配置为处理传输音频信号511和空间元数据513以提供空间输出信号1401。空间输出信号1401可以是双耳输出信号、扬声器输出信号、全景声信号或任何其他合适类型的信号。

空间输出信号1401可以由诸如耳机或扬声器之类的任何合适的渲染设备来再现。在一些示例中，空间输出信号1401可被存储在电子设备201 中或被发送给另一设备。

在上述示例中，电子设备201包括移动电话。应当理解，在本公开的其他示例中可以使用其他类型的电子设备201。例如，电子设备201可以是成像设备。成像设备可被布置为捕获用于虚拟现实应用程序的图像和音频。这可以需要获取空间音频和多个图像。

在一些示例中，合成处理器407可被配置为代替双耳处理或除双耳处理之外还执行音频聚焦。音频聚焦可以包括波束成形或任何其他合适类型的音频聚焦。音频聚焦可以包括基于第一方向和第二方向的估计在频带上应用进一步的增益修改。这可以使得能够当声音的到达方向与聚焦方向不同时对声音信号进行衰减。在一些示例中，合成处理器407还可被配置为对环境声音进行衰减以相对于环境声音强调直接声音。

本公开的示例提供了改进的空间音频。在存在两个或更多个突出音频源的情况下，本公开的示例可以提供改进的空间音频。音频源可以在干燥的声学环境中，但是本公开的示例也可以在其他类型的环境中使用。本公开的示例可以减少空间音频中的伪像。伪像可以是由不同的突出音频源之间的波动引起的。然而，在本公开的示例中，可以标识每个突出的音频源，并且因此可能将消除波动。

该示例方法还减少可以由去相关引起的伪像，因为一些环境能量被再现为第二方向的一部分。因此，这减少了去相关的剩余能量，并因此减少了这可以引起的任何伪像。

在本公开的一些示例中，可能无法确定第二方向。在这样的示例中，可以仅使用第一方向来实现本公开。即使不能确定第二方向，这仍然使得能够提供足够质量的音频信号。

可以使用任何类型的麦克风阵列来实现本公开的示例。不需要将麦克风205配置为特定的空间布置。这使得本公开能够在诸如移动电话之类的电子设备201中实现，其中麦克风205的位置可以受到用户接口和/或电子设备201的其他硬件组件的限制。

在本说明书中描述的示例中，术语“耦合”是指在操作上耦合。在包括零个组件的耦合组件之间可以提供任何数量的组件。

在本文档中，术语“包括”以包括性而非排他性含义使用。也就是说，对包括Y的X的任何引用都表示X可以仅包括一个Y或可以包括一个以上的Y。如果要使用具有排他性含义的“包括”，则在上下文中通过提及“仅包括一个......”或使用“由......组成”使之更清楚。

在该简要描述中，已经参考了各种示例。关于示例的特征或功能的描述指示那些特征或功能存在于该示例中。不管是否明确指出，在本文中使用术语“示例”或“例如”或“可以”表示这种特征或功能至少在所描述的示例中存在，并且它们可以但不一定存在于某些或所有其他示例中。因此，“示例”、“例如”或“可以”是指一类示例中的特定实例。实例的属性可以是仅该实例的属性，也可以是该类的属性，或者是该类的子类的属性，该子类包括该类中的一些但不是全部实例。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下用于该另一示例，但是不必必须在该另一示例中使用。

尽管在前面的段落中已经参考各种示例描述了本发明的实施例，但是应当理解，可以在不脱离所要求保护的本发明范围的情况下对给出的示例进行修改。

可以以非明确描述的组合之外的组合来使用在先前描述中描述的特征。

尽管已经参考某些特征描述了功能，但是无论是否描述，那些功能都可以由其他特征来执行。

尽管已经参考某些实施例描述了特征，但是无论是否描述，那些特征也可以存在于其他实施例中。

尽管尽力在前述说明书中引起对被认为特别重要的本发明的那些特征的注意，但是应该理解，本申请人要求保护在此之前参考和/或在附图中示出(无论是否已特别强调)的任何可获专利的特征或特征的组合。

Claims

1.一种用于音频信号处理的装置，包括：

处理电路；以及

包括计算机程序代码的存储器电路，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置：

获得至少第一音频信号和第二音频信号，其中所述第一音频信号和所述第二音频信号是利用包括至少两个麦克风的麦克风阵列捕获的；

针对至少所述第一音频信号和第二音频信号的第一多个频带，标识至少第一方向；以及

针对至少所述第一音频信号和第二音频信号的第二多个频带，标识至少第二方向；

其中，所述第一方向和所述第二方向是使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识的，其中所述第二方向是使用与所述至少第一方向有关的信息来标识的。

2.根据权利要求1所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置标识第一能量参数并标识第二能量参数，其中使用与所述第一能量参数有关的信息来调整所述第二能量参数。

3.根据权利要求2所述的装置，其中，所述第一能量参数或所述第二能量参数中的至少一个包括能量比率。

4.根据权利要求2所述的装置，其中，针对所述第一多个频带中的各个频带确定所述第一方向和所述第一能量参数，以及其中，针对所述第二多个频带中的各个频带确定所述第二方向和所述第二能量参数。

5.根据权利要求2所述的装置，其中，与所述第一方向和/或第一能量参数相比，使用不同的频带来标识所述第二方向和/或第二能量参数。

6.根据权利要求2所述的装置，其中，与用于标识所述第一方向和/或第一能量参数的频带相比，使用更宽的频带来标识所述第二方向和/或第二能量参数。

7.根据权利要求1所述的装置，其中，所述第一方向对应于第一声音的第一到达方向，并且所述第二方向对应于第二声音的第二到达方向。

8.根据权利要求1所述的装置，其中，所述第一音频信号和所述第二音频信号被同时捕获。

9.根据权利要求1所述的装置，其中，从同时捕获的音频信号中标识出所述第一方向和所述第二方向，其中所述第二多个频带至少部分地不同于所述第一多个频带，其中所述第一多个频带和所述第二多个频带至少部分地重叠。

10.根据权利要求2所述的装置，其中，所述第一方向和/或所述第一能量参数使用在至少所述第一音频信号和所述第二音频信号之间的第一延迟处的相干性分析来标识，其中，所述第二方向和/或所述第二能量参数使用在至少所述第一音频信号和所述第二音频信号之间的第二延迟处使用的相干性分析来标识，其中所述第二延迟与所述第一延迟不同。

11.根据权利要求10所述的装置，其中，所述相干性分析包括标识具有在所述第一音频信号和所述第二音频信号之间的最高相干性水平的时间延迟。

12.根据权利要求10所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置定义围绕所述第一方向的角度范围，并且从所述相干性分析中省略来自该角度范围的方向以标识所述第二方向。

13.根据权利要求10所述的装置，其中，所述相干性分析包括估计对于所述第一方向的能量比以及估计对于所述第二方向的能量比。

14.根据权利要求1所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置获得至少第三音频信号，其中利用所述麦克风阵列捕获所述第三音频信号，其中所述麦克风阵列包括至少三个麦克风，其中所述第一音频信号是利用所述麦克风阵列中的第一麦克风捕获的，其中所述第二音频信号是利用所述麦克风阵列中的不同的第二麦克风捕获的，其中所述第三音频信号是利用所述麦克风阵列中的不同的第三麦克风捕获的。

15.根据权利要求1所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置向一个或多个合成器提供至少所述第一音频信号、所述第二音频信号和元数据，以使所述第一音频信号和所述第二音频信号以及所述元数据能够用于合成空间音频信号，其中所述元数据包括指示所述第一方向和所述第二方向的信息和/或指示与所述第一方向关联的第一能量比和与所述第二方向关联的第二能量比的信息。

16.一种用于音频信号处理的方法，包括：

针对至少所述第一音频信号和第二音频信号的第二多个频带，标识至少对应的第二方向；

其中，所述第一方向和所述第二方向是使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识的，并且其中所述第二方向是使用与有所述第一方向关的信息来标识的。

17.根据权利要求16所述的方法，包括标识第一能量参数和标识第二能量参数，其中使用与所述第一能量参数有关的信息来调整所述第二能量参数。

18.根据权利要求17所述的方法，其中，所述第一能量参数或所述第二能量参数中的至少一个包括能量比率。

19.根据权利要求17所述的方法，其中，与所述第一方向和/或所述第一能量参数相比，使用不同的频带来标识所述第二方向和/或所述第二能量参数。

20.根据权利要求19所述的方法，其中，与用于标识所述第一方向和/或第一能量参数的频带相比，使用更宽的频带来标识所述第二方向和/或第二能量参数。