CN117501364A

CN117501364A - 用于训练机器学习模型的装置、方法和计算机程序

Info

Publication number: CN117501364A
Application number: CN202280042849.8A
Authority: CN
Inventors: J·T·维尔卡莫; M·J·洪卡拉
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-06-17
Filing date: 2022-05-24
Publication date: 2024-02-02
Also published as: WO2022263712A1; EP4356377A1; GB202108641D0; GB2607933A

Abstract

根据本公开的示例，提供了一种装置，其包括用于训练诸如神经网络之类的机器学习模型以估计用于空间声音分布(303)的空间元数据的部件(321)。该装置包括用于获得用于机器学习模型的第一捕获数据(307)的部件(305)，其中，第一捕获数据(307)与多个空间声音分布(303)有关，并且其中，第一捕获数据(307)与被配置为获得至少两个麦克风信号的目标设备有关。该装置还包括用于获得用于该机器学习模型的第二捕获数据(315)的部件(313)，其中，第二捕获数据(315)是使用相同的多个空间声音分布(303)而获得的，并且其中，第二捕获数据(315)包括指示该多个空间声音分布(303)的空间特性的信息，并且第二捕获数据(315)是使用参考捕获方法(313)而获得的。该装置还包括用于该训练机器学习模型，以基于第一捕获数据(307)，估计第二捕获数据(315)的部件(321)。

Description

用于训练机器学习模型的装置、方法和计算机程序

技术领域

本公开的示例涉及用于训练机器学习模型的装置、方法和计算机程序。一些示例涉及用于训练在捕获空间音频中使用的机器学习模型的装置、方法和计算机程序。

背景技术

空间音频使能为用户再现声音场景的空间特性，从而用户可以感知该空间特性。为了使能再现空间特性，需要获得声音场景的空间参数并以可用于实现空间音频渲染的格式提供这些空间参数。

发明内容

根据本公开的各种但并非所有示例，提供了一种装置，其包括用于执行以下操作的部件：

获得用于机器学习模型的第一捕获数据，其中，第一捕获数据与多个空间声音分布有关，并且其中，第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关；

获得用于该机器学习模型的第二捕获数据，其中，第二捕获数据是使用相同的多个空间声音分布而获得的，并且其中，第二捕获数据包括指示该多个空间声音分布的空间特性的信息，并且第二捕获数据是使用参考捕获方法而获得的；以及

训练该机器学习模型，以基于第一捕获数据，估计第二捕获数据。

机器学习模型可以被训练以用于处理由目标设备获得的麦克风信号。

机器学习模型可以包括神经网络。

空间声音分布可以包括声音场景，该声音场景包括多个声音位置和用于多个声音位置的对应的音频信号。

用于获得第一捕获数据和第二捕获数据的空间声音分布可以包括虚拟声音分布。

空间声音分布可以由两个或更多个扬声器产生。

空间声音分布可以包括声音场景的参数化表示。

在多个频带中获得指示多个空间声音分布的空间特性的信息。

获得第一捕获数据可以包括：

获得与目标设备的麦克风阵列有关的信息；以及

使用与该麦克风阵列有关的信息，处理多个空间声音分布以获得第一捕获数据。

上述部件可以用于将第一捕获数据处理成适合于用作机器学习模型的输入的格式。

获得第二捕获数据可以包括使用一个或多个空间声音分布和参考麦克风阵列来确定用于一个或多个声音场景的参考空间元数据。

机器学习模型可以被训练以提供空间元数据作为输出。

空间元数据可以包括针对一个或多个频率子带，指示以下项的信息：

声音方向，以及

声音定向性。

目标设备可以包括移动电话。

根据本公开的各种但并非所有示例，提供了一种装置，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少执行：

根据本公开的各种但并非所有示例，提供了一种方法，其包括：

根据本公开的各种但并非所有示例，提供了一种计算机程序，其包括计算机程序指令，这些计算机程序指令在由处理电路执行时使得：

附图说明

现在将参考附图描述一些示例，其中：

图1示出示例装置；

图2示出示例方法；

图3示出示例方法；

图4示出示例机器学习模型；

图5示出示例机器学习模型架构的各部分；以及

图6示出在本公开的示例中使用的数据。

具体实施方式

本公开的示例涉及训练诸如神经网络之类的机器学习模型以估计用于空间声音分布的空间元数据。进而，可以将经训练的机器学习模型提供给目标设备以使能确定空间元数据，并因此，即使在目标设备具有数量和/或质量有限的麦克风和/或麦克风在目标设备上的定位不利于空间音频捕获的情况下，也可以从目标设备提供高质量的空间音频。

图1示出了可用于实现本公开的示例的示例装置101。在图1的示例中，装置101包括至少一个处理器103和至少一个存储器105。应当理解，装置101可以包括图1中未示出的附加组件。

在图1的示例中，装置101包括处理装置。装置101可以被配置为训练在目标设备中使用的机器学习模型。可以训练机器学习模型以提供用于由与目标设备相关联的麦克风阵列所捕获的音频信号的空间元数据。

机器学习模型可以包括神经网络或任何其他合适的模型。在一些示例中，机器学习模型可以使用可训练的计算机程序来实现。可训练的计算机程序可以包括可以被训练以执行一项或多项任务而无需被明确编程为执行这些任务的任何程序。

在图1的示例中，装置101的实现可以是被实现为处理电路。在一些示例中，装置101可以仅以硬件实现，具有软件中的某些方面(仅包括固件)，或者可以是硬件和软件(包括固件)的组合。

如图1中所示，装置101可以使用使能/实现硬件功能的指令来实现，例如通过使用通用或专用处理器103中的计算机程序107的可执行指令，其可以被存储在计算机可读存储介质(磁盘、存储器等)上以由这种处理器103来执行。

处理器103被配置为从存储器105读取和向存储器105写入。处理器103还可以包括输出接口和输入接口，处理器103经由输出接口输出数据和/或命令，并且经由输入接口向处理器103输入数据和/或命令。

处理器103可以包括图形处理单元(GPU)或多个GPU或适合于训练诸如神经网络之类的机器学习模型或任何其他合适类型的机器学习模型的任何其他处理器103。

存储器105被配置为存储计算机程序107，计算机程序107包括计算机程序指令(计算机程序代码111)，其在被加载到处理器103中时控制装置101的操作。计算机程序107的计算机程序指令提供使装置101能够执行图2和3中所示的方法的逻辑和例程。处理器103通过读取存储器105能够加载并执行计算机程序107。

存储器105还被配置为存储机器学习模型结构109。在一些示例中，机器学习模型可以是一种类型的可训练计算机程序。在其他示例中可以使用其他程序。机器学习模型可以是神经网络或任何其他合适类型的机器学习模型。机器学习模型结构109可以包括与机器学习模型的类型有关的信息和机器学习模型的参数，诸如模型内的层数、层内的节点数、网络层的组织和/或任何其他合适的参数。

因此，装置101包括：至少一个处理器103；以及包括计算机程序代码111的至少一个存储器105，至少一个存储器105和计算机程序代码111被配置为与至少一个处理器103一起使装置101至少执行：

如图1中所示，计算机程序107可以经由任何合适的递送机制117到达装置101。递送机制117例如可以是机器可读介质、计算机可读介质、非暂时性计算机可读介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字通用光盘(DVD)或固态存储器之类的记录介质、包括或有形地体现计算机程序107的制品。该递送机制可以是被配置为可靠地传送计算机程序107的信号。装置101可以将计算机程序107传播或发送为计算机数据信号。在一些示例中，可以使用无线协议(诸如蓝牙、蓝牙低功耗、智能蓝牙、6LoWPan(基于低功率个域网的IPv6)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN)、或任何其他合适的协议)将计算机程序107发送到装置101。

计算机程序107包括用于使装置107至少执行以下操作的计算机程序指令：

计算机程序指令可以被包括在计算机程序107、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但并非所有示例中，计算机程序指令可以被分布在多于一个计算机程序107上。

尽管存储器105被示出为单个组件/电路，但它可以被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成的/可移除的和/或可以提供永久/半永久/动态/缓存存储。

尽管处理器103被示出为单个组件/电路，但它可以被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成的/可移除的。处理器103可以是单核或多核处理器。

对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的提及应被理解为不仅涵盖具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构之类的不同架构的计算机，而且还涵盖诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路之类的专用电路。对计算机程序、指令、代码等的提及应被理解为涵盖用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中所使用的，术语“电路”可以是指以下中的一个或多个或全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)硬件电路和软件的组合，诸如(如果适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合；以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器之类的装置执行各种功能)；以及

(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)来操作，但操作不需要软件时可能不存在软件。

“电路”的这一定义适用于在本申请中该术语的全部使用，包括在任何权利要求中的使用。作为另一个示例，如在本申请中使用的，术语“电路”还覆盖仅硬件电路或处理器及其伴随的软件和/或固件的实现。术语“电路”还覆盖(例如且如果适用于具体要求的元件)用于移动设备的基带集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

图2和3中所示的框可以表示方法中的步骤和/或计算机程序107中的代码段。对框的特定顺序的图示并非意味着存在针对这些框的所需或优选顺序，而是可以改变框的顺序和布置。此外，可以省略一些框。

在本公开的示例中，装置101可以被配置为接收麦克风阵列信息113。麦克风阵列信息113包括与目标设备的麦克风阵列有关的信息。麦克风阵列信息113可以包括与麦克风数量、麦克风的相对位置、阵列内的麦克风的类型、麦克风的空间响应(诸如脉冲响应、或传递函数、或引导向量)有关的信息、和/或任何其他合适的信息。

装置101被配置为使用麦克风阵列信息和机器学习模型结构109，训练用于与麦克风阵列相关联的目标设备的机器学习模型。图2和3示出了训练机器学习模型的示例方法。因此，装置101被配置为提供经训练的机器学习模型115作为输出。

经训练的机器学习模型115可以被提供给一个或多个目标设备以用于捕获和渲染空间音频。在一些示例中，可以将经训练的机器学习模型115提供给存储设备。存储设备可以位于可由一个或多个目标设备访问的位置中。

在图1的示例中，装置101被示出为单个实体。应当理解，在其他示例中，装置101可以被提供为可分布在云或其他合适的网络内的多个不同的实体。

图2示出了训练机器学习模型的示例方法。该方法可以使用如图1中所示的装置101或者通过任何其他合适的手段/部件来实现。图2中所示的方法使能训练机器学习模型以用于处理由目标设备获得的麦克风信号。图2的方法可以由与目标设备分离的装置来执行。进而，可以将经训练的机器学习模型提供给目标设备和/或可以将其存储在目标设备可以访问的位置中。在一些示例中，机器学习模型可以被提供给诸如云之类的另一设备或设备网络，目标设备可以向其提供基于目标设备的麦克风信号的信息。

该方法包括在框201处，获得用于机器学习模型的第一捕获数据。

在本说明中使用了术语“空间声音分布”。空间声音分布包括采用任何格式的定义声音如何在空间中分布的信息，诸如多个信号或参数集合。非详尽示例列表包括：多扬声器信号、全景环绕声(Ambisonic)多通道信号、空间协方差矩阵(诸如扬声器域或Ambisonic域)、以及声音场景的参数化表示。参数化表示例如可以是确定在不同频率下与不同方向相关联的不相关或相关(声音)能量的量。空间协方差矩阵例如可以是众多频率中的Ambisonic信号的协方差矩阵。换句话说，空间声音分布可以定义实际音频信号(以任何格式，例如，时域、频域、编码的)，或者它们可以以其他方式定义声音能量如何在空间中分布，并进而将不包含可被转换为可听形式的任何实际信号波形。这些空间声音分布的目的是确定当麦克风布置/装置在捕获空间声音时可能发生的各种声音场景或各种声音场景的特性。

第一捕获数据与多个空间声音分布有关。第一捕获数据可以表示针对给定的空间声音分布，目标设备的麦克风阵列将捕获什么。

空间声音分布可以包括定义在不同方向上的声音的多通道信号。多通道信号可以以任何合适的格式来提供。

空间声音分布可以包括声音场景。每个声音场景可以包括多个声音位置和用于该多个声音位置的对应的音频信号。空间声音分布可以包括声音场景的参数化表示。在一些示例中，空间声音分布可以包括被配置为产生复合声音场景的随机声源(位置、水平和/或频谱)和环境声(空间分布、水平和/或频谱)。

在一些示例中，空间声音分布可以包括虚拟声音分布。可以使用任何合适的手段来生成虚拟声音分布。

在一些示例中，空间声音分布可以包括真实声音分布。真实的声音分布可以由两个或更多个扬声器产生。

第一捕获数据还与目标设备有关。第一捕获数据对应于目标设备将捕获空间声音分布的方式。

目标设备可以是用于捕获空间音频的任何设备。例如，目标设备可以是诸如移动电话之类的用户设备或其他音频捕获设备。目标设备与麦克风阵列相关联。麦克风阵列被配置为获得至少两个麦克风信号。在一些示例中，可以在目标设备内提供麦克风阵列，例如，可以在诸如移动电话之类的用户设备内提供两个或更多个麦克风。

麦克风阵列可以包括可被配置为使能/实现捕获空间声音分布的任何麦克风布置。麦克风阵列可以包括一个或多个麦克风，这些麦克风被定位为远离该阵列内的其他麦克风和/或被提供在针对该阵列内的其他麦克风的另一个设备中。在本公开的示例中，目标设备的麦克风阵列可能是次优的。例如，可存在关于可由目标设备的麦克风阵列获得的空间信息的质量的限制。这可能是由于麦克风的定位、麦克风的数量、阵列内的麦克风的类型、目标设备的形状、来自目标设备内的其他组件的干扰、和/或任何其他相关因素而导致的。

因此，第一捕获数据可以表示针对给定的空间声音分布，目标设备的麦克风阵列将捕获的内容/事物。

在框203处，该方法包括获得用于机器学习模型的第二捕获数据。

使用与用于获得第一捕获数据相同的多个空间声音分布来获得第二捕获数据。第二捕获数据可以使用参考捕获方法来获得。例如，参考捕获方法可以使用理想化或基本上理想化的麦克风阵列。理想化的麦克风阵列可以是比与目标设备相关联的麦克风阵列更高质量的麦克风，或者具有任意高的空间精度的麦克风阵列或空间捕获的模拟。在一些示例中，参考捕获方法可以在不假定任何特定麦克风阵列的情况下起作用，并且反而可以直接基于空间声音分布来确定第二捕获数据。例如，在空间声音分布包括定向信息(在Y方向上的声音X，诸如此类)的情况下，参考捕获数据可以基于该信息来确定定向参数，而无需假定任何特定的理想或实际麦克风布置。在另一个示例中，如果空间声音分布采用Ambisonic空间协方差矩阵的形式，则参考捕获方法可以使用适合于Ambisonic输入信号的已知参数估计手段来导出第二捕获数据。

第二捕获数据包括指示使用参考捕获方法捕获的多个空间声音分布的空间特性的信息。该信息可以包括比利用目标设备的麦克风阵列获得的更准确的空间信息和/或更详细的空间信息或任何其他空间信息。

可以在多个频带中获得指示多个空间声音分布的空间特性的信息。指示多个空间声音分布的空间特性的信息可以包括针对一个或多个子带，指示声音方向和声音定向性的信息。声音定向性可以是声音有多定向或非定向的指示。声音定向性可以提供声音是环境声音还是从点源提供的指示。声音定向性可以被提供为来自不同方向的声音的能量比率，或者其中方向指示声音方向并且长度指示定向性的向量，或者采用任何其他合适的格式。

因此，第二捕获数据可以表示可由针对给定的空间声音分布的理想或基本上理想(真实或虚拟)的麦克风阵列，或者通过任何其他合适的参考捕获方法捕获的空间元数据。这可以称为参考空间元数据。

在框303处，该方法包括训练机器学习模型，以基于第一捕获数据，估计第二捕获数据。可以训练机器学习模型以基于表示由次优麦克风阵列捕获的空间声音场景的第一捕获数据来估计参考空间元数据。估计的准确度可以取决于麦克风阵列的特性。

机器学习模型可以包括使处理器103能够基于包括第一捕获数据的输入来提供空间元数据输出的任何结构。机器学习模型可以包括神经网络或任何其他合适类型的可训练模型。术语“机器学习模型”是指任何种类的人工智能(AI)、可使用数据进行训练或调整的智能或其他方法。机器学习模型可以包括计算机程序。机器学习模型可以被训练以执行任务(诸如估计空间元数据)而无需被明确编程以执行该任务。机器学习模型可以被配置为，如果其在T中的任务的性能(如由P所度量的)随着经验E而提高，则从相对于某类任务T和性能测量/度量P的经验E进行学习。在这些示例中，机器学习模型通常可以从参考数据319中学习以对未来的数据做出估计。机器学习模型还可以是可训练的计算机程序。可以在其他示例中使用其他类型的机器学习模型。

还可以训练一个具有特定架构的机器学习模型，然后使用诸如编译、修剪、量化、或提炼之类的过程从中导出另一个机器学习模型。术语“机器学习模型”还涵盖了所有这些用例及其输出。机器学习模型可以使用任何合适的装置来执行，例如，CPU、GPU、ASIC、FPGA、存储器中计算、模拟或数字或光学装置。还可以在组合来自任何数量的这些特征的特征(例如，数字-光学或模拟-数字混合)的装置中执行机器学习模型。在一些示例中，这些系统中的权重和所需计算可以被编程为对应于机器学习模型。在一些示例中，该装置可以被设计和制造以便执行由机器学习模型定义的任务，以使得该装置被配置为执行该任务而当该装置在被制造时该装置本身不可编程。

由经训练的机器学习模型提供的空间元数据可以被用于渲染或以其他方式处理空间音频信号。

由机器学习模型输出的空间元数据可以以任何合适的格式被提供。在一些示例中，机器学习模型的输出可以在它被用于渲染空间音频信号之前被处理成不同的格式。例如，机器学习模型的输出可以是一个或多个向量，并且这些向量进而可以被转换成可与用于渲染的空间音频信号相关联的格式或以其他方式处理音频信号。例如，向量可以被转换成不同频率子带的方向参数和定向性参数。

图3示出了根据本公开的示例的示例方法。该方法可以使用如图1中所示的装置101或者通过任何其他合适的手段/部件来实现。

在框301处，该方法包括确定空间声音分布。空间声音分布可以包括虚拟声音分布、真实声音分布、或真实和虚拟声音分布的混合。

应当理解，可以以不同的方式来定义空间声音分布。定义空间声音分布的不同方式可以包括一组信号如何在不同方向上分布，或者声音能量(没有定义实际的信号序列)如何在不同方向上分布。空间声音分布可以以各种格式来定义，诸如方向特定的格式(诸如在方向Y上的声音X)或采用其他空间格式(诸如球面谐波格式)或任何其他合适的格式。

在一些示例中，空间声音分布可以包括声音场景，并且每个声音场景可以包括多个声音位置和用于多个声音位置的对应的音频信号。

作为另一个示例，空间声音分布可以包括声音场景的参数化表示。例如，空间声音分布可以定义在不同频率和不同方向的不相干或相干声音能量的量。

在空间声音分布包括虚拟声音分布的示例中，可以使用合适的虚拟声音场景。在一些示例中，虚拟声音场景可以包括利用一组虚拟扬声器再现的经处理的粉红噪声序列的2048个样本突发。该组虚拟扬声器可以是在水平面上以规则间隔隔开的36或更多个虚拟扬声器。虚拟扬声器进行的再现可以被实现如下：

首先，测量来自在不同方向上的实际扬声器对具有麦克风的目标设备的响应。

其次，对应于不同方向的音频信号序列与对应的响应进行卷积，并且结果被相加在一起以形成虚拟捕获的麦克风音频信号。

在一些示例中，目标设备定向响应可以通过模拟而不是测量来获得。

可以使用任何合适的过程来生成单个虚拟声音场景。示例过程包括：

-随机化一个或多个同时存在的声源方向

-针对这些方向中的每个方向，随机化在-90到90度之间的方向值

-针对这些方向中的每个方向，随机化直接对总能量比率(direct-to-totalenergy ratio)值，以使得它们的总和不超过一

-制定环境对总比率(ambience-to-total ratio)值，其是(1–(直接对总比率的总和))

-针对每个直接源：

生成2048个样本粉红噪声序列，利用平方根汉宁窗(square-root Hanningwindow)对它进行加窗(windowing)，并利用FFT将它变换为1025个唯一频率仓(uniquefrequency bins)

在-6到6dB的范围内随机改变频带中的频谱，并将幅度乘以其直接对总比率的平方根

将经处理的粉红噪声序列与最靠近声源的方向的虚拟扬声器相关联。可替代地，如果虚拟扬声器间隔不密集，则可以利用最靠近的虚拟扬声器对其进行幅度平移

-对于环境部分：

针对每个虚拟扬声器，生成2048个样本粉红噪声序列，利用平方根汉宁窗对它们进行加窗，并利用FFT将它们变换为1025个唯一频率仓

在-6到6dB的范围内随机改变频带中的频谱，并将其幅度乘以(环境对总比率/虚拟扬声器数量)的平方根

1025仓频域表示是一个示例。在其他示例中可以使用其他分辨率和频率仓数量。

直接和环境声音的频谱的变化+-6dB被用于使虚拟声音场景不那么理想。这有助于防止机器学习模型错误地学习以预期源的某些频谱。在一些示例中，这有助于防止机器学习模型错误地假定过于理想的环境分布，或者防止其做出在自然声音场景中无法保证的其他类似假设。

在一些示例中，可以确定大量的空间声音分布。所确定的空间声音分布303的数量可以足以使能训练机器学习模型。在一些示例中，可以确定大约100000个空间声音分布303。在一些示例中，可以确定多于100000个空间声音分布303。

一旦已确定空间声音分布，则提供空间声音分布303作为输入以生成用于机器学习模型的第一捕获数据和第二捕获数据两者。

在框305处，获得第一捕获数据307。第一捕获数据307表示针对给定的空间声音分布303，目标设备将捕获的内容/事物。

在图3的示例中，空间声音分布303可以包括一个或多个虚拟空间声音分布303。在这种示例中，麦克风阵列信息113被获得并被用于获得第一捕获数据307。麦克风阵列信息113包括与目标设备的麦克风阵列有关的信息。麦克风阵列信息113可以包括与以下项有关的信息：麦克风数量、麦克风的相对位置、阵列内的麦克风的类型、麦克风阵列的脉冲响应、麦克风阵列的传递函数或引导向量、所记录的对定向声音的麦克风阵列响应、声音记录、所模拟的麦克风阵列响应或记录、和/或任何其他合适的信息。

在该示例中，麦克风阵列信息113可以包括针对与目标设备相关的一组方向的一组脉冲响应。与目标设备相关的这组方向可以与被用于生成虚拟空间声音分布303的声音场景的那组虚拟扬声器方向相同，因为这种响应被用于进行虚拟扬声器捕获。

进而，这组脉冲响应可以被转换为与虚拟空间声音分布303相同的频率仓分辨率。在该示例中，这组脉冲响应被转换为1025仓频率分辨率。将这些脉冲响应转换为1025频率仓分辨率的过程可以包括：

1)将这些脉冲响应截断为2048个样本的长度，

2)对这些脉冲响应尾部进行平滑开窗(windowing out)以避免突然偏移，

3)对这组脉冲响应进行循环旋转，以使得它们的平均组延迟接近于零，以及

4)使用FFT来将结果转换为1025个唯一频率仓。

该结果被称为麦克风阵列传递函数H(b,c,i)，其中，b是频率仓，c是虚拟扬声器通道，i是阵列麦克风索引。

第一捕获数据307可以通过使用麦克风阵列信息113来处理空间声音分布303来获得。第一捕获数据307可以包括表示麦克风信号的信号，就好像空间声音分布303是由目标设备的麦克风阵列所捕获的一样。第一捕获数据307可以以任何合适的格式来提供。

可以使用任何合适的过程将空间声音分布303转换成第一捕获数据307。在一些示例中，可以使用麦克风阵列信息113以将空间声音分布303转换成虚拟记录。在一些示例中，这可以通过下式针对每一个空间声音分布303来完成：

其中，s(b,i)是虚拟记录信号，v(b,c)是虚拟扬声器信号，N_c是虚拟扬声器通道数量。虚拟记录信号s(b,i)提供第一捕获数据307。

在框309处，确定用于机器学习模型的输入数据311。确定输入数据311可以包括将第一捕获数据307处理成适合于用作机器学习模型的输入的格式。例如，如果尚未在频域中，则捕获数据307可以从时域被变换到频域，然后被检查麦克风阵列内的不同麦克风在不同频率下的相关性，以提供用于机器学习模型的输入数据311。在一些示例中，如果第一捕获数据307已经采用合适的形式，则可以省略框309。

在第一捕获数据307包括虚拟记录信号s(b，i)的该示例中，确定输入数据的过程包括：接收第一捕获数据307，并将虚拟记录信号s(b，i)转换成适合用于机器学习模型的输入的格式。合.适的格式可以由机器学习模型的结构或由任何其他合适的因素来确定。

在一些示例中，虚拟记录信号s(b，i)可以被转换成数据阵列/数组。在该示例中，数据阵列的大小可以为64x48x3。数据格式可以被标示为m(d，l，c)，其中，d＝1，...，64是延迟索引，l＝1，...，48是频率索引，c＝1，2，3是通道索引。在本公开的其他示例中，数据阵列可以使用其他大小。

输入数据的第一通道m(d，l，1)可以被配置为包含基于虚拟记录信号s(b，i)的归一化麦克风间互相关数据。

可以使用以下过程或任何其他合适的过程来制定归一化麦克风间互相关数据。该过程可以独立地被用于每一个空间声音分布。

虚拟记录信号s(b，i)具有1025个唯一频率仓，其中，b＝1，...，1025是仓索引，i是通道索引。i可以具有的值由麦克风阵列内的麦克风数量来确定。在该示例中，麦克风阵列包括两个麦克风i＝1，2。

进而，包括归一化麦克风间互相关数据的第一通道为：

其中，Real{}表示仅保留实部的运算，b_low(l)和b_high(l)是频率索引l的仓限制，freq(b)是仓b的中心频率，dly(d)是对应于延迟索引d的延迟值，j是虚数单位。可以确定这组延迟值dly(d)，以使得它们在给定麦克风阵列内的麦克风的间距的情况下跨越合理的范围。例如，如果目标设备是在横向使用中的移动电话，则延迟可以在-0.7到0.7毫秒的范围内规律间隔。

在该示例中，仓限制b_low(l)和b_high(l)近似巴克(Bark)频带频率分辨率，从而两个连续的频率索引一起形成一个Bark频带。因此，这些频带的数量l是48。

输入数据的第二通道m(d，l，2)包括延迟参考值，因此，

m(d，l，2)＝norm(dly(d))

其中，norm()是将通道平均值归一化为零并将标准偏差归一化为1的函数。

输入数据的第三通道m(d，l，3)包括频率参考值，因此，

其中，floor()函数四舍五入到前一整数值。因此，频率参考值将来自数据阵列m(d，l，c)中的48个频率索引l与24个Bark频带相关，这些频带是其中空间元数据被实际估计的频带。数据阵列m(d，l，c)提供输入数据311，输入数据311进而可以被提供以用于训练机器学习模型。

在框313处，空间声音分布303还被用于获得第二捕获数据315。第二捕获数据315包括空间声音分布303的空间特性的信息。

可以使用任何合适的过程来获得第二捕获数据315。用于获得第二捕获数据315的过程可以包括对于目标设备来说不可行的过程。在一些示例中，可以通过使用理想或基本上理想的参考虚拟麦克风阵列以处理空间声音分布303，或者通过任何其他合适的参考捕获方法来确定第二捕获数据315。与利用任何实际阵列(包括目标设备的麦克风阵列)的已知手段可实现的相比，理想(或参考)麦克风阵列在捕获空间声音分布303时可以具有非常少的误差或没有误差。在一些示例中，理想(或参考)虚拟麦克风阵列可以包括任何阶的理想的Ambisonic捕获。与利用目标设备的麦克风阵列的已知手段可实现的相比，这提供了空间声音分布303的改进捕获。

在其他示例中，不需要使用虚拟麦克风阵列(诸如使用理想化或参考阵列响应的模拟捕获)。例如，可以使用算法或其他过程以将空间声音分布303转换成第二捕获数据315。例如，如果空间声音分布将仅定义一个或两个突出源，则它们的已知方向可以直接提供第二捕获数据内的定向信息而无需使用虚拟麦克风阵列。类似地，方向参数可以被确定为对空间声音分布内的多个定向方向声音分量进行平均的向量。

因此，第二捕获数据315表示可以由针对给定的空间声音分布的理想或基本上理想的参考麦克风阵列，或者通过任何其他合适的参考捕获方法而捕获的空间元数据。参考麦克风阵列可以是真实或虚拟的麦克风阵列。这可以被称为参考空间元数据。空间元数据可以采用表示空间声音分布的空间特征的任何合适的形式。例如，空间元数据可以包括以下中的一项或多项：方向参数、直接对总比率参数、空间相干性参数(指示在周围方向上的相干声音)、扩展相干性参数(指示在空间弧或区域的相干声音)、方向向量值、以及表示空间声音分布的空间特性的任何其他合适的参数。

可以被用于从空间声音分布获得参考空间元数据的示例过程可以如下。在该示例中，空间元数据参数可以包括声音方向和定向性(指示声音有多定向或非定向/环境的参数)。这可以是声音到达方向和直接对总比率参数。可以在频带中提供空间元数据的参数。在本公开的其他示例中可以使用其他的参数。

声音到达方向和直接对总比参数可以通过利用假定的理想(或无偏置)一阶Ambisonic麦克风阵列对空间声音分布303进行的理想化(或参考)捕获来确定。这种捕获由下式获得：

其中，x_f(b，i)是虚拟捕获的Ambisonic信号，i＝1，...，4是Ambisonic通道(分量)，a(c，i)是虚拟扬声器的方向c和Ambisonic通道(分量)i的Ambisonic编码系数。

与在诸如移动电话或其他手机类型设备之类的典型目标设备内提供的麦克风阵列相比，Ambisonic麦克风阵列捕获是高度理想化的。与使用典型目标设备内可用的麦克风阵列的已知手段相比，Ambisonic麦克风阵列可以在更宽的频率范围内并更准确地从空间声音分布获得空间信息。

Ambisonic麦克风阵列提供参考捕获布置，以用于确定机器学习模型正被训练以估计的目标空间信息。在本公开的其他示例中可以使用其他捕获布置。

在该示例中，使用了定向音频编码(DirAC)捕获方法的公式。已知这种捕获方法能够基于一阶信号产生方向和直接对总能量比率参数，这些参数在感知上很好地表示了所捕获的声音场景。应当理解，即使空间声音分布303包括来自多个同时方向的声音，空间声音分布303仍然可以在最实际的空间声音情况下由频带中的单个平均方向和直接对总能量比率足够准确地表示。在其他示例中，可以定义给定频带内的多个同时到达方向，并且可以相应地确定对应的比率参数。具有多个同时方向估计可以在空间声音渲染的一些特定情况(诸如两个讲话者在干燥声学环境中在不同方向上同时讲话)中提供感知益处。

如上面所提及的，虚拟捕获的一阶Ambisonic信号被标示为x_f(b，i)，其中，b＝1，..，1025是频率仓索引，i＝1，..，4是典型的W、Y、Z、X通道排序中的通道索引。进而，通过首先由下式确定能量的强度来确定频带k的方向参数：

其中，b_low(k)和b_high(k)是频带k的仓限制，从而频带k＝1，...，24近似Bark频率分辨率。进而，所估计的方向和比率值为：

azi_ref(k)＝atan2(I_y(k)，|I_x(k)|)

其中，在我们的示例中，x轴绝对值导致方位角值仅位于正面-90...90度，并且

值azi_ref(k)和ratio_ref(k)形成包括参考空间元数据的第二捕获数据315。在该示例中，对正面-90...90度且仅对水平面的限制涉及指定的用例示例，其中，假定目标设备是在横向上在边缘处具有两个麦克风的移动电话。对于这种设备，确定仰角或者区分前后方向是不可行的。因此，仅针对水平面形成理想(参考)空间元数据，并因此后方向被镜像到前侧。因此，机器学习模型将学习以类似的方式将任何后方声音镜像到前方。如果目标设备包括三个或更多个麦克风，则这使能区分前后方向。在这种示例中，空间元数据还可以包括后方向。类似地，如果目标设备的麦克风阵列也支持仰角分析，则理想(参考)元数据的方向参数也可以包括仰角。

在框317处，确定用于机器学习模型的参考数据319。通过处理第二捕获数据315来确定参考数据319。第二捕获数据315的处理可以包括将第二捕获数据315转换成适合于用作用于机器学习模型的参考数据的格式的任何处理。在一些示例中，可以处理第二捕获数据315，以使得参考数据319不包括或基本上不包括不连续性。在一些示例中，当第二捕获数据315已经采用作为用于机器学习模型的参考数据的合适形式时，则不需要框317。

在本公开的示例中，确定用于机器学习模型的参考数据319的过程可以包括接收第二捕获数据315，第二捕获数据315包括用于每一个空间声音分布303的参考空间元数据。

参考数据319的合适形式将由机器学习模型的结构来确定。在该示例中，机器学习模型的输出可以被配置为包括数据阵列，该数据阵列包括24x2个数据点。机器学习模型可以以这种方式构建，以使得输出包括24个频带和用于每个频带的两个参数。

在一些示例中，方向值和能量比率值可以被用作参考数据319内用于每个频带的两个参数。在其他示例中，可以以转换后的形式来使用方向值和能量比率值。使用转换后的形式可以使输出参数相互协调。

在一些示例中，使用方向值和能量比率值的转换后的形式的参考数据319可以由下式给出：

ref(k，1)＝cos(azi_ref(k))f(ratio_ref(k))

ref(k，2)＝sin(azi_ref(k))f(ratio_ref(k))

其中，

其中，ref(k，p)是参考数据319，k＝1，..，24，p＝1，2，azi_ref(k)是方位角方向，ratio_ref(k)是能量比率。

在这种示例中，参考数据包括指向方位角方向的向量，其中，向量长度是能量比率参数的函数。在该示例中，能量比率参数没有被直接用作向量长度。使用函数f()的目的是可以将大比率(诸如0.9)映射到更小的值。这意味着在机器学习模型的训练期间，所估计的能量比率的特定差异导致在高比率范围比在低比率范围更大的误差。这种配置可以是有益的，因为已知当被用于空间音频渲染时，人类听觉在高比率范围更多地感知能量比率参数的误差。

对应于f()的反函数为：

该函数可以在推断期间使用，以将所估计的比率相关参数重新映射到实际的能量比率估计。在上述标记法中，能量比率和方位角值仅取决于频率。应当理解，在该示例的实现中，这些值通常也随时间变化。

上面的示例仅涉及前方位角方向。在一些示例中，麦克风阵列可以支持其他方向。在这种示例中，机器学习模型可以被配置为还包括后角和/或仰角。在这种情况下，参考数据319将具有与先前示例中所提供的不同的维度/尺寸。例如，参考数据319可以具有24x3的维度。在这种示例中，输入数据311也将是允许使用仰角的格式(在24x2格式中已经支持后方向)。例如，输入数据311可以包括具有维度64x48x4或64x48x5的数据阵列，其中，前两层或前三层将包含来自具有多于两个麦克风的目标设备的不同对的麦克风间相关数据，并且最后两层将具有如前文所述的延迟和频率映射/图。

在框321处，输入数据311和参考数据319被用于训练机器学习模型。可以使用任何合适的过程来训练机器学习模型。机器学习模型被训练以使用输入数据311来对参考数据319进行估计或近似。机器学习模型被训练以提供参考数据319或基本上提供参考数据319作为输出。

如果参考数据319由采用转换后的形式(诸如向量)的参考空间元数据组成，则在一些示例中，这些向量可以被转换回定义参考空间元数据的形式，或者被转换成任何其他形式。例如，向量方向提供方向参数，并且利用函数f^-1()处理的向量长度提供比率参数。然而，可以在目标设备处应用经训练的网络时使用这种转换，而在机器学习模型训练阶段中可能不需要这种转换。

在本公开的示例中，针对N_s个空间声音分布303中的每个空间声音分布的输入数据311和参考数据319被用于训练机器学习模型。在本公开的示例中，输入数据311包括大小为64x48x3的N_s个输入数据阵列，其包括第一通道处的延迟-相关数据以及其他两个通道处的延迟和频率映射。参考数据319包括大小为24x2的N_s个参考值，其包括表示每个频带的方向和能量比率的向量。

用于机器学习模型的训练过程可以是Adam优化器，其具有初始学习率0.001和均方误差损失函数。在本公开的其他示例中，可以使用其他过程和/或优化器，诸如任何其他随机梯度下降(SGD)变体。

一旦已完成机器学习模型的训练，则提供经训练的机器学习模型115作为输出。在一些示例中，输出可以包括用于经训练的机器学习模型的参数，其可以被提供给目标设备和/或以其他方式由目标设备访问。这些参数可以包括权重、乘数、以及用于经训练的机器学习模型的任何其他合适的参数。在其他示例中，经训练的机器学习模型被转换为可被编译以在目标设备上使用的程序代码操作序列，或者将经训练的机器学习模型部署到要使用的目标设备的任何其他手段。

应当理解，在本公开的示例中可以使用图3中所示的方法的变体。例如，在一些示例中，空间声音分布303可以包括真实声音分布。在这种示例中，空间声音分布可以由多个扬声器回放，并由与目标设备相关联的麦克风阵列捕获。在这种示例中，不需要使用麦克风阵列信息113来获得第一捕获数据307，因为可以代替地使用所捕获的麦克风信号。

机器学习模型的训练可以由目标设备的制造商或者由目标设备的服务提供商或者由任何其他实体来执行。进而，可以将经训练的机器学习模型115提供给目标设备，或者可以将其存储在目标设备可访问的位置中。进而，当目标设备正在用于捕获空间音频时，经训练的机器学习模型可以被用于估计空间元数据。在一些示例中，由机器学习模型作为输出所提供的数据可以被处理以提供空间元数据，例如，网络输出数据可以作为输出被提供，然后可以将其转换为空间元数据。即使当使用次优麦克风阵列来捕获空间音频时，使用经训练的机器学习模型也可以使能提供准确的空间音频。

在目标设备外部训练机器学习模型提供若干优势。例如，它使能向多个目标设备提供相同的经训练的机器学习模型。例如，目标设备的制造商可以在目标设备的所有给定模型中安装经训练的机器学习模型。它还允许使用大量的计算能力来训练机器学习模型。这种级别的计算能力在目标设备中可能不可用。

在本公开的示例中，图2和3的方法可以使用单个装置101或者通过使用多个装置101来实现。在使用多个装置101的情况下，多个装置101可以被分布在云或者其他合适的网络内。在一些示例中，不同的装置101可以执行方法的不同部分。例如，该装置101可以被配置为确定输入数据311和参考数据319，并且不同的第二装置101可以被用于训练机器学习模型。

图4示出了可以在本公开的示例中使用的示例机器学习模型结构109。在该示例中，机器学习模型是神经网络。在本公开的其他示例中可以使用其他类型的机器学习模型。

机器学习模型结构109可以被存储在装置101的存储器105中并被用于训练机器学习模型。在一些示例中，机器学习模型结构109还可以被存储在目标设备的存储器中，以便使机器学习模型能够在目标设备内被使用。

在图4的示例中，机器学习模型是包括多个层的残差卷积神经网络，如图4中所示。示例机器学习模型结构109包括输入层401、输入2D卷积层403、多个残差神经网络(resnet)层405、输出2D卷积层407、以及回归输出层409。在图4的示例中，机器学习模型结构109包括八个resnet层405。在本公开的其他示例中可以使用其他数量的resnet层405。

输入层401被配置为将数据阵列输入到神经网络中。该数据阵列可以包括以包括第一轴上的延迟值、另一个轴上的频率值以及多个通道的阵列配置的数据集合。在一些示例中，数据阵列可以被配置为包括64个延迟值、48个频率值以及3个通道。这使64x 48x 3大小的数据阵列能够被输入到神经网络中。

在图4的示例中，这三个通道中的第一通道可以被定义为包括在一组延迟和频率范围的实值麦克风间相关值。该第一通道是这三个通道中仅包括信号相关的数据的通道。第二通道包括64个延迟的延迟值，第三通道包括48个频率的频率值。延迟和频率值允许神经网络的后续卷积滤波器学习以(至少部分地)变成位置特定的。下面进一步提供这种输入数据阵列的更多细节和生成。

输入2D卷积层403被配置为将输入数据阵列的通道扩展成更适合于神经网络的后续层的格式。在图4的示例中，输入2D卷积层403包括64个1x 1x 3滤波器(没有非线性)。这可以将输入数据阵列的通道扩展成64x 48x 64阵列。

在图4的示例中，神经网络包括八个resnet层405。图5更详细地示出了示例resnet层405的结构。在神经网络内的每一个resnet层405可以具有相同或基本上相同的结构。

最后一个resnet层405被耦合到输出2D卷积层407。输出2D卷积层407被配置为将输出数据转换成合适的格式。在一些示例中，输出2D卷积层407可以被配置为提供采用24x2形式或1x 24x 2形式或任何其他合适形式的输出数据。

输出2D卷积层407的输出被提供给回归输出层409。回归输出层409可以被配置为执行数据相对于参考数据的均方误差公式或任何其他合适的误差公式。该公式可以在神经网络的训练期间执行。

图5示出了示例resnet层405的结构。这可以在诸如图4中所示的神经网络之类的神经网络内被使用。在本公开的其他示例中可以使用resnet层405的其他配置。

resnet层405包括层序列。该层序列包括批量归一化层501、调整线性单元(ReLu)层503以及2D卷积层505。在图4的示例中，提供了两个这种层序列，其中，每个序列包括批量归一化层501、调整线性单元(ReLu)层503以及2D卷积层505。这两个层序列以级联配置被提供，因此第一层序列的输出被提供为第二层序列的输入。

应当理解，在本公开的示例中可以使用这些层的变体。例如，在一些示例中，批量归一化层501可以用族群统计来代替，或者可以被折叠到先前的操作或被折叠到随后的操作。

ReLu层503可以包括调整线性单元，或者可以由被配置为向神经网络提供非线性的任何部件来代替。在神经网络包括大量ReLu层503和卷积层505的情况下，这些可以组合以形成神经网络正被训练以估计的函数的近似。

在图5的示例中，resnet层405还包括卷积层旁路507。这可以是可选特征并且不需要在层405的所有示例中提供。在卷积层505具有步距长度一的示例中，层旁路507可以只是旁路而没有任何卷积。在卷积层505具有大于一的步距长度的示例中，在旁路层中提供卷积，以便提供求和层509内的数据的维度的匹配。如果卷积层505与其输入通道计数相比具有不同的输出通道计数，则也可以使用卷积旁路，以便匹配输入和输出通道计数。旁路可以不使用任何非线性，诸如ReLU。

示例resnet层405还包括求和层509。求和层509可以被配置为对来自层序列和来自卷积层旁路507的输出求和。注意，可以使用组合信息的其他手段，诸如按通道级联操作。

可以在图4和5的示例神经网络内使用任何合适的超参数。超参数可以包括在训练神经网络之前设置的神经网络参数。在下表中提供了可以在示例神经网络中使用的超参数的示例。在该示例中，超参数包括用于每个resnet层405中的每个卷积层505的内核大小、步距长度以及滤波器数量。

在本公开的其他示例中可以使用其他超参数。

层	内核大小	步距	滤波器数量
				输入2D卷积	1x1	(1,1)	64
ResNet1,conv1	3x3	(1,1)	64
				ResNet1,conv2	3x3	(1,1)	64
ResNet2,conv1	3x3	(1,1)	64
				ResNet2,conv2	3x3	(2,1)	64
ResNet3,conv1	3x3	(1,1)	64
				ResNet3,conv2	3x3	(1,1)	64
ResNet4,conv1	3x3	(1,1)	64
				ResNet4,conv2	3x3	(2,2)	64
ResNet5,conv1	3x3	(1,1)	64
				ResNet5,conv2	3x3	(2,1)	64
ResNet6,conv1	3x3	(1,1)	64
				ResNet6,conv2	3x3	(1,1)	64
ResNet7,conv1	3x3	(1,1)	64
				ResNet7,conv2	3x3	(2,1)	64
ResNet8,conv1	3x3	(1,1)	64
				ResNet8,conv2	3x3	(2,1)	64
输入2D卷积	2x1	(2,1)	2

图6示出了可以在本公开的示例中使用的数据601的可视化。数据601可以是在第一通道内包括的数据，其包括归一化麦克风间互相关数据m(d,l,1)。在垂直轴上提供延迟索引，在水平轴上提供频率索引。

该数据601可以从包括在与延迟对应的角度的一个突出声源的空间声音分布303获得。空间声音分布303还包括影响在某些频率处的最大相关数据的一些干扰声音或环境。

在上述示例中，机器学习模型可以被训练以在目标设备中使用，其中，目标设备包括在目标设备的边缘或靠近边缘处的两个麦克风。例如，移动电话可以包括靠近该设备的第一边缘定位的第一麦克风和靠近该设备的相对边缘定位的第二麦克风。对于这种目标设备，可以基于在不同延迟的相关值来确定音频信号的方位角值。然而，在这种目标设备中，可能无法区分来自目标设备的前方的声音与来自目标设备的后方的声音。例如，来自目标设备的右侧80度的声音生成与在目标设备的右侧100度的声音类似的麦克风间特性。类似地，在相同的混淆锥(cone-of-confusion)处的仰角会导致类似的可测量麦克风间特性。

为了解决这个问题，在其中机器学习模型被训练以在包括两个麦克风的目标设备中使用的本公开的示例中，机器学习模型可以被训练以仅检测-90到90度的弧内的声音方向。在后方向上或在仰角处的任何声源可以被映射到混淆锥内的对应方向。

将方向限定在-90到90度之间将限制空间音频捕获。然而，这些限制仍然可以提供足够的质量。例如，如果空间音频将被用于不支持收听者头部旋转的双耳音频捕获，那么混淆锥内的空间误差通常将不会被感知为分散注意力，或者甚至不会被注意到(如果参考不可用于比较)。

此外，在许多情况下，所有感兴趣声源都将会位于音频捕获设备的同一侧。例如，如果音频捕获设备被用于电话会议或者被用于捕获视频图像和对应的音频，则感兴趣源通常仅仅或大部分在设备的相机侧。此外，在典型的音频环境中，大多数感兴趣音频源靠近水平面，并因此并不总是需要支持仰角。

在一些示例中，目标设备的麦克风阵列可以包括多于两个麦克风。这可以使麦克风阵列能够获得附加的空间信息。

例如，目标设备可以包括移动电话，该移动电话包括靠近该设备的第一边缘定位的第一麦克风、靠近该设备的相对边缘定位的第二麦克风、以及靠近主相机定位的第三麦克风。对于这种目标设备，可以制定多个延迟-相关映射/图。例如，可以确定所有麦克风对之间的相关映射/图，并且进而用于机器学习模型的输入数据m(d,l,c)将会包括多于三个层。在这种情况下，机器学习模型可以在水平面中在全360度(而不是仅在-90到90度之间)进行训练，因为现在具有用于确定声音是从目标设备的前方还是后方到达的信息。

在其他示例中，左右麦克风对可以被用于确定在-90到90度之间的角度值。如果声音更有可能从设备的前方或后方到达，则前后麦克风对(例如，最靠近相机的麦克风和最靠近的边缘麦克风)可以被用于确定频带中的二元选择。进而，如果需要，则可以将在-90到90度之间确定的方位角值镜像到后方，从而使能确定360度中的方位角。前后确定可以由第二经训练的机器学习模型来提供，或者由不使用机器学习的其他手段来提供。

在其他示例中，目标设备可以包括多于三个麦克风，并且其中一些麦克风可以在垂直不同的位置中被提供。在这种示例中，可以存在多个麦克风间相关映射/图，并且机器学习模型的训练还可以包括仰角。

除了相关性、延迟索引和频率索引之外，输入数据311还可以包括与其他参数有关的信息，诸如麦克风能量或任何其他合适的信息。与麦克风能量有关的信息可以在目标设备的麦克风阵列包括定向麦克风的示例中使用。这也可以被用在目标设备导致阴影并因此提供指示声音方向的信息的情况下。阴影可能会影响频带的子集。例如，阴影可能仅影响更高频率。

在上述示例中，第一捕获数据307被转换成包括在不同延迟和频率下的归一化麦克风间相关值的数据阵列。这被提供为用于机器学习模型的输入数据311。应当理解，在本公开的其他示例中可以使用其他格式的输入数据311。例如，在一些示例中，归一化复值相关向量可以被制定/被公式化为用作输入数据311。归一化复值相关向量可以包括与归一化麦克风间相关值相同的信息，但其不是采用可以直接可视的形式。在这种示例中，机器学习模型可以被设计为基于归一化复值相关向量来估计空间元数据。应当理解，机器学习模型的输出可以采用不同的格式，并且可以被处理以提供空间元数据。例如，机器学习模型可以提供网络输出数据作为输出，并且可以将其转换成空间元数据。

在其他示例中，输入数据311可以包括频域中的麦克风信号。在这种示例中，将相应地设计机器学习模型。

还应当理解，本公开的其他示例可以使用与本文描述的示例不同的机器学习模型。例如，在本公开的其他示例中，机器学习模型的维度、机器学习模型内的层数、所使用的层类型、以及其他参数可以不同。此外，在本公开的其他示例中，输入数据311和输出数据的维度可以不同。例如，音频编码器可以仅使用五个频带以用于空间参数，而不是24个Bark频带，并因此机器学习网络可以被设计为仅提供在五个频带处的空间元数据。

在上述示例中，经训练的机器学习模型被配置为提供空间元数据作为输出，或者提供可以被转换成空间元数据的数据(诸如网络输出数据)。在上述示例中，空间元数据包括频带中的方向参数和能量比率参数。其他格式可以被用于机器学习模型的输出和/或空间元数据。

因此，本公开的示例提供了可以被用于空间音频捕获的经训练的机器学习模型。机器学习模型的训练可以为任何合适的目标设备提供空间元数据的鲁棒确定。在机器学习模型的设计和训练中可以考虑目标设备的声学特征。这还可以允许针对新的目标设备的优化或基本上优化的空间音频捕获适配，而无需专家调整。

在本文档中使用的术语“包括”具有包容而非排他性的含义。也就是说，任何表述“X包括Y”表示X可以仅包括一个Y或者可以包括多于一个Y。如果意图使用具有排他性含义的“包括”，则将在上下文中通过提及“仅包括一个……”或者使用“由……组成”来明确。

已经在本说明中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此，“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分，但并非必须用于其他示例。

尽管已经在前面的段落中参考各种示例描述了示例，但应当理解，可以在不背离权利要求的范围的情况下对给出的示例进行修改。

在前面的说明中所描述的特征可以在除了上面明确描述的组合以外的组合中使用。

尽管已经参考某些特征描述了功能，但这些功能可以由其他特征来执行，无论是否被描述。

尽管已经参考某些示例描述了特征，但这些特征也可以存在于其他示例中，无论是否被描述。

在本文中使用的术语“一/一个”或“该”具有包容而非排他性的意义。也就是说，任何提到“X包括一/一个/该Y”指示“X可以仅包括一个Y”或者“X可以包括多于一个Y”，除非上下文清楚地指出并非如此。如果意图使用具有排他性意义的“一/一个”或“该”，则将在上下文中明确说明。在某些情况下，可使用“至少一个”或“一个或多个”来强调包容性的意义，但缺少这些术语不应被视为意指任何非排他性的意义。

权利要求中特征(或特征的组合)的存在是对该特征(或特征的组合)本身的引用，并且也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征例如包括是变体并以基本相同的方式实现基本相同的结果的特征。等效特征例如包括以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在本说明中已经参考了使用形容词或形容词短语的各种示例来描述示例的特性。这种关于示例对特性的描述表示该特性在一些示例中完全如所描述地存在，而在其他示例中基本上如所描述地存在。

尽管在前面的说明中试图指出那些被认为是重要的特征，但应当理解，申请人可以经由权利要求来寻求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已强调。

Claims

1.一种装置，包括用于执行以下操作的部件：

获得用于机器学习模型的第一捕获数据，其中，所述第一捕获数据与多个空间声音分布有关，并且其中，所述第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关；

获得用于所述机器学习模型的第二捕获数据，其中，所述第二捕获数据是使用相同的所述多个空间声音分布而获得的，并且其中，所述第二捕获数据包括指示所述多个空间声音分布的空间特性的信息，并且所述第二捕获数据是使用参考捕获方法而获得的；以及

训练所述机器学习模型，以基于所述第一捕获数据，估计所述第二捕获数据。

2.根据权利要求1所述的装置，其中，训练所述机器学习模型以用于处理由所述目标设备获得的麦克风信号。

3.根据前述权利要求中任一项所述的装置，其中，所述机器学习模型包括神经网络。

4.根据前述权利要求中任一项所述的装置，其中，所述空间声音分布包括声音场景，所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

5.根据权利要求4所述的装置，其中，用于获得所述第一捕获数据和所述第二捕获数据的所述空间声音分布包括虚拟声音分布。

6.根据权利要求4所述的装置，其中，所述空间声音分布由两个或更多个扬声器产生。

7.根据权利要求1至5中任一项所述的装置，其中，所述空间声音分布包括声音场景的参数化表示。

8.根据前述权利要求中任一项所述的装置，其中，指示所述多个空间声音分布的空间特性的所述信息是在多个频带中获得的。

9.根据前述权利要求中任一项所述的装置，其中，获得所述第一捕获数据包括：

获得与所述目标设备的麦克风阵列有关的信息；以及

使用与所述麦克风阵列有关的所述信息，处理多个空间声音分布以获得第一捕获数据。

10.根据权利要求9所述的装置，其中，所述部件用于将所述第一捕获数据处理成适合于用作所述机器学习模型的输入的格式。

11.根据前述权利要求中任一项所述的装置，其中，获得所述第二捕获数据包括：使用所述一个或多个空间声音分布和参考麦克风阵列来确定用于所述一个或多个声音场景的参考空间元数据。

12.根据前述权利要求中任一项所述的装置，其中，训练所述机器学习模型以提供空间元数据作为输出。

13.根据权利要求12所述的装置，其中，所述空间元数据包括针对一个或多个频率子带，指示以下项的信息：

声音方向，以及

声音定向性。

14.根据前述权利要求中任一项所述的装置，其中，所述目标设备包括移动电话。

15.一种方法，包括：

16.根据权利要求15所述的方法，其中，所述空间声音分布包括声音场景，所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

17.一种计算机程序，包括计算机程序指令，所述计算机程序指令在由处理电路执行时使得：

18.根据权利要求17所述的计算机程序，其中，所述空间声音分布包括声音场景，所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

19.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

20.根据权利要求19所述的装置，其中，所述空间声音分布包括声音场景，所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。