CN117476029A

CN117476029A - 确定空间音频参数

Info

Publication number: CN117476029A
Application number: CN202310932309.3A
Authority: CN
Inventors: M·T·维莱尔莫; S·维萨; R·E·韦内宁; J·J·梅基宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2022-07-28
Filing date: 2023-07-27
Publication date: 2024-01-30
Also published as: GB202211013D0; US20240040317A1; EP4312214A1

Abstract

本公开的各示例提供了对噪声电平是鲁棒的确定空间音频参数的方法。在本公开的各示例中，两个或更多个音频信号被获取并处理以产生空间音频信号。确定音频信号中的噪声量。确定一个或多个空间音频参数，其中，用于确定所述一个或多个空间音频参数的过程取决于所确定的噪声量的值。

Description

确定空间音频参数

技术领域

本公开的各示例涉及确定空间音频参数。一些示例涉及在存在噪声的情况下确定空间音频参数。

背景技术

噪声(例如风噪声或其他类型的非相干噪声)在录音中可能是有问题的。这种噪声会影响可以确定空间音频参数的准确性。这可能导致较低质量的空间音频。

发明内容

根据本公开的各种但不一定是全部的示例，可以提供一种装置，该装置包括用于以下的模块：

获取两个或更多个音频信号并处理所述音频信号以产生空间音频信号；

确定所述音频信号中的噪声量；

确定一个或多个空间音频参数，其中，用于确定所述一个或多个空间音频参数的过程取决于所确定的噪声量的值。

用于确定所述一个或多个空间音频参数的过程可以取决于所确定的噪声量的值是高于还是低于阈值。

如果所确定的噪声量的值低于阈值，则所述模块可以用于估计一个或多个空间音频参数。

如果所确定的噪声量的值高于阈值，则所述模块可以用于使用所述一个或多个空间音频参数的预定值。

所述空间音频参数可以至少包括方向参数和扩散度参数。

如果所确定的噪声量的值低于下限阈值，则所述模块可以用于估计所述方向参数和所述扩散度参数。

如果所确定的噪声量的值高于下限阈值但低于上限阈值，则所述模块可以用于估计所述方向参数并使用扩散度参数的最近估计。

如果所确定的噪声量的值高于上限阈值，则所述模块可以用于使用预定的方向参数和扩散度参数的最近估计。

所述空间音频参数可以至少包括第一方向参数和第二方向参数。

如果所确定的噪声量的值低于下限阈值，则所述模块可以用于估计所述第一方向参数和所述第二方向参数。

如果所确定的噪声量的值高于下限阈值但低于上限阈值，则所述模块可以用于估计所述第一方向参数，并且使用与所述第一方向参数的预定角度差来确定所述第二方向参数。

如果所确定的噪声量的值高于上限阈值，则所述模块可以用于使用预定的第一方向参数和与所述第一方向参数的预定角度差来确定所述第二方向参数。

可以基于包括麦克风的设备的使用情况来确定预定的第一方向参数。

根据本公开的各种但不一定是全部的示例，可以提供一种包括如本文所述的装置的设备，其中，所述设备包括两个或更多个麦克风。

所述设备可以是以下设备中的一个：手持式电子设备、双耳式耳机、面罩。

根据本公开的各种但不一定是全部的示例，可以提供一种方法，所述方法包括：

确定所述音频信号中的噪声量；

根据本公开的各种但不一定是全部的示例，可以提供一种包括计算机程序指令的计算机程序，所述计算机程序指令在由处理电路执行时使得：

确定所述音频信号中的噪声量；

虽然分开描述了本公开的上述示例和可选特征，但是应当理解，在本公开中包含以所有可能的组合和排列提供它们。应当理解，本公开的各种示例可以包括关于本公开的其他示例描述的任何或全部特征，反之亦然。此外，应当理解，以任何组合的任何一个或多个或所有特征，可以根据需要和适当地由一种装置、方法和/或计算机程序指令来实现/包括在其中/可由其执行。

附图说明

现在将参考附图来描述一些示例，其中：

图1A至1C示出了各示例设备；

图2示出了一种示例方法；

图3示出了一种示例设备；

图4示出了一种示例设备；

图5示出了一种示例方法；以及

图6示出了一种示例装置。

附图不一定按比例绘制。为了清楚和简洁，图中的某些特征和视图可以被示意性地示出或按比例放大。例如，附图中某些元件的尺寸可以相对于其他元件被夸大，以帮助解释。在附图中使用对应的附图标记来表示对应的特征。为了清楚起见，并非所有附图中都必须显示所有附图标记。

具体实施方式

噪声(例如风噪声或其他类型的非相干噪声)在录音中可能是有问题的。噪声会使对捕获的音频信号执行某些类型的处理变得困难，例如，它会使确定空间音频参数变得困难。这可能导致较低质量的空间音频。本公开的各示例提供了对噪声电平是鲁棒的确定空间音频参数的方法。

影响空间参数的确定的噪声可以是非相干噪声。非相干噪声可以作为时间、频率范围和位置的函数而快速变化。这可能意味着，如果第一麦克风正在检测大量的非相干噪声，那么位于不同位置的不同麦克风可能检测不到太多的非相干噪声。正在检测最多噪声的麦克风可能会随着时间的推移而变化。由于非相干噪声对不同麦克风信号的影响不同，因此有可能如果一个麦克风信号包含高电平的这种噪声，则同一设备中的不同麦克风仍然具有低噪声电平。

非相干噪声电平可能是由风、由触摸一个麦克风而不是其他麦克风的东西(例如，口罩)引起的触摸噪声或任何其他合适类型的噪声引起的。

空间音频使得能够为用户再现声音场景的空间特性，从而使得用户可以感知所述空间特性。这可以为用户提供沉浸式音频体验，或者可以用于其他应用。

为了使空间音频能够被渲染，从而使得用户能够感知声音场景的空间特性，可以确定一个或多个空间参数。空间参数可以包括与声音场景的空间特性有关的信息，例如，它们可以包括指示声音的一个或多个到达方向的信息，指示声音场景的扩散度的信息，和/或任何其他合适的信息。

空间参数可以用于处理音频信号以提供空间音频信号。

图1A至1C示出了可以用于获取空间音频信号的示例设备101。在这些示例中，设备101包括多个麦克风103。多个麦克风103相对于彼此被放置，以便能够捕获可用于空间音频的音频信号。由麦克风103提供的音频信号包括关于由麦克风103捕获的声音场景的空间特性的信息。

在图1A的示例中，设备101是移动电话。该移动电话包括至少两个麦克风103和一个照相机105。在其他示例中，移动电话可以包括其他数量的麦克风103。

在图1A的示例中，麦克风103中的一个被设置在设备101的与照相机105相同的一侧上，并且麦克风103中的一个被设置在设备101的与照相机105相反的一侧上。这由图1A中的虚线指示。

使麦克风103位于设备101的不同侧可以导致由各个麦克风103检测到的信号的延迟。该延迟和/或任何其他合适的信息可以用于确定关于声音场景的空间信息。

在图1B的示例中，设备101是头戴式耳机。头戴式耳机还包括两个麦克风103。麦克风位于头戴式耳机上的不同位置。在该示例中，麦克风103中的一个位于吊杆107上，并且麦克风103中的一个位于头戴式耳机的杯状件109上。当用户111佩戴头戴式耳机时，吊杆107上的麦克风103位于靠近用户111的嘴的位置，但是杯状件109上的麦克风104位于靠近用户的耳朵的位置。

在图1C的示例中，设备101是另一组头戴式耳机。该示例中的头戴式耳机还包括两个麦克风103。在该示例中，两个麦克风103都位于头戴式耳机的杯状物109上，然而它们位于杯状物的不同部分上。麦克风103位于杯状件109上，从而使得当用户111佩戴头戴式耳机时，麦克风103中的一个比另一个麦克风更靠近用户的嘴。

在其他示例中可以使用其他类型的设备101。麦克风103可以位于其他位置。在一些示例中，设备101可以包括多于两个的麦克风103。

在本公开的示例中，设备101中的麦克风103中的任何一个或多个都可能受到非相干噪声的影响。非相干噪声可以是风噪声、触摸噪声或任何其他合适类型的噪声。在设备101包括麦克风103的示例中，麦克风103可以靠近用户的嘴定位，非相干噪声可以包括来自空气和/或来自用户111呼吸的风噪声。噪声电平可能使得难以根据由各个麦克风103捕获的音频信号精确地确定空间参数。这可能导致较差质量的空间音频。

图2示出了确定空间音频参数的示例方法。该方法可以使用任何合适的设备101或装置来实现。

在框201处，该方法包括获取两个或更多个音频信号。该两个或更多个音频信号可以由两个或更多个麦克风103捕获。音频信号可以以任何合适的格式获取。

已经捕获了两个或更多个音频信号的麦克风103可以是诸如图1A至1C中所示的设备101之类的设备101的一部分，或者可以是任何其他合适的设备101的一部分，该合适的设备包括相对于彼此定位以使得能够捕获空间音频的两个或更多个麦克风103。

在框203处，该方法包括确定音频信号中的噪声量。

在一些示例中，噪声包括非相干噪声。非相干噪声可以是风噪声、触摸噪声、由戴口罩的用户111引起的噪声、或者由任何其他现象或现象的组合引起的噪声。

可以使用任何合适的方法来确定噪声量。可以通过比较来自各个麦克风103的音频信号的信号电平来进行噪声量的确定。这些信号在被用于确定噪声量之前不会被调整。

在框205处，该方法包括确定一个或多个空间音频参数。用于确定一个或多个空间音频参数的过程取决于所确定的噪声量的值。如果噪声量具有第一值，则可以使用第一过程来确定一个或多个空间音频参数，并且如果噪声量具有第二值，则可以使用不同的第二过程来确定该一个或多个空间音频参数。

空间音频参数可以包括与已经由麦克风捕获的声音场景的空间特性有关的信息。在一些示例中，所述空间参数可以包括方向参数、扩散度参数和/或任何其他合适类型的参数。

方向参数可以提供由麦克风捕获的声场内的声源的方向的指示。在一些示例中，可以确定多个方向参数。这可以提供关于不同声音的方向的信息。

扩散度参数可以提供声音的局部化程度或非局部化程度的指示。在一些示例中，所述扩散度参数可以提供声音场景中的环境噪声电平的指示。在一些示例中，所述扩散度参数可以包括直接音频与环境音频的比率。在这种情况下，低扩散度参数可以指示声音主要是定向的并且不是很扩散，即存在低电平的环境噪声。相反，高扩散度参数可以指示声音主要是环境声音，并且不是很有方向性，即存在高电平的环境噪声。

在本公开的各示例中，用于确定一个或多个空间音频参数的过程取决于所确定的噪声量的值。不同的方法可以适用于不同的确定的噪声量。这可以考虑到，除非噪声量低，否则扩散度可能难以精确测量，并且如果噪声量高，则声源的方向也可能难以精确估计。

在一些示例中，用于确定所述一个或多个空间音频参数的过程可以取决于所确定的噪声量的值是高于还是低于阈值。在一些示例中，可以存在多个阈值。例如，可以有上限阈值和下限阈值。这可以使得能够考虑一系列不同的噪声量。

例如，如果噪声量的值被确定为低于下限阈值，则可以假设噪声量较低。在这种情况下，可以估计方向参数和扩散度参数，因为预计噪声对这些估计几乎没有影响。可以根据麦克风103捕获的音频信号来估计各个参数。在这种情况下，获取的方向参数和扩散度参数的估计将足够精确。

如果噪声量的值被确定为高于下限阈值但低于上限阈值，则可以假设噪声量是中等的。在这种情况下，仍然可以可靠地估计方向参数，因为可以预期中等噪声量对方向参数的估计几乎没有影响。然而，介质噪声量将不利地影响扩散度参数的估计的可靠性，因此可以使用获取扩散度参数的替代方法。在一些示例中，确定扩散度参数的替代方法可以是使用扩散度参数的最近估计。当噪声量的值低于下限阈值时，可以获取扩散度参数的最近估计。该最近估计可以被存储在存储器或其他存储装置中，并且当噪声量的值高于下限阈值时被检索以供使用。

如果噪声量的值被确定为高于上限阈值，则可以假设噪声量高。在这种情况下，可以假设噪声量将不利地影响方向参数和扩散度参数的估计的可靠性。在这种情况下，可以使用替代方法来获取方向参数和扩散度参数。例如，可以使用预定的方向参数，并且可以使用扩散度参数的最近估计。最近估计可以在噪声量的值为低的时间间隔期间获取。

可以使用任何合适的方法来确定预定的方向参数。预定的方向参数可以是预定的，因为它可以在较早的时间间隔确定。预定量可以改变，从而使得它可以在具有低噪声值的时间间隔期间被更新。在一些示例中，可以基于设备101的使用情况来预先确定预定的方向参数。例如，如果设备101是诸如用于进行视频通话的电话之类的移动设备，则可以假设正在说话的人在照相机的视场中。因此，可以假设用户将设备101握持在他们的面部前方。该信息可以用于估计方向参数。

如果设备101是头戴式耳机，则可以根据用户的嘴相对于头戴式耳机内的麦克风103的相对位置来预测声源的方向。

在一些示例中，设备101可以包括多个照相机105。指示当前使用中的照相机105的信息可以用于推断声源的位置，并且根据该位置可以估计方向信息。

在一些示例中，可以确定最重要的声源的方向。最重要的声源可以取决于设备101的使用情况。在一些示例中，可以假设最重要的声源是正在说话的用户。在一些示例中，可以假设最重要的声源在照相机的视场内。用于确定最重要声源的其他方法可以用于本公开的示例中。

在一些示例中，空间音频参数可以包括第一方向参数和第二方向参数。如果声音场景中有两个重要的声源，则可能会出现这种情况。在这种情况下，用于确定第一方向参数和第二方向参数的过程可以取决于噪声量的值。在一些示例中，取决于所确定的噪声量的值，可以使用与第二方向参数相比不同的过程来确定第一方向参数。

例如，如果所确定的噪声量的值低于下限阈值，则可以估计第一方向参数和第二方向参数。预计噪声对这些估计几乎没有影响。在这种情况下，所获取的两个方向参数的估计将足够精确。

如果噪声量的值被确定为高于下限阈值但低于上限阈值，则可以假设噪声量是中等的。在这种情况下，可以估计第一方向参数，并且可以使用与第一方向参数的预定角度差来确定第二参数。在这种情况下，可以预期该中等噪声量对第一方向参数的估计几乎没有影响，但是该中等噪声量将不利地影响第二方向参数的估计的可靠性。在这种情况下，可以将第二方向设置为与第一方向不同的方向。这可能不是正确的方向，但可以减少声源之间的干扰，使得这二者对于用户都是可理解的。

如果噪声量的值被确定为高于上限阈值，则可以假设噪声量高。在这种情况下，可以假设噪声量将不利地影响两个方向参数的估计的可靠性。在这种情况下，可以使用替代方法来获取第一方向参数。例如，可以使用预定的方向参数。然后可以使用与第一方向参数的预定角度差来确定第二参数。

图3示意性地示出了可以用于实现本公开的各示例的示例设备101。

设备101包括两个麦克风103、处理器301和存储器303。在图3中仅示出了在本说明书中提及的设备101的部件。设备101可以包括在图3中未示出的其他部件。例如，设备101可以包括扬声器、电源、用户接口和/或任何其他合适的部件。

设备101可以是包括两个或更多个麦克风103的任何设备101。例如，设备101可以是移动电话、台式计算机、头戴式耳机或任何其他合适类型的设备101。

在图3的示例中，设备101包括两个麦克风103。在其他示例中，设备101可以包括不止两个的麦克风103。在图3的示例中，麦克风103被指示为彼此相邻，然而麦克风103可以位于设备101上的任何合适的位置，以便能够捕获空间音频。

麦克风103可以包括可以被配置为检测音频信号的任何装置。麦克风103可以被配置为检测声学声音信号并将声学信号转换为输出电信号。因此，麦克风103提供麦克风信号305作为输出。麦克风信号305可以包括音频信号。

来自麦克风103的音频信号可以被处理以确定空间音频参数并提供空间音频信号。

可以对来自麦克风103的音频信号进行处理以确定音频信号中的噪声量。

处理器301被配置为从存储器303读取和向存储器303写入。在图6中更详细地示出了处理器301和存储器303的各示例。

图4示意性地示出了示例设备101。图4示出了设备101的功能模块。功能模块可以由处理器301和存储器303和/或任何其他合适的装置提供。

在图4的示例中，设备101包括多个麦克风103。图4中示出了两个麦克风103，但是在本公开的其他示例中可以使用多于两个的麦克风103。麦克风103可以位于设备101内能够捕获空间音频的任何合适的位置。

麦克风103提供音频信号401作为输入。各个麦克风103提供各自的音频信号401。两个或更多个音频信号401包括关于由麦克风103捕获的声音场景的空间特性的信息。

音频信号被提供作为估计空间音频参数框403的输入。估计空间音频参数块403被配置为估计相关的空间音频参数。

由估计空间音频参数块403确定的空间音频参数可以包括可以用于处理音频信号401以便产生空间音频信号的任何合适的参数。空间音频信号可以被配置为在向用户回放空间音频信号时提供用户可感知的空间特性。

在一些示例中，空间音频参数可以包括一个或多个方向参数和扩散度参数。所述方向参数和所述扩散度参数给出了关于由麦克风103捕获的声音场景的空间特性的信息。所述方向参数给出指示声源相对于麦克风103的方向的信息。所述扩散度参数给出了声音的局部化或非局部化程度的指示。这可以给出声音场景中的环境声音电平的指示。所述扩散度参数可以包括直接声音与环境声音的比率或者从直接声音与环境声音的比率导出的值。在本公开的其他示例中，可以使用其他空间音频参数或空间音频参数的组合。

可以使用任何合适的过程或方法来估计方向参数和扩散度参数。

在一些示例中，空间音频参数块403还可以被配置为向存储器303写入和从存储器303读取。存储器可以是如图3所示的设备101的存储器或者任何其他合适的存储器。这可以使得诸如方向参数和/或扩散度参数之类的空间音频参数能够被存储在存储器303中。这可以使得由空间音频参数块403确定的参数能够被存储在存储器303中并且被检索以在稍后的时间使用。这可以使得在当前估计不可用时和/或用于任何其他合适目的时能够使用方向参数和/或扩散度参数的最近估计。

估计空间音频参数块403被配置为提供估计的空间音频参数405作为输出。

音频信号401也被提供给噪声分析块407。噪声分析块407被配置为使用音频信号401来确定音频信号401中的噪声量。噪声分析块407可以被配置为确定音频信号401中的噪声量的值。

噪声分析块407可以被配置为对噪声量进行分类。例如，它可以被配置为对噪声量是高、中还是低进行分类。任何合适的阈值都可以用于各个类别之间的边界。在一些示例中，对于噪声量可以存在不同数量的类别。

在一些示例中，可以基于各个音频信号401之间的电平差来确定噪声量。噪声量的值可以指示各个音频信号401之间的电平差。在这种情况下，低于7dB的电平差可以被分类为低噪声量，在7至15dB之间的电平差可被分类为中等噪声量，并且高于15dB的电平差可以被分类为高噪声量。在本公开的其他示例中可以使用用于确定针对类别的噪声量和/或边界的其他方法。

噪声分析块407被配置为提供噪声量409作为输出。噪声量可以作为值，作为噪声量的类别的指示，和/或以任何其他合适的格式来提供。例如，噪声量409可以指示噪声量是高、中还是低，或者在任何其他合适的类别中。

空间音频参数405和噪声量409被提供作为确定空间音频参数块411的输入。确定空间音频参数块411可以被配置为基于噪声量409选择用于确定空间音频参数的过程。被选择来确定空间音频参数的过程是基于噪声量409而被选择的。

例如，如果噪声量409指示低噪声量，则可以假设噪声对已经由估计空间音频参数块403估计的空间音频参数405几乎没有影响。因此，已经由估计空间音频参数框403估计的空间音频参数405可以被认为对于在空间音频处理中使用而言是足够精确的。因此，如果噪声量为低，则确定空间音频参数块411选择使用估计的空间音频参数405。

如果噪声量409指示中等噪声量，则可以假设噪声对已经由估计空间音频参数框403估计的空间音频参数405具有某些影响。可以预期，中等噪声量对方向参数的估计几乎没有影响，但是中等噪声量将不利地影响扩散度参数的估计的可靠性。

在这种情况下，不同的空间音频参数在不同程度上受到噪声量的影响。因此，通过确定空间音频参数块411选择用于确定各个空间音频参数的不同过程。例如，估计的空间音频参数可以用于空间音频参数中的一个，而预定的或参考参数可以用于另一个空间音频参数。可以通过处理音频信号401来估计该估计的空间音频参数，而用于确定空间音频参数的其他过程可以使用其他信息，例如设备101的使用情况，或者关于空间音频参数的历史信息或任何其他合适的信息。

在图4的示例中，已经由估计空间音频参数块403进行的方向参数的估计可以被认为对于在空间音频处理中使用而言是足够精确的。然而，已经由估计空间音频参数块403进行的扩散度参数的估计可以被认为对于在空间音频处理中使用而言不够精确。在这种情况下，确定空间音频参数块411选择使用所估计的方向参数，但是如果噪声量为中等，则选择用于确定扩散度参数的不同过程。

确定扩散度参数的替代方法可以是使用由估计空间音频参数模块403获取的扩散度参数的最近估计。当噪声量的值低于下限阈值时，可以获取扩散度参数的最近估计。最近估计可以被存储在存储器303或其他存储装置中，并且当噪声量的值高于下限阈值时被检索以供使用。

如果噪声量409指示高噪声量，则可以假设噪声对已经由估计空间音频参数块403估计的所有空间音频参数405而言具有某些影响。可以预期，高噪声量将不利地影响对方向参数和扩散度参数二者的估计的可靠性。在这种情况下，确定空间音频参数块411选择不使用所估计的空间音频参数，并且如果噪声量为高，则选择用于确定该空间音频参数的不同过程。例如，可以使用预定的方向参数，并且可以使用扩散度参数的最近估计。最近估计可以由估计空间音频参数模块403在噪声量的值为低的时间间隔期间获取。

确定空间音频参数块411被配置为提供所确定的空间音频参数413作为输出。

设备101被配置为使得所确定的空间音频参数413被提供作为处理音频信号框419的输入。设备101还被配置为使得处理音频信号框419也接收音频信号401作为输入。

处理音频信号块419可以被配置为对音频信号401执行任何合适的处理。在本公开的示例中，处理音频信号框419可以被配置为执行空间音频处理以产生空间音频信号。所确定的空间音频参数413可以用于处理音频信号401以产生空间音频信号。

处理音频信号块419还可以被配置为对音频信号执行其他合适类型的处理。例如，在一些示例中，处理音频信号块419可以被配置为对音频信号401执行降噪。在其他示例中可以执行其他类型的处理。

处理音频信号块419被配置为提供经处理的音频信号417作为输出。设备101可以被配置为使得经处理的音频信号417能够被存储和/或作为输出来提供。例如，经处理的音频信号可以经由任何合适的回放装置为用户回放，或者可以存储在存储器303中以供以后使用。在一些示例中，可以对经处理的音频信号407进行处理以使其能够被发送到另一设备101。

在本公开的示例中，可以使用设备101的变型。例如，可以适当地组合或修改这些块。在一些示例中，不同的设备101可以包括一个或多个所述块。

在一些示例中，该估计两个或更多个空间音频参数块403可以被配置为检测多个方向参数。例如，可以针对最响亮的声源估计第一方向参数，并且可以针对第二响亮的声源估计第二方向参数。不同的声源可以是不同类型的声音。例如，最响亮的声源可以是语音，而第二响亮的声源可以是其他声源。这可能是IVAS(沉浸式语音和音频服务)编解码器的情况，该编解码器可以具有对象和环境模式。在这些情况下，为声音对象估计第一方向，为可能是环境声音的其他声音估计第二方向。在许多使用情况下中，声音对象将是语音，但是在其他示例中可以使用其他声音对象。在这些情况下，第二方向可能更难以估计，因为第二声源不如第一声源那么大，并且如果第二声源包括环境声音，则这些声音可能不具有清晰的方向。因此，只有在噪声量为低的情况下才可能可靠地确定第二声源的方向。

图4中所示的设备可以用于估计一个方向参数或者如果估计多个方向参数的情况。如果估计了多个方向参数，则确定空间音频参数块411可以被配置为检测用于确定每个方向参数的过程。确定空间音频参数块411可以被配置为根据噪声量409为不同的方向参数选择不同的过程。

如果所确定的噪声量的值低于下限阈值，则可以估计第一方向参数和第二方向参数。预计噪声对这些估计几乎没有影响。在这种情况下，所获取的两个方向参数的估计都将足够精确。

如果噪声量409指示低噪声量，则可以假设噪声对已经由估计空间音频参数块403估计的任何方向参数几乎没有影响。因此，已经由估计空间音频参数块403估计的第一方向参数和第二方向参数都可以被认为是足够精确的，以用于空间音频处理。因此，如果噪声量为低，则确定空间音频参数模块411选择将估计的方向参数用于第一方向和第二方向。

如果噪声量409指示中等噪声量，则可以假设噪声对更易受噪声影响的第二方向参数具有某些影响。可以预期，中等噪声量对第一方向参数的估计几乎没有影响，但是中等噪声量将不利地影响第二方向参数的估计的可靠性。

在该情况下，不同的方向参数在不同程度上受到噪声量的影响。因此，由确定空间音频参数块411选择用于确定各个方向参数的不同过程。例如，估计的空间音频参数可以用于第一方向参数中的一个，而不同的过程可以用于确定第二方向参数。

在一些示例中，第二方向可以被设置为与第一方向不同的方向。这可以通过将预定角度添加到第一方向来实现。例如，第二方向可以被设置为相对于第一方向的左侧或右侧的给定角度。给定的角度可以是90°、180°或任何其他合适的角度。这可能不是第二方向的正确方向，但它可以确保使用两个不同的方向，并可以减少声源之间的干扰，从而使得它们二者对于用户而言都是可理解的。具有用于第二方向的正确方向可能不如具有用于第一方向的正确方向重要，因为第二方向与可能比第一声源更不局部化的更安静的声音相关联。

图5示出了根据本公开的各示例的用于确定空间音频参数的示例方法。该方法可以使用诸如图1A至1C和/或图3至4中所示的设备之类的设备101来实现。

在框501处，该方法包括获取两个或更多个音频信号401。音频信号401可以从位于同一设备101中或同一设备101上的麦克风103获取。在图5的示例中，获取了两个音频信号401。在一些示例中，可以获取多于两个的音频信号401。

音频信号401可以在小的时间-频率块中进行处理。可以通过在给定长度的时间帧中对音频信号进行成帧来获取小的时间-频率块。在一些示例中，时间帧的持续时间可以是20ms。在其他示例中，其他长度可以用于时间帧。然后可以使用任何合适的变换将时间帧变换到频域中。在一些示例中，可以使用滤波器组将时间帧变换到频域，所述滤波器组例如快速傅立叶变换(FFT)、改进的离散余弦变换(MDCT)、分立余弦变换(DCT)和/或任何其他合适类型。可以使用巴克频带、等效矩形频带(ERB)或第三倍频程频带或任何合适的划分来将频域表示划分为多个频带。音频的成帧频带被称为时间-频率块。在本公开的各种实施方式中可以使用用于创建类似类型的块的其他过程和手段。一旦完成了对音频信号401的处理，就可以将频率信号转换回时域。用于将频率信号转换回时域的过程可以包括与用于将音频信号401转换为频域的变换相对应的变换。

在框503处，确定音频信号401中的噪声量。可以使用任何合适的过程来确定噪声量。例如，可以比较各个音频信号401的相对电平。在本公开的示例中，所确定的噪声量是非相干噪声。非相干噪声可以是随时间和位置快速变化的噪声，从而导致各个音频信号401之间的电平差。在一些示例中，噪声可以是风噪声、处理噪声或任何其他合适类型的噪声。

所确定的噪声量用于选择用于确定诸如一个或多个方向参数和扩散度参数之类的空间特性的过程。在图5的示例中，确定了两个方向参数和一个扩散度参数。在其他示例中可以确定其他数量和/或类型的参数。

在存在非相干噪声的情况下，第一方向参数的估计可以是相对鲁棒的，特别是如果使用音频信号之间的相位差来进行方向的估计。这可以使得能够在低噪声电平和中等噪声电平中都估计方向参数，但对于高噪声电平则不能。

在存在非相干噪声的情况下，第二方向参数的估计可能不如第一方向参数的估计那样鲁棒。这可能是因为第二方向参数不是响亮的和/或因为第二声源可以包括环境声音。因此，将仅针对低噪声电平而不针对中等或高噪声电平估计第二方向参数。

扩散度参数的估计在存在非相干噪声的情况下也不如第一方向参数的估计那样鲁棒。例如风噪声之类的非相干噪声使得音频信号401不相关，并且扩散度参数的估计基于相关计算。因此，将仅针对低噪声电平而不是针对中等或高噪声电平估计扩散度参数。

在图5的示例中，所确定的噪声量被分类为三类。如果噪声量低于下限阈值，则可以假设噪声量较低。如果噪声量高于下限阈值但低于较高阈值，则可以假设噪声量为中等。如果噪声量高于较高阈值，则可以假设噪声量较高。用于各个类别的阈值可以基于麦克风103在设备101内的位置、麦克风103如何集成到设备101中、设备101的形状和/或任何其他合适的因素来确定。在噪声为风噪声的示例中，低风噪声条件可以是0-3m/s的风，中等风噪声条件可以是3-6m/s的风，并且高风噪声条件可以大于6m/s。阈值的其他值可以在其他示例中使用。在一些示例中，噪声量可能有三个以上的类别，并且相应的阈值可以将其考虑在内。

如果估计噪声量低，则在框505处，估计第一方向参数，估计第二方向参数，并且还估计扩散度参数。可以使用任何合适的过程来估计相应的方向和扩散度参数。

如果噪声量被确定为中等，则在框507处估计方向参数，但是使用不同的过程来确定第二方向参数和扩散度参数。

可以基于所估计的第一方向参数来确定第二方向参数。例如，可以通过设置角度来调整第一方向参数，以确定第二方向参数。在某些示例中，所设置角度可以是90°、180°或任何其他合适的角度。可以选择用作所设置角度的角度，使得在第一方向上的声音仍然比在第二方向上的声音清晰可感知。

在一些示例中，可以基于扩散度参数的最近估计来确定扩散度参数。扩散度参数的最近估计可以是在噪声量为低的时间段期间获取的估计。这种确定扩散度参数的方法可以足够精确，因为与方向相比，扩散度往往随时间缓慢变化，从而使得可以使用扩散度参数相对旧的估计。

作为替代或补充，在一些示例中，可以根据由设备101内的不同对麦克风103获取的音频信号401来估计扩散度参数。如果不同的音频信号401具有低的噪声量，则使用不同音频信号401可能是合适的。

作为另一替代或附加，在一些示例中，可以将扩散度参数设置为预定值。可以基于估计的第一方向和/或任何其他合适的因素来确定该预定值。例如，如果第一方向参数指示第一声源在设备101的后方，则扩散度参数可以指示高水平的扩散度。如果扩散度参数是直接声音与环境声音的比率，则高水平的扩散度将具有接近于零的直接声音与环境声音的比率。类似地，如果第一方向参数指示第一声源在设备101的前方，则扩散度参数可以指示低水平的扩散度。如果扩散度参数是直接声音与环境声音的比率，则低水平的扩散度将具有接近1的直接声音与环境声音的比率。对于第一方向在设备后方的情况和第一方向在该设备前方的情况，可以自动选择合适的值。例如，如果第一方向在设备101的前方，则可以使用0.75的直接声音与环境声音的比率，并且如果第一方向在设备101的后方，则可以使用0.25的直接声音与环境声音的比率。

在其他示例中可以使用用于确定扩散度参数的其他过程和/或过程的组合。

如果估计噪声量为高，则在框509处，预定的方向被用于方向参数。第一方向参数的预定方向可以基于设备101的当前使用情况或任何其他合适的因素来确定。例如，如果设备101是用于视频通话的移动电话，则可以假设最重要的声源将是用户的讲话，并且用户将在照相机105的视场中。因此，可以使用照相机105的位置来推断声源的方向。作为另一示例，如果设备101被用于拍摄视频内容，则可以假设重要声源也在照相机105的视场中。如果设备101被用于进行语音通话，则可以假设设备101被定位在靠近用户头部的位置，并且最重要的声源将是正在用户的谈话。在这种情况下，嘴部参考点可以用于确定第一方向参数。嘴部参考点可以是当用户在使用设备101进行语音通话(或执行任何其他相关功能)时用户嘴部的预期位置。

如果设备101是头戴式耳机，则可以假设最重要的声源可能是用户的谈话，并且可以基于头戴式耳机的几何形状和/或嘴部参考点来预先确定用户的嘴相对于麦克风103的相对位置。在本公开的其他示例中可以使用用于估计用于第一声源的预定方向的其他示例。

用于第二方向参数的预定方向可以通过将所设置角度添加到预定的第一方向参数来确定。这可以类似于在中等噪声电平下将所设置角度添加到预定的第一方向参数的过程。

用于在高噪声电平下确定扩散度参数的方法可以与用于在中等噪声电平下确定扩散度参数的方法的方法相同或相似。

下表列出了在不同噪声条件下可用于估计方向参数和扩散度参数的方法。在本公开的示例中可以使用用于使用这些方法的其他方法和条件。

在该示例中，如果噪声电平太高而不能可靠地确定第二空间音频参数，则不是估计方向参数或从较早的时间帧检索历史方向参数，而是基于第一方向参数来确定第二方向参数。根据相同的时间实例和频率来确定第二方向参数所基于的第一方向参数。

一旦确定了方向参数和扩散度参数，就可以在框511处使用相应的参数来处理音频信号401以产生空间音频信号。也可以对音频信号401执行其他类型的处理，例如降噪和/或任何其他合适的处理。

一旦已经执行了空间音频处理，就可以将信号转换回时域，并且可以在框513处提供空间信号作为输出。

因此，本公开的示例使得即使在存在例如风噪声之类的非相干噪声的情况下也能够确定空间音频参数。这可以使得即使在存在例如风噪声之类的非相干噪声的情况下也能够提供高质量的空间音频。

图6示意性地图示出了可以用于实现本公开的各示例的装置601。在该示例中，装置601包括控制器603。控制器603可以是芯片或芯片组。在一些示例中，控制器603可以设置在包括两个或更多个麦克风103的设备内，例如通信设备或任何其他合适类型的设备101内。

在图6的示例中，控制器603可以实现为控制器电路。在一些示例中，控制器603可以单独在硬件中实现，单独在包括固件的软件中具有某些方面，或者可以是硬件和软件(包括固件)的组合。

如图6所示，控制器603可以使用实现硬件功能的指令来实现，例如，通过使用通用或专用处理器301中的计算机程序605的可执行指令，该可执行指令可以存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器301执行。

处理器301被配置为从存储器303读取和向存储器303写入。处理器301还可以包括处理器301经由其输出数据和/或命令的输出接口，以及数据和/或命令经由其输入到处理器301的输入接口。

存储器303被配置为存储包含计算机程序指令(计算机程序代码607)的计算机程序605，该计算机程序指令在被加载到处理器301中时控制控制器603的操作。计算机程序605的计算机程序指令提供使控制器603能够执行附图中所示和/或本文所述的方法或任何其他合适的方法的逻辑和例程。处理器301通过读取存储器303能够加载并执行计算机程序605。

因此，装置601包括：至少一个处理器301；以及包括计算机程序代码607的至少一个存储器303，所述至少一个存储器303存储指令607，所述指令在由至少一个处理器301执行时使得得装置601至少执行以下操作：

确定所述音频信号中的噪声量；

如图6所示，计算机程序605可以经由任何合适的递送机制609到达控制器603。递送机构609可以是例如机器可读介质、计算机可读介质、非暂时性计算机可读存储介质、计算机程序产品、存储设备、诸如光盘只读存储器(CD-ROM)或数字通用盘(DVD)的记录介质或固态存储器，包括或有形地体现计算机程序605的制造品。递送机制可以是被配置为可靠地传送计算机程序605的信号。控制器603可以传播或发送计算机程序605作为计算机数据信号。在一些示例中，计算机程序605可以使用诸如蓝牙、蓝牙低能量、蓝牙智能、6LoWPan(低功率个人区域网络上的IPv6)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN)的无线协议或任何其他合适的协议来发送到控制器603。

计算机程序605包括用于使装置601至少执行以下操作的计算机程序指令：

确定所述音频信号中的噪声量；

计算机程序指令可以包括在计算机程序605、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但不一定所有的示例中，计算机程序指令可以分布在多个计算机程序605上。

尽管存储器303被示出为单个部件/电路，但是它可以被实现为一个或多个分开的部件/电路-它们中的一些或全部可以被集成/可移除和/或可以提供永久/半永久/动态/高速缓存存储。

尽管处理器301被示出为单个部件/电路，但是它可以被实现为一个或多个分开的部件/电路-其中的一些或全部可以是集成的/可移除的。处理器301可以是单核或多核处理器。

提及“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等应被理解为不仅包括具有不同架构的计算机，如单/多处理器架构和顺序(冯·诺依曼)/并行架构，还包括专用电路，例如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理器件和其他处理电路。对计算机程序、指令、代码等的提及应理解为包括用于可编程处理器或固件的软件，例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑器件的配置设置等。

如在本申请中使用的，术语“电路”可以指以下一项或多项或全部：

(a)仅硬件电路实现方式(例如仅采用模拟和/或数字电路的实现方式)以及

(b)硬件电路和软件的组合，诸如(如适用)：

(i)一个或多个模拟和/或数字硬件电路与软件/固件的组合，以及

(ii)带有软件的一个或多个硬件处理器(包括一个或多个数字信号处理器)的任何部分、软件和一个或多个存储器，它们一起工作以使装置(如移动电话或服务器)执行各种功能，以及

(c)一个或多个硬件电路和/或一个或多个处理器，诸如一个或多个微处理器或一个或多个微处理器的一部分，其需要软件(例如固件)进行操作，但软件在不需要操作时可能不存在。

电路的该定义适用于该术语在本申请中的所有使用，包括在任何权利要求中。作为进一步的示例，如在本申请中所使用的，术语电路也仅涵盖硬件电路或处理器及其(或它们的)伴随软件和/或固件的实现方式。术语电路还涵盖，例如并且如果适用于特定权利要求元素，用于移动设备的基带集成电路或在服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

如图6所示的装置601可以设置在任何合适的设备101内。在一些示例中，可以在诸如移动电话、电话会议设备、照相机、计算设备之类的电子设备或任何其他合适的设备内提供装置601。在一些示例中，所述装置是设备或者是电子设备，例如移动电话、电话会议设备、照相机、计算设备或任何其他合适的设备。

图2、图4和图5中所示的框可以表示方法中的步骤和/或计算机程序605中的代码部分。对框的特定顺序的说明并不一定意味着框具有所需的或优选的顺序，并且框的顺序和排列可以改变。此外，省略一些框是可能的。

上述示例可作为以下各项的使能部件应用：

汽车系统；电信系统；包括消费电子产品在内的电子系统；分布式计算系统；用于生成或呈现媒体内容的媒体系统，所述媒体内容包括音频、视觉和视听内容以及混合、中介、虚拟和/或增强现实；个人系统，包括个人健康系统或个人健身系统；导航系统；用户界面，也称为人机界面；网络，包括蜂窝网络、非蜂窝网络和光网络；自组织网络；互联网；物联网；虚拟化网络；以及相关软件和服务。

根据本公开的一个示例，所述装置可以提供在电子设备中，例如移动终端中。然而，应当理解，移动终端仅仅是将受益于本公开的实现方式的示例的电子设备的说明，因此，不应当被认为将本公开的范围限制为相同的范围。虽然在某些实现示例中，所述装置可以被提供在移动终端、其他类型的电子设备中，诸如但不限于：移动通信设备、便携式电子设备、可穿戴计算设备、便携式数字助理(PDA)、寻呼机、移动计算机、台式计算机、电视、游戏设备、膝上型计算机、照相机、录像机、GPS设备和其他类型的电子系统中，可以容易地采用本公开的示例。此外，设备可以容易地采用本公开的示例，而不管它们提供移动性的意图如何。

本文件中使用的术语“包含”具有包容性而非排他性。也就是说，任何对包括Y的X的引用都表明X可能只包括一个Y或可能包括不止一个Y。如果打算使用具有排他性含义的“包括”，则在上下文中通过提及“仅包括一个…”或通过使用“由...组成”来明确。

在本说明书中，“连接”、“耦合”和“通信”及其派生词是指操作上连接/耦合/通信。应当理解，可以存在任何数量或组合的介入部件(包括无介入部件)，即，以便提供直接或间接的连接/耦合/通信。任何这样的介入部件可以包括硬件和/或软件组件。

如本文中所使用的，术语“确定/确定”(及其语法变体)可以至少包括：计算、计算、处理、推导、测量、调查、识别、查找(例如，在表、数据库或另一数据结构中查找)、探知等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)、获取等等。并且，“确定/确定”可以包括解析、选择、挑选、建立等等。

在本说明书中，已经参考了各种示例。关于示例的特征或功能的描述指示那些特征或功能存在于该示例中。在上下文中使用术语“示例”或“例如”或“可”或“可以”表示，无论是否明确说明，这些特征或功能至少存在于所描述的示例中，无论是否作为示例描述，并且它们可以但不一定存在于某些或所有其他示例中。因此，“示例”、“例如”、“可”或“可以”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性、类的属性或类的子类的属性，该子类包括类中的一些但不是全部的实例。因此，隐含地公开了，参考一个示例而不是参考另一个示例描述的特征可以在可能的情况下作为工作组合的一部分在该另一个示例中使用，但不一定必须在该其他示例中使用。

尽管在前面的段落中已经参考各种示例描述了示例，但是应当理解，在不脱离权利要求的范围的情况下可以对所给出的示例进行修改。

在前面的描述中描述的特征可以用在除了上述明确描述的组合之外的组合中。

尽管已经参考某些特征描述了功能，但是这些功能可以由其他特征执行，无论是否描述。

尽管已经参考某些示例描述了特征，但是无论是否描述，这些特征也可以存在于其他示例中。

本文件中使用的术语“一”、“一个”或“该”具有包容性而非排他性含义。也就是说，对包括“一”、“一个”或“该”Y的X的任何引用表示X可以仅包括一个Y或者可以包括不止一个Y，除非上下文清楚地指示相反。如果打算使用具有排他性含义的“一”、“一个”或“该”，则应在上下文中明确说明。在某些情况下，使用“至少一个”或“一个或多个”可以用来强调包容性含义，但不应将这些术语的缺失视为推断任何排他性含义。

权利要求中特征(或特征组合)的存在是指对该特征或(特征组合)本身以及实现基本相同技术效果的特征(等效特征)的引用。等效特征包括，例如，作为变体并且以基本相同的方式实现基本相同的结果的特征。等效特征包括，例如，以基本上相同的方式执行基本上相同功能以实现基本上相同结果的特征。

在本说明书中，已经参考了使用形容词或形容词短语来描述示例的特性的各种示例。相对于示例对特性的这种描述指示该特性在一些示例中完全如所描述地存在，并且在其他示例中基本如所描述地存在。

上面的描述描述了本公开的一些示例，然而本领域的普通技术人员将意识到可能的替代结构和方法特征，其提供了与上面描述的这种结构和特征的具体示例等效的功能，并且为了简洁和清楚，从上面的描述中省略了这些替代结构和特征。尽管如此，上述描述应被理解为隐含地包括对提供等效功能的这种替代结构和方法特征的引用，除非在本公开的示例的上述描述中明确地排除了这种替代结构或方法特征。

尽管在前述说明书中努力引起人们对那些被认为具有重要意义的特征的注意，但应当理解，申请人可以经由权利要求书就上文提及和/或附图中所示的任何可申请专利的特征或特征的组合寻求保护，无论是否对其进行了强调。

Claims

1.一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器存储指令，所述指令在由所述至少一个处理器执行时使得所述装置至少执行以下操作：

获取两个或更多个音频信号；

确定所述音频信号中的噪声量；

确定一个或多个空间音频参数，其中，用于确定所述一个或多个空间音频参数的过程取决于所确定的噪声量；

根据所确定的噪声量，利用所确定的一个或多个空间音频参数来处理所述两个或更多个音频信号；以及

基于经处理的两个或更多个音频信号来产生空间音频信号。

2.根据权利要求1所述的装置，其中，用于确定所述一个或多个空间音频参数的过程取决于所确定的噪声量的值是高于还是低于阈值。

3.根据权利要求1所述的装置，其中，如果所确定的噪声量的值低于阈值，则使得所述装置确定所述一个或多个空间音频参数致使所述装置估计所述一个或多个空间音频参数。

4.根据权利要求1所述的装置，其中，如果所确定的噪声量的值高于阈值，则使得所述装置确定所述一个或多个空间音频参数致使所述装置使用预定值用于所述一个或多个空间音频参数。

5.根据权利要求1所述的装置，其中，所述空间音频参数至少包括方向参数和扩散度参数。

6.根据权利要求5所述的装置，其中，如果所确定的噪声量的值低于下限阈值，则使得所述装置估计所述方向参数和所述扩散度参数。

7.根据权利要求5所述的装置，其中，如果所确定的噪声量的值高于下限阈值但低于上限阈值，则使得所述装置估计所述方向参数并使用所述扩散度参数的最近估计。

8.根据权利要求5所述的装置，其中，如果所确定的噪声量的值高于上限阈值，则使得所述装置使用预定的方向参数和所述扩散度参数的最近估计。

9.根据权利要求1所述的装置，其中，所述空间音频参数至少包括第一方向参数和第二方向参数。

10.根据权利要求9所述的装置，其中，如果所确定的噪声量的值低于下限阈值，则使得所述装置估计所述第一方向参数和所述第二方向参数。

11.根据权利要求9所述的装置，其中，如果所确定的噪声量的值高于下限阈值但低于上限阈值，则使得所述装置估计所述第一方向参数，并且使用与所述第一方位参数的预定角度差来确定所述第二方向参数。

12.根据权利要求9所述的装置，其中，如果所确定的噪声量的值高于上限阈值，则使得所述装置使用预定的第一方向参数和与所述第一方向参数的预定角度差来确定所述第二方向参数。

13.根据权利要求12所述的装置，其中，所述预定的第一方向是基于包括麦克风的设备的使用情况来确定的。

14.根据权利要求1所述的装置，其中，所述装置包括两个或更多个麦克风。

15.一种方法，包括：

获取两个或更多个音频信号；

确定所述音频信号中的噪声量；

基于经处理的两个或更多个音频信号来产生空间音频信号。

16.根据权利要求15所述的方法，其中，用于确定所述一个或多个空间音频参数的过程取决于所确定的噪声量的值是高于还是低于阈值。

17.根据权利要求15所述的方法，其中，所述空间音频参数至少包括第一方向参数和第二方向参数。

18.根据权利要求17所述的方法，其中，用于确定所述一个或多个空间音频参数的过程包括：如果所确定的噪声量的值低于下限阈值，则估计所述第一方向参数和所述第二方向参数。

19.根据权利要求17所述的方法，其中，用于确定所述一个或多个空间音频参数的过程包括：如果所确定的噪声量的值高于下限阈值但低于上限阈值，则估计所述第一方向参数，并且使用与所述第一方向参数的预定角度差来确定所述第二方向参数。

20.根据权利要求17所述的方法，其中，用于确定所述一个或多个空间音频参数的过程包括：如果所确定的噪声量的值高于上限阈值，则使用预定的第一方向参数和与所述第一方向参数的预定角差来确定所述第二方向参数。