CN117376807A

CN117376807A - 参数化音频中的风噪声降低

Info

Publication number: CN117376807A
Application number: CN202311310343.3A
Authority: CN
Inventors: J·维卡莫; J·马基宁; M·维勒尔莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-03-01
Filing date: 2020-02-21
Publication date: 2024-01-09
Also published as: GB201902812D0; WO2020178475A1; CN113597776A; CN113597776B; US20220141581A1; EP3932094A1; EP3932094A4

Abstract

提供用于参数化音频中的风噪声降低的装置和方法。一种装置，包括被配置为执行以下操作的模块：从至少两个麦克风获取至少两个音频信号，其中，至少两个音频信号至少部分地包括在至少两个音频信号之间基本不相干的噪声；估计与至少两个音频信号内的噪声相关联的值；基于与噪声相关联的值处理至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号和所估计的值相关联的空间元数据。

Description

参数化音频中的风噪声降低

本申请是2020年2月21日提交的申请号为202080017816.9、发明名称为“参数化音频中的风噪声降低”的专利申请的分案申请。

技术领域

本申请涉及用于参数化音频捕获和渲染中的风噪声降低的装置和方法。

背景技术

风噪声在移动设备录制的视频中是有问题的。已经提出了各种方法和装置来尝试克服这种风噪声。

防止风噪声的一种方法是物理屏蔽麦克风。该屏蔽可以由泡沫、毛皮或类似材料形成，但是这些材料需要很大的空间并且因此可能太大而无法用于移动设备。

替代方法是使用两个或更多个麦克风和自适应信号处理。风噪声干扰根据时间、频率范围和位置而迅速变化。风噪声的量可以从麦克风信号的能量和互相关来近似。

用于抑制来自多麦克风输入的风噪声的已知信号处理技术有：

通过使用自适应增益因子进行抑制。当麦克风信号中存在风时，麦克风信号的增益/能量会降低，从而使噪声衰减；

麦克风信号组合。可以组合麦克风信号以针对非相干噪声(风产生的或另外产生的非相干噪声)强调相干分量(外部声音)；

麦克风信号选择。当部分麦克风信号因风而失真时，选择受风噪声影响较小的麦克风信号作为风处理输出。

这种信号处理通常最好逐个频带地执行。一些其他噪声，例如触摸噪声(handlingnoise)，可与风噪声类似，并且因此可通过与风噪声类似的过程去除。

进一步的用于风噪声去除的替代和更复杂的方法是利用经过训练的深度学习网络基于有风声音来检索无风声音。

本发明还考虑了来自麦克风阵列的在一般参数化音频捕获和特别是参数化空间音频捕获的环境中的WNR。

空间音频捕获是已知的。传统的空间音频采集使用高端麦克风阵列，例如球形多麦克风阵列(例如一个球体上的32个麦克风)，或具有显著指向性麦克风的麦克风阵列(例如四个心形麦克风布置)，或大间距麦克风(例如相距超过一米的一组麦克风)。

已经开发了参数化空间音频捕获技术以提供高质量的空间音频信号，而无需此类高端麦克风阵列。参数化音频捕获是这样的方法，其中从麦克风阵列信号估计一组参数，然后利用这些参数来控制应用于麦克风阵列信号的信号处理。

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下操作的模块：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

被配置为处理所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：确定应用于所述至少两个音频信号中的至少一个音频信号的权重；以及对所述至少两个音频信号中的所述至少一个音频信号应用所述权重以抑制所述噪声。

被配置为处理所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：基于与所述噪声相关联的所述值选择所述至少两个音频信号中的至少一个音频信号以抑制所述噪声。

被配置为选择所述至少两个音频信号中的至少一个的所述模块可以被配置为：选择单个最佳音频信号。

被配置为处理所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：基于与所述噪声相关联的所述值生成对所述至少两个音频信号的选择的加权组合以抑制所述噪声。

被配置为生成对所述至少两个音频信号的所述选择的加权组合的所述模块可以被配置为：从所述加权组合生成单个音频信号。

与所述噪声相关联的所述值可以是以下至少之一：与所述噪声相关联的能量值；基于与所述噪声相关联的能量值的值；与所述至少两个音频信号内所述噪声的比例相关的值；与所述至少两个音频信号内非噪声信号分量的比例相关的值；以及与所述至少两个音频信号内所述非噪声信号分量的能量或幅度相关的值。

所述模块还可以被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号，所述模块被配置为基于所述空间元数据处理所述至少两个音频信号中的所述至少一个音频信号。

被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：生成至少两个基于空间元数据的经处理的音频信号，并且被配置为处理所述至少两个音频信号中的所述至少一个音频信号的所述模块可以被配置为：处理所述至少两个基于空间元数据的经处理的音频信号中的至少一个。

被配置为处理所述至少两个音频信号中的所述至少一个音频信号的所述模块可以被配置为生成至少两个基于噪声的经处理的音频信号，并且被配置为处理将渲染的所述至少两个音频信号的所述模块可以被配置为：处理所述至少两个基于噪声的经处理的音频信号中的至少一个。

被配置为处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述模块可以进一步基于被配置为处理所述至少两个音频信号中的所述至少一个音频信号的所述模块或受其影响。

被配置为处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述模块可以被配置为：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于被配置为基于与所述噪声相关联的所述值处理所述至少两个音频信号中的所述至少一个音频信号的所述模块，控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成将输出的至少两个音频信号。

被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：基于被配置为基于与所述噪声相关联的所述值处理所述至少两个音频信号中的所述至少一个音频信号的所述模块修改所述空间元数据；以及基于所述经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

被配置为处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述模块可以被配置为：生成至少两个波束成形器；将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的至少两个波束成形版本；以及基于与所述噪声相关联的所述值选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

被配置为处理所述至少两个音频信号中的至少一个音频信号的所述模块和被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述模块可以是组合的处理操作。

所述噪声可以是以下中的至少一种：风噪声；机械部件噪声；电气部件噪声；设备触摸噪声；以及所述麦克风之间基本不相干的噪声。

根据第二方面，提供了一种装置，其包括被配置为执行以下操作的模块：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，所述模块被配置为基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于被配置为基于与所述处理相关联的所述至少一个处理指示符处理所述至少两个音频信号中的所述至少一个音频信号的所述模块，控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成要输出的至少两个音频信号。

被配置为处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述模块可以被配置为：基于与所述处理相关联的所述至少一个处理指示符来修改所述空间元数据；以及基于经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

被配置为处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述模块被配置为：生成至少两个波束成形器；以及将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的波束成形版本；基于与所述处理相关联的至少一个处理指示符，选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

根据第三方面，提供了一种方法，包括：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

处理所述至少两个音频信号中的至少一个音频信号可以包括：确定应用于所述至少两个音频信号中的至少一个音频信号的权重；以及对所述至少两个音频信号中的所述至少一个音频信号应用所述权重以抑制所述噪声。

处理所述至少两个音频信号中的至少一个音频信号可以包括基于与所述噪声相关联的所述值选择所述至少两个音频信号中的至少一个音频信号以抑制所述噪声。

选择所述至少两个音频信号中的至少一个音频信号可以包括选择单个最佳音频信号。

处理所述至少两个音频信号中的至少一个音频信号可以包括基于与所述噪声相关联的所述值生成对所述至少两个音频信号的选择的加权组合以抑制所述噪声。

生成所述至少两个音频信号的所述选择的加权组合可以包括从所述加权组合生成单个音频信号。

所述方法还可以包括：处理将渲染的所述至少两个音频信号中的至少一个音频信号，其中，处理所述至少两个音频信号中的所述至少一个音频信号可以基于所述空间元数据。

处理将渲染的所述至少两个音频信号中的至少一个音频信号可以包括：生成至少两个基于空间元数据的经处理的音频信号，并且处理所述至少两个音频信号中的所述至少一个音频信号可以包括：处理所述至少两个基于空间元数据的经处理的音频信号中的至少一个。

处理所述至少两个音频信号中的所述至少一个音频信号可以包括：生成至少两个基于噪声的经处理的音频信号，并且处理将渲染的所述至少两个音频信号可以包括：处理所述至少两个基于噪声的经处理的音频信号中的至少一个。

处理将渲染的所述至少两个音频信号中的所述至少一个音频信号可以进一步基于对所述至少两个音频信号中的所述至少一个音频信号的所述处理或受其影响。

处理将渲染的所述至少两个音频信号中的所述至少一个音频信号可以包括：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于以与所述噪声相关联的所述值为基础对所述至少两个音频信号中的所述至少一个音频信号的处理，来控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成将输出的至少两个音频信号。

处理将渲染的所述至少两个音频信号中的至少一个音频信号可以包括：基于以与所述噪声相关联的所述值为基础对所述至少两个音频信号中的所述至少一个音频信号的处理来修改所述空间元数据；以及基于经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

处理将渲染的所述至少两个音频信号中的所述至少一个音频信号可以包括：生成至少两个波束成形器；将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的至少两个波束成形版本；以及基于与所述噪声相关联的所述值选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

处理所述至少两个音频信号中的至少一个音频信号和处理将渲染的所述至少两个音频信号中的至少一个音频信号可以是组合的处理操作。

根据第四方面，提供了一种方法，包括：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，所述方法还包括基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

处理将渲染的所述至少两个音频信号中的至少一个可以包括：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于以与所述处理相关联的所述至少一个处理指示符为基础对所述至少两个音频信号中的所述至少一个音频信号的处理，来控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成要输出的至少两个音频信号。

处理将渲染的所述至少两个音频信号中的至少一个可以包括：基于与所述处理相关联的所述至少一个处理指示符来修改所述空间元数据；以及基于经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

处理将渲染的所述至少两个音频信号中的所述至少一个可以包括：生成至少两个波束成形器；以及将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的波束成形版本；基于与所述处理相关联的至少一个处理指示符，选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

根据第五方面，提供了一种装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

被致使处理所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：确定应用于所述至少两个音频信号中的至少一个音频信号的权重；以及对所述至少两个音频信号中的所述至少一个音频信号应用所述权重以抑制所述噪声。

被致使处理所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：基于与所述噪声相关联的所述值选择所述至少两个音频信号中的至少一个以抑制所述噪声。

被致使选择所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：选择单个最佳音频信号。

被致使处理所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：基于与所述噪声相关联的所述值生成对所述至少两个音频信号的选择的加权组合以抑制所述噪声。

被致使生成对所述至少两个音频信号的所述选择的加权组合的所述装置可以被致使：从所述加权组合生成单个音频信号。

被致使处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：生成至少两个基于空间元数据的经处理的音频信号，并且被致使：处理所述至少两个音频信号中的所述至少一个音频信号的所述装置可以被致使：处理所述至少两个基于空间元数据的经处理的音频信号中的至少一个。

被致使：处理所述至少两个音频信号中的所述至少一个音频信号的所述装置可以被致使：生成至少两个基于噪声的经处理的音频信号，并且被致使处理将渲染的所述至少两个音频信号的所述装置可以被致使：处理所述至少两个基于噪声的经处理的音频信号中的至少一个。

被致使处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述装置可以被进一步致使：基于对所述至少两个音频信号中的所述至少一个音频信号的所述处理或受其影响。

被致使处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述装置可以被致使：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于于以与所述噪声相关联的所述值为基础对所述至少两个音频信号中的所述至少一个音频信号的处理，来控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成将输出的至少两个音频信号。

被致使处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述装置可以被致使：基于以与所述噪声相关联的所述值为基础对所述至少两个音频信号中的所述至少一个音频信号的处理来修改所述空间元数据；以及基于经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

被致使处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述装置可以被致使：生成至少两个波束成形器；将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的至少两个波束成形版本；以及基于与所述噪声相关联的所述值选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

被致使处理所述至少两个音频信号中的至少一个音频信号和处理将渲染的所述至少两个音频信号中的至少一个音频信号可以是组合的处理操作。

根据第六方面，提供了一种装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

被致使处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述装置可被致使：基于所述空间元数据生成将渲染的至少两个经处理的音频信号；基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及基于以与所述处理相关联的所述至少一个处理指示符为基础对所述至少两个音频信号中的所述至少一个音频信号的处理，来控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成要输出的至少两个音频信号。

被致使处理将渲染的所述至少两个音频信号中的至少一个音频信号的所述装置可被致使：基于与所述处理相关联的所述至少一个处理指示符来修改所述空间元数据；以及基于所述经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

被致使处理将渲染的所述至少两个音频信号中的所述至少一个音频信号的所述装置可被致使：生成至少两个波束成形器；以及将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的波束成形版本；基于与所述处理相关联的至少一个处理指示符，选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

根据第七方面，提供了一种装置，包括：获取电路，其被配置为从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计电路，其被配置为估计与所述至少两个音频信号内的所述噪声相关联的值；处理电路，其被配置为基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取电路，其被配置为获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

根据第八方面，提供了一种装置，包括：获取电路，其被配置为获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取电路，其被配置为获取与所述处理相关联的至少一个处理指示符；获取电路，其被配置为获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理电路，其被配置为处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，所述处理包括基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

根据第九方面，提供了一种包括指令[或包括程序指令的计算机可读介质]的计算机程序，用于促使装置至少执行以下操作：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

根据第十方面，提供了一种包括指令[或包括程序指令的计算机可读介质]的计算机程序，用于促使装置至少执行以下操作：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

根据第十一方面，提供了一种非暂时性计算机可读介质，其包括用于促使装置至少执行以下操作的程序指令：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

根据第十二方面，提供了一种非暂时性计算机可读介质，其包括用于促使装置至少执行以下操作的程序指令：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

根据第十三方面，提供了一种装置，包括：用于从至少两个麦克风获取至少两个音频信号的模块，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；用于估计与所述至少两个音频信号内的所述噪声相关联的值的模块；用于基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号的模块；以及用于获取与至少两个音频信号相关联的空间元数据以渲染所述至少两个音频信号中的至少一个音频信号的模块。

根据第十四方面，提供了一种装置，包括：用于获取至少两个经处理的音频信号的模块，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；用于获取与所述处理相关联的至少一个处理指示符的模块；用于获取与所述至少两个音频信号相关联的空间元数据以渲染所述至少两个音频信号中的至少一个音频信号的模块；以及用于处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号的模块，其中，所述处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号是基于所述空间元数据和所述处理指示符。

根据第十五方面，提供了一种计算机可读介质，其包括用于促使装置至少执行以下操作的程序指令：从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；估计与所述至少两个音频信号内的所述噪声相关联的值；基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及获取与至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号。

根据第十六方面，提供了一种计算机可读介质，其包括用于促使装置至少执行以下操作的程序指令：获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；获取与所述处理相关联的至少一个处理指示符；获取与所述至少两个音频信号相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及处理将渲染的所述至少两个经处理的音频信号中的至少一个音频信号，基于所述空间元数据和所述处理指示符来处理将渲染的所述至少两个经处理的音频信号中的所述至少一个音频信号。

一种装置，包括用于执行上述方法的动作的模块。

一种装置，其被配置为执行上述方法的动作。

一种计算机程序，包括用于致使计算机执行上述方法的程序指令。

一种存储在介质上的计算机程序产品可以使装置执行如本文所述的方法。

一种电子设备可包括如本文所述的装置。

一种芯片组可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出了根据一些实施例的示例编码器/解码器；

图2示意性地示出了根据一些实施例的装置上的示例麦克风拉置；

图3示意性地示出了根据一些实施例的如图1所示的示例空间合成器；

图4示出了根据一些实施例的图1和图3中所示的示例的操作的流程图；

图5示意性地示出了根据一些实施例的又一示例编码器/解码器；

图6示意性地示出了根据一些实施例的该又一示例编码器；

图7示出了根据一些实施例的D/A参数和方向参数的修改的图示；

图8示意性地示出了根据一些实施例的该又一示例解码器；

图9示意性地示出了根据一些实施例的另一示例解码器；

图10示出了根据一些实施例的图5至图9中所示的示例的操作的流程图；

图11示意性地示出了根据一些实施例的另一示例编码器/解码器；

图12示意性地示出了根据一些实施例的附加示例编码器/解码器；

图13示出了根据一些实施例的图12中所示的示例的操作的流程图；以及

图14示出了适用于实现所示装置的示例设备。

具体实施方式

下面更详细地描述了用于提供空间元数据辅助音频信号的有效渲染的合适装置和可能的机制。尽管在以下描述中通篇使用了术语空间元数据，但它通常也可以称为元数据。

如上所述，风噪声是户外音频捕获中的一个重要问题，并且会在分散注意力，或者甚至导致语音可理解性(intelligibility)显著削弱的方面，降低音频质量。

此处更详细讨论的概念是为多麦克风系统实现风噪声降低。采用多个麦克风的系统具有增加的风险，即至少一个麦克风具有显著的捕获的风噪声，以及至少一个麦克风音频信号包括一般信号质量的增加的可能性。

如本文所讨论的装置和方法提供了在以下上下文中尝试改进当前方法的输出的实施例；

通过应用风抑制方法来改进捕获的音频信号；

改进空间参数分析(例如方向确定、声音方向性/环境确定等)。

换句话说，该装置和方法尝试产生更好质量的参数化空间音频捕获或音频聚焦，这通常会产生有噪声的估计的空间元数据，因为空间分析通常将有风的声音检测为与环境相似，并在与无风条件比较时产生更大的波动方向参数。

因此，本文讨论的实施例尝试在参数化音频捕获的上下文中改进传统的风噪声处理，其中，即使在从信号中去除所有风的理想情况下，从麦克风信号估计的空间元数据仍然有噪声。

作为不利情况的一个示例，让我们考虑一个人在有风的情况下说话的情况，其中，风被去除但元数据是有噪声的，参数空间音频捕获的结果是语音可以像环境一样使用去相关器被再现。另一方面，众所周知，语音质量在应用去相关时会迅速削弱，并且因此输出具有非常差的感知音频质量。

在另一个示例中，考虑一个人说话的情况，当空间参数应用于音频聚焦操作时，即使可以去除风，直接与总能量比(direct-to-total energy ratio)参数也可以指示声音主要是环境。基于参数的音频聚焦处理可能已被配置为衰减被认为是环境的信号，并且因此该处理将减少所需的语音信号。

尽管以下公开显式聚焦于风噪声和风噪声源，但产生有点类似噪声的除风之外的其他噪声源(例如设备触摸噪声)、机械或电气部件噪声可以以类似方式来处理。

在此公开的实施例涉及在存在风噪声(和/或也在低频处在麦克风之间基本不相干的其他噪声)的情况下改进具有至少两个麦克风的设备的所捕获音频质量，并且其中实施例将噪声处理应用于至少用于一个频率范围的麦克风信号。在这样的实施例中，该方法可以特征在于：

估计与麦克风音频信号内的噪声相关的能量值，并使用这些能量值来选择或加权具有相对较小噪声量的麦克风音频信号；和/或

估计与麦克风音频信号内的噪声相关的能量值，并基于这些能量值应用增益处理以抑制噪声；和/或

将麦克风音频信号与静态或动态权重结合以抑制噪声，因为噪声在麦克风音频信号之间基本上是不相干的，并且在低频处外部声音基本上是不相干的。

在以下实施例中，处理是在频域内实现的。然而，在一些实施例中，可以至少部分地实现其他域，例如时域。

在以下示例中，与麦克风音频信号内的噪声相关的能量值可以至少在低频处使用来自麦克风对的信号之间的互相关来估计，因为在低频处到达麦克风的声音在麦克风之间基本上是相干的，而在实施例中被缓解的噪声在麦克风之间基本上是不相干的。然而，在一些实施例中，可以使用用于确定与噪声相关的能量估计或能量值的任何合适的方法。此外，应当理解，在一些实施例中，估计的“能量值”可以是与音频信号中的噪声量相关的任何值，例如前述能量值的平方根或包含与音频信号中的噪声的比例相关的信息的任何值。

在一些实施例中，该装置是移动捕获设备，例如移动电话。在这样的实施例中，根据麦克风音频信号估计空间元数据，然后基于麦克风音频信号生成经风噪声处理的音频信号。在这样的实施例中，合成信号处理(基于空间元数据)阶段可以包括标识是否已经应用风噪声处理的输入，然后合成处理基于该输入被改变。例如，在一些实施例中，合成处理被配置为基于是否已应用风噪声处理来不同地再现环境，使得在指示已应用风噪声音频信号处理时环境被再现为是相干的，而不是在没有应用风噪声音频信号处理的情况下，将环境再现为不相干的典型方法。

在一些实施例中，该装置包括移动捕获设备(例如电话)和(远程的或物理分离的)再现设备。在这些实施例中，根据麦克风音频信号估计空间元数据，然后从麦克风音频信号生成经风噪声处理的音频信号。

空间元数据和经噪声处理的音频信号可以被编码以发送给(远程)再现/解码设备。应用编码的示例可以是任何合适的参数空间音频编码技术。

在一些实施例中，捕获设备被配置为修改空间元数据，因为对音频信号执行了风噪声降低处理。例如在一些实施例中：

空间元数据与环境应该被再现为空间相干声音(而不是空间非相干声音)的信息一起被包括，因此避免由于有噪声元数据和由此产生的质量削弱而导致的去相关过程；

直接与总能量比被增加，并且方向参数被转向中心前(centre front)方向(或例如在正上方)。对于非头部跟踪的双耳再现，这将导致更单声道的再现；

已知风不太突出时的附近频图块的空间元数据可以被用于为“有风”时频图块产生空间元数据。

在一些实施例中，“远程再现设备”可以是捕获设备。例如，当音频和元数据被存储到合适的存储器中以便稍后被空间处理成期望的空间输出时。

在一些实施例中，该装置包括移动捕获设备，例如电话。在这些实施例中，分析麦克风音频信号以确定空间元数据估计并且将两种音频波束成形技术应用于麦克风信号。第一波束成形器可以用于锐利(sharp)空间精度，而第二波束成形器可以使用针对风的更稳健的设计(但具有较低的空间精度)。

在这样的实施例中，当检测到锐利波束成形器基本上被风破坏时，系统切换到更稳健的波束成形器。然后可以更改应用于波束成形器输出的基于参数的音频衰减/放大(换言之，后置滤波器)，因为检测到风并且已知空间元数据可能被破坏，并且该方法基于空间元数据减少音频信号的衰减或放大。

一些实施例可能与上述装置和方法不同，因为它不改变基于风噪声降低(WNR)的参数化音频处理。

一些实施例中的装置包括具有两个或更多个麦克风的设备。此外，在一些实施例中，设备从麦克风音频信号估计空间参数(通常至少是频带中的方向参数)。

在一些实施例中，该设备被配置为创建具有两个或更多个声道的音频信号，其中，噪声不如在原始麦克风音频信号中突出，其中，该两个或更多个声道基本上源自设备周围不同位置处的不同麦克风子组。例如，一个麦克风阵列子组可以在手机横向的左端，而另一个子组可以在手机横向的右端。

该设备然后可以基于创建的两个或更多个声道和空间参数来处理输出空间音频信号。这样的实施例的优点可以是将阵列分成子组，所得信号例如有利于渲染双耳输出信号。例如，对于这种渲染，子组信号彼此之间可能具有有利的固有不相干性。

关于图1，示出了根据一些实施例的示例编码器/解码器201的示意图。

如图1所示，示例编码器/解码器201包括麦克风阵列输入203，其被配置为接收麦克风阵列音频信号204。

示例编码器/解码器201还包括前向滤波器组205。前向滤波器组205被配置为接收麦克风阵列音频信号204并生成合适的时频音频信号。例如，在一些实施例中，前向滤波器组205是短时傅立叶变换(STFT)或用于空间音频处理的任何其他合适的滤波器组，例如复调制正交镜像滤波器(QMF)组。产生的时频音频(T/F音频)206可被提供给风噪声降低(WNR)处理器207和空间分析器209。

示例编码器/解码器201还包括WNR处理器207。WNR处理器207被配置为接收T/F音频信号206并且执行合适的风噪声降低处理操作以生成经WNR处理的T/F音频信号208。

风噪声通常在低频处最突出，这也是估计所需信号能量的有利频率范围。特别是，在低频处，该设备不会显著地遮蔽声能，并且到达麦克风阵列的信号能量可以从麦克风对的互相关中估计出来。

例如，将麦克风信号标示为x_m(k，n)，其中，m是麦克风索引，k是滤波器组的频仓(bin)索引，n是时间索引。麦克风对a，b之间的互相关被公式化为：

其中，E表示期望算子，星号(＊)表示复共轭。在实际实现中，期望算子可以用在时间和频率索引k，n附近的合适时频间隔上的平均(mean)算子代替。

在互相关估计处风(和其他非相干)噪声的影响的期望为零，并且因此非风(和非其他类似干扰)信号能量的能量可以在所有麦克风对a、b上近似为例如

e(k，n)＝min(|c_ab(k，n)|)。

在一些实施例中，WNR处理器207在这些低频率处通过以下等式将每个麦克风信号均衡到该目标信号

以得到经风处理的信号x′_a(k，n)。

然而，这只是一个示例。即使均衡处理在能量意义上可以完美执行，但事实仍然是噪声不仅与能量有关，而且还会影响信号的精细频谱/相位结构。例如，语音通常是一种音调的信号，即使频谱相同，它听起来也与噪声非常不同。

因此，在更苛刻的有风条件下(这在户外录音中经常发生)，对于某个频带，风噪声可能会很大，以至于通过将具有确定的最小风噪声的一个输入声道(以适当的增益)复制到经风处理的输出信号的所有声道来获取合适的经风噪声处理的结果。这一个声道可被简单地表示x_min(k，n)和确定为具有最小能量的那个声道x_a(k，n)。信道在不同的频带可能是不同的。最小能量声道也可被能量归一化为

替代地，在一些实施例中，WNR处理器被配置为不是选择一个声道，而是组合具有不同权重的多个麦克风信号，从而相对于外部声音的风噪声(或其他类似噪声)的能量被最小化。

在一些实施例中，WNR处理器207被配置为与WNR应用确定器211结合工作。WNR应用确定器211可以在WNR处理器207内实现或者在一些实施例中可以是分开的(例如为了清楚起见，如图所示)。WNR应用确定器211可以被配置为生成应用信息212，其可以例如是0和1之间的值γ，指示风噪声处理的量或强度。例如，其中，M是麦克风的数量。该参数可被确定为例如

其中，结果值被限制在0和1之间的范围内。这只是一个示例，可以设计其他公式来获取参数，例如γ(k，n)。例如，在极端多风的条件下，WNR设备可能会使用计时器来保持值接近于1。该参数可用于控制组合非经WNR处理的音频x_a(k，n)、经增益WNR处理的音频x′_a(k，n)和经单声道WNR处理的音频x′_min(k，n)的WNR处理方法。在下文中，为了清楚起见，我们省略了索引(k，n)。可以确定以下公式：

换句话说，当γ＝0时，WNR输出与麦克风输入x_a(未处理)相同，当γ＝1/3时，WNR输出是x′_a(保守增益处理)，当γ＝2/3或更高时，WNR输出是x′_min，这是最激进的单声道输出处理模式。上面的等式只是一个示例，并且可以实现模式之间的不同插值。

WNR应用参数γ212被提供给空间合成器213。WNR处理器207还被配置为将经WNR处理的时频信号208输出给空间合成器213。这些时频信号可以具有M个声道(即，a＝1..M))或少于M个声道。例如，在一些实施例中，WNR输出是(大部分)对应于左右麦克风对齐的声道对(当WNR输出不是单声道时)。这可以作为经风处理的信号被提供。在一些实施例中，这可以基于从麦克风位置输入225提供的麦克风位置信息226。在一些实施例中，麦克风位置输入225是标识装置上麦克风的相对位置的已知配置数据。

示例编码器/解码器201还包括空间分析器209。空间分析器209被配置为接收非经WNR处理的时频麦克风音频信号并根据任何合适的方法确定合适的空间元数据210。

关于图2，示出了具有示例麦克风布置的示例设备或装置配置。设备301被示为横向定向并从其边缘(或最短尺寸)观察。在该示例中，示出了位于设备的一个面(正面或侧面)上的第一对麦克风，麦克风A 303和麦克风B 305，以及位于与该一个面(正面或侧面)相对并且与麦克风A 303相对的面上(背面或侧面)的第三麦克风，麦克风C 307。

对于这样的麦克风布置，空间分析器209可以被配置为首先在频带中根据在麦克风对A-B之间产生最大相关性的延迟值来确定-90度和90度之间的方位角值。然后还针对麦克风对A-C执行不同延迟下的相关性分析。然而，由于A和C之间的距离很小，延迟分析可能会相当嘈杂，并且因此只能从该麦克风对中确定二进制前后值。当观察到“背面”值时，方位角参数被镜像到背面或正面。例如，80度的方位角被镜像到100度的方位角。通过这些方式，为每个频带确定方向参数。此外，可以基于麦克风对A-B之间的归一化(介于0和1之间)的互相关值在频带中确定直接与总能量比。方向和比率则是提供给空间合成器213的空间元数据210。

因此，在一些实施例中，空间分析器209被配置为确定空间元数据，包括频带中的方向和直接与总能量比。

示例编码器/解码器201还包括空间合成器213。空间合成器213被配置为接收经WNR处理的时频信号208、WNR应用信息212、麦克风位置输入信号226和空间元数据210。一些实施例中的WNR相关处理被配置为使用已知的空间处理方法作为处理的基础。例如，接收的信号的空间处理可以如下：

1)基于空间元数据中的直接与总能量比，将时频声音按频带划分为直接信号和环境信号

2)直接部分在每个频带根据空间元数据中的方向参数使用头部相关传递函数(HRTF)、全景声(Ambisonic)平移增益或矢量-基幅平移(VBAP)增益进行处理，具体取决于输出格式。

3)环境部分用去相关器处理成输出格式。例如，全景声和扬声器输出在输出声道之间具有环境不相干，而双耳输出要求声道间相关性是根据双耳漫射场相关性的相关性。

4)直接和环境部分被组合以生成时频空间输出信号。

在一些实施例中，可以使用最小二乘优化混合来实现更复杂但可能更高质量的渲染以基于输入信号和空间元数据生成空间输出。

空间合成器213还可以被配置为利用0和1之间的WNR应用参数γ。例如，空间合成器213可以被配置为利用WNR应用参数以避免过度的空间化处理，并且从而避免经单声道WNR处理的声音被完全去相关并且在空间上不相干地分布。这是因为完全去相关的单声道WNR音频信号可能具有降低的感知质量。因此，例如缓解不稳定空间元数据对空间合成的影响的简单而有效的方式是减少环境处理中的去相关量。

在一些实施例中，空间合成器213被配置为基于麦克风位置输入信息处理音频信号。

空间合成器213被配置为将经处理的T/F音频信号214输出到逆滤波器组215。

示例编码器/解码器201还包括逆滤波器组215，其被配置为接收经处理的T/F音频信号214并应用对应于所应用的滤波器组205的逆变换。

逆滤波器组215的输出是脉冲编码调制(PCM)形式的空间音频输出216，并且在该示例中可以是可以通过耳机再现的双耳输出信号。

图3更详细地示出示例空间合成器213。在该特定示例中，仅提供两个经WNR处理的音频声道作为输入(左输入401和右输入411)。在一些实施例中，空间合成器213包括一对分离器(左分离器403和右分离器413)。经WNR处理的音频信号声道在频带中由分离器基于能量比参数划分为直接分量和环境分量。

例如，对于频带使用直接与总能量比参数r(1表示完全直接，0表示完全环境)，在频带中，直接分量可以是音频声道乘以环境分量可以是音频声道乘以/>

空间合成器213可以包括去相关器(左去相关器405和右去相关器415)，其被配置为接收和处理左和右环境部分信号。由于输出是双耳的，这些去相关器被设计为它们提供作为频率函数的声道间相干性，其是漫射场中人类听众的耳间相干性。

空间合成器213可以包括混音器(左混音器407和右混音器417)，其被配置为接收去相关的和原始(或旁路的)信号，其还接收WNR应用参数γ。

在一些实施例中，空间合成器213被配置为避免特别是经单声道WNR处理的音频被去相关器合成为环境的情况。如前所述，在强风中，有效WNR通过选择/切换/混合在麦克风处可用的最佳可能信号来生成单声道(或更准确地说：相干)输出。然而，在这些情况下，空间元数据通常指示音频是环境，即r接近0。因此，大部分声音能量是环境信号。当观察到较大的WNR应用参数r值时，混音器被配置为在环境分量生成时利用旁路信号而不是去相关信号。因此确定环境混合参数m(遵循早期WNR处理如何生成单声道信号的原则)

然后“混合”块将去相关信号乘以并且将旁路信号乘以/>并将结果相加作为输出。

空间合成器213可以包括电平和相位处理器(左电平和相位处理器409以及右电平和相位处理器419)，其被配置为同样在频带中接收直接分量并且基于头部相关传递函数(HRTF)处理这些直接分量，其中，HRTF是基于频带中的到达方向参数依次选择的。一个示例是电平和相位处理器被配置为将频带中的直接左信号和右信号乘以适当的HRTF。另一个示例可以是电平和相位处理器被配置为监控直接左信号和右信号已经具有的相位和电平差，并应用相位和能量校正增益，使得直接部分根据适当的HRTF达到相位和电平特性。

空间合成器213还包括组合器(左组合器410和右组合器420)，其被配置为接收电平和相位处理器(直接分量)和混音器(环境分量)的输出以生成双耳左T/F音频信号440和双耳右T/F音频信号450。

关于图4，示出了示例流程图，其示出了图1和图3所示装置的操作。

第一操作是从麦克风阵列获取音频信号中的操作，如图4通过步骤501所示。

从麦克风阵列获取音频信号后，进一步的操作是应用风噪声降低音频信号处理，如图4中的步骤503所示。

另外，如图4中的步骤504所示，确定空间元数据。

在应用了风噪声降低音频信号处理并确定了空间元数据之后，该方法可以包括使用空间元数据和关于风噪声降低音频信号处理的应用的信息来处理音频输出，如图4中的步骤505所示。

然后可以将音频输出提供为输出，如图4中的步骤507所示。

另一系列实施例可以类似于图1中描述的方法。然而，在这些实施例中，音频在编码器处理(发生WNR的地方)和解码器处理(发生空间合成的地方)之间作为位流被存储/传输。编码器和解码器处理可以在相同或不同的设备上。存储/传输可以是例如存储到电话存储器，或者流传输或以其他方式传输到另一个设备。存储/传输还可以使用服务器，服务器从编码器侧获取位流并将其提供(例如在稍后的时间)给解码器侧。编码可以涉及任何编码，例如AAC、FLAC或任何其他编解码器。在一些实施例中，编码是没有进一步编码的PCM信号。

关于图5，示出了用于实现进一步系列的实施例的示例系统601。系统601被示为包括被配置为接收麦克风阵列音频信号604的麦克风阵列603。

系统601还包括编码器处理器605(其可在捕获设备处实现)和解码器处理器607(其可在远程再现设备处实现)。编码器处理器605被配置为基于麦克风阵列输入604生成位流606。位流606可以是任何合适的参数空间音频流。在一些实施例中，位流606可以与实时通信或流传输有关，或者它可以作为文件被存储到本地存储器或作为文件被发送到另一个设备。解码器处理器607被配置为读取位流606并产生空间音频输出608(用于耳机、扬声器、全景声)。

关于图6，更详细地示出了示例编码器处理器605。

在一些实施例中，编码器处理器605包括前向滤波器组705。前向滤波器组705被配置为接收麦克风阵列音频信号604并生成合适的时频音频信号706。例如在一些实施例中，前向滤波器组705是短时傅立叶变换(STFT)或用于空间音频处理的任何其他合适的滤波器组，例如复调制正交镜像滤波器(QMF)组。产生的时频音频(T/F音频)706可被提供给风噪声降低(WNR)处理器707和空间分析器709。

示例编码器处理器605还包括WNR处理器707。WNR处理器707可以类似于关于图1描述的WNR处理器207并且被配置为接收T/F音频信号706并且执行合适的风噪声降低处理操作以生成经WNR处理的T/F音频信号708到逆滤波器组715。

在一些实施例中，WNR处理器707被配置为与WNR应用确定器711结合工作。WNR应用确定器711可以在WNR处理器707内实现或者在一些实施例中可以是分开的(例如为了清楚起见，如图所示)。WNR应用确定器711可以类似于上述示例。

WNR应用参数γ712可以被提供给空间元数据修改器713。WNR处理器707还被配置为将经WNR处理的时频信号708输出到逆滤波器组715。

示例编码器处理器605还包括空间分析器709。空间分析器709被配置为接收非经WNR处理的时频麦克风音频信号并根据任何合适的方法确定合适的空间元数据710。

因此，在一些实施例中，空间分析器709被配置为确定由频带中的方向和直接与总能量比组成的空间元数据到空间元数据修改器713。

示例编码器处理器605还包括空间元数据修改器713。空间元数据修改器713被配置为接收频带中的空间元数据710(其可以是方向和直接与总能量比或其他类似的D/A比)和WNR应用信息712。空间元数据修改器被配置为基于γ调整空间元数据值，并输出经修改的空间元数据714。

在一些实施例中，空间元数据修改器713被配置为生成环绕相于参数(其在GB专利申请1718341.9中引入，并且在GB专利申请1805811.5中针对麦克风阵列输入被进一步阐述)。该参数是一个介于0和1之间的值，并指示环境是否应被再现为空间不相干(值0)或空间相干(值1)，或介于两者之间。该参数可以有效地用于WNR的当前上下文。特别地，空间元数据修改器713可以被配置为将空间元数据处的环绕相干参数设置为与环境混合参数m(其被公式化为如上所述γ的函数)相同。结果，以与上述类似的方式，这导致当γ高时应该相干地再现环境的情况。

替代地，例如，当环绕相干参数在特定空间音频格式中不可用时，空间元数据修改器713被配置为将方向参数转向中心，并在观察γ的高值时增加直接与总能量比值。

关于图7示出了这种修改的示例映射。对于双耳再现，这会导致这样的情况，其中在存在风噪声的情况下应该再现为环境的现在被再现为靠近听者的中间平面的直接声音，即类似于双耳耳机播放的单声道再现。此外，将方向转向中心也稳定了风中波动方向参数的影响。

上述方法对双耳再现有效，并且仅在不使用头部跟踪时才有效。替代地，在一些实施例中，空间元数据修改器713被配置为朝向顶部仰角方向更新方向参数，而不是朝向中心前部更新方向参数。在该示例中，即使在最终再现时应用头部跟踪，只要头部仅在偏航(yaw)轴上旋转，则结果可能是有效的。

在一些实施例中，编码器处理器605还包括逆滤波器组715，其被配置为接收经WNR处理的T/F音频信号并应用对应于所应用的前向滤波器组705的逆变换。

逆滤波器组715的输出是PCM音频输出716，其被传送到编码器/多路复用器717。

在一些实施例中，编码器处理器605包括编码器/多路复用器717。编码器/多路复用器717被配置为接收PCM音频输出716和修改的空间元数据714。编码器/多路复用器717例如用AAC或EVS音频编解码器(取决于应用的编码器)对音频信号进行编码，并且修改后的空间元数据被嵌入到具有潜在编码的位流中。音频位流也可以与视频流一起在同一媒体容器中传送。

图8中更详细地示出了解码器处理器607。在一些实施例中，解码器处理器607包括解码器和解复用器901。解码器和解复用器901被配置为检索位流606并对音频信号902和空间元数据900进行解码。

解码器处理器607还可以包括前向滤波器组903，其被配置为将音频信号902变换到时频域并输出T/F音频信号904。

解码器处理器607还可包括空间合成器905，其被配置为接收T/F音频信号904和空间元数据900并相应地产生时频域中的空间音频输出、T/F空间音频信号906。

解码器处理器607还可以包括逆滤波器组907，逆滤波器组907将T/F空间音频信号906变换到时域作为空间音频输出908。

除了WNR应用参数不可用之外，空间合成器905可以利用如图3所示的所描述的合成器。在这种情况下，

-如果环绕相于参数已被发信号通知，则应用它代替环境混合值m。

-如果环绕相干参数没有被发信号通知，则替代例示的情况是元数据的方向和比率值被修改。如果是这种情况，则可以如上所述执行处理，但假设m＝0。

关于图9，示出了进一步的示例空间合成器905。在一些实施例中，该进一步的示例空间合成器905可以用作如前所述的空间合成器的替代。该类型的空间合成器在GB专利申请1718341.9的上下文中进行了广泛详细的解释，该申请引入了空间音频编码中对环绕相干(以及扩展相干)参数的使用。GB专利申请1718341.9还描述了除双耳.之外的其他输出模式，还包括环绕扬声器输出和全景声输出，它们也是本实施例的可选输出。

在一些实施例中，空间合成器905包括测量器1001，其被配置为接收输入T/F音频信号904并测量输入信号协方差矩阵(在频带中)1000并将其提供给公式器1007。测量器1001被进一步配置为确定总能量值1002并将其传递给确定器1003。该能量估计可以作为测量的协方差矩阵的对角线之和来获取。

在一些实施例中，空间合成器905包括确定器1003。确定器1003被配置为接收总能量估计1002和(修改的)空间元数据900并确定被输出到公式器1007的目标协方差矩阵1004。该确定器可以被配置为构建目标协方差矩阵，该矩阵是确定输出信号的能量和互相关的矩阵。例如，能量值影响目标协方差矩阵的总能量(对角线和)，并且HRTF处理影响声道之间的能量和交叉项(cross-term)。作为进一步的示例，环绕相干参数影响交叉项，因为它确定是否应该根据典型环境或完全相干地用声道间相干来再现环境。确定器因此以目标协方差矩阵的形式封装能量和空间元数据信息并将其提供给公式器1007。

在一些实施例中，空间合成器905包括公式器1007。公式器1007被配置为接收输入协方差矩阵1000和目标协方差矩阵1004并确定可以被传递到混音器1009的最小二乘优化混合矩阵(混合数据)1008。

空间合成器905还包括去相关器1005，其被配置为生成T/F音频信号904的去相关版本并将去相关的T/F音频信号1006输出到混音器1009。

空间合成器905还可以包括混音器1009，其被配置为将混音数据1008应用于T/F音频信号904和去相关的T/F音频信号1006以生成T/F空间音频信号输出906。当输入端没有足够的突出的独立信号以生成该目标，则去相关信号也被混合到输出。

关于图10，示出了根据本文描述的进一步实施例的操作的示例流程图。

第一操作是从麦克风阵列获取音频信号的一个操作，如图10中的步骤1101所示。

从麦克风阵列获取音频信号后，进一步的操作是应用风噪声降低音频信号处理，如图10中的步骤1103所示。

另外确定空间元数据，如图10中的步骤1104所示。

在应用风噪声降低音频信号处理并确定空间元数据之后，该方法可以包括基于关于风噪声处理的应用的信息来修改空间元数据，如图10中的步骤1105所示。

下面的步骤是使用经修改的空间元数据处理音频输出的步骤，如图10中的步骤1107所示。

然后可以将该音频输出提供作为输出，如图10中的步骤1109所示。

关于图11，示出了一些进一步的实施例。在一些实施例中，装置1201包括麦克风阵列输入1203，其被配置为接收麦克风阵列音频信号1204。在该实施例中，实现参数化处理以执行音频聚焦，包括1)波束成形和2)后置滤波，其是对波束成形的输出进行增益处理，以进一步提高音频聚焦性能。

示例装置1201还包括前向滤波器组1205。前向滤波器组1205被配置为接收麦克风阵列音频信号1204并生成合适的时频音频信号。产生的时频音频(T/F音频)1206可被提供给空间锐利波束成形器1221、抗风波束成形器1223和空间分析器1209。

示例装置1201可以包括空间分析器1209。空间分析器1209被配置为接收时频麦克风音频信号1206并根据任何合适的方法确定合适的空间元数据1210。

时频音频信号被提供给两个波束成形器，第一波束成形器是空间锐利的波束成形器1221，它是“空间锐利的”并被配置为输出空间锐利的波束成形器输出1222，第二波束成形器是抗风波束成形器1223，它是“抗风的”并且被配置为输出抗风的波束成形输出1224。例如，空间锐利的波束成形器1221可以被设计成使得诸如混响(reverberation)的外部环境被最大程度地衰减。另一方面，抗风波束成形器1223可被设计为最大限度地衰减麦克风之间的非相干噪声。这两个波束成形器1221和1223结合WNR应用确定器1211工作。WNR应用确定器1211被配置为在频带中确定空间锐利的波束成形器输出1222是否已经被风噪声过度破坏，例如，通过监控如果与平均麦克风能量相比输出能量是否超过阈值来确定。当决定对于频带空间锐利波束成形器输出1222已被风噪声破坏时，则WNR应用参数γ1212被设置为值1，否则为0。可以将该参数1212提供给选择器1225。

该选择器被配置为接收空间锐利波束成形输出1222和抗风波束成形输出1224以及WNR应用信息1212。选择器被配置为当γ＝0时使空间锐利波束器1222的输出通过以作为它的输出，以及当γ＝1时，使抗风波束成形器1224的输出通过以作为它的输出。所通过的波束成形器信号1226被提供给后置滤波器1227。参数γ和通过选择在不同频带可以不同。

后置滤波器被配置为接收通过的波束成形器信号1226和WNR应用信息1212，并且如果方向参数距离确定的聚焦方向高于阈值和/或如果直接与总能量比指示音频大部分是非定向的，则进一步衰减音频。例如，在angle_diff是针对频带的聚焦方向和方向参数之间的角度差的情况下，增益函数可以是

然而，当后置滤波器1227接收到参数γ＝1时，方向和比率元数据可能不可靠并且该值被覆盖为

g_focus＝min(1，g′_focus+0.5).

当γ＝0时，则g_focus＝g′_focus。

对于每个频带，(选择的)波束成形器的输出然后乘以对应的g_focus，并且结果1228被提供给逆滤波器组1229。

实施例中的装置1201还包括逆滤波器组1229，其被配置为从后置滤波器1227接收T/F聚焦音频信号1228并应用对应于所应用的前向滤波器组1205的逆变换。

逆滤波器组1229的输出是聚焦音频信号1230。

关于图12示出了另一示例实施例。在一些实施例中，装置1301包括麦克风阵列输入1303，其被配置为接收麦克风阵列音频信号1304。

示例装置1301还包括前向滤波器组1305。前向滤波器组1305被配置为接收麦克风阵列音频信号1304并生成合适的时频音频信号。产生的时频音频(T/F音频)1306可以从麦克风子组处理器1307和空间分析器1309被提供给WNR。

示例装置1301可以包括空间分析器1309。空间分析器1309被配置为接收时频麦克风音频信号1306并根据任何合适的方法确定合适的空间元数据1310。

示例装置1301可以包括来自麦克风子组处理器1307的WNR。来自麦克风子组处理器1307的WNR被配置为接收时频音频信号1306并且生成经WNR处理的T/F音频信号1308。WNR处理被配置为使得处理输出有N个(通常为2个)声道，其中，每个WNR输出基本上源自定义的麦克风子组。例如，移动电话(例如如图所示)可具有三个麦克风，两个在左侧，一个在右侧。那么WNR可被配置如下：

-在低频处，从所有麦克风对的互相关估计针对频带的目标能量e(k，n)(如以上实施例中所述)

-左WNR输出是通过在频带中选择两个左麦克风信号中的具有最小能量的一个左麦克风信号来生成的，并且结果被根据e(k，n)(如上面关于x′_min的生成所解释的)进行能量校正

-右WNR输出是通过根据e(k，n)校正一个右麦克风信号的能量来生成的(如上面关于x′_a的生成所解释的)

来自麦克风子组处理器的WNR的结果是经WNR处理的立体声信号1308，其对于空间合成器1391具有有利的左右间距。

在一些实施例中，装置1301包括空间合成器1391，其被配置为接收经WNR处理的立体声信号1308和空间元数据1310。本实施例中的空间合成器1391不需要知道WNR已经被应用，因为WNR处理不依靠最激进(和有效)的产生单声道/相干WNR输出的方法。然而，在一些实施例中，空间合成器1391被配置为接收WNR信息，并相应地执行任何调整，例如向中心移动方向参数并增加直接与总体比值，如以上实施例中所述。

在一些实施例中，左子组麦克风信号可以被组合(例如，相加)而不是被选择来生成左WNR输出。类似地，组合可用于其他子组。

空间合成器1391可以实现如上述实施例中描述的空间合成处理方法，其确保以最小二乘优化的方式从(两个)声道处理输出双耳信号。空间合成器1391可以被配置为将T/F空间音频信号1392输出到逆滤波器组1311。

实施例中的装置1301还包括逆滤波器组1311，其被配置为从空间合成器1391接收T/F空间音频信号1392并应用对应于所应用的前向滤波器组1305的逆变换。

逆滤波器组1311的输出是空间音频信号1312。

关于图13，示出了根据在此描述的进一步实施例的操作的示例流程图。

第一操作是从麦克风阵列获取音频信号的操作，如图13中的步骤1401所示。

从麦克风阵列获取音频信号后，进一步的操作是对第一麦克风子组应用风噪声降低音频信号处理的操作，如图13中的步骤1403所示。

此外，该方法可以对第二麦克风子组应用风噪声降低音频信号处理，如图13中的步骤1404所示。麦克风子组可以重叠或不重叠。

另外，确定空间元数据，如图13中的步骤1405所示。

已经对第一和第二麦克风子组应用了风噪声降低音频信号处理并且已经确定了空间元数据，该方法可以包括修改空间元数据和使用修改后的空间元数据处理音频输出，如图13中的步骤1407所示。

然后可以将该音频输出提供为输出，如图13中的步骤1409所示。

在上面示出的示例中，装置被示出为带有麦克风(和摄像头)的移动电话。然而，任何合适的装置都可以实现一些实施例，例如数字SLR或紧凑型相机、头戴式设备(例如智能眼镜、带麦克风的耳机)、平板电脑或膝上型电脑。

智能电话和许多其他具有麦克风的典型设备具有执行根据本文描述的实施例的处理的处理能力。例如，可以实现可以在电话上运行并执行必要任务的软件库，并且该软件库可以被捕获软件、播放软件、通信软件或在该设备上运行的任何其他软件使用。通过这些方式，该软件和运行该软件的设备可以获取根据本发明的特征。

带有麦克风的设备可以将麦克风信号传送到另一个设备。例如，类似于电话会议相机/麦克风设备的设备可以将音频信号(连同视频)传送到膝上型电脑，在那里进行音频处理。

在一些实施例中，典型的实施方式是这样的，其中，所有处理都在捕获时间在移动电话处发生。在这种情况下，这些实施例中的所有处理步骤都作为电话上的视频(和音频)捕获软件的一部分运行。经处理的音频通常以编码形式(例如使用AAC)与同时捕获的视频一起被存储到手机的存储器中。在典型配置中，音频和视频一起被存储在手机存储器中的媒体容器中，例如mp4文件。然后可以将该文件作为任何常规媒体文件进行查看、共享或传输。

在一些实施例中，音频(连同视频)在捕获时间被流传输。不同之处在于在捕获期间传输编码的音频(和视频)输出。流传输的媒体可以同时还被存储到执行流传输的设备的存储器中。

作为上述实施例的补充或替代，移动电话的捕获软件可以将麦克风信号以原始PCM形式存储到电话存储器中。可以在捕获后的时间处访问麦克风信号，然后可以通过手机上的媒体查看/编辑软件来执行根据实施例的处理。例如，在捕获后的时间处，用户可以调整一些捕获参数，例如聚焦方向和聚焦量，以及WNR处理的强度。然后，经处理的结果可能关联于与原始麦克风信号同时捕获的视频。

在一些实施例中，代替存储原始麦克风音频信号，存储另一组数据：经风处理的信号、与风处理的应用相关的信息和空间元数据。例如，在图1中，WNR处理器的输出可被存储在T/F域中，或转换为时域然后存储，和/或用例如AAC编码来编码然后存储。与风处理的应用相关的信息和空间元数据可被存储为单独的文件或与经风处理的音频一起嵌入。然后在捕获后的时间处，应用对应的解码/解复用/时频变换过程，并可以将经风处理的音频信号、与风处理的应用相关的信息、和空间元数据提供给空间合成过程。所有这些过程都由手机中的软件执行。

在一些实施例中，原始音频信号与视频一起被传送给服务器/云，在那里进行根据实施例的处理。潜在的用户控制可以使用第三方设备上的网络接口进行。

在一些实施例中，编码和解码设备是不同的：麦克风信号到位流的处理发生在一个移动电话的捕获软件内。移动电话通过任何可用网络将编码位流流传输(或在捕获后传输)给远程设备，该远程设备可以是另一移动电话。然后，该远程移动电话上的媒体播放软件对PCM输出的位流进行处理，将其转换为模拟信号并例如通过耳机进行再现。

在一些实施例中，编码和解码设备是相同的：所有处理都在同一设备内进行。代替流传输或传输，移动电话将位流存储到设备的存储器中。然后，在稍后阶段，该位流被手机中的播放软件访问，该软件能够读取和解码该位流。

示例示出了如何实现这些方法。然而，在音频信号处理中，通常可以将各种处理步骤组合成统一的处理步骤，并且在某些情况下，可以以不同的顺序应用处理步骤，同时获取相似的结果。例如，在一些实施例中，首先对麦克风信号执行风处理，然后对所得的经风处理的信号执行其他处理(基于空间元数据)以生成空间化输出。例如，与风处理相关的增益首先被应用于麦克风信号，然后与HRTF相关的复合增益被应用于所得的信号。然而，很明显，这些连续的增益处理步骤可以组合起来：这些增益集彼此相乘，然后被应用于麦克风信号。这样做后，实际上两个增益就可以在一个统一的步骤中应用于麦克风信号。当在任何步骤中执行信号混合时这同样适用。信号混合可被表示为矩阵运算，并且矩阵运算可以通过矩阵乘法组合成统一的矩阵运算。因此，重要的是要理解，即使执行相同或相似的处理，系统到特定处理块的确切顺序和划分也可能因实施方式而异。

一些实施例被配置为在存在风噪声的情况下为具有应用参数化音频捕获技术的至少两个麦克风的设备改进捕获的音频质量。参数化音频捕获、风处理和基于风处理调整参数化音频捕获可以是性能良好的捕获设备中的操作。因此，实施例相对于没有参数化捕获的设备进行了改进，因为此类没有参数化捕获的设备仅限于传统的线性音频捕获技术，传统的线性音频捕获技术对于大多数捕获设备而言提供窄且非空间化的音频图像，而参数化捕获可以提供宽阔、听起来自然的空间音频图像。

此外，这样的实施例相对于没有风处理捕获音频的设备进行了改进，因为在典型的大风天它们产生严重失真的音频质量。

一些实施例包括比具有风处理和参数化音频捕获但是没有基于风处理调整参数化音频捕获的设备改进的设备，因为这些设备由于风破坏参数估计而导致参数化音频处理配置不当。结果，即使风处理性能良好，也会出现几种情况，其中，由于空间元数据损坏而导致的参数化处理会导致捕获的音频质量显著下降。

一些实施例成功地在存在风噪声的情况下稳定参数化音频捕获。需要注意的是，该改进也适用于其他类似的噪声，例如设备触摸噪声(例如来自用户的手，或由于设备是动作或随身相机与用户的衣服或设备接触)、电子噪声、机械噪声和麦克风噪声。

一些实施例可以与独立的音频捕获设备(例如捕获用于视频的音轨的智能电话)一起工作，也可以与使用任何合适的音频编码器的捕获设备一起工作，其中，参数化音频渲染在远程渲染设备处发生。

关于图14，示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1700是移动设备、用户设备、平板电脑、计算机、音频播放装置等。

在一些实施例中，设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行各种程序代码，例如本文描述的方法。

在一些实施例中，设备1700包括存储器1711。在一些实施例中，至少一个处理器1707耦合到存储器1711。存储器1711可以是任何合适的存储模块。在一些实施例中，存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1711可以进一步包括用于存储数据的存储数据部分，例如根据本文所述的实施例已被处理或将被处理的数据。存储在程序代码部分中的实现的程序代码和存储在存储数据部分中的数据可以在需要时通过存储器-处理器耦合由处理器1707检索。

在一些实施例中，设备1700包括用户接口1705。在一些实施例中，用户接口1705可以耦合到处理器1707。在一些实施例中，处理器1707可以控制用户接口1705的操作并且从用户接口1705接收输入。在一些实施例中，用户接口1705可以使用户能够例如通过小键盘向设备1700输入命令。在一些实施例中，用户接口1705可以使用户能够从设备1700获取信息。例如，用户接口1705可以包括被配置为向用户显示来自设备1700的信息的显示器。在一些实施例中，用户接口1705可以包括能够将信息输入到设备1700并且进一步向设备1700的用户显示信息的触摸屏或触摸接口。在一些实施例中，用户接口1705可以是用于如此处描述的那样与位置确定器通信的用户接口。

在一些实施例中，设备1700包括输入/输出端口1709。在一些实施例中，输入/输出端口1709包括收发器。在这样的实施例中的收发器可以耦合到处理器1707并且被配置为例如通过无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发器或任何合适的收发器或发射器和/或接收器模块可以被配置为通过有线或有线耦合与其他电子设备或装置进行通信。

收发器可以通过任何合适的已知通信协议与进一步的装置通信。例如，在一些实施例中，收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(例如IEEE 802.X)、合适的短距离射频通信协议(例如蓝牙)，或红外数据通信通路(IRDA)。

收发器输入/输出端口1709可以被配置为接收信号并且在一些实施例中通过使用执行合适代码的处理器1707来确定本文描述的参数。此外，该设备可以生成合适的传输信号和参数输出以传输到合成设备。

在一些实施例中，设备1700可以用作合成设备的至少一部分。因此，输入/输出端口1709可以被配置为接收传输信号以及在一些实施例中如本文所述的在捕获设备或处理设备处确定的参数，并且通过使用执行合适代码的处理器1707来生成合适的音频信号格式输出。输入/输出端口1709可以耦合到任何合适的音频输出，例如到多声道扬声器系统和/或耳机(可以是头戴式或非跟踪式耳机)或类似物。

在上面的示例中，装置估计与噪声相关联的能量值。然而，在一些实施例中，其他类似的参数或值可以用于相同的目的，并且术语“能量值”应该被广义地理解。例如，能量值可以是幅度值或包含与麦克风音频信号中的噪声量相关的信息的任何值。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以用硬件实现，而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件实现，但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应该理解，本文描述的这些框、装置、系统、技术或方法可以作为非限制性示例以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件实现，或通过硬件、或通过软件和硬件的组合实现。此外，在这方面，应当注意，如图中的逻辑流程的任何块可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片的物理介质或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术(例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个，作为非限制性示例。

可以在诸如集成电路模决的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，例如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序，使用完善的设计规则以及预先存储的设计模块库自动路由导体并在半导体芯片上定位元件。一旦完成半导体电路的设计，就可以将标准化电子格式(例如Opus、GDSII等)的所得设计传输到半导体制造设施或“fab”以进行制造。

前面的描述通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入本发明的范围内。

Claims

1.一种用于音频处理的装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

从至少两个麦克风获取至少两个音频信号，其中，所述至少两个音频信号至少部分地包括在所述至少两个音频信号之间基本不相干的噪声；

估计与所述至少两个音频信号内的所述噪声相关联的值；

基于与所述噪声相关联的所述值处理所述至少两个音频信号中的至少一个音频信号；以及

获取与所述至少两个音频信号和所估计的值相关联的空间元数据。

2.根据权利要求1所述的装置，其中，经处理的所述至少两个音频信号中的至少一个音频信号致使所述装置：

确定应用于所述至少两个音频信号中的至少一个音频信号的权重；以及

对所述至少两个音频信号中的所述至少一个音频信号应用所述权重以抑制所述噪声。

3.根据权利要求1所述的装置，其中，经处理的所述至少两个音频信号中的至少一个音频信号致使所述装置：基于与所述噪声相关联的所述值选择所述至少两个音频信号中的至少一个音频信号以抑制所述噪声。

4.根据权利要求1所述的装置，其中，经处理的所述至少两个音频信号中的至少一个音频信号致使所述装置：

基于与所述噪声相关联的所述值生成对所述至少两个音频信号的选择的加权组合以抑制所述噪声。

5.根据权利要求1所述的装置，其中，与所述噪声相关联的所述值是以下至少之一：

与所述噪声相关联的能量值；

基于与所述噪声相关联的能量值的值；

与所述至少两个音频信号内所述噪声的比例相关的值；

与所述至少两个音频信号内非噪声信号分量的比例相关的值；以及

与所述至少两个音频信号内所述非噪声信号分量的能量或幅度相关的值。

6.根据权利要求1所述的装置，其中，所述装置还被致使：基于所述空间元数据处理所述至少两个音频信号中的所述至少一个音频信号。

7.根据权利要求6所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的至少一个音频信号致使所述装置：生成至少两个基于空间元数据的经处理的音频信号，并且所述装置被致使：处理所述至少两个基于空间元数据的经处理的音频信号中的至少一个。

8.根据权利要求6所述的装置，其中，经处理的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：生成至少两个基于噪声的经处理的音频信号，并且所述装置被致使：处理所述至少两个基于噪声的经处理的音频信号中的至少一个。

9.根据权利要求8所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号是基于经处理的所述至少两个音频信号中的所述至少一个音频信号或受其影响。

10.根据权利要求9所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：

基于所述空间元数据生成将渲染的至少两个经处理的音频信号；

基于所述至少两个经处理的音频信号生成至少两个去相关音频信号；以及

基于对所述至少两个音频信号中的所述至少一个音频信号的处理，控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成将输出的至少两个音频信号。

11.根据权利要求9所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的至少一个音频信号致使所述装置：

基于对所述至少两个音频信号中的所述至少一个音频信号的处理来修改所述空间元数据；以及

基于经修改的空间元数据生成将渲染的至少两个经处理的音频信号。

12.根据权利要求9所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：

生成至少两个波束成形器；

将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的至少两个波束成形版本；以及

基于与所述噪声相关联的所述值选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

13.根据权利要求6所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的至少一个音频信号是组合的处理操作。

14.根据权利要求1所述的装置，其中，所述噪声是以下中的至少一种：

风噪声；

机械部件噪声；

电气部件噪声；

设备触摸噪声；以及

所述麦克风之间基本不相干的噪声。

15.一种用于音频处理的装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获取至少两个经处理的音频信号，其中，所述至少两个经处理的音频信号是从来自至少两个麦克风的至少两个音频信号中处理的，并且所述至少两个经处理的音频信号已经至少部分地基于与在所述至少两个音频信号之间基本不相干的噪声相关联的值进行了处理；

获取与所述处理相关联的至少一个处理指示符；

获取与所述至少两个音频信号以及所获取的至少一个处理指示符相关联的空间元数据，用于渲染所述至少两个音频信号中的至少一个音频信号；以及

处理所述至少两个经处理的音频信号中的至少一个音频信号，对所述至少两个经处理的音频信号中的所述至少一个音频信号的处理是基于所述空间元数据。

16.根据权利要求15所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：

基于与所述处理相关联的所述至少一个处理指示符，控制所述至少两个经处理的音频信号和所述至少两个去相关音频信号的混合以生成要输出的至少两个音频信号。

17.根据权利要求15所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：

基于与所述处理相关联的所述至少一个处理指示符来修改所述空间元数据；以及

18.根据权利要求15所述的装置，其中，经处理的将渲染的所述至少两个音频信号中的所述至少一个音频信号致使所述装置：

生成至少两个波束成形器；

将所述至少两个波束成形器应用于所述至少两个音频信号以生成所述至少两个音频信号的波束成形版本；以及

基于与所述处理相关联的至少一个处理指示符，选择所述至少两个音频信号的所述至少两个波束成形版本中的一个。

19.一种用于音频处理的方法，包括：

获取与所述处理相关联的至少一个处理指示符；

基于所述空间元数据，来处理所述至少两个经处理的音频信号中的至少一个音频信号。

20.一种用于音频处理的方法，包括：

估计与所述至少两个音频信号内的所述噪声相关联的值；

获取与至少两个音频信号和所估计的值相关联的空间元数据。