CN107408394B

CN107408394B - 确定在主信道与参考信道之间的噪声功率级差和声音功率级差

Info

Publication number: CN107408394B
Application number: CN201580073104.8A
Authority: CN
Inventors: J·S·厄凯伦斯
Original assignee: American Sirui Logic Co ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2014-11-12
Filing date: 2015-11-12
Publication date: 2021-02-05
Anticipated expiration: 2035-11-12
Also published as: EP3218902A1; US20160134984A1; CN107408394A; KR102431896B1; JP2017538344A; KR20170082595A; JP6643336B2; WO2016077547A1; EP3218902A4; US10127919B2

Abstract

一种用于估算在音频设备的主麦克风和参考麦克风之间的噪声功率级差(NPLD)的方法，包括最大化音频信号的主信道的快速傅立叶(FFT)系数建模的概率密度函数(PDF)以提供在参考信道的噪声方差估值与主信道的噪声方差估值之间的NPLD。最大化音频信号的参考信道的FFT系数建模的PDF以提供在主信道与参考信道的语言FFT系数之间的复杂语音功率级差(SPLD)。然后基于噪声方差估值、NPLD和SPLD系数计算参考信道的校正噪声幅度。

Description

确定在主信道与参考信道之间的噪声功率级差和声音功率级差

相关申请的交叉参考

本专利申请要求2014年11月12日提交的并且名称为“确定在主信道与参考信道之间的噪声功率级差和/或声音功率级差”的临时申请号62/078,828的权益和优先权，其全文以引用的方式并入本文中。

发明领域

本发明涉及用于确定在音频信号的主信道与音频信号的参考信道之间的噪声和/或声音功率级差的技术。

背景技术

用于滤波或者甚至用于净化音频信号的许多技术依赖于信噪比(SNR)。SNR通常采用在音频信号中噪声量的估算，或者噪声的功率级。

包括现有移动电话在内的各种音频设备，包括定位和朝向以接收来自意向声源的音频的主麦克风，和定位和朝向来接收背景噪声并且同时从意向声源接收极少音频或不从意向声源接收音频的参考麦克风。参考麦克风的主要功能是提供可能存在于由主麦克风获得的音频信号的主信道中的噪声量的指示值。方便地，已经假设在音频信号的参考信道中用参考麦克风获得的噪声级基本上与在音频信号的主信道中的噪声级相同。

事实上，在存在于主信道中的噪声级与存在于相应参考信道中的噪声级之间会有显著差异。这些差异可能由多个不同因素的任意一个导致，包括，但不限于，在主麦克风和参考麦克风检测声音采用的方式(例如，该方式的灵敏度)的失衡，主麦克风和参考麦克风相对于意向音频声源的朝向，噪声和/或声音的屏蔽(例如，个人在使用移动电话时由于头和或其他部位导致，等等)，以及主信道和/或参考信道的预先处理。当在参考信道中的噪声级大于在主信道中的噪声级，试图去除或者以其他方式抑制在主信道中的噪声可能会导致过度抑制，或者一部分不应当去除的目标声音(例如，语音，音乐等)被从主信道去除，以及目标声音的失真。相反地，当在参考信道中的噪声级小于在主信道中的噪声级，来自主信道的噪声会欠抑制，其会导致在由噪声抑制处理输出的音频信号中的不利高水平残余噪声。

目标声音(如语音等)引入参考信道也会将误差引入估算噪声级，并且因此不利地影响噪声已经从其去除或以其他方式被抑制的音频信号的品质。

鉴于此，需寻求在估算噪声功率级与语音功率级之间的差异方面的改进。

发明内容

在主麦克风和参考麦克风中的平均噪声功率级和平均语音功率级通常是不同的。发明人已经构思和描述了各种方法以估算频率相关噪声功率级差(NPLD)和语音功率级差(SPLD)。当下面将更详细地讨论本发明解决现有技术缺点的该方法时，总体上，本发明提供一种用于使用估算的NPLD和SPLD以校正来自参考麦克风的噪声方差估值、以及以修改级差滤波器以结合考虑PLD的方法。虽然可以关于蜂窝通信描述本发明的各个方面，但是本发明的各个方面可以应用到许多音频、视频或其他数据传输和相关处理。

在各个方面中，本发明涉及应用精确地估算在音频信号的第一信道(例如，参考信道，次级信道，等)中的噪声功率和/或声音功率并且最小化或消除在该噪声功率和/或声音功率与在音频信号的第二信道(例如，主信道，参考信道，等)中的对应噪声功率和/或声音功率之间的任何差异的技术。

在一个方面中，公开一种用于追踪在音频信号的参考信道与音频信号的主信道之间的噪声功率级差(NPLD)的技术。在该方法中，从音频设备例如移动电话的主麦克风和至少一个参考麦克风同时获得音频信号。更具体地，主麦克风接收音频信号的主信道，而参考麦克风接收音频信号的参考信道。

所谓的“最大概率”估算技术可以使用来确定在主信道和参考信道之间的NPLD。最大概率估算技术可以包括估算音频信号的参考信道的噪声幅度，或者噪声功率，其提供噪声幅度估算。在具体实施例中，噪声幅度的估算可以包括使用数据驱动递归噪声功率估算技术，例如由Erkelens，J.S.等人所公开的，"Tracking of Nonstationary Noise Basedon Data Drive Recursive Noise Power Estimation(基于数据驱动递归噪声功率估算追踪非稳定性噪声)"IEEE Transactions on Audio,Speech,and Language Processing(IEEE关于音频、语音和语言处理的学报)，16(6):1112 1123(2008)("Erkelens")，本文的整个公开内容在此引入作为参考。

利用噪声幅度估算，可以建模对音频信号的主信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF)。在一些实施例中，建模主通道的FFT系数的PDF可以包括将其建模为复杂高斯分布，其中复杂高斯分布的平均值取决于NPLD。关于NPLD最大化对于音频信号的主信道的特定部分的FFT系数的联合PDF，提供可以从参考信道和音频信号的主信道计算的NPLD值。通过精确的NPLD，可以精确地将主音频信号的噪声幅度，或噪声功率与参考音频信号的噪声幅度，或噪声功率相关联。

在各个实施例中，这些处理可以是连续的，并且，因此，包括追踪噪声方差估值以及NPLD。发生追踪处理所采用的速率可以至少部分依赖于目标声音(例如语音、音乐等)存在于音频信号的主信道中的概率。在目标声音可能存在于主信道的实施例中，，可通过使用由Erkelens教导的平滑因数来减慢跟踪过程的速率，其可以使得能够更敏感和/或更精确地追踪NPLD和噪声幅度、或噪声功率，并且因此，由于噪声被去除或反之被抑制，所以目标声音的失真较小。在目标声音可能不存在于主信道中的实施例中，跟踪过程可以以更快的速率进行。

在另一方面，可以确定主信道和参考信道之间的语音功率级差(SPLD)。SPLD可以通过将主信道的FFT系数表示为参考信道的FFT系数的函数来确定。在一些实施例中，主通道的FFT系数的PDF的建模可包括将其建模为复杂高斯分布，所述复杂高斯分布的均值和方差取决于所述SPLD。关于NPLD最大化对于音频信号的主信道的特定部分的FFT系数的联合PDF，提供可以从参考信道和音频信号的主信道计算的NPLD值。

SPLD可以连续计算或跟踪。在一些实施例中，跟踪SPLD在音频信号的主信道和参考信道之间的速率可取决于语音存在于音频信号的主信道中的可能性。在语音可能存在于主信道中的实施例中，可以增大跟踪的速率。在语音可能不存在于主信道中的实施例中，可以减小跟踪的速率，这可以更灵敏和/或精确地跟踪SPLD。

根据本发明的另一方面，NPLD和/或SPLD跟踪可用于音频滤波和/或净化过程中。但不限于，NPLD和/或SPLD跟踪可在初始滤波之后(例如，自适应最小均方(LMS)等)基于参考信道的生成(例如通过参考麦克风等)来用于校正参考信道的噪声幅度估值。

在一些实施例中，本发明的一个方面是用于估算在音频设备的主麦克风与参考麦克风之间噪声功率级差的方法(NPLD)。所述方法包括利用音频设备的主麦克风获得音频信号的主信道；利用音频设备的参考麦克风获得音频信号的参考信道；以及估算所述音频信号的参考信道的噪声幅度以提供对于一个或多个频率的噪声方差估算。该方法还包括建模音频信号的主信道的快速傅里叶变换(FFT)系数的概率密度函数(PDF)；最大化PDF以提供在参考信道的噪声方差估算与主信道的噪声方差估算之间的NPLD；建模音频信号的参考信道的FFT系数的PDF；最大化PDF以提供在主信道与参考信道的语音FFT系数之间的复杂语音功率级差(SPLD)系数；基于噪声方差估算，NPLD和SPLD系数计算参考信道的校正噪声幅度。

在一些实施例中，参考信道的噪声功率级与主信道的噪声功率级不同。在一些实施例中，连续进行参考信道的噪声幅度的估算、对主信道的FFT系数的PDF进行建模、使所述PDF最大化，并包括跟踪NPLD。在一些实施例中，跟踪NPLD包括跨越连续时间帧的统计学的指数平滑。在一些实施例中，跨越连续时间帧的统计学的指数平滑包括数据驱动的递归噪声功率估算。

在一些实施例中，所述方法包括确定语音至少存在于音频信号的主信道中的可能性。在一些实施例中，如果语音可能至少存在于音频信号的主信道中，该方法包括减慢跟踪发生的速率。

在一些实施例中，估算参考信道的噪声幅度包括数据驱动递归噪声功率估算。

在一些实施例中，建模音频信号的主信道的FFT系数的PDF包括建模复杂高斯PDF，其中复杂高斯分布的均值依赖于NPLD。

在一些实施例中，该方法包括确定在音频信号的主信道中的语音和在音频信号的参考信道中的语音的相对强度。在一些实施例中，确定相对强度包括随时间追踪相对强度。在一些实施例中，该方法包括采用数据驱动递归噪声功率估算确定相对强度。在一些实施例中，该方法包括在应用NPLD和SPLD系数之前应用最小二乘法(LMS)滤波器。

在一些实施例中，至少在少许滤波音频信号之前，发生估算参考信道的噪声幅度，建模主信道的FFT系数的PDF，以及最大化PDF。在一些实施例中，在最小均方差(MMSE)滤波主信道和参考信道之前，发生估算参考信道的噪声幅度，建模主信道的FFT系数的PDF，以及最大化PDF。

在一些实施例中，建模主信道的FFT系数的PDF包括建模复杂高斯分布，其中复杂高斯分布的均值依赖于复杂SPLD系数。

在一些实施例中，估算参考信道的噪声幅度，建模主信道和参考信道的FFT系数的PDF，以及最大化PDF，其包括在音频信号已经过主滤波或净化处理之后测量参考信道的噪声方差用于音频信号的级差后续处理。

在一些实施例中，该方法包括在检测一个或多个语音活动和可识别扬声器语音活动中使用NPLD和SPLD。

在一些实施例中，该方法包括在麦克风之间选择中使用NPLD和SPLD以实现最高信噪比。

在一些实施例中，本发明的另一个方面在于，一种音频设备，包括：用于接收音频和用于发送音频信号的主信道的主麦克风；用于从与主麦克风不同角度接收音频信号和用于发送音频信号的参考信道的参考麦克风；以及用于处理音频信号以滤波或净化音频信号的至少一个处理元件，该至少一个处理元件配置为执行用于实现确定在音频设备的主麦克风和参考麦克风之间的噪声功率级差(NPLD)的方法的程序。该方法包括利用音频设备的主麦克风获得音频信号的主信道；利用音频设备的参考麦克风获得音频信号的参考信道；以及估算音频信号的参考信道的噪声幅度以提供对于一个或多个频率的噪声方差估值。该方法还包括建模音频信号的主信道的快速傅立叶(FFT)系数的概率密度函数(PDF)；最大化PDF以提供在参考信道的噪声方差估值与主信道的噪声方差估值之间的NPLD；建模音频信号的参考信道的FFT系数的PDF；最大化PDF以提供在主信道与参考信道的语音FFT系数之间的复杂语音功率级差(SPLD)系数；以及基于噪声方差估值，NPLD和SPLD系数计算参考信道的校正噪声幅度。

根据本发明的音频设备的各个实施例包括至少一个处理元件，其可以编程来执行任何已公开过程。该音频设备可以包括具有用于接收音频的两个或更多个麦克风的任何电子设备，或者配置来接收音频信号的两个或更多个信道的任何设备。该设备的一些实施例包括，但不限于，移动电话，电话，音频记录装置，以及一些便携式媒体播放器。该设备的处理元件可以包括微处理器，微控制器等等。

通过考虑上面所提供的本发明、附图和附属权利要求，本发明主题的其他方面、以及各个方面的特征和优点对于本领域的技术人员来说是非常明显的。虽然上述公开内容提供了多个具体例子，但这些不应被视为限制所附权利要求书中任一项的范围。可以设计不脱离权利要求范围的其他实施例。来自不同实施例的特征可组合使用。因此，每个权利要求的范围仅通过其明语以及可用的法律上的等效物的全部范围作为其要素来进行说明和限定。

附图说明

图1根据一个实施例图示主信号和参考信号的干净频谱和噪声频谱的示例性柱状图。

图2图示图1的信号的估算和真实NPLD和SPLD频谱。

图3图示在模拟咖啡馆环境中来自测量噪声的两个信道的平均频谱图。

图4图示在图3的在模拟咖啡馆环境情景中的干净信号和噪声信号的平均频谱。

图5图示对于图1的信号的测量“真实”和估算NPLD和SPLD。

图6根据一个实施例图示用于估算使用在频谱语音增强系统中的噪声功率级差和语音功率级差。

图7图示语音分析数字音频数据的计算机架构。

具体实施方式

下面描述仅是本发明的示例实施例，而不是旨在限制本发明的范围，应用性或配置。相反，下面的描述旨在提供用于实施本发明的各个实施例的便利解释。如将变得显而易见，在不脱离本文提出的本发明的范围的情况下，在这些实施例中描述的元件的功能和布置方面可以作出各种改变。应该认识到，本文描述可以改变来与具有不同形状、部件、机构等的替代配置设备一起使用，并且仍然落入本发明的范围内。因此，仅为了图示而不是限制地呈现本文的详细描述。

在说明书中涉及“一个实例”或“一实施例”旨在指示具体特征、结构、或所描述性能包括在本发明的至少一实施例、实例或应用中。在本说明书的各处中术语“在一个实例中”或“一实施例”不是必须都涉及相同实例或实施例。

1.建模假设和定义

1.1信号模型

来自两个麦克风的时域信号称为对于主麦克风的y1和对于次级(参考)麦克风的y2。信号是语音信号和噪声干扰的和

y_i(n)＝s_i(n)+d_i(n)，i＝1，2， (1)

其中n是离散时间标记。在电话上，次级麦克风通常设置在背面，并且用户讲话声音进入主麦克风。主语音信号因此通常比次级语音信号更强。噪声信号通常具有相似的强度，但是频率相关级差可能存在，取决于噪声源的位置和在麦克风灵敏度方面的差异。假设在麦克风中噪声信号和语音信号是独立的。

大多数语音增强算法操作在FFT域，其中信号为

Y_i(k，m)＝S_i(k，m)+D_i(k，m)， (2)

其中k是离散频率标记，并且m＝0，1，...是帧标记。

主信号和参考信号可以是“原始”麦克风信号，或者它们是在某种预处理之后的麦克风信号。许多预处理算法是可能的。例如，预处理可以包括衰减某些频带的信号的固定滤波，或者它可以包括试图衰减在主信号中的噪声和/或在参考信道中的语音的算法。这种类型算法的示例是波束成形算法和适应性滤波器，例如最小均方滤波器和卡尔曼滤波器。

频谱语音增强包括应用增益函数G(k，m)到每个噪声傅立叶系数Y₁(k，m)，参见，例如[1－5]。增益以越低的SNR越能施加更高的抑制到频点。增益是随时间变化的并且必须对每个帧进行确定。增益是主信道的两个SNR参数的函数：前SNR ξ₁(k，m)和后SNR SNRγ₁(k，m)。它们定义为：

以及 (3)

相应地，其中λ_s1(k，m)和λ_d1(k，m)分别是主语音和噪声信号的频谱变量。

为了便于理解在FFT域中的变量是频率相关的并且可以从帧到帧地改变，标记k和m可能省略。

频谱变量定义为幅度平方的期望值：

λ_si(k，m)＝ε{|S_i(k，m)|²}，λ_di(k，m)＝ε{|D_i(k，m)|²}. (5)

ε是期望值操作符。

频谱变量λ_s1和λ_d1是估算值。对于独立的语音信号和噪声信号，噪声信号的频谱变量λ_yi是语音频谱变量和噪声频谱变量的和。

2.SNR的估算

主信道的前SNR和后SNR的估算需要估算λ_s1和λ_d1。估算λ_d1的一种简单方法是使用参考信道。假设在两个麦克风中的噪声信号具有大约相同的强度并且在参考信道中的语音信号比噪声信号弱，那么借助信号功率|Y₂ ²|的指数平滑可以获得λ_d2的估算，并且同样使用其作为λ_d1的估算。

其中α_NV是噪声方差平滑因子。

简化估算式会呈现某些问题。如前提及，在两个信道中噪声信号会具有不同的级别。这将导致次优滤波。此外，麦克风通常拾取在参考麦克风中的某些目标语音。这样意味着估算式(6)将过估算噪声级。这样会导致过抑制主语音信号。下面几节提出推荐方法以处理这些问题。

给定噪声方差的估算，主信道的前SNR通常借由“决策指导法(decision-directedapproach)”来估算，例如

其中α_XI是前SNR平滑因子，

是来自先前帧的估算主语音频谱幅度，以及

是估算后SNR。

3.功率级差的估算

在FFT域中信号的差值可以用因子C_s(k，m)和C_d(k，m)建模。这些频率相关系数被引入来描述在两个麦克风中的语音级和噪声级方面的平均差值。它们可以随着时间改变，但是假设它们的幅度以比帧速率更慢的速率改变。在FFT域中的信号模型现在变成

Y₁(k，m)＝S(k，m)+C_d(k，m)N₁(k，m)，

Y₂(k，m)＝C_s(k，m)S(k，m)+N₂(k，m). (8)

噪声谱项N₁和N₂包含来自所有噪声源的贡献。假设它们的变量是相等的，但是C_d的平方幅度建模在实际噪声信号之间的平均功率级差。C_d因此称为噪声功率级差(NPLD)系数。同样，Cs称为语音功率级差(SPLD)系数。假设功率级差(PLD)系数是复杂的，以便建模可以存在的任何长期平均相位差。因为以下原因，期望C_d的相位比C_s的相位变化更快，。所有的噪声源在关于麦克风的不同相对位置处。这些噪声源可能相对于扬声器移动，并且彼此相对移动，并且也会有回响。

这些因素对于语音信号可能是不重要的，因为假设一个目标扬声器靠近麦克风。对C_s的相位有重要贡献是在信号到达时间方面的延迟。通常C_s的绝对值小于1(|C_s|＜1)。C_d的绝对值既可以小于1也可以大于1。假设C_s(k，m)和|C_d(k，m)|逐渐改变(否则变得难以精确估算它们)。

假设独立的语音和噪声，噪声信号的频谱变量建模为

λ_y1(k，m)＝λ_s(k，m)+|C_d(k)|²λ_d(k，m)， (9)

λ_y2(k，m)＝|C_s(k)|²λ_s(k，m)+λ_d(k，m). (10)

注意从PLD系数中省略了帧标记m，因为假设它们的幅度在帧的长度期间几乎保持恒定。假设N₁和N₂的变量都等于λ_d。NPLD由|C_d|²描述，并且SPLD由|C_s|²描述。

下面解释|C_d|和C_s的最大可能估算式的导数。

3.1 NPLD的估算

假设C_dN₁是已知的。如果语音FFT系数由具有均值为0和变量为λ_s的复杂高斯分布建模，那么噪声FFT系数的考虑密度函数(PDF)，给定为C_dN₁，是具有均值为C_dN₁和变量为λ_s的复杂高斯分布：

等式(11)也可以写成为：

其中θ是Y₁的相位，并且ψ是C_dN₁的相位。最大概率(ML)估算原理(6)指示使PDF相对于未知参数最大化导致用某些期望的特性进行估算。例如，当观察数量增加，估算式的变量靠近克拉美-罗下界。为了减少变量到可接受水平，估算必须基于来自多个帧的数据。可以假设连续帧的语音FFT系数S(k，m)为独立的。这是简化的假设，其通常在语音增强的文献中出现。多个帧的噪声FFT系数Y₁(k，m)的联合PDF，给定为C_d(k，m)N₁(k，m)，然后可以写成这些帧的PDF(12)的乘积。对于频率标记k到M的连续帧的最终联合PDF建模为：

Y₁(k)是M个连续帧的噪声FFT系数的矢量。N′₁(k)是连续C_d(k，m)N₁(k，m)系数的矢量。

将假设对于连续帧，相位ψ(k，m)是互相独立的。对于ψ(k，m)＝θ(k，m)，相对于ψ(k，m)，最大化PDF(12)，也就是，N′₁(k)的相位的ML估算等于噪声相位。将这些估算代入联合PDF(13)并且相对于|C_d(k)|最大化，对于它的ML估算产生下面表达式

因此(14)的分子和分母都由λ_s(k，m)归一化。这样意味着具有许多语音能量的帧被给予较少的权重。理论上这样意味着也可以在高SNR周期期间估算

虽然在语音信号具有较低SNR时可以期望具有更好的估算。注意在该估算式的推导中已经假设语音存在。

虽然使用高斯语音模型是常见的，但是也已经提出了超高斯统计学模型。例如参见[7－9]和其中的参考文献。理论上，也可以给这些模型推导NPLD的ML估算式。基于高斯模型的估算式已经运转相当良好，并且在此使用。

注意估算式(14)假设在所有帧中至少具有一些语音(λ_s(k，m)≠0)。因此，限制归一化因子来防止除以很小的数。虽然通过试验观察到下面的标准化运转相当良好。可以通过将主信道的前SNR乘以噪声方差来估算λ_s。前SNR使用直接确定方法来计算，其中噪声方差估值

由数据驱动噪声追踪算法[10]提供，并且语音频谱幅度使用Wiener增益估算。

另一种可能性是使用平方平频谱幅度估算，例如

作为用于频谱变量的粗略估算。建议在时间上平滑它们一会儿，以减少变化并且避免非常小的值。

在语音存在时，这两个二选一语音变量估值是较大的，并且在仅噪声段中它们粗略地与噪声方差成比例。

在纯噪声中，Y₁的PDF可以建模为具有变量|C_d|²λ_d的复杂高斯。对于仅噪声周期，ML估算式将可能如下

该估算式需要声音活动检测符(VAD)。在当前实例中(14)使用在估算分母λ_d中。虽然在m上求和建议使用一段连续数据值，但是这不是必须的。例如，可以选择仅使用来自其中VAD指示语音不存在的帧的数据。替代地，在求和中的某些贡献可以被给予较少权重，例如取决于用于存在概率的估算。

在分子和分母中的平均借由指数平滑来计算。这样允许追踪在|C_d(k)|中的缓慢变化。例如，如果(14)的分子称为B(k，m)，那么更新为如下

其中

是估算语音频谱变量。相似地更新(14)的分母。

是噪声频谱幅度的估算。估算(14)依赖于噪声幅度|N₁(k，m)|，并且这些是未知的。数据驱动噪声追踪器提供估算

并且这些使用在实例(16)中。使用这些参考信道，因为当语音存在时从参考信道比从主信道估算噪声幅度更可靠。这假设|N₁(k，m)|≈|N₂(k，m)|。

为了进一步控制给予不同帧的权重，应用平滑因子α_NPLD，其依赖于语音存在概率的粗估算。这些平滑因子从由数据驱动噪声追踪算法[10]提供的那些找到，如下

其中α_s2是由数据驱动噪声追踪器提供给参考信道的平滑因子，并且T_s是以ms为单位的帧跳跃。当更可能是语音存在于参考信道中时，平滑因子α_s2(k，m)接近等于1，导致统计数据更新更慢。

在试验中注意到NPLD估算式偏低，即它稍微低估算NPLD。部分原因是数据驱动噪声追踪器提供|N(k，m)|²的MMSE估算，并且这些的方根使用在(16)中。方根运算符引入一些偏差，虽然也有可能是其他偏差源。例如，从参考信道获得的估算

使用来替代从主信道获得的，但是后者总体上将更强地与主信道的噪声幅度|Y₁(k，m)|相关。为了补偿观察的偏差，(16)可以乘以经验偏差校正因子η。η的恰当值为在1到1.4的范围内。

3.2 SPLD系数的估算

为了推导C_s的估算，(8)可以写成如下形式：

Y₂(k，m)＝C_s(k，m)Y₁(k，m)+{N₂(k，m)-C_s(k)C_d(k，m)N₁(k，m)}. (18)

期望C_d的相位或多或少是随机的，并且C_s独立于噪声。那么在大括号之间两项是独立的。该求和表示为N′(k，m)，并且建模为具有如下变量的复杂高斯噪声

λ′_d(k，m)＝λ_d(k，m){1+|C_s(k)|²|C_d(k)|²}＝λ_d(k，m){1+β(k)}， (19)

其中β(k)＝|C_s(k)|²|C_d(k)|²。通常β小于1。与在推导NPLD估算式(14)中所做的相似，可以最大化联合PDFP(Y₂|Y′₁)，其中Y′₁是C_s(k)Y₁(k，m)值的矢量。最大化该PDF等同于最小化减去它的自然对数，其相关部分是

因为λ′_d依赖于C_s，所以对于最大化PDF的Cs值不能找到接近形式的解决方案。如果λ′_d不依赖于C_s，那么将发现(求和的)商的最小值为

注意该估算式被复杂赋值，即估算幅度和相位两者。

因为λ′_d随着|C_s|单调增加，在(20)中求和的商的实际最小值为具有比来自(21)的

的稍大的绝对值的值。另一方面，在(20)中项λ′_d自身将最小值的位置加到具有稍微较小绝对值的值。这些效果可以部分地补偿。在β较小时，也可以期望这些效果较小。因此，使用(21)作为C_s的估算式。

与NPLD估算式一样，借由指数平滑更新分子和分母。当更可能仅噪声存在时，这里需要接近1的平滑因子。该平滑因子可以从由数据驱动追踪算法提供给主信道的一个α_s1找到。从α_s1计算平滑因子α_SPLD为

α_s1的最小可得值为

(在仅噪声周期内期望的)，对此α_SPLD＝1。注意，神经网络VAD在仅噪声周期中有用，例如，当VAD指示语音不存在时放弃更新。

λ′_d从由数据驱动噪声追踪器提供的噪声方差估算计算，如下

其中

分别是主信道和参考信道的数据驱动噪声方差估算。

是来自先前帧的C_s的估算。所以首先计算(23)并且使用该值来更新在(21)中的统计数据以计算C_s的新估算。

3.2.1经验估算式

还可以从数据驱动噪声方差估算

构建一些经验估算式。例如，如下比例

是|C_d|²的这种估算式。α_d的平滑参数的合适值是

可以获取如下比例构建SPLD的经验估算式

其中

由数据驱动噪声追踪器提供。该估算式的优点是相位独立，但是发现它在低的SNR时比基于(21)的估算式运行较差。

4一些示例

在该段，将示出具有人工和测量的噪声信号的一些结果以说明PLD估算式(14)和(21)的性能。对于第一示例，构建人工双通道信号。主干净语音信号是TIMIT语句(以16kHz采样)，归一化为单位变量。不去除无声帧。次级信道为相同信号除以5。这样对应于20*log₁₀(1/5)＝-14dB的SPLD。在主信道中的噪声为白噪声，并且在参考信道中的噪声为利用适当全极滤波器通过滤波白噪声获得的语音形态噪声。两个噪声信号首先被归一化为单位变量，并且然后利用相同的因子缩放，以便在主信道中的SNR等于5dB。图1显示了干净信号和噪声信号的平均频谱。在低频范围中，平均主语音频谱比噪声频谱强，但在高频范围中不是这样。平均参考语音频谱比噪声频谱更弱。

图2表示真实和估算NPLD和SPLD频谱。在SNR＝5dB的白噪声使用于主信号，具有相等变量的语音形态噪声使用于参考信号。使用偏差校正因子η＝1.2。相当精确地估算NPLD，除了其中平均语音频谱具有非常高SNR的最低频率。在低频范围中相当良好地估算SPLD，即使在参考信道中的语音比噪声更弱。在其中两个信道由噪声淹没的高频区域中它被低估算。

下一个示例使用测量双麦克风噪声。真实生活噪声通常具有低通特性。

图3表示测量咖啡馆噪声的两个信道的平均频谱。麦克风间隔开10cm。两个信号被归一化为单位标准偏差。对于大多数频率，在参考信道中观察到噪声为稍微大声。该噪声与来自MFL数据库的语句在SNR为0dB(在主信道中)进行计算机混合。

图4表示干净信号和噪声信号的平均频谱。在主通信道中使用在SNR为0dB的双麦克风咖啡馆噪声。可以发现在非常低的频率范围内，噪声占领在两个信道中的语音。

图5表示对于图4的噪声信号的测量(“真实”)和估算PLD频谱。测量PLD频谱从两个信道的平均噪声和语音频谱的比例获得。可以发现估算的和真实测量的PLD频谱匹配非常良好。对于其中噪声占领在两个信道中的语音的最低频率，和对于其中具有非常小的语音能量的最高频率，SPLD估算是不精确的。

许多自然噪声源的低通特性将使得在非常低的频率范围内通常实际上非常难以精确估算SPLD。由于该原因，在实际实例中，估算式(21)不使用于小于300Hz的频率。替代地，估算SPLD频谱的平均使用于大约300Hz的有限频率范围。用于平均的恰当频率范围例如为300－1500Hz，其中语音信号是较强的(特别是在声音语音中)。

5应用PLD校正

5.1噪声方差的校正

钻研NPLD和SPLD估算问题的主要原因是提高从参考信道获得的噪声方差估值(6)。NPLD和SPLD频谱可以使用来计算对(6)的校正，其应该使得更接近在主信道中的噪声方差。在参考信道中的语音信号非常弱的情况中，仅应用NPLD校正是足够的。NPLD校正可以容易地通过(6)与估算NPLD频谱相乘来实现。

在参考信道中的语音信号有时候可以比在某些频带中的噪声强，取决于像噪声类型、声音类型、SNR、噪声源位置、以及电话朝向的因素。在这种情况下，(6)将过度估算噪声级，潜在地在MMSE滤波处理过程中导致显著语音失真。具有许多可以对语音功率进行附加校正的方法。通过实验发现下面方法运作良好。

从(9)可以发现，信道1的前SNR，ξ₁，等于λ_s/|C_d|²λ_d。同样，(10)表示信道2的前SNR，ξ₂，等于|C_s|²λ_s/λ_d。因此，在这些前SNR中间存在下面的关系

ξ₂(k，m)＝|C_s(k)|²|C_d(k)|²ξ₁(k，m)＝β(k)ξ₁(k，m). (26)

(10)乘以|C_d|²并且除以1+ξ₂＝1+βξ₁使得它等于信道1的噪声方差项|C_d|²λ_d。所以那是要对(6)所做的期望校正。因为在每个时间帧中更新前SNR，所以在(6)的第二项中应用对|Y₂|²的校正，将它修改为

该校正可以从信道1的估算的PLD频谱和前SNR(7)计算。然而，需要更多。利用NPLD校正噪声方差例如从(7)发现我们可以在(27)中使用的前SNR估值

由于还没有施加对语音功率的校正到噪声方差估值，所以当语音存在时它是对噪声方差的过度估算。最终前SNR估算因此是低估算。这样意味着在(27)中除以

将不完全校正语音能量。通过迭代计算前SNR(7)和噪声方差(27)、(28)，可以发现更完整的校正。

使用基于完整校正噪声方差的用于前SNR的等式，不需要许多迭代可以获得用于前SNR的最终等式。将(27)代入(28)，将用于PLD校正噪声方差的最终表达式代入(7)，并且去掉最大操作符，产生在

中的二阶多项式，其容易解出。可以具有0、1和或2个正实数解。

如果正好存在1个正的解，则可以将其替换为(27)以找到PLD校正的噪声方差。

当对于前SNR具有2个正实数解，将使用最小的那个。这种情况发生在(7)，没有最大操作符时，为负数时。因为这通常对应于非常低的SNR情况，选择二次等式的最小解。

当没有任何正实数解时，使用“不完整”校正，也就是，应用NPLD校正到(6)，从(7)计算前SNR，并且在(27)中使用。

考虑的替代校正方法是基于在主信道和参考信道两者中的信号功率的平滑，如在(6)中对参考信道的表示。每个信道变量估算包括语音部分和噪声部分，具有平均由NPLD和SPLD描述的相对强度。可以解出噪声部分。最终估算式具有相对较大的变量并且可以甚至变得小于0，对此必须采取计数测量。因此，在一些情况中优选下面(27)、(28)描述的校正方法。

当测试多个不同数据组时，上面描述的校正技术提高客观质量(考虑PESQ，SNR和衰减)和主观质量。

5.2修改内级差滤波器

内级差滤波器(ILDF)将MMSE增益与因子f相乘，因子f在一个实施例中依赖于主信道和参考信道的幅度的比例，如下

其中τ是S形函数的阈值，并且σ是它的斜率参数。ILDF易于抑制残余噪声。相对于主幅度的更强参考幅度导致更强的抑制。对于固定参数τ和σ，当NPLD和SPLD改变时，滤波器将不同地运行。当结合考虑NPLD和SPLD时，选择在宽泛各种条件下工作良好的参数会更容易。一种方法是应用如在(27)和(28)中的相同PLD到参考信道的幅度，即，在(29)中使用

替代|Y₂(k，m)|。

除了PLD变量，在仅噪声帧中可以比在还包含语音的帧中应用更强有力的滤波。实现此的一种方法是通过使阈值τ构成神经网络VAD输出的函数

其中V是被归一化为在0到1之间的值的VAD输出，τ_S是我们要使用在语音帧中的阈值，并且τ_N是噪声帧的阈值。τ_S＝1和τ_N＝1.5适合于各种实验。

5.3其他应用

除了噪声方差和正滤波校正，NPLD和SPLD可以以多种其他方式使用。对信号特征训练一些语音处理算法。例如，VAD和语音以及扬声器识别系统。如果使用多个信道来计算这些特征，那么这些算法在它们的应用中会从基于PLD的特征校正受益。这是因为该校正会减少在训练中发现的特征与在实际中面对的特征之间的差异。

在一些应用中，可以具有在多个可用麦克风之间选择的选项。NPLD和SPLD可以帮助选择具有最高信噪比的麦克风。

NPLD和SPLD还可以使用于麦克风校准。如果进入麦克风的测试信号具有相等强度，那么NPLD和SPLD可以确定相对麦克风灵敏度。

6概况

图6表示NPLD和SPLD估算和校正程序以及它们如何装配进新的频谱语音增强系统的概况。注意：

在图中节III-A对应于本文的段[0069]-[0077]。

在图中节V-A对应于本文的段[0085]-[0095]。

在图中节V-B对应于本文的段[0096]-[0097]。

对来自可能经预处理的麦克风信号y₁(n)和y₂(n)的交叠帧进行开窗并且应用FFT。主信道的频谱幅度被使用来制作中间噪声方差、前SNR和语音变量估算。参考信道的频谱幅度使用来制作噪声幅度和中间估算噪声方差估值。

从两个信道的这些数量和FFT系数，估算噪声和语音PLD系数。根据节V-A计算最终噪声方差估值(27)、(28)和前SNR估算。还计算后SNR和MMSE增益。

在后处理阶段，MMSE增益由内级差滤波器、音乐噪声平滑滤波器、以及衰减非语音帧的滤波器修改。已经应用到在最终噪声方差估值中的参考幅度的PLD校正同样使用在内级差滤波器中。

在重构阶段中，主FFT系数乘以修改MMSE增益并且滤波系数变换回到时间域。变清的语音由交叠－叠加程序构建。

本发明的实施例还可以延伸到用于分析数字数据的计算机程序产品。该计算机程序产品可以旨在执行在计算机处理器上的计算机可执行指令，以便执行用于分析数字数据的方法。该计算机程序产品可以包括具有编码在其上的计算机可执行指令的计算机可读介质，其中当合适计算机环境内的合适处理器上执行时，计算机可执行指令执行如本文进一步描述的分析数字数据的方法。

本发明的实施例可以包括或使用专用或通用计算机，包括计算机硬件，举例而言，例如，一个或多个计算机处理器和数据存储器或系统内存，如下面更详细描述。在本发明的范围内的实施例还包括用于运行或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。该计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质。承载计算机可执行指令的计算机可读介质是传输介质。因此，借由示例，并且非限制性的，本发明的实施例可以包括这是两种明显不同类型的计算机可读介质：计算机存储介质和传输介质。

计算机存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于携带或存储计算机可执行指令或数据结构形式的所需程序代码部件且可由通用或专用计算机访问的任何其他介质。

“网络”定义为能够在计算机系统和/或模块和/或其他电子设备之间传送电子数据的一个或多个数据链路。当信息在网络或另一通信连接(硬连线、无线或硬连线或无线的组合)上传输或提供给计算机时，计算机将连接完全视为计算机可读介质。传输介质可以包括网络和/或数据链路，其可以用来携带或传输可由通用或专用计算机接收或访问的计算机可执行指令或数据结构形式的所需程序代码部件。以上的组合也应包括在计算机可读介质的范围之内。

此外，在到达各种计算机系统组件之后，计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(或反之亦然)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如，网络接口卡或“NIC”)内的RAM中，然后最终被传输给计算机系统RAM和/或计算机系统处的具有较不易失性的计算机存储介质。因而，应当理解，计算机存储介质可被包括在还利用(或甚至主要利用)传输介质的计算机系统组件中。

计算机可执行(指令例如包括致使通用计算机、专用计算机、或专用处理设备执行某个功能或某组功能的指令。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。

本领域的技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、信息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明还可在分布式系统环境中实践，在该环境中本地和远程计算机系统通过网络(经由硬连线数据链路、无线数据链路、或者经由硬连线和无线数据链路的组合)链接起来，每个计算机系统都执行任务。在分布式系统环境中，程序模块可位于本地和远程存储器存储设备中。

参考图7，示例计算机架构600图示为用于分析数字音频数据。计算机架构600，在此也称为计算机系统600，包括一个或多个计算机处理器602和数据存储器。数据存储器可以是在计算机系统600内的存储器604并且可以是易失性或非易失性存储器。计算机系统600还可以包括用于显示数据或其他信息的显示器。计算机系统600还可以包含通信信道608，其允许计算机系统600域其他计算系统、设备、或数据源例如在网络(例如或许是因特网610)上通信。计算机系统600还可以包括输入设备，例如麦克风606，其允许访问数字或模拟数据源。该数字或模拟数据可以例如是音频或视频数据。数字或模拟数据可以为实时流动数据的形式，例如来自现场麦克风，或者可以是从数据存储器614访问的存储数据，数据存储器614可以由计算机系统600直接访问或可以通过通信信道608或经由网络例如因特网610更远程访问。

通信信道608是传输介质的示例。传输介质通常将计算机可读指令、数据结构、程序模块或者其他数据包含在诸如载波或其他传输机制的调制数据信号中，并且包括任何信息传递介质。借由示例，并且非限制性地，传输介质包括有线介质，例如有线网络和有线直接连接，以及无线介质例如声学、射频、红外和其他无线介质。术语“计算机可读介质”在本文中使用时包括计算机存储器介质和传输介质两者。

本发明范围内的实施例还包括用于携带或在其上具有计算机可执行指令或数据结构的计算机可读介质。这类计算机可读介质称为“计算机存储介质”可以是可由通用或专用计算机系统访问的任一可用介质。借由示例，而非限制性地，这类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备等物理存储介质、或其它可用来以计算机可执行指令或数据结构的形式携带或储存所期望的程序代码部件并可由通用或专用计算机访问的任何其他介质。

计算机系统可以在例如局域网(LAN)、广域网(WAN)无线广域网(WWAN)、以及甚至因特网110的网络互相连接。因而，每个所述计算机系统和任何其他连接的计算机系统和它们的部件，都可以产生信息相关数据并且在网络上交换信息相关数据(例如，因特网协议(“IP”)数据报和使用IP数据报的其他更高层协议，例如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)，简单邮件传输协议(“SMTP”)、等)。

本发明其它方面，以及各方面的特征和优点，基于考虑上面的说明内容、相应的附图和所附的权利要求书，对于本领域的普通技术人员非常明显。

尽管前述公开内容提供许多具体细节，但这些细节不应当被解释为限制任何随后的权利要求的范围。可设计没有脱离权利要求范围的其他实施方案。来自不同实施方案的特征可结合使用。

最后，虽然本发明关于以上各种示例性实施例被描述，但在不背离本发明的范围的情况下，可以对示例性实施例进行许多改变、组合和修改。例如，虽然已经描述了本发明用于语音检测，本发明的各方面可以容易地应用于其他音频，视频，数据检测方案。此外，各个元件、部件和/或流程可以以交替方式来实施。这些可替代方式可以根据特定的应用或考虑任意数量的与该设备操作相关联的因素而被适当地选择。此外，本文描述的技术可以被扩展或被修改以与其他类型的设备一起使用。这些和其他改变或修改意图被包含在本发明的范围内。

参考文献

下列文献整体作为参考并入本文。

1.Y.Ephraim and D.Malah，“Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator，”IEEE Trans.Acoust.，Speech，Signal Proc.，vol.ASSP-32，no.6，pp.1109-1121，December 1984.

2.J.Benesty，S.Makino，and J.Chen(Eds.)，Speech Enhancement.Springer，2005.

3.Y.Ephraim and I.Cohen，“Recent advancements in speech enhancement，”in The Electrical Engineering Handbook.CRC Press，2006.

4.P.Vary and R.Martin，Digital Speech Transmission.John Wiley&Sons，2006.

5.P.C.Loizou，Speech Enhancement.Theory and Practice.CRC Press，2007.

6.“Maximum likelihood，”http://en.wikipedia.org/wiki/Maximum_likelihood.

7.R.Martin，“Speech enhancement based on minimum mean-square errorestimation and supergaussian priors，”IEEE Trans.Speech，Audio Proc.，vol.13，no.5，pp.845？856，September 2005.

8.J.S.Erkelens，R.C.Hendriks，R.Heusdens，and J.Jensen，“Minimum mean-square error estimation of discrete Fourier coefficients with generalizedGamma priors，”IEEE Trans.Audio，Speech and Lang.Proc.，vol.15，no.6，pp.1741-1752，August 2007.

9.J.S.Erkelens，R.C.Hendriks，and R.Heusdens，“On the estimation ofcomplex speech DFT coefficients without assuming independent real andimaginary parts，”IEEE Signal Proc.Lett.，vol.15，pp.213-216，2008.

10.J.S.Erkelens and R.Heusdens，“Tracking of nonstationary noise basedon data-drivenrecursive noise power estimation，”IEEE Trans.Audio，Speech andLang.Proc.，vol.16，no.6，pp.1112-1123，August 2008.

Claims

1.一种用于估算在音频设备的主麦克风与参考麦克风之间的噪声功率级差的方法，包括：

利用音频设备的主麦克风获得音频信号的主信道；

利用音频设备的参考麦克风获得音频信号的参考信道；

估算音频信号的参考信道的噪声幅度以提供对于一个或多个频率的噪声方差估算；

建模音频信号的主信道的快速傅立叶系数的概率密度函数；

最大化音频信号的主信道的快速傅立叶系数的概率密度函数以提供在参考信道的噪声方差估算与主信道的估算噪声方差估算之间的噪声功率级差；

建模音频信号的参考信道的快速傅立叶系数的概率密度函数；最大化音频信号的参考信道的快速傅立叶系数的概率密度函数以提供在主信道与参考信道的语音快速傅立叶系数之间的复杂语音功率级差系数；以及

基于噪声方差估值、噪声功率级差和语音功率级差系数计算参考信道的校正噪声幅度。

2.如权利要求1所述的方法，其中所述参考信道的噪声功率级不同于所述主信道的噪声功率级。

3.如权利要求1所述的方法，其中连续实施：估算所述参考信道的噪声幅度，建模所述主信道的快速傅立叶系数的概率密度函数，以及最大化所述概率密度函数；并且进一步包括追踪噪声功率级差。

4.如权利要求3所述的方法，其中所述追踪噪声功率级差包括跨越连续时间帧进行统计学的指数平滑。

5.如权利要求4所述的方法，其中所述跨越连续时间帧进行统计学的指数平滑包括数据驱动递归噪声功率估算。

6.如权利要求3所述的方法，还包括确定语音至少存在于所述音频信号的主信道中的可能性。

7.如权利要求6所述的方法，其中，如果语音可能至少存在于所述音频信号的主信道中，那么减慢发生追踪所采用的速率。

8.如权利要求1所述的方法，其中估算所述参考信道的噪声幅度包括数据驱动递归噪声功率估算。

9.如权利要求1所述的方法，其中对所述音频信号的主信道的快速傅立叶系数的概率密度函数建模包括建模复杂高斯概率密度函数，其中复杂高斯分布的均值依赖于所述噪声功率级差。

10.如权利要求1所述的方法，还包括确定在所述音频信号的主信道中的语音和在所述音频信号的参考信道中的语音的相对强度。

11.如权利要求10所述的方法，其中确定所述相对强度包括随时间追踪相对强度。

12.如权利要求10所述的方法，其中确定所述相对强度包括数据驱动递归噪声功率估算。

13.如权利要求10所述的方法，还包括在应用所述噪声功率级差和语音功率级差系数之前应用最小二乘法滤波器。

14.如权利要求1所述的方法，其中至少在少许滤波音频信号之前，发生参考信道的噪声幅度的估算，主信道的快速傅立叶系数的概率密度函数的建模，以及概率密度函数的最大化。

15.如权利要求14所述的方法，其中在最小均方差滤波主信道和参考信道之前，发生参考信道的噪声幅度的估算，主信道的快速傅立叶系数的概率密度函数的建模，以及概率密度函数的最大化。

16.如权利要求1所述的方法，其中建模所述参考信道的快速傅立叶系数的概率密度函数包括建模复杂高斯分布，其中复杂高斯分布的均值依赖于复杂语音功率级差系数。

17.如权利要求1所述的方法，其中估算所述参考信道的噪声幅度，建模主信道和参考信道的快速傅立叶系数的概率密度函数，以及最大化概率密度函数包括在音频信号已经承受主滤波或净化处理之后量测参考信道的噪声方差用于音频信号的级差后续处理。

18.如权利要求1所述的方法，还包括在检测一个或多个声音活动和可识别扬声器声音活动中使用所述噪声功率级差和语音功率级差。

19.如权利要求1所述的方法，其中在麦克风之间选择以实现最高信噪比时使用所述噪声功率级差和语音功率级差。

20.一种音频设备，包括：

用于接收音频和用于发送音频信号的主信道的主麦克风；

用于从与主麦克风不同角度接收音频信号和用于发送音频信号的参考信道的参考麦克风；以及

用于处理音频信号以滤波或净化音频信号的至少一个处理元件，该至少一个处理元件配置为执行程序用来实现确定在音频设备的主麦克风和参考麦克风之间的噪声功率级差的方法，该方法包括：

利用音频设备的主麦克风获得音频信号的主信道；

利用音频设备的参考麦克风获得音频信号的参考信道；

估算音频信号的参考信道的噪声幅度以提供对于一个或多个频率的噪声方差估值；

建模音频信号的主信道的快速傅立叶系数的概率密度函数；

最大化音频信号的主信道的快速傅立叶系数的概率密度函数以提供在参考信道的噪声方差估值与主信道的噪声方差估值之间的噪声功率级差；