CN102804261B

CN102804261B - 用于语音编码器的方法和语音活动检测器

Info

Publication number: CN102804261B
Application number: CN201080057984.7A
Authority: CN
Inventors: 马丁·绍尔斯戴德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2009-10-19
Filing date: 2010-10-18
Publication date: 2015-02-18
Anticipated expiration: 2030-10-18
Also published as: JP2013508773A; CN102804261A; EP2491548A4; US20120215536A1; US20160322067A1; IN2012DN03323A; US9401160B2; WO2011049515A1; EP2491548A1; CA2778343A1; AU2010308598A1

Abstract

本发明的实施例涉及初级语音活动检测器及其方法。通过使用实施例的方法，可以确定输入信号的帧是否包括语音。这是通过以下步骤实现的：接收输入信号的帧；确定接收帧的第一信噪比SNR；将所确定的第一SNR与自适应阈值比较；以及基于所述比较，检测接收帧是否包括语音。所述自适应阈值至少基于噪声电平的总噪声能量、第二SNR的估计、以及不同帧间的能量变化。

Description

用于语音编码器的方法和语音活动检测器

技术领域

本发明的实施例涉及方法和语音活动检测器，具体涉及语音活动检测器的阈值适配。

背景技术

在用于对话语音的语音编码系统中，通常使用非连续发送(DTX)来增加编码的效率。原因是对话语音包含了嵌入在语音中的大量停顿，例如当一个人在说话而另一个人在聆听时。因此，利用DTX，语音编码器平均仅在大约50％的时间上是活动的，且可以使用舒适噪声对其余时间进行编码。舒适噪声是在解码器侧产生的人为噪声，仅类似于编码器侧噪声的特性，并且因此需要较少的带宽。具有该特征的一些示例编解码器是AMRNB(自适应多速率窄带)和EVRC(增强型可变速率CODEC)。注意，AMRNB使用DTX，而EVRC使用可变速率(VBR)，其中，速率确定算法(RDA)基于VAD(语音活动检测)，来决定针对每帧使用哪一种数据速率。

对于高质量DTX操作，即，无劣化语音质量的情况下，在输入信号中检测语音的周期是十分重要的。这是通过用于DTX和RDA的语音活动检测器(VAD)来实现的。应注意的是，语音也称为话音。图1示出了一般化VAD 180的总体框图，其获取输入信号100作为输入，输入信号100根据具体实现被分为5至30ms的数据帧，并产生VAD判决作为输出160。即，VAD判决160是针对每帧的该帧包含语音还是噪声的判决。

通用VAD 180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧，通用VAD 180计算特征，且为了识别活动帧，将当前帧的特征与该特征对于背景信号“看起来”如何的估计进行比较。

由初级语音活动检测器140作出初级判决“vad_prim”150，且初级判决“vad_prim”150基本上就是对当前帧的特征与根据之前的输入帧估计出的背景特征的比较，其中，大于阈值的差异导致活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对该初级判决进行扩展，以形成最终判决“vad_flag”160。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“语音突发”(speech burst)的后端截断(backend clipping)。然而，该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响的长度。

存在可以用于VAD检测的大量不同的特征。最基本的特征是只查看帧能量，并将其与阈值进行比较，以判决该帧是否是语音。该方案在高SNR的条件下工作得相当好，但是在低SNR条件下工作得不好。在低SNR的情况下，必须取而代之地使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言，对VAD功能的附加要求在计算复杂度，且这在标准编解码器(例如AMR NB、AMR WB(自适应多速率宽带)、EVRC以及G.718(ITU-T建议嵌入式可扩缩语音和音频编解码器))中反映在对子带SNR VAD的频率表示上。这些示例编解码器还使用各种形式的阈值适配。通常，背景和语音强度估计可以基于判决反馈或者用于更新的独立的次级VAD，背景和语音强度估计还用于SNR估计。在任一情况下，VAD＝0应理解为：输入信号被估计为噪声；VAD＝1应理解为：输入信号被估计为语音。强度估计的另一选择是使用最小输入能量和最大输入能量来分别跟踪背景和语音。对于输入噪声的可变性，可以计算先前帧在滑动时间窗上的变化。另一方案是监测负值输入SNR的量。然而，这基于以下假设：负值SNR仅由输入噪声变化引起。先前帧的滑动时间窗意味着：针对指定数量的先前帧，以关注的变量(帧能量或子带能量)创建缓冲区。当新帧到达时，通过从缓冲器中移除最早的值并插入最新的值来更新缓冲区。

非平稳噪声对于所有VAD而言都是困难的，特别是在低SNR条件下，导致与实际语音相比更高的VAD活动，且从系统角度来讲，导致了减小的容量。即，不包括语音的帧被识别为包括语音。在非平稳噪声中，VAD最难以处理的噪声是嘈杂噪声(babble noise)，且原因是其特性与VAD被设计用来检测的语音信号相对接近。嘈杂噪声的特征通常在于与前景说话者的语音强度相对的SNR、和背景说话者的数目，其中，在主观评估中使用的一般定义是：嘈杂声应当具有40个或更多的背景说话者。其基本出发点在于：对于嘈杂声，应当不可能听出嘈杂噪声中包括的任何说话者所说的内容(这意味着，没有嘈杂声说话者是能被理解的)。还应当注意到，随着嘈杂噪声中说话者数目的增加，嘈杂噪声变得更为平稳。在只有1个(或几个)说话者在背景中的情况下，通常将他们称为干扰说话者。另一问题是：嘈杂噪声可能具有VAD算法不会抑制的与一些音乐片段非常相似的频谱变化特性。

在之前提到的VAD解决方案AMR NB/WB、EVRC和G.718中，在合理的SNR(20dB)下，在一些情况下已存在不同程度的嘈杂噪声问题。结果是：不能实现假设的通过使用DTX来获得的容量增益。在实际的移动电话系统中，已经注意到：要求在15至20dB SNR下的合理的DTX/VBR操作可能是不够的。如果可能，取决于噪声类型，将期望低至5dB甚至0dB的合理的DTX/VBR操作。对于低频背景噪声，仅通过在VAD分析之前对信号进行高通滤波，就可以针对VAD功能实现10至15dB的SNR增益。由于嘈杂声与语音的相似性，通过对输入信号进行高通滤波所获得的增益是非常低的。

对于基于子带SNR原理的VAD，当输入信号被划分为多个子带且针对每个频带确定SNR时，已表明：在子带SNR计算中引入非线性(所谓重要性阈值)可以增强对于非平稳噪声(嘈杂噪声、办公室背景噪声)条件的VAD性能。

还已注意到：对于某些类型的输入噪声(包括嘈杂型噪声)，G.718表现出跟踪背景噪声方面的问题。由于精确的背景估计对将当前输入与所估计的背景进行比较的任意类型的VAD是必要的，这引起VAD的问题。

从质量角度来讲，使用自动保险(failsafe)VAD是更好的，这意味着当存在疑问时，VAD将其视为语音输入而不是噪声输入，从而考虑大量额外活动是更好的。从系统容量角度讲，只要仅有少数用户处于非平稳背景噪声的情形下，这就是可接受的。然而，随着在非平稳环境下的用户数目的增加，自动保险VAD的使用可能引起系统容量的巨大损失。因此，在自动保险VAD和正常VAD操作之间折中以使用正常VAD操作来处理相对更多的非平稳环境情况变得十分重要。

尽管使用了增强VAD性能的重要性阈值，已注意到其也可能引起偶尔的语音截断，主要是低SNR非语音的前端截断。

如上所示，使用某种形式的阈值适配已十分常见。根据现有技术，存在以下示例：

VAD_thr＝f(N_tot)，

VAD_thr＝f(N_tot，E_sp)，或

V_AD_thr＝f(SNR，N_v)

其中：VAD_thr是VAD阈值，N_tot是所估计的噪声能量，E_sp是所估计的语音能量，SNR是所估计的信噪比，N_v是基于负值SNR的所估计的噪声变化。

发明内容

本发明的实施例的目的在于：提供一种为VAD提供增强性能的机制。

根据一实施例，这是通过令VAD阈值VAD_thr为总噪声能量N_tot、SNR估计和N_var的函数来实现的，其中，N_var指示不同帧之间的能量变化。

根据本发明实施例的一方面，提供了一种在语音活动检测器中确定输入信号的帧是否包括语音的方法。在所述方法中，接收输入信号的帧，并确定接收帧的第一SNR。接着，将所确定的第一SNR与自适应阈值比较。所述自适应阈值至少基于噪声电平的总噪声能量、第二SNR的估计、以及不同帧之间的能量变化。基于所述比较，检测接收帧是否包括语音。

根据本发明实施例的另一方面，提供了一种语音活动检测器。所述语音活动检测器可以是初级语音活动检测器，初级语音活动检测器是用于确定输入信号的帧是否包括语音的语音活动检测器的一部分。所述语音活动检测器包括：输入部，被配置为接收输入信号的帧。语音活动检测器还包括：处理器，被配置为确定接收帧的第一SNR，将所确定的第一SNR与自适应阈值比较。所述自适应阈值至少基于噪声电平的总噪声能量、第二SNR的估计、以及不同帧之间的能量变化。此外，所述处理器被配置为：基于所述比较，检测接收帧是否包括语音。

根据又一实施例，引入称为E_{dyn_LP}的又一参数，并且因此至少基于总噪声能量N_tot、第二SNR估计、N_var和E_{dyn_LP}来确定VAD_thr，E_{dyn_LP}是平滑输入动态测量值，指示接收帧的能量动态。在该实施例中，自适应阈值VAD_thr＝f(N_tot，SNR，N_var，E_{dyn_LP})。

在选择VAD_thr时使用N_var或者N_var和E_{dyn_LP}的优点在于：尽管背景噪声是非平稳的，也可以避免增加VAD_thr。因此，可以实现更可靠的VAD阈值适配功能。采用新的特征组合，可以更好地表征输入噪声并相应地调整阈值。

采用根据本发明实施例的增强的VAD阈值适配，对非平稳背景噪声(特别是嘈杂噪声)的处理可以实现重大改进，同时可以保持语音输入的质量，并且如果音乐段落与在嘈杂噪声中发现的频谱类似，可以保持音乐型输入的质量。

附图说明

图1示出了根据现有技术的采用背景估计的通用语音活动检测器(VAD)。

图2示意性地示出了根据本发明实施例的语音活动检测器。

图3是根据本发明实施例的方法的流程图。

具体实施方式

下文中将参照示出了本发明的优选实施例的附图，来更充分地描述本发明的实施例。然而，可以用很多不同形式来体现实施例，且实施例不应当被理解为受限于本文所阐述的实施例；相反，这些实施例被提供为使得本公开将是全面且完整的，且将向本领域技术人员充分地传达本发明的范围。在附图中，相似的附图标记指代相似的元素。

此外，本领域技术人员将意识到：可以使用软件功能结合编程微处理器或通用计算机，和/或使用专用集成电路(ASIC)，来实现以下说明的装置和功能。还将意识到：尽管主要以方法和设备的形式来描述当前实施例，还可以在计算机程序产品中以及包括计算机处理器和连接至处理器的存储器在内的系统中实现这些实施例，其中，使用可以执行本文公开的功能的一个或多个程序对存储器进行编码。

对于基于子带SNR的VAD，即使和缓的输入能量变化也会引起VAD的漏检，即，当输入只有噪声时，VAD指示语音。基于子带SNR的VAD意味着：针对每个子带确定SNR，并且基于这些SNR来确定组合SNR。组合SNR可以是不同子带上的所有SNR的和。VAD的这种灵敏度对语音质量是有利的，这是由于丢失语音段落的概率较小。然而，由于这些类型的能量变化在非平稳噪声(例如，嘈杂噪声)中是典型的，它们将引起过多的VAD活动。因此，在本发明的实施例中，引入了用于语音活动检测的改进的自适应阈值。

在第一实施例中，引入第一附加特征N_var，N_var指示噪声变化，是噪声输入的帧能量可变性的改进估计量。当确定改进的自适应阈值时，该特征用作变量。将第一SNR与改进的自适应阈值比较，以确定接收帧包括语音还是背景噪声，所述第一SNR可以是利用不同子带SNR创建的组合SNR。因此，在第一实施例中，令VAD的阈值适配为以下特征的函数：噪声能量N_tot、第二SNR估计SNR(对应于以下伪码中lp_snr)、以及第一附加特征N_var。噪声能量N_tot是VAD＝0时在背景估计中基于子带能量的总能量的噪声电平估计，第二SNR估计是长期SNR估计。长期SNR估计意味着：SNR是在比短期SNR估计长的时间上测量得到的。

在第二实施例中，引入第二附加特征E_{dyn_LP}。E_{dyn_LP}是平滑输入动态测量值。相应地，令子带SNR VAD的阈值适配为以下特征的函数：噪声能量N_tot、第二SNR估计SNR、以及新特征噪声变化N_var。此外，如果第二SNR估计低于平滑输入动态测量值E_{dyn_lp}，在将第二SNR用于确定自适应阈值前，向上调整第二SNR。

通过基于这些变量来确定自适应阈值以进行VAD判决，可以改进阈值适配，更好地控制何时使用高灵敏度VAD以及何时不得不降低灵敏度。第一附加噪声变化特征主要用于根据输入背景信号的非平稳来调整灵敏度，而第二附加平滑输入动态特征用于调整用于阈值适配的第二SNR估计。

从系统的角度讲，非平稳噪声的灵敏度将导致非平稳噪声(例如，嘈杂噪声)过多活动的降低，同时在高SNR下对于干净的平稳噪声保持高质量的编码语音。

以下，说明根据实施例的用于计算自适应阈值的特征：

根据第二实施例，存在两个附加特征，用于确定改进的自适应阈值。第一附加特征是噪声变化估计量N_var。

N_var是通过将作为当前帧所有子带能量之和的输入能量与先前帧(背景)的能量进行比较来产生的。因此，噪声变化估计基于对先前帧的VAD判决。当VAD＝0时，假设输入仅由背景噪声组成以对可变性进行估计，新度量被形成为相对于帧到帧能量差的帧的非线性函数。使用两个输入能量跟踪量E_{tot_l}、E_{tot_h}(一个自下而上的跟踪，一个自上而下的跟踪)来创建指示平滑输入能量动态的第二附加特征E_{dyn_lp}。

E_{tot_l}是自下而上进行跟踪的能量跟踪量。对于每帧，该值增加一个小的常数值。如果新值大于当前帧能量，将该帧能量用作新值。

E_{tot_h}是自上而下进行跟踪的能量跟踪量。对于每帧，该值减小一个小的常数值。如果新值小于当前帧能量，将该帧能量用作新值。

E_{dyn_lp}指示平滑输入动态，作为输入能量动态的长期估计，即，语音和噪声能量之差的估计。E_{dyn_lp}仅基于每帧的输入能量。E_{dyn_lp}使用自上而下进行跟踪的能量跟踪量(高/最大能量跟踪量，称为E_{tot_h})以及自下而上进行跟踪的能量跟踪量(低/最小能量跟踪量，称为E_{tot_l})。接着，形成E_{dyn_lp}，作为高低能量跟踪量之差的平滑值。

对于每帧，将能量跟踪量间的差用作低通滤波器的输入。

E_{dyn_lp}＝(1-α)E_{dyn_LP}+α(E_{tot_h}-E_{tot_l})。

首先，基于当前和最后帧，计算帧能量差的绝对值。如果VAD＝0，则首先使用一个小的常数值减小当前变化估计。

对于每帧，在当前变化估计不会增大至超过固定常数的条件下，如果当前能量差大于当前变化估计，用新值替换当前变化估计。

下面参照图2，图2示出了可以实现本发明实施例的语音活动检测器200。在实施例中，语音活动检测器200以初级语音活动检测器为例。语音活动检测器200包括：输入部202，用于接收输入信号；以及输出部205，用于输出语音活动检测判决。此外，VAD中包括处理器203，并且语音活动检测器200中还可以包括存储器204。存储器204可以存储软件代码部分以及与先前噪声和语音强度有关的历史信息。处理器203可以包括一个或多个处理单元。

当VAD以初级VAD为例时，输入至初级语音活动检测器的输入部202的输入信号201是当前输入帧的子带能量估计、来自图1所示的背景估计器的子带能量估计、长期噪声强度(电平)、用于长期SNR计算的长期语音强度(电平)、以及来自图1的特征提取器的长期噪声强度变化。长期语音和噪声强度是使用VAD标记估计的。当VAD＝＝0时，利用对总噪声N_tot值的平滑处理，来更新长期噪声估计。类似地，当VAD＝＝1时，利用基于当前输入帧的总子带能量对E_tot(输入帧的总能量)进行的平滑处理，来更新长期语音强度。

因此，语音活动检测器200包括处理器203，处理器203被配置为将接收帧的第一SNR与自适应阈值比较，以进行VAD判决。根据一实施例，处理器203被配置为确定第一SNR(snr_sum)，且第一SNR通过将输入子带能量电平除以背景能量电平形成。因此，用于确定VAD活动的第一SNR是由不同的子带SNR创建(例如，通过将不同的子带SNR相加)的组合SNR。

在第一实施例中，自适应阈值是以下特征的函数：噪声能量N_tot、第二SNR的估计( SNR)、以及第一附加特征N_var。在第二实施例中，当确定自适应阈值时，还考虑E_{dyn_ lp}。在示例实施例中，第二SNR是对多个帧测量的长期SNR(lp_snr)。

此外，处理器203被配置为，基于第一SNR和自适应阈值间的比较，来检测接收帧是否包括语音。该判决被称为初级判决vad_prim 206，并经由输出部205被发送至尾响添加。接着，VAD在进行最终VAD判决时能够使用vad_prim 206。

根据又一实施例，处理器203被配置为，在第二SNR的当前估计低于平滑输入动态测量值的情况下，向上调整接收帧的第二SNR的估计，其中，所述平滑输入动态测量值指示所述接收帧的能量动态。

以下是对实施例的详细描述。在该描述中，使用(在ITU-T的“Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s”，ITU-T G.718，2008年6月中进一步说明的)G.718编解码器作为该描述的基础。

表1

根据本发明的一方面，如图3的流程图所示，提供了语音活动检测器200中的用于确定输入信号的帧是否包括语音的方法。该方法包括：在第一步骤301中，接收输入信号的帧；以及确定302接收帧的第一SNR。第二SNR可以是不同子带的组合SNR(例如，不同子带的SNR的和)。将所确定的第一SNR与自适应阈值比较303，其中，在第一实施例中，所述自适应阈值至少基于总噪声能量N_tot、第二SNR的估计 SNR(lp_snr)、以及第一附加特征N_var。在第二实施例中，当确定自适应阈值时，还考虑E_{dyn_lp}。在示例实施例中，第二SNR是对多个帧计算的长期SNR(lp_snr)。此外，基于所述比较，检测304接收帧是否包括语音。

根据本发明的实施例，所确定的接收帧的第一SNR是接收帧的不同子带的组合SNR。组合的第一SNR(根据上表，又表示为snr_sum)可以被计算为：

在阈值可以被用于以上示例的snr_sum前，必须基于当前输入条件和长期SNR来计算阈值。应注意的是，在本示例中，根据现有技术，阈值适配仅取决于长期SNR(lp_snr)。

长期语音和噪声强度计算如下：

长期能量和帧计数器的初始

lp_speech＝45.0；

frame＝0；

本发明的实施例使用了改进的VAD阈值适配逻辑，该逻辑基于现有技术中使用的特征和以本发明的实施例引入的附加特征。以下，针对上述基础，将示例实现给出为对伪码的修改。

应注意的是，对于在该描述中使用的阈值和系统参数，存在大量常数，这些常数仅是示例。然而，各种输入信号的进一步调谐也属于本发明实施例的范围。

如上所述，第二实施例引入新特征：第一附加特征噪声变化N_var和第二附加特征E_{dyn_LP}，E_{dyn_LP}指示平滑输入能量动态。在以下伪码中，N_var表示为Etot_v_h，E_{dyn_LP}表示为sign_dyn_lp。通过自下Etot_l和自上Etot_h跟踪输入能量，来估计信号动态sign_dyn_lp。接着，使用差作为低通滤波器的输入，以获得平滑后的信号动态测量值sign_dyn_lp。为了进一步澄清实施例，以黑体字编写的伪码涉及实施例的新特征，而其他伪码涉及现有技术。

使用Etot_V，根据(对数域中的)输入总能量，来形成噪声变化估计，Etot_v测量帧之间的绝对能量变化(即，帧之间瞬时能量变化的绝对值)。注意，特征Etot_v_h限于：对于每帧，仅增加一个小常数值0.2的最大量。此外，变量Etot_last是先前帧的能量电平。根据本发明的实施例，还可以使用vad_flag＝＝0的最后一帧，以避免语音突发末尾较大的能量下降。

Etot_v_h还表示为N_var，是提供对帧间强度变化的保守估计的特征，用于表征输入信号。因此，Etot_v_h描述对噪声帧的帧到帧能量变化的包络跟踪的估计，对估计增大的速度进行了限制。

根据实施例，使用重要性阈值来改进每帧的平均SNR，这可以通过以下方式来实现：

在该实现中，还改进了长期语音和噪声强度的估计，获得了更精确的强度。此外，改进了语音强度的初始化。

初始化：

估计长期语音和噪声强度

本发明的实施例引入了两个重要修改。第一修改在于：始终更新长期噪声强度。这样做的动机在于：如果VAD＝1能够向下更新背景噪声估计。第二修改在于：在强度增加的情况下，长期语音强度估计此时允许更快的跟踪，并且还允许该更快的跟踪进行向下调整，但仅在lp_speech估计高于Etot_h的情况下允许向下调整。

采用根据实施例的这一新的长期强度估计逻辑，纯噪声输入的基本假设是SNR较低。然而，采用更快的跟踪，输入语音将迅速获得更正确的长期强度估计，从而获得更好的SNR估计。

改进的VAD阈值适配逻辑基于现有特征和新特征。如以下示例实现所示，用针对输入噪声变化(Etot_v_h)和输入噪声强度(lp_noise)的新特征对现有特征SNR(lp_snr)进行了补充；注意，如上所述，还改进了长期语音和噪声强度估计(lp_speech、lp_noise)。

以上第一块伪码示出了如何使用平滑后的输入能量动态测量值。如果当前SNR估计低于平滑后的输入能量动态测量值sign_dyn_lp，将所使用的SNR增加一常数值。然而，修改后的SNR值不能大于平滑后的输入能量动态测量值sign_dyn_lp。

以上第二块伪码示出了基于用于阈值适配的新特征Etot_v_h和lp_snr的改进的VAD阈值适配，lp_snr取决于sign_dyn_lp。

所示结果基于对干净语音(强度为-26dBov)与不同类型和不同SNR的背景噪声的混合进行的评估。对于干净的语音输入，可以使用帧能量的固定阈值来获得无尾响的单纯语音的活动值，在该情况下，活动值为51％。

表2 以改进程度递减的顺序示出了初始评估结果

由以上结果可见，组合修改显示：对于许多与嘈杂噪声的混合以及对于5dB汽车噪声，活动降低的增益显著。

还存在一个示例(128个说话者的嘈杂声和15dB SNR)，其中，评估显示活动增加。应注意的是，2％不是很大的增加，并且对于参考和组合修改而言，活动均低于干净语音51％。因此，在该情况下，与参考相比，组合修改的活动增加实际上可以提高混合内容的主观质量。

还存在仅改进较小或没有改进的情况，然而，这些情况针对合理的SNR(15和20)，并且对于这些操作点，甚至更简单的基于能量的VAD也可以给出合理的性能。

在表中的评估组合中，参照仅对15dB SNR下的汽车和嘈杂声128了给出合理的活动。对于嘈杂声64，参考处于合理操作的边缘，对于51％的干净输入具有57％的活动。

这与能够处理8个评估组合中6个评估组合的实施例可比。对于5dBSNR下的嘈杂声64和20dB SNR下的嘈杂声32，活动达到61％；此处应指出的是，相对于参照的改进是大约30％。

组合的发明还表现出对低SNR下汽车噪声的改进；这是通过对5dBSNR下汽车噪声混合的改进来举例说明的，其中，参考产生66％的活动，而组合的发明的活动是50％。

受益于前述描述和相关附图中呈现的教导，本领域技术人员将想到所公开的本发明的修改和其他实施例。因此，应当理解本发明的实施例不应限于所公开的具体实施例，且在本公开的范围中意在包括该修改和其他实施例。虽然此处采用了特定术语，但这些术语是在一般性和描述性的意义下使用的，而非用于限制的目的。

Claims

1.一种在语音活动检测器中确定输入信号的帧是否包括语音的方法，所述方法包括：

接收(301)输入信号的帧，

确定(302)接收帧的第一信噪比SNR，

将所确定的第一SNR与自适应阈值比较(303)，其中，所述自适应阈值至少基于噪声电平的总噪声能量、第二SNR的估计、以及不同帧之间的能量变化，所述不同帧之间的能量变化是对帧到帧能量变化的包络跟踪的估计，以及

基于所述比较，检测(304)接收帧是否包括语音。

2.根据权利要求1所述的方法，其中，所确定的接收帧的第一SNR是接收帧的不同子带的组合SNR。

3.根据权利要求2所述的方法，其中，使用重要性阈值来确定组合的第一SNR。

4.根据权利要求1至3中任一项所述的方法，其中，所述不同帧之间的能量变化是所述接收帧与最后一个包括噪声在内的接收帧之间的能量变化。

5.根据权利要求1至3中任一项所述的方法，其中，所述接收帧的第二SNR的估计是对多个帧测量的长期SNR估计。

6.根据权利要求5所述的方法，其中，如果所述接收帧的第二SNR的当前估计低于平滑输入动态测量值，向上调整第二SNR的估计，其中，所述平滑输入动态测量值指示所述接收帧的能量动态。

7.根据权利要求4所述的方法，其中，所述接收帧的第二SNR的估计是对多个帧测量的长期SNR估计。

8.一种用于确定输入信号的帧是否包括语音的语音活动检测器(200)，所述语音活动检测器(200)包括：输入部(202)，被配置为接收输入信号的帧；处理器(203)，被配置为确定接收帧的第一信噪比SNR，将所确定的第一SNR与自适应阈值比较，以及基于所述比较，检测接收帧是否包括语音，其中，所述自适应阈值至少基于噪声电平的总噪声能量、第二SNR的估计、以及不同帧之间的能量变化，所述不同帧之间的能量变化是对帧到帧能量变化的包络跟踪的估计。

9.根据权利要求8所述的语音活动检测器(200)，其中，所述处理器(203)被配置为：将接收帧的第一SNR确定为接收帧的不同子带的组合SNR。

10.根据权利要求9所述的语音活动检测器(200)，其中，所述处理器(203)被配置为：使用重要性阈值来确定组合的第一SNR。

11.根据权利要求8-10中任一项所述的语音活动检测器(200)，其中，所述不同帧之间的能量变化是所述接收帧与最后一个包括噪声在内的接收帧之间的能量变化。

12.根据权利要求8-10中任一项所述的语音活动检测器(200)，其中，所述接收帧的第二SNR的估计是对多个帧测量的长期估计。

13.根据权利要求12所述的语音活动检测器(200)，其中，所述处理器(203)被配置为：在所述接收帧的第二SNR的当前估计低于平滑输入动态测量值的情况下，向上调整第二SNR的估计，其中，所述平滑输入动态测量值指示所述接收帧的能量动态。

14.根据权利要求11所述的语音活动检测器(200)，其中，所述接收帧的第二SNR的估计是对多个帧测量的长期估计。

15.根据权利要求8所述的语音活动检测器(200)，其中，所述语音活动检测器是初级语音活动检测器。