CN104067341A

CN104067341A - 在存在背景噪声的情况下的语音活动检测

Info

Publication number: CN104067341A
Application number: CN201380005605.3A
Authority: CN
Inventors: 芬卡特拉曼·斯里尼瓦沙·阿提; 文卡特什·克里希南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-20
Filing date: 2013-01-08
Publication date: 2014-09-24
Anticipated expiration: 2033-01-08
Also published as: KR20140121443A; US9099098B2; JP5905608B2; KR101721303B1; US20130191117A1; CN104067341B; BR112014017708A8; WO2013109432A1; BR112014017708A2; BR112014017708B1; JP2015504184A; EP2805327A1

Abstract

在语音处理系统中，在平均信噪比SNR计算中对于背景噪声中的突然改变作出补偿。可单独或结合对所述平均SNR加权而使用SNR离群值滤波。可在计算所述SNR平均之前在每频带的所述SNR上施加自适应权重。所述加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。另一加权机制应用零值滤波或离群值滤波，其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的所述SNR高几倍的SNR的频带。

Description

在存在背景噪声的情况下的语音活动检测

相关申请案的交叉参考

本申请案依据35U.S.C.§119(e)的权益主张2012年1月20日申请的第61/588,729号临时专利申请案的优先权。此临时专利申请案全文以引用的方式明确地并入本文中。

背景技术

对于在噪声环境中发生通信的应用，可能需要使所要语音信号与背景噪声分离。噪声可界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包含在声学环境内产生的许多噪声信号，例如其他人的背景对话，以及从所要信号和/或其它信号的任一者产生的反射和回响。

例如语音活动检测器(VAD)等信号活动检测器可用于使电子装置中的不必要处理的量最小化。语音活动检测器可遵循麦克风选择性地控制一个或一个以上信号处理阶段。举例来说，记录装置可实施语音活动检测器以使对噪声信号的处理和记录最小化。语音活动检测器可在无语音活动的周期期间解除激励或以其它方式解除激活信号处理和记录。类似地，例如智能电话、移动电话、个人数字助理(PDA)、膝上型计算机，或任何便携式计算装置等通信装置可实施语音活动检测器以便减少向噪声信号分配的处理功率，且减少发射或以其它方式传送到远程目的地装置的噪声信号。语音活动检测器可在无语音活动的周期期间解除激励或解除激活语音处理和发射。

语音活动检测器令人满意地操作的能力可能由于改变噪声条件且噪声条件具有显著噪声能量而被阻止。当将语音活动检测集成于经受动态噪声环境的移动装置中时，语音活动检测器的性能可能进一步复杂化。移动装置可在相对无噪声的环境下操作，或可在相当大噪声条件下操作，其中噪声能量与语音能量近似。动态噪声环境的存在使得语音活动决策变得复杂。

常规上，语音活动检测器将输入帧分类为背景噪声或活动语音。活动/不活动分类允许语音译码器利用典型电话对话中通常存在的谈话突峰之间的暂停。在高信噪比(SNR)(例如，SNR＞30dB)下，简单的能量量度适于准确地检测用于在最小位速率下编码的语音不活动片段，借此满足较低位速率要求。然而，在低SNR下，语音活动检测器的性能显著降级。举例来说，在低SNR下，保守VAD可产生增加的错误语音检测，从而导致较高平均编码速率。激进VAD可错过检测活动语音片段，借此导致语音质量的损失。

大多数当前VAD技术使用长期SNR来估计用于执行关于输入帧是背景噪声还是活动语音的VAD决策的阈值(称为VAD_THR)。在低SNR下或在快速变化的非静止噪声下，平滑的长期SNR将产生不准确VAD_THR，从而导致错过语音的增加可能性或错误语音检测的增加可能性。并且，一些VAD技术(例如，自适应多速率宽带或AMR-WB)对于例如汽车噪声等静止类型的噪声较好工作，但对于低SNR(例如，SNR＜15dB)下的非静止噪声产生极高语音活动因数(归因于广泛错误检测)。

因此，语音活动的错误指示可导致处理和发射噪声信号。对噪声信号的处理和发射可产生不良的用户体验，尤其是在归因于语音活动检测器指示无语音活动，噪声发射周期不时地被不活动周期打断的情况下。相反，不良的语音活动检测可导致语音信号的相当大部分的丢失。语音活动的初始部分的丢失可导致用户需要有规律地重复对话的部分，这是不合需要的情形。

发明内容

本发明针对补偿平均SNR(即，SNR_avg)计算中的背景噪声中突然改变。在一实施方案中，带内的SNR值可通过离群值滤波和/或施加权重而选择性调整。SNR离群值滤波可单独或与为平均SNR加权结合使用。还提供子带内的自适应方法。

在一实施方案中，VAD可包括在还包含俘获声音的一个或一个以上麦克风的移动电话内或耦合到所述移动电话。所述装置将传入声音信号划分为时间块，或分析帧或部分。时间(或帧)中每一片段的持续时间足够短使得信号的频谱包络保持相对静止。

在一实施方案中，为平均SNR加权。自适应权重在计算平均SNR之前施加在每频带SNR上。加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。

另一加权机制应用零值滤波或离群值滤波，其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的SNR高几倍的SNR的频带。

在一实施方案中，执行SNR离群值滤波包括以单调次序将频带中的经修改瞬时SNR值分类，确定频带中的哪些为离群值频带，以及通过将与离群值频带相关联的权重设定为零而更新自适应加权函数。

在一实施方案中，使用子带中的自适应方法。代替于逻辑上组合子带VAD决策，自适应加权子带中的阈值与平均SNR之间的差。确定每一子带中VAD阈值与平均SNR之间的差。将权重施加到每一差值，且将经加权差值相加在一起。可通过将结果与另一阈值(例如，零)比较而确定是否存在语音活动。

提供此概述是为了以简化形式介绍下文中在详细描述内容中进一步描述的概念选择。此概述不希望指明所主张标的物的关键特征或本质特征，也不希望用于限制所主张标的物的范围。

附图说明

当结合附图阅读时将更好地理解以上概述以及说明性实施例的以下详细描述。出于说明实施例的目的，图式中展示实施例的实例构造；然而，实施例不限于所揭示的特定方法和手段。图中：

图1是VAD阈值(VAD_THR)与可在估计VAD阈值时使用的长期SNR(SNR_LT)的映射曲线的实例；

图2是说明语音活动检测器的实施方案的框图；

图3是对可在检测语音活动时使用的平均SNR加权的方法的实施方案的操作流程；

图4是可在检测语音活动时使用的SNR离群值滤波的方法的实施方案的操作流程；

图5是错误检测期间每频带经分类SNR的概率分布函数(PDF)的实例；

图6是用于检测在存在背景噪声的情况下的语音活动的方法的实施方案的操作流程；

图7是可在检测语音活动时使用的方法的实施方案的操作流程；

图8是实例移动台的图；以及

图9展示示范性计算环境。

具体实施方式

参考且并入有图式的以下详细描述描述并说明了一个或一个以上特定实施例。展示并充分详细地描述了这些实施例(提供这些实施例并非用以限制而是仅用以示范和教示)以使得所属领域的技术人员能够实践所主张的内容。因此，为简洁起见，所述描述可省略所属领域的技术人员已知的某些信息。

在许多语音处理系统中，语音活动检测通常从例如麦克风信号(例如，移动电话的麦克风信号)等音频输入信号估计。语音活动检测是例如声码器和语音辨识装置等许多语音处理装置中的重要功能。语音活动检测分析可在时域或频域中执行。在存在背景噪声的情况下且在低SNR下，频域VAD通常比时域VAD优选。频域VAD具有分析频段的每一者中的SNR的优点。在典型的频域VAD中，首先语音信号分段为帧，例如10到30ms长。接下来，时域语音帧使用N点FFT(快速傅里叶变换)变换到频域。第一半(即，N/2)频段划分为若干频带，例如M频带。频谱段到频带的此分组通常模拟人类听觉系统的关键频带结构。作为一实例，对于以每秒16,000样本取样的宽带语音，假设N＝256点FFT且M＝20频带。第一频带可含有N1频谱段，第二频带可含有N2频谱段，等等。

第m频带中每频带的平均能量E_cb(m)通过将每一频带内的FFT频段的量值相加而计算。接下来，使用等式(1)计算每频带的SNR：

{SNR}_{CB} (m) = \frac{E_{cb} (m)}{N_{cb} (m)},

m＝1、2、3...M频带 (1)

其中N_cb(m)是不活动帧期间更新的第m频带中的背景噪声能量。接下来，使用等式(2)计算平均信噪比SNR_avg：

{SNR}_{avg} = 10 \log 10 (Σ_{m = 1}^{M} {SNR}_{CB} (m)) - - - (2)

SNR_avg与阈值VAD_THR比较，且如等式(3)中展示作出决策：

如果SNR_avg＞VAD_THR，那么

voice_activity＝真；

否则

voice_activity＝假。 (3)

VAD_THR通常为自适应性的且基于长期信号与噪声能量的比率，且VAD_THR逐帧改变。估计VAD_THR的一个常见方式是使用图1所示的形式的映射曲线。图1是VAD阈值(即，VAD_THR)与SNR_LT(长期SNR)的映射曲线的实例。使用指数平滑函数估计长期信号能量和噪声能量。接着，使用等式(4)计算长期SNR，SNR_LT：

如上所述，大多数当前VAD技术使用长期SNR估计VAD_THR来执行VAD决策。在低SNR下或在快速变化的非静止噪声下，经平滑长期SNR将产生不准确的VAD_THR，从而导致增加错过语音的可能性或增加错误语音检测的可能性。并且，一些VAD技术(例如，自适应多速率宽带或AMR-WB)对于例如汽车噪声等静止类型的噪声作用较好，但对于低SNR(例如，小于15dB)下的非静止噪声产生极高语音活动因数(归因于广泛错误检测)。

本文的实施方案针对补偿SNR_avg计算中的背景噪声中的突然改变。如本文相对于一些实施方案进一步描述，通过离群值滤波和/或施加权重而选择性调整频带中的SNR值。

图2是说明语音活动检测器(VAD)200的实施方案的框图，且图3是对平均SNR加权的方法300的实施方案的操作流程。

在一实施方案中，VAD200包括接收器205、处理器207、加权模块210、SNR计算模块220、离群值滤波器230和决策模块240。VAD200可包括在还包含俘获声音的一个或一个以上麦克风的装置内或耦合到所述装置。作为替代或另外，接收器205可包括俘获声音的装置。连续声音可发送到数字化器(例如，处理器，比如处理器207)，数字化器以离散间隔对声音取样且量化(例如，数字化)所述声音。装置可将传入的声音信号划分为时间块，或分析帧或部分。时间(或帧)中每一片段的持续时间通常选择为足够短使得信号的频谱包络可预期保持相对静止。依据实施方案，VAD200可包括在移动台或其它计算装置内。相对于图8描述实例移动台。相对于图9描述实例计算装置。

在一实施方案中，(例如，通过加权模块210)对平均SNR加权。更特定来说，在计算SNR_avg之前在每频带SNR上施加自适应权重。在一实施方案中，即，如等式(5)所表示：

加权函数权重(m)可为噪声电平、噪声类型和/或瞬时SNR值的函数。在310处，可在VAD200处接收声音的一个或一个以上输入帧。在320处，可例如由VAD200的处理器确定噪声电平、噪声类型和/或瞬时SNR值。可由例如SNR计算模块220确定瞬时SNR值。

在330处，可例如由VAD200的处理器基于噪声电平、噪声类型和/或瞬时SNR值确定加权函数。可在340处确定频带(也称为子带)，且可在350处例如由VAD200的处理器在每频带SNR上施加自适应权重。可在360处例如由SNR计算模块220确定跨越频带的平均SNR。

举例来说，如果频带1、2和3中的瞬时SNR值显著低于(例如，20倍)频带≥4中的瞬时SNR值，那么针对m＜4的SNR_CB(m)可接收比针对频带m≥4低的权重。这通常是汽车噪声的情况，其中在语音活动区期间较低频带(＜300Hz)下的SNR显著低于较高频带中的SNR。

可出于选择权重(m)曲线的目的检测噪声类型和背景噪声电平变化。在一实施方案中，一组权重(m)曲线预先计算并存储在数据库或其它存储或存储器装置或结构中，且依据检测到的背景噪声类型(例如，静止或非静止)和背景噪声电平变化(例如，噪声电平的3dB、6dB、9dB、12dB增加)而每处理帧选择每一权重(m)曲线。

如本文描述，实施方案通过借助离群值滤波和施加权重选择性调整频带中的SNR值而补偿SNR_avg计算中背景噪声中的突然改变。

在一实施方案中，可单独或结合对平均SNR加权而使用SNR离群值滤波。更特定来说，另一加权机制可应用零值滤波或离群值滤波，其基本上将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的SNR高几倍的SNR的频带。

图4是SNR离群值滤波的方法400的实施方案的操作流程。在此方法中，在410处将频带m＝1、2、...、20中的SNR以升序分类，且在420处识别具有最高SNR(离群)值的频带。在430处将与所述离群值频带相关联的权重设定为零。此技术可由例如离群值滤波器230执行。

此SNR离群值问题可归因于例如数值精度或噪声能量的过低估计而产生，其在某些频带中的SNR中产生尖峰。图5是错误检测期间每频带的经分类SNR的概率分布函数(PDF)的实例。图5展示被错误分类为语音活动的所有帧上的经分类SNR的PDF。如图5所示，离群值SNR是20频带中的中值SNR的几百倍。此外，一个频带中的较高(离群)SNR值(在一些情况下归因于噪声的过低估计或数值精度)推动SNR_avg高于VAD_THR且导致voice_activity＝真。

图6是用于检测在存在背景噪声的情况下的语音活动的方法600的实施方案的操作流程。在610处，例如由比如VAD200的接收器205等VAD的接收器接收声音的一个或一个以上输入帧。在620处，确定每一输入帧的噪声特性。举例来说，例如由VAD200的处理器207确定例如输入帧的噪声电平变化、噪声类型和/或瞬时SNR值等噪声特性。

在630处，使用例如VAD200的处理器207，基于噪声特性，例如基于至少一个噪声电平变化和/或噪声类型而确定频带。在640处，基于噪声特性确定每频带的SNR值。在一实施方案中，由SNR计算模块220在640处基于至少噪声电平变化和/或噪声类型确定每频带的经修改瞬时SNR值。举例来说，可基于以下各项确定每频带的经修改瞬时SNR值：使用每频带信号能量的过去估计值基于输入帧的至少瞬时SNR选择性地使每频带信号能量的当前估计值平滑；使用每频带信号能量的过去估计值基于至少噪声电平变化和噪声类型选择性地使每频带信号能量的当前估计值平滑；以及确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。

在650处，可(例如，由离群值滤波器230)确定离群值频带。在一实施方案中，给定频带的任一者中的经修改瞬时SNR比频带的剩余者中的经修改瞬时SNR的总和大几倍。

在一实施方案中，在660处，可(例如，由加权模块210)基于至少噪声电平变化、噪声类型、离群值频带的位置和/或每频带经修改瞬时SNR值确定自适应加权函数。可由加权模块210在670处在每频带经修改瞬时SNR上应用自适应加权。

在680处，可由SNR计算模块220通过将频带上的经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR。在690处，将经加权平均SNR与阈值比较以检测信号或语音活动的存在与否。此比较和确定可由例如决策模块240作出。

众所周知的方法是作出子带中的VAD决策且接着逻辑上组合这些子带VAD决策以获得每帧最终VAD决策。举例来说，增强型可变速率编解码器-宽带(EVRC-WB)使用三个频带(低或“L”：0.2到2kHz、中或“M”：2到4kHz，以及高或“H”：4到7kHz)以作出子带中的独立VAD决策。VAD决策经OR运算以估计帧的总体VAD决策。即，如等式(6)表示：

如果SNR_avg(L)＞VAD_THR(L)或SNR_avg(M)＞VAD_THR(M)或SNR_avg(H)＞VAD_THR(H)

voice_activity＝真；

否则

voice_activity＝假。 (6)

已实验上观察到，在大多数错过语音检测情况(尤其低SNR下)期间，子带SNR_avg值稍小于子带VAD_THR值，而在过去帧中，子带SNR_avg值的至少一者显著大于对应子带VAD_THR。

在一实施方案中，可使用子带中的自适应软-VAD_THR方法。代替于逻辑上组合子带VAD决策，对子带中的VAD_THR与SNR_avg之间的差自适应加权。

图7是此方法700的实施方案的操作流程。在710处，例如由VAD200的处理器确定每一子带中VAD_THR与SNR_avg之间的差。在720处将权重施加到每一差值，且在730处例如通过VAD200的加权模块210将经加权差值相加在一起。

可在740处(例如，由决策模块240)通过将730的结果与另一阈值(例如，零)比较而确定是否存在语音活动。即，如等式(7)和(8)中展示：

VTHR＝α_L(SNR_avg(L)-VAD_THR(L))+α_M(SNR_avg(M)-VAD_THR(M))+α_H(SNR_avg(H)-VAD_THR(H)) (7)

如果VTHR＞0，那么voice_activity＝真，否则voice_activity＝假。 (8)

作为一实例，例如由用户将加权参数α_L、α_M、α_H首先初始化为0.3、0.4、0.3。加权参数可根据子带中的长期SNR自适应地变化。加权参数可例如由用户依据特定实施方案设定为任何值。

注意，当加权参数α_L＝α_M＝α_H＝1时，由等式(7)和(8)表示的以上子带决策等式类似于上文描述的全频带等式(3)。

因此，在一实施方案中，EVRC-WB使用三个频带(0.2到2kHz、2到4kHz，以及4到7kHz)来作出子带中的独立VAD决策。VAD决策经OR运算以估计帧的总体VAD决策。

在一实施方案中，可存在频带间的一些重叠如下(每倍频程)，例如：0.2到1.7kHz、1.6kHz到3.6kHz以及3.7kHz到6.8kHz。已确定所述重叠给出较好结果。

在一实施方案中，如果两个子带的任一者中满足VAD准则，那么其视为语音活动帧。

尽管上文描述的实例使用具有不同频率范围的三个子带，但这不意图具有限制性。可依据实施方案或视需要使用具有任何频率范围和任何重叠量的任何数目的子带。

本文描述的VAD给出具有子带VAD与全频带VAD之间的折衷的能力以及从EVRC-WB类型的子带VAD改进的错误速率性能和从AMR-WB类型的全频带VAD改进的错过语音检测性能的优点。

本文描述的比较和阈值不意图具有限制性，因为可依据实施方案使用任何一个或一个以上比较和/或阈值。还可依据实施方案使用额外和/或替代比较和阈值。

除非另外指出，否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。

如本文中所使用，术语“确定”(及其语法变体)在极广泛的含义上使用。术语“确定”涵盖许多种类的动作，且因此“确定”可包含计算、估计、处理、导出、调查、查找(例如，在表、数据库或另一数据结构中查找)、查实等。并且，“确定”可包含接收(例如，接收信息)、存取(例如，在存储器中存取数据)等等。并且，“确定”可包含解析、选择、挑选、建立等等。

贯穿本发明中使用词语“示范性”来表示“充当实例、例子或说明”。本文中被描述为“示范性”的任何对象没有必要解释为比其它方法或特征优选或有利。

术语“信号处理”(及其语法变型)可指代信号的处理和解译。所关注信号可包含声音、图像和许多其它信号。此类信号的处理可包含存储和重建、信息与噪声的分离、压缩，以及特征提取。术语“数字信号处理”可指代以数字表示的信号的研究和这些信号的处理方法。数字信号处理是例如移动台、非移动台和因特网等许多通信技术的元素。可使用专门计算机执行用于数字信号处理的算法，专门计算机可利用称为数字信号处理器(有时缩写为DSP)的专门微处理器。

可直接以硬件、由处理器执行的软件模块，或两者的组合来体现结合本文所揭示的实施例而描述的方法、过程或算法的步骤。可以所展示的次序或可以另一次序来执行方法或过程中的各种步骤或动作。另外，可省略一个或一个以上处理或方法步骤或可将一个或一个以上处理或方法步骤添加到方法和处理。可在方法和处理的开始、末尾或插入的现有元素中添加额外步骤、框或动作。

图8展示无线通信系统中的实例移动台800的设计的框图。移动台800可为智能电话、蜂窝式电话、终端机、手持机、PDA、无线调制解调器、无绳电话等。无线通信系统可为CDMA系统、GSM系统等。

移动台800能够经由接收路径和发射路径提供双向通信。在接收路径上，由天线812接收由基站发射的信号，且将其提供给接收器(RCVR)814。接收器814调节并数字化所接收的信号，且将样本提供给数字区段820以供进一步处理。在发射路径上，发射器(TMTR)816接收将要从数字区段820发射的数据，处理并调节所述数据，且产生经调制信号，所述经调制信号经由天线812发射到基站。接收器814和发射器816可为可支持CDMA、GSM等的收发器的一部分。

数字区段820包含各种处理、接口和存储器单元，例如调制解调器处理器822、精简指令集计算机/数字信号处理器(RISC/DSP)824、控制器/处理器826、内部存储器828、一般化音频编码器832、一般化音频解码器834、图形/显示处理器836和外部总线接口(EBI)838。调制解调器处理器822可执行用于数据发射和接收的处理，例如编码、调制、解调和解码。RISC/DSP824可执行用于无线装置800的一般和专门处理。控制器/处理器826可引导数字区段820内的各种处理和接口单元的操作。内部存储器828可存储数字区段820内的各种单元的数据和/或指令。

一般化音频编码器832可执行对于来自音频源842、麦克风843等的输入信号的编码。一般化音频解码器834可执行对于经译码音频数据的解码且可将输出信号提供到扬声器/头戴式耳机844。图形/显示处理器836可针对可呈现给显示单元846的图形、视频、图像和文本执行处理。EBI838可促进数据在数字区段820与主存储器848之间的传送。

可使用一个或一个以上处理器、DSP、微处理器、RISC等来实施数字区段820。也可将数字区段820制造在一个或一个以上专用集成电路(ASIC)和/或某一其它类型的集成电路(IC)上。

图9展示其中可实施实例实施方案和方面的示范性计算环境。计算系统环境仅是适宜的计算环境的一个实例，且不希望提示对用途或功能性的范围的任何限制。

可使用正由计算机执行的例如程序模块等计算机可执行指令。大体上，程序模块包含执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。可使用分布式计算环境，其中由经由通信网络或其它数据发射媒体链接的远程处理装置执行任务。在分布式计算环境中，程序模块和其它数据可位于本地和远程计算机存储媒体(包含存储器存储装置)两者中。

参看图9，用于实施本文描述的方面的示范性系统包含计算装置，例如计算装置900。在其最基本配置中，计算装置900通常包含至少一个处理单元902和存储器904。依据计算装置的确切配置和类型，存储器904可为易失性(例如，随机存取存储器(RAM))、非易失性(例如，只读存储器(ROM)、快闪存储器等)，或两者的一些组合。此最基本配置在图9中由虚线906说明。

计算装置900可具有额外特征和/或功能性。举例来说，计算装置900可包含额外存储装置(可装卸和/或不可装卸)，包含(但不限于)磁盘或光盘或磁带。此类额外存储装置在图9中由可装卸存储装置808和不可装卸存储装置910说明。

计算装置900通常包含多种计算机可读媒体。计算机可读媒体可为可由装置900存取的任何可用媒体，且包含易失性和非易失性媒体两者，以及可装卸和不可装卸媒体两者。计算机存储媒体包含在用于存储例如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术中实施的易失性和非易失性以及可装卸和不可装卸媒体。存储器904、可装卸存储装置908和不可装卸存储装置910均为计算机存储媒体的实例。计算机存储媒体包含(但不限于)RAM、ROM、电可擦除编程只读存储器(EEPROM)、快闪存储器或其它存储器技术、CD-ROM、数字多功能磁盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置，或可用于存储所要信息且可由计算装置900存取的任何其它媒体。任何此类计算机存储媒体可为计算装置900的一部分。

计算装置900可含有允许装置与其它装置通信的通信连接912。计算装置900还可具有例如键盘、鼠标、笔、语音输入装置、触摸输入装置等输入装置914。还可包含例如显示器、扬声器、打印机等输出装置916。所有这些装置在此项技术中是众所周知的且此处不需要详细论述。

一般来说，本文描述的任何装置可表示各种类型的装置，例如无线或有线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信PC卡、PDA、外部或内部调制解调器、经由无线或有线信道通信的装置等。装置可具有各种名称，例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动体、远程站点、远程终端、远程单元、用户装置、用户设备、手持式装置、非移动台、非移动装置、端点等。本文描述的任何装置可具有用于存储指令和数据的存储器，以及硬件、软件、固件或其组合。

本文中所描述的技术可由各种装置实施。举例来说，可以硬件、固件、软件或其组合来实施这些技术。技术人员将进一步了解，在本文中结合揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件，或两者的组合。为清楚地说明硬件与软件的此互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路和步骤。此功能性是实施为硬件还是软件取决于特定应用和强加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为导致偏离本发明的范围。

对于硬件实施方案，用于执行所述技术的处理单元可实施在一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、FPGA、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文描述的功能的其它电子单元、计算机，或其组合内。

因此，结合本文的揭示内容描述的各种说明性逻辑块、模块和电路可以通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文描述的功能的其任何组合实施或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合，或任何其它此类配置。

对于固件和/或软件实施方案，所述技术可体现为例如随机存取RAM、ROM、非易失性RAM、可编程ROM、EEPROM、快闪存储器、紧密光盘(CD)、磁性或光学数据存储装置等计算机可读媒体上的指令。所述指令可由一个或一个以上处理器执行且可使所述处理器执行本文中所描述的功能性的某些方面。

如果实施于软件中，那么可将所述功能作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体和通信媒体两者，通信媒体包含促进将计算机程序从一处传递到另一处的任何媒体。存储媒体可为可由通用或专用计算机存取的任何可用媒体。举例来说(且并非限制)，此些计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于携载或存储呈指令或数据结构的形式的所要程序代码装置且可由通用或专用计算机或者通用或专用处理器存取的任何其它媒体。并且，恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射软件，那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。如本文使用的磁盘和光盘包含CD、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM，或此项技术中已知的任一其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中，处理器和存储媒体可作为离散组件驻留于用户终端中。

尽管示范性实施方案可提及在一个或一个以上独立计算机系统的上下文中利用当前所揭示的标的物的各方面，但所述标的物不限于此，而是可结合例如网络或分布式计算环境等任何计算环境实施。另外，当前所揭示的标的物的各方面可实施在多个处理芯片或装置中或跨越多个处理芯片或装置，且存储装置可类似地跨越多个装置实行。此类装置可能包含例如PC、网络服务器和手持式装置。

尽管已用结构特征和/或方法动作特有的语言描述了标的物，但应理解，所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。相反，上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。

Claims

1.一种用于检测在存在背景噪声的情况下的语音活动的方法，其包括：

在移动台的语音活动检测器处接收声音的一个或一个以上输入帧；

确定所述输入帧的每一者的至少一个噪声特性；

基于所述噪声特性确定多个频带；

基于所述噪声特性确定每频带的信噪比SNR值；

确定至少一个离群值频带；

基于所述至少一个离群值频带确定加权；

在每频带的所述SNR上应用所述加权；以及

使用每频带的所述经加权SNR检测语音活动的存在与否。

2.根据权利要求1所述的方法，其进一步包括执行SNR离群值滤波。

3.根据权利要求1所述的方法，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。

4.根据权利要求3所述的方法，其中基于所述噪声特性确定所述多个频带包括基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。

5.根据权利要求3所述的方法，其中确定每频带的所述SNR值包括基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。

6.根据权利要求5所述的方法，其中确定每频带的所述经修改瞬时SNR值包括：

使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑；

使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑；以及

确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。

7.根据权利要求6所述的方法，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。

8.根据权利要求5所述的方法，其中基于所述至少一个离群值频带确定所述加权包括基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。

9.根据权利要求8所述的方法，其中在每频带的所述SNR上应用所述加权包括在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。

10.根据权利要求9所述的方法，其进一步包括：

通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR；以及

将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。

11.根据权利要求10所述的方法，其中将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否包括：

确定每一频带中所述经加权平均SNR与所述阈值之间的差；

将权重施加到每一差值；

将所述经加权差值相加在一起；以及

通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。

12.根据权利要求11所述的方法，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。

13.根据权利要求8所述的方法，其进一步包括执行SNR离群值滤波，包括：

将所述频带中的所述经修改瞬时SNR值以单调次序分类；

确定所述频带中哪些为所述离群值频带；以及

通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。

14.一种用于检测在存在背景噪声的情况下的语音活动的设备，其包括：

用于接收声音的一个或一个以上输入帧的装置；

用于确定所述输入帧的每一者的至少一个噪声特性的装置；

用于基于所述噪声特性确定多个频带的装置；

用于基于所述噪声特性确定每频带的信噪比SNR值的装置；

用于确定至少一个离群值频带的装置；

用于基于所述至少一个离群值频带确定加权的装置；

用于在每频带的所述SNR上应用所述加权的装置；以及

用于使用每频带的所述经加权SNR检测语音活动的存在与否的装置。

15.根据权利要求14所述的设备，其进一步包括用于执行SNR离群值滤波的装置。

16.根据权利要求14所述的设备，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。

17.根据权利要求16所述的设备，其中所述用于基于所述噪声特性确定所述多个频带的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的装置。

18.根据权利要求16所述的设备，其中所述用于确定每频带的所述SNR值的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的装置。

19.根据权利要求18所述的设备，其中所述用于确定每频带的所述经修改瞬时SNR值的装置包括：

用于使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑的装置；

用于使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑的装置；以及

用于确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率的装置。

20.根据权利要求19所述的设备，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。

21.根据权利要求18所述的设备，其中所述用于基于所述至少一个离群值频带确定所述加权的装置包括用于基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。

22.根据权利要求21所述的设备，其中所述用于在每频带的所述SNR上应用所述加权的装置包括用于在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的装置。

23.根据权利要求22所述的设备，其进一步包括：

用于通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR的装置；以及

用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置。

24.根据权利要求23所述的设备，其中所述用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置包括：

用于确定每一频带中的所述经加权平均SNR与所述阈值之间的差的装置；

用于将权重施加到每一差值的装置；

用于将所述经加权差值相加在一起的装置；以及

用于通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动的装置。

25.根据权利要求24所述的设备，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。

26.根据权利要求21所述的设备，其进一步包括用于执行SNR离群值滤波的装置，包括：

用于将所述频带中所述经修改瞬时SNR值以单调次序分类的装置；

用于确定所述频带中哪些为所述离群值频带的装置；以及

用于通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数的装置。

27.一种包括指令的计算机可读媒体，所述指令致使计算机：

接收声音的一个或一个以上输入帧；

确定所述输入帧的每一者的至少一个噪声特性；

基于所述噪声特性确定多个频带；

基于所述噪声特性确定每频带的信噪比SNR值；

确定至少一个离群值频带；

基于所述至少一个离群值频带确定加权；

在每频带的所述SNR上应用所述加权；以及

使用每频带的所述经加权SNR检测语音活动的存在与否。

28.根据权利要求27所述的计算机可读媒体，其进一步包括致使所述计算机执行SNR离群值滤波的计算机可执行指令。

29.根据权利要求27所述的计算机可读媒体，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。

30.根据权利要求29所述的计算机可读媒体，其中所述致使所述计算机基于所述噪声特性确定所述多个频带的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的指令。

31.根据权利要求29所述的计算机可读媒体，其中所述致使所述计算机确定每频带的所述SNR值的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的指令。

32.根据权利要求31所述的计算机可读媒体，其中所述致使所述计算机确定每频带的所述经修改瞬时SNR值的指令包括致使所述计算机进行以下操作的指令：

33.根据权利要求32所述的计算机可读媒体，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。

34.根据权利要求31所述的计算机可读媒体，其中所述致使所述计算机基于所述至少一个离群值频带确定所述加权的指令包括致使所述计算机基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数的指令。

35.根据权利要求34所述的计算机可读媒体，其中所述致使所述计算机在每频带的所述SNR上应用所述加权的指令包括致使所述计算机在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的指令。

36.根据权利要求35所述的计算机可读媒体，其进一步包括致使所述计算机进行以下操作的计算机可执行指令：

通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR；以及

37.根据权利要求36所述的计算机可读媒体，其中所述致使所述计算机将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的指令包括致使所述计算机进行以下操作的指令：

确定每一频带中的所述经加权平均SNR与所述阈值之间的差；

将权重施加到每一差值；

将所述经加权差值相加在一起；以及

38.根据权利要求37所述的计算机可读媒体，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。

39.根据权利要求34所述的计算机可读媒体，其进一步包括致使所述计算机执行SNR离群值滤波的计算机可执行指令，包括：

将所述频带中所述经修改瞬时SNR值以单调次序分类；

确定所述频带中哪些为所述离群值频带；以及

40.一种用于检测在存在背景噪声的情况下的语音活动的语音活动检测器，其包括：

接收器，其接收声音的一个或一个以上输入帧；

处理器，其确定所述输入帧的每一者的至少一个噪声特性，且基于所述噪声特性确定多个频带；

信噪比SNR模块，其基于所述噪声特性确定每频带的SNR值；

离群值滤波器，其确定至少一个离群值频带；

加权模块，其基于所述至少一个离群值频带确定加权，且在每频带的所述SNR上应用所述加权；以及

决策模块，其使用每频带的所述经加权SNR检测语音活动的存在与否。

41.根据权利要求40所述的语音活动检测器，其中所述离群值滤波器执行SNR离群值滤波。

42.根据权利要求40所述的语音活动检测器，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。

43.根据权利要求42所述的语音活动检测器，其中所述处理器基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。

44.根据权利要求42所述的语音活动检测器，其中所述SNR计算模块基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。

45.根据权利要求44所述的语音活动检测器，其中所述SNR计算模块：

46.根据权利要求45所述的语音活动检测器，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。

47.根据权利要求44所述的语音活动检测器，其中所述加权模块基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。

48.根据权利要求47所述的语音活动检测器，其中所述加权模块在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。

49.根据权利要求48所述的语音活动检测器，其中所述SNR计算模块通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR，且所述决策模块将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。

50.根据权利要求49所述的语音活动检测器，其中所述决策模块确定每一频带中的所述经加权平均SNR与所述阈值之间的差，将权重施加到每一差值，将所述经加权差值相加在一起，且通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。

51.根据权利要求50所述的语音活动检测器，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么所述决策模块确定存在语音活动且否则确定不存在语音活动。

52.根据权利要求47所述的语音活动检测器，其中所述离群值滤波器将所述频带中所述经修改瞬时SNR值以单调次序分类，确定所述频带中哪些为所述离群值频带，且通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。