CN103137139B

CN103137139B - 多麦克风语音活动检测器

Info

Publication number: CN103137139B
Application number: CN201310046916.6A
Authority: CN
Inventors: 俞容山
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-06-30
Filing date: 2009-06-25
Publication date: 2014-12-10
Anticipated expiration: 2029-06-25
Also published as: EP2297727B1; US20110106533A1; ES2582232T3; EP2297727A2; WO2010002676A2; CN103137139A; CN102077274B; US8554556B2; CN102077274A; WO2010002676A3

Abstract

本发明提供了一种双麦克风语音活动检测器系统。语音活动检测器系统估计每个麦克风处的信号水平和噪声水平。诸如信号的附近声音在两个麦克风之间的水平差大于诸如噪声的更远距离声音的水平差。因此，语音活动检测器检测附近声音的存在。

Description

多麦克风语音活动检测器

本申请是申请日为2009年6月25日、申请号为200980125256.2、发明名称为“多麦克风语音活动检测器”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求Rongshan Yu于2008年6月30日提交的题目为“Multi-microphone Voice Activity Detector(多麦克风语音活动检测器)”的、并且已经转让给本申请的受让人（Dolby实验室参考号为：No.D08006US01）的共同未决的美国临时专利申请No.61/077087的权益（包括优先权）。

技术领域

本发明涉及语音活动检测器。更具体地，本发明的实施例涉及利用两个或多个麦克风的语音活动检测器。

背景技术

除非在此指出，否则本部分所描述的方案不是本申请中权利要求的现有技术，并且不会因为包含在本部分而被承认是现有技术。

语音活动检测器（VAD）的一个功能在于检测麦克风所记录的音频信号区域中存在或者不存在人的语音。在关于由VAD模块所决定的语音是否存在于其中的输入信号上使用的不同处理机制的上下文中，VAD在许多语音处理系统中起作用。在这些应用中，精确且鲁棒的VAD性能可影响整体性能。例如，在语音通信系统中，DTX（不连续传输）通常被用来改善带宽使用效率。在这种系统中，利用VAD确定输入信号中是否存在语音，并且如果不存在语音，则停止语音信号的实际传输。这里，将语音错分类为干扰会导致传输信号中的语音减弱，并影响其可理解性（intelligibility）。作为示例，在语音增强系统中，通常需要估计所记录的信号中的干扰信号的水平（level）。这通常是在VAD的帮助下进行的，其中从仅包含干扰信号的部分估计干扰水平。例如，参见A.M.Kondoz的Digital Speech Coding for LowBit Rate Communication Systems的第11章（John Wiley&Sons,2004）。在这个例子中，不准确的VAD会导致干扰水平的过估计（over-estimate）或低估计（under-estimate），这最终会导致非最理想的（suboptimal）语音增强质量。

之前已经提出了多种VAD系统。例如，参见A.M.Kondoz撰写的Digital Speech Coding for Low Bit Rate Communication Systems的第10章（John Wiley&Sons,2004）。这些系统中的一些利用目标语音和干扰之间的差异的统计方面，并依赖阈值比较方法从干扰信号中区分出目标语音。原先用于这些系统中的统计测量包括能量水平、计时、音调、零相交率、周期测量等。多于一种统计测量的组合被用于更多的复杂系统，以进一步改善检测结果的精度。通常，当目标语音和干扰具有非常明显的统计特征时，例如当干扰具有稳定的并低于目标语音水平的水平时，统计方法取得好的性能。然而，在更不利的环境中，尤其在目标信号水平与干扰水平的比值低时或者干扰信号具有类似语音的特征时，保持好的性能变成非常具有挑战性的任务。

在一些鲁棒的自适应射束形成（adaptive beamforming）系统设计中也可以发现与麦克风阵列组合的VAD。例如，参见O.Hoshuyama,B.Begasse,A.Sugiyama及A.Hirano的“A real time robust adaptivemicrophone array controlled by an SNR estimate”，Procedings of the1998IEEE International Conference on Acoustics,Speech and SignalProcessing,1998。那些VAD基于麦克风射束形成系统的不同输出水平的差异，其中目标信号仅存在于一个输出中并因为其他输出而被阻塞。因此，这种VAD设计的有效性可以与射束形成系统在因为那些输出而阻塞目标信号时的能力有关，在实时系统中获取这种能力会是昂贵的。

与该背景有关的、但是不被认为是下文部分中将描述的示例性发明实施例的现有技术的其他参考包括：

参考1：A.M.Kondoz，“Digital Speech Coding for Low Bit RateCommunication Systems”，第10章（John Wiley&Sons,2004）；

参考2：A.M.Kondoz，“Digital Speech Coding for Low Bit RateCommunication Systems”，第11章（John Wiley&Sons,2004）；

参考3：J.G.Ryan和R.A.Goubran，“Optimal nearfield responsesfor Microphone Array”，见IEEE Workshop Applicat.SignalProcessing to Audio Acoust，New Paltz，NY，USA，1997；

参考4：O.Hoshuyama,B.Begasse,A.Sugiyama及A.Hirano，“Areal time robust adaptive microphone array controlled by an SNRestimate”，Proceedings of the1998IEEE International Conferenceon Acoustics,Speech and Signal Processing1998；

参考5：US20030228023A1/WO03083828A1/CA2479758AA，不利环境中多信道语音检测（Multichannel voice detection in adverseenvironments）；以及

参考6：US7174022的用于射束形成和噪声抑制的小阵列麦克风（Small array microphone for beam-forming and noisesuppression）。

附图说明

图1是说明根据本发明实施例的一般麦克风构造的图；

图2是说明根据本发明实施例的包括示例性双麦克风语音活动检测器的装置的图；

图3是说明根据本发明实施例的示例性语音活动检测器系统的框图；

图4是根据本发明实施例的语音活动检测的示例性方法的流程图。

具体实施方式

在此所述的是用于语音活动检测的技术。在下文的描述中，为了解释的目的提出了许多示例以及具体的细节，以提供对本发明的透彻理解。然而，对于本领域技术人员显而易见的是，由权利要求限定的本发明可以仅包括这些示例中的一些或所有特征、或者与下文所述的其他特征相结合，还可以进一步包括在此所述特征和概念的修改以及等价物。

下面将描述各种方法和过程。以一定顺序描述它们主要是为了便于呈现。需要明白的是，可以根据不同的实施方式按期望以其他顺序来执行具体的步骤或者并行执行具体的步骤。当特定步骤必须在另一步骤之前或者之后时，当根据上下文不明显时，会具体指出这种情况。

概要

本发明的实施例改进了VAD系统。根据一实施例，披露了基于双麦克风阵列的VAD系统。在这样的实施例中，建立了麦克风阵列以使得一个麦克风比另一麦克风更靠近目标声音源。通过比较麦克风阵列输出的信号水平做出VAD决定。根据一实施例，可以以相似的方式使用多于两个麦克风。

进一步根据一实施例，本发明包括语音活动检测的方法。该方法包括在第一麦克风处接收第一信号并在第二麦克风处接收第二信号。第二麦克风离开第一麦克风放置。第一信号包括第一目标分量和第一干扰分量，且第二信号包括第二目标分量和第二干扰分量。根据麦克风之间的距离，第一目标分量与第二目标分量不同；且根据麦克风之间的距离，第一干扰分量与第二干扰分量不同。该方法进一步包括基于第一信号估计第一信号的水平，基于第二信号估计第二信号的水平，基于第一信号估计第一噪声水平，以及基于第二信号估计第二噪声水平。该方法进一步包括基于第一信号水平和第一噪声水平计算第一比值，以及基于第二信号水平和第二噪声水平计算第二比值。该方法进一步包括基于第一比值和第二比值之间的差计算当前语音活动决策。

根据一实施例，语音获得检测器系统包括第一麦克风、第二麦克风、信号水平估计器、噪声水平估计器、第一除法器（divider）、第二除法器以及语音活动检测器。第一麦克风接收包括第一目标分量和第一干扰分量的第一信号。第二麦克风离开第一麦克风放置。第二麦克风接收包括第二目标分量和第二干扰分量的第二信号。根据麦克风之间的距离，第一目标分量与第二目标分量不同，并且第一干扰分量与第二干扰分量不同。信号水平估计器基于第一信号估计第一信号的水平，并基于第二信号估计第二信号的水平。噪声水平估计器基于第一信号估计第一噪声水平并基于第二信号估计第二噪声水平。第一除法器基于第一信号水平和第一噪声水平计算第一比值。第二除法器基于第二信号水平和第二噪声水平计算第二比值。语音活动检测器基于第一比值和第二比值之间的差计算当前语音活动决策。

本发明的实施例可以作为方法或者过程来执行。所述方法可以由电子电路实施为硬件或软件、或者它们的组合。用于实施该过程的电路可以是（仅仅执行特定任务的）专用电路或者（被编程为执行一个或多个特定任务的）通用电路。

示例性配置、过程以及实施

根据本发明的实施例，鲁棒VAD系统观察目标语音和干扰信号之间差异的不同方面。在许多语音通信应用（例如电话、移动电话等）中，目标语音的源（source）通常在距麦克风非常短的范围内；而干扰信号通常来自非常远的源。例如，在移动电话中，麦克风与嘴之间的距离处于2cm～10cm的范围内；而干扰通常发生在距离麦克风至少几米的位置处。根据声波传输理论知道：在前一种情况中，所记录信号的水平对麦克风的位置非常敏感（其方式为，声源距离麦克风越近，将获得的信号的水平越大）；而如果如后一种情况那样信号来自远距离处，则这种敏感性即消失。与上述的统计差异不同，该差异与声源的地理位置有关，因此，它是鲁棒的和高度可预知的。这给出了非常鲁棒的特征来区分目标声音信号和干扰。

为了利用这个特征，根据VAD系统的实施例，使用了小规模的双麦克风阵列。以这种方式建立麦克风阵列，以使得一个麦克风比另一麦克风被放置得更靠近目标声源。从而，通过监测这两个麦克风输出的信号水平来做出VAD决策。在本文的剩余部分中进一步公开本发明实施例的详细实现。

麦克风阵列的示例性配置

图1是概念性地示出本发明实施例中所用的示例性麦克风阵列102的配置的框图。麦克风阵列包括两个麦克风：一个麦克风102a（近处的麦克风）位于与目标声源104距离l₁的位置处，另一麦克风102b（远处的麦克风）放置在与目标声源104距离l₂的位置处。这里l₁<l₂。此外，这两个麦克风102a和102b彼此足够靠近，从而使得从远处干扰的视点来看它们可被看作位于大概相同的位置处。根据一实施例，如果这两个麦克风102a和102b之间的距离Δl比其到干扰的距离小一数量级（在麦克风阵列可具有几厘米的尺寸的实际应用中，通常是这样），那么就满足这个条件。

根据一实施例，这两个麦克风102a和102b之间的距离Δl至少比到干扰信号源的距离小一数量级。例如，如果预期干扰信号的源距离麦克风102a（或102b）1米，那么这两个麦克风之间的距离Δl可是2厘米。

根据一实施例，这两个麦克风102a和102b之间的距离Δl处于到目标信号源的距离的数量级中。例如，如果预期目标信号源距离麦克风102a（或102b）2厘米，那么这两个麦克风之间的距离Δl可是3厘米。

根据一实施例，麦克风102a（或102b）与目标信号源之间的距离比麦克风102a（或102b）与干扰信号源之间的距离小多于一个数量级。例如，如果预期目标信号源距离麦克风102a（或102b）5厘米，那么到干扰信号源的距离可为51厘米。

总之，根据实施例，目标信号源可以距离麦克风102a（或102b）5厘米，干扰可以距离麦克风102a（或102b）至少1米，而两麦克风102a和102b之间的距离可以是3厘米。

图2是给出满足上述要求的麦克风阵列102的示例的框图。这里，近处的麦克风102a被放置在移动电话204的前面，而远处的麦克风102b被放置在移动电话204的后面。在这个具体的示例中，l₁＝3~5(cm)，l₂＝5~7(cm)且Δl＝2~3(cm)。

示例性VAD决策

图3是根据本发明实施例的示例性VAD系统300的框图。VAD系统300包括近处的麦克风102a、远处的麦克风102b、模－数转换器302a和302b、带通滤波器304a和304b、信号水平估计器306a和306b、噪声水平估计器308a和308b、除法器310a和310b、单位（unit）延迟元件312a和312b、以及VAD决策模块314。VAD系统300的这些元件执行如下文提出的各种功能。

在VAD系统300中，麦克风阵列102的模拟输出由模－数转换器302a和302b数字化为PCM（脉冲编码调制）信号。为了改善算法的鲁棒性，可以对具有显著语音能量的频率范围进行检查。这可以通过具有带通频率范围为400Hz～1000Hz的一对带通滤波器（BPF）304a和304b对该数字化信号进行处理来实现。

在信号水平估计模块306a和306b中，估计BPF304a和304b输出的信号X_i(n)的水平。方便地，可以像下面这样通过对信号X_i(n)的幂执行回归平均运算，进行该水平估计：

σ_i(n)=a|X_i(n)|²+(1-a)σ_i(n-1)，i=1,2

其中0<a<1是接近零的小值，且σ_i(0)被初始化为0。

假设，信号X₁(n)来自近处的麦克风102a，X₂(n)来自远处的麦克风102b。现在，如果对于信号X₁(n)的水平估计为σ₁(n)＝λ_d(n)+λ_x(n)（其中λ_d(n)是来自干扰信号分量的水平，而λ_s(n)来自目标信号），则信号X₂(n)的水平将由下式给出：

σ₂(n)=g[λ_d(n)+pλ_s(n)]

这里g是远处麦克风102b和近处麦克风102a之间的增益差；且p是信号传播延迟导致的。在理想条件下，所记录声音的水平与声音到麦克风的距离的幂成反比。例如，参见J.G.Ryan和R.A.Goubran，“Optimal nearfield responses for microphone array”,Proc.IEEEWorkshop Applicat.Signal Processing to Audio Acoust.(New Paltz，NY，USA，1997)。在此情况下，p由下式给定：

p=(l₁/l₂)²

其中l₁和l₂分别是目标声音到近处麦克风102a和远处麦克风102b的距离。在实际应用中，p可以依赖于麦克风阵列的实际声学设置，且它的值可以通过测量获得。注意：由于在这种情况下，这两个麦克风之间的传播衰减差异可被忽略，所以假设当麦克风增益差被补偿之后，来自两个麦克风的干扰信号的水平相同。

VAD系统300还像这样监测X₁(n)和X₂(n)中干扰的水平：

其中1<β<1是接近零的小值，且λ_i(n)被初始化为0。这里，估计中只包括被分类为干扰（VAD＝0）的样本。由于还没有执行当前样本的VAD决策，因此这里替代地采用前面样本的VAD决策（经由延迟312a和312b）。类似地，假设由于远处麦克风和近处麦克风之间的增益差，将通过下式给出λ₂(n)：

λ_{2} (n) = g \overset{&OverBar;}{λ_{d}} (n)

通常，虽然两者都是干扰的估计水平。这是因为这两个水平估计器中所用的时间常量（a和β）是不同的。通常，由于希望在目标存在时信号水平估计器的响应足够快，因此可以选择较大值的a；而较小值的β允许干扰水平的平滑估计。为此，λ_d(n)指的是干扰水平的短时估计；而指的是干扰水平的长时估计。根据一实施例，a＝0.1，β＝0.01。在其他实施例中，可以根据目标信号和干扰信号的特征调整a和β的值。根据信号的特征，这两个值可以根据经验设定。

在VAD系统中，进一步计算下面的比值：

r_{1} (n) \overset{Δ}{=} \frac{σ_{1} (n)}{λ_{1} (n)} = γ (n) + ξ (n)

以及

r_{2} (n) \overset{Δ}{=} \frac{σ_{2} (n)}{λ_{2} (n)} = γ (n) + pξ (n)

其中，是近处麦克风102a处干扰水平的短时估计与长时估计的比值，而是近处麦克风102a处目标信号水平估计与干扰水平估计的比值。注意：未知的麦克风增益差g已在这两个比值中被抵消。

VAD决策实际是基于这两个比值之间的差：

u (n) \overset{Δ}{=} r_{1} (n) - r_{2} (n) = (1 - p) ξ (n)

显然，距离干扰分量在u(n)中已被抵消，仅仅留下来自目标语音信号的分量。这将会对于输入信号中是否存在目标语音信号给出非常鲁棒的指示。根据进一步的实施例，在一种实施方式中，像下面这样，通过比较u(n)的值和预先选定的阈值，确定VAD决策：

其中ξ_min是为存在于近处麦克风102a处的语音预先选定的最小SNR阈值。ξ_min的值决定VAD的灵敏度并且其最佳值可以依赖于输入信号中目标语音和干扰的水平。因此，最好通过对VAD中所用的特定分量的实验来设定它的值。通过将这个阈值设定为值1，实验已经显示出令人满意的结果。

风噪声的示例性考虑

风噪声是具体类型的干扰。它可以由当风的气流受到具有不平坦边缘的物体阻挡时产生的空气湍流（turbulence）引起。与一些其他干扰相反，风噪声可以发生在与麦克风非常近的位置处，例如记录装置或麦克风的边缘处。当这个发生时，甚至在不存在目标语音时，可能产生大值的u(n)，导致错误警报问题。因此，VAD决策模块314的实施例进一步通过计算和/或分析r₁(n)和r₂(n)之间的比值来检测风噪声：

v (n) \overset{Δ}{=} r_{1} (n) / r_{2} (n)

如果不存在风噪声，这个给出：

v (n) = \frac{1 + Ψ (n)}{1 + pΨ (n)}

其中根据Ψ(n)的实际值，值v(n)取1和1/p之间的值。另一方面，如果存在风噪声，它可能出现在与目标语音源相关的不同位置处，且因此，v(n)可能落在其正常范围之外。这就给出了存在风噪声的指示。基于这种事实，在系统中采用下面的决策规则，所述系统已经被示出对于风噪声干扰是非常鲁棒的：

这里ε是稍大于1的常量，其可以为VAD系统300提供误差容忍度。根据一实施例，ε的值可以是1.20。在其他实施例中可以调整对ε所使用值的选择，从而调整VAD对风噪声的敏感度。

图4是根据本发明实施例的示例性方法400的流程图。方法400例如可以由语音活动检测系统300来实施（见图3）。

在步骤410，系统的输入信号被麦克风接收。在具有两个麦克风的系统中，第一麦克风比第二麦克风更靠近目标信号源（例如，用户的语音），但是到干扰信号源（例如，噪声）的距离远大于到目标信号源的距离以及麦克风之间的距离。例如，在系统300中（见图3），麦克风102a比麦克风102b更靠近目标源，但是麦克风102a和102b都相对远离干扰源（未示出）。

在步骤420，估计每个麦克风处的信号水平和噪声水平。例如，在系统300中（见图3），信号水平估计器306a估计第一麦克风处的信号水平，噪声水平估计器308a估计第一麦克风处的噪声水平，信号水平估计器306b估计第二麦克风处的信号水平，以及噪声水平估计器308b估计第二麦克风处的噪声水平。作为示例，组合水平估计器估计这四个水平中的两个或多个，例如根据分时基础。

如上面参照图3的讨论，噪声水平估计可以考虑前面的语音活动检测决策。

在步骤430，计算每个麦克风处的信号水平与噪声水平的比值。例如，在系统300中（见图3），除法器310a计算第一麦克风处的比值，而除法器310b计算第二麦克风处的比值。作为示例，组合除法器可以例如根据分时基础计算这两个比值。

在步骤440，根据这两个比值之间的差做出当前语音活动检测的决策。例如，在系统300中（见图3），当所述差超过定义的阈值时，VAD检测器314则指示存在语音活动。

每个上述步骤中都可以包括子步骤。子步骤的细节如上述参考图3的描述的那样而不再重复（为了简洁）。

VAD决策规则的示例性解释

原则上，u(n)是远处麦克风102b和近处麦克风102a这两个麦克风之间的增益差被补偿之后远处麦克风102b和近处麦克风102a的输出信号水平之间的差。这个差在效果上指示距离麦克风非常近地出现的声音事件的能量。根据一实施例，该差进一步被干扰水平归一化，从而使得只有具有显著能量的近旁的声音将被标记（tag）为目标语音信号。

值r(n)是远处麦克风102b和近处麦克风102a这两个麦克风之间增益的差被补偿之后远处麦克风102b和近处麦克风102a的输出信号水平之间的比值。对于目标语音信号，r(n)将落入由麦克风阵列102的声学设置所决定的正常范围内。对于风噪声，r(n)可能位于其正常范围之外。在VAD系统300的实施例中采用了这个现象来区分风噪声和目标语音信号。

VAD系统300的设计可以由前面部分中所述的示例性实施例稍微有所变化，以在各种类型的语音系统中实施，这些语音系统包括移动电话、耳机、视频会议系统、游戏系统、以及因特网上的语音协议（VOIP）系统等等。

一个示例性实施例可包括多于两个的麦克风。利用图3所示的示例性实施例作为起始点，增加额外的麦克风包括增加应用上述公式来处理每个额外麦克风信号的额外信号通路（A/D、BPF、水平估计器、除法器、延时器等）。遵循相同的原理，示例性VAD实施例可以基于从所有麦克风如上计算的比值r_i(n)的线性组合：

u (n) = Σ_{i = 1}^{N} a_{i} r_{i} (n)

其中N是麦克风的总数且a_i(i＝1,...,N)是满足下式的预先选定的常数：

Σ_{i = 1}^{N} a_{i} = 0

以使得这些比值中来自远场干扰的分量在u(n)中被抵消。

a_i的选择可以根据具体实施方式中元件的具体配置靠经验完成。产生好的性能的一种可能的a_i(i＝1,...,N)的选择是：

a_{i} = Σ_{i = 2}^{N} (1 - p_{i}),

以及

a_i=p_i-1,i>1

这里，p_i是由于信号传输产生的第i个麦克风与第一个麦克风之间目标声音的水平差。然后，VAD决策模块314通过将u(n)的值与如上所述的预先选定的阈值进行比较来做出VAD决策。

示例性实施方式

本发明的实施例可以用硬件或软件、或者它们的组合（例如，可编程逻辑阵列）实施。除非另外指出，否则作为本发明一部分所包括的算法并非内在地与任何特定的计算机或者其他设备相关。具体地，可以采用具有根据在此的教导所编写的程序的各种通用目的的机器，或者构造更专用的设备（例如，集成电路）来执行所需的方法步骤会是更方便的。因此，本发明可以在运行于一个或多个可编程计算机系统上的一个或多个计算机程序中实施，其中该一个或多个可编程计算机系统中的每个都包括至少一个处理器、至少一个数据存储系统（包括易失性的和非易失性的存储器和/或存储元件）、至少一个输入装置或端口、以及至少一个输出装置或端口。对输入数据应用程序代码以执行在此所述的功能并产生输出信息。输出信息以已知的方式应用于一个或多个输出装置。

每个这种程序都可以以任何期望的计算机语言（包括机器的、汇编的或高级的进程的、逻辑的或面向对象的编程语言）与计算机系统通信。在任何情况下，该语言可以是编译的或者解释的语言。

为了当存储介质或者装置被计算机系统读取以执行在此所述的程序时配置并运行计算机，每个这种计算机程序优选地被存储在或者被下载到可由通用或者专用目的的可编程计算机读取的存储介质或者装置（例如固态存储器或者介质，或者磁或光介质）上。还可以认为本发明的系统可以作为配置有计算机程序的计算机可读存储介质来实施，其中如此配置的存储介质使得计算机系统以具体且预先确定的方式运行以执行在此所述的功能。

根据一实施例，执行语音活动检测的方法包括从第一麦克风接收第一信号。第一信号包括第一目标分量和第一干扰分量。该方法进一步包括从以一定距离离开第一麦克风的第二麦克风接收第二信号。第二信号包括第二目标分量和第二干扰分量。根据距离区分第一目标分量与第二目标分量；且根据距离区分第一干扰分量与第二干扰分量。该方法进一步包括基于第一信号估计第一信号水平，基于第二信号估计第二信号水平，基于第一信号估计第一噪声水平，以及基于第二信号估计第二噪声水平。该方法进一步包括基于第一信号水平和第一噪声水平计算第一比值，以及基于第二信号水平和第二噪声水平计算第二比值。该方法进一步包括基于第一比值和第二比值之间的差计算当前语音活动的决策。

根据一实施例，该方法进一步包括在估计第一信号水平之前对第一信号执行带通滤波，以及在估计第二信号水平之前对第二信号执行带通滤波。带通频率的范围在400赫兹到1000赫兹之间。

根据一实施例，第一麦克风和第二麦克风之间的距离至少比第一麦克风和干扰分量的干扰源之间的第二距离小一数量级。根据一实施例，第一麦克风和第二麦克风之间的距离处于第一麦克风和目标分量的目标源之间的第二距离的数量级内，并且第一麦克风和第二麦克风之间的距离至少比第一麦克风和干扰分量的干扰源之间的第三距离小一数量级。根据一实施例，第一麦克风距离目标分量的目标源第一距离并且距离干扰分量的干扰源第二距离，并且第一距离比第二距离小多于一个数量级。

根据一实施例，估计第一信号水平包括通过对第一信号的功率水平执行递归平均运算来估计第一信号水平。

根据一实施例，估计第一噪声水平包括通过如前面的语音活动决策所指示的那样对第一信号的功率水平执行递归平均运算来估计第一噪声水平。

根据一实施例，估计第一信号水平包括利用第一时间常量对第一信号的功率水平执行递归平均运算来估计第一信号水平，并且估计第一噪声水平包括通过利用第二时间常量如前面的语音活动决策所指示的那样对第一信号的功率水平执行递归平均运算来估计第一噪声水平，其中第一时间常量大于第二时间常量。

根据一实施例，该方法进一步包括基于第一比值和第二比值之间的第三比值检测风噪声，其中计算当前语音活动决策包括基于风噪声和基于第一比值和第二比值之间的差来计算当前语音活动决策。

根据一实施例，执行语音活动检测的方法包括从多个麦克风接收多个信号。该方法进一步包括基于该多个信号估计多个信号水平（例如，估计每个信号的信号水平）。该方法进一步包括基于该多个信号估计多个噪声水平（例如，估计每个信号的噪声水平）。该方法进一步包括基于该多个信号水平和多个噪声水平计算多个比值（例如，对于来自特定麦克风的信号，相应的信号水平和相应的噪声水平得出对应于该麦克风的比值）。该方法进一步包括根据多个常量调整该多个比值。（作为示例，应用于与第二麦克风相对应的比值的常量由第一麦克风和第二麦克风之间的水平差产生）。该方法进一步包括基于在已经通过多个常量调整之后的多个比值计算当前语音活动决策。

根据一实施例，一种设备包括执行语音活动检测的电路。该设备包括第一麦克风、第二麦克风、信号水平估计器、噪声水平估计器、第一除法器、第二除法器以及语音活动检测器。第一麦克风接收第一信号，该第一信号包括第一目标分量和第一干扰分量。第二麦克风离开第一麦克风一距离。第二麦克风接收第二信号，该第二信号包括第二目标分量和第二干扰分量。根据距离区分第一目标分量和第二目标分量，并且根据距离区分第一干扰分量和第二干扰分量。信号水平估计器基于第一信号估计第一信号水平并基于第二信号估计第二信号水平。噪声水平估计器基于第一信号估计第一噪声水平并基于第二信号估计第二噪声水平。第一除法器基于第一信号水平和第一噪声水平计算第一比值。第二除法器基于第二信号水平和第二噪声水平计算第二比值。语音活动检测器基于第一比值和第二比值之间的差计算当前语音活动决策。另外，该设备还以与上述关于方法描述的方式相类似的方式运行。

计算机可读介质可以包括计算机程序，该计算机程序控制处理器以与上述关于方法描述的方式相类似的方式执行处理。

结合可以如何执行本发明的各方面的示例，上述描述说明了本发明的各种实施例。上述示例和实施例不应该被认为是仅有的实施例，而是被提供用以说明由后续权利要求所限定的本发明的适应性和优点。基于上述公开以及下面的权利要求，其他的配置、实施例、实施方式以及等同物对于本领域技术人员是显而易见的，并且可在不脱离权利要求限定的本发明的精神和范围的情况下被采用。

Claims

1.一种执行语音活动检测的方法，包括：

从第一麦克风接收第一信号，所述第一信号包括第一目标分量和第一干扰分量；

从第二麦克风接收第二信号，所述第二麦克风离开第一麦克风一距离，所述第二信号包括第二目标分量和第二干扰分量，其中根据所述距离区分所述第一目标分量和所述第二目标分量，其中根据所述距离区分所述第一干扰分量和所述第二干扰分量，且其中第一麦克风和目标源之间的距离不同于第二麦克风和目标源之间的距离；

特征在于所述方法还包括：

基于所述第一信号估计第一信号水平；

基于所述第二信号估计第二信号水平；

基于所述第一信号估计第一噪声水平；

基于所述第二信号估计第二噪声水平；

基于所述第一信号水平和所述第一噪声水平计算第一比值；

基于所述第二信号水平和所述第二噪声水平计算第二比值；

基于所述第一比值与所述第二比值之间的第三比值检测风噪声；以及

基于所述风噪声的检测结果以及基于所述第一比值和所述第二比值之间的差计算当前语音活动决策。

2.权利要求1的方法，其中所述第一麦克风和所述第二麦克风之间的距离至少比所述第一麦克风和干扰源之间的第二距离小一数量级。

3.权利要求1的方法，其中所述第一麦克风和所述第二麦克风之间的距离处于所述第一麦克风和目标分量的目标源之间的第二距离的数量级内，并且其中所述第一麦克风和所述第二麦克风之间的距离至少比所述第一麦克风和干扰源之间的第三距离小一数量级。

4.权利要求1的方法，其中所述第一麦克风距离目标分量的目标源第一距离且距离干扰源第二距离，且其中所述第一距离比所述第二距离小多于一数量级。

5.权利要求1的方法，其中估计第一信号水平包括通过对所述第一信号的功率水平执行递归平均运算来估计第一信号水平。

6.权利要求1的方法，其中估计第一噪声水平包括通过对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平。

7.权利要求1的方法，其中：

估计第一信号水平包括通过利用第一时间常量对第一信号的功率水平执行递归平均运算来估计第一信号水平；以及

估计第一噪声水平包括通过利用第二时间常量对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平，其中所述第一时间常量大于所述第二时间常量。

8.一种包含执行语音活动检测的电路的设备，所述设备包括：

第一麦克风，所述第一麦克风被配置为接收包括第一目标分量和第一干扰分量的第一信号；

第二麦克风，所述第二麦克风离开第一麦克风一距离，所述第二麦克风被配置为接收包括第二目标分量和第二干扰分量的第二信号，其中根据所述距离区分所述第一目标分量和所述第二目标分量，其中根据所述距离区分所述第一干扰分量和所述第二干扰分量，且其中第一麦克风和目标源之间的距离不同于第二麦克风和目标源之间的距离；

特征在于所述设备还包括：

信号水平估计器，所述信号水平估计器被配置为基于所述第一信号估计第一信号水平且被配置为基于所述第二信号估计第二信号水平；

噪声水平估计器，所述噪声水平估计器被配置为基于所述第一信号估计第一噪声水平且被配置为基于所述第二信号估计第二噪声水平；

第一除法器，所述第一除法器被配置为基于所述第一信号水平和所述第一噪声水平计算第一比值；

第二除法器，所述第二除法器被配置为基于所述第二信号水平和所述第二噪声水平计算第二比值；以及

语音活动检测器，所述语音活动检测器被配置为基于所述第一比值和所述第二比值之间的差计算当前语音活动决策，其中所述语音活动检测器进一步被配置为基于所述第一比值与所述第二比值之间的第三比值检测风噪声，且其中所述语音活动检测器被配置为基于所述风噪声的检测结果以及基于所述第一比值和所述第二比值之间的差计算当前语音活动决策。

9.权利要求8的设备，其中所述第一麦克风和所述第二麦克风之间的距离比所述第一麦克风和干扰源之间的第二距离小至少一数量级。

10.权利要求8的设备，其中所述第一麦克风和所述第二麦克风之间的距离处于所述第一麦克风和目标分量的目标源之间的第二距离的数量级内，且其中所述第一麦克风和所述第二麦克风之间的距离比所述第一麦克风和干扰源之间的第三距离小至少一数量级。

11.权利要求8的设备，其中所述第一麦克风距离目标分量的目标源第一距离且距离干扰源第二距离，且其中所述第一距离比所述第二距离小多于一数量级。

12.权利要求8的设备，其中所述信号水平估计器被配置为通过对所述第一信号的功率水平执行递归平均运算来估计第一信号水平。

13.权利要求8的设备，进一步包括：

延迟元件，所述延迟元件耦合在所述噪声水平估计器和所述语音活动检测器之间，所述延迟元件被配置为存储前面的语音活动决策；

其中所述噪声水平估计器被配置为通过对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平。

14.权利要求8的设备，进一步包括：

其中所述信号水平估计器被配置为通过对所述第一信号的功率水平执行递归平均运算来估计第一信号水平；并且

15.权利要求8的设备，其中：

所述信号水平估计器被配置为通过利用第一时间常量对第一信号的功率水平执行递归平均运算来估计第一信号水平；以及

所述噪声水平估计器被配置为通过利用第二时间常量对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平，其中所述第一时间常量大于所述第二时间常量。

16.权利要求8的设备，其中：

所述信号水平估计器包括耦合在所述第一麦克风和所述第一除法器之间的第一信号水平估计器以及耦合在所述第二麦克风和所述第二除法器之间的第二信号水平估计器；并且

所述噪声水平估计器包括耦合在所述第一麦克风和所述第一除法器之间的第一噪声水平估计器以及耦合在所述第二麦克风和所述第二除法器之间的第二噪声水平估计器。