CN102081925A

CN102081925A - 语音检测器

Info

Publication number: CN102081925A
Application number: CN201010552539XA
Authority: CN
Inventors: 帕特里克·克钦克; 科内利斯·彼得·扬瑟; 勒内·马蒂纳斯·马丽亚·德克斯; 沃特·约斯·蒂瑞
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-11-20
Filing date: 2010-11-17
Publication date: 2011-06-01
Also published as: US20110288864A1; EP2339574B1; US8798993B2; EP2339574A1

Abstract

一种使用第一麦克风(4)和第二麦克风(6)来检测语音的方法，包括步骤：(i)对第二信号应用增益，以产生归一化的第二信号，其中，相对于第一信号对第二信号进行归一化；(ii)根据第一信号和归一化的第二信号来构造一个或多个信号分量；(iii)构造具有自适应差动麦克风(ADM)，所述ADM从一个或多个信号分量构造的麦克风响应，其中，响应具有至少一个方向空响应；(iv)响应于检测到的声音，根据已构造的麦克风响应，来产生一个或多个ADM输出(y_f，y_b)；(v)计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值；(vi)将该比值与自适应阈值(14)进行比较；(vii)如果该比值大于或等于自适应阈值，则检测语音。

Description

语音检测器

技术领域

本发明涉及一种语音检测器，具体但不排他地，涉及一种包括多个彼此间隔紧密的麦克风在内的语音检测器、一种使用多个麦克风来检测语音的方法、以及形成语音检测器的自适应差动麦克风。

背景技术

这里描述麦克风彼此相对位置所使用的术语“间隔紧密”意味着，阵列中相邻麦克风之间的距离远小于麦克风与该麦克风检测到的声源之间的距离。此外，在感兴趣频带内，声音的波长会长于麦克风之间的间隔。

一种公知的使用两个麦克风的语音检测器利用诸如麦克风间级差(ILD)之类的双耳提示来检测语音。为了利用ILD，需要假定一个麦克风上检测到的语音比另一个麦克风上检测到的语音大。这种假定对诸如移动电话之类的设备上的两个麦克风的定位进行了约束。

已知许多语音增强算法利用这样的检测器进行操作。这些利用多于一个麦克风的语音增强算法通常依赖于通用旁瓣抑制器，该旁瓣抑制器由捕获目标声源的波束形成器、以及在不会衰减目标声源的情况下从波束形成器输出中移除任何不期望的声音的第二级自适应滤波器构成。

这样的构建块完全依赖于语音检测器的可用性，该语音检测器可以正确控制波束形成器和二级滤波器的改变。

如果检测到目标语音，则仅波束形成器改变，而在没有目标语音的情况下，仅第二级自适应滤波器改变。

这种公知语音检测器的不良性能可以导致对目标信号的抑制以及对干扰(例如，背景)源的增强。这种不良性能会导致双麦克风语音增强系统的性能比单麦克风系统的性能差。

众所周知，语音检测器的设计通常由特定应用和设计约束来管理。要在特定应用中使用语音检测器的方式可以基于与讲话者的位置以及任何干扰声源的位置有关的先验信息。

在助听应用中，例如，可以假定期望声源位于佩戴助听器的人的正面(正向)，而假定干扰源来自助听器佩戴者的背面(背向)。

如果并入了麦克风的设备位于声源的侧向，则将声源描述为垂射式声源。类似地，如果声源定向至包含麦克风在内的设备的端部，则将声源描述为处于端射式位置。在考虑声源相对于线性麦克风阵列的位置以及依赖于应用的情况下，通常将定向至阵列一端的声源描述为处于正向平面，并且将定向至阵列另一端的那些声源描述为处于背向平面。

有时将正向平面和背向平面定义为正向半平面和背向半平面，这是由于它们分别跨过180°角，整个平面定义360°。此外，声源的位置由方位角θ来定义。这是声源相对于阵列中心点的入射角。

诸如麦克风在设备上的位置之类的计约束还确定了能够使用的有关期望/不期望的声源的信息，该信息给出设备的特定拓扑以及麦克风在设备上的位置。

例如，在公知的具有两个麦克风的移动电话中，主麦克风置于设备的下部，副麦克风置于设备的背侧的上部。因此，副麦克风与主麦克风相比更加远离用户的嘴。

根据这样的麦克风拓扑，源自移动电话用户的语音在近场中，并且语音在主麦克风上比在副麦克风上声音大。背景噪音和其他噪音干扰源在远场，因此，背景噪音和其他噪音在两个麦克风上相同。通过探测每个麦克风之间的间级差，可以正确检测到目标语音。

在包括多个间隔紧密麦克风的公知语音检测器中，通常的检测技术是首先对麦克风信号应用差动处理。假定麦克风紧密间隔，该过程使用两个全向麦克风来产生正向面对和背向面对的心形信号。例如，如果假定目标声源源自正向，则正向面对与背向面对的心形麦克风上的功率之间的比值应非常大。对于源自背向的干扰源，该比值非常小，而对于扩散噪音而言，该比值应接近1。

这种麦克风信号的正向-背向心形处理是利用紧密间隔麦克风的通常使用的检测方法。这种类型检测器的问题在于，不能够容易地适配不同的麦克风配置，也不能够适配用户对设备进行处理的不同方式。换言之，这种类型的检测器在语音不是源自正向的情况下是不适合的。

例如，上述是移动电话的特定问题，这是由于用户可以改变电话相对于用户的嘴的方位，并因此语音不一定始终源自麦克风的正向。

这种类型的公知语音检测器的另一问题在于，需要在特定容限内匹配每个麦克风的功率。换言之，必须对麦克风进行校准。

发明内容

根据本发明的第一方面，提供了一种使用第一麦克风和第二麦克风来检测语音的方法，其中，第一麦克风适用于产生第一信号，第二麦克风适用于产生第二信号，所述方法包括以下步骤：

(i)对第二信号应用增益，以产生归一化的第二信号，其中，相对于第一信号对第二信号进行归一化；

(ii)根据第一信号和归一化的第二信号来构造一个或多个信号分量；

(iii)构造自适应差动麦克风(ADM)，所述ADM具有从一个或多个信号分量构造的麦克风响应，其中，所述响应具有至少一个方向空响应(null)；

(iv)响应于检测到的声音，根据已构造的麦克风响应，来产生一个或多个ADM输出；

(v)计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值；

(vi)将所述比值与自适应阈值进行比较；

(vii)如果所述比值大于或等于自适应阈值，则检测语音。

根据本发明的第二方面，提供了一种语音检测器，包括：

第一麦克风，适用于产生第一信号；

第二麦克风，适用于产生第二信号；

放大器，适用于对第二信号应用增益，以产生归一化的第二信号，其中，相对于第一信号对第二信号进行归一化；

第一处理器，用于根据第一信号和归一化的第二信号来构造一个或多个信号分量；

第二处理器，用于构造自适应差动麦克风，所述自适应差动麦克风具有已构造的麦克风响应，所述已构造的麦克风响应具有至少一个方向空响应，ADM响应于检测到的声音，产生一个或多个输出；

第三处理器，用于计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值；

比较器，将所述比值与自适应阈值进行比较，以检测所述比值是否大于或等于自适应阈值；以及

检测器，用于在比值大于或等于自适应阈值时检测语音。

根据本发明的第三方面，提供了一种形成根据本发明的第二方面的语音检测器的自适应差动麦克风(ADM)。

由于ADM的已构造的麦克风响应包括至少一个方向空响应，通过本发明的实施例，能够通过将空响应定向目标语音的源，来实质上抑制目标声源，例如，目标语音。如果以这样的方式定向方向空响应，则ADM的一个或多个输出较小，这是由于能够实质上抑制目标语音。这意味着在第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数之间所形成的比值较大。当该比值大于或等于自适应阈值时，则检测语音。

另一方面，如果将空响应定向至背景或干扰源，则空响应的影响较小，因此，在第一信号分量与已构造的麦克风响应的参数与ADM的输出的参数之间所形成的比值远小于针对目标语音的比值。这意味着所述比值小于自适应阈值，从而不检测语音。

这是由于如果用户在近场中，则从用户嘴中发出的声音更直接，并且通常比自适应差动麦克风环境中其他声源的功率更高的功率。因此，如果沿着用户嘴的方向定向空响应，则ADM可以抑制信号的大部分。这意味着ADM信号远小于信号分量或已构造的麦克风响应。

对于扩散噪音和点干扰，比值小于阈值，并且不检测语音。

根据本发明第一方面的方法可以包括另一步骤：估计自适应因子β的值。

如下文中更详细说明的，通过自适应因子β来确定自适应阈值。如下文中所述，自适应因子β还确定方向空响应的方位。因此方向空响应的方位和自适应阈值均通过自适应因子β来确定。

由于方向空响应的方位和自适应阈值均取决于β的值，因此，有效地使阈值适合于β的当前值，从而确定ADM响应。

根据本发明第一方面的方法可以还包括以下步骤：

(viii)改变自适应因子β的值；

(ix)重新计算比值；

(x)将重新计算的比值与已改变的阈值进行比较；

(xi)如果比值大于已改变的阈值，则检测语音。

通过适当地改变自适应因子β的值，可以适当地将方向空响应定向至目标语音源。这会致使目标语音远实质上受到ADM的抑制，并且致使比值大于或等于自适应阈值，因此致使对语音检修检测。

由于本发明实施例的自适应特性，可以适当改变β的值，以便确保适当定向方向空响应。

在本发明的实施例中，可以通过将信号分量或已构造的麦克风响应的功率与ADM的输出的功率进行比较，来形成比值。

在本发明实施例中，可以通过将诸如信号分量或已构造麦克风响应的绝对值之类的其他参数与ADM的输出的绝对值进行比较，来形成比值。如果使用这样的比值，则需要相应修改自适应阈值。

ADM的输出可以包括：响应于在背向平面中检测到的声音而产生的第一输出y_b，以及响应于在正向平面中检测到的声音而产生的第二输出y_f。在这样的实施例中，可以根据ADM的每个输出来分别计算比值。根据两个比值的值，判定语音源位于正向平面还是背向平面中。

对于作为手机(例如，移动电话)的一部分的语音检测器，传播波的近场效应是主导。通常在免提情况下有效的远场效应通常假定用于小麦克风阵列的分析。具体地，平面波前和相等麦克风级的假定便于间隔紧密麦克风的所谓本征波束的构造。

使用两个麦克风，这些本征波束对应于单极和双极。这些本征波束的组合可以产生各种一阶差动响应。

在本发明的一个实施例中，根据第一和归一化的第二信号来构造两个信号分量。然而，在其他实施例中，可以构造多于两个信号分量。

在本发明的一些实施例中，第一信号分量包括单极信号。

在这样的实施例中，或者在其他实施例中，第二信号分量可以包括双极信号。

已构造的麦克风响应可以采用任何特定形式，只要该已构造的麦克风响应包括空响应。空响应定义为响应为零的信号一部分。

优选地，已构造麦克风响应包括第一响应和第二响应。

在本发明的实施例中，第一响应包括正向面对的心形信号，第二响应包括背向面对的心形信号。

在这样的实施例中，正向和背向心形信号用于自适应构造麦克风响应，该麦克风响应包含沿着强点源(尤其是语音源)方向的空响应。然而，这些正向和背向心形信号本身是根据上述本征波束(单极和双极)来构造的，这样可以产生所有其他一阶形的基本形是单极和双极。

本发明的这种实施例提供了针对背向-正向心形检测器的自然或更一般的扩展。

在本发明其他实施例中，第一和第二响应可以包括如相面对的一阶响应信号。

第一和第二麦克风响应于从一个或多个声音发出的声音，分别产生第一和第二信号，其中，声音是通过麦克风中的一个或两个麦克风检测到的。

然后，通过对第二信号应用增益，来相对于第一信号对第二信号进行归一化。增益可以是正的或者负的。

通过本发明实施例，因此不需要对第一和第二麦克风进行校准，这是由于在检测语音之前，相对于第一信号对第二信号进行归一化。

第一和第二麦克风可以是任何期望类型的麦克风，并且在本发明的一些实施例中，第一和第二麦克风分别包括全向麦克风。

附图说明

仅参照附图，通过实例进一步描述本发明的实施例，在附图中：

图1和2示出了分别针对平面和球面波的延迟的比较。

图3是根据本发明第一实施例的自适应差动麦克风的示意图。

图4是示出了使用图3所示ADM检测语音的方法的流程图。

图5是示出了在相同位置具有空响应的图3的ADM的两个不同响应的极坐标图。

图6是取决于针对图3的ADM的正向或背向半平面中的空响应方位的β_b和β_f的值范围的极坐标图。

图7是根据本发明第二实施例的ADM的示意图。以及

图8是根据包括方位传感器在内的本发明另一实施例的ADM的示意图。

具体实施方式

为了进一步理解本发明，关于本发明实施例考虑一阶差动麦克风的特性，其中，已构造麦克风响应包括正向和背向面对的心形信号，并且第一和第二信号分量分别包括单极和双极信号。

可以假定麦克风间隔紧密(这等同于条件kd＜＜π，其中，k＝w/c是波数，d是麦克风之间的距离，c是声速，w是声音的角频率)来构造正向和背向面对的心形信号。

相反面对一阶超方向响应的一般形式是：

Vf = αVm + (1 - α) \overset{&OverBar;}{V} d - - - (1)

Vb = αVm - (1 - α) \overset{&OverBar;}{V} d - - - (2)

其中，α确定所得到的一阶响应。具体地，对于0＜α≤0.5，方向响应包含至少一个空响应。因此，α控制一阶麦克风响应中的空响应的位置以及单极响应Vm，并且归一化后的双极响应由以下给出：

\overset{&OverBar;}{V} d = \frac{1}{jw} \frac{c}{d} Vd - - - (3)

其中，V_d是双极响应。项1/(jw)是(理想)积分响应，c/d是归一化因子。理想地，(1)和(2)化简为：

V_f＝0.5(1+cosθ)

V_b＝0.5(1-cosθ) (4)

对于正向和背向面对的心形(α＝0.5)，其中，θ是定义声源的位置的方位角，并且对于较小麦克风间隔是频率相关的。

如上所述，正向和背向心形的基本构建方案是依赖于α因子的单极和双极信号的组合。α的值对于其他一阶单极响应是不同的。换言之，一阶响应的形状取决于α的值。

在图1和图2中，f(front plane)和b(back plane)分别指正向平面和背向平面，θ是声源的入射角。在图1和2中示出了这些变量，其中，M₁表示第一麦克风，M₂表示第二麦克风，r是声源与第一麦克风之间的距离，r₂是声源与第二麦克风之间的距离，r是声源与阵列中心的距离。

一阶(归一化的)差动麦克风的方向性因子(Q)可以用α来表示，其中：

Q (α) = \frac{3}{{4 α}^{2} - 2 α + 1} - - - (5)

其中，10log[Q(α)]是方向性指数。

将Q定义为全向麦克风阵列的噪声场中的麦克风阵列的增益。

如公式(5)所见，当通过改变α将空响应定向至期望语音源时，也改变了取决于α的方向性因子Q。

相对于第一麦克风M₁的功率对第二麦克风M₂的功率进行归一化，以便在构造正向和背向心形信号时减轻近场效应。

这可以通过对第二麦克风M₂应用增益G来实现。

上述操作可以由以下给出：

G (m) = ϵ \sqrt{\frac{Σ_{n = 1}^{M} x_{1}^{2} (n)}{Σ_{n = 1}^{M} x_{2}^{2} (n)}} + (1 - ϵ) G (m - 1) - - - (6)

其中，x₁和x₂是馈送给波束形成器的信号，M是块长度，ε是平滑参数。该步骤通过缩放x₂来得到G，以使语音检测器与麦克风失配无关。也可以将极小常量与公式(6)中第一项的分母相加，以防止被零除。

根据本发明实施例的语音检测器可以用于检测位于正向平面或背向平面的点源的语音。如果要检测的语音在正向平面，则ADM的输出是y_f。类似的，如果要检测的语音从背向平面中的点源发出，则ADM的输出是y_b。

根据位置，信号中的一个或两个信号均可以用于检测处理。

设c_f(n)和c_b(n)分别表示正向和背向心形信号，具有采样索引n。通过找到使以下公式(7)的均方差(MSE)最小化的最佳β_b来构造ADM：

y_b(n)＝c_f(n)-β_bc_b(n) (7)

其中，β是用于控制所得到的自适应差动麦克风响应的自适应因子。β的不同值产生在特定位置具有空响应的不同响应。

如所示，MSE是β_b的二次函数，因此示出了唯一最小值：

β_{b} = \frac{R_{fb}}{R_{bb}} - - - (8)

其中，R_fb＝E{c_f(n)c_b(n)}是正向和背向心形信号之间互相关，R_bb＝E{|c_b(n)|²}是背向心形信号的功率。对于位于背向半平面的干扰，β值的范围是[0，1]。用于估计/改变β_b的方法包括由以下公式(9)给出的归一化最小均方(NLMS)形式：

β_b(n+1)＝β_b(n)+2μy(n)c_b(n)/|c_b(n)|²(9)

其中，μ是改变步长，或者包括基于块的方法，并且估计公式(8)中的互相关和自相关项，从而估计β_b，因此可以使用公式8或公式9来估计β。

可以使用以下公式(10)和(11)来估计R_fb和R_bb。

{\hat{R}}_{fb} (m) = \frac{ξ}{M} Σ_{n = 1}^{M} c_{f} (n) c_{b} (n) + (1 - ξ) {\hat{R}}_{fb} (m - 1) - - - (10)

{\hat{R}}_{bb} (m) = \frac{ξ}{M} Σ_{n = 1}^{M} c_{b}^{2} (n) + (1 - ξ) {\hat{R}}_{bb} (m - 1) - - - (11)

其中，m是块索引，

是R_fb的估计，

是R_bb的估计，M是块长度，以及ξ是平滑参数(0＜ξ＜1)。

因此，如果使用公式(8)来估计β，则公式10和11应当结合公式(8)来使用。

以上分析假定要抑制的期望讲话者的位置在背向半平面中，该背向半平面跨过方向角范围π/2≤θ≤3π/2。该分析也可以使用以下公式(12)针对正向半平面中的点源来重复进行：

y_f(n)＝c_b(n)-β_fc_f(n) (12)

使用公式(4)和(7)，所得到的ADM的有效响应可以用β_b表示为：

V_{b} = (\frac{1 - β_{b}}{2}) + (\frac{1 + β_{b}}{2}) \cos θ - - - (13)

对于0＜β_b＜1，所得到的ADM的有效响应是沿着正向(即，θ＝0)的被归一化为1的一阶差动响应，其中

α = (\frac{1 - β_{b}}{2}) - - - (14)

注意，类似于公式(4)。该响应的方向空响应可以通过将公式(13)中的β_b设置为零来用β_b表示，

θ_{b} = \arccos (\frac{β_{b} - 1}{1 + β_{b}}) - - - (15)

公式(15)中方向空响应的正向对应项也可以通过假定如公式(12)中干扰在正向半平面中来导出，并且由以下公式(16)给出：

θ_{f} = \arccos (\frac{1 - β_{f}}{1 + β_{f}}) - - - (16)

这里，值θ_f针对β_f≥0来定义。

因此通过本发明的实施例，可以通过适当改变β(自适应因子)来定向ADM响应的方向空响应。当改变β时，可以使用以上公式(8)和(9)。

在公式(15)中，由于β_b→∞，θ→0°，即空响应位于正向半平面中。事实上，对于β_b＞1，将定向后的空响应的方向移到正向半平面中。这意味着即使期望点源没有严格位于背向半平面中，仍可以检测到该期望点源。

在公式(16)中，由于β_f→∞，θ→0°，即，空响应位于背向半平面中。当θ_b＝θ_f时，可以通过使公式(15)和(16)相等，来找到将β_f和β_b关联的条件，

β_bβ_f＝1 (17)

为了以0°发出空响应，要求的β_b值非常大，而以180°发出空响应，需要β_f的值非常大。对于垂射的源，β_f和β_b均等于1，并且满足公式(17)的条件。

图6示出了针对β的不同值根据本发明实施例的ADM的方向响应。

如果β_b＞1，则空响应以180°的β_b的绝对响应为代价而位于正向半平面中。在这样的情况下，公式(17)中的关系还提供了一种用于计算β_f的值的方法，以获得归一化的一阶差动响应。β_f＝1/β_b的值与公式(12)一同给出在正向半平面中沿着相同方向具有空响应的0°归一化响应。可以在图4中清楚看出这种效果，其中，两个方向响应呈现以近似71°的相同空响应，但是其中的一个空响应具有较低的方向性因子(如虚线所示)。

可以使用y_b(n)与已处理信号的另一分量(具体地，已处理信号的全向、单极或正向面对的心形分量)的比值来检测语音。如果满足以下公式(18)则检测到期望语音：

Λ = \frac{{| z (n) |}^{2}}{{| y (n) |}^{2}} > δ - - - (18)

其中，δ是正阈值，z(n)是上述信号之一。y(n)的值可以是y_b(n)和/或y_f(n)。在以下实施例中，假定z(n)是单极信号。

在不存在期望讲话者的情况下，并且假定球面全向噪音场，公式(18)中的比值与取决于β_b的一阶响应方向性因子有关。对于一阶响应，Q可以使用公式(14)和(5)用β(适合于β_b和β_f)来表示：

Q (β) = \frac{3}{β^{2} - β + 1}, 0 \leq β \leq 1 - - - (19)

对于kd＜＜π，判定使用Q(β)作为与Λ进行比较的阈值，这是由于可以以单位一示出单极的方向性因子(在扩散噪音中)。这一点是重要的，因为这使得公式(18)中所计算的比值与公式(19)中的自适应阈值得比较是正确的。换言之，公式(19)中(理论上的)自适应阈值假定，单极的方向性沿着所有方向是单位一。此外，通过对两个全向麦克风信号求和而导出的单极仅对于kd＜＜π具有单位响应。

可以将δ的值设置为

δ＝σQ(β)(20)

其中，σ≥1是过补偿因子。

可以看出，过补偿因子σ与Q和信噪比(SNR)有关。事实上，示出了单极与ADM功率的比值等于Q与取决于SNR的项的乘积，

Λ = (σ_{S}^{2} / ρ^{2} + 1) Q (β) - - - (21)

其中，

是期望信号的功率，ρ²是噪音信号的功率。这意味着对于0dB的

σ＝2-ε(其中，ε是较小的常数)是对阈值过补偿的适当值。(根据条件，可以将σ的值调节为工作条件，即，调节为检测器的灵敏度，对于较大值的σ，检测器不太敏感，而对于较小值的σ，例如σ＝2-ε，检测器更敏感)。

因此，可以看出，自适应阈值也可以取决于β的值。这意味着，当改变β的值以便定向空响应时，也可以修改自适应阈值的值。换言之，的β的不同值会获得空响应的不同位置，这意味着自适应差动麦克风(ADM)的不同方向性图案。这还意味着不同的方向性因子Q。这样，阈值应当适合于获得‘公平’的比较。例如，如果定向空响应以产生针对ADM的增大心形响应，而阈值使用来自心形响应的β值，则即使在噪音状况下也可以检测到语音。因此，使阈值适合于β的当前值，以便确定ADM的响应。

此外，为了增加σ，在β的值没有限定在0与1之间的情况下，为Q(β)的值设定下限。该下限的适合值是3，这对应于针对的最小方向性因子，即

δ = σ_{b} \max (3, \frac{3}{β_{b}^{2} - β_{b} + 1}) - - - (22)

例如，如果β_b的值大于1(由于点源在正向半平面中)，则利用下限，将准处罚应用于该源，使得更难检测到该源作为语音。β_b的值越大(并因此方向空响应越接近0°)，随着Λ的值的增大，所招致的惩罚越高(以降低方向性的形式)，同时最小阈值保持相同。对于该自适应阈值的实施例，只要公式(22)中所得到的方向性因子大于3，阈值就取决于β。在公式(19)中，将阈值自动限制在3以下，这是由于本实施例假定将β限制在[0，1]之间。然而，在公式(22)的实施例中，仅要求β＞0。由于β可以＞1，因此应当向下限制β。

当已知期望讲话者的可能位置位于特定方位角范围内时，可以使用将β的值重新限制到[0，1]的子区间。在这种情况下，可以针对β_b和β_f来求解公式(15)和(16)，以导出期望的界限。

参照图3和4，根据本发明实施例的语音检测器统一由附图标记2来指示。语音检测器包括根据第一麦克风4和第二麦克风6构造的自适应差动麦克风(ADM)。在该实施例中，麦克风4、6中的每一个包括全向麦克风，但在其他实施例中，麦克风可以具有不同类型。

麦克风4响应于声音产生电信号x₁，同样，麦克风6响应于声音产生第二电信号x₂。

相对于第一信号x₁的功率对第二信号x₂的功率进行归一化，以便减轻构造正向和背向心形信号中的近场效应。这可以根据以上公式(6)，使用放大器7对麦克风6应用增益G来实现。换言之，一个麦克风(在该情况中是麦克风4)用作参考，而对另一麦克风(在该情况中是麦克风6)的信号进行缩放。

然后对来自麦克风4的信号(x₁)和来自麦克风6的归一化信号进行处理，以构造包括相对的心形8、10信号的一阶差动响应。然而，在其他实施例中，可以对来自麦克风4、6的信号进行处理，以产生不同的一阶响应。已构造的一阶差动响应包括至少一个方向空响应。

根据一阶差动响应，产生两个ADM输出y_f和y_b。

输出y_f是正向平面中ADM的输出，输出y_b是背向平面中ADM的输出。

如上所述，根据以上公式(19)，ADM的方向性可以由方向因子Q来限定，方向因子Q取决于β。根据公式(20)，方向因子Q用于确定自适应阈值14的值。

然后分别计算单极分量的功率与ADM的每个输出的功率的比值，以产生两个比值20、22。

然后，使用以上公式(9)，根据两个比值来估计自适应因子β的值。

然后，分别使用估计的β_b和β_f值，将每个比值分别与自适应阈值14的值进行比较。如果这两个比值中的任一比值大于或等于相应阈值14，则存在语音。如果比值小于阈值，则这提供不存在语音的指示。

根据这两个比较的结果，系统判定在正向平面还是在背向平面中检测到语音，或者还没有检测到语音。然后针对输入到检测器2中的声音的每个输入样本，重复这些步骤。每次更新β_b和β_f的值时，重新定向一阶差动响应的空响应，因此可以将空响应定向至目标语音源。通过更新β_b和β_f的值，也可以如上所述改变阈值14。

可以使用以上公式(8)或公式(9)，来估计自适应因子β。如果公式(9)用于估计β，则也应使用公式(10)和(11)。

始终改变参数β，以使得产生具有最小功率的ADM输出y_n。这可以是存在或不存在语音的情况。

现在转向图6，本发明的第二实施例统一由附图标记60来指示。为了便于参考，已经给出了语音检测器60中与图3所示的语音检测器2的部件相对应的部件的相应附图标记。语音检测器60使用离散β值集合，其中的每个值用于根据公式(7)和(12)计算输出信号，{β_f}和{β_b}的输出是y_f和y_b的最小值，以及相应所产生的β值。

在该实施例中，不对β的值进行估计，而是对值在0和1之间的离散β集合进行估计，或者执行除了1以外的一些其他上限。因此可以从离散集合中选择适当的β值。

现在转向图7，图7示出了本发明的第三实施例。图7示出了语音检测器70，其中，为了便于参考，已经给出语音检测器70中与语音检测器2的部件相对应的部件的附图标记。

语音检测器70实质上与图3所示的语音检测器2相同。然而，语音检测器70还包括：方位传感器72，能够确定合并了语音检测器70的设备(例如，移动电话)相对于用户的嘴的方位。方位传感器72可以帮助判定可以依赖哪个判定，即，基于对使用正向ADM响应计算的比值还是使用背向ADM响应计算的比值的判定，这是由于方位传感器提供与期望的语音在正向平面还是背向平面中有关的信息。

本发明不限于包括两个麦克风的ADM，如果使用多于两个麦克风，则ADM的鲁棒性将提高。

Claims

1.一种使用第一麦克风(4)和第二麦克风(6)检测语音的方法，其中，第一麦克风(4)产生第一信号(x₁)，第二麦克风(6)产生第二信号(x₂)，所述方法包括以下步骤：

(iii)构造自适应差动麦克风ADM，所述ADM具有从一个或多个信号分量构造的麦克风响应，其中，所述响应具有至少一个方向空响应；

(iv)响应于检测到的声音，根据已构造的麦克风响应，来产生一个或多个ADM输出(y_f，y_b)；

(vi)将所述比值与自适应阈值(14)进行比较；

(vii)如果所述比值大于或等于自适应阈值，则检测语音。

2.根据权利要求1所述的方法，包括以下步骤：

估计自适应值β的值。

3.根据权利要求1或2所述的方法，还包括以下步骤：

(viii)改变自适应因子β的值；

(ix)重新计算比值；

(x)将重新计算的比值与已改变的阈值进行比较；

(xi)如果所述比值大于已改变的阈值，则检测语音。

4.根据前述权利要求中任一项所述的方法，其中，计算比值的步骤包括：根据信号分量或构造麦克风响应的功率与ADM的输出的功率来计算比值。

5.根据权利要求1至3中任一项所述的方法，其中，计算比值的步骤包括：根据信号分量或构造麦克风响应的绝对值与ADM的输出的绝对值来计算比值。

6.根据前述权利要求中任一项所述的方法，其中，ADM的输出包括：响应于背向平面中检测到的声音而产生的第一输出y_b，以及响应与正向平面中检测到的声音而产生的第二输出y_f。

7.根据权利要求6所述的方法，其中，准备比值的步骤包括以下步骤：

计算第一信号分量或构造麦克风响应的参数与ADM的第一输出的参数的比值；以及

计算第一信号分量或构造麦克风响应的参数与ADM的第二输出的参数的第二比值；

所述方法还包括以下步骤：

分别将第一比值和第二比值与自适应阈值进行比较；以及

判定语音源位于正向平面中还是背向平面中。

8.根据前述权利要求中任一项所述的方法，其中，根据第一信号和归一化的第二信号构造一个或多个信号分量的步骤包括：根据第一信号和归一化的第二信号构造单极信号和双极信号。

9.根据前述权利要求中任一项所述的方法，其中，已构造的麦克风响应包括第一响应(8)和第二响应(10)。

10.根据权利要求8所述的方法，其中，第一响应包括正向面对的心形信号，第二响应包括背向面对的心形信号。

11.一种语音检测器(2)，包括：

第一麦克风(4)，产生第一信号(x₁)；

第二麦克风(6)，产生第二信号(x₂)；

放大器(7)，对第二信号应用增益，以产生归一化的第二信号，其中，相对于第一信号对第二信号进行归一化；

第一处理器，根据第一信号和归一化的第二信号来构造一个或多个信号分量；

第二处理器，构造自适应差动麦克风，所述自适应差动麦克风具有包括至少一个方向空响应的构造的麦克风响应，ADM响应于检测到的声音，产生一个或多个输出；

第三处理器，计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值；

检测器，在所述比值大于或等于自适应阈值时检测语音。

12.根据权利要求11所述的语音检测器，其中，一个或多个信号分量包括单极信号和双极信号。

13.根据权利要求11或12所述的语音检测器，其中，构造麦克风响应包括正向面对的心形信号(8)和背向面对的心形信号(10)。

14.根据权利要求11至14中任一项所述的语音检测器，其中，第一、第二和第三处理包括单个处理器。

15.根据权利要求11至14中任一项所述的语音检测器，其中，第一和第二麦克风中的每一个包括全向麦克风。

16.一种形成根据权利要求9至12中任一项所述的语音检测器的自适应差动麦克风。