CN102081925A - 语音检测器 - Google Patents
语音检测器 Download PDFInfo
- Publication number
- CN102081925A CN102081925A CN201010552539XA CN201010552539A CN102081925A CN 102081925 A CN102081925 A CN 102081925A CN 201010552539X A CN201010552539X A CN 201010552539XA CN 201010552539 A CN201010552539 A CN 201010552539A CN 102081925 A CN102081925 A CN 102081925A
- Authority
- CN
- China
- Prior art keywords
- signal
- microphone
- response
- ratio
- adm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 claims abstract description 137
- 230000003044 adaptive effect Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000010606 normalization Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000005404 monopole Effects 0.000 description 2
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
一种使用第一麦克风(4)和第二麦克风(6)来检测语音的方法,包括步骤:(i)对第二信号应用增益,以产生归一化的第二信号,其中,相对于第一信号对第二信号进行归一化;(ii)根据第一信号和归一化的第二信号来构造一个或多个信号分量;(iii)构造具有自适应差动麦克风(ADM),所述ADM从一个或多个信号分量构造的麦克风响应,其中,响应具有至少一个方向空响应;(iv)响应于检测到的声音,根据已构造的麦克风响应,来产生一个或多个ADM输出(yf,yb);(v)计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值;(vi)将该比值与自适应阈值(14)进行比较;(vii)如果该比值大于或等于自适应阈值,则检测语音。
Description
技术领域
本发明涉及一种语音检测器,具体但不排他地,涉及一种包括多个彼此间隔紧密的麦克风在内的语音检测器、一种使用多个麦克风来检测语音的方法、以及形成语音检测器的自适应差动麦克风。
背景技术
这里描述麦克风彼此相对位置所使用的术语“间隔紧密”意味着,阵列中相邻麦克风之间的距离远小于麦克风与该麦克风检测到的声源之间的距离。此外,在感兴趣频带内,声音的波长会长于麦克风之间的间隔。
一种公知的使用两个麦克风的语音检测器利用诸如麦克风间级差(ILD)之类的双耳提示来检测语音。为了利用ILD,需要假定一个麦克风上检测到的语音比另一个麦克风上检测到的语音大。这种假定对诸如移动电话之类的设备上的两个麦克风的定位进行了约束。
已知许多语音增强算法利用这样的检测器进行操作。这些利用多于一个麦克风的语音增强算法通常依赖于通用旁瓣抑制器,该旁瓣抑制器由捕获目标声源的波束形成器、以及在不会衰减目标声源的情况下从波束形成器输出中移除任何不期望的声音的第二级自适应滤波器构成。
这样的构建块完全依赖于语音检测器的可用性,该语音检测器可以正确控制波束形成器和二级滤波器的改变。
如果检测到目标语音,则仅波束形成器改变,而在没有目标语音的情况下,仅第二级自适应滤波器改变。
这种公知语音检测器的不良性能可以导致对目标信号的抑制以及对干扰(例如,背景)源的增强。这种不良性能会导致双麦克风语音增强系统的性能比单麦克风系统的性能差。
众所周知,语音检测器的设计通常由特定应用和设计约束来管理。要在特定应用中使用语音检测器的方式可以基于与讲话者的位置以及任何干扰声源的位置有关的先验信息。
在助听应用中,例如,可以假定期望声源位于佩戴助听器的人的正面(正向),而假定干扰源来自助听器佩戴者的背面(背向)。
如果并入了麦克风的设备位于声源的侧向,则将声源描述为垂射式声源。类似地,如果声源定向至包含麦克风在内的设备的端部,则将声源描述为处于端射式位置。在考虑声源相对于线性麦克风阵列的位置以及依赖于应用的情况下,通常将定向至阵列一端的声源描述为处于正向平面,并且将定向至阵列另一端的那些声源描述为处于背向平面。
有时将正向平面和背向平面定义为正向半平面和背向半平面,这是由于它们分别跨过180°角,整个平面定义360°。此外,声源的位置由方位角θ来定义。这是声源相对于阵列中心点的入射角。
诸如麦克风在设备上的位置之类的计约束还确定了能够使用的有关期望/不期望的声源的信息,该信息给出设备的特定拓扑以及麦克风在设备上的位置。
例如,在公知的具有两个麦克风的移动电话中,主麦克风置于设备的下部,副麦克风置于设备的背侧的上部。因此,副麦克风与主麦克风相比更加远离用户的嘴。
根据这样的麦克风拓扑,源自移动电话用户的语音在近场中,并且语音在主麦克风上比在副麦克风上声音大。背景噪音和其他噪音干扰源在远场,因此,背景噪音和其他噪音在两个麦克风上相同。通过探测每个麦克风之间的间级差,可以正确检测到目标语音。
在包括多个间隔紧密麦克风的公知语音检测器中,通常的检测技术是首先对麦克风信号应用差动处理。假定麦克风紧密间隔,该过程使用两个全向麦克风来产生正向面对和背向面对的心形信号。例如,如果假定目标声源源自正向,则正向面对与背向面对的心形麦克风上的功率之间的比值应非常大。对于源自背向的干扰源,该比值非常小,而对于扩散噪音而言,该比值应接近1。
这种麦克风信号的正向-背向心形处理是利用紧密间隔麦克风的通常使用的检测方法。这种类型检测器的问题在于,不能够容易地适配不同的麦克风配置,也不能够适配用户对设备进行处理的不同方式。换言之,这种类型的检测器在语音不是源自正向的情况下是不适合的。
例如,上述是移动电话的特定问题,这是由于用户可以改变电话相对于用户的嘴的方位,并因此语音不一定始终源自麦克风的正向。
这种类型的公知语音检测器的另一问题在于,需要在特定容限内匹配每个麦克风的功率。换言之,必须对麦克风进行校准。
发明内容
根据本发明的第一方面,提供了一种使用第一麦克风和第二麦克风来检测语音的方法,其中,第一麦克风适用于产生第一信号,第二麦克风适用于产生第二信号,所述方法包括以下步骤:
(i)对第二信号应用增益,以产生归一化的第二信号,其中,相对于第一信号对第二信号进行归一化;
(ii)根据第一信号和归一化的第二信号来构造一个或多个信号分量;
(iii)构造自适应差动麦克风(ADM),所述ADM具有从一个或多个信号分量构造的麦克风响应,其中,所述响应具有至少一个方向空响应(null);
(iv)响应于检测到的声音,根据已构造的麦克风响应,来产生一个或多个ADM输出;
(v)计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值;
(vi)将所述比值与自适应阈值进行比较;
(vii)如果所述比值大于或等于自适应阈值,则检测语音。
根据本发明的第二方面,提供了一种语音检测器,包括:
第一麦克风,适用于产生第一信号;
第二麦克风,适用于产生第二信号;
放大器,适用于对第二信号应用增益,以产生归一化的第二信号,其中,相对于第一信号对第二信号进行归一化;
第一处理器,用于根据第一信号和归一化的第二信号来构造一个或多个信号分量;
第二处理器,用于构造自适应差动麦克风,所述自适应差动麦克风具有已构造的麦克风响应,所述已构造的麦克风响应具有至少一个方向空响应,ADM响应于检测到的声音,产生一个或多个输出;
第三处理器,用于计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值;
比较器,将所述比值与自适应阈值进行比较,以检测所述比值是否大于或等于自适应阈值;以及
检测器,用于在比值大于或等于自适应阈值时检测语音。
根据本发明的第三方面,提供了一种形成根据本发明的第二方面的语音检测器的自适应差动麦克风(ADM)。
由于ADM的已构造的麦克风响应包括至少一个方向空响应,通过本发明的实施例,能够通过将空响应定向目标语音的源,来实质上抑制目标声源,例如,目标语音。如果以这样的方式定向方向空响应,则ADM的一个或多个输出较小,这是由于能够实质上抑制目标语音。这意味着在第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数之间所形成的比值较大。当该比值大于或等于自适应阈值时,则检测语音。
另一方面,如果将空响应定向至背景或干扰源,则空响应的影响较小,因此,在第一信号分量与已构造的麦克风响应的参数与ADM的输出的参数之间所形成的比值远小于针对目标语音的比值。这意味着所述比值小于自适应阈值,从而不检测语音。
这是由于如果用户在近场中,则从用户嘴中发出的声音更直接,并且通常比自适应差动麦克风环境中其他声源的功率更高的功率。因此,如果沿着用户嘴的方向定向空响应,则ADM可以抑制信号的大部分。这意味着ADM信号远小于信号分量或已构造的麦克风响应。
对于扩散噪音和点干扰,比值小于阈值,并且不检测语音。
根据本发明第一方面的方法可以包括另一步骤:估计自适应因子β的值。
如下文中更详细说明的,通过自适应因子β来确定自适应阈值。如下文中所述,自适应因子β还确定方向空响应的方位。因此方向空响应的方位和自适应阈值均通过自适应因子β来确定。
由于方向空响应的方位和自适应阈值均取决于β的值,因此,有效地使阈值适合于β的当前值,从而确定ADM响应。
根据本发明第一方面的方法可以还包括以下步骤:
(viii)改变自适应因子β的值;
(ix)重新计算比值;
(x)将重新计算的比值与已改变的阈值进行比较;
(xi)如果比值大于已改变的阈值,则检测语音。
通过适当地改变自适应因子β的值,可以适当地将方向空响应定向至目标语音源。这会致使目标语音远实质上受到ADM的抑制,并且致使比值大于或等于自适应阈值,因此致使对语音检修检测。
由于本发明实施例的自适应特性,可以适当改变β的值,以便确保适当定向方向空响应。
在本发明的实施例中,可以通过将信号分量或已构造的麦克风响应的功率与ADM的输出的功率进行比较,来形成比值。
在本发明实施例中,可以通过将诸如信号分量或已构造麦克风响应的绝对值之类的其他参数与ADM的输出的绝对值进行比较,来形成比值。如果使用这样的比值,则需要相应修改自适应阈值。
ADM的输出可以包括:响应于在背向平面中检测到的声音而产生的第一输出yb,以及响应于在正向平面中检测到的声音而产生的第二输出yf。在这样的实施例中,可以根据ADM的每个输出来分别计算比值。根据两个比值的值,判定语音源位于正向平面还是背向平面中。
对于作为手机(例如,移动电话)的一部分的语音检测器,传播波的近场效应是主导。通常在免提情况下有效的远场效应通常假定用于小麦克风阵列的分析。具体地,平面波前和相等麦克风级的假定便于间隔紧密麦克风的所谓本征波束的构造。
使用两个麦克风,这些本征波束对应于单极和双极。这些本征波束的组合可以产生各种一阶差动响应。
在本发明的一个实施例中,根据第一和归一化的第二信号来构造两个信号分量。然而,在其他实施例中,可以构造多于两个信号分量。
在本发明的一些实施例中,第一信号分量包括单极信号。
在这样的实施例中,或者在其他实施例中,第二信号分量可以包括双极信号。
已构造的麦克风响应可以采用任何特定形式,只要该已构造的麦克风响应包括空响应。空响应定义为响应为零的信号一部分。
优选地,已构造麦克风响应包括第一响应和第二响应。
在本发明的实施例中,第一响应包括正向面对的心形信号,第二响应包括背向面对的心形信号。
在这样的实施例中,正向和背向心形信号用于自适应构造麦克风响应,该麦克风响应包含沿着强点源(尤其是语音源)方向的空响应。然而,这些正向和背向心形信号本身是根据上述本征波束(单极和双极)来构造的,这样可以产生所有其他一阶形的基本形是单极和双极。
本发明的这种实施例提供了针对背向-正向心形检测器的自然或更一般的扩展。
在本发明其他实施例中,第一和第二响应可以包括如相面对的一阶响应信号。
第一和第二麦克风响应于从一个或多个声音发出的声音,分别产生第一和第二信号,其中,声音是通过麦克风中的一个或两个麦克风检测到的。
然后,通过对第二信号应用增益,来相对于第一信号对第二信号进行归一化。增益可以是正的或者负的。
通过本发明实施例,因此不需要对第一和第二麦克风进行校准,这是由于在检测语音之前,相对于第一信号对第二信号进行归一化。
第一和第二麦克风可以是任何期望类型的麦克风,并且在本发明的一些实施例中,第一和第二麦克风分别包括全向麦克风。
附图说明
仅参照附图,通过实例进一步描述本发明的实施例,在附图中:
图1和2示出了分别针对平面和球面波的延迟的比较。
图3是根据本发明第一实施例的自适应差动麦克风的示意图。
图4是示出了使用图3所示ADM检测语音的方法的流程图。
图5是示出了在相同位置具有空响应的图3的ADM的两个不同响应的极坐标图。
图6是取决于针对图3的ADM的正向或背向半平面中的空响应方位的βb和βf的值范围的极坐标图。
图7是根据本发明第二实施例的ADM的示意图。以及
图8是根据包括方位传感器在内的本发明另一实施例的ADM的示意图。
具体实施方式
为了进一步理解本发明,关于本发明实施例考虑一阶差动麦克风的特性,其中,已构造麦克风响应包括正向和背向面对的心形信号,并且第一和第二信号分量分别包括单极和双极信号。
可以假定麦克风间隔紧密(这等同于条件kd<<π,其中,k=w/c是波数,d是麦克风之间的距离,c是声速,w是声音的角频率)来构造正向和背向面对的心形信号。
相反面对一阶超方向响应的一般形式是:
其中,α确定所得到的一阶响应。具体地,对于0<α≤0.5,方向响应包含至少一个空响应。因此,α控制一阶麦克风响应中的空响应的位置以及单极响应Vm,并且归一化后的双极响应由以下给出:
其中,Vd是双极响应。项1/(jw)是(理想)积分响应,c/d是归一化因子。理想地,(1)和(2)化简为:
Vf=0.5(1+cosθ)
Vb=0.5(1-cosθ) (4)
对于正向和背向面对的心形(α=0.5),其中,θ是定义声源的位置的方位角,并且对于较小麦克风间隔是频率相关的。
如上所述,正向和背向心形的基本构建方案是依赖于α因子的单极和双极信号的组合。α的值对于其他一阶单极响应是不同的。换言之,一阶响应的形状取决于α的值。
在图1和图2中,f(front plane)和b(back plane)分别指正向平面和背向平面,θ是声源的入射角。在图1和2中示出了这些变量,其中,M1表示第一麦克风,M2表示第二麦克风,r是声源与第一麦克风之间的距离,r2是声源与第二麦克风之间的距离,r是声源与阵列中心的距离。
一阶(归一化的)差动麦克风的方向性因子(Q)可以用α来表示,其中:
其中,10log[Q(α)]是方向性指数。
将Q定义为全向麦克风阵列的噪声场中的麦克风阵列的增益。
如公式(5)所见,当通过改变α将空响应定向至期望语音源时,也改变了取决于α的方向性因子Q。
相对于第一麦克风M1的功率对第二麦克风M2的功率进行归一化,以便在构造正向和背向心形信号时减轻近场效应。
这可以通过对第二麦克风M2应用增益G来实现。
上述操作可以由以下给出:
其中,x1和x2是馈送给波束形成器的信号,M是块长度,ε是平滑参数。该步骤通过缩放x2来得到G,以使语音检测器与麦克风失配无关。也可以将极小常量与公式(6)中第一项的分母相加,以防止被零除。
根据本发明实施例的语音检测器可以用于检测位于正向平面或背向平面的点源的语音。如果要检测的语音在正向平面,则ADM的输出是yf。类似的,如果要检测的语音从背向平面中的点源发出,则ADM的输出是yb。
根据位置,信号中的一个或两个信号均可以用于检测处理。
设cf(n)和cb(n)分别表示正向和背向心形信号,具有采样索引n。通过找到使以下公式(7)的均方差(MSE)最小化的最佳βb来构造ADM:
yb(n)=cf(n)-βbcb(n) (7)
其中,β是用于控制所得到的自适应差动麦克风响应的自适应因子。β的不同值产生在特定位置具有空响应的不同响应。
如所示,MSE是βb的二次函数,因此示出了唯一最小值:
其中,Rfb=E{cf(n)cb(n)}是正向和背向心形信号之间互相关,Rbb=E{|cb(n)|2}是背向心形信号的功率。对于位于背向半平面的干扰,β值的范围是[0,1]。用于估计/改变βb的方法包括由以下公式(9)给出的归一化最小均方(NLMS)形式:
βb(n+1)=βb(n)+2μy(n)cb(n)/|cb(n)|2(9)
其中,μ是改变步长,或者包括基于块的方法,并且估计公式(8)中的互相关和自相关项,从而估计βb,因此可以使用公式8或公式9来估计β。
可以使用以下公式(10)和(11)来估计Rfb和Rbb。
因此,如果使用公式(8)来估计β,则公式10和11应当结合公式(8)来使用。
以上分析假定要抑制的期望讲话者的位置在背向半平面中,该背向半平面跨过方向角范围π/2≤θ≤3π/2。该分析也可以使用以下公式(12)针对正向半平面中的点源来重复进行:
yf(n)=cb(n)-βfcf(n) (12)
使用公式(4)和(7),所得到的ADM的有效响应可以用βb表示为:
对于0<βb<1,所得到的ADM的有效响应是沿着正向(即,θ=0)的被归一化为1的一阶差动响应,其中
注意,类似于公式(4)。该响应的方向空响应可以通过将公式(13)中的βb设置为零来用βb表示,
公式(15)中方向空响应的正向对应项也可以通过假定如公式(12)中干扰在正向半平面中来导出,并且由以下公式(16)给出:
这里,值θf针对βf≥0来定义。
因此通过本发明的实施例,可以通过适当改变β(自适应因子)来定向ADM响应的方向空响应。当改变β时,可以使用以上公式(8)和(9)。
在公式(15)中,由于βb→∞,θ→0°,即空响应位于正向半平面中。事实上,对于βb>1,将定向后的空响应的方向移到正向半平面中。这意味着即使期望点源没有严格位于背向半平面中,仍可以检测到该期望点源。
在公式(16)中,由于βf→∞,θ→0°,即,空响应位于背向半平面中。当θb=θf时,可以通过使公式(15)和(16)相等,来找到将βf和βb关联的条件,
βbβf=1 (17)
为了以0°发出空响应,要求的βb值非常大,而以180°发出空响应,需要βf的值非常大。对于垂射的源,βf和βb均等于1,并且满足公式(17)的条件。
图6示出了针对β的不同值根据本发明实施例的ADM的方向响应。
如果βb>1,则空响应以180°的βb的绝对响应为代价而位于正向半平面中。在这样的情况下,公式(17)中的关系还提供了一种用于计算βf的值的方法,以获得归一化的一阶差动响应。βf=1/βb的值与公式(12)一同给出在正向半平面中沿着相同方向具有空响应的0°归一化响应。可以在图4中清楚看出这种效果,其中,两个方向响应呈现以近似71°的相同空响应,但是其中的一个空响应具有较低的方向性因子(如虚线所示)。
可以使用yb(n)与已处理信号的另一分量(具体地,已处理信号的全向、单极或正向面对的心形分量)的比值来检测语音。如果满足以下公式(18)则检测到期望语音:
其中,δ是正阈值,z(n)是上述信号之一。y(n)的值可以是yb(n)和/或yf(n)。在以下实施例中,假定z(n)是单极信号。
在不存在期望讲话者的情况下,并且假定球面全向噪音场,公式(18)中的比值与取决于βb的一阶响应方向性因子有关。对于一阶响应,Q可以使用公式(14)和(5)用β(适合于βb和βf)来表示:
对于kd<<π,判定使用Q(β)作为与Λ进行比较的阈值,这是由于可以以单位一示出单极的方向性因子(在扩散噪音中)。这一点是重要的,因为这使得公式(18)中所计算的比值与公式(19)中的自适应阈值得比较是正确的。换言之,公式(19)中(理论上的)自适应阈值假定,单极的方向性沿着所有方向是单位一。此外,通过对两个全向麦克风信号求和而导出的单极仅对于kd<<π具有单位响应。
可以将δ的值设置为
δ=σQ(β)(20)
其中,σ≥1是过补偿因子。
可以看出,过补偿因子σ与Q和信噪比(SNR)有关。事实上,示出了单极与ADM功率的比值等于Q与取决于SNR的项的乘积,
其中,是期望信号的功率,ρ2是噪音信号的功率。这意味着对于0dB的σ=2-ε(其中,ε是较小的常数)是对阈值过补偿的适当值。(根据条件,可以将σ的值调节为工作条件,即,调节为检测器的灵敏度,对于较大值的σ,检测器不太敏感,而对于较小值的σ,例如σ=2-ε,检测器更敏感)。
因此,可以看出,自适应阈值也可以取决于β的值。这意味着,当改变β的值以便定向空响应时,也可以修改自适应阈值的值。换言之,的β的不同值会获得空响应的不同位置,这意味着自适应差动麦克风(ADM)的不同方向性图案。这还意味着不同的方向性因子Q。这样,阈值应当适合于获得‘公平’的比较。例如,如果定向空响应以产生针对ADM的增大心形响应,而阈值使用来自心形响应的β值,则即使在噪音状况下也可以检测到语音。因此,使阈值适合于β的当前值,以便确定ADM的响应。
此外,为了增加σ,在β的值没有限定在0与1之间的情况下,为Q(β)的值设定下限。该下限的适合值是3,这对应于针对的最小方向性因子,即
例如,如果βb的值大于1(由于点源在正向半平面中),则利用下限,将准处罚应用于该源,使得更难检测到该源作为语音。βb的值越大(并因此方向空响应越接近0°),随着Λ的值的增大,所招致的惩罚越高(以降低方向性的形式),同时最小阈值保持相同。对于该自适应阈值的实施例,只要公式(22)中所得到的方向性因子大于3,阈值就取决于β。在公式(19)中,将阈值自动限制在3以下,这是由于本实施例假定将β限制在[0,1]之间。然而,在公式(22)的实施例中,仅要求β>0。由于β可以>1,因此应当向下限制β。
当已知期望讲话者的可能位置位于特定方位角范围内时,可以使用将β的值重新限制到[0,1]的子区间。在这种情况下,可以针对βb和βf来求解公式(15)和(16),以导出期望的界限。
参照图3和4,根据本发明实施例的语音检测器统一由附图标记2来指示。语音检测器包括根据第一麦克风4和第二麦克风6构造的自适应差动麦克风(ADM)。在该实施例中,麦克风4、6中的每一个包括全向麦克风,但在其他实施例中,麦克风可以具有不同类型。
麦克风4响应于声音产生电信号x1,同样,麦克风6响应于声音产生第二电信号x2。
相对于第一信号x1的功率对第二信号x2的功率进行归一化,以便减轻构造正向和背向心形信号中的近场效应。这可以根据以上公式(6),使用放大器7对麦克风6应用增益G来实现。换言之,一个麦克风(在该情况中是麦克风4)用作参考,而对另一麦克风(在该情况中是麦克风6)的信号进行缩放。
然后对来自麦克风4的信号(x1)和来自麦克风6的归一化信号进行处理,以构造包括相对的心形8、10信号的一阶差动响应。然而,在其他实施例中,可以对来自麦克风4、6的信号进行处理,以产生不同的一阶响应。已构造的一阶差动响应包括至少一个方向空响应。
根据一阶差动响应,产生两个ADM输出yf和yb。
输出yf是正向平面中ADM的输出,输出yb是背向平面中ADM的输出。
如上所述,根据以上公式(19),ADM的方向性可以由方向因子Q来限定,方向因子Q取决于β。根据公式(20),方向因子Q用于确定自适应阈值14的值。
然后分别计算单极分量的功率与ADM的每个输出的功率的比值,以产生两个比值20、22。
然后,使用以上公式(9),根据两个比值来估计自适应因子β的值。
然后,分别使用估计的βb和βf值,将每个比值分别与自适应阈值14的值进行比较。如果这两个比值中的任一比值大于或等于相应阈值14,则存在语音。如果比值小于阈值,则这提供不存在语音的指示。
根据这两个比较的结果,系统判定在正向平面还是在背向平面中检测到语音,或者还没有检测到语音。然后针对输入到检测器2中的声音的每个输入样本,重复这些步骤。每次更新βb和βf的值时,重新定向一阶差动响应的空响应,因此可以将空响应定向至目标语音源。通过更新βb和βf的值,也可以如上所述改变阈值14。
可以使用以上公式(8)或公式(9),来估计自适应因子β。如果公式(9)用于估计β,则也应使用公式(10)和(11)。
始终改变参数β,以使得产生具有最小功率的ADM输出yn。这可以是存在或不存在语音的情况。
现在转向图6,本发明的第二实施例统一由附图标记60来指示。为了便于参考,已经给出了语音检测器60中与图3所示的语音检测器2的部件相对应的部件的相应附图标记。语音检测器60使用离散β值集合,其中的每个值用于根据公式(7)和(12)计算输出信号,{βf}和{βb}的输出是yf和yb的最小值,以及相应所产生的β值。
在该实施例中,不对β的值进行估计,而是对值在0和1之间的离散β集合进行估计,或者执行除了1以外的一些其他上限。因此可以从离散集合中选择适当的β值。
现在转向图7,图7示出了本发明的第三实施例。图7示出了语音检测器70,其中,为了便于参考,已经给出语音检测器70中与语音检测器2的部件相对应的部件的附图标记。
语音检测器70实质上与图3所示的语音检测器2相同。然而,语音检测器70还包括:方位传感器72,能够确定合并了语音检测器70的设备(例如,移动电话)相对于用户的嘴的方位。方位传感器72可以帮助判定可以依赖哪个判定,即,基于对使用正向ADM响应计算的比值还是使用背向ADM响应计算的比值的判定,这是由于方位传感器提供与期望的语音在正向平面还是背向平面中有关的信息。
本发明不限于包括两个麦克风的ADM,如果使用多于两个麦克风,则ADM的鲁棒性将提高。
Claims (16)
1.一种使用第一麦克风(4)和第二麦克风(6)检测语音的方法,其中,第一麦克风(4)产生第一信号(x1),第二麦克风(6)产生第二信号(x2),所述方法包括以下步骤:
(i)对第二信号应用增益,以产生归一化的第二信号,其中,相对于第一信号对第二信号进行归一化;
(ii)根据第一信号和归一化的第二信号来构造一个或多个信号分量;
(iii)构造自适应差动麦克风ADM,所述ADM具有从一个或多个信号分量构造的麦克风响应,其中,所述响应具有至少一个方向空响应;
(iv)响应于检测到的声音,根据已构造的麦克风响应,来产生一个或多个ADM输出(yf,yb);
(v)计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值;
(vi)将所述比值与自适应阈值(14)进行比较;
(vii)如果所述比值大于或等于自适应阈值,则检测语音。
2.根据权利要求1所述的方法,包括以下步骤:
估计自适应值β的值。
3.根据权利要求1或2所述的方法,还包括以下步骤:
(viii)改变自适应因子β的值;
(ix)重新计算比值;
(x)将重新计算的比值与已改变的阈值进行比较;
(xi)如果所述比值大于已改变的阈值,则检测语音。
4.根据前述权利要求中任一项所述的方法,其中,计算比值的步骤包括:根据信号分量或构造麦克风响应的功率与ADM的输出的功率来计算比值。
5.根据权利要求1至3中任一项所述的方法,其中,计算比值的步骤包括:根据信号分量或构造麦克风响应的绝对值与ADM的输出的绝对值来计算比值。
6.根据前述权利要求中任一项所述的方法,其中,ADM的输出包括:响应于背向平面中检测到的声音而产生的第一输出yb,以及响应与正向平面中检测到的声音而产生的第二输出yf。
7.根据权利要求6所述的方法,其中,准备比值的步骤包括以下步骤:
计算第一信号分量或构造麦克风响应的参数与ADM的第一输出的参数的比值;以及
计算第一信号分量或构造麦克风响应的参数与ADM的第二输出的参数的第二比值;
所述方法还包括以下步骤:
分别将第一比值和第二比值与自适应阈值进行比较;以及
判定语音源位于正向平面中还是背向平面中。
8.根据前述权利要求中任一项所述的方法,其中,根据第一信号和归一化的第二信号构造一个或多个信号分量的步骤包括:根据第一信号和归一化的第二信号构造单极信号和双极信号。
9.根据前述权利要求中任一项所述的方法,其中,已构造的麦克风响应包括第一响应(8)和第二响应(10)。
10.根据权利要求8所述的方法,其中,第一响应包括正向面对的心形信号,第二响应包括背向面对的心形信号。
11.一种语音检测器(2),包括:
第一麦克风(4),产生第一信号(x1);
第二麦克风(6),产生第二信号(x2);
放大器(7),对第二信号应用增益,以产生归一化的第二信号,其中,相对于第一信号对第二信号进行归一化;
第一处理器,根据第一信号和归一化的第二信号来构造一个或多个信号分量;
第二处理器,构造自适应差动麦克风,所述自适应差动麦克风具有包括至少一个方向空响应的构造的麦克风响应,ADM响应于检测到的声音,产生一个或多个输出;
第三处理器,计算第一信号分量或已构造的麦克风响应的参数与ADM的输出的参数的比值;
比较器,将所述比值与自适应阈值进行比较,以检测所述比值是否大于或等于自适应阈值;以及
检测器,在所述比值大于或等于自适应阈值时检测语音。
12.根据权利要求11所述的语音检测器,其中,一个或多个信号分量包括单极信号和双极信号。
13.根据权利要求11或12所述的语音检测器,其中,构造麦克风响应包括正向面对的心形信号(8)和背向面对的心形信号(10)。
14.根据权利要求11至14中任一项所述的语音检测器,其中,第一、第二和第三处理包括单个处理器。
15.根据权利要求11至14中任一项所述的语音检测器,其中,第一和第二麦克风中的每一个包括全向麦克风。
16.一种形成根据权利要求9至12中任一项所述的语音检测器的自适应差动麦克风。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09252662A EP2339574B1 (en) | 2009-11-20 | 2009-11-20 | Speech detector |
EP09252662.3 | 2009-11-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102081925A true CN102081925A (zh) | 2011-06-01 |
Family
ID=42104586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010552539XA Pending CN102081925A (zh) | 2009-11-20 | 2010-11-17 | 语音检测器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8798993B2 (zh) |
EP (1) | EP2339574B1 (zh) |
CN (1) | CN102081925A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103248992A (zh) * | 2012-02-08 | 2013-08-14 | 中国科学院声学研究所 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
CN104040627A (zh) * | 2011-12-22 | 2014-09-10 | 欧胜软件方案公司 | 用于风噪声检测的方法和设备 |
CN106878905A (zh) * | 2015-09-24 | 2017-06-20 | Gn瑞声达A/S | 确定含噪语音信号的客观感知量的方法 |
CN108352159A (zh) * | 2015-11-02 | 2018-07-31 | 三星电子株式会社 | 用于识别语音的电子设备和方法 |
CN108352818A (zh) * | 2015-11-18 | 2018-07-31 | 华为技术有限公司 | 用于增强声音信号的声音信号处理装置和方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2493327B (en) | 2011-07-05 | 2018-06-06 | Skype | Processing audio signals |
GB2495278A (en) | 2011-09-30 | 2013-04-10 | Skype | Processing received signals from a range of receiving angles to reduce interference |
GB2495131A (en) | 2011-09-30 | 2013-04-03 | Skype | A mobile device includes a received-signal beamformer that adapts to motion of the mobile device |
GB2495472B (en) | 2011-09-30 | 2019-07-03 | Skype | Processing audio signals |
GB2495129B (en) | 2011-09-30 | 2017-07-19 | Skype | Processing signals |
GB2495128B (en) | 2011-09-30 | 2018-04-04 | Skype | Processing signals |
GB2495130B (en) | 2011-09-30 | 2018-10-24 | Skype | Processing audio signals |
GB2496660B (en) | 2011-11-18 | 2014-06-04 | Skype | Processing audio signals |
GB201120392D0 (en) | 2011-11-25 | 2012-01-11 | Skype Ltd | Processing signals |
GB2497343B (en) | 2011-12-08 | 2014-11-26 | Skype | Processing audio signals |
EP2611220A3 (en) | 2011-12-30 | 2015-01-28 | Starkey Laboratories, Inc. | Hearing aids with adaptive beamformer responsive to off-axis speech |
US9685156B2 (en) * | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
CN106205628B (zh) * | 2015-05-06 | 2018-11-02 | 小米科技有限责任公司 | 声音信号优化方法及装置 |
CN106653044B (zh) * | 2017-02-28 | 2023-08-15 | 浙江诺尔康神经电子科技股份有限公司 | 追踪噪声源和目标声源的双麦克风降噪系统和方法 |
US10395667B2 (en) * | 2017-05-12 | 2019-08-27 | Cirrus Logic, Inc. | Correlation-based near-field detector |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1679083A (zh) * | 2002-08-30 | 2005-10-05 | 西门子共同研究公司 | 不利环境中的多信道语音检测 |
EP1923866A1 (en) * | 2005-08-11 | 2008-05-21 | Asahi Kasei Kogyo Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
WO2009042948A1 (en) * | 2007-09-28 | 2009-04-02 | Qualcomm Incorporated | Multiple microphone voice activity detector |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8942387B2 (en) * | 2002-02-05 | 2015-01-27 | Mh Acoustics Llc | Noise-reducing directional microphone array |
US7167568B2 (en) * | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
US20060013412A1 (en) * | 2004-07-16 | 2006-01-19 | Alexander Goldin | Method and system for reduction of noise in microphone signals |
JP5197458B2 (ja) * | 2009-03-25 | 2013-05-15 | 株式会社東芝 | 受音信号処理装置、方法およびプログラム |
-
2009
- 2009-11-20 EP EP09252662A patent/EP2339574B1/en active Active
-
2010
- 2010-11-17 CN CN201010552539XA patent/CN102081925A/zh active Pending
- 2010-11-19 US US12/950,711 patent/US8798993B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1679083A (zh) * | 2002-08-30 | 2005-10-05 | 西门子共同研究公司 | 不利环境中的多信道语音检测 |
EP1923866A1 (en) * | 2005-08-11 | 2008-05-21 | Asahi Kasei Kogyo Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
WO2009042948A1 (en) * | 2007-09-28 | 2009-04-02 | Qualcomm Incorporated | Multiple microphone voice activity detector |
Non-Patent Citations (2)
Title |
---|
《 IEEE International Conference on Acoustics, Speech and Signal Processing, 2007. ICASSP 2007.》 20070420 Juan E. Rubio,et al. Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates IV-385 - IV-388 1-16 , * |
《International Conference on Audio, Language and Image Processing, 2008. ICALIP 2008.》 20080709 Hui Song,et al. First-order differential microphone array for robust speech enhancement 1461 - 1466 1-16 , * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040627A (zh) * | 2011-12-22 | 2014-09-10 | 欧胜软件方案公司 | 用于风噪声检测的方法和设备 |
CN104040627B (zh) * | 2011-12-22 | 2017-07-21 | 思睿逻辑国际半导体有限公司 | 用于风噪声检测的方法和设备 |
CN103248992A (zh) * | 2012-02-08 | 2013-08-14 | 中国科学院声学研究所 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
CN103248992B (zh) * | 2012-02-08 | 2016-01-20 | 中国科学院声学研究所 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
CN106878905A (zh) * | 2015-09-24 | 2017-06-20 | Gn瑞声达A/S | 确定含噪语音信号的客观感知量的方法 |
CN108352159A (zh) * | 2015-11-02 | 2018-07-31 | 三星电子株式会社 | 用于识别语音的电子设备和方法 |
CN108352159B (zh) * | 2015-11-02 | 2023-05-30 | 三星电子株式会社 | 用于识别语音的电子设备和方法 |
CN108352818A (zh) * | 2015-11-18 | 2018-07-31 | 华为技术有限公司 | 用于增强声音信号的声音信号处理装置和方法 |
US10602267B2 (en) | 2015-11-18 | 2020-03-24 | Huawei Technologies Co., Ltd. | Sound signal processing apparatus and method for enhancing a sound signal |
CN108352818B (zh) * | 2015-11-18 | 2020-12-04 | 华为技术有限公司 | 用于增强声音信号的声音信号处理装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20110288864A1 (en) | 2011-11-24 |
EP2339574B1 (en) | 2013-03-13 |
US8798993B2 (en) | 2014-08-05 |
EP2339574A1 (en) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102081925A (zh) | 语音检测器 | |
US7792313B2 (en) | High precision beamsteerer based on fixed beamforming approach beampatterns | |
Ryan et al. | Array optimization applied in the near field of a microphone array | |
Ishi et al. | Using multiple microphone arrays and reflections for 3D localization of sound sources | |
CN104041075A (zh) | 音频源位置估计 | |
Jacob et al. | DOA-based microphone array postion self-calibration using circular statistics | |
Lovatello et al. | Steerable circular differential microphone arrays | |
US8369550B2 (en) | Artificial ear and method for detecting the direction of a sound source using the same | |
US20130148814A1 (en) | Audio acquisition systems and methods | |
He et al. | Closed-form DOA estimation using first-order differential microphone arrays via joint temporal-spectral-spatial processing | |
Niwa et al. | Optimal microphone array observation for clear recording of distant sound sources | |
Chen et al. | A microphone position calibration method based on combination of acoustic energy decay model and TDOA for distributed microphone array | |
Dmochowski et al. | Steered beamforming approaches for acoustic source localization | |
Luo et al. | Constrained maximum directivity beamformers based on uniform linear acoustic vector sensor arrays | |
Majid et al. | Lightweight audio source localization for swarm robots | |
Hadad et al. | Multi-speaker direction of arrival estimation using SRP-PHAT algorithm with a weighted histogram | |
Togami et al. | Head orientation estimation of a speaker by utilizing kurtosis of a DOA histogram with restoration of distance effect | |
US6683964B1 (en) | Direction finder | |
Ishi et al. | Integration of multiple microphone arrays and use of sound reflections for 3D localization of sound sources | |
WO2022042864A1 (en) | Method and apparatus for measuring directions of arrival of multiple sound sources | |
Tashev et al. | Cost function for sound source localization with arbitrary microphone arrays | |
Wei et al. | Angle–of–Arrival (AoA) Factorization in Multipath Channels | |
Nikunen et al. | Time-difference of arrival model for spherical microphone arrays and application to direction of arrival estimation | |
Park et al. | Design of a helmet-mounted microphone array for sound localization | |
Tota et al. | Robust near-field narrowband beamformer against steering angle mismatch and distance error using diagonal loading technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20110601 |