CN1513278A

CN1513278A - 使用声学传感器和非声学传感器检测有声和无声语音

Info

Publication number: CN1513278A
Application number: CNA028109724A
Authority: CN
Inventors: 格雷戈里・C・伯内特; 格雷戈里·C·伯内特
Original assignee: AliphCom LLC
Current assignee: AliphCom LLC
Priority date: 2001-05-30
Filing date: 2002-05-30
Publication date: 2004-07-14
Also published as: CA2448669A1; KR20040030638A; EP1415505A1; JP2005503579A; KR100992656B1

Abstract

本发明提供了用于从具有多种不同音级的背景噪声的声学信号中检测有声和无声语音的系统和方法。系统(图3)在两个麦克风(Mic1和Mic2)处接收声学信号，产生在两个麦克风(Mic1和Mic2)处各自接收的声学信号之间的差别参数。差别参数用于表示所接收的声学信号的各部分之间信号增益的相对差别。当差别参数超过第一个门限时，系统将声学信号的信息识别为无声语音；当差别参数超过第二个门限时，系统将声学信号的信息识别为有声语音。而且，系统的实施例包括非声学传感器(20)，该非声学传感器接收生理信息，以便辅助识别有声信息。

Description

使用声学传感器和非声学传感器检测有声和无声语音

技术领域

公开的实施例涉及语音信号的处理。

背景技术

正确识别有声和无声语音的能力对于包括语音识别、发言者验证、噪音抑制以及许多其它的应用的诸多语音应用是很重要的。在典型的声学应用中，发言人的语音被捕捉后，并将之传输到一个不同位置的接收器。发言人的周围环境可能存在一种或多种噪音源，该噪音源通过一些有害的噪声会污染语音信号或所关心的信号。因此，对接收器来说，无论人或机器，都很难或者不可能理解用户的讲话。

对有声和无声语音的典型分类方法主要是依赖麦克风数据的声学内容，其受信号内容中的噪声和相关不定因素的干扰。目前，这对于例如蜂窝电话和个人数字助理等便携式通信装置的激增非常不利，在许多情况下，这些装置提供的服务质量依赖于设备提供的话音质量。现有技术中，存在很多对语音信号中的噪音进行抑制的方法，但是这些方法在性能方面存在一些不足，通常包括计算时间长、需要繁琐的硬件进行信号处理、使得所关心的信号失真。

附图说明

图1所示为一个实施例中NAVSAD系统的框图。

图2所示为一个实施例中PSAD系统的框图。

图3所示为一个实施例中一个降噪系统，本文称为寻路器(Pathfinder)系统的框图。

图4所示为一个实施例中用于检测有声和无声语音的检测算法的流程图。

图5A所示为所接收的用于发言的GEMS信号、GEMS信号和Mic 1信号之间的平均相关以及用于有声语音检测的门限。

图5B所示为所接收的用于发言的GEMS信号，以及GEMS信号和用于有声语音检测的门限之间的标准偏差。

图6所示为从发言中检测到的有声语音以及GEMS信号和噪声。

图7所示为用于PSAD系统的一个实施例中的麦克风阵列。

图8所示为一个实施例中对于几个Δd值Δm对d₁的比值曲线。

图9所示为作为H₁(z)的绝对值与麦克风1的声学数据或音频之和的增益参数曲线。

图10所示为图9所示的声学数据的另外一种替换曲线。

在附图中，相同的参考数字代表相同或实质相似的元件或操作。

这里提供的任何标题只是为方便描述，不会影响本发明的范围和意义。

具体实施方式

以下提供从背景噪音中分辨有声和无声语音的系统和方法包括非声学传感器有声语音活动检测(Non-Acoustic Sensor Voiced Speech ActivityDetection，NAVSAD)系统和寻路器语音活动检测(Pathfinder SpeechActivity Detection，PSAD)系统。在允许从背景噪音中将无声语音和有声语音进行分离和分类的同时，本文所述的消除和降低噪音的方法在不使信号失真的情况下，通过使所关注的声学信号变得清晰而克服现有技术中已知的典型系统的缺点。

图1所示为一个实施例中NAVSAD系统100的框图。NAVSAD系统将麦克风10和传感器20耦合到至少一个处理器30。实施例中的传感器20包括发音检测器和非声学传感器。处理器30控制子系统包括一个检测子系统50，本文称为检测算法和降噪子系统40。对于降噪子系统40的操作在相关的申请中给予了详细描述。NAVSAD系统在任何背景噪声环境中都能达到比较好的工作性能。

图2所示为一个实施例中PSAD系统200的框图。PSAD系统将麦克风10耦合到至少一个处理器30。处理器30包括一个检测子系统50(本文称为检测算法)和一个降噪子系统40。PSAD系统在低噪声环境中具有高效的敏感性，而在高噪声环境中相对不敏感。PSAD能独立操作或作为对NAVSAD的备份，如果NAVSAD出现故障，PSAD检测有声语音。

需要注意的是，实施例中的NAVSAD和PSAD系统的检测子系统50和降噪子系统40都是被处理器30控制的算法，但不限于此。NAVSAD和PSAD系统的替换实施例可以包括检测子系统50和/或降噪子系统40，其包括附加硬件、固件和软件。而且，检测子系统50和降噪子系统40的功能可以在NAVSAD和PSAD系统的许多组件上分布。

图3所示为一个实施例中的一个本文称为寻路器系统的降噪子系统300的框图。下文对寻路器系统进行简要描述，在相关申请中对其进行详细描述。寻路器系统中使用了两个麦克风Mic 1和Mic 2，Mic 1看作“信号”麦克风。参考图1，当发音活动检测器(VAD)320为非声学有声传感器20，且噪声消除子系统340包括检测子系统50和降噪子系统40时，寻路器系统300相当于NAVSAD系统100。参考图2，当降噪系统340包括检测子系统50和降噪子系统40时，寻路器系统300相当于VAD 320不存在时的PSAD系统200。

NAVSAD和PSAD系统支持两级商业方法，其中(i)相对便宜的PSAD系统支持声学方法，该方法通常在中低噪声环境中运行，(ii)NAVSAD系统将添加非声学传感器，以便在任何环境中都能检测有声语音。使用传感器通常不能正确检测到无声语音，因为无声语音通常不能充分地振动人的组织。然而，在高噪声环境下，检测无声语音并不十分重要，因为无声语音通常能量低且容易被噪音冲淡。因此，在高噪声环境下，无声语音不可能影响有声语音的降噪。无声语音信息在噪声很小或没有的情况下是最重要的，因此，无声检测在低噪声环境下应该是高度敏感的，而在高噪声环境下是不敏感的。这很难实现，现有技术中相应的无声检测器不能在这些环境限制下工作。

NAVSAD和PSAD系统包括进行语音检测的阵列算法，该阵列算法使用两个麦克风之间的频谱之差来计算两个麦克风的信号之间的关系。这和传统的试图使用每个麦克风的时间/相位差来消除“敏感区域”外的噪声大不相同。这里所述的方法提供一个很大的优点，他们不需要根据信号对阵列进行特殊的定向。

而且，这里所述的系统对每种类型和每种方向的噪声都敏感，不像传统的阵列依赖特定的噪声方向。因此，本文所述基于频率的阵列是独特的，因为他们仅仅依赖于两个麦克风自身的相对方向，而不依赖于信号和噪音相对麦克风的方向。这导致关于噪声的类型、麦克风以及噪声/信号源和麦克风之间的方向的高效的信号处理系统。

本文所述的系统使用来自寻路器噪声抑制系统和/或相关申请所述的非声学传感器的信息，以确定输入信号的发音状态，下文将给予详细说明。发音状态包括不发音、有声和无声状态。例如，NAVSAD系统包括一个非声学传感器，以检测和语音相关的人体组织的振动。实施例中的非声学传感器是一个通用电磁运动传感器(GEMS)，本文给予简要介绍，在相关的申请中有其详细描述，但并不限于此。然而，在变换实施例中，可以使用任何能够检测和语音相关联的人体组织运动的传感器，而且不受周围声音噪声的影响。

GEMS为一个射频(RF)装置(2.4GHz)，其允许对移动的人体组织绝缘介面进行检测。GEMS包括一个RF干涉仪，该RF干涉仪使用零差混合以检测和目标动作相关联的很小的相位偏移。本质上讲，传感器发出弱的电磁波(小于1毫瓦)，该电磁波反射掉在传感器的周围的电磁波。反射波中混有原始传输的波以及对目标位置的任何变化而分析的结果。任何在传感器附近移动的物体都将导致反射波的相位变化，将该反射波将进行放大并以传感器输出的电压变化的方式而输出显示出来。加州大学戴维斯分校的Gregory C.Burnett(1999)在博士论文“Thephysiological basis of glottal electromagnetic micropower sensors(GEMS)and their use in defining an excitation function for the human vocal tract”中对类似的传感器进行过描述。

图4所示为一个实施例中用于检测有声和无声语音的检测算法50的流程图。参考图1和图2，实施例中的NAVSAD和PSAD系统包括一个作为检测子系统50的检测算法50。该检测算法50在实施例中实时工作，在20毫秒的限幅内操作，每次变化10毫秒，但不限于此。在前10毫秒对话音活动检测进行记录，在第二个10毫秒行使“前望(look-ahead)”缓冲器的作用。该实施例使用20/10限幅，变换实施例可以使用限幅值的许多其它组合。

在开发检测算法50的时候对大量的多维因素进行考虑。考虑最多的是维持寻路器降噪技术的有效性，其详细说明见相关的申请，回顾于此。如果在语音方面而非噪声方面执行适应滤波器的训练，则寻路器性能会降低。因此，很重要的一点是，不要为使这种干扰保持在最小而从VAD中排除任何数目巨大的语音。

也需要考虑有声和无声语音信号的特性准确性以及从噪声信号中区分出每路语音信号。这种特性可应用于例如语音识别和发言者验证的多种应用中。

而且，实施例中使用检测算法的系统适合在包含大量变化的背景声学噪声的环境中运行。如果使用非声学传感器，对于有声语音，这种外部噪声不是问题。然而，无声语音(以及在非声学传感器不能使用或出现故障时的有声语音)仅仅依赖于声学数据，以便从无声语音中分离出噪声。为有助于无声语音的检测，本文的一个优点是在寻路器噪声抑制系统的实施例中使用两个麦克风，同时充分利用麦克风之间的位置关系。然而，噪声音级很高，使得几乎不能检测到语音，而单独的声学方法不能奏效。这种情况下，为保证良好的性能就需要非声学传感器(或下文中称为传感器)就需要。

在两麦克风系统中，在一个指定麦克风中的语音源中应该比另外一个麦克风中相对洪亮一些。测试证明，由于任何噪声都会导致具有一接近1的增益的H₁，因此当麦克风置于头部时，可利用现有的麦克风轻易满足这种要求。

根据NAVSAD系统，参考图1和图3，NAVSAD依赖于两个参数检测有声语音。这两个参数包括所涉及限幅中的传感器的能量(其在一实施例中由标准偏差(SD)确定)，以及可选地麦克风1的声学信号和传感器数据之间的交叉相关性(XCORR)。传感器的能量可以通过多种方法中的任何一种方法来确定，而SD只是用于确定能量的一种便捷的方法。

对于传感器，SD等效于信号能量，一般精确地对应于发音状态，但可能易受移动噪声(用户传感器的相对移动)和/或电磁噪声的影响。为更好的从组织运动中分辨出传感器噪声，可以使用XCORR。XCORR仅仅计算至15个延迟，该延迟在8000Hz时对应于仅不足2毫秒。

当传感器信号以某种形式失真或调制时，XCORR也可以有效。例如，存在一些传感器位置(例如下颌或颈后)，在这些位置中语音产生能被检测到但信号可能含有不正确的或失真的基于时间的信息。也就是说，它们可能不具有被良好定义的特性，该特性与声波波形相匹配。然而，XCORR更容易受到来自声学噪声错误的影响，并且在高的(＜0dB SNR)环境下几乎不起作用。因此，不能将其作为发音信息的唯一来源。

传感器检测与声带的闭合相关联的人体组织运动，因此该声带的闭合产生的声学信号与闭合高度相关。因此，将和声学信号高度相关的传感器数据当作语音，将相关性不好的传感器数据称为噪声。由于声音的速度相对较慢(约330m/s)而产生延迟时间，因此可预期声学数据滞后于传感器数据约0.1至0.8毫秒(或约1-7个样本)。然而，由于声波波形随产生的声音不同而变化显著，因此实施例中使用15个样本相关，同时还需要较大的相关宽度以确保证检测的进行。

SD和XCORR信号是相关的，但二者很不相同，因此有声语音的检测是更可靠的。为简单起见，可以使用二个参数中的任意一个。将SD和XCORR的值与试验门限比较，如果两个都在门限以上，则认为是有声语音。以下给出例证数据并给予说明。

图5A、图5B和图6所示为一个实施例中，一个主体两次讲短语“poppan”时的例证数据图。图5A所示为接收到的此次讲话的GEMS信号502、GEMS信号和Mic 1信号之间的平均相关504以及用于有声语音检测的门限T1。图5B所示为接收到的此次讲话的GEMS信号502、GEMS信号的标准偏差506和用于有声语音检测的门限T2。图6所示为从声学或音频信号608中检测的有声语音602、GEMS信号604以及声学噪声606；由于严重的背景多路重合噪声606的影响，在该例中检测不到无声语音。对门限进行设定，以使实际上不存在假负数(false negative)，只存在偶尔的假正数(false positive)。在任何声学背景噪声条件下，都能够实现大于99％的有声语音活动检测精确度。

根据非声学传感器数据，NAVSAD能以较高级别的精确度确定有声语音什么时候产生。然而，对于将无声语音从噪声中分离出来，传感器几乎提供不了帮助，因为在大多数非声学传感器中，有声语音通常不产生可检测信号。如果有可检测信号，则可以使用NAVSAD，虽然由于无声语音一般相关很小而SD方法的使用是决定性的。当缺乏可检测信号时，在确定无声语音何时发生方面，采用寻路器噪声去除算法的系统和方法。下面简要描述寻路器算法，而其详细描述见相关的申请。

参考图3，进入麦克风1的声学信息由m₁(n)表示，进入麦克风2的信息同理由m₂(n)表示，假设可利用GEMS传感器来确定有声语音区域。当定义域为z(数字频率)时，可将这些信号表示为M₁(z)和M₂(z)。则

M₁(z)＝S(z)+N₂(z)

M₂(z)＝N(z)+S₂(z)

其中

N₂(z)＝N(z)H₁(z)

S₂(z)＝S(z)H₂(z)

M₁(z)＝S(z)+N(z)H₁(z)

由此

M₂(z)＝N(z)+S(z)H₂(z)

(1)

这是对所有具有两个麦克风的系统的通用公式。总会有一些噪声漏泄进入Mic 1，而一些噪声漏泄进入Mic 2。方程式1有四个未知量，而且仅有两个关系式，因此不能精确求解。

然而，存在另外一种方法可用于求解方程式1中的一些未知量。考查信号没有产生的情况，即当表示发音的GEMS信号未出现时。这种情况下，s(z)＝S(z)＝0，方程式1简化为

M_1n(z)＝N(z)H₁(z)

M_2n(z)＝N(z)

其中，变量M的下标n表示只有噪声正在被接收。于是方程式变为

M_1n(z)＝M_2n(z)H₁(z)

H_{1} (z) = \frac{M_{1 n} (z)}{M_{2 n} (z)} - - - (2)

H₁(z)可以通过任何一种有效系统识别算法来计算，且麦克风在只接收噪声的情况下才输出。计算可以自适应进行，因此如果噪声发生显著变化，可以迅速计算出H₁(z)。

通过解方程式1中的一个变量的解，使用GEMS的波幅或类似的装置以及两个麦克风的波幅，可以找到另外一个变量H₂(z)的解。当GEMS表示话音，但麦克风最近的(小于1秒)历史表示较低音级的噪声时，假设n(s)＝N(z)～0。于是方程式1简化为

M_1s(z)＝S(z)

M_2s(z)＝S(z)H₂(z)

然后，依次可得到：

M_2s(z)＝M_1s(z)H₂(z)

H_{2} (z) = \frac{M_{2 s} (z)}{M_{1 s} (z)}

该式为计算H₁(z)的反换式，但是需要注意的是，使用不同的输入。

从上述步骤计算出H₁(z)和H₂(z)之后，利用它们从信号中去除噪声。方程式1重写为：

S(z)＝M₁(z)-N(z)H₁(z)

N(z)＝M₂(z)-S(z)H₂(z)

S(z)＝M₁(z)-[M₂(z)-S(z)H₂(z)]H₁(z)

S(z)[1-H₂(z)H₁(z)]＝M₁(z)-M₂(z)H₁(z)

求解S(z)为：

S (z) = \frac{M_{1} (z) - M_{2} (z) H_{1} (z)}{1 - H_{2} (z) H_{1} (z)} - - - (3)

实际上H₂(z)通常很小，因此H₂(z)H₁(z)＜＜1，而且

S(z)≈M₁(z)-M₂(z)H₁(z)，

不需要计算H₂(z)。

参考图2和图3，对PSAD系统给予说明。当声波传播时，由于衍射和色散现象的存在，传输时通常会损失能量。假设声波产生于一个点声源，且各向同性地辐射，则它们的幅度将作为1/r的函数而降低，其中r为至声源点的距离。此与幅度成正比的1/r的函数是最差的情况，如果限制在一个较小的区域，则会有很小的减幅。然而对于所关注的配置，该模型足矣，尤其对于向位于用户头上某处的麦克风传输噪声和语音的情况。

图7所示为用于PSAD系统的一个实施例中所使用的麦克风阵列。将Mic 1和Mic 2以线性阵列排列，嘴位于阵列的中线上，Mic 1和Mic 2(假设两个麦克风具有相同的频率反应)中的信号强度差正比于d₁和Δd。假设1/r(或本例中的1/d)关系，如下式所述：

ΔM = \frac{| Mic 1 |}{| Mic 2 |} = {ΔH}_{1} (z) &Proportional; \frac{d_{1} + Δd}{d_{1}}

其中，Δm为Mic 1和Mic 2之间的增益之差，因此等于H₁(z)，如上由方程式2所示。变量d₁为从Mic 1到语音或噪声源的距离。图8所示为一个实施例中，在几个Δd值的情况下，Δm与d₁的比值曲线800。从图中可清楚地看出，当Δd变大同时噪声源靠近时，Δm变大。从阵列中线的最大值到垂直于阵列中线的零，变量Δd将依赖于相对语音/噪声源的方向变化而变化。从曲线800可以清晰的看出，对于较小的Δd和超过大约30厘米(cm)的距离，Δm接近于1。由于大部分噪声源远于30cm，而且不是在阵列的中线上，因此有可能在按上述方程式2计算H₁(z)时，Δm(或等效地H₁(z)的增益)将接近于1。相反，对于近距离的噪声源(几厘米之内)，则增益根据哪个麦克风更接近于噪声而具有显著的不同。

如果“噪声”是用户发出的，而且Mic 1较Mic 2离嘴更近，则增益提高。由于环境噪声与语音相比通常产生于距离用户的头更远的位置，因此当H₁(z)的增益接近于1或某一固定的值时，就可以发现噪声，语音可以在增益的剧烈上升后被发现。语音可以是无声的或有声的，只要相对于周围的噪声有足够的音量。在语音部分，增益将停留在某一高度，然后语音停止之后会迅速下降。H₁(z)的增益的快速上升或下降应该足够大，以便在任何环境下都能检测语音。本例中的增益通过对过滤系数的绝对值求和来计算得出。该和不等于增益，但这两个量是相关的，即绝对值之和的增大反应出增益的增大。

作为这种行为的一个例子，图9所示为作为H₁(z)的绝对值与麦克风1的声学数据904或音频之和的增益参数902的曲线900。语音信号是重复两次短语“pop pan”的一段讲话。虽然1500Hz到2500Hz在实际中额外使用，但估计的带宽包括从2500Hz到3500Hz的频率范围。注意：当首先遇到无声语音时，增益骤然变大，并且在语音结束时返回到正常的状态。可利用任何标准信号处理技术检测到导致噪声和语音之间过渡的这种增益的显著变化。通过由标准偏差和标准偏差噪声底限(floor)的移动平均来定义门限，对最后一段增益的标准偏差进行计算。为清楚起见，有声语音的增益的后段变化在曲线900中被删除。

图10所示为图9所示的声学数据的另外一种替换曲线1000。在曲线1000中再次示出用于形成曲线900的数据，并且曲线1000中还示出了无噪声的音频数据1004和GEMS数据1006，以使无声语音清晰。有声信号1002有三种可能的值：0表示噪声，1表示无声语音，2表示有声语音。只有V＝0进行降噪处理。很明显，除每个“pop”末端附近的检测出的两个单独的信号丢失之外，无声语音被很好地捕获到。然而，这些单独的限幅信号丢失并不常见，因而不会严重影响降噪算法。使用标准平滑技术，能够轻易将之去除。

从曲线1000中不能明显看出的是，PSAD系统作为NAVSAD的自动备份。这是因为：如果传感器或NAVSAD系统由于任何原因出现故障，有声语音(和无声语音一样，由于具有和麦克风相同的空间位置关系)将被检测为无声语音。有声语音将被被误分为无声语音，即使在保证语音信号质量的情况下，仍然不能实现降噪。

然而，由于高功率的(10dB SNR或少于10dB SNR)声学噪声会快速淹没任何包括PSAD的唯声学(acoustic-only)无声检测器，因此对NAVSAD系统的自动备份在低噪声(大约10+dB SNR)的环境下工作性能最佳。这在图6和图10中的曲线600和100中所示的有声信号数据602和1002的差别中可以很明显的看出，其中进行了相同的讲话，但由于无声语音检测不到曲线600不显示无声语音。如果无声语音检测不到，那么它将不会严重影响降噪处理，这是进行降噪时所期望的情况。使用该寻路器系统对无声语音进行检测能保证检测任何大到足以使降噪失真的无声语音。

对于硬件方面的考虑，结合图7，麦克风的配置会影响与语音相关联的增益的变化和检测语音所需的门限。一般来说，每种配置都需要测验，以确定正确的门限，但是采用两个麦克风的配置进行的测验显示相同的门限且其它参数工作良好。第一组麦克风将信号麦克风置于嘴附近并将噪声麦克风置于离耳朵几厘米远的位置，而第二种配置将噪声麦克风和信号麦克风以背对背的方式置于嘴的几厘米之内。本文给出的结果是使用第一种麦克风配置得到的，但使用另一组麦克风得到的效果实际上是相同的，因此使用两种麦克风结构的检测算法是相当有效的。

多种配置都可以使用NAVSAD和PSAD系统来对有声和无声语音进行检测。一种配置使用NAVSAD系统(仅仅是非声学)检测有声语音，同时使用PSAD系统检测无声语音；PSAD系统也直至NAVSAD系统的备份功能而检测有声语音。一种替换配置使用NAVSAD系统(和听觉非声学相关)检测有声语音，同时使用PSAD系统检测无声语音；PSAD系统起NAVSAD系统的备份功能而检测有声语音。另一种替换配置使用PSAD系统检测有声语音和无声语音。

以上通过论述如何从背景噪声中分离出有声和无声语音的过程对本系统进行了说明，不存在不能进行更复杂的分类的理由。对于语音的更深的特性，系统可以对来自Mic 1和Mic 2的信息进行带通，由此可以看出，Mic 1数据中的哪段带宽是更多地由噪声组成，哪段带宽对语音的权重更多。使用这个知识，根据它们和现有声学方法中相似的频谱特性，即可对讲话进行分组，该方法在嘈杂的环境中作用良好。

例如，“kick”中的“k”具有从500Hz到4000Hz的有效频谱，但“she”中的“sh”仅仅具有1700-4000Hz的有效能量。对有声语音可以采用类似的方法进行分类。例如，/i/(“ee”)具有从大约300Hz到2500Hz的有效能量，/a/(“ah”)具有从大约900Hz到1200Hz的能量。因此，这种对有声和无声语音的分辨力在噪声存在的环境中是很有用的。

本文给出的流程图中所描述的每个步骤自身都可包括无需在本文中说明的操作顺序。相关领域的技术人员可以根据流程图和本文提供的详细说明建立用于实施本发明的例程、算法、源码、微码、程序逻辑阵列，或者其他手段。本文所述的例程可以包括一个或多个下述步骤，或一个或多个下述步骤的组合：将形成相关联的一个或多个处理器的一部分的内容存储在非易失性存储器(未示)中、或使用传统的程序逻辑阵列或电路元件来实施、或存储在例如磁盘等移动媒体中中、或从服务器下载并存储在本地客户中、或在例如EEPROM等半导体芯片中进行硬连线或预编程、多个专用集成电路(ASIC)，或数字信号处理器(DSP)集成电路。

除在本文另外说明之外，在此所述信息为公知的且其详细说明见相关申请。实际上，本文提供的很多详细说明在相关申请中都给予明确的公开；本发明的大部分附加资料都可以被相关领域的技术人员所认识，因为其在相关申请中都进行过详细的描述或者对相关领域的技术人员来说是公知技术。相关领域的技术人员能根据该资料和相关申请中的详细描述实现本发明的各个方面。

除非明确地另有要求之外，在整个说明书和权利要求书中，对于词语“包括(comprise)”、“包括(comprising)”类似词语应作广义地解释，而非狭义地或详尽地解释；即，应为“包括，但并不限于”的意思。使用单数或复数修饰的词也分别包括复数和单数。此外，当用在申请文件中时，词语“本文”、“下文”以及含义相近的词应该指的是该申请的整体，而不是指申请的任一具体部分。

本发明中所述的实施例并非穷举性的，也不是用于限制本发明的确切公开形式。相关领域的技术人员应明确：本文所述具体的实施例或实例用于解释的目的，在本发明范围内可以做出各种等效变换。本文所提供的本发明的训练法还可以应用于信号处理系统，不仅仅用于上述语音信号的处理。而且，可以对上述的各个实施例的元件和步骤进行组合以形成其它的实施例。

通过引用将上述所有的参考资料和相关申请并入本文。为采用上述各参考资料的系统、功能以及原理，如果必要的话，可以对本发明的各个方面进行修改，和，以提供本发明其他实施例。

通过理解上述说明，可以对本发明进行这些以及其他变化。一般来说，在下述权利要求书中，所使用的术语不应该理解为将本发明限制在说明书和权利要求书中所公开的具体实施例，而应该理解为包括在根据权利要求而工作的所有的语音信号系统，以提供实现方法。因此，本发明的范围不限于所公开的内容制，而本发明的范围应该完全以权利要求书来界定。

虽然本发明的一些方面以某个权利要求的形式体现，但发明人在任一项权利要求中都对本发明的各个方面进行了考虑。因此，本发明保留在提交申请之后增加额外权利要求的权力，以便追加对应本发明其它方面的额外的权利要求。

Claims

1、一种检测具有各种音级的背景噪声的声学信号中的有声语音和无声语音的系统，包括：

至少两个麦克风，用于接收声学信号；

至少一个处理器，耦接在麦克风之间，其中所述至少一个处理器：

产生在两个麦克风各自接收的声学信号之间的差别参数，所述差别参数表示所接收的声学信号的各部分之间信号增益的相对差别；

当差别参数超过第一个门限时，将声学信号的信息识别为无声语音；以及

当差别参数超过第二个门限时，将声学信号的信息识别为有声语音。

2、一种检测具有各种音级的背景噪声的声学信号中的有声语音和无声语音的方法，包括：

在两个接收器接收声学信号；

产生在两个接收器各自接收的声学信号之间的差别参数，所述差别参数表示所接收的声学信号的各部分之间信号增益的相对差别；

3、如权利要求2所述的方法，还包括：利用对应于差别参数产生的标准偏差来产生第一和第二门限。

4、如权利要求2所述的方法，还包括：当差别参数小于第一个门限时，将声学信号的信息识别为噪声；以及

在识别的噪声上进行降噪处理。

5、如权利要求2所述的方法，还包括：接收和人的发音活动相关联的生理信息，所述生理信息包括利用从包括射频装置、电舌记录器(electroglottograph)，超声装置，声学咽喉麦克风(acoustic throat microphone)以及气流检测器的一组器件中选择的至少一个检测器，接收与人类发音相关的生理数据。

6、一种检测具有各种音级的背景噪声的声学信号中的有声语音和无声语音的系统，包括：

至少两个麦克风，用于接收声学信号；

至少一个发音传感器，用于接收和人的发音活动相关联的生理信息；以及

至少一个处理器，耦接于麦克风和发音传感器之间，其中所述至少一个处理器：

产生生理信息和在两个麦克风之一处所接收的声学信号之间的交叉相关数据；

当对应于在一个接收器接收的声学信号的其中一部分信号的交叉相关数据超过相关门限时，将有声信号的信息识别为有声语音；

当差别参数超过增益门限时，将声学信号的信息识别为无声语音；以及

当差别参数小于增益门限时，将声学信号的信息识别为噪声。

7、一种去除声学信号中噪声的方法，包括：

在两个接收器处接收声学信号，并且在一个发音传感器处接收和人的发音活动相关的生理信息；

产生在两个接收器的每个接收器处接收的声学信号与生理信息之间的交叉相关数据；

当对应于在一个接收器处接收的声学信号的部分信号的交叉相关数据超过相关门限时，将有声信号的信息识别为有声语音；

产生在两个接收器的每个接收器处所接收的声学信号之间的差别参数，所述差别参数表示所接收的声学信号的各部分之间的信号增益的相关差别；

当所述差别参数超过增益门限时，将声学信号的信息识别为无声语音；以及

当所述差别参数小于增益门限时，将声学信号的信息识别为噪声。