CN1204766A

CN1204766A - 检测话音启动的方法和装置

Info

Publication number: CN1204766A
Application number: CN98109762A
Authority: CN
Inventors: E·索尼克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-03-25
Filing date: 1998-03-25
Publication date: 1999-01-13
Anticipated expiration: 2018-03-25
Also published as: KR100569612B1; KR19980080615A; JPH10274991A; DE69831991T2; DE69831991D1; CN1146865C; JP4236726B2; US6154721A; EP0867856B1; EP0867856A1

Abstract

本发明涉及在来自各种声源的串行帧中检测语音周期和噪声周期的装置,所述串行帧中包含与噪声混合的声信号。通过计算每一帧的能量和中心噪声信号的零交叉率和通过将这些值与自适应阈值进行比较,而测得装置的真实状态,从而可以进行适合每种状态的具体控制。

Description

检测话音启动的方法和装置

本发明涉及一种用于检测在包含语音信号、噪声信号和静音期的输入信号中话音启动的检测方法。本发明还涉及一种用于实施这种方法的检测话音启动的检测装置。

本发明可以在出现语音信号(和不纯粹是音频信号)以及需要在具有语音、背景噪音及静音期的声音环境和仅包含噪音及静音期的声音环境之间进行鉴别的任何场合下使用。本发明尤其可以形成一个对识别短语或孤立词有用的预处理模式。

本发明的第一个目的是在传输网络通常转输不仅仅包含语音的数据的情况下相对于其它类型的信号优化专用于语音信号的通带(必须测定语音是否占据整个通带，也就是说，语音和其它数据实际上可以同时通过)，或者还可以说，本发明的目的是例如优化数字电话应答机中存储的信息在存储器中所占空间。

为此，本发明涉及一种如说明书开始时定义的方法，其进一步的特征在于包括计算中心噪声信号的能量和零交叉率的第一步骤和对这些输入信号进行分类和处理的第二步骤，按语音或噪声对所说输入信号进行分类和处理的步骤与白适应阈值B相应的所说输入信号的能量值和算出的零交叉率有关。

本发明的另一个目的是提供一种可简单地使用本方法检测话音启动的装置。

为此，本发明涉及一种检测包含语音信号、噪声信号和静音期的输入信号中的声音活态的检测装置，其特征在于所说输入信号是以预定宽度的连续数字帧形式产生的，所说装置包括以三个分级自动控制形式实现的串行布置的变量初始化级、每帧能量和中心噪声信号零交叉率的计算级以及处理和测定级，这三个分级是：

-在第一N-INIT帧期间，为调节所说变量而设定的第一初始化状态，而且在此期间总是假设输入信号为语音信号；

-在假定输入信号中分别具有“语音+噪声+静音”信号和“噪声+静音”信号的第二和第三状态期间，在N-INIT第一帧之后，所说装置总是处于第二和第三状态中的一种状态。

在推荐的实施例中，这种分类方式将导致出现三种可能的状态，它们分称为初始状态，存在语音状态和存在噪声状态。

通过对下述实施例的阐述将有助于对本发明的这些和其它方面的理解。

图1表示本发明所述方法实施例的常规工作模式；

图2是更详细地说明该工作模式和概述由可确保这种工作模式的检测装置设定的三种状态的视图；

图3-5解释当所述装置处于三种状态中的任一种状态时执行的处理过程。

在描述本发明之前，首先要详细说明使用推荐方法的几个条件，也就是说，首先，来自信号输入源的输入信号应为由人发出的并与极不相同的背景噪声(饭店、办公室、通过的车辆等的背景噪声)相混合的声音信号(或语音信号)。而且根据本发明，应在对这些信号进行处理之前先将其数字化而且这种处理意在使人可以使用这些数字化输入信号的足够范围(或帧)，例如，约5-20ms的连续帧。最后应指出的是在此已经用在8KHz下采样和滤波的数字信号对与后序语音处理无关的所述方法进行了检验，从而使之仅处于电话频带(300-3400Hz)内。

图1示出了本发明方法所述工作模式的原理。在完成了工艺过程中使用的变量初始化级10的初始化步骤之后，在计算级11中对输入端E上接收的输入信号的每个当前帧执行计算该帧能量En和该帧中心噪声信号零交叉率的第一计算步骤(在说明书的以下部分中将更详细地说明被称为ZCR，或ZC的变量的含义)。在检验和处理级12中将进行把具有自适应阈值的能量与具有固定阈值的ZCR进行比较以确定输入信号中出现的是“语音+噪声+静音”信号还是仅仅是“噪音+静音”信号。第二步骤是在后面称之为三态自动控制的过程中进行的，三态控制的工作情况示于图2中。这三种状态也示于图1中。

第一种状态START-VAD是图1中所示的开始状态。随着本发明所述处理过程的每一次起动，系统便进入这种总是将输入信号假定为语音信号(虽然也检测噪声)的状态。显然，这种初始化状态可以调整内部变量并将其保持所需的时间(对各种串行帧来说，显然这些用N-INIT表示的帧是可调的)。

第二种状态SPEECH-VAD与假定输入信号是“语音+噪声+静音”信号的情况相对应。第三种状态NOISE-VAD与假定输入信号只是“噪声+静音”信号的情况相对应(在此应注意术语“第一”和“第二”状态并不指示重要的程度，只是用于区分各种状态)。在N-INIT第一帧之后，系统总是处于该第二或第三状态。下面将解释从一种状态到另一状态的转换。

初始化之后，级11中的第一计算步骤包括两个分步骤，即在计算电路111中进行的计算当前帧能量的步骤和在计算电路112中进行的计算与该帧有关的ZCR的步骤。

通常，语音信号(也就是说，“语音+噪声+静音”信号)比只有“噪声+静音”的信号的能量大。因此背景噪声必然很强，以致于无法检测噪声(即，“噪声+静音”信号)，而测出的往往是语音信号。由此，用于计算能量的电路111根据后面的测定所需的值设置了与能量有关的可变阈值，该阈值可用下述方式得到：

(a)如果当前帧的能量En低于特定的阈值B(En＜阈值B)，则将当前帧划归为NOISE(噪声)；

(b)另一方面，如果能量En大于或等于阈值B(En＞=阈值B)，则将当前帧划归到SPEECH(语音)。

事实上，选择的自适应阈值B应是背景噪声的函数，也就是说，例如应将自适应阈值调整得使之成为“噪声+静音”信号平均能量E的函数。而且允许这种“噪声+静音”信号的电平出现波动。适应的判断标准如下：

(i)如果(En＜阈值B)，则用阈值B-α．E来代替阈值B，其中α是通过实验确定的常数，但在该情况下该常数在0和1之间；

(ii)如果(阈值B＜En＜阈值B+Δ)，那么用阈值B+α．E(Δ=互补阈值)。

在这两种状态(i)和(ii)中，假定信号是“噪声+静音”并对平均值E进行修正。否则，如果En≥阈值B+Δ，则假定信号是语音信号并使平均E保持不变。为了避免阈值B不增大或减小得太多，而不得不使其值保持在由实验确定的两个阈值THRESHOLD B-MIN和THRESHOLD B-MAX之间。另一方面，Δ本身的值随输入信号(在任何情况下都是：单纯的语音、噪声+静音、或两者的混合)的大小而变大或变小。例如，用标号En-1表示输入信号前一帧TRn-1(存储的)的能量，将作出下列类型的判断：

(i)如果｜En-En-1｜＜阈值，Δ=DELTA1；

(ii)如果不是，则Δ=DELTA2，

再用实验确定Δ的两个可能值。

当电路111完成了能量计算时，便开始在电路112中进行当前帧ZCR的计算。级11中的计算完成后紧接着执行判断在已启动的各步骤之后装置所处状态的操作。更详细地说，在级12中执行的判断方法包括两个实际的测定121和122，下面将依次解释这两个测定过程。

可以看出，在N-INIT串行帧期间，按照本发明所述在每次处理开始时，其启动步骤都是A=START-VAD。装置状态的第一次测定121与施加到装置输入端的帧的数量有关，虽然所加帧的数量小于N-INIT，但测定结果为状态是和继续是START-VAD(在测定过程121之后响应Y)。图3中示出了在这种情况下称之为START-VAD-P的和在程序块141中执行的最终处理，这一处理将在下文中描述。然而，从现在起可以看出，如果需要的话，在START-VAD-P处理期间，所看到的状态将不再是开始状态START-VAD而是另一种状态NOISE-VAD或SPEECH-VAD中的一种，这两种状态之间的区分将在测定过程122中进行。

的确，如果在第一测定过程121之后，得到的响应结果是N(即：“不，该状态不再是START-VAD”)，那么第二测定过程122将确定所看到的状态是否是B=NOISE-VAD，并如前面一样采用“是”或“不是”的响应方式。如果响应结果是“是”(122之后的响应是Y)，则在程序块142中执行称之为NOISE-VAD-P的最后处理，该处理示于图4中。如果响应结果是“不是”(122之后的响应是N)，则在程序块143中执行的最终处理是SPEECH-VAD-P，而且这一处理示于图5中(就START-VAD-P而言，下面将根据图4和5对其进行说明)。无论在测定过程121和122之后进行三个处理中的哪一个处理，其后都是通过将程序块141和143的输出送到电路11输入端上的连接线15循回到装置的输入端。这样便可以进行下一帧的确定处理。

在主要方面已由图2概括的图3和图4中详细描述了处理过程START-VAD-P，NOISE-VAD-P和SPEECH-VAD-P的工作情况。在这些图中使用的变量是下面各类中解释的变量：

(1)能量：En表示当前帧的能量，En-1是存储的前一帧的能量，E是背景噪声的平均能量；

(2)计数器：

(a)计数器fr-ctr计下的数是从所用方法开始至当前得到的帧的数量(该计数器只在START-VAD状态下使用，而且其所达到的值最多等于N-INIT)；

(b)计数器fr-ctr-noise计下的数是从所用方法开始至当前测到的作为噪声的帧的数量(为了避免过大的计算量，只在达到的值小于特定值时使用该计数器，超过特定值时就不再使用该计数器)；

(c)用于平滑语音／噪声转换的计数器transit-ctr可避免截断端部短语或在有条件地延迟从状态SPEECH-VAD到状态NOISE-VAD的转换时不检测作为背景噪声的字节间的间隙：

-如果处于语音状态而且当检测到噪声时，该计数器transit-ctr的计数将变大；

-如果再次检测到语音，该计数器将置零，如果没测到语音，则计数器transit-ctr的计数将继续增大直到达到阈值N-TRANSM：在证实输入信号的确是背景噪声的情况下便可以将状态转到NOISE-VAD并使计数器transit-ctr置零；

(3)阈值：阈值B表示区分语音和低电平背景噪声时使用的阈值(THRESHOLD B-MIN和THRESHOLD B-MAX是允许的最大和最小值)，α是阈值B的修正系数值，Δ是从很强的背景噪声中区分语音时用的互补阈值(它的两个可能值是用DELTA确定的DELTA1和DELTA2，而DELTA是用｜En-n-1｜得到的阈值而且从修正Δ的角度看，可以知道输入信号是否有很大波动)；

(4)当前帧的ZCR：这种中心噪声信号的零交叉率明显地发生波动：一某些类型的噪声很易随时间而变，而且噪声信号(中心信号，即信号的平均值已迁移)经常出现零交叉，因此其具有很高的ZCR(这是一种特别的高斯型背景噪声情况)；

-当背景噪声是转换的嗡嗡声(饭店、办公室、邻居的谈话声…)时，背景噪声的特性特征接近于语音信号而且ZCR的值较低；

-某些类型的语音声被称为清音语音并具有一定的周期性：这是相应于较大能量和较低ZCR的元音的情况；

-另一方面，被称为浊音语音的其它类型的语音与清音相比具有较低的能量和较高的ZCR：这明显是摩擦音与爆破音的谐振音的情况(当其ZCR超过给定的阈值ZCGAUSS时，如果用一种能量不能完成这一测定，那么该信号将被归为噪声：如果这些信号的能量保持在(阈值B+DELTA2)之下，则只能将这些信号认定为噪声，反之，则将其划归为语音信号)；

-最后，还考虑了ZCR为零(ZC为零)的特殊情况：这对应于与“噪声+静音”相同的平缓输入信号(所有采样值都相同)。

(5)输出信号INFO-VAD：在每次处理(在程序块141-143的一个中)开始时，对当前帧作出判断，随后确切地报出是语音信号(INFO-VAD=SPEECH)，还是背景信号+静音(INFO-VAD=NOISE)。

如上所述，在程序块141-143中的这些处理包括测定菱形帧中显现的能量和ZCR的能量(除了测定计数器fr-ctr值的第一处理START-VAD-P中的第一次测定之外，还用于检验帧的数量是否仍然低于N-INIT值和装置是否仍处于初始化阶段)，或受这些测定结果控制(可能出现的阈值变化、平均能量的计算、装置状态的确定、计数的增大或置零、转向下一帧)和用矩形帧表示的工作。

由此形成的方法和装置最终提供了一种非常合适的能以极简单方式实时再现输入信号的体系。还可以看到，与此相应的是在存储方面没有什么不便。当然，只要不超出本发明的范围，还可以提出本发明的各种变型例。具体地说，可以改变测定程序122的内容和在测定过程121得到否定结果后，根据上述肯定或否定(Y或N)的响应结果，确定所看到的新状态是否是SPEECH-VAD(和不再是NOISE-VAD)。如果122之后的响应结果是“是”，最终的处理将是SPEECH-VAD-P(在程序块142中执行)，如果响应结果是“否，”该处理将是NOICE-VAD-P(在程序块143中执行)。

Claims

1．一种用于检测包含语音信号、噪声信号和静音期的输入信号中话音启动的检测方法，其特征在于包括针对这些输入信号计算中心噪声信号的能量和零交叉率的第一步骤和对所述输入信号进行分类的第二步骤，其中按语音或噪声对所说输入信号进行分类和处理的步骤是根据与自适应阈值B相应的所说输入信号的能量值和算出的零交叉率进行的。

2．根据权利要求1所述方法，其特征在于得到的输入信号为预定宽度的连续数字帧形式，而且对当前帧进行第一计算步骤和第二分类及处理步骤，所述作按照噪声或语音对每个当前帧的分类和处理步骤是根据与和所述阈值相应的当前帧的能量值以及计算出的零交叉率进行的。

3．根据权利要求2所述方法，其特征在于所述阈值B随“噪声+静音”信号的平均能量而波动。

4．根据权利要求3所述方法，其特征在于所述阈值B还随与其阈值相应的当前帧的能量值而波动。

5．根据权利要求4所述方法，其特征在于将所述阈值B随与阈值相应的当前帧的能量值而产生的波动限制在高于上述阈值的最大值Δ。

6．根据权利要求5所述方法，其特征在于，在与前一帧的值En-1相应的当前帧能量值En的影响下，所述最大值Δ具有不同值。

7．根据权利要求2-6之一所述方法，其特征在于将所述阈值B的波动限制在预定范围(THRESHOLD B-MIN，THRESHOLD-MAX)。

8．根据权利要求5-7所述方法，其特征在于把最初因高零交叉率而划为噪声的帧的平均能量En与阈值(B+Δ)相比较。

9．一种用于检测在包含语音信号、噪声信号和静音期的输入信号中声音活性的检测装置，其特征在于所说输入信号是以预定宽度的连续数字帧形式产生的所说装置包括以三个分级自动控制形式实现的串行布置的变量初始化级、每帧能量和中心噪声信号零交叉率的计算级以及处理和测定级，这三个分级是：

-在第一N-INIT帧期间，为调节所说变量而设定的第一初始化状态，而且在此期间总是假设输入的任何信号都是语音信号；

-在假定输入的任何信号中分别具有“语音+噪声+静音”信号和“噪声+静音”信号的第二和第三状态期间，在N-INIT第一帧之后，所说装置总是处于第二和第三状态中的一种状态。