CN101872616B

CN101872616B - 端点检测方法以及使用该方法的系统

Info

Publication number: CN101872616B
Application number: CN2009101356065A
Authority: CN
Inventors: 张之浩; 刘昆; 吴伟国
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-22
Filing date: 2009-04-22
Publication date: 2013-02-06
Anticipated expiration: 2029-04-22
Also published as: CN101872616A

Abstract

本发明涉及一种端点检测方法以及使用该方法的系统，其使用基频提取结合子带能量的方法对语音进行检测，由于元音有基频，而基频拥有很强的语音特征，受噪声影响较小，使得元音的提取拥有很高的鲁棒性。使用子带能量在元音前后约束的范围内寻找辅音，并且子带能量的门限能够根据噪声分布变化而即时更新，使得辅音的检测受噪声影响也大大降低。因此，系统即使对于不断变化的复杂噪声也有很好的检测结果。

Description

端点检测方法以及使用该方法的系统

技术领域

本发明涉及用于语音识别，说话人识别的方法和系统，具体而言涉及一种语音信号处理中的语音前端处理的方法和系统。更具体的说，涉及一种语音端点检测方法以及使用这种方法的系统。

背景技术

如何从具有背景噪声的声音信号中将语音识别出来，首先要解决一个关键问题就是如何从声音信号中将语音信号精确地检测出来。本发明所提及的语音端点检测就是要在一段输入信号中将语音信号同其它信号分离开来，这是语音处理技术中的一个重要方面。

语音端点检测的实现方法有很多，包括：基于统计模型的语音端点检测以及基于特征的端点检测。基于模型的语音端点检测方法一般通过通噪声和语音的统计进行建模，从而估计语音和非语音的存在与位置。基于特征的语音端点检测方法一般利用信号的能量、过零率、倒谱等根据语音与噪声表现出来不同的特征来进行判断。

然而，基于模型的语音端点检测方法基本上针对特定噪声环境，其在面对具有变化的噪声背景的语音信号时，其鲁棒性较差。

基于特征的语音端点检测方法根据所采用的特征不同包括：基于时域能量的语音端点检测方法以及基于时域能量和过零率的语音端点检测方法。但是这两种方法同样存在各自的缺点。基于时域能量的语音端点检测方法尽管可以更新能量门限，但是在噪声比较大时将难以区分信号中的语音和噪声部分。而基于时域能量和过零率的语音端点检测方法对于低信噪比的情况则效果同样很差。尽管有些人员针对低信噪比的情况改进了基于时域能量和过零率的语音端点检测方法，但是这些改进对于非白色噪声情况依然无能为力。

由于现有的语音端点检测技术中存在的上述问题，因此希望有一种方法，该方法能够在在可变噪声的环境下仍有很好的检测结果。

发明内容

基于以上需要，本发明提出了一种语音端点检测方法，该方法包括步骤：输入语音信号；对语音信号进行分帧并进行加汉明窗处理；对语音信号执行时域到频域的转换；针对语音信号逐帧进行基频提取处理；将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段；以及将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段。

根据本发明的另一个实施方式，所述针对语音信号逐帧进行基频提取处理的步骤包括：对语音信号进行谐波叠加处理，并计算每帧信号进行多次叠加后的谐波和，并将对应于谐波和最大值的频率确定为相应帧的基频。

根据本发明的另一个实施方式，所述将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定元音区段。

根据本发明的另一个实施方式，所述将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将将语音信号中能够提取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定音乐区段。

根据本发明的另一个实施方式，所述将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括：在语音信号的相应帧中没有基频的情况下将所述相应帧判断为包含噪声的信号区段；在语音信号的相应帧中所提取的基频小于正常语音的基频的最小值的情况下将所述相应帧判断为包含噪声的信号区段；以及在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下，计算所述相应帧的自相关系数，并将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断为包含噪声的信号区段。

根据本发明的另一个实施方式，所述将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括将所述相应帧的基频设置为零。

根据本发明的另一个实施方式，所述的语音端点检测方法还包括步骤：在连续出现未能提取到具有语音特性的基频的情况下，判断连续多帧的时长T是否大于或等于预定的时间阈值，如果时长T小于预定的时间阈值，则重复之前的步骤，如果时长T大于或等于预定的时间阈值，则将该时长为T的包含噪声的信号区段的中间部分确定为确定噪声区段，而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段；以及比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音。

根据本发明的另一个实施方式，所述比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音的步骤包括：将所述包含噪声的信号区段的信号进行分帧并进行加汉明窗处理；将所述包含噪声的信号区段的信号从时域信号转换为频域信号；将所述确定噪声区段在频域上划分为高频子带和低频子带；将所述高频子带和低频子带各自再划分为两个子带；基于针对所述确定噪声区段的子带划分方式在频域上将所述潜在噪声区段划分成对应的子带；以及比较所述确定噪声区段和所述潜在噪声区段的对应子带的能量，从而确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音。

根据本发明的另一个实施方式，所述将所述确定噪声区段在频域上划分为高频子带和低频子带的步骤包括：在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划分为M谱单元；针对所述确定噪声区段所包含的谱单元中的每一个谱单元，计算所述确定噪声区段的所有帧的噪声能量的平均值ε(i)，

ϵ (i) = \frac{1}{N} Σ_{p = 0}^{N - 1} E_{p} (i), i = 0, . . ., M,

其中，N是所述确定噪声区段的帧数，E_p(i)是在第p帧信号图像中第i个谱单元上(即第i个频率间隔上)的噪声能量；以所述确定噪声区段所包含的M个谱单元中的每一个谱单元为划分点将所述确定噪声区段的频谱划分为高频子带或低频子带，并计算每种划分方式下的高频子带的噪声能量的平均值E_h或和低频子带噪声能量平均值E_l；针对每种子带划分方式，计算所述低频子带低频子带噪声能量平均值E_l所述低频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值ε(i)之间的方差以及所计算的方差的平均方差D_l；

D_{l} = \frac{1}{k - 1} Σ_{i = 1}^{k - 1} {(ϵ (i) - E_{l})}^{2}

以及计算所述高频子带的噪声能量的平均值E_h与所述高频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值ε(i)之间的方差以及所计算的方差的平均方差D_h，

D_{h} = \frac{1}{M - k} Σ_{i = k}^{M} {(ϵ (i) - E_{h})}^{2}

其中k为子带划分点的谱单元编号；以及计算每种划分方式下所计算的平均方差D_h和D_l的和D，并将所有所述和D中的最小值所对应的频谱单元作为所述高频子带和所述低频子带的划分点。

根据本发明的另一个实施方式，所述将所述高频子带和低频子带各自再划分为两个子带的步骤与所述高频子带和低频子带划分方式相同。

根据本发明的另一个实施方式，所述将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断为包含噪声的信号区段的步骤包括将所提取的基频设置为零。

根据本发明的另一个实施方式，所述预定的时间阈值可为0.4秒到0.6秒。

根据本发明的另一个实施方式，所述预定的时间阈值可为0.5秒。

根据本发明的另一个实施方式，在所述将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的信号区段的两端的被确定为潜在噪声区段的长度分别为0.1秒。

根据本发明的另一个方面，提供了一种语音端点检测系统。所述语音端点检测系统包括：用于输入语音信号的信号输入装置；分帧加窗装置，用于对语音信号进行分帧并进行加汉明窗处理；时域频域变换装置，用于对语音信号执行时域到频域的转换；基频提取装置，用于针对语音信号逐帧进行基频提取处理；确定语音区段确定装置，用于将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段；以及确定噪声区段确定装置，用于将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段。

根据本发明的另一个实施方式，所述基频提取装置对语音信号进行谐波叠加处理，并计算每帧信号进行多次叠加后的谐波和，并将对应于谐波和最大值的频率确定为相应帧的基频。

根据本发明的另一个实施方式，所述确定语音区段确定装置将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定元音区段。

根据本发明的另一个实施方式，所述确定语音区段确定装置将语音信号中能够提取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定音乐区段。

根据本发明的另一个实施方式，所述语音端点检测系统还包含去伪基频装置，所述去伪基频装置包括基频设置装置，所述基频设置装置在语音信号的相应帧中所提取的基频小于正常语音的基频的最小值的情况下将所述相应帧的基频设置为零。

根据本发明的另一个实施方式，所述语音端点检测系统还包括信号长度确定装置，用于在连续出现未能提取到具有语音特性的基频的情况下，判断连续多帧的时长T是否大于或等于预定的时间阈值，如果时长T大于或等于预定的时间阈值，则将该时长为T的包含噪声的信号区段的信号发送到所述确定噪声区段确定装置；其中，所述确定噪声区段确定装置将所述包含噪声的信号区段的中间部分确定为确定噪声区段，而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段。

根据本发明的另一个实施方式，所述语音端点检测系统还包括潜在噪声区段确认装置，用于确认潜在噪声区段是确定语音区段还是确定噪声区段。

根据本发明的另一个实施方式，所述潜在噪声区段确认装置包括：子带划分装置，用于将所述确定噪声区段在频域上划分为多个子带以及将所述潜在噪声区段对应地在频域上划分为相同数量的子带；以及子带能量比较装置，用于比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是确定语音区段的辅音或元音的尾音。

根据本发明的另一个实施方式，所述子带划分装置通过以下手段将所述确定噪声区段划分为两个子带：在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划分为M谱单元；针对所述确定噪声区段所包含的谱单元中的每一个谱单元，计算所述确定噪声区段的所有帧的噪声能量的平均值ε(i)，

ϵ (i) = \frac{1}{N} Σ_{p = 0}^{N - 1} E_{p} (i), i = 0, . . ., M

D_{l} = \frac{1}{k - 1} Σ_{i = 1}^{k - 1} {(ϵ (i) - E_{l})}^{2}

D_{h} = \frac{1}{M - k} Σ_{i = k}^{M} {(ϵ (i) - E_{h})}^{2}

根据本发明的另一个实施方式，所述子带划分装置还进一步将所述高频子带和低频子带各自再划分为两个子带。

根据本发明的另一个实施方式，所述去伪基频装置还包括自相关系数计算装置，用于在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下计算相应帧的自相关系数；以及自相关系数比较装置，用于比较所述相应帧的自相关系数与预定自相关系数阈值；其中所述基频设置装置还用于将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧的基频设置为零。

根据本发明的另一个实施方式，所述预定的时间阈值可为0.4秒到0.6秒，优选为0.5秒。

为了解决该问题，根据本发明的又一个实施例，提供了一种程序，所述程序使得计算机实现一种执行所述基频提取和子带划分功能。而且还提供了其上记录所述程序的记录介质。

附图说明

现在仅作为示例描述本发明的一个或更多的实施例，参考附图，其中：

图1是根据本发明的实施例的语音端点检测系统的框图。

图2是根据本发明的实施例的去伪基频装置以及潜在噪声区段确认装置的框图。

图3(a-d)是图释基频提取计算过程的示意图。

图4图示了进行一帧内自相关系数计算所需的采样方式的示意图。

图5所示是跟踪确定噪声段以及及时更新噪声段子带能量门限的变化的视图。

图6所示的是根据本发明的端点检测方法的流程图。

图7所示的是子带能量划分的流程图。

具体实施方式

下面，将参照附图对本发明的优选实施例进行详细描述。注意的是，在本说明书和附图中，采用相同的附图表及来指代具有基本上相同功能和结构的构成元件，并且省略了对这些结构元件的重复解释。

本发明所提出的方法和系统是用于在语音信号中检测语音的存在与具体位置。本发明的目的是能够在复杂多变的背景噪声环境中获取高性能的端点检测结果。

在一般的语音构成中，包含了元音和辅音。这些音素由于其各自的发音特点而具有不同的特征。具体而言，人们所发出的元音是由声带的振动引起的。人们在说话时发出的这种元音都具有连续平稳的基频，而绝大部分辅音都不具有这样的基频。此外，部分浊辅音也是由声带产生的，因此也具有基频。相对于语音而言，噪声就是一些频率混乱的声音的叠加的结果，其通常不会具有连续稳定的基频。基于语音和噪声在上述基频方面的区别，发明人提出了一种语音端点检测方法和系统，该方法和系统基于以上语音与噪声之间在基频方面的区别，提取语音信号中的基频，将语音信号中的语音部分和噪声部分区分开，以便保留信号中的语音部分并去掉信号中的噪声部分。

正如上面提到的，语音中还有一些辅音。辅音在语音中通常出现在元音之前。对于一段语音信号来说，语音信号中的元音部分的周围部分通常被认为是潜在的辅音部分。就实际情况而言，在元音部分和确定噪声区段之间的部分通常被认为是潜在辅音部分。

基于以上对一般语音信号的基本构成的了解，发明人提出了一种语音端点检测方法和系统。该方法和系统通过将基频提取和子带能量相结合来提到语音识别的鲁棒性。

图1是根据本发明的实施例的语音端点检测系统的框图。所述系统包括：用于输入语音信号的信号输入装置11；分帧加窗装置12，用于对语音信号进行分帧并进行加汉明窗处理；时域频域变换装置13，用于对语音信号执行时域到频域的转换；基频提取装置14，用于针对语音信号逐帧进行基频提取处理；去伪基频装置15；确定语音区段确定装置17，用于将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段；确定噪声区段确定装置16，用于将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段；潜在噪声区段确认装置18；以及结果输出装置19。

图2所示的是图1中所示的去伪基频装置15以及潜在噪声区段确认装置18具体构成。去伪基频装置15包括高通滤波器21、自相关系数计算装置22、自相关系数比较装置23、以及基频设置装置24。而潜在噪声区段确认装置18包括子带能量划分装置26以及子带能量比较装置27。

图6所示的是根据本发明的端点检测方法的流程图。下面结合图1和图2，对本发明的语音端点检测方法和系统的操作方法进行详细的描述。首先，在步骤S601中，信号输入装置11输入语音信号，该信号输入装置例如是一种麦克风。信号输入装置11收集周围个各种声音，并输入到本发明的语音端点检测系统。接着，在步骤S602中，分帧加窗装置12对所输入的语音信号进行分帧和加窗处理。如图3(a)所示，其中按照10ms每帧的进行分帧处理。图3(a)所示的是输入语音信号的时域波形图。在步骤S603中，时域频域变换装置13对所输入的语音信号执行FFT变换。在这个步骤中，将语音信号变换成频域信号。图3(b)所示的是输入语音信号的频域波形图的一个实例。

随后在步骤S604中，提取每帧信号的基频。图3(c-d)详细图释了基频的提取过程。在该步骤中，基频提取装置14通过一种子谐波求和法来实现基频的提取。所述子谐波求和方法是一种比较有效并且快速的基频提取方法。该方法根据比较找出最大的叠加点也就是出现的倍频叠加点，这个点也就是语音信号中的基频点。具体而言，基频提取装置14中的削波装置(未示出)采用中央削波法将频域信号峰值及其周围对称点以外的值设置为0，也就是仅仅考虑频域信号峰值以及其周围的对称点的值。基频提取装置14中的插值和加窗装置(未示出)采用汉宁窗(hanning)对频域上的信号进行平滑，使得不平滑的频谱变成平滑的频谱。图3(c)所示的就是log域上的语音信号。具体而言就是使对削波后的信号(峰值加强信号)进行插值以提高采样点的密度，并将这些采样点的值转化到更符合听觉的Log域。具体到基频的提取，根据Log域的偏移后的信号P(s+log2n)计算N次叠加结果H(s)：

H (s) = Σ_{n = 1}^{N} h (n) P (s + \log_{2} n)

其中叠加次数N＝15，叠加系数h(n)＝0.84ⁿ-1，s＝log₂ ^f，f是信号的频率。

当谐波值叠加得到H(s)的最大值时，对应的f＝2^s即所求的基频值。另外，所述还通过降低基频最小阈值的方法(将叠加的最小阈值降到30Hz)使得非语音帧计算得到的谐波和叠加最大值对应的基频值会出现在30-50Hz之间从而去除伪基频。

因此，基频提取装置14通过上述方式获得每帧的叠加谐波值的最大H(s)而获取对应于该最大H(s)的频率f，并将该f作为相应帧的基频值。

在步骤S605和步骤S606中，去伪基频装置15对所提取的基频进行分辨，以便去除由于各种噪声叠加而形成的各种伪基频。通常，即使是噪声，其通过反复叠加之后也能有最大的叠加值，所以我们需要去除噪声的干扰。为了去除这种伪基频，首先要去除所提取的基频之中的明显不具有语音频率的基频。通常，语音频率通常在50Hz之上。而当各种噪声的频率f小于这个最小值时，叠加后的f点是由于低频附近叠加次数多而计算得到了一个最大值，而不是由于信号拥有明显的周期波峰而得到的最大值。因此认为f是伪基频。为此，在步骤S605中，本发明的技术方案首先采用去伪基频装置15中的高通滤波器21来过滤掉将小于正常语音频率的最小值的基频，并在步骤S611中将相应帧的频率设置为零。在步骤S606中，去伪基频装置15的自相关系数计算装置22、自相关系数比较装置23以及基频设置装置24一起用于去除频率位于正常语音频率范围的伪基频。之所以如此是因为高能量噪声可能在正常基频范围内获得最大叠加点，但是其信号仍不具有周期性。因此，本发明通过自相关系数计算装置22计算具有正常基频的帧自相关系数，并且由自相关系数比较装置23对每帧的所计算的自相关系数与预定的自相关系数阈值进行比较，最后在步骤S611中由基频设置装置24将自相关系数小于预定的自相关系数阈值的帧的基频设置为零，从而将该帧判定为可能包含噪声的区段。

图4所示的就是在一帧内计算自相关系数所需的采样方式的示意图。其中T是信号中点前后的采样长度。该采样长度通常小于帧长的一半。

自相关系数计算装置22计算具有正常基频的帧的多个采样点之间的自相关系数，并且由自相关系数比较装置23对每帧的所计算的自相关系数与预定的自相关系数阈值进行比较，并且当某帧的所计算的自相关系数小于规定自相关系数的阈值时，则由基频设置装置24将相应帧的基频设置为零，从而将该帧的基频作为伪基频去除。其中所述规定的自相关系数的系数阈值可以为0.52。

所述自相关系数计算装置22通过下述方式计算自相关系数：获取一帧信号的中间点之前的N个采样点的值x_i，其中i为1-N的整数，和在所述中间点之后的N个采样点的值y_i，其中i为1-N的整数。之后，计算N个采样点的能量x_i的平均能量E(x)以及N个采样点的能量y_i的平均能量E(y)；以及采用如下计算公式计算所述帧内自相关系数R：

R = \frac{Σ_{i = 1}^{N} [(x_{i} - E (x)) \cdot (y_{i} - E (y))]}{\sqrt{Σ_{i = 1}^{N} {(x_{i} - E (x))}^{2} \cdot Σ_{i = 1}^{N} {(y_{i} - E (y))}^{2}}}

一方面，在步骤S611和S611中去伪基频装置15去除伪基频后，在步骤S612中，采用计数器(图中未示出)对这种可能包含噪声的区段的连续帧数进行计数，计数器的初始值为0。并在计数之后返回到步骤S602。

另一方面，在步骤S607中，先利用语音区段确定装置17基于去伪基频装置15执行去除伪基频的结果，再来判断具有基频的连续多帧的谐波是否呈水平直线的特点，如果具有连续水平的谐波特点，则将这段连续的具有谐波特点的多帧判断为确定音乐部分。因为音乐和语音的谐波特性各有不同：音乐的谐波在连续时间里谐波呈水平直线的特点，而语音谐波常常呈现为曲线包络。通常(如：说话人检测)音乐是和噪声一样没有价值的。为此，本发明也将输入信号中的音乐区段需要分辨出来。为此，确定语音区段确定装置17中包含了一种音乐检测部分(未示出)。该音乐检测部分记录每帧经过去伪基频装置15执行去除伪基频的后所获得的基频值，并比较连续帧之间的基频的大小，分析两者之间的基频的波动幅度，如果在连续的多帧的总帧长超过一定的时间长度(0.2s、0.3s、0.4s等)，并且这些连续帧的基频的波动幅度在预定的范围之内(例如1Hz、2Hz)，则认为该连续的帧所在的信号部分为确定的音乐区段。

在步骤S608中，确定语音区段确定装置17基于去伪基频装置15执行去除伪基频的结果，将不包括音乐区段的其余具有基频的帧信号确定为确定语音区段。

接着，在步骤S609中，基于计数器的计数值，用于确定具有伪基频的连续帧的长度的信号长度确定装置25计算这种连续帧的信号长度，并且判断该连续的多帧的时长T是否大于或等于预定的时间长度，通常该预定的时间长度在0.4-0.6秒之间，优选为0.5秒。这是因为，通常元音的发音长度在0.5-1秒之间，因此，我们将上述连续时间段规定为大于0.5秒。因此，当语音信号中出现连续0.5秒以上的不包含基频的信号片段时，该片段则被视为非语音信号，并将此段信号视为只包含背景噪声。如果判断的结果为连续无基频或具有伪基频的帧的长度T小于所述预定的时间长度，则在步骤S610中，确定噪声区段确定装置16将这一段小于所述预定的时间长度的信号判定为潜在噪声区段。随后进入步骤S615，以判断这种信号处理的过程是否已经到达输入语音信号的最后一帧。如果已经到达信号的结尾，则结束对所输入信号的处理，输出最终的语音信号处理结果。如果没有到达信号的结尾，则处理进程前进到步骤S616，在步骤S616处，计数器对帧数的累计值n清零，并返回到步骤S602，继续对后续的帧进行基频提取处理。

如果在步骤S609中，确定噪声区段确定装置16判断连续的无基频或具有伪基频的帧的长度T大于或等于0.5秒，则确定噪声区段确定装置16在步骤S613中将这段无基频或者具有伪基频的连续帧的信号的中间部分判定为确定噪声区段，而将该段信号的两端各自长为大约0.1秒的信号长度确定为潜在噪声区段。

接着，在步骤S614中，潜在噪声确认装置18对在对应的计数阶段内所有潜在噪声区段进行确认，以便确认这些潜在噪声区段是确定噪声区段还是语音中的元音的尾音或者辅音。具体确定将在后面参照附图7所示子带划分过程来进行描述。

在步骤S614进行了上述确认之后，步骤同样进入步骤S615，以判断这种信号处理的过程是否已经到达输入语音信号的最后一帧。如果已经到达信号的结尾，则结束对所输入信号的处理，输出最终的语音信号处理结果。如果没有到达信号的结尾，则处理进程前进到步骤S616，在步骤S616处，计数器对帧数的累计值n清零，并返回到步骤S602，继续对后续的帧进行基频提取处理。

图7所示的是在步骤S614中确认潜在噪声区段的过程中的子带划分过程。

首先在步骤S701中，潜在噪声确认装置18中的子带划分装置26接收确定噪声确定区段确定装置16输入的确定噪声区段，并在步骤S702中对该确定噪声区段进行取帧和加窗。执行该分帧加窗的装置可以是分帧加窗装置12。并在步骤S703中多该确定噪声确定区段执行时域到频域的变换。执行该变换的具体装置可以是FFT变换装置13。随后该子带划分装置26在步骤S704中在频域将确定噪声区段在频域上平均划分成M个谱单元。通常由于语音的元音和辅音在频域上分别分布在低频和高频区域，因此，可以把频谱分为低频子带(＜3kHz)和高频子带(＞3kHz)。设M为3kHz对应的谱单元(spectral bin)数。若对信号是每秒16K采样，帧长20毫秒，则每帧信号有0.02s*16000采样点/s＝320采样点，做512点FFT从时域变换到频域，频域0-8kHz得到256(512/2＝256)个频谱值，也就是在每8000/256的频率范围内有一个对应的频谱值，即一个谱单元(spectral bin))。

接着，子带划分装置26对确定噪声区段的频域进行子带划分，具体划分过程如下：

首先，在步骤S704中，如果确定噪声区段的帧数为N，则计算所有N帧的每个频率谱单元i处的噪声能量平均值，即N帧的每一帧的对应频谱单元的噪声能量的平均值：

ϵ (i) = \frac{1}{N} Σ_{p = 0}^{N - 1} E_{p} (i), i = 0, . . ., M

其次，假设以谱单元k为确定噪声区段的子带划分点，则0～k-1个谱单元作为一个低频子带，而k～M个谱单元作为一个高频子带。子带划分装置计算划分后两个子带的能量的平均值E_l和E_h，即为两个子带各自所包含的频谱单元的能量的平均值。然后计算低频子带的能量平均值与其所包含的每个谱单元的噪声能量平均值之间的方差的平均值，即平均方差D_l；同样计算高频子带的能量平均值与其所包含的每个谱单元的噪声能量平均值之间的方差的平均值，即平均方差D_h。这两个平均方差的计算公式如下：

D_{l} = \frac{1}{k - 1} Σ_{i = 1}^{k - 1} {(ϵ (i) - E_{l})}^{2}, D_{h} = \frac{1}{M - k} Σ_{i = k}^{M} {(ϵ (i) - E_{h})}^{2};

如上述计算方法，正对M个谱单元，形成M组划分方式，对应计算获得M组D_l和D_h。

最后，比较每种划分方式下D_l和D_h的和，即比较每种划分方式下的D＝D_l+D_h的大小。与D_l和D_h的和最小对应的划分方式为子带划分的最优方式。因此，子带划分装置26将满足D＝D_l+D_h之和达到最小的划分谱单元作为高频和低频子带上的划分点。

再根据噪声在上述两个子带内能量分布特点，将每个子带再划分为噪声能量较为活跃的子带和次活跃子带。活跃程度是通过能量相对于平均能量最大波动确定的。对于噪声而言在一定时间内它在特定频率的活跃程度是不一样的，比如一些噪声在100Hz以下变化很剧烈。对于这样的情况我们就把低频段子带认为是噪声“活跃”子带，给它确定一个较高的门限来防止突然出现的较高能量噪声。而对于噪声不活跃的子带，我们不需要这么做，因为噪声在这段子带不会出现这样剧烈的变化，我们的门限可以相对较低。

最后，按上述过程也可以将高频和低频子带分别划分为2个子带，最终得到4个子带。子带可以继续划分，比如可以划分为8个，但实验效果差不多甚至会变差，本文以4个子带划分为例讲述。

所述子带划分装置26根据子带噪声的大小和不同子带噪声的活跃程度来设定子带能量门限，具体过程是：首先，计算第t个子带的平均能量E_t，t＝1，...，4；其次，在第t个子带中，计算第n帧能量相对于平均能量E_t的波动：

d_t(n)＝|E_t(n)-E_t|，n＝1，...，N

其中，N(同上)为确定噪声段的帧数；最后，第t个子带的门限可以设定为：

Thr_t＝E_t+max{d_t(0)...d_t(N)}/α(0＜α＜1)，其中，α为敏感系数(α为经验值，对于门限的设定是由检测最大值除以某个小于1的数来设定的)。

接着，在步骤S708中，按照对确定噪声区段的子带划分方式对潜在噪声区段进行相同的子带划分，从而获得潜在噪声区段的对应子带。

最后，在步骤S709中，潜在噪声区段确认装置18中的子带能量比较装置27将潜在噪声区段的各个子带的能量与上述确定的确定噪声区段的对应子带的能量阈值进行比较以确定潜在噪声区段是确定噪声区段还是元音的尾音或辅音。具体而言，如果潜在噪声区段的低频子带的能量高于确定噪声区段的低频子带的能量阈值，则认为该潜在噪声区段为元音的尾音，而如果在噪声区段的高频子带的能量高于确定噪声区段的高频子带的能量阈值，则认为该潜在噪声区段为辅音，反之，则认为该潜在噪声区段为确定的噪声区段。

图5所示是跟踪确定噪声区段以及及时更新噪声子带能量的划分和门限的变化的示意图。

通过以上所描述的语音端点检测系统和方法，尤其是通过提取基频以及根据基频检测到的确定噪声区段及时自动更新不同输入信号的确定噪声区段的子带能量的划分和门限的设定，能够在较低信噪比环境下准确检测到确定的语音部分(即语音的元音部分)和确定噪声区段，并且通过自身跟踪噪声变化准确判断辅音的位置或元音的尾音，这使得该方法的鲁棒性更高。

另外，低频子带和高频子带的划分，不仅能够在元音部分周围利用高频子带判断是否存在辅音，也可以在其后面的低频子带寻找是否存在元音的尾音部分，如图5所示，区段G是由子带能量检测到的高频辅音，区段K是子带能量在低频检测到的基频提取时遗漏的元音尾音部分。

以上所述仅为本发明的一个实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换，改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音端点检测方法，该方法包括步骤：

输入语音信号；

对语音信号进行分帧并进行加汉明窗处理；

对语音信号执行时域到频域的转换；

针对语音信号逐帧进行基频提取处理；

将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段；

将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段：

在连续出现未能提取到具有语音特性的基频的情况下，判断连续多帧的时长T是否大于或等于预定的时间阈值，如果时长T小于预定的时间阈值，则将该时长为T的包含噪声的信号区段确定为潜在噪声区段；如果时长T大于或等于预定的时间阈值，则将该时长为T的包含噪声的信号区段的中间部分确定为确定噪声区段，而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段；以及

比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音。

2.如权利要求1所述的语音端点检测方法，其中，所述针对语音信号逐帧进行基频提取处理的步骤包括：对语音信号进行谐波叠加处理，并计算每帧信号进行多次叠加后的谐波和，并将对应于谐波和最大值的频率确定为相应帧的基频。

3.如权利要求1所述的语音端点检测方法，其中，所述将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能够提取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定音乐区段。

4.如权利要求1-3之一所述的语音端点检测方法，其中，所述将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定元音区段。

5.如权利要求1所述的语音端点检测方法，其中，所述将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括：

在语音信号的相应帧中没有基频的情况下将所述相应帧判断为包含噪声的信号区段；

在语音信号的相应帧中所提取的基频小于正常语音的基频的最小值的情况下将所述相应帧判断为包含噪声的信号区段；以及

在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下，计算所述相应帧的自相关系数，并将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断为包含噪声的信号区段。

6.如权利要求1所述的语音端点检测方法，其中，所述将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括将所述相应帧的基频设置为零。

7.如权利要求1所述的语音端点检测方法，其中所述比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音的步骤包括：

将所述包含噪声的信号区段的信号进行分帧并进行加汉明窗处理；

将所述包含噪声的信号区段的信号从时域信号转换为频域信号；

将所述确定噪声区段在频域上划分为高频子带和低频子带；

将所述高频子带和低频子带各自再划分为两个子带；

基于针对所述确定噪声区段的子带划分方式在频域上将所述潜在噪声区段划分成对应的子带；以及

比较所述确定噪声区段和所述潜在噪声区段的对应子带的能量，从而确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音。

8.如权利要求7所述的语音端点检测方法，其中所述将所述确定噪声区段在频域上划分为高频子带和低频子带的步骤包括：

在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划分为M谱单元；

针对所述确定噪声区段所包含的谱单元中的每一个谱单元，计算所述确定噪声区段的所有帧的噪声能量的平均值ε(i)，

其中，N是所述确定噪声区段的帧数，E_p(i)是在第p帧信号图像中第i个谱单元上的噪声能量；

以所述确定噪声区段所包含的M个谱单元中的每一个谱单元为划分点将所述确定噪声区段的频谱划分为高频子带或低频子带，并计算每种划分方式下的高频子带的噪声能量的平均值E_h或和低频子带噪声能量平均值E_l；

针对每种子带划分方式，计算所述低频子带低频子带噪声能量平均值E_l所述低频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值ε(i)之间的方差以及所计算的方差的平均方差D₁；

以及

计算所述高频子带的噪声能量的平均值E_h与所述高频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值ε(i)之间的方差以及所计算的方差的平均方差D_h，

其中k为子带划分点的谱单元编号；以及

计算每种划分方式下所计算的平均方差D_h和D_l的和D，并将所有所述和D中的最小值所对应的频谱单元作为所述高频子带和所述低频子带的划分点。

9.如权利要求8所述的语音端点检测方法，其中所述将所述高频子带和低频子带各自再划分为两个子带的步骤与所述高频子带和低频子带划分方式相同。

10.如权利要求5所述的语音端点检测方法，其中，所述将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断为包含噪声的信号区段的步骤包括将所提取的基频设置为零。

11.如权利要求1所述的语音端点检测方法，其中，所述预定的时间阈值可为0.4秒到0.6秒。

12.如权利要求11所述的语音端点检测方法，其中，所述预定的时间阈值可为0.5秒。

13.如权利要求1所述的语音端点检测方法，其中，在所述将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的信号区段的两端的被确定为潜在噪声区段的长度分别为0.1秒。

14.一种语音端点检测系统，包括

用于输入语音信号的信号输入装置；

分帧加窗装置，用于对语音信号进行分帧并进行加汉明窗处理；

时域频域变换装置，用于对语音信号执行时域到频域的转换；

基频提取装置，用于针对语音信号逐帧进行基频提取处理；

确定语音区段确定装置，用于将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段；

确定噪声区段确定装置，用于将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段；以及

信号长度确定装置，用于在连续出现未能提取到具有语音特性的基频的情况下，判断连续多帧的时长T是否大于或等于预定的时间阈值，如果时长T大于或等于预定的时间阈值，则将该时长为T的包含噪声的信号区段的信号发送到所述确定噪声区段确定装置；

其中，所述确定噪声区段确定装置将所述包含噪声的信号区段的中间部分确定为确定噪声区段，而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段。

15.如权利要求14所述的语音端点检测系统，其中，所述基频提取装置对语音信号进行谐波叠加处理，并计算每帧信号进行多次叠加后的谐波和，并将对应于谐波和最大值的频率确定为相应帧的基频。

16.如权利要求14所述的语音端点检测系统，其中，所述确定语音区段确定装置将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定元音区段。

17.如权利要求14所述的语音端点检测系统，其中，所述确定语音区段确定装置将语音信号中能够提取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定音乐区段。

18.如权利要求14所述的语音端点检测系统，其还包含去伪基频装置，所述去伪基频装置包括基频设置装置，所述基频设置装置在语音信号的相应帧中所提取的基频小于正常语音的基频的最小值的情况下将所述相应帧的基频设置为零。

19.如权利要求14所述的语音端点检测系统，其还包括潜在噪声区段确认装置，用于确认潜在噪声区段是确定语音区段还是确定噪声区段。

20.如权利要求19所述的语音端点检测系统，其中，所述潜在噪声区段确认装置包括：

子带划分装置，用于将所述确定噪声区段在频域上划分为多个子带以及将所述潜在噪声区段对应地在频域上划分为相同数量的子带；以及

子带能量比较装置，用于比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是确定语音区段的辅音或元音的尾音。

21.如权利要求20所述的语音端点检测系统，其中所述子带划分装置通过以下手段将所述确定噪声区段划分为两个子带：

其中，N是所述确定噪声区段的帧数，E_p(i)是在第p帧信号图像中第i个谱单元上(即第i个频率间隔上)的噪声能量；

针对每种子带划分方式，计算所述低频子带低频子带噪声能量平均值E_l所述低频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值ε(i)之间的方差以及所计算的方差的平均方差D_l；

以及

其中k为子带划分点的谱单元编号；以及

22.如权利要求21所述的语音端点检测系统，其中所述子带划分装置还进一步将所述高频子带和低频子带各自再划分为两个子带。

23.如权利要求18所述的语音端点检测系统，其中，所述去伪基频装置还包括相关系数计算装置，用于在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下计算相应帧的自相关系数；以及自相关系数比较装置，用于比较所述相应帧的自相关系数与预定自相关系数阈值；其中所述基频设置装置，用于将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧的基频设置为零。

24.如权利要求19所述的语音端点检测系统，其中，所述预定的时间阈值可为0.4秒到0.6秒。

25.如权利要求24所述的语音端点检测系统，其中，所述预定的时间阈值可为0.5秒。

26.如权利要求18所述的语音端点检测系统，其中，在所述将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的信号区段的两端的被确定为潜在噪声区段的长度分别为0.1秒。