CN1181466C

CN1181466C - 基于子带能量和特征检测技术的语音信号端点检测方法

Info

Publication number: CN1181466C
Application number: CNB011403349A
Authority: CN
Inventors: 陈振标; 张健; 浦剑涛; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2001-12-17
Filing date: 2001-12-17
Publication date: 2004-12-22
Anticipated expiration: 2021-12-17
Also published as: CN1427395A

Abstract

一种基于子带能量和特征检测技术的语音信号端点检测方法，包括步骤：确定频域子带带宽；计算子带能量；检测语音信号端点的能量变化特征；确定判决逻辑。本发明可用于自动语音识别和其他目的地自动语音处理中，以信号的频域子带能量为检测依据，并通过为语音信号边界的能量变化建立数学模型，用特征检测的方法检测语音的起始和终止端点。本发明可广泛应用于语音识别和语音信号处理领域。

Description

基于子带能量和特征检测技术的语音信号端点检测方法

技术领域

本发明涉及语音处理和语音识别，更确切的说，本发明涉及用于检测输入信号内语音开始和语音结束的检测系统。

背景技术

目前，用于语音识别和其他目的的自动语音处理是计算机能够进行的最具挑战性的任务之一。例如，语音识别采用对变化非常敏感的高度复杂的模式匹配技术。在用户应用中，识别系统需要处理各种各样的不同背景噪声，无关信号和噪声的出现可能严重降低识别质量和语音处理性能。

大部分自动语音端点检测系统按如下方式工作，首先对原始语音信号做加窗处理，提取每一帧信号的时域能量特征和过零率特征，得到声音特征序列；再利用前几帧估计信号的背景噪声，据此确定语音端点检测的门限值；由前面得到的特征序列和门限值，依据一定的判决准则，来确定语音信号的开始和结束端点。这些已经公知的检测语音开始和语音结束的技术，有许多需要改进的地方，目前已知的几种改进主要集中在所采用的声音特征方面，方式有：一种是采用频域多子带能量(至少两个子带)作为特征，还有一种是采用声音信号的频域熵作为特征。本发明区别于以上的现有技术，并对传统算法在检测性能方面有较大提高。

发明内容

本发明的目的是提供一种新的端点检测方法，能够从数字语音信号中区分出语音信号和非语音信号，准确地检测出语音的开始和语音的结束。

为实现上述目的，基于子带能量和特征检测技术的语音信号端点检测方法，包括步骤：

确定频域一个子带带宽；

计算子带能量；

检测语音信号端点的能量变化特征；

确定判决逻辑。

本发明可用于自动语音识别和其他目的地自动语音处理中。本发明主要有如下两个特征：一是以信号的频域子带能量为检测依据；二是通过为语音信号边界的能量变化建立数学模型，用特征检测的方法检测语音的起始和终止端点。本发明可广泛应用于语音识别和语音信号处理领域。

附图说明

图1是声音信号频域能量分布图(0-8000Hz)；

图2是声音信号频域能量分布图(0-2812.5Hz)；

图3是声音信号频域能量分布图(61.5-2812.5Hz)；

图4是端点检测算法判断逻辑的有限状态机示意图；

图5是信噪比为20dB的一段声音信号；

图6是图5中声音信号的子带能量序列；

图7是中值滤波后的图5声音信号的子带能量序列；

图8是归一化后的图5声音信号的子带能量序列；

图9是子带能量序列经特征检测滤波器滤波后的输出波形；

图10是信噪比为5dB的同一段声音信号；

图11是中值滤波、归一化后图10声音信号的子带能量序列；

图12是子带能量序列经特征检测滤波器滤波后的输出波形；

表1是基于时域能量和特征检测滤波器的算法的测试结果；

表2是基于子带能量和特征检测滤波器的算法的测试结果；

表3是语音结束点判决方法经过改进后的算法的测试结果；

具体实施方式

本发明主要包括二个模块：一是频域子带带宽的确定和子带能量的计算；二是语音边界能量变化特征的数学建模、特征检测滤波器的设计、滤波后根据能量序列进行端点检测的判决逻辑及针对语音信号的一些特殊处理；下面分别加以详细说明。

频域子带带宽的确定和子带能量的计算。频域子带带宽的确定必须遵循如下原则：使语音信号在其边界处同噪声信号相比具有最大区分度。分别考虑语音起点和终点。汉字的一个鲜明的特点是每个字一个音节，而每个音节又总是以声母开始，以韵母结束。韵母是周期信号，在噪声影响下频谱能基本保持稳定；但声母的声学特性则相对复杂，如有清辅音、浊辅音之分，有爆破音和摩擦音之分等。清辅音能量比较低，摩擦音的频谱接近于白噪声的频谱，它们都容易受背景噪声信号的影响。因此本算法在检测语音起点时，不要求一定要检测到声母的起始点，只要求检测到语音信号的第一个音节的韵母的起点；再考虑到声母信号一般长度变化不大，因此只需将检测到的起始点在时间轴上向前推若干帧即可。

为了说明所选取子带在区分语音信号和噪声信号方面的合理性和有效性，可参见附图中的图1、2、3，图中横坐标代表频率，每格31.25Hz。其中语音信号的能量只包括韵母部分的能量，声母部分没有考虑在内。由图可知：语音信号的能量主要分布在60-1000Hz的范围内；背景噪声信号中，除理想白噪声的能量分布非常平均外，大部分现实环境中的噪声信号的能量分布，同语音信号的能量分布在频域上有较大的重叠。因此，子带的选取既要保证保留语音信号的绝大部分能量，又要把噪声信号能量分布比较集中且同语音信号不相重叠的部分去掉。经观察和实验检验，我们认为，选取160-1000Hz的频带比较合适。表1、2分别是特征取时间域能量、子带为160-1000Hz的频域能量时，同一个端点检测算法的测试结果，表格中每一格中的第一个数字代表语音起始点的检测正确率，第二个数字代表语音终止点的检出正确率。由实验结果可以看出，子带能量的区分度明显好于时间域能量。

频域子带能量的计算。频域子带能量的计算有两种方法。一种方法是，首先对原始语音信号进行加窗处理，为了降低算法的复杂度，这里采用直角窗，窗与窗之间是否重叠及重叠长度没有严格规定，本发明采用没有重叠的加窗方法。对加窗后的信号作FFT处理，计算信号的频谱，然后根据选定的频带，计算该帧信号在该频带内的能量。第二种方法是用带通滤波器实现，滤波器可以是软件实现，也可以是硬件实现，这样就大大加快了算法的快速性，这也正是本算法只采用一维子带能量的原因：便于用滤波器实现以实现快速运算。

语音信号端点的能量变化特征检测算法模块。在低信噪比(SNR)的情况下，基于能量归一化的传统的端点检测方法的效果常常不如人意，从而大大降低了自动语音识别系统(ASR)的整体性能。本发明的目的之一就是要为自动语音识别系统找到一种快速、准确和鲁棒的端点检测算法。首先定义该特征检测滤波器需满足的几个标准：

1)在不同大小的背景噪声下，滤波器输出保持不变；

2)能够检测出语音信号的起始端点和终止点；

3)为保证实时性，要求在检测过程中需要前瞻的信号长度比较短；

4)在语音信号的端点处具有最大信噪比(SNR)；

5)能够准确的定位语音信号的端点位置；

6)尽量减小误检出率。

以上的标准，最后三个同图像处理中最优化边缘检测算法所定义的标准非常相似。最优化边缘检测技术的理论基础最初是由Canny^[1]建立的，他得到了一个最优化阶跃边缘检测算法。后来Petrou和Kittler发展了Canny的工作，把阶跃性边缘检测算法扩展到了斜坡型边缘检测算法。由于在语音信号的端点处能量的变化，用斜坡型边缘来描述比用理想的阶跃型边缘来描述更合适，因此本算法采用后者的方法来设计用于语音信号端点检测的特征检测滤波器。具体叙述如下：

边缘特征检测滤波器的设计。假设语音信号的能量序列在语音的起始端点的变化可用如下函数来描述：

这里s是一个正的常量。现在的问题是如何找到一个滤波器函数f(x)，使得滤波后的信号依据如上所述的第4)、5)、6)标准具有最佳的数学表示。依据Petron和Kittler在文章^[1]中讨论的利用边界条件进行特征检测滤波器优化设计的方法，同时又考虑到要满足标准1)，本算法给出如下形式的特征检测滤波器：

f(x)＝e^Ax[K₁sin(Ax)+K₂cos(Ax)]

+e^-Ax[K₃sin(Ax)+K₄cos(Ax)]+K₅+K₆e^sx

其中A和K_i是滤波器参数。由于这里的f(x)仅仅只是滤波器从-ω到0的那一部分，因此实际的边缘检测滤波器函数是：

h(i)＝{-f(-ω≤i≤0)，f(-1≤i≤-ω)}

设定了边缘模型参数s和ω，就可以确定滤波器参数。本算法为语音信号的起始和终止端点选择了同一个滤波器，通过考察语音信号边缘能量的变化特征，我们选取ω＝13，则相应的模型参数为s＝7/13，滤波器参数为：

A＝0.41s＝0.2208

(K₁，…K₆)＝(1.583，1.468，-0.078，-0.036，-0.872，-0.56)

由滤波器函数可知，在语音信号起始端点处滤波器响应为正，在终止端点处为负，而在静音部分滤波器响应接近于零。

在实际执行时，我们将滤波器函数做如下修改：令H(i)＝h(i-13)，这样得到的滤波器函数如下式所示：

F (t) = Σ_{i = 1}^{W = 25} H (i) E (t + i - 1)

其中E(·)为能量特征，t为当前帧的标号。可以看出，它需要前瞻24帧，但仍可满足实时性要求。这样，这个滤波器就满足了如上所述的所有6个标准。

判决逻辑设计。语音信号子带能量序列经边缘特征检测滤波器滤波后，根据其输出F(t)实时判断语音信号的起始端点，判决逻辑根据一个三状态的状态机来设计，状态间的转移由F(t)的变化及状态变化计数等事件来驱动状态机。如图4所示，图中的三个圆圈分别表示声音的三个状态：静音状态、语音状态和正在离开语音状态。静音状态和语音状态都可能是起始状态，而终止状态可能是上述三个状态中任何一个。在本发明中，假设静音状态为初始状态。状态转移的条件标在了各状态之间的转移路径边上，状态转移时系统属性的改变标在了转移条件旁的括弧里。其中“Count”代表一个声音能量特征帧计数器。T_L和T_U是两个门限，“Gap”是一个正整数，表示检测到的端点与实际语音终止点之间相差的帧数，也就是说，在检测到一个语音终止端点后，如果在以后的Gap帧内没有再检测到语音的起始点，则判定该端点为语音的结束点。

现在举例说明以上端点检测算法的完整过程。假定输入为一段语音信号(见图5)，其背景噪声为白噪声，信噪比SNR＝20dB，现在对信号做加窗处理，每次加窗得到的信号称为一帧语音。计算该语音的每一帧的子带能量，如图6所示。为了消除突发噪声的影响，对上述子带能量序列做中值滤波，图7为中值滤波后语音信号的子带能量序列图。接下来要根据语音帧的能量最大值对语音信号做归一化，这么做的目的是使设定的判决门限适用于输入语音强度变化的情况；本发明的能量归一化的特点是，在对能量序列做中值滤波后进行归一化，这样就避免了在存在能量很大的突发噪声的情况下，归一化不准确，反而造成端点检测错误，图8为能量归一化后的能量序列图。再经过归一化的能量序列，输入边缘特征检测滤波器，现在根据滤波器输出考察本发明设计的滤波器性能。由图9可以看出，在语音起始端点处，滤波器输出为很大的正数，在语音的终止点处，滤波器输出为负数，而在静音部分，滤波器输出几乎为零。为了保证算法在信噪比SNR不同的情况的下，同样的判决门限都适用，我们在设计特征检测滤波器时希望滤波器的输出不受输入信号信噪比的影响。作为比较，引入一个信噪比为20dB的同一段声音信号，如图10所示。图11和图12分别为归一化后的语音能量序列及将其作为输入的边缘特征检测滤波器的输出。比较图9和图12可知，特征检测滤波器的输出几乎不受SNR大小的影响，这样在后面设定端点检测的判决门限的时候，就不必考虑SNR的影响。判决门限的选择可以通过观察确定，当然，在端点检测中，确定一个最优的判决门限是非常重要的，我们通过二分的方法，经过多次尝试，确定起始点门限和终止点门限分别为：T_U＝1.6，T_L＝-0.73。最后，通过如上所述的判决逻辑，即可判断出语音信号的起始端点和终止端点，这两个端点分别对应于图9中的第一个大于T_U的正波峰处(A点)和最后一个小于T_L的负波谷处(B点)。可以看到，在图9中的最后一个波谷处，有两个极小值点B和C，出现这两个极小值点的原因是由于在汉语中，每一个音节的发音在结束时经常会存在两次较快的能量下降：一次是在从能量较高的声母向韵母过渡阶段，另一次是在韵母结束时。因此语音的真正的结束点应依据后面的波谷值C来判定，但按照上面推出的判决逻辑，则认为B处为语音结束点，因此，我们又对上述算法进行了改进。实验结果(见表2、3)说明，改进后的算法大大提高了语音终止端点的检测正确率。另外，考虑到本算法对语音起始端点的检测很可能遗漏了声母，以及在语音识别中信号的遗漏会致使该信号根本无法识别，因此一般在检测到语音的端点后，分别将起始点向前推移10帧，将终止点向后推移10帧。

综上所述，本发明提供了一种准确、快速、鲁棒的检测输入信号内的语音开始和语音结束的系统，解决了用户在噪声环境中应用时遇到的许多问题；提出了建立语音信号端点检测算法的评价标准的问题，并设计分析了检测结果的客观评价参数，构造了针对语音识别任务的端点检测算法评价标准。尽管以本发明之最佳实施方式说明了本发明，然而可以理解的是，在不背离权利要求书所规定之发明实质的前提下，可以对本发明作某些修改。

表1

表2

表3

Claims

1.一种基于子带能量和特征检测技术的语音信号端点检测方法，包括步骤：

确定频域一个子带带宽；

计算子带能量；

检测语音信号端点的能量变化特征；

确定判决逻辑。

2.按权利要求1所述的方法，其特征在于所述子域带宽为160-1000Hz。

3.按权利要求1所述的方法，其特征在于所述计算子带能量包括步骤：

对原始语音信号进行加窗处理；

对加窗后的信号进行FFT处理；

对能量特征序列进行中值滤波；

对计算得到的子带能量序列进行归一化。

4.按权利要求1所述的方法，其特征在于所述计算子带能量包括用带通滤波器实现。

5.按权利要求1所述的方法，其特征在于所述检测语音信号端点的能量变化特征还包括特征检测滤波器。

6.按权利要求5所述的方法，其特征在于用特征检测滤波器对归一化后的能量特征序列进行滤波处理。

7.按权利要求1所述的方法，其特征在于根据事先确定的门限值，分别判断语音的起点和结束点。

8.按权利要求7所述的方法，其特征在于将得到的语音起始点和终止点分别向两端扩展0.125秒。

9.按权利要求2所述的方法，其特征在于把检测到的端点在时间轴上向前推进一个声母的长度。

10.按权利要求7所述的方法，其特征在于所述的门限值为T_U＝1.6，用于判断语音首端点T_L＝-0.73，用于判断语音尾端点。