CN101625859B

CN101625859B - 语音端点检测中的短时能频值波形斜率门限的确定方法

Info

Publication number: CN101625859B
Application number: CN2008101164624A
Authority: CN
Inventors: 李祺; 马华东; 郑侃彦; 韩忠涛; 张婷
Original assignee: China Digital Video Beijing Ltd
Current assignee: China Digital Video Beijing Ltd
Priority date: 2008-07-10
Filing date: 2008-07-10
Publication date: 2012-06-06
Anticipated expiration: 2028-07-10
Also published as: CN101625859A

Abstract

本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。该方法通过分析当前的短时能频值序列，找出其最小值EZE-feature_min和最大值EZE-feature_max，然后计算EZE-feature_max/100；比较EZE-feature_min和EZE-feature_max/100，取其中较大者，记为EZE-feature_slope；确定短时能频值波形斜率门限值为R_m＝EZE-feature_slope×2。通过本发明所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效，因此在语音端点检测过程中不需要再次进行修改，而且在绝大部分情况下基本可以满足寻找语句端点的需要，因此，可以提高语音端点的检测效率。

Description

语音端点检测中的短时能频值波形斜率门限的确定方法

技术领域

本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。

背景技术

语音端点检测技术是语音技术研究的一个新的领域，其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿，这种字幕文稿是指在制作电视节目之前，事先写好的一个文本文件，记录着节目的标题、主持人要说的话，以及被采访人所讲的话等内容。在制作电视节目时，编辑人员把音、视频素材添加到非线性编辑软件的故事板上，然后按照节目的主旨，对其进行编辑。编辑操作一般包括对素材位置的修改，添加一些特技，添加字幕等等。添加字幕时，一般是先在字幕文稿中选择多段文字(每一段就是一句话)，然后以这些文字生成一个新的字幕文件，将这个文件拖上非线性编辑软件的轨道，此时字幕中的每一句话就会按顺序播出，但是往往会出现“声画不同步”的现象，即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音，一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间，影响唱词文件生成的质量和效率。

从复杂背景噪声中找出语音的起始点和结束点，即语音端点检测技术，一直是语音信号处理中的基本问题。由于语音端点检测的重要性，人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。

基于门限的语音端点检测方法是根据语音的特点，选择合适的特征参数，然后将该特征参数与预先设定的门限值进行比较，或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。

现有的基于门限的端点检测参数主要有：

1)能量：以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是，在信噪比低的情况下，如在汽车引擎声、关门声等噪声的干扰下，这种方法的准确率很低。

2)频率：采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声，但是，对于语音和乐音的区别效果较差。

无论采用哪种音频参数，传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如，基于能量的方法在低SNR的环境中表现不好；基于信息熵的算法在音乐背景下则会失效。

通过对大量仿真试验数据的分析，发明人将时域和频域的音频特征参数结合在一起，提出了一种新的音频参数--短时能频值(见同期申请的专利)，通过计算音频文件中每一帧的短时能频值，形成一个短时能频值序列，通过寻找短时能频值上升区间或下降区间，计算上升区间或下降区间的短时能频值序列波形的平均斜率，根据波形斜率门限值的设定，就可以对语音的起点或终点进行判断，从而实现语音端点的检测。

在语音端点检测的实际判断过程中，语音、背景音乐和背景噪声的短时能频值波形之间都没有明确的界限，设定不同的门限值会得到不同的语音端点检测结果。可见，短时能频值波形斜率门限值设定的是否合适将直接影响语音端点检测的准确性。

发明内容

本发明的目的在于针对应用短时能频值序列进行语音端点检测的技术特点，提供一种短时能频值波形斜率门限的确定方法，以满足语音端点检测技术的需要。

本发明的技术方案如下：一种语音端点检测中的短时能频值波形斜率门限的确定方法，包括如下步骤：

(1)分析当前的短时能频值序列，找出其最小值，记为EZE-feature_min；找出其最大值，记为EZE-feature_max，然后计算EZE-feature_max/100；

(2)比较EZE-feature_min和EZE-feture_max/100，取其中较大者，记为EZE-feature_slope；

(3)确定短时能频值波形斜率门限值R_m＝EZE-feature_slope×2。

进一步，如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法，短时能频值序列中的第i帧的短时能频值为：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，RZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；E_b、Z_b和H_b分别表示当前背景噪声的短时能量，短时过零率和短时信息熵。

进一步，如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法，第i帧的短时能量为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

其中，N表示第i帧中所包含的音频采样数量；S_n表示第n个采样的取样值。

进一步，如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法，第i帧的短时过零率为：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

其中，N表示第i帧中所包含的音频采样数量；S_n表示第n个采样的取样值；sgn()为符号函数，定义为

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} &GreaterEqual; 0 \\ - 1, & S_{n} \leq 0 \end{matrix} .

进一步，如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法，提取第i帧短时信息熵的步骤如下：

(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，s(f_i)表示频率f的频谱能量，p_i表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} \log p_{j}

其中，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，p_i表示相应频率的出现概率，H_i表示第i帧的短时信息熵。

本发明的有益效果如下：通过本发明所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效，因此在语音端点检测过程中不需要再次进行修改，而且在绝大部分情况下基本可以满足寻找语句端点的需要，因此，可以提高语音端点的检测效率。另外，通过结合适当的人工干预，可以通过修改短时能频值斜率的门限来调整检测的结果，从而提高语句端点检测的精度。

附图说明

图1为确定短时能频值波形斜率门限的流程图。

图2为短时能频值的提取流程图。

图3为短时能频值波形的标示图。

具体实施方式

首先，对与短时能频值波形斜率门限相关的技术内容进行介绍。

(一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取

1.短时能量

能量是最经常使用的音频特征参数之一，是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段，能量值较大的对应于清音段，能量值较小的对应于浊音段。对于高信噪比的信号，可以用能量来判断有无语音。无语音信号的噪声能量较小，而有语音信号时能量会显著增大，由此可以粗略区分语音信号的起始点和中止点。另外，能量还可以用来区分声母和韵母的分界、以及连字的分界等。

在本发明中，采用“短时能量”作为主要的特征参数之一。所谓短时能量，就是先对音频信号进行分帧处理，然后对每一帧求其能量，它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

2.短时过零率

过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时，相邻时刻的采样值如果具有不同的符号，称为“过零”。单位时间的过零次数称为“过零率”，即单位时间内音频采样值符号变换的次数。同上，在本发明中将单位时间限定为一帧，每一帧的过零率就是“短时过零率”。第i帧的短时过零率定义如下：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

其中，S_n表示第n个采样的取样值；sgn()为符号函数，定义为

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} &GreaterEqual; 0 \\ - 1, & S_{n} \leq 0 \end{matrix}

过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上，因此清音的过零率较高；而浊音语音具有高频跌落的频谱，因此浊音的过零率低。利用短时过零率还可以从背景噪声中找出语音信号。在孤立词的语音识别中，必须要在一串连续的语音信号中进行适当分割，用以确定每个单词语音的信号，也即找出每个单词的开始和终止位置。用平均过零率来确定单词的起始点时，判断依据是语音开始点以前的过零率低，而开始点以后的过零率有明显的数值。在有背景噪声的情况下，一般背景噪声的平均过零率较低，而单词起始段的平均过零率急剧增大，由此可判定此单词的起始点。

3.短时信息熵

语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此，对语音信号进行频谱分析，是认识语音信号和处理语音信号的重要方法。语音信号是一种典型的非平稳信号，但是其非平稳性是由发音器官的物理运动过程而产生的，由此可以假定其频域也是短时平稳的。

信息熵是频域的重要音频参数，它反应了语音信号所传达的信息量的大小。信息熵在语音编解码中经常被使用，J.L.Shen首次将它应用在语音端点检测技术中。本发明同样对每一帧都计算其信息熵，称为短时信息熵，计算方法如下：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

由于此处的傅立叶变换都是对某一帧进行的，因此相当于对傅立叶变换加上了一个窗口函数w(n-k)。k的取值取决于要对哪一帧进行短时傅立叶变换。

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，s(f_i)表示频率f的频谱能量，p_i表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，此处取480。

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

第一个约束公式用来保证语音信号的频率范围。因为人的发音频率基本集中在250Hz到3750Hz之间，所以我们把频率限定在这个范围之内。第二个约束公式用来滤除在某些频率上持续发生的噪声。

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} \log p_{j}

试验证明，语音信号的信息熵和非语音信号的信息熵之间存在很大的差别，由此可以用来寻找语音端点的位置。在很多情况下，尤其是当背景噪声主要是机械噪声时，使用信息熵作为特征参数比单纯使用能量更加可靠。

但是，在连续不断的背景噪声或者音乐背景下，使用信息熵来进行语音端点检测会非常不可靠。因为同语音一样，连续的背景噪声或者背景音乐也含有很多信息。相对而言，在这种情况下使用能量作为特征参数反而会取得较好的效果，因为语音与背景噪声的叠加总会大过单纯的背景噪声。

(二)短时能频值的确定

在上述三个音频特征参数的基础上，提出了一个结合时域和频域的语音特征参数，称作短时能频值，记做EZE-feature。

1.短时能频值的定义

第i帧的短时能频值EZE-feature_i的定义如下：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，EZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；而E_b、Z_b和H_b则分别表示了当前背景噪声的短时能量、短时过零率和短时信息熵。

短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数，短时信息熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起，能够发挥他们各自的长处，同时又可以在一定程度上规避他们各自的缺点，从而能够有效的应对各种不同类型的背景噪声。

鉴于背景噪声和背景音乐的这种不确定性，我们不可能一直使用音频信号的前几帧作为背景噪声。而是应该在端点检测过程中，根据检测出的语音情况，自动选取新的音频帧作为背景噪声进行处理。

首先，默认音频文件最初的10ms为环境音，将这10ms的音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量E_b、短时过零率Z_b和短时信息熵H_b。自适应的语音端点检测算法对于噪声采取了一种反馈机制：当发现背景噪声可能已经发生变化时，算法要回退到噪声发生变化之前的语音帧，重新进行检测。其过程如下所述：

1)找到了某个语音起点，记为第F_h帧，当F_h与上一个语音终点F_t帧相距300ms以上时，则进行环境噪声的提取。

2)从第F_t帧开始，取接下来的10帧当作背景噪声，重新计算E_b、Z_b和H_b的值。计算方法为取算术平均，以E_b为例：

E_{b} = \frac{E_{t} + E_{t + 1} + E_{t + 2} + E_{t + 3} + E_{t + 4} + E_{t + 5} {+ E}_{t + 6} + E_{t + 7} {+ E}_{t + 8} {+ E}_{t + 9}}{10}

3)从第F_t+1帧开始，使用更新后的E_b、Z_b和H_b，重新计算每一帧的短时能频值，得到新的短时能频值序列。

4)从第F_t+1帧开始，使用新的短时能频值序列重新执行端点检测过程。

2.短时能频值的提取过程

在语音端点检测过程中，我们需要求得每一帧的短时能频值。求第i帧的短时能频值，就要用到第i帧的短时能量、短时过零率和短时信息熵。其提取过程如图2所示。

步骤1：首先对音频信号序列进行分帧处理，得到一个音频帧序列。在本发明中将10ms规定为一帧。例如，如果音频文件的采样率是48k/s，那么每帧就应该包含480个采样。

步骤2：从步骤1中得到的帧序列里的第一帧开始直到最后，计算每一帧的三个音频特征参数，得到短时能量序列、短时过零率序列和短时信息熵序列。

步骤3：从帧序列里的第一帧开始直到最后，应用步骤2里求得的三个音频特征参数序列，并应用每一帧所对应的背景噪声的相应音频特征参数，按照短时能频值的定义公式进行计算。重复此过程直到所有帧的短时能频值都计算完成。最后得到一个与帧序列相对应的短时能频值序列。

(三)基于短时能频值的语音端点检测

短时能频值充分考虑了背景噪声对语音端点检测造成的影响，应用这个参数，提出了自适应的语音端点检测算法。可以通过不断调整E_b和Z_b的值来有效应对背景噪声突发性改变所带来的不确定性。

通过仿真工具软件matlab对很多音频文件的短时能频值波形研究后发现：在语音和音乐叠加的时间段中，或者在只有语音的时间段中，短时能频值波形的变化非常剧烈：变化频率很高，而且变化的幅度非常大。而在即没有语音又没有音乐，只有背景噪声的时间段中，短时能频值基本保持很小的变化幅度，而且变化的频率比较小。另外，在只有音乐没有语音的时间段中，不管有没有背景噪声出现，由于经过了滤波器滤波后，音乐的高频部分已经被滤掉，所以虽然短时能频值变化的幅度仍然非常大，但是，其变化的频率却比有语音时要缓和的多。

因此，通过计算一个音频文件的短时能频值序列，并研究其波形，找出其中变化剧烈而且变化幅度较大的部分，就能够找到此音频文件中的语音部分，从而可以找到其语音端点。所以，寻找语音端点的重点就是找出短时能频值序列波形中斜率比较大的那些部分，并判断出它们是否是语音的端点。

1.语音起点和终点的检测流程

本方法从音频的第一帧开始检测，对短时能频值序列的波形进行分析，依次寻找每一对相匹配的语音起点和语音终点，直到检测完最后一帧。该方法主要包括以下4个步骤：

步骤1：计算音频文件中每一帧的短时能频值，形成一个短时能频值序列

X₁X₂X₃X₄.....X_n

在算法开始时首先要计算所有音频帧的短时能频值，作为初始值。但是并不是所有初始值序列中的值都会被使用到。随着分析的进行，在分析到后面的帧的时候可能会发现背景噪声发生了变化，此时背景噪声的音频特征参数E_b、Z_b等的值就需要进行调整。从而短时能频值序列也就相应的需要进行调整。从发现背景噪声改变的那一帧开始，之前的短时能频值不用调整，之后的都需要重新计算。重新计算得到的短时能频值序列也仍然只是暂时的，直到分析完最后一帧之前，短时能频值序列有可能不断被修改。

步骤2：寻找语音的起点

1)假设从第t帧(对应短时能频值X_t)开始寻找，检测第t帧之后每一帧的短时能频值，直到找到一帧j(对应短时能频值X_j)，使得

X_t≤X_t+1≤X_t+2≤......≤X_j且X_j+1≥X_j+2

即寻找从第t帧开始的短时能频值序列的上升区间，记为A_t。

2)计算刚找到的上升区间A_t的短时能频值序列波形的平均斜率

R_{t} = \frac{X_{j} - X_{t}}{j - t}

在上升区间A_t中，由于人语音的特点，其短时能频值序列波形不可能平稳上升，其斜率可能会不断变化，时大时小。因此虽然在区间A_t中短时能频值波形一直保持上升的趋势，却只能计算其平均斜率。

3)设定一个门限值R_m，如果有R_t≥R_m，即斜率R_t非常的陡峭，则认为上升区间A_t属于语音部分。此时有两种情况，一种是如果第t帧之前的区间已经被认为是语音区间了，那就说明已经找到了一个语音起点，现在需要寻找与之相对应的语音终点，因此令t＝j+1，进入步骤3。另一种情况是第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，进入步骤3去寻找与之相匹配的语音终点。

反之，如果R_t＜R_m，即斜率R_t比较平缓。此时也有两种可能，一种是R_t远远小于R_m，主要是因为X_t、X_j等短时能频值都比较小，说明上升区间A_t属于背景噪声。另一种情况是R_t的值比较大，仅略小于R_m，这说明上升区间A_t很有可能属于背景音乐。上述两种情况之间没有严格的界限，就是说无法确定非语音区间到底属于噪声还是背景音乐，不过在这两种情况下，都认为区间A_t不是语音，因此令t＝j+1，循环执行步骤2。

步骤3：寻找语音终点

X_t≥X_t+1≥X_t+2≥......≥X_j且X_j+1≤X_j+2

即寻找从第t帧开始的短时能频值序列的下降区间，记为D_t。

2)计算刚找到的下降区间D_t的短时能频值序列波形的平均斜率

R_{t} = \frac{X_{t} - X_{j}}{j - t}

与步骤2的情况类似，在下降区间D_t中，由于人语音的特点，其短时能频值序列波形也不可能平稳下降。因此虽然在下降区间D_t中短时能频值波形一直保持下降的趋势，也只能计算其平均斜率。对下降区间D_t而言，其平均斜率R_t应该是负值，但为了方便起见，使用X_t-X_j来使R_t变成正值。

3)与步骤2类似，设定一个门限值R_m，如果有R_t≥R_m，即斜率R_t非常的陡峭，则认为下降区间D_t属于语音部分。此时有两种情况，一种是如果第t帧之前已经找到了一个语音起点，则现在找到了与之相对应的语音终点，因此将第t帧记为语音的终点，然后令t＝j+1，进入步骤2，再去寻找下一个语音起点。另一种情况是第t帧之前还没有找到一个单独的语音起点，即找到了一个不对应任何语音起点的下降区间，则下降区间D_t为一段单独的语音区间。此时将第t帧记为语音起点，将第j帧记为语音终点。然后令t＝t+1，回到步骤2，继续寻找下一个语音起点。

反之，如果R_t＜R_m，即斜率R_t比较平缓。同步骤2中所论述的一样，认为区间D_t属于背景噪声或者背景音乐，此时令t＝j+1，循环执行步骤2。

步骤4：按照步骤2和步骤3所述循环检测，直到检测到最后一帧

如果最后检测到了一个语音起点，而没有与之相对应的语音终点，则认为在音频文件的最后，语音突然中断。这可能是由于音频文件在压制过程中丢失了某些内容或者其它原因造成的。

基于以上技术的介绍，现提出语音端点检测中的短时能频值波形斜率门限的确定方法。

通过使用matlab进行了大量仿真试验，观察短时能频值序列的波形后发现：在一般的新闻访谈类等背景音乐较少的音频节目中，短时能频值的极大值和极小值相比一般相差80倍左右，如图3所示。

图3是一段访谈类节目的短时能频值波形片段。从中可以看到，短时能频值的极大值EZE-feature_a出现在第1650ms、第1850ms、2100ms以及2260ms左右的时间段。而极小值EZE-feature_i则出现在第1750ms、第1910ms、第1990ms以及第2210ms左右的时间段。对比EZE-feature_a和EZE-feature_i可以发现，两者相差大概80倍左右。

经过分析，如图1所示，本发明提出以下方法来确定短时能频值波形斜率的门限：

步骤1：分析短时能频值序列，找出其最小值，记为EZE-feature_min；找出其最大值，记为EZE-feature_max，然后计算EZE-feature_max/100。

纵观整个短时能频值波形可以发现，其最大值EZE-feature_max比那些极大值EZE-feature_a(即波形中每个波的峰值)要稍微大一些。而短时能频值的最小值EZE-feature_min和极小值EZE-feature_i(即波形中比较平缓的部分)则相差不大，因为两者都是非常小的值，因此其差别可以忽略不计。因此采用最大值EZE-feature_max的1/100与最小值EZE-feature_min进行比较。

步骤2：比较EZE-feature_min和EZE-feature_max/100，取其中较大者，记为EZE-feature_slope。

步骤3：短时能频值斜率的门限定为：R_m＝EZE-feature_slope×2。

使用上述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效，因此在语音端点检测过程中不需要再次进行修改。在没有或者较少出现背景音乐的情况下，使用该方法基本可以满足寻找语句端点的需要，在寻找词语端点时的精确性稍差。但是当背景音乐在音频中持续出现时，短时能频值序列的波形将变得非常复杂，此时使用该方法就得不到满足要求的斜率门限值，因此需要人工设定。不论在哪种情况下，由人手工设定和调整短时能频值斜率的门限，都将大大提高语音端点检测的准确性。

如果发现语音端点检测的结果有较大的误差，无法满足需求，则可以通过修改短时能频值斜率的门限来调整检测的结果。

如果发现检测得到的语音端点中，语音起点普遍提前，而语音终点普遍延迟出现，则说明有可能是斜率门限的值选取的过小，导致一部分背景噪声也被认为是语音。此时只需将斜率门限的值适当调大，即可得到令人满意的结果。

相反，如果发现语音起点普遍延迟，而语音终点普遍提前出现，则说明有可能是斜率门限的值选取的过大，导致一部分语音也被认为是背景噪声。此时则需要将斜率门限的值适当调小。

必须注意，由于背景噪声或者背景音乐的存在，通过本发明所述语音端点检测方法得到的语音端点不可能完全精确。但是，由于人对于微小时间误差的感知是有极限的，因此在50ms之内的语音端点检测误差可以接受。通过选取适当的短时能频值斜率门限，可以将语音端点检测的误差控制在50ms以内。

另外，语句端点的时间间隔门限值也可以由人工进行调整。不同的人说话有不同的语速，因此语句间也有不同的时间间隔，人工对语句端点时间间隔进行调整，可以提高语句端点检测的精度。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1. 一种语音端点检测中的短时能频值波形斜率门限的确定方法，包括如下步骤：

(2)比较EZE-feature_min和EZE-feature_max/100，取其中较大者，记为EZE-feature_slope；

(3)确定短时能频值波形斜率门限值R_m＝EZE-feature_slope×2。

2. 如权利要求1所述的语音端点检测中的短时能频值波形斜率门限的确定方法，其特征在于：短时能频值序列中的第i帧的短时能频值为：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，EZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；E_b、Z_b和H_b分别表示当前背景噪声的短时能量，短时过零率和短时信息熵。

3. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法，其特征在于：第i帧的短时能量为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

4. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法，其特征在于：第i帧的短时过零率为：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} &GreaterEqual; 0 \\ - 1, & S_{n} \leq 0 \end{matrix} .

5. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法，其特征在于：提取第i帧短时信息熵的步骤如下：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} \log p_{j}