CN101625857A

CN101625857A - 一种自适应的语音端点检测方法

Info

Publication number: CN101625857A
Application number: CN200810116450A
Authority: CN
Inventors: 李祺; 马华东; 郑侃彦; 韩忠涛; 张婷
Original assignee: China Digital Video Beijing Ltd
Current assignee: China Digital Video Beijing Ltd
Priority date: 2008-07-10
Filing date: 2008-07-10
Publication date: 2010-01-13
Anticipated expiration: 2028-07-10
Also published as: CN101625857B

Abstract

本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种自适应的语音端点监测方法。该方法将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；根据音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列；从第一帧数据开始，分析短时能频值序列，并找出一对语音起点和终点；分析背景噪声，如果发现背景噪声发生改变，则重新计算背景噪声的音频特征参数，并更新短时能频值序列；重复此过程直到检测结束。本发明可以在背景噪声经常发生变化的情况下，对连续语音进行语音端点检测，从而提高在复杂噪声背景下的语音端点检测效率。

Description

一种自适应的语音端点检测方法

技术领域

本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种自适应的语音端点监测方法。

背景技术

语音端点检测技术是语音技术研究的一个新的领域，其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿，这种字幕文稿是指在制作电视节目之前，事先写好的一个文本文件，记录着节目的标题、主持人要说的话，以及被采访人所讲的话等内容。在制作电视节目时，编辑人员把音、视频素材添加到非线性编辑软件的故事板上，然后按照节目的主旨，对其进行编辑。编辑操作一般包括对素材位置的修改，添加一些特技，添加字幕等等。添加字幕时，一般是先在字幕文稿中选择多段文字(每一段就是一句话)，然后以这些文字生成一个新的字幕文件，将这个文件拖上非线性编辑软件的轨道，此时字幕中的每一句话就会按顺序播出，但是往往会出现“声画不同步”的现象，即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音，一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间，影响唱词文件生成的质量和效率。

从复杂背景噪声中找出语音的起始点和结束点，即语音端点检测技术，一直是语音信号处理中的基本问题。由于语音端点检测的重要性，人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。

基于模型的方法可以使用多维的特征如Mel倒普等，但是这种方法非常依赖于建立模型并进行数据训练，计算量非常大；因为采用的特征维数较多，对环境进行自适应就需要大量的数据，因此实现起来有相当的难度。

基于门限的语音端点检测方法则是根据语音的特点，选择合适的特征参数，然后将该特征参数与预先设定的门限值进行比较，或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。在传统的基于门限方法中，基本上都使用了短时能量、短时过零率和短时信息熵等语音参数，分别判断它们是否超过一个阀值，然后再通过“与”或者“或”运算来做出是否为语音起点或终点的判断。

现有的基于门限的端点检测方法中，一般会首先选取音频最初的10-20ms作为背景噪声进行分析，并通过分析来设定两个门限值：一个用于确定语音起点，另一个用于确定语音的终点。当发现所观察的参数值大于起点门限，则将该点标识为语音的起点。语音起点确定后，当所观察的参数值小于终点门限时，将该点标识语音终点。这种方法具有一定的限制：首先，这种方法要求在整个语音端点检测的过程中，背景噪声不发生大的变化；其次，由于不同的说话人所对应的特征门限不同，这种检测算法的门限值很难确定。

对于基于门限的语音端点检测方法，影响检测结果的因素主要有两个：1.特征参数的提取；2.门限值的确定以及调整。

现有的基于门限的端点检测参数主要有：

1)能量：以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是，在信噪比低的情况下，如在汽车引擎声、关门声等噪声的干扰下，这种方法的准确率很低。

2)频率：采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声，但是，对于语音和乐音的区别效果较差。

传统的基于门限的语音端点检测方法主要存在以下几点不足：

首先，无论采用哪种音频参数，传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如，基于能量的方法在低SNR的环境中表现不好；基于信息熵的算法在音乐背景下则会失效。

另外，传统的语音端点检测方法主要应用在语音识别、语音拨号、指令控制以及嵌入式系统中。在这些应用环境中，语音只会持续很短一段时间，一般是几秒钟。而且背景噪声在端点检测过程中基本上不发生大的变化，因此这些方法一般取音频的前5帧来分析噪音。但是如果语音持续较长的一段时间，并且背景噪声在检测过程中频繁变化，那么上述方法并不能很好的工作。

最后，传统的语音端点检测方法着重于从背景噪声中精确地提取出单个的字(词)的语音端点。与之相比，自动唱词生成系统对精度的要求相对较低，而侧重于在连续的语音中，进行连续的语音端点检测，并且最终检测出语句的端点。

因此，有必要引入一种音频参数，能够在多种噪声条件下保证语音端点检测的准确性。并提出一种新的语音端点检测方法，能够应对突然变化的背景噪声，并能够在复杂的背景噪声环境下，对连续语音进行端点检测，并最终检测出语句的端点。

发明内容

本发明的目的在于针对自动字幕生成系统的特点以及现有语音端点检测方法的缺陷，提供一种自适应的语音端点检测方法，可以在背景噪声经常发生变化的情况下，对连续语音进行语音端点检测，从而提高在复杂噪声背景下的语音端点检测效率。

本发明的技术方案如下：一种自适应的语音端点检测方法，包括如下步骤：

(1)音频数据输入后，解析音频文件并提取数字采样值，对获取到的音频采样序列进行带通滤波；

(2)将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；

(3)根据上述音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列；

(4)从第一帧数据开始，分析短时能频值序列，并找出一对语音起点和终点；

(5)分析背景噪声，如果发现背景噪声发生改变，则重新计算背景噪声的音频特征参数，并更新短时能频值序列；

(6)返回步骤(4)，继续寻找下一对语音起点和终点，重复此过程直到检测结束，并输出语音端点检测结果。

进一步，在上述自适应的语音端点检测方法中，当步骤(6)输出语音端点检测结果后，遍历这个语音端点序列，依次寻找一个语音终点F_e，以及下一个语音起点F_e，如果F_e和F_b相距超过规定的时间间隔，则确定F_e和F_b之间为语句的间隔，将F_e和F_b标记为语句端点，重复此过程确定所有的语句端点。上述判断语句端点所规定的时间间隔为100ms。

进一步，如上所述的自适应的语音端点检测方法，在步骤(1)中，所述的带通滤波的带宽为400Hz～3500Hz。

进一步，如上所述的自适应的语音端点检测方法，在步骤(2)中，将音频采样序列分成10ms长度的帧。

进一步，如上所述的自适应的语音端点检测方法，在步骤(2)中，所提取的第i帧的短时能量为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

其中，N表示第i帧中所包含的音频采样数量；S_n表示第n个采样的取样值。

进一步，如上所述的自适应的语音端点检测方法，在步骤(2)中，所提取的第i帧的短时过零率为：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

其中，N表示第i帧中所包含的音频采样数量；S_n表示第n个采样的取样值；sgn()为符号函数，定义为

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} &GreaterEqual; 0 \\ - 1, & S_{n} \leq 0 \end{matrix} .

进一步，如上所述的自适应的语音端点检测方法，在步骤(2)中，提取短时信息熵的步骤如下：

(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，s(f_i)表示频率f的频谱能量，p_i表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} \log p_{j}

其中，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，p_i表示相应频率的出现概率，H_i表示第i帧的短时信息熵。

进一步，如上所述的自适应的语音端点检测方法，在步骤(3)中，第i帧的短时能频值为：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，EZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；E_b、Z_b和H_b分别表示当前背景噪声的短时能量、短时过零率和短时信息熵。

更进一步，在步骤(3)中，对每一帧的短时能频值进行平滑处理，处理中对短时能量、短时过零率和短时信息熵三个音频特征参数分别进行平滑，通常采用5帧平滑的方式，对于某一帧F_n，设它的某个音频特征参数是X_n，找到它左右相邻的4帧F_n-2、F_n-1、F_n+1、F_n+2，并找出它们相应的音频特征参数X_n-2、X_n-1、X_n+1、X_n+2，则平滑后得到的音频特征参数X_n-smoothed为：

X_{n - smoothed} = \frac{X_{n - 2} + X_{n - 1} + 2 \times X_{n} + X_{n + 1} + X_{n + 2}}{6}

对于第一帧和最后一帧采用3帧平滑的方式，平滑后得到的音频特征参数分别为：

X_{1} = \frac{2 X_{1} + X_{2} + X_{3}}{4},

X_{N} = \frac{X_{N - 2} + X_{N - 1} + 2 X_{N}}{4};

对于第二帧和倒数第二帧采用4帧平滑的方式，平滑后得到的音频特征参数分别为：

X_{2} = \frac{X_{1} + 2 X_{2} + X_{3} + X_{4}}{5},

X_{N - 1} = \frac{X_{N - 3} + X_{N - 2} + 2 X_{N - 1} + X_{N}}{5} .

进一步，如上所述的自适应的语音端点检测方法，在步骤(4)中，寻找语音起点的步骤如下：

(a)从第t帧开始寻找，检测第t帧之后每一帧的短时能频值，直至找到一帧j，使得

X_t≤X_t+1≤X_t+2≤......≤X_j且X_j+1≥X_j+2

即寻找从第t帧开始的短时能频值序列的上升区间，记为A_t；

(b)计算所找到的上升区间A_t的短时能频值序列波形的平均斜率R_t：

R_{t} = \frac{X_{j} - X_{t}}{j - t}

其中，X_t为第t帧的短时能频值，X_j为第j帧的短时能频值；

(c)设定一个门限值R_m来确定语音起始点，如果R_t≥R_m，且第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，去寻找与之相匹配的语音终点；如果R_t＜R_m，则令t＝j+1，重复步骤(a)的操作。

更进一步，如上所述的自适应的语音端点检测方法，在步骤(4)中，寻找语音终点的步骤如下：

(I)从第t帧开始寻找，检测第t帧之后每一帧的短时能频值，直至找到一帧j，使得

X_t≥X_t+1≥X_t+2≥......≥X_j且X_j+1≤X_j+2

即寻找从第t帧开始的短时能频值序列的下降区间，记为D_t；

(II)计算所找到的下降区间D_t的短时能频值序列波形的平均斜率R_t：

R_{t} = \frac{X_{t} - X_{j}}{j - t}

其中，X_t为第t帧的短时能频值，X_j为第j帧的短时能频值；

(III)通过设定的门限值R_m来判断语音信号的终点，如果R_t≥R_m，在已经找到一个语音起点的情况下，将第t帧记为与前一个语音起点相对应的语音终点；如果R_t＜R_m，则令t＝j+1，重复步骤(I)的操作。

更进一步，在上述寻找语音终点的过程中，步骤(III)中如果R_t≥R_m，且第t帧之前还没有找到一个单独的语音起点，即找到了一个不对应任何语音起点的下降区间D_t，则该下降区间D_t为一段单独的语音区间，此时将第t帧记为语音起点，将第j帧记为语音终点。

更进一步，如上所述的自适应的语音端点检测方法，在步骤(4)中，寻找语音起点和终点的过程中，如果一个不属于语音部分的下降区间D₁位于两个属于语音部分的上升区间A₁、A₂之间，或者一个不属于语音部分的上升区间A₃位于两个属于语音部分的下降区间D₂、D₃之间，则将下降区间D₁和上升区间A₃均视为属于语音部分。

进一步，如上所述的自适应的语音端点检测方法，在步骤(4)中，寻找一对语音起点和终点时，确定门限值R_m的步骤如下：

(i)分析当前的短时能频值序列，找出其最小值，记为EZE-feature_min；找出其最大值，记为EZE-feature_max，然后计算EZE-feature_max/100；

(ii)比较EZE-feature_min和EZE-feature_max/100，取其中较大者，记为EZE-feature_slope；

(iii)确定门限值R_m＝EZE-feature_slope×2。

进一步，如上所述的自适应的语音端点检测方法，在步骤(5)中，重新计算背景噪声的音频特征参数，并更新短时能频值序列的步骤如下：

(a)针对当前找到的语音起点，记为第F_h帧，判断F_h帧与上一个语音终点所在的F_t帧相距的时间间隔，当在300ms以上时，进行环境噪声的提取；

(b)从第F_t帧开始，取接下来的10帧当作背景噪声，重新计算背景噪声的短时能量E_b，短时过零率Z_b和短时信息熵H_b的值，计算方法采用取10帧中的算术平均值；

(c)从第F_t+1帧开始，使用更新后的背景噪声的短时能量E_b，短时过零率Z_b和短时信息熵H_b，重新计算每一帧的短时能频值，得到新的短时能频值序列。

本发明的有益效果如下：本发明所提供的自适应的语音端点检测方法可以根据发音人语音的停顿，准确的找出每一句字幕所对应的入点和出点的时间，节目制作人员只需要将文件拖上非线性编辑软件的轨道即可，大大节省了唱词文件生成过程中的人力和物力资源。另外，本发明综合考虑了语音的时域和频域特征，能够通过对背景噪声的实时分析来应对突然变化的背景噪声，并能够在复杂的背景噪声环境下，对连续语音进行端点检测，并最终检测出语句的端点。与传统方法相比，本发明的语音端点检测效率更高、质量更好。

附图说明

图1为本发明语音端点检测的总体流程图。

图2为自动字幕生成系统的示意图。

图3为短时能频值的提取流程图。

图4为短时能频值的波形图。

图5为短时能频值的平滑处理流程图。

图6为短时能频值平滑处理前后的波形对比图。

图7为检测语音起点和终点的流程图。

图8为语音、音乐和噪声波形对比图。

图9为短时能频值波形特殊情况示意图。

图10为寻找语句端点的流程图。

图11为噪声反馈的对比图。

图12短时能频值波形的标示图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的描述。

本发明所提供的自适应的语音端点检测方法应用于自动字幕生成系统中，自动字幕生成系统接受用户输入一个采用PCM音频压缩格式、采样频率48k、采样位数16位、声道数目2(立体声)、文件格式为wav的音频文件，以及相应的字幕文稿；输出为一个srt格式的字幕文件，内容是字幕文稿中的每一句话及其所对应的开始时间点和结束时间点。整个系统结构如图2所示。

本发明所提供的语音端点检测流程如图1所示，可以根据背景噪声的变化对语音参数进行及时的调整，从而提高在复杂噪声背景下的语音端点检测效率。其具体步骤如下：

(1)音频数据输入后，采用常规方法解析音频文件并提取数字采样值，模拟到数字的转换过程分为采样和量化，采样是把连续的时间离散化，量化是把采样幅度的连续取值离散化，采样波形能够表示为：

s(n)＝s_a(nT)，-∞＜n＜∞

式中S_a是模拟波形，n是整数，T是采样周期或者说是两个相邻样品之间的时间差，它是由输入信号的带宽或它的最大频率确定；

对获取到的音频采样序列进行带通滤波，带宽为400hz～3500hz，其主要目的是让信号在规定频率范围内通过，把人发音的频段以外的噪声或者音乐滤除，此步骤可以大大降低背景音乐对语音端点检测的影响；

(2)对音频采样序列进行窗口处理，将其分成10ms长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；

(5)分析背景噪声(包括背景音乐)，如果发现背景噪声发生改变，则重新计算背景噪声的音频特征参数，并更新短时能频值序列；

(6)返回步骤(4)，继续寻找下一对语音起点和终点，重复此过程直到检测结束，并输出语音端点检测结果；

(7)遍历这个语音端点序列，依次寻找一个语音终点F_e，以及下一个语音起点F_b，如果F_e和F_b相距超过规定的时间间隔100ms，则确定F_e和F_b之间为语句的间隔，将F_e和F_b标记为语句端点，重复此过程确定所有的语句端点。

下面对上述各步骤中所涉及到的技术解决方案进行详细的描述。

(一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取

1.短时能量

能量是最经常使用的音频特征参数之一，是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段，能量值较大的对应于清音段，能量值较小的对应于浊音段。对于高信噪比的信号，可以用能量来判断有无语音。无语音信号的噪声能量较小，而有语音信号时能量会显著增大，由此可以粗略区分语音信号的起始点和中止点。另外，能量还可以用来区分声母和韵母的分界、以及连字的分界等。

在本发明中，采用“短时能量”作为主要的特征参数之一。所谓短时能量，就是先对音频信号进行分帧处理，然后对每一帧求其能量，它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

2.短时过零率

过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时，相邻时刻的采样值如果具有不同的符号，称为“过零”。单位时间的过零次数称为“过零率”，即单位时间内音频采样值符号变换的次数。同上，在本发明中将单位时间限定为一帧，每一帧的过零率就是“短时过零率”。第i帧的短时过零率定义如下：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

其中，S_n表示第n个采样的取样值；sgn()为符号函数，定义为

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} &GreaterEqual; 0 \\ - 1, & S_{n} \leq 0 \end{matrix}

过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上，因此清音的过零率较高；而浊音语音具有高频跌落的频谱，因此浊音的过零率低。利用短时过零率还可以从背景噪声中找出语音信号。在孤立词的语音识别中，必须要在一串连续的语音信号中进行适当分割，用以确定每个单词语音的信号，也即找出每个单词的开始和终止位置。用平均过零率来确定单词的起始点时，判断依据是语音开始点以前的过零率低，而开始点以后的过零率有明显的数值。在有背景噪声的情况下，一般背景噪声的平均过零率较低，而单词起始段的平均过零率急剧增大，由此可判定此单词的起始点。

3.短时信息熵

语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此，对语音信号进行频谱分析，是认识语音信号和处理语音信号的重要方法。语音信号是一种典型的非平稳信号，但是其非平稳性是由发音器官的物理运动过程而产生的，由此可以假定其频域也是短时平稳的。

信息熵是频域的重要音频参数，它反应了语音信号所传达的信息量的大小。信息熵在语音编解码中经常被使用，J.L.Shen首次将它应用在语音端点检测技术中。本发明同样对每一帧都计算其信息熵，称为短时信息熵，计算方法如下：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

由于此处的傅立叶变换都是对某一帧进行的，因此相当于对傅立叶变换加上了一个窗口函数w(n-k)。k的取值取决于要对哪一帧进行短时傅立叶变换。

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，s(f_i)表示频率f的频谱能量，p_i表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，此处取480。

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

第一个约束公式用来保证语音信号的频率范围。因为人的发音频率基本集中在250Hz到3750Hz之间，所以我们把频率限定在这个范围之内。第二个约束公式用来滤除在某些频率上持续发生的噪声。

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} \log p_{j}

试验证明，语音信号的信息熵和非语音信号的信息熵之间存在很大的差别，由此可以用来寻找语音端点的位置。在很多情况下，尤其是当背景噪声主要是机械噪声时，使用信息熵作为特征参数比单纯使用能量更加可靠。

但是，在连续不断的背景噪声或者音乐背景下，使用信息熵来进行语音端点检测会非常不可靠。因为同语音一样，连续的背景噪声或者背景音乐也含有很多信息。相对而言，在这种情况下使用能量作为特征参数反而会取得较好的效果，因为语音与背景噪声的叠加总会大过单纯的背景噪声。

(二)短时能频值的确定

在上述三个音频特征参数的基础上，本发明提出了一个结合时域和频域的语音特征参数，称作短时能频值，记做EZE-feature。

1.短时能频值的定义

第i帧的短时能频值EZE-feature_i的定义如下：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，EZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；而E_b、Z_b和H_b则分别表示了当前背景噪声的短时能量、短时过零率和短时信息熵。典型的短时能频值波形如图4所示，截取自一段新闻的短时能频值波形。

短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数，短时信息熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避它们各自的缺点，从而能够有效的应对各种不同类型的背景噪声。

2.短时能频值的提取过程

在语音端点检测过程中，我们需要求得每一帧的短时能频值。求第i帧的短时能频值，就要用到第i帧的短时能量、短时过零率和短时信息熵。其提取过程如图3所示。

步骤1：首先对音频信号序列进行分帧处理，得到一个音频帧序列。在本发明中将10ms规定为一帧。例如，如果音频文件的采样率是48k/s，那么每帧就应该包含480个采样。

步骤2：从步骤1中得到的帧序列里的第一帧开始直到最后，计算每一帧的三个音频特征参数，得到短时能量序列、短时过零率序列和短时信息熵序列。

步骤3：从帧序列里的第一帧开始直到最后，应用步骤2里求得的三个音频特征参数序列，并应用每一帧所对应的背景噪声的相应音频特征参数，按照短时能频值的定义公式进行计算。重复此过程直到所有帧的短时能频值都计算完成。最后得到一个与帧序列相对应的短时能频值序列。

3.短时能频值的平滑处理

人的语音在字(词)之间具有一定的相关性，字(词)之间不会产生非常突兀的变化。因此，可以对上述三个语音特征参数进行平滑处理。一方面，由于噪声的影响，音频信号中可能出现突兀的毛刺现象，主要表现为在一系列平缓的音频波形中突然出现剧烈震动的单个波(正常情况为一系列的震动波)。使用平滑处理可以有效地去除一些由噪声引起的毛刺现象。另一方面，也对语音参数的有效性做出一定的优化。语音信号是连续的，语音前后之间具有一定的相关性，将语音信号分割成一系列间断帧的处理方式破坏了这种相关性，而平滑处理则可以在一定程度上弥补由于分帧处理带来的影响。

平滑处理可在时域上进行，也可以在频域上进行。本发明对音频信号主要采取时域平滑的处理方式。

因为本发明中需要用到3个音频特征参数：短时能量、短时过零率和短时信息熵都是直接使用音频信号的取样值求得的，因此在进行平滑处理时也要对3个特征参数分别进行平滑。

对于某一帧F_n进行平滑处理，设它的某个音频特征参数是X_n。采用5帧平滑的方式，找到它左右相邻的4帧F_n-2、F_n-1、F_n+1、F_n+2，并找出它们相应的音频特征参数X_n-2、X_n-1、X_n+1、X_n+2。则平滑后得到的音频特征参数X_n-smoothed为：

X_{n - smoothed} = \frac{X_{n - 2} + X_{n - 1} + 2 \times X_{n} + X_{n + 1} + X_{n + 2}}{6}

整个平滑处理的过程如图5所示。在进行语音端点检测之前，我们需要对音频信号中的每一帧都按照上述方法进行平滑处理。

对于音频信号中的开始两帧以及最后两帧，无法进行5帧平滑。在音频文件中，一般在开始的两帧和最后的两帧中很少有语音出现，因此对这些边界帧进行异常处理并不会对语音端点检测的准确度产生大的影响。从而可以相应的采取4帧或3帧进行平滑处理。

对第一帧，我们可以同时使用第1、2、3帧来进行3帧平滑；而对于第二帧，我们可以使用第1、2、3和4帧来进行4帧平滑。类似的，对于最后两帧，我们可以使用相同的方法进行3帧或4帧平滑处理。

X_{1} = \frac{2 X_{1} + X_{2} + X_{3}}{4},

X_{N} = \frac{X_{N - 2} + X_{N - 1} + 2 X_{N}}{4};

X_{2} = \frac{X_{1} + 2 X_{2} + X_{3} + X_{4}}{5},

X_{N - 1} = \frac{X_{N - 3} + X_{N - 2} + 2 X_{N - 1} + X_{N}}{5} .

图6显示了一段新闻的短时能频值波形片断，可以看出在平滑处理后，毛刺现象明显减少，但是波形的大体轮廓保持不变。其中a图为未平滑的波形，b图为平滑后的波形。

(三)基于短时能频值的语音端点检测

短时能频值充分考虑了背景噪声对语音端点检测造成的影响，应用这个参数，本发明文提出了自适应的语音端点检测算法。可以通过不断调整E_b和Z_b的值来有效应对背景噪声突发性改变所带来的不确定性。

通过仿真工具软件matlab对很多音频文件的短时能频值波形研究后发现：在语音和音乐叠加的时间段中，或者在只有语音的时间段中，短时能频值波形的变化非常剧烈，变化频率很高，而且变化的幅度非常大。而在既没有语音又没有音乐，只有背景噪声的时间段中，短时能频值基本保持很小的变化幅度，而且变化的频率比较小。另外，在只有音乐没有语音的时间段中，不管有没有背景噪声出现，由于经过了滤波器滤波后，音乐的高频部分已经被滤掉，所以虽然短时能频值变化的幅度仍然非常大，但是，其变化的频率却比有语音时要缓和的多。语音、音乐和噪声波形对比如图8所示。

图8为一段新闻联播节目的短时能频值波形片断，从第3400帧到第3540帧左右属于背景音乐的短时能频值波形，从第3820帧到第4030帧左右属于语音的短时能频值波形，而从4230帧到4280帧则属于一段背景噪声的短时能频值波形。

因此，通过计算一个音频文件的短时能频值序列，并研究其波形，找出其中变化剧烈而且变化幅度较大的部分，就能够找到此音频文件中的语音部分，从而可以找到其语音端点。所以，寻找语音端点的重点就是找出短时能频值序列波形中斜率比较大的那些部分，并判断出它们是否是语音的端点。

1.语音起点和终点的检测流程

本方法从音频的第一帧开始检测，对短时能频值序列的波形进行分析，依次寻找每一对相匹配的语音起点和语音终点，直到检测完最后一帧。如图7所示，该方法主要包括以下4个步骤：

步骤1：计算音频文件中每一帧的短时能频值，形成一个短时能频值序列

X₁X₂X₃X₄.......X_n

在算法开始时首先要计算所有音频帧的短时能频值，作为初始值。但是并不是所有初始值序列中的值都会被使用到。随着分析的进行，在分析到后面的帧的时候可能会发现背景噪声发生了变化，此时背景噪声的音频特征参数E_b、Z_b等的值就需要进行调整。从而短时能频值序列也就相应的需要进行调整。从发现背景噪声改变的那一帧开始，之前的短时能频值不用调整，之后的都需要重新计算。重新计算得到的短时能频值序列也仍然只是暂时的，直到分析完最后一帧之前，短时能频值序列有可能不断被修改。

步骤2：寻找语音的起点

1)假设从第t帧(对应短时能频值X_t)开始寻找，检测第t帧之后每一帧的短时能频值，直到找到一帧j(对应短时能频值X_j)，使得

X_t≤X_t+1≤X_t+2≤......≤X_j且X_j+1≥X_j+2

即寻找从第t帧开始的短时能频值序列的上升区间，记为A_t。

2)计算刚找到的上升区间A_t的短时能频值序列波形的平均斜率

R_{t} = \frac{X_{j} - X_{t}}{j - t}

在上升区间A_t中，由于人语音的特点，其短时能频值序列波形不可能平稳上升，其斜率可能会不断变化，时大时小。因此虽然在区间A_t中短时能频值波形一直保持上升的趋势，却只能计算其平均斜率。

3)设定一个门限值R_m，如果有R_t≥R_m，即斜率R_t非常的陡峭，则认为上升区间A_t属于语音部分。此时有两种情况，一种是如果第t帧之前的区间已经被认为是语音区间了，那就说明已经找到了一个语音起点，现在需要寻找与之相对应的语音终点，因此令t＝j+1，进入步骤3。另一种情况是第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，进入步骤3去寻找与之相匹配的语音终点。

反之，如果R_t＜R_m，即斜率R_t比较平缓。此时也有两种可能，一种是R_t远远小于R_m，主要是因为X_t、X_j等短时能频值都比较小，说明上升区间A_t属于背景噪声。另一种情况是R_t的值比较大，仅略小于R_m，这说明上升区间A_t很有可能属于背景音乐。上述两种情况之间没有严格的界限，就是说无法确定非语音区间到底属于噪声还是背景音乐，不过在这两种情况下，都认为区间A_t不是语音，因此令t＝j+1，循环执行步骤2。

需要特别指出的是，斜率门限值R_m也是人工设定的值，因此在实际判断过程语音、背景音乐和背景噪声的短时能频值波形之间都没有明确的界限，设定不同的门限值会得到不同的语音端点检测结果。由此可见，门限值设定得是否合适将直接影响语音端点检测的准确性。下文会提供一种分析整个短时能频值序列以设定斜率门限值的算法。但是如果根据情况进行人工设定的话，会使检测的结果更加准确。

步骤3：寻找语音终点

X_t≥X_t+1≥X_t+2≥......≥X_j且X_j+1≤X_j+2

即寻找从第t帧开始的短时能频值序列的下降区间，记为D_t。

2)计算刚找到的下降区间D_t的短时能频值序列波形的平均斜率

R_{t} = \frac{X_{t} - X_{j}}{j - t}

与步骤2的情况类似，在下降区间D_t中，由于人语音的特点，其短时能频值序列波形也不可能平稳下降。因此虽然在下降区间D_t中短时能频值波形一直保持下降的趋势，也只能计算其平均斜率。对下降区间D_t而言，其平均斜率R_t应该是负值，但为了方便起见，使用X_t-X_j来使R_t变成正值。

3)与步骤2类似，通过设定的门限值R_m进行判断，如果有R_t≥R_m，即斜率R_t非常的陡峭，则认为下降区间D_t属于语音部分。此时有两种情况，一种是如果第t帧之前已经找到了一个语音起点，则现在找到了与之相对应的语音终点，因此将第t帧记为语音的终点，然后令t＝j+1，进入步骤2，再去寻找下一个语音起点。另一种情况是第t帧之前还没有找到一个单独的语音起点，即找到了一个不对应任何语音起点的下降区间，则下降区间D_t为一段单独的语音区间。此时将第t帧记为语音起点，将第j帧记为语音终点。然后令t＝t+1，回到步骤2，继续寻找下一个语音起点。

反之，如果R_t＜R_m，即斜率R_t比较平缓。同步骤2中所论述的一样，认为区间D_t属于背景噪声或者背景音乐，此时令t＝j+1，循环执行步骤2。

关于斜率门限值R_m对于检测结果的影响，步骤2中已经详细论述，在此不再重复。

步骤4：按照步骤2和步骤3所述循环检测，直到检测到最后一帧

如果最后检测到了一个语音起点，而没有与之相对应的语音终点，则认为在音频文件的最后，语音突然中断。这可能是由于音频文件在压制过程中丢失了某些内容或者其它原因造成的。

2.检测过程中的特殊情况分析

在分析短时能频值序列时，可能遇到各种各样的波形。

比如找到一个上升区间A₁属于语音部分，紧接着的下降区间D₁却不属于语音部分，然后又紧接着上升区间A₂属于语音部分。也可能是找到一个下降区间D₂属于语音部分，紧接着的上升区间A₃却不属于语音部分，然后又紧接着下降区间D₃属于语音部分。上面两种情况中的D₁和A₃区间，虽然其短时能频值波形的斜率较小，但是因为它们都处在2段语音区间之间，而且一般只持续极短的一段时间，经过分析发现它们属于人的发音中元音和复音结合部分的微小停顿，因此不应被视作是非语音部分。如图9a所示。

另外一种情况是，在找到一对语音起点和终点(对应上升区间A₁和下降区间D₁)之后，紧接着是一个不属于语音的上升区间A₂，然后是一个属于语音的下降区间D₂。此时下降区间D₂就没有与只配对的上升区间，即由D₂寻找到的语音终点没有与之配对的语音起点。此时应将下降区间D₂的起始点视为语音起点，与D₂的终点(作为语音终点)配对。如图9b所示。

3.语句端点的检测

检测语句的端点是本发明的主要目的之一，因此本发明并不是非常注重单个字词的端点检测的精确性，而是注重找准语句的起止点。

在进行完上述的语音端点检测过程后，能够找出字或者词的语音端点。在此我们提出了寻找语句端点的算法。

对于一般人正常的语速而言，语句间的时间间隔大概在100ms左右，而词语间的时间间隔一般较小，只有几十毫秒。因此有理由认为相隔大于100ms的语音终点和起点之间，就是语句间的间隔。

因为找到的语音起点和终点都是成对出现的，所以要遍历这个语音端点序列，首先寻找一个语音终点F_e，然后找到下一个语音起点F_b，如果F_e和F_b相距超过100ms，则认为F_e和F_b之间为语句的间隔；如果F_e和F_b之间相距不到100ms，则认为F_e和F_b不是语句间的间隔，此时将F_e和F_b标记为非语音端点。整个检测过程结束后，就找到了所有的语句端点。检测流程如图10所示。

4.门限值选取

通过使用matlab进行了大量仿真试验，观察短时能频值序列的波形后发现：在一般的新闻访谈类等背景音乐较少的音频节目中，短时能频值的极大值和极小值相比一般相差80倍左右，如图12所示。

图12是一段访谈类节目的短时能频值波形片段。从中可以看到，短时能频值的极大值EZE-feature_a出现在第1650ms、第1850ms、2100ms以及2260ms左右的时间段。而极小值EZE-feature_i则出现在第1750ms、第1910ms、第1990ms以及第2210ms左右的时间段。对比EZE-feature_a和EZE-feature_i可以发现，两者相差大概80倍左右。

经过分析，本发明提出以下算法来计算短时能频值波形斜率的门限：

步骤1：分析短时能频值序列，找出其最小值，记为EZE-feature_min；找出其最大值，记为EZE-feature_max，然后计算EZE-feature_max/100。

纵观整个短时能频值波形可以发现，其最大值EZE-feature_max比那些极大值EZE-feature_a(即波形中每个波的峰值)要稍微大一些。而短时能频值的最小值EZE-feature_min和极小值EZE-feature_i(即波形中比较平缓的部分)则相差不大，因为两者都是非常小的值，因此其差别可以忽略不计。因此采用最大值EZE-feature_max的1/100与最小值EZE-feature_min进行比较。

步骤2：比较EZE-feature_min和EZE-feature_max/100，取其中较大者，记为EZE-feature_slope。

步骤3：短时能频值斜率的门限定为：R_m＝EZE-feature_slope×2。

使用上述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效，因此在语音端点检测过程中不需要再次进行修改。在没有或者较少出现背景音乐的情况下，使用该方法基本可以满足寻找语句端点的需要，在寻找词语端点时的精确性稍差。但是当背景音乐在音频中持续出现时，短时能频值序列的波形将变得非常复杂，此时使用该方法就得不到满足要求的斜率门限值，因此需要人工设定。不论在哪种情况下，由人手工设定和调整短时能频值斜率的门限，都将大大提高语音端点检测的准确性。

(四)自适应机制及人工交互式反馈机制

1.主动自适应机制

接受端点检测的语音中可能混杂有各种各样的背景噪声。背景噪声可能是热噪声、机械噪声、嘈杂的人声或者音乐(对于语音端点检测来说，由于音乐会严重干扰端点检测的准确性，因此也被看作是一种噪声)。不管是哪种背景噪声，都会对语音端点检测产生干扰，因此必须对它们进行处理。

在低信噪比的情况下，短时能频值能够较精确的区分噪声部分和语音部分，因此本发明提出的语音端点检测方法可以很好的识别噪声和语音。

但是在高信噪比的情况下，也就是当噪声信号的能量较高时，可能会出现它的短时能频值也较大，且变化较剧烈的情况。在人语音的开始和结束部分，有时发音非常轻，导致语音的短时能频值较小，此时噪声与语音的短时能频值可能出现无法区分的情况。反映在短时能频值的波形上，就是噪声部分波形的斜率较大，而语音部分波形的斜率并没有足够大到与噪声有明显的差别，这会大大影响语音端点检测的准确性。这就需要相应的方法能够对噪声进行必要的处理，以降低它们对语音端点检测的影响。

在传统的语音端点检测方法中，一般是取音频信号的前几帧进行分析，并将其作为背景噪声，并在后续的分析过程中一直使用。

但是，一个语音文件的长度可能从数分钟到数小时不等，在这么长的时间中，背景噪声不可能维持不变，可能会出现一些意想不到的突发性噪声，或者是噪声突然产生变化。而背景音乐在语音持续过程中一般都会发生巨大的变化，比如在一段时间内有而在另一段时间内没有，或者在一段时间内是小提琴演奏而另一段时间内是鼓点等。

鉴于背景噪声和背景音乐的这种不确定性，我们不可能一直使用音频信号的前几帧作为背景噪声。而是应该在端点检测过程中，根据检测出的语音情况，自动选取新的音频帧作为背景噪声进行处理。

首先，默认音频文件最初的10ms为环境音，将这10ms的音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量E_b、短时过零率Z_b和短时信息熵H_b。自适应的语音端点检测算法对于噪声采取了一种反馈机制：当发现背景噪声可能已经发生变化时，算法要回退到噪声发生变化之前的语音帧，重新进行检测。其过程如下所述：

1)找到了某个语音起点，记为第F_h帧，当F_h与上一个语音终点F_t帧相距300ms以上时，则进行环境噪声的提取。

2)从第F_t帧开始，取接下来的10帧当作背景噪声，重新计算E_b、Z_b和H_b的值。计算方法为取算术平均，以E_b为例：

E_{b} = \frac{E_{t} + E_{t + 1} + E_{t + 2} + E_{t + 3} + E_{t + 4} + E_{t + 5} + E_{t + 6} + E_{t + 7} + E_{t + 8} + E_{t + 9}}{10}

3)从第F_t+1帧开始，使用更新后的E_b、Z_b和H_b，重新计算每一帧的短时能频值，得到新的短时能频值序列。

4)从第F_t+1帧开始，使用新的短时能频值序列重新执行端点检测过程。

图11为一段新闻的短时能频值波形片断，a为未经过噪声反馈过程，b为则经过了噪声反馈过程，对比可以发现噪声反馈处理过程起了很大的效果。

需要指出的是，上述的噪声反馈算法需要不断进行回溯，导致本语音端点检测算法不能进行实时端点检测，因此对算法的应用造成了一定的局限性。

2.人工交互式反馈机制

本发明除了进行噪声反馈之外，还可以由人工进行主动干预。如果发现语音端点检测的结果有较大的误差，无法满足需求，则可以通过修改短时能频值斜率的门限来调整检测的结果。

如果发现检测得到的语音端点中，语音起点普遍提前，而语音终点普遍延迟出现，则说明有可能是斜率门限的值选取的过小，导致一部分背景噪声也被认为是语音。此时只需将斜率门限的值适当调大，即可得到令人满意的结果。

相反，如果发现语音起点普遍延迟，而语音终点普遍提前出现，则说明有可能是斜率门限的值选取的过大，导致一部分语音也被认为是背景噪声。此时则需要将斜率门限的值适当调小。

必须注意，由于背景噪声或者背景音乐的存在，通过本发明所述语音端点检测方法得到的语音端点不可能完全精确。但是，由于人对于微小时间误差的感知是有极限的，因此在50ms之内的语音端点检测误差可以接受。通过选取适当的短时能频值斜率门限，可以将语音端点检测的误差控制在50ms以内。

另外，语句端点的时间间隔门限值也可以由人工进行调整。不同的人说话有不同的语速，因此语句间也有不同的时间间隔，人工对语句端点时间间隔进行调整，可以提高语句端点检测的精度。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种自适应的语音端点检测方法，包括如下步骤：

2.如权利要求1所述的自适应的语音端点检测方法，其特征在于：当步骤(6)输出语音端点检测结果后，遍历这个语音端点序列，依次寻找一个语音终点F_e，以及下一个语音起点F_b，如果F_e和F_b相距超过规定的时间间隔，则确定F_e和F_b之间为语句的间隔，将F_e和F_b标记为语句端点，重复此过程确定所有的语句端点。

3.如权利要求2所述的自适应的语音端点检测方法，其特征在于：所述判断语句端点所规定的时间间隔为100ms。

4.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(1)中，所述的带通滤波的带宽为400Hz～3500Hz。

5.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(2)中，将音频采样序列分成10ms长度的帧。

6.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(2)中，所提取的第i帧的短时能量为：

E_{i} = Σ_{n = 1}^{N} S_{n}^{2}

7.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(2)中，所提取的第i帧的短时过零率为：

Z_{n} = \frac{1}{2} Σ_{n = 1}^{N} | sgn (S_{n}) - sgn (S_{n - 1}) |

sgn (S_{n}) = \{\begin{matrix} 1, S_{n} &GreaterEqual; 0 \\ - 1, S_{n} \leq 0 \end{matrix} .

8.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(2)中，提取短时信息熵的步骤如下：

(a)利用短时傅里叶变换对每一帧的信号进行由时域向频域的转换：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

其中，S_n表示第n个音频采样，

ω = \frac{2 π}{N},

N为总采样数；

(b)计算每一频率的出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

所规定的约束条件为：

s(f_i)＝0 if f_i≤250HZ or f_i≥3750HZ

p_i＝0 if p_i≥0.9

(c)计算语音信息熵：

H_{i} = Σ_{j = 1}^{M} p_{j} {\log p}_{j}

9.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(3)中，第i帧的短时能频值为：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

10.如权利要求9所述的自适应的语音端点检测方法，其特征在于：在步骤(3)中，对每一帧的短时能频值进行平滑处理，处理中对短时能量、短时过零率和短时信息熵三个音频特征参数分别进行平滑，通常采用5帧平滑的方式，对于某一帧F_n，设它的某个音频特征参数是X_n，找到它左右相邻的4帧F_n-2、F_n-1、F_n+1、F_n+2，并找出它们相应的音频特征参数X_n-2、X_n-1、X_n+1、X_n+2，则平滑后得到的音频特征参数X_n-smoothed为：

X_{n - smoothed} = \frac{X_{n - 2} + X_{n - 1} + 2 \times X_{n} + X_{n + 1} + X_{n + 2}}{6};

X_{1} = \frac{{2 X}_{1} + X_{2} + X_{3}}{4},

X_{N} = \frac{X_{N - 2} + X_{N - 1} + {2 X}_{N}}{4};

X_{2} = \frac{X_{1} + 2 X_{2} + X_{3} + X_{4}}{5},

X_{N - 1} = \frac{X_{N - 3} + X_{N - 2} + 2 X_{N - 1} + X_{N}}{5} .

11.如权利要求1所述的自适应的语音端点检测方法，其特征在于：在步骤(4)中，寻找语音起点的步骤如下：

X_t≤X_t+1≤X_t+2≤......≤X_j且X_j+1≥X_j+2

即寻找从第t帧开始的短时能频值序列的上升区间，记为A_t；

R_{t} = \frac{X_{j} - X_{t}}{j - t}

其中，X_t为第t帧的短时能频值，X_j为第j帧的短时能频值；

12.如权利要求11所述的自适应的语音端点检测方法，其特征在于：在步骤(4)中，寻找语音终点的步骤如下：

X_t≥X_t+1≥X_t+2≥......≥X_j且X_j+1≤X_j+2

即寻找从第t帧开始的短时能频值序列的下降区间，记为D_t；

R_{t} = \frac{X_{i} - X_{j}}{j - t}

其中，X_t为第t帧的短时能频值，X_j为第j帧的短时能频值；

13.如权利要求12所述的自适应的语音端点检测方法，其特征在于：在寻找语音终点的过程中，步骤(III)中如果R_t≥R_m，且第t帧之前还没有找到一个单独的语音起点，即找到了一个不对应任何语音起点的下降区间D_t，则该下降区间D_t为一段单独的语音区间，此时将第t帧记为语音起点，将第j帧记为语音终点。

14.如权利要求11或12所述的自适应的语音端点检测方法，其特征在于：在步骤(4)中，寻找语音起点和终点的过程中，如果一个不属于语音部分的下降区间D₁位于两个属于语音部分的上升区间A₁、A₂之间，或者一个不属于语音部分的上升区间A₃位于两个属于语音部分的下降区间D₂、D₃之间，则将下降区间D₁和上升区间A₃均视为属于语音部分。

15.如权利要求11或12所述的自适应的语音端点检测方法，其特征在于：在步骤(4)中，寻找一对语音起点和终点时，确定门限值R_m的步骤如下：

(iii)确定门限值R_m＝EZE-feature_slope×2。

16.如权利要求1或2所述的自适应的语音端点检测方法，其特征在于：在步骤(5)中，重新计算背景噪声的音频特征参数，并更新短时能频值序列的步骤如下：