CN104021789A

CN104021789A - 一种利用短时时频值的自适应端点检测方法

Info

Publication number: CN104021789A
Application number: CN201410292519.1A
Authority: CN
Inventors: 洪青阳; 雷文钿; 童峰
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2014-09-03

Abstract

一种利用短时时频值的自适应端点检测方法，涉及说话人识别系统中的语音检测技术。语音信号输入后，解析语音文件并提取采样值，对获取到的语音采样序列进行预处理；将预处理后的信号分成了固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数；根据三个语音信号特征参数计算每一帧信号的短时时频值，并形成一个短时时频值序列；从信号第一帧开始，分析短时时频值序列，寻找语音的起点和终点，并输出语音端点检测结果。可在复杂的背景噪声下，较为准确检测出语音的起点和终点，提高系统的识别准确率，减少识别时间，提高复杂环境下的说话人识别系统的性能。

Description

一种利用短时时频值的自适应端点检测方法

技术领域

本发明涉及说话人识别系统中的语音检测技术，具体涉及一种利用短时时频值的自适应端点检测方法。

背景技术

语音端点检测技术是说话人识别系统中面临的第一个关键技术。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起点和结束点。作为一个完整的说话人识别系统，其最终效果不仅取决于识别算法的优劣，其他许多相关因素都会直接影响着系统应用的成功与否。在说话人识别系统中，处理的对象是语音信号，但是实际环境下的语音信号都存在一定的背景噪声。如何有效地区分背景噪声和语音，并尽可能地去除不含语音成分的背景噪声，提高识别的鲁棒性，是本发明要解决的问题。另外，在实际应用系统中，有效的语音端点检测技术不仅能减少系统的处理时间、提高系统处理的实时性，而且能排除无声段噪声的干扰，从而提高系统的整体性能。因此，端点检测的准确性在一定程度上决定了整个系统的成败。

目前，端点检测大体上可以分为两类：基于模型的检测算法和基于特征的检测算法。

基于模型的方法是以数据统计分析为基础建立一个能够更好刻画语音信号内部联系的模型，常见的有基于隐马尔科夫模型(HMM)、矢量量化(vector quantization，VQ)和支持向量机(support vector machine，SVM)等端点检测方法。该方法过程比较复杂、运算量大，并且实际应用环境复杂多变，噪声多种多样，建立的语音和噪声模型对环境的适应性比较差，检测准确率达不到实际应用的需求。

基于特征的端点检测方法均依据语音信号的时域特性和频域特性。常用的时频域特征主要有短时能量、短时平均过零率、短时信息熵和短时频谱等。然后通过判断这些特征参数是否超过一个阈值，而后再通过“与”和“或”运算来做出是否是语音起止点的判断。

如Lu Lie等人(Lu Lie,Jiang Hao,Zhang Hong-jiang.A robust audio classification andsegmentation method[C].Proc.of the 9^th ACM International Conference on Multimedia.2001)提出了一种基于时域特征参数端点检测方法——用短时能量变化率来进行端点检测。这种方法采用的不是短时能量而是短时能量的变化率，该方法具有一定的鲁棒性，但不能解决信噪比检测准确率的问题。

如张仁志和崔慧娟(张仁志，崔慧娟.基于短时能量的语音端点检测方法研究[J].电声技术，2005(7)：52-54)提出了一种改进的短时能量端点检测方法，在采用短时全带能量为特征的基础上，将短时高频能量作为辅助特征，同时使用了最优边沿检测滤波以及双门限——三态转化判决机制，从而保证该方法在噪声环境下检测的准确性和对信号绝对幅度变化的稳健性，能够在信噪比下保持良好的性能。

如苏伟博(苏伟博.一种语音端点检测方法及装置.天津市亚安科技电子有限公司,CN102097095A,2011)提出的一种语音端点检测方法及装置。该发明专利中应用了频谱熵作为语音和非语音的区分特征，可以有效的区分语音帧和非语音帧。对于低信噪比环境也有较好的检测结果。

在实际应用中，往往综合时域和频域的几种特征参数来进行端点检测，如郭继云等人(郭继云，王守觉，刘学刚.一种改进的基于能频比的端点检测算法[J].计算机工程与应用，2005,41(29):91-93)提出的一种改进的基于能频比的端点检测算法。该方法结合时域和频域的特征参数，发挥各自特征参数优势的同时还规避了自身的不足。

如李祺、马华东等人(李祺，马华东，郑侃彦等.一种自适应的语音端点检测方法.新奥特(北京)视频技术有限公司,CN 101625857A,2010)提出的一种自适应的语音端点检测方法。该发明专利利用了短时能量、短时平均过零率和短时信息熵三个音频特征参数，有效的结合了时域和频域的特征参数，并能够根据背景噪声的变化做出及时的反馈，从而提高在复杂噪声背景下的语音端点检测效率。所以将时频特征参数相结合能得到很好的效果。

理想的端点检测算法需要满足可靠性、精确性、自适应性、鲁棒性、实时性等。针对复杂环境下的语音信号端点检测算法的关键就在于对噪声的有效抑制处理。目前主要从以下两方面来考虑：第一，将输入的语音信号进行语音增强处理。例如，小波去噪、谱减法、滤波器组去噪等语音增强算法，减少噪声的影响，提高信噪比。然后用传统的端点检测算法进行起止点的判断；第二，选择具有抗噪性好的语音特征参数组合成一个新的特征来进行端点检测。端点检测的判决方法也由原来单一门限发展到多门限以至于自适应门限，从而不断提高算法的鲁棒性。

因此，有必要引入一种新的语音特征参数，能够在多种复杂的噪声环境下准确的反应出语音段和非语音段。本发明提出一种新的语音端点检测方法，通过计算语音信号的短时时频值特征可保证能够对语音的起止点做出高效的判断。

发明内容

本发明的目的在于针对说话人识别系统中的短语音特点以及现有端点检测方法的缺陷，提供一种利用短时时频值的自适应端点检测方法。

本发明包括如下步骤：

1)语音信号输入后，解析语音文件并提取采样值，对获取到的语音采样序列进行预处理；

2)将步骤1)预处理后的信号分成了固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数；

3)根据步骤2)中的三个语音信号特征参数计算每一帧信号的短时时频值，并形成一个短时时频值序列；

4)从信号第一帧开始，分析短时时频值序列，寻找语音的起点和终点，并输出语音端点检测结果。

在步骤1)中，所述预处理包括预加重、加窗分帧及带通滤波；所述预加重可采用一阶数字滤波器H(z)＝1-μz^-1，其中，μ接近于1；所述加窗分帧的窗函数可为汉宁窗，分帧后帧长为20ms，帧移位10ms；所述带通滤波采用的带通滤波器的带宽可为400～3500Hz。

在步骤2)中，每一帧数据提取短时能量为：

E_{n} = Σ_{i = 1}^{N} S_{i}^{2}

其中，E_n表示第n帧的短时能量，N表示一帧语音信号中所有的采样点数，S_i表示第i个采样点的取样值。

在步骤2)中，每一帧数据提取短时信息熵的具体方法可为：

步骤一：对每一帧信号进行短时傅里叶变换(FFT)，将信号由时域向频域转换：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

步骤二：计算每一频率出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，S(f_i)表示频率f的频谱能量。p_i相应频率出现的概率，M表示傅里叶变换计算得出的频率总数；

规定的约束条件如下：

规定一：若f_i≤250Hz or f_i≥3750Hz，则S(f_i)＝0；

规定二：若p_i≥0.9，则p_i＝0；

因为人的发音频率基本集中在250～3750Hz，所以把频率限定在这个范围内，规定二是为了滤除某些频率上持续发生的噪声；

步骤三：计算语音短时信息熵

H_{i} = - Σ_{j = 1}^{M} p_{j} \log p_{j}

其中，M表示傅里叶变换计算得出的频率总数，H_i即为第i帧的短时信息熵。

在步骤2)中，每一帧数据提取短时幅度相对值的计算过程如下：

(1)计算每一帧中样本点幅度值A_i与某一阈值A_thr比较，统计一帧中大于阈值的样点个数N_i；

(2)根据每一帧的N_i数是否大于阈值N_thr，来判断样本幅度是否过小，将大于阈值的N_i保留下来，并将这个值称为短时幅度相对值。

在步骤3)中，所述每一帧信号的短时时频值为：

EHR_i＝(E_i-E₀)·(H_i-H₀)·(R_i-R₀)

其中，EHR_i表示第i帧的短时时频值，E_i表示第i帧的短时能量，H_i表示第i帧的短时信息熵，R_i表示第i帧的短时幅度相对值，E₀、H₀、R₀分别表示当前背景噪声估计的短时能量值、短时信息熵、短时幅度相对值；当前背景噪声通过选择语音信号的前几帧进行分析计算，通过迭代取平均值的方式来计算背景噪声参数；

在步骤3)中，所述每一帧信号的短时时频值可进行平滑处理，处理中对短时能量、短时信息熵和短时幅度相对值三个语音特征参数分别进行平滑，通常采用5帧的平滑方式；

对于某一帧信号X_n的某一特征参数F_n进行平滑处理的方法可为：

首先，找到信号X_n的前后相邻的4帧X_n-2、X_n-1、X_n+1、X_n+2，并计算相应的音频特征参数F_n-2、F_n-1、F_n+1、F_n+2；进行5帧平滑后的特征参数F_n-smoothed定义为：

F_{n - smoothed} = \frac{F_{n - 2} + F_{n - 1} + 2 \times F_{n} + F_{n + 1} + F_{n + 2}}{6}

对第一帧，可以同时使用第1、2、3帧进行3帧平滑；第二帧可以使用第1、2、3和4帧进行平滑处理；类似的，对于最后两帧采用相同的方法进行3帧和4帧平滑处理；

对于第一帧和最后一帧采用3帧平滑的方式，平滑后得到的语音特征参数分别是：

F_{1} = \frac{2 F_{1} + F_{2} + F_{3}}{4}, F_{N} = \frac{2 F_{N} + F_{N - 1} + F_{N - 2}}{4}

对于第二帧和倒数第二帧采用4帧平滑方式，平滑后得到的语音特征参数分别是：

F_{2} = \frac{F_{1} + 2 F_{2} + F_{3} + F_{4}}{4}, F_{N - 1} = \frac{F_{N} + 2 F_{N - 1} + F_{N - 2} + F_{N - 3}}{4} .

在步骤4)中，所述寻找语音的起点的步骤如下：

(1)假设从第t帧开始(对应的短时时频值值为X_t)，检测第t帧之后每一帧的短时时频值，直到找到一帧j使得X_t≤X_t+1≤X_t+2≤...≤X_j且X_j+1≥X_j+2，即寻找充第t帧开始的短时时频值序列的上升区间，记为AS_t；

(2)计算上升区间AS_t的短时时频值序列波形的平均斜率：

在上升区间中，由于人语音的特点，其短时时频值序列波形不可能平稳上升，其斜率可能会不断变化。因此，在保持上升趋势的条件下，只计算其平均斜率；

(3)设定一个斜率门限值R_m，若有R_t≥R_m，即斜率R_t非常的陡峭，认为该上升区间属于语音部分；反之，认为该区间不属于语音区，因此令t＝j+1，循环执行检测直到找到语音的起点；

在步骤4)中，所述寻找语音的终点的步骤如下：

(1)终点的寻找方式与起点类似，假设从第t帧开始倒着寻找，检测第t帧之前每一帧的短时时频值，知道找到一帧J，使得X_t≥X_t-1≥X_t-2≥...≥X_j且X_j-1≤X_j-2，即寻找从第t帧开始的短时时频值序列下降区间，记为DS_t；

(2)计算该下降区间DS_t的短时时频值序列波形的平均斜率

在下降区间DS_t中，由于人语音的特点，其短时时频值序列波形也不可能平稳下降，因此，虽然在下降区间DS_t中短时时频值波形一直保持下降的趋势，也只能计算其平均斜率；为方便起见，使用X_t-X_j来使计算出来的R_t变成正值；

(3)通过设定门限阈值R_m，比较该平均斜率R_t与门限阈值R_m之间的关系，若有R_t≥R_m，即平均斜率R_t非常的陡峭，认为下降区间DS_t属于语音部分，则将第t帧标记为语音的终点。

在步骤4)中，寻找语音的起点和终点时，确定门限阈值R_m的步骤如下：

步骤一：找出短时时频值序列中的最小值EHR_min和最大值EHR_max，然后计算EHR_max/100；

步骤二：比较EHR_max/100和EHR_min，取其中的较大者，记作EHR_slope；

步骤三：门限阈值设定为：R_m＝EHR_slope×2。

本发明利用短时能量、短时信息熵和短时幅度相对值信息的语音短时时频特征的高效语音端点检测方法，同时该方法的检测门限通过自适应计算获得，可在复杂的背景噪声下较为准确的检测出语音的起点和终点，从而提高系统的识别准确率和减少识别时间。

本发明将短语音信号进行采样量化分成固定长度的语音帧，并形成一个帧序列，针对每一帧信号提取短时能量、短时信息熵和短时幅度相对值三个特征参数；根据这三个特征参数计算每一帧信号的短时时频值，并形成一个短时时频值序列；对整个短时时频值序列进行分析，并找出该语音的起止点。本发明可以在复杂的背景噪声下，对语音信号进行端点检测，从而提高复杂环境下的说话人识别系统的性能。

附图说明

图1为语音端点检测的总体流程图。

图2为短时时频值的提取流程图。

图3为特征参数平滑前的波形图。

图4为特征参数平滑后的波形图。

具体实施方式

本发明所提供的利用短时时频值的自适应端点检测方法应用于短语音的文本相关说话人识别系统中，该系统的输入的是一个采用PCM音频压缩格式、采用频率8K、采样位数16位、单声道、文件格式为wav的音频文件。本发明的目的是要对该语音信号进行检测，准确地提取出有效语音段的起止点，从而提高系统的识别性能和减少识别时间。

本发明所提供的语音端点检测流程如图1所示。其具体步骤如下：

(1)语音信号输入后，采用常规的方法解析音频文件并提取数字采样值，在这期间通过采样和量化将模拟的连续语音信号转换成了离散的数字信号。其中，采样就是把连续的时间离散化，量化就是把采样幅度的连续取值离散化。

对获得到的语音采用序列进行带通滤波，带宽为400～3500Hz，其主要目的是让信号在规定的频率范围内通过，把人发音的频段以外的噪声或者噪声音乐滤除，此过程可以大大降低背景对语音端点检测的影响；

(2)对语音采样序列进行加窗分帧处理，采用汉宁窗，将其分成帧长为20ms，帧移为10ms的语音帧序列，针对每一帧信号提取短时能量、短时信息熵和短时平均幅度相对值三个语音特征参数；

(3)根据上述语音特征参数计算每一帧的短时时频值，并形成一个短时时频值序列；

(4)分析整个短时时频值序列，找出序列中特征值上升区间和下降区间，并计算其平均斜率；

(5)设定斜率阈值，判定语音的起始点和终点。

下面对上述各步骤中所涉及到的技术解决方案进行详细的描述。

(一)短时能量、短时信息熵和短时平均幅度相对值等三个特征参数的提取

1.短时能量

语音信号的能量分析是基于信号随着时间的变化而变化这一现象。一般清音部分的能量比浊音的能量小得多，可以用于区分发音的浊音段和清音段。其次，对于信噪比高的信号，可以对语音的有声段和无声段进行判定。另外，还可以用于声母和韵母的分界，以及对连字的分界等。

采用短时能量作为特征参数之一。所谓的“短时能量”，即对加窗分帧处理好的每一帧信号求其能量，它被定义为每一帧中所有采样值的平方和。第n帧的短时能量表示为：

E_{n} = Σ_{i = 1}^{N} S_{i}^{2}

式中，E_n表示第n帧的短时能量，N表示一帧语音信号中所有的采样点数，S_i表示第i个采样点的取样值。

2.短时信息熵

信息熵的概念是由信息论之父C.E.Shannon提出的。信息中排除了冗余后的平均信息量称为“信息熵”，并给出了计算信息熵的具体数学表达式。信息熵是信息理论中一个用于度量信息量大小的概念，信息的不确定性越大，信息熵就越大。随着信息熵所催生出越来越多的新内涵和新应用，信息熵的应用领域也日渐广泛。目前，信息熵的应用领域涉及光学，统计学，生命科学以及医学等领域。

语音信号的幅度熵值通过计算语音信号幅度的改变而得到，一般语音帧的幅度熵值会大于背景噪声帧的幅度熵值；语音信号的谱熵是由语音信号进行傅里叶变换，然后根据每个频率分量的概率密度不同计算出来的。语音帧的谱熵小于背景噪声的谱熵。

信息熵作为频域中重要的音频特征参数，经常应用于语音编解码中。J.L.Shen首次将信息熵应用到语音端点检测中，他提出的是直接利用语音信号变换所得的频谱进行端点检测。本发明中应用到的是短时信息熵，即计算每一帧语音信号的信息熵，计算过程如下：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

步骤二：计算每一频率出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，S(f_i)表示频率f的频谱能量。p_i相应频率出现的概率，M表示傅里叶变换计算得出的频率总数。

规定的约束条件如下：

规定一：若f_i≤250Hz or f_i≥3750Hz，则S(f_i)＝0。

规定二：若p_i≥0.9，则p_i＝0。

因为人的发音频率基本集中在250Hz到3750Hz之间，所以把频率限定在这个范围内。规定二是为了滤除某些频率上持续发生的噪声。

步骤三：计算语音短时信息熵

H_{i} = - Σ_{j = 1}^{M} p_{j} \log p_{j}

其中，M表示傅里叶变换计算得出的频率总数。H_i即为第i帧的短时信息熵。

实验证明，语音信号和非语音信号的信息熵之间存在较大的差别，由此可以用来进行判断语音信号的起止点。在信噪比高的条件下，具有一定鲁棒性，能较为准确的判断出语音信号的起止点。但在复杂的背景噪声下，利用信息熵来进行语音信号的端点检测结果不是很理想。这就需要对带噪语音进行降噪等处理来提高信号的信噪比。

3.短时平均幅度相对值

短时幅度值，即一帧语音的幅度值，定义为：

M_{n} = Σ_{m = 0}^{N - 1} | x_{n} (m) |

其中，N表示一帧语音信号的采样点数。

本发明中引入了短时幅度相对值，其计算过程如下：

(2)根据每一帧的N_i数是否大于阈值N_thr，来判断样本幅度是否过小。将大于阈值的N_i保留下来，并将这个值称为短时幅度相对值。

(二)短时时频值的确定

在上述三个音频特征参数的基础上，本发明提出了一个结合时域和频域的语音特征参数，称为短时时频值，记做EHR。

1.短时时频值的定义

第i帧的短时时频值定义为：

EHR_i＝(E_i-E₀)·(H_i-H₀)·(R_i-R₀) (4.2)

式中，EHR_i表示第i帧的短时时频值，E_i表示第i帧的短时能量，H_i表示第i帧的短时信息熵，R_i表示第i帧的短时幅度相对值，E₀、H₀、R₀分别表示当前背景噪声估计的短时能量值、短时信息熵、短时幅度相对值。

短时时频值很好的将语音信号的时域特征(短时能量值和短时幅度相对值)与频域特征(短时信息熵)融合在一起。使其同时具备了时域和频域的特性，发挥着各自优势的同时还可以在一定程度上规避了一些不足。从而具备一定的抗噪声能力，增强了端点检测算法的鲁棒性。

加入E₀、H₀、R₀三个参数，是为了更好地适应背景噪声的变化，使得融合后新的特征参数能够实时对背景噪声的变化做出反馈。

本发明主要是用于检测整个短语音的端点，因此本发明并不是很注重单个字词的端点检测精准性，而是要寻找整个语句的起止点。相对于短语音来说，整段语音中噪声是相对稳定。因此，背景噪声的计算还是选用传统的计算方法，即选择语音信号的前几帧进行分析计算。通过迭代取平均值的方式来计算背景噪声参数。

2.短时时频值的提取过程

在基于短时时频值的端点检测过程中，需要求得每一帧的短时时频值。根据短时时频值的定义，需要计算出每一帧的短时能量值、短时幅度相对值、短时信息熵。短时时频值提取流程图如图2所示。

具体计算步骤如下所示：

步骤一：首先对语音信号进行预处理，得到一个语音信号的帧序列。在本发明中，数据都是8K、16bit的音频数据。并选取20ms为一帧，帧移是10ms，则每一帧有160个采样点，重叠部分为80个采样点。

步骤二：在得到的帧序列中，分别计算出每一帧的短时能量值、短时幅度相对值、短时信息熵，得到相对应的特征值序列。进行平滑处理，得到平滑后的音频特征参数序列。

步骤三：计算背景噪声所对应的音频特征参数。然后根据短时时频值的定义计算出每一帧的短时时频值。最后得到一个短时时频值序列。

3.短时时频值的平滑处理

语音信号是连续的，字(词)之间具有一定的相关性，不会产生非常突兀的现象，但是由于噪声的存在，语音信号中可能出现突兀的毛刺现象。因此，需通过对时域或频域中的特征参数作平滑处理。平滑处理不但可以有效的去除由噪声引起的毛刺现象，而且还可以起到优化语音特征参数的目的。另外，由于对语音信号的分帧处理，可能会破语音信号间的相关性，而平滑处理能在一定程度上弥补分帧带来的影响。

平滑处理可在时域或频域上进行。本发明对语音信号主要采取时域平滑的处理方式。因为本发明需要用到3个音频参数：短时能量、短时信息熵和短时幅度相对值，在平滑处理时要对3个参数分别进行平滑。

平滑处理是以帧为单位的，对于某一帧信号X_n的某一特征参数F_n进行平滑处理，处理中采用5帧平滑的方式。首先，找到信号X_n的前后相邻的4帧X_n-2、X_n-1、X_n+1、X_n+2，并计算相应的音频特征参数F_n-2、F_n-1、F_n+1、F_n+2。进行5帧平滑后的特征参数F_n-smoothed定义为：

F_{n - smoothed} = \frac{F_{n - 2} + F_{n - 1} + 2 \times F_{n} + F_{n + 1} + F_{n + 2}}{6}

整个平滑过程都是在语音端点检测之前进行的，需要对每一个特征参数进行平滑处理。

由于前后两帧的信号的特殊性，一般在开始的两帧和最后的两帧很少有语音出现。因此，本发明采用相应的4帧或3帧进行平滑处理。

对第一帧，我们可以同时使用第1、2、3帧进行3帧平滑；第二帧我们可以使用第1、2、3和4帧进行平滑处理。类似的，对于最后两帧采用相同的方法进行3帧和4帧平滑处理。

F_{1} = \frac{2 F_{1} + F_{2} + F_{3}}{4}, F_{N} = \frac{2 F_{N} + F_{N - 1} + F_{N - 2}}{4}

F_{2} = \frac{F_{1} + 2 F_{2} + F_{3} + F_{4}}{4}, F_{N - 1} = \frac{F_{N} + 2 F_{N - 1} + F_{N - 2} + F_{N - 3}}{4}

图3显示了一段语音的短时时频值波形片段，可以看出在平滑处理后，毛刺现在明显减少，但是波形的大体轮廓保持不变。某一语音特征参数经过平滑处理前后的波形对比如图3和图4所示。

(三)基于短时时频值的语音端点检测

短时时频值充分考虑了背景噪声对语音端点检测造成的影响，应用这个参数，本发明提出了语音端点检测算法。

通过仿真工具Matlab对大量语音文件的短时时频值波形进行研究后发现：在语音和音乐叠加的时间段中，或者在只有语音的时间段中，短时时频值波形的变化非常剧烈，变化频率很高，而且变化的幅度非常大。而在既没有语音又没有音乐，只有背景噪声的时间段中，短时时频值基本保持很小的变化幅度，而且变化的频率比较小。

因此，通过计算一个语音音频文件的短时时频值序列，并研究其波形，找出其变化剧烈而且变化幅度较大的部分，就能够找到语音文件中的语音部分，从而找到其语音的端点。所以，寻找语音端点的重点就是找出短时时频值序列波形中斜率比较大的那些部分，并判断出它们是否是语音的端点。

1.语音起点和终点的检测流程

本算法从语音信号的第一帧开始检测，对整个特征序列的波形进行分析，依次寻找语音的起点和终点，直到检测出起止点为止。本发明主要包括以下步骤：

步骤一，计算语音信号中每一帧的短时时频值，形成一个短时时频值的序列,然后对序列作平滑处理，得到平滑后的特征序列。

X₁,X₂,X₃,...,X_n

步骤二，寻找语音的起点

(1)假设从第t帧开始(对应的短时时频值值为X_t)，检测第t帧之后每一帧的短时时频值，直到找到一帧j使得X_t≤X_t+1≤X_t+2≤...≤X_j且X_j+1≥X_j+2，即寻找充第t帧开始的短时时频值序列的上升区间，记为AS_t。

(2)计算上升区间AS_t的短时时频值序列波形的平均斜率：

在上升区间中，由于人语音的特点，其短时时频值序列波形不可能平稳上升，其斜率可能会不断变化。因此，在保持上升趋势的条件下，只计算其平均斜率。

(3)设定一个斜率门限值R_m，若有R_t≥R_m，即斜率R_t非常的陡峭，认为该上升区间属于语音部分，则令t＝j+1进入步骤三。

反之，若R_t＜R_m，即斜率R_t比较平缓。此时有两种可能，一是R_t远小于R_m，主要是因为该段的短时时频值比较小，说明该上升区间属于背景噪声。另一种是R_t值比较大，仅略小于R_m，这说明你上升区间很可能属于背景音乐。上述两种情况之间没有严格的界限，就是说无法判断非语音区间到底是属于噪声还是背景音乐，不过在这两种情况下，都认为该区间不是语音，因此令t＝j+1，循环执行步骤2。

需要说明的是，斜率阈值R_m也是人工设定的值，因此在实际判断过程中语音、背景噪声和背景音乐的短时时频值波形之间没有明显的界限，设定不同的门限值会得到不同的语音端点检测结果。由此可见，门限值的设定的是否合理将直接影响到语音端点检测的准确性。下文会提供一种分析整个短语音的短时时频值序列以设定斜率门限值的算法。但是若根据实际情况进行人工设定的话，会使检测的结果更加准确。

步骤三，寻找语音终点

(1)终点的寻找方式与起点类似，假设从第t帧开始倒着寻找，检测第t帧之前每一帧的短时时频值，知道找到一帧J，使得X_t≥X_t-1≥X_t-2≥...≥X_j且X_j-1≤X_j-2。即寻找从第t帧开始的短时时频值序列下降区间，记为DS_t。

(2)计算该下降区间DS_t的短时时频值序列波形的平均斜率

与步骤二的情况类似，在下降区间DS_t中，由于人语音的特点，其短时时频值序列波形也不可能平稳下降。因此，虽然在下降区间DS_t中短时时频值波形一直保持下降的趋势，也只能计算其平均斜率。为方便起见，使用X_t-X_j来使计算出来的R_t变成正值。

(3)与步骤二类似，通过设定门限阈值R_m，比较该斜率R_t与斜率阈值R_m之间的关系，若有R_t≥R_m，即斜率R_t非常的陡峭，则认为下降区间DS_t属于语音部分。则现在找到了语音的终点。

反之，若R_t＜R_m，即斜率R_t比较平缓。同步骤二中论述的一样，认为区间DS_t属于背景噪声或者背景音乐，此时令t＝j-1，循环执行步骤三，知道找到语音的终点为止。

关于斜率阈值设定对检测结果的影响，步骤二中已经详细论述，在此不再重复。

2.门限阈值的选取

通过使用Matlab进行大量仿真实验，观察短时时频值序列的波形后发现其存在着一定的规律，经分析将计算门限斜率的方法归纳如下：

步骤一：找出短时时频值序列中的最小值EHR_min和最大值EHR_max，然后计算EHR_max/100。

纵观整个短时时频值波形可以发现，其最大值EHR_max比那些极大值(即波形中每个波的峰值)要稍微大一些。而短时时频值的最小值EHR_min和极小值(即波形中比较平缓的部分)则相差不大，因而两者都是非常小的值，因此其差别可以忽略不计。因此采用最大值EHR_max/100与最小值EHR_min进行比较。

步骤二：比较EHR_max/100和EHR_min，取其中的较大者，记作EHR_slope。

步骤三：斜率的阈值设定为：R_T＝EHR_slope×2。

本发明计算出的斜率阈值对于语音有一定的适应性，检测结果较为理想。但是并非适用于所有的待检测语音。有时为了得到更为理想的检测结果，需要人工干预斜率阈值的设置。若发现端点检测的结果与实际的起止点有较大地误差，可以通过修改斜率阈值来调整检测的结果。

若检测到的语音起点普遍提前，而终点普遍延迟，说明选用的斜率阈值过小，导致部分噪声分量被当作语音。此时，只要调大斜率阈值，便可得到满意的检测结果。反之，检测出的语音起点普遍延迟，而终点普遍提前，则将斜率阈值调小，便可达到较好的检测效果。

必须注意，由于背景噪声或者背景音乐的存在，通过本发明所述语音端点检测方法得到的语音端点不可能完全精确。但是，对于微小时间误差是可以接受的，本发明规定在与实际的起点和终点比较，在前后2帧内都认为是准确的。

Claims

1.一种利用短时时频值的自适应端点检测方法，其特征在于包括如下步骤：

2.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤1)中，所述预处理包括预加重、加窗分帧及带通滤波；

所述预加重采用一阶数字滤波器H(z)＝1-μz^-1，其中，μ接近于1；

所述加窗分帧的窗函数可为汉宁窗，分帧后帧长为20ms，帧移位10ms；

所述带通滤波采用的带通滤波器的带宽可为400～3500Hz。

3.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤2)中，每一帧数据提取短时能量为：

E_{n} = Σ_{i = 1}^{N} S_{i}^{2}

4.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤2)中，每一帧数据提取短时信息熵的具体方法为：

X (ω) = Σ_{n = - \infty}^{\infty} S_{n} e^{- jωn}

步骤二：计算每一频率出现概率：

p_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{M} s (f_{k})}

其中，S(f_i)表示频率f的频谱能量，p_i相应频率出现的概率，M表示傅里叶变换计算得出的频率总数；

规定的约束条件如下：

规定一：若f_i≤250Hz or f_i≥3750Hz，则S(f_i)＝0；

规定二：若p_i≥0.9，则p_i＝0；

步骤三：计算语音短时信息熵

H_{i} = - Σ_{j = 1}^{M} p_{j} \log p_{j}

5.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤2)中，每一帧数据提取短时幅度相对值的计算过程如下：

6.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤3)中，所述每一帧信号的短时时频值为：

EHR_i＝(E_i-E₀)·(H_i-H₀)·(R_i-R₀)

其中，EHR_i表示第i帧的短时时频值，E_i表示第i帧的短时能量，H_i表示第i帧的短时信息熵，R_i表示第i帧的短时幅度相对值，E₀、H₀、R₀分别表示当前背景噪声估计的短时能量值、短时信息熵、短时幅度相对值；当前背景噪声通过选择语音信号的前几帧进行分析计算，通过迭代取平均值的方式来计算背景噪声参数。

7.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤3)中，所述每一帧信号的短时时频值进行平滑处理，处理中对短时能量、短时信息熵和短时幅度相对值三个语音特征参数分别进行平滑，采用5帧的平滑方式；

对于某一帧信号X_n的某一特征参数F_n进行平滑处理的方法为：

F_{n - smoothed} = \frac{F_{n - 2} + F_{n - 1} + 2 \times F_{n} + F_{n + 1} + F_{n + 2}}{6}

F_{1} = \frac{2 F_{1} + F_{2} + F_{3}}{4}, F_{N} = \frac{2 F_{N} + F_{N - 1} + F_{N - 2}}{4}

F_{2} = \frac{F_{1} + 2 F_{2} + F_{3} + F_{4}}{4}, F_{N - 1} = \frac{F_{N} + 2 F_{N - 1} + F_{N - 2} + F_{N - 3}}{4} .

8.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤4)中，所述寻找语音的起点的步骤如下：

(1)假设从第t帧开始，对应的短时时频值值为X_t，检测第t帧之后每一帧的短时时频值，直到找到一帧j使得X_t≤X_t+1≤X_t+2≤...≤X_j且X_j+1≥X_j+2，即寻找充第t帧开始的短时时频值序列的上升区间，记为AS_t；

(2)计算上升区间AS_t的短时时频值序列波形的平均斜率：

在上升区间中，由于人语音的特点，其短时时频值序列波形不可能平稳上升，其斜率可能会不断变化，因此，在保持上升趋势的条件下，只计算其平均斜率；

(3)设定一个斜率门限值R_m，若有R_t≥R_m，即斜率R_t非常的陡峭，认为该上升区间属于语音部分；反之，认为该区间不属于语音区，因此令t＝j+1，循环执行检测直到找到语音的起点。

9.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤4)中，所述寻找语音的终点的步骤如下：

(2)计算该下降区间DS_t的短时时频值序列波形的平均斜率

10.如权利要求1所述一种利用短时时频值的自适应端点检测方法，其特征在于在步骤4)中，寻找语音的起点和终点时，确定门限阈值R_m的步骤如下：

步骤三：门限阈值设定为：R_m＝EHR_slope×2。