CN102201230B

CN102201230B - 一种突发事件语音检测方法

Info

Publication number: CN102201230B
Application number: CN2011101600964A
Authority: CN
Inventors: 张涛; 杨雪; 王赞; 全浩军; 孙文博
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2012-08-22
Anticipated expiration: 2031-06-15
Also published as: CN102201230A

Abstract

本发明属于音频检测技术领域，涉及一种突发事件语音检测方法，包括下列步骤：1)采集模板信号；2)分别提取模板信号的MFCC和LPCC的特征系数；3)采集待检测信号；4)提取待检测信号两个连续帧中的第一帧的MFCC特征系数，若其与模板信号的MFCC特征系数的匹配距离dist1低于门限T1时，判断其为目标信号，否则，若匹配距离大于T1但小于预设的第二判决门限T2，则判断该信号有极大可能性是目标信号，并提取下一帧的LPCC特征系数，计算其与模板信号的匹配距离dist2，若dist2小于门限T3，则认为该信号为目标信号。本发明能够提高突发事件语音检测判断速率和语音识别正确率。

Description

一种突发事件语音检测方法

技术领域

本发明属于音频检测技术领域，具体涉及一种突发事件语音检测方法。

背景技术

通常的语音识别系统由语音特征参数提取算法和模式匹配算法构成。

1)语音特征参数

用于语音分类的特征参数很多，可以归纳为三大类：时域特征参数、频域特征参数，同态(倒谱)特征参数。

时域特征参数包括：短时信号能量，短时信号平均过零率，信号短时自相关函数和平均幅度差函数。时域特征参数的特点是提取算法都不复杂，缺点是对信号的可鉴别能力有限，适用范围有端点检测和语音分帧。频域特征参数包括：傅里叶变换，离散余弦变换，线性预测分析。频域特征参数与人类听觉系统有一定的关系，但是频域特征参数适用于加性信号，对于复杂的乘积性组合信号处理能力不好。同态(倒谱)特征参数：非线性系统分析起来非常困难，需要进行同态分析，设法将非线性问题转化为线性问题来处理，对音频信号进行同态分析后，可得到音频信号的倒谱系数，因此同态分析也称倒谱分析。

倒谱分析通常采用线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。LPCC算法的特点是高阶系数可以由低阶系数推到而得，所以计算量小，缺点是没有考虑人耳的听觉特性，故识别率不高。MFCC的特点是通过Mel滤波器组和对数运算的设计，模拟人耳听觉模型，识别效果相对较好，缺点是由于必须通过FFT运算，所以计算量较大。

另外，由于LPCC算法和MFCC算法有共同的假设前提，即一个语音信号完整的出现在一个样本周期内，如图1所示。但在实际情况中，一个完整的语音信号不一定就出现在一个周期内，可能在两个取样周期中出现，如图2所示。在这种情况下，无论是LPCC算法还是MFCC算法所提取的特征系数都不能完全体现此语音信号的特征，会影响后来的匹配和判决过程。

2)模式匹配及模型训练技术

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(Dynamic TimeWarping，DTW)、隐马尔可夫模型(Hidden Markov Model，HMM)和人工神经元网络(ArtificialNeural Networks，ANN)。DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在简短词语音识别中获得了良好性能。

人们有时候通常会发出某些特殊的语音，比如尖叫声，语音突发事件检测通过对这种特殊声音进行识别来实现事件检测，属于孤立词，特定人，小词汇量的语音识别系统。对于语音突发事件的检测，由于输入信号类似于单音信号，因此所需要的匹配模板可以较少。用于此类识别时，DTW算法与HMM算法在相同的条件下，识别效果相差不大，但HMM算法更复杂，主要体现在HMM算法在训练阶段需要提供大量的语音数据，通过反复计算才能得到的模型参数，而DTW算法的训练中几乎不需要额外的计算。

发明内容

本发明的目的在于克服现有技术的上述不足，提供一种能够提高判断速率和语音识别正确率的突发事件语音检测方法。为此，本发明采用如下的技术方案：

一种突发事件语音检测方法，包括下列步骤：

1)确定合适的采集频率，采集对突发事件应激反应所产生的语音模板信号，对其进行分帧处理；

2)分别提取模板信号的MFCC和LPCC的特征系数；

3)采用相同的采集频率采集待检测信号；

4)提取待检测信号两个连续帧中的第一帧的MFCC特征系数，设模板信号的MFCC特征系数和待检测信号的MFCC特征系数的匹配距离为dist1，若匹配距离dist1低于预设的第一判决门限T1时，判断认为该待检测信号与模板信号相匹配，为目标信号，结束本次检测，否则，执行下一步；

5)若匹配距离大于T1但小于预设的第二判决门限T2，则判断该信号有极大可能性是目标信号，并执行下一步，否则，认为该信号不是目标信号，结束本次检测；

6)对于待检测信号的下一帧，提取其LPCC特征系数，利用动态时间归正模式识别方法，计算模板信号的LPCC特征系数和待检测信号的LPCC特征系数的匹配距离dist2，若dist2小于预设的第三判决门限T3，则认为该信号为目标信号，否则，判断该信号不是目标信号。

作为优选实施方式，本发明的突发事件语音检测方法，在提取MFCC或LPCC特征系数时候，还包括对模板或待检测信号的一阶差分信号进行特征提取。

本发明的突发事件语音检测通过预判断方法和设置多个语音匹配判决门限，将MFCC、LPCC谱系数和快速DTW(FDTW)算法相结合，兼顾了系统计算量和识别率，能够提高突发事件语音检测的整体效率。在基于DSP平台的测试结果表明，新的事件检测方法不但平均运算时间比MFCC&FDTW算法短，而且检测方法的识别正确率也更高。本发明可应用于基于事件语音检测的报警系统，大大提高了准确率，降低了漏判率，具有更好的鲁棒性。

附图说明

图1是样本周期内出现完整语音信号示意图；

图2是样本周期内出现非完整语音信号示意图；

图3是本发明提出的事件检测新方法的程序流程图。

具体实施方式

就语音突发信号而言，尽管一个完整的语音信号不一定就出现在一个样本周期内，但是相邻的样本周期的信号之间有很强的相关性，因此，可以利用前一个样本的的结果来预判断下一个样本的结果，从而选择合适的语音特征系数提取的方法。本发明大致分为以下几个步骤：

第一步采集模板信号，对其进行分帧处理。按照fs的采样频率采集模板信号，量化精度为16位，并且以一个固定数量的采样点做为一帧，将采样得到的模板信号划分为多个帧。

第二步提取模板信号每一帧的MFCC和LPCC的特征系数。分别求出模板信号每一帧的N阶(N一般取12-16)的MFCC和LPCC特征系数，也可上加上一阶差分信号。现有技术中，MFCC和LPCC特征系数的提取已经有成熟的算法。

在语音识别系统中，LPCC特征系数是由LPC系数推导出的，下面介绍常用的特征提取方法。

在线性预测(LPC)分析中，声道模型可表示为：

H (z) = \frac{G}{1 - Σ_{k = 1}^{p} a_{K} Z^{- k}} = \frac{G}{A (z)}

其中p是LPC的阶数，a_K为线性预测系数，A(z)为逆滤波器。LPC分析是为了求解线性预测系数a_K。语音信号x(n)的复倒谱定义为x(n)的Z变换的对数的反Z变换，

X(z)＝log(|X(z)|)·e^-jargX(z)＝log(|X(z)|)-jargX(z)

如果只考虑X(z)的模，而忽略它的相位，那就得到信号的倒谱c(n)为

C(n)＝Z^-1(log(|X(z)|))

其中LPCC的参数可由LPC系数a 递推得到，递推公式为：

C (n) = \{\begin{matrix} a_{n} + Σ_{k = 1}^{n - 1} {kc}_{k} a_{n - k} / n & 1 \leq n \leq p \\ a_{n} + Σ_{k = n - p}^{n - 1} {kc}_{k} a_{n - k} / n & n &GreaterEqual; p + 1 \end{matrix}

MFCC参数的提取过程如下：

首先对分帧后的语音信号做离散傅里叶变化，获得频谱分布信息。再求频谱幅度的平方，得到能量谱。将能量谱通过一组Mel尺度的三角滤波器组，并计算出每个滤波器组输出的对数能量S(m)，再经过离散余弦变换得到MFCC特征系数。

C (n) = Σ_{m = 1}^{M} S (m) \cos (πn (m - 0.5) / M) 0 \leq m < M

具体方法可参见以下两篇文献：

[1]“刘雅琴，裘雪红.应用小波包变换提取说话人识别的特征参数[J].计算机工程与应用，2006，42(9)：67-69”

[2]Li Fuhai，Ma Jinwen，Huang Dezhi.MFCC and SVM Based on Recognition of ChineseVowels[C]//CIS 2005，Part II，LNAI 3802.[s.l.]：[s.n.]，2005：812-819.

第三步匹配算法

在这一步骤中，涉及使用FDTW匹配识别算法来计算待测信号与模板信号之间的特征系数匹配距离。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。相对于传统的DTW算法，更好的是采用高效FDTW算法，在识别效果没有明显下降的情况下，计算量可以大大减小。

设模板信号的MFCC特征系数和待检测信号的MFCC特征系数的匹配距离为dist1，设定判决门限为T1。当匹配距离dist1低于T1时，认为该待检测信号是目标信号。虽然使用MFCC特征系数有一定的识别正确率，但是在某些情况下，比如说声音报警系统中，我们不愿意出现漏判的情况，兼顾系统计算量和识别率，于是又设定第二判决门限T2(一般T2大于T1)，当匹配距离大于T1但是小于T2，即认为该信号有极大可能性是目标信号，但还需要进一步检测，下一个样本信号采用LPCC算法和FDTW算法的组合计算匹配距离，并设定第三判决门限T3，如果模板信号的LPCC特征系数和待检测信号的LPCC特征系数的匹配距离dist2小于T3，则认为该信号为目标信号，匹配成功。否则，用判决门限T1继续检测下一个待检测的信号。

本发明应用于语音信号报警系统时，实施步骤如下：

步骤1：首先求得待测样本信号MFCC特征系数。利用DTW高效算法计算出匹配距离dist_M。若dist_M＜＝T1，则转到步骤3；若dist_M＞T2，则取下一个待测样本信号，重新计算步骤1；否则，继续步骤2；

步骤2.：计算下一个待测样本信号的LPCC系数。利用DTW高效算法计算出匹配距离dist_L。若dist_L＜＝T3，则转到步骤3；否则，取下一个样本信号，转到步骤1；

步骤3：停止语音检测，启动报警程序。

具体程序流程图如图3。

门限值T1是最为严格的门限，它要使非目标信号被判别为目标信号的概率最低。门限值T2应大于T1，它要使目标信号被忽略的概率降低。门限值T3的设定应兼顾错判率和漏判率，从而达到最佳效果。

为了对本发明提出的方法的性能做出综合性能的评价，在Matlab环境下分别下对MFCC&FDTW匹配算法和本发明所提出的新方法进行仿真实验。

实验取一个青年男子的尖叫声为模板，样本信号为时间为2s，采样频率为11025Hz，每个样点16bit，每帧大小为256个采样点，相邻两帧重叠100个样点，总共采用了5个模板，实验中所用到的匹配距离的确定参考5个模板的最小值和平均值。

待测语音信号每段1s，每次取2段(共12组，5组目标语言，7组非目标语音)连续的语音样本，分别用本发明提出的新方法与MFCC&FDTW方法进行测试，设置门限T1＝3.5e-004，T2＝5.0e-004，T3＝130。测试结果详见附图说明中表1。

表1MFCC&FDTW方法和新方法的详细测试结果

由表1我们可以看出，本发明不但平均运算时间比MFCC&FDTW算法短，而且事件检测方法的识别正确率更高，传统的MFCC&DTW方法很有极大概率把目标信号漏判，而本发明的方法的错判更倾向于把非目标信号判断为目标信号。对于基于事件检测的报警系统，显然漏判对于安全的影响更大，因此新方法更具有鲁棒性。

Claims

1.一种突发事件语音检测方法，包括下列步骤：

2)分别提取语音模板信号的MFCC和LPCC的特征系数；

3)采用相同的采集频率采集待检测信号；

4)提取待检测信号两个连续帧中的第一帧的MFCC特征系数，设模板信号的MFCC特征系数和待检测信号的MFCC特征系数的匹配距离为dist1，若匹配距离dist1低于预设的第一判决门限T1时，则判断该待检测信号与语音模板信号相匹配，为目标信号，结束本次检测，否则，执行下一步；

5)若匹配距离大于T1但小于预设的第二判决门限T2，则判断该待检测信号有极大可能性是目标信号，并执行下一步，否则，认为该待检测信号不是目标信号，结束本次检测；

6)对于待检测信号的下一帧，提取其LPCC特征系数，利用动态时间归正模式识别方法，计算语音模板信号的LPCC特征系数和待检测信号的LPCC特征系数的匹配距离dist2，若dist2小于预设的第三判决门限T3，则认为该待检测信号为目标信号，否则，判断该待检测信号不是目标信号。

2.根据权利要求1所述的突发事件语音检测方法，其特征在于，在提取MFCC或LPCC特征系数时，还包括对语音模板信号或待检测信号的一阶差分信号进行特征提取。