CN102148030A

CN102148030A - 一种语音识别的端点检测方法

Info

Publication number: CN102148030A
Application number: CN2011100712695A
Authority: CN
Inventors: 沈勇; 陈磊敏; 周杰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2011-03-23
Filing date: 2011-03-23
Publication date: 2011-08-10

Abstract

一种语音识别的端点检测方法，其包括：采集背景噪声和含噪语音信号；分析背景噪声和含噪语音信号的特性；提取背景噪声线性预测模型的参数或者其LPC(linear predictive coding)即线性预测编码系数，作为背景噪声线性预测模板；确定含噪语音信号的端点。即将每帧含噪语音的线性预测系数和背景噪声模板的参数对比，并处理为特征值。当此特征值的变化超过设定值时，即作为检测到语音端点的标志还可以根据背景噪声的变化，即修正背景噪声线性预测模型将它作为背景噪声模板。本发明能够很好实现带背景噪声环境下，对人们说话语音信号的端点检测。

Description

一种语音识别的端点检测方法

技术领域

本发明属于语音识别技术领域，主要针对特定环境噪声下的语音识别技术，尤其是语音识别中的语音端点检测方法。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性，语音端点检测是语音识别是否正确的关键技术之一，可以在语音识别中提高识别精度及减少识别时间。然而环境中的噪声对语音端点检测造成困难，传统的常用语音端点检测方法有：1.能量法，即检测声音的功率是否上升，这种方法针对语音的清音等检测会失效；2.过零率法，这种方法针对语音的清音检测效率好，但是针对语音的浊音检测效果差；3.相关系数法，这种方法在背景噪声小的情况下效果不错，但背景噪声大时，这种方法的效果不好。

发明内容

为了弥补目前主要几种端点检测方法的不足之处，本发明提出一种语音识别的端点检测方法，在特定环境噪声下，能够准确的进行语音信号的端点检测。

为达到以上目的，本发明所采用的解决方案是：

一种语音识别的端点检测方法，其包括以下步骤：

1)采集背景噪声和含噪语音信号；

2)分析背景噪声和含噪语音信号的特性；

3)提取背景噪声线性预测模型的参数或者其LPC系数，作为背景噪声线性预测模板；

4)确定含噪语音信号的端点。

进一步，所述步骤1)中是采集特定环境下的噪声和含噪声的语音信号，再将采集的信号经A/D转换器转换为数字信号，并进行存储。

所述步骤2)是将步骤1)中采集的信号在时域上进行时域波形分析，进行分帧语音信号LPC系数分析。

所述步骤3)是选取一段时间的信号作为声音的一帧，对每帧声音建立自回归移动平均(ARMA)模型，再提取自回归移动平均模型的参数作为背景噪声线性预测模型的参数；或者选取一段时间的信号作为声音的一帧，提取每帧声音固定阶数的LPC系数。

所述步骤4)将背景噪声线性预测模型的参数或者LPC系数处理为特征参数，当特征参数的变化超出通过大量实验设定的范围时，即确定为语音端点。

所述处理为特征参数的方法为：求取每帧声音信号的背景噪声线性预测模型的参数与背景噪声线性预测模板的相对应参数之差，再求取它们的平方和，把这个平方和的值作为特征参数；或者将每帧声音的背景噪声线性预测模型LPC系数与背景噪声线性预测模板的相对应系数相减，再求其平方和，把这个平方和的值作为特征参数。

所述步骤4)中确定端点之前，还可以进一步对背景噪声线性预测模板进行修正。

所述对背景噪声线性预测模板的修正是将相邻时间段的自回归移动平均模型的参数或者其LPC系数进行加权修正，将修正后的参数或者系数作为背景噪声线性预测模板。

所述加权修正可以采用自适应滤波算法。

由于采用了上述方案，本发明具有以下特点：本发明的方法给语音端点检测提供了一种新的手段，对语音的元音、浊音和清音都能进行端点检测。且本发明的方法适用于低噪和中等噪声下的语音端点检测，有自适应学习能力。从而，本发明还可以降低语音识别系统的硬件成本，促进语音识别系统在特定环境下如轿车内部的应用。

附图说明

图1是本发明的硬件结构示意图。

图2是本发明的方法流程示意图。

具体实施方式

以下结合附图所示实施例对本发明作进一步的说明。

如图1所示的本发明的硬件图，本发明是通过麦克风采集特定环境下的语音信号，经过A/D转换器转换为数字信号，再交给DSP/CPU/MCU处理，也可以通过数据存储器进行数据的存储。

如图2所示本发明的方法的流程图，具体包含以下步骤：

①特定环境下背景噪声和含噪语音信号的采集：运用麦克风，采集特定环境下如轿车内部的噪声和含噪声的语音信号，再将采集的信号经A/D转换器转换为数字信号，并进行存储。

②背景噪声和含噪语音信号的特性分析：在特定的环境下，如某种轿车内部或者实验室环境下，从背景噪声产生机理可知，背景噪声的特征相对是比较稳定的。然而语音的产生过程和发音器官的运动密切联系，所以在一个短时间范围内(即在10～30ms这段时间内)，其特征短时保持不变即相对稳定，可以将其看作是一个准稳态过程。相对于背景噪声，其稳定时间较短，即语音信号具有短时平稳性。语音信号和噪声信号不一样的特征，在时域、频域上都可以明显表现出来。本发明是将采样得到的数字信号在时域上进行时域波形分析，进行分帧语音信号LPC系数分析。

③背景噪声线性预测模型的参数或者其LPC系数的提取：由于噪声信号在时域上是相对稳定的，可以基于其在时域上较宽范围的采样值；因为语音信号在短时间范围内(即在10～30ms这段时间内)相对稳定的，所以选取其中一段时间(如取20ms)数据作为声音的一帧。对每帧声音建立自回归移动平均(ARMA)模型，再提取ARMA模型的参数作为线性预测系数，即背景噪声线性预测模板；或者提取每帧声音固定阶数(如取8-14阶)的LPC参数，将其作为线性预测系数，即背景噪声线性预测模板。

④背景噪声线性预测模板的修正：随着时间的平移，背景噪声也会逐步发生变化，根据每帧噪声信号建立的ARMA模型或者其LPC系数也会有一些变化，将相邻时间段的ARMA模型的参数或者其LPC系数进行加权修正，例如，采用自适应滤波算法(LMS：Least Mean Square)修正ARMA模型参数。或者根据同样的方法，修正每帧噪声信号的LPC系数。将修正后的参数或者系数作为背景噪声的线性预测模板。

⑤含噪语音信号的端点确定：将线性预测模型参数或者LPC系数处理为特征参数，处理的方法有很多种，比如其中的一种方法是：求取每帧声音信号的线性预测模型的参数与模板相对应参数之差，再求取它们的平方和，把这个平方和的值作为特征值；或者将每帧声音的LPC系数与模板相对应系数相减，再求其平方和，把这个平方和的值作为特征值。当特征值的变化超出通过大量实验设定的范围时，就认为有语音信号出现，把它当做语音端点。

本发明是在分析语音信号和噪声信号特性的基础上，研究设计了一种的语音端点检测方法。如在轿车内部环境下，运用本方法进行语音端点检测，其效果如下：

①在桥车内背景噪声强度低的情况下，即轿车不开启发动机的情况下。

其中，浊音“a”的真实端点52-90，LPC法测得的端点49-72；清音“f”的真实端点97-148，LPC法测得的端点94-147。

②在桥车内背景噪声强度中等的情况下，即轿车开启发动机怠速的情况下。

其中，浊音“a”的真实端点47-68，LPC法测得的端点43-63；清音“f”的真实端点44-82，LPC法测得的端点43-72。

③在桥车内背景噪声强度高的情况下，即轿车开启发动机正常运行的情况下。

其中，浊音“a”的真实端点98-128，LPC法测得的端点97-135；清音“f”的真实端点42-63，LPC法测得的端点37-75。

结论：本发明在轿车内部背景噪声强度低、中、高三种情况下，进行端点检测的结果和实际语音端点相差不大，效果比较理想。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于这里的实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种语音识别的端点检测方法，其特征在于：其包括以下步骤：

1)采集背景噪声和含噪语音信号；

2)分析背景噪声和含噪语音信号的特性；

4)确定含噪语音信号的端点。

2.如权利要求1所述的语音识别的端点检测方法，其特征在于：所述步骤1)中是采集特定环境下的噪声和含噪声的语音信号，再将采集的信号经A/D转换器转换为数字信号，并进行存储。

3.如权利要求1所述的语音识别的端点检测方法，其特征在于：所述步骤2)是将步骤1)中采集的信号在时域上进行时域波形分析，进行分帧语音信号LPC系数分析。

4.如权利要求1所述的语音识别的端点检测方法，其特征在于：所述步骤3)是选取一段时间的信号作为声音的一帧，对每帧声音建立自回归移动平均模型，再提取自回归移动平均模型的参数作为背景噪声线性预测模型的参数；或者选取一段时间的信号作为声音的一帧，提取每帧声音固定阶数的LPC系数。

5.如权利要求1所述的语音识别的端点检测方法，其特征在于：所述步骤4)将背景噪声线性预测模型的参数或者LPC系数处理为特征参数，当特征参数的变化超出设定的范围时，即确定为语音端点。

6.如权利要求5所述的语音识别的端点检测方法，其特征在于：所述处理为特征参数的方法为：求取每帧声音信号的背景噪声线性预测模型的参数与背景噪声线性预测模板的相对应参数之差，再求取它们的平方和，把这个平方和的值作为特征参数；或者将每帧声音的背景噪声线性预测模型LPC系数与背景噪声线性预测模板的相对应系数相减，再求其平方和，把这个平方和的值作为特征参数。

7.如权利要求1所述的语音识别的端点检测方法，其特征在于：所述步骤4)中确定端点之前，进一步对背景噪声线性预测模板进行修正。

8.如权利要求7所述的语音识别的端点检测方法，其特征在于：所述对背景噪声线性预测模板的修正是将相邻时间段的自回归移动平均模型的参数或者其LPC系数进行加权修正，将修正后的参数或者系数作为背景噪声线性预测模板。

9.如权利要求8所述的语音识别的端点检测方法，其特征在于：所述加权修正采用自适应滤波算法。