CN102646415A

CN102646415A - 一种语音识别中的特征参数提取方法

Info

Publication number: CN102646415A
Application number: CN2012101028043A
Authority: CN
Inventors: 张晓俊; 陶智; 肖仲喆; 吴迪; 季晶晶
Original assignee: Suzhou University
Current assignee: Maoyu Environmental Protection Technology Nantong Co ltd
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2012-08-22
Anticipated expiration: 2032-04-10
Also published as: CN102646415B

Abstract

本发明公开了一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述；所述一种语音识别中的特征参数提取方法包括巴克频率倒谱系数参数的提取和最大李雅普诺夫参数的提取两个步骤。本发明采用低通滤波器和高通滤波器进行分割，使处理之后的信号更加符合人类的听觉特性，从而能够提取出性能更优秀的语音特征参数。

Description

一种语音识别中的特征参数提取方法

技术领域

本发明涉及一种语音识别方法，具体涉及的是一种语音识别中的特征参数提取方法。

背景技术

语音识别技术是计算机模拟人类的认识过程，把人类的语音信号转变为相应的文本或命令的技术，其根本目的是研究出一种具有人听觉功能的机器，这种机器能够接受人的语音，理解人的意图，并做出相应的反应，从而对人类的发展提供帮助。

由于语音信号多变性，对环境的依赖性很强，这样就会导致所提取的语音特征参数有所差异，因此需要鲁棒性高的语音特征参数，才能提高语音的识别率。传统的语音特征算法主要从时域、频域等角度进行提取，主要有基于声道参数的线性预测倒谱参数及基于梅尔频率的倒谱特征参数等。

通过滤波分割的方法，分两个通道处理语音信号，低频部分主要是语音的浊音部分，采用符合人耳听觉特性的巴克滤波器组进行信号重构并提取语音特征，高频部分主要是清音及噪声部分，采用非线性动力学的最大李雅普诺夫指数来描述，最后整合为语音特征序列，进行语音识别。

发明内容

为解决上述问题，本发明提供一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割，获得低频和高频信息，使处理之后的信号更加符合人类的听觉系统，从而能够提取出性能更优秀的语音特征参数。

为实现上述技术目的，实现上述技术效果，本发明通过以下技术方案实现：

一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述，其具体做法如下：

a.巴克频率倒谱参数的提取,包括以下步骤：

步骤1）选择巴克域子波母函数为：，其中

;

可得听觉感知域下的函数表达式：

;

其中，b代表听觉感知频率，听觉感知频率带宽为[b1,b2];

Figure 2012101028043100002DEST_PATH_IMAGE008

为

Figure 2012101028043100002DEST_PATH_IMAGE010

的平移步长;

步骤2）再引入特劳恩米勒所给出的线性频率与听觉感知频率之间的函数关系：

Figure 2012101028043100002DEST_PATH_IMAGE012

;

步骤3）代入上式，就得到线性频率下的听觉感知子波函数的表达式：

Figure 2012101028043100002DEST_PATH_IMAGE014

;

为规整因子，可近似认为常数，取0.2；

步骤4）将语音能量计算出以后通过巴克滤波器组:，随后通过能量对数的离散余弦变换提取出巴克频率倒谱系数参数;

b.最大李雅普诺夫参数的提取采用wolf法,包括以下步骤：

步骤1）对语音时间序列

采用虚假邻点法确定重构维数，平均互信息法确定延迟时间间隔

，重构相空间

Figure 2012101028043100002DEST_PATH_IMAGE026

，相点数为

；

步骤2）以初始相点为基点，在点集中除

外的其余点中选取一个与最近的点

作为端点，构成初始向量，

间欧氏距离可记为

；

步骤3）时间步长或演化时间

，初始向量沿轨线向前演化得到一新向量，其相应基点与端点间欧氏距离可记为

，在相应时段内系统线度指数增长率记为:

Figure 2012101028043100002DEST_PATH_IMAGE042

；

步骤4）如此继续，直至所有相点，然后取各指数的增长率的平均值为最大李雅普诺夫指数估计值：

Figure 2012101028043100002DEST_PATH_IMAGE044

;

c.统一特征化，包括以下步骤：

步骤1）提取低频部分的巴克频率倒谱参数加上其一阶差分，巴克频率倒谱系数+△巴克频率倒谱系数共24阶，分别求取每阶参数的均值和方差，进行排列；

步骤2）提取高频部分的最大李雅普诺夫参数，取其前50帧；

进一步的，将所述巴克频率倒谱参数和所述最大李雅普诺夫参数分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。

本发明的有益效果是：

本发明采用低通滤波器和高通滤波器进行分割，使处理之后的信号更加符合人类的听觉特性，从而能够提取出性能更优秀的语音特征参数。

附图说明

图1为本发明的流程图；

图2为所述巴克频率倒谱参数的提取流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

参见图1、图2所示，一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述。

本实施例采用汉语数字语音库作为实验对象，每个数字语音各100个，共1000个数字语音作为实验的数据源，其具体做法如下：

a.巴克频率倒谱系数参数的提取,包括以下步骤：

步骤1）选择巴克域子波母函数为：，其中

;

可得听觉感知域下的函数表达式：

;

其中，b代表听觉感知频率，听觉感知频率带宽为[b1,b2];

为

的平移步长;

;

;

为规整因子，可近似认为常数，取0.2；

步骤4）将语音能量计算出以后通过巴克滤波器组:

，随后通过能量对数的离散余弦变换提取出巴克频率倒谱系数参数;

b.最大李雅普诺夫参数的提取采用wolf法,包括以下步骤：

步骤1）对语音时间序列

采用虚假邻点法确定重构维数

，平均互信息法确定延迟时间间隔

，重构相空间，相点数为

；

步骤2）以初始相点

为基点，在点集中除

外的其余点中选取一个与最近的点

作为端点，构成初始向量，

间欧氏距离可记为

；

步骤3）时间步长或演化时间，初始向量沿轨线向前演化得到一新向量，其相应基点与端点间欧氏距离可记为

，在相应时段内系统线度指数增长率记为:

；

;

c.统一特征化，包括以下步骤：

步骤2）提取高频部分的最大李雅普诺夫参数，取其前50帧；

步骤3）排列方式示意如下：

巴克频率倒谱系数-1均值

巴克频率倒谱系数-1方差

…

巴克频率倒谱系数-24均值

巴克频率倒谱系数-24方差

第1帧李雅普诺夫参数

…

第50帧李雅普诺夫参数

进一步的，将所述巴克频率倒谱参数和所述最大李雅普诺夫参数采用10折交叉验证方法，分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。

实验结果见下表：

模式算法	卡帕统计值	受试者工作特征曲线面积	绝对误差	识别率
					K最近邻近	0.9622	0.981	0.0087	96.6%
贝叶斯网络	0.97	0.997	0.0054	97.3%
					支持向量机	0.9844	0.996	0.1601	98.6%

综合识别率为97.5%。