CN112562650A

CN112562650A - 一种基于声带特征参数的语音识别分类方法

Info

Publication number: CN112562650A
Application number: CN202011198843.9A
Authority: CN
Inventors: 张晓俊; 周长伟; 伍远博; 吴迪; 肖仲喆; 陶智; 赵鹤鸣
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-10-31
Filing date: 2020-10-31
Publication date: 2021-03-26

Abstract

本发明公开了一种基于声带特征参数的语音识别分类方法，首先搭建声带分层生物力学模型，以声带模型初始参数作为输入，求解声带耦合振动方程，输出声门波；同时采用迭代逆滤波算法获取实际嗓音信号中的声门波，构造两者关于时频域的目标函数以建立模型输出特征与嗓音信号之间的联系，匹配目标嗓音源，最终输出声带特征参数，将其与MFCC融合作为特征输入，对语音测试样本进行识别分类，确定测试样本类型。本发明根据声带分层生物力学模型提取了实际嗓音的声带特征参数，将基本声学特征与其融合，增加了语音声源信息，提高测试样本的识别率。

Description

一种基于声带特征参数的语音识别分类方法

技术领域

本发明涉及一种语音分类方法，属于语音识别技术领域。

背景技术

语音识别主要包括特征提取、特征优化和分类器建模。语音的特征提取决定了分类器所使用的特征参数，与语音识别系统的性能密切相关。常见的语音特征参数主要声学类参数，谱类参数等。

声学类参数反映了语音的频率以及振幅方面的信息，包括基音频率、频率标准差、抖动频率、频率抖动百分比、相对平均微扰、绝对频率抖动、振幅抖动频率、振幅抖动百分比、振幅抖动商和微扰商、音调扰动商和平滑音调微扰商。谱类参数反映了人类听觉系统方面的信息，主要有Mel倒谱MFCC和倒谱峰值等。

声学类参数、谱类参数等常见嗓音参数缺少与声带生理和结构之间的直接联系，未考虑语音声源的相关信息。

发明内容

本发明所要解决的技术问题是：针对背景技术的缺陷，本发明提出了一种基于声带特征参数的语音识别分类方法，建立声带生理结构与实际嗓音声源之间的联系，以模型输出声门波和实际嗓音声门波构建目标函数，设计变异粒子群-拟牛顿算法作为寻优算法优化生物力学模型参数，实现模型与声源信号的最优化匹配，提取实际嗓音信号对应的声带特征参数，提高测试样本的识别率。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种基于声带特征参数的语音识别分类方法，包括如下步骤：

(1)、建立声带分层生物力学模型，通过增加质量块分离韧带层和肌肉层，表征喉部环甲肌与甲杓肌的张力作用，体现声带组织分层特性；

(2)、定义模型的标准参数，并给定初始条件，求解声带分层生物力学模型的振动方程，获得声带振动位移以及声门气流流速；

(3)、采用迭代逆滤波算法提取嗓音信号中的声门波信息，并建立目标函数；

(4)、设计变异粒子群-拟牛顿算法反演目标嗓音的声带特征参数。

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤(1)中，声带分层生物力学模型包括如下成分：

(1)韧带层：质量块(m_1r,m_2r)，两者之间利用线性弹簧k_cr进行耦合；

(2)肌肉层：质量块m_3r；

(3)将韧带层侧向耦合到肌肉层的环甲肌张力：非线性弹簧(k_1r,k_2r)和粘性阻尼元素(r_1r,r_2r)；

(4)将肌肉层耦合至刚性壁的甲杓肌张力：非线性弹簧k_3r和粘性阻尼元素r_3r。

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤(2)中，建立声带的振动方程如下：

式中，x代表各质量块振动位移向量；U_g为声门气流体速度，是分层三角声门模型的输出量；m,r,k分别为质量块的重量向量、阻尼向量和弹性向量；F为声带壁受到的气流压力；P_s,α分别为声门下压和预发声声门角；A_pg为后声门间隙面积；

对质量块上面的作用力进行空气动力学分析，忽略声门入门处的压力降以及声门内部的粘性损失，且假设伯努利气流只存在于声门最窄处a_min以下，声门上压力近似为0即P₀＝0，根据伯努利方程：

式中，P₁为声门上压力，U_g表示声门气流流速，ρ为空气密度，a₁为声门面积；

因此声门上压力P₁以及声门气流流速U_g为：

其中，

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤(3)中，利用全极点模型法DAP表征声道滤波器，嗓音信号中的声门波提取过程如下：

将嗓音信号首先通过高通滤波器消除收音设备产生的低频扰动，然后设计DAP滤波器估算声道和口唇辐射的特征，并对嗓音信号进行逆滤波操作消除声道和口腔影响，最后经过连续两次迭代逆滤波操作后，对信号积分得到声门波，其中m＝n＝fs/1000+2。

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤(3)中，根据目标嗓音源逆滤波获得的声门波U_ge和声带生物力学模型仿真获得声门波U_gs，提取声门波特征参数基频F0、开商OQ、闭合商CIQ、斜比率Sr和归一化振幅商NAQ并建立目标函数，将两者之间的时域误差定义为目标函数F₁：

频域误差定义为目标函数F₂：

式中，N表示U_ge和U_gs点数，w_ge和w_gs分别表示U_ge和U_gs的频率，将两个目标函数线性加权和为：

f＝ω₁F₁+ω₂F₂ (7)

式中，ω₁和ω₂为权重系数。

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤(4)具体如下：

4.1、设置声带质量、弹性系数、耦合系数、阻尼常数及声门下压力为可优化参数，表示为矢量：Φ＝[m_iα,k_iα,k_cα,r_iα,P_s]；

4.2、采用变异粒子群法求得优化解；

4.3、最后利用拟牛顿算法对满足终止条件的优化解进行局部优化，找到全局最优解，得到实际嗓音声源发声时的声带特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征，作为语音识别的声带特征参数。

进一步的，本发明所提出的一种基于声带特征参数的语音识别分类方法，步骤4.2所述采用变异粒子群法求得优化解具体如下：

首先，初始化一群随机粒子，粒子速度以及迭代次数；

然后，更新粒子的位置速度，计算粒子群中每个个体的适应度值：如果所得最高适应度超过预先设置的阈值或达到预先设置的迭代次数，则作为优化个体；否则选择M个个体交叉、变异，得到M个新个体，选择和交叉过程中采用轮盘赌规则；

之后，对所有M+N个体执行变异操作，选择M个适应度高的进入下一代；

重复上述操作。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提出了一种基于声带特征参数的语音识别分类方法，根据声带分层生物力学模型提取了实际嗓音的声带特征参数，将基本声学特征与其融合，增加了语音声源信息，同时设计变异粒子群-拟牛顿算法作为寻优算法优化生物力学模型参数，提高测试样本的识别率。

附图说明

图1是声带分层生物力学模型截面图。

图2是迭代逆滤波算法流程框图。

图3是变异粒子群-拟牛顿算法流程图。

图4是本发明中声带特征参数提取流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明建立声带生理结构与实际嗓音声源之间的联系，提取声带特征参数，并结合基本声学特征，用于语音识别。首先建立声带分层生物力学模型，如图1所示。通过增加质量块分离韧带层和肌肉层，表征喉部环甲肌与甲杓肌的张力作用，体现声带组织分层特性。

包含如下成分(以模型右侧为例)：

(2)肌肉层：质量块m_3r；

(3)环甲肌张力(将韧带层侧向耦合到肌肉层)：非线性弹簧(k_1r,k_2r)和粘性阻尼元素(r_1r,r_2r)；，

(4)甲杓肌张力(将肌肉层耦合至刚性壁)：非线性弹簧k_3r和粘性阻尼元素r_3r。

声带的振动方程如下：

式中，x代表各质量块振动位移向量；U_g为声门气流体速度，是分层三角声门模型的输出量；m,r,k分别为质量块的重量向量、阻尼向量和弹性向量；F为声带壁受到的气流压力；P_s,α分别为声门下压和预发声声门角；A_pg为后声门间隙面积。

对质量块上面的作用力进行空气动力学分析，忽略声门入门处的压力降以及声门内部的粘性损失，且假设伯努利气流只存在于声门最窄处以下，声门上压力近似为0即P₀＝0。根据伯努利方程：

式中，P₁为声门上压力，U_g表示声门气流流速，ρ为空气密度，a₁为声门面积。因此声门上压力P₁以及声门气流流速U_g为：

其中，

定义模型的标准参数，并给定初始条件，求解声带分层生物力学模型的振动方程，获得声带振动位移以及声门气流流速。

然后采用迭代逆滤波算法提取嗓音信号中的声门波信息。在估计声道模型的影响时，线性预测算法易受到共振峰谐波峰值引起的偏置干扰，因此利用全极点模型法(DAP)表征声道滤波器。嗓音信号中的声门波提取过程如图2所示，嗓音信号首先通过高通滤波器消除收音设备产生的低频扰动，然后设计DAP滤波器估算声道和口唇辐射的特征，并对嗓音信号进行逆滤波操作消除声道和口腔影响，最后经过连续两次迭代逆滤波操作后，对信号积分得到声门波。其中m＝n＝fs/1000+2。

根据目标嗓音源逆滤波获得的声门波U_ge和声带生物力学模型仿真获得声门波U_gs，提取声门波特征参数基频(F0)、开商(OQ)、闭合商(CIQ)、斜比率(Sr)和归一化振幅商(NAQ)并建立目标函数。两者之间的时域误差定义为目标函数F₁：

频域误差定义为目标函数F₂：

式中，N表示U_ge和U_gs点数，将两个目标函数线性加权和为：

f＝ω₁F₁+ω₂F₂ (7)

式中，ω₁和ω₂为权重系数。

目标函数建立后，设计变异粒子群-拟牛顿算法反演目标嗓音的声带特征参数。设置声带质量、弹性系数、耦合系数、阻尼常数及声门下压力为可优化参数，表示为矢量：Φ＝[m_iα,k_iα,k_cα,r_iα,P_s]。先用变异粒子群法求得优化解，再用拟牛顿法对所得到的解进行局部优化，找到全局最优点。变异粒子群-拟牛顿算法的流程如图3所示。

首先初始化一群随机粒子，粒子速度以及迭代次数。更新粒子的位置速度，计算粒子群中每个个体的适应度值。如果所得最高适应度超过预先设置的阈值或达到预先设置的迭代次数，则作为优化个体；否则选择M个个体交叉、变异，得到M个新个体，选择和交叉过程中采用轮盘赌规则。然后对所有M+N个体执行变异操作，选择M个适应度高的进入下一代，重复上述操作。最后利用拟牛顿算法对满足终止条件的优化解进行局部优化，找到全局最优解，得到实际嗓音声源发声时的声带特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征，作为语音识别的声带特征参数。

实施例1

一、特征提取：

分别对语音提取特征参数MFCC和本发明的声带特征参数。

1、特征参数MFCC提取步骤：

(1)先对语音信号S(n)预加重处理，采用汉明窗进行加窗分帧，得到每帧信号X_n(m)，然后通过短时傅里叶变换得到其频谱X_n(k)，取频谱的平方，即能量谱P_n(k)。

(2)用M个Mel带通滤波器对P_n(k)进行滤波，将每个滤波器频带内的能量叠加。

其中，H_m(k)为Mel滤波器频域形式，S_n(m)是每个滤波器频带的输出。

(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换，得到L个MFCC系数。

(4)将得到的MFCC系数作为第n帧的特征参数，并加上人耳更为敏感的一阶差分系数。一阶差分计算公式如下：

L取2，表示当前帧前后各2帧的线性组合，反映语音的动态特征。

2、如图4所示，声带特征参数提取步骤：

(1)初始化声带分层生物力学模型参数，并设置初始运动条件，利用标准四阶龙格-库塔方法求解声带振动方程，输出模型声门波。

(2)采用迭代逆滤波算法提取实际嗓音信号中声门波。首先通过高通滤波器消除嗓音信号中的低频扰动，再进行逆滤波操作消除声道和口腔影响，最后经过连续两次迭代逆滤波后，对信号积分得到实际嗓音声门波。

(3)采用变异粒子群-拟牛顿算法对声带分层生物力学模型进行参数反演优化，匹配实际嗓音源。声带质量、弹性系数、耦合系数、阻尼常数及声门下压力作为反演的可优化特征参数。优化后的输出特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征(基频、开商、闭合商、斜比率和归一化振幅商)。

二、识别过程：

1、将MFCC参数作为特征输入，分别用贝叶斯网络(BayesNet)、线性判别分析(LDA)、多层感知器(MLP)、决策树(C4.5)、随机森林(RandomForest)作为分类器进行识别。

2、将MFCC与声带特征参数融合作为特征输入，分别用贝叶斯网络(BayesNet)、线性判别分析(LDA)、多层感知器(MLP)、决策树(C4.5)、随机森林(RandomForest)作为分类器进行识别。

对本发明提出的采用基于声带特征参数的语音识别方法进行性能测试，并进行交叉对比：

结合声带特征和MFCC进行语音识别，增加语音声源的信息，不同分类器的识别结果均优于MFCC特征作为特征输入的识别结果。MFCC特征的平均识别率为77.58％，而融合后特征(MFCC+声带特征)平均识别率为93.96％，提高了16.38％。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于声带特征参数的语音识别分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤(1)中，声带分层生物力学模型包括如下成分：

(2)肌肉层：质量块m_3r；

3.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤(2)中，建立声带的振动方程如下：

因此声门上压力P₁以及声门气流流速U_g为：

其中，

4.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤(3)中，利用全极点模型法DAP表征声道滤波器，嗓音信号中的声门波提取过程如下：

5.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤(3)中，根据目标嗓音源逆滤波获得的声门波U_ge和声带生物力学模型仿真获得声门波U_gs，提取声门波特征参数基频F0、开商OQ、闭合商CIQ、斜比率Sr和归一化振幅商NAQ并建立目标函数，将两者之间的时域误差定义为目标函数F₁：

频域误差定义为目标函数F₂：

f＝ω₁F₁+ω₂F₂ (7)

式中，ω₁和ω₂为权重系数。

6.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤(4)具体如下：

4.2、采用变异粒子群法求得优化解；

7.根据权利要求6所述的一种基于声带特征参数的语音识别分类方法，其特征在于，步骤4.2所述采用变异粒子群法求得优化解具体如下：

首先，初始化一群随机粒子，粒子速度以及迭代次数；

重复上述操作。