CN112735386A

CN112735386A - 一种基于声门波信息的语音识别方法

Info

Publication number: CN112735386A
Application number: CN202110063110.2A
Authority: CN
Inventors: 陶智; 伍远博; 孙宝印; 张晓俊; 周长伟; 范子琦
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-30
Anticipated expiration: 2041-01-18
Also published as: CN112735386B

Abstract

本发明公开了一种基于声门波信息的语音识别方法，包括源信号预处理、特征提取和分类识别三个步骤，源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号；特征提取采用动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集；分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。本发明以声门波作为源信号，充分表征声门激励与声带振动机理在语音识别中的作用，并且提出了动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集，解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。

Description

一种基于声门波信息的语音识别方法

技术领域

本发明涉及语音识别领域，具体涉及一张基于声门波信息的语音识别方法。

背景技术

语音识别技术一般可分解为信号预处理、特征提取和分类识别等阶段。语音识别技术所提取的特征类别可根据其原理分为：以基音频率、信号幅值为基础的测量扰动类、频谱倒谱计算获取的倒谱类、非线性动力学分析计算的非线性类以及逆滤波算法估计的声门类等。其中扰动类特征与非线性特征受制于基音频率的估计精确度，其表现不如倒谱类特征，声门类特征多作为补充性特征使用，在语音识别中的价值未得到充分开发。动态图像专家组标准MPEG-7特征在说话人识别，情感语音分析上均取得优异的表现，但这些方案仅使用了其低阶描述符，不可避免的存在帧间重复的过拟合问题。

语音信号的发声过程可以被分解为：声门激励→声道谐振→口唇辐射→原始语音信号。大多数技术方案对语音识别性能提升的考虑仅局限于何种特征的表现更佳，何种分类算法的性能更优，这些方案以原始语音信号作为其源信号进行分析、特征提取，未能消除口唇辐射、声道谐振的影响，难以突出声带振动产生的声门激励在发声过程中的重要特性。部分技术方案在语音识别中应用了声门类特征，作为补充性特征完善特征集描述语音信号特点的完整性，然而其主体仍多为倒谱类、非线性或者测量扰动类特征，声门激励对语音识别性能提升的作用仍未能体现，综上所述，现有技术中语音识别方法存在以下缺陷：

(1)现有语音识别方法提取的特征受限于基音频率的准确估计，且未能充分利用声门波信息在语音识别中的价值，对提升语音识别的准确率贡献有限。

(2)现有语音识别方法以经过声道谐振、口唇辐射后的原始语音信号作为源信号处理，未能消除声道谐振和口唇辐射的影响，不能充分描述声带振动的机理和特性。

(3)部分语音识别方法采用以帧为分析单元的特征提取方法，其不可避免存在帧移部分特征提取的重复和过拟合，降低识别结果的鲁棒性和可信度。

发明内容

本发明要解决的技术问题是提供一种基于声门波信息的语音识别方法，以声门逆滤波获取声门波作为源信号，充分表征声门激励与声带振动机理在语音识别中的作用，并且提出了动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集，解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。

为了解决上述技术问题，本发明提供了一种基于声门波信息的语音识别方法，包括源信号预处理、特征提取和分类识别三个步骤，所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号；所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集；所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。

本发明一个较佳实施例中，进一步包括所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号，去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用，具体包括以下步骤：

步骤1-1：统一语音信号的采样频率，并预加重去除其高频噪声，得到目标信号s(n)；

步骤1-2：通过迭代自适应声门逆滤波算法IAIF推导目标语音信号s(n)的声门波信号g(n)；

步骤1-3：获取声门波信号g(n)与其导数

作为特征提取步骤的源信号，其方程如下：

其中，φ(n)表征声门波时域导数直到声门激励峰值前的部分，t_qc表征声带碰撞的瞬间，T表示一个声门波脉冲周期的时间，而

表征表示最大激发瞬间后的间隔称为返回相。

φ(n)可由下式获取：

其中，A_d表示声门波时域导数的幅值，t_max表示最大气流出现的瞬间，而α为生成系数，可由连续状态方程计算获取：

本发明一个较佳实施例中，进一步包括所述迭代自适应声门逆滤波算法IAIF包括两次迭代；第一次迭代采用一阶线性预测分析LPA计算声门波的激励模型，并将声门波的影响随激励模型通过逆滤波被去除，采用高阶线性预测分析LPA计算声道谐振的第一次预测模型，将声道谐振的影响随第一次预测模型通过逆滤波被去除，再去除口唇辐射的影响，得到第一次迭代获取的声门波模型；将声门波模型的时域信号作为第二次迭代的初始信号，重复第一次迭代的方法，去除声门波的影响、声道谐振的影响以及口唇辐射的影响得到声门波信号g(n)。

本发明一个较佳实施例中，进一步包括所述特征提取包括openSMILE特征提取，采用openSMILE工具提取eGeMAPS特征集，eGeMAPS特征集包括两部分：最小特征集和扩展特征集。

本发明一个较佳实施例中，进一步包括所述特征提取包括经典声门特征提取，所述经典声门特征包括时域特征和频域特征。

本发明一个较佳实施例中，进一步包括所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取，采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符，计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数等高阶统计量作为MPEG-7音频标准高阶统计量特征。

本发明一个较佳实施例中，进一步包括所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性，将输入样本分为等额若干份，其中1份用于分类器的测试，其余用于随机森林分类器的训练分类，最终取多次分类结果的均值来作为语音识别的最终精度。

本发明一个较佳实施例中，进一步包括特征优化，所述特征优化包括初步筛选和进阶优化两个步骤，所述初步筛选对各独立特征集计算其Fisher判别比，初步去除对语音识别贡献很低甚至产生负面影响的特征，所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集。

本发明一个较佳实施例中，进一步包括所述初步筛选采用Fisher判别比，Fisher判别准则原理如下：

其中，k表示特征编号，μ_n,k和μ_p,k表示目标特征分布的均值，σ_n,k和σ_p,k表示目标特征分布的方差，对某一指定特征，若其在两类别语音的特征分布均值的距离大且其方差分布的距离小，则其具有较高的FDR值，同时意味着这个特征对两不同类别语音具有较高的区分度，根据FDR排名，将排名靠后的即对语音识别贡献率低的特征初步剔除。

本发明一个较佳实施例中，进一步包括所述进阶优化通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择，通过十倍交叉验证计算优化特征集对语音识别的平均准确率，选择识别率最佳的子集作为最终的组合特征集。

本发明的有益效果：

本发明主要针对源信号预处理和特征提取进行研究。

在源信号预处理方面，现有语音识别方法着眼于对原始语音信号进行分析，忽略了声道谐振和口唇辐射对识别结果的影响以及声门激励对识别结果的贡献，本发明通过迭代自适应声门逆滤波算法IAIF提取原始语音信号的声门波信号作为特征提取的源信号，去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用。

在特征提取方面，本发明通过动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集，该特征集与现有方法所用特征相比，不依赖基音频率的精确估计且避免了帧间特征重复和过拟合的非鲁棒问题，获得了比现有方法更好的识别结果。

附图说明

图1是本发明的基于声门波信息的语音识别方法的一实施例的结构框图；

图2是本发明的基于声门波信息的语音识别方法的另一实施例的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明的基于声门波信息的语音识别方法的一实施例，包括源信号预处理、特征提取和分类识别三个步骤，所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号；所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集；所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。

所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号，去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用，具体包括以下步骤：

具体地，迭代自适应声门逆滤波算法IAIF的原理及迭代步骤如下：

(1)声门波信号在Z平面中表述如下：

其中，G(z)、V(z)和L(z)分别为Z平面中声门波、声道谐振和口唇辐射的系统函数，β则为口唇辐射的系数，取值范围在0到1之间。

(2)第一次迭代中，一阶线性预测分析LPA用于计算声门脉冲对语音信号的影响。这一估计的声门激励模型随之通过逆滤波被去除。这一步骤的目的是将声门波预先从原始语音中拿出以与声道谐振函数分离，如此可以更加精确地估计声道谐振的系统方程。

(3)高阶线性预测分析LPA用于计算声道谐振的第一次预测模型V₁(z)：

其中，α_k表示声道谐振系统V₁(z)的LPC系数，而M_v1表示LPA的阶数。声道谐振的影响随之通过逆滤波被去除。

(4)去除口唇辐射L(z)的影响，得到第一次迭代获取的声门波模型G₁(z)：

(5)将G₁(z)的时域信号g₁(n)作为第二次迭代的初始信号，重复步骤(2)、(3)、(4)，获取更加精确的声道谐振函数V₂(z)，去除其与口唇辐射的影响得到二次迭代的声门波G₂(z)，即最终的声门波信号g(n)。

步骤1-3：获取声门波信号g(n)与其导数

作为特征提取步骤的源信号，其方程如下：

表征表示最大激发瞬间后的间隔称为返回相。

φ(n)可由下式获取：

具体地，所述特征提取包括openSMILE特征提取，采用openSMILE工具提取eGeMAPS特征集，eGeMAPS特征集包括两部分：最小特征集和扩展特征集，其中最小特征集包含18个低阶描述符，共62维特征参数；扩展特征集包含7个低阶描述符，共26维额外特征参数。具体见表1：

表1

具体地，所述特征提取包括经典声门特征提取，所述经典声门特征包括时域特征和频域特征，其中时域特征可通过使用不同的相，如开启相、闭合相，以及瞬间，如闭合瞬间、开启瞬间和声门波最大最小瞬间来描述，此外，不同相的声门波幅度用于计算基于幅度的声门特征；与时域特征不同，频域特征从声门波频谱中计算。具体特征描述见表2：

特征	描述	特征	描述
				OQ1	开启商，计算于声门开启第一阶段	QOQ	准开启商
OQ2	开启商，计算于声门开启第二阶段	SQ1	速度商，计算于声门开启第一阶段
				AQ	幅度商	SQ2	速度商，计算于声门开启第二阶段
NAQ	标准化幅度商	H1H2	第一第二谐波差异度
				ClQ	闭合商	PSP	抛物线谱参数
OQa	开启商，衍生于LF声门模型	HRF	谐波丰富度因子

表2

具体地，所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取，采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符，计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数等高阶统计量作为MPEG-7音频标准高阶统计量特征。

具体地，MPEG-7低阶描述符共17例，可分为两类：标量描述符和向量描述符。MPEG-7音频标准高阶统计量特征维度为45×5＝225维，特征描述见表3：

表3

具体地，所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性，本实施例中，将输入样本分为等额10份，9份用于随机森林分类器的训练，1份用于分类器的测试，分类实验共进行10次。最终取10次分类结果的均值来作为语音识别的最终精度，以解决样本选取对语音识别结果的人为影响。

参照图2所示，本发明的基于声门波信息的语音识别方法的另一实施例，包括源信号预处理、特征提取、特征优化和分类识别四个步骤，所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号；所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集；所述特征优化包括初步筛选和进阶优化两个步骤，所述初步筛选对各独立特征集计算其Fisher判别比，初步去除对语音识别贡献很低甚至产生负面影响的特征，所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集；所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。

具体地，源信号预处理、特征提取、分类识别与实施例一的处理步骤相同，所述特征优化中的初步筛选步骤采用Fisher判别比，Fisher判别准则原理如下：

具体地，所述特征优化中进阶优化步骤通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择，通过十倍交叉验证计算优化特征集对语音识别的平均准确率，选择识别率最佳的子集作为最终的组合特征集。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于声门波信息的语音识别方法，包括源信号预处理、特征提取和分类识别三个步骤，其特征在于，所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号；所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集；所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。

2.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号，去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用，具体包括以下步骤：

步骤1-3：获取声门波信号g(n)与其导数

作为特征提取步骤的源信号，其方程如下：

表征表示最大激发瞬间后的间隔称为返回相。

φ(n)可由下式获取：

3.如权利要求2所述的基于声门波信息的语音识别方法，其特征在于，所述迭代自适应声门逆滤波算法IAIF包括两次迭代；第一次迭代采用一阶线性预测分析LPA计算声门波的激励模型，并将声门波的影响随激励模型通过逆滤波被去除，采用高阶线性预测分析LPA计算声道谐振的第一次预测模型，将声道谐振的影响随第一次预测模型通过逆滤波被去除，再去除口唇辐射的影响，得到第一次迭代获取的声门波模型；将声门波模型的时域信号作为第二次迭代的初始信号，重复第一次迭代的方法，去除声门波的影响、声道谐振的影响以及口唇辐射的影响得到声门波信号g(n)。

4.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，所述特征提取包括openSMILE特征提取，采用openSMILE工具提取eGeMAPS特征集，eGeMAPS特征集包括两部分：最小特征集和扩展特征集。

5.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，所述特征提取包括经典声门特征提取，所述经典声门特征包括时域特征和频域特征。

6.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取，采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符，计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数高阶统计量作为MPEG-7音频标准高阶统计量特征。

7.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性，将输入样本分为等额若干份，其中1份用于分类器的测试，其余用于随机森林分类器的训练分类，最终取多次分类结果的均值来作为语音识别的最终精度。

8.如权利要求1所述的基于声门波信息的语音识别方法，其特征在于，还包括特征优化，所述特征优化包括初步筛选和进阶优化两个步骤，所述初步筛选对各独立特征集计算其Fisher判别比，初步去除对语音识别贡献很低甚至产生负面影响的特征，所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集。

9.如权利要求8所述的基于声门波信息的语音识别方法，其特征在于，所述初步筛选采用Fisher判别比，Fisher判别准则原理如下：

10.如权利要求8所述的基于声门波信息的语音识别方法，其特征在于，所述进阶优化通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择，通过十倍交叉验证计算优化特征集对语音识别的平均准确率，选择识别率最佳的子集作为最终的组合特征集。