CN108109612A

CN108109612A - 一种基于自适应降维的语音识别分类方法

Info

Publication number: CN108109612A
Application number: CN201711283229.0A
Authority: CN
Inventors: 张晓俊; 徐天琪; 陶智; 黄程韦; 吴迪; 肖仲喆; 孙宝印; 葛怡雯; 冯可瞧
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-06-01

Abstract

本发明公开了一种基于自适应降维的语音识别分类方法，首先提取语音信号的特征参数作为训练样本数据，对高斯混合模型进行训练，得到训练好的高斯混合模型；然后采用训练好的高斯混合模型针对当前输入的测试样本数据进行特征空间的自适应降维处理，即根据原始特征空间的概率分布模型，进行特征维度子空间的投影，计算不同的低维度特征子集上的似然概率，获得测试样本的最适特征空间，对降低了维度后的语音测试样本进行识别分类，确定测试样本类型。本发明根据不同的测试样本自适应地选择不同的特征维度，从而达到特征降维的目的，同时改进了高斯混合模型分类器，提高测试样本的识别率。

Description

一种基于自适应降维的语音识别分类方法

技术领域

本发明涉及一种语音分类方法，属于语音识别技术领域。

背景技术

分类器建模分类是除了特征提取、特征优化之外的语音识别的一个重要过程。不同的分类器具有不同的分类建模算法。常用的分类器有决策树(Decision Tree)、贝叶斯网络(BayesNet)、K最邻近((k-Nearest Neighbor)、多元线性回归(Multivariable LinearRegression)、多层感知器(Muti-Layer Percetron)和高斯混合模型(Gaussian MixtureModel)等。

高斯混合模型适合用于语音信号方面的静态建模，提取多种语音信号中相关特征参数作为训练数据，在高斯混合模型分类器中，每个特征维度对应于一个边缘概率分布，可以用来对当前测试样本进行分类。

在高斯混合模型识别过程中，并不是所有受过训练的特征都以同样的方式做出贡献，一些特征维度与测试样本匹配度很低，使得分类器做出相反的决策，导致这些样本被错误地分类。错误分类的原因在于并不是所有选定的特征都适合测试样本，如果去除这些不合适的特征维度，可以得到一个可预期的高斯混合模型分布，那么改进识别的可能性就会更大。

发明内容

本发明所要解决的技术问题是：针对背景技术的缺陷，本发明提出了一种语音识别分类方法，根据不同的测试样本自适应地选择不同的特征维度，从而达到特征降维的目的，提高测试样本的识别率。

本发明为解决上述技术问题采用以下技术方案：

一种基于自适应降维的语音识别分类方法，包括步骤：

(1)、首先提取语音信号的特征参数作为训练样本数据，对高斯混合模型进行训练，得到训练好的高斯混合模型；

(2)、采用步骤(1)训练好的高斯混合模型，针对当前输入的测试样本数据进行特征空间的自适应降维处理，即根据原始特征空间的概率分布模型，进行特征维度子空间的投影，计算不同的低维度特征子集上的标准化似然概率，获得测试样本的最适特征空间，对降低了维度后的语音测试样本进行识别分类，确定测试样本类型。

进一步的，本发明的语音识别分类方法，步骤(1)中，高斯混合模型的定义为：

其中M为高斯模型个数，π_k为第k个高斯模型的权重，p(x|k)为第k个高斯模型的概率密度，其均值为u_k,方差为σ_k，通过训练求出π_k、u_k和σ_k的具体取值。

进一步的，本发明的语音识别分类方法，步骤(2)中，针对当前输入测试样本数据进行特征空间的自适应降维处理，具体包括以下步骤：

201、输入语音信号测试样本的所有特征数值，将特征数值表示为C_t＝[c₁,c₂,...,c_D]；D代表特征的数量；

202、计算高斯混合模型中所有高斯模型的标准化似然概率L，

203、采用经验公式计算第k个高斯模型的阈值Th，判定的经验公式为：

其中，α＝-0.1，β代表特征维度数量的调节参数，K表示语音信号样本所分类的总数量，L_i、L_j分别代表第i个、第j个高斯模型的标准化似然概率；

204、判断Th是否小于等于1：如果是，则进入下一步骤，如果否，则返回步骤203；

205、从测试样本的所有特征维度中移除第i维特征后，将高斯混合模型的维数进行降维，计算当前高斯混合模型的标准化似然概率，同时更新测试样本的特征维度；

206、判断当前高斯混合模型的标准化似然概率是否大于原高斯混合模型的标准化似然概率，或者判断Th是否小于等于1：

如果是，则返回步骤205继续进行迭代降维，去除高斯混合模型下一个维度；

如果否，则降维结束，将当前特征维度作为测试样本的最适特征空间。

进一步的，本发明的语音识别分类方法，降维后高斯混合模型的标准化似然概率分布仍旧服从高斯分布，样本C服从高斯分布

其中C₁、C₂分别是保留的特征维度和去除的特征维度，U₁、U₂表示相应的均值向量，表示协方差矩阵，N表示高斯分布。

进一步的，本发明的语音识别分类方法，移除样本C的C₁维度后，剩余的C₂特征维度仍旧服从多变量高斯分布C₁～N(U₁,∑₁₁)。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提出了一种采用自适应降维的高斯混合模型识别方法，根据不同的测试样本自适应地选择不同的特征维度，从而达到特征降维的目的，同时改进了高斯混合模型分类器，提高测试样本的识别率。

附图说明

图1是本发明中语音信号训练系统流程图。

图2是本发明中语音信号识别系统流程图。

图3是基于本发明的高斯混合模型特征降维过程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明主要对特征降维和分类器建模分类进行了研究。在语音模型训练之后，根据当前输入的测试样本的特点进行动态的降维操作，使得训练模型的特征空间与测试样本更加适配。为了达到这种测试样本自适应的特征降维效果，利用高斯混合模型的边缘概率构造出多个子分类器，并在多重串联结构中对这些分类器进行了融合，样本识别率得到提高。

本发明中语音信号训练系统流程如图1，这部分工作属于较成熟的技术手段，主要包括：语音信号的特征提取及高斯混合模型的训练。其中，高斯混合模型的定义为：

其中M为高斯模型个数，π_k为第k个高斯模型的权重，p(x|k)为第k个高斯模型的概率密度，其均值为u_k,方差为σ_k。通过训练就是要求出π_k、u_k和σ_k的具体取值。

本发明中语音信号识别系统流程如图2，主要包括：

(1)提取语音信号的特征参数作为高斯混合模型的训练数据，选取特征可表示为C_t＝[c₁,c₂,...,c_D]。

(2)采用训练好的的高斯混合模型针对当前输入测试样本进行特征空间的降维处理。

(3)语音样本包括训练样本和测试样本，训练样本作为高斯混合模型的训练数据，得到训练模型对测试样本进行识别分类。

现有的高斯混合模型对特征空间进行单次降维，主要过程为：

1)将当前样本的每个特征参数与最接近的高斯混合训练模型的均值的差值进行排序得到S_t＝reorder(C_t)＝reorder(min(C_m-U_i.m))；

2)在识别阶段，有(D-n)个特征参数是适用于所有测试样本，当前测试样本中这n个特征参数被去除。在排序过程中略去最后的n个特征参数，得到一个降维空间

3)对高斯混合模型的参数λ以相同的方式进行降维：

4)得到高斯混合模型的后验概率为：

本发明的高斯混合模型对特征空间进行自适应特征降维如图3，主要过程为：

1)高斯混合模型具有多个级联子分类器，每个分类器都相对于原高斯混合模型进行降维处理。

2)从原高斯混合模型中移除一个维度后得到一个边缘概率分布，边缘概率也就是降维后的似然概率，边缘分布的大小取决于移除的特征维度，选择最大的边缘概率比原高斯混合模型更大，说明此次降维提高了分类器的性能。下一步进行迭代降维，去除下一个维度。判定的经验公式为：

其中，α＝-0.1，β代表特征维度数量的调节参数，K表示语音信号样本所分类的总数量，L_i、L_j分别代表第i个、第j个高斯模型的标准化似然概率。

3)高斯分布的边缘概率分布仍旧服从高斯分布，样本C服从高斯分布

移除样本C的C₁维度后，剩余的C₂特征维度仍旧服从多变量高斯分布C₁～N(U₁,∑₁₁)。

关于本申请中未进一步详细记载的采用高斯混合模型对语音信号进行分类识别的细节方案，属于本领域的已知现有技术手段，在本申请中不再进行赘述，以下进一步公开实施例来对本发明的技术方案的突出贡献点进行详细说明。

实施实例一：

(1)特征提取：

提取语音信号的基本特征

	特征参数		特征参数		特征参数
						1	基音频率	11	振幅抖动百分比	21-32	12阶MFCC参数
2	最高基频	12	幅度微扰商	33-42	10阶LPCC参数
						3	最低基频	13	振幅扰动商
4	频率标准差	14	音调扰动商
						5	基频半音范围	15	平滑音调微扰商
6	抖动频率	16	基频变化率
						7	频率抖动百分比	17	谐噪比
8	相对平均微扰	18	嗓音骚动
						9	绝对频率抖动	19	软发音指数
10	振幅抖动频率	20	嗓音破裂程度

(2)特征优化：

不进行特征优化。

(3)识别过程：

采用高斯混合模型进行识别(M＝32)。

实施实例二

(1)特征提取同实例一。

(2)特征优化：

采用高斯混合模型进行特征参数单次降维处理。参数设置：D＝10，C＝1。

(3)识别过程：

采用高斯混合模型(M＝32)进行识别。

实施实例三

(1)特征提取同实例一和二。

(2)特征优化：

采用本发明的高斯混合模型对特征参数进行降维处理。参数设置同实例二。

不同于实施例二的在分类前进行特征降维，本发明的语音信号识别方法，是在进行模型训练后对特征维度进行降维处理，然后进行分类识别。

对本发明提出的采用基于自适应降维的高斯混合模型的语音识别方法进行性能测试，并进行交叉对比：

实例	一	二	三
				平均识别率	0.75	0.79	0.81

经过简单高斯混合模型和基于自适应降维的高斯混合模型方法降维处理后的语音信号识别率分别比未经过降维处理的识别率提高了4％和6％，基于自适应降维的高斯混合模型识别方法识别率最优。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自适应降维的语音识别分类方法，其特征在于，包括步骤：

2.根据权利要求1所述的语音识别分类方法，其特征在于，步骤(1)中，高斯混合模型的定义为：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

3.根据权利要求1所述的语音识别分类方法，其特征在于，步骤(2)中，针对当前输入测试样本数据进行特征空间的自适应降维处理，具体包括以下步骤：

202、计算高斯混合模型中所有高斯模型的标准化似然概率L，

<mrow> <mi>T</mi> <mi>h</mi> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <msup> <mi>&beta;</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>K</mi> </mrow> </munder> <mrow> <mo>{</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>}</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo><</mo> <mi>j</mi> <mo>&le;</mo> <mi>K</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，α＝-0.1，β代表特征维度数量，K表示语音信号样本所分类的总数量，L_i、L_j分别代表第i个、第j个高斯模型的标准化似然概率；

4.根据权利要求3所述的语音识别分类方法，其特征在于：降维后高斯混合模型的标准化似然概率分布仍旧服从高斯分布，样本C服从高斯分布

5.根据权利要求4所述的语音识别分类方法，其特征在于：移除样本C的C₁维度后，剩余的C₂特征维度仍旧服从多变量高斯分布