CN104485108A

CN104485108A - 一种基于多说话人模型的噪声与说话人联合补偿方法

Info

Publication number: CN104485108A
Application number: CN201410706129.4A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2015-04-01

Abstract

本发明公开了一种基于多说话人模型的噪声与说话人联合补偿方法，用多类说话人的声学模型预测目标说话人的语音特性，根据各类高斯混合模型（GMM）的识别结果选取与目标说话人最匹配的声学模型，并对其参数进行噪声补偿和说话人自适应，得到测试环境声学模型。本发明可以提高环境噪声、说话人的改变等多种环境失配因素存在时模型自适应的准确性。

Description

一种基于多说话人模型的噪声与说话人联合补偿方法

技术领域

本发明属于语音识别技术领域，具体涉及到用多类说话人语音训练生成多说话人模型，在测试环境下根据自适应语音选取与目标说话人最匹配的声学模型，并对其参数进行噪声补偿和说话人自适应，得到测试环境声学模型的模型自适应方法。

背景技术

语音识别系统的声学模型通常在实验室安静环境下用大量训练语音训练而成。在测试环境下，如果声学模型能够覆盖目标说话人的语音特性，则语音识别系统可以取得很高的识别率。然而在实际应用中，说话人的改变和环境噪声的影响总是不可避免的，因而需要根据测试环境下的语音及噪声特性，对声学模型的参数进行调整，使之与测试环境特征向量相匹配，提高语音识别系统的识别率。

在噪声鲁棒语音识别中，由噪声引起的非线性环境变换关系是确定的，因此可以根据非语音段提取的噪声参数，对声学模型的参数进行变换，一般可以取得很好的噪声补偿效果。在说话人自适应中，由说话人的改变引起的环境变换关系是未知的，难以用确定的函数关系进行描述，因而通常假设测试环境均值向量与训练环境均值向量之间存在线性变换关系，从测试环境下的少量自适应语音中估计线性变换参数，对声学模型的均值向量进行补偿。一般来说，说话人自适应算法也可以对其他语音变异性导致的环境失配进行补偿，比如用于噪声补偿。但由于线性假设与噪声引起的实际非线性环境变换关系相差甚远，因此难以取得很好的补偿效果。

一般来说，在实际应用中，环境噪声和说话人的变化是同时存在的，因而需要对噪声和说话人进行联合补偿，以减小环境失配的影响。而且，测试环境下用于调整模型参数的自适应数据是有限的，如果目标说话人的语音特性与预先训练的声学模型相差较大，则通过说话人自适应得到的声学模型也难以与测试语音相匹配。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于多说话人模型的噪声与说话人联合补偿方法；在训练阶段，首先根据说话人的语音特性，将训练语音划分为若干类，然后对每一类训练语音进行模型训练，得到一个GMM(Gaussian Mixture Model)模型和一组HMM(Hidden Markov Model)模型，多类训练语音的GMM模型和HMM模型组成多说话人模型；在测试阶段，通过噪声补偿后的GMM模型对目标说话人的语音特性进行识别，得到说话人信息，最后从多组声学模型中选取与目标说话人语音特性最接近的声学模型，并对其进行噪声补偿和说话人自适应，得到测试环境声学模型。

技术方案：一种基于多说话人模型的噪声与说话人联合补偿方法，包括训练阶段和测试阶段两部分，其中：

训练阶段的具体步骤包括：

(1)根据训练语音中各说话人的语音特性，对说话人进行聚类，根据聚类结果，划分训练语音，得到若干类说话人的训练语音；

(2)对每类说话人的训练语音进行GMM训练，得到该类说话人的GMM模型；

(3)对每类说话人的训练语音进行HMM训练，得到该类说话人每个语音单元的HMM模型(声学模型)，每类说话人语音的模型包括一个GMM模型和一组声学模型，GMM模型用于识别说话人，HMM模型用于语音识别；

测试阶段的具体步骤包括：

(4)从目标说话人的训练语音的非语音段提取噪声的参数，包括均值向量和协方差矩阵；

(5)根据估得的噪声参数，对每个GMM的均值和方差进行变换，使之与测试环境相匹配；

(6)用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别，判断其与哪类说话人的语音特性最接近，记录类序号，作为说话人选择的结果；

(7)根据类序号，从多说话人模型中选取与目标说话人语音特性最接近的一组HMM模型，并根据噪声参数对其每个高斯单元的均值和方差进行变换，完成噪声补偿过程；

(8)根据目标说话人的自适应语音对选取的HMM模型组的参数进行说话人自适应，进一步调整其参数，使之与测试语音相匹配，得到测试环境声学模型。

在目标说话人类别的选择中，用与语音单元无关的每类说话人GMM取代各个语音单元的HMM进行识别，无需对所有类声学模型的HMM进行噪声补偿，可以显著减小计算量，提高说话人选取速度。

本发明采用上述技术方案，具有以下有益效果：在本发明的声学模型参数补偿中，分别通过多说话人模型预测，噪声补偿和目标说话人自适应三个模块对声学模型每个HMM的参数进行调整，使之与含噪测试语音更好地匹配，因而可以显著提高环境噪声、说话人的改变等多种环境失配因素共同存在时模型自适应的准确性，增强语音识别系统对实际环境的鲁棒性。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于多说话人模型的噪声与说话人联合补偿方法，包括训练阶段和测试阶段两个部分。训练部分包括说话人聚类、多说话人GMM训练和多说话人HMM训练；测试部分包括GMM噪声补偿、说话人选择、HMM噪声补偿、HMM自适应；

1、说话人聚类：

根据语音库中各说话人的语音特性，对说话人进行聚类，用K均值算法将其划分为K类，得到K类说话人的训练语音。

2、多说话人模型训练：

对每类说话人的训练语音分别进行GMM训练和HMM训练，得到一个GMM和一组HMM。GMM代表该类说话人的语音特性，用于对目标说话人的特性进行识别；每个HMM代表一个语音单元的语音分布，用于声学解码。

3、GMM噪声补偿：

根据非语音段提取的噪声均值μ_n和方差Σ_n，对每个GMM的均值μ_x和方差Σ_x进行变换：

Σ_y＝(I-U)Σ_x(I-U)^T+UΣ_nU^T (2)

其中，μ_y和Σ_y分别表示测试环境下GMM的含噪语音均值和方差，I表示单位矩阵，和U为：

U = Cdiag (\frac{\exp (C^{- 1} (μ_{n} - μ_{x}))}{1 + \exp (C^{- 1} (μ_{n} - μ_{x}))}) C^{- 1} - - - (4)

其中，C表示离散余弦变换矩阵，diag()表示以括号中的向量元素为对角元素，生成对角矩阵。

4、说话人选择：

对每类说话人的GMM进行噪声补偿后，即可对目标说话人的语音特性进行识别，将目标说话人的自适应语音输入每类GMM，计算概率，概率最大的GMM即为与目标说话人语音特性最接近的GMM，目标说话人即属于该类说话人。

5、HMM噪声补偿：

首先根据GMM识别得到的说话人信息，从多说话人声学模型中选取与目标说话人语音特性最接近的声学模型；然后根据式(1)和式(2)，对该声学模型中每个HMM的每个高斯单元的均值和方差进行噪声补偿，得到噪声补偿后的声学模型。

6、HMM自适应：

一般目标说话人的语音特性与选取的声学模型总是存在一定的差异，因而需要对HMM的参数进一步进行说话人自适应，以便与测试语音更好的匹配。HMM的说话人自适应在对数谱域的每个Mel通道采用二阶多项式回归逼近实际环境变换关系：

μ_k,im,z＝C[U_k,im,y]²a₂+CU_k,im,ya₁+Ca₀ (5)

U_k,im,y＝diag(C^-1μ_k,im,y) (6)

其中，μ_k,im,y表示第k个HMM的第i个状态、第m个高斯单元经过噪声补偿后的均值向量，μ_k,im,z表示经过说话人自适应后的测试环境均值向量，a₂、a₁和a₀分别为多项式回归的二阶、一阶和常数系数。由于测试环境下可用的自适应数据通常较少，因此只变换各个HMM的均值向量。

为了从自适应数据中估计回归系数a₂、a₁和a₀，构建如下辅助函数：

Q (\overset{&OverBar;}{λ} | λ) = Σ_{k = 1}^{K} Σ_{i = 1}^{I} Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{k, im} (t) {(o_{t} - μ_{k, im, z})}^{T} Σ_{k, im, y}^{- 1} (o_{t} - μ_{k, im, z}) - - - (7)

其中，γ_k,im(t)，表示在给定观测序列O＝{o₁,…,o_t,…,o_T}和HMM的先验参数集λ的条件下，第t帧特征向量o_t属于第k个HMM第i个状态的第m个高斯单元的后验概率，K、I、M、T分别表示HMM的数目、每个HMM的状态数、每个状态的高斯数和自适应语音帧数。

将式(5)表示为矩阵形式：

μ_{k, im, z} = D_{k, im, y} \overset{&OverBar;}{w} - - - (8)

其中，

D_k,im,y＝[C,CU_k,im,y,C(U_k,im,y)²] (9)

\overset{&OverBar;}{w} = {[{(a_{0})}^{T}, {(a_{1})}^{T}, {(a_{2})}^{T}]}^{T} - - - (10)

将式(8)代入式(7)，并令关于的偏导数为0，则可以得到：

\overset{&OverBar;}{w} = {[Σ_{k = 1}^{K} Σ_{i = 1}^{I} Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{k, im} (t) {(D_{k, im, y})}^{T} Σ_{k, im, y}^{- 1} D_{k, im, y}]}^{- 1} [Σ_{k = 1}^{K} Σ_{i = 1}^{I} Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{k, im} (t) {(D_{k, im, y})}^{T} Σ_{k, im, y}^{- 1} o_{t}] - - - (11)

得到回归系数a₂、a₁和a₀后，即可根据式(5)对每个HMM经过噪声补偿的均值向量进行变换，得到与自适应语音匹配的均值向量，并且假设声学模型的其他参数不受目标说话人的影响，即可得到测试环境声学模型。得到测试环境声学模型后，即可对目标说话人的含噪测试语音进行声学解码和语言解码，得到识别结果。

Claims

1.一种基于多说话人模型的噪声与说话人联合补偿方法，其特征在于，包括如下步骤：

（1）根据训练语音中各说话人的语音特性，对说话人进行聚类，划分训练语音，得到若干类说话人的训练语音；

（2）对每类说话人的训练语音分别进行GMM训练和HMM训练，得到一个GMM模型和一组HMM模型；

（3）根据非语音段估得的噪声参数，对每个GMM的均值和方差进行噪声补偿，使之与含噪测试环境相匹配；

（4）用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别，判断其与哪类说话人的语音特性最接近，记录类序号，作为说话人选择的结果；

（5）根据GMM识别得到的说话人类序号，从多说话人声学模型中选取与目标说话人语音特性最接近的一组HMM模型，并根据噪声参数对其每个高斯单元的均值和方差进行变换，得到噪声补偿后的声学模型；

（6）根据目标说话人的自适应语音对选取的声学模型的每个HMM的参数进行说话人自适应，进一步调整其参数，使之与测试语音相匹配，得到测试环境声学模型。

2.根据权利要求1所述的基于多说话人模型的噪声与说话人联合补偿方法，其特征在于：在目标说话人自适应中，通过对数谱域的二阶多项式回归逼近训练环境均值向量和测试环境均值向量之间的实际环境变换关系，回归参数通过最大期望算法从测试环境下的自适应语音中估计。