CN102945670B

CN102945670B - 一种用于语音识别系统的多环境特征补偿方法

Info

Publication number: CN102945670B
Application number: CN201210488431.8A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2015-06-03
Anticipated expiration: 2032-11-26
Also published as: CN102945670A

Abstract

本发明公开一种用于语音识别系统的多环境特征补偿方法，在训练阶段，首先进行多环境语音采集，得到多个基本训练环境的训练语音；然后用每个基本训练环境的训练语音，训练生成该基本训练环境的语音模型；在识别阶段，首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型，然后对选取的语音模型进行参数变换，使之与当前测试环境匹配，最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。本发明可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能，提高系统的鲁棒性。

Description

一种用于语音识别系统的多环境特征补偿方法

技术领域

本发明涉及一种用于语音识别系统的多环境特征补偿方法，具体涉及到用预先训练的多个环境的语音模型对实际环境下提取的含噪语音特征向量进行补偿，减小环境失配，提高语音识别系统鲁棒性的多环境特征补偿方法；属于语音识别技术领域。

背景技术

语音识别技术已经在通信、消费电子、自助服务、智能家居等多个领域得到了广泛应用。然而在实际应用中，由于背景噪声、信道失真、语音自身变异性等因素的存在，测试环境与训练环境无法匹配，往往导致语音识别系统的性能急剧恶化。

传统的前端特征补偿和后端模型自适应技术都是基于纯净语音模型的，即将训练环境中得到的纯净语音模型变换到实际测试环境，用于估计纯净语音特征向量(特征补偿)或直接对含噪测试语音进行识别(模型自适应)。但是，在低信噪比等与纯净语音环境差异较大的测试环境中，通过变换纯净语音模型得到的含噪语音模型不能很好地描述含噪语音的分布，其识别性能与直接用含噪测试语音训练的理想系统有较大差距。

多环境技术可以较好地解决环境严重失配的问题，在训练阶段用多个基本训练环境预测实际测试环境，选取与测试环境最匹配的基本训练环境用于模型变换。现有的多环境技术都是在系统的后端进行，即多环境模型自适应，在训练阶段用多个基本训练环境的数据训练得到每个基本训练环境的声学模型；在测试阶段，选取与实际测试环境最接近的基本训练环境声学模型用于模型自适应，得到当前测试环境的声学模型，然后直接对含噪测试语音进行识别。

多环境模型自适应的优点在于无需估计纯净语音特征，补偿精确度高。但是在大词汇量连续语音识别系统中，由于语音识别的基本单元较多，系统的声学模型较多，因此模型自适应的计算量很大，难以跟踪环境的实时变化。

发明内容

发明目的：针对现有技术存在的问题与不足，本发明提供一种用于语音识别系统的多环境特征补偿方法。与后端模型自适应相比，前端特征补偿技术具有计算量小、实现灵活、与后端识别器无关的优点，因而其应用范围比后端模型自适应更为广泛，尤其适合大词汇量连续语音识别系统。

技术方案：一种用于语音识别系统的多环境特征补偿方法，在训练阶段，首先进行多环境语音采集，得到多个基本训练环境的训练语音；然后用每个基本训练环境的训练语音，训练生成该基本训练环境的语音模型；在识别阶段，首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型，然后对选取的语音模型进行参数变换，使之与当前测试环境匹配，最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。

训练阶段的具体步骤包括：

(1)在实际应用环境中采集各种噪声；为了解决低信噪比等环境严重失配的问题，在训练阶段用多个基本训练环境预测实际测试环境，用多个基本训练环境语音模型取代单一纯净训练语音模型；

(2)根据噪声类型和强度对采集的噪声进行聚类，将噪声归类到若干个基本训练环境中；

(3)用每个基本训练环境的噪声与训练语音混合，得到该基本训练环境的含噪训练语音；

(4)对每个基本训练环境的训练语音进行模型训练，得到该基本训练环境的语音模型，用高斯混合模型(GMM：Gaussian Mixture Model)对每个基本训练环境进行建语音模型，得到该基本训练环境GMM每个高斯单元的混合系数c_m、含噪均值向量μ_y，m和含噪协方差矩阵Σ_y，m，全部基本训练环境的GMM组成多环境语音模型；

测试阶段的具体步骤包括：

(5)从多环境模型中选择与当前测试环境最接近的基本训练环境，该基本训练环境的GMM即为最优GMM；

(6)用最大似然线性回归(MLLR：Maximum Likelihood Linear Regression)对选取的最优GMM进行模型参数变换，使其与当前测试环境更加匹配；最优GMM的均值变换和方差变换用最大似然线性回归实现，均值和方差变换参数直接从含噪测试语音中估计，无需知道噪声的先验知识；

(7)用参数变换后的最优GMM计算含噪测试语音的后验概率，根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量。

在训练阶段，用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后，还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μ_x，m，μ_x，m用于估计纯净语音特征向量。

在测试阶段的模型选择中，用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率，认为输出概率最高的基本训练环境与当前测试环境最接近，该基本训练环境的GMM即为最优GMM。

在测试阶段的纯净语音估计中，以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数，用纯净语音高斯均值μ_x，m的加权平均作为纯净语音特征向量的估计值。

有益效果：与现有技术相比，本发明提供的用于语音识别系统的多环境特征补偿方法，可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能，提高系统的鲁棒性。

附图说明

图1为本发明实施例的原理图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，用于语音识别系统的多环境特征补偿方法，主要包括训练阶段和测试阶段。训练阶段主要完成环境噪声采集、噪声聚类、噪声混合和多环境模型训练工作；测试阶段主要完成语音模型选择、模型参数变换和纯净语音估计工作。下面逐一详细说明附图中各模块的具体实施方案。

1、噪声聚类：

对实际应用环境中采集的噪声按噪声类型和噪声强度进行聚类，将实际应用环境划分为若干个基本训练环境。

2、噪声混合：

用每个基本训练环境的噪声与纯净训练语音混合，得到该基本训练环境的含噪训练语音。全部基本训练环境的含噪训练语音组成多环境训练语音库。

3、多环境模型训练：

首先对每个基本训练环境的含噪训练语音进行模型训练，得到该基本训练环境的GMM：

b (y_{t}) = Σ_{m = 1}^{M} c_{m} {{(2 π)}^{- D / 2} {| Σ_{y, m} |}^{- 1 / 2} \exp [- \frac{1}{2} {(y_{t} - μ_{y, m})}^{T} Σ_{y, m}^{- 1} (y_{t} - μ_{y, m})]} - - - (1)

其中，y_t表示第t帧含噪训练语音倒谱特征向量；c_m，μ_y，m和Σ_y，m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵。然后在纯净训练语音中，用以下公式估计该GMM每个高斯单元对应的纯净语音均值：

μ_{x, m} = \frac{Σ_{t = 1}^{T} γ_{m} (t) x_{t}}{Σ_{t = 1}^{T} γ_{m} (t)} - - - (2)

其中，表示给定GMM的先验参数λ时，第t帧纯净语音特征向量x_t属于第m个高斯单元的后验概率。GMM的每个高斯单元有四个参数{c_m,μ_y,m，Σ_y,m，μ_x，m}，含噪语音参数μ_y，m和Σ_y，m用于模型参数变换和计算后验概率，纯净语音参数μ_x，m用于纯净语音估计。

全部基本训练环境的GMM组成多环境语音模型。

4、模型选择：

用多环境语音模型中的每个基本训练环境的GMM对当前测试语音计算输出概率，输出概率最高的基本训练环境与当前测试环境最接近，该基本训练环境的GMM即为最优GMM。

5、模型参数变换：

对选取的最优GMM进行参数变换，使其与当前测试环境更加匹配。GMM的均值变换用以下MLLR公式实现：

μ_z，m＝Aμ_y，m+b

(3)

其中，μ_z，m表示变换后的均值向量。变换矩阵A通常取对角矩阵，因此采用以下单变量线性回归：

μ_{z, m} = U_{y, m} a + b = D_{y, m} \overset{&OverBar;}{w} - - - (4)

其中，a表示根据A的对角元素生成的列向量，U_y，m表示以μ_y，m为对角元素生成的对角矩阵，D_y，m＝[U_y，m,I]，I表示单位矩阵。

变换参数用以下公式估计：

\overset{&OverBar;}{w} = {[Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) D_{y, m}^{T} Σ_{y, m}^{- 1} D_{y, m}]}^{- 1} [Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) D_{y, m}^{T} Σ_{y, m}^{- 1} z_{t}] - - - (5)

其中，表示给定GMM的先验参数λ时，第t帧测试环境特征向量z_t属于第m个高斯单元的后验概率。

GMM的方差变换用以下MLLR公式实现：

{(Σ_{z, m})}^{- 1} = B_{y, m} {\overset{&OverBar;}{H}}^{- 1} {(B_{y, m})}^{T} - - - (6)

其中，为待估计的方差变换矩阵，B_y，m由下式决定：

B_y,m(B_y，m)^T＝(∑_y，m)^-1.

(7)

方差变换矩阵用下式估计：

\overset{&OverBar;}{H} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t) {(B_{y, m})}^{T} [(z_{t} - μ_{z, m}) {(z_{t} - μ_{z, m})}^{T}] B_{y, m}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t)} . - - - (8)

假设GMM的混合密度c_m保持不变，则参数变换后的高斯单元参数为其中c_m、μ_z，m和Σ_z，m用于计算当前含噪测试语音的后验概率，μ_x，m用于纯净语音估计。

6、纯净语音估计：

首先用参数变换后的GMM计算含噪测试语音z_t属于GMM第m个高斯单元的后验概率

{\overset{&OverBar;}{γ}}_{m}^{z} (t) = P (k_{t} = m | z_{t}, \overset{&OverBar;}{λ}) - - - (9)

然后用纯净语音高斯均值μ_x，m的加权平均作为纯净语音特征向量的估计值：

{\hat{x}}_{t} = Σ_{m = 1}^{M} {\overset{&OverBar;}{γ}}_{m}^{z} (t) μ_{x, m} . - - - (10)

纯净语音特征向量的一阶动态系数和二阶动态系数可以通过对估得的静态系数作时域差分得到：

Δ {\hat{x}}_{t} = \frac{Σ_{τ = - N}^{N} τ {\hat{x}}_{t + τ}}{Σ_{τ = - N}^{N} τ^{2}} - - - (11)

ΔΔ {\hat{x}}_{t} = \frac{Σ_{τ = - Γ}^{Γ} τΔ {\hat{x}}_{t + τ}}{Σ_{τ = - Γ}^{Γ} τ^{2}} - - - (12)

其中，N和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数。

Claims

1.一种用于语音识别系统的多环境特征补偿方法，其特征在于：包括训练阶段步骤和测试阶段步骤；

训练阶段的具体步骤包括：

(1)在实际应用环境中采集各种噪声；在训练阶段用多个基本训练环境预测实际测试环境，用多个基本训练环境语音模型取代单一纯净训练语音模型；

(4)对每个基本训练环境的含噪训练语音进行模型训练，得到该基本训练环境的语音模型，用高斯混合模型对每个基本训练环境进行建语音模型，得到该基本训练环境GMM每个高斯单元的混合系数c_m、含噪均值向量μ_y,m和含噪协方差矩阵Σ_y,m，全部基本训练环境的GMM组成多环境语音模型；

测试阶段的具体步骤包括：

(6)用最大似然线性回归对选取的最优GMM进行模型参数变换；最优GMM的均值变换和方差变换用最大似然线性回归实现，均值和方差变换参数直接从含噪测试语音中估计；

(7)用参数变换后的最优GMM计算含噪测试语音的后验概率，根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量；

在训练阶段，用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后，还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μ_x,m，μ_x,m用于估计纯净语音特征向量；

在测试阶段的模型选择中，用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率，认为输出概率最高的基本训练环境与当前测试环境最接近，该基本训练环境的GMM即为最优GMM；

在测试阶段的纯净语音估计中，以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数，用纯净语音高斯均值μ_x,m的加权平均作为纯净语音特征向量的估计值；

对每个基本训练环境的含噪训练语音进行模型训练，得到该基本训练环境的GMM：

b (y_{i}) = Σ_{m = 1}^{M} c_{m} {{(2 π)}^{- D / 2} {| Σ_{y, m} |}^{- 1 / 2} \exp [- \frac{1}{2} {(y_{t} - μ_{y, m})}^{T} Σ_{y, m}^{- 1} (y_{t} - μ_{y, m})]} - - - (1)

其中，y_t表示第t帧含噪训练语音倒谱特征向量；c_m，μ_y,m和Σ_y,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵；然后在纯净训练语音中，用以下公式估计该GMM每个高斯单元对应的纯净语音均值：

μ_{x, m} = \frac{Σ_{t = 1}^{T} γ_{m}^{x} (t) x_{t}}{Σ_{t = 1}^{T} γ_{m}^{x} (t)} - - - (2)

其中，表示给定GMM的先验参数λ时，第t帧纯净语音特征向量x_t属于第m个高斯单元的后验概率；GMM的每个高斯单元有四个参数{c_m,μ_y,m,Σ_y,m,μ_x,m}，含噪语音参数μ_y,m和Σ_y,m用于模型参数变换和计算后验概率，纯净语音参数μ_x,m用于纯净语音估计；全部基本训练环境的GMM组成多环境语音模型；

用多环境语音模型中的每个基本训练环境的GMM对当前测试语音计算输出概率，输出概率最高的基本训练环境与当前测试环境最接近，该基本训练环境的GMM即为最优GMM；

对选取的最优GMM进行参数变换，使其与当前测试环境更加匹配；GMM的均值变换用以下MLLR公式实现：

μ_z,m＝Aμ_y,m+b

(3)

其中，μ_z,m表示变换后的均值向量；变换矩阵A通常取对角矩阵，因此采用以下单变量线性回归：

μ_{z, m} = U_{y, m} a + b = D_{y, m} \overset{&OverBar;}{w} - - - (4)

其中，a表示根据A的对角元素生成的列向量，U_y,m表示以μ_y,m为对角元素生成的对角矩阵，D_y,m＝[U_y,m,I]，I表示单位矩阵；

变换参数用以下公式估计：

\overset{&OverBar;}{w} = {[Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t) D_{y, m}^{T} Σ_{y, m}^{- 1} D_{y, m}]}^{- 1} [Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t) D_{y, m}^{T} Σ_{y, m}^{- 1} z_{t}] - - - (5)

其中，表示给定GMM的先验参数λ时，第t帧测试环境特征向量z_t属于第m个高斯单元的后验概率；

GMM的方差变换用以下MLLR公式实现：

{(Σ_{z, m})}^{- 1} = B_{y, m} {\overset{&OverBar;}{H}}^{- 1} {(B_{y, m})}^{T} - - - (6)

其中，为待估计的方差变换矩阵，B_y,m由下式决定：

B_y,m(B_y,m)^T＝(Σ_y,m)^-1.

(7)

方差变换矩阵用下式估计：

\overset{&OverBar;}{H} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t) {(B_{y, m})}^{T} [(z_{t} - μ_{z, m}) {(z_{t} - μ_{z, m})}^{T}] B_{y, m}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m}^{z} (t)} - - - (8)

假设GMM的混合密度c_m保持不变，则参数变换后的高斯单元参数为其中c_m、μ_z,m和Σ_z,m用于计算当前含噪测试语音的后验概率，μ_x,m用于纯净语音估计；

用参数变换后的GMM计算含噪测试语音z_t属于GMM第m个高斯单元的后验概率

{\overset{&OverBar;}{γ}}_{m}^{z} (t) = P (k_{t} = m | z_{t}, \overset{&OverBar;}{λ}) - - - (9)

用纯净语音高斯均值μ_x,m的加权平均作为纯净语音特征向量的估计值：

{\hat{x}}_{t} = Σ_{m = 1}^{M} {\overset{&OverBar;}{γ}}_{m}^{z} (t) μ_{x, m} . - - - (10)

Δ {\hat{x}}_{t} = \frac{Σ_{τ = - N}^{N} τ {\hat{x}}_{t + τ}}{Σ_{τ = - N}^{N} τ^{2}} - - - (11)

ΔΔ {\hat{x}}_{t} = \frac{Σ_{τ = - Γ}^{Γ} τΔ {\hat{x}}_{t + τ}}{Σ_{τ = - Γ}^{Γ} τ^{2}} - - - (12)

其中，Ν和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数。