CN105390134B

CN105390134B - 一种基于子带vts的模型自适应方法

Info

Publication number: CN105390134B
Application number: CN201510686218.1A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2019-01-11
Anticipated expiration: 2035-10-20
Also published as: CN105390134A

Abstract

本发明公开一种基于子带VTS的模型自适应方法，考虑了Mel滤波器组相邻通道之间的相关性，将全部Mel通道划分为若干个子带，假设每个子带内的全部Mel通道的环境变换关系共享同一个噪声参数，从而增加最大似然参数估计可用的数据量。该方法可以较好地克服数据稀疏问题，只需要很少的数据即可取得较好的自适应效果，尤其适合于少量数据时的快速模型自适应。

Description

一种基于子带VTS的模型自适应方法

技术领域

本发明涉及到在对数谱域用子带矢量泰勒级数逼近每个子带上的环境变换关系，从含噪语音中估计子带噪声参数，根据估得的噪声参数对每个子带上的声学模型均值分量进行子带变换，得到含噪语音声学模型的模型自适应方法，属于语音识别技术领域。

背景技术

语音识别系统在实际应用中通常会受到噪声、口音等语音变异性的影响，这往往导致其识别性能急剧下降，因此必须对系统的前端特征参数或后端声学模型进行补偿，使它们互相匹配，提高语音识别系统在实际环境中的识别性能。

模型自适应是一种重要的鲁棒语音识别技术，它根据测试环境下的少量自适应数据调整声学模型的参数，使之与测试环境下的特征参数相匹配。模型自适应可分为直接自适应和间接自适应两类。直接自适应又称为贝叶斯方法，它根据最大后验准则直接估计声学模型的参数。由于每个基本语音单元的声学模型用各自的自适应数据分别更新参数，因此直接自适应需要大量自适应数据，这在实际应用中很难满足。间接自适应也称为基于变换的模型自适应，它将全部声学模型的所有高斯单元分为若干类，然后假定每一类中所有高斯单元的参数符合同一个变换，用每一类的所有自适应数据估计该类的变换参数。在间接自适应中，由于考虑了不同模型、不同高斯之间的空间相关性，用多个状态的数据估计同一组变换参数，间接增加了参数估计的数据量，因此只需要较少的自适应数据即可取得较好的效果，也不需要每个语音单元都有各自的自适应数据。

在噪声快速变化的非平稳环境中，可用于参数估计的自适应数据很少，此时基于变换的模型自适应同样存在数据稀疏问题，即因为观测样本不足导致最大似然估计的结果不准确。为了跟踪非平稳环境，就需要用很少的数据进行模型自适应，因此研究少量数据时的快速模型自适应具有非常重要的意义。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于子带矢量泰勒级数(VTS：Vector Taylor Series)的模型自适应方法，该方法考虑了Mel滤波器组相邻通道之间的相关性，将全部Mel通道划分为若干个子带，假设每个子带内的全部Mel通道的环境变换关系共享同一个噪声参数，从而增加最大似然参数估计可用的数据量。该方法可以较好地克服数据稀疏问题，只需要很少的数据即可取得较好的自适应效果，尤其适合于少量数据时的快速模型自适应。

技术方案：一种基于子带VTS的模型自适应方法，主要包括子带划分、子带回归、参数估计、子带变换和参数合并等模块，系统以隐马尔可夫模型(HMM：Hidden Markov Model)为声学模型，下面具体说明其内容。

(1)根据自适应数据的数量，将Mel滤波器组的全部通道划分为若干个子带；

(2)将纯净语音HMM每个高斯单元的均值向量从倒谱域变换回对数谱域，得到HMM的对数谱域均值向量；

(3)根据子带划分方案，将HMM的每个对数谱域均值向量分解到每个子带上，得到每个子带的对数谱域均值分量；

(4)设每个子带上全部Mel通道的环境变换关系泰勒级数展开式共享同一个噪声参数，即对数谱域噪声均值；

(5)利用每个子带上的噪声参数，构造待估计的子带回归式，应用于HMM每个对数谱域均值向量在该Mel子带上的分量；

(6)将待估计的子带回归式代入最大期望算法的辅助函数，并令辅助函数关于子带噪声参数的导数等于0，从含噪测试语音中估计出每个子带的噪声参数；

(7)利用估得的子带噪声参数，对纯净语音HMM各子带的均值分量进行子带变换，得到含噪语音HMM的均值向量；

(8)假设噪声只影响HMM每个高斯单元的均值向量，含噪语音HMM与纯净语音HMM的其他参数都相同，将估得的含噪语音均值向量与纯净语音HMM的其他参数合并为新的模型参数集，即可得到与测试环境匹配的含噪语音声学模型。

Mel滤波器组的子带数目由自适应数据的数量动态决定，自适应数据越少，子带数目就越少，子带内包含的Mel通道就越多，子带参数估计共享的数据量就越多；自适应数据越多，子带数目就越多，直至与Mel通道数相同，恢复为传统的VTS模型自适应。

有益效果：本发明利用Mel滤波器组相邻通道之间的相关性，使相邻通道的环境变换关系共享同一个噪声参数，以增加最大似然参数估计的数据量。在自适应过程中，首先将纯净语音隐马尔可夫模型每个高斯单元的均值向量从倒谱域变换回对数谱域，再根据自适应数据量将每个对数谱域均值向量划分为若干个子带分量，且假设每个子带上的全部Mel通道的噪声均值都相同，构建VTS环境变换关系式。各子带的噪声参数通过最大期望算法从含噪测试语音中估计，然后根据估得的子带噪声参数对纯净语音HMM各子带的均值分量进行子带变换，得到含噪语音均值向量。最后将含噪语音均值向量与纯净语音HMM的其他参数合并，得到与测试环境匹配的含噪语音声学模型。本发明可以较好地克服数据稀疏问题，只需要很少的数据即可取得较好的自适应效果，尤其适合于少量数据时的快速模型自适应。

附图说明

图1为基于子带VTS的模型自适应语音识别系统的总体框架图，其中纯净HMM在训练阶段通过纯净语音训练而成，图中的子带划分、子带回归、参数估计、子带变换和参数合并模块都工作在测试阶段。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的基于子带VTS的模型自适应方法主要包括子带划分、子带回归、参数估计、子带变换和参数合并模块。下面逐一详细说明附图中各模块的具体实施方案。

1、子带划分

根据自适应数据的数量，将Mel滤波器组的全部通道划分为若干个子带；

在子带划分中，首先将预先训练的纯净语音声学模型每个高斯单元的均值向量μ变换回对数谱域，得到对数谱域均值向量u：

u＝C^-1μ (1)

其中，C^-1表示离散余弦变换矩阵的逆矩阵。

然后将D维对数谱域均值向量u＝[u₁,u₂,…,u_D]^T划分为K个子带：

为了便于描述，u可以写为K个D维子带均值分量之和的形式：

其中，

2、子带回归

假设在每个子带上，所有Mel通道的噪声均值相同，则测试环境含噪语音均值分量与训练环境纯净语音均值分量u_k之间的变换关系符合如下VTS展开式：

其中，u_n,k和u_n0,k分别表示第k个子带上的噪声均值及其初值；e_k为第k个子带上的单位向量，该子带Mel通道对应元素的值为1，其他子带Mel通道对应元素的值为0；对角矩阵U_k的表达式为：

其中，diag()表示以括号中向量的元素为对角元素生成对角矩阵。

将所有子带上的含噪语音均值分量相加，即可得到对数谱域含噪语音均值向量

在式(6)两边取离散余弦变换，即可得到倒谱域含噪语音均值向量

其中，C表示离散余弦变换矩阵。

3、参数估计

在式(7)的子带回归表达式中，子带参数u_n,k从含噪测试语音中估计。假设语音识别系统以隐马尔可夫模型(HMM)为声学模型，纯净HMM第i个状态的概率密度函数为：

其中，x_t为第t帧倒谱特征向量；c_im、μ_im、Σ_im分别是HMM第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵。根据式(7)，含噪HMM第i个状态的第m个高斯单元的含噪语音倒谱均值可以表示为：

其中，U_k,im由下式决定：

为了便于参数估计，将K个噪声参数表示为K维列向量形式：u_n＝[u_n,1,u_n,2,…,u_n,K]^T，则式(9)可以改写为：

其中，D_im＝C[U_1,ime₁,U_2,ime₂,…,U_K,ime_K]。

子带参数u_n通过最大期望算法(EM：Expectation Maximization)从含噪测试语音中估计，EM算法的辅助函数为：

其中，γ_im(t)＝P(θ_t＝i,k_t＝m|Y,λ)是在给定含噪语音序列Y＝{y₁,…,y_t,…,y_T}和HMM先验参数λ条件下，第t帧含噪语音y_t属于HMM第i个状态的第m个高斯单元的后验概率；是待估计的HMM参数。

将式(11)代入式(12)，并令关于u_n的导数等于0，则可得到：

根据式(13)，噪声参数u_n的估计公式为：

4、子带变换

得到噪声参数u_n，即可根据下式对纯净语音HMM的每个均值向量μ_im进行子带变换，得到含噪语音HMM的均值向量

其中，u_k,im通过对μ_im进行逆离散余弦变换和子带划分得到。

5、参数合并

假设噪声只影响HMM每个高斯单元的均值向量，含噪语音HMM与纯净语音HMM的其他参数都相同。将通过式(14)得到的含噪语音均值向量与纯净语音HMM的其他参数合并为新的参数集即可得到与测试环境匹配的含噪语音声学模型。最后，用参数合并得到的含噪语音声学模型对含噪测试语音进行声学解码，即可得到识别结果。

Claims

1.一种基于子带VTS的模型自适应方法，其特征在于：利用Mel滤波器组相邻通道之间的相关性，将全部Mel通道划分为若干个子带，假设每个子带内的全部Mel通道的VTS环境变换关系共享同一个噪声参数，从而增加最大似然估计可用的数据量，较好地克服数据稀疏问题，通过快速模型自适应得到与测试环境相匹配的含噪语音声学模型，主要包括子带划分、子带回归、参数估计、子带变换和参数合并部分；

子带划分：

子带回归：

参数估计：

子带变换：

参数合并：

2.如权利要求1所述的基于子带VTS的模型自适应方法，其特征在于，Mel滤波器组的子带数目由自适应数据的数量动态决定，自适应数据越少，子带数目就越少，子带内包含的Mel通道就越多，子带参数估计共享的数据量就越多；自适应数据越多，子带数目就越多，直至与Mel通道数相同，恢复为传统的VTS模型自适应。

3.如权利要求1所述的基于子带VTS的模型自适应方法，其特征在于，在子带划分中，首先将预先训练的纯净语音声学模型每个高斯单元的均值向量μ变换回对数谱域，得到对数谱域均值向量u：

u＝C^-1μ (1)

其中，C^-1表示离散余弦变换矩阵的逆矩阵，

为了便于描述，u可以写为K个D维子带均值分量之和的形式：

其中，

4.如权利要求1所述的基于子带VTS的模型自适应方法，其特征在于，假设在每个子带上，所有Mel通道的噪声均值相同，则测试环境含噪语音均值分量与训练环境纯净语音均值分量u_k之间的变换关系符合如下VTS展开式：

其中，diag()表示以括号中向量的元素为对角元素生成对角矩阵，

其中，C表示离散余弦变换矩阵。

5.如权利要求1所述的基于子带VTS的模型自适应方法，其特征在于，在式(7)的子带回归表达式中，子带参数u_n,k从含噪测试语音中估计，假设语音识别系统以隐马尔可夫模型(HMM)为声学模型，纯净HMM第i个状态的概率密度函数为：

其中，x_t为第t帧倒谱特征向量；c_im、μ_im、Σ_im分别是HMM第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵，根据式(7)，含噪HMM第i个状态的第m个高斯单元的含噪语音倒谱均值可以表示为：

其中，U_k,im由下式决定：

其中，D_im＝C[U_1,ime₁,U_2,ime₂,…,U_K,ime_K]，

其中，γ_im(t)＝P(θ_t＝i,k_t＝m|Y,λ)是在给定含噪语音序列Y＝{y₁,…,y_t,…,y_T}和HMM先验参数λ条件下，第t帧含噪语音y_t属于HMM第i个状态的第m个高斯单元的后验概率；是待估计的HMM参数；

将式(11)代入式(12)，并令关于u_n的导数等于0，则可得到：

根据式(13)，噪声参数u_n的估计公式为：

6.如权利要求1所述的基于子带VTS的模型自适应方法，其特征在于，子带变换中，得到噪声参数u_n，即可根据下式对纯净语音HMM的每个均值向量μ_im进行子带变换，得到含噪语音HMM的均值向量

7.如权利要求4所述的基于子带VTS的模型自适应方法，其特征在于，假设噪声只影响HMM每个高斯单元的均值向量，含噪语音HMM与纯净语音HMM的其他参数都相同；将通过式(14)得到的含噪语音均值向量与纯净语音HMM的其他参数合并为新的参数集即可得到与测试环境匹配的含噪语音声学模型；最后，用参数合并得到的含噪语音声学模型对含噪测试语音进行声学解码，即可得到识别结果。