CN1201287C

CN1201287C - 语音识别的隐马尔可夫模型边缘化解码数据重建方法

Info

Publication number: CN1201287C
Application number: CNB03147473XA
Authority: CN
Inventors: 杜利民; 罗宇
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-07-14
Filing date: 2003-07-14
Publication date: 2005-05-11
Anticipated expiration: 2023-07-14
Also published as: CN1475987A

Abstract

本发明方法涉及到计算机技术应用技术。本发明利用隐马尔可夫模型(HMM)转移概率矩阵来描述语音特征矢量在时域上的动态特性，利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性，基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列，并基于最大后验概率估计(MAP)准则重建出“缺失矢量”。本发明算法较好的描述了相邻美子带特征之间的统计信息，并利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列，因此能够较好的重建出受噪声破坏的美子带特征，提高了语音识别系统的噪声鲁棒性能。

Description

语音识别的隐马尔可夫模型边缘化解码数据重建方法

技术领域

本发明方法涉及到计算机技术应用技术，特别是语音识别技术中根据未受噪声掩蔽的语音特征，利用边缘化Viterbi解码过程估计受噪声破坏的语音特征的技术。

背景技术

噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一，深入研究基于数据重建的语音识别鲁棒性技术，具有重要的理论意义和广泛应用价值。

当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知，使其变得不易察觉，这种现象称为掩蔽效应[吴宗济、林茂灿，1989]。根据人耳掩蔽效应，人们提出了数据重建方法。数据重建方法认为噪声和语音在时间-频率域上不同区域具有不同局部信噪比，并进行缺失分量估计，即把局部信噪比较低的区域标记为“缺失矢量”，而局部信噪比较高的区域标记为“可靠矢量”，然后重建“缺失矢量”，得到完整矢量后进行语音识别。

20世纪90年代后期以来，根据“可靠矢量”重建“缺失矢量”的技术受到很多研究人员的关注。传统的数据重建方法假设语音的特征矢量可以用N个高斯模型的码书进行单码字量化，并根据高斯模型集的参数分布，重建“缺失矢量”。国内外相关的工作很多，典型技术可以总结如下：

基于聚类的数据重建(Cluster-Based Reconstruction)算法(或者基于高斯模型集的数据重建算法)假设所有语音特征都来自N个高斯模型构成的高斯模型集。缺失分量估计后，基于高斯模型集的数据重建算法首先根据“可靠矢量”估计语音特征在高斯模型集中所属高斯模型，然后根据模型概率分布和“可靠矢量”，按照最大后验概率准则(MAP)，估计出“缺失矢量”。

基于混合高斯模型(Gaussian Mixuture Model，GMM)的数据重建算法利用GMM模型来描述语音特征矢量。利用噪声数据统计模型对GMM模型进行补偿，基于统计方法进行缺失分量估计，并以GMM模型均值作为“缺失矢量”的估计。

语音特征的时域动态特性在语音识别中具有重要作用，而基于高斯模型集和GMM模型的数据重建算法对每个语音特征独立地进行数据重建，没有考虑语音特征矢量在时域上的动态特性，具有一定的局限性。

发明内容

利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性，利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性，基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列，并基于最大后验概率估计准则重建出“缺失矢量”。

【数学模型】

隐马尔可夫模型假设一个离散时域有限状态自动机，在每一离散时刻t，自动机所处的状态用x_t表示，有x_t∈{Q₁~Q_L}，其中，{Q₁~Q_L}表示所有可能出现的状态。

假设自动机开始时刻t＝1，则在以后每一个时刻t＞1，自动机所处的状态以概率方式取决于初始状态概率矢量a和状态转移概率矩阵A。a是一个L维矢量，a＝[a₁，...，a_L]，其中，a_i表示在开始时刻，自动机处于状态Q_i的概率，表示为：

a_i＝P(x₁＝Q_i)(1≤i≤L) (1)

状态转移概率矩阵A是一个(L*L)维方阵，它的每一个元素用A_ij来表示，其意义是：在相邻两个时刻，系统状态从Q_i转移到Q_j的概率，表示为：

A_ij＝P(x_t＝Q_j/x_t-1＝Q_i)(t＞1，1≤i，j≤L) (2)

显然有：

Σ_{j = 1}^{L} A_{ij} = 1, &ForAll; i (1 \leq i, j \leq L) - - - (3)

因此，对于任何t＞1时刻，自动机所处状态x_t只取决于系统在前一时刻所处的状态x_t-1。从时刻1到时刻T，状态序列[x₁，x₂，...x_T]构成了一条一阶马尔可夫链。

在任意时刻，当系统处于状态Q_i时，观测到美子带特征S的概率表示为：

b_i(S)＝P_Qi(S)＝P(S/x＝Q_i)(1≤i≤L) (4)

L个状态的概率分布构成一个L维矢量B，表示为：

B＝[b₁(S)，...，b_i(S)，...b_L(S)] (5)

中心极限定理说明，如果一个随机变量是由大量相互独立的随机因素的综合影响所形成，而且每个因素在总的影响中所起的作用都很微小的情况下，随机变量的分布往往近似的服从高斯分布(正态分布)。因此，高斯模型是最常用的概率分布模型，得到了广泛的应用。假设在每个状态，纯净语音特征矢量的分布符合高斯分布：

P_{M_{j}} (S) = \frac{\exp {- \frac{1}{2} {(s - μ_{j})}^{t} {θ_{j}}^{- 1} (s - μ_{j})}}{{(2 π)}^{\frac{n}{2}} | θ_{j} |^{\frac{1}{2}}} - - - (6)

其中，μ_j，θ_j是第j个状态的高斯模型的均值矢量和协方差矩阵(1≤j≤L)，n是语音特征矢量维数，L是隐马尔可夫模型的状态数。

【算法描述】

为估计最优状态序列[x₁，x₂，…，x_T]，定义：

其意义是：寻找一条从时刻1到时刻t的最优状态序列，使系统在t时刻的状态为Q_i，并且该状态序列产生“可靠矢量”序列[S₁ ^o，S₂ ^o，...，S_t ^o]的概率最大，φ_t(i)是这种情况下的最大概率。已知φ_t(i)的情况下，很容易求解φ_t+1(j)：

此外，假设ψ_t+1(j)表示从时刻1到时刻t+1最优状态序列[x₁，x₂，...，x_t，x_t+1＝Q_j]中，t时刻所处的状态x_t的编号。表示为：

基于边缘化解码过程的数据重建(VITDI)算法按如下步骤进行：

1)初始化

δ_{1} (i) = a_{i} b_{i} (s_{1}^{o}), ψ_{1} (i) = 0, (1 \leq i \leq L) - - - (4 - 53)

其中，δ₁(i)表示系统时刻1处于状态i的概率；ψ₁(i)表示系统上一时刻状态，取值为0即系统处于初始状态；a_i表示初始状态为状态i的概率，b_i(s₁ ^o)表示系统处于状态i的情况下，观测到“可靠矢量”s₁ ^o的概率，即b_i(s₁)对s₁ ^o的边缘化概率：

b_{i} (s_{1}^{o}) = P_{Q_{i}} (S_{1}^{o}) = {&Integral; P}_{Q_{i}} (S_{1}) d S^{m} = {&Integral; P}_{Q_{i}} (S_{1}^{o} S^{m}) d S^{m} - - - (4 - 54)

其中，P_Qi(S₁ ^o)是系统处于状态i，高斯模型i产生“可靠矢量”s₁ ^o的概率，P_Qi(S₁)和P_Qi(S₁ ^oS^m)表示系统处于状态i，高斯模型i产生特征矢量S₁的概率；

2)递推

其中，δ_t(i)表示系统时刻t处于状态i的最大概率；ψ_t(i)表示系统t-1刻状态，取值为j，即系统上一状态处于状态j；A_ij表示系统从状态i转移到状态j的概率，b_j(s_t ^o)表示系统处于状态j的情况下，观测到“可靠矢量”s_t ^o的概率，即b_j(s_t)对s_t ^o的边缘化概率：

b_{j} (s_{t}^{o}) = P_{Q_{i}} (S_{t}^{o}) = &Integral; P_{Q_{i}} (S_{t}) d S^{m} = &Integral; P_{Q_{i}} (S_{t}^{o} S^{m}) d S^{m} - - - (4 - 56)

其中，P_Qi(S_t ^o)是系统处于状态i，高斯模型i产生“可靠矢量”s_t ^o的概率，P_Qi(S_t)和P_Qi(S_t ^oS^m)表示系统处于状态i，高斯模型i产生特征矢量S_t的概率；

3)终止

4)回溯，获取最优状态序列

5)

q_{t}^{*} = ψ_{t + 1} (q_{t + 1}^{*}), (t = T - 1, . . ., 1) - - - (4 - 58)

其中，q_t ^*表示系统t-1刻状态，取值为j，即系统t-1时刻处于状态j；

6)最大后验概率估计(MAP)重建“缺失矢量”

在时刻t，S_t所属状态x_t确定后，基于最大概率准则(MAP)重建“缺失矢量”的实质是估计“缺失矢量”S_t ^m，使状态x_t产生语音特征矢量(S＝[S_t ^oS_t ^m])的概率b_x1(S_t ^oS_t ^m)最大：

{\hat{S}}_{t}^{m} = \underset{S^{m}}{\arg \max} (b_{x_{1}} (S_{t}^{o} S_{t}^{m})) - - - (4 - 59)

假设在每个状态下，特征矢量分布为单高斯分布，即：

b_{i} (S) = P_{Q_{i}} (S) = \frac{\exp {- \frac{1}{2} {(S - μ_{i})}^{t} θ_{t}^{- 1} (S - μ_{i})}}{{(2 π)}^{\frac{n}{2}} | θ_{i} |^{\frac{1}{2}}} - - - (4 - 60)

其中，n是语音特征矢量维数，μ_i，θ_i是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵(1≤i≤L)。

根据状态分布为单高斯分布假设，求解[C.W.Therrien，1992][B.Raj，2000]式(4-46)，得到：

{\hat{S}}_{t}^{m} = μ_{x_{i} m} + θ_{x_{i} mo} θ_{x_{t} oo}^{- 1} (S^{o} - μ_{x_{i} o}) - - - (4 - 61)

其中，x_t表示系统在时刻t系统所处的状态；μ_xto表示状态x_t下，“可靠矢量”的均值矢量；μ_xtm表示状态x_t下，“缺失矢量”的均值矢量；θ_xtoo表示状态x_t下，“可靠矢量”的协方差矩阵；θ_xtmo表示状态x_t下，“可靠矢量”和“缺失矢量”间的协方差矩阵。

最后，得到重建后的完整矢量：

{\hat{S}}_{t} = [{S_{t}}^{o} {\hat{S}}_{t}^{m}] .

语音特征矢量隐马尔可夫模型的状态转移概率的分布很不均匀：某些状态间的转移概率较大；某些状态发生转移的概率较小。很多状态之间的转移概率很小，甚至为0。为了解决这个问题，可以调整状态转移矩阵，不允许出现转移概率为0的情况：当转移概率为0时，用一个很小的概率来代替。同时，为了解决由于精度不够导致计算过程中出现的下溢问题，在递推过程中使用对数概率取代普通概率。

本发明能显著提高语音识别系统对噪声的鲁棒性能。

附图说明

图1含噪语音的缺失分量估计；

图2含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果。

具体实施方式

人耳对声音的感知具有明显的非线性特性，在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能，考虑到听觉系统的临界带效应，通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析，在语音识别技术中得到了广泛的应用。下面，将以语音美(Mel)子带特征矢量的数据重建为例来说明基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法。

经过缺失分量估计，语音特征S分为两个矢量：“缺失矢量”S^m和“可靠矢量”S^o，图1给出了对含噪语音(高斯白噪声、Babble噪声，SNR＝15dB)的缺失分量估计结果。

含噪语音的缺失分量估计，缺失分量估计结果图中空白部分表示该部分语音受到噪声的严重破坏，属于“缺失矢量”，保留下来的是未受噪声严重破坏的“可靠矢量”。(A)列是对受Babble噪声破坏的语音进行理想缺失分量估计的结果，(B)列是对受高斯白噪声破坏的语音进行理想缺失分量估计的结果(图中的汉语语音是：“谈到汽车定点(tan2 dao4 qi4che1 ding4 dian3)”)

从图1可以看出，噪声破坏了纯净语音特征矢量的形态和分布，由于噪声特性和强度的不同，不同的噪声对语音特征的破坏作用也不同。

缺失分量估计完成后，根据“可靠矢量”和高斯模型集分布，按基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法重建出完整特征矢量，如图2所示，含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果，(A)列是对受Babble噪声破坏的语音进行数据重建的结果，(B)列是对受高斯白噪声破坏的语音进行数据重建的结果(图中的汉语语音是：“谈到汽车定点(tan2 dao4 qi4che1 ding4 dian3)”)

从图2可以看出，基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法利用HMM模型描述了相邻美子带特征之间的统计信息，利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列，能够较好的重建出受噪声破坏的美子带特征。重建后的美子带特征较好的重现了原始纯净语音段美子带特征的形态和分布，因此能够提高语音识别系统的噪声鲁棒性能。

Claims

1、一种语音识别的基于隐马尔可夫模型边缘化解码的数据重建方法，其特征在于，利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性，利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性，基于边缘化解码过程的数据重建算法，根据边缘化解码过程估计产生语音特征矢量的最优状态序列，并基于最大后验概率估计准则重建出“缺失矢量”；其中，基于边缘化解码过程的数据重建算法，按如下步骤进行：

第一步，初始化：

δ_{1} (i) = a_{i} b_{i} (s_{1}^{o})

(1≤i≤L)

ψ₁(i)＝0

b_{i} (s_{1}^{o}) = P_{Q_{i}} (S_{1}^{o}) = {&Integral; P}_{Q_{i}} (S_{1}) {dS}^{m} = {&Integral; P}_{Q_{i}} (S_{1}^{o} S^{m}) {dS}^{m}

第二步，递推：

b_{j} (s_{t}^{o}) = P_{Q_{j}} (S_{t}^{o}) = {&Integral; P}_{Q_{j}} (S_{t}) {dS}^{m} = {&Integral; P}_{Q_{i}} (S_{t}^{o} S^{m}) {dS}^{m}

第三步，终止：

第四步，回溯，获取最优状态序列：

q_{t}^{*} = ψ_{t + 1} (q_{t + 1}^{*}) - - - (t = T - 1, . . ., 1)

第五步，最大后验概率估计重建“缺失矢量”：

在时刻t，S_t所属状态x_t确定后，基于最大概率准则重建“缺失矢量”的实质是估计“缺失矢量”S_t ^m，使状态x_t产生语音特征矢量S＝[S_t ^oS_t ^m]的概率b_xt(S_t ^oS_t ^m)最大：

{\hat{S}}_{t}^{m} = \underset{S^{m}}{\arg \max} (b_{x_{t}} (S_{t}^{o} S_{t}^{m}))

在每个状态下，特征矢量分布为单高斯分布，即：

b_{i} (S) = P_{Q_{i}} (S) = \frac{\exp {- \frac{1}{2} {(S - μ_{t})}^{t} θ_{i}^{- 1} (S - μ_{i})}}{{(2 π)}^{\frac{n}{2}} {| θ_{i} |}^{\frac{1}{2}}}

其中，n是语音特征矢量维数，μ_i，θ_i是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵1≤i≤L；

根据状态分布为单高斯分布假设，求解，得到：

{\hat{S}}_{t}^{m} = μ_{x_{t} m} + θ_{x_{t} mo} θ_{x_{t} oo}^{- 1} (S^{o} - μ_{x_{t} o})

其中，x_t表示系统在时刻t系统所处的状态；μ_xto表示状态x_t下，“可靠矢量”的均值矢量；μ_xtm表示状态x_t下，“缺失矢量”的均值矢量；θ_xtoo表示状态x_t下，“可靠矢量”的协方差矩阵；θ_xtmo表示状态x_t下，“可靠矢量”和“缺失矢量”间的协方差矩阵；

第六步，得到重建后的完整矢量：

{\hat{S}}_{t} = [{S_{t}}^{o} {\hat{S}}_{t}^{m}];

算法步骤中所列

其中，ψ_t+1(j)表示从时刻1到时刻t+1最优状态序列中，t时刻所处的状态x_t的编号。

2、如权利要求1所述的数据重建方法，其特征在于，所述语音特征矢量隐马尔可夫模型的状态分布用符合单高斯分布进行描述。

3、如权利要求1所述的数据重建方法，其特征在于，调整状态转移矩阵，不允许出现转移概率为0的情况：当转移概率为0时，用一个很小的概率来代替；同时，为了解决由于精度不够导致计算过程中出现的下溢问题，在递推过程中使用对数概率取代普通概率。