CN104795063A

CN104795063A - 一种基于声学空间非线性流形结构的声学模型构建方法

Info

Publication number: CN104795063A
Application number: CN201510124249.8A
Authority: CN
Inventors: 张文林; 屈丹; 李�真; 闫红刚; 牛铜
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2015-07-22

Abstract

本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域，对每个局部区域用一个低维的线性因子分析模型进行近似，得到声学特征空间的混合因子分析模型；将上下文相关状态的观测矢量限定在该非线性低维流形结构上，估计其观测概率模型；每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定；通过迭代过程，分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明所构建的声学模型的非线性假设条件更为合理，具有直观的物理意义，且声学模型中大量的参数是状态无关的，特别适用于训练数据量较少时的连续语音识别声学建模。

Description

一种基于声学空间非线性流形结构的声学模型构建方法

技术领域

本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法，属于连续语音识别技术领域。

背景技术

在连续语音识别中，为了反映同一音素在不同上下文环境中发音的不同，通常采用上下文相关音素建模方法，即对每一个音素的不同音位变体，分别用一个隐马尔可夫模型(Hidden Markov Model，HMM)进行建模，其中每一个隐含状态的观测概率分布用高斯混合模型(Gaussian Mixture Model，GMM)或神经网络进行逼近。这种上下文相关模型的参数数量庞大，即使采用状态绑定等方法来减少状态个数，典型的连续语音识别系统参数数量仍然在百万级以上。为了训练得到一个性能良好的识别系统，需要大量的训练数据，而实际中训练数据往往是十分有限的。因此，为了减少模型对训练数据量的要求，需要进一步降低模型的复杂度，提高参数估计的稳健性。

针对传统的“隐马尔可夫模型(Hidden Markov Model，HMM)-高斯混合模型(Gaussian Mixture Model，GMM)”声学模型，目前常用的解决方案有：结构化协方差矩阵/精度矩阵建模方法，即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的)基矩阵的线性叠加得到，各高斯混元通过某种方式共享一组相同的基矩阵；本征三音子(Eigentriphone)建模方法，将上下文相关状态进行聚类，将每一类状态的均值矢量限定在一个线性子空间中，通过估计子空间中的低维坐标矢量来重构状态的均值矢量，从而得到更为精确的参数估计；子空间高斯混合模型(Subspace Gaussian Mixture Model，SGMM)将高斯混元的均值和权重限制在一个全局参数子空间中，因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示，从而提高模型参数估计的稳健性。与传统的高斯混合模型(Gaussian Mixture Model，GMM)相比，SGMM声学模型大大压缩了模型尺寸，并且可以利用集外数据对参数子空间进行估计，因此特别适用于训练数据量受限条件下的语音识别。

前述几种方法可以归结为一大类基于基展开(Basis Expand)的声学建模方法。近年来，基于压缩感知与稀疏表达的方法受到众多学者的青睐，已被成功应用于语音去噪、稳健性语音识别、声学模型正则化等方面。2012年，Saon等将压缩感知技术直接应用于连续语音识别声学建模中，将表示方法与马尔可夫链相结合，提出了一种贝叶斯感知隐马尔可夫模型(Bayesian Sensing HMMs，BSHMMs)，取得了不错的效果。BS-HMMs的有效性可以归结为其在声学特征层次上应用压缩感知技术来建立状态模型，并利用最大后验估计得到了稳健的模型参数。然而，与SGMM声学模型不同，其各状态模型之间的参数估计是相互独立的，需要训练多个状态相关字典，因此对训练数据量的要求仍较高。2013年，Zhang等提出稀疏精度矩阵建模方法，即对协方差矩阵的逆矩阵直接施加稀疏约束，从而间接减少模型参数数量。

上述基展开方法本质上都是寻找模型参数的线性子空间，事实上，众多研究表明语音信号存在一个低维的非线性流形结构，因此现有方法采用线性子空间来对模型参数的相关性进行建模是不精确的，只是一种近似方法。

发明内容

本发明的目的是提供一种基于声学空间非线性流形结构的声学模型构建方法，以解决目前采用线性子空间来对模型参数的相关性进行建模所导致模型不精确的问题。

本发明为解决上述技术问题而提供一种基于声学空间非线性流形结构的声学模型构建方法，该构建方法包括以下步骤：

1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM)；

2)对UBM中每个高斯混元的协方差矩阵进行特征值分析，确定声学特征空间各局部区域的潜在维数D_i及因子分析模型参数，得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA)，作为其低维非线性流形结构的近似模型；

3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系，将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上，估计上下文相关状态的观测概率模型，即构成了基于MFA的上下文相关状态模型；

4)对基于MFA的上下文相关状态模型的参数进行迭代估计，最终所得到模型即为所要构建的声学模型。

所述步骤1)中背景模型UBM的生成过程如下：

A.利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线系统；

B.对基线系统中所有状态的高斯混元进行两两合并，计算合并前后的似然得分的损失值；

C.将损失值最小的两个高斯混元合并为一个新的高斯混元，直至得到新的高斯混元数达到设定值。

所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部区域，计算观测数据落入其中每个区域的概率，并对每个局部区域分别用一个因子分析模型近似得到。

所述步骤2)中第i个局部区域的潜在维数D_i的确定过程如下：

A)将UBM中的各协方差矩阵中的特征值按照从大到小排序为λ_i1,λ_i2,…,λ_iD，其中D为特征矢量维数；

B)计算各个特征值的累积贡献率其中η_id为第i个局部区域第d个特征值的累积贡献率；

C)选择特征值累积贡献率超过某个设定门限的最小特征值序号作为第i个局部区域的潜在维数D_i。

所述步骤3)中上下文相关的每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。

所述步骤4)中第j个上下文状态的观测概率模型为：

其中，表示均值矢量为μ、协方差矩阵为Σ的多元正态分布，o_t表示t时刻的观测特征矢量，μ_i、M_i和Σ_i分别表示第i个局部区域的中心矢量、局部坐标系矩阵和数据分布的协方差矩阵，y_ji是状态j在第i个局部区域内的均值对应的局部区域坐标矢量，w_ji表示状态j的观测数据落入第i个局部区域的概率。

所述步骤5)中是采用期望最大化算法EM进行重估，包括计算统计量、重估权重参数、重估计局部坐标矢量和重估状态无关参数四个过程。

对于第j个状态和第i个局部区域，所述零阶、一阶和二阶统计量的计算公式分别如下：

γ_ji＝Σ_tγ_ji(t)

s_ji＝Σ_tγ_ji(t)o_t

S_{ji} = Σ_{t} γ_{ji} (t) o_{t} o_{t}^{T}

其中，γ_ji(t)表示给定观测序列O及模型参数Λ^(k)的条件下t时刻处于状态j的第i个高斯混元的后验概率，可通过Baum-Welch前后向算法计算得到。

第k次迭代，状态j的第i个高斯混元的权重参数w_ji的重估公式为：

w_{ji}^{(k + 1)} = \frac{γ_{ji}}{Σ_{i^{'}} γ_{{ji}^{'}}}

若则即为权重矢量的更新值，其中a为预先选定的正整数(1≤α≤I)，||·||₀表示矢量的零范数，即矢量的非零元素个数；

否则，将的各分量从大到小排序为w′_j1,w′_j2,…,w′_jI，计算对应累积贡献率寻找取门限τ_j＝w′_jp；对每一个权重分量执行下面的“收缩”与“归一化”操作：

权重收缩：

w_{ji}^{(k + 1)} &LeftArrow; {[w_{ji}^{(k + 1)} - τ_{j}]}_{+}

权重归一化：

w_{ji}^{(k + 1)} &LeftArrow; \frac{w_{ji}^{(k + 1)}}{Σ_{i^{'}} w_{{ji}^{'}}^{(k + 1)}}

其中，

{[w_{ji}^{(k + 1)} - τ_{j}]}_{+} = \max {w_{ji}^{(k + 1)} - τ_{j}, 0},

最终得到更新的权重矢量

w_{j}^{(k + 1)} = [\begin{matrix} w_{j 1}^{(k + 1)} & w_{j 2}^{(k + 1)} & . . . & w_{jI}^{(k + 1)} \end{matrix}] .

本发明的有益效果是:本发明从声学特征空间的非线性流形结构特点出发，将整个特征空间划分为多个局部区域，对每个局部区域用一个低维的因子分析模型进行近似，从而得到混合因子分析模型；同时将上下文相关状态的观测矢量限定在该非线性低维流形结构上，推导得到其观测概率模型，最终，每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。本发明所构建的声学模型的非线性假设条件更为合理，具有直观的物理意义，可以得到更为紧凑和稳健的声学模型，且声学模型中大量的参数(即非线性流形数学模型的参数)是状态无关的，而状态相关参数较少，因此特别适用于训练数据量较少时的连续语音识别声学建模。

附图说明

图1是本发明的流程图；

图2是初始UBM训练流程图；

图3是混合因子分析模型训练流程图；

图4是MFA声学模型的重估流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明。

本发明从声学特征空间的非线性流形结构特点出发，将整个特征空间划分为多个局部区域，对每个局部区域用一个低维的因子分析模型进行近似，从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形结构上，可推导得到其观测概率模型。最终，每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定，本发明给出了局部区域潜在维数的确定准则及各模型参数的迭代估计算法实现流程。相比于传统的GMM声学模型，新的声学模型的非线性假设条件更为合理，具有直观的物理意义，可以得到更为紧凑和稳健的声学模型。在本发明训练所得到的声学模型中，大量的参数(即非线性流形数学模型的参数)是状态无关的，而状态相关参数较少，因此特别适用于训练数据量较少时的连续语音识别声学建模。

如图1所示，本发明采用含有I个高斯混元的高斯混合模型(GMM)作为声学特征空间的统一背景模型(UBM)；对UBM中每个高斯混元的协方差矩阵进行特征值分析，确定声学特征空间I个局部区域的潜在维数D_i及因子分析模型参数，得到声学特征空间中的低维非线性流形结构作为混合因子分析模型(MFA)；将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上；使用与低维非线性流形结构中声学特征空间相同的局部区域划分与局部坐标系，构造上下文相关状态的观测概率分布，即构成了基于MFA的上下文相关状态模型；对基于MFA的上下文相关状态模型的参数进行重新估计，重新估计后得到模型即为所要构建的声学模型。上述过程的具体实施步骤如下：

1.训练声学特征空间的统一背景模型(UBM)

设基线系统中高斯混元总数为M，对高斯混元按某种顺序从1到M进行编号，设第m个高斯混元的均值为协方差矩阵为对训练数据进行强制对齐，并计算每个高斯混元m对应的零阶统计量γ_m＝Σ_tγ_m(t)。

则第m个高斯混元所对应训练数据的似然度可以计算为

{LLK}_{m} = - \frac{γ_{m}}{2} [D + D \log (2 π) + \log | {\tilde{Σ}}_{m} |] - - - (1)

其中，D表示特征的维数。

设将第m′和第m″个高斯混元聚类后合并产生新的高斯混元m″′，其对应的零阶、一阶与二阶统计量分别计算为γ_m″′＝γ_m′+γ_m″，s_m″′＝s_m′+s_m″、S_m″′＝S_m′+S_m″，则新高斯混元的权重、均值矢量和协方差矩阵可以分别计算为：

{\tilde{w}}_{m^{'''}} = \frac{γ_{m^{'''}}}{Σ_{m} γ_{m}} - - - (2)

{\tilde{μ}}_{m^{'''}} = \frac{s_{m^{'''}}}{γ_{m^{'''}}} - - - (3)

{\tilde{Σ}}_{m^{'''}} = \frac{S_{m^{'''}} - γ_{m^{'''}} {\tilde{μ}}_{m^{'''}} {\tilde{μ}}_{m^{'''}}^{T}}{γ_{m^{'''}}} - - - (4)

根据式(1)，合并后训练数据对数似然度的损失值可以计算为：

\begin{matrix} {ΔLLK}_{m^{'} m^{''} &RightArrow; m^{'''}} = {LLK}_{m^{'''}} - {LLK}_{m^{'}} - {LLK}_{m^{''}} \\ = γ_{m^{'}} \log | {\tilde{Σ}}_{m^{'}} | / 2 + γ_{m^{''}} \log | {\tilde{Σ}}_{m^{''}} | / 2 - γ_{m^{'''}} \log | {\tilde{Σ}}_{m^{'''}} | / 2 \end{matrix} - - - (5)

通过M-I步聚类过程得到含有I个高斯混元的GMM，在每一步聚类过程中，对当前的高斯混元进行两两合并，通过式(5)计算合并前后的似然得分的损失值，将损失值最小的两个高斯混元合并为一个新的高斯混元，并将合并前的两个高斯混元删除，新高斯混元的权重、均值矢量与协方差矩阵分别通过式(2)、(3)和(4)计算得到。设上述聚类过程后完成后，得到含有I个高斯混元的GMM参数为上述训练流程如图2所示。

2.初始化声学特征空间的混合因子分析(MFA)背景模型

假设将声学特征空间的非线性流形划分为I个局部区域，观测数据x落入其中的概率分别为w₁,w₂,…,w_I，对每个局部区域分别用一个因子分析模型来近似，则得到混合因子分析模型，其数学表达式为：

其中，μ_i、M_i和Σ_i分别为第i个因子分析模型的均值、因子负载矩阵和重建误差矩阵，y_i为观测数据x在其中对应的坐标矢量。式(7)中，每个局部因子分析模型所对应的线性子空间维数可能是不同的，令第i个因子分析模型的线性子空间维数为D_i，则M_i是一个D×D_i维的矩阵，局部坐标y_i是一个D_i的矢量。

在初始化阶段，对UBM中的各协方差矩阵进行特征值分析，将特征值从大到小排序为λ_i1,λ_i2,…,λ_iD，对应特征矢量为定义第d个特征值的累积贡献率(Cumulative Contribution Rate，CCR)η_id为

η_{id} = \frac{Σ_{d^{'} = 1}^{d} λ_{{id}^{'}}}{Σ_{d^{''} = 1}^{D} λ_{{id}^{''}}}, - - - (8)

η_id反映了前d个特征值占总的特征值之和的比率。

对于混合因子分析模型的第i个局部区域，选择其潜在维数D_i为：

D_{i} = \min_{d} {d : η_{id} &GreaterEqual; 0.9} - - - (9)

即选择特征值累积贡献率超过90％的、最小的特征值序号作为第i个局部区域的潜在维数。第i个局部区域对应因子分析模型的其余参数分别初始化为：

w_{i} = {\tilde{w}}_{i} - - - (10)

μ_{i} = {\tilde{μ}}_{i} - - - (11)

M_{i} = [\begin{matrix} \sqrt{λ_{i 1} - σ_{i}} {\tilde{e}}_{i 1} & \sqrt{λ_{i 2} - σ_{i}} {\tilde{e}}_{i 2} & . . . & \sqrt{λ_{{iD}_{i}} - σ_{i}} {\tilde{e}}_{{iD}_{i}} \end{matrix}] - - - (12)

Σ_i＝σ_iI (13)

其中，σ_i的计算公式为：

σ_{i} = \frac{1}{D - D_{i}} Σ_{d = D_{i} + 1}^{D} λ_{id} - - - (14)

3.重估声学特征空间的混合因子分析(MFA)背景模型

在得到混合因子分析(MFA)模型的初始参数后，可以对模型参数在所有的训练数据上采用EM算法进行无监督的训练。对特征矢量o_t，将其在流形上对应的局部区域序号i及局部坐标y_i视为两组隐藏变量，设第k次迭代后模型参数为令γ_i(t)为给定参数Λ^(k)，特征矢量o_t属于第i个局部区域的后验概率，其计算表达式为：

MFA中各参数的更新公式为：

w_{i}^{(k + 1)} = \frac{Σ_{t} γ_{i} (t)}{Σ_{t} Σ_{i^{'}} γ_{i^{'}} (t)} - - - (16)

[\begin{matrix} M_{i}^{(k + 1)} & μ_{i}^{(k + 1)} \end{matrix}] = {\tilde{M}}_{i}^{(k + 1)} = [Σ_{t} γ_{i} (t) o_{t} E {({\tilde{y}}_{i} | o_{t})}^{T}] {[Σ_{t} γ_{i} (t) E ({\tilde{y}}_{i} {\tilde{y}}_{i}^{T} | o_{t})]}^{- 1} - - - (17)

Σ_{i}^{(k + 1)} = \frac{1}{Σ_{t} Σ_{i^{'}} γ_{i^{'}} (t)} {Σ_{t} γ_{i} (t) o_{t} o_{t}^{T} - {\tilde{M}}_{i}^{(k + 1)} [Σ_{t} γ_{i} (t) E ({\tilde{y}}_{i} | o_{t}) o_{t}^{T}]} - - - (18)

其中，后验均值和矩阵可以计算为：

E ({\tilde{y}}_{i} | o_{t}) = [\begin{matrix} E (y_{i} | o_{t}) \\ 1 \end{matrix}] - - - (19)

E ({\tilde{y}}_{i} {\tilde{y}}_{i}^{T} | o_{t}) = [\begin{matrix} E (y_{i} y_{i}^{T} | o_{t}) & E (y_{i} | o_{t}) \\ E (y_{i}^{T} | o_{t}) & 1 \end{matrix}] - - - (20)

其中，

E (y_{i} | o_{t}) = {(I + {(M_{i}^{(k)})}^{T} {(Σ_{i}^{(k)})}^{- 1} M_{i}^{(k)})}^{- 1} {(M_{i}^{(k)})}^{T} {(Σ_{i}^{(k)})}^{- 1} (o_{t} - μ_{i}^{(k)}) - - - (21)

E (y_{i} y_{i}^{T} | o_{t}) = {(I + {(M_{i}^{(k)})}^{T} {(Σ_{i}^{(k)})}^{- 1} M_{i}^{(k)})}^{- 1} + E (y_{i} | o_{t}) E {(y_{i} | o_{t})}^{T} - - - (22)

图3给出了声学空间的混合因子分析模型背景模型的训练流程图，其中K为总的迭代次数。

4.初始化上下文相关状态声学模型

假设状态j的观测矢量在第i个局部区域内服从高斯分布，其在第i个局部区域内均值的局部坐标为y_ji。则在给定各局部区域坐标的条件下，状态j的观测概率模型为：

注意，这里对应混合因子分析模型中各局部区域的中心、局部坐标系。y_ji是状态j在第i个局部区域内的均值对应的坐标矢量，根据混合因子分析模型的假设，它服从标准正态分布，即：

由于每个声学建模单元有其独特的发音方式，其平稳段对应的观测特征矢量必然分布于流形上的一个或多个局部区域，不可能覆盖完整的流形结构，这也就意味着权重矢量w_j＝[w_j1 w_j2 … w_jI]必然是稀疏的，其大部分的分量为0。

因此，可以对权重矢量w_j显式地引入稀疏约束，假设最大允许的不为零的权重分量个数为α，则有：

||w_j||₀≤α (25)

其中，||w_j||₀表示矢量w_j的l₀范数，其值等于矢量w_j中不为零的分量个数。

式(23)～(25)即构成了基于MFA的上下文相关状态模型。对于状态j，需要估计的参数为权重矢量w_j及其中非零分量对应局部区域内的坐标矢量{y_ji,i∈I_j}，其中指标集I_j＝{i:w_ji＞0}。

在初始化阶段，我们将状态无关参数初始化为MFA模型中的对应参数，对上下文相关状态j，将权重矢量的所有分量均初始化为将均初始化为其先验均值0。

5.重估上下文相关状态声学模型参数

在得到初始的MFA声学模型，采用EM算法对其参数进行重新估计，其估计流程如图4所示。

其中，每一步迭代过程包含①～④步，分别完成计算统计量、重估权重参数、重估计局部坐标矢量、重估状态无关参数四个过程。各过程的估计算法分别如下：

第①步，计算零阶、一阶和二阶统计量。

各阶统计量的计算公式如下：

γ_ji＝Σ_tγ_ji(t) (26)

s_ji＝Σ_tγ_ji(t)o_t (27)

S_{ji} = Σ_{t} γ_{ji} (t) o_{t} o_{t}^{T} - - - (28)

其中，γ_ji(t)表示给定观测序列O及模型参数Λ^(k)的条件下t时刻处于状态j的第i个高斯混元的后验概率，可以通过Baum-Welch前后向算法计算得到。

第②步，重估权重参数。

令权矢量为w_j＝[w_j1 w_j2 … w_jI]^T，在仅仅考虑概率分布约束条件下，利用Langrange乘子法可得到其各分量的重估公式为：

w_{ji}^{(k + 1)} = \frac{γ_{ji}}{Σ_{i^{'}} γ_{{ji}^{'}}} - - - (29)

若则即为权重矢量的更新值；否则，将的各分量从大到小排序为w′_j1,w′_j2,…,w′_jI，计算对应累积贡献率(Cumulative ContributionRate，CCR)寻找取门限τ_j＝w′_jp。对每一个权重分量执行下面的“收缩”与“归一化”操作：

权重收缩：

w_{ji}^{(k + 1)} &LeftArrow; {[w_{ji}^{(k + 1)} - τ_{j}]}_{+} - - - (30)

权重归一化：

w_{ji}^{(k + 1)} &LeftArrow; \frac{w_{ji}^{(k + 1)}}{Σ_{i^{'}} w_{{ji}^{'}}^{(k + 1)}} - - - (31)

其中，

{[w_{ji}^{(k + 1)} - τ_{j}]}_{+} = \max {w_{ji}^{(k + 1)} - τ_{j}, 0} .

最终得到更新的权重矢量

w_{j}^{(k + 1)} = [\begin{matrix} w_{j 1}^{(k + 1)} & w_{j 2}^{(k + 1)} & . . . & w_{jI}^{(k + 1)} \end{matrix}] .

第③步，重估计局部坐标矢量。

局部坐标矢量y_ji的更新公式为：

y_{ji}^{(k + 1)} = H_{ji}^{- 1} g_{ji} - - - (32)

其中

g_{ji} = {M_{i}}^{T} {Σ_{i}}^{- 1} (s_{ji} - γ_{ji} μ_{i}) - - - (33)

H_ji＝γ_ji(M_i ^TΣ_i ^-1M_i+I) (34)

第④步，重估状态无关参数。

均值矢量μ_i、局部基矩阵M_i、协方差矩阵Σ_i的更新公式分别为

μ_{i}^{(k + 1)} = \frac{{\tilde{s}}_{i}}{γ_{i}} - - - (35)

M_{i}^{(k + 1)} = Y_{i} Q_{i}^{- 1} - - - (36)

Σ_{i}^{(k + 1)} = \frac{{\tilde{S}}_{i}}{γ_{i}} - - - (37)

其中

γ_{i} = \underset{j}{Σ} γ_{ji} - - - (38)

{\tilde{s}}_{i} = \underset{j}{Σ} (s_{ji} - γ_{ji} M_{i} y_{ji}) - - - (39)

Y_{i} = \underset{t}{Σ} \underset{j}{Σ} γ_{ji} (t) (o_{t} - μ_{i}) y_{ji}^{T} - - - (40)

Q_{i} = \underset{t}{Σ} \underset{j}{Σ} γ_{ji} (t) y_{ji} y_{ji}^{T} - - - (41)

{\tilde{S}}_{i} = \underset{j}{Σ} (S_{ji} - s_{ji} μ_{ji}^{T} - s_{ji}^{T} μ_{ji} + γ_{ji} μ_{ji} μ_{ji}^{T}) - - - (42)

重估后得到的上下文相关状态声学模型即为本发明所要构建声学模型。

Claims

1.一种基于声学空间非线性流形结构的声学模型构建方法，其特征在于，该构建方法包括以下步骤：

2.根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤1)中背景模型UBM的生成过程如下：

3.根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部区域，计算观测数据落入其中每个区域的概率，并对每个局部区域分别用一个因子分析模型近似得到。

4.根据权利要求2所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤2)中第i个局部区域的潜在维数D_i的确定过程如下：

5.根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤3)中上下文相关的每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。

6.根据权利要求5所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤4)中第j个上下文状态的观测概率模型为：

7.根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，所述步骤5)中是采用期望最大化算法EM进行重估，包括计算统计量、重估权重参数、重估计局部坐标矢量和重估状态无关参数四个过程。

8.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，对于第j个状态和第i个局部区域，所述零阶、一阶和二阶统计量的计算公式分别如下：

γ_ji＝Σ_tγ_ji(t)

s_ji＝Σ_tγ_ji(t)o_t

S_{ji} = Σ_{t} γ_{ji} (t) o_{t} o_{t}^{T}

9.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法，其特征在于，第k次迭代，状态j的第i个高斯混元的权重参数w_ji的重估公式为：

w_{ji}^{(k + 1)} = \frac{γ_{ji}}{Σ_{i^{'}} γ_{{ji}^{'}}}

若则即为权重矢量的更新值，其中α为预先选定的正整数(1≤α≤I)，||·||₀表示矢量的零范数，即矢量的非零元素个数；

权重收缩：

w_{ji}^{(k + 1)} &LeftArrow; {[w_{ji}^{(k + 1)} - τ_{j}]}_{+}

权重归一化：

w_{ji}^{(k + 1)} &LeftArrow; \frac{w_{ji}^{(k + 1)}}{Σ_{i^{'}} w_{{ji}^{'}}^{(k + 1)}}

其中，最终得到更新的权重矢量

w_{j}^{(k + 1)} = [\begin{matrix} w_{j 1}^{(k + 1)} & w_{j 2}^{(k + 1)} & . . . & w_{jI}^{(k + 1)} \end{matrix}] .