CN102436811A

CN102436811A - 用于语音识别的深度结构的全序列训练

Info

Publication number: CN102436811A
Application number: CN2011102996780A
Authority: CN
Inventors: D·俞; L·邓; A·S·A·穆罕默德
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-09-21
Filing date: 2011-09-20
Publication date: 2012-05-02
Anticipated expiration: 2031-09-20
Also published as: EP2619756A2; CN102436811B; WO2012039938A3; EP2619756B1; US20120072215A1; US9031844B2; WO2012039938A2; EP2619756A4

Abstract

本发明公开了用于语音识别的深度结构的全序列训练。本文公开了一种方法，该方法包括使处理器访问保留在计算机可读介质中的深度结构化模型的动作，其中该深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

Description

用于语音识别的深度结构的全序列训练

技术领域

本发明涉及语言识别技术，尤其涉及深度结构化模型中的学习技术。

背景技术

语音识别已经是大量研究和商业开发的课题。例如，语音识别系统已经并入到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的具体响应。例如，在配备有语音识别技术的移动电话中，用户可以讲出移动电话中所列出的联系人的姓名，并且移动电话可以发起对该联系人的呼叫。

此外，许多公司当前正在使用语音识别技术来在标识公司雇员以及标识产品或服务的问题等等方面帮助顾客。

部分地被利用人类语音生成和感知系统中某些类似属性的要求所激励，对ASR的研究已经探究了分层的体系结构来执行语音识别。在这些研究中，对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行，从神经网络研究中学习各方法所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发，该深度信任网络是具有许多隐藏层的密集连接的、直接的信任网络。一般而言，DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器，其中隐藏单元的每一层学习表示在原始输入数据中捕捉更高阶的相关的特征。

尽管DBN通常比其较浅的对应物有更高的建模能力，但在DBN中学习是困难的，部分地因为反向传播算法常常由于显著增加了的陷入局部最优的机会而不有效地执行。

因此，针对DBN的改进的学习技术是期望的。

发明内容

以下是在本文详细描述的主题的简要概述。本发明内容不旨在是关于权利要求的范围的限制。

在此描述了与自动语音识别(ASR)有关的各种技术。更具体地，本文描述了与利用深度结构化模型来执行ASR有关的各种技术。更具体地，本文描述了与执行对用于语音识别的深度结构化模型的全序列训练有关的各种技术。

可结合ASR来使用的示例性深度结构化模型是深度信任网络(DBN)。可对DBN采取预训练过程，其中这一预训练过程可与学习DBN中的变量(可见的和隐藏的)的各层之间的初始权重有关。在一个示例中，这一预训练过程可通过将DBN中每一对层作为受限玻尔兹曼机(RBM)来对待，来贪婪地学习DBN的每一层的初始权重。

在DBN经受预训练之后，可通过利用在序列级别处为DBN所设计的区别训练准则来对DBN权重、转移参数、以及语言模型(LM)分数联合地进行基本上优化。更具体地，语音识别可被称为顺序的或全序列学习问题，并且已知在序列级别处的区别信息对改进识别的准确性有贡献。在先前方法中，仅利用帧级信息来训练DBN权重，并且转移参数和LM分数是分开获得的。

在阅读并理解了附图和描述后，可以明白其他方面。

附图说明

图1是通过利用深度信任网络(DBN)来促进执行自动语音识别(ASR)的示例性系统的功能框图。

图2是促进初始化DBN的权重的示例系统的功能框图。

图3是促进联合地基本上优化DBN权重、转移参数和语言模型(LM)分数的示例性系统的功能框图。

图4是示例性DBN。

图5是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。

图6是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。

图7示出了示例性的深度隐藏条件随机场。

图8是示例性计算系统。

具体实施方式

现在将参考附图来描述关于自动语音识别(ASR)系统的各种技术，其中贯穿全文，相同的附图标记表示相同的元素。另外，本文出于解释的目的示出并描述了各示例系统的若干功能框图；然而可以理解，被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地，例如可以将一组件配置为执行被描述为由多个组件执行的功能，并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。

参考图1，示出了促进执行ASR的示例性系统100。系统100包括接收样本104的语音识别系统102。该样本可以是来自个体的在特定时间量内所讲出的词语(例如其通过利用麦克风被捕捉)。样本104可以通过利用模数转换器来被数字化，并且可以在期望时受到某种形式的归一化。尽管在此所提供的示例指示：样本104是讲出的发言(utterance)，但是应当理解，系统100可以被配置为执行在线手写识别和/或实时姿势识别。因此，样本104可以是在线手写样本或者描述诸如人类之类的对象的运动的视频信号。

语音识别系统102包括深度结构化模型106。在一个示例中，深度结构化模型106可以是深度信任网络(DBN)，其中该DBN是临时地参数绑定的。DBN是一种概率生成性模型，其具有处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。更具体地，DBN是具有许多隐藏层的、密集连接且直接的信任网络，对其而言学习是困难的问题。深度结构化模型106可接收样本104，并且可输出关于输出单元的状态后验概率，该输出单元可以是音素、音素的聚类(senone)、或某种其他合适的输出单元。如下面将更详细地描述的，深度结构化模型106可通过预训练过程来生成，并且之后，可通过顺序的或全序列学习来对深度结构化模型106的权重、深度结构化模型106中的转移参数以及语言模型分数联合地进行充分优化。

语音识别系统102附加地包括解码器108，该解码器可解码深度结构化模型的输出以生成输出110。根据一示例，输出110可包括被接收作为样本104的词语或词语序列的指示。在另一示例中，输出110可以是与视频样本中所捕捉的姿势有关的姿势。在又一示例中，输出110可以是在压敏屏幕上写的词语或词语序列的指示。

根据一示例，语音识别系统102可以部署在多种上下文中。例如，语音识别系统102可以部署在移动电话中，使得移动电话可以响应于用户所讲出的命令作出行动。在另一示例中，语音识别系统102可以部署在汽车中，使得汽车可以响应于用户所讲出的命令作出行动。可在其中采用语音识别系统102的其他系统包括自动转录系统、工业自动化系统、银行系统、以及采用ASR技术的其他合适系统。

现在参考图2，示出了促进初始化DBN的权重的示例性系统200。系统200包括接收DBN 204的初始化器组件202。如前所述，DBN是具有许多隐藏层的、密集连接且直接的信任网络，对其而言学习是困难的问题。初始化器组件202可以行动以便通过将每一对层作为受限玻尔兹曼机(RBM)来对待，来贪婪地学习DBN 204的每一层。初始化器组件202可访问数据储存库206中的训练数据以执行上述训练。更具体地，RBM是具有一层(通常为柏努利)随机隐藏单元和一层(通常为柏努利或高斯)随机可见单元的特定类型的马尔可夫随机场(MRF)。RBM可被表示为二分图，因为全部可见单元都被连接到全部隐藏单元，但不存在可见-可见或隐藏-隐藏的连接。

在RBM中，给定模型参数θ，可见单元v和隐藏单元h上的联合分布p(v，h；θ)可按照以下算法的能量函数E(v，h；θ)来定义：

p (v, h; θ) = \frac{\exp (- E (v, h; θ))}{z}, - - - (1)

其中Z＝∑_u∑_hexp(-E(v，h；θ))是归一化因子或分割函数，并且模型分配给可见矢量v的边缘概率可如下定义：

p (v; θ) = \frac{Σ_{h} \exp (- E (v, h; θ))}{Z} - - - (2)

对于柏努利(可见)-柏努利(隐藏)RBM，能量如下：

E (v, h; θ) = - Σ_{i = 1}^{V} Σ_{j = 1}^{H} w_{ij} v_{i} h_{j} - Σ_{i = 1}^{V} b_{i} v_{i} - Σ_{j = 1}^{H} a_{j} h_{j}, - - - (3)

其中，w_ij表示可见单元v_i与隐藏单元h_j之间对称交互项，b_i和a_j表示偏移项，以及V和H是可见和隐藏单元的数量。条件概率可如下计算：

p (h_{j} = 1 | v; θ) = σ (Σ_{i = 1}^{V} w_{ij} v_{i} + a_{j}) - - - (4)

p (v_{i} = 1 | h; θ) = σ (Σ_{j = 1}^{H} w_{ij} h_{j} + b_{i}) - - - (5)

其中σ(x)＝1/(1+exp(-x))。

类似地，对于高斯-柏努利RBM，在假定方差为一个单位的情况下，该能量如下：

E (v, h; θ) = - Σ_{i = 1}^{V} Σ_{j = 1}^{H} w_{ij} v_{i} h_{j} + \frac{1}{2} Σ_{i = 1}^{V} {(v_{i} - v_{i})}^{2} - Σ_{j = 1}^{H} a_{j} h_{j}, - - - (6)

对应的条件概率变成：

p (h_{j} = 1 | v; θ) = σ (Σ_{i = 1}^{V} w_{ij} v_{i} + a_{j}) - - - (7)

p (v_{i} | h; θ) = N (Σ_{j = 1}^{H} w_{ij} h_{j} + b_{i}, 1) - - - (8)

其中，v_i可取实值，并且可遵循平均值为

以及方差为一的高斯分布。可使用高斯-柏努利RBM来将实值随机方差转换成二元随机方差，该二元随机方差可随后使用柏努利-柏努利RBM来进一步处理。

遵循对数似然性的梯度logp(v；θ)，对权重的更新规则可由初始化器组件202如下获得：

Δw_ij＝<v_ih_j>_数据-<v_ih_j>_模型， (9)

其中，<v_ih_j>数据是在训练数据中观测到的期望值，并且<v_ih_j>模型是在DBN204所定义的分布下相同的期望值。不幸的是，精确地计算<v_ih_j>模型可能是极其昂贵的，因此可使用近似该梯度的对比散度(CD)，其中，通过对一整个步骤运行在该数据处所初始化的吉布斯(Gibbs)采样器来替换<v_ih_j>模型。

从解码的观点来看，可将DBN 204作为具有许多层的多层感知器来对待。输入信号(来自训练数据)可通过利用等式(4)来逐层处理直到最后一层。可使用以下softmax操作将最后一层转换成多项式分布：

p (l = k | h; θ) = \frac{\exp (Σ_{i = 1}^{H} λ_{ik} h_{i} + a_{k})}{Z (h)}, - - - (10)

其中，l＝k表示输入已被分类成第k类，并且λ_ik为最后的层处的隐藏单元h_i与分类标签k之间的权重。

根据一示例，初始化器组件202可利用常规的帧级数据来训练DBN 204。例如，初始化器组件202可以用生成性方式来训练一大堆RBM，从而得到经预训练的DBN 208的输出。如下面将描述的，可通过利用反向传播算法，通过基本上最大化分类标签上真实的与预测的概率分布之间的帧级或发言级交叉熵来学习DBN权重、转移参数以及语言模型分数。此外，尽管初始化器组件202以上已经被描述成以特定方式对DBN执行预训练，但可以理解DBN的权重可通过其他方法来初始化，其他方法包括但不限于去噪声/自动编码。

现在参考图3，示出了促进对DBN权重、转移参数和语言模型(LM)分数联合地进行充分优化的示例性系统300。系统300包括接收经预训练的DBN208的接收器组件301。与接收器组件进行通信的训练器组件302接收经预训练的DBN 208以及数据存储206中的训练数据(该数据存储206中的训练数据可以是与初始化器组件202所采用的不同的训练数据、或与初始化器组件202所采用的相同的训练数据)。训练器组件302可被配置成对经预训练的DBN208的权重、状态转移参数和语言模型分数联合地进行充分优化。例如，训练器组件302可利用反向传播来执行这样的对DBN 208的联合调节。

常规的区别反向传播方法对都在时间帧t(可以是固定的本地帧块)的给定当前输入的分类标签的对数后验概率p(l_t|v_t)进行优化。训练DBN的这一方法可被称为基于帧的方法，因为它仅仅使用输入样本的帧(或帧块)来预测分类标签。该方法没有明确采用相邻帧(或帧块)在分类标签上所分配的概率分布之间具有较小的距离的事实。将这一事实考虑在内，可对给定整个发言的整个标签序列的概率p(l_1:T|v_1:T)进行建模。

此处描述的方法将DBN的最顶层认为是线性链条件随机场(CRF)，其中h_t为在时间t来自最低层的输入特征。这一模型可被看成对深度结构化CRF的修改，其中CRF的较低的多层被DBN替换。

在这一顺序模型中，给定全序列输入特征，全序列标签的条件概率可如下给出：

p (l_{1 : T} | v_{1 : T}) = p (l_{1 : T} | h_{1 : T}) = \frac{\exp (Σ_{t = 1}^{T} γ_{ij} φ_{ij} (l_{t - 1}, l_{t}) + Σ_{t = 1}^{T} Σ_{t = 1}^{D} λ_{l_{t} d} h_{td})}{Z (h_{1 : T})} - - - (11)

其中，转移特征如下：

γ_ij是与这一转移特征相关联的参数，h_td是与最后的层h_t处第t帧的隐藏单元值的第d维度，以及D是该隐藏层处的维度(或单元数量)。

为优化第n发言的对数条件概率

训练器组件302可以如下地取激活参数λ_kd、转移参数γ_ij和第M层权重上的梯度：

\frac{&PartialD; \log p (l_{1 : T}^{n} | v_{1 : T}^{n})}{{&PartialD; λ}_{kd}} = Σ_{t = 1}^{T} (δ (l_{t}^{n} = k) - p (l_{t}^{n} = k | v_{1 : T}^{n})) h_{td}^{(M), n} - - - (13)

\frac{&PartialD; \log p (l_{1 : T}^{n} | v_{1 : T}^{n})}{{&PartialD; γ}_{ij}} = Σ_{t = 1}^{T} (δ (l_{t - 1}^{n} = i, l_{t}^{n} = j) - p (l_{t - 1}^{n} = i, l_{t}^{n} = j | v_{1 : T}^{n})) - - - (14)

\frac{&PartialD; \log p (l_{1 : T}^{n} | v_{1 : T}^{n})}{{&PartialD; w}_{ij}^{(M)}} = Σ_{t = 1}^{T} (λ_{l_{t} d} - Σ_{k = 1}^{K} p (l_{t}^{n} = k | v_{1 : T}^{n}) λ_{kd}) - - - (15)

\cdot h_{td}^{(M), n} (1 - h_{td}^{(M), n}) h_{ti}^{(M - 1), n}

可以注意到，梯度

可被认为是在基于帧的训练算法中对误差

而非

的反向传描。

尽管具有梯度下降的基本优化算法可由以分析形式来计算梯度的等式(13)、(14)和(15)简洁地描述，但在该算法实现中可考虑若干实际问题。第一，顶层CRF的状态转移参数可形成转移矩阵，该矩阵与隐马尔可夫模型(HMM)不同。实际上，这样的状态转移参数是转移矩阵与双音素(bi-phone)/senone LM分数的组合。在没有适当约束的情况下，转移矩阵在从左到右的三状态HMM中所禁止的各状态之间被转移的可能性较低，即使训练数据不支持这样的转移。为防止这种情况发生从而使得更锐利的模型可被建立，可通过将HMM中所禁止的转移权重设置为非常大的负值来强制实施这一约束。

第二，由于DBN中的权重与CRF的转移参数一起被联合地优化，因此优化问题不再凸起。出于这一原因，良好的初始化是关键的。DBN权重可由以上描述的初始化器组件202(图2)来初始化。例如，转移参数可从HMM转移矩阵和LM分数的组合中被初始化，并且可通过在训练器组件302执行联合优化之前调节转移特征同时固定DBN权重来进一步优化。

第三，存在两种使用如上所述经训练的DBN来进行解码的方式。第一种方法是将对数边缘概率log p(l_t|v_1:T)作为激活分数馈送给常规HMM解码器，并且以常规方式使用HMM转移矩阵和LM分数。这一方法可在全序列训练可改进logp(l_t|v_1:T)的质量的情况下起作用。第二种方法是首先生成状态序列并且随后将状态序列映射到音素/senone序列。如果构想了插入惩罚，则可进一步提高解码结果，该插入惩罚可通过按照下式来修改转移参数而被集成到解码器组件108(图1)中：

如果状态i是音素的最终状态，并且状态j是音素的第一状态，其中

是插入惩罚，并且ρ是缩放因子。

经预训练的DBN 208可被配置有联合优化的DBN权重、LM分数、以及作为参数的转移概率。训练组件302可通过反向转播来进一步训练DBN 208。

现在参考图4，示出了示例性的DBN 400。DBN的顶级402可以是线性链CRF 404，并且DBN 400的体系结构可被视为随时间展开的共享DBN(图4中示出了示例性共享DBN 406)。DBN 400可以接收样本104或其一些衍生物，其可被分割成随时间t的多个所观察到的变量404。所观察到的变量408可以表示时间上不同的实例的数据矢量。DBN 400还包括多层随机隐藏单元410。DBN 400具有顶部两层随机隐藏单元410之间的非定向连接412以及从上面的层到所有其他层的定向连接414。在以上描述的预训练期间，最初可将权重w分别分配给定向和非定向连接412和414。λ_ik是位于DBN 400中最后一层的隐藏单元h_i与分类标签k之间的权重，以及γ_ij是各分类之间的转移概率。在该示例性的实施例中，DBN 400可以被训练为使得最上面的层(第M层)中的输出单元可以被建模为音素单元或子单元，诸如音素或senone。

现在参考图5和6，示出并描述了示例性方法。尽管所述方法被描述为顺序执行的一系列动作，但能够理解，该方法不受该顺序的次序的限制。例如，一些动作能以与本文描述的不同的次序发生。另外，动作可以与另一动作同时发生。此外，在一些情况下，实现本文描述的方法并不需要所有动作。

此外，本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。此外，该方法的动作的结果可以存储在计算机可读介质中，在显式设备上显式和/或等等。计算机可读介质可以是非瞬时介质、诸如存储器、硬盘驱动器、CD、DVD、闪存驱动器等。

现在仅参考图5，示出了促进训练深度结构化模型以供在语音识别系统中使用的示例性方法500。方法500在502处开始，并且在504处通过预训练步骤来提供深度结构化模型的参数。例如，DBN的各层之间的权重可在这一预训练步骤期间被初始化。在506处，将标记的训练数据提供给深度结构，其中标记的训练数据可以是标记的词语或词语序列、标记的姿势、标记的手写样本等。在508处，对深度结构化模型中各层之间的权重、语言模型参数、以及状态转移概率联合地进行基本上优化，使得所得的经训练的深度结构化模型可被交付给语音识别系统。方法500在510完成。

现在转到图6，示出了促进训练DBN以供在自动语音识别系统中使用的示例性方法600。方法600在602处开始，并且在604处，贪婪地学习被配置成供在自动语音识别系统中使用的DBN的每一层。在606处，DBN的输出状态/序列的对数条件概率通过利用训练数据来充分优化。在608处，至少部分基于由DBN产生的输出状态/序列的条件概率的对数来同时对DBN中的权重、DBN中的转移参数、以及语言模型分数进行充分优化。方法600在610完成。

以上所示和所述的系统和方法总体上涉及在语音识别系统中利用DBN；然而，如以上所指示的，可以采用其他深度结构。可以利用的示例性深度结构是深度隐藏条件随机场(DHCRF)。现在参考图7，示出了示例性的DHCRF 700。在一示例中，DHCRF的第N层可以是隐藏条件随机场(HCRF)，并且中间层可以是不使用状态转移特征的第0阶CRF。

在一示例性DHCRF 700中，层j处的观察序列o^j包括两部分：在先层的观察序列o^j-1、以及从在先层j-1中计算出的帧级对数边缘后验概率

其中

是层j-1处的状态值。在第一层处的粗略观察可以称为o＝[o_t]，t＝1，…，T。

DHCRF中的参数估计和序列推断二者都可以自底向上逐层地执行。最后一层的状态序列条件概率可以如下式所示：

p (w | o^{N}; λ^{N}) = \frac{1}{z (o^{N}; λ^{N})} Σ_{s^{N} &Element; w} \exp ({(λ^{N})}^{T} f (w, s^{N}, o^{N})) - - - (17)

其中N是层的总数，(·)^T是(·)的转置，

是最后一层处的观察序列，w是输出序列(senone、音素、词语等等)，

是假设的状态序列，f(w，s^N， o^N)＝[f₁(w，s^N o^N)，…，f_T(w，s^N，o^N)]^T是最后一层处的特征矢量，

是模型参数(权重矢量)，并且

是保证概率p(w|o^N；λ^N)和为1的分割函数(归一化因子)。能够确定，可以通过仅仅对有效音素或词语序列进行求和来排除无效序列。

与最后一层相比，中间层j处的状态条件概率可以如下：

p (s^{j} | o^{j}; λ^{j}) = \frac{1}{z (o^{j}; λ^{j})} \exp ({(λ^{j})}^{T} f (s^{j}, o^{j})) - - - (18)

这在两方面不同于(17)。首先，在(18)中未使用转移特征，并且观察特征f(s^j，o^j)可以被简化为这在下面予以定义。其次，在(18)中未对具有所有可能的分段的状态序列进行求和。

DHCRF的权重可以使用受监督和不受监督的学习的组合来习得。对DHCRF 700的训练监督仅在最后一层处可用，并且可以直接由要解决的问题来确定。例如，在音素识别任务中，音素序列w在训练阶段期间在最后一层处是已知的。因此，最后一层处的参数估计可以用受监督的方式执行。然而，监督对中间层不可用，其中这些中间层的作用是将原始观察转换成一些中间抽象表示。出于该原因，可利用不受监督的方法来学习中间层中的参数。

存在若干用于学习DHCRF 700中的中间层表示的方法。例如，中间层学习问题可以投射到多目标编程(MOP)问题中，其中平均帧级条件熵被最小化，并且状态占有熵在基本上相似的时间被最大化。最小化该平均帧级条件熵可以迫使中间层成为每个输入矢量的子类(或聚类)的清晰指示符，同时最大化该占有熵保证输入矢量由不同中间状态不同地表示。MOP优化算法改变在优化这两个相对立的准则中的步骤，直到不再可能有标准的进一步改善或者达到最大数量的迭代。然而，MOP优化可能在中间层中的类的数量变为更高(比如在音素识别任务中)时变得困难，因为在陷入局部最优的概率非常大地增加的情况下难以控制何时切换来优化其他准则。

可替代地，可以采用基于GMM的算法来学习DHCRF 700中的中间层的参数。该算法可以利用逐层方法：一旦较低层被训练，则该层的参数就可以被固定，并且下一层的观察序列使用新近训练的较低层参数来生成。该过程可以继续，直到所有层都被训练。

更具体而言，为了学习中间层的参数，具有对角协方差的单个GMM(其从使用高斯分裂策略来优化的对应HMM模型中被初始化)可以被训练。然后，可以通过假定每个高斯分量都是一状态来将下列值作为状态值分配给层j处的每个观察帧其中

和是层j处的第i个高斯分量的平均值和方差：

s_{t}^{j} = \arg ma x_{i} N (o_{t}^{j}; μ_{i}^{j}, Σ_{i}^{j}) - - - (19)

然后，CRF的在层j处的参数可以通过按下式最大化正则化的对数条件概率来学习：

J_{1} (λ^{j}) = Σ_{k} Σ_{t} \log p (s_{t}^{(k), j} | o_{t}^{(k), j}; λ^{j}) - \frac{{| | λ^{j} | |}_{1}}{σ_{1}} - \frac{{| | λ^{j} |}_{2}^{2}}{σ_{2}} - - - (20)

其中k是发言ID，||·||₁是用于实施与每个状态值相关联的参数的稀疏性的L1范数，

是用于向较小权重赋予偏好的L2范数的平方，并且σ₁和σ₂是用于确定每个正则化项的重要性的正值。可以使用正则化的双平均方法来解决L1/L2正则化项的该优化问题。

根据一示例，在中间层中可以不使用转移特征。更确切而言，可以按下式仅仅使用第一和第二阶观察特征：

f_{s^{'}}^{(M 1)} (s_{t}, o_{t}) = δ (s_{t} = s^{'}) o_{t}, {&ForAll; s}^{'} - - - (21)

其中ο是元素级的积。

DHCRF 700的最后一层可以被训练以便用受监督的方式优化下式：

J_{2} (λ^{N}) = Σ_{k} \log p (w^{(k)} | o^{(k), N}) - \frac{{| | λ^{N} | |}_{1}}{σ_{1}} - \frac{{| | λ^{N} | |}_{z}^{z}}{σ_{2}} - - - (23)

其中w^(k)是没有分段信息的第k个发言的输出单元的标签。在最后一层中，可将下式用作特征：

f_{w^{''} w^{'}}^{(LM)} (w, s, o) = [δ (w_{i - 1} = w^{''}) δ (w_{i} = w^{'})]_{i = 1, . . ., 1}, &ForAll; w^{''} w^{'} - - - (24)

f_{s^{''} s^{'}}^{(Tr)} (w, s, o) = [δ (s_{t - 1} = s^{''}) δ (s_{t} = s^{'})]_{t = 1, . . ., T}, {&ForAll; s}^{''}, s^{'} - - - (25)

f_{s^{'}}^{(M 1)} (w, s, o) = [δ (s_{t} = s^{'}) o_{t}]_{t = 1, . . . T}, &ForAll; s^{'} - - - (26)

其中，如果x为真则δ(x)＝1，并且否则δ(x)＝0。

是二元语言模型(LM)特征，其中每个输出单元序列w都包括I个输出单元(例如senone、音素或词语)，

是状态转移特征，并且

和

分别是从观察生成的第一和第二阶统计数据。

现在参考图8，示出了可以根据本文公开的系统和方法使用的示例计算设备800的高级图示。例如，计算设备800可以用在支持ASR的系统中。在另一示例中，计算设备800的至少一部分可以用在支持训练DBN的系统中。计算设备800包括执行存储在存储器804中的指令的至少一个处理器802。存储器804可以是或可以包括RAM、ROM、EEPROM、闪存、或其它适合的存储器。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器802可以通过系统总线806访问存储器804。附加于存储可执行指令，存储器804还可以存储训练数据集、确认数据集、DBN等等。

计算设备800附加地包括可由处理器802通过系统总线806访问的数据存储808。数据存储可以是或可以包括任何合适的计算机可读存储，包括硬盘、存储器等。数据存储808可以包括可执行指令、DBN、训练数据集、确认数据集等等。计算设备800还包括允许外部设备与计算设备800进行通信的输入接口810。例如，可以使用输入接口810来从外部计算机设备、用户等接收指令。计算设备800还包括将计算设备800与一个或多个外部设备进行接口的输出接口812。例如，计算设备800可以通过输出接口812显示文本、图像等。

另外，尽管被示为单个系统，但可以理解，计算设备800可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备800执行的任务。

如此处所使用的，术语“组件”和“系统”旨在涵盖硬件、软件、或硬件和软件的组合。因此，例如，系统或组件可以是进程、在处理器上执行的进程、或处理器。另外，组件或系统可以位于单个设备上或分布在若干设备之间。此外，组件或系统可指存储器的一部分和/或一系列晶体管。

注意，出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外，可以认识到，本文提供的示例可被改变而仍然落入权利要求的范围内。

Claims

1.一种方法，包括以下计算机可执行动作：

使处理器访问保留在计算机可读介质中的深度结构化模型，其中所述深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数；以及

对所述深度结构化模型的所述权重、所述转移概率、所述语言模型分数进行联合地优化。

2.如权利要求1所述的方法，其特征在于，所述深度结构化模型是深度信任网络(DBN)。

3.如权利要求2所述的方法，其特征在于，所述DBN被配置成执行以下各项之一：自动语音识别、自动姿势识别、自动人体动作识别、或自动在线手写识别。

4.如权利要求2所述的方法，其特征在于，所述DBN是概率生成性模型，所述概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。

5.如权利要求1所述的方法，其特征在于，所述深度结构化模型包括多个隐藏随机层，并且还包括预训练所述深度结构化模型，其中预训练包括利用不受监督的算法来初始化所述隐藏随机层之间的连接的权重。

6.如权利要求5所述的方法，其特征在于，还包括利用反向传播来对所述深度结构化模型的所述权重、所述转移概率、和所述语音模型分数进行联合地充分优化。

7.如权利要求5的方法，其特征在于，所述预训练包括将所述深度结构化模型中各对层作为受限玻尔兹曼机来对待。

8.如权利要求1所述的方法，其特征在于，所述深度结构化模型是深度隐藏条件随机场(DHCRF)。

9.一种计算机实现的系统，包括：

处理器(802)；以及

包括能由所述处理器执行的多个组件的存储器(804)，所述组件包括：

接收经预训练的深度结构化模型的接收器组件，其中所述深度结构化模型包括多个层、所述层之间的权重、转移参数、和语音模型分数；以及

对经预训练的深度结构化模型的权重、经预训练的深度结构化模型的状态转移参数、和经预训练的深度结构化模型的语言模型分数进行联合地基本上优化的训练器组件。

10.如权利要求9所述的系统，其特征在于，所述经预训练的深度结构化模型被训练以供语言识别。

11.如权利要求9所述的系统，其特征在于，所述经预训练的深度结构化模型是深度信任网络(DBN)。

12.如权利要求11所述的系统，其特征在于，所述DBN是概率生成性模型，所述概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。

13.如权利要求11所述的系统，其特征在于，所述DBN的最顶层是线性链条条件随机场(CRF)。

14.如权利要求9所述的系统，其特征在于，所述组件还包括初始化器组件，所述初始化器组件对深度结构化模型的权重进行初始化以生成所述经预训练的深度结构化模型。

15.如权利要求9所述的系统，其特征在于，所述训练器组件结合对所述权重、转移参数和语言模型分数进行充分优化来确定所述深度结构化模型的标签的全序列的条件概率。