CN105122279A

CN105122279A - 在识别系统中保守地适配深度神经网络

Info

Publication number: CN105122279A
Application number: CN201480012430.3A
Authority: CN
Inventors: D·俞; 姚开盛; 苏航; 李钢; F·塞德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-03-06
Filing date: 2014-03-04
Publication date: 2015-12-02
Anticipated expiration: 2034-03-04
Also published as: EP2965268A2; CN105122279B; WO2014137952A2; US9177550B2; US20140257803A1; WO2014137952A3

Abstract

本文描述的各种技术涉及针对特定用户或上下文来保守地适配识别系统中的深度神经网络(DNN)。DNN被用来响应于对所捕捉的用户输入的接收来输出上下文相关单元的各模型上的概率分布。基于所捕捉的用户输入来针对特定用户适配所述DNN，其中所述适配是保守地进行的，以使得已适配的DNN和未适配的DNN的输出之间的偏差受到约束。

Description

在识别系统中保守地适配深度神经网络

背景

存在许多不同类型的计算机实现的识别系统，其中这些识别系统被配置成相对于用户所提出的输入数据执行某种形式的分类。例如，计算机实现的语音识别系统被配置成接收用户的说出的话语并识别说出的话语中的词。在另一示例中，手写识别系统已被开发出以接收手写样本并标识例如该手写样本的作者、该手写样本中的个体字母、该手写样本中的词等。在又一示例中，已经开发出执行面部识别、指纹识别等的计算机实现的识别系统。

更具体地就语音识别而言，此类识别已经是大量研究和商业开发的课题。例如，自动语音识别(ASR)系统已被并入到移动电话、台式计算机、汽车、游戏控制台、顾客服务中心等，以便识别命令/问题并提供对此类命令/问题的适当响应。例如，在配备有ASR系统的移动电话中，用户可以讲出保留在移动电话上的联系人列表中的某一联系人的名字，而移动电话可发起对该联系人的呼叫。

然而，即使在数十年的研究以后，ASR在现实世界使用场景中的性能依然远远不能令人满意。按常规而言，隐马尔科夫模型(HMM)已经是用于大词汇量连续语音识别(LVCSR)的主导技术。在用于ASR的常规HMM中，针对输出状态的观测概率是使用高斯混合模型(GMM)建模的。这些GMM-HMM系统通常被训练以最大化生成训练数据中观测到的特征的可能性。近来，各种辨析策略和大边界(largemargin)技术已经被探究。然而，这些技术的潜力受到GMM发射分布模型的限制的约束。

部分地被利用人类语音生成和感知系统中某些类似性质的期望所激励，对ASR的较新近的研究已经探究了分层架构来执行语音识别。在这些研究中，对模型参数(与这些分层架构中的突触相对应的权重和权重偏误(weightbias))的学习已经是最突出和困难的问题之一。与ASR研究中的发展并行，来自神经网络研究的学习方法中所取得的当前进展已经激起了对探究深度神经网络(DNN)的兴趣。DNN是具有许多隐藏层的密集连接的有向信念网络。一般而言，DNN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器，其中隐藏单元的每一层被学习来表示捕捉原始输入数据中的高阶相关的特征。

传统上，利用DNN的ASR系统被训练成与说话者/通道无关的。换言之，DNN的参数(例如，权重和权重偏误)不是关于特定说话者和/或通道来学习的。这出于至少两个理由：首先，经常难以获得足够的训练数据量来稳健地学习针对某一说话者和/或通道的参数，因为大多数用户不期望花费大量时间来提供有标记的话语来训练ASR系统。而且，由于更宽且更深的隐藏层，DNN通常具有多得多的参数，并且还具有被设计成直接对senone建模的大得多的输出层。这使得适配结合语音识别利用的DNN成为相对困难的任务。

概述

以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的范围的限制。

本文描述了与适配(adapt)在识别系统中采用的深度神经网络(DNN)的至少一个参数有关的各种技术，其中所述适配是针对特定用户或上下文进行的。在一示例性实施例中，DNN可在自动语音识别(ASR)系统中被用作上下文相关深度神经网络隐马尔可夫模型(CD-DNN-HMM)系统的一部分。计算设备(诸如移动电话、汽车中的计算设备、呼叫中心中的计算设备、游戏控制台、服务器等)可包括ASR系统，该ASR系统包括已经利用来自多个不同用户的训练数据训练过的与说话者无关的(SI)CD-DNN-HMM系统。为了针对特定用户或上下文(例如，特定移动电话)改进CD-DNN-HMM系统的识别能力，可能期望将该DNN适配到该特定用户或上下文。此处描述的技术可被用来执行这种适配而不需要用户提出大量的训练数据。

在ASR的上下文中，DNN被配置成直接对上下文相关单元(contextdependentunit)建模，所述上下文相关单元在本文被称为senone。senone可以是三音素(triphone)、五音素(quinphone)等等。如上所述，可利用与多个不同用户相对应的训练数据来训练SIASR系统中的DNN。当某一特定用户提出期望通过利用包括DNN的ASR系统解码的某一语音话语时，该语音话语被划分成多个帧，并且针对某一个体帧的DNN的输出是在该DNN所建模的senone上的概率分布。

为了避免在为该特定用户适配该DNN时对用于该特定用户的训练数据(例如，所捕捉的该用户的话语，经常被称为适配数据)的过拟合，这种适配可以按照保守方式进行，使得未适配的DNN和已适配的DNN(具有使用适配数据适配的参数的所得DNN)之间的输出偏差受到约束。在一示例性实施例中，这可以通过在执行适配时正规化(regularize)成本函数来实现，然而也可以采用其他方法来使适配被保守地进行。例如，在一示例性实施例中，可将Kullback-Leibler散度(KLD)正规化约束添加到适配准则。因此，由已适配的DNN所估计的多个帧上的senone分布被迫使相对接近由未适配的DNN所估计的senone分布。

以上概述呈现了简化概述，以提供对本文讨论的系统和/或方法的一些方面的基本理解。本概述并不是对此处所讨论的系统和/或方法的全面综述。它并不旨在标识关键/重要元素，也不描绘这样的系统和/或方法的范围。其唯一目的是以简化形式呈现一些概念，作为稍后呈现的更详细实施例的序言。

附图简述

图1是包括识别系统的一示例性计算设备的功能框图，该识别系统包括DNN，其中所述DNN能适配到特定用户和/或上下文。

图2例示出一示例性深度神经网络。

图3是一示例性系统的功能框图，该示例性系统便于将识别系统的DNN适配到特定用户。

图4是例示出用于基于所观测到的输入数据保守地适配深度神经网络的参数的一种示例性方法的流程图。

图5是例示出用于基于与正规化成本函数结合利用的正规化权重来适配DNN的参数的一种示例性方法的流程图。

图6是一示例性计算系统。

详细描述

现在参考附图描述涉及保守地适配深度神经网络的参数来针对特定用户或上下文定制这种深度神经网络的各种技术，其中在全部附图中，相同的附图标记用于指代相同的元素。在以下描述中，为解释起见，阐明了众多具体细节以提供对一个或多个方面的全面理解。然而，显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中，以框图形式示出公知的结构和设备以便于描述一个或多个方面。另外，要理解，被描述为由特定系统组件执行的功能可由多个组件执行。类似地，例如，一组件可被配置成执行被描述为由多个组件执行的功能。

此外，术语“或”意指包括性“或”而非排斥性“或”。即，除非另有指定或从上下文可以清楚，否则短语“X采用A或B”意指任何自然的包括性排列。即，术语“X采用A或B”被以下实例中的任一个满足：X采用A；X采用B；或X采用A和B两者。另外，本申请和所附权利要求书中所使用的冠词“一”和“一种”一般应被解释为是指“一个或多个”，除非另有指定或从上下文可以清楚指的是单数形式。

此外，如本文所使用的，术语“组件”和“系统”旨在包含配置有使得在被处理器执行时某一功能被执行的计算机可执行指令的计算机可读数据存储。计算机可执行指令可包括例程、功能等等。还要理解组件或系统可以位于单个设备上或分布在若干设备之间。而且，如此处所使用的，术语“示例性”旨在表示用作某些事物的例示或示例，而不意图指示优选。

现在参考图1，例示出一示例性计算设备100，该示例性计算设备包括识别系统102，该识别系统可识别计算设备100的用户104所提出的输入。计算设备100可以是客户端计算设备，诸如移动电话、游戏控制台、台式计算机、膝上型计算机、平板计算设备(板式计算设备)、汽车中的计算设备等。在另一示例中，计算设备100可以是由用户104通过利用计算设备或电话远程访问的计算设备，诸如包括在位于用户104的远程的客户服务中心中的计算设备。

识别系统102可以是能识别用户输入的任何适当的识别系统。例如，识别系统102可以是用于识别用户104所提出的姿势的系统、用于识别用户104所提出的手写中的字符的系统、能够解码用户104所提出的话语中的词的自动语音识别(ASR)系统等。出于解释目的，本文中识别系统102将被描述为ASR系统。然而，要理解，识别系统102可以是前面提到的识别系统类型中的任何类型，用于适配此处关于ASR系统描述的模型参数的适配技术能在这些其他类型的识别系统中被使用。

在一示例性实施例中，识别系统102可包括上下文相关深度神经网络隐马尔可夫模型(CD-DNN-HMM)。CD-DNN-HMM包括上下文相关深度神经网络(在本文中将被称为深度神经网络(DNN)106)和隐马尔可夫模型108(HMM)。DNN106是具有多个层110的多层感知器。多个层110包括接收输入观测的输入层(有时被称为观测层)，其中所述观测通过若干(例如，9到13个)帧声学特征被提供给DNN106。多个层110进一步包括多个隐藏层。例如，所述多个隐藏层中的隐藏层数量可以是至少三个隐藏层。在一些实施例中，所述多个隐藏层中的隐藏层数量可以在三个到十个隐藏层之间、在三个到二十个隐藏层之间、在三个到一百个隐藏层之间、或者在三个到一千个隐藏层之间。

所述多个隐藏层中的每个隐藏层包括各自的多个节点，所述多个节点被配置成对来自DNN106中的相邻层的节点的输出执行非线性变换。从而，DNN106中的隐藏层被一层层地堆叠起来，以使得第一隐藏层中的一节点的输出是DNN106中在所述第一隐藏层之上的第二直接相邻隐藏层中的输入节点。一般而言，在包括DNN的稳健ASR系统中，每个隐藏层包括相对大数量的节点(例如，至少一千个节点)。

所述多个层110还包括输出层，其中所述输出层包括上下文相关单元(例如，senone)的模型。在一示例性实施例中，DNN106中建模的每个senone可被建模为一多状态HMM。DNN106的输出是在所建模的senone上的概率分布。HMM108通常被用来计算这些senone之间的转移概率。

识别系统102还包括解码器112，该解码器可基于HMM108的输出来解码用户104的说出的话语中的至少一个词。一般而言，包括CD-DNN-HMM系统的ASR系统已展示出与常规GMM-HMMASR系统相比相对较高的识别准确率。

通常，期望将识别系统102中的DNN106训练成与说话者无关(SI)。例如，一般而言，用户不希望花费大量时间提出训练数据来针对这些用户的话音和韵律来定制ASR系统。相应地，用来初始学习DNN106的参数的训练数据可以对应于多个不同用户，由此导致ASR系统跨越各用户相对稳健。如在训练SI-DNN期间本文中将更详细地描述的，帧级训练和序列级训练两者均能被用来学习SI-DNN的参数。帧级训练是指基于个体帧对DNN的参数的学习，而序列级训练是指基于帧序列和其他信息(诸如语言模型)对DNN的参数的学习。在使用序列级准则来训练SI-DNN期间，通过用帧级准则对其内插来正规化序列级准则可能是有益的。

然而，当用户104采用识别系统102时，可能期望将DNN106适配到该用户104，因为这个用户104的语音将具有相对独特的特点(例如，音调、音高、韵律……)。

为了便于使DNN106的适配为计算设备100的用户104定制，计算设备100可包括适配器组件114，该适配器组件基于用户104所提出的说出的话语来适配DNN106的参数。如下面将更详细地描述的，适配器组件114保守地适配DNN106的参数，以迫使所得到的已适配的DNN的输出相对类似于未适配的DNN(在适配器组件114适配其参数前的DNN106)的输出。已适配的DNN此后可被用来执行识别任务。

出于解释目的，此处阐述一示例。该示例不旨在成为关于权利要求的范围的限制。计算设备100可以是用户104正首次使用的移动电话。用户104可在该移动电话上启动一应用，该应用利用识别系统102来识别用户104的说出的话语。计算设备100的传感器116(话筒)捕捉用户104的说出的话语。说出的话语由识别系统102接收，识别系统102如上所述地行动来解码用户104所提出的说出的话语中的至少一个词。用户随后可提出指示出该词是否被ASR系统识别的输入。

在DNN106接收到若干帧声学特征之后，DNN106的隐藏层中的节点执行非线性变换来产生特征间高阶相关，节点的输出经由加权突触被传递到其他节点。DNN106的输出是在DNN106所建模的senone上的概率分布。使用表达的或推断的标签(例如，在非监督的适配中，可从解码器112的转录输出推断标签)，可针对用户104的说出的话语标识出每一帧的senone上的相应目标概率分布。传统上，DNN106的参数(权重和权重偏误)被学习来最大化DNN106输出的概率分布和目标概率分布之间的负交叉熵(在各帧上被平均)。适配器组件114可适配DNN106的参数，以使得针对用户104所提出的说出的话语已适配的DNN输出的概率分布不会很大地偏离移动电话中所包括的ASR的DNN106输出的概率分布。相应地，例如，适配器组件114可正规化该常规学习过程来使得基于用户104所提出的说出的话语对DNN106的适配被保守地进行。

常规学习过程的正规化可包括对正规化权重的利用。随着正规化权重的值增大，适配器组件114所进行的DNN106的适配变得更加保守。例如，随着正规化权重的值变得更大，已适配的和未适配的DNN的输出之间出现越来越少的偏差。相反，随着正规化权重的值变得更小，可以观测到已适配的和未适配的DNN的输出之间的越来越多的偏差。

在一示例性实施例中，适配器组件114可根据从用户104接收的语音数据的量来选择正规化参数的值。随着从用户104接收到更多语音数据，适配器组件114所选择的正规化权重的值可减小。如果要基于更小量的语音数据来进行适配，则适配器组件114可使得正规化权重的值更大(例如，来避免基于来自用户104的语音数据的过拟合)。

在另一示例性实施例中，适配器组件114可基于是采用受监督的学习还是非监督的学习来执行适配来选择正规化权重的值。如果采用受监督的学习来执行适配(例如，来自用户的语音数据被打标签—诸如当用户104从已知文本中阅读时)，适配器组件114可为正规化权重选择较低的值，由此允许未适配的和已适配的DNN的输出中的更大偏差。反过来，如果采用非监督的学习来执行适配，则适配器组件114可为正规化参数选择较大的值，由此减少未适配的和已适配的DNN的输出间的偏差量。

而且，如上所述，DNN106可包括多个隐藏层，每个隐藏层中具有数百或更多(例如，甚至数千)节点，并且其中节点间的每个连接可具有相应的权重和/或权重偏误。相应地，在适配DNN106时，DNN106的相对大数量的参数可被适配器组件114学习。在一示例性实施例中，适配器组件114可适配DNN106的所有参数。在其他实施例中，适配器组件114可适配DNN106的参数的子集。例如，适配器组件114可使得单一隐藏层的参数被适配，可使得与某些节点相对应的参数被适配，等等。在计算设备102已从用户104接收了相对大量的语音数据、并且对DNN106的适配存在时间约束的情况下，选择性地更新DNN106的参数的子集可能是有益的。

在一些实施例中，适配器组件114可在识别系统102的每次使用之后适配DNN106的参数。在另一示例中，每当计算设备100通电时，适配器组件114可确定是否从用户102接收到新语音数据，并且可使用任何新接收的语音数据来适配语音识别系统102中的DNN106(例如，其中新接收的语音数据是自从计算设备100上次通电以来接收的语音数据)。从而，适配器组件114可随时间增量地适配DNN。在又一些实施例中，适配器组件114可随着从用户104接收到越来越多的语音数据而不断地适配DNN。

在又一示例性实施例中，适配器组件114可在识别系统102正被用来执行识别任务时适配DNN106。从而，识别系统性能将随着用户104使用这样的识别系统102而被增强。在这样一个示例性实施例中，用户104可提出一话语，该话语如上所述地由识别系统102解码。例如，这可以导致说出的话语的转录(transcription)，其被用于标识针对该说出的话语的senone上的目标概率分布。适配器组件114可基于这一目标概率分布来适配DNN106(以形成已适配的DNN)，并且同一说出的话语可被提供给识别系统102，其中已适配的DNN与解码该话语结合使用。

现在阐述有关上面描述的DNN和适配过程的额外细节。参考图1所阐述的信息与适配(为特定用户和/或上下文定制的)有关；如同上面指示的，适配可以使用帧级准则、序列级准则、或内插的序列级和帧级准则来执行。如所指示的，DNN106接受输入观测x，该输入观测x通常包括9到13个帧声学特征，并且通过如下的许多层非线性变换来处理它：

其中w^l和a^l分别是在隐藏层l处的权重矩阵和偏误，是第i个节点(神经元)的输出，

z^l(v^l)＝(w^l)^Tv^l+a^l(2)

是给定输入v^l情况下的激励向量，当l＞0且v⁰＝x时v^l＝h^l-1，并且σ(x)＝1/(1+exp(-x))是按元素应用的S型函数(sigmoidfunction)。在顶层L，softmax函数

p (y = s | v^{L}) = \frac{\exp ({(w_{s}^{L})}^{T} v^{L} + a_{s}^{L})}{Σ_{y^{'}} \exp ({(w_{y^{'}}^{L})}^{T} v^{L} + a_{y^{'}}^{L})} - - - (3)

被用来估计状态后验概率p(y＝s|x)，该概率被如下地转换成HMM状态发射概率：

p (x | y = s) = \frac{p (y = s | x)}{p (y = s)} \cdot p (x) - - - (4)

其中s∈{1，2，…，S}是senone标识(id)，S是senone的总数，p(y＝s)是sinones的先验概率，而p(x)与状态s无关。

而且，如上所述，DNN的参数被常规地训练以最大化负交叉熵，如下：

\overset{&OverBar;}{D} = \frac{1}{N} Σ_{t = 1}^{N} D (x_{t}) = \frac{1}{N} Σ_{t = 1}^{N} Σ_{y = 1}^{S} \tilde{p} (y | x_{t}) \log p (y | x_{t}) - - - (5)

其中N是训练集中的样本的数量，而是目标概率。在一些情况下，来自现有系统的硬对齐可被用作训练标签，在该条件下其中δ是克罗内克符号(Kroneckerdelta)，而s_t是第t个样本(例如，训练语料库中的第t个观测帧)的标签。根据一示例，训练通常使用反向传播算法来被执行，并且可以使用GPU和小批量更新来加快。

适配器组件114适配DNN106以使得从已适配的模型估计的后验senone分布不与使用未适配的模型估计的偏差太远，特别是在适配集(由用户104提供的数据)相对小的时候。

因为DNN106的输出是概率分布，所以偏差可以由适配器组件114使用Kullback-Leibler散度(KLD)来测量。通过将这种散度作为正规化项添加到等式(5)并且移除与模型参数无关的项，适配器组件114所采用的正规化的优化准则可以如下：

\hat{D} = (1 - ρ) \overset{&OverBar;}{D} + ρ \frac{1}{N} Σ_{t = 1}^{N} Σ_{y = 1}^{S} p^{S I} (y | x_{t}) \log p (y | x_{t}) - - - (6)

其中p^SI(y|x_t)是从未适配的模型估计并使用未适配的模型用正推法(forwardpass)计算的后验概率，并且ρ是正规化权重。等式(6)可以被重新组织如下：

\begin{matrix} \hat{D} = \frac{1}{N} Σ_{t = 1}^{N} Σ_{y = 1}^{S} [(1 - ρ) \tilde{p} (y | x_{t}) + {ρp}^{S I} (y | x_{t})] \log p (y | x_{t}) \\ = \frac{1}{N} Σ_{t = 1}^{N} Σ_{y = 1}^{S} \hat{p} (y | x_{t}) \log p (y | x_{t}) \end{matrix} - - - (7)

其中

\hat{p} (y | x_{t}) \overset{Δ}{=} (1 - ρ) \tilde{p} (y | x_{t}) + {ρp}^{S I} (y | x_{t}) - - - (8)

通过比较等式(5)和(7)，可以确定向原始训练(优化)准则应用KLD正规化相当于将目标概率分布从改变到其是从未适配的模型估计的分布与适配数据的基础事实对齐的线性内插。这种内插通过确保已适配的DNN的输出不偏离未适配的DNN很远来防止过度训练。可以注意到，这不同于L2正规化，L2正规化约束模型参数本身而不是输出概率。这还指示可直接使用普通反向传播算法来适配DNN106，因为所有改变的只是DNN106的输出层处的误差信号，其可使用来定义。

通常使用开发集，基于适配集的大小、所使用的学习率、以及适配是受监督的还是非监督的来调整内插权重，该内插权重可从正规化权重ρ直接得出。例如，当ρ＝1时，未适配的模型被完全信任，而来自适配数据的所有新信息被忽略。当ρ＝0时，仅基于适配集来适配该模型，除了将来自未适配的模型的信息用作起始点之外忽略该信息。

尽管KLD已在上面被阐述为是适配器组件114在适配DNN106的权重时能够采用的，然而要理解，适配器组件114在执行这种适配时可利用其他方法(或者可以使用适配DNN106的参数的方法的组合)。根据一示例，DNN106的某些参数可以被限制为不由适配器组件114适配，这可以有效地约束已适配的DNN和未适配的DNN的输出中的偏差。例如，适配器组件114可仅适配DNN106中具有高于预定义阈值的绝对值的突触的权重。在其他示例中，适配器组件114可被配置成仅适配具有低于预定义阈值的绝对值的突触的权重。在又一示例中，适配器组件114可被配置成适配DNN106中的某个百分比的参数，其中这一百分比中所包括的参数可以任何合适的方式被选择。例如，具有在所有权重值的前10％中的绝对值的权重可经受适配，而权重中的其他90％不被适配。同样，一定百分比的参数可以被随机选择来进行适配，或层的某一子集中的参数可被适配。

现在转到图2，例示出示例性DNN200的图形表示。DNN200包括以向量V⁰的形式捕捉输入样本的观测数据层202。该输入在图2中被表示为X，它是I×1向量。DNN还包括多个隐藏层204-208。隐藏层204-208中的每一个包括相应的多个隐藏单元，其中每个隐藏单元包括相应的激活函数。相邻层中的隐藏单元潜在地是通过加权突触连接的，加权突触共同地可由隐藏层之间的权重矩阵210和212来表示。如所示，权重矩阵210表示隐藏层204(隐藏层H^L-2)中的隐藏单元和隐藏层206(隐藏层H^L-1)中的隐藏单元之间的加权突触。类似地，权重矩阵212表示隐藏层206中的隐藏单元和隐藏层208(隐藏层H^L)中的隐藏单元之间的加权突触。DNN200中的层214是输出，它是基于DNN200中的加权突触以及隐藏单元的激活函数来确定的。该输出在图2中被表示为Y。适配器组件114可适配权重矩阵210和/或权重矩阵212的权重，以及在执行适配时的权重偏误。

现在参考图3，适配器组件114被示为在适配DNN106的参数时能够考虑帧级适配准则302和序列级适配准则304两者。在序列级训练中，基于senone的序列而非基于某一帧中senone的存在概率来计算输出间的交叉熵。相应地，适配器组件114可替代地或附加地利用序列级适配准则来适配DNN106的参数，而不是仅使用帧级准则302来适配DNN106的参数。如果帧级和序列级适配准则两者均被使用，则适配器组件114可在基于帧级适配准则302和序列级适配准则304所做的适配之间内插。即，适配器组件114可首先基于帧如上所述地计算适配值，并且适配器组件114还可基于序列级适配准则304来确定适配值。适配器组件114可随后在相应适配值之间内插。而且，要理解，帧级和序列级适配准则两者均可在初始学习未适配的DNN(SI-DNN)的参数时被使用。当使用序列级准则来训练SI-DNN时，用帧级准则来内插序列级准则可能是有益的。然而，在适配期间，在一示例中，可向帧级准则和/或序列级准则添加KLD，从而有效地约束已适配的和未适配的模型之间的输出中的偏差。

如同上面指示的，CD-DNN-HMM可以建模给定观测o情况下senones的后验概率P_s|o(s|o)。CD-DNN-HMM包括形式P(h^l|v^l)＝1/Z^lexp((W^l)^Tv^l+a)的(L+1)层对数线性模型的堆栈，具有层类型特定的划分函数Z^l、权重矩阵W^l和偏误向量a^l(要训练的模型参数)，v^l和h^l表示每一层的输入和输出。

对于隐藏层，h^l的分量被假定为二进制的并且是条件独立的，使得P(h^l|v^l)具有按分量S型(component-wisesigmoid)的形式。使用“平均场近似”，h^l的预期值被用作到下一层的输入：对于输出层，h^L是单位向量，其中1的位置表示senones：这一约束带来了softmax的形式。

为了解码和网格生成，通过除以senone先验P_s(s)来在HMM的发射可能性中转换senone后验：

logp_o|s(o|s)＝logP_s|o(s|o)-logP_s(s)+logp_o(o)(9)

其中观测向量o是用邻居帧扩充的声学特征向量。p_o(o)是未知的但是可被忽略，因为它在最佳路径决策和词后验计算中被抵消。同样，在P_s|o(s|o)中可忽略Z^L。

如同上面所提及的，通常在通过预训练步骤初始化以后，可用随机梯度误差反向传播方法来训练CD-DNN-HMM。相关的是顶层的误差信号：

其中是在所有训练话语的帧O^r＝(o^r(1)，o^r(2)，...)上最大化的目标函数，其中话语索引为r。

一种训练CD-DNN-HMM的示例性方法是在具有基础事实标签的训练帧o^r(t)上最大化总对数后验概率。这被称为交叉熵(CE)准则(具有克罗内克符号δ)：

e_{s}^{C E} (r, t) = δ_{s, {\hat{s}}^{r} (t)} - P_{s | o} (s | o^{r} (t)) - - - (12)

序列训练结合了实际均值平均精度(MAP)决策规则的HMM、词法和语言模型约束。从GMM系统中可知的常用的序列目标是最大互信息(MMI)、提升的MMI(BMMI)、以及最小贝叶斯风险(MBR)，如下面阐述的：

P(S|O)是给定当前模型下的路径后验：

使用等式(9)计算声学可能性p(O|S)。P(S)是考虑HMM过渡、词法和LM的路径先验，而κ是声学权重。A^r(S)是准确度函数。可使用它的sMBR变型，该变型对照基础事实来对路径S中的正确帧计数。在s(t)表示帧t处的S上的senone的情况下，误差信号为：

e_{s}^{M M I} (r, t) = δ_{s, \hat{s} (t)} - γ_{s}^{r} (t) - - - (17)

e_{s}^{M B R} (r, t) = {Kγ}_{s}^{r} (t) [E {A^{r} (S) | s (t) = s} - E {A^{r} (S)}] - - - (18)

其中

γ_{s}^{r} (t) = Σ_{S} δ_{s (t), s} P (S | O^{r})

A^{r} (S) = Σ_{t} δ_{s (t), {\hat{s}}^{r} (t)}

以及

E {A^{r} (S) | s (t) = s} = \frac{Σ_{S} δ_{s (t), s} P (S | O^{r}) \cdot A^{r} (S)}{Σ_{S} δ_{s (t), s} P (S | O^{r})}

除了与类似地修改过的之外，与相同。这些误差信号可以使用前向-后向过程高效地被计算。相应地，在用对误差信号的附加的、更复杂的计算扩充的情况下，序列训练BP可以重用现有的CEBP机制。

等式(13)-(15)中的任一个可被用来初始地学习SI-DNN的权重和/或权重偏误。如同上面指示的，在基于用户特定的或上下文特定的适配数据进行适配期间，前面提到的准则可被扩充以包括正规化准则，所述正规化准则约束SI-DNN和所得到的已适配的DNN之间的输出中的偏差。

图4-5例示出与适配DNN的参数有关的示例性方法。尽管各方法被描述为顺序地执行的一系列动作，但可以理解，这些方法不受该顺序的次序的限制。例如，一些动作能以与本文描述的不同的次序发生。另外，动作可以与另一动作并发地发生。此外，在一些实例下，实现本文描述的方法并不需要所有动作。

此外，本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外，这些方法的动作的结果可以存储在计算机可读介质中，显示在显示设备上，等等。

现在单独参考图4，例示出便于适配在识别系统中使用的DNN的示例性方法400。方法400开始于402，并且在404接收所观测的输入数据的特征。例如，这些特征可以基于特定用户的说出的话语。

在406，基于在404观测的输入数据来保守地适配DNN的参数。如上面指示的，保守适配是指未适配的模型和已被保守地适配的模型之间在上下文相关的音素上的概率分布间的偏差中的约束。保守的量可以基于正规化权重，可基于训练数据的长度和/或量(说出的话语的长度)来选择正规化权重的值。所得到的已适配的DNN针对提出所述输入数据的用户被定制。方法400在408完成。

现在参考图5，例示出便于使用正规化权重来适配DNN的参数的示例性方法500。方法500开始于502，并且在504接收特定用户的说出的话语的特征。在506，计算要在适配DNN的参数时采用的正规化权重的值。同样，这可以根据在适配该DNN的参数时要使用的训练数据的量、在执行适配时采用受监督的学习还是非监督的学习等来计算。在508，使用在506计算的正规化权重的值来适配该DNN的参数。方法500在510完成。

现在参考图6，例示出可以根据本文公开的系统和方法使用的示例性计算设备600的高级图示。例如，计算设备600可在支持针对特定用户或上下文保守地适配识别系统的DNN的系统中使用。计算设备600包括执行存储在存储器604中的指令的至少一个处理器602。这些指令可以是例如用于实现被描述为由上面讨论的一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个方法的指令。处理器602可以通过系统总线606访问存储器604。除了存储可执行指令之外，存储器604还可存储矩阵权重、正规化参数的权重、权重偏误、训练数据等。

计算设备600还包括可由处理器602通过系统总线606访问的数据存储608。数据存储608可以包括可执行指令、DNN的经学习的参数等。计算设备2600还包括允许外部设备与计算设备600进行通信的输入接口610。例如，输入接口610可被用于从外部计算机设备、从用户等处接收指令。计算设备600还包括使计算设备600和一个或多个外部设备相接口的输出接口612。例如，计算设备600可以通过输出接口612显示文本、图像等。

考虑了通过输入接口2010和输出接口2012与计算设备2000通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等的输入设备(一个或多个)的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备2000交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的姿势识别、空中手势、头部和眼睛跟踪、话音和语音、视觉、触摸、姿势、以及机器智能等。

另外，尽管被例示为单个系统，但要理解，计算设备600可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备600执行的任务。

在此所述的各种功能可以以硬件、软件或其任何组合来实现。如果以软件实现，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可由计算机访问的任何可用存储介质。作为示例而非限制，这样的计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来以指令或数据结构的形式存储期望的程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多功能碟(DVD)、软盘和蓝光碟(BD)，其中盘(disk)往往以磁的方式再现数据，而碟(disc)常常用激光以光学方式再现数据。另外，传播信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，其包括促成计算机程序从一地向另一地转移的任何介质。连接例如可以是通信介质。例如，如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从网站、服务器、或其它远程源传输，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合也应当被包括在计算机可读介质的范围内。

作为替代或除此之外，本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如，但非限制，可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

以上所描述的包括一个或多个实施例的示例。当然，出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到的修改和改变是不可能的，但本领域内的普通技术人员可以认识到，各方面的许多另外的修改和置换都是可能的。因此，所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外，就在详细描述或权利要求书中使用术语“包括”而言，这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims

1.一种包括识别系统的计算设备，所述识别系统包括：

使用与多个用户相对应的训练数据训练的深度神经网络(DNN)，所述DNN由多个参数来参数化且包括多个层，所述多个层包括：

接收所捕捉的观测的特征的输入层；

多个隐藏层，每个隐藏层包括相应的多个节点，一隐藏层中的每个节点被配置成对来自所述DNN中的一相邻层的至少一个节点的输出执行非线性变换；以及

包括上下文相关单元的模型的输出层，所述输出层接收来自所述DNN中的最上层隐藏层的节点的输出，其中所述DNN的输出包括在所述上下文相关单元的所述模型上的概率分布；以及

保守地适配所述多个参数中的至少一个参数来形式已适配的DNN的适配器组件，其中所述适配器组件保守地适配所述DNN以使得所述DNN和已适配的DNN的输出之间的偏差受到约束。

2.如权利要求1所述的计算设备，其特征在于，所述适配器组件在保守地适配所述至少一个参数时正规化一优化函数，其中在正规化所述优化函数时所述适配器组件采用Kullback-Leibler散度。

3.如权利要求1所述的计算设备，其特征在于，所述多个参数包括所述DNN的相邻层中的节点之间的突触的权重，并且其中所述适配器组件通过仅适配具有高于预定义阈值的绝对值的权重来保守地适配所述多个参数中的所述至少一个参数。

4.如权利要求1所述的计算设备，其特征在于，所述多个参数包括所述DNN的相邻层中的节点之间的突触的权重，并且其中所述适配器组件通过仅适配具有低于预定义阈值的绝对值的权重来保守地适配所述多个参数中的所述至少一个参数。

5.如权利要求1所述的计算设备，其特征在于，所述识别系统为语音识别系统，所捕捉的观测是说出的话语，且所述上下文相关单元是senone。

6.如权利要求1所述的计算设备，其特征在于，所述计算设备是游戏控制台，所述识别系统是语音识别系统或姿势识别系统之一。

7.一种由包括语音识别系统的计算设备执行的方法，所述语音识别系统包括使用来自多个用户的语音数据训练的深度神经网络(DNN)，所述DNN包括多个经学习的参数，所述方法包括：

接收一特定用户的说出的话语；

响应于接收所述说出的话语，至少部分基于所述说出的话语的时间长度来选择正规化权重的值；以及

响应于选择所述正规化权重的值，至少部分基于所述正规化权重和所述说出的话语来适配所述DNN中的所述多个经学习的参数中的至少一个参数来形成已适配的DNN，所述已适配的DNN是针对所述特定用户定制的。

8.如权利要求7所述的方法，其特征在于，适配所述DNN中的所述多个经学习的参数中的所述至少一个参数包括至少部分基于所述正规化权重和所述说出的话语来适配所述DNN中的所述多个经学习的参数中的每个参数。

9.如权利要求7所述的方法，其特征在于，适配所述SI-DNN中的所述多个经学习的参数中的所述至少一个参数包括利用具有所述正规化权重的值的Kullback-Leibler散度来正规化一优化函数。

10.如权利要求7所述的方法，进一步包括：

紧接在适配所述多个经学习的参数中的所述至少一个参数来形成已适配的DNN之后，利用所述已适配的DNN来识别所述用户的所述说出的话语中的至少一个词。