CN107112008A

CN107112008A - 基于预测的序列识别

Info

Publication number: CN107112008A
Application number: CN201580061679.8A
Authority: CN
Inventors: 俞栋; 张羽; M·L·塞尔特泽尔; J·G·德罗波
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-11-13
Filing date: 2015-11-06
Publication date: 2017-08-29
Anticipated expiration: 2035-11-06
Also published as: US20160140956A1; CN107112008B; EP3218901A1; WO2016077157A1; EP3218901B1; US9824684B2

Abstract

一种序列识别系统包括预测部件，该预测部件被配置为接收来自待识别的信号的观测的特征的集合并且基于观测的特征的集合输出指示预测的识别的预测输出。该序列识别系统也包括分类部件，该分类部件被配置为接收预测输出并且基于预测输出来输出指示对信号的识别的标签。

Description

基于预测的序列识别

背景技术

计算机系统当前有广泛使用。一些这样的计算机系统接收输入信号并且执行序列识别以从输入信号生成识别结果。序列识别的示例包括但不限于话音识别、笔迹识别、字符识别、图像识别和/或计算机视觉。在这样的系统中，一个示例机器学习任务包括序列标签化，该序列标签化涉及到分类标签向观测的值的序列的每个成员的算法指派。

在一个示例话音处理系统中，话音识别器接收音频输入信号，并且一般地识别音频信号中的话音并且可以将话音转录成文本。话音处理系统也可以包括噪声抑制系统和/或接收音频信号并且对信号的各种特性、诸如说话者身份、主题、情绪等进行索引化的音频索引化系统。话音处理系统也可以包括接收音频信号、标识信号中的话音并且标识对该话音的内容的解释的话音理解(或者自然语言理解)系统。话音处理系统也可以包括说话者识别系统，该说话者识别系统接收音频输入流并且标识在音频流中说话的各种说话者和/或说话者与捕获音频输入流的麦克风的距离。经常执行的另一功能是说话者分割和跟踪、也称为说话者分割与聚类(diarization)。

以上讨论仅为了一般背景信息而提供并且不旨在于在确定要求保护的主题的范围时用作辅助。

发明内容

一种序列识别系统包括预测部件，该预测部件被配置为接收来自待识别的信号的观测的特征的集合并且基于观测的特征的集合输出指示预测的识别的预测输出。序列识别系统也包括分类部件，该分类部件被配置为接收预测输出并且基于预测输出来输出指示对信号的识别的标签。在一个示例中，序列识别系统利用机器学习框架以适配预测和分类部件的行为并且校正由预测和分类部件生成的输出。

提供本发明内容以用简化的形式介绍以下在具体实施方式中进一步描述的概念的选择。本发明内容不旨在于标识要求保护的主题的关键特征或者必要特征，也不旨在于在确定要求保护的主题的范围时用作辅助。要求保护的主题不限于解决在背景技术中指出的任何或者所有缺点的实现方式。

附图说明

图1是序列识别系统的一个示例的框图。

图2是示出序列识别器的一个示例的框图。

图3是示出基于神经网络的预测部件的一个示例的框图。

图4是示出基于神经网络的分类部件的一个示例的框图。

图5是图示用于执行序列识别的方法的一个示例的流程图。

图6是示出具有验证部件的预测部件的一个示例的框图。

图7是示出序列识别器训练系统的一个示例的框图。

图8是示出在云计算架构中部署的图1中所示系统的一个示例的框图。

图9-13示出可以与图1中所示架构使用的移动设备的各种示例。

图14是一个示例计算环境的框图。

具体实施方式

图1是接收将为其生成识别结果104的输入信号或者数据102的序列识别系统100的一个示例的框图。在一个示例中，输入信号102代表使用一个或者多个传感器而感测的物理实体。例如但是没有限制，输入信号102可以代表音频流、一个或者多个图像、用户笔迹采样等。以该方式，系统100可以用来执行多个识别应用中的任何识别应用。例如但是没有限制，系统100可以用来识别话音、笔迹和/或图像。在笔迹识别示例中，输入数据102指示用户笔迹输入，序列识别系统100从该输入识别字符。在图像识别示例中，系统100可以用于计算机视觉应用。在话音应用中，系统100可以用于说话者识别、话音理解、噪声抑制、音频索引化和/或自动转录。另外，系统100的部件可以用于预测说话速率、干净的话音帧和/或噪声帧。这些当然仅为示例。

为了讨论而不是限制，这里将在话音识别的上下文中描述示例。然而，本领域技术人员将理解描述的概念可以适用于序列识别的其他形式。

在更详细描述系统100的操作之前，将首先提供对系统100中的项目中的一些项目及其操作的简要概述。如图1中所示，在运行时期间向采样和特征提取系统106提供输入数据102(在本例中的看不见的话音数据)。系统106对看不见的话音数据102进行采样并且以观测特征向量108的形式提取特征。在一个示例中，系统106生成帧并且提取与话音数据的帧对应的特征。举例而言而没有限制，特征向量108可以是梅尔倒谱(Mel Cepstrum)特征(例如梅尔频率倒谱系数(MFCC))、线性预测倒谱系数(LPCC)以及广泛多种其他声学或者非声学特征。向为输入数据102生成识别结果104的序列识别器110提供特征向量108。在一个示例中，识别结果104包括用于讲话的音位(phoneme)，该讲话被提供给语言模型用于标识字词序列。系统100包括用于执行在序列识别系统100内的功能的一个或者多个处理器112。

图2是示出序列识别器110的一个示例的框图。如图2中所示，观测特征向量108由序列识别器110接收以生成分类结果150。序列识别器110包括预测部件152和分类部件154。

分类部件154被配置为输出指示对输入数据或者信号的识别的分类结果150。在一个示例中，分类部件154接收用于输入数据或者信号的每个帧的观测的特征的集合并且基于用于每个帧的观测的特征的集合输出包括用于该帧的状态标签的分类结果150。例如分类部件154可以基于用于输入话音数据的当前帧的特征向量156输出用于该当前帧的音位标签。

预测部件152被配置为接收用于给定的帧的观测的特征的集合并且基于用于给定的帧的观测的特征的集合输出指示预测的识别的预测输出。如以下更详细讨论的那样，在一个示例中，预测部件152基于用于当前帧的特征为将来帧生成对下一状态(例如下一音位)的预测。备选地或者附加地，预测部件152可以生成对下一说话者、说话速率、噪声条件和/或可以用来增强分类部件154的准确度的任何其他信息的预测。

序列识别器110示例地包括机器学习框架，在该机器学习框架中基于反馈适配预测部件152和分类部件154的行为。在所示示例中，从分类部件154到预测部件152的反馈结果(例如辅助信息160)用来在生成用于将来帧的改进或者更准确的预测时适配预测部件152。另外，从预测部件152到分类部件154的反馈结果(例如预测信息158)用来在生成改进或者更准确的分类时适配分类部件154。在一个实现方式中，机器学习框架可以视为校正由预测部件152做出的预测。由于来自分类部件154的辅助信息160依赖于来自预测部件152的预测信息158并且反之亦然，所以形成循环回路。如以下更详细讨论的那样，本说明书提供广泛多种技术优点。例如但不是限制，它提供用于分类器的机器学习架构，该分类器利用对观测的特征的预测以生成分类结果。动态地适配和校正部件以改进分类结果(例如音位准确度等)。

在更详细描述序列识别器110的操作之前，将讨论预测部件152和分类部件154。简言之，部件152和154可以包括分析观测特征向量108的任何适当架构。例如部件152和154可以各自包括声学模型、诸如但不限于代表将由识别系统100检测的话音单元的隐马尔科夫模型(HMM)。在所示示例中，序列识别器110包括循环神经网络，在该循环神经网络中，预测部件152和分类部件154中的每个部件包括人工神经网络(例如深度神经网络(DNN))。尽管这里在基于神经网络的预测和分类的上下文中描述示例，但是本领域技术人员理解可以利用其他类型的部件和模型。

图3是预测部件152的一个示例的框图。预测部件152包括具有输入层202、输出层204和在输入层202与输出层204之间的一个或者多个隐藏层206的深度神经网络(DNN)200。

输入层202从分类部件接收用于当前帧的特征向量156和辅助信息160。在一个示例中，输入层202中的信息由在DNN 200内执行S型(sigmoid)函数的一个或者多个S型层处理。如本领域技术人员理解的那样，S型函数可以在人工神经网络中用来向模型中引入非线性。神经网络元可以计算它的输入信号的线性组合并且向结果应用S型函数。S型函数可以满足在导数与它自己之间的性质，从而它在计算上易于执行。

在一个示例中，隐藏层206包括向输出层204中的输出节点的集合中馈送的节点的集合。基于特征向量156和辅助信息160，输出层204输出指示预测的识别的预测输出。在一个具体示例中，DNN200预测用于将来帧的后验概率，该将来帧可以是下一邻接帧、跟随当前帧或者某个其他将来帧。例如预测输出可以是基于当前帧的特征向量156和由分类部件154生成的辅助信息160的用于将来帧的状态(例如音素)的后验概率。在一个示例中，输出层204包括将一个或多个原始值转换成后验概率的柔性最大值(softmax)函数。

在所示示例中，一个或多个隐藏层206中的至少一个隐藏层包括在输入层202与输出层204之间的瓶颈层208。在一个示例中，瓶颈层208包括特殊隐藏层，在该特殊隐藏层中，节点或者神经元的数目少于其他隐藏层。瓶颈层208在DNN 200中作为降维层操作。

尽管可以从输出层204或者隐藏层206、诸如瓶颈层208获得预测信息258，但是在大词汇量话音识别任务中经常有大量状态(例如5,000个状态以上)。在该情况下，从输出层204获得信息可以显著地增加模型大小。在一个示例中，从其大小可以与状态大小独立设置的隐藏层206获得信息。

图4是分类部件154的一个示例的框图。分类部件154包括具有输入层252、输出层254和在输入层252与输出层254之间的一个或者多个隐藏层256的深度神经网络(DNN)250。在一个示例中，层252、254和256与以上关于图3而讨论的层202、204和206基本上相似。

输入层252接收用于当前帧的特征向量156和预测信息158。在一个示例中，输入层252中的信息由在DNN 250内执行S型函数的一个或者多个S型层处理。基于特征向量156和预测信息158，输出层254生成分类结果150，该分类结果在一个示例中包括指示对输入数据的当前帧的识别的标签。在一个具体示例中，DNN 250的输出层254包括柔性最大值函数，该柔性最大值函数估计在给定特征向量156和预测信息158时在时间t(即当前帧)的状态后验概率。

DNN 250输出辅助信息160用于由预测部件152使用。辅助信息160可以包括任何有用信息以改进预测部件152的预测函数。在一个示例中，辅助信息160包括来自输出层254的输出。在另一示例中，辅助信息160包括来自隐藏层256、诸如瓶颈层258的输出。在一个示例中，瓶颈层258在神经网络中作为降维层操作。

投影层260也可以用来在向预测部件152提供辅助信息160之前减少辅助信息160的特征的维度。投影层260可以被并入在部件154内或者可以是从分类部件154接收输出的分离部件。

再次参照图2，序列识别器110包括配置为基于来自分类部件154的分类结果150输出识别结果104的输出部件174。在一个话音识别示例中但是没有限制，识别结果104包括向输入话音信号指派的音位标签，其中输出部件174向话音处理系统、诸如配置为提供讲话的解释的含义的话音理解系统输出识别结果104。这些当然仅为示例。

图5是图示用于执行序列识别的方法300的一个示例的流程图。为了示例但是没有限制，将在使用序列识别器110以识别话音的上下文中描述方法300。然而理解其他应用是有可能的。例如序列识别器110可以用于字符或者笔迹识别。在另一示例中，序列识别器110可以用于预测说话速率、干净的话音帧和/或噪声帧。例如在一个应用中，生成如下反馈，该反馈指示系统在存在环境噪声时多么好地预测无噪声话音。

在块302，获得观测特征向量108。例如从待识别的信号的帧提取特征向量108。在块304，选择在时间t的当前帧。在块306，标识用于选择的当前帧的特征向量(“F.V.”)156。在块308，向预测部件152提供用于在时间t的当前帧的特征向量156(即o_t)。这由图2中的箭头163代表。在块310也向分类部件154提供当前帧特征向量(o_t)156。这由图2中的箭头164代表。

在块312，预测部件152生成用于在时间t+n的将来帧的预测信息158，其中t对应于当前帧的时间并且n是将来的帧数目。将来帧可以是下一邻接帧(即n＝1)或者将来另一帧(即n>1)。在序列识别器110的一个实现方式中但是没有限制，将n设置成相对大的数目可以提高识别准确度。在一个示例中，n大于或者等于五。在一个具体示例中，将n设置成十。这些当然仅为示例。

预测部件152基于当前帧特征向量156和辅助信息生成预测信息158(以下更详细描述)。在一个示例中，生成预测信息158包括通过预测后验概率来生成用于将来事件的目标信息：

其中o_t是特征向量156，y_t是辅助信息160，l是可以是状态、诸如音素的目标信息，并且n是如以上讨论的帧数目。在一个示例中，后验概率由下式给定：

其中o_t是在时间t的特征向量，并且h_t是在时间t的隐藏状态。

尽管预测信息158可以包括对当前帧做出的用于结果150的预测的分类(即预测的状态)，但是在一个示例中，它可以包括对分类部件154在生成分类结果150时有用的任何其他信息。在一个示例中，预测信息158可以包括在时间t来自隐藏或者瓶颈层的输出，该输出被表示为预测信息158可以指示对在下一或者将来帧中的一个或者多个事件的预测。示例包括但不限于预测的说话者身份或者代码(例如话音数据的帧是否来自第一说话者或者第二说话者)、预测的说话速率、预测的噪声条件和/或对帧是否包括噪声帧的预测。在另一示例中，预测信息158可以包括设备身份或者代码。这些当然仅为示例。

由于为将来帧(即帧t+n)生成预测信息158，但是输入164包括用于当前帧t的特征向量156，所以序列识别器110在一个示例中包括被配置为向分类部件154提供对输入164和166的基于帧的同步的同步部件162。换而言之，同步部件162操作以同步预测部件152和分类部件154的操作。这在图5中的块314和316被示出。尽管在图2中图示同步部件162为分离块，但是注意在一个示例中，同步部件162可以被集成到预测部件152中。

举例而言，在块314，同步部件162接收预测信息158并且实施延迟函数168以生成作为输入166向分类部件154提供的同步的预测信息172。在相对简化的示例中，同步的预测信息172(表示为x_t)包括对以往给定的帧做出的预测(即)。同步部件162可以在一个实现方式中包括在向分类部件154提供用于给定的数目的帧的预测信息之前暂时地存储该预测信息的数据存储库。

为了探索以往做出的附加预测，同步部件162可以实施存储、然后组合或者堆叠多个隐藏层值到单个输入函数中的上下文扩展函数170。例如同步的预测信息172可以由下式给定：

其中T^class是由分类部件154使用的上下文窗口大小。在其中T^class被设置成十的一个示例中，同步的预测信息(x_t)172包括用于在时间t的当前帧之前的十个帧的堆叠的隐藏层值的窗口。

在块318，分类部件154估计用于帧t的状态后验概率其中o_t是特征向量156并且x_t是同步的预测信息172。在一个示例中但是没有限制，分类部件154连结预测信息172与特征向量156以创建由分类部件154处理的更大特征向量。备选地或者附加地，预测信息172可以通过使用掩码和/或基于预测信息172动态地改变分类部件154的权重来并入到分类部件154中。

在块320，分类部件154以辅助信息160的形式向预测部件152提供反馈。作为示例，辅助信息160包括可以用来改进预测部件152在生成预测信息158时的行为的任何适当信息。以该方式，预测部件152的行为也能够在分类过程期间动态地适配。

在块320的一个示例中，在向预测部件152提供辅助信息160作为输入之前减少辅助信息160的特征的维度。例如可以利用投影层、诸如图4中所示层260以向更低维度投影来自分类部件154的隐藏层输出

另外，在一个示例中，可以用与上下文扩展函数170相似的方式组合或者堆叠用于多个帧的隐藏层输出。在一个示例中，辅助信息160可以由下式给定：

其中T^pred是由预测部件152使用的上下文窗口大小。在一个示例中，其中T^pred被设置成1。

在块322，分类部件154基于状态后验概率生成分类结果150以向当前帧指派状态标签。在块324，该方法确定是否有待分类的任何附加帧。如果是，则该方法返回到块304以处理下一帧。

在一个示例中，序列识别器110被配置为验证由预测部件152做出的预测。因此，图6是具有验证部件350的预测部件152的一个示例的框图。尽管图示验证部件350为集成到预测部件152中，但是在一个示例中，验证部件350可以与预测部件152分离。

如图6中所示，假设352由假设生成器354生成。例如但是没有限制，神经网络、诸如DNN 200接收特征向量156和辅助信息160并且生成用于当前帧的预测。假设352可以包括用于当前帧的预测的状态标签、诸如预测的音位标签以及其他预测信息、诸如预测的事件(例如说话者身份、说话速率、噪声等)。

验证部件350评估假设352以生成验证测量356。在一个示例中，验证测量356指示相对于观测的假设352的质量或者置信度，验证测量356在向分类部件154提供假设352之前被反馈到假设生成器354以改进假设352。在一个示例中，验证测量356由假设生成器354用来使假设352更好地匹配观测。

在一个示例中，验证测量356包括可能性测量并且可以是以数值可能性得分的形式，该数值可能性得分指示假设352多么可能是对观测的准确预测。备选地或者附加地，验证测量356可以包括由生成模块358生成的与假设352的预测的状态有关的信息。

为了示例但是没有限制，在一个示例中，假设生成器354接收用于当前帧的特征向量156，该当前帧具有来自两个不同说话者的话音。假设生成器354预测分离的话音，并且验证测量356指示两个预测的分离的话音流的组合多么好地形成观测的输入。

另外，在一个示例中，在存在噪声时接收输入话音，这可能使预测标签有困难。预测部件152从有噪声的话音生成第一预测，该第一预测指示无噪声的干净的话音。附加地，预测部件152从有噪声的话音生成第二预测，该第二预测指示无话音的噪声。然后，通过使用生成模块358以组合两个预测并且确定该组合是否等于输入信号，验证测量356指示该预测是否视为准确。该信息可以用来改善假设生成器354。

如图6中所示，可以向分类部件154输出假设352和验证测量356用于在对当前帧进行分类时使用。举例而言，分类部件154可以使用验证测量356作为假设352是否具有高或者低可能性的指示用于在校正假设352时使用。例如但是没有限制，假设352和验证356可以共同地指示输入信号包括来自两个不同说话者的话音有高可能性。使用该信息，分类部件154可以将输入分成两个不同话音流用于处理。

可以用广泛多种方式训练序列识别器、诸如识别器110。在一个示例中，训练涉及到使用加标签的训练数据以求解多任务学习问题。可以将多个训练目标组合成单个训练目标函数。例如可以将预测目标并入到训练准则中。

图7是示出训练系统400的一个示例的框图。为了示例但是没有限制，将在训练序列识别器110的上下文中描述训练系统400。在图7中所示示例中，一些项目与图2中所示项目相似，并且它们被相似地编号。

训练系统400包括从训练数据存储库404获得加标签的训练数据的多任务训练部件402。训练数据存储库404可以在训练系统400本地或者可以由训练系统400远程地访问。

训练数据被加标签的方式可以依赖于序列识别器110的特定配置。在所示示例中，分类部件154估计状态后验概率。因此，训练数据的每个帧可以包括状态标签和用于训练分类部件154的帧交叉熵(cross-entropy，CE)准则。另外，在所示示例中，预测部件152被配置为预测用于下一帧的状态标签。因此，用于训练数据的每个帧的状态标签可以用来训练预测部件152。在另一示例中，预测部件152被配置为预测多个不同事件。例如预测部件152可以被配置为预测说话者和噪声。因此，训练数据的每个帧可以包括用于说话者和噪声的标签。在一个示例中，如果信息从训练数据的帧遗漏，则假设对应帧的成本为零。

在所示示例中，多任务训练部件402用等式(4)的目标函数向预测部件152和分类部件154提供训练数据作为输入：

其中α是设置每个准则的相对重要度的插值权重，并且T是训练讲话中的帧的总数。在一个示例中，将α设置成0.8。训练部件402示例地使用等式(4)的目标函数并且训练预测部件152和分类部件154以优化目标函数。在一个示例中，训练部件402训练预测部件152和分类部件直至学习不再改进或者直至改进在给定的阈值以下。这仅为示例。

等式(4)将预测和分类目标二者并入到训练准则中。当然，根据序列识别器的配置，可以优化多于两个目标。

在一个示例中，在用多任务训练部件402训练预测部件152和分类部件154之前首先分离地训练它们。另外，在训练期间，来自分类部件154的状态后验(或者为它们而转换的按比例的可能性得分)可以视为发出概率。

因此可见本说明书提供广泛多种技术优点。例如但是没有限制，它提供用于分类器的机器学习架构，该分离器利用对观测的特征的预测以生成分类结果。该架构在统一框架中并入预测、适配、生成和校正以用提高状态预测的准确度的方式支持序列识别。在所示示例中，在循环回路中实施多个不同基于神经网络的部件，在该循环回路中动态地适配和校正部件以改进分类结果。在话音应用中，该框架可以显著地提高音素识别准确度。这可以在识别被馈送到另一系统(诸如但不限于音频索引化系统、噪声抑制系统、自然语言理解系统)中时通过增强那些系统的准确度来提供又一技术优点。这仅为一个示例。

本讨论提到处理器和服务器。在一个示例中，处理器和服务器包括有未分离地示出的关联存储器和定时电路的计算机处理器。它们是它们属于的系统或者设备的功能部分并且由那些系统中的其他部件或者项目激活而且支持其他部件或者项目的功能。

也讨论许多用户界面显示或者用户界面。它们可以采用广泛多种不同形式并且可以具有在其上布置的广泛多种不同用户可致动输入机制。例如用户可致动输入机制可以是文本框、复选框、图标、链接、下拉菜单、搜索框等。也可以用广泛多种不同方式致动它们。例如可以使用指示和点击设备(诸如跟踪球或者鼠标)来致动它们。可以使用硬件按钮、开关、操纵杆或者键盘、拇指开关或者拇指板等来致动它们。也可以使用虚拟键盘或者其他虚拟致动器来致动它们。此外，在它们被显示在其上的屏幕是触敏屏幕时，可以使用触摸手势来致动它们。另外，在显示它们的设备具有话音识别部件时，可以使用话音命令来致动它们。

也已经讨论许多数据存储库。将注意它们可以各自被分成多个数据存储库。所有数据存储库可以在访问它们的系统本地，所有数据存储库可以是远程的，或者一些数据存储库可以在本地而其他数据存储库是远程的。这里设想所有这些配置。

另外，各图示出具有归于每个块的功能的多个块。将注意可以使用更少块，因此功能由更少部件执行。另外，更多块可以与在更多部件之中分布功能的情况下使用。

图8是图1中所示序列识别系统100的框图，不同在于在云计算架构500中布置它的元件。云计算提供计算、软件、数据访问和存储服务，这些服务无需终端用户知道递送服务的系统的物理位置或者配置。在各种示例中，云计算使用适当协议通过广域网络、诸如因特网递送服务。例如云计算提供商通过广域网递送应用，并且可以通过任何web浏览器或者任何其他计算部件访问它们。可以在远程位置处的服务器上存储系统100的软件、模块或者部件以及对应数据。可以在远程数据中心位置处合并云计算环境中的计算资源或者可以分散它们。云计算基础结构可以通过共享的数据中心递送服务，即使它们表现为用于用户的单个接入点。因此，可以使用云计算架构从在远程位置处的服务提供商提供这里描述的部件和功能。备选地，可以从常规服务器提供它们，或者可以直接地在客户端设备上或者以其他方式安装它们。

本描述旨在于包括公共云计算和私有云计算二者。云计算(公共和私有二者)提供基本上无缝的资源池化以及减少的对于管理和配置底层硬件基础结构的需要。

公共云由销售商管理并且通常地使用相同基础结构来支持多个消费者。另外，与私有云相反，公共云可以让终端用户免于管理硬件。私有云可以由组织本身管理，并且通常地没有与其他组织共享基础结构。组织仍然在某个程度上维护硬件、诸如安装和修复等。

在图8中所示示例中，一些项目与图1中所示项目相似，并且它们被相似地编号。图8具体地示出采样和特征提取系统106以及序列识别器110可以位于云502(该云可以是公共的、私有的或者其中部分公共而其他部分私有的组合)中。因此，用户504使用用户设备506以通过云502访问那些系统。用户504使用用户设备506上的用户输入机制508来提供输入。也在一个示例中，训练系统400可以位于云502中。

举例而言但是没有限制，可以实施采样和特征提取系统106以及序列识别器110作为由用户504和/或一个或者多个其他用户(在图8中未示出)用于话音处理的话音处理系统510的部分。话音处理系统510可以是执行多种不同类型的话音处理的广泛多种不同类型的话音处理系统。例如它可以是说话者识别系统以及音频索引化系统、话音识别系统、自动转录系统、话音理解系统以及广泛多种其他系统。例如对于话音识别，用户504使用输入机制508(例如麦克风)以向系统510提供话音信号并且接收指示对话音信号的识别的识别结果。

图8也描绘云架构的另一示例。图8示出也设想系统100的一些元件可以被布置在云502中而其他元件没有。举例而言，采样和特征提取系统106可以被布置在云502以外并且通过云502来访问。在另一示例中，序列识别器110也可以在云502以外。在另一示例中，训练系统400也可以在云502以外。无论它们位于何处，它们可以由设备504通过网络(广域网或者局域网)来直接地访问，它们可以在远程地点处由服务主控，或者可以通过云提供它们作为服务或者由在云中驻留的连接服务访问它们。这里设想所有这些架构。

也将注意系统100或者它的部分可以被布置在广泛多种不同设备上。那些设备中的一些设备包括服务器、桌面计算机、膝上计算机、平板计算机或者其他移动设备(诸如掌上计算机、蜂窝电话、智能电话、多媒体播放器、个人数字助理等)。

图9是可以在其中部署本系统(或者它的部分)的、可以用作用户的或者客户端的手持设备16的手持或者移动计算设备的一个示例的简化框图。图10-13是手持或者移动设备的示例。

图9提供可以运行系统100的模块或者部件或者与系统100交互或者二者的客户端设备16的部件的一般框图。在设备16中，提供通信链路13，该通信链路允许手持设备与其他计算设备通信并且在一些示例中提供用于诸如通过扫描来自动地接收信息的信道。通信链路13的示例包括红外线端口、串行/USB端口、线缆网络端口(诸如以太网端口)和允许通过一个或者多个通信协议的通信的无线网络端口，该一个或者多个通信协议包括通用分组无线电服务(GPRS)、LTE、HSPA、HSPA+以及其他3G和4G无线电协议、1Xrtt和短消息服务，这些是用来提供向网络的蜂窝接入的无线服务，以及提供向网络的本地无线连接的802.11和802.11b(Wi-Fi)协议以及蓝牙协议。

在其他示例中，在连接到SD卡接口15的可移除安全数字(SD)卡上接收应用或者系统。SD卡接口15和通信链路13沿着也连接到存储器21和输入/输出(I/O)部件23以及时钟25和位置系统27的总线19与处理器17(该处理器也可以体现来自图1的一个或多个处理器112)通信。

在一个示例中提供I/O部件23以支持输入和输出操作。用于设备16的各种示例的I/O部件23可以包括输入部件(诸如按钮、触摸传感器、多触摸传感器、光学或者视频传感器、语音传感器、触屏、接近传感器、麦克风、倾斜传感器和重力开关)以及输出部件(诸如显示设备、扬声器和/或打印机端口)。也可以使用其他I/O部件23。

时钟25包括输出时间和日期的实时时钟部件。它也可以提供用于处理器17的定时功能。

位置系统27包括输出设备16的当前地理位置的部件。这可以例如包括全球定位系统(GPS)接收器、LORAN系统、航位推算(dead reckoning)系统、蜂窝三角测量系统或者其他定位系统。它也可以例如包括生成希望的地图、导航路线和其他地理功能的地图软件或者导航软件。

存储器21存储操作系统29、网络设置31、应用33、应用配置设置35、数据存储库37、通信驱动器39和通信配置设置41。它也可以存储可以是系统100的部分或者全部的客户端系统24。存储器21可以包括所有类型的有形易失性和非易失性计算机可读存储器设备。它也可以包括计算机存储介质(以下描述)。存储器21存储在由处理器17执行时使处理器根据指令执行计算机实施的步骤或者功能的计算机可读指令。处理器17也可以由其他部件或者模块激活以支持它们的功能。

网络设置31的示例包括诸如代理信息、因特网连接信息和映射的事物。应用配置设置35包括为具体企业或者用户定制应用的设置。通信配置设置41提供用于与其他计算机通信的参数并且包括诸如GPRS参数、SMS参数、连接用户名称和密码的项目。

应用33可以是先前已经存储在设备16上的应用或者在使用期间安装的应用，但是这些也可以是操作系统29的部分或者在设备16外部被主控。

图10示出其中设备16是平板计算机600的一个示例。在图10中，示出计算机600有用户界面显示屏幕602。屏幕602可以是触屏(因此来自用户的手指的触摸手势可以用来与应用交互)或者从笔或者触笔接收输入的由笔启用的界面。它也可以使用屏上虚拟键盘。当然，它也可能通过适当附接机制(例如诸如无线链路或者USB端口)附接到键盘或者其他用户输入设备。计算机600也可以例如接收语音输入。

图11和12提供可以使用的设备16的附加示例，但是也可以使用其他示例。在图11中，提供功能电话、智能电话或者移动电话45作为设备16。电话45包括用于拨打电话号码的一组小键盘47、能够显示包括应用图像、图标、web页面、相片和视频的图像的显示器49以及用于选择在显示器上示出的项目的控制按钮51。电话包括用于接收蜂窝电话信号(诸如通用分组无线电服务(GPRS)和1Xrtt以及短消息服务(SMS)信号)的天线53。在一些示例中，电话45也包括接受安全数字(SD)卡57的SD卡槽55。

图12的移动设备是个人数字助理(PDA)59或者多媒体播放器或者平板计算设备等(下文称为PDA 59)。PDA 59包括在触笔63(或者其他指示器、诸如用户的手指)被定位在屏幕之上时感测触笔的定位的感应屏幕61。这允许用户选择、醒目显示和移动屏幕上的项目以及绘制和写入。PDA 59也包括多个用户输入键或者按钮(诸如按钮65)，这些用户输入键或者按钮允许用户滚动通过在显示器61上显示的菜单选项或者其他显示选项并且允许用户改变应用或者选择用户输入功能而没有接触显示器61。虽然未示出，但是PDA 59可以包括允许与其他计算机的无线通信的内部天线和红外线发射器/接收器以及允许与其他计算设备的硬件连接的连接端口。通常地通过支架进行这样的硬件连接，该支架通过串行或者USB端口连接到其他计算机。因此，这些连接为非网络连接。在一个示例中，移动设备59也包括接受SD卡69的SD卡槽67。

图13与图11相似，除了电话是智能电话71以外。智能电话71具有显示图标或者图块(tile)或者其他用户输入机制75的触敏显示器73。机制75可以由用户用来运行应用、进行呼叫、执行数据传送操作等。一般而言，智能电话71被构建在移动操作系统上并且提供比功能电话更高级的计算能力和连接性。

注意设备16的其他形式是有可能的。

图14是可以在其中部署系统100或者它的部分(例如)的计算环境的一个示例。参照图14，用于实施一些示例的示例系统包括形式为计算机810的通用计算设备。计算机810的部件可以包括但不限于处理单元820(该处理单元可以包括一个或多个处理器112)、系统存储器830和将包括系统存储器的各种系统部件耦合到处理单元820的系统总线821。系统总线821可以是包括存储器总线或者存储器控制器、外围总线和使用多种总线架构中的任何总线架构的本地总线的若干总线结构类型中的任何总线结构类型。举例而言并且没有限制，这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和也称为夹层(Mezzanine)总线的外围部件互连(PCI)总线。可以在图14的对应部分中部署参照图1描述的存储器和程序。

计算机810通常地包括多种计算机可读介质。计算机可读介质可以是可以由计算机810访问的任何可用介质并且包括易失性和非易失性介质二者、可移除和非可移除介质二者。举例而言并且没有限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质不同于并且没有包括调制的数据信号或者载波。它包括硬件存储介质，这些硬件存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或者其他数据)的任何方法或者技术中实施的易失性和非易失性二者、可移除和非可移除介质二者。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或者其他存储器技术、CD-ROM、数字万用盘(DVD)或者其他光盘存储装置、磁盒、磁带、磁盘存储装置或者其他磁存储设备或者可以用来存储希望的信息并且可以由计算机810访问的任何其他介质。通信介质通常地在传送机制中体现计算机可读指令、数据结构、程序模块或者其他数据并且包括任何信息递送介质。术语“调制的数据信号”意味着如下信号，该信号让它的特性中的一个或者多个特性以在信号中编码信息的方式来设置或者改变。举例而言并且没有限制，通信介质包括有限介质(诸如有线网络或者直接有线连接)以及无线介质(诸如声学、RF、红外线和其他无线介质)。也应当在计算机可读介质的范围内包括以上介质中的任何介质的组合。

系统存储器830包括形式为易失性和/或非易失性存储器(诸如只读存储器(ROM)831和随机存取存储器(RAM)832)的计算机存储介质。通常地在ROM 831中存储基本输入/输出系统833(BIOS)，该BIOS包含有助于诸如在启动期间在计算机810内的元件之间传送信息的基本例程。RAM 832通常地包含处理单元820立即地可访问和/或当前由处理单元820操作的数据和/或程序模块。举例而言并且没有限制，图14图示操作系统834、应用程序835、其他程序模块836和程序数据837。

计算机810也可以包括其他可移除/非可移除、易失性/非易失性计算机存储介质。仅举例而言，图14图示从非可移除、非易失性磁介质读取或者向非可移除、非易失性磁介质写入的硬盘驱动841和从可移除、非易失性光盘856(诸如CD ROM或者其他光介质)读取或者向可移除、非易失性光盘856写入的光盘驱动855。可以在示例操作环境中使用的其他可移除/非可移除、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字万用盘、数字视频带、固态RAM、固态ROM等。硬盘驱动841通常地通过非可移除存储器接口、诸如接口840连接到系统总线821，并且光盘驱动855通常地由可移除存储器接口、诸如接口850连接到系统总线821。

备选地或者附加地，这里描述的功能可以至少部分由一个或者多个硬件逻辑部件执行。例如并且没有限制，可以使用的硬件逻辑部件的类型包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)系统、复杂可编程逻辑器件(CPLD)等。

以上讨论和在图14中图示的驱动及其关联计算机存储介质提供对用于计算机810的计算机可读指令、数据结构、程序模块和其他数据的存储。例如在图14中图示硬盘驱动841为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意这些部件可以与操作系统834、应用程序835、其他程序模块836和程序数据837相同或者不同。这里向操作系统844、应用程序845、其他程序模块846和程序数据847给予不同编号以图示它们至少是不同副本。

用户可以通过输入设备(诸如键盘862、麦克风863和指示设备861、诸如鼠标、跟踪球或者触板)向计算机810中录入命令和信息。其他输入设备(未示出)可以包括操纵杆、游戏板、卫星碟、扫描仪等。这些和其他输入设备经常通过耦合到系统总线的用户输入接口860连接到处理单元820，但是可以由其他接口和总线结构(诸如并联端口、游戏端口或者通用串行总线(USB))连接。可视显示器891或者其他类型的显示设备也经由接口、诸如视频接口890连接到系统总线821。除了监视器之外，计算机也可以包括可以通过输出外围接口895连接的其他外围输出设备、诸如扬声器897和打印机896。

使用与一个或者多个远程计算机、诸如远程计算机880的逻辑连接在联网环境中操作计算机810。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或者其他公共网络节点并且通常地包括以上相对于计算机810而描述的元件中的许多或者所有元件。在图14中描绘的逻辑连接包括局域网(LAN)871和广域网(WAN)873，但是也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内部网和因特网中是常见的。

在LAN联网环境中使用时，计算机810通过网络接口或者适配器870连接到LAN871。在WAN联网环境中使用时，计算机810通常地包括调制解调器872或者用于通过WAN873、诸如因特网建立通信的其他装置。可以是内部或者外部的调制解调器872可以经由用户输入接口860或者其他适当机制连接到系统总线821。在联网环境中，可以在远程存储器存储设备中存储相对于计算机810或者其部分描绘的程序模块。举例而言并且没有限制，图14图示远程应用程序885为驻留在远程计算机880上。将认识所示网络连接是示例性的并且可以使用在计算机之间建立通信链路的其他装置。

也应当注意可以用不同方式组合这里描述的不同实施例。也就是说，一个或者多个实施例的部分可以与一个或者多个其他实施例的部分组合。例如可以在任何示例组合中组合在以下段落中讨论的示例。这里设想所有这些。

示例1是一种序列识别系统，该序列识别系统包括：预测部件，配置为接收来自待识别的信号的观测的特征的集合(或者用于接收该观测的特征的集合的装置)，并且基于观测的特征的集合输出指示预测的识别的预测输出。该序列识别系统也包括：分类部件，配置为接收预测输出并且基于预测输出来输出指示对信号的识别的标签(或者用于输出该标签的装置)。

示例2是任一或者所有先前示例的序列识别系统，其中标签包括状态标签，并且分类部件被配置为通过基于来自信号的观测的特征和来自预测部件的预测输出来输出状态标签对信号进行分类。

示例3是任一或者所有先前示例的序列识别系统，其中分类部件被配置为估计用于信号的状态后验概率。

示例4是任一或者所有先前示例的序列识别系统，其中观测的特征的集合包括来自信号的第一帧的特征，并且预测输出指示与信号的后续第二帧有关的预测的识别。

示例5是任一或者所有先前示例的序列识别系统，其中第一帧和第二帧包括非邻接帧。

示例6是任一或者所有先前示例的序列识别系统，其中分类部件被配置为基于来自第二帧的观测的特征的集合和基于来自第一帧的观测的特征的集合的预测的输出来输出用于第二帧的状态标签。

示例7是任一或者所有先前示例的序列识别系统，其中预测输出包括用于第二帧的预测的事件。

示例8是任一或者所有先前示例的序列识别系统，其中预测的事件包括预测的说话者身份、预测的说话速率或者预测的噪声条件中的至少一项。

示例9是任一或者所有先前示例的序列识别系统，其中预测的事件包括用于第二帧的预测的状态标签。

示例10是任一或者所有先前示例的序列识别系统，其中分类部件被配置为基于来自第二帧的观测的特征的集合校正用于第二帧的预测的状态标签。

示例11是任一或者所有先前示例的序列识别系统，其中分类部件被配置为接收来自第一帧的观测的特征的集合并且基于对信号的第一帧进行分类向预测部件输出反馈信息，以及其中预测部件基于反馈信息输出与第二帧有关的预测输出。

示例12是任一或者所有先前示例的序列识别系统，其中信号包括帧，观测的特征的集合包括来自帧中的给定的帧的特征，以及其中分类部件被配置为接收与帧中的多个帧有关的预测信息并且基于观测的特征的集合和预测信息输出用于给定的帧的状态标签。

示例13是任一或者所有先前示例的序列识别系统，其中信号包括话音信号，并且标签包括音位标签，以及其中分类部件被配置为基于音位标签输出用于话音信号的识别结果。

示例14是任一或者所有先前示例的序列识别系统，其中预测部件包括第一神经网络，并且分类部件包括第二神经网络。

示例15是任一或者所有先前示例的序列识别系统，其中从第一神经网络的瓶颈层获得预测输出。

示例16是任一或者所有先前示例的序列识别系统，其中分类部件被配置为向预测部件输出反馈信息，反馈信息从第二神经网络的瓶颈层获得。

示例17是一种包括序列识别器的计算系统，该序列识别器包括预测部件和分类部件。序列识别器被配置为接收来自待识别的信号的观测的特征的集合(或者用于接收该观测的特征的集合的装置)，并且输出指示对信号的识别的识别结果(或者用于输出该识别结果的装置)。计算系统也包括：训练部件，配置为获得加标签的训练数据并且向预测部件和分类部件应用加标签的训练数据作为输入以使用多目标训练函数来训练预测部件和分类部件(或者用于训练预测部件和分类部件的装置)。

示例18是任一或者所有先前示例的计算系统，其中多目标训练函数将预测目标和分类目标并入到由训练部件优化的目标函数。

示例19是一种存储计算机可执行指令的计算机可读存储介质，这些计算机可执行指令在由计算机执行时使计算机执行如下方法，该方法包括：标识待识别的信号(或者用于标识该待识别的信号的装置)，该信号包括多个帧，每个帧具有观测的特征的集合；基于用于帧中的第一帧的观测的特征的集合生成预测输出(或者用于生成该预测输出的装置)，该预测输出指示用于帧中的第二帧的预测；以及基于预测输出和用于第二帧的观测的特征的集合向第二帧指派标签来生成识别输出(或者用于生成该识别输出的装置)。

示例20是任一或者所有先前示例的计算机可读存储介质，其中预测输出指示用于第二帧的预测的状态标签。该方法还包括：基于生成识别输出来生成反馈(或者用于生成反馈的装置)；以及基于反馈和用于第二帧的观测的特征的集合生成第二预测输出(或者用于生成该第二预测输出的装置)，第二预测输出指示用于帧中的第三帧的预测。

虽然已经用结构特征和/或方法动作特有的言语描述主题，但是将理解在所附权利要求中定义的主题未必地限于以上描述的具体特征或者动作。实际上，公开以上描述的具体特征和动作作为实施权利要求的示例形式。

Claims

1.一种用于识别代表物理实体的信号的序列识别系统，包括：

预测部件，其接收来自待识别的所述信号的观测的特征的集合并且基于所述观测的特征的集合输出指示预测的识别的预测输出；以及

分类部件，其接收所述预测输出并且基于所述预测输出来输出指示对所述信号的识别的标签。

2.根据权利要求1所述的序列识别系统，其中所述标签包括状态标签，并且所述分类部件通过基于来自所述信号的观测的特征和来自所述预测部件的所述预测输出来输出所述状态标签对所述信号进行分类。

3.根据权利要求2所述的序列识别系统，其中所述分类部件估计用于所述信号的状态后验概率。

4.根据权利要求1所述的序列识别系统，其中所述观测的特征的集合包括来自所述信号的第一帧的特征，并且所述预测输出指示与所述信号的后续第二帧有关的预测的识别。

5.根据权利要求4所述的序列识别系统，其中所述第一帧和所述第二帧包括非邻接帧。

6.根据权利要求4所述的序列识别系统，其中所述分类部件基于来自所述第二帧的观测的特征的集合和基于来自所述第一帧的所述观测的特征的集合的所预测的输出来输出用于所述第二帧的状态标签。

7.根据权利要求4所述的序列识别系统，其中所述预测输出包括用于所述第二帧的预测的事件。

8.根据权利要求7所述的序列识别系统，其中所述预测的事件包括以下各项中的至少一项：

预测的说话者身份、预测的说话速率、预测的噪声状况、用于所述第二帧的预测的状态标签。

9.根据权利要求7所述的序列识别系统，其中所述预测的事件包括用于所述第二帧的预测的状态标签，并且其中所述分类部件基于来自所述第二帧的观测的特征的集合校正用于所述第二帧的所述预测的状态标签。

10.根据权利要求4所述的序列识别系统，其中所述分类部件接收来自所述第一帧的所述观测的特征的集合并且基于对所述信号的所述第一帧进行分类来向所述预测部件输出反馈信息，并且其中所述预测部件基于所述反馈信息输出与所述第二帧有关的所述预测输出。

11.根据权利要求1所述的序列识别系统，其中所述信号包括帧，所述观测的特征的集合包括来自所述帧中的给定的帧的特征，并且其中所述分类部件接收与所述帧中的多个帧有关的预测信息并且基于所述观测的特征的集合和所述预测信息输出用于所述给定的帧的状态标签。

12.根据权利要求1所述的序列识别系统，其中所述预测部件包括第一神经网络，并且所述分类部件包括第二神经网络。

13.根据权利要求12所述的序列识别系统，其中所述分类部件向所述预测部件输出反馈信息，所述反馈信息从所述第二神经网络的瓶颈层获得。

14.一种计算系统，包括：

序列识别器，其包括预测部件和分类部件，所述序列识别器接收来自代表物理实体的信号的观测的特征的集合并且输出指示对所述信号的识别的识别结果；以及

训练部件，其获得加标签的训练数据并且向所述预测部件和所述分类部件应用所述加标签的训练数据作为输入，以使用多目标训练函数来训练所述预测部件和所述分类部件。

15.一种存储计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在由计算机执行时使所述计算机执行方法，所述方法包括：

标识代表待识别的物理实体的信号，所述信号包括多个帧，每个帧具有观测的特征的集合；

基于用于所述帧中的第一帧的所述观测的特征的集合生成预测输出，所述预测输出指示对用于所述帧中的第二帧的预测；以及

通过基于所述预测输出和用于所述第二帧的所述观测的特征的集合向所述第二帧指派标签来生成识别输出。