CN109196583B

CN109196583B - 动态语音识别数据评估

Info

Publication number: CN109196583B
Application number: CN201780026332.9A
Authority: CN
Inventors: A.W.罗维特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-04-28
Filing date: 2017-04-19
Publication date: 2023-03-24
Anticipated expiration: 2037-04-19
Also published as: EP3449480B1; US10192555B2; CN109196583A; US20170316780A1; WO2017189286A1; EP3449480A1

Abstract

公开了用于从一个计算设备向另一设备提供语音识别数据的计算设备和方法。在一个公开的实施例中，音频输入在客户端设备处被接收并被处理，以生成语音识别数据。确定针对数据的一部分的估计的置信水平，其中估计的置信水平超过对应于有效结果的预定的置信阈值。标识与该数据的该部分相关联的至少一个统计上不可能的特征。基于标识统计上不可能的特征，向服务器计算设备提供该数据的一部分，以用于评估。

Description

动态语音识别数据评估

背景技术

语音识别程序可以在具有各种能力的设备上运行。客户端设备可以通过将语音识别数据传送到具有更强健能力的另一设备来将语音识别任务卸载到该另一设备。确定卸载哪些任务以及何时卸载任务可能涉及到将计算资源和可用性因素与识别准确性、用户体验和其他考虑因素进行平衡。

发明内容

本文公开了涉及语音识别数据评估的各种实施例。例如，一个公开的实施例提供了一种用于从客户端计算设备向服务器计算设备动态地提供语音识别数据的方法。音频输入可以在客户端计算设备处被接收并处理，以生成语音识别数据。可以针对语音识别数据的一部分来确定估计的置信水平，其中置信水平超过对应于有效结果的预定的置信阈值。可以标识与具有估计的置信水平的语音识别数据的该部分相关联的至少一个统计上不可能的特征。基于标识至少一个统计上不可能的特征，可以向服务器计算设备提供语音识别数据的该部分，以用于语音识别数据的该部分的评估。

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式部分中进一步描述。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于用于解决在本公开的任何部分中提到的任何或所有缺点的这些实施方式。

附图说明

图1是根据本公开的示例的包括语音识别程序的客户端计算设备和服务器计算设备的示意图。

图2是示出根据本公开的示例的包括语音识别程序的不同计算设备的房间的示意图。

图3A和图3B是根据本公开示例的用于从客户端计算设备向服务器计算设备动态地提供语音识别数据的方法的流程图。

图4是计算设备的实施例的简化示意图。

具体实施方式

计算设备可以包括语音识别功能，语音识别功能使得用户能够通过口头命令与设备进行交互。例如，具有语音识别功能的智能电话的用户可以通过向智能电话说出命令来控制音乐播放器应用、与个人助理应用交互、口述文本消息、发起电话呼叫，以及执行其他动作。

一些计算设备可以与同样包括语音识别功能的一个或多个其他计算设备通信地耦合，该语音识别功能可以与其他计算设备协作或者可以被隔离到单个设备。在一些示例中，可能期望在两个或多个计算设备之间共享语音识别任务。例如，可穿戴计算设备可以包括相对适度的语音识别能力和较小规模的其他处理资源。可穿戴设备可以与包括更强大的计算资源和更强健的语音识别能力的另一计算设备(诸如，服务器)通信地耦合。在一些用例场景中，可穿戴计算设备可以将采集到的语音识别数据发送到服务器以进行处理。

在确定要将采集到的数据的哪个部分发送到服务器、哪些语音识别任务要在客户端执行、以及哪些任务要在服务器处执行时，可以考虑各种因素。这些因素可能包括网络带宽考虑、在计算客户端和服务器设备上的资源可用性、期望的识别准确度、特定用例特征、用户体验考虑等。

在一些示例中，客户端设备可以经由网络与一个或多个本地和/或远程计算设备通信。例如，客户端设备可以经由网络与一个或多个远程计算设备上的一个或多个基于云的服务通信。在一个示例中，客户端设备的用户可以经由客户端设备捕获的语音命令来与位于远程服务器上的智能个人助理程序进行交互。在这些以及其他用例中，期望快速处理语音命令，以避免过多的延时并提供令人愉悦的用户体验。

图1示出了包括有语音识别程序14的客户端计算设备10的一个实施例的示意图。语音识别程序14可以被存储在客户端计算设备10的非易失性存储器16中。语音识别程序14可以被加载到存储器20中并由客户端计算设备10的处理器22执行下面更详细描述的一个或多个方法和过程。非易失性存储器16可以包括由语音识别程序14生成或接收的语音识别数据26。如下面更详细描述的，非易失性存储器16还可以存储声学模型28、语言模型30、音频处理器32、估计的置信水平36、以及被语音识别程序14标识的统计上不可能的特征40。在一些示例中，语音识别程序14可以与一个或多个其他语音识别程序协作以执行在下面更详细描述的一个或多个方法和过程。

如图1的示例中所示，客户端计算设备10可以包括一个或多个音频输入设备(诸如麦克风44)，或者可以与一个或多个音频输入设备通信地耦合。在不同的示例中，麦克风44可以集成到客户端计算设备10中，或者可以位于远离客户端计算设备，并且可以经由有线或无线通信与设备通信。来自用户的音频输入46可以由麦克风44捕获并提供给音频处理器32以用于处理成音频数据。

在不同的示例中，客户端计算设备10可以采用各种形式。现在参考图2，在一些示例中，客户端计算设备10可以采用可穿戴计算设备的形式，诸如腕戴式带204或头戴式显示设备208。在其他示例中，客户端计算设备10可以采取移动计算设备的形式，诸如平板电脑212、智能电话、膝上型电脑或笔记本电脑。在其他示例中，客户端计算设备10可以采用机顶盒设备216、桌面计算设备、游戏控制台、独立显示器或任何其他合适类型的计算设备的形式。在一些示例中，客户端计算设备10可以被嵌入在、或以其他方式被包括在其他设备、组件、车辆、建筑物或其他对象中，以实现设备之间的数据采集和交换。例如，客户端计算设备10可以被嵌入灯224中的灯泡220中，该灯泡可以与房间240中的本地服务器计算设备230通信地耦合。

在一些示例中，客户端计算设备10可以使用有线连接与一个或多个其他计算设备可操作地连接，或者可以采用经由WiFi、蓝牙或任何其他合适的无线通信协议的无线连接。如图1中所示，这些其他计算设备可以包括服务器计算设备50。例如，客户端计算设备10和服务器计算设备50可以经由网络54通信地耦合。网络54可以采用局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网或其组合的形式，并且可以包括因特网。在其他示例中并且参考图2，这些其他计算设备可以包括本地设备，诸如服务器计算设备230。下面参考图4更详细地描述关于客户端计算设备10和服务器计算设备50和230的组件和计算方面的附加细节。

再次参考图1并且如下面更详细描述的，在一些示例中，语音识别程序14可以为具有一种或多种类型中的所选类型的语音识别数据26的一部分确定估计的置信水平36。在一些示例中，语音识别数据26的类型可以包括音频数据56、由特征提取器74生成的特征向量58、语音分量62和识别的文本66。在一些示例中，音频数据56可以包括原始音频数据和/或处理的音频(诸如将回声或噪音去除的音频)。

如下面的示例用例中所描述的，估计的置信水平36可能超过对应于有效结果的预定的置信阈值。然后，语音识别程序可以标识至少一个统计上不可能的特征40，其与语音识别数据26的具有超过预定的置信阈值的估计的置信水平的该部分相关联。基于标识统计上不可能的特征40，语音识别程序14可以将语音识别数据的该部分提供给服务器计算设备50，以用于评估语音识别数据的该部分。

现在将描述从客户端计算设备向服务器计算设备动态地提供语音识别数据的示例用例。如上所述，语音识别程序14可以被配置成将语音音频输入46处理成识别的文本66。客户端计算设备10可以将识别的文本66用于各种目的，诸如输入数据、执行命令、控制设备功能、与服务器计算设备50通信等。

音频输入46可以由麦克风44捕获并由音频处理器32处理以创建音频数据。在一些示例中，音频处理器32可以包括一个或多个信号调节滤波器。例如，音频处理器32可以包括声学回声抑制滤波器，其可以调节音频信号以抑制或消除信号中的回声。音频处理器32可以动态地调节滤波器参数以对应于房间或其他环境的改变的声学特性。

来自音频处理器32的音频数据可以由特征提取器74变换为数据，以供语音识别程序14的语音识别引擎90处理。在一些示例中，特征提取器74可以标识在一时间间隔上的包含用于处理的语音的音频数据的部分。特征提取器74可以从数据的这些部分中提取特征向量58，其中特征向量表示在给定部分的时间间隔内说出的话语的质量。可以将多个特征向量58的矩阵提供给语音识别引擎90以用于进一步处理。

特征提取器74可以利用任何合适的降维技术来处理音频数据并生成特征向量58。示例技术包括使用梅尔频率倒频谱系数(MFCC)、线性判别分析、深度神经网络技术等。

语音识别引擎90可以将由特征提取器74生成的特征向量58与用于语音声音(例如，语音分量62)的声学模型28进行比较。语音分量62的示例可以包括音素、单音素、双音素、三音素等。在一些示例中，语音识别引擎90可以包括声学表示生成器94(例如，声学建模器)，其评估由一个或多个特征向量58表示的说出的话语与语言声音的声学模型28的相似性。声学模型28可以包括将语音分量(诸如，音素)的发音与特定的单词和/或短语匹配的数据。

语音识别引擎90还可以将特征向量与具有声音序列的其他音频数据进行比较，以标识与音频数据的说出的声音匹配的单词和/或短语。这种序列可以存储在语言模型30中，语言模型30包括描述可能在某些上下文中一起使用的单词和/或短语的数据。图1的语音识别程序14包括语言表示生成器98(例如，语言建模器)，其可以利用语言模型30来评估特定单词将被包括在句子中的特定位置的可能性。

在一些示例中，语音识别引擎90可以利用隐式马尔可夫模型(HMM)来将特征向量58与音素和/或其他语音分量62匹配。HMM输出n维向量的序列，其中n是诸如10的整数。序列可以以给定频率生成，例如每10毫秒一个序列。

HMM的每个状态可以包括对角协方差高斯的混合的统计分布，这可以指示每个观察到的矢量的似然性。每个音素或单词可能具有不同的输出分布。用于分离的音素和单词的单独HMM可以被组合以创建用于音素或单词序列的HMM。

可以通过HMM的不同状态来提供对音素的上下文依赖性。这种依赖于上下文的HMM状态可以与模型(诸如高斯混合模型(GMM))相关联。在一些示例中，状态之间的转换可以被分配以概率，这些概率对应于可以从之前状态到达当前状态的可能性。HMM的状态之间的不同路径可以表示输入的声音，其中不同的路径表示针对相同声音的多个可能的文本匹配。

使用特征提取器74和语音识别引擎90，语音识别程序14可以对特征向量58和其他语音识别数据26进行处理以生成识别的文本66。在其他示例中，可以利用用于将特征向量58与音素和/或其他语音分量62匹配的任何合适的技术。

如下面关于示例用例更详细描述的，在一些示例中，语音识别程序14可以确定一种或多种类型的语音识别数据26的估计的置信水平36。估计的置信水平36可以与预定的置信阈值相比较，该预定的置信阈值对应于被分析的特定类型的数据的有效结果。在一些示例中，预定的置信阈值可以是已经通过经验分析或机器学习技术选择或确定的固定值，以用来表示这样一个幅值，即，超过该幅值，结果极有可能是有效的。

在估计的置信水平超过预定的置信阈值的一些示例中，客户端计算设备10可以继续在语音识别过程中利用语音识别数据26的对应的部分。在一个示例中，表示单词的语音分量62(诸如音素、双音素等)的来自声学表示生成器94的多个输出神经元可以具有不同的估计的置信水平。例如，声学表示生成器94可以以(在0-100的标度上)92的估计的置信水平来将该单词的一部分标识为音素/P/。其中在该标度上预定的置信阈值为85，语音识别程序14可以继续处理语音识别数据，并将该部分标识为音素/P/。

在一些示例中并且尽管语音识别数据26的一部分具有高的估计的置信水平，但是语音识别程序14可能错误地对这样的部分进行分析。为了解决这种情况，语音识别程序可以识别与语音识别数据26的该部分相关联的至少一个统计上不可能的特征40。一旦标识出这种统计上不可能的特征40，语音识别程序可以将语音识别数据的该部分提供到服务器计算设备50以用于评估该部分语音识别数据的该部分。

以这种方式，可以使用服务器计算设备50的附加资源来进一步分析和/或重新评估与高的置信值相关联但也包括一个或多个不准确性或错误的语音识别结果。例如，服务器计算设备50可以包括与客户端计算设备10的语音识别程序14相比具有不同和/或更大能力的语音识别程序114。例如，语音识别程序114可以利用更大的声学模型集合，服务器计算设备50可以访问更多的计算资源等。在这些情况下，通过服务器计算设备50的这种进一步分析和/或重新评估可以标识由客户端设备提供的语音识别数据的该部分中的不准确性或错误。因此，服务器计算设备50可以向客户端设备提供校正和/或其他有用的反馈。

继续上面的示例，被标识为音素/P/的语音识别数据的部分可以具有在0-100的标度上92的估计的置信水平。针对数据的该部分评估的其他可能的音素可能已经返回到低的估计的置信水平，例如为0-5。然而，音素/M/可能已经返回到50的估计的置信水平。分析这些结果，语音识别程序14可以标识出针对数据的该部分的该特定的置信水平组(/P/＝92、/M/＝50、所有其他＝0-5)的出现在统计上是不可能的。换句话说，音素/P/和/M/很少彼此混淆，因此这部分数据具有一个或多个不寻常的特征，其可能会质疑其准确性。相应地并且基于标识出这种统计上不可能的特性，语音识别程序14可以将语音识别数据的该部分提供给服务器计算设备50以用于补充评估。服务器评估的结果可以被提供给客户端计算设备10并用于评估该部分数据。

在一些示例中，语音识别程序14可以使用一种或多种机器学习技术来标识出与语音识别数据26的一部分相关联的至少一个统计上不可能的特征40。例如，语音识别程序14可以利用一个或多个概率模型来分析语音识别数据26的多个部分、从语音识别分析流水线提取的一个或多个结果、和/或与这些部分相关联的估计的置信水平。例如，可以利用GMM来分析语音识别数据26的多个部分和对应的结果。那些落在高斯混合之间的结果可以被标识为统计上不可能，并且可以被提供给服务器计算设备50以用于进一步分析。应当理解，可以利用任何其他合适的机器学习技术(诸如，各种监督式学习和无监督式学习方法)来标识与语音识别数据26相关联的统计上不可能的特征。

如上所述，在一些示例中，可以将一个或多个语音分量62提供给服务器计算设备50以用于进一步评估。在一些示例中，为了确定是否向服务器计算设备50提供一个或多个语音分量62，语音识别程序14可以将语音识别程序14的声学表示生成器94与由服务器计算设备50的语音识别程序114利用的声学表示生成器进行比较。基于确定客户端计算设备10的语音识别程序14包括用于分析语音分量62的声学表示生成器94，并且确定服务器计算设备60的语音识别程序114包括不同的声学表示生成器，客户端计算设备10可以将语音分量62提供给服务器计算设备50以用于由其不同的声学表示生成器进行处理。

例如，由语音识别程序114使用的声学表示生成器可以访问更大的声学模型集合，以评估语音分量62和/或向语音分量62提供更强健的建模过程。以这种方式，客户端计算设备10的语音识别程序14可以在其确定上利用指示与客户端计算设备10相比服务器计算设备50具有更强大的能力的该附加信息以将语音分量62发送到服务器计算设备。

在一些示例中，由特征提取器74生成的特征向量58可以具有超过预定的置信阈值的估计的置信水平36。通过应用如上所述的机器学习技术，还可以标识出与特征向量相关联的统计上不可能的特征40。例如，特征向量可以被确定包括非常不寻常的特定的数字特征的组。在标识这种统计上不可能的特征时，语音识别程序14可以将特征向量58提供给服务器计算设备50以用于进一步评估。

在一些示例中，为了确定是否将特征向量58提供给服务器计算设备50以用于进一步评估，语音识别程序14可以将语音识别程序14的特征提取器74与由服务器计算设备50的语音识别程序114利用的一个或多个特征提取器进行比较。基于确定客户端计算设备10的语音识别程序14包括生成特征向量58的特征提取器74，以及确定服务器计算设备60的语音识别程序114包括不同的特征提取器，客户端计算设备10可以将特征向量58提供给服务器计算设备50以用于由其不同的特征提取器进行处理。例如，由语音识别程序114利用的特征提取器可以应用更强健的降维技术来评估和/或改善由特征提取器74生成的特征向量58的准确度。

在一些示例中，客户端计算设备10的语音识别程序14可以将声学表示生成器94的状态信息与语音识别数据26的部分一起提供给服务器计算设备50。例如，在语音识别引擎90向服务器计算设备50提供特征向量58以用于分析的情况下，提供声学表示生成器94的对应的状态信息可以提供可以由服务器计算设备的声学表示生成器使用的特征向量的上下文。

在一个示例中，特征向量58可以对应于具有10毫秒长度的音频数据56的一段。为了帮助服务器计算设备50的声学表示生成器分析该特征向量，包括对应于恰好在音频数据56的该段之前的前一时间帧和对应于紧接在数据的该段之后的后续时间帧的特征向量数据状态信息也可以将被提供给服务器。以这种方式，服务器计算设备50的语音识别程序114的声学表示生成器可以在重新评估特征向量58时利用该状态信息。

在其他示例中，可以向服务器计算设备50提供其他类型和形式的状态信息。这种示例可以包括与语音识别程序14的组件有关的各种信息，诸如历史缓冲信息和任何其他类型的程序状态信息。

在服务器计算设备50对由客户端计算设备10提供的语音识别数据26的一个或多个部分进行评估的一些示例中，服务器计算设备50可以利用这样的评估来向客户端计算设备10提供反馈。客户端计算设备10可以利用这种反馈来修改其语音识别程序14和/或其他相关组件的一个或多个方面。

在一些示例中，服务器计算设备50可以利用其对语音识别数据26的评估来得到加权信息120，客户端计算设备10可以利用加权信息120来偏置其语音识别程序14的一个或多个方面。在一个示例中，客户端计算设备10可以向服务器计算设备50发送包括人名的形式(诸如“Onofre”)的识别文本66的语音识别数据26的部分。在该示例中，语音识别程序14可能已经标识出与该识别的文本66相关联的统计上不可能的特征40。

服务器计算设备50的语音识别程序114可以评估该识别的文本66并确认其准确性。基于该评估和确认，语音识别程序114然后可以得到加权信息120，该加权信息120将客户端计算设备10的语音识别引擎90进行偏置，以在将来的分析中接受这种识别的文本。例如，这种加权信息120可以将语音识别引擎90的语言表示生成器98进行偏置以验证对应于名称“Onofre”的文本输出。客户端计算设备10可以从服务器计算设备10接收这种加权信息120，并且可以利用这些信息来相应地偏置其语言表示生成器98。

相应地并且在语言表示生成器98以这种方式偏置的情况下，在语音识别程序14随后在识别的文本66中输出名称“Onofre”的情况下，客户端计算设备10可以放弃将该文本发送到服务器计算设备50来进行评估，而是反而可以接受该结果的有效性。以这种方式，可以节省网络带宽，并且可以避免由于从服务器计算设备50获得重新评估而引起的额外延迟。

在一些示例中，客户端计算设备10的语音识别程序14可以将音频数据56(例如，从口头输入46生成的音频文件的一个或多个部分)提供给服务器计算设备50。例如，虽然音频数据56可以具有高于预定的置信阈值的估计的置信水平，但是语音识别程序14可以标识音频数据56的统计上不可能的特征40。相应地并且基于该统计上不可能的特性，语音识别程序14可以向服务器计算设备50提供音频数据56的该部分以用于评估。在一些示例中，服务器计算设备50可以评估音频数据56并确认数据的完整性、标识数据的一个或多个可疑部分，和/或向客户端计算设备10提供对数据的修改。

图3A和图3B图示了根据本公开示例的用于将语音识别数据从客户端计算设备动态地提供到服务器计算设备的方法300的流程图。参考上面描述以及图1-图2中所示的软件和硬件组件来提供方法300的以下描述。应当理解，还可以使用其他合适的硬件和软件组件在其他上下文中执行方法300。

参考图3A，在304处，方法300可以包括在客户端计算设备处接收音频输入。在308处，方法300可以包括处理音频输入以生成语音识别数据。在312处，方法300可以包括确定针对语音识别数据的一部分的估计的置信水平，其中估计的置信水平超过对应于有效结果的预定的置信阈值。

在316处，语音识别数据的该部分可以包括从音频输入生成的音频数据。在320处，语音识别数据的该部分可以包括一个或多个特征向量。在324处，语音识别数据的该部分可以包括一个或多个语音分量。在328处，语音识别数据的该部分可以包括识别的文本。

在332处，方法300可以包括标识与具有估计的置信水平的语音识别数据的该部分相关联的至少一个统计上不可能的特征。在336处，方法300可以包括使用一种或多种机器学习技术来标识至少一个统计上不可能的特征。在340处，方法300可以包括，基于标识至少一个统计上不可能的特性，而向服务器计算设备提供语音识别数据的一部分，以用于语音识别数据的该部分的评估。

现在参考图3B，在344处，方法300可以包括，其中客户端计算设备包括处理一个或多个特征向量的声学表示生成器，向服务器计算设备提供该声学表示生成器的状态信息。在348处，方法300可以包括，基于确定客户端计算设备包括生成一个或多个特征向量的第一特征提取器，并且服务器计算设备包括不同的第二特征提取器，而将向服务器计算设备提供由第一特征提取器生成的一个或多个特征向量，以用于由不同的第二特征提取器处理。

在352处，方法300可以包括，基于确定客户端计算设备包括第一声学表示生成器并且服务器计算设备包括第二、不同的声学表示生成器，而将由第一声学表示生成器生成的一个或多个语音分量提供到服务器计算设备以用于由不同的第二声学表示生成器处理。在356处，方法300可以包括从服务器计算设备接收从语音识别数据的一部分的评估中得到的加权信息120。在360处，方法300可以包括使用加权信息120来偏置客户端的语音识别引擎。

应当理解，方法300是作为示例提供的，而并不意味着是限制性的。因此，应当理解，方法300可以包括与图3A和图3B中所示的那些步骤有关的附加和/或备选步骤。此外，应当理解，方法300可以以任何合适的顺序执行。此外，应当理解，在不脱离本公开的范围的情况下，一个或多个步骤可以从方法300中省略。

在一些实施例中，本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。具体地，这些方法和过程可以被实施成计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。

图4示意性地示出了计算系统400的非限制性实施例，计算系统400可以实施上述方法和过程中的一个或多个。计算系统400以简化的形式示出。客户端计算设备10、服务器计算设备50和服务器计算设备230可以采用该计算系统400的形式。

计算系统400包括逻辑处理器404、易失性存储器408和非易失性存储设备412。可选地，计算系统400可以包括显示子系统416、输入子系统420、通信子系统424和/或图4中未示出的其他组件。

逻辑处理器404包括被配置成执行指令的一个或多个物理设备。例如，逻辑处理器可以被配置成执行作为一个或多个应用程序、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。这种指令可以被实施以用于执行任务、实施数据类型、转换一个或多个组件的状态、实现技术效果，或以其他方式达到期望的结果。

逻辑处理器404可以包括被配置成执行软件指令的一个或多个物理处理器(硬件)。附加地或备选地，逻辑处理器可以包括被配置成执行硬件实施的逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器404的处理器可以是单核的或多核的，并且在其上执行的指令可以被配置成用于顺序的、并行的和/或分布式的处理。逻辑处理器的各个组件可选地可以分布在两个或更多个分离的设备中，这些设备可以被远程定位和/或被配置成用于协同处理。逻辑处理器404的各个方面可以被虚拟化并且由以云计算配置而被配置的可远程访问的、联网的计算设备来执行。在这种情况下，这些虚拟化方面可以在各种不同机器的不同物理逻辑处理器上运行。

易失性存储器408可以包括具有随机存取存储器的物理设备。易失性存储器408通常由逻辑处理器404使用以在软件指令的处理期间临时存储信息。应当理解，在将易失性存储器的电源切断时，易失性存储器408通常不会继续存储指令。

非易失性存储设备412包括一个或多个物理设备，其被配置成保存可由逻辑处理器执行以实施本文描述的方法和过程的指令。当实施这种方法和过程时，可以变换非易失性存储设备412的状态——例如，以保存不同的数据。

非易失性存储设备412可以包括可移动和/或内置的物理设备。非易失性存储设备412可以包括光存储器(CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(ROM、EPROM、EEPROM、FLASH存储器等)和/或磁存储器(硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或其他大容量存储设备技术。非易失性存储设备412可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应当理解，非易失性存储设备412被配置成即使在将非易失性存储设备的电源切断时，也保存指令。

逻辑处理器404、易失性存储器408和非易失性存储设备412的多个方面可以一起集成到一个或多个硬件逻辑组件中。例如，这种硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序专用集成电路和应用专用集成电路(PASIC/ASIC)、程序专用标准产品和应用专用标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑器件(CPLD)。

术语“程序”和“引擎”可以用于描述被实施成执行特定功能的计算系统400的一个方面。在一些情况下，可以借助于执行由非易失性存储设备412所保存的指令的逻辑处理器404，使用易失性存储器408的多个部分来使程序或引擎实例化。可以理解，不同的程序和引擎可以通过同一应用、服务、代码块、对象、库、例程、API、函数等来被实例化。同样地，同一程序或引擎可以由不同的应用、服务、代码块、对象、例程、API、函数等实例化。术语“程序”和“引擎”包含单个或多组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

在包括显示子系统416的情况下，显示子系统416可以用于呈现由非易失性存储设备412保存的数据的视觉表示。当本文所述的方法和过程改变由非易失性存储设备保存的数据时，并因此变换非易失性存储设备的状态时，显示子系统416的状态可以同样被转换以在视觉上表示底层数据上的改变。显示子系统416可以包括利用几乎任何类型的技术的一个或多个显示设备。这种显示设备可以与逻辑处理器404、易失性存储器408和/或非易失性存储设备412被组合在共享的封装中，或者这种显示设备可以是外设显示设备。

在包括输入子系统420的情况下，输入子系统420可以包括一个或多个用户输入设备或与一个或多个用户输入设备对接。在一些实施例中，输入子系统可以包括选择的自然用户输入(NUI)组件或与自然用户输入(NUI)组件对接。这种组件可以是集成的或外设的，并且对输入动作的转换和/或处理可以在板上或板外处理。示例NUI组件可以包括用于语音和/或声音识别的麦克风(诸如麦克风44)、用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机、用于运动检测、凝视检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪、用于评估大脑活动的电场感测组件，和/或任何其他合适的传感器。

在包括通信子系统424的情况下，通信子系统424可以被配置成将计算系统400与一个或多个其他计算设备通信地耦合。通信子系统424可以包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置成用于经由无线电话网络，或者有线或无线局域网或广域网进行通信。在一些实施例中，通信子系统可以允许计算系统400经由诸如因特网的网络向其他设备发送消息和/或从其他设备接收消息。

以下段落为本主题申请的权利要求提供了额外的支持。一个方面提供了一种从客户端计算设备向服务器计算设备动态地提供语音识别数据的方法，方法包括：在客户端计算设备处接收音频输入；处理音频输入以生成语音识别数据；确定针对语音识别数据的一部分的估计的置信水平，其中估计的置信水平超过对应于有效结果的预定的置信阈值；标识与具有估计的置信水平的语音识别数据的该部分相关联的至少一个统计上不可能的特征；以及基于标识至少一个统计上不可能的特征，向服务器计算设备提供语音识别数据的一部分，以用于语音识别数据的该部分的评估。附加地或可选地，方法可以包括使用一种或多种机器学习技术来标识至少一个统计上不可能的特征。附加地或可选地，该方法可以包括，其中语音识别数据的一部分包括从音频输入生成的音频数据。附加地或可选地，方法可以包括，其中语音识别数据的一部分包括一个或多个特征向量。附加地或可选地，方法可以包括，其中客户端计算设备包括处理一个或多个特征向量的声学表示生成器，方法还包括向服务器计算设备提供声学表示生成器的状态信息。附加地或可选地，方法可以包括，基于确定客户端计算设备包括生成一个或多个特征向量的第一特征提取器，并且服务器计算设备包括不同的第二特征提取器，而将向服务器计算设备提供由第一特征提取器生成的一个或多个特征向量，以用于由不同的第二特征提取器处理。附加地或可选地，方法可以包括，其中语音识别数据的一部分包括一个或多个语音分量。附加地或可选地，方法可以包括，基于确定客户端计算设备包括第一声学表示生成器并且服务器计算设备包括不同的第二声学表示生成器，而向服务器计算设备提供由第一声学表示生成器生成的一个或多个语音分量，以用于由不同的第二声学表示生成器处理。附加地或可选地，方法可以包括，其中语音识别数据的一部分包括识别的文本。附加地或可选地，方法可以包括：从服务器计算设备接收从语音识别数据的该部分的评估中得到的加权信息；并使用加权信息来偏置客户端的语音识别引擎。

另一方面提供了一种计算设备，包括：处理器和语音识别程序，语音识别程序包括存储在计算设备的大容量存储中的指令，语音识别程序可以由处理器执行以：接收音频输入；处理音频输入以生成语音识别数据；确定针对语音识别数据的一部分的估计的置信水平，其中估计的置信水平超过对应于有效结果的预定的置信阈值；标识与具有估计的置信水平的语音识别数据的该部分相关联的至少一个统计上不可能的特征；并且基于标识至少一个统计上不可能的特征，向不同的计算设备提供语音识别数据的该部分，以用于语音识别数据的该部分的评估。附加地或备选地，计算设备可以包括，其中语音识别程序被配置成使用一种或多种机器学习技术来标识至少一个统计上不可能的特征。附加地或备选地，计算设备可以包括，其中语音识别数据的一部分包括从音频输入生成的音频数据。附加地或备选地，计算设备可以包括，其中语音识别数据的一部分包括一个或多个特征向量。附加地或备选地，计算设备可以包括，其中语音识别程序包括处理一个或多个特征向量的声学表示生成器，语音识别程序被配置成向不同的计算设备提供声学表示生成器的状态信息。附加地或备选地，计算设备可以包括，其中语音识别程序包括生成一个或多个特征向量的第一特征提取器，语音识别程序被配置成确定不同的计算设备包括不同的第二特征提取器，并且语音识别程序被配置成基于确定不同的计算设备包括不同的第二特征提取器，而向不同的计算设备提供将由第一特征提取器生成的一个或多个特征向量，以用于由不同的第二特征提取器处理。附加地或备选地，计算设备可以包括，其中语音识别数据的一部分包括一个或多个语音分量。附加地或备选地，计算设备可以包括，其中语音识别程序被配置成：从不同的计算设备接收从语音识别数据的该部分的评估中得到的加权信息；并使用加权信息来偏置语音识别程序的语音识别引擎。

另一方面提供了一种计算设备，包括：处理器和语音识别程序，语音识别程序包括存储在计算设备的大容量存储中的指令，语音识别程序可由处理器执行以：接收音频输入；处理音频输入以生成语音识别数据，其中语音识别数据包括音频数据、特征向量、语音分量和识别文本中的一个或多个；确定针对语音识别数据的一部分的估计的置信水平，其中估计的置信水平超过对应于有效结果的预定的置信阈值；使用一种或多种机器学习技术来标识与具有估计的置信水平的语音识别数据的该部分相关联的至少一个统计上不可能的特征；基于标识至少一个统计上不可能的特征，向不同的计算设备提供语音识别数据的该部分，以用于语音识别数据的该部分的评估；从不同的计算设备接收从语音识别数据的该部分的评估中得到的加权信息；并使用加权信息来偏置语音识别程序的语音识别引擎。附加地或备选地，计算设备可以包括，其中语音识别数据的一部分包括由语音识别程序的声学表示生成器生成的特征向量，语音识别程序被配置成向不同的计算设备提供声学表示生成器状态信息。

应当理解，本文描述的配置和/或方法本质上是示例性的，并且这些具体实施例或示例不应被视为具有限制意义，因为许多变型是可能的。这里描述的特定例程或方法可以表示任何数量的处理策略中的一个或多个。因此，所示的和/或描述的各种动作可以以所示的和/或描述的顺序、以其他顺序、并行来执行或者被省略。同样，可以改变上述过程的顺序。

本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非显而易见的组合以及子组合，以及其任何和所有的等同物。

Claims

1.一种从客户端计算设备向服务器计算设备动态地提供语音识别数据的方法，所述方法包括：

在所述客户端计算设备处接收音频输入；

处理所述音频输入以生成所述语音识别数据；

确定包括第一特征向量的所述语音识别数据的第一识别部分的第一估计置信水平，其中所述第一估计置信水平超过对应于有效结果的预定置信阈值；

基于确定所述第一估计置信水平对应于所述有效结果，继续处理具有所述第一识别部分的所述语音识别数据；

确定包括第二特征向量的所述语音识别数据的第二识别部分的第二估计置信水平，其中所述第二估计置信水平也超过对应于所述有效结果的所述预定置信阈值；

识别与所述第二特征向量相关联的至少一个统计上不可能的特征；

确定所述客户端计算设备包括第一特征提取器；

比较所述客户端计算设备的所述第一特征提取器与由所述服务器计算设备使用的第二特征提取器；

基于所述客户端计算设备的所述第一特征提取器与由所述服务器计算设备使用的所述第二特征提取器的比较，确定所述服务器计算设备的所述第二特征提取器与所述第一特征提取器不同；

基于（1）确定所述第二估计置信水平对应于所述有效结果，（2）识别出所述至少一个统计上不可能的特征，以及（3）确定所述服务器计算设备包括与所述第一特征提取器不同的所述第二特征提取器，向所述服务器计算设备提供所述第二特征向量，以用于由不同的所述第二特征提取器评估所述第二特征向量。

2.根据权利要求1所述的方法，还包括使用一种或多种机器学习技术来识别所述至少一个统计上不可能的特征。

3.根据权利要求1所述的方法，其中所述语音识别数据的所述第一识别部分和所述第二识别部分包括从所述音频输入产生的音频数据。

4.根据权利要求1所述的方法，其中所述客户端计算设备包括处理所述一个或多个特征向量的声学表示生成器，所述方法还包括将所述声学表示生成器的状态信息提供给所述服务器计算设备。

5.根据权利要求1所述的方法，其中所述语音识别数据的所述第一识别部分和所述第二识别部分包括一个或多个语音分量。

6.根据权利要求5所述的方法，还包括：基于确定所述客户端计算设备包括第一声学表示生成器并且所述服务器计算设备包括不同的第二声学表示生成器，向所述服务器计算设备提供由所述第一声学表示生成器生成的所述一个或多个语音分量，以用于由所述不同的第二声学表示生成器进行处理。

7.根据权利要求1所述的方法，其中所述语音识别数据的所述第一识别部分和所述第二识别部分包括识别文本。

8.根据权利要求1所述的方法，进一步包括：

从所述服务器计算设备接收从所述语音识别数据的所述评估中得到的加权信息；以及

使用所述加权信息来偏置所述客户端的语音识别引擎。

9.一种计算设备，包括：

处理器；

大容量存储设备；以及

存储在所述大容量存储设备中的语音识别程序，所述语音识别程序包括指令，所述指令能够由所述处理器执行以：

接收音频输入；

处理所述音频输入以生成语音识别数据；

确定所述计算设备包括第一特征提取器；

比较所述计算设备的所述第一特征提取器与由不同的计算设备使用的第二特征提取器；

基于所述计算设备的所述第一特征提取器与由所述不同的计算设备使用的所述第二特征提取器的比较，确定所述不同的计算设备的所述第二特征提取器与所述第一特征提取器不同；

基于（1）确定所述第二估计置信水平对应于所述有效结果，（2）识别出所述至少一个统计上不可能的特征，以及（3）确定所述不同的计算设备包括与所述第一特征提取器不同的所述第二特征提取器，向所述不同的计算设备提供所述第二特征向量，以用于由不同的所述第二特征提取器评估所述第二特征向量。

10.根据权利要求9所述的计算设备，其中所述语音识别程序被配置为使用一种或多种机器学习技术来识别所述至少一个统计上不可能的特征。

11.根据权利要求9所述的计算设备，其中所述语音识别数据的所述第一识别部分和所述第二识别部分包括从所述音频输入产生的音频数据。

12.根据权利要求9所述的计算设备，其中所述语音识别程序包括处理所述第一特征向量和所述第二特征向量的声学表示生成器，所述语音识别程序被配置成向所述不同的计算设备提供所述声学表示生成器的状态信息。

13.根据权利要求9所述的计算设备，其中所述语音识别数据的所述第一识别部分和所述第二识别部分包括一个或多个语音分量。

14.根据权利要求9所述的计算设备，其中所述语音识别程序被配置成：

从所述不同的计算设备接收从所述语音识别数据的所述评估中得到的加权信息；以及

使用所述加权信息来偏置所述语音识别程序的语音识别引擎。

15.一种计算设备，包括：

处理器；

大容量存储设备；以及

接收音频输入；

处理所述音频输入以生成语音识别数据，其中所述语音识别数据包括以下中的一项或多项：音频数据、特征向量、语音分量和识别文本；

确定包括第二特征向量的语音识别数据的第二识别部分的第二估计置信水平，其中所述第二估计置信水平也超过对应于所述有效结果的所述预定置信阈值；

使用一种或多种机器学习技术来识别与所述第二特征向量相关联的至少一个统计上不可能的特征；

确定所述计算设备包括第一特征提取器；

基于（1）确定所述第二估计置信水平对应于所述有效结果，（2）识别出所述至少一个统计上不可能的特征，以及（3）确定所述不同的计算设备包括与所述第一特征提取器不同的所述第二特征提取器，向所述不同的计算设备提供所述第二特征向量，以用于由不同的所述第二特征提取器评估所述第二特征向量；

从所述不同的计算设备接收从所述第二特征向量的所述评估中得到的加权信息；以及

16.根据权利要求15所述的计算设备，其中所述语音识别数据包括由所述语音识别程序的声学表示生成器生成的特征向量，所述语音识别程序被配置为向所述不同的计算设备提供所述声学表示生成器的状态信息。