CN108648750A

CN108648750A - 混合模型语音识别

Info

Publication number: CN108648750A
Application number: CN201810238968.6A
Authority: CN
Inventors: A·H·格伦斯坦; P·阿列克西克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-06-26
Filing date: 2013-06-26
Publication date: 2018-10-12
Anticipated expiration: 2033-06-26
Also published as: US10847160B2; US20210043212A1; EP2864980A1; CN108648750B; US20180197543A1; US11341972B2; US20130346078A1; US20220262365A1; EP2864980B1; EP3534364A1; CN104541325A; WO2014004612A1; US10354650B2

Abstract

公开了一种混合模型语音识别。一种方法包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码。该方法还包括：通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录，其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括：通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括：确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括：基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

Description

混合模型语音识别

本申请是分案申请，原案的申请号是201380041641.5，申请日是2013年6月26日，发明名称是“混合模型语音识别”。

相关申请的交叉引用

本申请要求于2013年3月15日提交的美国申请第13/838,379号和于2012年6月26日提交的美国申请第61/664,324号的权益，其通过参考被合并。

技术领域

本申请涉及语音识别。

背景技术

本说明书涉及语音识别。

移动设备的用户可以通过例如在键盘上打字或者向麦克风中讲话来输入文本。在话音输入的情境中，自动搜索识别(ASR)引擎可以被用来处理语音形式的输入。

发明内容

一般而言，本说明书中所描述的主题的一个创新性方面可以用如下方法来实现，该方法包括用于提供声音转录的计算机实现的方法。该方法包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码。该方法还包括：通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录，其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括：通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括：确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括：基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。

一般而言，本说明书中所描述的主题的另一创新性方面可以用如下系统来实现，该系统包括用于提供声音转录的系统。该系统包括一个或多个计算机以及存储指令的一个或多个存储设备，该指令在由一个或多个计算机执行时可操作以使得该一个或多个计算机执行操作，该操作包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码；通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录，其中该第一语音识别器采用基于用户特定数据的语言模型；通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据的语言模型；确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语；以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

一般而言，本说明书中所描述的主题的另一创新性方面可以用如下计算机可读介质来实现，该计算机可读介质包括存储软件的计算机可读介质，该软件包括由一个或多个计算机可执行的指令，该指令在这样执行时使得一个或多个计算机执行操作。该操作包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码；通过使用第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录，其中该第一语音识别器采用基于用户特定数据而被开发的语言模型；通过使用第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据而被开发的语言模型；确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语；以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。

本说明书中所描述的主题的一个或多个实现的细节在下面的说明书和附图中阐述。该主题的其他潜在特征、方面和优点根据说明书、附图和权利要求将变得清楚。

附图说明

图1是采用不同能力的两个语音识别器的系统的示例的图。

图2是示出用于执行语音识别的过程的示例的流程图。

图3是示出用于执行语音识别的另一过程的示例的流程图。

图4是示出在执行语音识别时的通信和操作的示例的泳道图。

图5是示出屏幕截图的示例的图。

图6示出了通用计算设备和通用移动计算设备的示例。

在各个附图中，相似的附图标记指代相似的元件。

具体实施方式

图1是采用不同能力的两个语音识别器以例如增强语音识别精度的系统100的示例的图。图1还图示在状态(a)至状态(i)期间系统100内的数据流、以及在状态(i)期间在系统100的移动设备102上显示的用户界面101。简而言之，系统100在客户端侧语音识别器和服务器侧语音识别器二者上处理用户话语，这可以帮助解决由话语中的用户特定词语或名称造成的歧义。例如，客户端侧语音识别器可以使用通过使用用户特定数据诸如用户的联系人列表中的联系人姓名而被开发的有限语言模型，而服务器侧语音识别器可以使用独立于这样的用户特定数据而被开发的大型词汇语言模型。在这种情况下，对这两种语音识别器的结果的比较或组合可以被用来在话语涉及用户特定术语时增加精度。

更具体地，该系统100包括移动设备102，该移动设备102通过一个或多个网络106与服务器104和ASR引擎105进行通信。ASR引擎105可以在服务器104上被实现或者在单独的计算设备上被实现并且通过一个或多个网络106与服务器104和移动设备102进行通信。服务器104可以是搜索引擎、口述引擎、对话系统、或者使用转录语音或调用使用转录语音的软件应用以执行某些动作的任何其他引擎或系统。一般而言，以下描述使用用于服务器104的搜索引擎的示例。该网络106可以包括无线蜂窝网络、无线局域网(WLAN)或Wi-Fi网络、第三代(3G)或第四代(4G)移动电信网络、专用网络诸如内联网、公共网络诸如因特网、或者上述各项的任何适当组合。状态(a)至状态(i)描绘在系统100执行示例过程时发生的数据流。状态(a)至状态(i)可以是时间顺序的状态，或者其可以按照与图示的顺序不同的顺序发生。

移动设备102可以是例如蜂窝电话、智能电话、平板计算机或者个人数字助理(PDA)。该移动设备102实现包括基于客户端的语音识别器126的本地ASR引擎114。此外，该基于客户端的语音识别器126使用移动设备102上保存的用户特定数据128来开发其语言模型127。该用户特定数据128可以包括例如联系人列表、电话号码、地址、应用、数字照片、音频媒体或视频媒体。以下描述使用联系人列表作为用户特定数据128的示例。

通过将用户特定数据128合并到语言模型127中，基于客户端的语音识别器126可以能够更精确地区分描述数据的唯一词语和名称，诸如朋友的姓名“Alex Gruenstein”或者最喜欢的艺术家的姓名“Lynyrd Skynyrd”。在一个示例中，该语言模型可以是可以支持简单话音动作并且包含与特定动作有关的用户特定数据的情境自由语法。

ASR引擎105包含使用语言模型125的基于服务器的语音识别器124。该语言模型125可以是能够转录复杂用户口述并且可以被设计成处理大量用户的转录的大型词汇统计语言模型。然而，在一些情况下，语言模型124可能不能访问用户特定数据并且因此可能不执行与这样的数据有关的语音识别以及ASR引擎114。该语言模型124可能不能访问用户特定数据例如是因为隐私关注或者在存储与上百万的用户关联的数据时系统的数据和带宽限制。为了确定ASR引擎105转录，基于服务器的语音识别器124可以生成与在音频数据112中被编码的话语匹配的一个或多个候选转录、以及该候选转录的语音识别置信度。具有最高置信度的转录可以被选作ASR引擎105转录。可以使用其他技术来选择将哪个候选转录用作服务器转录。

其他实现可以包含在同一计算设备上的ASR引擎105和ASR引擎114二者。这样的计算设备可以是一个或多个服务器、台式计算机、膝上型计算机、平板计算机、移动电话或者智能电话。一些实现可以将ASR引擎105和114组合成具有大型统计语言模型和情境自由语法二者的单个ASR引擎，该情境自由语法包含用户特定数据128。另外，由所描述的ASR引擎中的每个ASR引擎所进行的语音识别过程可以同时、在基本上相同的时间、或者以并联方式执行。

在一些实现中，系统100采用语音识别来确定语音输入为话音命令还是话音搜索查询，并且然后进行相应地动作。话音命令可以被认为是由语音识别设备所接收的并且使得该设备执行任务的用户话语。该话音命令可以通过在话语中包括描述由设备可执行的动作的词语或短语、例如“呼叫”来识别。在一些情况下，该话音动作可以由这样动作的多个变型来描述。例如，包含用户数据的动作“呼叫”的变型可以是“呼叫Alex Gruenstein”、“在家里呼叫Alex Gruenstein”、或者“请拨打555-321-4567”。备选类型的命令可以是播放、暂停或者停止音频媒体或视频媒体；开启或关闭应用；发送、开启、删除或保存并且发电子邮件或SMS；获得地图、指向一个位置或者另外导航至一个位置；打开、缩放、保存或拍摄数字照片；设置、停止或开始报警或计时器；或者设置或调度提醒或任务。

话音搜索查询可以被认为是由语音识别设备所接收的用户话语并且使得该设备基于该话语的转录来执行搜索。该搜索可以是网页搜索、地址搜索、电话簿搜索、地图搜索、或者任何其他类型的搜索。这样的话语与话音命令可以通过缺乏与由移动设备可执行的动作有关的词语或短语、或者通过包括指示搜索查询的某些词语或短语例如“搜索……”、“……是什么”、“……在哪里”来区分。在话音搜索查询系统的情境中，“搜索查询”包括在用户请求搜索引擎执行搜索查询时由用户向搜索引擎提交的一个或多个查询术语，其中“术语”或“查询术语”包括一个或多个整个或部分词语、字符或字符串。此外，搜索查询的“结果”(或者“搜索结果”)包括参考如下资源的统一资源定位符(URI)，该资源是由搜索引擎确定为对该搜索查询进行响应的资源。该搜索结果可以包括其他内容，诸如标题、预览图像、用户评级、地图或方向、对应资源的描述、或者从对应资源中自动或手动提取的文本片段或者与对应资源关联的文本片段。

该系统100使用ASR引擎105和ASR引擎114二者来确定音频数据113的转录，并且这些转录被检查以确定执行话音命令还是话音搜索。例如，在一个情况下，转录被检查以确定例如从ASR引擎105接收的转录115a代表搜索查询并且从ASR引擎114接收的转录118代表动作。转录115a然后进一步被检查以确定搜索查询的文本包含在预定的术语的集合中所包含的指示在移动设备102上可执行的动作的词语或短语。转录115a由此被用来确认转录118的动作。系统100然后可以基于如下访问而更偏好转录118，该访问是语言模型127具有执行动作所需要的用户特定数据128。该系统100然后请求用户确认所接收的转录，在开始执行之前请求动作确认，或者开始动作的执行而不需要用户确认。所描述的示例涉及执行话音命令和搜索查询的语音识别，然而，系统100可以用来实现话音命令和口述或者话音命令和任何其他非命令转录的语音识别。

图1中图示的过程示出了系统100的操作的更具体示例。在这一示例中，用户110向移动设备102中讲出话语112。一般而言，移动设备102接收话语112并且将其记录为音频数据113。ASR引擎114生成该音频数据113的第一转录118。此外，该移动设备102将该音频数据113向ASR音频105通信，在该ASR引擎105处生成第二转录115a。该第二转录115a被通信至移动设备102，在该移动设备102处将该第二转录115a与该第一转录相比较以确定适当的结果。

更具体地，在状态(a)期间，用户110向移动设备102讲出一个或多个话语112，该移动设备102记录该话语112并且生成对应的音频数据113。例如，该用户110可能希望呼叫某个朋友(例如Alex Gruenstein)，他的电话号码存储在用户110的移动设备102上的用户特定数据128中。该用户特定数据128可以包含例如用户的联系人、应用以及各种形式的音频媒体或视频媒体。在用户110向其移动设备102中讲出“呼叫Alex Gruenstein”时，该移动设备102记录该话语112并且生成对应的音频数据113。除了包括该话语112之外，该音频数据113还可以包括环境音频片段，诸如在话语112被讲出之前或之后所记录的两秒的音频片段。虽然话语112如图1中所图示地被描述为话音命令，然而在其他示例实现中，话语112可以是至搜索查询、口述系统或者对话系统的话音输入。

在状态(b)期间，音频数据113被提供至移动设备102上的ASR引擎114以进行处理。附加地，在状态(c)期间，移动设备102通过网络106将音频数据113通信至ASR引擎105以进行处理。

在状态(d)期间，基于客户端的ASR引擎114的基于客户端的语音识别器126通过使用语言模型127来对音频数据113执行语音识别以确定音频数据113的客户端转录。在所示示例中，第一转录118为要由移动设备102来执行的动作(“呼叫Alex Gruenstein”)。如以上所指出的，该语言模型127可以是能够支持简单的话音动作(包括话音动作的变型)并且包含用户特定数据128的情境自由语法。例如，包含用户数据的动作“呼叫”的变型可以是“呼叫Alex Gruenstein”、“在家里呼叫Alex Gruenstein”、或者“请拨打555-321-4567”。该话音动作和变型(例如“呼叫”或“请拨号”)中的某些术语可以被认为是由基于客户端的语音识别器126可识别的预定的术语的集合。

在状态(e)期间，基于服务器的语音识别器124通过使用语言模型125来对音频数据113执行语音识别以确定该音频数据113的第二转录115a。如以上所指出的，该语言模型125可以是能够转录复杂用户口述的大型词汇统计语言模型。附加地，ASR引擎105可以将话语112分类为要由移动设备102来执行的动作或者要用作搜索查询的文本串或者分类为所转录的口述。在执行第二转录115a之后，ASR引擎124对所产生的第二转录115a是动作还是搜索查询进行初步确定。该确定可以产生三个可能的分类中的一个分类。第一，ASR引擎105可以确定该第二转录115a的确包含由移动设备102可执行的动作并且因此是话音命令以及将其这样传输至移动设备102。第二，ASR引擎105可以确定该第二转录115a不包含动作并且因此是搜索查询。如果情况是这样，则ASR引擎可以将该第二转录115a连同搜索结果或者仅将搜索结果传输至移动设备102。第三，ASR可能不能够确定该第二转录是动作还是搜索查询，并且可能向移动设备102传输仅该第二转录115a或者该第二转录115a和搜索结果。

以上讨论的分类可以通过将和所产生的转录关联的置信度与要由ASR引擎105进行的判决集合的门限值关联使用来进行。

在状态(f)期间，由基于服务器的语音识别器124所生成的第二转录115a(“呼叫another pine”)可以从ASR引擎105通信被至移动设备102。在所示示例中，基于服务器的语音识别器124已经错误地将音频数据113转录为“呼叫another pine”。在这一示例中，ASR引擎105不能将第二转录115a区分为查询或者动作。因此，该第二转录115a被通信至移动设备102作为要与例如搜索结果一起显示的文本串。

在状态(g)期间，基于服务器的语音识别器124所生成的第二转录115a(“呼叫another pine”)可以从ASR引擎105被通信至服务器104。在服务器104是搜索引擎并且基于服务器的语音识别器124确定话语为搜索查询时，候选转录115可以由搜索引擎用作搜索查询术语以执行一个或多个搜索查询。该ASR引擎105可以在向服务器104传输之前提供多个候选转录115b并且至少基于其相应的语音识别置信评分来对该候选转录115b进行排名。通过转录所讲出的话语并且向服务器104提供候选转录，ASR引擎105可以向移动设备102提供话音搜索查询能力、口述能力或者对话系统能力。

服务器104可以使用候选查询术语来执行一个或多个搜索查询，并且可以生成参考搜索结果131的文件116。该文件116可以是标记语言文件，诸如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。

服务器104在一些示例中可以包括用来在因特网内查找参考的网页搜索引擎、用于查找企业和个人的电话本类型搜索引擎、或者另一专门的搜索引擎(例如对于娱乐列表诸如酒店和电影院信息、医疗和制药信息等提供参考的搜索引擎)。在状态(h)期间，服务器104向移动设备102提供参考搜索结果131的文件116。

在两个转录115a和118均可用于移动设备102的情况下，在状态(i)期间，移动设备102确定适当的响应。存在若干种可能性。在第一示例中，ASR引擎105可以返回转录和搜索查询结果116，因为其不确定第二转录115a是动作还是查询，如以上所描述的第三种可能性中所指出的，而移动设备102上的ASR引擎114可以返回动作(即“呼叫Alex Gruenstein”)。移动设备102将检查这两种结果。如果来自ASR引擎105的第二转录115a包含与来自预定的术语的集合的动作匹配的词语或者短语，并且如果上述动作与第一转录118中所描述的动作匹配，则移动设备102将偏好来自ASR引擎114的结果——第一转录118。在这样做时，移动设备正在采用ASR引擎105中的表达语言模型125来确认由ASR引擎114在第一转录118中转录的动作，并且正在采用可用于ASR引擎114的用户特定数据128来产生任何唯一的用户特定词语诸如联系人姓名的精确的转录。因此，结果可以是有效利用每个ASR引擎的属性以提高移动设备102的整个语音识别精度。

在这种情况下，移动设备102确定第二转录115a的部分包括与动作关联的术语并且所关联的动作与由ASR引擎114返回的动作(“呼叫”)一致。第二转录115a的其余部分(“another pine”)不能够与所描述的动作一起使用。这样的结果可能发生是因为语言模型125没有访问用户特定数据128中所包含的特定的用户特定词语或姓名(例如联系人姓名)。在这样的情况下，第二转录115a确认由ASR引擎114返回的动作的类型，但是第二转录115a具有错误转录相关信息(例如联系人姓名)以执行动作。ASR引擎114返回相同的动作并且将该动作与用户特定数据128中所包含的联系人姓名进行匹配。因此，由ASR引擎114返回的动作由移动设备102来执行。这一示例是图1中所描绘的示例。

在第二示例中，ASR引擎105和114二者都可以返回动作“呼叫Alex Gruenstein”。因为两个结果匹配，所以可以选择两个结果中的任一个结果。然而，考虑到ASR引擎105的复杂语言模型125，来自ASR引擎105的结果通常可以是被偏好的。

在第三示例中，ASR引擎105可以返回搜索查询“金门大桥的图片”，而ASR引擎114返回“呼叫Alex Gruenstein”。在这一情况下，查询结果可以是被偏好的，因为复杂语言模型125在区分普通语音模式方面可能更精确。

如果移动设备102已经选择所偏好的转录，则其可以在用户界面101上显示所确定的动作连同对该动作的确认130。此外，可以显示由使用服务器转录115b执行的搜索查询而确定的搜索结果131。备选地，如果移动设备102对转录是动作具有高置信，则其可以在没有用户确认的情况下开始该动作而没有用户确认。另外，在没有用户确认的情况下开始动作可以伴随着一些动作而非所有动作来执行。例如，一旦由移动设备102检测为动作，则可以开始“播放Lynyrd Skynyrd Sweet Home Alabama”，但是“呼叫Alex Gruenstein”可能通常需要用户的确认而不管置信度级别。这样的方法可以是被偏好的，因为如播放错误歌曲的任何错误对于用户而言仅仅是不舒服，而呼叫错误的人可能使人很尴尬。类似地，如果移动设备102对正确结果是搜索查询具有高置信，则其可以仅显示搜索结果116。然而，在以上示例中的任何示例中，可以向用户提供来自ASR引擎105和114二者的可能的转录的列表，并且可以请求用户确认适当的结果。

图2是示出用于执行语音识别的过程200的示例的流程图。简而言之，该过程200包括：访问由移动设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码；通过使用第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录，其中该第一语音识别器采用基于用户特定数据而被开发的语言模型；通过使用第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录，其中该第二语音识别器采用独立于该用户特定数据而被开发的语言模型；确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语；以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

更详细地，在过程200开始时，生成对由移动设备所接收的话语进行编码的音频数据(202)。该话语可以包括话音命令、话音搜索查询，或者可以向口述或对话应用或系统的输入。

通过第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录(204)。该第一语音识别器采用基于用户特定数据而被开发的语言模型。例如，用户特定数据可以用于帮助第一语音识别器转录与该用户特定数据关联的唯一的词语。在另一示例中，该第一语音识别器可以采用基于语法的语言模型，诸如情境自由语法。该基于语法的语言模型可以包括与要由该移动设备来执行的一个或多个动作关联的一个或多个术语的集合。该用户特定数据可以包括例如用户的联系人列表、在移动设备上安装的应用的应用列表、或者在移动设备上存储的媒体的媒体列表。此外，该第一语音识别器可以在移动设备、一个或多个服务器设备、个人计算机、平板式计算机或任何其他计算设备上实现。

通过第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录(206)。该第二语音识别器采用独立于在移动设备上存储的用户特定数据的语言模型。如以上所指出的，这可以是由于隐私考虑或者系统限制。在一个示例中，该第二语音识别器可以采用基于统计的语言模型。另外，该基于统计的语言模型可以包含大型词汇。该第二语音识别器可以在一个或多个服务器设备、个人计算机或者能够实现该第二语音识别器的任何其他计算设备上来实现。此外，如以上所指出的，动作(204)和(206)可以在分离的计算设备诸如图1所示的移动设备和服务器上执行，在计算设备的任意组合上或者在单个计算设备上执行。

确定话语的第二转录包括来自预定的一个或多个术语的集合的术语(208)。可以将第二转录的文本在预定的一个或多个术语的集合中包含的、描述移动设备可执行的动作的术语中进行搜索。

基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语来输出该话语的第一转录的输出(210)。判定输出该第一转录可以包括：确定第一转录指示由移动设备可执行的动作、并且使用在动作(208)中被确定为包括在第二转录中的术语来确认由该第一转录所指示的动作。另外，该第一转录可以用来提供包括在话语中的对于用户特定数据而言唯一的词语或短语的精确表示，诸如联系人的姓名。

输出该第一转录可以包括例如：在开始执行由第一转录所描述的动作之前向用户提供该第一转录并且请求用户确认该转录是精确的。备选地，输出该第一转录可以包括：开始执行由该第一转录所描述的动作。在另一示例中，输出该第一转录可以包括：显示第一转录和第二转录二者并且请求来自用户的对正确转录的确认。可以基于该第二转录来执行搜索从而产生搜索结果。因此，可以输出该第一转录和来自基于该第二转录来执行的搜索的搜索结果二者。该第一转录和来自基于该第二转录所执行的搜索的搜索结果二者可以被输出至用户但是在单独的界面元素中显示。另外，显示该第一转录的输出的界面元素可以被配置成接收该界面元素的用户选择，其中这样的用户选择会使得移动设备执行由该第一转录所描述的动作。

图3是示出用于执行语音识别的另一过程300的示例的流程图。该过程300被描述为由系统100来执行，但是其他系统或配置也可以执行该过程300。

如以上所描述的，ASR引擎105可以对转录115a是动作还是查询(图1的状态(a))进行初步确定，并且可以将转录115a通信至移动设备102作为话音命令、查询或者作为未确定。

移动设备102对话语112进行编码以生成音频数据113。一旦该对话语112被编码，则该音频数据113分别被通信至在ASR引擎105和114中包含的语音识别器124和126中的每个语音识别器。ASR引擎105和ASR引擎114然后各自访问音频数据(302)。

在ASR引擎114中包含的基于客户端的语音识别器126确定音频数据113的第一转录118(304)。在ASR引擎105中包含的基于服务器的语音识别器124确定音频数据113的第二转录115a(306)。

移动设备102检查由基于服务器的语音识别器124所确定的第二转录115a，并且确定该基于服务器的语音识别器124是否返回动作(308)。如果是，则移动设备102执行所返回的动作(310)。在一些实现中，该移动设备102可以在执行要执行的动作之前向用户110显示该动作并且请求确认。如果该第二转录115a不是动作，则如以上所讨论的该第二转录115a可以被认为是搜索查询或者具有不确定的初步指示的简单转录。

移动设备检查来自基于客户端的语音识别器126的第一转录118以确定该第一转录是否为动作(312)。如果来自该基于客户端的语音识别器126的第一转录118为动作，则移动设备102检查来自该基于服务器的语音识别器124的第二转录118的文本以确定该搜索查询是否可以被识别为动作(314)。为了进行这一确定，该移动设备102可以将该第二转录115a的文本在预定列表中的、指示由移动设备102可执行的动作的词语或短语中进行搜索。例如，诸如“呼叫”、“请呼叫”、“在家里呼叫……”或者“拨叫”的文本可以被用来指示开始电话呼叫的动作。

如果该搜索查询的确包含来自指示由移动设备102可执行的动作的预定列表的词语或短语，则该移动设备102可以偏好第一转录并且因此执行该第一转录118的动作(316)。这样做可能利用这两种不同类型的话音识别器的优势。基于服务器的语音识别器124的语言模型125可以用于确认由基于客户端的语音识别器126所指示的动作，同时利用该基于客户端的语音识别器126能够访问用户特定数据128以产生对于该数据而言唯一的词语或短语的精确转录。在一些实现中，移动设备102可以在执行要执行的动作之前向用户110显示该动作并且请求确认。

如果搜索查询不包含与术语的预定列表匹配的词语或短语，则用户话语112不被认为是动作，而被认为是搜索查询。在这种情况下，偏好该第二转录115a并且向用户110呈现来自基于该转录的搜索的搜索结果116(318)。类似地，如果第一转录118不是动作(312)，则偏好第二转录115a并且向用户110呈现来自基于该转录的搜索的搜索结果116(318)。在上述情况中的任何一个情况下，如果搜索结果116尚未从服务器104接收到，则移动设备102可以使用该第二转录115a请求来自服务器104的搜索查询并且向用户110显示结果。

图4是示出在执行语音识别时的通信和操作的示例400的泳道图。过程400可以由移动设备402来实现，该移动设备402具有能够访问用户特定数据的本地ASR引擎、独立于用户特定数据的第二ASR引擎404和搜索引擎406。该移动设备402可以向其本地ASR引擎和第二ASR引擎404二者提供与话语对应的音频数据。虽然仅图示一个移动设备402，然而该移动设备402可以表示对音频数据做出贡献的大量移动设备402。

移动设备402从用户接收话语并且根据该话语生成音频数据(408)。该话语例如可以包括话音命令或搜索查询。对该话语的记录可以可选地包括例如在记录该话语之前或之后简要地记录的音频的采样。

移动设备402向第二ASR引擎404发送音频数据(410)，该第二ASR引擎404接收音频数据。在移动设备402上被实现的本地ASR引擎对音频数据执行语音识别(412)并且因此确定第一转录(414)。

同时，在基本上相同的时间，或者以与在移动设备402上被实现的本地ASR引擎所执行的语音识别并行的方式，ASR引擎404对音频数据执行语音识别(416)并且因此确定第二转录(418)。此外，ASR引擎404可以将第二转录分类为与话音命令相关的动作、搜索查询的文本，或者将该转录保持为未分类。在图4中所描述的示例中，ASR引擎404不确定话语的适当分类并且将第二转录保持为未分类。

ASR引擎向移动设备402发送第二转录(420)并且向搜索引擎406发送第二转录(422)，移动设备402和搜索引擎406均接收该第二转录。

搜索引擎406将第二转录用作搜索查询来执行搜索(424)。该搜索可以是网页搜索、地址搜索、电话簿搜索、地图搜索或者任何其他类型的搜索。该搜索引擎406可以使用第二转录来执行一个或多个搜索查询，并且可以生成参考搜索结果的文件。该文件可以是标记语言文件，诸如可扩展标记语言(XML)或者超链接文本标记语言(HTML)文件。该搜索引擎406然后向移动设备402发送该搜索结果(426)，该移动设备402接收该搜索结果。

移动设备402确定第二转录包括预定的术语的集合中所包括的描述由该移动设备402可执行的动作的术语或短语(428)。在进行这一确定时，该移动设备402还可以确定第一转录指示由该移动设备402可执行的动作。此外，该移动设备402可以使用第二转录来确认由该第一转录所指示的动作。另外，该移动设备402可以使用第一转录来提供话语中所包括的对于用户特定数据而言唯一的词语或短语的精确表示。

移动设备402输出适当的转录(430)。这可以包括：开始执行由第一转录所描述的动作；显示用户可选择的界面元素，用户可选择的界面元素向用户指示由该第一转录所描述的动作，并且等待确认动作的执行的用户输入；在第二用户可选择的界面中显示由搜索引擎406所提供的搜索结果的列表连同用户可选择的界面元素；或者显示第一转录和第二转录二者并且向用户请求对正确的转录、正确的动作或者正确的转录和正确的动作二者的确认。向用户输出第一转录和第二转录的结果的很多其他组合也是可能的。

图5是示出例如移动设备102上的屏幕截图500的示例的图。图500被描述为由系统100所生成的输出的特定示例，但是可以使用其他显示或配置来向用户显示来自系统100的输出。

上部显示部分502向用户显示转录。这一部分502可以显示第一转录118、第二转录115a、或者这两个转录的用户可选择列表以便用户确认。

中间显示部分504为显示由移动设备根据用户话语112的第一转录118所解释的动作的用户可选择的界面。其显示基于话语112的第一转录118的、与来自存储在移动设备上的用户特定数据128的联系人关联的、并且由访问用户特定数据128的基于客户端的语音识别器126所生成的信息。如图所示，中间显示部分504可以包括与联系人相关的所有适当的数据，例如联系人的姓名、电话号码和数字照片。伴随着显示联系人信息，用电话图标在底部显示对动作“呼叫”的确认，该电话图标提示用户触摸显示器的该部分以开始该动作的执行，在这种情况下该动作为呼叫Bill Byrne。

下部显示部分506示出基于使用第二转录115b执行的搜索的、用户可选的搜索结果116的列表。这一列表在用户适当输入的情况下可能能够滚动以显示搜索结果的更复杂的列表。备选地，下部显示部分506的用户的选择可以使得部分506能够放大和包含整个屏幕以便向用户提供可选的链接以及搜索结果116的更完整的视图。

图6示出了通用计算设备600和通用移动计算设备650的示例，其可以与这里所描述的技术一起使用。例如，该计算设备可以支持所描述的ASR引擎中的一个或两个ASR引擎。该计算设备可以使用该ASR引擎用于多个目的，例如作为向其他设备提供转录或者生成转录以便在该计算设备自身上本地使用的服务器来操作。

计算设备600意在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机和其他适当的计算机。计算设备650意在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。这里示出的部件、其连接和关系以及其功能仅是示例性的，而非意味着限制本文档中所描述和/或要求保护的本发明的实现。

计算设备600包括处理器602、存储器604、存储设备606、将存储器604连接至高速扩展端口610的高速接口608、以及将低速总线614连接至存储设备606的低速接口612。部件602、604、606、608、610和612中的每个部件使用各种总线互连，并且可以安装在公共母板上或者以其他适当的方式来安装。该处理器602可以处理用于在计算设备600内执行的指令，包括存储在存储器604中或者在存储设备606上的用以在外部输入/输出设备诸如耦合至高速接口608的显示器616上显示GUI的图形信息的指令。在其他实现中，可以适当地使用多个处理器和/或多个总线连同多个存储器和多个类型的存储器。此外，可以连接多个计算设备600，其中每个设备提供(例如作为服务器组、刀片型服务器组或者多处理器系统的)必需操作的部分。

存储器604在计算设备600内存储信息。在一个实现中，存储器604为易失性存储器单元，在另一实现中，该存储器604为非易失性存储器单元。该存储器604还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备606能够向计算设备600提供大量存储空间。在一个实现中，该存储设备606可以是或者包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或者其他类似的固态存储器设备、或者包括存储区域网或其他配置中的设备的设备阵列。计算机程序产品可以用信息载体来有形地实施。该计算机程序产品还可以包含在被执行时执行一个或多个方法、诸如以上所描述的方法的指令。该信息载体可以是计算机可读介质或机器可读介质，诸如存储器604、存储设备606、处理器上的存储器602、或者传播信号。

高速控制器608管理计算设备600的带宽密集型操作，而低速控制器612管理低带宽密集型操作。这样的功能分配仅是示例性的。在一个实现中，高速控制器608耦合至存储器604、显示器616(例如通过图形处理器或加速器)并且耦合至高速扩展端口610，该高速扩展端口610可以接受各种扩展卡(未示出)。在该实现中，低速控制器612耦合至存储设备606和低速扩展端口614。该低速扩展端口可以通过例如网络适配器耦合至一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪、或者联网设备诸如交换机或路由器，该低速扩展端口可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)。

计算设备600可以以大量不同形式来实现，如附图中所示。例如，其可以被实现为标准服务器620，或者用这样的服务器的组来多次实现。其还可以被实现为机架式服务器624的一部分。此外，其可以用个人计算机诸如膝上型计算机622来实现。备选地，来自计算设备600的部件可以与移动设备诸如设备650中的其他部件进行组合。这样的设备中的每个设备可以包含计算设备600、650中的一个或多个，并且整个系统可以由彼此通信的多个计算设备600、650组成。

计算设备650包括处理器652、存储器664和输入/输出设备诸如显示器654、通信接口667、和收发器668等。该设备650还可以设置有用以提供附加存储空间的存储设备，诸如微硬盘机或其他设备。部件650、652、664、654、667和668中的每个部件使用各种总线互连，并且这些部件中的若干部件可以安装在公共母板上或者以其他适当的方式安装。

处理器652可以执行计算设备650内的指令，包括在存储器664中存储的指令。该处理器可以被实现为包括单个和多个模拟和数字处理器的芯片组。该处理器可以提供例如设备650的其他部件的协作，诸如用户界面的控制、由设备650所运行的应用、以及设备650的无线通信。

处理器652可以通过耦合至显示器654的控制界面658和显示界面656与用户通信。该显示器654可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器、或者其他适当的显示技术。该显示界面656可以包括用于驱动显示器654向用户呈现图形和其他信息的适当的电路。该控制界面658可以从用户接收命令并且对这些命令进行转换以便向处理器652提交。此外，外部界面662可以被设置成与处理器652通信，以便实现设备650与其他设备的近距离通信。外部界面662可以在一些实现中提供例如有线通信，在其他实现中提供无线通信，并且还可以使用多个界面。

存储器664在计算设备650内存储信息。该存储器664可以被实现为计算机可读介质或媒体、易失性存储器单元、或非易失性存储器单元中的一个或多个。还可以提供扩展存储器674并且通过扩展接口672将其连接至设备650，该扩展接口672可以包括例如SIMM(单列直插式存储器模型)卡接口。这样的扩展存储器674可以向设备650提供额外的存储空间，或者还可以存储用于设备650的应用或其他信息。具体地，扩展存储器674可以包括用以执行或补充以上所描述的过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器674可以被设置为设备650的安全模块，并且可以被编程有许可安全地使用设备650的指令。此外，可以经由该SIMM卡来提供安全应用连同附加信息，诸如以按照不可非法闯入的方式来在SIMM卡上放置标识信息。

存储器可以包括例如闪存和/或NVRAM存储器，这一点在下面讨论。在一个实现中，用信息载体来有形地实施计算机程序产品。该计算机程序产品包含在被执行时执行一个或多个方法、诸如以上所描述的那些方法的指令。该信息载体是计算机可读介质或者机器可读介质，诸如存储器664、扩展存储器674、处理器上的存储器652、或者可以通过例如收发器668或外部接口662来接收的传播信号。

设备650可以通过通信接口667来无线通信，该通信接口667根据需要可以包括数字信号处理电路。通信接口667可以提供各种模式或协议下的通信，诸如GSM话音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这样的通信例如通过射频收发器668来发生。此外，短距离通信可以使用诸如蓝牙、WiFi或者其他这样的收发器(未示出)来发生。此外，GPS(全球定位系统)接收器模块670可以向设备650提供额外的与导航相关和与位置相关的无线数据，该无线数据可以适当地由在设备650上运行的应用来使用。

设备650还可以使用音频编解码器660来可听地通信，该音频编解码器660可以从用户接收讲话信息并且将其转换成可用的数字信息。音频编解码器660可以同样地生成用户可听的声音，诸如通过例如在设备650的手持设备中的扬声器。这样的声音可以包括来自话音电话呼叫的声音，其可以包括所记录的声音(例如话音消息、音乐文件等)，并且还可以包括由在设备650上操作的应用所生成的声音。

计算设备650可以以大量不同的形式来实现，如附图中所示。例如，其可以被实现为蜂窝电话680。其还可以被实现为智能电话、个人数字助理或其他类似的移动设备的部分。

这里所描述的系统和技术的各种实现可以用数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或上述各项的组合来实现。这些各种实现可以包括在一个或多个计算机程序中的实现，该一个或多个计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释，该至少一个可编程处理器可以是专用目的或通用目的并且被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备传输数据和指令。

这些计算机程序(被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级程序和/或面向对象的编程语言、和/或用汇编/机器语言来实现。如本文中所使用的，术语“机器可读介质”、“计算机可读介质”指代用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑设备(PLD))，其包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里所描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)、以及键盘和定点设备(例如鼠标或跟踪球)的计算机上来实现，通过该键盘和定点设备用户可以向计算机提供输入。其他种类的设备也可以用来提供与用户的交互；例如，向用户提供的反馈可以是任何形式的传感器反馈(例如视觉反馈、听觉反馈或触觉反馈)；并且来自用户的输入可以以任何形式被接收，包括听觉、语音或触觉输入。

这里所描述的系统和技术可以用计算系统来实现，该计算系统包括后端部件(例如数据服务器)，或者包括中间件部件(例如应用服务器)，或者包括前端部件(例如具有图形用户界面的客户端计算机、或者用户可以通过其与这里所描述的系统和技术的实现进行交互的网页浏览器)，或者可以包括这样的后端部件、中间件部件或前端部件的任意组合。该系统的部件可以通过任何形式或介质的数字数据通信(例如通信网络)进行互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端与服务器的关系凭借在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而发生。

已经描述了大量实施例。然而，应当理解，可以在不偏离本发明的精神和范围的情况下做出各种修改。例如，本文档大部分内容已经关于某些触觉输入布局来描述，然而还可以使用其他各种布局。

此外，附图中所描绘的逻辑流程并非必须要求所示的特定顺序或者依次顺序来实现期望的结果。此外，可以向所描述的流程提供其他动作，或者可以从所描述的流程中删除一些动作，并且可以向所描述的系统添加其他部件，或者可以从所描述的系统去除其他部件。因此，其他实施例在以下权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据；

通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器，生成个性化转录，所述自动语音识别器具有词汇，所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语，所述个性化转录包括未被包含在所述基于云的自动语音识别器的所述词汇中的一个或多个术语；和

提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出，所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件，以及(ii)一个或多个搜索结果，所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对所述话语的错误转录而生成的。

2.根据权利要求1所述的方法，包括：

通过所述基于云的自动语音识别器生成所述话语的错误转录。

3.根据权利要求1所述的方法，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括未同步到云的联系人姓名。

4.根据权利要求1所述的方法，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括安装在所述移动计算设备上的应用的名称。

5.根据权利要求1所述的方法，包括：通过与所述基于云的自动语音识别器相关联的搜索引擎，使用所述话语的错误转录的一个或多个术语作为查询术语来生成所述一个或多个搜索结果。

6.根据权利要求1所述的方法，其中，所述基于云的自动语音识别器的所述词汇多于在所述移动计算设备上实现的所述自动语音识别器所使用的词汇。

7.根据权利要求1所述的方法，其中，在确定与所述个性化转录相关联的语音识别置信度评分不满足最小置信度阈值之后，提供用于发起与所述个性化转录相关联的所述话音动作的所述控件以用于输出。

8.一种包括一个或多个计算机和一个或多个存储设备的系统，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述系统包括：

通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器，生成个性化转录，所述自动语音识别器具有词汇，所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语，所述个性化转录包括未被包含在所述基于云的自动语音识别器的词汇中的一个或多个术语；和

提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出，所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件，以及(ii)一个或多个搜索结果，所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对话语的错误转录而生成的。

9.如权利要求8所述的系统，其中所述操作包括：

10.根据权利要求8所述的系统，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括未同步到云的联系人姓名。

11.根据权利要求8所述的系统，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括安装在所述移动计算设备上的应用的名称。

12.根据权利要求8所述的系统，其中，所述操作包括：通过与所述基于云的自动语音识别器相关联的搜索引擎，使用所述话语的错误转录的一个或多个术语作为查询术语来生成所述一个或多个搜索结果。

13.根据权利要求8所述的系统，其中，所述基于云的自动语音识别器的所述词汇多于在所述移动计算设备上实现的所述自动语音识别器所使用的词汇。

14.根据权利要求8所述的系统，其中，在确定与所述个性化转录相关联的语音识别置信度评分不满足最小置信度阈值之后，提供用于发起与所述个性化转录相关联的所述话音动作的所述控件以用于输出。

15.一种存储可由一个或多个计算机执行的指令的非暂时性计算机可读存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作，所述操作包括：

16.根据权利要求15所述的设备，其中所述操作包括：

17.根据权利要求15所述的设备，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括未同步到云的联系人姓名。

18.根据权利要求15所述的设备，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括安装在所述移动计算设备上的应用的名称。

19.根据权利要求15所述的设备，其中所述操作包括：通过与所述基于云的自动语音识别器相关联的搜索引擎，使用所述话语的错误转录的一个或多个术语作为查询术语来生成所述一个或多个搜索结果。

20.根据权利要求15所述的设备，其中，所述基于云的自动语音识别器的所述词汇多于在所述移动计算设备上实现的所述自动语音识别器所使用的词汇。