CN110797027A

CN110797027A - 多识别器语音识别

Info

Publication number: CN110797027A
Application number: CN201910931218.1A
Authority: CN
Inventors: 彼塔尔·阿列克西克; 佩德罗·J·莫雷诺门希瓦尔; 法迪·比亚德希
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-05-13
Filing date: 2014-04-18
Publication date: 2020-02-14
Anticipated expiration: 2034-04-18
Also published as: US20140337032A1; CN105229728A; US20150262581A1; US9058805B2; US9293136B2; EP3407349B1; EP3407349A1; CN110797027B; CN105229728B; WO2014186090A1; EP2997571B1; EP2997571A1

Abstract

本发明涉及多识别器语音识别。本说明书的主题可具体体现为方法等，该方法包括接收与发声相对应的音频数据，获得使用有限语音识别器所产生的发声的第一转录。有限语音识别器包括包含通过有限语音识别词汇所训练的语言模型的语音识别器，所述有限语音识别词汇包括来自语音命令语法的一个或多个项，但包括比扩展语法的所有项少。获得使用扩展语音识别器所产生的发声的第二转录。扩展语音识别器包括包含通过扩展语音识别词汇所训练的语言模型的语音识别器，所述扩展语音识别词汇包括扩展语法的所有项。至少基于第一转录或第二转录的一部分来对发声进行分类。

Description

多识别器语音识别

分案说明

本申请属于申请日为2014年4月18日的中国发明专利申请No.201480027534.1的分案申请。

技术领域

本公开通常涉及语音识别。

背景技术

语音识别包括用于将所讲的词转换成文本的处理。通常，语音识别系统将口头发声映射成一系列计算机可读语音，并且对那些语音与和词相关的已知语音模式进行比较。例如，麦克风可以接受下述模拟信号，所述模拟信号被转换成此后被划分成更小段的数字形式。可对数字段与所讲语言的元素进行比较。根据该比较以及对发出那些语音的环境的分析，系统能够识别语音。

典型的语音识别系统可以包括声学模型、语言模型、以及字典。简言之，声学模型包括可组合以生成词语、短语等等的集合的各个语音的数字表示。语言模型分配一系列词语将一起在特定句子或短语中出现的概率。字典将语音序列转换成语言模型可理解的词语。

发明内容

通常，本文档描述了用于执行语音识别的系统和技术。通常，通过两个或更多语音识别器对用户的发声进行转录。将每个识别器调到不同词典。例如，一个识别器可以被调成从扩展的(例如多用途)词典识别词，而另一被调到词的子集(例如命令关键字)和/或诸如存储在联系人列表中并且在扩展词典中可能不可用的固有姓名这样的专用词典。可对识别器的转录进行对准以提供包括一个或多个识别器中的所选元素的转录以作为对用户所说的转录。

在本说明书中所描述的主题的方面可具体体现为方法、系统、以及存储下述可执行指令的计算机可读介质，所述指令执行包括下述的操作：接收与发声相对应的音频数据；获得使用有限语音识别器所产生的发声的第一转录，其中有限语音识别器包括包含通过有限语音识别词汇所训练的语言模型的语音识别器，所述有限语音识别词汇包括来自语音命令语法的一个或多个项，但包括比扩展语法的所有项少；获得使用扩展语音识别器所产生的发声的第二转录，其中扩展语音识别器包括包含通过下述扩展语音识别词汇所训练的语言模型的语音识别器，所述扩展语音识别词汇包括扩展语法的所有项；并且至少根据第一转录或第二转录的一部分来对发声进行分类。

实现可以包括以下特征中的一些、全部、或者没有一个。可以使发声的第一和第二转录对准以产生对准的转录。可以将发声分类为语音命令或语音查询中的一个，并且响应于将发声分类为语音命令，使用第一转录的至少一部分以及第二转录的至少一部分产生所述语音命令并且发起语音命令，并且响应于将发声分类为语音查询，使用第一转录的至少一部分以及第二转录的至少一部分产生语音查询并且发起语音查询。有限语音识别器可被配置成识别占位符项的集合、语音命令项的集合、以及来自联系人列表的联系人姓名的集合中的一个或多个。扩展语音识别器可被配置成识别一般语法项的集合、占位符项的集合、固有姓名的集合、以及语音命令项的集合中的一个或多个。扩展语音识别器可以不被配置为识别来自联系人列表的联系人姓名的集合。有限语音识别器和扩展语音识别器中的至少一个的操作可在移动设备处执行。有限语音识别器和扩展语音识别器中的至少一个的操作可在服务器计算机设备处执行。

这里所描述的系统和技术可以提供以下一个或多个优点。首先，系统可提供对不为通用语音识别系统所知的项和姓名的识别。第二，系统可提高用户信息的保密性。第三，系统可提供对包括在用户字典和通用字典中所找到的词的所讲短语的改进的识别。

在附图和以下说明中阐述了一个或多个实现的细节。从说明书和附图以及权利要求将显而易见地得知其它特征和优点。

附图说明

图1示出了用于利用多个语音识别器来执行语音识别的系统的示例的示意图。

图2A-2F示出了通过多个语音识别器所转录的发声的概念性示例。

图3是用于执行多个语音识别器语音识别的示例性处理的流程图。

图4是可以用于实现多个语音识别器语音识别的示例性计算设备的框图。

具体实施方式

图1示出了用于利用多个语音识别器来执行语音识别的系统100的示例的示意图。在图1的示例中，用户102向移动设备104发出命令。在该示例中，移动设备104是具有先进计算能力的蜂窝电话(还被称为智能电话)。

移动设备104接收由用户102提供的例如讲话的输入音频并且通过例如互联网或蜂窝数据网络的网络106将音频提供给有限语音识别器110和扩展语音识别器120。有限语音识别器110和扩展语音识别器120对用户102的发声执行语音到文本的转录。在该示例中，移动设备104可以包括接收输入音频的应用(“APP”)。APP可以具有任何适当功能，例如它可以是搜索APP、消息收发APP、电子邮件APP等等。在这方面，在这种情况下APP被用作示例。然而，APP的所有或一部分功能可以是下载到移动设备104的另一程序的一部分、在移动设备104上所置备的另一程序的一部分、移动设备104的操作系统的一部分、或者可用于移动设备104的服务的一部分。

语法库130包括来自一种或多种语言的至少一些词和语法。语法库130包括扩展语法集合132，例如包含在语法库130之中的词和语法的全部或子集。在扩展语法集合132之内是诸如占位符项134的集合、语音动作项136的集合、以及固有姓名138的集合的项的子集。在一些实现中，语音动作项136的集合可包括与命令相关的一组已知词和/或语法。例如，语音动作项可包括诸如“呼叫”、“文本”、“导航”、“发邮件...到...主题......消息......”、“设置闹钟”、以及可与一组已知命令(例如“设置下午六点的闹钟”、“发送电子邮件给HughBriss，主题‘新手机’，消息‘我迫不及待地要给你展示我的新手机’，句号”)一起使用的其它项的词。

在一些实现中，固有姓名138的集合可包括常用人的姓名，例如“Bob”、“Tiffany”、“Smith”、“Jones”、“Wolfgang Amadeus Mozart”、“Laurentian Abyss”、“Walter ReedArmy Medical Center”。

在一些实现中，占位符项134的集合可包括可以用作例如介词、连词、感叹词这样的“连接”词的语音的部分。在一些实现中，占位符项134的集合可包括下述词，语音识别器110和120将所述词解释为例如"句号"、"问号"、"感叹号"、"连字符"、"点"、"反斜杠"这样的标点符号。在一些实现中，占位符项134的集合可包括为大家熟知的以表示转录中的一个或多个词的字符串。例如，占位符项“<目标>”可以用作下述发声的占位符，所述发声需要在“导航到<目标>”的环境中进一步转录。占位符项的其它示例可以包括“<主题>”、“<收件人>”、“<消息>”、“<位置>”、“<歌>”、“<艺术家>”、“<专辑>”、“<未知>”、“<无法识别>”、或者任何其它适当的人或机器可判读的可用于表示词或短语的字符的集合。

扩展语音识别器120包括扩展语言模型122。扩展语言模型122是由语言模型训练引擎140所训练的包括相对扩展语法的语言模型。例如，语言模型训练引擎140可以访问扩展语法132以根据包含在扩展语法132之中的项和语法中的一些或全部(例如根据占位符项134、语音动作项136、固有姓名138)来训练扩展语言模型122。

有限语言识别器110包括有限语言模型112。有限语言模型112是由语言模型训练引擎140所训练的包括扩展语法132的相对有限子集以及用户联系人姓名139的集合的语言模型。利用占位符项134和语音动作项136来训练有限语言模型112。例如，有限语言模型112可以被训练为识别与例如"打电话"、"文本"、"搜索"、"导航"这样的语音命令相关的项的集合。在一些实现中，可以对用户姓名139的集合训练有限语言模型112以提供对私人联系人列表中的姓名的识别。例如，用户102可以将联系人姓名本地存储在设备104上而不是存储在服务器上。在这样的示例中，设备104可以操作有限识别器以执行从用户的私人联系人列表识别姓名而无需在设备104之外共享联系人列表。在另一示例中，用户102可以将联系人姓名存储在设备104上，其中联系人姓名是不平常的(例如英语扩展语法的用户的非英文名)或者姓名使用来自扩展语法132的项(例如“Tiger Woods”可能是高尔夫球球友的姓名而不是大型猫科动物的森林，“Redd Foxx”可能是喜剧演员的姓名而不是犬的品种)。在一些实现中，有限语言模型可以包括来自用户102所选的用户字典或私人联系人列表中的词以保持对通过网络106可访问的资源不可用。例如，用户102可以包括用户102通常使用的但是可以不包含在扩展语法130之中的词，例如外来词、行业术语、不寻常的地名、绰号。

在一些实现中，有限语音识别器110和/或扩展语音识别器120可以驻留在移动设备104上。在一些实现中，有限语音识别器110和/或扩展语音识别器120可以驻留在远离移动设备104的一个或多个服务器上。例如，有限语音识别器110可以本地地运行在移动设备104上以例如加快识别常见命令和/或提供对本地联系人列表中的姓名的识别，而扩展语音识别器120可以运行在远程服务器上以例如提供对还可以是计算、存储、或者将密集在移动设备104上执行的数据的语音识别处理的访问和/或通过通用字典或多种语言执行语音识别。在另一示例中，有限语音识别器110可以运行在远程服务器上以增强扩展语音识别器120通过从私人联系人列表和/或用户102已选择与服务器共享的用户字典识别姓名和词语的识别能力。在又一个示例中，设备104已经具有足以本地地宿主有限语音识别器110和扩展语音识别器的足够计算能力以例如在网络106不可用或不需要使用时在离线模式下提供基本上完全的多识别器能力。

有限语音识别器110和扩展语音识别器120在其各自语言模型112、122的环境和能力之内对用户102所提供发声进行处理以形成发声的相应转录。例如，设备104可以存储姓名为“Nate Godbout”(发音“good boo”)的联系人。用户可以说“发送文本到Nate Godbout：‘你的包裹刚到”。扩展语音识别器120可以相对较好地识别发声的一般语法项而不是不寻常的姓名，例如可以将发声转录为“向innate good boo发送测试：你的包裹刚到”。有限语音识别器110可以相对更好地识别联系人姓名和/或命令关键字，而不是一般语法项，例如可以将发声转录为“向Nate Godbout发送文本<><><><>”，其中字符串“<>”表示有限识别器110识别为词但是无法在有限语言模型112的环境之内以足够高置信度转录的一个或多个发声。

将有限语音识别器110和扩展语音识别器120所确定的转录提供给转录对准器150。转录对准器150对该转录进行处理以确定转录的语法对准。例如，转录对准器150可以执行成对对准、序列对准、或者下述不精确的匹配，所述不精确的匹配用于对两个转录进行比较，同时允许两者之间的某些错配。例如，转录对准器150可以识别词“发送”和“到”存在于这两个转录中的并且这两者通过一个不同的词分开。在该示例中，转录对准器150可以确定转录应在词“发送”和/或“到”处对准。

转录对准器150将对准的转录提供给转录消歧器160。转录消歧器160对对准的转录进行分析以至少确定用户102所提供的发声的类型(例如语音动作命令或语音搜索命令)以及什么转录的词将用于执行该命令。例如，就确定发出什么类型的命令而言，转录消歧器160可以分析对准的转录“向Nate Godbout发送文本<><><><>”并且“向innate good boo发送测试你的包刚到”，并且认识到在进一步增大了发声实际上是语音动作命令的置信度的发声之内的语法位置上其被调到识别语音动作项的有限语音识别器110识别词“发送文本”。在其它示例中，转录消歧器160可以对扩展语音识别器所提供的转录确定相对较高级别的置信度，并且确定出发声是语音搜索命令。

转录消歧器160从有限和扩展转录创建组合转录。例如，每个转录之内的词或短语可以与置信度得分和/或下述加权相关，所述加权反映出语音动作或语音查询的环境内的每个词或短语的相关可能性。转录消歧器160对每个转录的相应对的词或短语的置信度得分和/或加权进行比较以确定用于表示发声并且可用于执行语音动作或语音查询的组合转录。在2A-2F的描述中进一步讨论消歧的转录的示例。

转录消歧器160将消歧的转录提供给语音动作引擎170或搜索引擎180，例如当将发声识别为语音动作时将消歧的转录提供给语音动作引擎170并且当将发声识别为语音搜索时将消歧的转录提供给搜索引擎180。响应于接收到消歧的转录，语音动作引擎170根据转录执行语音动作。例如，语音动作引擎170可以接收诸如“导航到最近的邮局”这样的转录并且通过向用户102提供驾驶方向而做出响应。响应于接收到消歧的转录，搜索引擎180执行搜索操作。例如，搜索引擎180可以接收诸如“最近邮局的电话号码是什么”这样的转录并且通过执行web搜索并且将结果提供给用户102做出响应。

图2A-2F示出了通过多个语音识别器所转录的并且此后消歧的以确定用作语音命令或语音搜索的组合转录的发声的概念性示例。在一些实现中，图1的系统100可以执行在图2A-2F中所说明的语音识别、转录、对准、消歧、语音搜索、和/或语音动作中的一个或多个。

图2A是示例性语音识别处理200a的概念性框图。在处理200a中，接收“管道工收费多少？”的发声210a。例如，发声210a可以通过用户102对着图1的设备104说话来进行。通过例如有限语音识别器110这样的有限语音识别器以及例如扩展语音识别器120这样的扩展语音识别器来对发声210a进行转录。有限语音识别器提供有限转录220a，并且扩展语音识别器提供扩展转录230a。

在所说明的示例中，有限语音识别器没有识别发声210a中的任何词，并且通过提供包括一个或多个占位符项(如在该示例中说明为字符串“<>”)的有限转录220a响应以表示在有限语言模型的环境之内有限识别器无法以足够高的置信度所转录的词或短语。在所说明的示例中，扩展语音识别器试图识别发声210a中的所有词，并且通过提供包括几乎所有识别的词的扩展转录230a做出响应。

例如通过转录对准器150对有限转录220a和扩展转录230a进行对准并且例如通过转录消歧器160对其进行消歧以确定发声器210a是语音动作还是语音搜索，并且确定消歧的转录240a，例如"管道工收费多少"。在所说明的示例中，有限语音识别器无法提供有限转录220a中的具有足够高置信度的任何转录的词，并且转录消歧器160可以使用有限转录器220a的存在性和/或内容以作为发声210a不可能是语音动作而很可能是语音搜索这样的指示。

在所说明的示例中，因为有限转录器220a不包括任何转录的文本，因此转录消歧器对所提供的在语音搜索操作250a中使用的消歧的转录240a中的包含基本上选择所有扩展转录230a。例如，语音搜索操作250a可以利用消歧的转录240a(例如"管道工收费多少")执行web搜索查询以提供用于描述管道工对各种任务要求的费用的搜索结果。

图2B是示意性语音识别处理200b的概念性框图。在这个及其后的示例中，我们假定用户在其联系人列表中具有姓名为“Arnie管道工”的联系人，并且该联系人姓名可访问有限语音识别器但不能访问扩展语音识别器。

在处理200b中，接收“‘Arnie管道工’收费多少？”的发声210b。通过有限语音识别器和扩展语音识别器对发声210b进行转录。有限语音识别器提供有限转录220b，并且扩展语音识别器提供扩展转录230b。

在所说明的示例中，在它无法转录的其它词/短语当中，有限语音识别器从用户的私人联系人列表中识别联系人姓名“Arnie管道工”。有限语音识别器通过提供例如"<>Arnie管道工<>"这样的有限转录220b做出响应，所述有限转录220b包括所识别的联系人姓名以及如说明为字符串"<>"的一个或多个占位符项。在所说明的示例中，扩展语音识别器试图识别发声210b中的所有词，并且通过提供包括它已试图识别的几乎所有识别的词的扩展转录230b做出响应。然而，在所说明的示例中，扩展语音识别器不可以访问用户的私人联系人，并且将联系人姓名“Arnie管道工”转录为“army管道工”，例如“‘army’管道工收费多少？”。

对有限转录220b和扩展转录230b进行对准并且消歧以确定发声器210b是语音动作还是语音搜索，并且确定消歧的转录240b。在所说明的示例中，有限语音识别器能够提供对联系人姓名的转录，但是没有提供可以表示在语音动作的环境中发出联系人姓名的任何占位符项。转录消歧器160可以使用有限转录220b的存在性和/或内容以作为发声210b不可能是语音动作而很可能是下述语音搜索的指示(例如“‘Arnie管道工’收费多少？”)，所述语音搜索包括用户的私人联系人中的一个的姓名。

在所说明的示例中，因为有限转录220B不包括表示语音动作的任何占位符项，因此转录消歧器对来自有限转录220b的转录的联系人姓名与扩展转录230b的其余进行组合以形成消歧的转录240b，该消歧的转录240b被提供以在语音搜索操作250b中使用。例如，语音搜索操作250b可以利用消歧的转录240b(例如“‘Arnie管道工’收费多少？”)来执行web搜索查询以提供用于描述指定联系人“Arnie管道工”对各个工作任务要求的费用的搜索结果。

在一些实现中，转录的联系人姓名可以被视为用于表示与联系人姓名相关的联系人记录的占位符项，并且联系人记录本身可以与一个或多个数据项相关。例如，用户可以在其联系人列表中具有联系人“Arnie管道工”，并且用户还可以具有相关的电话号码、电子邮件地址、物理地址、网站URL、或者具有"Arnie管道工"的联系人记录的其它信息。在一些实现中，用户可以配置有限语音识别器以在消歧的转录的环境中提供一个或多个数据项，例如消歧的转录器240b可以包括从用户的联系人信息所得到的元数据，并且语音搜索操作可以使用该元数据以提高提供给用户的搜索结果的质量。例如，存在在网络上可搜索的两个“Arnie管道工”，但是通过包括诸如URL、地址、和/或来自联系人条目的电话这样的描述预期“Arnie管道工”的元数据，语音搜索操作250b能够提供消除预期“Arnie管道工”与可能为用户不知的另一“Arnie管道工”的歧义的搜索结果。

图2C是示例性语音识别处理200c的概念性框图。在处理200c中，接收到“text‘Arnie管道工’‘我需要修理裂缝’”的发声210c。通过有限语音识别器和扩展语音识别器对发声210c进行转录。有限语音识别器提供有限转录220c，并且扩展语音识别器提供扩展转录230c。

在所说明的示例中，有限语音识别器识别语音命令词“文本”、来自用户的私人联系人列表中的联系人姓名“Arnie管道工”、以及不能以足够高的置信度转录的其它词/短语。有限语音识别器通过提供包括所识别的联系人姓名以及一个或多个占位符项的有限转录220c(例如“<>Arnie管道工<>”)做出响应。在所说明的示例中，扩展语音识别器试图识别发声210c中的所有词，并且通过提供包括它已试图识别的几乎所有识别的词的扩展转录230c做出响应。然而，在所说明的示例中，扩展语音识别器不可以访问用户的私人联系人，并且将命令关键字“text”和联系人姓名“Arnie管道工”错误地转录为“Texas”和“army管道工”，例如“Texas army管道工我需要修理裂缝”。

对有限转录220c和扩展转录230c进行对准并且消歧以确定发声器210c是语音动作还是语音搜索，并且确定消歧的转录240c。在所说明的示例中，有限语音识别器能够提供对命令关键字的转录，从而向转录消歧器建议用户希望执行涉及与所识别的联系人有关的信息的语音动作。

在所说明的示例中，因为有限转录220c包括例如用于建议语音动作的“text”这样的占位符项，因此转录消歧器对来自有限转录220c的命令关键字和转录的联系人姓名与扩展转录230c的其余进行组合以形成下述消歧的转录240c，该消歧的转录240c被提供以在语音搜索操作250c中使用。例如，语音搜索操作250c可以利用消歧的转录240c(例如“text‘Arnie管道工’‘我需要修理裂缝’”)来执行可使得将文本消息发送到"Arnie管道工"的操作。

图2D是示例性语音识别处理200d的概念性框图，在处理200d中，接收到“管道工Brownsdale明尼苏达”的发声210d。通过有限语音识别器和扩展语音识别器对发声210d进行转录。有限语音识别器提供有限转录220d，并且扩展语音识别器提供扩展转录230d。

在所说明的示例中，有限语音识别器从用户的个人词典识别不同寻常的地名“Brownsdale”，在该示例中地名“Brownsdale”是不在扩展语言模型的词。有限语音识别器为不能以足够高置信度所转录的其它词/短语提供占位符项。有限语音识别器通过提供包括所识别的个人词典词以及一个或多个占位符项的有限转录220d(例如“<>Brownsdale<>”)做出响应。在所说明的示例中，扩展语音识别器试图识别发声210d中的所有词，并且通过提供包括它已试图识别的几乎所有识别的词的扩展转录230d做出响应。然而，在所说明的示例中，扩展语音识别器不可以访问用户的个人词典，并且将词“Brownsdale”错误地转录为“bronzed ale”，例如“管道工bronzed ale明尼苏达”。

对有限转录220d和扩展转录230d进行对准并且消歧以确定发声器210d是语音动作还是语音搜索，并且确定消歧的转录240d。在所说明的示例中，有限语音识别器能够提供对个人词典项“Brownsdale”而不是命令关键字的转录，从而向转录消歧器建议用户希望执行涉及来自用户的个人词典的项的语音搜索。

在所说明的示例中，转录消歧器对来自有限转录220d的个人词典项与扩展转录230b的其余进行组合以形成消歧的转录240d，该消歧的转录240d被提供以在语音搜索操作250d中使用。例如，语音搜索操作250d可以利用下述消歧的转录240d(例如“管道工Brownsdale明尼苏达”)来执行web搜索，所述消歧的转录240d提供了与在Brownsdale的城镇附近可用的管道服务有关的信息。

图2E是示例性语音识别处理200e的概念性框图。在处理200e中，接收到“call A1管道工”的发声210e。通过有限语音识别器和扩展语音识别器对发声210d进行转录。有限语音识别器提供有限转录220d，并且扩展语音识别器提供扩展转录230d。

在所说明的示例中，有限语音识别器识别语音命令词“call”以及不能以足够高置信度所转录的已识别的其它词/短语。有限语音识别器通过提供包括所识别的命令关键字以及一个或多个占位符项的有限转录220e(例如"<call><>")做出响应。在所说明的示例中，扩展语音识别器试图识别发声210e中的所有词，并且通过提供包括它已试图识别的几乎所有识别的词的扩展转录230e做出响应。然而，在所说明的示例中，扩展语音识别器将命令关键字"call"错误地转录为"cowl"，例如"“cowl A1管道工"。

对有限转录220e和扩展转录230e进行对准并且消歧以确定发声器210e是语音动作还是语音搜索，并且确定消歧的转录240e。在所说明的示例中，有限语音识别器能够提供对命令关键字的转录，从而向转录消歧器建议用户希望利用它不能以足够高的置信度所转录的一些词来执行指定语音动作。

在所说明的示例中，因为有限转录220e包括例如建议语音动作的“call”这样的占位符项，因此转录消歧器对来自有限转录220e的命令关键字与扩展转录230e的其余进行组合以形成消歧的转录240e，该消歧的转录240e被提供以在语音搜索操作250e中使用。例如，语音搜索操作250e可以利用消歧的转录240c(例如“call A1管道工”)来执行可使得设备104利用从对“A1管道工”的web搜索所获得的电话号码打电话这样的操作。

图2F是示例性语音识别处理200f的概念性框图。在处理200f中，接收到“callArnie管道工”的发声210f。通过有限语音识别器和扩展语音识别器对发声210f进行转录。有限语音识别器提供有限转录220f，并且扩展语音识别器提供扩展转录230f。

在所说明的示例中，有限语音识别器识别语音命令词“call”以及联系人姓名“Arnie管道工”。有限语音识别器通过提供包括所识别的命令关键字以及联系人姓名的有限转录220f(例如“<call><Arnie管道工>”)做出响应。在所说明的示例中，扩展语音识别器试图识别发声210f中的所有词，并且通过提供包括它已试图识别的几乎所有识别的词的扩展转录230f做出响应。然而，在所说明的示例中，扩展语音识别器将命令关键字“call”错误地转录为“cowl”，并且将联系人姓名“Arnie管道工”错误地转录为“army of管道工”，例如“cowl army of管道工”。

对有限转录220f和扩展转录230f进行对准并且消歧以确定发声器210f是语音动作还是语音搜索，并且确定消歧的转录240f。在所说明的示例中，有限语音识别器能够提供对命令关键字的转录，从而向转录消歧器建议用户希望对所识别的联系人执行指定语音动作。

在所说明的示例中，因为有限转录220f包括例如建议语音动作的"call"这样的占位符项，因此转录消歧器对来自有限转录220f的命令关键字与扩展转录230f的其余进行组合以形成消歧的转录240f，该消歧的转录240f被提供以在语音搜索操作250f中使用。例如，语音搜索操作250f可以利用消歧的转录240f(例如“call Arnie管道工”)来执行可使得设备104利用被存储为“Arnie管道工”的用户私人联系人信息的一部分的电话号码来打电话这样的操作。

图3是用于执行多识别器语言识别的示例性处理300的流程图。在一些实现中，处理300可以由图1的系统100来执行。

当接收到与发声相对应的音频数据时处理300开始(310)。例如，图1的用户102可以对着设备104讲图2的发声210a-210f中的一个。

获得利用有限语音识别器所产生的发声的第一转录(320)。有限语音识别器包括下述语音识别器，该语音识别器包括通过下述有限语音识别词汇所训练的语言模型，所述有限语音识别词汇包括来自语音命令语法的一个或多个词语，但是包括比扩展语法的所有词语要少。例如，有限语音识别器110利用有限语言模型112对发声进行转录，并且通过语言模型训练引擎140对有限语言模型112进行训练以识别比扩展语法132所包括的完整的项集合要少。

在一些实现中，有限语音识别器可被配置成识别占位符项的集合、语音命令词语的集合、以及来自联系人列表的联系人姓名的集合中的一个或多个。例如，语言模型训练引擎140可利用占位符项134的集合、语音动作项136的集合、以及用户联系人姓名139的集合来训练有限语言模型112。

获得利用扩展语音识别器所产生的发声的第二转录(320)。扩展语音识别器包括下述语音识别器，该语音识别器包括通过下述扩展语音识别词汇所训练的语言模型，所述扩展语音识别词汇包括扩展语法的所有项。例如，扩展语音识别器120利用扩展的语言模型122对发声进行转录，并且通过语言模型训练引擎140对扩展的语言模型112进行训练以识别扩展语法132所包括的项集合，该项集合比有限语言模型112所包括的扩展语法项集合相对大。

在一些实现中，扩展语音识别器可被配置成识别一般语法项的集合、占位符项的集合、固有姓名的集合、以及语音命令词语的集合中的一个或多个。例如，语言模型训练引擎140可利用一般语法132、占位符项134的集合、语音动作项136的集合、以及固有姓名139的集合来训练扩展的语言模型122。在一些实现中，扩展语音识别器可以不被配置为识别来自联系人列表的联系人姓名的集合。例如，扩展的语言模型122可能无法访问或者可能未被训练以将用户102所存储的姓名识别为设备104上的私人联系人。

在一些实现中，可以对发声的第一和第二转录进行对准以产生对准的转录。例如，转录对准器330可以对有限的以及扩展的转录进行处理以确定这两者之间的对准以便从一个转录所识别的词可与另一转录中的其已识别的相应物相对应。

根据第一转录或第二转录的至少一部分对发声进行分类(340)。在一些实现中，发声可被分类(340)为语音命令或语音查询中的一个。响应于将发声分类为语音命令，利用第一转录的至少一部分以及第二转录的至少一部分产生语音命令，并且发起语音命令(350)。例如，在处理200c中，转录消歧器160可确定出发声210c是语音命令，对来自有限转录220c和扩展转录230c的词语进行组合以生成消歧的转录240c，并且根据消歧的转录240c发起语音动作250c。响应于将发声分类为语音查询，利用第一转录的至少一部分以及第二转录的至少一部分产生语音查询，并且发起语音查询(360)。例如，在处理200b中，转录消歧器160可确定出发声210b是语音查询，对来自有限转录220b和扩展转录230b的项进行组合以生成消歧的转录240b，并且根据消歧的转录240b发起语音搜索250b。

在一些实现中，可以在移动设备处执行有限语音识别器和/或扩展语音识别器的操作。例如，可由移动设备104来执行有限语音识别器110和/或扩展语音识别器120。在一些实现中，可以在服务器计算机设备处执行有限语音识别器和/或扩展语音识别器的操作。例如，可由可通过网络106访问移动设备104的一个或多个服务器计算机来执行有限语音识别器110和/或扩展语音识别器120。

在一些实现中，可以在移动设备处执行有限语音识别器的操作，并且可以在服务器计算机设备处执行扩展语音识别器的操作。例如，有限语音识别器110可以在移动设备104上进行操作以提供对联系人姓名、私人词典项、和/或有限离线语音识别功能的识别，同时扩展语音识别器120可以在可通过网络106访问移动设备104的服务器设备处进行操作以提供下述语音识别功能，该语音识别功能还可以计算密集地由移动设备104及时执行。

图4是作为客户端的或者作为服务器或多个服务器的可以用于实现在该文档中所描述的系统和方法的计算设备400、450的框图。计算设备400旨在表示诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、以及其它适当计算机这样的各种形式的数字计算机。计算设备450旨在表示诸如个人数字助理、蜂窝电话、智能电话、以及其它类似计算设备这样的各种形式的移动设备。这里所示的部件、其连接和关系、以及它们的功能仅是指示意性的，并且不是指对该文档中所描述和/或要求保护的本发明的实现做出限制。

计算设备400包括处理器402、存储器404、存储设备406、与存储器404和高速扩展端口410相连的高速接口408、以及与低速总线414和存储设备406相连的低速接口412。部件402、404、406、408、410、412的每一个利用各种总线互连，并且可以安装在公共主板上或者视情况按照其它方式安装。处理器402可对在计算设备400之内执行的指令进行处理，该指令包括存储在存储器404中的或者存储在存储设备406上的指令以在诸如与高速接口408相耦合的显示器416这样的外部输入/输出设备上显示GUI的图形信息。在其它实现中，可以视情况与多个存储器和存储器类型一起使用多个处理器和/或多个总线。此外，多个计算设备400可以与提供必要操作的部分的每个设备相连(例如作为服务器簇、刀片服务器组、或者多处理器系统)。

存储器404将信息存储在计算设备400之内。在一个实现中，存储器404是计算机可读介质。在一个实现中，存储器404是易失性存储器单元。在另一实现中，存储器404是非易失性存储器单元。

存储设备406能够为计算设备400提供大容量存储。在一个实现中，存储设备406是计算机可读介质。在各种不同实现方式中，存储设备406可以是软盘设备、硬盘设备、光盘设备、或者磁带设备、闪存或其它类似固态存储器设备、或者设备阵列，该设备阵列包括存储区域网或其它配置的设备。在一个实现中，计算机程序产品被有形地实施为信息载体。计算机程序产品包含下述指令，该指令当被执行时执行诸如如上所述的那些这样的一个或多个方法。信息载体是诸如存储器404、存储设备406、或者处理器402上的存储器这样的计算机或机器可读介质。

高速控制器408对计算设备400的带宽密集型操作进行管理，同时低速控制器412对较低带宽密集型操作进行管理。这种任务的分配仅是示例性的。在一个实现中，高速控制器408与存储器404、显示器416(例如通过图形处理器或加速器)、以及可以接受各种扩展卡(未示出)的高速扩展端口410相耦合。在该实现中，低速控制器412与存储设备406和低速扩展端口414相耦合。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器与诸如键盘这样的一个或多个输入/输出设备、指点设备、扫描仪、诸如交换机或路由器这样的组网设备相耦合。

如图所示，计算设备400可以以多种不同的形式来实现。例如，可以作为标准服务器420实现或者在一组这种服务器中多次实现。还可以作为机架服务器系统424的一部分实现。另外，还可以在诸如膝上型计算机422这样的个人计算机中实现。替代地，可以将来自计算设备400的部件与诸如设备450这样的移动设备中的其它部件(未示出)进行组合。这种设备的每一个可以包含一个或多个计算设备400、450，并且整个系统可以由彼此进行通信的多个计算设备400、450组成。

计算设备450包括处理器452、存储器464、诸如显示器454这样的输入/输出设备、通信接口466、收发器468、以及其它部件。设备450还可以设有诸如微驱动或其它设备这样的用于提供辅助存储的存储设备。部件450、452、464、454、466、468的每一个利用各种总线互连，并且可以将若干部件安装在公共主板上或者视情况以其它方式安装。

处理器452可对在计算设备450之内执行的下述指令进行处理，所述指令包括存储在存储器464之中的指令。处理器还可以包括独立的模拟和数字处理器。处理器可以提供例如对设备450的其它部件的协作，诸如对用户接口、通过设备450运行的应用、以及通过设备450的无线通信的控制。

处理器452可以通过控制接口458以及与显示器454相耦合的显示器接口456与用户进行通信。显示器454例如可以是TFT LCD显示器或OLED显示器或者其它适当显示器技术。显示器接口456可以包括用于驱动显示器454以向用户呈现图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且对其进行转换以提交给处理器452。另外，可以提供与处理器452进行通信的外部接口462，以便使得设备450与其它设备能够进行近区通信。外部接口462可以提供例如有线通信(例如通过对接过程)或者无线通信(例如通过蓝牙或其它这种技术)。

计算设备450将信息存储在计算设备450之内。在一个实现中，存储器464是计算机可读介质。在一个实现中，存储器464是易失性存储器单元。在另一实现中，存储器464是非易失性存储器单元。还可以提供扩展存储器474并且通过扩展接口472与可以包括例如SIMM卡接口的设备450相连。这种扩展存储器474可以提供对设备450的额外存储空间，或者还可以存储设备450的应用或其它信息。具体地说，扩展存储器474可以包括执行或补充上述处理的指令，并且还可以包括安全信息。因此，例如，扩展存储器474可以是作为设备450的安全模块提供的，并且可以用允许设备450安全使用的指令进行编程。另外，可以与附加信息一起通过SIMM卡提供安全应用，诸如以非破解的方式将标识信息放置于SIMM卡上。

存储器可以包括例如如下所述的闪速存储器和/或MRAM存储器。在一个实现中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含下述指令，所述指令在被执行时执行诸如如上所述的那些这样的一个或多个方法。信息载体是诸如存储器464、扩展存储器474、或者处理器452上的存储器这样的计算机或机器可读介质。

设备450可以通过下述通信接口466进行无线通信，所述通信接口466在必要处可以包括数字信号处理电路。通信接口466可以提供在尤其诸如GSM语音呼叫、语音LTE(VOLTE)电话、SMS、EMS、或MMS信息、CDMA、TDMA、PDC、WCDMA、CDMA2000、GPRS、WiMAX、LTE这样的各种模式或协议之下的通信。这种通信例如可以通过射频收发器468发生。另外，近距离通信可以诸如利用蓝牙、WiFi、或者这种其它收发器(未示出)而发生。另外，GPS接收器模块470可以向设备450提供额外的无线数据，其可以视情况由运行在设备450上的应用使用。

设备450还可以利用下述音频编解码器460进行可听地通信，所述音频编解码器460可以接收来自用户的所说信息并且将其转换成可用的数字信息。音频编解码器460可以同样地产生用户诸如通过例如设备450的电话听筒中的扬声器而可听的语音。这种语音可以包括来自语音电话的语音，可以包括所记录的语音(例如语音消息、音乐文件等等)，并且还可以包括由在设备450上操作的应用所产生的语音。

如图所示，计算设备450可以以多种不同形式实现。例如，它可以是作为蜂窝式电话480实现。还可以是作为智能电话482、个人数字助理、或者其它类似的移动设备的一部分实现。

这里所述的系统和技术的各种实现可是在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或其组合中实现的。这些各种实现可包括可在下述可编程系统上执行和/或解释的一个或多个计算机程序中的实现，所述可编程系统包括可以是专用或通用的至少一个可编程处理器，这至少一个可编程处理器被耦合以接收来自存储系统、至少一个输入设备、以及至少一个输出设备的数据和指令并且以将数据和指令发送到存储系统、至少一个输入设备、以及至少一个输出设备。

这些计算机程序(还被称为程序、软件、软件应用或代码)包括可编程处理器的机器指令，并且可以高级过程和/或面向对象的编程语言和/或汇编/机器语言实现。如这里所使用的，术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置、和/或设备(例如磁盘、光盘、存储器、可编程逻辑设备(PLD))，其包括用于接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里所述的系统和技术可在具有用于向用户显示信息的显示器设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及通过其用户可提供输入到计算机的键盘和指示设备(例如鼠标或轨迹球)的计算机上实现。其它类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可是任何形式的传感反馈(例如视觉反馈、听觉反馈、或者触觉反馈)；以及可接收任何形式的来自用户的包括语音、语音、或者触觉输入的输入。

这里所述的系统和描述可在下述计算系统上实现，所述计算系统包括后端组件(例如作为数据服务器)或者包括中间件组件(例如应用服务器)或者包括前端组件(例如具有用户通过其可与这里所述的系统和技术的实现相交互的图形用户界面或Web浏览器的客户端计算机)或者这种后端、中间件、或者前端组件的任何组合。该系统的组件可通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN“)、以及互联网。

计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端与服务器的关系借助于在相应计算机上运行的并且彼此具有客户端-服务器关系的计算机程序而产生。

已对本发明的多个实施例进行了描述。然而，应该理解的是在不脱离本发明的精神和范围的情况下可做出各种修改。例如，通过步骤可被重新排列、添加、或者移除的各种形式可以使用示出的流程。此外，虽然已对系统和方法的若干应用进行了描述，但是应当认识到许多其它应用是预期的。因此，其它实施例在以下权利要求的范围之内。

Claims

1.一种计算机实现的用于执行语音识别的方法，所述方法包括：

接收(i)来自第一计算设备的特定发声的第一转录和(ii)来自第二计算设备的特定发声的第二转录；

基于所述第一转录和所述第二转录之间的比较，确定所述第一转录和所述第二转录之间的语法对准；

将所述第一转录和所述第二转录内的每个词或短语与为所述第一转录和所述第二转录内的每个词或短语分别计算的度量相关联，所述度量对应于所述第一转录和所述第二转录内的每个词或短语的相关可能性；

将与所述第一转录和所述第二转录内的每个词或短语相关联的度量进行比较；

基于与所述第一转录和所述第二转录内的每个词或短语相关联的度量的比较，生成表示所述特定发声的来自所述第一转录和所述第二转录的组合转录；以及

将所述组合转录提供为所述特定发声的语音识别器输出。

2.根据权利要求1所述的计算机实现的方法，其中，生成所述组合转录包括使用来自所述第一转录的度量大于特定阈值的词或短语以及使用来自所述第二转录的度量满足某个阈值的词或短语，以获得表示所述特定发声的所述组合转录。

3.根据权利要求1所述的计算机实现的方法，

其中，所述第一转录是使用有限语音识别器产生的，所述有限语音识别器包括包含通过有限语音识别词汇训练的语言模型的语音识别器，所述有限语音识别词汇包括来自语音命令语法的一个或多个项，但包括比扩展语法的所有项少；以及

所述第二转录是使用扩展语音识别器产生的，所述扩展语音识别器包括包含通过扩展语音识别词汇训练的语言模型的语音识别器，所述扩展语音识别词汇包括所述扩展语法的所有项。

4.根据权利要求3所述的计算机实现的方法，进一步包括：

确定所述有限语音识别器在所述特定发声内的语法位置处产生了指示所述特定发声包括语音动作命令的特定词或短语。

5.根据权利要求3所述的计算机实现的方法，进一步包括：

确定所述扩展语音识别器产生了指示所述特定发声包括语音搜索命令的特定词或短语。

6.根据权利要求1所述的计算机实现的方法，进一步包括：

分析已对准的所述第一转录和所述第二转录，以确定所述特定发声的类型，

其中，所述度量基于所确定的所述特定发声的类型。

7.根据权利要求6所述的计算机实现的方法，其中，所述特定发声的类型包括语音动作命令和语音搜索命令中的至少一个。

8.根据权利要求1所述的计算机实现的方法，其中，使所述第一转录与所述第二转录对准包括成对对准、序列对准、或者不精确的匹配中的至少一个。

9.一种用于执行语音识别的系统，所述系统包括：

一个或多个处理器以及存储指令的一个或多个存储设备，所述指令在被所述一个或多个处理器执行时可操作为使得所述一个或多个处理器执行包括以下的操作：

将所述组合转录提供为所述特定发声的语音识别器输出。

10.根据权利要求9所述的系统，其中，生成所述组合转录包括使用来自所述第一转录的度量大于特定阈值的词或短语以及使用来自所述第二转录的度量满足某个阈值的词或短语，以获得表示所述特定发声的所述组合转录。

11.根据权利要求9所述的系统，

其中，所述第二转录是使用扩展语音识别器产生的，所述扩展语音识别器包括包含通过扩展语音识别词汇训练的语言模型的语音识别器，所述扩展语音识别词汇包括所述扩展语法的所有项。

12.根据权利要求11所述的系统，进一步包括：

13.根据权利要求11所述的系统，进一步包括：

14.根据权利要求9所述的系统，进一步包括：

其中，所述度量基于所确定的所述特定发声的类型。

15.根据权利要求14所述的系统，其中，所述特定发声的类型包括语音动作命令和语音搜索命令中的至少一个。

16.根据权利要求9所述的系统，其中，使所述第一转录与所述第二转录对准包括成对对准、序列对准、或者不精确的匹配中的至少一个。

17.一种用于执行语音识别的系统，所述系统包括：

用于接收(i)来自第一计算设备的特定发声的第一转录和(ii)来自第二计算设备的特定发声的第二转录的装置；

用于基于所述第一转录和所述第二转录之间的比较，确定所述第一转录和所述第二转录之间的语法对准的装置；

用于将所述第一转录和所述第二转录内的每个词或短语与为所述第一转录和所述第二转录内的每个词或短语分别计算的度量相关联的装置，所述度量对应于所述第一转录和所述第二转录内的每个词或短语的相关可能性；

用于将与所述第一转录和所述第二转录内的每个词或短语相关联的度量进行比较的装置；

用于基于与所述第一转录和所述第二转录内的每个词或短语相关联的度量的比较，生成表示所述特定发声的来自所述第一转录和所述第二转录的组合转录的装置；以及

用于将所述组合转录提供为所述特定发声的语音识别器输出的装置。

18.根据权利要求17所述的系统，其中，生成所述组合转录包括使用来自所述第一转录的度量大于特定阈值的词或短语以及使用来自所述第二转录的度量满足某个阈值的词或短语，以获得表示所述特定发声的所述组合转录。

19.根据权利要求17所述的系统，