CN110706711A

CN110706711A - 外源性大词汇量模型到基于规则的语音识别的合并

Info

Publication number: CN110706711A
Application number: CN201910993287.5A
Authority: CN
Inventors: T·威尔逊; S·夸齐; J·维孔多阿; P·法特普里亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-01-17
Filing date: 2015-01-12
Publication date: 2020-01-17
Anticipated expiration: 2035-01-12
Also published as: CN110706711B; US20170162204A1; EP3095115A1; EP3095115B1; US9601108B2; CN105917405B; US20150206528A1; WO2015108792A1; CN105917405A; US10311878B2

Abstract

提供了外源性大词汇量模型到基于规则的语音识别的合并。音频流由本地小词汇量、基于规则的语音识别系统(SVSRS)接收，并被传输至大词汇量的、基于统计模型的语音识别系统(LVSRS)。SVSRS和LVSRS对音频执行识别。如果一部分音频没有被SVSRS识别，则触发这样的规则：将标记插入到识别结果中。将该识别结果发送至LVSRS。如果检测到标记，则对音频的指定的一部分执行识别。LVSRS结果与SVSRS结果进行统一并作为混合响应发送回SVSRS。如果没有触发混合识别规则，则唤起仲裁算法来确定是SVSRS识别还是LVSRS识别具有更小的词语错误率。将所确定的识别作为响应发送至SVSRS。

Description

外源性大词汇量模型到基于规则的语音识别的合并

本申请是申请日为2015年1月12日、申请号为201580004735.4的发明专利申请“外源性大词汇量模型到基于规则的语音识别的合并”的分案申请。

背景技术

语音识别系统大体上可分为两种类型的系统：利用小词汇量并生成高度精确的结果的基于规则的系统，或者是利用大词汇量并以损失特定精确度为代价而提供识别的宽泛度的开放式的、基于统计的系统。

语音识别已经成为了诸如移动电话、平板计算机、可穿戴设备(例如智能手表等)、便携式媒体播放机等之类的小型设备上的一种有用的工具。用户可利用各种类型的应用来使用语音识别系统，以执行动作、回答问题、做出推荐等。例如，用户可说出命令以启动文本消息应用、说出文本消息、并且接着说出命令以发送该文本消息。这样的设备上的语音识别可能受硬件、软件、和/或处理/存储器能力的限制。从而，较小型的设备可以包括基于规则的语音识别系统，而不包括支持开放式语音的大词汇量模型，这是由于这样的系统可以消耗的存储器和处理能力的量。

大词汇量语音识别系统可以在单独的系统上可用，例如，在远程服务器上。一些小型设备可以依赖基于网络的大词汇量语音识别系统来执行识别，然而，对网络的访问不是总是可用的，而且从计算的角度而言，将大词汇量系统托管在小型设备上可能不可行。

通常，存在结合两种类型的语音识别系统的优点的需求，例如，其中，来自用户的说话话语(utterance)的一部分可以需要以高精度匹配，而话语的另一部分语音可以需要非特定地匹配。本发明是关于这些和其他考虑而做出的。

发明内容

提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征，也不旨在作为帮助来确定所要求保护的主题的范围。

本发明的实施例通过提供外源性大词汇量模型到基于规则的语音识别的合并来解决上述和其他问题。可以利用本地设备上的受限的、基于规则识别与远程的、开放式的、基于统计的识别的组合，以传递包含基于设备的规则的特异性以及大语言模型的宽泛度两者的识别结果。

在以下的附图和说明中阐述了一个或多个实施例的细节。通过阅读以下详细说明并查阅相关联的附图，其他特征和优点将会显而易见。应当理解的是，以下的详细说明仅仅是解释性的，而不限制所要求保护的发明。

附图说明

包含在本公开中并构成本公开的一部分的附图示出了本发明的各种实施例。在附图中：

图1是用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统的一个实施例的框图；

图2是示出了小词汇量语音识别系统和大词汇量语音识别系统之间的请求和响应事务的框图；

图3A-3C示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的方法的流程图；

图4是示出了计算设备的示例物理组件的框图，其中利用所述计算设备可以实践本发明的实施例；

图5A和5B是移动计算设备的简化的框图，其中利用所述移动计算设备可以实践本发明的实施例；以及

图6是其中可以实践本发明的实施例的分布式计算系统的简化的框图。

具体实施方式

本发明的实施例针对于提供外源性大词汇量模型到基于规则的语音识别的合并。设备(例如，移动电话、平板设备等)的用户可以向设备提供音频流。例如，用户可说出命令和/或口述消息。可以由本地设备上的小词汇量的、基于规则的语音识别系统来执行对音频流的识别。根据实施例，还可以将音频流以流式传输至远程大词汇量语音识别系统，以用于使用统计语言模型来进行识别。大词汇量语音识别系统的识别可以与小词汇量的、基于规则的语音识别系统的识别同时进行。

小词汇量的、基于规则的语音识别系统可以包括混合识别规则，其中，当音频的一部分不被小词汇量的、基于规则的语音识别系统识别时，可以触发该混合识别规则。可以将指示未被识别的部分的标记插入到识别结果中。可以将包括任何标记的识别结果发送至大词汇量语音识别系统。在检测到标记之后，可以使用统计语言模型来执行对由标记所指定的一部分音频的识别。大词汇量语音识别系统的结果可以与小词汇量的、基于规则的语音识别系统的结果进行统一，并且作为混合识别响应发送回小词汇量语音识别系统。

实施例还可以包括预先训练以降低词语的识别错误率的仲裁算法。该仲裁算法可操作以确定是使用小词汇量语音识别系统的识别结果、大词汇量语音识别系统的识别结果、还是使用混合识别结果(如果触发了混合识别规则)。根据实施例，所述仲裁算法可以是基于网络的，并且可以在向小词汇量语音识别系统发送识别响应之前被唤起。

以下的详细说明涉及附图。在可能的情况下，在附图和以下的说明中所使用的相同的附图标记指代相同或相似的元素。尽管已经描述了本发明的实施例，但是修改、变型和其他实现也是可能的。例如，可以对在附图中所示出的元素进行替换、增加或修改，并且可以通过对所公开的方法进行替换、重新排序或增加步骤而修改所公开的方法。从而，以下详细说明不对本发明进行限制，而相反，本发明的适当的范围是由所附权利要求所限定的。

现将参考附图来描述各种实施例，其中相同的附图标记表示相同的元素。图1示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统100的框图。系统100包括设备110，其包括小词汇量语音识别系统115。设备110可以是在下文中参考图4到图6所描述的多种合适的计算设备中的一种。例如，设备110可以包括平板计算机设备、台式计算机、移动通信设备、膝上型计算机、膝上型/平板混合计算设备、游戏设备、媒体播放设备、或者用于执行用来执行多种任务的应用的计算设备。

根据实施例，小词汇量语音识别系统(SVSRS)115可以包括识别器125和基于规则的语法120。根据实施例，当用户105向设备110说出话语时，SVSRS 115可以接收音频160以供基于规则的语音识别。可以由SVSRS 115使用在设备110上所建立(author)的识别规则(基于规则的语法120)来执行音频的识别。根据实施例，可以使用例如XML格式(以语音识别语法规范(SRGS)的格式)来建立基于规则的语法120。基于规则的语法120可以包括混合识别规则122。

根据实施例，可以将音频160同时传输至大词汇量语音识别系统(LVSRS)145。LVSRS 145可以包括识别器155和开放式的统计语言模型150，所述模型150用于执行开放式的基于统计的识别。根据一个实施例，LVSRS 145可以是基于本地的。根据另一实施例并如图1中所示，LVSRS 145可以是云托管的并且作为服务来提供。例如，LVSRS 145可以通过诸如内联网、外联网、或互联网等之类的网络140而通信地连接至服务器设备130(或多个服务器设备)。

现在参考图2，示出了SVSRS 115和LVSRS 145之间的请求和响应事务200的框图。如在上文中所述的，话语或音频160可以由SVSRS 115来接收，并且被流式传输至LVSRS 145以供同时识别。当SVSRS 115执行其基于规则的识别时，识别系统可以对规则的序列进行匹配。可以将SVSRS匹配规则的识别结果215插入到识别结果210中、将识别结果210序列化并且发送以作为对LVSRS 145的请求230。

例如，考虑到用户105发出诸如“呼叫Bob”之类的陈述。话语(音频160)可以容易地由SVSRS 115的基于规则的语法所识别。从而，SVSRS识别结果210可以包括话语“呼叫Bob”的转录(SVSRS匹配规则的识别结果215)。

如果一部分音频与规则不相匹配，则可以触发混合识别规则122，并且将占位符(在本文中被称为混合识别规则标记220)插入到识别结果210中。可以针对单个音频流160而多次触发混合识别规则122。从而，识别结果210可以包括多个混合识别规则标记220A-N、以及多个SVSRS匹配规则的识别结果215A-N。

例如，如果用户发出诸如“发消息告诉Bob我可能会晚一点，并提醒我买一些饼干”之类的陈述。则可以由SVSRS 115的基于规则的语法而识别出话语的一部分。例如，SVSRS115可以能够识别出“发消息告诉Bob”和“提醒我”；然而音频160的其他部分(“我可能会晚一点”和“买一些饼干”)可能未由SVSRS 115所识别。从而，“发消息告诉Bob”可以作为SVSRS识别结果210中的第一SVSRS匹配规则的识别结果215A而被识别和提供。“我可能会晚一点”可能不被识别，并且因此可以触发混合识别规则122。结果是，可以将第一混合识别规则标记220A插入到SVSRS识别结果210中。“提醒我”可以作为SVSRS识别结果210中的第二SVSRS匹配规则的识别结果215B而被识别和提供。“买一些饼干”可能不被识别，并且可以再次触发混合识别规则122，并且可以将第二混合识别规则标记220B插入到SVSRS识别结果210中。

可以作为对LVSRS 145的请求230的一部分而构建并序列化包括任何SVSRS匹配规则的识别结果215和任何混合识别规则标记220的SVSRS识别结果210。请求230还可以包括音频160和诸如客户端上下文、连接信息等的元数据225。根据实施例，在SVSRS 115已完成其本地识别后，SVSRS识别结果210可以作为完整的识别结果(包括SVSRS匹配规则的识别结果215和混合识别规则标记220)来发送。根据另一个实施例，当用户105说话时，可以将中间SVSRS识别结果序列化并发送。

根据实施例，SVSRS识别结果210可以包括与音频160中匹配规则的部分相关联的置信度等级。以下示例是包括针对话语“发信息告诉Sam下班后我需要去商店(text Samthat I need to run to the store after work)”的置信度等级的样例识别语句(SVSRS识别结果210)。

示例：SVSRS识别结果

可以由LVSRS145接收请求230并将其去序列化。LVSRS 145可解析SVSRS识别结果210，并且判断其是否包括任何混合识别规则标记220。例如，混合识别规则标记220可以是如上文的示例中所示出的诸如“…”等之类标记。如果SVSRS识别结果210包括混合识别规则标记220，则LVSRS 145可以取消其与SVSRS识别同时开始的识别，并且使用所接收到的SVSRS识别结果210作为模板来重新开始识别。LVSRS 145可以对由混合识别规则标记220所指定的音频160的一部分执行开放式、基于统计的识别。

LVSRS 145的结果(在本文中被称为LVSRS识别结果235)可以与SVSRS匹配规则的识别结果215拼在一起。可以将LVSRS识别结果和SVSRS识别结果的组合(在本文中被称为混合识别结果)240序列化并发送以作为对SVSRS 115的响应。

图3A-3C示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的方法300的一个实施例。图3A和3C示出了SVSRS 115的过程，图3B示出了LVSRS 145的过程。现在参考图3A，方法300开始于操作302并继续至操作304，其中在操作304处接收到音频160。例如，用户105可以在他/她的设备110上启动语音识别功能来执行任务(例如，创建文本消息、执行互联网搜索、将笔记转录到笔记应用中等)。用户105可以向设备110中说出话语(例如，命令或陈述)。

方法300可以从操作304继续至操作306，其中在操作306处，由SVSRS 115使用在设备110上所建立的识别规则(基于规则的语法120)来执行识别，并且还可以可选地继续至操作305，其中在操作305处，将音频160发送至LVSRS 145以供识别。例如，可以同时由SVSRS115和LVSRS 145来识别音频160。该方法可以从操作305继续至操作313，这将参考图3B进行描述。

当在操作306处执行识别时，可以在决策操作308处确定是否触发混合识别规则122。如上所述，在基于规则的识别过程期间，可以由识别系统将规则序列与音频160进行匹配。如果音频160的一部分与规则不相匹配，则触发混合识别规则122。

如果触发了混合识别规则122，则方法300可以继续至操作310，其中在操作310处，可以将混合识别规则标记220插入到识别结果210中。如果不触发混合识别规则122，或者在将一个或多个混合识别规则标记220插入到SVSRS识别结果210中之后，方法300可以接着继续至操作312。

在操作312处，可以将可以包括SVSRS匹配规则的识别结果215和/或混合识别规则标记220的SVSRS识别结果210序列化并发送以作为对LVSRS 145的请求230。请求230可还包括音频160和元数据225。如上所述，在SVSRS 115已经完成其本地识别后，SVSRS识别结果210可以作为完整的识别结果(包括SVSRS匹配规则的识别结果215和混合识别规则标记220)来发送，或者当用户105说话时可以作为中间SVSRS识别结果来发送。

现在参考图3B，如果音频160被发送到LVSRS 145以供同时识别(操作305)，则方法300可以继续至操作313，其中在操作313处，当SVSRS 115对音频160执行其基于规则的识别时，可以由LVSRS 145对音频160执行开放式的、基于统计的识别。

方法300可以从操作312(图3A)继续至操作314，并且可选地从操作313继续至操作314，其中在操作314处，可以由LVSRS 145接收请求230(即，音频160、SVSRS识别结果210、以及元数据225)并将其去序列化。

方法300可以从操作314继续至决策操作316，其中在316处，可以对SVSRS识别结果210进行分析，并且可以进行关于识别结果210是否包括一个或多个混合识别规则标记220的确定。

如果在决策操作316处确定SVSRS识别结果210包括一个或多个混合识别规则标记220，则方法300可以继续至操作317，其中在操作317处，如果已经由LVSRS 145识别出音频160(操作313)，则LVSRS 145可以取消识别。

方法300可以继续至操作318，其中，LVSRS 145可以对由SVSRS识别结果210中的一个或多个混合识别规则标记220所指定的音频160的部分执行开放式的、基于统计的识别。

在操作320处，可以将LVSRS 145识别结果235A-N与SVSRS匹配规则的识别结果215A-N进行组合，并且可以创建混合识别结果240。

方法300可选地从操作320或者从决策操作316(如果确定SVSRS识别结果210不包含混合识别规则标记220)继续至操作322，其中在操作322处应用仲裁算法。如上所述，仲裁算法是一种预先训练以降低词语的识别错误率的算法。

在决策操作324处，基于预先定义的特征，确定是SVSRS识别结果210、是LVSRS识别结果235、还是混合识别结果240(如果触发了混合识别规则122)具有更高的识别质量。如果SVSRS识别结果210包括混合识别规则标记220，则混合识别结果240可以自动被选择、被序列化、并被发送至SVSRS 115(操作330)。

如果SVSRS识别结果210不包括混合识别规则标记220，并且如果在决策操作324处确定SVSRS识别结果210具有比LVSRS识别结果235更高的识别质量，则方法300可以继续至操作326，其中在操作326处，可以将SVSRS识别结果210序列化并发送至SVSRS 115。

如果SVSRS识别结果210不包含混合识别规则标记220，并且如果在决策操作324处确定LVSRS识别结果235具有比SVSRS识别结果210更高的识别质量，则方法300可以继续至操作328，其中在操作328处，可以将LVSRS识别结果235序列化并发送至SVSRS 115。方法300可以继续至操作332(图3C)。

现在参考图3C，方法300可以从操作326、328或330的一个中继续至操作332，其中在操作322处，可以接收响应(其可以是SVSRS识别结果210、LVSRS识别结果235、或混合识别结果240)并将其去序列化。

在操作334处，可以产生最终结果并将其应用至针对其而启动语音识别功能的任务(例如，创建文本消息、执行互联网搜索、将笔记转录到笔记应用中等)。方法300可以在操作398处结束。

尽管已经在结合在计算机的操作系统上运行的应用程序而执行的程序模块的一般性上下文中描述了本发明，但本领域技术人员应当理解的是，也可以结合其他程序模块来实现本发明。通常而言，程序模块包括例程、程序、组件、数据结构、和执行特定任务或实现特定的抽象数据类型的其他类型的结构。

在本文中所描述的实施例和功能可以经由多个计算系统来操作，所述计算系统包括但不限于：台式计算机系统、有线和无线计算系统、移动计算系统(例如，移动电话、上网本、平板(tablet or slate)类计算机、笔记本计算机、以及膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费型电子产品、小型计算机、以及大型计算机。

另外，在本文中所描述的实施例和功能可以通过分布式系统(例如，基于云的计算系统)来操作，其中，可以通过诸如互联网或内联网之类的分布式计算网络而彼此远离地对应用功能、存储器、数据存储和检索、以及各种处理功能进行操作。可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示用户界面和各种类型的信息。例如，可以在其上投影有用户界面和各种类型的信息的墙面上来显示用户界面和各种类型的信息，并与其进行交互。与利用其可以实践本发明的实施例的多个计算系统的交互包括：击键输入、触摸屏输入、语音或其他音频输入、手势输入(在相关联的计算设备装备有用于捕获和解译用于控制计算设备的功能的用户手势的检测(例如，相机)功能的情况下)等。

图4-6及相关联的说明提供了对其中可以实践本发明实施例的多种操作环境的讨论。然而，关于图4-6示出并讨论的设备和系统是出于示例和说明的目的的，而不限于在本文中所描述的、可以利用以实践本发明的实施例的大量的计算设备的配置。

图4示出了可以利用其实践本发明的实施例的计算设备400的物理组件(即，硬件)的框图。以下所描述的计算设备的组件可以适用于在上文中所描述的设备110和/或服务器130。在基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括但不限于：易失性存储器(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪速存储器、或者这样的存储器的任何组合。系统存储器404可以包括操作系统405以及适用于运行软件应用420(例如，SVSRS 115)的一个或多个程序模块406。例如，操作系统405可以适用于控制计算设备400的操作。此外，本发明的实施例可以结合图形库、其他操作系统、或者任何其他应用程序来实践，并且不限于任何特定的应用程序或系统。在图4中由虚线408内的那些部件示出了该基本配置。计算设备400可以具有额外的特征或功能。例如，计算设备400还可以包括额外的数据存储设备(可移动的和/或不可移动的)，例如磁盘、光盘或磁带。在图4中由可移动存储设备409和不可移动存储设备410示出了这样的额外的存储设备。

如上所述，可以将多个程序模块和数据文件存储在系统存储器404中。当在处理单元402上执行时，程序模块406可以执行包括但不限于在图3A-C中所示出的方法300的一个或多个阶段。根据本发明的实施例可以使用的其他程序模块可以包括以下的应用程序，例如电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。

此外，可以在包括分立的电子元件的电气电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单片机上实践本发明的实施例。例如，可经由片上系统(SOC)来实践本发明的实施例，其中在片上系统中，在图4中所示出的组件中的每个或许多个都可以被集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，其全部都作为单集成电路而集成(或“烧”)到芯片基板上。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备400的其他组件集成的专用逻辑，来对在本文中所描述的、将外源性大词汇量模型150到基于规则的语音识别的合并进行操作。例如，还可以使用能够执行逻辑操作(例如，AND、OR和NOT)的其他技术来实践本发明的实施例，所述其它技术包括但不限于机械、光学、流体、和量子技术。另外，可以在通用计算机内或在任何其他电路或系统中实践本发明的实施例。

计算设备400还可以具有一个或多个输入设备412，例如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括输出设备414，例如显示器、扬声器、打印机等。前述设备是示例，并且也可以使用其他设备。计算设备400可以包括允许与其他计算设备418进行通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于：RF发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块之类的信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动的介质。系统存储器404、可移动存储设备409、和不可移动存储设备410全都是计算机存储介质的示例(即，存储器存储)。计算机存储介质可以包括：RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储信息并且可以由计算设备400所访问的任何其他制造物。任何这样的计算机存储介质都可以是计算设备400的一部分。计算机存储介质不包括载波或其他传播的或经调制的数据信号。

通信介质可以通过计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制等之类的经调制的数据信号中的其他数据来实施，并且包括任何信息传递介质。术语“经调制的数据信号”可以描述具有以对信号中的信息进行编码的方式设置或改变的一个或多个特征的信号。作为示例而非限制，通信介质可以包括有线介质(例如，有线网络或直接有线连接)和无线介质(例如，声学、射频(RF)、红外和其他无线介质)。

图5A和5B示出了可以利用其实践本发明的实施例的移动计算设备500，例如，移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图5A，示出了用于实现实施例的移动计算设备500的一个实施例。在基本配置中，移动计算设备500是既具有输入元件又具有输出元件的手持式计算机。移动计算设备500通常包括显示器505和允许用户将信息输入到移动计算设备500中的一个或多个输入按钮510。移动计算设备500的显示器505也可以充当输入设备(例如，触摸屏显示器)。如果被包括，则可选的侧输入元件515允许进一步的用户输入。侧输入元件515可以是旋转开关、按钮或任何其他类型的手动输入元件。在可替代的实施例中，移动计算设备500可以包含更多或更少的输入元件。例如，在一些实施例中，显示器505可以不是触摸屏。在另一个可替代的实施例中，移动计算设备500是便携式电话系统，例如蜂窝电话。移动计算设备500还可以包括可选的小键盘535。可选的小键盘535可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中，输出元件包括用于示出图形用户界面(GUI)的显示器505、视觉指示器520(例如，发光二极管)、和/或音频换能器525(例如，扬声器)。在一些实施例中，移动计算设备500包含用于给用户提供触觉反馈的振动换能器。在另一个实施例中，移动计算设备500包含用于向外部设备发送信号或从外部设备中接收信号的输入和/或输出端口，例如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)、和视频输出(例如，HDMI端口)。

图5B是示出了移动计算设备的一个实施例的架构的框图。即，移动计算设备500可以包括用于实现一些实施例的系统(即，架构)502。在一个实施例中，系统502被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息发送客户端、游戏、和媒体客户端/播放器)的“智能电话”。在一些实施例中，系统502被集成为计算设备，例如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序520可以被载入到存储器562中，并且在操作系统564上运行或者与操作系统564相关联。应用程序的示例包括：电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息发送程序等。SVSRS115也可以被载入到存储器562中，并且在操作系统564上运行或者与操作系统564相关联。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以用于存储在系统502断电时不应丢失的永久信息。应用程序520可以使用信息并将信息存储在非易失性存储区域568中，例如电子邮件应用程序所使用的电子邮件或其他消息等。同步应用(未示出)也驻留在系统502上，并且被编程为与驻留在主机计算机上的对应的同步应用进行交互，以保持存储在非易失性存储区域568中的信息与存储在主机计算机上的对应的信息进行同步。应当理解的是，其他应用可以被加载到存储器562中并且在移动计算设备500上运行。

系统502具有电源570，其可以被实现为一个或多个电池。电源570还可以包括外部电源，例如，AC适配器或者对电池供电或充电的加电对接托架。

系统502还可以包括执行发送和接收射频通信的功能的无线电设备572。无线电设备572可以经由通信运营商或服务提供商来促成系统502和“外部世界”之间的无线连通性。到无线电设备572和来自无线电设备572的传输是在操作系统564的控制下进行的。换句话说，由无线电设备572所接收到的通信可以经由操作系统564散播至应用程序520，反之亦然。

视觉指示器520可以用于提供视觉通知和/或音频接口574可以用于经由音频换能器525来产生可听见的通知。在所示出的实施例中，视觉指示器520是发光二极管(LED)，而音频换能器525是扬声器。这些设备可以直接耦合至电源570，使得当被激活时，即使为了保存电池电量可以关闭处理器560和其他组件，它们也保持通电持续由通知机制所规定的一段时间。LED可以被编程为保持无限期地通电以指示设备的通电状态，直到用户采取动作为止。音频接口574用于向用户提供可听见的信号并从用户处接收可听见的信号。例如，除了耦合至音频换能器525之外，音频接口574还可以耦合至麦克风以接收可听见的输入，从而例如促成电话交谈。根据本发明的实施例，麦克风也可以充当音频传感器以促进对通知的控制，如将在下文中所描述的。系统502还可以包括使能够操作板载相机530来记录静止的图像、视频流等的视频接口576。

实现系统502的移动计算设备500可以具有额外的特征或功能。例如，移动计算设备500还可以包括其他的数据存储设备(可移动的和/或不可移动的)，例如，磁盘、光盘、或磁带。在图5B中由非易失性存储区域568示出了这样额外的存储。

由移动计算设备500所生成或捕获的、并且经由系统502所存储的数据/信息可以本地地存储在移动计算设备500上，如上所述，或者所述数据可以存储在可以由设备通过无线电设备572或者经由移动计算设备500和与移动计算设备500相关联的分离的计算设备之间的有线连接来访问的任何数量的存储介质中，例如，分布式计算网络(例如，互联网)中的服务器计算机。应当理解的是，这样的数据/信息可以通过移动计算设备500经由无线电设备572或者经由分布式计算网络来访问。类似地，这样的数据/信息可以根据公知的数据/信息传输和存储单元(包括电子邮件和协作数据/信息共享系统)容易地在计算设备之间进行存储和使用。

图6示出了用于提供外源性大词汇量模型150到基于规则的语音识别的合并的系统的架构一个实施例，如上所述。与LVSRS 145相关联地开发、交互、或编辑的内容可以存储在不同的通信信道中或其他存储器类型中。例如，可以使用目录服务622、门户网站624、邮箱服务626、即时消息存储628、或社交网站630来存储各种文件。LVSRS 145可以使用这些类型的系统中的任何一个等以提供外源性大词汇量模型150到基于规则的语音识别的合并，如本文所述。服务器130可以向客户端提供LVSRS 145。作为一个示例，服务器130可以是在网络上提供LVSRS 145的网络服务器。服务器130可以通过网络140在网络上提供LVSRS145。作为示例，客户端计算设备可以在个人计算机605A、平板计算设备605B、和/或移动计算设备605C(例如，智能手机)、或者其他计算设备中实现或实施。客户端计算设备的任何这些实施例可以从商店616获取内容。

例如，在上文中参考根据本发明的实施例的方法、系统、和计算机程序产品的框图和/或操作说明而描述了本发明的实施例。在框图中所注的功能/动作可不按照在任何流程图中所示的顺序发生。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可以大致同时执行，或者这两个框有时可以以相反的顺序执行。

该申请中所提供的对一个或多个实施例的描述和说明不旨在以任何方式对所要求保护的发明的范围进行限制或约束。在该申请中所提供的实施例、示例、和细节被认为足以表达所有权，并且使得他人能够制造并使用所要求保护的发明的最佳模式。所要求保护的发明不应该被解释为限于在该申请中所提供的任何实施例、示例、或细节。无论是组合还是单独地被示出和描述，各种特征(包括结构和方法)都旨在被选择性地包括或省略，以产生具有一组特定特征的实施例。在已经提供了本申请的描述和说明之后，本领域技术人员可设想变型、修改和替代实施例，其落入到在该申请中所实施的总体构思的更宽泛的方面的精神内，而不脱离所要求保护的发明的更宽泛的范围。

Claims

1.一种用于提供将外源性大词汇量模型到基于规则的语音识别的合并的方法，包括：

从基于规则的语音识别系统接收第一识别结果，所述第一识别结果包括指定没有被所述基于规则的语音识别系统所识别的所接收的音频流的一部分的标记；

对所述音频流的标记部分执行基于统计模型的识别，以创建第二识别结果；

将所述第二识别结果与所述第一识别结果进行组合，以创建组合的识别结果；并且

将所述组合的识别结果发送至所述基于规则的语音识别系统。

2.根据权利要求1所述的方法，其中，所述第二识别结果是基于统计模型的识别结果。

3.根据权利要求1所述的方法，其中，将所述第二识别结果与所述第一识别结果进行组合包括：用所述第二识别结果来替换所述标记，所述标记指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分。

4.根据权利要求1所述的方法，还包括在接收所述第一识别结果之前，对所述音频流执行基于统计模型的识别。

5.根据权利要求4所述的方法，其中，如果所述第一识别结果包括指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的标记，则：

取消对所述音频流执行所述基于统计模型的识别；并且

对所述音频流的所指定的一部分执行所述基于统计模型的识别。

6.根据权利要求1所述的方法，还包括：如果所述第一识别结果不包括指定没有被基于规则的语音识别系统所识别的所述音频流的所述一部分的标记，则：

对所述音频流执行基于统计模型的识别；

分析对所述音频流的所述基于统计模型的识别的结果和所述第一识别结果；

确定是对所述音频流的所述基于统计模型的识别的所述结果、还是所述第一识别结果具有更高的识别质量；并且

将具有所述更高的识别质量的识别结果发送至所述基于规则的语音识别系统。

7.一种用于提供语音识别的系统，包括：

一个或多个处理器；以及

耦合至所述一个或多个处理器的存储器，所述一个或多个处理器可操作以：

接收针对所接收的音频流的第一识别结果，所述第一识别结果是从基于规则的语音识别系统接收的；

确定所述第一识别结果是否包括指示没有所述被基于规则的语音识别系统所识别的所述音频流的一部分的标记；

当确定所述第一识别结果包括所述标记时，对所述音频流的标记部分执行基于统计模型的识别，以创建第二识别结果；

将所述第二识别结果与第一识别结果进行组合，以创建组合的识别结果；并且

8.根据权利要求7所述的系统，其中，所述第二识别结果是基于统计模型的识别结果。

9.根据权利要求7所述的系统，其中，所述一个或多个处理器还可操作以用所述第二识别结果来替换指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的所述标记。

10.根据权利要求7所述的系统，其中，所述一个或多个处理器还可操作以在接收所述第一识别结果之前，对所述音频流执行基于统计模型的识别。

11.根据权利要求10所述的系统，其中，如果所述第一识别结果包括指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的标记，则所述一个或多个处理器还可操作以：

取消对所述音频流执行所述基于统计模型的识别；并且

12.根据权利要求7所述的系统，还包括：如果所述第一识别结果不包括指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的标记，则所述一个或多个处理器还可操作以：

对所述音频流执行基于统计模型的识别；

将具有更好的识别质量的识别结果发送至所述基于规则的语音识别系统。

13.一种对计算机可执行指令进行编码的计算机可读存储设备，所述计算机可执行指令在由处理单元执行时执行一种方法，所述方法包括：

从基于规则的语音识别系统接收音频流的第一识别结果，所述第一识别结果包括指示没有被所述基于规则的语音识别系统所识别的所述音频流的一部分的标记；

将所述第二识别结果与所述第一识别结果进行组合，以形成组合的识别结果；并且

14.根据权利要求13所述的计算机可读存储设备，其中，所述第二识别结果是基于统计模型的识别结果。

15.根据权利要求13所述的计算机可读存储设备，其中，将所述第二识别结果与所述第二识别结果进行组合包括：用所述第二识别结果来替换所述音频流的标记部分。

16.根据权利要求13所述的计算机可读存储设备，还包括在接收所述第一识别结果之前，对所述音频流执行基于统计模型的识别。

17.根据权利要求16所述的计算机可读存储设备，其中，如果所述第一识别结果包括指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的标记，则：

取消对所述音频流执行所述基于统计模型的识别；并且

18.根据权利要求14所述的计算机可读存储设备，还包括用于执行以下操作的指令：

在确定所述第一识别结果不包括指定没有被基于规则的语音识别系统所识别的所述音频流的所述一部分的标记时：

对所述音频流执行基于统计模型的识别；

19.根据权利要求13所述的计算机可读存储设备，还包括用于基于所述组合的识别结果来执行任务的指令。