CN101454775A

CN101454775A - 通过基于协同客户端和服务器的语言识别的语法调整

Info

Publication number: CN101454775A
Application number: CNA2007800190875A
Authority: CN
Inventors: 哈里·M·布里斯; 加兰·W·菲利普斯
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2006-05-23
Filing date: 2007-03-30
Publication date: 2009-06-10
Also published as: WO2007140047A2; US20070276651A1; WO2007140047A3

Abstract

提供了一种用于语法调整的系统(200)和方法(300)。该方法可以包括使用第一语音语法(204)来尝试所说话语(304)的第一识别、基于识别失败而咨询(308)第二语音语法(224)、以及接收正确的识别结果(310)和一部分语音语法以用于更新(312)所述第一语音语法。第一语法可以递增地更新或扩展，以随着时间的推移而拓宽语法覆盖范围来适应用户的词汇和语法。

Description

通过基于协同客户端和服务器的语音识别的语法调整

技术领域

本文的实施例总体上涉及语音识别，并且更特别地涉及语音识别语法。

背景技术

近年来，便携式电子设备和移动通信设备的使用已显著增加。移动通信设备正在提供更多特征，诸如语音识别、画面、音乐、音频以及视频等。此类特征促进了由此人能够与移动设备互动的容易度。而且，人与移动设备之间的语音通信接口随着移动设备试图向其环境和在该环境内使用便携式设备的人学习而变得更加自然。移动通信设备上可用的许多语音识别特征可以要求对大的信息数据库的访问权。这些数据库可以包括能够存在于移动设备外部的电话簿和媒体内容。该数据库可以存在于网络上，移动设备能够接入该网络以接收此信息。

用于实现自动语音识别(ASR)的技术在本领域中众所周知。已知的ASR技术是使用语法的那些技术。语法是预期在给定的上下文中使用或说出的语言或短语的表示。因此，在某种意义上，ASR语法通常将语音识别器限制于作为可能说出单词(words)的全域的子集的词汇；并且语法可以包括子语法。于是，来自一个或多个语法或子语法的ASR语法规则可以用来表示给定上下文中可以预期的“短语”集合或词的有序组合。“语法”通常还可以是指统计语言模型(其中统计语音模型可以表示短语以及那些短语中的词之间的转变概率)，诸如口述内容语音识别器中使用的那些。

虽然移动设备上的语音识别系统受到词汇的数量和语法规定的约束的限制，但它们能够充分识别人类语音。该语音识别系统可使用语音语法规则将复杂的所说话语(spoken utterances)与具体动作相关联。基于设备的语音识别系统具有低延迟且不需要网络连接的优点。但是，便携式设备具有有限的资源，包括较小词汇量和不够广泛的语音语法。因此，用于多重上下文的大的词汇量和广泛的语音语法在功率有限且存储器有限的便携式设备上可能无法实行。相反，网络语音识别系统可以利用用于许多上下文的大量词汇和语法来工作，并且能够提供更高的识别准确度。

而且，移动设备的用户通常是最常使用移动设备的语音识别能力的人。语音识别系统能够采用语音语法来缩小搜索范围，这又帮助语音识别系统得到正确的识别。然而，所述语音语法通常未并入语音识别性能，并因此通常不被告知关于成功或失败的识别尝试。因此需要通过考虑语音语法对语音识别过程的作用来改进语音识别性能。

附图说明

将在随附权利要求书中特别地阐述被认为新颖的系统的特征。结合附图，参照以下说明可以理解此处的实施例，在所述几个附图中，相同的参考编号标识相同的单元，并且其中：

图1是移动通信环境的示图；

图2是示出了依照本发明实施例的移动设备的语音处理组件的示意图；

图3是依照本发明实施例的语法调整的流程图；

图4是依照本发明实施例的语法调整的方法；

图5是依照本发明的实施例的适合于在蜂窝电话中使用的语法调整的示例；

图6是依照本发明的实施例的适合于在便携式音乐播放器中使用的语法调整的示例；

图7是依照本发明的实施例的调整用于语音口述内容的语音语法的方法；以及

图8是依照本发明的实施例的适合用于语音口述内容的语法调整的示例。

具体实施方式

虽然本说明书以限定被认为新颖的本发明的实施例的特征的权利要求结束，但人们相信通过结合附图考虑以下说明，将更好地理解方法、系统以及其它实施例，在所述附图中，相同的参考编号延续使用。

根据需要，本文公开了本方法和系统的详细实施例。然而，应理解的是所公开的实施例仅仅是示例性的，可以以各种形式体现。因此，此处所公开的具体结构和功能细节不应被解释为限制性的，而是仅仅作为权利要求的基础和作为用于教导本领域的技术人员以不同的方式在实质上适当的任何详细结构中采用本发明的实施例的代表性基础。此外，此处所使用的术语和短语并不意在是限制性的；而是在此处提供实施例的可理解说明。

如此处所使用的，术语“一(a)”或“一个(an)”被定义为一个或多于一个。如此处所使用的，术语“多个”被定义为两个或多于两个。如此处所使用的，术语“另一”被定义为至少第二或以上。如此处所使用的，术语“包括”和/或“具有”被定义为包括(即开放性语言)。如此处所使用的，术语“耦合”被定义为连接，然而不一定是直接连接，且不一定是机械连接。术语“抑制”可以被定义为部分或完全减少或消除。术语“处理”可以定义为预编程或编程指令集的许多适当的处理器、控制器、单元或诸如此类。

如此处所使用的，术语“程序”、“软件应用”以及诸如此类被定义为设计用于在计算机系统上执行的指令序列。程序、计算机程序、或软件应用可以包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序(applet)、小服务程序(servlet)、源代码、对象代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

本发明的实施例涉及一种用于基于语音识别性能更新一个或多个语音语法的方法和系统。例如，具有基于设备的语音识别系统和语音语法的移动设备可以支持(enlist)具有语音识别系统和语音语法的服务器来实现更高识别准确度。移动设备上的语音语法可以依照语音识别失败而用服务器上的语音语法来更新。例如，可以评估移动设备上的语音语法的所说话语的识别性能。一旦识别失败，就可以评估服务器上的语音语法，以正确地标识所说话语。服务器可以向移动设备发送用于正确地标识所说话语的一部分或多部分语音语法。该部分语音语法可以提供所说话语的一种或多种正确解释。该部分还可以包括对应于正确的识别的数据，诸如电话簿联系信息或音乐选择数据。移动设备上的语音语法可以递增地更新或扩展，以随着时间的推移而拓宽语法覆盖范围来适应用户的词汇和语法。

该方法包括选择用于第一语音识别系统的第一语音语法；使用该第一语音语法尝试所说话语的第一识别；基于第一语法的识别失败而使用第二语音语法咨询第二语音识别系统；以及将具有对应数据和一部分第二语音语法的正确识别发送到第一语音识别系统来更新该识别和第一语音语法。基于由第二识别系统提供的所述正确识别和第二语音语法，所述第一语音识别系统调整所说话语的识别和第一语音语法。明显地，该语音语法是用于缩小基于识别性能更新的所说话语的识别范围的规则集合。该方法包括使第一语音语法与第二语音语法同步来提供所说话语的上下文。

参照图1，示出了用于语音识别的移动通信环境100。移动通信环境100可以通过射频(RF)通信网或无线局域网(WLAN)提供无线连接。在一种布置中，移动设备102可以使用诸如CDMA、GSM或iDEN的标准通信协议来与基站接收机110通信。基站接收机110又可以通过分组交换链路将移动设备102连接到因特网120。因特网120可以支持应用服务和服务层向移动设备102提供媒体或内容。移动设备102还可以使用无线通信信道来通过因特网120连接到其它通信设备。移动设备102可以与该网络上的服务器130并且与其它移动设备建立连接来交换信息。服务器130具有对数据库140的访问权，该数据库140可以被本地或远程地存储且包含简档数据(profile data)。该服务器还可以直接或通过因特网120来做应用服务的主机。在一种布置中，服务器130可以是用于输入和检索存在数据的信息服务器。

移动设备102还可以通过WLAN 104连接到因特网。无线本地接入网(WLAN)提供在本地地理区域105内的移动通信环境100的无线接入。WLAN还可以补充蜂窝式系统上的负荷，以便增大容量。WLAN通常由亦称基站的接入点(AP)104集群组成。移动通信设备102可以与基站区域105内的其它WLAN站通信，诸如膝上型电脑103。在典型的WLAN实现中，物理层使用各种技术，诸如802.11b或802.11gWLAN技术。物理层可以使用2.4GHz频带中的红外、跳频扩展频谱或2.4GHz频带中的直接序列扩展频谱。移动设备102可以向服务器130或移动通信环境100上的其它远程服务器发送和接收数据。在一个示例中，移动设备102可以通过服务器130来从语音识别数据库140发送和接收语法和词汇。

参照图2，示出了依照本发明实施例的移动设备102和服务器130的组件。移动设备102可以是任何类型的通信设备，诸如蜂窝电话、个人数字助理、膝上型电脑、笔记本、媒体播放器、音乐播放器、收音机或诸如此类。移动设备102可以包括具有本地词汇的语音识别系统(SRS)202、语音语法204以及处理器206。处理器206可以是微处理器、DSP、微芯片或能够进行计算处理的任何其它系统或设备。移动设备102可以包括外围输入和输出组件来捕获语音和播放语音和/或音乐，诸如本领域中已知的扩音器和扬声器。移动设备102还可以包括用于存储词汇关联(association)的词典210、用于记录语音的口述内容单元212以及支持应用的应用数据库214。该词典可以包括具有发音录音(transcription)并具有包括词义在内的其它相关联语音识别资源的一个或多个单词。SRS 202可以参考字典210以识别SRS 202词汇的一个或多个单词。应用数据库214可以包含用于电话簿应用的电话号码、用于音乐浏览器应用的歌曲或移动设备102上的特定应用所需的另外形式的数据。

SRS 202可以接收来自移动设备的用户的所说话语，并试图识别某些单词或短语。本领域的技术人员可以意识到SRS 202还可以应用于语音导航、语音命令、VoIP、语音XML、语音识别、语音口述内容以及诸如此类。SRS 202可以访问语音语法204，该语音语法提供一组规则以缩小本地词汇中所说话语的搜索范围。移动设备102还可以包括用于建立与服务器130的通信信道以发送和接收信息的通信单元208。该通信单元可以是RF单元，该RF单元可以提供对诸如TCP/IP和SIP等更高层次协议的支持，在所述更高层次协议上，诸如语音扩展标记语言(VoiceXML)的语言可以工作。处理器206可以通过所建立的通信信道向服务器130发送所说话语。可理解的是，处理器206可以实现SRS 202、语音语法204以及通信单元208的功能方面。这些组件仅为了说明工作原理而单独地示出，它们可以被组合在此处所考虑的本发明的其它实施例内。

服务器130还可以包括语音识别系统(SRS)222、一个或多个语音语法224、通信单元228以及处理器226。通信单元228可以与语言识别数据库140、因特网120、基站接收机110、移动设备102、接入点104以及连接到服务器130的其它通信系统通信。因此，服务器130可以接入因特网上的大量词汇、词典、以及众多的语音语法。例如，服务器130可以从移动通信环境100将大量的语音语法和词汇分别下载到语音语法224和词典230。可理解的是，服务器130接入移动通信环境100，以检索在存储器中太大而不能存储在移动设备102上的大量词汇和语音语法。

可理解的是，移动设备102可能受制于可能影响响应时间和语音识别性能的存储器和计算复杂性。如本领域中所已知的，具有较小电子组件的较小设备通常受到功率限制。这限制了它们可以执行的处理的程度。特别是，语言识别处理消耗大量的存储器和处理功能。移动设备102受到可能限制成功识别率的这些处理限制的控制。然而，移动设备102上的语音识别系统202具有低延迟并且不需要网络连接的优点。相反，服务器130上的语音识别系统222可以用能够轻易更新的大量的语法来工作。服务器130可以访问对于大量资源的网络连接性，这些资源包括各种语音语法、词典、媒体以及语言模型。

在实践中，移动设备102的用户可以向移动设备102中说话以执行动作，例如话音拨号或另一种类型的命令和控制响应。SRS 202可以识别被SRS 202语音语法204和词典210许可的某些所说话语。一方面，语音语法204可以包括用于标识所说话语并将该所说话语与动作或过程相关联的符号序列。例如，对于语音命令拨号来说，语音语法204可以包括名称与电话号码拨号动作或与所识别的所说姓名对应的其它动作的关联。例如，所说话语“查找罗伯特(Robert)”在语法中可以表示从应用数据库214访问相关联的电话号码、地址以及个人帐户。

SRS 202可能需要预先了解将被要求听取的所说话语。因此，SRS202参考提供应用上下文的此信息的语音语法204。该语音语法标识单词使用的类型和用于将针对应用的单词组合的规则。例如，用于从食物菜单点菜的语法将包含菜单上的单词列表和用于组合这些单词的容许规则集合。普通单词可以由第一SRS 202标识，并且更专门的单词可以由第二SRS 222标识。第一SRS 202和第二SRS 222可以使用相同语义类型的语法来建立应用上下文。此预先通知可以以描述语法的规则和内容的语法文件的形式出现。例如，该语法文件可以是包括巴科斯诺尔范式(BNF)中的单词关联的文本文件。该语法文件定义了控制语法中的有效话语的规则集合。作为示例，用于回答问题“在比萨饼上您想要点什么？”的语法可以被表示为：

<回答>：((＂我要＂|＂我想要＂)(＂蘑菇＂|＂洋葱＂))

(<reply>：((＂I want＂|＂I′d like＂)(＂mushrooms＂|＂onions＂)))；

在此规则集合下，所有有效的回答由两部分组成：1)“我要(Iwant)”或“我想要(I′d like)”，然后是2)“蘑菇(mushrooms)”或“洋葱(onions)”。这种表示法(notation)称为巴科斯诺尔范式(BNF)，其中相邻元素在逻辑上“与”在一起，并且‘|’标识逻辑或。这些规则是可以添加到第二语音语法中以扩展第二语音语法的语法覆盖范围的一部分语音语法。所述语法文件可以由移动设备102或服务器130上的应用的开发人员来创建。该语法文件可以被更新以包括新规则和新单词。例如，SRS 202访问词典210来识别所说单词并将结果与语言语法204的词汇相关联。应注意的是语法规则可以增添语义注解以表示由与经过该规则许可的单词型式相关联的设备所采取的动作，例如，在食物菜单点菜应用中，用户可以请求菜单订单，并且设备一旦识别该请求，就可以提交该订单。

通常，移动设备102的用户是最经常使用设备的语音识别能力的人。例如，用户可以具有存储在移动设备102的应用数据库214中的通讯录或联系人表，用户能够查看该通讯录或联系人表来启动电话呼叫。用户可以提交SRS 202能够识别的所说话语以启动电话呼叫或执行响应动作。在呼叫期间，用户可以以包括某一语音语法的预定方式与人建立对话。例如，尽管用户可以使用某一术语或语法来与其同事说话，但是用户可以用另一术语和语法与其孩子们说话。可理解的是，该语法缩小了用于识别某一应用上下文中的所说话语的搜索范围。也就是说，该语法能够通过基于预定布置向某些单词给出预测权重而指示最可能的单词序列。

所述应用上下文及因此的语音语法对于人来说可以在设备对话系统中不同。例如，在呼叫期间，用户可以以预定方式对自然语言理解系统说话。可以存在各种语音语法，用于提供与电话拨号应用、电话簿应用以及音乐浏览器应用的对话。例如，用户可能希望在移动设备上播放某一首歌曲。该用户可以提交提供用于选择可下载歌曲的歌曲请求的所说话语。SRS 202可以识别所说话语并访问词典210，以将该识别与对应语音语法204的歌曲列表词汇相关联。每个应用可以具有其自己的语音语法，当用户在该应用程序内时可以调用该语音语法。例如，当用户下载歌曲时，可以选择歌曲列表语法。作为另一示例，当用户从头至尾滚动电话簿条目时，可以选择电话簿语法。

然而，默认语音语法可能通常不可应用于此类大范围的语法上下文；也就是说，对于不同的所说对话应用，识别不同说话情况下的各种单词。在这些情况下，默认语音语法可能不能应用广义性来识别所说话语。例如，SRS 202可能由于不足的语法覆盖范围而未能识别所说话语。该语音识别并未成功地识别所说话语，因为语音语法限制了在未知情况的上下文中的解释能力。也就是说，语法文件并未提供用于充分提供语法覆盖范围的足够的规则或内容。

因此，本发明的实施例提供对可以应用于不同应用上下文的一个或多个语音语法的更新。此外，可以基于失败的识别尝试更新语音语法，以识别针对用户的普通对话的话语。在实践中，移动设备可以使语法适应于给定情况或应用的用户对话。特定于该用户的语音语法可以移植到设备上。例如，语音语法或部分语音语法可以被下载到用户正在操作的设备。

在某些情况下，移动设备102可以查看服务器130以检索词表外的(out-of-vocabulary)单词或未识别的单词。例如，用户可以给出本地语音识别系统202不能识别的所说话语。作为响应，移动设备102可以将该所说话语或一部分所说话语发送到服务器以识别该所说话语，标识与该话语相关联的一个或多个资源，并标识用于识别所说话语的一部分语音语法。服务器130可以向移动设备102发送具有识别的词汇的可以是单词序列的识别、该部分语音语法以及相关联的资源。移动设备102可以使用该部分语音语法，以更新本地语音语法。所述词汇可以包括可以添加到词典210的一个或多个词典条目。明显地，所述识别还可以包括表示所说话语的意义的逻辑形式。而且，可以将可以是电话号码、地址或音乐选择、或诸如此类的相关联的资源添加到应用数据库214。

考虑到移动设备102可能并不总是连接到图1的移动通信环境中。因此，移动设备102可能并不总是能够依赖于服务器的语音识别。可理解地，移动设备102可以查看响应于先前的识别失败而下载的更新后的语音语法。可以使该语音语法适应于用户的词汇和语法，这是本发明的一个优点。

参照图3，依照本发明的实施例示出了语法调整的高级流程图300。流程图300描述了用于从服务器上的语音语法更新移动设备上的语音语法的事件序列。特别的，服务器上的部分语音语法被发送到移动设备，以更新该移动设备上的语音语法。这可以包括具有一个或多个单词词典条目的词汇。在步骤302，可以在移动设备102上接收所说话语。在步骤304，移动设备上的SRS 202尝试所说话语的识别。SRS 202可以参考语音语法204，以缩小所说话语的识别搜索范围。例如，SRS 202可以参考词典210，以标识对应于所说话语的SRS 202词汇中的一个或多个单词。然而，SRS 202可能由于语音语法而未能标识所说话语的适当识别或解释。例如，对应于所说话语的单词可以在词典210中，虽然SRS 202未将该单词标识为潜在的识别匹配。明显地，语音语法标识正被识别的潜在单词型式的列表。因此，即使该单词可用，SRS 202也会返回识别失败。如果该单词不在词汇中，SRS 202也将返回识别失败。应注意的是可能有很多其他的失败原因，并且这只是一个示例，在本文中并不限制本发明。

在步骤306，移动设备102可以确定识别304是否成功。特别的，如果SRS 202未成功，则语音语法可能是不充分的。一旦标识了未成功的语音识别，移动设备102就向服务器130发送所说话语。在步骤308，服务器130尝试所说话语的识别。该服务器可以参考移动通信环境100中的一个或多个相连系统以识别所说话语。在步骤310，可以评估服务器上的SRS的成功。如果该服务器不能识别所说话语，则确认未成功的识别313，并且可以将未成功的识别响应提供给移动设备。如果服务器成功地识别所说话语，则可以将该正确的识别和用于识别所说话语的一部分语音语法发送到移动设备。在步骤312，移动设备可以用从服务器接收到的那部分语音语法更新本地语音语法。明显地，发明的这些方面包括发送用于识别所说话语的至少一部分语音语法。该部分可以包括全部的语音语法。可理解地，为了调整设备上的语音识别系统，所述本地语音语法被更新以提供语音覆盖范围。明显地，与该部分语法相关联的一部分词典和与该部分语法相关联的一部分应用数据库可以连同该部分语法一起被发送到移动设备。

参照图4，提供了一种用于语法调整的方法400。方法400的步骤还阐明了流程图300的方面。将参照图1标识与处理步骤相关联的组件。在步骤402，可以选择第一语音语法以用于第一语音识别系统。例如，用户可以提交可以由SRS 202处理的所说话语(302)。SRS 202可以选择一个或多个语音语法204以评估所说话语，并在步骤404使用所选的语音语法来尝试正确的识别。在步骤406，基于未成功的识别(306)，移动设备102可以咨询服务器130上的第二SRS 222。例如，通信单元208和处理器206可以将所说话语发送到服务器130上的通信单元228以识别所说话语(308)。

处理器还可以使语音语法204与第二语音语法224同步以改善第二SRS 222的识别准确度。可理解地，第二SRS 222可以不知道第一SRS 202的上下文。也就是说，第二SRS 222可以执行穷举搜索以识别不可以应用于该情况(即该上下文)的单词。第二语音语法224与语音语法204的同步有益地缩小了第二SRS 22的搜索范围。通过使第一SRS 202和第二SRS 222之间的语音语法同步，第二SRS 222可以缩小搜索正确的语音识别匹配的范围。例如，如果第一SRS 222正在使用语音语法204并搜索其无法识别的食物订单表中的食物菜单项，则移动设备102可以发送未识别的食物菜单项并使第二语音语法224与第一语音语法204同步。因此，基于由同步的语音语法224所建立的上下文，SRS 222可以搜索未识别的食物菜单项。例如，如果语音语法224将语法标识为食物菜单订单，则SRS 222将不会在汽车订单表中搜索汽车零件。所述同步减少了匹配与食物菜单订单相关联的语音语法的可能单词。

第一语音识别系统和第二语音识别系统可以使用相同语义类型的语法以建立应用上下文。语法的语义可以定义该语法中使用的术语的意义。例如，食物菜单订单应用可以具有与食物选择有关的语音语法，而医院应用可以具有病历语音语法。天气应用可以具有用于查询天气情况或统计数字的询问部分。另一上下文可以包括位置感知，其中用户说出地理区域以获取位置感知覆盖范围，诸如存在信息。服务器130上的SRS 224可以下载语音语法和词汇，以识别接收到的所说话语。如果SRS 224正确地标识了所说话语(310)，服务器130可以将具有一部分语音语法的正确识别发送到移动设备102(312)。该识别可以包括所说话语的正确解释连同诸如电话号码、地址、音乐选择义及诸如此类的相关资源。该识别还可以包括正确词汇的词典条目和最近邻识别的列表。例如，最近邻可以是具有所说话语的正确解释的一个或多个单词，诸如同义词。

基于从移动设备102接收到正确的识别，服务器130还可以更新诸如语音语法224的资源。该资源还可以是词典、口述内容存储器、或诸如日历或通讯录的个人信息文件夹，虽然其不限于这些。服务器130还可以将正确的词汇和最近邻识别的列表添加到与移动设备的用户相关联的词典230。另一方面，一旦接收到词汇并验证其是正确的，移动设备就可以向服务器130发送已收到(receipt)。该服务器可以将正确识别的简档存储在词典230中，该词典包括提供给移动设备102的最近邻识别的列表。该词典可以包括发音列表。

一旦接收到正确识别，移动设备102就可以更新词典210和语音语法204(312)。例如，对于口述内容类语音识别，该部分语音语法可以是诸如N元语法的语言模型。正确的识别可以包括新词汇单词、新词典条目或与正确识别相关联的新资源，诸如电话号码、地址或音乐选择。在命令和控制类语音识别的情形中，可以使用有限状态语法或诸如上下文无关语法或递归转移网络的其它语言约束识别一组受约束的命令。有限状态语法是容许单词转移的图表，上下文无关语法是一组特定上下文无关语法规则格式的规则，并且递归转移网络是可以嵌套的有限状态语法的集合。

在步骤410，基于正确的词汇和所提供的部分语音语法，可以调整语音语法204。例如，可以调整语音语法204单词连接，以并入生词连接，或者可以用词汇更新词典210。移动设备还可以记录一个或多个识别成功或一个或多个识别失败，以调整SRS 202。

如果SRS 222不能识别所说话语，则识别失败可以被发送到移动单元102，以将失败的尝试通知移动单元102。作为响应，移动单元102可以向用户显示未成功的识别消息并请求用户提交正确的识别。例如，用户可以打字输入未识别的所说话语。移动设备接收手动文本输入并依照新词汇信息更新SRS 202和语音语法204。可以使用重音标注(letter to sound)程序来用文本输入的词汇更新词典210，以确定新词汇的读音。

参照图5，示出了蜂窝电话的语法调整的示例。例如，移动设备102可以包括用于标识一个或多个呼叫参数的电话簿(214)。在步骤502，用户对语音识别(VR)蜂窝电话(102)说出命令，以呼叫当前未存储在设备电话簿(214)中的人。由于与现有语音语法(204)或词典(210)不充分匹配而导致语言识别(202)失败。作为响应，设备(102)将话语发送到服务器(130)，该服务器已经将该人列于VR电话簿中。在一种布置中，服务器130可以是企业服务器。服务器(130)识别姓名并向设备发送具有联系人信息的姓名、词典条目(230)以及一部分语音语法(224)。设备(102)将该新姓名和号码添加到基于设备的电话簿(214)中，并更新语音语法(204)和词典(210)。在由用户呼叫此联系人的下一次尝试中，设备(102)SRS将能够在不访问服务器的情况下识别该姓名。

在一个方案中，可以填写电话簿，并且可以在下一次识别识别更新时替换最不常用的条目。例如，SRS 202可以用从服务器(130)接收到的正确识别、或词汇单词来更新语音语法(204)和词典(210)。移动设备还可以评估词典中的词汇的使用历史，并用正确的识别来替换最不常用的词汇。在另一方案中，用户可以知道特定的条目不在设备上，并明确请求设备(102)下载该条目。该条目可以包括组列表或类列表。例如，该用户可以请求上传诸如“Phoenix的雇员”的条目的类。如果服务器(130)上不存在该条目，则用户可以使用其中服务器也被更新的多模式用户界面来手动输入该条目及相关联的信息。

参照图6，示出了便携式音乐播放器的语法调整的另一示例。例如，移动设备102可以是音乐播放器，该音乐播放器从歌曲列表播放一首或多首歌曲并用该歌曲列表更新语音语法，其中所说话语标识歌曲。在步骤602，用户说出播放并不在设备(102)上的歌曲的请求。VR软件(202)无法将请求匹配于设备上的任何歌曲。设备(102)将该请求发送到具有VR能力(222)的音乐存储服务器(130)。服务器(130)将该请求与用户的家庭服务器上的歌曲相匹配。例如，移动设备(102)可以请求服务器(130)提供提供与用户授权的其它设备的无缝连接。例如，用户允许服务器(130)与用户的家庭计算机通信，以检索包括歌曲的文件或信息。继续本示例，服务器(130)将语法的歌曲名称部分和歌曲发送回设备(102)。设备(102)播放该歌曲，并将该歌曲保存在歌曲列表中以用于将来播放该歌曲的语音请求。替代地，该歌曲可以已在移动设备上可用，虽然SRS 202不能识别该歌曲。因此，服务器130可以查询失败的识别，以解释所说话语并标识该歌曲。随后可以从移动设备上访问该歌曲。

在一种布置中，歌曲保留在服务器(130)上，并且使重放流到设备(102)。例如，下载歌曲可能需要限制的存储器量和处理时间。另外，阻止用户下载整首歌曲的连接服务可能会发生成本。用户可能更喜欢以降低的成本仅听歌曲的一部分或剪辑。因此，该歌曲可以流到用户，从而允许用户终止该流；也就是说，内容的传送根据用户命令而停止。在此布置中，可以将歌曲列表下载到设备。用户可以说出歌曲的名称，该歌曲的音频内容将流到设备。针对识别所说话语中的任何失败，都可以咨询服务器(130)。

在一个示例中，移动设备102向具有VR能力的所有用户网络可访问音乐存储器广播歌曲请求。例如，用户可以具有多个设备，该多个设备在移动通信环境100内彼此互连且具有对存储在多个设备140上的歌曲访问权。用户特别搜索的歌曲可以位于多个设备140中的一个上。因此，移动设备102可以将该歌曲请求广播到能够解释并可能提供该歌曲的收听设备。在实践中，语音识别系统可以以对歌曲请求的一个或多个匹配来响应。移动设备可以给出歌曲列表，由此用户可以选择歌曲。用户可以使用该设备购买该歌曲并下载该歌曲。

参照图7，示出了调整用于语音口述内容的语音语法的方法。简单地说，参照图1，移动设备102包括用于捕获并记录用户语音的口述内容单元212。该移动设备可以将一个或多个所说话语转换成文本。

在步骤702，可以接收到来自用户的口述内容，其中该口述内容包括来自用户的词汇的一个或多个单词。在步骤704，可以标识该口述内容的一个或多个未识别的单词。例如，语音识别系统(202)可以试图识别语音语法的上下文中的所说话语，但可能失败。响应于该失败，移动设备(102)可以将所说话语发送到服务器(130)，以处理该所说话语。

在步骤706，可以将包含未识别单词的一部分口述内容发送到服务器(130)上的语音识别系统(222)，以识别该口述内容。一旦正确地识别所说话语，在步骤708，服务器(130)就可以向移动设备上的SRS(202)发送识别结果串、一个或多个词典条目以及语言模型更新。所述识别结果串可以是经识别的话语的文本，所述一个或多个词典条目可以是与所识别的单词相关联的参数，例如表示那些单词的发音的录音。

在步骤710，一旦接收到识别结果串，移动设备102就可以修改所述口述内容，并将所述一个或多个词典条目添加到本地词典210并用语言模型更新来更新语音语法204。例如，可以将口述内容修改为包括正确的识别，并且可以更新语音语法以从失败的识别尝试中学习。因此，SRS 202使本地词汇和词典(210)适应于用户的词汇。

一方面，向用户显示包括正确识别的口述内容消息以供确认。例如，在口述内容期间，可以从服务器130接收到一个或多个正确识别。移动设备102在用户正在口述内容时显示正确的识别以通知用户该修正。用户可以接受该修正，据此移动设备将更新语音语法、词汇以及词典。可以向服务器发送确认，通知服务器所接受的修正。所述口述内容消息可以作为用于进一步口述内容的起始点被存储和参考。口述内容消息可以按照使用频率排名并作为用于显示的可浏览列表呈现给用户。用户可以从头至尾滚动口述内容的列表，并继续口述内容或通过语音识别编辑该口述内容。例如，移动设备显示识别结果串以请求确认，并且一旦接收到所述确认，就将识别结果存储到可浏览档案文件中。

参照图8，示出了用于语音口述内容的语法调整。在步骤802，用户向设备口述消息，其中该消息包括当前不在本地口述内容词典中的一个或多个单词。在步骤804，设备将所有或一部分口述的消息发送到大词汇量语音识别服务器。在806，在服务器上用置信度来识别消息。在步骤808，识别结果串连同结果串中的单词的词典条目和语言模型更新一起被发送回设备。在步骤810，设备将单词更新添加到本地词典和语言模型，供设备上的口述内容系统使用。这可以包括添加新的词汇单词并更新语音语法和词典。在步骤812，设备通过使用修改本地词典，以适应于用户的词汇，从而需要较少的服务器查询。

适用时，可以以硬件、软件或硬件与软件的组合实现本发明的这些实施例。适合于执行本文所述方法的任何种类的计算机系统或其它装置均是合适的。硬件与软件的典型组合可以是具有计算机程序的移动通信设备，该计算机程序在被加载并执行时可以控制移动通信设备，以便其执行本文所述的方法。本发明和系统的一些部分还可以嵌入计算机程序产品，该计算机程序产品包括使得能够实现本文所述方法的所有特征，并且当被加载到计算机系统中时，能够执行这些方法。

虽然已经例举和描述了本发明的优选实施例，但很显然本发明的实施例并不限于此。在不偏离如随附权利要求书所限定的本发明这些实施例的精神和范围的情况下，本领域的技术人员将想到许多修改、变更、变体、替换以及等同物。

Claims

1.一种用于语法调整的方法，包括：

选择第一语音语法，以用于第一语音识别系统；

使用所述第一语音语法来尝试所说话语的第一识别；

基于未成功的识别，使用第二语音语法来咨询第二语音识别系统；以及

将所述第一识别的正确识别结果和来自所述第二语音识别系统的部分语音语法发送到所述第一语音识别系统，以更新所述第一识别系统和所述第一语音语法，

其中，所述第一语音识别系统基于所述第一识别和由所述第二识别系统提供的所述部分的所述语音语法，来调整一个或多个所说话语的识别。

2.根据权利要求1所述的方法，其中所述语音语法可以是诸如上下文无关语法的基于规则的语法，或诸如有限状态语法或递归转移网络的非基于规则的语法。

3.根据权利要求1所述的方法，其中所述咨询还包括：

确认所述用于识别所说话语的第二语音识别系统的未成功识别；

将所述失败通知给所述第一语音识别系统；

响应于所述识别失败，接收手动文本输入，以提供所述第一识别的正确识别结果；以及

基于所述手动文本输入，来更新所述第一语音语法。

4.根据权利要求1所述的方法，其中所述咨询还包括：

确定用于识别所说话语的所述第二语音识别系统处的识别成功；以及

通过所述正确识别结果和所述部分的语音语法，将所述识别成功通知给所述第一语音识别系统，其中所述正确识别结果包括与所说话语的正确解释相对应的一个或多个相关联的资源。

5.根据权利要求1所述的方法，还包括：

在所述第一语音识别系统和所述第二语音识别系统之间建立协同通信；以及

基于识别失败，使所述第一语音语法和所述第二语音语法同步，以提供所说话语的应用上下文，其中所述第一语音识别系统和所述第二语音识别系统使用相同语义类型的语法来建立所述应用上下文。

6.根据权利要求1所述的方法，其中所述第一语音识别系统基于所述正确识别结果的接收，来更新相关联的资源。

7.根据权利要求1所述的方法，还包括：

记录一个或多个识别成功和一个或多个识别失败，以调节所述语音识别系统。

8.根据权利要求7所述的方法，还包括：

评估所述词典中的正确识别结果的使用历史；以及

用所述正确识别结果代替最不常用的识别结果。

9.根据权利要求7所述的方法，还包括：将正确词汇添加到识别词典，其中所述词典包含与所说话语的正确解释相对应的一个或多个词条。

10.一种用于语法调整的系统，包括：

移动设备，包括：

具有本地词典的第一语音语法；

第一语音识别系统，用于使用所述第一语音语法尝试所说话语的第一识别；以及

处理器，用于响应于识别失败将所说话语发送到服务器，并用于从所述服务器接收所述第一识别的识别结果和至少一部分的语音语法，以更新所述第一识别和所述第一语音语法，

其中所述语音识别系统基于所述识别结果和更新的语音语法，来调整一个或多个所说话语的所述识别。

11.根据权利要求10所述的系统，其中所述移动设备还包括：

电话簿，用于标识一个或多个呼叫资源、所识别的呼叫参数的词汇、以及对第一语音语法的呼叫列表更新，其中所述所说话语标识所述呼叫参数。

12.根据权利要求10所述的系统，还包括：

语音服务器，包括：

第二语音语法，所述第二语音语法具有对词典的访问权；

第二语音识别系统，用于使用所述第二语音语法识别所说话语；以及

处理器，用于将所说话语的识别结果和用来识别所说话语的一部分语音语法发送到所述移动设备。

13.根据权利要求10所述的系统，其中所述移动设备还包括：

音乐播放器，用于接收所识别歌曲的所述词汇和对所述第一语音语法的歌曲列表更新，其中所述所说话语标识歌曲。

14.根据权利要求10所述的系统，其中所述移动设备还包括：

语音口述内容单元，用于捕获语音、将一个或多个所说话语转换成文本、以及接收词汇来更新所述第一语音语法。

15.一种调整语音口述内容的语音语法的方法，包括：

接收来自用户的口述内容，其中所述口述内容包括来自所述用户词汇的一个或多个单词；

使用具有词典和语言模型的第一语音识别系统，来标识第一语音语法应用上下文中的口述内容的一个或多个未识别单词；

将包含所述未识别单词的至少一部分所述口述内容发送到第二语音识别系统，以识别所述口述内容；

接收识别结果串，且在所述结果串中有关于一个或多个单词的一个或多个词典条目和语言模型；

用所述识别结果串修改所述口述内容；以及

将所述一个或多个单词添加到所述词典和所述语言模型，其中所述词典被修改以适应于用户的词汇。

16.根据权利要求15所述的方法，还包括：将所述口述内容用作创建一个或多个消息的起始点，其中所述消息按照使用频率排列。

17.根据权利要求15所述的方法，进一步包括：

显示所述识别结果串来请求确认。