CN105074816A

CN105074816A - 促进口述自然语言接口的开发

Info

Publication number: CN105074816A
Application number: CN201480010471.9A
Authority: CN
Inventors: Y-C·居; M·菲力普斯; S·韩
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-02-25
Filing date: 2014-02-20
Publication date: 2015-11-18
Anticipated expiration: 2034-02-20
Also published as: WO2014130745A3; US9330659B2; EP2956931B1; WO2014130745A2; EP2956931A2; US20140244254A1; CN105074816B

Abstract

描述了一种用于促进口述自然语言(SNL)接口的开发系统。开发系统从开发者接收种子模板，每个种子模板提供可被用于在终端用户口述时调用功能的命令措辞。开发系统随后使用诸如众包系统和改写系统之类的一个或多个开发资源来提供附加模板。这生成一组扩展的模板。生成系统随后基于所述一组扩展的模板生成一个或多个模型。用户设备可安装该模型以供解读终端用户口述的命令时使用。当用户设备识别命令时，系统可自动调用与该命令相关联的功能。总得来说，开发系统提供了一种易于使用的用于产生SNL接口的工具。

Description

促进口述自然语言接口的开发

背景

希望为他或她的应用开发口述自然语言(SNL)接口的开发者当前面临令人生畏的任务。例如，为了从“草稿”构建SNL接口，开发者可能被预期执行以下复杂的任务：定义用于与应用交互的命令；选择用于识别这些命令的合适类型的模型；选择合适的示例和特征以供用于训练这些模型；调试这些模型以提供适当的性能等等。这些任务通常由工程师和科学家来执行，他们在语言学和计算机科学领域方面具有大量的理论知识和经验。绝大部分应用开发者可能缺少这样的知识和技能。

确实存在一些用于协助开发者将相对简单的语音识别能力添加到某些应用中的平台。然而，这些平台有许多限制。例如，一些平台在可被用于与语音识别功能进行交互的命令上设置了约束。另外或替代地，一些平台对于可使用语音识别功能的应用的类型设置了限制。上述缺点是作为示例而非限制被引述的。

概述

此处描述了促进口述自然语言(SNL)接口的开发的开发系统。在操作中，开发系统接收来自开发者的一组种子模板。每个种子模板提供在由终端用户口述时调用程序所执行的功能时使用的命令措辞。开发系统可随后以在线方式依赖于一个或多个开发资源来提供一组增加的模板，该组增加的模板与种子模板有关。说明性开发资源包括众包系统和改写系统。所述一组种子模板和所述一组增加的模板在此处被称为一组扩展的模板。

生成系统随后基于所述一组扩展的模板生成一个或多个模型。不作为限制，模型可包括统计语言模型(供语音识别引擎使用)和向量空间模型(供意图确定引擎使用)。在实时操作阶段，用户设备可使用这些模型来解读用户口述的命令，并且调用应用所提供的对应功能。

总得来说，上述功能使得开发者能够通过简单地经由易于使用且易于理解的工具接口提供高层级信息来提供SNL接口。开发者不需要拥有理论语言学领域的进阶知识或技能来使用该功能。

以上描述的功能可以显现在各种类型的系统、组件，方法、计算机可读介质、数据结构、制品等等中。

提供本概述以便以简化形式介绍一些概念；这些概念将在以下的详细描述中进一步描述。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图简述

图1示出用于开发和使用口述自然语言(SNL)接口的说明性环境。环境包括开发系统、生成系统、以及由终端用户操作的代表性用户设备。

图2是提供图1的环境的一种操作方式的总览的过程。

图3示出供图1的开发系统使用的说明性开发接口。

图4示出了可以使用图1的开发系统来收集的信息的概要。

图5是提供图1的开发系统的一种操作方式的总览的过程。

图6是与图5相比提供图1的开发系统的一种操作方式的更详细描述的过程。在这一示例中，开发系统依赖于众包系统以及改写系统来提供增加的模板。

图7是描述图1的生成系统的一种操作方式的过程。

图8示出了可以使用图1的生成系统来提供的分层语言处理模块的一个实施方式。

图9示出了可被用在图8的功能中的统计语言模块的一个实施方式。

图10示出了图1中所示的代表性终端用户设备的一个实施方式。

图11示出了可被用在图10的用户设备中的语音处理模块的一个实施方式。

图12是示出图10的用户设备的一种操作方式的过程。

图13示出了可以被用来实现前面的附图中所示出的特征的任何方面的说明性计算功能。

贯穿本公开和各附图，相同的编号参考相同的组件和特征。100系列标号指的是最初在图1中所找到的特征，200系列的标号指的是最初在图2中找到的特征，300系列的标号指的是最初在图3中找到的特征，依此类推。

详细描述

本发明是按如下方式来组织的。章节A提供了用于开发口述自然语言接口的环境的总览。章节B提供了关于可被用于该环境中的开发系统的更多细节。章节C提供了关于可被用于该环境中的生成系统的更多细节。章节D提供了关于可被用于该环境中的终端用户设备的更多细节。而章节E描述了可以被用来实现前面章节中所描述的特征的任何方面的说明性计算功能。

作为预备，一些附图在被不同地称为功能、模块、特征、元素等的一个或多个结构组件的上下文中描述概念。附图中示出的各组件可以由任何物理和有形的机制(例如，由软件、硬件(例如芯片实现的逻辑功能)、固件等和/或以上的任意组合)以各种方式来实现。在一种情况下，附图中所示出的将各种组件分离为不同的单元可以反映在实际实现中使用对应的不同的物理和有形的组件。替换地或附加地，附图中所示出的任何单个组件都可以通过多个实际物理组件来实现。另选地或另外地，附图中的任何两个或更多分开组件的描绘可以反映单个实际物理组件所执行的不同功能。图13(将依次讨论)提供关于附图中所示的功能的一个说明性物理实现的附加细节。

其他附图以流程图形式描述了概念。以此形式，某些操作被描述为构成以某一顺序执行的不同的框。这些实现是说明性而非限制性的。此处描述的某些框可被分组在一起并在单个操作中执行，某些框可被分成多个组件框，并且某些框可以按与此处所示出的不同的次序来执行(包括以并行方式执行这些框)。流程图中示出的框可以任何方式由任何物理和有形机制来实现，例如由软件、硬件(如芯片实现的逻辑功能)、固件等，和/或它们的任何组合来实现。

至于术语，短语“被配置成”包含任何类型的物理和有形的功能可以被构建来执行已标识的操作的任何方式。功能可以被配置成使用例如软件、硬件(例如，芯片实现的逻辑功能)、固件等，和/或其任何组合来执行操作。

术语“逻辑”包含用于执行任务的任何物理和有形的功能。例如，流程图中示出的每一个操作都对应于用于执行该操作的逻辑组件。操作可以使用例如软件、硬件(例如，芯片实现的逻辑功能)、固件等，和/或其任何组合来执行操作。在由计算系统实现时，逻辑组件表示作为计算系统的物理部分的、无论如何实现的电子组件。

权利要求中的短语“用于…的装置”(如果被使用)旨在援引35U.S.C.§112第六段的规定。除了本特定短语之外，没有其他语言旨在援引该法条的该部分的规定。

下列的解释可以将一个或多个特征标识为“任选(optional)”。这种类型的陈述不应该被解读为可以被视为可选的特征的穷尽的指示；也就是说，其他特征也可以被视为可选，虽然在文本中没有明确地标识。最后，术语“示例性”或“说明性”指的是可能多个实现中的一个实现。

A.环境的概览

图1示出用于开发和使用口述自然语言(SNL)接口的说明性环境102。环境102包括开发系统104、生成系统106、以及由代表性终端用户设备(“用户设备”)110提供的SNL接口108。作为介绍，开发系统104产生定义SNL接口108的配置的信息。生成系统106使用由开发系统104提供的信息来生成一个或多个语音处理模型。(值得注意的是开发系统104和生成系统106可被统称为开发框架112。)用户设备110应用生成系统106所提供的模型来配置其SNL接口108。之后，SNL接口108可使用该模型来解读终端用户口述的命令并调用与那些命令相关联的功能。

环境102可使用物理系统的任意组合来实现开发系统104、生成系统106、以及SNL接口108。此外，环境102所提供的功能可被提供在任何位置或位置的组合。此外，该功能可由任何实体或实体组合来控制。例如而非限制，开发系统104可由一个或多个计算机设备来实现，诸如个人计算机、膝上型计算机、平板计算机等。在另一示例中，开发系统104可以由远程服务(例如由远程服务器)来实现。在另一示例中，与开发系统104相关联的功能可被分布在本地计算机功能和远程计算机功能之间。

与开发系统104交互的人在此处被称为开发者。在一个示例中，开发者可与开发系统104交互以针对与SNL接口108同时产生的应用定义SNL接口108。在另一示例中，开发者可产生针对已编写并且在市场中可获得的应用的SNL接口108。在其它示例中，开发者可产生供连同两个或更多个应用使用的SNL接口108。应用本身可执行任何功能或功能的组合。在一个示例中，应用被主要预期用在手持设备(诸如智能手机)上。在另一示例中，应用可被预期主要用在游戏平台、个人计算机、或某种其它传统的静止系统上。

在一个实现中，生成系统106由用户设备110来实现。在另一实现中，生成系统106由实现开发系统104的同一物理系统来实现。在另一示例中，生成系统106由与用户设备110和实现开发系统104的无论什么系统分开的物理系统来实现。

用户设备110自身可以任何方式来实现。例如，它可表示个人计算机、计算机工作站、游戏平台、任何类型的“智能”家电、机顶盒设备、膝上型计算机、平板计算机、媒体播放设备、智能电话、电子书阅读器设备等等。

本章节将提供环境102的概览。章节B提供关于开发系统104的进一步细节。章节C提供关于生成系统106的进一步细节。而章节D提供关于由终端用户设备110使用SNL接口108的进一步细节。

从开发系统104开始，该功能包括开发者接口模块114，该模块进一步提供开发接口。图3(将在以下描述)提供了开发接口的示例。简要地说，开发者可与开发者接口模块114进行交互以提供定义要被创建的SNL接口108的高层级信息。该信息可包括一组种子模板、经标识的语法等。

更具体地，每个种子模板提供可能的命令措辞，通过该命令措辞，终端用户可调用应用所提供的特定功能。例如，假设该功能返回特定产品的价格。一个种子模板可对应于命令措辞“Tellmethepriceofproduct”(告诉我产品的价格)。另一种子模板可对应于“Whatisthecostofproduct”(产品的价格是多少)，诸如此类。标记“product”对应于命令措辞内的一个槽变量。在实际使用中，终端用户将在提供命令时在槽变量处提供槽信息，例如通过请求“Tellmethepriceof[crudeoil]”(告诉我[原油]的价格)。

语法提供要被用来处理槽信息的信息。例如，语法可提供用于解读与特定类型的槽相关联的槽信息的规则。例如，假设槽提供数字形式的温度信息。与该槽相关联的语法可提供用于解读出现在该槽中的温度信息的规则。语法还可定义一旦识别温度信息表达该温度信息的标准方式，诸如通过规定温度被四舍五入到最接近的整数值，和/或温度要以华氏度而不是摄氏度来表达。在一个示例中，语法可以确定性形式来表达，例如像与上下文无关的语法(CFG)。

开发者接口模块114使用一个或多个开发资源116来提供一组增加的模板。每个增加的模板提供可被用来调用考虑中的功能的另一种命令措辞。开发者接口模块114可经由资源接口模块118来与开发资源116进行交互。此外，任何开发资源可以是开发系统104本地或远程的。例如，开发系统104可表示经由广域网(诸如因特网)与开发资源进行交互的计算机设备。链路120和122表示链接开发系统104和开发资源116的任何类型的通信机制。

开发系统104可以在线形式与开发资源116进行交互。这意味着开发者可在指示开发资源116提供增加的模板之后不久从开发资源116接收增加的模板。此外，开发系统104提供集成的命令和控制接口，用于与各个开发资源116进行交互。

一个开发资源对应于众包系统124。众包系统124邀请一组众包参与者126来提供增加的模板。众包系统124随后收集来自众包参与者126的增加的模板，并且将信息转发给开发系统104。众包系统124可经由任何通信机制128(诸如广域网(例如因特网))与众包参与者126进行交互。

另一个开发资源对应于改写系统130。改写系统130可使用机器翻译技术来将一个或多个种子模板转换成一个或多个增加的模板，该增加的模板以与种子模板相同的语言来表达。在一个示例中，改写系统130可使用统计模型来执行翻译。在另一应用中，改写系统130可将这组种子模板转换成另一种自然语言(例如，通过将英语模板转换成西班牙语模板)；这一场景使得开发系统104能够将SNL接口108本地化成一种不同语言。

众包系统124和改写系统130是作为示例而非限制来引述的。开发系统104的其他实现可依赖于另外的开发资源。开发资源116可以由任何实体或实体组合来管理。例如，另一种开发资源可使用自然语言数据挖掘过程，该过程接受种子模板作为输入。该过程随后从与该输入有关的任何信息源中寻找语言内容(例如，词组、句子等)。信息源可对应于Web、社交媒体系统等。

数据存储132可存储语法库。另一数据存储134可存储定义正被创建的SNL接口108的信息。该信息可包括一组种子模板、一组由开发资源116生成的增加的模板、规定用于处理槽信息的一个或多个语法的信息，诸如此类。

生成系统106接收存储在数据存储134中的信息。基于该信息，接口生成系统106可产生各种语音处理模型并且将那些模型存储在数据存储136中。例如，生成系统106可使用统计语言模型(SLM)训练系统138来产生统计语言模型(SLM)。生成系统106可使用向量空间模型(VSM)训练系统140来产生向量空间模型(VSM)。接口配置模块142将数据存储136中提供的模型提供给SNL接口108，从而配置SNL接口108。

更具体地，SNL接口108可包括用于接收语音模型(诸如由SLM训练系统138所生成的统计语言模型)的语音识别(SR)引擎。SNL接口108还可包括用于接收意图确定模型(诸如由VSM训练系统140所提供的向量空间模型)的意图确定(ID)引擎。图10和11(在章节D中描述)提供关于SNL接口108的构成的更多细节。

在使用时，用户设备110可将用户的口述命令转变为语音信号。语音识别引擎可使用统计语言模型来确定与该语音信号相关联的最有可能的单词序列。在一个实现中，语音识别引擎还可标识该单词序列中的任何槽以及相关联的槽值(如果存在的话)。意图确定引擎可使用向量空间模型来将(由语音识别引擎所提供的)该单词序列映射到用户的口述命令的最可能的含意。在一个实现中，意图确定引擎通过寻找最接近地匹配语音识别引擎所标识的单词序列的那个模板来执行这一任务。分派模块随后调用与所标识的模板相关联的功能。

图2是提供图1的环境102的一种操作方式的总览的过程202。过程202包括由开发系统104执行的信息收集阶段204、由生成系统106执行的训练阶段206、以及由用户设备110执行的使用阶段208。

在框210中，开发系统104接收来自开发者的一组种子模板。在框212中，开发系统104使用开发资源116来生成一个或多个增加的模板。根据此处所使用的术语，这组种子示例和这组增加的示例一起对应于一组扩展的模板。此外，术语“组”包括任意数目个条目，包括零个、一个或更多个条目。

在框214，生成系统106接收这组扩展的模板，以及可选的其它信息，诸如供在处理槽信息时使用的一个或多个语法的标识。在框216，生成系统106基于在框214中接收的信息产生一个或多个模型。

在框218中，用户设备110接收该模型。在框220中，响应于终端用户所口述的命令，用户设备110使用该模型来调用资源。在框222，终端用户可产生一个或多个用户定义的模板。生成系统106可接收增加的用户定义的模板，并随后基于这些用户定义的模板以及最初接收的模板来更新模型。这一操作允许终端用户修改SNL接口108中的模型，使得它们更好地响应于用户的与语音有关的习惯。终端用户还可以与开发者相同的方式与开发者接口模块114交互，这允许终端用户与开发资源116进行交互以基于用户定义的模板产生增加的模板。

B.规定SNL接口

图3示出了可由图1中所示的开发者接口模块114产生的说明性开发接口302。如上所述的，开发者可与开发接口302进行交互以提供定义SNL接口108的关于一个或多个应用所提供的一个或多个功能的高层级信息。开发接口302仅仅表示了一种收集信息的方法；其它实现可以任意方式改变图3中所示的功能的任意方面，例如通过提供对接口特征的不同选择，接口特征的不同布置，接口特征的不同外观等等。

模板规定接口304提供了开发者可用来产生与考虑中的特定功能相关联的模板的机制。开发者可通过激活“添加任务”接口特征306来发起这一过程。这一动作用一组输入框来填充模板规定接口304以供描述考虑中的特征时使用。例如，“描述”接口特征308邀请开发者提供与该功能相关联的自然语言描述。这一示例中的特定功能确定在指定的日子指定的公司的股票价格。一种适当的描述可因此表述为：“YouwanttoknowthestockpriceofCoNameforDay”(你想要知道DayCoName的股票价格)，其中“CoName”是对应于公司名称的槽标记，而“Day”是对应于请求该价格的日期的槽标记。“处理程序”接口特征310邀请开发者规定将激活经标识的功能的处理程序功能，在这个示例中是代表性的StockCheck(CoName,Day)处理程序功能。换言之，用户设备110可执行StockCheck(CoName,Day)功能以及CoName和Day的值以调用期望的价格检查操作。

输入框312列出终端用户可说出的用来调用以上所描述的功能的各种命令措辞。每种命令措辞构成一个模板。开发者可通过规定一个或多个种子模板来开始。在这一示例中，开发者已输入了输入框312中所示的至少前三个模板，如在这些模板中的每一个的末尾的括号内的“byDev”标签所指示的。更具体的，在一个实现中，开发者可激活“添加”接口特征314来引入每一个新的种子模板。

开发者可随后与开发资源116交互以提供增加的模板。例如，开发者可激活“众包”接口特征316来请求众包系统124生成一个或多个增加的模板。替代的或另外的，开发者可与“改写”接口特征318进行交互以请求改写系统130来提供一个或多个增加的模板。输入框312列出由众包系统124生成的至少两个增加的模板，如这两个模板的末尾的括号内的“byCwdSrc”标签所指示的。输入框312列出由改写系统130生成的至少一个增加的模板，如这一模板的末尾的括号内的“byParphr”标签所指示的。在具体实践中，开发者可创建与图3中显示的集合相比更大的种子模板和增加的模板的集合。

开发者还可以任何方式编辑模板中的任意一个。例如，开发者可激活“移除”接口特征320以出于任何原因而删除任意模板，例如因为该模板是另一个模板的重复或者近乎重复的版本。或者，开发者可出于任何原因而改变任意模板的文本。这一编辑过程产出一组最终的扩展的模板。

括号标记“OtherInformationPackages”(其它信息包)322指示开发者可通过例如激活“添加任务”接口特征306来输入为另一功能输入以上所描述的相同种类的信息。由此，模板规定接口304可包括以上所描述的多组输入框(但未在图3中示出)，每一个输入框对应于一个不同功能。

资源视图接口324以更正式的方式表达以上所描述的信息，在这一示例中，描述的信息作为名为“Task-info.xnml”的标记语言文档。生成系统106可直接操作这一文档中的信息以产生供SNL接口108使用的模型。生成系统106可最终将模型表达为二进制可执行文件。

语法规定接口326规定与文档Task-info.xnml相关联的代表性语法。例如，语法可包括用于处理与公司有关的槽(例如，CoName)中规定的公司信息的第一语法，以及用于处理与日期有关的槽(例如，Day)中规定的日期信息的第二语法。开发者可以任何方式修改这一语法列表，例如通过添加一个或多个新语法，通过移除一个或多个现有语法，和/或将一个或多个现有语法与同类型的经更新的语法进行置换。

图4概述了可由图3中所示的开发接口302收集的信息。在一个实现中，开发系统104可为考虑中的每个功能产生信息包。信息包可规定：描述信息(包括对功能的自然语言描述以及处理程序功能的标识)；一组扩展的模板(包括一组种子模板和一组增加的模板)；一个或多个语法的标识；以及可选的其他信息。

开发者可为开发中的应用(或已经存在的应用)中的功能的子集产生信息包集合。此外，值得注意的是，一些应用可共享一个或多个共用功能。

图5是提供图1的开发系统104的一种操作方式的总览的过程502。在框504，开发系统104接收标识考虑中的功能的描述信息。在框506中，开发系统104接收一组种子模板。在框508中，开发系统104使用一个或多个开发资源116来提供一组增加的模板。在框510，开发系统104可任选地接收其他信息，诸如一个或多个语法的标识等。在框512，开发系统104存储信息包，信息包包括之前各框中收集的全部信息项。在框514，开发系统104可将信息包(或多个这样的包)转发给生成系统106。例如，开发系统104可将这一信息转发给用户设备110，用户设备110可实现生成系统106；传输可使用广域网(诸如因特网)来执行。

图6是提供图1的开发系统104的一种说明性操作方式的更具体的描述的过程602。在这一示例中，开发系统104依赖于众包系统124以及改写系统130来提供增加的模板。

在框604，开发系统104将询价信息转发给众包系统124；众包系统124进而将该询价信息呈现给众包参与者126中的每一个参与者。询价信息一般描述被呈现给每个众包参与者的众包任务。这一信息可包括信息包中的任意一个信息项，诸如对功能的自然语言描述和一个或多个种子模板。为了使示例更易于理解，开发系统104可将每一个槽替换为代表性的值，诸如通过将图3中所示的第三种子模板阐述为“Tellmethesharepriceof[Facebook]for[today]”(告诉我[今天][Facebook]的股票价格)。

开发系统104和/或众包系统124还可提供指导每个参与者阐述增加的模板的指令。例如，众包系统124可要求参与者生成一个增加的模板，该模板：(1)包括单个词组或句子；(2)包括出现在种子模板中的所有槽值；(3)不改变自然语言描述和种子模板的含义；以及(4)对应于用户将用来与应用进行交互的自然的说话方式。该描述信息和种子模板还可被选择以便询问想要的各种增加的模板。例如，开发系统104可选择采用必要的命令措辞的至少一个种子示例，以及将该命令作为问题提出的至少一个种子示例；这可提示众包参与者126产生两种模板。在框606中，开发系统104从众包系统124接收一个或多个增加的模板。

在框608，开发系统104可将一个或多个种子模板提供给改写系统130。例如，开发系统104可以顺序形式一个接一个地向改写系统130提交一组种子模板。如上所述的，改写系统130可使用机器翻译技术来将每一个种子模板翻译成一个或多个增加的模板。每个增加的模板表达与其相对应的种子模板相同的含义，但是以一种不同的形式来表达。一个公众可获得的用于执行这一任务的系统是由华盛顿州雷蒙德市的公司提供的ContextualThesaurus(MCT)。这一类型的改写系统130可基于词组映射语料库来训练，每个映射建立以相同自然语言来表达的输入词组和输出词组之间的连结。在框610中，开发系统104接收由改写系统130产生的一个或多个增加的模板。

在框612，开发系统104可呈现最初的模板列表，该列表包括经由之前的各框收集的最初的一组种子模板和最初的一组增加的模板。在框614，开发系统104可允许开发者以以上描述的任何方式来编辑这一最初的列表，从而产生最终的一组扩展的模块。开发系统104还可根据请求执行自动化编辑，诸如通过移除重复模板、缺少必要槽数目的模板、和/或在其他方面有所欠缺的模板。

C.生成SNL接口

图7是描述图1的生成系统106的一种操作方式的过程702。在框704，生成系统106接收与特定功能相关联的—组扩展的模板。在框706，生成系统106可选地将接收到的一组扩展的模板与一组或多组之前提供的扩展的模板(如果有的话)相组合。例如，在框704，生成系统106可接收针对功能F₁的扩展组。在框706，接口生成系统106可将那些模板与针对功能F₂、F₃、……、F_n所生成的模板相组合。这产生一组全面的模板。在框708，生成系统106基于该组全面的模板产生一个或多个模型。换言之，该组全面的模板构成产生模型时使用的训练语料库。

更具体地，生成系统106可产生用于语音识别引擎中的任何类型的语言模型，以及用于意图确定引擎中的任何类型的任何意图匹配模型。这一章节将提供关于语言模型和意图匹配模型的可能实现的说明性细节。

作为开始，图8显示了分层语言处理模块802，其包括了统计语言模块804以及槽语法匹配模块806。在一个实现中，(图1的)SLM训练系统138可基于对应于至少一组全面的模块的训练语料库来产生供统计语言模块804使用的一个或多个n元模型。在一个示例中，模板的槽可被表达为用于训练目的的槽标记，而不是经实例化的槽值。例如，一个模块可表述为“WhatisthestockpriceofCoNameforDay”(DayCoName的股票价格是多少)，而不是实例化的版本“WhatisthestockpriceofFacebookfortoday”(今天Facebook的股票价格是多少)。

统计语言模块804接收对应于终端用户口述的命令的语音信号。作为响应，统计语言模块804产生被确定为最可能表示命令中的各单词的单词序列。输出结果还标识了序列中的一个或多个槽的存在，如果命令被确定确实包括一个或多个槽的话。更具体地，统计语言模块804可使用统计技术以与预测单词出现的相同的方式来预测槽标记在串中的出现。

槽语法匹配模块806随后使用一个或多个语法来解读与被标识的槽相关联的槽信息。例如，假设统计语言模块804确定序列包括用于接收公司名称(与槽标记CoName相关联)的槽和用于接收规定日子(与槽标记Day相关联)的槽。槽语法匹配模块806可查阅预先生成的公司名称表以解读与CoName槽相关联的槽信息。类似地，槽语法匹配模块806可查阅确定性的解读规则(例如，与上下文无关的语法)来解读与Day槽相关联的槽信息。槽语法匹配模块806还可使用被标识的语法来定义将要用来表达槽信息的每个实例的标准形式。例如，假设用户在命令中说出公司名称“AcmeInc.”；槽语法匹配模块806可查阅语法以将这一槽信息重新表述为“Acme”或“AcmeIncorporated”等。

在一个示例中，统计语言模块804可由其自身使用三元语言模型来实现。模型基于单词序列中的前两个词(w_i和w_j)来预测下一单词w_k的可能性p_ijk，即p_ijk＝P(w_k|w_iw_j)。p_ijk的值可通过对训练语料库中单词的相应出现的计数来确定。当训练语料库缺少某些单词时，已知的近似技术可被用于例如基于双元和单元概率来提供对计数的估计。

图9示出了统计语言模块804的另一实现(即，替代由其自身使用三元语言模型来实现这一功能)。在这一示例中，统计语言模块902包括实现三元模型(或某个其它n元模型或n元模型的组合)的“域内”三元模块904，以及实现废品模型的废品模块906。SLM训练系统138可使用已知训练技术仅仅基于对应于一组全面的模板的训练语料库来产生域内三元模型(供三元模块904使用)。废品模型被用于标识不太可能对应于任何预期命令的口述信息。SLM训练系统138可基于独立于该组全面的模板而产生的任何“废品”训练语料库产生废品模型。此外，存在于全面模板中的单词可被废品训练语料库所忽略；这一规定使得统计语言模块902能够更容易地在有意义的命令和不相关的“废品”语音之间进行区分。

在操作中，统计语言模块902尝试使用三元和废品模块(904和906)两者来解读口述命令，其中三元和废品模块并行操作。每个模块将对照其n元模型来评估输入语料，以生成具有与输出结果相关联的置信度的输出结果(表示输入语料的解读)。当用户在与应用的交互过程中讲述了可识别的命令时，域内三元模块904与废品模块906相比将可能产生具有更高的置信度的输出结果；否则，废品模块906与三元模块904相比可产生具有更高的置信度的输出结果。同样，这是因为不同于废品模型，三元模型是基于一组全面的模板中的模板来训练的。

选择模块908(其可包括SR引擎自身的一部分)接收两个模块(904和906)为考虑中的特定语料所生成的输出结果。它挑选与较高置信度相关联的输出结果。如果废品模块906产生具有最高置信度的输出结果，则统计语言模型902可忽略该语料，因为该语料可能对应于域外语料。

总的来说，图8的语言处理模块802解读可能呈现在终端用户口述的命令中的单词和槽值。但是这一功能不尝试整体地确定命令的含义。该含义对应于终端用户说出该命令时的意图。相反，意图确定引擎(未示出)可使用意图匹配模块(未示出)来确定与语言处理模块802(或某个其它语言模块)所提供的单词序列相关联的含义。

在一个实现中，意图匹配模型可对应于向量空间模型。这一模型将每个模板表示为向量空间中的向量。该模型可通过比较模板在向量空间中的两个向量表示之间的距离来评估两个模板之间的相似性。可使用任何距离度量(诸如余弦相似性测量)来评估距离。以相似的方式，向量空间模型可表述用户口述的输入命令的向量表示。向量空间模型可随后寻找一组全面的模板中“最接近于”向量空间中的输入命令的模板。该模板对应于输入命令的含义或意图。

更正式地来说，向量空间模型可将每个模板t_i表示为特征组元λ_i＝(λ_1i,…λ_Ni)，其中一个权重被指派给该组全面的模板中的N个标记中的每一个。模板t_i和模板t_j之间的距离可被表达为它们之间的角度的余弦，即(λ_i·λ_j)/(||λ_i||||λ_j||)。(图1的)VSM训练系统140可如下计算模板j中的标记τ_i的术语频率逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)权重λ_ij：

在这一方程中，f_ij对应于模板j中的标记τ_i的频率。方程的分子指的是一组全面的模板中的模板的总数，而分母指的是该组全面的模板中包含考虑中的标记(τ_i)的模板数目。

然而，匹配过程中的最终目的是有效地辨别不同的模板族，其中每个模板族提供与特定功能相关联的一组命令措辞。目的不是为了辨别与关于相同功能的相同的模板族相关联的两个模板。换言之，每个族表达执行特定功能的相同意图。例如，模板“Turnupthevolume(调大音量)”和模板“Increasethesound(增加声响)”对应于相同的族，因为它们都表达要增大音频输出设备的音量的相同意图。模板“Retrieve[Tom’s]phonenumber(检索[Tom的]电话号码)”属于另一族。目的是区分音量控制族和(例如)电话号码检索族，而不是区分任何特定族内的多个模板。为了解决这一问题，加权方程可重新表述为：

这一方程中的所有项与上文中第一次提到的方程相同，除了分母。分母标识具有包含考虑中的标记(τ_i)的模板族的功能的总数。例如，假设在全面的组中存在30个包含单词“目的地”的模板，但这30个模板分布在与3个不同功能相关联的仅仅3个模板族中。上文提供的第一个方程中的分母将是30，而第二个方程中的分母则将是3。

上文描述的特定类型的模型是作为示例而非限制被引述的。生成系统106可生成许多其它类型的模型。在一个变例中，生成系统106可生成大型词汇表语音识别(LVSR)模型供语音识别引擎使用，而不是使用n元技术的模型以及废品模型。在另一变例中，槽语法匹配模块806可使用统计训练的模型来识别槽，而不是确定性技术或作为确定性技术的补充。在另一变例中，意图确定引擎可识别槽并分析槽信息，而不是语音识别引擎。例如，意图确定引擎可使用有条件随机字段(ConditionalRandomField，CRM)技术来标识语言识别引擎所提供的单词序列中的槽。在另一变例中，另一种类型的意图匹配模型可被用于意图确定引擎，而不是以上描述的向量空间模型，诸如例如潜在语义分析(LSA)模型、潜在Dirichlet分布(LDA)模型等。这些变例是作为示例而非限制被引述的。

D.应用SNL接口

图10示出了图1中所示的终端用户设备110的一个实施方式。(值得注意的是，这一附图特别地示出与语音命令的处理有关的功能，所以它不被预期表示用户设备的所有方面。)用户设备110包括语音输入机制1002，用于响应于终端用户口述的命令而生成语音信号。例如，在一个实施例中，语音输入机制1002可对应于智能电话或其他类型的手持设备上所提供的一个或多个麦克风。语音处理模块1004将该语音信号映射成终端用户想要通过说出该命令而调用的程序功能。分派模块1006随后激活与所标识的功能相关联的程序资源。例如，语音处理模块1004可将语音信号映射成特定的处理程序功能，以及实例化该处理程序功能的输入变量的特定的槽值。分派模块1006随后执行该处理程序功能以调用与该处理程序功能相关联的程序资源。被调用的程序资源是与终端用户正在运行的应用相关联的一组程序资源1008中的一个。在一个实现中，图1中介绍的SNL接口108可对应于语音处理模块1004连同分派模块1006。

图11示出了图10的语音处理模块1004的一种实现。语音处理模块1004包括语音识别引擎1102和意图确定引擎1104。语音识别引擎1102包括分割模块1106，用于分割(图10的)语音输入机制1002产生的语音信号以及将该语音信号进行特征化。声学模块1108使用声学模型和发音模型将经分割和特征化的语音信号转换成单词。分割模块1106和声学模块1108可使用已知技术来执行以上所述的任务。

语言模块1110使用统计语言模型1112或某种其他类型的模型将声学模块1108的输出映射成单词序列。例如，语言模块1110可使用以上结合图8和9描述的类型的功能来执行这一任务。在该特定实现中，语言模块1100还标识单词序列中的槽，并且使用一个或多个语法来解读那些槽中表达的槽信息。替代地，如上所述的，意图确定引擎1104可提取槽并解读槽信息。

意图确定引擎1104可使用任何意图匹配模型1114来将语音识别引擎1102所标识的单词序列(和槽)映射到意图。如以上所提到的，意图与用户想要通过说出命令来调用的特定功能相关联。意图匹配模型1114可被实现为以上所描述的向量空间模型。如所阐释的，向量空间模型将语音识别引擎1102所标识的单词序列与开发系统104所定义的一组全面的模板中的所有模板作比较。随后它挑出最接近地匹配该单词序列的模板。数据存储1116存储该组全面的模板中的模板。

图12是示出图1、10和11的终端用户设备110的一种操作方式的过程1202。在框1204，用户设备110接收由语音输入机制1002所提供的语音信号。在框1206，用户设备110使用语音识别引擎1102来处理该语言信号以提供语音识别(SR)结果，例如具有与其相关联的概率的单词序列和槽。在框1208，用户设备110使用意图确定引擎1104来处理SR结果以提供意图确定(ID)结果，例如经标识的功能(意图)以及与之相关联的概率。

在框1210，用户设备110确定SR结果和ID结果是否满足预先规定的测试。例如，用户设备110可确定与SR结果和ID结果相关联的概率值是否各自满足预先规定的阈值和/或其他准则。如果这一测试未被满足，这用户设备110可退出识别尝试而不调用任何功能。用户设备110还可任选地邀请终端用户重复所说的命令。替代的，如果测试被满足，则在框1212，用户设备110可使用分派模块1006来激活与所标识的功能相关联的程序资源。

E.代表性计算功能

图13阐述了可以被用来实现上文所描述的功能的任何方面的说明性计算功能1300。例如，图13所示的类型的计算功能1300可被用来实现开发系统104的任何方面、和/或生成系统106的任何方面、和/或用户设备110的任何方面。在一种情况下，计算功能1300可对应于包括一个或多个处理设备的任何类型的计算设备。在所有情形中，计算功能1300表示一个或多个物理且有形的处理机构。

计算功能1300可包括诸如RAM1302和ROM1304之类的易失性和非易失性存储器，以及一个或多个处理设备1306(例如，一个或多个CPU，和/或一个或多个GPU等等)。计算功能1300还可任选地包括诸如硬盘模块、光盘模块等等之类的各种介质设备1308。当处理设备1306执行由存储器(例如，RAM1302、ROM1304或在别处)维护的指令时，计算功能1300可以执行上文所标识的各种操作。

更一般地，指令和其它信息可以被存储在任何计算机可读介质1310上，计算机可读介质包括但不限于静态存储器存储设备、磁存储设备、光存储设备等。术语计算机可读介质还涵盖多个存储设备。在多种情况下，计算机可读介质1310都表示某种形式的物理和有形的实体。术语计算机可读介质还涵盖传播信号，例如经由物理管道和/或空气或其它无线介质传送或接收的信号。然而，特定术语“计算机可读存储介质”和“计算机可读介质设备”明确排除传播信号本身，而包括所有其他形式的计算机可读介质。

计算功能1300还包括用于接收各种输入(通过输入设备1314)，以及用于提供各种输出(通过输出设备)的输入/输出模块1312。说明性输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、姿势输入设备、麦克风、平板或墙壁投影输入机制等。一种特定输出机制可包括呈现设备1316及相关联的图形用户界面(GUI)1318。计算功能1300还可以包括用于通过一个或多个通信管道1322与其他设备交换数据的一个或多个网络接口1320。一条或多条通信总线1324将上述组件通信地耦合在一起。

通信管道1322可以以任何方式来实现，例如，通过局域网、广域网(例如，因特网)等等，或其任何组合。通信管道1322可包括可由任何协议或协议的组合管理的硬连线的链路、无线链路、路由器、网关功能、名称服务器等等的任何组合。

作为替代或除此之外，前述各节中所述的任何功能可至少部分地由一个或多个硬件逻辑组件来执行。作为示例而非限制，计算功能可使用以下的一个或多个来实现：现场可编程门阵列(FPGA)；专用集成电路(ASIC)；专用标准产品(ASSP)；片上系统(SOC)；复杂可编程逻辑器件(CPLD)等等。

最后，说明书在说明性挑战或问题的上下文中描述了各种概念。这种说明方式不构成其他人以此处所指定的方式理解和/或明确表达挑战或问题的许可。此外，所要求保护的主题也不仅限于解决提到的挑战/问题中的任意或全部的实现。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种由一个或多个计算机设备实现的用于开发口述自然语言接口的开发框架，包括：

一种开发系统，包括：

被配置成提供开发接口的开发者接口模块，所述开发者接口模块包括：

被配置成接收一组种子模板的逻辑，每个种子模板标识在被口述时调用由程序执行的功能时使用的命令措辞；以及

被配置成收集一组增加的模板的逻辑，每个增加的模板标识在调用所述功能时使用的另一命令措辞，

所述一组种子模板和所述一组增加的模板形成一组扩展的模板；

被配置成与一个或多个开发资源进行交互以提供所述一组增加的模板的资源接口模块；以及

用于存储与所述功能相关联的所述一组扩展的模板的数据存储，

所述一组扩展的模板被用于训练供用户设备上使用的一个或多个模型，并且所述一个或多个模型被用于解读终端用户所口述的命令。

2.如权利要求1所述的开发框架，其特征在于：

所述开发者接口模块进一步包括被配置成接收描述信息的逻辑，所述描述信息提供对所述功能的描述，以及

所述数据存储还存储所述描述信息。

3.如权利要求2所述的开发框架，其特征在于，所述描述信息包括以下各项中的一项或多项：

对所述功能的自然语言描述；以及

被用于调用所述功能的处理程序功能的标识。

4.如权利要求1所述的开发框架，其特征在于：

对于一种类型的功能，每个命令措辞包括用于规定可变槽信息的至少一个槽，

所述开发者接口模块进一步包括配置成标识至少一个语法的逻辑，每个语法提供一种用于处理与槽相关联的可变槽信息的机制，以及

所述数据存储还存储所述至少一个语法的标识。

5.如权利要求1所述的开发框架，其特征在于，还包括生成系统，所述生成系统包括至少一个训练系统，所述训练系统被配置成：

从所述开发系统接收所述一组扩展的模板；以及

基于所述一组扩展的模板生成一个或多个模型。

6.如权利要求5所述的开发框架，其特征在于，一个训练系统包括向量空间模型训练系统，所述向量空间模型训练系统被配置成提供供意图确定引擎使用的向量空间模型。

7.如权利要求6所述的开发框架，其特征在于，所述向量空间模型训练系统通过将与相同功能相关联的每个模板族视为对单个意图的表达来确定所述一组扩展的模板中的每一个标记的权重。

8.如权利要求5所述的开发框架，其特征在于：

所述开发框架被配置成通过添加由终端用户提供的一个或多个用户提供的模板来更新所述一组扩展的模板，以提供一组经更新的模板，以及

所述生成系统被配置成基于所述一组经更新的模板来重新生成所述一个或多个模型。

9.一种由一个或多个计算机设备实现的方法，所述方法包括：

接收描述信息，所述描述信息提供对程序资源所执行的功能的描述；

接收一组种子模板，每个种子模板标识命令措辞，所述命令措辞用于在所述命令措辞被口述时调用所述功能；

使用至少一个开发资源来提供一组增加的模板，每个增加的模板标识在调用所述功能时使用的另一命令措辞，

所述一组种子模板和所述一组增加的模板包括一组扩展的模板；以及

将所述描述信息和所述一组扩展的模板存储在数据存储中，

所述至少一个开发资源包括至少一个众包系统和至少一个改写系统。

10.一种设备，包括：

用于响应于用户口述的命令来接收语音信号的语音处理模块，所述语音处理模块包括：

语音识别引擎，其被配置成使用统计语言模型来解读所述语音信号以提供语音识别结果；

意图确定引擎，其被配置成使用意图匹配模型来解读所述语音识别结果以提供意图确定结果，

所述意图确定结果标识程序响应于所述用户口述的命令要执行的功能；

被配置成确定所述语音识别结果和所述意图确定结果是否满足预先规定的测试以提供确定结果的逻辑；以及

被配置成在得到肯定性确定结果之际调用执行所述功能的程序资源的分派模块，

所述统计语言模型和所述意图匹配模型由生成系统基于模板的训练语料库来提供，所述模板包括：

一组种子模板；以及

由一个或多个开发系统提供的一组增加的模板，所述一组增加的模板与所述一组种子模板有关。