CN111194401B

CN111194401B - 意图识别的抽象和可移植性

Info

Publication number: CN111194401B
Application number: CN201880065448.8A
Authority: CN
Inventors: D·百隆; M·斯威夫特; L·昆克; B·L·约翰森
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-10-10
Filing date: 2018-10-05
Publication date: 2021-09-28
Anticipated expiration: 2038-10-05
Also published as: GB202006681D0; US11138506B2; US20190108450A1; CN111194401A; GB2581705A; WO2019073350A1; JP7064274B2; DE112018004140T5; JP2020537228A

Abstract

公开了一种用于构建语义分析模型的计算机实现的方法。在一个实施例中，计算机实现的方法包括创建包括一组表面形式变体的代理标签。该计算机实现的方法创建包括终端令牌和至少一个所述代理标签的组合的训练示例。计算机实现的方法使用训练示例来构建语义分析模型。

Description

意图识别的抽象和可移植性

技术领域

本公开一般涉及可以在自然语言处理系统或会话代理系统中使用的语言建模。自然语言处理是覆盖人类语言的计算机理解和操纵的领域。

背景技术

随着更多的应用程序正使用语音对话与用户交互，自然语言处理的使用近年来已经增长。

语言建模的传统方法在确定单词序列上的概率分布中依赖于固定的文本语料库来提供训练样本。增加语料库的大小通常导致性能更好的语言模型。然而，实现该数量的有效训练示例以可靠地训练分类器是具有挑战性的，因为该过程过度地适合于词汇特征(即，表面形式)，这需要在训练示例集中明确地提供句子或问题的每个可替换措辞。

因此，在本领域中需要解决上述问题。

发明内容

从第一方面来看，本发明提供了一种用于为自然语言处理系统构建模型的计算机实现的方法，所述计算机实现的方法包括：创建包括一组表面形式变体的代理标签；创建包括终端令牌和至少一个所述代理标签的组合的训练示例；以及使用所述训练示例来构建语义分析模型。

从另一方面来看，本发明提供了一种用于为自然语言处理系统构建模型的系统，所述系统包括：存储器，其被配置为存储计算机可执行指令；处理器，其被配置为执行所述计算机可执行指令以：创建包括一组表面形式变体的代理标签；创建包括终端令牌和至少一个所述代理标签的组合的训练示例；以及使用所述训练示例来构建语义分析模型。

从另一方面来看，本发明提供了一种用于为自然语言处理系统构建模型的计算机程序产品，所述计算机程序产品包括：计算机可读存储介质，其可由处理电路读取并且存储指令，所述指令要由所述处理电路执行以执行用于执行本发明的步骤的方法。

从另一方面来看，本发明提供了一种计算机程序，其被存储在计算机可读介质上并且可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，用于执行本发明的步骤。

从另一方面来看，本发明提供了一种用于为自然语言处理系统构建模型的计算机实现的方法，所述计算机实现的方法包括：创建包括一组表面形式变体的代理标签；创建包括至少一个所述代理标签的训练示例；以及使用所述训练示例来构建语义分析模型。

所公开的实施例包括自然语言处理系统、计算机程序产品和用于构建语义分析模型并应用该模型来处理自然语言输入的各种计算机实现的方法。作为示例实施例，公开了一种计算机实现的方法，其包括创建包括一组表面形式变体的代理标签的步骤。该计算机实现的方法创建包括终端令牌和代理标签的组合的训练示例。计算机实现的方法使用训练示例来构建语义分析模型。作为另一示例实施例，公开了一种用于构建和测试用于自然语言的语义分析的模型的计算机实现的方法，该方法包括创建具有一组表面形式变体的代理标签的步骤。该计算机实现的方法创建包括终端令牌和至少一个所述代理标签的组合的训练示例。该计算机实现的方法使用训练示例执行特征提取以提取训练示例的特征。该计算机实现的方法构建使用训练示例的特征作为输入数据的语义分析模型。

作为另一示例实施例，公开了一种计算机实现的方法，其包括创建包括一组表面形式变体的代理标签的步骤。该计算机实现的方法创建包括一个或多个代理标签的训练示例。该计算机实现的方法使用训练示例来构建语义分析模型。

各种实施例的一个可选特征是该组表面形式变体包括作为短语(例如，“是它们”、“是它”等)的表面形式变体。在某些实施方案中，表面形式变体可具有不一致的结构类。例如，一个代理标签的表面形式变体可以包括单独的名词、名词短语、以及问题单词加名词短语。在一些实施例中，代理标签可以由其他代理标签组成。在一些实施例中，代理标签的表面形式变体可以使用各种资源来自动填充，这些资源包括但不限于文档、知识图、辞典、词典和词汇数据库。各种实施例还可包括对输入语言测试实例的特殊处理以从表面形式元素推断代理特征。

所公开的实施例提供了对当前监督机器学习范例中的问题的解决方案，其中训练实例是自然发生的语言示例，而没有提供用于注意应当由语言分类或其他概率推断过程类似地处理的一般性的方法。另外，所公开的实施例提供了优于当前训练范例的若干优点，其包括使得能够更快地训练语义分析模型，因为不需要创建或列出精确的短语。另一个优点是，所公开的实施例使得训练示例能够被分解成模块化/可交换块，而不需要表示可替换性的语法规则。

在详细描述中进一步描述了所公开的实施例的其他实施例和优点。

附图说明

现在将参照优选实施例仅通过示例的方式描述本发明，如以下附图所示：

图1是根据各种实施例的自然语言处理系统的示意性网络图。

图2是根据各种实施例的自然语言处理系统的示意图。

图3A-3C是示出根据各种实施例的代理标签的创建的示意图。

图4是描绘根据各种实施例的用于构建语义分析模型的计算机实现的方法的流程图。

图5是描绘根据各种实施例的用于测试语义分析模型的计算机实现的方法的流程图。

图6是根据各种实施例的示例数据处理系统的框图。

所示出的附图仅是示例性的，并且不旨在断言或暗示关于其中可以实现不同实施例的环境、架构、设计或过程的任何限制。在所示的图中使用虚线指示任何可选的部件或步骤。

具体实施方式

所公开的实施例寻求改进开发可以在自然语言处理系统或会话代理系统中使用的语言模型的过程。例如，所公开的实施例包括用于在训练示例中利用术语或短语代理或代理标签来构建语义分析模型的各种系统和方法。所公开的实施例提供了对当前训练范例中的问题的解决方案，在当前训练范例中所有可能的表面形式必须在训练示例中列出。

首先应当理解，尽管下面提供了一个或多个实施例的说明性实现，但是所公开的系统、计算机程序产品和/或方法可以使用任何数量的技术来实现，该技术无论是当前已知的还是现有的。本公开决不应被限于以下示出的说明性实现、附图和技术，包括本文示出和描述的示例性设计和实现，而是可以在所附权利要求的范围及其等同物的全部范围内对其进行修改。

如在书面公开内容和权利要求中所使用的，术语"包括"和"包含"以开放式方式使用，并且因此应当解释为意指"包括但不限于"。除非另有说明，否则如贯穿本文所使用的"或"不需要互斥，并且单数形式"一"、"一个"和"该"旨在也包括复数形式，除非上下文另有明确说明。

使用监督学习来创建自然语言理解的当前技术面临许多挑战。不是依赖于开发者构建诸如词典和语法的模块化语言资源，而是将训练示例列为用诸如意图分类或情感标签的期望输出来标记的自然发生的单词序列。该方法在规模上工作良好，但是对于引导某些语言理解过程是有问题的，诸如对于在封闭域中工作的新的会话代理，其中大量的已证明的自然语言示例不可用于系统开发者从中训练。在这样的场景中产生的手动生成的训练示例通常表明重复的措辞，以便详尽地列出语义类别的元素，诸如动词选择或适当名称的变型。

这对这种语言理解系统的性能产生了两个明显的挑战。首先，训练示例由于它们嵌入了诸如适当名称之类的非常具体的单词，因此不能跨部署移植。随后的语言理解部署即使它们用于类似的会话领域，也不能最佳地使用为先前产品创建的训练样本。其次，为了捕获一个参数(诸如产品名称)的变体而创建的训练示例措词的人工重复可能导致从训练样本提取的语言模型特征内的统计偏差。

例如，使用现有技术，可以如下列出特定汽车是否可用于混合模型中的问题的训练实例。为了使每个模型名称被包括在由训练产生的n元语法特征中，为每个模型名称提供了一个示例，然而内容开发者实际上试图做的是证明问题模板"存在X的混合版本？”其中X是任何汽车模型，是该类别的有效实例。

有RAV4的混合版本？

有Yaris的混合版本？

有Tundra的混合版本？

有Tacoma的混合版本？

有Sienna的混合版本？

有Sequoia的混合版本？

有Mirai的混合版本？

有Land Cruiser的混合版本？

有Corolla的混合版本？

有Camry的混合版本？

Yaris在混合模型中可用？

Tundra在混合模型中可用？

Tacoma在混合模型中可用？

Sienna在混合模型中可用？

Sequoia在混合模型中可用？

RAV4在混合模型中可用？

Mirai在混合模型中可用？

Land Cruiser在混合模型中可用？

Highlander在混合模型中可用？

Corolla在混合模型中可用？

Camry是混合型的？

RAV4是混合型的？

Toyota RAV4是混合型的？

存在可以包括在上述列表中的许多其它问题。

如上所示，当前训练范例的技术问题在于构建语言模型的训练示例是乏味的任务，因为存在无数的句子/问题的变型，它们可作为输入被接收，并且等效单词类的可替换性是通过显式示例来学习的。因此，所公开的实施例包括通过利用训练示例内的术语或短语代理或代理标签来构建语义分析模型，从而为当前训练范例提供技术解决方案的各种系统和方法。作为示例，根据各种实施例，可以将以上训练集捕获为"is@modelname ahybrid"，其伴随有代理集：@modlename＝{Rav4，Sienna，Camry…}。在某些实施例中，代理标签捕获具有任何任意内部语法/组成结构的表面形式词汇变型。例如，在一些实施例中，一个代理标签的变型可以从单独名词转移到名词短语再到问题单词加名词短语，而不要求内部细节形成有效的语法类别。所公开的实施例提供了对当前训练范例中的问题的解决方案，其中表面形式的所有组合必须在训练示例中被列出。另外，在某些实施例中，所公开的代理标签表面形式示例可以跨各种训练示例集使用。例如，在一个实施例中，所讨论的单词和谓语同义词集的模式可以被列出为用代理标签表示的并且从一个部署复制到另一个部署的一组表面形式变体。在诸如以上所示的那些完整句子训练示例本身可能与不同的会话训练集不相关的情况下，代理集可包含跨会话更可移植的隔离的词汇内容。

图1是根据各种实施例的自然语言处理系统100的网络图。在所描述的实施例中，自然语言处理系统100通过通信网络140通信地耦合到各种其他系统110。系统110可以包括存储训练例句的语料库或词汇数据库(例如，

)的系统，其可以由自然语言处理系统100在构建语义分析模型时使用。系统110可以包括在创建或测试语义分析模型时与自然语言处理系统100交互的系统(例如，远程程序员或开发者系统)。自然语言处理系统100还可以通信地耦合到至少一个终端用户设备120。终端用户设备120可以是包括从用户接收自然语言输入的一个或多个应用的任何类型的电子设备。例如，终端用户设备120可以是具有经由口头对话与用户通信的内置认知代理的智能电话。尽管自然语言处理系统100被描绘为与终端用户设备120分离且远离的系统，但是在各种实施例中，自然语言处理系统100可以被集成为终端用户设备120的一部分或另一系统的一部分。

如上文和本文所提及的，术语"通信地耦合"意味着能够通过通信链路发送和/或接收数据。在某些实施例中，通信链路还可以包括系统的各种组件之间的内部通信和/或与诸如键盘或显示设备之类的外部输入/输出设备的内部通信。另外，通信链路可以包括有线和无线链路，并且可以是直接链路或者可以包括通过一个或多个网络设备的多个链路，所述网络设备诸如但不限于路由器、防火墙、服务器和交换机。网络设备可以位于各种类型的网络上。

除非特别指出，对数据和计算机可执行指令的处理、检索和存储的任何提及可以在电子设备上本地执行和/或可以在远程网络设备上执行。例如，数据可以被检索或存储在本地设备的数据存储组件上和/或可以被检索或存储在远程数据库或其他数据存储系统上。

如本文所使用的诸如网络140的网络表示经由通信链路连接在一起以实现信息交换和/或资源共享的电子设备的系统。网络的非限制性示例包括局域网(LAN)、广域网(WAN)和城域网(MAN)。网络可以包括一个或多个专用网络和/或诸如因特网的公共网络。网络可以采用任何类型的通信标准和/或协议。

图2是根据各种实施例的自然语言处理系统100的示意图。在所描绘的实施例中，自然语言处理系统100包括代理创建模块210、训练示例创建模块220、特征提取模块230、语义分析模型训练模块240和用户输入处理模块250。

这里所提及的模块可以包括软件组件、硬件组件和/或其组合。软件组件可以包括但不限于数据访问对象、服务组件、用户接口组件、应用编程接口(API)组件和其他计算机可执行指令。硬件组件可以包括但不限于电路、一个或多个处理器以及一个或多个数据存储组件，诸如存储器。存储器可以是存储数据和计算机可执行指令的易失性存储器或非易失性存储器。计算机可执行指令可以是任何形式的，包括但不限于机器代码、汇编代码和以任何编程语言编写的高级编程代码。该模块可以被配置为使用该数据来执行一个或多个指令以执行一个或多个任务。

在一个实施例中，代理创建模块210被配置为使得能够创建代理标签。这里提及的代理标签是包含一组表面形式词汇变型的标识符。在某些实施例中，标识符可具有对应于该组表面形式词汇变型的名称、标签和/或标识号。在某些实施例中，代理标签可以在至少一个符号之前、以至少一个符号结束或包括至少一个符号以指示它是代理标签。例如，在一个实施例中，@符号可以在命名标识符之前以指示它是代理标签。作为非限制性示例，@颜色可以是包含一组各种颜色的代理标签，或者@citiesInTexas可以包含一组在Texas中的城市的名称。在各种实施例中，代理标签可以是短语代理标签，其具有包括短语的一组表面形式词汇变型。例如，@howMany可以是具有一组表面形式词汇变型的短语代理标签，诸如{该数目、数目、多少、该数量、数量、该总数目、总数目}。在某些实施例中，代理标签捕获具有任何任意内部语法/组成结构的表面形式词汇变型。例如，在各种实施例中，表面形式词汇变型可包括表面形式词汇变型或同音异义词的拼写错误，以实现模糊/不精确匹配。在各种实施例中，表面形态变体可具有不一致的结构类。例如，在某些实施例中，一个代理标签的变体可以从单独名词到名词短语转移到问题单词加名词短语，而不需要内部细节形成有效的语法类别。

在各种实施例中，代理标签和对应的一组表面形式词汇变型可通过接收来自用户的输入来创建和填充。在一些实施例中，代理标签和对应的一组表面形式词汇变型的创建可以是自动的。例如，在某些实施例中，代理创建模块210可以基于从词汇表、知识图或知识库收集的信息，通过文档集合内的术语发现，以及从诸如

或同义词的其它资源等的词汇数据库收集的信息，或者通过自动提取语料库的原始训练样本中存在的重复单词序列，自动创建代理标签和对应的一组表面形式词汇变型。在一个实施例中，一旦创建了代理标签，代理标签就可以被本地或远程地存储在代理标签数据库212中。在一些实施例中，自然语言处理系统100可以从一个或多个源获取先前创建的代理标签以在本文公开的训练示例中使用。

在一个实施例中，训练示例创建模块220被配置为使得能够使用代理标签来创建训练示例。在一些实施例中，训练示例可以包括代理标签和表面形式的终端令牌(例如，普通单词、标点符号等)的任何组合。终端令牌是语句的最小的有意义的单元，并且可以由1个或更多字符组成。终端令牌的示例包括但不限于名称、单词、数字、标签、运算符符号(例如，+,＝,＝>,:,::,；,％)、逗号和分隔符。在各种实施例中，训练示例中的终端令牌可以包括作为表面形式变体被包括在代理标签中的单词。例如，当特定训练示例仅对于代理集合的一些而非所有实例有效时，例如，当仅某些汽车模型可以具有某些特征(例如，“RAV4是否伴随有越野轮胎？”)。

在一个实施例中，用户可以手动创建/编写训练示例。作为示例，用户可以创建训练示例，其是“@howMany@Presidents是@Occupation？”@howMany代理标签可以包括如上所述的一组表面形式词汇变型。@Presidents代理标签可以包括一组表面形式词汇变型，其包括{美国总统、总统和美国的总统}。@Occupation代理标签可以包括一组表面形式词汇变型，其包括{律师、医生、演员、农民、参议员和国会议员}。如图所示，根据所公开的实施例的一个训练示例可以提供用于构建语义分析模型的示例的无数变型。在某些实施例中，训练示例不必形成完整的句子，可以仅包括代理标签(即，没有终端令牌)，或者可以是语法上不正确的序列。例如，在一些实施例中，自然语言处理系统100可以被配置为产生用于使用训练示例“@howMany@Presidents@occupation”或“@howMany@occupation@Presidents”构建语义分析模型的示例，其与用于使用训练示例“@howMany@Presidents是@occupation？”构建语义分析模型的示例相同。类似于代理标签的创建，在一些实施例中，用户可以与用户界面或应用交互以创建训练示例。另外，在一些实施例中，训练示例可以基于句子和/或文档的语料库自动生成。在一个实施例中，一旦创建了训练示例，训练示例就可以被本地或远程地存储在训练示例数据库222中。

在一个实施例中，特征提取模块230包括用于处理所公开的训练示例并从训练示例中提取特征的指令。在一些实施例中，特征提取模块230可以将训练示例中的每一个扩展为一些其他形式，诸如句子、问题或短语。在一些实施例中，特征提取模块230可以将术语或单词添加到训练示例以形成完整的句子。在其他实施例中，特征提取模块230可以处理训练示例而不将每个训练示例扩展为单独的形式。在一些实施例中，特征提取模块230可以确定语句是否是问题；问题是否是询问人的名称、地点或事物；问题是否是询问诸如多少、电话号码或温度的数目；或者问题是否是询问地址、方向、指令等。

在一个实施例中，由特征提取模块230使用训练示例生成的数据然后被输入到语义分析模型训练模块240中。语义分析模型训练模块240被配置为基于输入数据构建语义分析模型。语义分析模型是用于估计不同短语的相对可能性(即，确定给定输入序列与预定短语或用户定义的意图类别匹配的概率)的统计模型。在某些实施例中，语义分析模型可以包括某些声音与单词序列的统计匹配。在一些实施例中，语义分析模型还可以提供用于区分听起来相似的单词和短语的上下文统计分析。在各种实施例中，语义分析模型可以是随机的和/或语法的。语义分析模型可以本地或远程地存储在一个或多个语义分析模型数据库242中。在各种实施例中，每个训练示例是由输入对象和期望输出值组成的对。监督学习算法分析训练数据并产生语义分析模型，该模型可用于映射新的示例或未知的词汇序列。例如，在一些实施例中，语义分析模型将来自训练示例的输出值或标签与输入特征组合配对。最佳情况将允许语义分析模型被用于正确地确定未见实例的类标签。

在一个实施例中，用户输入处理模块250被配置为接收诸如语音命令、对话或文本输入的用户输入，并且处理用户输入以确定用户输入的含义或意图。例如，在一个实施例中，用户输入处理模块250可以被配置为使用所创建的语义分析模型来将语音命令转换成纯文本并且确定语音命令的语义含义。在某些实施例中，用户输入处理模块250可以包括对话管理器，用于确定对用户输入的输出或响应，并且产生该输出或响应。在某些实施例中，用户输入处理模块250可以在确定适当的输出或响应时与一个或多个外部系统通信。在某些实施例中，对话管理器可以将输出转换为语音以便与用户对话。

图3A-3C是示出根据各种实施例的代理标签的创建的示意图。代理标签可以使用代理创建模块210来创建，并且存储在代理标签数据库212中，如图2中所描述的。图3A示出了用于添加被称为@ARETHERE的短语代理标签的用户界面300。图3B示出了用于添加被称为@HYBRID的单词代理标签的用户界面310。在所描绘的实施例中，用户可以在"添加新值"302处键入或输入单词或短语到与代理标签相关联的一组表面形式变体。另外，用户界面300可以包括用户可以选择添加到代理标签的预定义术语或短语304。用户界面300可以还描述已经由用户手动地添加到代理标签或者如上所述由系统自动地添加的术语或短语306。在某些实施例中，可选择紧邻于术语/短语306的"X"308以从代理标签中删除术语/短语306。

图3C示出了用于添加被称为@CARMODEL的类别代理标签的用户界面330。类似于图3A和3B，用户可以在"添加新值"332处键入或输入单词或短语到与代理标签相关联的一组表面形式变体。在该实施例中，用户界面330使用户能够添加与其他代理标签相关联的一组表面形式变体。例如，在所描绘的实施例中，可以选择代理标签@Avalon334来将表面形式变体

和

添加到@CARMODEL代理标签。可以选择类似的代理标签@Rav4 336来将表面形式变体

和

添加到@CARMODEL代理标签。仍然，可以选择代理标签@FORD 338以将各种

汽车模型，诸如Ford Mustang和FordF150表面形式变体添加到@CARMODEL代理标签。因此，图3C示出了可以使用一个或多个其他代理标签来构建代理标签。

图4是描绘根据各种实施例的用于构建语义分析模型的计算机实现的方法400的流程图。计算机实现的方法400可以由诸如自然语言处理系统100的自然语言处理系统来执行。自然语言处理系统可以被配置为使用一个或多个处理器或处理组件来执行与计算机实现的方法400相对应的指令或代码。在所描绘的实施例中，计算机实现的方法400通过创建代理标签并用一组表面形式变体填充每个代理标签在步骤402开始。在各种实施例中，每个代理标签包括用于该组表面形式变体的名称或标识符(ID)。如上所述，代理标签可以是用户创建的和/或可以诸如通过对文档或句子、词汇、知识图或知识库、词汇数据库或其他资源的语料库执行文本分析或术语发现来自动创建的。

计算机实现的方法400在步骤404创建包括一个或多个代理标签的训练示例。在各种实施例中，训练示例包括终端令牌和代理标签的组合。在一些实施例中，训练示例可以仅包括代理标签。在某些实施例中，训练示例的创建可以是自动的或者可以由用户手动创建。在各种实施例中，训练示例不需要形成完整的短语或句子。

在各种实施例中，一旦创建了训练示例，计算机实现的方法400可以可选地在步骤406处使用训练示例执行特征提取以生成如上所述的各种特征提取数据。例如，在某些实施例中，特征提取过程可以执行解析、生成关键词、确定模糊/不精确匹配(例如，拼错的单词)以及执行训练示例的词性标记。在步骤408，计算机实现的方法400使用训练示例和/或特征提取数据来构建语义分析模型。例如，在一个实施例中，计算机实现的方法400可以被配置成将来自训练示例的输出标签与特征组合配对。语义分析模型用于确定不同短语与输入短语匹配的统计可能性，或者确定与输入短语匹配的句子的最佳意图类别。在各种实施例中，语义分析模型还可用于确定短语的声调(例如，为正、负或中性)。所公开的实施例可以用于以任何语言构建语义分析模型。

图5是描绘根据各种实施例的用于测试语义分析模型的计算机实现的方法500的流程图。计算机实现的方法500可以由诸如自然语言处理系统100的自然语言处理系统通过使用一个或多个处理器或处理组件执行与计算机实现的方法500相对应的指令或代码来执行。在所描述的实施例中，计算机实现的方法500通过接收词汇序列作为输入在步骤502开始。词汇序列可以是关键字的组合、完整的句子、问题或任何其它字符序列。词汇序列可以作为口头对话、文本输入或其组合来接收。作为另一可选特征，在一些实施例中，计算机实现的方法500可以被配置成接收代理标签作为词汇序列输入的一部分。例如，在一些实施例中，用户可以输入“什么@CarModel评级最佳"作为词汇序列。

在步骤504，计算机实现的方法500被配置为对词汇序列执行代理分析，以得到在代理标签的表面形式变体中列出的单词序列。例如，如果词汇序列中的一个术语是

则代理分析可以确定词汇序列可能涉及代理标签@CarModels。在各种实施例中，代理分析可以被配置为确定不精确匹配，诸如表面形式变体或同音词的错误拼写版本。在某些实施例中，代理分析可以被配置为当单词序列在多于一个所述代理标签的表面形式变体中被列出时，基于词汇序列的周围单词上下文来确定代理标签。在一个实施例中，当代理分析在词汇序列中找到代理标签的表面形式变体的匹配时，代理标签的布尔特征被设置为真。根据所公开的实施例，还可以使用在代理分析发现词汇序列中的代理标签的表面形式变体的匹配时的其他形式的跟踪。

在一个实施例中，在步骤506，计算机实现的方法500被配置为基于代理分析来转换词汇序列。在一个实施例中，计算机实现的方法500通过用代理标签替换词汇序列中的一个或多个单词来将基本词汇序列转换成包括代理标签的形式。例如，如果词汇序列为“Honda Civics具有高转售值吗？”，计算机实现的方法500可将词汇序列转换成“@CarModel具有高转售值”。

在步骤508，计算机实现的方法500被配置为使用语义分析模型产生词汇序列的语义分析。例如，在一个实施例中，一旦词汇序列被转换成代理形式，计算机实现的方法500就使用语义分析模型和与代理标签相关联的各种词汇形式来产生词汇序列的语义分析。在某些实施例中，计算机实现的方法500可以基于语义分析模型和与每个可能类别相关联的置信度分数来生成可能意图类别的列表。

作为可选步骤510，在一些实施例中，计算机实现的方法500被配置成确定对词汇序列的响应并将该响应提供给用户。例如，一旦确定了词汇序列，计算机实现的方法500就可以向一个或多个系统或数据库查询对该词汇序列的应答。计算机实现的方法500然后可以使用文本将应答转换为语音以向用户提供口头响应。

图6是根据实施例的自然语言处理系统100的各种硬件组件的框图。尽管图6描绘了自然语言处理系统100的某些基本组件，但是所公开的实施例也可以在诸如

750服务器或IBM

超级计算机的非常先进的系统中实现，其采用90个IBM Power 750服务器的集群，每个服务器使用3.5GHz

八核处理器，每个核具有四个线程。另外，自然语言处理系统100的某些实施例可以不包括图6中描述的所有硬件组件。类似地，自然语言处理系统100的某些实施例可以包括图6中未示出的附加硬件组件。IBM、Power、Watson和POWER7是国际商业机器公司的商标，该公司在世界各地的许多管辖区内进行了注册。

在所描述的示例中，自然语言处理系统100采用包括北桥和存储器控制器集线器(NB/MCH)606以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)610的集线器架构。(一个或多个)处理器602、主存储器604和图形处理器608连接到NB/MCH 606。图形处理器608可以通过加速图形端口(AGP)连接到NB/MCH 606。诸如总线632或总线634的计算机总线可以使用任何类型的通信架构或体系结构来实现，所述通信架构或体系结构提供在附接到该架构或体系结构的不同组件或设备之间的数据传输。

在所描述的示例中，网络适配器616连接到SB/ICH 610。音频适配器630、键盘和鼠标适配器622、调制解调器624、只读存储器(ROM)626、硬盘驱动器(HDD)612、光盘只读存储器(CD-ROM)驱动器614、通用串行总线(USB)端口和其它通信端口618、以及外围部件互连/高速外围部件互连(PCI/PCIe)设备620通过总线632和总线634连接到SB/ICH 610。PCI/PCIe设备620可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM 626可以是例如闪速基本输入/输出系统(BIOS)。调制解调器624或网络适配器616可用于通过网络发送和接收数据。

HDD 612和CD-ROM驱动器614通过总线634连接到SB/ICH 610。HDD 612和CD-ROM驱动器614可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备628可以连接到SB/ICH 610。在一些实施例中，HDD 612可以由其他形式的数据存储设备来代替，包括但不限于固态驱动器(SSD)。

操作系统在(一个或多个)处理器602上运行。操作系统协调并提供对图6中的自然语言处理系统100内的各种组件的控制。操作系统的非限制性示例包括高级交互执行

操作系统或

操作系统。各种应用和服务可以与操作系统结合运行。例如，在一个实施例中，在自然语言处理系统100上执行国际商业机器

DeepQA软件，该软件被设计用于结合自然语言处理和机器学习的信息检索。

自然语言处理系统100可以包括单个处理器602，或者可以包括多个处理器602。另外，(一个或多个)处理器602可具有多个核。例如，在一个实施例中，自然语言处理系统100可以采用包括数百或数千个处理器核的大量处理器602。在一些实施例中，处理器602可被配置成并行地执行一组协调的计算。

用于操作系统、应用和其它数据的指令位于诸如一个或多个HDD 612的存储设备上，并且可以被加载到主存储器604中以供(一个或多个)处理器602执行。在某些实施例中，HDD 612可以存储代理标签、包括终端令牌和代理标签的组合的训练示例、以及使用训练示例构建的语义分析模型。在一些实施例中，附加的指令或数据可以存储在一个或多个外部设备上。本发明的说明性实施例的处理可以由(一个或多个)处理器602使用计算机可用程序代码来执行，所述计算机可用程序代码可以位于诸如例如主存储器604、ROM 626之类的存储器中，或者位于一个或多个外围设备612和614中。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的方法，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

如这里所引用的，术语数据库或知识库被定义为结构化和/或非结构化数据的集合。尽管以单数形式提及，但数据库可包括一个或一个以上数据库，且可本地存储在系统上或可经由本地或远程网络可操作地耦合到系统。另外，处理特定数据或指令可以由一个或多个系统或服务器通过网络执行，并且数据或指令的处理结果可以被发送到本地设备。

从上文应了解，所公开的实施例具有优于现有技术的显著优点。作为示例，所公开的实施例使得训练示例能够被分解成模块化/可交换块，而不需要表示可替换性的语法规则。另外，所公开的实施例修改训练/测试算法，使得在分类算法中可以识别等同的变型。所公开的实施例的优点包括语义分析模型的更快开发，因为不需要创建或列出精确短语。相反，可以简单地修改代理标签。例如，如果创建了新的汽车模型，则所公开的实施例不需要创建可能涉及该汽车模型的每个单个语句或问题的精确短语作为用于构建语义分析模型的训练示例语料库的一部分。相反，新的汽车模型可简单地插入与汽车模型相关联的一个或多个代理标签中。所公开的实施例然后可以在构建语义分析模型时自动扩展代理标签，而无需生成所有可能的句子。所公开的实施例的另一个优点包括使语义分析模型快速适应于新语言的可能性。只翻译训练示例中的终端单词序列，排除代理标签，并且最后翻译代理标签的内容，而无需翻译所有原始训练样本。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。例如，尽管上述公开的实施例被描述为与英语语言一起使用，但是所公开的实施例可以被用于任何语言。

此外，本文所述的方法的步骤可以以任何合适的顺序进行，或在适当的情况下同时进行。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于为自然语言处理系统构建模型的计算机实现的方法，所述计算机实现的方法包括：

创建包括一组表面形式变体的代理标签，其中代理标签是包含一组表面形式词汇变型的标识符；

创建包括终端令牌和至少一个所述代理标签的组合的训练示例，其中终端令牌是语句的最小的有意义的单元；以及

使用所述训练示例来构建语义分析模型。

2.根据权利要求1所述的计算机实现的方法，其中所述一组表面形式变体包括作为短语的表面形式变体。

3.根据权利要求1所述的计算机实现的方法，其中所述一组表面形式变体包括具有不一致的结构类的表面形式变体。

4.根据前述权利要求中的任一项所述的计算机实现的方法，其中所述代理标签包括其他代理标签。

5.根据权利要求1至3中的任一项所述的计算机实现的方法，其中使用词汇数据库来自动填充所述代理标签的所述一组表面形式变体。

6.根据权利要求1至3中的任一项所述的计算机实现的方法，还包括：

接收词汇序列作为输入；

对所述词汇序列执行代理分析以获得在所述代理标签的所述一组表面形式变体中列出的单词序列；

基于所述代理分析来转换所述词汇序列；以及

使用所述语义分析模型产生所述词汇序列的语义分析。

7.根据权利要求6所述的计算机实现的方法，其中所述代理分析包括：在所述单词序列被列出在多于一个所述代理标签的所述一组表面形式变体中时，基于所述词汇序列的周围单词上下文来确定所述代理标签。

8.根据权利要求6所述的计算机实现的方法，其中基于所述代理分析来转换所述词汇序列包括用所述代理标签替换所述词汇序列中的单词。

9.根据权利要求6所述的计算机实现的方法，还包括使用所述语义分析模型来确定所述词汇序列的所述语义分析的置信度得分。

10.根据权利要求1至3中的任一项所述的计算机实现的方法，还包括：

使用所述训练示例执行特征提取以提取所述训练示例的特征；以及

其中，使用所述训练示例来构建所述语义分析模型包括：使用所述训练示例的所述特征作为输入数据来构建所述语义分析模型。

11.根据权利要求10所述的计算机实现的方法，其中所述语义分析模型将来自所述训练示例的输出标签与特征组合配对以产生未知词汇序列的语义分析。

12.根据权利要求11所述的计算机实现的方法，还包括：使用所述语义分析模型来确定所述未知词汇序列的所述语义分析的置信度得分。

13.根据权利要求12所述的计算机实现的方法，还包括：对所述未知词汇序列执行代理分析以获得在所述代理标签的所述一组表面形式变体中列出的单词序列。

14.一种用于为自然语言处理系统构建模型的系统，所述系统包括：

存储器，其被配置为存储计算机可执行指令；

处理器，其被配置为执行所述计算机可执行指令以：

使用所述训练示例来构建语义分析模型。

15.根据权利要求14所述的系统，其中所述一组表面形式变体包括作为短语的表面形式变体。

16.根据权利要求14所述的系统，其中所述一组表面形式变体包括具有不一致的结构类的表面形式变体。

17.根据权利要求14至16中的任一项所述的系统，其中所述代理标签包括其他代理标签。

18.根据权利要求14至16中的任一项所述的系统，其中使用词汇数据库来自动填充所述代理标签的所述一组表面形式变体。

19.根据权利要求14至16中的任一项所述的系统，其中，所述处理器还被配置为执行所述计算机可执行指令以：

接收词汇序列作为输入；

基于所述代理分析来转换所述词汇序列；以及

使用所述语义分析模型产生所述词汇序列的语义分析。

20.根据权利要求19所述的系统，其中所述处理器还被配置为执行所述计算机可执行指令以：通过在所述单词序列被列出在多于一个所述代理标签的所述一组表面形式变体中时基于所述词汇序列的周围单词上下文来确定所述代理标签，来执行代理分析。

21.根据权利要求19所述的系统，其中所述处理器还被配置为执行所述计算机可执行指令以基于用所述代理标签替换所述词汇序列中的单词的所述代理分析来转换所述词汇序列。

22.根据权利要求19所述的系统，其中所述处理器还被配置为执行所述计算机可执行指令以使用所述语义分析模型来确定所述词汇序列的所述语义分析的置信度得分。

23.根据权利要求14至16中的任一项所述的系统，其中，所述处理器还被配置为执行所述计算机可执行指令以：

使用所述训练示例的所述特征作为输入数据来构建所述语义分析模型。

24.根据权利要求23所述的系统，其中所述语义分析模型将来自所述训练示例的输出标签与特征组合配对以产生未知词汇序列的语义分析。

25.根据权利要求24所述的系统，其中所述处理器还被配置为执行所述计算机可执行指令以：

使用所述语义分析模型来确定所述未知词汇序列的所述语义分析的置信度得分。

26.根据权利要求25所述的系统，其中所述处理器还被配置为执行所述计算机可执行指令以：

对所述未知词汇序列执行代理分析以获得在所述代理标签的所述一组表面形式变体中列出的单词序列。

27.一种用于为自然语言处理系统构建模型的计算机可读存储介质，其可由处理电路读取并且存储指令，所述指令要由所述处理电路执行以执行根据权利要求1至13中的任一项所述的方法。

28.一种用于为自然语言处理系统构建模型的计算机实现的方法，所述计算机实现的方法包括：

创建包括一组表面形式变体的代理标签；

创建包括至少一个所述代理标签的训练示例；以及

使用所述训练示例来构建语义分析模型。