CN109196495A

CN109196495A - 细粒度自然语言理解

Info

Publication number: CN109196495A
Application number: CN201780028392.4A
Authority: CN
Inventors: 朗伯·马赛厄斯; 托马斯·科拉尔; 阿瑞丹姆·曼德勒; 安杰利基·梅塔林诺
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2016-03-23
Filing date: 2017-02-21
Publication date: 2019-01-11
Anticipated expiration: 2037-02-21
Also published as: US10304444B2; CN109196495B; WO2017165040A1; EP3433761B1; EP3433761A1; US20170278514A1

Abstract

一种系统能够在没有影响自然语言理解(NLU)结果的域的概念的情况下执行自然语言理解(NLU)。本系统使用意图/命令和实体类型的分层组织以及与这些分层相关联的训练模型，以便可以针对传入的文本查询来确定命令和实体类型，而不必确定所述传入的文本的域。因此，所述系统以域不可知的方式操作，脱离多域架构NLU处理，其中系统同时为多个域确定NLU结果并且随后将它们排序以确定将哪个选作结果。

Description

细粒度自然语言理解

相关申请数据的交叉引用

本申请要求2016年6月29日申请的标题为“Fine-Grained Natural LanguageUnderstanding”的美国专利申请序列号15/196,540和2016年3月23日申请的标题为“Fine-Grained Natural Language Understanding”的美国临时专利申请序列号62/312,121的优先权。以上申请以引用的方式整体并入本文中。

背景技术

语音识别系统已经发展到人类可以通过依赖语音来与计算装置交互的程度。此类系统采用基于接收到的音频输入的不同品质来识别由人类用户说出的词的技术。语音识别结合自然语言理解处理技术实现对计算装置的基于语音的用户控制，以基于用户的口头命令来执行任务。语音识别和自然语言理解处理技术的结合在本文中被称为语音处理。语音处理还可以将用户的语音转换成文本数据，文本数据随后可以提供给各种基于文本的软件应用程序。

语音处理可以由计算机、手持装置、电话计算机系统、信息亭以及广泛多种其他装置使用，以改进人机交互。

附图说明

为了更完整地理解本公开，现结合附图来参考以下描述。

图1示出根据本公开的实施方案的用于配置并操作系统以解析传入查询的系统。

图2是根据本公开的实施方案的语音处理系统的部件的概念图。

图3示出根据本公开的实施方案的意图/命令的分层表示。

图4示出根据本公开的实施方案的实体的分层表示。

图5示出根据本公开的实施方案的用于执行自然语言处理的域不可知架构。

图6示出根据本公开的实施方案的经过词汇分析的文本。

图7A和图7B示出根据本公开的实施方案的经过分段的文本。

图8示出根据本公开的实施方案的具有对应训练模型的意图/命令的分层表示。

图9示出根据本公开的实施方案的具有对应训练模型的实体类型的分层表示。

图10示出根据本公开的实施方案的用于执行自然语言处理的方法。

图11是在概念上示出根据本公开的实施方案的装置的示例性部件的框图。

图12是在概念上示出根据本公开的实施方案的服务器的示例性部件的框图。

图13示出用于与系统一起使用的计算机网络的实例。

具体实施方式

自动语音识别(ASR)是计算机科学、人工智能和语言学的领域，涉及将与语音相关联的音频数据转换成表示所述语音的文本。类似地，自然语言理解是(NLU)是计算机科学、人工智能和语言学的领域，涉及使得计算机能够从含有自然语言的文本中获得意思。ASR和NLU通常一起用作语音处理系统的一部分。

ASR和NLU在计算方面可能很昂贵。也就是，在合理的时间范围内可能需要大量的计算资源来处理ASR和NLU处理。因此，当执行语音处理时，可以使用分布式计算环境。典型的此类分布式环境可以涉及具有一个或多个麦克风的本地装置，所述麦克风被配置成从用户讲话中捕获音频。音频由用户在说出话语时产生的声波组成。本地装置可以使用麦克风来检测音频并且可以将音频转换成音频数据，所述音频数据是表示音频的计算数据。音频数据随后可以发送到下游远程装置以便进一步处理，诸如，确定音频数据对应于用户期望执行的命令。命令随后可以由远程装置和本地装置的组合使用对应于所述命令的计算机可执行指令来执行。

在某些情况下，用户话语可以包括查询。查询可以包括对系统的输入，以执行命令(诸如，播放音乐)或响应于查询而提供信息。也就是，用户可以要求系统响应于话语来提供一些信息。作为NLU处理的一部分，为了响应用户的查询，系统可以依赖知识库来获得或确认由所述查询请求的信息。知识库是包括以可以用来响应用户查询的特定方式组织的事实的数据存储。

存在用户可以提出的很多类型的查询，从简单的唯一事实问题(例如，“法国的首都是什么？”)到涉及时间、地点、多个实体等的更详细问题(例如，“Tom Cruise跟NicoleKidman是什么时候结婚的？”)。此外，查询可以包括可以具体/复杂的命令，例如，一个命令可以是“将计时器设置5分钟”，其中另一个可以是“播放foo fighters的最新专辑”。不同的话语可以涉及不同的意图，其中意图对应于用户期望系统执行一定命令。每个特定命令便可以与一个或多个计算机可执行指令相关联，系统的一个或多个装置可以执行所述计算机可执行指令以便执行所述命令。命令可以导致系统(或者与系统通信的一些下游部件或装置)采取一些行动、创建(并且可能发送)一些输出数据，或者满足用户的请求的其他不同操作。在上述实例中，话语对应于确认国家的首都、确定两个人结婚的日期、设置计时器以及播放音乐的命令。不同的命令也可以涉及不同的实体。实体可以是具有标识的人、地点、事物等。为了执行话语期望的动作，系统必须能够识别话语中的实体(或多个实体)。在上述实例中，所涉及的实体是法国、Tom Cruise、Nicole Kidman、Foo Fighters以及他们的最新专辑。

识别话语的意图的过程可以被称为意图/命令分类。识别话语中的实体的过程可以涉及两个阶段过程，其中第一阶段是实体识别并且第二阶段是实体解析，实际上是将实体的文本匹配到系统已知的具体实体。第一阶段的实体识别涉及识别查询文本中对实体的提及。这包括识别查询文本内的对应于实体的特定文本部分。这个特定文本部分有时被称为“槽(slot)”。如可以了解，不同的实体可以共享一个名字，即使它们是不同的实体并且被系统理解为唯一的且彼此不同。例如，“Madonna”可以指的是音乐艺术家、宗教人士，或甚至具体的艺术品。识别实体的第二阶段(被称为实体解析)实际上确定对应于槽的特定文本的确切实体。如可以了解，自然语言理解涉及对文本(其可以从说出的话语或从一些其他来源获得)和可能地其他数据的复分析以确定文本的确切意思。

本NLU查询应答系统通常采用多域架构，其中每个域表示系统的某一主题区域。示例性域包括天气、音乐、购物等。每个域通常被配置有它自己的意图/命令、槽结构、实体、知识库等。因此，为了将系统配置成处理新功能，用于语音处理的意图、槽和其他物项需要针对每个新功能专门地设计、配置和测试。这导致大量的资源消耗，即使对可能类似或具有重叠主题的域也是如此。例如，用于播放音乐的域可以类似于用于播放电影的域，并且可以涉及很多的相同实体(诸如，也是演员的音乐家)。类似地，购物域可以与很多不同的域重叠(例如音乐，其中专辑可以是播放音乐意图以及购买专辑意图的主题)。本NLU系统可能需要单独地进行训练以识别针对具体专辑的音乐播放意图，以及单独地进行训练以识别针对相同专辑的购买专辑意图。

此外，在运行时期间，现有的语音处理系统可以同时使用多个域来处理单个话语。由于直到语音处理完成，所述系统才可能知道话语属于哪个域，因此所述系统可以基本上同时地使用书、视频、音乐等的模型来处理话语的文本。所述处理的结果可以进行排序，其中最高排序的结果被执行/返回给用户。除了花费在将系统配置成在多个域上操作的资源之外，此类并行域处理还可能在运行时浪费大量的计算资源。

提供一种自然语言处理系统，所述自然语言处理系统有效地消除域的概念并且使用意图/命令和实体的分层结构来执行意图/命令分类和实体解析。例如，能够由所述系统执行的所有命令都组织成可以由所述系统存储和使用的命令层次，其中每个意图不仅可以由它的具体命令表示(例如，听音乐可以是“听音乐”)，而且可以由它在层次中的位置表示(例如，/消费动作/听动作/听动作.音乐)。在运行时期间响应于输入文本而确定将要执行的命令时，所述系统可以获得输入文本并且使用一个或多个机器学习模型来遍历命令的层次，以到达最高得分命令。不管域如何，所述命令都可以被所述系统选择。类似地，能够被所述系统识别的实体类型可以组织成由所述系统存储和使用的实体类型层次。在运行时确定文本中提及哪个/哪些实体时，所述系统可以接受输入文本并且使用一个或多个机器学习模型来遍历实体类型的层次，以到达最高得分实体类型。所述系统随后可以使用所述实体类型来参考知识库中的实体列表，以进行最终实体解析。因此，所述系统可以避免当前用于NLU处理的并行多域方法。

图1示出被配置成执行NLU处理的系统100。尽管图1和之后的附图/论述按特定顺序说明系统的操作，但在不脱离本公开的意图的情况下，所描述的步骤可以按不同顺序执行(以及移除或添加某些步骤)。如图1所示，系统100可以包括一个或多个用户10本地的一个或多个装置110，以及一个或多个网络199和在一个或多个网络199上连接到装置110的一个或多个服务器120。一个或多个服务器120(其可以是一个或多个不同的物理装置)也许能够执行传统语音处理(诸如，ASR、NLU、查询解析等)，如本文所述。单个服务器也许能够执行所有语音处理，或者多个服务器120可以结合来执行语音处理。此外，一个或多个服务器120可以被配置成执行某些命令，诸如应答由用户10说出的查询。另外，某些语音检测或命令执行功能可以由装置110执行。

如图1所示，在训练过程期间，系统确定(130)意图/命令的分层表示，所述意图/命令由计算系统可执行命令表示。系统还可以确定(132)可由计算系统识别的实体类型的分层表示。关于实体类型、实体本身和/或命令意图的信息可以存储在知识库272中。来自知识库272和/或其他来源的信息可以用于确定命令的分层表示和实体类型的分层表示。

在运行时，系统可以接收(134)对应于用户查询的音频数据。系统随后可以对音频数据执行(136)ASR以获得文本。系统随后可以使用至少一个第一机器学习(ML)训练模型和命令的分层表示来处理(138)文本，以确定与文本相关联的命令。至少一个第一ML模型可以包括与单独命令或命令类别相关联的一个或多个模型，如下文参考图8说明。系统也可以使用至少一个第二机器学习(ML)训练模型和实体的分层表示来处理(140)文本，以确定与文本相关联的实体类型。至少一个第一ML模型可以包括与单独实体类型或实体类型类别相关联的一个或多个模型。系统随后可以使用所确定的实体类型、所确定的命令和/或输入文本来确定(142)所提及的确切实体。系统随后可以致使(144)使用所确定的命令和实体来执行命令，例如，通过向命令处理器(290，下文参考图2论述)发送关于命令和实体的信息以及指令，以使用命令和实体来执行命令。

在对图2的整体语音处理系统的论述之后，下文论述域不可知NLU处理的另外细节。图2是传统上如何处理说出的话语从而允许系统捕获并执行由用户说出的命令(诸如，可以跟在唤醒词后的口头命令)的概念图。所示的各种部件可以位于相同或不同的物理装置上。图2中示出的各种部件之间的通信可以直接地进行或在网络199上进行。音频捕获部件(诸如，装置110的麦克风)捕获对应于说出的话语的音频11。使用唤醒词检测模块220，装置110随后处理所述音频或对应于所述音频的音频数据，以确定在音频中是否检测到关键词(诸如，唤醒词)。在检测到唤醒词之后，装置将对应于话语的音频数据111发动到包括ASR模块250的服务器120。在传输之前，音频数据111可以从位于装置110上的声学前端(AFE)256输出。或者，音频数据111可以采用不同形式以便由远程AFE 256处理，诸如，位于ASR模块250内的AFE 256。

唤醒词检测模块220与装置的其他部件协同工作，例如麦克风(未示出)，以检测音频11中的关键词。例如，装置110可以将音频11转换成音频数据，并且利用唤醒词检测模块220来处理所述音频数据，以确定是否检测到语音，并且如果检测到语音，那么确定包括语音的所述音频数据是否匹配音频签名和/或对应于特定关键词的模型。

装置110可以使用各种技术来确定音频数据是否包括语音。一些实施方案可以应用语音活动检测(VAD)技术。此类技术可以基于语音输入的各种定量方面来确定语音是否存在于音频输入中，诸如，音频输入的一个或多个帧之间的频谱斜率；一个或多个频谱带中的音频输入的能量级；一个或多个频谱带中的音频输入的信噪比；或者其他定量方面。在其他实施方案中，装置110可以实施被配置成将语音与背景噪声区分开的有限分类器。所述分类器可以由诸如线性分类器、支持向量机和决策树等技术来实施。在另外的其他实施方案中，可以应用隐马尔可夫模型(HMM)或高斯混合模型(GMM)技术，以将音频输入与语音存储中的一个或多个声学模型进行比较，所述声学模型可以包括对应于语音、噪声(诸如，环境噪声或背景噪声)或静音的模型。另外的其他技术可以用来确定语音是否存在于音频输入中。

一旦在由装置110接收的音频中(或单独地从语音检测中)检测到语音，装置110便可以使用唤醒词检测模块220来执行唤醒词检测，以确定用户意图何时向装置110说出命令。这个过程也可以被称为关键词检测，其中唤醒词是关键词的具体实例。具体地，通常在不执行语言分析、文本分析或语义分析的情况下执行关键词检测。相反，分析传入音频(或音频数据)以确定音频的具体特性是否匹配预先配置的声学波形、音频签名或其他数据，以确定传入音频是否“匹配”对应于关键词的所存储的音频数据。

因此，唤醒词检测模块220可以将音频数据与所存储的模型或数据进行比较以检测唤醒词。一种用于唤醒词检测的方法应用通用大词汇量连续语音识别(LVCSR)系统来解码音频数据，其中在得到的网格(lattice)或混淆网络中执行唤醒词搜索。LVCSR解码可能需要相对较高的计算资源。另一用于唤醒词定位(spotting)的方法建立分别用于每个唤醒词关键词和非唤醒词语音信号的隐马尔可夫模型(HMM)。非唤醒词语音包括其他口头词、背景噪声等。可以存在被构建来对非唤醒词语音特性建模的一个或多个HMM，它们被称为填充模型。维特比解码用来搜索解码图中的最佳路径，并且解码输出经过进一步处理以作出关于关键词存在的判定。这种方法可以通过合并混合DNN-HMM解码框架进行延伸以包括判别信息。在另一实施方案中，唤醒词定位系统可以直接构建在深度神经网络(DNN)/递归神经网络(RNN)结构上，而不涉及HMM。这样的系统可以利用上下文信息通过在DNN的上下文窗口内堆叠帧或使用RNN来估计唤醒词的后面内容。后续的后阈值调谐或平滑应用于作出判定。也可以使用其他用于唤醒词检测的技术，诸如本领域中已知的那些技术。

一旦检测到唤醒词，本地装置110便可以“唤醒”并开始向一个或多个服务器120传输对应于输入音频11的音频输入111以进行语音处理。对应于所述音频的音频数据可以发送到服务器120以便路由到接受装置，或者可以发送到服务器进行语音处理以解译所包括的语音(为了实现语音通信的目的和/或为了执行语音中的命令的目的)。音频数据111可以包括对应于唤醒词的数据，或者在发送之前，音频数据的对应于唤醒词的那部分可以被本地装置110去除。此外，在检测到高于阈值的语音/口头音频时，本地装置110可以“唤醒”，如本文中所述。在由一个或多个服务器120接收之后，ASR模块250可以将音频数据111转换成文本。ASR将音频数据转录成文本数据，所述文本数据表示音频数据中含有的语音的词。文本数据随后可以被其他部件用于各种目的，诸如，执行系统命令、输入数据等。音频数据中的口头话语输入到被配置成执行ASR的处理器，所述处理器随后基于话语与存储在ASR模型知识库(ASR模型存储252)中的预先建立的语言模型254之间的相似度来解译所述话语。例如，ASR过程可以将输入音频数据与声音模型(例如，子词单元或音素)和声音序列进行比较，以识别与在音频数据的话语中说出的声音序列匹配的词。

可以解译口头话语的不同方式(即，不同假设)可以各自被分配表示特定一组词匹配在话语中说出的那些词的可能性的概率或置信度得分。置信度得分可以是基于许多因素，包括例如话语中的声音与语言声音模型(例如，存储在ASR模型存储252中的声学模型253)的相似度，以及匹配所述声音的特定词将被包括在语句中的具体位置的概率(例如，使用语言或语法模型)。因此，口头话语的每个可能的文本解译(假设)与置信度得分相关联。基于所考虑的因素和分配的置信度得分，ASR过程250输出在音频数据中识别的最可能文本。ASR过程还可以采用网格或N最佳列表的形式输出多个假设，其中每个假设对应于置信度得分或其他得分(诸如概率得分等)。

执行ASR处理的一个或多个装置可以包括声学前端(AFE)256和语音识别引擎258。声学前端(AFE)256将来自麦克风的音频数据转换成数据以便由语音识别引擎处理。语音识别引擎258将语音识别数据与声学模型253、语言模型254以及其他数据模型和信息进行比较，以用于识别在音频数据中传达的语音。AFE可以减少音频数据中的噪声并且将数字化音频数据分成帧，所述帧表示AFE确定表示音频数据的品质的许多值(被称为特征)以及表示帧内的音频数据的特征/品质的一组这些值(被称为特征向量)的时间间隔。可以确定很多不同的特征，如本领域中已知，并且每个特征表示可以用于ASR处理的音频的一定品质。AFE可以使用许多方法来处理音频数据，诸如，mel频率倒谱系数(MFCC)、感知线性预测(PLP)技术、神经网络特征向量技术、线性判别分析、半绑定的协方差矩阵，或者本领域的技术人员已知的其他方法。

语音识别引擎258可以参考存储在语音/模型存储(252)中的信息来处理来自AFE256的输出。或者，后前端经处理数据(诸如，特征向量)可以由除内部AFE之外的执行来自另一来源的ASR处理的装置接收。例如，装置110可以将音频数据处理成特征向量(例如，使用装置上AFE 256)并且在网络199上将所述信息传输到服务器，以用于ASR处理。特征向量可以在被编码的情况下到达服务器，在这种情况下，它们在由执行语音识别引擎258的处理器处理之前可以先解码。

语音识别引擎258尝试将接收到的特征向量匹配到如所存储的声学模型253和语言模型254中已知的语言音素和词。语音识别引擎258基于声学信息和语言信息来计算特征向量的识别得分。声学信息用来计算声学得分，所述声学得分表示由一组特征向量表示的意图声音匹配语言音素的概率。语言信息用于通过考虑在彼此的上下文中使用什么声音和/或词来调整声学得分，从而提高ASR过程将输出在语法上讲得通的语音结果的概率。所使用的具体模型可以是通用模型，或者可以是对应于特定域的模型，诸如音乐、银行业等。

语音识别引擎258可以使用许多技术来将特征向量匹配到音素，例如使用隐马尔可夫模型(HMM)来确定特征向量可以匹配音素的可能性。接收到的声音可以被表示为HMM的状态之间的路径，并且多个路径可以表示相同声音的多个可能文本匹配。

在ASR处理之后，ASR结果可以由语音识别引擎258发送到其他处理部件，所述其他处理部件可以在执行ASR的装置本地和/或分布在一个或多个网络199上。例如，采用语音的单一文本表示、包括多个音素和相应得分的N最佳列表、网格等形式的ASR结果可以发送到服务器，诸如服务器120，以由装置110、由服务器120或者由另一装置(诸如，运行比如搜索引擎等具体应用程序的服务器等)进行自然语言理解(NLU)处理，诸如将文本转换成用于执行的命令。

执行NLU处理260的装置(例如，服务器120)可以包括各种部件，可能包括一个或多个专用处理器、存储器、存储等。如下文论述，NLU部件可以使用实体类型和命令的分层表示来执行实体解析和意图/命令分类。在执行NLU处理时，NLU部件还可以利用地名录信息，所述地名录信息可以帮助NLU部件获得用户特定的NLU结果。例如，地名录信息(可通过用户配置文件存储282访问)可以用于实体解析，例如，将ASR结果与不同实体匹配(诸如，歌曲名、联系人姓名等)。地名录可以链接到用户(例如，特定的地名录可以与具体用户的音乐收藏相关联)、可以链接到某些域(诸如，购物)，或者可以以多种其他方式组织。另外，NLU处理可以使用有关使用由装置ID、用户ID或家庭ID加索引的具体装置或者某一其他指示器可获得的具体命令的数据。

通常，NLU过程接受文本输入(诸如，基于话语输入音频11从ASR 250处理)并且尝试对文本进行语义解译。也就是，NLU过程基于单独词来确定文本背后的意思并且随后实施所述意思。NLU处理260解译文本串以获得用户的意图或期望动作，以及文本中的允许装置(例如，装置110)完成所述动作的相关信息项。例如，如果使用ASR250来处理口头话语并且输出文本“呼叫妈妈”，那么NLU过程可以确定用户意图激活他/她的装置中的电话并且开始呼叫匹配实体“妈妈”的联系人(这可以涉及与电话应用程序链接的下游命令处理器290)。

NLU可以处理与相同话语相关的若干文本输入。例如，如果ASR250输出N个文本片段(作为N最佳列表的一部分)，那么NLU可以处理所有的N个输出以获得NLU结果。

如下文将进一步论述，作为NLU处理的一部分，NLU过程可以被配置成解析并标记文本。例如，对于文本“呼叫妈妈”，“呼叫”可以被标记为命令(用于执行电话呼叫)并且“妈妈”可以被标记为具体实体且是命令的目标(并且与存储在联系人列表中的“妈妈”对应的实体的电话号码可以被包括在有注释的结果中)。此外，NLU过程可以用来响应于查询而例如使用知识库272提供应答数据。

传统上，NLU过程已经被配置成确定话语的“域”，以便确定由端点装置(例如，服务器120或装置110)提供的哪些服务可以相关并且缩小其范围。例如，端点装置可以提供与电话服务、联系人列表服务、日程表/行程安排服务、音乐播放器服务等交互相关的服务。单一文本查询中的词可以比一个服务更暗示，并且一些服务可以在功能上链接(例如，电话服务和日程表服务两者可以利用来自联系人列表的数据)。

然而，基于域的方法的一个难点在于，对于通用型NLU系统(即，能够接收针对多个不同域的命令的NLU系统)，确定特定查询的域可以涉及额外的计算资源并且可能会增加从接收到查询时和处理查询时的延迟。例如，当接收到特定查询时，能够在不同域(例如，“购物”、“音乐”、“日程表制定”等)上执行很多命令的系统未必知道哪个域是处理具体传入请求的正确域。

为了解决这个，一些传统NLU系统采用并行多域架构。在多域架构中，每个域(其可以包括定义诸如音乐、书等更大概念的一组命令和实体槽)单独地构建并且在运行时操作期间可用于NLU部件260，其中在文本(诸如，从ASR部件250输出的文本)上执行NLU操作。每个域可以具有特别配置的部件，以执行NLU操作的各种步骤。例如，每个域可以与特定语言模型和/或语法数据库、特定的一组意图/命令以及特定的个人化词汇相关联。另外，域特定地名录可以包括与特定用户和/或装置相关联的域索引词汇信息。例如，用户的音乐域词汇信息可以包括专辑名称、艺术家名字以及歌曲名，而用户的联系人列表词汇信息可以包括联系人的姓名。

此外，每个域可以具有特别配置的流水线，包括用于执行NLU操作的各种步骤的特别配置的部件。例如，音乐域可以具有命名实体识别(NER)部件，所述NER部件识别什么槽(即，输入文本的部分)可以对应于与音乐域相关的特定实体。而购物域可以具有识别什么槽可以对应于与购物域相关的特定实体的不同NER部件。与用于购物域的NER部件相比，用于音乐域的NER部件可以不同地训练，并且可以不同地操作。类似地，每个域也可以具有它自己的确定文本的意图的意图/命令分类(IC)部件(假设文本在被禁止的域内)。因此，假设传入文本与音乐相关联，那么用于音乐域的IC部件可以确定所述文本的基于音乐的意图，而假设传入文本与购物相关联，那么用于购物域的IC部件可以确定所述文本的基于购物的意图。此外，每个域可以具有它自己的实体解析部件，所述实体解析部件尝试将实体与由特定NER部件识别的任何槽相匹配(可能同时参考某一域特定权威来源，诸如域特定知识库)。

因此，此类系统可能已经具有用于所述系统的每个域的具体NLU流水线(NER部件、IC部件、实体解析部件、知识库等)。当接收到传入查询文本时，它将被基本上并行地处理，但每个NLU流水线导致相同输入查询文本的很多不同域特定NLU结果。随后可以使用跨域排序部件对不同域的不同NLU结果进行排序，并且在给定输入文本和其他因素的情况下选择系统确信的最适用结果。然而，这种方法可能导致不必要地使用计算资源，因为最终未被选择的任何域特定NLU结果都将被丢弃。

这样的多域架构导致特定于每个具体域的狭义地定义的意图和槽。这部分是因为训练了不同模型和部件(诸如，域特定的NER部件、IC模块等以及相关模型)以只针对指定的域操作。此外，将域分开导致在域上单独地表示类似的动作，即使动作存在重叠也是如此。例如，“下一首歌”、“下一本书”以及“下一个”可以全部是相同动作的指示符，但归因于域特定的处理约束，在不同域中将不同地定义。此外，考虑到域之间的分割，跨域的域不可知查询可能难以整体上作出响应。例如，查询“获取饥饿游戏”可以指的是购买(或大声朗读)书、购买(或播放)电影或者购买(或播放)声带的请求，但多域架构和方法可以导致只执行一个此类动作，其中任何对多义性“饥饿游戏”的确认可以指的是书、电影或声带(或者可能是所有这三个)。

作为实例，文本“获取饥饿游戏”可以产生不同的NLU结果，其中不同的意图标记和不同的实体标记取决于域。例如，不同的域可以将文本标记如下：

(1){域}书，{命令}购买书，{媒体名称}“饥饿游戏”，{媒体类型}书

(2){域}电影，{命令}购买电影，{媒体名称}“饥饿游戏”，{媒体类型}电影

(3){域}音乐，{命令}播放专辑，{媒体名称}“饥饿游戏”，{媒体类型}专辑

跨域排序器随后将需要选择这三者中的一者作为诸如由命令处理器290进行的下游处理的适当结果，命令处理器290可以位于相同或单独的服务器120上，作为系统100的一部分。可以基于NLU输出来确定目的地命令处理器290。例如，如果NLU输出包括播放音乐的命令，那么目的地命令处理器290可以是被配置成执行音乐播放命令的音乐播放应用程序，诸如位于装置110上或在音乐播放设备中的一个音乐播放应用程序。如果NLU输出包括搜索请求，那么目的地命令处理器290可以包括被配置成执行搜索命令的搜索引擎处理器，诸如位于搜索服务器上的一个搜索引擎处理器。

由于虚拟助手变得更加开放和联通，因此期望扩展它们的NLU能力并且使得它们能够理解更大的自然语言查询集合。然而，如可以了解，每次针对根据多域结构操作的系统启用新功能时，都必须为所述特定功能构建新的NLU流水线，因此减慢了系统结合此新功能的能力。添加新功能可以涉及用于定义给定域的感兴趣标签(包括实体类型和意图)的费力的人员密集型过程，其依赖于直觉、语言专业知识以及对添加功能/域的一组期望系统动作的理解。域定义过程由注释说明开始，所述注释说明是用于对口头语言数据加注释的语义表示(亦称注释模式)。对于像本地搜索的复杂域，这可以花费几周并且需要在数据流水线和NLU模型组上进行多次迭代。注释说明可以包括用于每个意图和槽组合的一组有注释的示例话语。上述方法经常导致覆盖范围很小的域、域上的模式不一致(例如，“coldplay的最新专辑是什么”可以被标记为QA意图，其中每个标签是问题槽的一部分，而话语“播放coldplay的最新专辑”可以被标记为播放音乐意图，具有艺术家名字和媒体类型槽)。类似上下文中的实体被不同地标记，这导致由于将应用程序特定的逻辑与语义解译结合而引起建模不一致并且不能灵活地改善新任务的定义。

为了提高系统结合新功能的能力，并且为了使系统免于域特定的NLU操作，提议一种提供域不可知意图分类和命名实体识别的系统。具体地，提议一种细粒度自然语言理解(FG-NLU)技术，所述技术可以使用学会从自然语言陈述映射到由命令和一组实体类型组成的细粒度解析的模型。代替从较小域特定组内预测命令和实体，FG-NLU通过利用(和扩展)大规模本体来共享信息。此外，通过训练分层命令和实体类型模型，FG-NLU能够通过参考本体来预测多粒度路径。用于意图识别的分层方法具有与基线模型和多项式模型相当的准确性，而同时训练起来更快。使用全局特征和命令实体类型约束来共同地分类命令和实体类型可以导致结果的准确性增加。

扩展它们能力的其中一个主要挑战是缺少可以提供不同粒度水平的通用表示和迅速自举新特征的能力。提供用于例如基于大规模本体和层次使用通用表示来扩展NLU的技术。每个命令和实体类型链接到层次中的位置并且导致细粒度表示的粗糙表示。另外，提供细粒度自然语言理解(FG-NLU)，其提供一般和具体类别两者并且可以实现迅速地自举新特征。

意图命令或实体类型的细粒度表示可以从此类命令和实体类型的分层表示中获得。所述分层表示随后可以用来以域不可知的方式执行本文中论述的NLU操作。图3示出实体类型的层次280的实例。如图所示，所有的实体类型都可以链接到实体类型的根节点302。实体类型随后可以根据诸如人304、地点306、物体308等类别进行组织。还可以存在子类别(诸如，演艺人员310、政治家320等是人304的子类别)，其中实体类型的某一低层级类别位于根节点下方的层次中的某一点处。因此，特定实体类型可以由它在层次280上的节点表示，层次280可以包括对实体类型如何与根节点相关的分层指示。实体类型表示还可以具有用于表示不同类别的更精细层级的表示，例如，/人/艺术家/音乐家/作曲家可以用来表示作曲家。此外，实体类型层次还可以包括与用来解译命令的文本的部分相关联的类型，但可以不必对应于具体实体，诸如枚举、无形事物或者其他并未具体地对应于实体的物项。

实体的层次可以存储在知识库272中。关于具体实体本身(278)的数据也可以存储在数据库272中。每个实体可以与实体ID以及实体类型层次中的一个或多个节点相关联。例如，关于实体歌手Madonna的数据可以通过/人/音乐家/Madonna等与实体类型层次280中的节点312(演员)和节点314(音乐家)相关联。如可以了解，图3仅仅是实体类型的分层表示的实例，并且可以使用其他配置/组织。

也可以针对命令作出分层表示，其中命令可以是计算机可执行意图(即，对应于可由系统执行的命令)。图4示出命令的层次285的实例。如图所示，所有的命令都可以链接到命令的根节点402。命令随后可以根据诸如/消费动作404、/获取信息406、/开始通信408等类别进行组织。还可以存在子类别(诸如，/消费动作/听动作412、/消费动作/播放动作414等是/消费动作404的子类别)，其中单独命令位于根节点下方的层次285中的某一点处。每个命令不仅可以用指示具体命令的某一命令ID表示(诸如，/消费动作/听动作/听动作.音乐)，而且用对命令如何与根节点相关的分层指示来表示。例如，命令听动作.音乐可以由/消费动作/听动作/听动作.音乐等表示。命令层次285可以存储在NLU存储273中，或者存储在可由系统访问的其他存储中。如可以了解，图4仅仅是命令的分层表示的实例，并且可以使用其他配置/组织。

为了构建诸如图3和图4所示的那些实体类型和命令分层结构，系统可以利用广泛多种数据源，诸如，网络数据源、先前的知识存储、知识库272，或者其他来源。使用此类来源，有可能学习稳健的实体模型和关系，其可以提供对实体类型的类型和客户想要系统理解的命令的广泛基本理解。分层方法可以减少可能需要建模的具体概念的次数(例如，可以在诸如通知、天气、日历等多个域上对时间建模一次，而不是多次)。

随着继续对传入话语进行NLU处理，系统可以导航实体类型的层次，例如，从人到演艺人员到音乐家，以识别传输文本中提及的具体实体类型。类似地，随着继续对传入话语进行NLU处理，系统可以导航命令的层次，例如，从消费动作到听动作到听动作.音乐，以识别传输文本中要求的具体命令。从层次中选择的传入文本、实体类型和/或命令随后可以用来执行实体解析，以识别传入文本中提及的特定实体。随后可以使用具体实体类执行命令。如可以理解，在其他NLU系统中，命令听动作.音乐可以被视作音乐域的一部分，而命令听动作.书可以被视作书域的一部分，但在本系统中，命令根据相同的命令类别/消费动作/听动作而分组在一起。这种分层分组方法可以允许在相同的过程中相对于彼此对命令打分(如下文参考图8说明)，而不是通过不同的并行域流水线单独地打分。

细粒度口头语言理解(FG-NLU)是自然语言理解的模型。FG-NLU将自然语言陈述(即，来自ASR部件的文本输出)作为输入并且输出解析，所述解析包括来自话语的命令和一组实体，以及它们在话语中的位置。命令和实体类型可以在分层结构中根据诸如上文论述的那些层次来表示。分层分类包括自上而下分类、构造法，以及用于在层次上调整的方法。语义解析可以产生逻辑形式、框架语义解析，或者在自然语言理解中，产生域、意图和实体。某些实施方案扩展后者，其包括通用分层表示以及可以预测这种分层表示的模型两者。

下表1表示若干示例性话语，其中它们的对应命令和实体(在对应于实体的文本的词旁边提及)以分层形式表示：

表1：从大规模本体中的分层表示得到的分层命令和实体类型的实例。

如可以了解，可以在层次的不同层级处表示实体类型或命令的较大类别。例如，对于第一话语，“蓝草”被表示为/产品/创作/流派/音乐，而“音乐”被表示为/产品/创作。因此，实体类型的分层表示表明蓝草是音乐的子类别。通过以分层方式对命令和实体类型建模，系统可以被配置成以域不可知的方式执行动作，诸如意图/命令分类和命名实体识别。

因此，FG-NLU方法允许以可以表明分层命令和一组分层实体类型的方式来映射自然语言话语。如图5所示，FG-NLU过程可以包括各种部件。词汇分析器部件502可以接收输入文本(诸如，从ASR部件250输出)，并且可以解析所述文本并根据它的词类(例如，识别主语、宾语、动词、介词等)或其他词汇特性基于由词汇分析器502操作的规则和/或模型来标记所述文本。标记的文本随后可以发送到分段器504。分段器504接受经过词汇分析的文本，并且产生与命令实体或其他文本在经过词汇分析的文本中的位置对应的一组分段，其可以用于执行命令。分段后的文本以及诸如输入文本、上下文数据、用户数据、地名录信息等其他数据随后可以发送到命令分类部件564和实体类型分类器508。命令分类部件564接受输入并且产生将要执行的用户/命令的对应意图。实体类型分类器508接受输入并且产生由分段器504识别的文本的每个分段的分层分类(其中分层分类可以对应于来自实体类型的层次280的实体类型或其他文本类型)。命名实体类型和命令模型两者都是产生细粒度分类的粗糙分类的分层模型。每者可以被训练为对数线性模型或支持向量机(或其他分类器)。实体类型选择和确定的命令随后可以传送到实体解析部件512，所述实体解析部件512随后识别输入文本中提及的具体实体。具体实体、命令和其他数据(诸如输入文本)随后可以传送到适应/映射部件514，所述适应/映射部件514随后准备数据用于适当命令处理器290的下游操作以便执行。图5的不同部件的操作可以如下文描述那样操作。

词汇分析器502操作以构建对输入文本的词汇、句法和语义分析。这些分析可以以对原始输入查询文本的注释的形式实现，并且可以用作下游任务中的特征。这个模块将输入口头形式文本转换成可以由下游NLU部件消费的表示。这个表示形式是用来训练在运行时使用的NLU模型的相同表示。词汇分析器502可以执行以下任务：

格式器：这个部件负责将来自ASR话语的输入令牌标准化。这些可以涉及以下转换：

日期/时间/货币/数字(实例：“二零一”可以转换成201或2∶01)

拼写校对

去除形态变化(“在播放”映射到“播放”)

转换成书面形式(“u二”映射到“U2”)

词类标记：这些分析与令牌相关联的文本，以生成词类标记、输入语句的依存解析，以及框架语义解析。这些可以在下游用作各种信息提取步骤的特征。

作为实例，图6示出被标记为经过词汇分析的文本的文本“播放foo fighters的最新专辑”。标记(例如，数据指示符)表明文本的某些部分已经被标记，例如“播放”为动词(VB)，“的(by)”是介词(IN)，“foo fighters”是复数名词短语(NNS)，“专辑”是单数名词短语(NN)等。

分段器504是粗粒度组块分析器(chunker)并且负责提取输入文本内的对应于实体的文本片段以及可能将那些分段与它们的相关联类型关联。分段器504是粗粒度的，因为目标不是识别具体实体，而只是表明实体的正确跨度(例如，可能是从实体或内容层次中的根节点往下的子类别)。例如，图7A示出文本，其中分段由分段部件504在括号中指示。分段部件504还可以对分段执行某一极高水平的类型分类。分段器504还可以标记可能未必对应于实体但可以影响意图的命令的执行的其他词。例如，分段部件504可以指示某一分段对应于人或地点或者枚举等。在图7B的实例中，“最新”和“专辑”表示枚举，即，表示有限数量的值的词。枚举、无形事物以及其他并未具体地对应于实体的物项也可以被包括在诸如图3所示的实体类型的层次280中。作为此类高水平分类的实例，分段部件504可以产生诸如图7B所示的输出，其中“最新”被标记为枚举[最新_ENUM]，“专辑”被标记为枚举[专辑_ENUM]，并且“foo fighters”被标记为人[foo fighters_PER]。

分段器504可以以域不可知的方式工作以识别实体提及/子类别。分段器504可以参考知识库272来执行高水平分类，例如，区分文本是否对应于人、地点等。分段器504可以实施为特定分类器，诸如，条件随机场(CRF)、递归神经网络(RNN)、长短期记忆(LSTM)模型，或者其他分类器。

命令分类器564使用诸如上文参考图4说明的那些命令的分层表示仅采用域不可知方式来将输入文本的意图/命令分类，类似于IC模块。命令分类器564的输出可以是穿过对应于输入文本的命令层次的最佳路径。命令分类器564可以实施为对数线性模型(LLM)或其他分类器。命令分类器564可以对应于命令的分层表示，诸如像285的层次，其中命令分类器564能够对命令和/或类别打分，所述命令和/或类别可能无关(例如，其中一个类别不与另一类别重叠)，但在每个命令和/或类别如何与根节点(例如，402)或其他链接命令的结构方面相链接。

为了确定穿过命令层次的最佳路径，命令分类器564可以使用提供给命令分类器564的输入(其可以包括输入文本、来自分段器504的数据、来自实体类型分类器508的数据、知识库272，或者其他信息)，并且可以使用与实体命令层次的不同节点相关联的一个或多个模型来处理所述数据。例如，如上文参考图4论述，命令层次可以包括以逻辑方式布置的不同命令的很多不同子类别。各自由层次中的节点表示的每个子类别或实际命令可以与在文本(和其他数据，诸如来自分段器504的输出)上训练的模型相关联，以识别文本何时与特定子类别或命令相关联。在确定特定节点的得分时，命令分类器564可以使用对应模型。例如，图8中示出图4的层次的一部分。如图8所示，命令层次的节点可以各自具有它们自己与相应节点相关联的模型。例如，/消费动作节点404可以与消费动作模型804相关联，/消费动作/听动作节点412可以与听动作模型812相关联，以此类推。在命令分类器564处理传入的文本时，它可以使用输入文本和节点模型来遍历层次结构，以确定穿过层次的哪条路径与输入文本最密切相关。一旦到达特定命令并且系统确定所述命令充分对应于输入文本(诸如，通过使用意图的模型和输入文本确定的相关性得分)，命令分类器564便可以将所述命令声明为最终的命令。

例如，命令分类器564可以从分段器504(或其他来源)接收输入文本，即，文本的某一词对应于实体提及和/或其他数据的指示。出于说明目的，输入文本可以对应于播放音乐的请求(例如，“播放foo fighters的最新专辑”)。命令分类器564可以接受输入文本、来自分段器504的数据(以及其他数据)，并且使用对应于命令类别的模型(例如，消费动作模型804)来处理所述文本。所述处理的结果可以是第一得分。命令分类器564还可以使用对应于不同命令类别的不同模型(例如，获取信息模型806)来处理文本。所述处理的结果可以是第二得分。命令分类器564可以确定第一得分高于第二得分，因而指示比起所述输入文本与作为/获取信息类别的一部分的命令相关，对应于所述输入文本的命令也许更可能与作为/消费动作类别的一部分的意图相关。

命令分类器564还可以确定/消费动作节点并不对应于实际命令(意味着命令层次的分支的结束)，而是对应于命令的类别。命令分类器564随后沿/消费动作的路径继续向下。命令分类器564随后可以使用与命令层次的/消费动作部分内的意图命令子类别对应的模型(例如，听动作模型812)来处理输入文本。所述处理的结果可以是第三得分。命令分类器564还可以使用对应于不同命令子类别的不同模型(例如，播放动作模型814)来处理文本。所述处理的结果可以是第四得分。命令分类器564可以确定第三得分高于第四得分，因而指示比起所述输入文本与作为/获取信息类别的一部分的命令相关，对应于所述输入文本的命令也许更可能与作为/消费动作/听动作子类别的一部分的命令相关。所述过程可以继续，直到命令分类器564已经使用诸如听动作.音乐模型832的针对命令的模型处理了输入文本，并且确定足以将输入文本识别为对应于特定命令(在这个实例中，/消费动作/听动作/听动作.音乐)的得分。为了选择特定命令，系统可以将对应于命令的节点的得分与其他节点的得分进行比较。这些其他节点可以对应于其他命令，或者可以对应于命令类别。命令类别有可能接收最高得分，在这种情况下，系统可以选择针对消除歧义的特定查询，其中所述系统在选择命令之前先请求来自用户的额外信息。

命令分类器564可以针对很多不同命令类别和子类别执行类似处理，并且甚至可以同时向下遍历很多路径，并且可以针对不同命令得出不同得分，在这点上，命令分类器564可以选择最高得分命令作为对应于输入文本的命令。也可以使用其他用于遍历命令层次的技术，从而使用本领域中已知的过程来遍历此类路径(诸如，修剪、重新打分等)。此外，尽管将命令层次示为具有用于每个节点的单个模型，但所述系统还可以被构建为使得单个模型可以用于使用输入到命令分类器564的数据来遍历(并打分)整个命令层次图(或其部分)。因此，单个模型可以用于对很多不同命令类别和命令打分，甚至用于传统上可以被视作不同NLU域的一部分的命令。此外，上文描述的用于对层次上的节点进行的打分可以相对于层次上的其他节点来完成。因此，特定命令类别的得分可以相对于在层次中的相同层级的节点处的其他类别的得分标准化。此外，特定命令类别的得分可以相对于命令类别内的子类别的得分标准化。

一旦系统已经识别了文本的对应于实体提及的部分，实体类型分类器508的目标便是消除提及类型的歧义(例如，在话语“播放foo fighters的歌曲”中，实体消除歧义阶段是将实体类型艺术家名字分配到提及“foofighters”)。实体类型分类器508可以实施为对数线性模型(LLM)或其他分类器。实体类型分类器508的输出可以是穿过实体类型层次的最佳路径，其描述由分段器指示的输入文本的部分对应于实体类型。实体类型分类器508可以对应于实体类型的分层表示。通过将消除歧义类型与分段解除结合，可以建立集中在识别特定实体类型的问题模型。这些消除歧义模型可以重新使用以自动地在多个域中检测话语上的提及类型，并且系统可以预测每个提及的一组重叠类型。选择将消除歧义模型建模为分类器或计分器有助于在不同域上重新使用。例如，在软件开发者工具包(SDK)中，不论域如何，开发者都可以选择使用已经在大得多的数据集上训练的预建槽模型，以自动地识别示例性话语文本中的提及。

如上文参考图8说明，其中命令分类器564可以遍历意图层次图，实体类型分类器508可以以类似的方式遍历实体类型层次图，其中实体类型层次图的每个节点也可以与特定模型相关联，所述特定模型可以用来处理传入的文本，以确定文本与实体类型层次的分支/实体类型有多密切相关。例如，如图9所示，实体类型层次的每个节点可以与可以用来将传入文本打分为对应于所述特定节点的模型相关联。在运行时，实体类型分类器508可以使用与实体类型层次相关联的一个或多个模型来处理传入文本，以到达实体类型层次的一个或多个期望节点。例如，在某些情形下，多个节点可以具有与传入文本的高相关性得分，并且因此多个实体类型可以由实体类型分类器508输出为可能对应于输入文本。然而，在某些情形下，期望节点可以对应于并不在实体类型层次的最后的类别或子类别。例如，如果传入查询文本包括“2010年出来了什么电影？”，那么系统可以确定对应于“电影”(其可以是子类别)但不是层次的终端节点的节点是期望目的地节点，而非对应于更具体类型的电影(诸如，喜剧、冒险等)的节点。

单独实体类型/命令模型可以使用查询文本的实例进行训练，其中已知示例性查询文本中提及的命令和/或实体(和实体类型)。这些可以将基本事实形成为指示特定输入文本是否对应于实体类型层次/命令层次上的特定节点。使用此类查询文本实例将允许系统形成稳健的模型，所述模型随后可以在运行时用于将输入文本打分为与实体类型层次和/或命令层次上的特定节点相关。

可以用于训练命令分类器564、实体类型分类器508、意图模型和/或实体模型(并且可以在运行时用于确定实体和/或意图)的额外数据可以包括N gram、与输入文本相关的词嵌入、词串嵌入、地名录特征(其可以对应于特定用户ID或用户配置文件)、词类标记、来自分段器504的数据，或者其他数据。

一旦确定了一个或多个实体类型，实体解析部件512便可以识别什么具体实体被称为特定槽。实体解析部件512可以使用来自实体类型分类器508的实体类型指定(和对应得分)、来自命令分类器564的确定命令、输入文本、知识库272中的信息，或者用于具体地识别实体的其他数据。

适应/映射部件514可以用于将处理后的输入文本(包括采用分层形式的实体、实体类型和/或命令的表示)映射到可以由命令处理器290使用的形式，以用于期望命令的最终执行。适应/映射部件514可以使用基于规则的过程来将文本转换成可由下游应用程序使用的形式，或者适应/映射部件514可以通过使用由应用程序开发者提供的有注释实例学习翻译模型来使用概率方法。也可以使用其他技术。

如图5所示，NLU部件260中的部件可以被配置成与知识库272相连接，以改进操作。例如，在运行时期间，实体类型分类器508和/或命令分类器564可以与知识库272交互以帮助确定实体类型或命令。这可以采用多种方式来完成，以影响实体类型分类器508和/或命令分类器564的判定。

某些知识库是以实体为中心，并且除了信息请求中的那些之外没有对动作进行编码，诸如问题类型话语(实例：“法国的首都是什么”，“……的首都”是关系并且可以被视作请求的意图)。尽管知识库可以对实体之间的可以用来表示命令的关系进行编码，但所述系统可能仍需要定义事务查询的动作并且将它们添加到知识库272或NLU存储273。在这里，系统可以使用启发法和规则以及聚类方法的组合，以定义用于将动作添加到知识库272的候选条目。考虑到这些动作已经定义在知识库272中，意图/命令分类便可以被认为是关系提取任务。

在NLU处理期间与知识库272交互有若干益处。首先，通过将分段器504与由实体类型分类器508和命令分类器564完成的消除歧义解除结合，不同的部件可以独立地开发并且在处理期间应用不同的本地和全局知识数据源。所述架构鼓励重新使用已经训练的实体和意图模型，并且因此与多域配置相比，向系统添加新功能可以相对容易。由于可以包括知识库272，因此现有知识库中的事实的较大本体可以允许基于实际话语对大量实体建模。将知识库合并到NLU架构中以用于在NLU处理期间参考也可以改进最终结果。

在形式上，考虑到话语文本(Z)和模型参数(θ)，FG-NLU可以使用预测意图/命令(I)、一组实体(S)和分段(L)的模型。FG-NLU因素分成三个主要部分：分段(f_seg)、命名实体分类(f_slt)，以及意图分类(f_int)。

f(I，S，L：Z，θ)＝f_int(I；Z)+f_slt(S；L，Z，θ)+f_seg(L；Z，θ) (1)

分层地对前两个部分建模：意图模型(f_int)(对应于命令分类器564)和实体模型(f_slt)模型(对应于实体类型分类器508)。第三部分的分段器(f_seg)(对应于分段器504)产生命名实体类型在话语内的定位。分段器的输入和输出的实例在表2中示出。这表示为线性函数以强调以下事实：它也可以被训练为结构化感知机或支持向量机(SVM)。为了说明，描述对数线性模型。

话语：播放蓝草音乐

分段：“蓝草”→分段“音乐”→分段

表2：给定话语的分段的实例。在这种情况下，从话语中提取“蓝草”和“音乐”作为候选命名实体。

分层地对意图/命令和实体建模。对于意图，整个话语(Z)输入到模型，并且输出(I)是从根节点到中间节点或叶(即，穿过对应于具体命令的层次的路径的最后)的节点序列(i_j)。对于特征函数模型参数θ，π(i_j)是节点i_j的母节点，那么命令模型可以用公式表示为对数线性模型。当本体/层次具有j个层级时，那么f_int可以用公式表示如下：

命名实体部件类似于命令分类器，除了它以输入话语的分段(L)为条件之外。分段定义一组命名实体分段，其中开始令牌索引(l_k，s)和结束令牌索引(l_k，e)定义原始话语中的分段的范围。对于话语中的k个分段和本体的j个层级中的每一者，那么最终的模型采用以下形式：

对分段模型的输入是话语文本，并且输出是定义每个命名实体的开始位置和结束位置的对输入话语文本的分段(例如，表2)。在实例中，模型的实体部件将产生用于“蓝草”和“音乐”分段的分段标签。分段模型被训练为顺序对数线性模型，其中每个标签被视作一阶马尔可夫。

模型参数分解成过渡参数θ_t以及观察参数θo。

尽管可以共同地训练所述模型，但计算可以分散，以便实现快速训练。在意图和命名实体模型内，可以独立地训练每个部件模型。可以使用有限内存Broyden-Fletcher-Goldfarb-Shanno(L-BFGS)技术来独立地训练分段模型。分段标记附加有指示它们是在实体的开始、内部还是外部(BIO)的标签。

使用两个部分来执行推断：针对最佳分段的搜索和在给定这个分段的情况下针对最佳意图和实体的搜索。维特比解码可以用于分段模型并且单一最佳假设用作分段。与此同时，考虑到意图模型，在穿过意图层次树的可能路径上执行定向搜索。类似地，考虑到分段和意图，执行定向搜索以产生用于每个分段的实体。返回最可能配置。意图与实体之间的约束条件也(可选地)用来限制容许实体类型。所使用的特征包括n-gram、地名录和正则表达式。正则表达式和地名录仅用于分段模型。对于命名实体模型，分段n-gram以及上下文n-gram(分段中不含有的那些)两者都用作特征。对于意图模型，特征包括达到长度三的所有n-gram。

在某些实施方案中，提供的方法没有域的概念(即，特定于特征的一组共存的意图和槽)，并且因此消除手动地定义域并为它组织NLU模型的顺序过程。相反，系统可以集中于利用最小的人类注释在话语文本上对实体和意图建模、处理意图和槽的新组合，以及使得非专家容易将新的意图和槽添加到系统。

图10示出根据本公开的方面执行NLU。如图所示，系统可以接收(1002)对应于用户查询的文本。所述文本可以通过在输入音频数据上执行ASR来获得。系统可以使用与诸如上文参考图8说明的命令的分层表示对应的一个或多个第一机器学习(ML)模型来处理(1004)所述文本。所述处理可以导致确定(1006)对应于第一命令类别的第一得分并且确定(1008)对应于命令类别内的第一命令的第二得分。还可以确定与所链接的意图层次内的其他类别或其他意图对应的其他得分。系统可以使用与诸如上文参考图9说明的实体类型的分层表示对应的一个或多个第二ML模型来处理(1010)所述文本。所述处理可以导致确定(1012)对应于第一实体类型类别的第三得分并且确定(1014)对应于实体类型类别内的第一子类别的第四得分。还可以确定与实体类型层次内的其他类别或其他实体类型对应的其他得分。系统随后可以使用子类别和第一命令来确定(1016)实体。系统随后可以致使(1018)使用第一命令和所确定的实体来执行命令。

可以使用各种机器学习技术来执行对词汇分析器502、实体解析部件512、适应/映射部件514、分段504、一个或多个分类器508、564以及命令/实体类型模型的训练。模型可以根据各种机器学习技术进行训练和操作。此类技术可以包括例如推理引擎、经训练分类器等。经训练分类器的实例包括条件随机场(CRF)分类器、支持向量机(SVM)、神经网络(诸如，深度神经网络和/或递归神经网络)、决策树、与决策树结合的AdaBoost(“自适应提升”的简称)，以及随机森林。集中于作为实例的CRF，CRF是用于结构化预测的一类统计模型。具体地，CRF是一种类型的有判别力的非定向概率图模型。CRF可以在考虑样本的上下文信息的同时预测样本的类别标签。CRF可以用来对观察结果之间的已知关系编码并且构建一致的解释。CRF模型因此可以用来标记或解析某些顺序数据，比如上文描述的查询文本。分类器可以发布指示所述数据最密切地匹配哪个类别的“得分”。所述得分可以提供对数据有多密切地匹配类别的指示。

为了应用机器学习技术，机器学习过程本身需要进行训练。训练机器学习部件(诸如，在这种情况下，第一模型或第二模型中的一者)需要建立训练实例的“基本事实”。在机器学习中，术语“基本事实”是指用于监督式学习技术的训练集分类的准确性。例如，先前查询的已知类型可以用作用于训练各种部件/模型的训练集的基本事实数据。各种技术可以用来训练模型，包括反向传播、统计学习、监督式学习、半监督式学习、随机学习、随机梯度下降，或者其他已知的技术。因此，很多不同的训练实例可以用来训练本文中论述的一个或多个分类器/模型。此外，由于添加或以其他方式改变训练数据，因此可以训练新的分类器/模型以根据需要而更新分类器/模型。

图11是在概念上示出可以与所描述的系统一起使用的本地装置110的框图。图12是在概念上示出远程装置的示例性部件的框图，诸如可以帮助ASR、NLU处理或命令处理的远程服务器120。系统中可以包括多个此类服务器120，诸如用于训练ASR模型的一个或多个服务器120、用于执行ASR的一个或多个服务器、用于执行NLU的一个或多个服务器120等。在操作中，这些装置(或装置组)中的每一者可以包括驻留在相应装置(110/120)上的计算机可读且计算机可执行指令，如下文将进一步论述。

这些装置(110/120)中的每一者可以包括一个或多个控制器/处理器(1104/1204)，所述控制器/处理器可以各自包括用于处理数据和计算机可读指令的中央处理单元(CPU)，以及用于存储相应装置的数据和指令的存储器(1106/1206)。存储器(1106/1206)可以单独地包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)、非易失性磁阻式(MRAM)和/或其他类型的存储器。每个装置还可以包括用于存储数据和控制器/处理器可执行指令的数据存储部件(1108/1208)。每个数据存储部件可以单独地包括一个或多个非易失性存储类型，诸如，磁存储、光学存储、固态存储等。每个装置还可以通过相应的输入/输出装置接口(1102/1202)连接到可移动或外部非易失性存储器和/或存储(诸如，可移动存储卡、存储键驱动装置、网络存储等)。

用于操作每个装置(110/120)以及其各种部件的计算机指令可以由相应装置的一个或多个控制器/处理器(1104/1204)在运行时将存储器(1106/1206)用作临时“工作”存储来执行。装置的计算机指令可以以非暂时性方式存储在非易失性存储器(1106/1206)、存储(1108/1208)或者一个或多个外部装置中。或者，除了软件之外或代替软件，可执行指令中的一些或全部可以嵌入在相应装置上的硬件或固件中。

每个装置(110/120)包括输入/输出装置接口(1102/1202)。多种部件可以通过输入/输出装置接口进行连接，如下文将进一步论述。另外，每个装置(110/120)可以包括用于在相应装置的部件之间传递数据的地址/数据总线(1124/1224)。除了在总线(1124/1224)上连接到其他部件之外(或代替于此)，装置(110/120)内的每个部件也可以直接连接到其他部件。

参考图11的装置110，装置110可以包括显示器1118，所述显示器1118可以包括触摸接口1119。或者，装置110可以是“无头的”并且可以主要依赖于口头命令进行输入。作为向用户指示与另一装置之间的连接已经断开的方式，装置110可以被配置有视觉指示器，诸如LED或类似部件(未示出)，所述视觉指示器可以改变颜色、闪光或以其他方式提供装置110的视觉指示。装置110还可以包括连接到诸如音频输出部件的多种部件的输入/输出装置接口1102，所述音频输出部件诸如扬声器1160、有线耳机或无线耳机(未示出)，或者其他能够输出音频的部件。装置110还可以包括音频捕获部件。音频捕获部件可以是例如麦克风1150或麦克风阵列、有线耳机或无线耳机(未示出)等。麦克风1150可以被配置成捕获音频。如果包括麦克风阵列，那么可以基于由阵列中的不同麦克风捕获的声音之间的时间和振幅差异对到声音原点的距离执行声学定位。装置110(使用麦克风1150、唤醒词检测模块220、ASR模块250等)可以被配置成确定与检测到的音频数据对应的音频数据。装置110(使用输入/输出装置接口1102、天线1114等)还可以被配置成将音频数据传输到服务器120以供进一步处理，或者使用诸如唤醒词检测模块220的内部部件来处理数据。

例如，经由一根或多根天线，输入/输出装置接口1102可以经由无线局域网(WLAN)(诸如WiFi)无线电、蓝牙和/或无线网络无线电连接到一个或多个网络199，所述无线网络无线电诸如能够与诸如长期演进(LTE)网络、WiMAX网络、3G网络等无线通信网络通信的无线电。也可以支持有线连接，诸如以太网。通过一个或多个网络199，语音处理系统可以分布在网络环境上。

装置110和/或服务器120可以包括ASR模块250。装置110中的ASR模块可以具有有限或扩展功能。ASR模块250可以包括存储在ASR模型存储部件252中的语言模型254，以及执行自动语音识别过程的ASR模块250。如果包括有限语音识别，那么ASR模块250可以被配置成识别有限数量的词，诸如由装置检测到的关键词，而扩展语音识别可以被配置成识别大得多的范围的词。

装置110和/或服务器120可以包括有限或扩展NLU模块260。装置110中的NLU模块可以具有有限或扩展功能。NLU模块260可以包括词汇分析器502、分段器504、实体类型分类器508、命令分类器564、实体解析部件512、适应/映射部件514，和/或其他部件。NLU模块260还可以包括NLU存储273、存储的知识库272，或者那些存储可以单独地定位。

装置110和/或服务器120还可以包括被配置成执行与口头命令相关联的命令/功能的命令处理器290，如上文所述。

装置110可以包括唤醒词检测模块220，所述唤醒词检测模块220可以是单独部件或者可以被包括在ASR模块250中。唤醒词检测模块220接收音频数据并且检测音频中的特定表达(诸如，经配置的关键词)的出现。这可以包括检测具体时间段上的频率的变化，其中频率的变化导致系统识别为对应于关键词的具体音频签名。关键词检测可以包括分析单独的定向音频数据，诸如在波束成形(如果适用的话)后处理的那些。也可以使用关键词检测(也被称为关键词定位)领域中已知的其他技术。在一些实施方案中，装置110可以被配置成共同地识别一组定向音频数据，其中检测到唤醒表达或其中有可能已经出现唤醒表达。

唤醒词检测模块220接收所捕获的音频并且处理所述音频(例如，使用一个或多个模型232)以确定所述音频是否对应于可由装置110和/或系统100识别的特定关键词。存储1108可以存储与关键词和功能相关的数据，以使得唤醒词检测模块220能够执行上文描述的算法和方法。在装置110被用户配置成访问网络之前，本地存储的语音模型可以基于已知的信息进行预先配置。例如，所述模型可以是基于用户配置文件等特定于其中将用户装置运送到或者预期定位的区域或者特定于用户他自己/她自己的语言和/或口音。在一方面，所述模型可以使用来自另一装置的用户的语音或音频数据进行预先训练。例如，用户可以拥有用户经由口头命令操作的另一用户装置，并且这个语音数据可以与用户配置文件相关联。在用户装置110被递送给用户或被用户配置成访问网络之前，随后可以利用来自其他用户装置的语音数据并且将其用于训练装置110的本地存储的语音模型。唤醒词检测模块220可以访问存储1108并且使用音频比较、模式识别、关键词定位、音频签名和/或其他音频处理技术将所捕获的音频与所存储的模型和音频序列进行比较。

服务器可以包括模型训练部件1270。模型训练部件可以用来训练上文论述的一个或多个分类器/模型。

如上文所述，多个装置可以用在单个语音处理系统中。在此类多装置系统中，装置中的每者可以包括用于执行语音处理的不同方面的不同部件。多个装置可以包括重叠的部件。如图11和图12所示，装置110和服务器120的部件是示例性的，并且可以位于独立装置上或者可以整体或部分地被包括为更大装置或系统的部件。

如图13所示，多个装置(120、120x、110a至110f)可以含有系统100的部件，并且所述装置可以通过网络199进行连接。网络199可以包括本地或专用网络，或者可以包括诸如互联网的广域网。装置可以通过有线连接或无线连接而连接到网络199。例如，语音控制装置110a、平板计算机110b、智能电话110c、冰箱110d、智能手表110e和/或车辆110f可以借助WiFi或蜂窝网络连接等通过无线服务提供商连接到网络199。包括其他装置作为网络连接支持装置，诸如，服务器120、应用程序开发者装置120x，或者其他装置。支持装置可以通过有线连接或无线连接而连接到网络199。网络装置110可以使用一个或多个内置或连接的麦克风1150或音频捕获装置来捕获音频，其中处理由ASR、NLU或者经由网络199连接的相同装置或另一装置的其他部件(诸如，一个或多个服务器120的ASR 250、NLU 260等)来执行。

本文中公开的概念可以应用在许多不同装置和计算机系统中，包括例如通用计算系统、语音处理系统以及分布式计算环境。

本公开的上述方面意图是说明性的。它们被选择用于说明本公开的原理和应用，并且不意图为详尽性的或者限制本公开。本领域的技术人员可以明白所公开的方面的很多更改和变化。计算机和语音处理领域的普通技术人员应认识到，本文中描述的部件和过程步骤可以与其他部件或步骤或者部件或步骤的组合互换，并且仍实现本公开的益处和优点。此外，本领域的技术人员将明白，可以在不具有具体细节和本文中公开的步骤中的一些或全部的情况下实践本公开。

所公开的系统的方面可以实施为计算机方法或者实施为制品，诸如存储器装置或非暂时性计算机可读存储介质。计算机可读存储介质可以由计算机读出并且可以包括用于致使计算机或其他装置执行本公开中描述的过程的指令。计算机可读存储介质可以由易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存盘、可移动磁盘和/或其他介质实施。另外，模块和引擎中的一者或多者的部件可以在固件或硬件中实施，诸如声学前端256，其除了别的之外包括模拟和/或数字滤波器(例如，被配置为数字信号处理器(DSP)的固件的滤波器)。

如本公开中所使用，除非另有明确陈述，否则术语“一种”或“一个”可以包括一个或多个物项。此外，除非另有明确陈述，否则短语“基于”意图是指“至少部分地基于”。

条款

1.一种计算机实施的方法，所述计算机实施的方法包括：

接收对应于话语的文本；

创建第一数据，所述第一数据指示所述文本的第一个词是名词；

由条件随机场分类器来处理所述文本和所述第一数据，以确定所述文本对应于命令并且所述第一个词对应于知识库中的实体；

使用第一对数线性(LLM)分类器来处理所述文本，以确定：

表示所述文本对应于播放媒体命令类别的可能性的第一得分，

表示所述文本对应于播放歌曲命令的第二得分，其中所述播放歌曲命令是在所述播放媒体命令类别内的命令，以及

表示所述文本对应于播放书文本命令的第三得分，其中所述播放书文本命令是在所述播放媒体命令类别内的命令；

确定所述第二得分高于所述第一得分和所述第三得分；

使用第二LLM分类器来处理所述文本以确定：

表示所述第一个词对应于人类别的可能性的第四得分，以及

表示所述第一个词对应于音乐家类别的第五得分，其中所述音乐家类别是所述人类别的子集；

确定所述第五得分高于所述第四得分；

使用所述音乐家类别和所述知识库来识别对应于所述第一个词的音乐家；

从所述知识库接收第一音乐作品与所述音乐家相关联的指示；以及

致使输出对应于所述第一音乐作品的音频。

2.如条款1所述的计算机实施的方法，其中使用所述第一LLM分类器来处理所述文本还确定表示所述文本对应于获取信息命令类别的可能性的第六得分，所述方法还包括，在确定所述第二得分之前：

确定所述第一得分超出阈值；以及

确定所述第六得分低于所述第一得分。

3.如条款1所述的计算机实施的方法，所述计算机实施的方法还包括：

确定所述第一个词对应于将要识别的实体；

创建所述第一个词对应于所述将要识别的实体的第二指示；

使用所述第一LLM分类器来处理所述第二指示以确定所述第一得分、所述第二得分和所述第三得分；以及

使用所述第二LLM分类器来处理所述第二指示以确定所述第四得分和所述第五得分。

4.如条款1所述的计算机实施的方法，所述计算机实施的方法还包括：

创建所述第一个词对应于所述音乐家的第二指示；以及

使用所述第一LLM分类器来处理所述第二指示以确定所述第一得分、所述第二得分和所述第三得分。

5.一种计算机实施的方法，所述计算机实施的方法包括：

接收对应于用户查询的文本；

使用分类器来处理所述文本以确定：

表示所述文本对应于第一命令类别的可能性的第一得分，

表示所述文本对应于所述第一类别内的第一命令的可能性的第二得分，以及

表示所述文本对应于不在所述第一类别内的第二命令的可能性的第三得分；以及

使用所述第一得分、所述第二得分和所述第三得分来确定所述文本对应于所述第一命令。

6.如条款5所述的计算机实施的方法，其中所述分类器对应于命令的分层表示，并且其中所述处理在确定所述第二得分或所述第三得分之前先确定所述第一得分。

7.如条款5所述的计算机实施的方法，所述计算机实施的方法还包括：

将所述文本的一部分发送到知识库；

从所述知识库接收与所述文本中提及的实体相关的数据；以及

使用所述分类器来处理所述数据以确定所述第一得分、所述第二得分和所述第三得分。

8.如条款5所述的计算机实施的方法，所述计算机实施的方法还包括使用所述分类器来处理所述文本以进一步确定对应于第二命令类别的第四得分，其中所述第一类别不与所述第二类别重叠，并且其中所述第二命令在所述第二类别内。

9.如条款5所述的计算机实施的方法，其中确定所述文本对应于所述第一命令包括确定所述第二得分高于所述第三得分。

10.如条款5所述的计算机实施的方法，所述计算机实施的方法还包括：

使用对应于实体类型的分层表示的第二分类器来处理所述文本，以确定对应于第一实体类别的第四得分；以及

使用所述第一实体类别和知识库来识别所述第一实体类别内的第一实体。

11.如条款10所述的计算机实施的方法，所述计算机实施的方法还包括：

使用第三分类器来识别所述文本的对应于实体的一部分；以及

创建所述部分对应于实体的指示，

其中使用所述第二分类器来处理所述文本还包括使用所述第二分类器来处理所述指示以确定所述第四得分。

12.如条款5所述的计算机实施的方法，所述计算机实施的方法还包括：

接收音频数据；以及

执行语音识别处理以确定所述文本。

13.一种系统，所述系统包括：

至少一个处理器；以及

存储器，所述存储器包括指令，所述指令可操作以由所述至少一个处理器执行以便执行一组动作，所述一组动作用于将所述至少一个处理器配置成：

接收对应于用户查询的文本；

使用分类器来处理所述文本以确定：

表示所述文本对应于第一命令类别的可能性的第一得分，

表示所述文本对应于不在所述第一类别内的第二命令的可能性的第三得分；并且

14.如条款13所述的系统，其中所述分类器对应于命令的分层表示，并且其中所述处理在确定所述第二得分或所述第三得分之前先确定所述第一得分。

15.如条款13所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

将所述文本的一部分发送到知识库；

从所述知识库接收与所述文本中提及的实体相关的数据；并且

16.如条款13所述的系统，其中所述指令进一步将所述至少一个处理器配置成：使用所述分类器来处理所述文本以进一步确定对应于第二命令类别的第四得分，其中所述第一类别不与所述第二类别重叠，并且其中所述第二命令在所述第二类别内。

17.如条款13所述的系统，其中将所述至少一个处理器配置成确定所述文本对应于所述第一命令的所述指令包括将所述至少一个处理器配置成确定所述第二得分高于所述第三得分的指令。

18.如条款13所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

使用对应于实体类型的分层表示的第二分类器来处理所述文本，以确定对应于第一实体类别的第四得分；并且

19.如条款18所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

使用第三分类器来识别所述文本的对应于实体的一部分；并且

创建所述部分对应于实体的指示，

其中将所述至少一个处理器配置成使用所述第二分类器来处理所述文本的所述指令还包括将所述至少一个处理器配置成使用所述第二分类器来处理所述指示以确定所述第四得分的指令。

20.如条款13所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

接收音频数据；并且

执行语音识别处理以确定所述文本。

Claims

1.一种计算机实施的方法，所述计算机实施的方法包括：

接收对应于用户查询的文本；

使用分类器来处理所述文本以确定：

表示所述文本对应于第一命令类别的可能性的第一得分，

2.如权利要求1所述的计算机实施的方法，其中所述分类器对应于命令的分层表示，并且其中所述处理在确定所述第二得分或所述第三得分之前先确定所述第一得分。

3.如权利要求1所述的计算机实施的方法，所述计算机实施的方法还包括：

将所述文本的一部分发送到知识库；

4.如权利要求1所述的计算机实施的方法，所述计算机实施的方法还包括使用所述分类器来处理所述文本以进一步确定对应于第二命令类别的第四得分，其中所述第一类别不与所述第二类别重叠，并且其中所述第二命令在所述第二类别内。

5.如权利要求1所述的计算机实施的方法，其中确定所述文本对应于所述第一命令包括确定所述第二得分高于所述第三得分。

6.如权利要求1所述的计算机实施的方法，所述计算机实施的方法还包括：

7.如权利要求6所述的计算机实施的方法，所述计算机实施的方法还包括：

创建所述部分对应于实体的指示，

8.如权利要求1所述的计算机实施的方法，所述计算机实施的方法还包括：

接收音频数据；以及

执行语音识别处理以确定所述文本。

9.一种系统，所述系统包括：

至少一个处理器；以及

接收对应于用户查询的文本；

使用分类器来处理所述文本以确定：

表示所述文本对应于第一命令类别的可能性的第一得分，

10.如权利要求9所述的系统，其中所述分类器对应于命令的分层表示，并且其中所述处理在确定所述第二得分或所述第三得分之前先确定所述第一得分。

11.如权利要求9所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

将所述文本的一部分发送到知识库；

12.如权利要求9所述的系统，其中所述指令进一步将所述至少一个处理器配置成：使用所述分类器来处理所述文本以进一步确定对应于第二命令类别的第四得分，其中所述第一类别不与所述第二类别重叠，并且其中所述第二命令在所述第二类别内。

13.如权利要求9所述的系统，其中将所述至少一个处理器配置成确定所述文本对应于所述第一命令的所述指令包括将所述至少一个处理器配置成确定所述第二得分高于所述第三得分的指令。

14.如权利要求9所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

15.如权利要求9所述的系统，其中所述指令进一步将所述至少一个处理器配置成：

接收音频数据；并且

执行语音识别处理以确定所述文本。