CN105378699B

CN105378699B - 基于机器学习的自动任务分类

Info

Publication number: CN105378699B
Application number: CN201480039347.5A
Authority: CN
Inventors: H·S·申; R·苏基坦; S·慕克吉; 尹红风; Y·孙; 秋永和计; P·苏巴希奇
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-11-27
Filing date: 2014-11-25
Publication date: 2018-12-18
Anticipated expiration: 2034-11-25
Also published as: EP3074877A1; KR20160053905A; JP6440732B2; WO2015081128A1; US9471887B2; JP2017505964A; CN105378699A; KR101770527B1; US20160019471A1; EP3074877A4

Abstract

提供了一种系统和方法，其使用机器学习算法处理多个任务类别中的每一个中的人工生成的请求的训练数据库，以开发任务分类器模型，该任务分类器模型可以应用于随后的用户请求以为随后的用户请求确定任务类别中最可能的一个。

Description

基于机器学习的自动任务分类

相关申请

本申请要求2013年11月27日提交的美国临时专利申请61/909,992的权益，将该临时申请的全部内容并入本文中。

技术领域

本公开大体上涉及个人助理应用，并且更具体地，涉及基于机器学习的用户请求的处理。

背景技术

已经开发了各种个人助理软件应用，它们通过执行相应任务而响应用户的文本或自然语言请求。例如，由智能手机用户访问的个人助理应用可以查找电话号码并且拨打电话，搜索餐馆，起草和发送电子邮件，制定日历项等等。在这方面，特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异，传统的个人助理软件应用在正确地执行用户的期望请求方面容易出错。此外，最终的应用趋向于临时性的并且因此难以应用于不同的语言。

因此，在本领域内存在对于独立于语言的改进系统的需求，其在分类和执行用户所需的任务方面具有更好的精确度。

发明内容

为了提供针对任务分类和执行的更高精确度，提供了利用机器学习算法进行任务分类的系统和方法。针对用户如何表达多个任务类别中的请求，从各种用户生成训练数据库。通过调查足够多的用户，单个用户如何表达给定的期望任务的自然变化可以被恰当地采样。例如，针对呼叫特定方(例如，其母亲)的任务，一个用户可以将其表达为“呼叫妈”，而另一用户可能将其表达为“请呼叫妈”或者“呼叫母亲”。例如，可以通过众包(crowdsourcing)生成相对大的训练数据库以表征给定的任务被不同用户表达的方式的这些变化。最终的训练数据库可以包含数以千计的用户针对请求多个任务类别中的特定任务的响应。由于已知用户期望特定的任务的先验，最终的用户请求对于其分类是明确的。因此，训练数据库可以具有各种用户请求的大量实例，其全部都被组织到其适当的任务类别中。

随后，可以通过各种机器学习算法利用这种高质量训练数据库。例如，每个数据库用户请求可以被转换成特征向量或者其他数学表示。因此，训练数据库将会包括对于每个任务类别的各种特征向量，每个特征向量对应于给定的训练数据库用户的请求。每个特征向量的维数取决于期望的复杂度。例如，给定用户的请求中的每个独一的词(或词组)可以对应于特征向量维度。每个特征向量维度的权重可以取决于相应的词或词组在相应的用户的请求中出现了多少次。可选地，权重可以是二进制的，从而加权仅仅取决于给定的词或词组是否在用户请求中出现。然后，最终的特征向量可以用于训练机器学习算法，例如支持向量机，以确定每个任务的各种用户请求是如何在特征向量空间中集群的任务分类器模型。

由于在对于各种任务的人工生成的请求的高质量训练数据库上进行这种先验机器学习以形成任务分类器模型，额外用户请求就可以根据任务分类器模型被稳健地实时分类。换言之，接收的用户请求可以被轻易地转换成文本(在自然语言输入的情况下)，并且相应的文本根据预先确定的任务分类器模型被转换成特征向量并被分类成任务类别中的预测任务类别。这个过程不仅增加了任务分类的精确度，还是不依赖于语言的：仅仅需要收集其他语言的训练数据库以扩展该过程，从而适应相应语言的用户请求。

为了增加任务执行的精确度，可以基于预测任务的标识来进一步处理用户的请求，从而确定其具体查询(如果有的话)。在这方面，每个任务类别可以与各种查询类别相关。例如，假设用户请求已经被分类成“餐厅搜索”任务类别。这种任务分类可以与各种查询分类相关，例如“餐厅类型”(例如意大利餐或中餐)和“餐厅位置”(例如，帕罗奥多(PaloAlto))。给定用户请求中的查询分类的实例化在本文中被表示为“查询”。例如，“在PaloAlto找一家好的意大利餐厅”的用户请求可以被处理以提取烹饪查询(意大利)和位置查询(Palo Alto)。为了增加查询提取的精确度，可以开发查询类别和相应的可能查询的词典。例如，词典可以包括对于位置查询类别中的每个可能位置的条目。然后，查询提取可以包括识别用户的请求中匹配的词典条目，其随后被轻易地与词典中的相应查询分类相关联。

任务执行模块可以通过调用适当的应用编程接口(API)来使用预测任务和任何相关的查询。例如，利用提供餐厅搜索服务的外部搜索提供商(例如“Yelp”)，可以最佳地执行餐厅搜索任务。另一方面，如果预测任务是呼叫发起，则相关的查询将通过用于用户的便携式设备中的蜂窝电话功能的API被传输。

通过下述详细说明，可以更好地理解本文公开的系统和方法的其他特征和优势。

附图说明

图1是根据本公开实施方式的用于执行用户请求的系统的框图。

图2示出了在用户请求的任务分类之后的从用户请求的查询提取。

图3是图1的系统中的任务分类模块的更详细的框图。

图4示出了用于创建图3的任务分类模块所使用的任务分类器模块的模块。

图5是图1的系统中的查询提取模块的更详细的框图。

图6是图1的系统中的任务执行模块的更详细的框图。

图7示出了根据本公开实施方式的配置成执行用户请求的计算机系统。

通过参阅下文的详细说明将最佳地理解本发明的实施方式及其优势。应该意识到，类似的附图标记用于标识一个或多个附图中的类似元件。

具体实施方式

下文列出的详细说明连同附图旨在描述各种配置，并且不意图代表可以实施本文描述的构思的仅有配置。为了提供对各种概念的透彻理解，详细说明包括具体细节。然而，本领域技术人员显而易见的是，这些构思可以在没有这些具体细节的情况下实施。在一些例子中，为了避免模糊这些构思，公知的结构和部件以框图形式示出。

为了提供用于通过个人助理应用执行用户请求的更大准确性，通过机器学习算法在先前记录的针对一组任务的用户请求的训练数据库上训练任务分类器。例如，众包(crowd sourcing)可以用于生成训练数据库，其包括人工生成的对于众多任务的请求。在这方面，特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异，传统的个人助理软件应用经常在正确地执行用户的期望请求方面容易出错。随着时间的推移，这些传统的个人助理应用可以通过用户的校正而从其错误中学习，从而执行适当的任务。但是这种随着时间的学习可能对于用户来说颇为沮丧，从而使得用户放弃使用个人助理应用，而不是花费校正与执行用户意图相关的不可避免的错误所需的时间。

鲜明对比之下，本文公开的系统和方法使用在训练数据库上训练的任务分类器以预测用户请求的相应任务，从而用户不需要克服训练障碍来实现准确的结果。此外，识别的任务可以随后被利用于从用户请求提取查询和相应的查询类别或分类。如本文所使用的，与从用户请求提取查询相关的术语“查询”指给定任务的特定参数。基于任务，这些参数可以被组织为分类。例如，餐厅搜索通常会识别用户期望的烹饪类型以及期望地点。烹饪类型和期望位置均包括查询分类。“查询”随后会包括每个查询分类的具体实例。例如，“在PaloAlto查找意大利餐厅”的用户请求将具有对于烹饪类别“意大利”查询以及对于期望位置“Palo Alto”的查询。注意到，通过响应于预测的任务而执行，这种查询提取的精度被大大提高。对于查询提取，每个任务类别可以与可能的查询以及其相应的查询类别的词典相关联。一旦用户请求被分类成特定的预测任务，就可以将用户请求与对于该任务的相应词典比较，以识别任何查询和相应的查询分类的匹配。

任务执行模块可以随后利用预测的任务以及相应查询的识别来执行用户的请求。例如，任务执行模块可以使用预测的任务来将查询发送至相应的应用编程接口(API)。不论是否选择了API，与常规方法相比，最终的任务执行都显著地更加精确。现在将讨论一些示例性实施方式。

示例性实施方式

现在转到附图，图1示出了用于执行用户请求(例如通过自然语言输入110接收的)的示例性系统100。系统100用于处理例如由自然语言输入110表示的用户请求，以预测用户期望的相应任务。系统100被便捷地配置为将用户请求分类成对应于选自一组潜在任务类别的给定任务。可以由系统100服务的该组潜在任务的大小仅仅是一种设计选择，如本文进一步讨论的。这是尤其有利的，因为系统100由此可以轻易地缩放。此外，如本文将进一步解释的，系统100也可以轻易地适用于除英语之外的其他语言。

输入至文本转换器模块120的自然语言输入将用户的自然语言输入110转换成文本输入130。可选地，用户可以直接提供文本输入130，而不是提供(口头的)自然语言输入110。任务分类器模块140处理文本输入130以预测用户的期望任务，如本文将进一步解释的。基于任务分类器模块140确定的预测任务，查询提取器模块150处理文本输入130以提取查询和相应的查询分类。示例性的查询提取220在图2中示出。在这种情况下，“在Palo Alto找一家好的意大利餐厅”的用户请求已经由图1中的任务分类器模块140被分类为餐厅搜索任务。餐厅搜索任务包括两个查询分类：餐厅的类型以及位置。系统100的查询提取器150分析用户请求以识别每个查询分类的实例化--换句话说，查询提取器150识别每个查询分类的相应查询。在图2的实例中，最终的查询220是意大利餐厅和Palo Alto。再次参考图1，任务执行接口模块160使用预测任务来选择适当的任务执行接口，例如任务执行模块170中的API。

现在将更加详细地讨论系统100中的各种模块的操作。任务分类器模块140的扩展框图在图3中示出。模块140中的特征提取器模块310处理文本输入130以提取特征向量320。这种提取也在图4的训练数据集400上执行。训练数据集400包括许多先前收集的针对各种任务类别或分类的用户请求。在图4的实施方式中，有32种任务分类。每种任务的用户请求被分配有相同的任务ID，其可以包括整数。例如，训练数据集400可以涵盖下面表1中的任务：

表1

应该意识到，对于不同的实施方式，任务类别的数量可以轻易地改变。训练数据集400可以由众包、其他自然语言的现有训练数据的翻译、站点抓取或其他合适的方法来生成。在众包的实施方式中，匿名的人类用户回答与他们对各种任务(例如表1的任务)的措辞有关的调查问卷。用户例如通过自然语言回复来回答问题，这些回复可以随后被转换成输入文本以建立训练数据库，该训练数据库可以使其特征向量被提取以形成训练数据集400。在特征提取之前的输入文本的示例性训练数据库在下表2中示出：

表2

餐厅搜索	附近不错的汉堡店在哪？
		…	…
电话	打电话给妈。
		…	…
电话	打电话给Joe。

在该实例中，文本输入以及相应任务的训练数据库以及相应任务的实例中，、可能的任务类别将包括“餐厅搜索”任务类别和“电话”任务类别。餐厅搜索的示例性文本是“附近不错的汉堡店在哪”。可以轻易地扩展训练数据库以包括众多成千上万由人类用户生成的这种示例性餐厅搜索。其他任务也可以由人类用户生成的数以千计的示例性文本表示。在表2中，“电话”任务包括两种示例性文本：“打电话给妈”和“打电话给Joe”。一般而言，能够被输入到训练数据库中的文本越多越好，原因是本文公开的机器学习算法从每个这样的实例中学习。由于任务已经被先验识别，因此训练数据库中的每个数据包括任务名称(任务ID)以及人类用户生成的相应的文本输入。训练数据集400中针对给定类别(例如“交通”)的所有用户请求被给予同一任务ID。相应用户请求的文本通过特征提取模块310或其等价物被转换成训练特征向量。在一种实施方式中，训练数据集400中的每个不同的词对应于二进制值所表示的特征。如果文本输入具有特定词，则对应于该词的特征的二进制值被设置为1。此外，用户请求中的每个不同的N元词(由N个词组成的词组)也可以被分配二进制值。因此，用于训练特征向量的最终特征向量空间将具有数量M的维度，其中M等于训练数据集400中找到的所有不同的词和N元词的总和。在一种实施方式中，除了单个词之外，仅二元词(两个连续词)被分配给单独的特征，以降低最终的复杂性。注意到，可以利用其他加权方案来创造训练特征向量，例如术语频率-反转文档频率(TF-IDF)。例如，图4的训练数据集400中的训练特征向量具有对于其各个维度的非整数系数。

可以考虑训练数据集400中的训练特征向量形成可以用在文本输入130中的特征(单个词和N元词)的词典。再次参考图3，特征提取器模块310针对已经用于构建训练数据集400中的训练特征向量的任何特征(单个词和任何可用的N元词)而分析用户的文本输入130。与训练数据集400中出现的词和N元词不匹配的词和N元词可以被忽略。在一种实施方式中，文本输入130中的每个匹配的特征被赋予1的二进制权重，但如上所述，这种加权可以被修改。随后，可以由任务分类器子模块330根据从训练数据集400中提取的任务分类器模型340来处理最终的特征向量320，从而从构建训练数据集400所使用的任务集中提供预测的任务350。

再次参考图4，由训练器模块410实施的机器学习算法处理训练数据集400中的训练特征向量以生成任务分类器模型340。存在可以由机器学习训练模块410实施的各种合适的机器学习算法例如，支持向量机(SVM)或朴素贝叶斯分类器。基于特定的机器学习算法，训练模块410产生的任务分类器模型340使得任务分类器子模块330能够为特征向量320确定最可能的预测任务350。在这方面，对于给定任务的训练特征向量将趋向于在由各种特征创建的向量空间中集群。基于这种集群，如果特征向量320是用于构建训练数据集400的初始训练特征向量的一部分，则任务分类器子模块330可以随后确定特征向量320将所属的最可能的任务类别。

注意到，训练特征向量上的先验机器学习完全地独立于用户所述的语言，因为特征向量不是词，而是数学实体。因此，可以仅通过生成相应的训练数据集来构建适当的任务分类器模型，而直接将系统100扩展到其他语言。因此，不管用于给定用户市场的具体语言是什么，用户都可以享受本文公开的有利的精确任务分类。不仅仅是这种任务分类比传统个人助理应用中使用的临时性技术更加准确，最终的任务分类也使得查询提取更加准确。

查询提取器模块150在图5中被更详细地示出。对于每个任务，注意到，一些任务不具有相关的查询。例如，烦闷任务涉及想要系统100对其讲笑话的用户。在一种实施方式中，除了任务分类器模块140进行的识别之外，没有烦闷任务的进一步分类。但是对于其他任务，例如呼叫任务，而言并非如此，系统100仅仅识别给定的用户请求对应于呼叫任务是不够的，因为系统100需要知道将要呼叫哪一方。如先前讨论的那样，这些额外的参数被组织到“查询分类”中。例如，餐厅搜索通常会将期望餐厅的类型识别为一个查询分类。此外，同样的餐厅搜索通常也会将地点识别为另一查询分类。给定每种任务(如果可应用)的各种查询分类的标识，随后可以形成词典530。每条词典条目都将是查询分类(也可以被表示为“标签”)和查询分类(相关查询)的特定实例的数据对。

对于词典530的形成，注意到，不能期望识别训练数据集400中的每个可能的查询，因为这必须包括可能由任何给定用户做出的每种可能的用户请求，这当然是不可能的。可能有数十亿用户能够与系统100交互，因此训练数据集400不能已经包含如此多潜在用户的每个可能的查询。但是可以轻易地分析诸如维基百科的数据库以识别给定查询分类(例如“位置”)的所有潜在查询。例如，美国或者另一期望国家的所有城镇可以从这样的数据库中被识别，并且与用于餐厅搜索任务的位置标签一起被输入到词典530。类似地，烹饪的可能类型也可以与用于餐厅搜索任务的烹饪类型标签一起被输入到词典530。其他搜索任务的标签的潜在查询也可以通过适当数据库的搜索而实例化。例如，呼叫任务的“被呼叫方的姓名”标签可以利用名(如果期望的话，也可以是姓)来实例化。这是十分有利的，因为可能的查询因此被轻易地预期并且被输入到词典530，从而一旦预测用户请求属于给定的任务类别，查询提取模块520就轻易地识别相应的查询。为了这样，模块520将文本输入130中的词与词典530中的词典条目就相关标签(查询分类)进行对比。例如，再次参考图2，短语“PaloAlto”可以在词典530中在位置标签下具有匹配。类似的，短语“意大利餐厅”可以在词典530中在烹饪类型标签下具有匹配。以这种方式，给定的文本输入130由系统100轻易地识别以识别其贴切的查询500。

如图6所示，任务执行接口模块160使用预测的任务350来确定任何外部内容提供商是否是必须的。某些任务不需要外部内容提供商，例如呼叫任务。另一方面，可以利用外部搜索提供商执行餐厅搜索。因此，任务执行模块160将任何相关的查询路由至任务执行模块170中的适当API。需要外部搜索提供商的查询被路由至相应的内容提供商的API 620。相反，需要用户设备的内部功能的查询被路由至相应的内部功能API 610。

可以利用一个或多个计算机来实施系统100，或者替代地，可以利用配置的FPGA或ASIC来实例化系统100。用于实施系统100的一个或多个模块的适当计算机系统700在图7中示出。管理员可以利用显示器711、键盘704和音频/视频I/O 705来配置系统700。系统700包括通过总线702耦接到指令的存储器714的至少一个处理器。总线702还通过网络接口706和通信链路718耦接至网络750，例如因特网。以这种方式，用户的交互(例如图1的自然语言输入110)可以轻易地由系统700从网络750接收。存储在存储器714中的指令可以以Java或者其他适当的程序语言编写，其中，这些指令由处理器712执行以实施本文讨论的各种模块。

现在，本领域技术人员将意识到，取决于当前特定的应用，可以在本公开的材料、装置、配置和设备的使用方法中(或对它们)进行许多改进、替换和改变，而不脱离本公开的精神和范围。鉴于这点，本公开的范围不应该被限制于本文所示出和描述的特定实施方式的范围，这是因为这些实施方式仅仅是通过其一些实例来展示，本公开的范围应该与随附权利要求及其功能性等价物的范围完全相当。

Claims

1.一种机器实施的方法，包括：

请求多个用户针对多个任务类别的每一个生成人工生成的用户请求，以收集人工生成的用户请求从而创建用户请求的训练数据库，人工生成的用户请求中的每个用户请求独一地对应于多个任务类别中的一个；

针对每个任务类别，通过为对应的用户请求中的每个不同词分配数字值而从训练数据库中的对应的用户请求提取训练特征向量，以形成对于每个任务类别具有训练特征向量的训练数据集；

针对每个任务类别，分析训练数据集中的每个人工生成的用户请求以为所述训练特征向量识别至少一个查询分类，用于每个任务类别的所述至少一个查询分类对应于利用用于用户的便携式设备或外部内容提供商中的一个的结果查询，以用于处理；

针对每个任务类别，处理对应于任务类别的训练数据集和所述至少一个查询分类中的训练特征向量，以为任务类别确定任务分类器模型；

从用户接收额外请求，该额外请求可以被分类到多个任务类别中的一个中；及

在机器中比较来自额外请求的提取的特征向量和任务分类器模型，从而识别哪个任务类别对应于额外请求。

2.如权利要求1所述的机器实施的方法，还包括：

在机器中比较额外请求中的词和识别的任务类别的所述至少一个查询分类的可能值的词典，以识别额外请求中的匹配词或词组。

3.如权利要求2所述的机器实施的方法，还包括：

通过使用匹配词或词组服务额外请求。

4.如权利要求1所述的机器实施的方法，还包括：

确定识别的任务类别是否需要所述外部内容提供商来完成，或者识别的任务类别是否能够由用户的所述便携式设备执行；

响应于确定识别的任务类别需要所述外部内容提供商来完成，调用外部内容提供商的应用程序接口；及

响应于确定识别的任务类别能够由便携式设备执行，调用便携式设备上的程序的应用程序接口。

5.如权利要求4所述的机器实施的方法，其中，便携式设备包括蜂窝电话。

6.如权利要求1所述的机器实施的方法，其中，额外请求包括自然语言请求，该方法还包括：

将自然语言请求转换成文本输入；及

从文本输入中提取被提取的特征向量。

7.如权利要求1所述的机器实施的方法，其中，处理训练数据集以确定任务分类器模型包括将机器学习算法应用于训练数据集。

8.如权利要求7所述的机器实施的方法，其中，机器学习算法包括支持向量机器训练算法。

9.如权利要求7所述的机器实施的方法，其中，机器学习算法包括朴素贝叶斯算法。

10.如权利要求1所述的机器实施的方法，其中，任务类别包括餐厅搜索任务类别、呼叫任务类别、电子邮件任务类别和交通任务类别。