CN111712834A

CN111712834A - 用于推断现实意图的人工智能系统

Info

Publication number: CN111712834A
Application number: CN201980013034.5A
Authority: CN
Inventors: P·N·贝内特; M·M·哈斯加瓦; N·戈特比; R·W·怀特; A·杰哈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-02-12
Filing date: 2019-02-05
Publication date: 2020-09-25
Anticipated expiration: 2039-02-05
Also published as: CN111712834B; EP3732625A1; US20190251417A1; WO2019156939A1

Abstract

使人工智能系统能够根据用户输入推断现实意图，并自动建议和/或执行与预测的意图相关联的动作的技术。在一个方面，从被识别为包含现实意图的可采取动作的语句中提取核心任务描述。机器分类器接收核心任务描述、可采取动作的语句和用户输入，以预测用户输入的意图类别。可以基于在训练语料库上提取的核心任务描述的弱标记群集，使用无监督学习技术来训练机器分类器。核心任务描述可以包括动词‑宾语对。

Description

用于推断现实意图的人工智能系统

背景技术

诸如智能手机和个人计算机之类的现代个人计算设备越来越具有支持复杂计算系统(例如，以新颖方式与人类用户进行交互的人工智能(AI)系统)的能力。AI的一种应用是意图推断，其中设备可以通过分析用户通信的内容来推断某些类型的用户意图(称为，“现实意图”)，并进一步响应于推断的意图而采取相关且及时的动作，而无需用户发出任何明确的命令。

用于意图推断的AI系统的设计需要用于训练和实施机器分类器的新颖且高效的处理技术，以及用于使AI系统与代理应用程序进行接口以响应于所推断的意图来执行外部动作的技术。

附图说明

图1示出了本公开内容的示例性实施例，其中用户A和用户B使用聊天应用程序参与消息收发会话。

图2示出了本公开内容的替代示例性实施例，其中，用户使用设备上的电子邮件客户端来撰写新的电子邮件消息。

图3示出了本公开内容的替代示例性实施例，其中，用户与在设备上运行的数字助理进行语音对话。

图4根据本公开内容，示出了数字助理可以响应于图1的场景而采取的示例性动作。

图5根据本公开内容，示出了用于处理用户输入以识别意图执行任务语句、预测意图、和/或建议并执行可采取动作的任务的方法的示例性实施例。

图6示出了用于实现图5的方法的人工智能(AI)模块的示例性实施例。

图7示出了用于训练机器分类器以在给定各种输入特征的情况下预测可采取动作的语句的意图类别的方法的示例性实施例。

图8A、8B和8C共同地示出了根据图7的方法的训练的示例性实例，其示出了本公开内容的某些方面。

图9示意性地示出了可以以所描述的方式，通过处理语料库项目导出的其它聚类和标记的意图。

图10示出了根据本公开内容的方法的示例性实施例。

图11示出了根据本公开内容的装置的示例性实施例。

图12示出了根据本公开内容的装置的替代示例性实施例。

具体实施方式

本文描述的技术的各个方面通常针对于通过数字设备的用户输入来推断现实意图的技术。在本说明书和权利要求书中，现实意图是引起该设备能够向用户提供协助的任务(本文称为“可采取动作的任务”)的用户意图。可采取动作的语句是指可采取动作的任务的语句。

在一个方面，根据用户输入识别出可采取动作的语句，并且从该可采取动作的语句中提取核心任务描述。机器分类器基于核心任务描述、用户输入以及其它上下文功能，预测每个可采取动作的语句的意图类别。可以使用有监督或无监督的学习技术来训练机器分类器，例如，基于从训练语料库中提取的核心任务描述的弱标记聚类。在一个方面，聚类可以是基于核心任务描述中的动词-宾语对的文本和语义相似性。

下面结合附图阐述的具体实施方式旨在描述示例性方式“作为示例、实例或说明”，但并不是必需被解释为比其它示例性方面更优选或更具优势。为了提供对本发明的示例性方面的透彻理解，具体实施方式包括特定的细节。对于本领域普通技术人员来说显而易见的是，可以在没有这些特定细节的情况下实践本发明的示例性方面。在一些实例中，以框图形式示出了众所周知的结构和设备，以避免使本文所呈现的示例性方面的新颖性难以理解。

图1、图2和图3示出了本公开内容的示例性实施例。应当注意，示出的实施例仅出于说明目的，其并不意味着将本公开内容的范围限制于可以应用所公开的技术的任何特定应用、场景、上下文或平台。

图1示出了本公开内容的示例性实施例，其中，用户A和用户B使用个人计算设备(本文为“设备”，在图1中未显式示出)(例如，智能手机、膝上型计算机或桌面型计算机等等)，参与数字消息会话100。参考消息会话100的内容，用户A和用户B进行有关观看即将上映的电影的对话。在110处，用户B建议观看电影“超级英雄III”。在120处，用户A提议寻找该电影周六放映的门票。

此时，为了遵循获取门票的意图，用户A通常可能暂时脱离聊天会话并手动地执行某些其它任务，例如，打开web浏览器以查找电影放映时间，或者打开另一个应用程序来购买电影票，或者给电影院打电话等等。用户A还可以将其设备配置为以后提醒他购买门票的任务，或者在他的日历上预留观看电影的时间。

在前述的场景中，期望向设备(用户A或用户B的设备)提供例如用于自动地识别从消息会话100的内容中检索电影票信息的可采取动作的任务，和/或自动地执行任何相关联任务(例如，购买电影票、设置提醒等等)的能力。

图2示出了本公开内容的替代示例性实施例，其中，用户编写电子邮件消息，并准备使用设备(没有在图2中显式示出)上的电子邮件客户端发送。参见电子邮件200的内容，发件人(Dana Smith)在语句210中向收件人(John Brown)确认，她将在本周末之前以电子邮件向他发送3月费用报告。在发送电子邮件后，Dana可以例如打开文字处理和/或电子表格应用程序以编辑3月费用报告。替代地或另外地，Dana可以在她的设备上设置提醒，以便稍后执行准备费用报告的任务。

在这种场景下，期望向Dana的设备提供用于识别电子邮件200中可采取动作的任务的存在，和/或自动地启动适当的应用程序来处理该任务的能力。在可能的情况下，可能还期望使用适当的模板设置来启动应用程序(例如，使用特定于3月的特定数据字段填充的费用报告)，或者基于先前准备的报告来向收件人发送电子邮件等等。

图3示出了本公开内容的替代示例性实施例，其中用户302与在设备304上执行的数字助理(本文称为“DA”)进行语音对话300。在示例性实施例中，DA可以对应于例如来自微软公司的Cortana数字助理。应当注意，在图3中，所示的文本可以对应于在用户302和DA之间交换的语音的内容。进一步注意，虽然在对话300中对DA做出了显式的请求，但是应当理解，本公开内容的技术也可以应用于根据没有明确地针对DA或意图推断系统的用户输入来识别可采取动作的语句，例如，如上文所述的消息会话100和电子邮件200所示，或其它情况。

参照对话300，用户302在框310处可以显式地请求DA安排下周与网球教练的网球课。基于在框310处的用户输入，DA304识别安排网球课的可采取动作的任务，并在框320处确认要执行的任务的细节。

为了执行预约的任务，DA 304能够进一步检索所需的特定动作并进行执行。例如，DA304可以在设备(没有显示)上自动地启动约会计划应用程序，与网球教练John进行安排并确认约会。可以通过DA 304可用的特定上下文参数(例如，从先前的约会中获得的网球教练的身份、基于用户的先前约会和/或用户的数字日历的适当上课时间等等)，进一步通知任务的执行。

通过对话300，应当理解，意图推断系统可以期望地用隐式上下文细节来补充和定制任何识别的可采取动作的任务，例如，如可从用户与设备的累积交互中可获得的参数、用户的数字配置文件的参数、该用户当前正在与之通信的另一用户的数字资料的参数、和/或一个或多个群组(cohort)模型的参数，如下面在本文中进一步描述的。例如，基于用户通过设备安排的先前事件的历史，可以推断出用户的当前意图的某些附加细节(例如，关于要安排的网球课的优选时间、优选的网球教练、优选的电影院、用于创建费用报告的首选应用程序等等)。

在示例性方面，剧院建议可以是进一步基于设备的位置(从例如设备地理定位系统获得、或者从用户简档获得、和/或如从计划应用程序或设备执行的先前任务中获悉的用户经常光顾的优选剧院)。此外，上下文特征可以包括用户与AI系统进行通信的设备的标识。例如，从智能手机设备安排的约会更可能是个人约会，而从用于工作的个人计算机安排的约会更有可能是工作约会。

在示例性实施例中，群组模型也可以用于通知意图推断系统。具体而言，群组模型对应于沿一个或多个维度，类似于当前用户而为用户创建的一个或多个简档。这样的群组模型可以是有用的，例如，特别是由于新添加的当前用户或其它原因而导致当前用户的信息稀疏时。

依据前述的示例，期望向运行AI系统的设备提供用于根据用户输入识别可采取动作的语句的存在、对可采取动作的语句背后的意图进行分类、并进一步自动地执行与可采取动作的语句相关联的特定操作的能力。进一步期望的是，将对任务的识别和执行注入设备可能可用的上下文特征，并且接受用户对分类意图的反馈，以提高意图推断和任务执行的相关性和准确性。

图4根据本公开内容，示出了可以由AI系统响应于场景100执行的示例性动作。应当注意，仅出于说明性目的而示出图4，并且图4并不意味着将本公开内容的范围限制于任何特定类型的应用、场景、显示格式、或者可以执行的动作。

具体而言，在用户A的输入120之后，用户A的设备可以向用户A显示对话框405，如图4所示。在示例性实施例中，可以在用户A的设备处私密地显示该对话框，或者可以替代地向对话中的所有参与者都显示该对话框。根据对话框405的内容410，可以看出，设备基于框120而推断出用户A购买电影票的意图的各种参数，例如电影的标识、可能的期望放映时间、优选的电影院等等。基于推断的意图，设备可能已经在互联网上针对本地电影放映进行了查询，例如使用专用的电影票预订应用程序或者诸如Bing之类的网络搜索引擎。如框420、430所示，该设备可以进一步提议在等待用户A进一步确认时自动购买影票，并继续购买影票。

图5根据本公开内容，示出了用于处理用户输入以识别意图执行任务语句、预测意图、和/或建议和执行可采取动作的任务的方法500的示例性实施例。应当理解，可以在用于支持以上参考图1-4所描述的特征的相同设备或多个设备上运行的AI系统、或者在这些设备与其它在线或离线计算设施的组合上运行的AI系统中，执行方法500。

在图5中，在框510处，接收用户输入(或“输入”)。在示例性实施例中，用户输入可以包括计算设备通过用户界面(UI)接收的任何数据或数据流。这种输入可以包括例如文本、语音、包含手势(例如，手语)、面部表情的静态或动态图像等等。在某些示例性实施例中，例如当用户生成数据并将数据输入到设备时，设备可以实时地接收和处理该输入。替代地，可以在通过UI接收到数据之后，对数据进行存储和集中处理。

在框520处，方法500识别用户输入中一个或多个可采取动作的语句的存在。特别地，框520可以将用户输入的一个或多个片段标记为包含可采取动作的语句。应当注意，在本说明书和权利要求书中，如在框520的上下文中使用的术语“识别”或“标识”可以指代用户输入中的可采取动作的语句的识别，但不包括预测此类语句背后的实际意图或者将预测的意图与操作相关联，可以在方法500的后续阶段执行这些操作。

例如，参考图1中的会话100，方法500可以在消息会话100的框120的下划线部分处，识别可采取动作的语句。可以实时地执行该识别，例如，在用户A和用户B积极地参与他们的会话时。应当注意，会话100中不可采取动作的语句(例如，框105)以及可采取动作的语句(例如，框120)的存在，并且应当理解，框520被设计为标记诸如框120之类的语句，而不是标记诸如框105之类的语句。。

在示例性实施例中，可以使用各种技术中的任何一种来执行这种识别。例如，如在2015年5月15日提交的标题为“Management of Commitments and Requests Extractedfrom Communications and Content”的美国专利申请No.14/714,109和2015年5月15日提交的标题为“Automatic Extraction of Commitments and Requests fromCommunications and Content”的美国专利申请No.14/714,137中所描述的，可以应用用于识别承诺(即，一种类型的可采取动作的语句)的承诺分类器。在替代的示例性实施例中，识别可以在用户输入上利用条件随机场(CRF)或其它(例如，神经)提取模型，而不仅仅限于分类器。在替代的示例性实施例中，可以使用断句/分块来处理诸如文本之类的用户输入，并且可以训练分类模型以使用有监督或无监督的标签来识别可采取动作的任务语句的存在。在替代的示例性实施例中，可以应用请求分类器或其它类型的分类器以提取替代类型的可采取动作的语句。预期的是，这样的替代示例性实施例也落入本公开内容的保护范围内。

在框530处，从所识别的可采取动作的语句中提取核心任务描述。在示例性实施例中，核心任务描述可以对应于从可采取动作的语句中提取的符号(例如，词语或短语)的子集，其中选择所提取的子集以帮助预测可采取动作的语句背后的意图。

在示例性实施例中，核心任务描述可以包括从可采取动作的语句中提取的动词实体和宾语实体，本文也称为“动词-宾语对”。动词实体包括捕获动作(本文称为“任务动作”)的一个或多个符号(例如，词语)，而宾语实体包括一个或多个符号，其中这些符号表示应用该任务动作的对象。应当注意，动词实体通常可以包括一个或多个动词，但不必在句子中包括所有动词。宾语实体可以包括名词或名词短语。

动词-宾语对并不限于仅仅两个词的组合。例如，“以电子邮件发送费用报告”可以是从图2中的语句210提取的动词-宾语对。在这种情况下，“以电子邮件发送”可以是动词实体，而“费用报告”可以是宾语实体。核心任务描述的提取可以采用例如各种自然语言处理(NLP)工具中的任何一种(例如，依赖性解析器、选区树+有限状态机)等等。

在替代的示例性实施例中，框520和530可以作为单个功能框来执行，并且可以预期这种替代的示例性实施例落在本公开内容的保护范围内。例如，可以认为框520是分类操作，而可以认为框530是子分类操作，其中，认为意图是活动分类法的一部分。特别地，如果用户承诺采取行动，则在框520处，可以将该句子分类为“承诺”，而框530可以将承诺细分为例如“发送电子邮件的意图”(如果动词-宾语对对应于“发送电子邮件”或“发送每日更新电子邮件”的话)。

在框540处，通过向分配语句意图类别，使用机器分类器来预测所识别的可采取动作的语句所承载的意图。具体而言，机器分类器可以接收诸如可采取动作的语句、除了和/或包括可采取动作的语句的用户输入的其它段、在框530处提取的核心任务描述等等之类的特征。机器分类器可以进一步利用其它特征来进行预测，例如上下文特征，其包括独立于用户输入的特征(例如，从用户对设备的先前使用或者从与用户简档或群组模型相关联的参数导出的特征)。

基于这些特征，机器分类器可以将可采取动作的语句分配给多个意图类别之一，即，它可以使用意图类别来“标记”可采取动作的语句。例如，对于消息会话100，在框540处的机器分类器可以在框120处，将用户A的语句标记为“购买电影票”的意图类别，其中，该意图类别是各种不同的可能意图类别之一。在示例性实施例中，可以根据下面参考图7在本文所描述的技术，来训练机器分类器的输入-输出映射。

在框550处，方法500建议和/或执行与在框540处预测的意图相关联的动作。例如，可以在设备的UI上显示相关联的动作，并且可以要求用户确认建议的动作以进行执行。然后，设备可以执行批准的动作。

在示例性实施例中，与任何意图相关联的特定动作可以由用户预先配置，或者它们可以从可用于AI系统的意图到动作映射的数据库中导出。在示例性实施例中，可以启用方法500以启动和/或配置计算设备上的一个或多个代理应用程序来执行相关联的动作，从而扩展AI系统可以容纳的动作的范围。例如，在电子邮件200中，可以响应于将可采取动作的语句210的意图预测为准备费用报告的意图，启动电子表格应用程序。

在示例性实施例中，一旦识别了相关联的任务，则可以通过添加动作链接来丰富该任务，该动作链接连接到可以用来完成该动作的应用、服务或技能。可以通过UI以各种方式(例如，以内联、或者卡片的形式)来呈现推荐的动作，可以邀请用户每个任务选择一个或多个动作。AI系统可以支持执行选定的动作，并且将包含预编程参数的连接或链接与任务有效载荷一起提供给其它应用程序。在示例性实施例中，可以基于代理能力和/或用户偏好，将用于执行某些动作的细节的责任委托给代理应用程序。

在框560处，接收关于预测意图和/或相关联动作的相关性和/或准确性的用户反馈。在示例性实施例中，这种反馈可以包括：例如，建议的任务的显式用户确认(直接肯定反馈)、反馈、用户对AI系统建议的动作的拒绝(直接否定反馈)、或者用户根据AI系统的建议而选择替代的动作或者任务(间接否定反馈)。

在框570处，在框560处获得的用户反馈可以用于细化机器分类器。在示例性实施例中，可以如本文下面参考图7所描述地进行机器分类器的细化。

图6示出了用于实现方法500的人工智能(AI)模块600的示例性实施例。应当注意，示出图6仅用于说明性目的，并且其并不意味着限制本公开内容的保护范围。

在图6中，AI模块600与用户界面(UI)610交互以接收用户输入，并进一步将模块600处理的数据输出给用户。在示例性实施例中，可以将AI模块600和UI 610提供在单个设备(例如，支持上面本文参考图1-4所描述的功能的任何设备)上。

AI模块600包括耦合至UI 610的可采取动作语句识别器620。识别器620可以执行参考框520所描述的功能，例如，其可以接收用户输入并识别可采取动作的语句的存在。作为输出，识别器620生成可采取动作的语句620a，例如，其对应于被标记为包含可采取动作语句的用户输入的一部分。

可采取动作的语句620a耦合到核心提取器622。提取器622可以执行参考框530所描述的功能，例如，其可以从可采取动作的语句中提取“核心任务描述”622a。在示例性实施例中，核心任务描述622可以包括动词-宾语对。

可采取动作的语句620a、核心任务描述622a和用户输入610a的其它部分可以作为输入特征耦合到机器分类器624。分类器624可以执行参考框540所描述的功能，例如，其可以预测所识别的可采取动作的语句620a所承载的意图，并将预测的意图输出为分配的意图类别(或“标签”)624a。

在示例性实施例中，机器分类器624可以进一步接收由用户简档/上下文数据块630生成的上下文特征630a。具体而言，框630可以存储与设备或简档参数的使用相关联的上下文特征。可以通过UI 610，根据用户来导出上下文特征(例如，由用户显式地输入以设置用户简档或群组模型)，或者从用户通过UI 610与设备之间的交互来隐式地导出。也可以通过不同于UI 610的其它源(例如，通过与用户相关联的互联网配置文件)来导出上下文特征。

将意图类别624a提供给任务建议/执行框626。框626可以执行参考框550所描述的功能，例如，其可以建议和/或执行与意图标签624a相关联的动作。框626可以包括子模块628，其被配置为启动外部的应用程序或代理(在图6中没有显式示出)以执行相关联的动作。

AI模块600还包括反馈模块640，以通过UI 610来征求和接收用户反馈640a。模块640可以执行参考框560所描述的功能，例如，其可以接收关于预测的意图和/或相关动作的相关性和/或准确性的用户反馈。用户反馈640a可以用于细化机器分类器624，如在下文中参考图7所描述的。

图7示出了用于基于各种特征来训练机器分类器624以预测可采取动作的语句的意图的方法700的示例性实施例。应当注意，示出图7仅用于说明目的，并且其并不意味着将本公开内容的保护范围限制于用于训练机器分类器的任何特定技术。

在框710处，接收语料库项目以训练机器分类器。在示例性实施例中，语料库项目可以对应于包含内容的历史或参考用户输入，该内容可以用于训练机器分类器以预测任务意图。例如，上文所描述的项目100、200、300中的任何一个都可以用作语料库项目来训练机器分类器。语料库项目可以包括由当前用户或者与当前用户通信的其他用户、或者与当前用户共享通信的其他用户等等生成的项目。

在框720处，从接收到的语料库项目中识别可采取动作的语句(本文称为“训练语句”)。在示例性实施例中，可以以与参考框520所描述的用于识别可采取动作语句相同或相似的方式来执行识别训练语句。

在框730处，从每个识别的可采取动作的语句中提取核心任务描述(本文称为“训练描述”)。在示例性实施例中，可以以与参考框530所描述的用于提取核心任务描述(例如，基于动词-宾语对的提取)的相同或相似的方式，来执行提取训练描述。

在框732处，将训练描述分组到“聚类”中，其中每个聚类包括被裁定为具有相似意图的一个或多个训练描述。在示例性实施例中，可以使用词袋模型(bag-of-words model)来表示基于文本的训练描述，并且可以使用诸如K均值之类的技术进行聚类。在替代的示例性实施例中，可以实施用于实现类似功能的任何表示。

在训练描述包括动词-宾语对的示例性实施例中，可以在两个或更多阶段中进行聚类，其中在初始阶段，将共享类似宾语实体的对组合在一起。例如，对于单个宾语“电子邮件”，一个人可以“写”、“发送”、“删除”、“转发”、“草拟”、“传递”、“工作于”等等。因此，在第一阶段，可以将共享宾语“电子邮件”的所有这样的动词-宾语对(例如，“写电子邮件”、“发送电子邮件”等等)分组到同一聚类中。

因此，在聚类的第一阶段，可以首先基于相应对象的文本相似性，将训练描述分组到第一组聚类中。随后，在第二阶段，可以基于相应动词的文本相似性，将第一组聚类细化到第二组聚类中。在第二阶段的细化可以包括：例如，将训练描述从第一组聚类重新分配到不同的聚类，从第一组聚类中去除训练描述，创建新的聚类等等。

在框732之后，在继续训练之前，判断是否还有更多的语料库项目要处理。如果有，则方法700返回到框710，并且处理其它语料库项目。否则，该方法转到框734。应当理解的是，对语料库项目的多个实例执行框710-732，导致将所述多个训练描述分组到不同的聚类中，其中每个聚类与不同的意图相关联。

在框734处，可以进一步由人工操作员手动标记或注释多个聚类中的每个聚类。具体而言，人工操作员可以检查与每个聚类相关联的训练描述，并用意图类别来手动注释聚类。此外，在框734处，可以手动地细化每个聚类的内容。例如，如果人工操作员认为一个聚类中的一个或多个训练描述不正确地属于该聚类，则可以将这样的训练描述删除和/或重新分配给另一个聚类。在方法700的一些示例性实施例中，在框734处的手动评估是可选的。

在框736处，每个聚类可以可选地与标记的意图有关的一组动作相关联。在示例性实施例中，框736可以由人工操作员手动地执行，或者通过众包等执行。在示例性实施例中，可以基于用户所属的群组的偏好或者普通人群的偏好，使动作与意图相关联。

在框740处，应用弱监督机器学习模型，以使用特征和相应的标记意图聚类来训练机器分类器。具体而言，在框710-736之后，包含可采取动作语句的每个语料库项目将与一个相应的意图类别相关联，例如从框734中导出的。使用标记的意图类别来训练机器分类器，以准确地将每组特征映射到相应的意图类别。应当注意，在该上下文中，“弱监督”是指使用计算技术，对每条可采取动作语句的训练描述进行自动聚类的方面，而不是要求对每个核心任务描述进行显式的人工标记。用此方式，弱监督可以有利地使得能够使用大型语料库数据集来训练机器分类器。

在示例性实施例中，机器分类器的特征可以包括派生的特征，比如所识别的可采取动作的语句、和/或从可采取动作的语句的上下文中获取的其它文本。特征可以进一步包括训练描述、来自整体语料库项目的相关上下文、来自通信语料库项目的元数据的信息、或者来自类似任务描述的信息。

图8A、图8B和图8C共同地示出了根据方法700的训练的示例性实例，其示出了方法700的执行的某些方面。应当注意，示出图8A、图8B和图8C仅仅用于示例性目的，其并不意味着将本公开内容的范围限制于执行方法700的任何特定实例。

在图8A中，将在框710处接收到的多个(N个)示例语料库项目示意性地示出为“项目1”至“项目N”，并且仅显式地示出第一语料库项目(项目1)的文本810。具体而言，文本810对应于上文中先前描述的消息会话100的框120，其被说明性地视作为用于训练的语料库项目。

在框820处，根据训练框720，在文本810中从项目1中识别可采取动作的语句的存在。在该例子中，可采取动作的语句对应于文本810的带下划线的语句。

在框830处，根据训练框730，从可采取动作的语句中提取训练描述。在所示的示例性实施例中，训练描述为动词-宾语对“购票”830a。图8A进一步示例性地示出了可以从例如其它语料库项目(图8A中没有显示)中提取的动词-宾语对(其包含与所识别的可采取动作的语句相似的意图)的其它例子830b、830c。

在框832处，根据训练框732，对训练描述进行聚类。在图8A中，示出了上面在本文所描述的聚类技术，以自动将提取的描述830a、830b、830c识别为属于相同的聚类(聚类1)。

如图7中所示，在许多语料库项目上重复训练框710-732。聚类1(834)示例性地示出了根据训练框734的执行而包含四个训练描述的最终样本聚类。具体而言，将聚类1手动地标记有相应的意图。例如，检查聚类1中的训练描述可以使人工操作员用标签“买票的意图”(其对应于意图类别“买票”)来注释聚类1。图9示意性地示出了其它聚类910、920、930，以及可以以所描述的方式通过处理语料库项目而得出的标记的意图912、922、932。

图8B的聚类834a、835示出了如何根据训练框734来手动地细化聚类。例如，最初聚类到聚类1(834)中的训练描述“取票”830d，可以从聚类1(834a)中手动地移除，并重新分配到聚类2(835)，其中聚类2对应于“获取预先购买的票的意图”。

在框836处，根据训练框736，每个标记的聚类可以与一个或多个动作相关联。例如，对应于“买票的意图”(即，聚类1的标签)，动作836a、836b、836c可以相关联。

图8C根据训练框740，示出了使用多个(X个)可采取动作的语句(即，可采取动作语句1至可采取动作语句X)和相应的标签(即，标签1至标签X)，对机器分类器624进行训练824。

在示例性实施例中，用户反馈可以用于进一步细化本文描述的方法和AI系统的性能。返回参考图7，列750示出了可以由方法700容纳以训练机器分类器624的反馈的说明性类型。应当注意，示出这些反馈类型仅用于说明性目的，并且其并不意味着限制可以根据本公开内容容纳的反馈的类型。

具体而言，框760涉及一种类型的用户反馈，其中用户指示AI系统所识别的一个或多个可采取动作的语句实际上不是可采取动作的语句，即它们不包含现实意图。例如，当呈现一组AI系统响应于用户输入而执行的动作时，用户可以选择一个选项，其说明所识别的语句实际上并不构成可采取动作的语句。在这种情况下，可以结合这种用户反馈，以在训练阶段期间调整框720的一个或多个参数。

框762涉及一种用户反馈，其中AI系统针对意图类别建议的一个或多个动作并不代表与该意图类别相关联的最佳动作。替代地，用户反馈可以是建议的操作不适合于该意图类别。例如，响应于对用户准备费用报告的意图的预测，与动作相关联的动作可以是启动预先配置的电子表格应用程序。基于用户反馈，替代的动作可以替代地与准备费用报告的意图相关联。例如，用户可以显式地选择启动另一个首选应用程序，或者通过不随后进一步与建议的应用程序进行交互来隐式地拒绝关联的操作。

在示例性实施例中，通过修改方法700的框736以将预测的意图类别与其它动作相关联，可以在训练阶段期间容纳用户反馈762。

框764涉及一种类型的用户反馈，其中用户指示预测的意图类别有误。在示例性实施例中，用户可以显式地或隐式地指示所识别的可采取动作语句承载的替代(可采取动作的)意图。例如，假设AI系统针对由语句“让我们下次讨论”组成的用户输入，预测了“安排会议”的意图类别。响应于AI系统建议与意图类别“安排约会”相关联的动作，用户可以提供优选的意图类别将是“设置提醒”的反馈。

在示例性实施例中，在机器分类器的训练期间(例如，在方法700的框732处)，可以容纳用户反馈764。例如，可以将根据识别的可采取动作语句中提取的原始动词-宾语对重新分配给另一个聚类，其对应于用户反馈指示的首选意图类别。

图10示出了用于使计算设备响应于用户输入，以数字方式执行动作的方法1000的示例性实施例。应当注意，示出图10仅用于说明性目的，其并不意味着限制本公开内容的范围。

在图10中，在框1010处，根据用户输入识别可采取动作的语句。

在框1020处，从可采取动作的语句中提取核心任务描述。核心任务描述可以包括动词实体和宾语实体。

在框1030处，通过向机器分类器提供特征，将意图类别分配给可采取动作的语句，这些特征包括可采取动作的语句和核心任务描述。

在框1040处，在计算设备上执行与所分配的意图类别相关联的至少一个动作。

图11示出了用于响应于用户输入，以数字方式执行动作的设备1100的示例性实施例。该装置包括：识别器模块1110，其配置为根据用户输入识别可采取动作的语句；提取模块1120，其配置为从可采取动作的语句中提取核心任务描述，核心任务描述包括动词实体和宾语实体；以及机器分类器1130，其配置为基于包括可采取动作的语句和核心任务描述的特征，向可采取动作的语句分配意图类别。装置1100被配置为执行与所分配的意图类别相关联的至少一个动作。

图12示出了包括处理器1210和存储器1220的装置1200，其中存储器1220存储处理器可执行的指令，以使处理器用于：根据用户输入识别可采取动作的语句，从可采取动作的语句中提取核心任务描述，核心任务描述包括动词实体和宾语实体；通过向机器分类器提供特征，将意图类别分配给可采取动作的语句，这些特征包括可采取动作的语句和核心任务描述；并使用处理器执行与分配的意图类别相关联的至少一个动作。

在本说明书和权利要求书中，应当理解的是，当称一个元件“连接至”或“耦合至”另一个元件时，其可以直接连接或耦合至另一元件，或者可以存在中间元件。相比而言，当称一个元件“直接连接至”或“直接耦合至”另一个元件时，则不存在中间元件。此外，当称一个元件“电耦合至”另一个元件时，表示这些元件之间存在低电阻路径，而当称一个元件简单地“耦合至”另一个元件时，则这些元件之间可能存在低电阻路径，也可以不存在低电阻路径。

本文所描述的功能可以至少部分地由一个或多个硬件和/或软件逻辑组件执行。例如但不限于，可以使用的示例性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。

虽然在附图中示出了某些说明的实施例，并且已经在上文进行了详细描述，但是本发明易于进行各种修改和替代构造。但是，应当理解的是，无意将本发明限制于所公开的特定形式，相反，本发明旨在涵盖落入本发明的精神和保护范围内的所有修改、替代构造和等同物。

Claims

1.一种用于使计算设备响应于用户输入以数字方式执行动作的方法，所述方法包括：

根据所述用户输入来识别可采取动作的语句；

从所述可采取动作的语句中提取核心任务描述，所述核心任务描述包括动词实体和宾语实体；

通过向机器分类器提供特征来为所述可采取动作的语句分配意图类别，所述特征包括所述可采取动作的语句和所述核心任务描述；以及

在所述计算设备上执行与所分配的意图类别相关联的至少一个动作。

2.根据权利要求1所述的方法，还包括：

向所述用户显示与所分配的意图类别相关联的所述至少一个动作；以及

在执行所述至少一个动作之前接收用户认可。

3.根据权利要求1所述的方法，其中，所述动词实体包括来自所述可采取动作的语句的表示任务动作的至少一个符号，并且所述宾语实体包括来自所述可采取动作的语句的表示应用所述任务动作的宾语的至少一个符号。

4.根据权利要求1所述的方法，其中，所述识别所述可采取动作的语句包括：将承诺分类器或请求分类器应用于所述用户输入。

5.根据权利要求1所述的方法，其中，所述至少一个动作包括：在所述计算设备上启动代理应用。

6.根据权利要求1所述的方法，其中，所述特征还包括独立于所述用户输入的上下文特征，所述上下文特征从用户对所述设备的先前使用或者从与用户简档或群组模型相关联的参数中导出。

7.根据权利要求1所述的方法，还包括：使用弱监督来训练所述机器分类器，所述训练包括：

从多个语料库项目中的每一个语料库项目中识别训练语句；

从所述训练语句中的每一个训练语句中提取训练描述；

通过文本相似性，将所述训练描述分组到多个聚类中；

接收与所述多个聚类中的每个聚类相关联的意图的注释；以及

训练所述机器分类器，以将每个识别的训练语句映射到相应的带注释的意图。

8.根据权利要求7所述的方法，其中，所述动词实体包括来自相应的训练语句的表示任务动作的符号，并且所述宾语实体包括来自相应的可采取动作的语句的表示应用所述任务动作的宾语的符号，对所述训练描述进行分组包括：

基于相应的宾语实体的文本相似性，将所述训练描述分组到第一组聚类中；以及

基于相应的动词实体的文本相似性，将所述第一组聚类细化到第二组聚类中。

9.一种用于响应于用户输入以数字方式执行动作的装置，所述装置包括：

识别器模块，其被配置为根据所述用户输入来识别可采取动作的语句；

提取模块，其被配置为从所述可采取动作的语句中提取核心任务描述，所述核心任务描述包括动词实体和宾语实体；以及

机器分类器，其被配置为基于包括所述可采取动作的语句和所述核心任务描述的特征，向所述可采取动作的语句分配意图类别；

所述装置被配置为执行与所分配的意图类别相关联的至少一个动作。

10.一种包括处理器和存储器的装置，所述存储器存储可由所述处理器执行以使所述处理器执行以下操作的指令：

根据所述用户输入来识别可采取动作的语句；

使用所述处理器执行与所分配的意图类别相关联的至少一个动作。