CN107894829B

CN107894829B - 对话动作的分级注释

Info

Publication number: CN107894829B
Application number: CN201710914486.3A
Authority: CN
Inventors: 戴维·艾尔森; 本杰明·罗斯; 戴维·艾森伯格; 拉伊·阿加瓦尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-04
Filing date: 2017-09-30
Publication date: 2021-09-10
Anticipated expiration: 2037-09-30
Also published as: DE102017121780B4; GB201715647D0; GB2555945A; CN107894829A; DE102017121780A1; DE202017105695U1

Abstract

本申请涉及对话动作的分级注释。公开了用于以分级方式注释用户与电子助理之间的交谈的系统和方法。示例系统包括分级注释记录的数据仓。分级注释记录包括根记录和非根记录。每个根记录具有交谈标识符和注释标识符。每个非根记录包括注释标识符和父标识符，父标识符是另一记录的注释标识符。非根记录中的至少一些还包括注释标签。系统生成用于输入对话动作的第一新根记录和第一非根记录，并且生成用于响应于输入对话动作的输出对话动作的第二新根记录和第二非根记录。第二非根记录中的至少一个包括向后链接至第一非根记录的记录的注释标签。

Description

对话动作的分级注释

相关申请

本申请是2016年10月4日提交的题为“对话动作的分级注释”(“HierarchicalAnnotations of Dialog Acts”)的美国临时申请号62/403,932的非临时申请并要求其优先权，该临时申请的公开被通过引用结合到本文中。

技术领域

本申请涉及对话动作的分级注释。

背景技术

计算设备可以包括以交谈(conversational)方式对计算设备的用户的口头通信进行响应的电子助理。在此类设备中，用户可以说出某些东西，电子助理例如使用音频输出经由合成语音对其进行响应。电子助理的响应可以包括供用户进行响应的问题。因此，用户和计算设备可以参加交谈。交谈可以导致电子助理执行任务或者可以仅仅是相交互(例如，说笑话或提供见识)。

发明内容

实施方式提供了一种用于以分级方式注释用户与电子助理之间的交谈的系统，其可以用来随时间推移而改善电子助理的质量(例如，通过改善在机器学习中使用的排序(ranking)信号)。实施方式提供了一种灵活分级结构，用于描述交谈并将交谈过程中的对话(dialog)动作—用户的和电子助理的对话动作—相关。每个对话动作可以被表示为交谈中的单独的树，其具有被建模为树中的节点的注释和连接具有相互关系的不同树中的节点的弧。在用于注释对话动作的分级结构中，子节点识别父节点。这使得实施方式能够将单个元素存储为无序列表并动态地、即实时地添加注释和弧。一些实施方式可以包括注释记录的后处理，即离线模式，以向注释记录添加在在线模式中，即当生成分级结构中的记录时，不可用的信息。此类信息可以包括用实时地可用的信息不能进行的请求和响应之间的链路。

根据本公开的一定方面，一种方法可以包括生成用于被注释的对话动作的第一注释树。第一注释树包括用于对话动作的根节点和用于该对话动作的每个非空注释标签的叶节点。对话动作与交谈标识符相关联。第一注释树的叶节点包括与被注释的对话动作中的先前谈话(discourse)标签相对应的先前谈话节点。所述方法还包括针对第一注释树中的每个节点生成注释标识符，该注释标识符在交谈标识符内是唯一的。所述方法还可以包括针对每个节点写入注释记录。在注释记录中，用于根节点的记录缺少父标识符；用于非根节点的记录包括父标识符，该父标识符参考所述父的注释标识符；并且用于先前谈话节点的记录包括用于相应后续谈话节点的注释标识符，该后续谈话节点是也与交谈标识符相关联的第二注释树中的叶节点。

生成用于被注释的对话动作的注释树可以包括：确定第一从属(subordinate)对话动作和第二从属对话动作共享公共标签和公共父；以及在注释树中插入节点，其是用于所述公共父的节点的子，并且是用于第一从属对话动作的节点、用于第二从属对话动作的节点以及用于公共标签的节点的父，其中，用于第一从属对话动作的节点和用于第二从属对话动作的节点每个缺少对应于公共标签的子节点。所述方法还可以包括响应于查询而访问注释记录，并返回被确定为可对该查询进行响应的注释记录。所述方法还可以包括访问注释记录以生成用于对话管理引擎的训练示例；以及使用训练示例来训练对话管理引擎。所述方法还可以包括访问注释记录以识别故障模式。用于每个节点的注释记录可以包括对应于节点的文本。该注释记录可以被存储在无序列表中。第一注释树可以表示交谈中的第一回合，并且第二注释树可以表示交谈中的第二回合，第一回合和第二回合可以被至少一个中间回合分离。用于根节点的记录可以包括用于对话动作的说话者的指示。用于根节点的记录和多个非根记录中的至少一些还可以包括用于对话动作的说话者的指示。注释标签可以选自包括后续谈话标签、对话动作类型以及先前谈话标签的群组。注释标签可以选自包括后续谈话标签、对话动作类型、对话错误类型和先前谈话标签的群组。具有表示先前谈话标签的注释标签的非根记录还可以包括另一注释记录的注释标识符，所述另一记录具有表示后续谈话标签的注释标签。非根记录中的至少一些还包括注释标签。注释标签中的至少一些可以表示文本跨度(span)。对话动作中的至少一个可以表示由用户执行的操作行为。所述方法还可以包括从对话输入设备接收输入对话动作并经由对话输出设备接收输出对话动作以用于输出。

根据本公开的一定方面，一种系统包括：至少一个处理器；对话输入设备；对话输出设备；以及存储器，其存储指令，当被所述至少一个处理器执行时该指令执行操作，该操作包括：从对话输入设备接收输入对话动作并经由对话输出设备接收输出对话动作以用于输出，并且生成用于注释输入对话动作和用于注释输出对话动作的分级注释记录，其中，用于对话动作的分级注释记录包括：根记录，其指定交谈标识符和注释标识符；多个非根记录，其包括：注释标识符以及父标识符，该父标识符是另一记录的注释标识符，其中，所述非根记录中的至少一些还包括注释标签。

根记录还可以包括用于对话动作的说话者的指示。根记录和所述多个非根记录中的至少一些还可以包括用于对话动作的说话者的指示。注释标签可以选自包括后续谈话标签、对话动作类型以及先前谈话标签的群组。注释标签可以选自包括后续谈话标签、对话动作类型、对话错误和先前谈话标签的群组。表示先前谈话标签的注释标签的非根记录还可以包括另一注释记录的注释标识符，所述另一记录具有表示后续谈话标签的注释标签。注释标签中的至少一些可以表示文本跨度。对话动作中的至少一个可以表示由系统的用户执行的操作行为。所述操作还可以包括确定与用于第一交谈标识符的根记录相关联的第一非根记录链接至与用于第二交谈标识符的根记录相关联的第二非根记录，生成第一新非根记录，其识别父标识符中的第二非根记录并具有表示后续谈话的注释标签，以及生成第二新非根记录，其识别父标识符中的第一非根记录，具有表示先前谈话的注释标签并识别用于第一新非根记录的注释标识符，其中，第一交谈标识符和第二交谈标识符是不连续的。

根据本公开的一定方面，一种系统包括至少一个处理器、对话输入设备、对话输出设备以及分级注释记录的数据仓(store)。分级注释记录包括根记录和非根记录。每个根记录指定交谈标识符和注释标识符；每个非根记录包括注释标识符和父标识符，父标识符是另一记录的注释标识符。非根记录中的至少一些还包括注释标签。系统还包括存储指令的存储器，在被所述至少一个处理器执行时该指令执行操作。该操作可以包括从对话输入设备接收输入对话动作；生成用于输入对话动作的第一新根记录和第一非根记录；经由对话输出设备接收输出对话动作以用于输出，其可对输入对话动作进行响应；以及生成用于输出对话动作的第二新根记录和第二非根记录，第二非根记录中的至少一个包括向后链接至第一非根记录的记录的注释标签。向后链接至第一非根记录的记录可以包括生成具有后续谈话标签的记录，该记录具有现有第一非根记录的父标识符。注释标签可以选自包括后续谈话标签、对话动作类型以及先前谈话标签的群组。第一非根节点中的至少一些可以包括表示输入对话动作的文本跨度的标签。

在一个一般方面，一种在计算机可读存储设备上体现的计算机程序产品包括指令，当被形成于基板中的至少一个处理器执行时该指令使计算设备执行公开的方法、操作或过程中的任何一个。在另一一般方面，一种系统包括至少一个处理器和存储指令的存储器，当被所述至少一个处理器执行时该指令根据如上文公开的方法、操作或过程执行操作。另一一般方面包括一种用于注释对话动作的系统和/或方法，基本上如结合图中的至少一个示出和/或描述的，并且如在权利要求中更全面地阐述的。

可以将本文描述的主题的实施方式中的一个或多个实施成实现以下优点中的一个或多个。例如，由于注释结构包括父标识符而不是子，所以可以实时地添加附加注释，并且可以将对话动作存储在无序列表中。附加注释可以链接在例如几天的长时段内发生的交谈。由于列表是无序的，所以可以通过对对话管理器的多调用来添加注释，使得结构变得灵活。结构还帮助在注释标签范围内进行查询，因为系统以高度结构化的方式捕捉系统与用户之间的交互。因此，例如可以针对用其中用户也表达口头叹气(其可以在注释标签中捕捉)的“是/否”回答来回答的所有问题查询注释记录，并且使用父链路，可以快速地识别并返回关于这些回答的对话动作。作为另一示例，查询可以使用记录来识别所有已放弃的交谈，例如不具有先前谈话标签的后续谈话标签。这些交谈可以被提供给识别交谈的模式的模型。该模式可以被提供给开发者，因此以识别可以改善电子助理的对话动作的区域。

作为另一示例，分级结构通过避免注释的重复来提供较小的存储器占用空间。例如，应用于树中的多个子的注释可以在公共父处存储一次而不是在每个节点处。作为另一示例，分级注释记录在理论上是声音，并且在语义上是正确的。这允许实施方式针对任何种类的对话是稳健的，与限制于系统驱动对话相反。换言之，将机器可读语义附着到对话动作的本文中公开的分级注释记录使得能够实现交谈的高精度处理。例如，分级结构使得系统能够准确定位对应于特定注释的对话动作的各部分。因此，例如，可以精确地注释复杂、混合式的对话动作的不同部分。此精度扩展至识别对话动作的一部分相关的先前注释的能力。此外，可以自由地定义注释。换言之，虽然系统支持基于理论定义的注释，但其还可以支持由特定对话管理器生成的注释，使得其灵活且可定制，这支持灵活的查询和训练。作为另一示例，分级注释大纲还允许将各种注释向后链接，这使得能够实现更容易的后处理和数据收集。这与以逐个回合为基础完成的对话度量跟踪相反，假设对话动作是连续的，例如N+1回合上的对话动作与N回合上的对话动作直接相关。公开的实施方式的无序列表性质允许将N+1回合上的对话动作被链接至＜N的任何回合(例如不连续)。这使得能够实时地生成用于概念的定量度量，诸如“哪个先前的交互是当前用户的对话动作提及的？”和“该提及是多久之前？”，以及在回顾时分析前向参考，例如针对某个历史对话动作识别整体地或部分地提及该历史动作的后续对话动作。此类前向参考由于公开的实施方式的无序列表性质而是可能的。

作为另一示例，实施方式提供了高水平的精度，这对于正确地测量质量而言是重要的。还将认识到的是改善的设备性能是以上描述的一方面。例如，用于对话的注释的分级组织例如经由树范围内的搜索查询，使得对话是可搜索的，并且减少了针对此类注释搜索对话的大型全集的需要。对话动作的分级注释还提供了用于那些注释的场境框架，否则将不可能使设备处理器进行开发。这减少了对客户端或本地设备中的计算资源、存储器使用以及电池使用的需求。在设备在客户端-服务器模式下操作的情况下，这还减少客户端服务器通信需求和数据使用。

在以下附图和描述中阐述了一个或多个实施方式的细节。根据本描述和附图以及根据权利要求，其它特征将变得显而易见。

附图说明

图1是图示出根据公开主题的示例系统的框图。

图2是图示出根据公开主题的另一示例系统的框图。

图3是图示出根据公开主题的用于交谈中的两个对话动作的初始注释树的示例的框图。

图4是图示出根据公开主题的用于图3的对话动作的最终注释树的示例的框图。

图5是图示出根据公开主题的来自图4的最终基于树的注释的示例分级注释记录的框图。

图6示出了根据公开实施方式的用于在交谈的对话动作的分级注释结构中生成记录的示例过程的流程图。

图7示出了可以用来实现所述技术的计算机设备的示例。

图8示出了可以用来实现所述技术的分布式计算机设备的示例。

各种图中的相同参考标号指示相似的元件。

具体实施方式

实施方式包括生成用于用户与电子助理之间的交谈中的对话动作的分级注释的系统和方法，其促进了搜索电子助理和电子助理的质量方面的改善，诸如排序、确定瓶颈以及确定由系统提供的什么对话动作使用户终止交谈，例如由于挫败而脱困(bail out)。图1是根据示例实施方式的交谈分级注释系统的框图。系统100可以用来在灵活分级大纲(schema)中生成注释记录。图1中的系统100的描绘是单个计算设备，但实施方式还可以将组件中的一些移动至服务器，使得系统100成为客户端-服务器系统，如在图2中更详细地图示出的。另外，可以将一个或多个组件组合成单个模块或引擎，并且所示组件的一些能力可以由单独引擎来执行。在一些实施方式中，计算设备的用户可以指示处理的各部分在服务器处执行。用户还可以控制分级注释记录是否被存储和此类存储在哪里发生。因此，实施方式不限于所示的精确配置。

分级注释系统100包括计算设备105。计算设备可以在个人计算机，例如膝上型计算机、智能电话、平板电脑、台式计算机、可穿戴式设备、家庭用具等中实现。计算设备105可以是计算机设备700的示例，如在图7中描绘的。计算设备105可以包括在基板(未示出)中形成的一个或多个处理器，其被配置成执行一个或多个机器可执行指令或各件软件、固件或其组合。处理器可以是基于半导体的—亦即，处理器可以包括可以执行数字逻辑的半导体材料。计算设备105还可以包括一个或多个计算机存储器。存储器，例如主存储器，可以被配置成临时地、永久地、半永久地或以其组合的方式存储一个或多个数据。存储器可以包括任何类型的存储设备，其以可以被一个或多个处理器读取和/或执行的格式来存储信息。存储器可以包括易失性存储器、非易失性存储器或其组合，并且存储当被一个或多个处理器执行时执行一定操作的模块或引擎。在一些实施方式中，模块可以被存储在外部存储设备中并被加载到计算设备105的存储器中。

计算设备105可以包括对话输入/输出设备110。对话输入/输出设备110可以包括使得电子助理120能够从用户180接收输入或向用户180提供响应的硬件。来自用户的输入可以是有声的，例如以语音的形式。来自用户的输入还可以是非有声的，例如由用户提供的文本。输出同样地可以是基于语音的或基于文本的。常见对话输入/输出设备包括扩音器和扬声器和/或键盘(虚拟或物理)和显示器。主要在使用扩音器和扬声器的说出交谈的场境(context)下来讨论分级注释系统100，但实施方式包括其它交谈模式，诸如在通讯应用中进行的那些。

分级注释系统100的模块可以包括电子助理120。电子助理120可以被配置成从对话输入/输出设备110获得输入，处理输入、并且向对话输入/输出设备110提供响应。电子助理120可以包括对话管理引擎122、语音引擎124以及对话注释引擎126。语音引擎124可以使用适当的语音至文本处理来将接收到的有声输入转换成文本串。作为文本接收到的非有声输入也可以被传递至语音引擎124(例如，经由键入其它文本选择)。在一些实施方式中，非有声输入可以是在图像中识别的文本。例如，用户180可以使用被通信连接至计算设备105的相机(未示出)来拍摄照片，并且图像可以被提供给语音引擎124。例如，语音引擎124可以对图像执行识别以发现要用作输入的文本。在一些实施方式中，非有声输入可以是在图像中识别的实体。例如，语音引擎124可以对图像执行实体识别以从知识库确定包括在图像中的实体并使用该实体的描述作为文本输入。无论是有声的还是非有声的，输入被称为对话动作。对话动作包括有声输入、非有声输入或有声和非有声输入的组合。对话动作还可以包括由用户执行的操作动作。例如，按下断电按钮可以是对话动作。由电子助理120提供的输出也是对话动作。语音引擎124可以将输出对话动作转换成可以由输入/输出设备110播放的声音文件，或者可以提供对话动作的文本以便在输入/输出设备110上显示。

对话管理引擎122可以管理一个或多个对话。这包括保持对话的状态，例如正在回答什么问题，使得电子助理120可以是适当地解释与对话相关联的接收音频。特别地，可以通过指导用户180请求了什么类型的响应来改善电子助理120在正确地解释接收音频方面的准确度。例如，对话管理引擎122可以确定用户已请求要执行的任务。对话管理引擎122还可以包括能够与用户交谈的机器学习算法，例如通过生成不对特定任务进行响应的交谈响应。对话管理引擎122可以使用常规或以后开发的技术来生成对用户的响应。如上文所指示的，响应也被视为对话动作。

对话动作无论是来自用户180还是来自对话管理引擎122，电子助理120都注释对话动作以标记对话动作的重要特性，诸如对话动作是否是请求、陈述、对请求的回答、不可理解等。用于注释对话的系统的一个示例是DAMSL(多层中的对话动作标记)。以下表示来自用户与电子助理之间的样本对话的两个对话动作：

[用户]How are you today？(你今天好吗？)

[电子助理]Fine.I am well.How are you？(很好。我很好。你好吗？)

电子助理120可以如下注释对话动作：

U：[How are you today？]

DAE:<>

DAT:TASK

SD:INFO_REQUEST

PD:<>

EA：[Fine.I am well.How are you？]

EA:[Fine]

DAE:<>

DAT:TASK

SD:STATEMENT_ASSERT

PD:ANSWER

EA:[I am well.]

DAE:<>

DAT:TASK

SD:STATEMENT_REASSERT

PD:ANSWER

EA:[How are you？]

DAE:<>

DAT:TASK

SD:INFO_REQUEST

PD:<>

在上述注释示例中，DAE表示记录错误信息的DialogActError标签，诸如对话动作是否是清楚的和对话动作是否被成功地完成。DAT表示DialogActType标签，其表征对话动作的语义内容。SD是捕捉对话动作对后续交互可以具有的影响和/或约束参与者的未来信念和动作的SubsequentDiscourse标签。PD是PreviousDiscourse标签，其为当前对话动作如何涉及先前谈话的指示。在以上注释中，可以基于对话动作的不同部分的特性将每个对话动作(也称为话语(utterance)，尽管对话动作不限于有声输入，并且可以包括如上所述的打字写入或识别输入)划分成一个或多个从属对话动作(例如，从话语(sub-utterance))。因此，例如，电子助理的响应被划分成三个从属对话动作。第一个是断言陈述，第二个是再断言陈述，并且第三个是信息请求。

实施方式可以使用任何注释方案，并且不限于使用所示的注释标签或注释方案。例如，实施方式可以包括关于系统如何生成用于电子助理的响应的内部信息。实施方式还可以包括表示到当解释用户输入时或者当生成系统响应时所使用的外部资源的链路的注释。注释可以包括关于环境的属性，例如其是嘈杂的还是寂静的，输入是有声的还是非有声的等。注释可以是被映射到对话动作的全部或一部分的任何标签和值对。注释(标签及其可能值)可以是电子助理120内的特定对话管理器所独有的，并且由其定义。在一些实施方式中，用电子助理120操作的不同对话管理器可以定义不同的注释。

电子助理120可以包括对话注释引擎126，其可以使用注释来生成可以以机器可读形式存储为分级注释记录140的分级表示。此分级表示可以用来导出用于电子助理120的见识以随时间推移而改善由电子助理120提供的对话动作的质量。对话注释引擎126的操作可以由用户180控制。例如，对话注释引擎126可以仅在具有用户许可的情况下操作。用用户的许可生成的分级注释记录140可以用来训练对话管理引擎122，创建用户所特定的个性化引擎并识别他或她与电子助理相交互的方式。对话管理引擎122的此类个性化训练从电子助理120提供较高质量的响应。例如，分级注释记录140可以用来识别用户在前进之前频繁地问多个澄清问题的对话。识别此类“热点”可以导致改善电子助理的提示，使得不需要澄清问题。在一些实施方式中，被注释的对话记录可以被提供给被训练成识别此类‘热点’并暗示或生成对提示的适当确定的机器学习算法。在一些实施方式中，机器学习算法可以用来识别前向参考，例如用于特定对话动作、整体地或部分地向后参考特定对话动作的一个或多个后续对话动作。系统100还可以跨许多用户聚合分级注释记录140以驱动通用质量改善。系统100还可以使用分级注释记录140来创建更有帮助的图形用户界面其向用户指示系统响应的一部分意图向后参考先前的对话动作，即使其并未直接在响应前面。

为了生成分级注释记录140，对话注释引擎126可以从被注释话语开始，并且生成用于每个话语、每个从话语以及每个注释标志的节点。这生成用于话语的基于树的结构。图3图示出用于上文公开的示例用户话语的示例注释树305和电子助理话语的注释树320的框图。在图3的示例中，所有注释标签被列为其应用于的话语或从话语的叶节点。对话注释引擎126可以删除对应于空注释标签的任何叶节点。在图3的示例中，所有DAE注释标签是空的，并且其相应节点将被去除或者将根本不生成。同样地，与话语节点310和从话语节点340相关联的先前谈话标签(PD)是空的且将被删除。另外，对话注释引擎126可以移动用于对所有子至父是共同的注释标签的任何叶节点。由于用于从话语节点330、335和340的DAT标签应用于每个子，则对话注释引擎126可以将叶节点沿着层级向上移动至父话语节点325。在一些实施方式中，当一些而并非所有子都具有公共的注释标志时，对话注释引擎126可以生成从话语。例如，从话语节点330和从话语节点335两者共享向后参考同一查询节点的先前谈话标签。在一些实施方式中，对话注释引擎126可以向树添加层，使得节点330和节点335成为公共父的从话语节点上的，即节点325的子上的子。公共标签PD可以变成公共父节点的叶节点。在图4中图示出最终的注释树305和320。

如图4中所示，树320的父节点325具有DAT标签节点作为叶节点，这意味着其适用于用于父的所有从话语节点。从话语节点345已被插入，并且是从话语节点330和335的父。用于先前谈话标签的叶节点与从话语节点345相关联，因此其适用于从话语节点330和从话语节点335两者。对应于空的或空标签的所有叶节点已被去除。另外，对话注释引擎126已添加从先前谈话节点到其对应于的后续谈话节点的链路405。因此，对话注释引擎126已将交谈的场境中的两个树链接。当然，如果从话语335并未对应于与从话语330相同的后续谈话节点，则将不生成节点345，并且节点330和节点335将保持其各自的PD节点。在本示例中，对话注释引擎126添加第二链路，其将从话语节点335的PD节点连接至其相应SD节点。如图3和4的注释树所示，箭头向上，从子至父。对父的此参考允许将注释保存为无序列表。完成这一点是为了支持实时地添加注释的能力并支持指向其它注释的能力，例如链路405。如果每个节点包括对子的参考，则这些特征将是不可用的。注释树的根是没有父的节点。

对话注释引擎126可以使用注释树来生成注释记录的无序列表。图5是图示出根据公开主题的来自图4的最终基于树的注释的示例分级注释记录的框图。图5的分级注释记录是图1和图2的分级注释记录140的示例。每个记录根据其在树中的功能可以具有不同属性。在一些实施方式中，表示注释树的根节点(例如，ID＝{1111}和ID＝{1112})的记录可以包括交谈标识符505。交谈标识符可以由电子助理120在交谈开始时生成。此标识符可以在交谈寿命内被使用。交谈可以由不同的电子助理不同地定义，并且可以是基于场境的。对话注释引擎126使用由电子助理120提供的交谈标识符。对话注释引擎126针对每个回合记录交谈标识符一次。因此，可以将交谈标识符包括在注释的根节点中，因为注释树在交谈中表示一个回合。交谈标识符也可以被存储在每个注释记录中，尽管这使用附加的存储器资源，但是可以加速一些查询。在一些实施方式中，交谈标识符未被包括在任何注释记录中。

每个根节点还可以包括说话者的指示。每个树表示交谈中的说话者中的一个进行的回合或对话动作。为了节省存储器，说话者标识符可以仅被包括在根节点中，其表示整个对话动作，尽管在一些实施方式中也可以在从属动作中识别说话者。将说话者包括在每个节点中使用更多的存储器资源，但是可以导致改善的查询处理速度。是否要将说话者或其共有的其它特性包括在每个节点中而不是父节点中是存储器使用与查询速度之间的权衡。注释树中的每个节点(例如，话语、从话语或标签)还接收唯一标识符，其只需要在交谈内是唯一的。因此，每个注释记录具有为记录所独有的ID。此标识符是实时地生成的，例如随着交谈的进行，并且称为注释标识符。用于不是根节点的节点的记录每个都具有父标识符，其包括父节点的注释标识符。最终，不是根节点的每个记录包括识别节点的属性。例如，具有注释标识符1113的记录指示节点是用于DAT标签，并且包括DAT标签的值。同样地，具有注释标识符1116的记录指示节点是针对先前谈话(PD)标签，并且包括用于该标签的值。另外，节点包括对应于先前谈话标签的后续谈话节点的注释标识符。换言之，响应(PD)与请求(SD)之间的图4的链路405被作为相应SD节点的注释标识符记录在PD节点中。以这种方式，对话注释引擎126创建链接注释树并提供用于交谈的场境的结构。此场境可以帮助电子助理学习如何更好地对用户进行响应。例如如果用户用问题对电子助理的问题进行响应，则这可以是该问题不清楚的指示。此知识可以用来改变未来对话中的对话流程。在一些实施方式中，在注释记录中可以包括对应于对话动作节点或从属对话动作节点的文本跨度。此类包括是可选的。如图5中所示，未假设注释记录中的顺序。换言之，注释记录是无序列表。包括父标识符使得分级结构成为可发现的。注释记录可以包括图5中未示出的附加信息。例如，特定对话管理器可以包括对话动作或从属对话动作节点中的一个或多个中的信息作为对注释大纲的扩展的一部分。因此，该结构对于各种对话任务而言是可定制的。

返回至图1，对话注释引擎可以将注释记录，例如图5中所示的记录，存储到数据存储设备，诸如分级注释记录140。分级注释记录然后可以可用于查询或训练用于电子助理120的模型。

图2图示出根据公开主题的另一示例系统的框图。在图2的示例中，上文关于图1描述的一些功能由服务器而不是计算设备执行。图2的示例分级注释系统100包括客户端设备205和服务器207。客户端设备205类似于图1的计算设备105，但是包括电子助理客户端210而不是全功能电子助理120。电子助理客户端210可以包括电子助理120的一些功能，例如将来自用户180的音频输入转换成文本的语音引擎124。电子助理客户端210可以经由诸如网络250的网络将来自用户的输入提供给服务器207。网络250可以是例如因特网，或者网络250可以是使用例如网关设备、桥接器、交换机等实现的有线或无线局域网(LAN)、广域网(WAN)等。网络250还可以表示蜂窝式通信网络。经由网络250，服务器207可以与客户端设备205和208通信并向/从其发送数据，并且客户端设备205可以与其它客户端设备208(未示出)通信。客户端设备208可以包括与上文关于客户端设备205所述的那些类似的组件。

服务器207可以是采取许多不同设备的形式的计算设备或多个计算设备，例如，标准服务器、一组此类服务器或机架式服务器系统。例如，可以跨多个计算设备以分布式方式实现服务器207。另外，可以在个人计算机，例如膝上型计算机中实现服务器207。服务器207可以是如在图7中描绘的计算机设备700的示例或如图8中描绘的系统800。

服务器207可以包括电子助理220，其包括图1的电子助理120的功能中的至少一些。例如，电子助理220可以包括对话注释引擎126和对话管理引擎122。另外，服务器207可以存储分级注释记录140。服务器207可以经由网络250与多个客户端设备，例如客户端设备205和客户端设备208，进行通信。

分级注释系统100表示一个示例配置，并且实施方式可以引进其它配置。例如，一些实施方式可以将对话注释引擎126、对话管理引擎122以及语音引擎124的各组件中的一个或多个组合成单个模块或引擎。此外，电子助理220、对话注释引擎126、对话管理引擎122、语音引擎124和/或电子助理客户端210的各组件中的一个或多个可以被组合成单个引擎。另外，分级注释记录可以被跨多个计算设备分布，或者可以存储在客户端设备205处。因此，实施方式不限于所示的精确配置。

在分级注释系统100收集并存储用户特定数据或者可以利用个人信息的程度上，可以为用户提供控制程序或特征是否收集用户信息或者控制是否和/或如何接收可能与用户更加相关的内容的机会。另外，一定数据在其被存储或使用之前可以被以一个或多个方式处理，使得个人可识别信息被去除。例如，可以处理搜索记录，使得不能确定个人可识别信息，和/或可以将在获得位置信息时广义化用户地理位置，诸如到城市、ZIP代码或州层级，使得不能确定用户的特定位置。因此，用户可能可控制如何收集关于用户的信息并被分级注释系统100使用。

图6图示出根据公开实施方式的用于在交谈的对话动作的分级注释结构中生成记录的示例过程600的流程图。过程600可以由分级注释系统，诸如图1的系统100或图2的系统200，来执行。过程600可以用来生成用于对话的分级注释记录，其可以被容易地搜索并用来改善在交谈中与用户衔接的电子助理的质量。过程600中的步骤的顺序是示例的，并且可以重新布置该顺序，可以将一些步骤组合，并且一些步骤可以是可选的。

过程600可以从被注释的对话动作开始(605)。对话动作表示作为交谈的一方的一个说话者进行的回合。对话动作可以源自于用户或电子助理。注释包括表征对话动作的全部或一部分的标签。在一个实施方式中，注释类似于DAMSL对话注释协议。系统可以在用于每个对话动作和用于每个从属对话动作的注释树中创建节点，将从属对话动作连接至其父(610)。可以对每个根节点给定交谈标识符，其识别对话动作所属的交谈。系统还可以生成用于注释标签中的一些或全部的叶节点。注释标签节点指向其应用于的对话动作或从属对话动作。如果系统生成用于空标签的节点，系统可以将那些标签从注释树删除(615)。空标签通常不传达有用信息且不需要跟踪。系统可以识别用于应用于超过一个从属对话动作节点的注释标签的叶节点，并且可以将该叶节点从子移动至父(620)，从而减少叶节点的数目。例如，当每个从属对话动作具有表示相同标签和用于标签的相同值的节点时，系统可以从每个子节点去除用于标签的节点，并且生成取决于父节点的各节点。因此，例如，图3的从属对话动作节点330、335和340中的每一个的DAT节点被去除，并且使得DAT节点成为对话动作节点325的叶节点，如图4中所示。作为另一示例，当对话动作或从属对话动作节点的两个或更多但少于全部的子共享具有相同值的注释标签时，系统可以生成新的从属对话动作节点。因此，例如，系统生成图4的从属对话动作节点345，并且使得从属对话动作节点330和从属对话动作节点345成为节点345的子，同时还在图4的注释树320中将PD节点从节点330和335移动至节点345。

系统可以向每个节点分配在交谈内唯一的注释标识符(625)。系统还可以将子节点映射到其父(630)，例如通过在子节点的属性中记录父注释标识符。系统还可以将任何先前谈话节点链接到另一注释树中的其相应后续谈话节点(635)。系统可以生成用于每个节点的注释记录(640)，将注释记录存储在数据仓中。在一些实施方式中，系统可以包括周期性地运行以向注释记录添加信息的过程。例如，系统可能并未实时地具有其需要的所有信息以实现从响应(例如，先前谈话节点)至其相应请求(例如，SD节点)的链路。例如当用户切换交谈中的场境但然后返回至原始场境时，这是可以发生的。找到正确的请求可以要求比实时链接将允许的更多的处理时间，或者在实时方面可能是不可能的。例如，在当前对话中，用户可以向后参考包括在来自前一周的对话动作中的任务。在写入用于前一周的对话动作的注释记录时，SD标签(后续谈话)可能已经为空或者被不同地表征。仅用后见之明的益处是可以向较旧的注释树添加SD标签。本示例还举例说明了注释记录是无序列表的益处。由于列表是无序的，所以周期性地运行的过程可以添加经由后见之明的益处发现的附加注释。因此，在一些实施方式中，系统可以在“离线”或“批量”模式下周期性地(例如，每夜、每小时、每周)执行附加分析，以向注释记录添加链路(步骤635)。此类附加信息可以包括指示用户采取的诸如按下断电按钮以终止交谈的附加动作的注释。此类附加信息可以包括添加或改变用于对话动作的标签，例如用后见之明的益处添加SD标签。另外，在一些实施方式中，系统可以将用于交谈的样本注释记录提供给评价人，其验证该链路是适当的。

离线或批量处理也可以是质量分析过程的一部分，其在用户已对此类分析给定许可时识别由系统生成的对话中的改善的区域。注释记录的标签和分级性质允许进行记录的定向、特定查询。例如，可以查询分级无序注释记录以识别特定的故障区域。作为一个特定示例，可以查询注释记录以识别动作中的被最频繁地修正的信息字段，例如从十个数据字段中识别饭店预订，该信息字段被作为预订动作的一部分最经常被修正。作为另一示例，可以查询注释记录以识别用户用问题而不是陈述对问题进行响应或者用回答进行响应但问了进一步的问题的情况。例如，电子助理可以问饭店的预订时间，而用户回答“6pm，但他们有高椅子吗？”这指示用户可能想要包括在未来预订中的高椅子信息，尤其是如果这对于用户而言发生不止一次的话。在一些实施方式中，此类分析可以在用户设备上发生。在一些实施方式中，在有用户许可的情况下，在去除任何个人识别信息之后，可以与服务器共享注释记录，使得可以跨用户识别各模式。在一些实施方式中，可以向机器学习模型提供注释记录以识别故障模式，例如导致问题、放弃或烦恼的口头指示(例如，叹气)的助理响应。识别这些瓶颈和故障模式可以帮助电子助理的开发者识别并改善电子助理中的特定功能，这改善对话响应和与用户的交互。注释记录中的链接使得此类分析成为可能。

图7示出了可与这里描述的技术一起使用的一般计算设备700的示例，一般计算设备700可充当图1的客户端150和/或服务器110。计算设备700意图表示各种示例形式的计算设备，诸如膝上计算机、台式计算机、工作站、个人数字助理、蜂窝式电话、智能电话、平板电脑、服务器及其它计算设备，包括可穿戴设备。这里所示的组件、其连接和关系以及其功能意图仅仅是示例的，并不意图限制在本文中描述要求保护的本发明的实施方式。

计算设备700包括经由接口708被连接的处理器702、存储器704、存储设备706以及扩展端口710。在一些实施方式中，计算设备700可包括被经由接口708连接的、其它组件当中的收发机746、通信接口744以及GPS(全球定位系统)接收机模块748。设备700可通过通信接口744无线地进行通信，该通信接口744在必要时可包括数字信号处理电路。组件702、704、706、708、710、740、744、746和748中的每一个可以被安装在公共母板上或适当地以其它方式安装。

处理器702可以处理用于在计算设备700内执行的指令，包括存储在存储器704中或存储设备706上的指令，以在诸如显示器716的外部输入/输出设备上显示用于GUI的图形信息。显示器716可以是监视器或平面触摸屏显示器。在一些实施方式中，可适当地使用多个处理器和/或多个总线，以及多个存储器和各类型存储器。并且，可连接多个计算设备700，每个设备提供所需操作的各部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器704存储计算设备700内的信息。在一个实施方式中，存储器704是一个或多个易失性存储器单元。在另一实施方式中，存储器704是一个或多个非易失性存储器单元。存储器704也可以是另一形式的计算机可读介质，诸如磁盘或光盘。在一些实施方式中，存储器704可包括通过扩展接口提供的扩展存储器。

存储设备706能够为计算设备700提供大容量存储。在一个实施方式中，存储设备706可以是或包括计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似固态存储器设备或设备阵列，包括存储区域网或其它配置中的设备。可以在此类计算机可读介质中有形地体现计算机程序产品。该计算机程序产品还可包括指令，该指令在被执行时执行一个或多个方法，诸如上文所述的那些。计算机或机器可读介质是存储设备，诸如存储器704、存储设备706或处理器702上的存储器。

接口708可以是管理用于计算设备700的带宽密集操作的高速控制器或管理较低带宽密集操作的低速控制器或此类控制器的组合。可提供外部接口740，从而使得能够实现设备700与其它设备的近场通信。在一些实施方式中，控制器708可被耦合到存储设备706和扩展端口714。可包括各种通信端口(例如，USB、Bluetooth、Ethernet、无线Ethernet等)的扩展端口可例如通过网络适配器耦合到诸如键盘、定点设备、扫描仪的一个或多个输入/输出设备，或诸如交换机或路由器的联网设备。

可用许多不同的形式来实现计算设备700，如图中所示。例如，可将其实现为标准服务器730或者在一组此类服务器中实现多次。还可将其实现为机架式服务器系统的一部分。另外，其可以在诸如膝上型计算机732、个人计算机734或平板电脑/智能电话736的计算设备中实现。整个系统可由相互通信的多个计算设备700构成。其它配置是可能的。

图8示出了可与这里描述的技术一起使用的一般计算设备800的示例，该一般计算设备800可以是图1的服务器110。计算设备800意图表示各种示例形式的大规模数据处理设备，诸如服务器、刀片服务器、数据中心、大型机及其它大规模计算设备。计算设备800可以是具有被一个或多个通信网络互连的多个处理器的分布式系统，可能包括网络附着存储节点。这里所示的组件、其连接和关系以及其功能意图仅仅是示例的，并不意图限制在本文中描述的和/或要求保护的本发明的实施方式。

分布式计算系统800可包括任何数目的计算设备880。计算设备880可包括通过局域网或广域网、专用光学链路、调制解调器、桥接器、路由器、交换机、有线或无线网络等通信的服务器或机架式服务器、大型机等。

在一些实施方式中，每个计算设备可包括多个机架。例如，计算设备880a包括多个机架858a-858n。每个机架可包括一个或多个处理器，诸如处理器852a-852n和862a-862n。处理器可包括数据处理器、网络附着存储设备及其它计算机控制设备。在一些实施方式中，一个处理器可充当主处理器并控制调度和数据分配任务。处理器可通过一个或多个机架交换机858被互连，并且一个或多个机架可通过交换机878被连接。交换机878可处理多个连接计算设备880之间的通信。

每个机架可包括诸如存储器854和存储器864的存储器，以及诸如856和866的储存器。储存器856和866可提供大容量储存器，并且可包括易失性或非易失性储存器，诸如网络附着磁盘、软盘、硬盘、光盘、磁带、闪存或其它类似固态存储器设备或设备阵列，包括存储区域网或其它配置中的设备。储存器856或866可在多个处理器、多个机架或多个计算设备之间被共享，并且可包括存储可被处理器中的一个或多个执行的指令的计算机可读介质。存储器854和864可包括例如一个或多个易失性存储器单元、一个或多个非易失性存储器单元，和/或其它形式的计算机可读介质，诸如磁盘或光盘、闪存、高速缓存器、随机存取储器(RAM)、只读存储器(ROM)及其组合。诸如存储器854的存储器还可以在处理器852a-852n之间被共享。可例如跨储存器856和存储器854来存储诸如索引的数据结构。计算设备880可包括未示出的其它组件，诸如控制器、总线、输入/输出设备、通信模块等。

诸如系统100的整个系统可由相互通信的多个计算设备880构成。例如，设备880a可与设备880b、880c和880d通信，并且这些可被统称为系统100。作为另一示例，图1的系统100可以包括一个或多个计算设备880。计算设备中的一些可位于在地理上相互接近处，并且其它的可在地理上位于远处。计算设备800的布局仅仅是示例，并且系统可采取其它布局或配置。

各种实施方式可以包括在一个或多个计算机程序中来实施，其中计算机程序可以在可以编程系统上执行和/或解释，所述可以编程系统包括至少一个可编程处理器、至少一个输入设备以及至少一个输出设备，所述可编程处理器可以是通用或专用的、被耦合以从存储系统接收数据和指令以及向存储系统发送数据和指令的在基板中形成。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级面向过程和/或面向对象编程语言，和/或用汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”、“计算机可读介质”指的是被用来向可编程处理器提供机器指令和/或数据的非瞬态计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器(包括读访问存储器、可编程逻辑器件(PLD))。

可以在计算系统中实现这里所述的系统和技术，该计算系统包括后端部件(例如，作为数据服务器)，或者包括中间件部件(例如，应用服务器)，或者包括前端部件(例如，客户端计算机，所述客户端计算机具有图形用户界面或网络浏览器，通过图形用户界面或网络浏览器，用户可以与这里所述的系统和技术的实施方式相交互)，或此类后端、中间件或前端部件的任何组合。可以以用数字数据通信的任何形式或介质(例如，通信网络)将系统的部件互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)以及因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般地相互远离并通常通过通信网络进行交互。客户端和服务器的关系借助于在各计算机上运行计算机程序且相互具有客户-服务器关系而发生。

已描述了许多实施方式。然而，应理解的是在不脱离本发明的精神和范围的情况下，可进行各种修改。另外，图中所描绘的逻辑流程不要求所示的特定顺序或连续顺序以实现期望的结果。另外，从所述流程，可提供其它步骤或者可消除步骤，并且还可向所述系统添加或从其去除其它部件。因此，其它实施方式在权利要求的范围内。

Claims

1.一种方法，包括：

生成用于被注释的对话动作的第一注释树，所述第一注释树包括用于所述被注释的对话动作的根节点和用于所述被注释的对话动作的每个非空注释标签的叶节点，所述被注释的对话动作与交谈的交谈标识符相关联，并且所述叶节点每个都包括与所述被注释的对话动作中的先前谈话标签相对应的先前谈话节点；

生成用于所述第一注释树中的每个节点的注释标识符，每个注释标识符在所述交谈标识符内是唯一的；以及

写入用于所述第一注释树的每个节点的注释记录，其中：

用于所述根节点的记录缺少父标识符，

用于非根节点的记录包括父标识符，所述父标识符参考父的所述注释标识符，并且

用于与所述先前谈话节点相对应的节点的记录包括用于相对应的后续谈话记录的注释标识符，所述后续谈话记录对应于也与所述交谈标识符相关联的第二注释树中的叶节点。

2.根据权利要求1所述的方法，其中，生成用于所述被注释的对话动作的注释树包括：

确定第一从属对话动作和第二从属对话动作共享公共标签和公共父；以及

在所述注释树中插入下述节点，所述节点是用于所述公共父的节点的子，并且是用于所述第一从属对话动作的节点的、用于所述第二从属对话动作的节点的以及用于所述公共标签的节点的父，

其中，用于所述第一从属对话动作的节点和用于所述第二从属对话动作的节点每个都缺少与所述公共标签相对应的子节点。

3.根据权利要求1所述的方法，还包括：

访问响应于查询的用于所述第一注释树的每个节点的各注释记录；以及

返回被确定为响应于所述查询的一个或多个注释记录。

4.根据权利要求1所述的方法，还包括：

访问用于所述第一注释树的每个节点的所述各注释记录，以生成用于对话管理引擎的训练示例；以及

使用所述训练示例来训练所述对话管理引擎。

5.根据权利要求1所述的方法，其中，用于每个节点的所述注释记录包括与所述节点相对应的文本。

6.根据权利要求1所述的方法，其中，所述用于所述第一注释树的每个节点的各注释记录被存储在无序列表中。

7.根据权利要求1所述的方法，其中，所述第一注释树表示所述交谈中的第一回合，并且所述第二注释树表示所述交谈中的第二回合，所述第一回合和所述第二回合被至少一个中间回合分开。

8.一种系统，包括：

至少一个处理器；

对话输入设备；

对话输出设备；以及

存储器，所述存储器存储指令，当被所述至少一个处理器执行时，所述指令执行以下操作，所述操作包括：

从所述对话输入设备接收输入对话动作，并且经由所述对话输出设备接收用于输出的输出对话动作，并且

生成用于注释所述输入对话动作和用于注释所述输出对话动作的分级注释记录，

其中，用于对话动作的所述分级注释记录包括：

根记录，所述根记录指定交谈标识符和注释标识符，

多个非根记录，所述多个非根记录每个包括：

注释标识符，以及

父标识符，所述父标识符是另一记录的注释标识符，其中，所述非根记录中的至少一些还包括注释标签。

9.根据权利要求8所述的系统，其中，所述根记录还包括用于所述对话动作的说话者的指示。

10.根据权利要求8所述的系统，其中，所述根记录中的每个和所述多个非根记录中的至少一些还包括用于所述对话动作的说话者的指示。

11.根据权利要求8所述的系统，其中，所述注释标签选自包括后续谈话标签、对话动作类型以及先前谈话标签的群组。

12.根据权利要求8所述的系统，其中，所述注释标签选自包括后续谈话标签、对话动作类型、对话错误和先前谈话标签的群组。

13.根据权利要求12所述的系统，其中，具有表示先前谈话标签的注释标签的每个非根记录还包括另一注释记录的注释标识符，所述另一注释记录具有表示后续谈话标签的注释标签。

14.根据权利要求8所述的系统，其中，所述注释标签中的至少一些表示文本跨度。

15.根据权利要求8所述的系统，其中，所述输入对话动作中的至少一个对话动作中表示由所述系统的用户执行的操作动作。

16.根据权利要求8所述的系统，其中，所述存储器还存储指令，当被所述至少一个处理器执行时，所述指令使所述系统执行以下操作，所述操作包括：

确定第一非根记录链接至第二非根记录，所述第一非根记录与用于第一交谈标识符的根记录相关联，所述第二非根记录与用于第二交谈标识符的根记录相关联；

生成第一新非根记录，所述第一新非根记录用于识别所述父标识符中的所述第二非根记录，并且具有表示后续谈话的注释标签；以及

生成第二新非根记录，所述第二新非根记录用于识别所述父标识符中的所述第一非根记录，具有表示先前谈话的注释标签，并且识别在所述注释标识符中的所述第一新非根记录，

其中，所述第一交谈标识符和所述第二交谈标识符是不连续的。

17.一种系统，包括：

至少一个处理器；

对话输入设备；

对话输出设备；

分级注释记录的数据仓，所述分级注释记录包括根记录和非根记录，每个根记录指定交谈标识符和注释标识符，每个非根记录包括：

注释标识符，以及

父标识符，所述父标识符是另一记录的注释标识符，以及

所述非根记录中的至少一些还包括注释标签；以及

从所述对话输入设备接收输入对话动作，

生成用于所述输入对话动作的第一新根记录和第一非根记录，

响应于所述输入对话动作，经由所述对话输出设备，接收用于输出的输出对话动作，以及

生成用于所述输出对话动作的第二新根记录和第二非根记录，所述第二非根记录中的至少一个包括向后链接至所述第一非根记录的记录的注释标签。

18.根据权利要求17所述的系统，其中，向后链接至所述第一非根记录的记录包括生成具有后续谈话标签的记录，所述记录具有现有的第一非根记录的父标识符。

19.根据权利要求17所述的系统，其中，所述注释标签选自包括后续谈话标签、对话动作类型以及先前谈话标签的群组。

20.根据权利要求17所述的系统，其中，所述第一非根节点中的至少一些包括表示所述输入对话动作的文本跨度的标签。