CN111428042B

CN111428042B - 对话服务中的实体级澄清

Info

Publication number: CN111428042B
Application number: CN202010021124.3A
Authority: CN
Inventors: C.M.迪马西奥; D.K.拜伦; B.L.约翰森; F.皮纳尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-01-10
Filing date: 2020-01-09
Publication date: 2024-04-12
Anticipated expiration: 2040-01-09
Also published as: CN111428042A; US11164562B2; US20200227025A1

Abstract

一种用于对话服务中实体级澄清的系统，包括其中具有指令的存储器。该系统还包括与存储器通信的至少一个处理器。至少一个处理器被配置为执行指令以接收对话服务训练示例集，使用对话服务训练示例集构建实体使用图，接收用户话语，并且响应于接收到用户话语，使用实体使用图生成澄清响应。至少一个处理器还被配置为执行指令以向用户提供澄清响应。

Description

对话服务中的实体级澄清

技术领域

本公开总体上涉及认知数字助理(cognitive digital assistant，CDA)系统。

背景技术

今天的CDA，诸如苹果的和亚马逊的/>通常是用人工智能(artificial intelligence，AI)、机器学习和语音识别技术编程的。一些CDA的AI变成已包括了用于从用户输入中学习并且在预测用户需求方面变得更好的复杂算法。然而，在CDA中实施的故障模式通常是非常高级的，而不是细粒度的。一些CDA可能会响应于远离主题的输入产生同样的“我不明白”，就像它们在响应于那些调用与他们已被训练来提供的能力接近得多但与其也不完全相同的能力的命令所做的那样。

发明内容

公开了一种用于对话服务中实体级澄清的方法。该方法包括接收对话服务训练示例集，使用对话服务训练示例集构建实体使用图(usage map)，接收用户话语，以及响应于接收到用户话语，使用实体使用图生成澄清响应。该方法还包括向用户提供澄清响应。

公开了一种用于对话服务中实体级澄清的系统。该系统包括其中具有指令的存储器。该系统还包括与存储器通信的至少一个处理器。该至少一个处理器被配置为执行指令以接收对话服务训练示例集，使用对话服务训练示例集构建实体使用图，接收用户话语，并且响应于接收到用户话语，使用实体使用图生成澄清响应。至少一个处理器还被配置为执行指令以向用户提供澄清响应。

公开了一种用于对话服务中实体级澄清的计算机程序产品。计算机程序产品包括具有与其一起实现的程序指令的计算机可读存储介质。程序指令可由至少一个处理器执行，以使得至少一个处理器接收对话服务训练示例集，使用对话服务训练示例集构建实体使用图，接收用户话语，并且响应于接收到用户话语，使用实体使用图生成澄清响应。程序指令也可由至少一个处理器执行，以使至少一个处理器向用户提供澄清响应。

附图说明

为了更完整地理解本公开，现在结合附图和具体实施方式，参考以下简要描述，其中相同的附图标记表示相同的部分。

图1是示出根据本公开各方面的聊天机器人系统的框图。

图2是示出根据本公开各方面的数据处理系统的硬件体系结构的框图。

图3A-图3D是示出根据本公开各方面的用于对话服务中实体级澄清的计算机实现方法的流程图。

图示的附图仅仅是示例性的，并不旨在断言或暗示对可以在其中实施不同实施例的环境、体系结构、设计或过程的任何限制。

具体实施方式

首先应该理解，尽管下面提供了一个或多个实施例的说明性实施方式，但是所公开的系统、计算机程序产品和/或方法可以使用任何数量的技术(无论是当前已知的还是存在的)来实施。本公开决不应限于下面示出的示例性实施方式、附图和技术，包括本文示出和描述的示例性设计和实施方式，而是可以在所附权利要求及其等同物的全部范围内进行修改。

如在书面公开和权利要求中所使用的，术语“包括”和“包含”以开放式的方式使用，并且因此应该被解释为意味着“包括但不限于”。除非另有说明，如本文档通篇使用的那样，“或”不要求相互排他性，并且单数形式“一”、“一个”和“该”也包括复数形式，除非上下文另有明确说明。

本文引用的模块或单元可以包括一个或多个硬件或电子组件，诸如电路、处理器和存储器，它们可以被专门配置为执行特定功能。存储器可以是存储数据的易失性存储器或非易失性存储器，该数据例如但不限于计算机可执行指令、机器代码和其他各种形式的数据。模块或单元可以被配置成使用数据来执行一个或多个指令以执行一个或多个任务。在某些情况下，模块还可以指被配置为执行特定任务的特定功能、软件指令或电路集。例如，模块可以由软件组件(诸如但不限于数据访问对象、服务组件、用户界面组件、应用编程接口(API)组件)、硬件组件(诸如电路、处理器和存储器；和/或它们的组合)组成。如本文所引用的，计算机可执行指令可以是任何形式，包括但不限于机器代码、汇编代码和以任何编程语言编写的高级编程代码。

此外，如本文所使用的，术语“通信”意味着通过通信链路发送和/或接收数据。通信链路可以包括有线和无线链路两者，并且可以是直接链路，或者可以包括通过一个或多个通信网络或网络设备(诸如但不限于路由器、防火墙、服务器和交换机)的多条链路。通信网络可以是任何类型的有线或无线网络。网络可以包括专用网络和/或公共网络，诸如互联网。另外，在一些实施例中，术语通信还可以包括系统的各种组件之间的内部通信和/或与诸如键盘或显示设备的外部输入/输出设备的内部通信。

聊天机器人(也称为说话机器人、谈话机器人、机器人、即时消息(instantmessaging，IM)机器人、交互代理或人工对话实体)是一种能够经由听觉或文本方法与用户进行对话的CDA。典型聊天机器人可以被设置(即，“训练”)以使用服务API或文档语料库来响应可听用户话语和/或文本用户话语(本文称为“用户话语”、“话语”、“问题”、“查询”、“请求”或“命令”)。这种训练通常需要开发人员或用户将一个或多个API功能或文档段落映射到聊天机器人可能被要求采取行动或以其他方式响应的多个对话意图中的每一个。对话意图(本文称为“意图”)表示用户话语和聊天机器人的期望的响应动作(本文称为“响应”或“回答”)之间的映射。对话实体(本文称为“实体”)表示用户话语中的术语或对象，其为特定意图提供澄清或特定上下文。意图可以被认为是动词(即用户想要做的事情)，而实体可以被认为是名词(诸如动作的对象或上下文)。实体使得单个意图与多个特定动作相关联成为可能。例如，实体“我”、“航班”、“预订”和“餐馆”可以使得意图“获得”被用于进行旅行安排(例如，“帮我获得航班预订”)和/或制定晚餐计划(例如，“帮我获得餐馆预订”)成为可能。实体还可以定义对象的类和/或子类，其中特定值表示类和/或子类中的可能对象。例如，“火车”、“公共汽车”和“出租车”全部可以是“公共”子类或“交通”类别类型中的特定值或实例。本公开的各方面响应于聊天机器人不能理解或没有被专门训练来行动的话语，提示聊天机器人用户进行澄清。

图1是示出根据本公开各方面的聊天机器人系统100的框图。此外，应该理解的是，助手和其他对话服务提供用于为聊天机器人构建良好的自然语言理解(natural language understanding，NLU)组件的工具。根据本公开的各方面，聊天机器人系统100被配置为响应于通过网络136从一个或多个用户设备148接收的一个或多个用户话语。网络136可以是使聊天机器人系统100能够与一个或多个用户设备148以及诸如网络设备144的其他设备通信的任何类型的网络。网络设备144可以是向聊天机器人系统100提供一个或多个服务的其他服务器、数据库或应用。例如，网络136可以包括各种网络，这些网络包括有线和无线网络，诸如但不限于一个或多个无线网络(例如，蜂窝网络或移动网络)、局域网(local area network，LAN)、广域网(wide area network，WAN)和城域网(metropolitan area network，MAN)等。网络136也可以包括专用网络和公共网络(诸如互联网)两者。

用户设备148中的每一个是用户152可以用来与聊天机器人系统100交互的任何类型的电子设备。用户设备148的非限制性示例包括个人计算机(台式或膝上型)、移动设备(例如个人数字助理(personal digital assistant，PDA)、智能电话、平板电脑)、认知语音助理设备(例如亚马逊的或Google/>)和物联网(Internet of Thing，IoT)设备，诸如但不限于车辆、家用电器和嵌入有电子设备、软件、传感器、致动器以及使这些对象能够连接和交换数据的连接性的其他物品。根据本公开的各方面，聊天机器人系统100被配置成使得能够经由一个或多个用户设备148与用户152进行听觉通信以及文本通信。

聊天机器人系统100被配置成将信息存储到一个或多个知识库140中并接收包含在其中的信息。聊天机器人系统100可以经由直接通信链路或网络136与知识库140通信。知识库140中的每一个是信息库，其可以包括知识图和文档语料库，诸如但不限于出版物、书籍、杂志、文章、研究论文、在线内容和使得聊天机器人系统100能够根据本公开的各方面响应用户话语的其他数据。知识图是知识域的表示，它基于图数据结构，该图数据结构具有将诸如事实、人和地点等相关数据链接在一起的节点和边。知识图的非限制性示例包括Yago^TM和/或Freebase^TM。聊天机器人系统100还可以被配置成与一个或多个网络设备144通信，用于收集与用户话语相关的信息。

根据本公开的各方面，聊天机器人系统100包括语音识别模块104、语言分析模块108、对话服务模块112、文本生成模块128和语音合成模块132。语音识别模块104被配置为执行特征提取，以识别用户话语中的可听和文本单词和单词序列。语音识别模块104可以将用户话语从模拟形式转换成数字形式。语音识别模块104可以利用声学模型和/或随机语言模型来确定单词序列的概率。

语言分析模块108可以被配置为采用句法和语义分析和/或其他自然语言处理(natural language processing，NLP)或NLU技术来确定最佳单词序列、短语结构，并解释可听用户话语和/或文本用户话语。根据本公开的各方面，语言分析模块108分析用户话语的意图和实体，并将这样的数据提供给对话服务模块112。

根据本公开的各方面，对话服务模块112被配置为确定对用户话语的响应。所描绘的对话服务模块112包括包含一个或多个意图的集合的意图模块116、包含一个或多个实体的集合的实体模块120以及一个或多个对话树的集合124。每个对话树124以逻辑树的形式定义对话流。树的每个节点具有基于用户的话语触发它的条件。例如，对话树124中的一个可以用于使用户能够搜索和预订酒店房间。对话树124中的另一个可以用于使用户能够执行银行操作。通过识别用户话语中表达的(多个)意图和(多个)实体，对话服务模块112可以选择正确的对话流和正确的应用/意图来要求响应话语。

文本生成模块128被配置成从对话服务模块112接收对用户话语的响应，并将响应转换成表示适合于发出请求的用户设备148中的一个的相应文本信息的数据。因此，一旦对话服务模块112确定了对用户话语的响应，聊天机器人系统100可以使用文本生成模块128提供文本响应。语音合成模块132被配置成将来自文本生成模块128的文本数据转换成可听形式。因此，经由语音合成模块132，聊天机器人系统100也可以提供可听响应。

图2是示出根据本公开各方面的数据处理系统200的硬件体系结构的框图。根据本公开的各方面，聊天机器人系统100(在图1中示出)可以使用数据处理系统200来实施。此外，数据处理系统200可以被配置为存储和运行用于执行方法300(在图3A-图3D中描绘)以及本文描述的其他过程的指令。在所描绘的示例中，数据处理系统200采用集线器体系结构，包括北桥和存储器控制器集线器(north bridge and memory controller hub，NB/MCH)206以及南桥和输入/输出(I/O)控制器集线器(south bridge and input/output(I/O)controller hub，SB/ICH)210。(多个)处理器202、主存储器204和图形处理器208连接到NB/MCH 206。图形处理器208可以通过加速图形端口(accelerated graphics port，AGP)连接到NB/MCH 206。诸如总线232或总线234的计算机总线可以使用任何类型的通信构造或体系结构来实施，该通信结构或体系结构提供附接到该构造或体系结构的不同组件或设备之间的数据传送。

在所描绘的示例中，网络适配器216连接到SB/ICH 210。音频适配器230、键盘和鼠标适配器222、调制解调器224、只读存储器(read-only memory，ROM)226、硬盘驱动器(harddisk drive，HDD)212、光盘只读存储器(compact disk read-only memory，CD-ROM)驱动器214、通用串行总线(universal serial bus，USB)端口和其他通信端口218，以及外围组件互连/外围组件互连快速(peripheral component interconnect/peripheral componentinterconnect express，PCI/PCIe)设备220通过总线232和总线234连接到SB/ICH 210。例如，PCI/PCIe设备可以包括以太网适配器、插卡和用于笔记本电脑的个人计算(personalcomputing，PC)卡。PCI使用卡总线控制器，而PCIe不使用。ROM 226可以是例如闪存基本输入/输出系统(basic input/output system，BIOS)。调制解调器224或网络适配器216可以用于通过网络发送和接收数据。

HDD 212和CD-ROM驱动器214通过总线234连接到SB/ICH 210。HDD 212和CD-ROM驱动器214可以使用例如集成驱动电子设备(integrated drive electronics，IDE)或串行高级技术附件(serial advanced technology attachment，SATA)接口。根据本公开的各方面，HDD 212可以由其他形式的数据存储设备代替，包括但不限于固态驱动器(solid-statedrives，SSD)。超级I/O(super I/O，SIO)设备228可以连接到SB/ICH 210。SIO设备228可以是主板上的芯片，该芯片被配置为帮助执行对SB/ICH 210要求较低的控制器功能，诸如控制打印机端口、控制风扇和/或控制数据处理系统200的小发光二极管(light emittingdiodes，LEDS)。

数据处理系统200可以包括单个处理器202或者可以包括多个处理器202。另外，(多个)处理器202可以具有多个内核。根据本公开的各方面，数据处理系统200可以采用大量处理器202，处理器202包括数百或数千个处理器内核。根据本公开的各方面，处理器202可以被配置成并行执行一组协调计算。

使用(多个)处理器202在数据处理系统200上执行操作系统。操作系统协调并提供对图2中数据处理系统200内各种组件的控制。各种应用和服务可以与操作系统一起运行。用于操作系统、应用和其他数据的指令位于诸如一个或多个HDD 212的存储设备上，并且可以被加载到主存储器204中以供(多个)处理器202执行。根据本公开的各方面，附加指令或数据可以存储在一个或多个外部设备上。本文针对说明性实施例描述的过程可以由(多个)处理器202使用计算机可用程序代码来执行，该计算机可用程序代码可以位于存储器中，诸如主存储器204、ROM 226，或者位于一个或多个外围设备中。

图3A-图3D是示出根据本公开各方面的用于对话服务中的实体级澄清的计算机实施的方法300的流程图。方法300可以由聊天机器人系统100(如图1所示)来执行。因此，方法300的以下描述参考聊天机器人系统100的操作和组件进行。然而，应当理解，方法300不限于聊天机器人系统100。方法300和/或方法300的任何一个或多个特定步骤可以由任何其他合适的设备或系统来执行。

在步骤308，聊天机器人系统100接收训练示例集，构建操作模型，并执行其他设置和/或启动功能。例如，步骤308可以在上电时或者在硬重启或复位之后执行。根据本公开的各方面，在步骤308，聊天机器人系统100从知识库140中的一个或多个(经由网络136)接收呈文本段落和文档形式的训练示例。聊天机器人系统100根据训练示例确定意图和实体(本文分别称为“训练意图”和“训练实体”)，并且用户152使用聊天机器人系统100将这些训练意图和训练实体映射到聊天机器人系统100的期望响应。聊天机器人系统100使用训练数据和用户规范来构建对话树124中的一个或多个。作为构建一个或多个对话树的集合124的一部分，聊天机器人系统100还对训练意图进行分类，生成相应的训练意图类别指定，并用它们的类别指定来标记训练意图。例如，语言分析模块108可以通过分析训练示例文本段落和/或文档来确定术语“安排(schedule)”、“预订(reserve)”和“预定(book)”(尽管它们的文本的和可听的差异)可以被分组到共同的意图类别中，诸如“预约(make anappointment)”意图。因此，语言分析模块108可以用#预_约指定来标记这些术语中的每一个。应当理解，这种分类可以降低对话树的复杂性并提高其效率。另外，在步骤308，语言分析模块108用设计成适应潜在用户拼写错误/打字错误和/或发音错误的变化来补充训练实体集(即，从训练样本导出的实体集)。例如，语言分析模块108可以将术语(拼写错误的)“fullfill”添加到包括“fulfill(完成)”的实体集，以适应文本请求中的潜在拼写错误。在步骤308之后，聊天机器人系统100的操作转到步骤312。

在步骤312，聊天机器人系统100构建训练实体的使用图(在步骤308确定)。构建该图包括对训练实体(包括任何添加/补充实体)进行分类，并包括用其他数据/知识对训练意图、训练意图类别、训练实体(包括任何添加/补充实体)和训练实体类别进行表示，以便将意图、实体、类别彼此以及与扩展的数据/知识体有效地真实或实际地关联起来。这种图在本文被称为“实体使用图”。实体使用图可以被实施为本体、知识图或任何其他合适的模式，并且可以结合来自知识库140中的一个或多个的数据并将其存储在知识库140中的一个或多个中。步骤312还可以包括用实体使用图可以提供的有用信息适当地标记训练实体。在步骤312之后，聊天机器人系统100的操作转到步骤316。

在步骤316，聊天机器人系统100从用户152(经由用户设备148和网络136中的一个)接收注意提示。注意提示(诸如“Watson^TM，我需要你”、“你好，”或“嘿，Siri”)让聊天机器人系统100知道用户152想要做出实质性请求或进行实质性对话。此外，在步骤316，聊天机器人系统100通过将适当的变量或标志设置(或重置)为真状态(例如，CLARIFICATION_FLAG＝1)来启用方法300的各种特征。在步骤316之后，聊天机器人系统100的操作转到步骤320。

在步骤320，聊天机器人系统100接收用户话语。根据本公开的各方面，步骤320可以包括经由语音识别模块104接收可听用户话语。作为接收可听用户话语的替代或补充，在步骤320，聊天机器人系统100可以从网络136接收文本用户话语(和/或表示文本用户话语的数据)。在步骤320之后，聊天机器人系统100的操作转到步骤324。

在步骤324，聊天机器人系统100分析用户话语。根据本公开的各方面，步骤324包括分析用户话语的意图和实体，并将这样的数据提供给对话服务模块112的语言分析模块108。此外，在步骤324，聊天机器人系统100确定与聊天机器人系统100能够准确、可靠和/或以其他方式适当地实质性地响应于用户话语或适当地实质性地对用户话语采取行动的程度相对应的置信度水平或值。在步骤324之后，聊天机器人系统100的操作转到步骤326。

在步骤326，聊天机器人系统100决定是否实质性地响应于用户话语或实质性地对用户话语采取行动。根据本公开的各方面，聊天机器人系统100通过确定置信度值(根据步骤324)是否超过适当的阈值来做出该决定。如果置信度值适当地高，聊天机器人系统100的操作转到步骤328。否则，聊天机器人系统100的操作转到步骤332。

在步骤328，聊天机器人系统100根据对话树124中可应用的一个实质性地响应于用户话语或实质性地对用户话语采取行动。根据本公开的各方面，在最终导致聊天机器人系统100提供除了(在步骤404的)“对不起，但是我不明白你想要什么”之外的响应或行动的每个澄清响应的集合之后，聊天机器人系统100可以询问用户和/或向用户社区或其他群组轮询(poll)最终提供的响应或行动是否确实是对用户原始话语的良好或合适的反应的指示(诸如是/否投票、赞成/反对选择等)。根据这些方面，当一致认为响应或行动是良好的时，聊天机器人系统100可以将原始话语和最终响应(和/或所确定的(多个)相关联意图和(多个)实体)添加到聊天机器人系统100的训练数据或其他已知的知识体数据中，使得在将来聊天机器人系统100可以响应原始话语而无需重复的澄清。在步骤328之后，聊天机器人系统100的操作转到步骤408。

在步骤332，聊天机器人系统100确定是否禁用方法300的各种特征。在聊天机器人系统100不能说服用户152提供实质上可动作的话语的情况下，禁用方法300的一些特征可以将聊天机器人系统100的操作移出潜在的无限循环。根据本公开的各方面，在步骤332，当聊天机器人系统100自从(在步骤316或步骤408)接收到注意提示以来已经连续两次提供相同的澄清响应或者自从接收到注意提示以来已经提供了10个连续的澄清响应时，聊天机器人系统100通过将适当的变量或标志设置(或清除)为假状态(例如，CLARIFICATION_FLAG＝0)来禁用方法300的各种特征。除了或替代这种自动禁用，聊天机器人系统100可以提供选项和相应的输入和输出，以允许用户152选择性地禁用方法300的特征。如果聊天机器人系统100(或用户152)在步骤332禁用特征，则聊天机器人系统100的操作转到步骤404。否则，聊天机器人系统100的操作转到步骤336。

在步骤336，如果聊天机器人系统100能够识别或标识用户话语中的一个或多个验证的(即，训练的、识别的或聊天机器人系统100以其他方式已知的)实体(或者在步骤324识别或确认)，则聊天机器人系统100的操作转到步骤340。否则，聊天机器人系统100的操作转到步骤376。

在步骤340，聊天机器人系统100使用(在步骤312构建的)实体使用图，基于映射的实体相关联候选和实体类别候选与(在步骤336和/或步骤324)在用户话语中识别的实体的关联、关系等，确定一个或多个实体相关联候选和实体类别候选的当前集合。例如，假设聊天机器人系统100已经接收到(在步骤320)像“今天波兰语的天气怎么样？”的用户话语，并且假设聊天机器人系统100确定(在步骤326)聊天机器人系统100不能自信地做出响应(也许除了其他事项以外，聊天机器人系统100没有(在步骤308)被训练说波兰语)。继续该示例，进一步假设，尽管聊天机器人系统100不能自信地响应用户话语，但是提供给聊天机器人系统100的训练示例包括关于北美国家曲棍球联盟的文档语料库。进一步假设这些文档包括报纸上关于讲波兰语的教练的文章，他使用波兰语-英语-波兰语电子翻译与他的团队交流。然后，进一步假设聊天机器人系统100在训练期间将波兰语确认为实体——例如，可能因为聊天机器人系统100被训练来回答体育琐事问题。进一步假设实体使用图包括地理信息知识库，该地理信息知识库包括对波兰和作为在那里使用的语言的波兰语的引用。然后，继续该示例，根据本公开的各方面，在步骤340，聊天机器人系统100使用实体使用图的知识图实现来确定波兰语与波兰相关联。类似地，聊天机器人系统100还确定波兰有城市，并且城市可以被分类为“位置”。因此，在该示例中，在步骤340，聊天机器人系统100确定，即使“波兰”不是聊天机器人系统100最初识别(并且不能响应)的“波兰语”实体，“波兰”仍然是相关联的替代实体。这种相关联的替代实体在本文中被称为“实体相关联候选”。并且，继续该示例，聊天机器人系统100确定“波兰语”与“波兰”相关联，该“波兰”在“#位置”实体类别中。这种实体类别在本文被称为“实体类别候选”。在步骤340之后，聊天机器人系统100的操作转到步骤344。

在步骤344，聊天机器人系统100确定是否需要新的一个或多个意图类别候选的集合。如本文所述，“意图类别候选”是指用于生成一个或多个澄清响应的意图类别(将在下文进一步讨论)。根据本公开的各方面，当聊天机器人系统100还没有通过(在步骤324)分析用户话语来确定任何可靠的意图类别并且聊天机器人系统100已经在一个或多个澄清响应中呈现了所有特定的意图类别候选的集合(自从最近的注意提示或澄清响应重启(在步骤316接收)以来)，聊天机器人系统100在步骤344确定需要新的一个或多个意图类别候选的集合。如果聊天机器人系统100确定需要新的一个或多个意图类别候选的集合，则聊天机器人系统100的操作转到步骤348。否则，聊天机器人系统100的操作转到步骤364。

在步骤348，语言分析模块108将在用户话语中识别的实体从用户话语中剥离出来或者屏蔽这些实体，使得它们不会被考虑用于进一步处理。例如，聊天机器人系统100可以转换“今天波兰语的天气怎么样？”到“天气怎么样？”。在步骤348之后，聊天机器人系统100的操作转到步骤352。

在步骤352，聊天机器人系统100通过确定哪个(哪些)验证的(即，训练的、识别的或聊天机器人系统100通过其他方式已知的)(多个)意图类别最类似于(从步骤348)剥离的话语，来确定一个或多个意图类别候选的集合。诸如，从“天气怎么样？”，聊天机器人系统100可以生成一个或类似的意图类别，诸如#天气_预报、#天气_事件、#天气_历史、#天气_比较等。在步骤352之后，聊天机器人系统100的操作转到步骤356。

在步骤356，聊天机器人系统100使用实体使用图，基于哪个(哪些)(来自步骤352的)意图类别候选与标记的训练实体集最紧密相关联，来确定精炼的(或更窄的)一个或多个意图类别候选的集合。例如，根据意图类别候选，诸如#天气_预报、#天气_事件、#天气_历史和#天气_比较，聊天机器人系统100可以确定#天气_历史和#天气_比较与来自用于训练聊天机器人系统100的示例中的实体最紧密相关联。因此，在该示例中，聊天机器人系统100确定(多个)意图类别候选的集合是(#天气_历史；#天气_比较)。在步骤356之后，聊天机器人系统100的操作转到步骤360。

在步骤360，聊天机器人系统100生成一个或多个澄清响应，该一个或多个澄清响应包括/覆盖(来自步骤356的)(多个)精炼的意图类别候选，并且包括/覆盖(来自步骤340的)(多个)实体相关联候选和(多个)实体类别候选。例如，响应于用户话语诸如“今天波兰语的天气怎么样？”，聊天机器人系统100的一些方面可以提供一个或多个澄清响应，例如：

“我不能给你波兰语的天气，但是你是说你想要波兰某个地方的天气历史吗？”

“我不能给你波兰语的天气，但是你是说你想把波兰的天气和另一个地方的天气进行比较吗？”

“我不太明白你在要求什么，但我能给你任何特定地方的天气历史吗？”

“你是说你想要天气比较？”

在步骤360之后，聊天机器人系统100的操作转到步骤372。

在步骤364，聊天机器人系统100使用实体使用图，基于(来自步骤340的)哪些实体相关联候选和实体类别候选与(多个)当前意图类别候选最紧密相关联，确定(或重新确定)一个或多个实体相关联候选和实体类别候选的当前集合。在步骤364，(多个)当前意图类别候选是聊天机器人系统100在分析用户话语(在步骤324)时确定的(多个)意图类别(如果有的话)或者(来自步骤356的)精炼的意图类别候选的集合的(多个)成员。在步骤364之后，聊天机器人系统100的操作转到步骤368。

在步骤368，聊天机器人系统100生成一个或多个澄清响应，该一个或多个澄清响应包括/覆盖(来自步骤364的)(多个)当前意图类别候选并且包括/覆盖(来自步骤364、步骤384、步骤392或步骤400的)(多个)当前实体相关联候选和(多个)实体类别候选。在步骤368之后，聊天机器人系统100的操作转到步骤372。

在步骤372，聊天机器人系统100向用户152提供(来自步骤360或步骤368的)(多个)澄清响应。根据本公开的各方面，聊天机器人系统100可以可听地(例如，经由语音合成模块132)提供(多个)澄清响应。作为经由语音合成模块132提供(多个)澄清响应的替代或补充，聊天机器人系统100可以提供(多个)澄清响应，使得用户152可以经由用户设备148中的一个看到和/或听到(多个)澄清响应。在步骤372之后，聊天机器人系统100的操作转到步骤320。

在步骤376，如果聊天机器人系统100能够从用户话语中识别或确认任何验证的(即，训练的、识别的或聊天机器人系统100以其他方式已知的)(多个)意图和/或验证的(多个)意图类别(或在步骤324识别或确认)，则聊天机器人系统100的操作进行到步骤380。否则，聊天机器人系统100的操作转到步骤388。

在步骤380，聊天机器人系统100使用实体使用图，基于哪个(哪些)验证的(即，训练的、识别的或聊天机器人系统100以其他方式已知的)(多个)实体与(来自步骤376的)(多个)验证的意图和/或(多个)验证的意图类别最紧密地相关联，确定一个或多个实体相关联候选和实体类别候选的当前集合(即，“(多个)实体相关联/实体类别候选的集合”)。在步骤380，聊天机器人系统100还确定对应于(多个)当前实体相关联/实体类别候选的集合的准确性、可靠性和/或其他类似质量特性的置信度水平或值。在步骤380之后，聊天机器人系统100的操作转到步骤384。

在步骤384，聊天机器人系统100决定是否使用(来自步骤380的)(多个)当前实体相关联/实体类别候选的集合。根据本公开的各方面，聊天机器人系统100通过确定(来自步骤380的)置信度值是否超过适当的阈值来做出该决定。如果置信度值适当地高，聊天机器人系统100的操作进行到步骤368。否则，聊天机器人系统100的操作转到步骤388。

在步骤388，聊天机器人系统100使用实体使用图和结构分析、组块标记(chunktagging)、低阈值统计实体标记和/或类似技术，经由从用户话语的孤立术语进行的推断来确定(多个)当前实体相关联/实体类别候选的集合。在步骤388，聊天机器人系统100还确定对应于(多个)当前实体相关联/实体类别候选的集合的准确性、可靠性和/或其他类似质量特性的置信度水平或值。在步骤388之后，聊天机器人系统100的操作转到步骤392。

在步骤392，聊天机器人系统100决定是否使用(来自步骤388的)当前实体相关联/实体类别候选的集合。根据本公开的各方面，聊天机器人系统100通过确定(来自步骤388的)置信度值是否超过适当的阈值来做出该决定。如果置信度值适当高，聊天机器人系统100的操作进行到步骤344。否则，聊天机器人系统100的操作转到步骤396。

在步骤396，聊天机器人系统100使用实体使用图，通过搜索互联网、用户的电子日历、用户的电子联系人信息和/或其他公共和/或私人资源，以参考文本段落和/或与用户话语相关的其他信息(这些信息可用于推断实体使用图上/中的关联)，来确定(多个)当前实体相关联/实体类别候选的集合。在步骤396，聊天机器人系统100还确定对应于(多个)当前实体相关联/实体类别候选的集合的准确性、可靠性和/或其他类似质量特性的置信度水平或值。在步骤396之后，聊天机器人系统100的操作转到步骤400。

在步骤400，聊天机器人系统100决定是否使用(来自步骤396的)(多个)当前实体相关联/实体类别候选的集合。根据本公开的各方面，聊天机器人系统100通过确定(来自步骤396)置信度值是否超过适当的阈值来做出该决定。如果置信度值适当高，聊天机器人系统100的操作进行到步骤344。否则，聊天机器人系统100的操作转到步骤404。

在步骤404，聊天机器人系统100向用户152提供“对不起，但是我不明白你想要什么”或类似的响应。根据本公开的各方面，聊天机器人系统100可以可听地(例如，经由语音合成模块132)提供响应。作为经由语音合成模块132提供响应的替代或补充，聊天机器人系统100可以提供响应，使得用户152可以经由用户设备148中的一个看到和/或听到响应。在步骤404之后，聊天机器人系统100的操作转到步骤408。

在步骤408，聊天机器人系统100等待注意提示。如上所述，注意提示让聊天机器人系统100知道用户152想要做出实质性请求或进行实质性对话。如果聊天机器人系统100接收到注意提示，聊天机器人系统100的操作转到步骤412。否则，聊天机器人系统100继续(在步骤408后)等待注意提示。

在步骤412，聊天机器人系统100通过将适当的变量或标志设置(或重置)为真状态(例如，CLARIFICATION_FLAG＝1)来启用方法300的各种澄清特征。在步骤412之后，聊天机器人系统100的操作转到步骤320。

应当理解，本公开的各方面尤其提供了CDA的增强拟人化，并且因此提供了改进的用户体验。还应当理解，本公开的各方面减少了对过拟合CDA来处理接近遗漏场景(nearmiss scenario)的需求，在接近遗漏场景中，话语可以接近但不完全等同于CDA能够实质性响应的话语。还应当理解，本公开的各方面有助于不太复杂和不太耗时的CDA训练，形成更简单的对话树，并降低失败对话场景的可能性，这些失败对话场景可能会不期望地激怒用户，并且需要不期望的大量开发资源来缓解失败对话场景。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。本文所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，根据本公开的各方面例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的方法从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系体系结构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。此外，本文描述的方法的步骤可以以任何合适的顺序执行，或者在适当的情况下同时执行。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于在聊天机器人系统中集成的对话服务中实体级澄清的方法，所述方法包括：

由所述聊天机器人系统通过通信网络从知识库接收对话服务训练示例集；

由所述聊天机器人系统从所述对话服务训练示例集中确定训练意图和训练实体；

由所述聊天机器人系统将所述训练意图分类成多个训练意图类别；

由所述聊天机器人系统将所述训练实体分类成多个训练实体类别；

由所述聊天机器人系统使用所述对话服务训练示例集构建实体使用图,其中，所述实体使用图将所述训练意图、所述训练实体、所述多个训练意图类别和所述多个训练实体类别彼此链接；

由所述聊天机器人系统接收用户话语；

当以模拟形式接收所述用户话语时，将所述用户话语转换为数字形式；

确定所述用户话语中的意图和实体；

确定对应于所述聊天机器人系统能够准确地响应所述用户话语的程度的置信度值；

当所述置信度值不满足预定阈值时，由所述聊天机器人系统使用所述实体使用图来识别与对应于所述用户话语的所述实体相关联的实体相关联候选、对应于所述实体相关联候选的实体类别候选以及意图类别候选；

由所述聊天机器人系统基于所述实体相关联候选、所述实体类别候选和所述意图类别候选生成澄清响应；以及

由所述聊天机器人系统向用户提供所述澄清响应。

2.根据权利要求1所述的方法，其中使用所述实体使用图确定所述意图类别候选排除使用所述实体使用图确定所述意图类别候选对所识别的实体的依赖。

3.根据权利要求1所述的方法，，还包括当所述澄清响应计数器超过预定阈值时，为所述用户提供选择性地禁用所述聊天机器人系统的特征的选项。

4.根据权利要求1所述的方法，进一步包括：

未能识别所述用户话语中的任何实体；和

未能识别所述用户话语中的任何实体的同时未能识别所述用户话语的任何意图，

其中，响应于在未能识别所述用户话语中的任何实体的情况下未能识别所述用户话语的任何意图，使用所述实体使用图生成所述澄清响应包括使用所述实体使用图和从由所述用户话语的孤立术语、互联网、用户的电子日历和用户的电子联系人信息组成的群组中选择的资源来确定从由实体相关联候选和实体类别候选组成的群组中选择的候选。

5.一种用于对话服务中实体级澄清的系统，所述系统包括：

其中具有指令的存储器；和

与所述存储器通信的至少一个处理器，其中所述至少一个处理器被配置成执行指令以：

通过通信网络从知识库接收对话服务训练示例集，

从所述对话服务训练示例集中确定训练意图和训练实体；

将所述训练意图分类成多个训练意图类别；

将所述训练实体分类成多个训练实体类别；

使用所述对话服务训练示例集构建实体使用图,其中，所述实体使用图将所述训练意图、所述训练实体、所述多个训练意图类别和所述多个训练实体类别彼此链接；

接收用户话语，

当以模拟形式接收该用户话语时，将该用户话语转换为数字形式；

确定所述用户话语中的意图和实体；

确定对应于能够准确地响应所述用户话语的程度的置信度值；

当所述置信度值不满足预定阈值时，使用所述实体使用图来识别与对应于所述用户话语的所述实体相关联的实体相关联候选、对应于所述实体相关联候选的实体类别候选以及意图类别候选；

基于所述实体相关联候选、所述实体类别候选和所述意图类别候选生成澄清响应，以及

向用户提供所述澄清响应。

6.根据权利要求5所述的系统，其中，所述至少一个处理器还被配置为执行所述指令以排除所述意图类别候选的确定对所识别的实体的依赖。

7.根据权利要求5所述的系统，其中，所述至少一个处理器还被配置为执行所述指令，以当所述澄清响应计数器超过预定阈值时，为所述用户提供选择性地禁用聊天机器人系统的特征的选项。

8.根据权利要求5所述的系统，其中，所述至少一个处理器还被配置为执行所述指令，以响应于在未能识别所述用户话语中的任何实体的情况下未能识别所述用户话语中的任何意图，使用所述实体使用图和从由所述用户话语的孤立术语、互联网、用户的电子日历和用户的电子联系人信息组成的组中选择的资源，确定从由实体相关联候选和实体类别候选组成的组中选择的候选。

9.一种用于对话服务中实体级澄清的计算机可读存储介质，其中包含程序指令，所述程序指令可由至少一个处理器执行，以使所述至少一个处理器：

通过通信网络从知识库接收对话服务训练示例集，

从所述对话服务训练示例集中确定训练意图和训练实体；

将所述训练意图分类成多个训练意图类别；

将所述训练实体分类成多个训练实体类别；

使用所述对话服务训练示例集构建实体使用图，其中，所述实体使用图将所述训练意图、所述训练实体、所述多个训练意图类别和所述多个训练实体类别彼此链接；

接收用户话语；

确定所述用户话语中的意图和实体；确定对应于能够准确地响应所述用户话语的程度的置信度值；

向用户提供所述澄清响应。

10.根据权利要求9所述的计算机可读存储介质，其中，所述程序指令还可由所述至少一个处理器执行，以使得所述至少一个处理器排除所述意图类别候选的确定对所识别的实体的依赖。

11.根据权利要求9所述的计算机可读存储介质，其中，所述程序指令还可由所述至少一个处理器执行，以当所述澄清响应计数器超过预定阈值时，为所述用户提供选择性地禁用聊天机器人系统的特征的选项。

12.根据权利要求9所述的计算机可读存储介质，其中，所述程序指令还可由所述至少一个处理器执行，以使得所述至少一个处理器响应于在未能识别所述用户话语中的任何实体的情况下未能识别所述用户话语中的任何意图，使用所述实体使用图和从由所述用户话语的孤立术语、互联网、用户的电子日历和用户的电子联系人信息组成的组中选择的资源，确定从由实体相关候选和实体类别候选组成的组中选择的候选。