CN111400434A

CN111400434A - 基于对先前响应的引用管理语音响应系统的方法和系统

Info

Publication number: CN111400434A
Application number: CN202010003499.7A
Authority: CN
Inventors: V·卡斯泰利; S·卡瓦特拉; J·威尔森; S·拉克什特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-01-03
Filing date: 2020-01-03
Publication date: 2020-07-10
Anticipated expiration: 2040-01-03
Also published as: CN111400434B; US10943588B2; US20200219497A1

Abstract

本申请涉及基于对先前响应的引用管理语音响应系统的方法和系统。描述了用于通过一个或多个处理器来管理语音响应系统的实施例。接收来自个体的至少一个通信。在接收到的至少一个通信内识别对由语音响应系统执行的先前响应的引用。基于由语音响应系统执行的先前响应来确定对接收到的至少一个通信的响应。

Description

基于对先前响应的引用管理语音响应系统的方法和系统

技术领域

本发明一般涉及计算系统，并且更特定地，涉及用于基于例如对被包括在接收到的通信中的先前响应的引用来管理语音响应系统的各种实施例。

背景技术

语音响应系统，也被称为聊天机器人(chatbot)、谈话机器人(talkbot)、交谈机器人(chatterbot)、机器人、即时消息(IM)机器人、交互式代理、人工对话实体(ACE)等，是能够通过听觉(例如话音/语音)或基于文本的方法与个体(或用户)进行对话的计算机节点(即设备和/或程序)或人工智能模块。这样的程序通常被设计成令人信服地模拟人类作为对话伙伴如何表现。由此，用户可以提出问题并提供命令，并且语音响应系统可以基于它的知识库和/或通过分析问题/命令来做出响应(例如，回答问题、执行动作等)，从而提供它可以生成的最佳响应。

然而，与当向人类提供请求(或命令)和/或提出问题时不同，语音响应系统通常不考虑先前接收到的相似命令(或问题)和/或作为结果被执行过的响应。

发明内容

描述了用于通过一个或多个处理器来管理语音响应系统的各种实施例。在一个实施例中，仅作为示例，提供了一种用于同样通过一个或多个处理器来管理语音响应系统的方法。接收到来自个体的至少一个通信。在接收到的至少一个通信内识别对由语音响应系统执行的先前响应的引用。基于由语音响应系统执行的先前响应来确定对接收到的至少一个通信的响应。

附图说明

为了容易地理解本发明的优点，将通过参考附图中示出的具体实施例来呈现以上简要描述的本发明的更特定描述。要理解这些附图仅描绘了本发明的典型实施例，因此不应认为是对本发明范围的限制，将通过使用附图以附加的特征和细节来描述和解释本发明，在附图中：

图1是描绘根据本发明实施例的示例性计算节点的框图；

图2是描绘根据本发明的实施例的示例性云计算环境的附加框图；

图3是描绘根据本发明实施例的抽象模型层的附加框图；

图4是根据本发明的实施例的计算环境的简化框图；

图5是根据本发明实施例的用于管理语音响应系统的方法的框图/流程图；以及

图6是根据本发明实施例的用于管理语音响应系统的示例性方法的流程图。

具体实施方式

如上所述，语音响应系统，也被称为聊天机器人(chatbot)、谈话机器人(talkbot)、交谈机器人(chatterbot)、机器人、即时消息(IM)机器人、交互式代理、人工对话实体(ACE)等，是能够通过听觉(例如话音/语音)或基于文本的方法与个体(或用户)进行对话的计算机节点(即设备和/或程序)或人工智能模块。这样的程序通常被设计成令人信服地模拟人类作为对话伙伴如何表现。由此，用户可以提出问题并提供命令，并且语音响应系统可以基于它的知识库和/或通过分析问题/命令来做出响应(例如，回答问题、执行动作等)，从而提供它可以生成的最佳响应。

即，当要求另一个人执行任务时，个体可以在他们的通信(例如，口头请求/命令)中包括对相似的先前执行的任务的引用。例如，如果个体要求另一个人在商店购买一些商品，为了澄清或简化指示，如有需要，个体可能会表明他们想要与在前一次旅行中其他人在商店购买的相同商品(例如，“让我们做上周末在我们的邻居家吃的相同的饭吧。你能去杂货店并且买那些原料吗？”)。

作为另一个示例，父母可以告诉他们的孩子做一些杂务。代替指定每个任务和/或任务应被执行的确切方式，父母通常可以简单地提及孩子做杂务的前一天(例如，“如果你想要一周的零用钱，你今天必须做和上周六你做的一样的家务活。”)

当前的语音响应系统可能无法理解对先前执行的任务(或生成的响应)的这样的引用。由此，个体(或用户)可能必须指定他们想要进行或执行的确切任务(或动作)和/或关于任务的特定细节。

因此，需要用于管理聊天机器人(或语音响应)系统的方法和系统，例如，该方法和系统能够识别和/或理解对被包括在接收到的通信(例如，语音命令、问题等)中的先前执行的响应的引用。

为了解决这些需求，这里描述的一些实施例提供了用于管理(或控制)语音响应系统(或聊天机器人)的方法和系统，该方法和系统具有识别和/或理解被包括在接收到的通信(例如，语音通信和/或基于文本的通信)中的引用(reference)的能力，并基于先前生成的响应和/或与先前生成的响应(和/或接收到的通信和/或个体)相关联的数据源生成响应(例如，语音回复、动作等)。

在一些实施例中，当向语音响应系统提交(或提供)诸如命令或问题之类的通信(例如，语音通信或基于文本的通信)时，用户可以包括对该语音响应系统(或另一个语音响应系统)先前生成(或执行)的响应(例如，听觉响应、执行的动作等)的引用。引用可以是“历史”引用，诸如具体的日期(和/或时间)、日期/时间的范围、近似的日期/时间等。系统可以分析通信、识别引用并搜索(与适当的语音响应系统相关联的)活动或执行日志以定位与执行的响应相关的详细信息，然后(例如，以与先前响应相同的方式)生成适当的响应。应当注意，这里描述的方法和系统可以被应用于对将要由计算(或IoT)设备执行的动作的请求/命令以及被提供给语音响应系统的问题/查询两者。

用户提供的通信可以包括对一个或多个事件的引用，可以特定于特定位置，和/或可以与另一个个体(例如，另一个个体的语音响应系统、社交媒体活动、提供语音命令时的周围情境等)相关联。系统(即，接收通信的语音响应系统)可以分析引用数据，并相应地识别要被执行的响应(或命令)。

在一些实施例中，如果系统不能识别引用和/或引用被确定为是不明确的，则系统可以生成响应，该响应包括对附加信息和/或(一个或多个)引用(和/或整个通信)的澄清的请求。也就是说，系统可以向用户寻求帮助或附加信息，使得该系统可以理解(和/或确定和/或识别)从用户接收的初始通信中的(一个或多个)引用。由此，该系统可能能够(例如，如果需要，通过多次回复/通信交换)参与和用户的双向通信，如果这样做可以促进系统理解命令(或问题)和/或引用的话。

在一些实施例中，系统(和/或由其利用的分析引擎和/或认知模块)利用与日历(或时间表)相关联的服务，该服务可以从日历(和/或从用户的设备)提取事件、执行历史数据监测并将这样的数据存储在数据库中(例如，在云上)，该数据可以用相关信息标记。可以执行这样的操作以创建可以与事件或动作(或生成的响应)相关联的被索引的和/或可搜索的元数据。

当用户提供通信时，该系统(和/或由其利用的相关引擎)可以从通信中提取元数据并通过例如将对先前生成的响应的引用与其余通信分离来将它与所存储的元数据进行匹配(和/或在数据库上搜索相似数据)。系统可以通过描述先前标记的项或事件来辅助此过程。可以分析接收到的通信的其他部分(即，除了引用之外的部分)以支持语义相似性搜索(例如，提及检测算法、嵌入和生成过程等)。

如上所述，在一些实施例中，系统可以利用(例如，与接收的通信、执行的响应和/或个体相关联的)各种数据源来执行如这里所述的语音响应系统的管理。所利用的(一个或多个)数据源可以包括例如与(一个或多个)用户(即，提供通信的个体)和/或与通信相关联的其他个体(例如，通信引用的个体和/或执行的响应)相关联的(可能由计算设备利用和/或被存储在计算设备上的)任何可用数据源。例如，在一些实施例中，可以生成(一个或多个)用户(即，提供命令的用户和/或其他个体)的简档(例如，认知简档)。可以用来生成(一个或多个)用户的认知简档的数据源可以包括系统(也许在用户的许可或授权下)可以访问的与用户相关联的任何适当的数据源。这样的数据源的示例包括但不限于通信会话和/或通信会话的(例如，提供给语音响应系统、电话呼叫、视频呼叫、文本消息、电子邮件、当面/面对面对话等的通信的)内容(或通信)、用户的简档(或关于用户的基本信息)(例如，职务、工作地点、当前职位的时间长度、家庭角色、使用偏好等)、时间表或日历(即其上列出的项、时间段等)、项目(例如，过去、现在或将来与工作相关的项目)、位置(例如，先前和/或当前位置和/或相对于其他用户的位置)、社交媒体活动(例如帖子、反应、评论、群组等)、浏览历史(例如访问的网页)和在线购买。

在一些实施例中，利用的数据中的一些数据由传感器(诸如照相机、麦克风、生物识别传感器、运动传感器和无线收发器(例如，用于检测计算设备的存在的无线通信))检测到，传感器可以被集成到与该语音响应系统相关联的计算设备(例如，移动电话)或另一个计算设备(例如，可穿戴设备，诸如智能手表)中和/或与这样的设备分离(例如安全照相机)。

在一些实施例中，这里描述的方法和系统利用对可用数据源执行的认知分析。认知分析还可包括针对例如被发送到语音响应系统和/或由语音响应系统接收/检测的通信和/或可用的数据源，对自然语言分类、分析语调以及分析情感(例如，扫描关键词、关键短语等)。在一些实施例中，使用如通常所理解的自然语言处理(NLP)、梅尔频率倒谱系数(MFCC)和/或基于区域的卷积神经网络(R-CNN)像素映射(例如，用于被发送到语音响应系统或由语音响应使用的图像/视频)。随着时间的推移，这里描述的方法和系统可以确定语音响应系统接收到的通信(例如，语音和/或基于文本的通信)与由语音响应系统生成/执行的响应之间的相关性(或洞见)，可能利用用户提供的反馈进行确定，该反馈允许通过持续使用来提高系统性能。

由此，在一些实施例中，这里描述的方法和/或系统可以利用如本领域技术人员通常所理解的“认知分析”、“认知系统”、“机器学习”、“认知建模”、“预测分析”和/或“数据分析”。通常，这些过程可以包括，例如，接收和/或检索一个或多个系统的多组输入以及相关联的输出，并且(例如，使用计算系统和/或处理器)处理数据以生成或提取模型、规则等，该模型、规则等对应于、控制和/或估计(一个或多个)系统的操作，或对于本文所述的实施例如本文所述的语音响应系统操作的管理。通过利用模型，可以(例如，利用/基于新的输入)预测系统的性能(或操作)和/或可以通过调查(一个或多个)输入的变化如何影响(一个或多个)输出来优化系统的性能。

应当理解，如这里所使用的，术语“计算节点”(或简称为“节点”)可以是指诸如移动电子设备或台式计算机之类的计算设备和/或诸如聊天机器人(或语音响应系统)、电子邮件应用、社交媒体应用、web浏览器等之类的应用。换句话说，如这里所使用的，计算节点的示例包括例如诸如移动电话、平板设备、台式计算机之类的计算设备，或其他设备(诸如所拥有的和/或以其他方式与个体(或用户)相关联的装置(IoT装置))，和/或个体在这样的计算设备上利用的各种应用。

特别地，在一些实施例中，提供了一种用于通过一个或多个处理器来管理语音响应系统的方法。接收到来自个体的至少一个通信。在接收到的至少一个通信内识别对由语音响应系统执行的先前响应的引用。基于由语音响应系统执行的先前响应来确定对接收到的至少一个通信的响应。可以生成代表所确定的响应的信号。

可以向个体提供对由语音响应系统执行的先前响应的引用的澄清的请求。可以从个体接收到对请求的回复。响应的确定还可以基于所接收的回复。可以利用认知分析来执行对响应的确定。

可以使语音响应系统执行所确定的响应。然而，在一些实施例中，可以使第二语音响应系统执行所确定的响应。

所确定的响应可以包括由计算设备执行的动作，并且可以使该动作由计算设备执行。所确定的响应可以包括听觉响应，并且可以使听觉响应由扬声器呈现。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境、诸如蜂窝网络来实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个体数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的一个例子。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10(和/或这里所描述的一个或多个处理器)能够被用来实现和/或执行以上所述的任何功能。

云计算节点10具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个体计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个体电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本发明的上下文中，并且如本领域技术人员将理解的，图1中描绘的各种组件可以位于例如个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、诸如移动(或蜂窝和/或智能)电话、个人数字助理(PDA)、平板电脑、可穿戴技术设备、膝上型电脑、手持游戏机、便携式媒体播放器等之类的移动电子设备，以及交通工具(诸如汽车、飞机、船只等)中的计算系统，和/或利用聊天机器人的任何其他计算节点和/或在其中/通过其可以实现聊天机器人(或语音响应系统)的任何其他计算节点。然而，在一些实施例中，图1中描绘的组件中的一些组件可以位于例如卫星(诸如全球定位系统(GPS)卫星)中的计算设备中。例如，与示出的实施例的机制相关联的处理和数据存储能力中的一些可以经由本地处理组件在本地发生，而相同的组件经由网络被连接到位于远程的分布式计算数据处理和存储组件以完成本发明的各种目的。同样，如本领域的普通技术人员将理解的，本图示旨在仅传达可以是共同完成各种发明方面的分布式计算组件的整个连接网络的部件的子集。

现在参考图2，描绘了说明性的云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，由云消费者使用的本地计算设备(诸如例如蜂窝(或移动)电话或PDA54A、台式计算机54B、膝上型计算机54C和(例如，被集成在汽车、飞机、船只等内的)车辆计算系统54N)可以与该一个或多个云计算节点10通信。

仍然参考图2，节点10可以彼此通信。它们可以在一个或多个网络(诸如上文所述的私有云、社区云、公共云或混合云，或其组合)中被物理地或虚拟地分组(未显示)。这允许云计算环境50提供云消费者不需要为其维护本地计算设备上的资源的基础设施、平台和/或软件即服务。应当理解，图2所示的计算设备54A-54N的类型仅旨在是示例性的，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备进行通信。

现在参考图3，示出了由云计算环境50(图2)提供的一组功能抽象层。应当首先理解，图3中所示的组件、层和功能仅旨在是示例性的，并且本发明的实施例不限于此。如图所示，提供了以下层和对应的功能：

设备层55包括物理和/或虚拟设备，其嵌入有和/或独立电子器件、传感器、致动器和其他对象以在云计算环境50中执行各种任务。设备层55中的每个设备都将联网能力并入到其他功能抽象层，使得可以向其他功能抽象层提供从设备获得的信息，和/或可以向设备提供来自其他抽象层的信息。在一个实施例中，包括设备层55的各种设备可以并入被统称为“物联网”(IoT)的实体网络。如本领域的普通技术人员将理解的，这样的实体网络允许数据的相互通信、收集和分发以实现各种各样的目的。

所示的设备层55包括传感器52、致动器53、具有集成处理、传感器和联网电子器件的“学习”恒温器56、照相机57、可控家用电源插座/插座58和可控电气开关59，如图所示。其他可能的设备可以包括但不限于各种附加传感器设备、网络设备、电子设备(诸如远程控制设备)、附加致动器设备、所谓的“智能”电器，诸如冰箱、洗衣机/干衣机或空调单元，以及各种各样的其他可能的互连设备/对象。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供对被用于在云计算环境内执行任务的计算资源和其他资源的动态获取。计量和定价82提供了在云计算环境内利用资源时的成本跟踪，并为这些资源的消耗计费或开发票。在一个示例中，这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证，并为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)计划和实现85为用于根据SLA预期未来需求的云计算资源提供了预先安排和获取。

工作负载层90提供了针对其可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟课堂教学交付93；数据分析处理94；交易处理95；以及，在本发明的所示实施例的上下文中，用于管理语音响应系统(和/或其操作)的各种工作负载和功能96，如这里所述。本领域的普通技术人员将理解，工作负载和功能96还可以与各种抽象层的其他部分(诸如，硬件和软件60、虚拟化70、管理80以及其他工作负载90(诸如例如，数据分析处理94)中的部分)结合工作，以实现本发明所示实施例的各种目的。

如前所述，在一些实施例中，提供了方法和系统，该方法和系统例如以关于如下这样的方式管理(或控制)语音响应系统(或聊天机器人)：识别和/或理解被包括在接收到的通信(例如，语音通信和/或基于文本的通信))中的对(例如，由同一聊天机器人或另一聊天机器人)先前生成的响应的引用，并基于先前生成的响应和/或与先前生成的响应(和/或所接收的通信和/或个体)相关联的数据源生成响应(例如语音响应、动作等)。

图4示出了根据本发明一些实施例的示例性计算环境(或系统)400。环境400包括聊天机器人设备402、认知模块(或控制系统)404、数据源406和计算(和/或IoT)设备408。聊天机器人设备402可以是用户可以通过其与聊天机器人(或语音响应系统)交互的任何适合的计算节点，诸如独立/专用的聊天机器人设备、移动电子设备(例如，移动电话、平板设备、膝上型计算机等)、台式PC、车辆计算机系统等。聊天机器人设备402可能能够经由例如麦克风来接收或检测来自用户410的通信(例如，语音通信)和/或经由例如键盘来接收或检测来自用户410的通信(例如，基于文本的通信)。

认知模块404可以包括诸如上述计算设备和系统之类的任何适合的计算设备或系统(和/或利用任何适合的计算设备或系统实现)，并且可以被配置为执行聊天机器人(或语音响应系统)的管理以及如这里所述的任何相关联的认知分析。认知模块404可以与聊天机器人设备402和数据源406进行可操作的通信，以及在一些实施例中，与IoT设备408(例如，通过聊天机器人设备402和/或直接地)进行可操作的通信。尽管认知模块404在图4中被示为单独的组件，但是应当理解，在一些实施例中，认知模块404可以被集成到另一个计算设备(例如，聊天机器人设备402、移动电子设备等)中。

数据源406可以包括与用户和/或由聊天机器人设备402和/或其他聊天机器人(或语音响应)系统执行的先前响应相关联的多个数据源。在图4所示的示例中，数据源406包括电话对话412、(一个或多个)电子邮件414、社交媒体活动416、当面对话418、移动电子设备420和传感器(例如，相机和麦克风)422。由此，数据源406可以包括与用户和/或可以被用来收集或监测与用户相关联的数据的设备相关联的特定类型的数据(例如，电子邮件、社交媒体帖子等)。应当理解，图4中所示的数据源412-422仅旨在作为示例，并且在一些实施例中可以利用其他/附加数据源，诸如上述数据源(例如，病历、GPS数据等)。而且，如上所述，数据源406可以包括与由聊天机器人设备402和/或其他聊天机器人(或语音响应)系统生成的响应(例如，听觉响应、所执行的动作等)相关的数据。来自数据源406的数据可以被存储在一个或多个数据库中(例如，在云上)和/或被存储在任何其他适合的计算设备内。

计算(和/或IoT)设备408可以包括可以由系统用来生成响应(例如，呈现听觉响应、执行各种动作等)的任何设备。在所描绘的实施例中，设备408包括(智能)电视424、扬声器426、安全系统428、自动真空吸尘器430、恒温器432和照明系统434。在一些实施例中，设备424-434中的每一个可以被置于(或定位于)聊天机器人设备402的附近(例如，在相同建筑物或房间内)(例如，在聊天机器人设备402是固定的实施例中)或可以远离聊天机器人设备402(例如，在聊天机器人设备402包括移动电子设备的实施例中)。作为一个示例，设备424-434可以位于用户410的住所(例如，房屋或公寓)，并且由聊天机器人设备402(和/或认知模块404)用来执行各种类型的命令(例如，在电视424上播放电影、用扬声器424播放音乐或呈现听觉响应、控制安全系统428、用真空吸尘器430清洁地板、用恒温器432更改/设置温度、用照明系统428调整照明等)。应当注意，设备424-434中的一些可以与其他组件或系统集成。例如，扬声器426可以与聊天机器人设备402、电视424或音乐/音响系统集成。

仍参考图4，在一些实施例中，当用户410向聊天机器人设备402提供通信(例如，语音通信)时，认知模块404可以分析接收到的通信和/或识别通信内对先前执行的响应的引用。认知模块404利用数据源406，特别是与先前接收到的通信和/或先前生成或执行的响应(例如，利用设备408中的一个或多个执行的动作、听觉响应等)相关联的数据，来确定对接收到的通信的响应。在执行响应之后，由用户提供的反馈(例如，经由检测/监视用户410的行为/动作和/或响应于查询而提供的明确的反馈)可以被用于随时间的推移(例如，针对相同用户或其他用户)改善系统的性能。

图5示出了根据本发明一些实施例的用于管理语音响应系统的方法500。方法500可以例如由图4所示的环境400实现和/或在图4所示的环境400内实现。如图5所示，用户502提供通信(例如，语音通信)504，该通信504被聊天机器人设备506检测或接收。在所描绘的实施例中，语音通信504包括对系统的清洁地板(例如，用户住所的地板)的命令或请求。特别地，语音通信504被说成“你能像上周末聚会后那样清洁地板吗？”

在框508处，系统(和/或聊天机器人设备506)接收通信并识别其不同部分。例如，系统可以识别“清洁地板”的部分命令和对“上周末聚会后”的引用(或引用数据)。在框510处，识别引用的方面或维度。特别地，识别对应于前一个周末的日期和引用的内容(例如，聚会和/或聚会的时间和/或先前清洁地板的时间)。在框512处，(例如，在云、本地设备/服务器等上的)数据库514搜索关于先前执行的动作的执行日志，该先前执行的动作具有与所接收的通信504中的方面相似的方面(例如，在聚会结束后的聚会当天清洁地板)。在框516处，当适当的数据位于执行日志内时，检索与先前执行的动作相关的附加信息，诸如覆盖的区域(例如，住所的哪些房间/区域被真空吸尘)、清洁类型(如干、湿、清洁剂类型等)、清洁/真空吸尘持续时间等。在框518处，基于所接收的通信来分析所识别的执行日志，以验证要被执行的动作的类型，并且生成/执行适当的响应(或命令)。在所描绘的实施例中，所生成的命令包括使自动真空吸尘器520以与先前(例如，在前一个周末举行的聚会之后)执行的相同的方式对地板进行真空吸尘。

在一些实施例中，可以利用以下步骤来实现这里描述的方法和系统。如上所述，可以使用任何适合的计算设备。

当IoT设备(或计算节点)正在进行或执行命令(或相关联的动作)时，该设备(和/或另一个计算系统)捕获和/或创建执行日志，包括命令执行的日期和时间。在自动真空吸尘器清洁地板的示例中，执行日志可以包括例如覆盖区域、(例如刷毛的)旋转速度\使用的(一个或多个)化学物质(例如清洁剂)的类型和量、移动的方向/移动路径等。可以提供命令来专门标记此数据，以在接收到以后的命令时促进定位/识别它。例如，当使用真空吸尘器清洁住所时，用户可能期望以不同的方式(例如，以较低的速度，以不同的高度等)清洁特定区域(例如，地毯)。当提供了这样的命令时，用户可以提供明确的指令来指示这样的命令，以及将来是否应使用这样的参数(例如，“新的真空吸尘规则”相对于“一次性改变”)。

可以利用附加设备(例如，传感器)来收集与特定设备正在执行的动作相关的信息，并且可能对动作的未来执行做出改变。这样的信息可以包括周围用户/个体的生物特征数据、位置信息和特定于事件的信息。例如，传感器(例如照相机)可被用于监测自从上次通过自动真空吸尘器清洁地板以来宠物(例如狗)通过特定区域的次数。如果系统确定这样的情况比平常发生的次数多，则系统可以在下一次清洁期间调整真空吸尘器的操作(例如，多次经过受影响的区域、用较低的速度等)。

这样的数据可以与设备名称或标识符(例如，真空吸尘器、电视，洗衣机、移动设备等)、用户位置、使用时间等一起被收集。可以针对多个维度(或方面、参数等)(诸如时间、位置(例如，物理位置或情境位置)、事件名称、周围环境(例如，天气状况)、设备名称等)聚类数据。数据可以被存储在任何适合的数据库(诸如家庭网络服务器或基于云的服务器/数据库)上，并且在接收到新的通信(例如，语音命令)时可用于搜索。

当接收到(或检测到)(新的)通信(例如，语音命令)时，系统可以分析该通信以确定该通信是否包括对先前执行(例如，由相同的聊天机器人执行或由另一个聊天机器人执行)的响应的任何引用。可以利用关键字和/或关键短语来识别这样的引用。如上所述，这可以通过标记与先前执行的响应相关联的数据来促进。例如，如果接收到的语音命令要求系统清洁地板，则如果用户先前已指定要以不同的方式清洁特定区域(例如地毯)，那么系统可能会回复一个问题(例如，听觉响应)，以询问具体指令(例如，“你是否要更改起居室地毯的真空吸尘高度？”)。

基于对接收到的通信的分析，系统可以识别正在提供的引用信息的类型。如果引用包含另一个个体(或用户)(诸如提供通信的用户的朋友)的姓名，则系统可以尝试识别该另一个个体，并且，如果可能的话，获得对与该另一个个体相关联的先前执行的响应的数据库(例如，被存储在其家庭网络服务器上的由该另一个个体的聊天机器人设备先前执行的响应的执行日志)的访问。可以使用社交媒体平台来促进这样的过程(例如，以识别用户的朋友/联系人)。如果适当，系统可以利用与由另一个个体的聊天机器人系统先前执行的响应相关联的数据来生成/执行对该用户的通信的响应。

在一些实施例中，系统可以将接收到的通信分成两个(或更多个)片段/部分。如上所述，一个部分可以包括用于生成响应(例如，执行动作)的总的或部分命令(例如，部分语音命令)，并且另一部分可以包括引用(或引用数据/信息)。

系统可以在(一个或多个)适当的数据库中搜索执行日志，该执行日志类似于和/或包括所接收的通信中所包括的标准(或方面、参数等)，诸如日期/时间、位置、事件等。可以基于部分命令来分析所识别的执行日志，并且系统可以生成适当的响应(例如，使适当的动作被执行)。

在一些实施例中，如果系统不能识别关于接收到的通信中所包括的引用的适当的执行日志和/或引用不明确(例如，引用可以指代多于一个先前执行的响应)，则系统可以向用户提供通知(例如，听觉响应)，诸如对有关引用的问题和/或澄清请求。例如，如果用户在接收到的通信中引用的一天内对地板进行了两次清洁，并且没有包含关于用户正在引用哪次清洁的指示，则系统可以要求用户澄清他们正在引用哪次清洁(例如，在早上或晚上)。

系统还可以利用其他数据源，诸如基于云的指导或在线指导，来指导从用户收集的任何附加信息。例如，如果接收到的通信包括清洁地板的命令，并且用户的住所在特定区域内有地毯，则系统可以利用这样的数据源向用户提供建议和/或调整将要执行动作的方式(例如，在线数据源可能会指示针对特定类型的地毯将真空吸尘器理想地设置为不同的高度)。

在一些实施例中，系统可以利用来自用户的反馈来随着时间的推移改善系统的性能。例如，在执行动作之后，系统可以询问用户该动作是否以令人满意的方式被执行和/或系统可以监测用户的行为/反应(例如，面部/情绪识别、社交媒体活动，等等。)。

转到图6，提供了根据本发明的各个方面的用于管理(或控制)语音响应系统(或聊天机器人)(和/或其操作)的示例性方法600的流程图。方法600开始于(步骤602)，例如，在诸如移动电子设备(例如，移动电话、平板设备、专用的聊天机器人设备等)之类的计算系统/设备/节点上或通过计算系统/设备/节点安装(或以其他方式实现)语音响应系统。

从个体(或用户)接收至少一个通信(步骤604)。该通信可以包括语音通信和/或基于文本的通信，并且可以是以使动作被执行的请求/命令或问题的形式。在通信是语音通信的实施例中，通信可以由(例如，在移动电子设备、专用聊天机器人设备等上和/或由移动电子设备、专用聊天机器人设备等使用的)麦克风检测(或接收)。

在接收到的至少一个通信内识别对由语音响应系统执行的先前响应的引用(步骤606)。先前的响应可能已经由提供了(一个或多个)通信的个体所利用的相同的语音响应系统执行或由另一个语音响应系统执行。如上所述，对先前响应的引用可以包括例如先前响应的日期/时间、位置、上下文情况等。

基于由语音响应系统执行的先前响应来确定对接收到的至少一个通信的响应(步骤608)。可以利用认知分析来执行对响应的确定和/或还可以基于与该个体(或另一个个体)和/或所接收的通信相关联的一个或多个数据源来确定响应。所确定的响应可以包括由计算设备执行的动作和/或听觉响应。所确定的响应可以与所接收的通信中引用的先前生成的响应相似(或相同)。

可以使语音响应系统(即，执行先前响应的语音响应系统)执行所确定的响应。然而，在一些实施例中，可以使另一个(或第二)语音响应系统执行所确定的响应。所确定的响应的执行可以包括使计算(或IoT)设备执行动作和/或使扬声器呈现听觉响应。

在一些实施例中，可以向个体提供对由语音响应系统执行的先前响应的引用的澄清的请求。可以从个体接收到对请求的回复。响应的确定还可以基于所接收的回复。

方法600以例如在执行确定的响应之后接收到(和/或检测到)来自个体的反馈而结束(步骤610)。该反馈可以被用于确定对随后接收到的通信的响应，以随着时间的推移改善系统的性能。

在一些实施例中，提供了一种用于使用上下文引用来将用户命令(或接收到的通信)索引到语音响应系统的方法。可以从一个或多个数据源(诸如来自用户日历/时间表的时间信息、位置信息、事件信息等)中自动提取命令的上下文。命令和/或提取的上下文可以被转换为支持相似性搜索的可索引数量。相似性搜索可以利用例如数值相似性、连续空间嵌入之间的余弦相似性以及局部敏感哈希。可以在支持相似性搜索的数据库中使用可索引数量对命令进行索引。所索引的用户命令还可以包括执行它所采取的步骤。

在一些实施例中，提供了一种用于检索包含上下文引用的所执行的用户命令的方法。可以自动区分用户命令和上下文引用。命令和/或提取的上下文可以被转换为支持相似性搜索的可索引数量。相似性搜索可以利用例如数值相似性、连续空间嵌入之间的余弦相似性以及局部敏感哈希。可以使用可索引数量从支持相似性搜索的数据库中检索(或识别)最相似的命令。可以使用与最相似的命令相关联的步骤来执行该命令。

在一些实施例中，可以建立相似性阈值。可以仅当最相似的命令与用户命令的相似度超过相似性阈值时，才使用与最相似的命令相关联的步骤来执行用户命令。如果未超过(或满足)相似性阈值，则可以在不利用对先前执行的动作的引用的情况下执行命令。

在一些实施例中，数据库(或所利用的另一数据源)包括公共命令、公共上下文以及关于如何在公共上下文中执行公共命令的建议(例如具有关于如何执行特定任务/动作的建议的在线数据源)。

在一些实施例中，当一个以上的相似命令位于数据库上时，一个或多个问题被提供给用户以提供关于正在引用哪个命令的澄清。然后可以基于来自用户的一个或多个回复来执行该命令。

本发明可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本发明的方面的计算机可读程序指令的计算机可读存储介质(或媒介)。

计算机可读存储介质可以是有形设备，其可以保留和存储用于由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何适合的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下各项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码设备(诸如其上记录了指令的打孔卡或槽中的凸起结构)，以及前述的任何适合的组合。如这里所使用的，计算机可读存储介质不应被理解为是瞬时信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)或通过导线传输的电信号。

这里描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。该网络可以包括铜传输线缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或以包括面向对象的编程语言(诸如Smalltalk、C++等)和常规过程编程语言(诸如“C”编程语言或类似编程语言)的一种或多种编程语言的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上并且部分在远程计算机上执行或完全在远程计算机或服务器上执行。在后一种情形下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))被连接到用户计算机，或者可以(例如，使用因特网服务提供商通过因特网)与外部计算机进行连接。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路而执行计算机可读程序指令，以便执行本发明的方面。

这里参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各方面。将理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令来实现。

可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或一个或多个框图的框中指定的功能/动作的部件。这些计算机可读程序指令还可以被存储在计算机可读存储介质中，该计算机可读存储介质可以指导计算机、可编程数据处理装置和/或其他设备以特定方式起作用，使得其中存储有指令的计算机可读存储介质包括一种制品，该制品包括实现在流程图和/或一个或多个框图的框中指定的功能/动作的方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或一个或多个框图框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能的实现的架构、功能和操作。在这方面，流程图或框图中的每个框可以代表指令的模块、片段或部分，该模块、片段或部分包括用于实现(一个或多个)指定的逻辑功能的一个或多个可执行指令。在一些替代实施例中，框中指出的功能可以不按图中指出的顺序发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行框。还应注意，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统实现。

Claims

1.一种用于通过一个或多个处理器来管理语音响应系统的方法，包括：

接收来自个体的至少一个通信；

在接收到的所述至少一个通信内识别对由语音响应系统执行的先前响应的引用；以及

基于由所述语音响应系统执行的所述先前响应来确定对接收到的所述至少一个通信的响应。

2.如权利要求1所述的方法，还包括：

向所述个体提供对由所述语音响应系统执行的所述先前响应的所述引用的澄清的请求；以及

从所述个体接收对所述请求的回复，

其中所述响应的所述确定还基于接收到的回复。

3.如权利要求1所述的方法，还包括使所述语音响应系统执行所确定的响应。

4.如权利要求1所述的方法，还包括使第二语音响应系统执行所确定的响应。

5.如权利要求1所述的方法，其中，所确定的响应包括由计算设备执行的动作，并且所述方法还包括使所述动作由所述计算设备执行。

6.如权利要求1所述的方法，其中，所确定的响应包括听觉响应，并且所述方法还包括使所述听觉响应由扬声器呈现。

7.如权利要求1所述的方法，其中，利用认知分析来执行对所述响应的所述确定。

8.一种用于管理语音响应系统的系统，包括：

至少一个处理器，所述至少一个处理器：

接收来自个体的至少一个通信；

9.如权利要求8所述的系统，其中，所述至少一个处理器还：

从所述个体接收对所述请求的回复，

其中所述响应的所述确定还基于接收到的回复。

10.如权利要求8所述的系统，其中，所述至少一个处理器还使所述语音响应系统执行所确定的响应。

11.如权利要求8所述的系统，其中，所述至少一个处理器还使第二语音响应系统执行所确定的响应。

12.如权利要求8所述的系统，其中，所确定的响应包括由计算设备执行的动作，并且其中所述至少一个处理器还使所述动作由所述计算设备执行。

13.如权利要求8所述的系统，其中，所确定的响应包括听觉响应，并且其中所述至少一个处理器还使所述听觉响应由扬声器呈现。

14.如权利要求8所述的系统，其中，利用认知分析来执行对所述响应的所述确定。

15.一种计算机可读存储介质，其中存储有计算机可读程序代码部分，所述计算机可读程序代码部分包括可执行部分，所述可执行部分在被执行时使一个或多个处理器执行如权利要求1至7中任一项所述的方法中的步骤。

16.一种计算机系统，包括被配置为执行如权利要求1-7中的任一项所述的方法中的步骤的模块。