CN105051676B

CN105051676B - 响应端点选择

Info

Publication number: CN105051676B
Application number: CN201380063208.1A
Authority: CN
Inventors: 斯科特·伊恩·巴尔克斯蒂恩
Original assignee: Rawles LLC
Current assignee: Amazon Technologies Inc
Priority date: 2012-12-14
Filing date: 2013-11-22
Publication date: 2018-04-24
Anticipated expiration: 2033-11-22
Also published as: JP2016502192A; CN105051676A; US20210165630A1; EP2932371B1; US20140172953A1; US20230141659A1; US9271111B2; EP2932371A4; US10778778B1; EP2932371A1; WO2014092980A1

Abstract

一种计算系统具有本地环境中的用于接收来自各种用户的口头请求的多个端点计算设备，和用于处理所述请求的中央或远程系统。所述远程系统生成响应并且使用多种技术来确定在何处以及何时将响应可听地返回给用户。针对每个请求，所述远程系统了解是谁正在发出所述请求，确定何时将响应提供给用户，查明当传送响应的时间到来时用户身在何处，找出端点设备中的哪一个可用于传送响应，并且评估所述可用设备中的哪一个对传送响应而言是最佳的。随后，所述系统将响应传送到所述最佳的端点设备以便可听地发送或以其它形式呈现给用户。

Description

响应端点选择

相关申请

本申请要求2012年12月14日提交的美国申请号13/715,741的权益，所述申请的全部公开内容以引用方式并入本文。

发明背景

家庭、办公室和其它场所与计算设备(诸如台式计算机、平板电脑、娱乐系统以及便携式通信设备)的激增之间的联系越来越紧密。随着这些计算设备的发展，已经引入了许多不同的方式来允许用户与计算设备进行交互，诸如通过机械设备(例如，键盘、鼠标等)、触摸屏、运动、手势以及甚至通过自然语言输入(诸如语音)。

随着计算设备的发展，预计用户将越来越多地依赖于此类设备来在日常任务中协助他们。如今，司空见惯的是，计算设备帮助人们买票、购买商品和服务、查看天气、查找并播放娱乐等。然而，伴随着计算设备的日益普及，用户具有诸如智能电话、电子书阅读器、平板电脑、计算机、娱乐系统等许多设备的情况并不少见。多设备用户所面临的挑战之一是，在使用多个设备时如何有效地执行任务。在多个设备之间协调任务并非微不足道的。

因此，需要技术来改进对普遍存在的计算设备环境中的用户活动的协调。

附图简述

参照附图来描述详细说明。在图中，参考标号的最左侧的数字指示首次出现该参考标号的图。在不同图中使用相同的参考标号指示类似或相同的部件或特征。

图1示出其中包括话音控制设备的多个计算设备普遍存在并且被协调来协助人处理日常任务的环境。

图2示出人使用计算环境来协助任务的代表性情境。图2包括环境中的计算设备以及可通过网络访问的远程云服务的所选择部件的功能框图。

图3示出在执行任务期间如何选择设备来接合人。

图4示出可在环境中使用的计算设备的所选择部件的框图。

图5是示出用于协助人执行任务的说明性过程的流程图，包括通过一个设备接收来自人的请求以及通过另一个设备将响应传送给人。

图6是示出用于确定人的位置的说明性过程的流程图。

图7是示出用于确定用于将响应传送给人的设备的说明性过程的流程图。

具体实施方式

在此所描述的是用于利用各种计算设备来协助日常任务的技术。随着计算设备在家庭、办公室和其它场所变得普遍存在，用户在思考和执行这些日常任务时不太可能对它们进行区分。用户将越来越多地期望设备能够智能地提供帮助，不管用户身在何处以及用户当前可能正在做什么。为了实现这种智能性，计算系统被设计成在用户可以与之进行交互的多个设备中组织任务管理。

在一个实现方式中，计算系统被构造成云服务，所述云服务使用多个隐式和显式信号来确定用户在一个位置中的存在并且判定将哪些(如果有的话)协助或响应提供给那个位置内的一个或多个设备。信号可以呈现能够帮助查明用户的行踪以及在那个时间和那个位置如何最佳地与人进行交互的任何数量的标记。代表性信号可以包括音频输入(例如用户话音的声音)、用户最近是如何与设备进行交互的、与用户相关联的移动设备的存在、对用户的视觉识别等。

作为一个示例性情境，假设用户想要记住做简单的家务琐事或工作任务。用户可以通过第一设备要求计算系统在某个未来时间提醒他去做所述家务琐事或工作任务。随后，计算系统可以在所述未来时间通过在当前情况下适合传送那条消息的第二设备来提醒用户。在这种情况下，计算系统了解是谁正在发出请求，确定何时将提醒提供给用户，查明当提醒用户的时间到来时他身在何处，找出哪些设备可用于传送提醒，并且评估所述可用设备中的哪一个对传送提醒而言是最佳的。以这种方式，计算系统实现包括智能选择端点设备的响应功能。

用于实现这种智能性的各种操作可以分散在本地设备和远程云计算系统中。在各种实现方式中，不同的模块和功能性可以本地驻留在接近用户的设备中或远程驻留在云服务器中。本公开提供了一种示例性实现方式，其中响应系统的大部分驻留在远程云计算系统中。

此外，本公开在主要是话音操作的本地计算设备(诸如专用话音控制设备)的上下文中描述技术。接收口头请求和提供可听响应引入了一些额外的挑战，以下所描述的系统被配置来解决这些挑战。然而，使用话音控制设备并不意图具有限制性，因为计算系统可以使用其它接合用户的形式(例如，手势输入、打字输入、视觉输出等)。

说明性体系结构

图1示出利用智能端点选择实现响应功能的计算系统100的说明性体系结构。出于讨论的目的，在用户全天都在进行他们的正常例程并且与计算系统100交互作用的上下文中描述系统100。计算系统100被配置来接收由用户在相应时间和相应位置处给出的请求，处理那些请求，并且在其它相应时间将响应返回到用户所在的位置和适当的端点设备。

在这个图示中，房屋102是三个用户包括第一用户104(例如，成年男性、爸爸、丈夫等)、第二用户106(例如，成年女性、妈妈、妻子等)和第三用户108(例如，女儿、孩子、女孩等)的家庭的主要住所。所述房屋被示出为具有五个房间，包括主卧室110、浴室112、孩子的卧室114、客厅116和厨房118。用户104至108位于房屋102中的不同房间，其中第一用户104位于主卧室110中，第二用户106位于客厅116中，并且第三用户108位于孩子的卧室114中。

计算系统100包括定位在各种位置处以便与用户进行交互的多个本地设备或端点设备120(1)……120(N)。这些设备可以采用任何数量的形状因子，诸如膝上型计算机、电子书(eBook)阅读器设备、平板电脑、台式计算机、智能电话、话音控制设备、娱乐设备、增强现实系统等。在图1中，本地设备包括驻留在卧室110中的话音控制设备120(1)、在孩子的卧室114中的话音控制设备120(2)、在客厅116中的话音控制设备120(3)、在客厅116中的膝上型计算机120(4)，以及在厨房118中的话音控制设备120(5)。计算系统也可以利用其它类型的本地设备，诸如第一用户104的智能电话120(6)、照相机120(7)和120(8)，以及电视机屏幕120(9)。另外，计算系统100还可以依赖于在家庭之外诸如在汽车122中(例如，车载电话、导航系统等)或在第一用户的办公室124处(例如，工作计算机、平板电脑等)找到的用于向用户传达信息的其它用户端设备。

这些端点设备120(1)至120(N)中的每一个都可以接收来自用户的输入并且将响应传送给同一个用户或不同用户。可以通过任何数量的方式来接收输入，包括音频或口头输入、手势输入等。也可以通过任何数量的形式来传送响应，包括音频输出、视觉输出(例如，在膝上型计算机120(4)或电视机120(9)上描绘的图片、UI、视频等)、触觉反馈(例如，智能电话120(6)的振动等)等。

计算系统100还包括远程计算系统，诸如由网络可访问设备或服务器132的集合支持的云服务130。云服务130一般是指实现为处理器的计算基础结构、存储、软件、数据访问等的网络可访问平台，通过诸如互联网等网络维护且可访问所述网络可访问平台。云服务130可能不需要终端用户了解传送服务的系统的物理位置和配置。与云服务相关联的常见表达包括“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”等。

云服务130在各个本地设备120(1)至120(N)之间协调请求输入和响应输出。在本地设备120(1)至120(N)中的任何一个处，诸如用户104等用户可以输入需要计算系统100处理的请求。这个请求可以是口头请求，诸如用户104对着主卧室110中的话音控制设备120(1)讲话。例如，用户可以说“Please remind me to take out the garbage tomorrowmorning(请提醒我明天早晨把垃圾带出去)”。话音控制设备120(1)配备有用于接收音频输入的麦克风和用于将请求传递到云服务130的网络接口。本地设备120(1)可以任选地具有自然语言处理功能用于开始处理语音内容。

请求通过网络(图1中未示出)被传递到云服务130，在所述云服务130处请求得到处理。请求得到解析和解释。在这个实例中，云服务130确定用户希望得到家务琐事提醒，以便在指定的时间范围内(即，明天早晨)将垃圾带出去。云服务130实现任务处理程序以便定义任务：预定将要在适当时间(例如，早上7:00)传送给用户的提醒。当那个时间到来时，云服务130确定发出请求的目标用户(即，第一用户104)位于何处。云服务130可以使用任何数量的技术来查明用户的行踪，诸如轮询区域中的设备以便获得对存在的音频、视觉或其它生物识别确认；或定位可能是用户个人的或与用户相关联的设备(例如，智能电话120(6))；或通过其它辅助标记，诸如用户的活动历史、从特定位置接收来自用户的其它输入等。

一旦定位了用户，云服务130随后就可以确定哪个本地设备适于将响应传送给用户。在一些情况下，可能仅存在单个设备，因此决定是直截了当的。然而，在其它情况下，用户可能位于具有多个本地设备的区域中，所述多个本地设备中的任何一个都可以用于传达响应。在此类情况下，云服务130可以评估各个候选设备，并且选择在所述情况下最佳或更适当的设备来传送响应。

以这种方式，计算系统100提供利用在用户环境中可用的普遍存在的设备来接收请求并且传送响应的协调响应系统。用于接收请求和传送响应的端点设备可以是不同的。此外，设备不需要以任何方式与用户相关联，而是通用端点设备根据需要用于与用户进行交互。为了说明计算系统的灵活性，以下讨论继续前面的用户要求提醒执行家务琐事的实例。

图2示出计算系统100中的所选择设备，以便示出人使用计算环境来协助任务的代表性情境。在这个实例中，示出两个端点设备，其中第一端点设备的形式是驻留在卧室110中的话音控制助理120(1)，并且第二端点设备的形式是驻留在厨房118中的话音控制助理120(5)。联接端点设备120(1)和120(5)以便通过网络202与远程云服务130进行通信。网络202可以代表任何数量的网络类型，诸如有线网络(例如，电缆、LAN等)和/或无线网络(例如，蓝牙、RF、蜂窝、卫星等)。

每个端点设备或本地设备(如由基于卧室的设备120(1)表示的)都配备有一个或多个处理器204、计算机可读介质206、一个或多个麦克风208以及网络接口210。计算机可读介质206可以包括以任何方法或技术实现用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的易失性和非易失性存储器、可移动的和不可移动的介质。

本地程序模块212被示出为存储在用于由处理器204执行的介质206中。本地模块206提供用于接收和处理通过麦克风208接收到的音频输入的基本功能。所述功能可以包括滤波信号、模拟数字转换、解析声音或字词，以及对所解析的声音或字词的早期分析。例如，本地模块212可以包括用于识别唤醒词的唤醒词识别模块，所述唤醒词用于将话音控制助理120(1)转变到觉醒状态以用于接收来自用户的输入。本地模块212还可以包括一些自然语言处理功能，以便开始解释来自用户的话音输入。

继续以上实例，假设用户104在晚上9:30的第一时间向卧室110中的话音控制助理120(1)发出请求。所述请求是为了在早晨执行家务琐事的提醒。在这个实例中，用户104说出用于警告设备120(1)的唤醒词并且随后口头给出请求“Remind me to take out thegarbage tomorrow morning(提醒我明天早晨把垃圾带出去)”，如由对话气泡框213指示的。麦克风208接收音频输入，并且本地模块212处理和识别唤醒词以便启动其它模块。可以对音频输入进行解析和部分地分析和/或封装，并且通过接口210和网络202将其发送到云服务130。

云服务130包括一个或多个网络可访问设备，诸如服务器132。服务器132可以包括一个或多个处理器214和计算机可读介质216。服务器132的处理器214和计算机可读介质216与设备120(1)的处理器204和计算机可读介质206物理上是分开的，但可以共同用作提供部分地在设备120上且部分地在云服务130上的处理和存储的系统的一部分。这些服务器132可以以任何数量的方式进行布置，诸如在数据中心常用的服务器群、服务器堆等。

服务器132可以存储和执行任何数量的程序、数据、应用程序等以便为用户提供服务。在这个示例性体系结构中，服务器132被示出为存储和执行自然语言处理(NLP)模块218、任务处理程序222、人定位模块224和各种应用程序224。NLP模块218处理从本地设备120(1)接收到的音频内容以便解释请求。如果本地设备具有至少一些NLP能力，那么NLP模块218可以采用那部分结果并且完成解释用户的口头请求的处理。

所得的解释被传递到任务处理程序220以便处理请求。在我们的实例中，NLP模块218将用户的输入解释为要求预定并且在适当的时间传送提醒。任务处理程序220定义一个任务，以便设定将要在与“明天早晨”相关联的时间段传送的提醒。任务可能包括内容(例如，用于“Don't forget to take out the garbage(不要忘记把垃圾带出去)”的提醒)、传送的时间以及所预计的传送地点。传送时间和预计的地点可以从服务130收集和搜索到的辅助标记查明。例如，任务处理程序220可以咨询其它标记以便更好地理解对于这个特定的用户104“明天早晨”可能意味着什么。应用程序224中的一个可能是显示用户早上7:30在办公室有一个会议且因此预计他将在早上7:00之前离开房屋102的日历。因此，任务处理程序220可以将可能的时间范围缩小到早上7:00之前。任务处理程序220可以进一步从用户简档应用程序(应用程序224中的另一个)请求活动历史，以便确定用户是否具有正常的早晨活动。例如，假设用户已显示出早上6:00之前起床和早上6:30左右吃早餐的模式。从这些额外标记，任务处理程序220可以判定传送提醒的适当时间是在第二天早上6:30左右。分别地，任务处理程序220可以进一步推断出第二天早上6:30时用户很可能是在厨房。

依据这个分析，任务处理程序220设定针对这个请求的任务。在这个实例中，定义一个任务以便通过接近厨房118的端点设备在第二天早上6:30将提醒消息传送给目标用户104。也就是说，任务可以被构造成包括内容、日期/时间、用户身份、默认端点设备和默认位置的数据项。一旦理解了请求并且正确地定义了任务，云服务130就可以将确认返回给用户以便在用户仍然在场时由接收了请求的第一设备120(1)播放。例如，响应于对于提醒213的请求，云服务130可以发送将要由卧室设备120(1)播放的确认，诸如陈述“Okay Scott,I'llremind you(好的，斯科特，我会提醒你的)”，如由对话气泡框215示出的。以这种方式，用户体验是与计算系统的会话的一种。用户随意地发出请求并且系统以会话响应。陈述任选地可以包括诸如“tomorrow at 6:30am in the kitchen(明天早上6:30在厨房)”等语言以便提供对意图的确认并且为用户提供纠正系统的理解和计划的机会。

人定位模块222可以进一步用于在传送响应的时间到来时帮助定位用户和适当的端点设备。继续所述实例，任务处理程序220可以指导人定位模块222在接近早上6:30的传送时间时帮助确认用户104的位置。最初，人定位模块222可以试图通过评估用户104所携带的个人设备(诸如他的智能电话120(6))的位置来定位所述用户。使用关于智能电话120(6)的位置(例如，GPS、从蜂窝塔的三边测量、Wi-Fi基站接近度等)的信息，人定位模块222能够确认用户确实是在房屋102中。因为默认的假设是用户将会在厨房118中，人定位模块222可以要求本地设备120(5)确认目标用户104是在厨房118中。在一个实现方式中，人定位模块222可以引导本地设备120(5)听取话音并且随后试图确认所述话音中的一个是目标用户104。例如，本地设备120(5)可以使用用户的名字向目标用户提供问候，诸如“Good morningScott(早上好，斯科特)”，如由对话气泡框226指示的。如果目标用户104在场的话，所述用户可能回答“Good morning(早上好)”，如由对话气泡框228指示的。在替代实现方式中，本地设备120(5)可以具有话音识别功能，以便通过在环境中捕获目标用户的话音来识别所述目标用户。作为又一个实现方式，人定位模块222可以从厨房中的照相机120(8)(参见图1)请求视觉图像，以便获得目标用户104在厨房中的视觉确认。

当传送时间到来时，任务处理程序220接合端点设备来传送响应。在这个实例中，任务处理程序220与厨房118中的话音控制助理120(5)接触以便发送响应。从提醒任务中提取内容并将其发送到设备120(5)以便通过扬声器回放。此处，在早上6:30，话音控制助理可听地发出提醒“Don't forget to take out the garbage(不要忘记把垃圾带出去)”，如由对话气泡框230指示的。

如这个实例所示，计算系统100能够接收来自一个端点设备或本地设备120的用户输入，处理所述用户输入，并且通过另一个端点设备或本地设备120提供及时的响应。用户不需要记住他是对哪个设备给出请求的，或指定他通过哪个设备接收响应。实际上，可能是任何数量的设备。替代地，用户体验因设备的普遍存在而得到增强，并且用户将仅仅假设支持计算机的助理系统直观地收听请求并且提供及时的响应。

在一些情况下，在传送提醒时可能存在多个供选择的设备。在这种情况下，云服务130可能涉及评估各个设备以便找出针对所述情况的最佳配合。因此，应用程序224中的一个可以是试图识别用于接合用户的最佳本地端点设备的端点设备选择模块。接下来提供一个示例性情境来说明用于查明最佳设备的可能技术。

图3示出在执行任务期间如何选择本地端点设备来接合目标人。在这个图示中，示出分别在四个区域或区A至D中的四个本地端点设备302、304、306和308。区A至D可以代表不同的房间、较大房间的物理区域等。在这个实例中，目标用户104是在区D中。但是，他不是独自一个人。另外，示出四个其他人也在同一个区D中。

示出端点设备选择器310被存储在计算机可读介质216中以便在处理器214上执行。端点设备选择器310被配置来识别可用的设备以便接合用户104，并且随后对这些设备进行分析以便查明在这种情况下最适当的设备。出于讨论的目的，假设四个设备302至308中的任何一个都可以被识别为足够接近以便与用户104进行通信的“可用”设备。存在许多方式来确定可用设备，诸如检测已知为物理上在接近用户的区域中或附近的设备、查寻拾取来自用户的音频输入(例如，房间中的随意会话)的设备以及与用户相关联的设备、用户偏好等。

接下来，端点设备选择器310评估可用设备中的哪一个在这种情况下是最适当的。存在做出这种评估的若干方式。在一种方法中，可以执行距离分析来确定设备与目标人之间的距离。如图3中所示，话音控制助理308是物理上最靠近目标用户104的、在距离D1处，并且话音控制助理306是下一个最靠近的、在距离D2处。端点设备选择器310可以使用距离来选择用于传送响应的最靠近的话音控制助理308。然而，物理接近度不可能在所有情况下都是最佳的。

因此，在另一种方法中，可以分析用户104周围的环境中的音频特性。例如，测量在各个端点设备302至308处的信噪比以便查明哪个设备在听取用户以至排除其它噪声方面是最佳的。作为替代方案，可以对背景音量进行分析以便确定用户是否是在显著背景噪声(诸如多人会话或来自电视机或电器的背景音频的结果)的区域中。还有一种可能性是分析区域中的回声特性，以及可能评估在用户遍及一个或多个区域移动时可能引入的多普勒特性。也就是说，取决于用户的移动和定向，来自用户的口头命令可以以或多或少的清晰度和强度到达不同的设备。

在又一种方法中，可以分析环境观察结果。例如，可以基于来自照相机(如果有的话)的数据或对区别性话音的识别来计算附近区域中的人数。在又一种情况下，物理接近度、基于声音音量的确定和/或视觉观察结果的组合可以指示最靠近的端点设备实际是与目标用户物理上相隔一个结构性障碍(例如，设备位于相邻房间中墙壁的另一侧上)。在这种情况下，即使就原始距离而言设备是近侧地最靠近的，端点设备选择器310也会排除对所述设备的考虑。这些只是几个实例。

可以执行这些分析中的任何一个或多个来评估可能的端点设备。为了继续讨论，假设端点设备选择器310确定区D中的噪声水平和/或人数太高而不利于与目标用户104的有效通信。因此，代替选择最靠近的话音控制助理308，端点选择器310可以引导区C中的话音控制助理306来与目标用户104进行通信。在一些情况下，助理306可以首先试图通过播放陈述吸引用户更靠近(诸如“Scott,I have a reminder for you(斯科特，我有一个提醒给你)”，如由对话气泡框312表示的)来获得用户的注意。作为对这个消息的反应，用户104可以移动得更靠近区C中的设备306，从而使距离D2缩短到更合适的长度。例如，用户104可以从区D中的第一位置移动到区C中的新位置，如由标识“情境A”的箭头所示。此后，任务处理程序220可以传送把垃圾带出去的提醒。

另外，识别用于传送响应的最合适的设备的这些技术可以有助于传送机密或敏感消息。例如，假设目标用户104设定为他妻子挑选周年纪念礼物的提醒。在这种情况下，端点设备选择器310将评估用户当前位置中和附近的设备，以便识别能够不会在用户的妻子在场而听到消息的情况下传送提醒的设备。例如，假设用户104从区D移动到区A持续暂时一段时间(如由标识“情境B”的箭头所示)，从而将其他人(和他妻子)留在区D中。一旦检测到用户独自在区A中，任务处理程序220就可以引导话音控制助理302来将提醒响应传送给用户。这通过例如对话气泡框314中的陈述“Don't forget to pick up your wife'sanniversary present(不要忘记挑选你妻子的周年纪念礼物)”示出。

本文所描述的系统的各方面可以进一步用于支持两个人之间的实时通信。例如，考虑其中一个用户想要实时地向另一个用户发送消息的情境。在这种情境下，第一用户可以将用于传送的消息提供给第二用户。例如，第一用户可以对第一端点设备说出消息，所述第一端点设备将消息发送给云服务以便进行处理。云服务随后可以确定第二用户的位置并且选择可用的且适于将消息传送给第二用户的第二端点设备。随后，可以通过第二端点设备将消息呈现给第二用户。

图4示出可在计算环境中使用的设备120(1)至120(N)的所选择功能部件。如图1中所指出，设备可以以任何数量的方式和形状因子实现。在这个实例中，设备可以实现为在功能能力方面相对简单的独立的话音控制设备120(1)，其具有有限的输入/输出部件、存储和处理能力。例如，话音控制设备120(1)不具有键盘、小键盘或其它形式的机械输入设备。它也不具有用于促进视觉呈现和用户触摸输入的显示器或触摸屏。替代地，设备120(1)可以实现为具有接收和输出音频的能力、网络接口(无线的或基于线的)、电源，以及处理/存储能力。在某些实现方式中，可以采用一组有限的一个或多个输入部件(例如，用于启动配置的专用按钮、电源开/关等)。尽管如此，用户与设备120(1)交互的主要且可能唯一的模式是通过话音输入和可听输出。

系统中所使用的设备还可以实现为移动设备120(6)，诸如智能电话或个人数字助理。移动设备120(6)可以包括触敏显示屏和用于提供输入以及额外功能(诸如发送和接收电话呼叫的能力)的各种按钮。话音控制设备100的替代实现方式还可以包括作为诸如膝上型计算机120(4)等计算机的配置。计算机120(4)可以包括键盘、鼠标、显示屏以及通常在台式计算机、笔记本电脑、上网本或其它个人计算设备上找到的任何其它硬件或功能。这些设备仅仅是实例并且不希望具有限制性，因为本公开中所描述的技术实质上可用于具有识别语音输入的能力的任何设备中。

在图示的实现方式中，设备120中的每一个都包括一个或多个处理器402和计算机可读介质404。计算机可读介质404可以包括以任何方法或技术实现用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的易失性和非易失性存储器、可移动的和不可移动的介质。这种存储器包括但不限于：RAM、ROM、EEPROM、快闪存储器或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、盒式磁带、磁带、磁盘存储或其它磁性存储设备、RAID存储系统、或可以用于存储所需信息并且可以由计算设备访问的任何其它介质。计算机可读介质404可以实现为计算机可读存储介质(“CRSM”)，其可以是可由处理器102访问以便执行存储在存储器404上的指令的任何可用的物理介质。在一个基本的实现方式中，CRSM可以包括随机存取存储器(“RAM”)和快闪存储器。在其它实现方式中，CRSM可以包括但不限于：只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)，或可以用于存储所需信息并且可以由处理器402访问的任何其它有形介质。

诸如指令、数据存储等若干模块可以存储在计算机可读介质404内并且被配置来在处理器402上执行。一些示例性功能模块被示出为存储在计算机可读介质404中并且在处理器402上执行的应用程序，但作为替代相同的功能可以在硬件、固件中实现或实现为芯片上系统(SOC)。

操作系统模块406可以被配置来管理设备120内的且联接至设备120的硬件和服务以便有益于其它模块。唤醒词识别模块408和语音识别模块410可以采用任何数量的常规语音识别技术，诸如使用自然语言处理和广泛的词汇来解释话音输入。例如，语音识别模块410可以采用一般的语音识别技术，并且唤醒词识别模块可以包括特定于唤醒词的语音或短语识别。在一些实现方式中，唤醒词识别模块408可以采用代表唤醒词本身的隐马尔科夫模型。这个模型可以提前或在运行中创建，这取决于特定的实现方式。在一些实现方式中，语音识别模块410最初可以是处于被动状态，在被动状态下语音识别模块410不对语音进行识别或响应。在语音识别模块410是被动的时，唤醒词识别模块408可以对唤醒词进行识别或响应。一旦唤醒词识别模块408对唤醒词做出识别或响应，语音识别模块410就可以进入主动状态，在主动状态下语音识别模块410操作来检测所述语音识别模块410针对其进行编程或所述语音识别模块410能够对其做出响应的自然语言命令中的任何一个。当在图4中所示的特定实现方式中时，唤醒词识别模块408和语音识别模块410被示出为单独的模块；而在其它实现方式中，这些模块可以是组合的。

其它本地模块412也可以存在于设备上，这取决于设备的实现方式和配置。这些模块可以包括更广泛的语音识别技术、滤波器和回声消除模块、扬声器检测和识别等。

话音控制设备100还可以包括存储在计算机可读介质404中的或设备120可以以其它方式访问的多个应用程序414。在这个实现方式中，应用程序414是音乐播放器416、电影播放器418、计时器420和个人购物助理422。然而，话音控制设备120可以包括任何数量或类型的应用程序并且不限于此处所示的具体实例。音乐播放器416可以被配置来播放歌曲或其它音频文件。电影播放器418可以被配置来播放电影或其它音频视觉媒体。计时器420可以被配置来提供简单的计时设备或时钟的功能。个人购物助理422可以被配置来协助用户从基于网络的商人处购买物品。

数据存储还可以本地存储在介质404上，包括已经与设备120进行交互的用户的内容数据库424和一个或多个用户简档426。内容数据库424存储可以由设备播放或呈现的各种内容，诸如音乐、书、杂志、视频等。用户简档426可以包括用户特性、偏好(例如，用户特定的唤醒词)、使用历史、程序库信息(例如，音乐播放列表)、在线购买历史，以及特定于个别用户的其它信息。

一般来说，话音控制设备120具有输入设备428和输出设备430。输入设备428可以包括键盘、小键盘、鼠标、触摸屏、操纵杆、控制按钮等。确切地说，一个或多个麦克风432可以充当用于接收诸如用户话音输入等音频输入的输入设备。在一些实现方式中，输入设备428还可以包括用于捕获用户手势的图像的照相机。输出设备430可以包括显示器、光元件(例如LED)、用于产生触觉感觉的振动器等。确切地说，一个或多个扬声器434可以充当用于输出音频声音的输出设备。

用户可以通过对设备120讲话来与其进行交互，并且麦克风432捕获用户的语音。设备120可以通过经由扬声器434发送可听陈述来传达回给用户。以这种方式，用户可以在不使用键盘或显示器的情况下单独通过语音来与话音控制设备120进行交互。

话音控制设备120还可以包括联接至天线438的无线单元436，以便促进到网络的无线连接。无线单元436可以实现各种无线技术中的一个或多个，诸如Wi-Fi、蓝牙、RF等。可以进一步提供USB端口440作为设备120的一部分，以便促进到网络或与其它无线网络通信的插入式网络设备的有线连接。除了USB端口440之外或作为其替代方案，可以采用其它形式的有线连接，诸如宽带连接。以这种方式，无线单元436和USB 440形成用于将设备120连接至网络202以便与云服务130进行交互的可能接口的许多实例中的两个。

因此，当实现为主要话音操作的设备120(1)时，除麦克风432之外可能不存在输入设备，诸如导航按钮、小键盘、操纵杆、键盘、触摸屏等。此外，可能不存在输出设备，诸如用于文本或图形输出的显示器。扬声器434可以是主输出设备。在一个实现方式中，话音控制设备120(1)可以包括非输入控制机构，诸如用于增加/减小音量的基本音量控制按钮，以及电源和复位按钮。还可以存在用于例如在电源接通时指示状态的简单的光元件(例如，LED)。

因此，设备120(1)可以实现为美学上吸引人的设备，其具有光滑且圆形的表面，具有用于传递声波的一个或多个孔。设备120(1)可以仅仅具有电源线和任选地有线接口(例如，宽带、USB等)。一旦电源线和有线接口被插入，设备就可以自动或在用户的少量协助下进行自配置，并且准备好使用。因此，设备120(1)一般可以以低成本生产。在其它实现方式中，可以将其它I/O部件添加至这个基本模型，诸如专用按钮、小键盘、显示器等。

说明性过程

图5是示出用于协助人执行任务的示例性过程500，包括通过一个设备接收来自人的请求以及通过另一个设备将响应传送给人。过程500可以通过图1的本地端点设备120(1)至120(N)和服务器132或通过其它设备来实现。这个过程(连同图6和图7中所示的过程)被示出为逻辑流程图中方框或动作的集合。一些方框表示可以在硬件、软件或其组合中实现的操作。在软件的上下文中，方框表示存储在一个或多个计算机可读介质上的计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时执行所列举的操作。一般来说，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。描述操作的次序并不意图被解释为限制，并且可以以任何次序或并行地结合任何数量的所描述方框来实现这些过程。

为了描述一个示例性实现方式，在图5中方框视觉上被布置在端点设备120(1)至120(N)和服务器132下方的列中，用于示出系统100的这些设备可以执行这些操作。也就是说，由布置在设备120(1)至120(N)下方的方框定义的动作可以由这些设备中的任何一个来执行。在某些情况下，诸如请求输入部分等过程的一部分可以由第一端点设备执行，并且诸如响应传送部分等过程的另一部分可以由第二端点设备执行，如由流程图部分周围的虚线框示出的。类似地，由布置在服务器132下方的方框定义的动作可以由一个或多个服务器132执行。

在502，第一本地端点设备120(1)在麦克风208/434处接收语音输入。语音输入可以包括用于警告设备意图语音的唤醒词，或者可以是在设备已经觉醒并且与用户进行交互之后正在进行的讨论的一部分。语音输入包括请求。

在504，第一本地端点设备120(1)处的语音识别模块410试图辨别语音输入中的请求是否将得益于知道人的身份。换句话说，所述请求是一般性的还是更个性化的？如果不是个性化的(即，“否”分支形式504)并且人身份并非有益的，那么过程500可以前进到在508对语音输入的一些预处理。例如，语音输入可以是问题“What is the weather today(今天天气如何)？”这个请求在本质上可以被认为是一般的且非个性化的，因此系统不需要记住是谁在发出请求。另一方面，用户可以发出其中人身份是有益的个人请求(即，“是”分支形式504)，从而导致在506识别人的操作。例如，假设语音输入是“please remind me to takeout the garbage tomorrow morning(请提醒我明天早晨把垃圾带出去)”或“remind meto pick up my wife's anniversary present(提醒我挑选我妻子的周年纪念礼物)”。这两个都是个性化请求的实例，其中后一个在传达提醒方面具有更高程度的敏感性。在这些情况下，通过使用话音识别(例如，人A正在说话)、互换上下文(当在主卧室中时男性话音要求把垃圾带出去)、辅助视觉确认等来识别人。

在508，第一设备120(1)任选地可以在将语音输入发送给服务器之前预处理所述语音输入。例如，设备可以将自然语言处理应用于输入，或在将数据发送给服务器132之前应用压缩算法将其压缩，或甚至应用加密算法将音频数据加密。

在510，将语音输入连同第一设备120(1)的身份和人的身份(如果从506已知的话)一起传递给服务器132。设备120(1)的身份可以是序列号、注册号等，并且被提供以便在服务器132上运行的任务处理程序知道用户请求源于何处。在一些情况下，可以将响应立即返回到第一设备120(1)，诸如包含当前天气信息的响应。在一些情况下，第一设备120(1)的身份可以帮助确认用户的身份。此外，可以将用户在一天的特定时间使用第一设备发出特定请求记录在用户简档中，作为追踪用户正常的一天过程中的习惯或模式的方式。此外，当人身份与第一设备120(1)相关联时，可以在选择位置和端点设备以便在接收到请求后不久的一段时间将响应传送给那个所识别的用户或传送未来响应时使用这种关联。还应指出的是，在一些实现方式中，人的身份可以由服务器132确定，而不是在第一设备120(1)处确定。在此类实现方式中，第一设备120(1)传递表示来自人的语音输入的音频数据，并且服务器132使用所述音频数据以及可能其它标记来识别人。

应进一步指出的是，在一些实现方式中，用户可以为另一个人设定提醒。例如，第一用户(例如，丈夫斯科特(Scott))可以为第二用户(例如，他的妻子埃林(Elyn))发出请求，诸如“Please remind Elyn to pick up the prescription tomorrow afternoon(请提醒埃林明天下午去拿药方)”。在这种情况下，请求包括另一个用户的身份，云服务处的服务器将基于用户简档数据来确定所述另一个用户的身份可能会是谁。

在512，云服务130处的服务器132处理从第一端点设备120(1)接收到的语音输入。在一个实现方式中，处理可以包括解密、解压缩和语音识别。一旦音频数据得到解析和理解，任务处理程序220就确定适当的响应。任务处理程序可以咨询任何数量的应用程序以生成响应。例如，如果请求是针对明天购买飞机票的提醒，任务处理程序在提供明天的提醒响应时可能涉及旅行应用程序作为找出航空公司价格的解决方案的一部分。另外，云服务130还可以确定响应将导向何人。响应很可能会被返回给原始请求者，但在一些情况下，响应可能会被传送给另一个人(其中位置确定将是相对于第二个人进行的)。

在514，任选地可以发送立即确认以便向用户指示请求被接收到并且将被处理。例如，响应于针对提醒的请求，响应可以是“Okay Scott,I'll remind you(好的，斯科特，我会提醒你的)”。服务器130将确认返回给从其接收请求的同一个端点设备120(1)。在516，第一设备120(1)接收并且播放确认，以使得用户体验是会话中的一种，在所述会话中计算系统听到请求并且给予承认。

在518，确定何时利用响应回复。在一个实现方式中，任务处理程序220从请求辨别用于响应请求的适当时间。用户可以使用任何数量的方式来传达所需的答案。例如，用户可以要求在确定日期的“before my company meeting(在我的公司会议之前)”或“tomorrowmorning(明天早晨)”或下午5:00的提醒。这些中的每一个具有不同的明确性水平。后一个是直截了当的，其中任务处理程序220设定针对下午5:00的响应。相对于前两个实例，任务处理程序220可以试图根据请求来辨别“tomorrow morning(明天早晨)”可能是什么时间。如果请求是针对“take out the garbage(把垃圾带出去)”的提醒，那么与“tomorrowmorning(明天早晨)”相关联的时间范围可能是预计用户早晨在家的时间(例如，如上讨论的早上6:30)。如果请求是针对“meet with marketing(与销售人员见面)”的提醒，那么针对“tomorrow morning(明天早晨)”的时间范围更可能是上午9:00或上午10:00。最后，如果请求是针对“before my company meeting(在我的公司会议之前)”，那么任务处理程序220可以咨询日历以便了解“company meeting(公司会议)”预定的时间，并且设定用于在那个会议预定开始之前的一个合理时间段的提醒。

在520，确定目标人的位置以便识别将要及时发送响应的地点。例如，在响应时间接近时，人定位模块222确定用户可能位于何处以便传送及时的响应。存在做出这种确定的许多方式。以下参照图6来描述对这个动作的更详细讨论。此外，目标用户可以是初始请求者或另一个人。

在522，确定对其发送响应的设备。在一个实现方式中，端点设备选择器310评估可能的可用设备，并且随后确定哪个端点设备在这种情况下发送响应可能是最佳的。存在许多用于评估可能设备和辨别最佳配合的技术。以下参照图7来提供对这个动作的更详细讨论。

在524，将适当的响应及时发送给在目标用户的位置处的最佳配合设备。出于讨论的目的，假设最佳配合的设备是与从其接收请求的设备120(1)不同的端点设备，诸如第二本地设备120(2)。

在526，接收响应并且针对目标用户播放(或以其它方式显示)响应。如图5中所示，第二设备120(2)接收响应，并且针对被认为在附近区域中的用户播放所述响应。响应可以是任何形式(例如，音频、视觉、触觉等)并且基本上可以包括任何类型的消息、提醒等。响应可以是音频形式，其中通过扬声器播放出所述响应以便用户听到。继续这些实例，响应可以是“Don't forget to take out the garbage(不要忘记把垃圾带出去)”或“You haveyour company meeting in 15minutes(你的公司会议在15分钟内举行)”。

以上描述且在图5中示出的技术仅仅是一个实例，并且实现方式并不限于这种技术。事实上，可以采用用于操作设备120和服务器132的其它技术，并且本文所公开的系统的实现方式并不限于任何特定的技术。

图6示出用于从图5的动作520确定人的位置的更详细过程。在602，接收到目标人的身份。如以上相对于动作506所指出的，某些请求将包括发出请求的人的身份，诸如唯一的用户ID。

在604，确定目标人的可能位置。存在用于做出这个确定的许多方式，所述方式中的若干种作为代表性实例呈现。例如，在604-1，人定位模块222可以轮询遍及环境中的光学设备以便试图视觉上定位目标人。诸如照相机等光学设备可以采用识别软件(例如，面部识别、特征识别等)来识别用户。如本文所使用，“轮询”是指从光学设备获得光学信息，这可能涉及主动请求信息(例如，“拉”模式)或在没有请求的情况下接收信息(例如，“推”模式)。在另一种方法中，在604-2，人定位模块222可以轮询遍及环境中的音频设备以便获得目标人在场的话音确认。音频工具可以用于对照预先录制的声音简档评估音频输入以便唯一地识别不同的人。

另一种技术是在604-3定位可能与目标人相关联的便携式设备。例如，人定位模块222可以与通过GPS数据和/或蜂窝塔三边测量数据来定位设备(诸如智能电话、平板电脑或个人数字助理)的定位软件模块进行交互。在一些实现方式中，这种技术可以与其它方法协同使用。例如，这种物理位置数据可以帮助将对人的搜索缩小到特定住所或办公室，并且随后轮询音频设备或光学设备可以用于将用户定位在所述住所或办公室的特定房间或区域中。

在604-4，人定位模块222还可以咨询其它应用程序以便定位用户，诸如日历应用程序。日历应用程序可以指定在特定时间用户预定将位于何处。当用户在办公室的各种会议上时这特别有用。存在可以咨询以便提供目标人行踪的其它标记(如由604-N表示)的许多其它源。

假设人定位模块222识别到多个可能的位置。在606，任选地将可能的位置排序。例如，可以为每个位置分配指示用户位于此处的可能性的置信度得分。视觉数据的使用可能具有非常高的置信度得分，而音频数据具有与其相关联的稍微较少置信度。日历项的使用可能附有显著较低的置信度得分，因为不能保证用户遵循时间表。

在608，人定位模块222可以接合一个或多个本地设备来与目标人进行交互以便确认他或她的存在。例如，假设人定位模块222最初认为人是在特定房间中。人定位模块222可以引导房间中的设备之一来接合人，也许通过问问题(例如，“Scott,do you needanything(斯科特，你需要什么吗)？”)。如果人在场，那么人可能自然地做出响应(例如，“No,nothing.Thanks(不，不需要，谢谢)”)。人定位模块222随后可以确认目标人在场。

在610，选择用于将响应传送给用户的位置。选择可以是基于动作606的所排序的可能位置和/或基于通过动作608的快速交互的确认。

图7示出用于从图5的动作522确定用于返回响应的适当设备的更详细过程。

在702，接收到目标人的位置。这可以从动作516确定，如图6中所示。作为替代方案，目标人的位置可以是预先知道的，或者用户可能已通知系统他或她位于何处。

在704，找出接近目标人的位置的可能设备，比如可用于将响应传送给人。例如，如果发现用户位于家或办公室的房间中，那么计算端点设备选择器310找出一个或多个设备是否驻留在所述房屋的所述房间中。选择器310可以咨询用户简档以便了解什么设备与用户相关联，或者可以评估识别设备安装在其中的住所或位置的注册记录。在706，评估可用设备以便查明哪个设备在这种情况下可能是用于将响应返回给目标人的最佳设备。存在用于做出这个确定的许多方法，所述方法中的若干种作为代表性实例呈现。例如，在706-1，可以分析从端点设备到目标人的距离。如果端点设备配备有深度传感器(例如，飞行时间传感器)，那么可以使用深度值。如果多个设备在房间中，那么可以使用所述设备之间接收来自用户的口头输入的计时差异来估计人的位置以及哪个设备可能是最靠近的。

在706-2，可以分析包含目标人的环境中的背景音量。高背景音量可能影响设备与目标用户通信的能力。例如，假设一个房间具有位于电器附近的第一设备和位于房间另一头的第二设备。如果电器正在运行，那么针对第一设备的背景音量可能远远大于针对第二设备的背景音量，从而建议第二设备在这种情况下可能更适于与用户通信。

在706-3，分析各种可用设备的信噪比(SNR)。相较于具有较弱SNR的那些设备，给予具有强SNR的设备优先级。

在706-4，可以分析环境的回声特性。当房间没有人和移动对象时，采取基线读数来获得周围环境的声学地图，包括可能引起声音回声的表面和其它对象的位置。可以在与人(包括目标用户)接合时测量回声特性，以便确定人或对象是否可能改变声学地图。根据这些测量的结果，某些可用设备可能变得更适于将响应传送给目标用户。

在706-5，可以分析环境的多普勒特性，具体地说相对于目标用户通过环境的移动。在一些情况下，用户可能正在移动通过环境，从房间的一个部分到所述房间的另一个部分或从一个房间到另一个房间。在这些情况下，如果用户还正在与计算系统100讲话和会话，那么可能存在变化的声学效果，所述声学效果影响哪些设备最佳地与用户进行交互，这取决于用户移动的方向以及在讲话时用户头部的定向。因此，多普勒特性可以影响在给定的一组情况下哪个设备可能是最佳用于响应的。

在706-6，可以对环境进行分析，诸如在房间中有多少人，或具体地谁在房间中等。在一些实现方式中，从照相机或其它光学设备接收到的视觉数据可以提供关于环境中的人数或对人的识别的深入认识。这种分析可以有助于确定哪个设备最适于传送响应。例如，如果设备位于人员拥挤的房间中，那么系统可能认为远离人群的另一个设备可能更好。

存在适用于评估用于提供响应的可能设备的许多其它类型的分析，如由706-M表示的。例如，另一种类型的分析是查看所有权或注册信息以便找出目标用户与个人设备之间的关联。对于目标用户更个性化的设备可以获得更高的得分。

在708，对响应进行评估以便确定是否存在可能影响将响应引向何处的决定的任何特殊标准。例如，在用户要求用于挑选他妻子的礼物的提醒的情境中，响应将包括私密或敏感元素，因为系统不应当将提醒返回到目标人的妻子可能会意外地听到提醒的位置。另一个实例是用户可能请求关于医生约会或不是既定用于一般消费的个人财务数据的信息的情况。存在特殊标准的大量实例。因此，在708，对这些标准进行评估并且在查找在这些情况下的最佳端点设备的决策过程中使用。

在710，选择最佳的端点设备120。这个决定可以是基于为各种分析706-1至706-M评分、将结果排序、并且将任何特殊标志应用于所述结果。在这个实例中，将选择最终具有最高得分的设备。

结论

虽然已经以特定于结构特征的语言对主题进行了描述，但是应当理解，在随附权利要求书中定义的主题不必限于所描述的具体特征。事实上，这些具体特征是作为实现权利要求书的说明性形式而公开的。

条款：

1.一种计算系统，其包括：

远程计算系统；

多个端点设备，所述多个端点设备位于对一个或多个用户而言是本地的各种位置中，第一端点设备包括：

一个或多个处理器；

计算机可读存储介质，所述计算机可读存储介质存储计算机可执行指令；

至少一个麦克风，所述至少一个麦克风接收来自用户的音频输入，所述音频输入包含用户请求；以及

接口，所述接口用于将所述用户请求传输到所述远程计算系统；

所述远程计算系统包括一个或多个可执行模块，所述一个或多个可执行模块被配置来产生对所述用户请求的响应、确定何时传送所述响应、选择可用于将所述响应提供给用户的第二端点设备，以及将所述响应发送给所述第二端点设备；以及

所述第二端点设备包括：

一个或多个处理器；

计算机可读存储介质，所述计算机可读存储介质存储计算机可执行指令；以及

接口，所述接口用于接收来自所述远程计算系统的响应；以及

至少一个扬声器，所述至少一个扬声器用于以音频形式将所述响应输出给所述用户。

2.如条款1所述的计算系统，其中所述用户请求选自包括以下的请求的组：提醒、计时器、警报、日历条目、方向、指令和保留。

3.如条款1所述的计算系统，其中所述远程计算系统被配置来通过以下中的至少一个来确定何时传送所述响应：对所述用户请求执行自然语言理解处理、使用来自日历应用的信息、使用来自与所述用户相关联的用户简档的信息，或者使用关于与所述用户相关联的活动历史中的事件的信息。

4.如条款1所述的计算系统，其中所述第一端点设备还包括语音识别模块，所述语音识别模块被维持在所述一个或多个计算机可读存储介质中并且由所述一个或多个处理器执行以便将来自所述麦克风的表示所述用户的音频输入的信号转换成文本。

5.如条款1所述的计算系统，其中所述远程计算系统的所述一个或多个模块还被配置来在选择在所述用户的位置处可用于将所述响应提供给所述用户的所述第二端点设备之前查明所述位置。

6.如条款1所述的计算系统，还包括第三端点设备，其中所述远程计算系统的所述一个或多个模块还被配置来在所述第二端点设备与所述第三端点设备之间进行选择以便将所述响应提供给所述用户。

7.如条款1所述的计算系统，其中所述远程计算系统被配置来通过从所述端点设备中的一个或多个接收音频数据来查明所述用户的所述位置。

8.如条款1所述的计算系统，其中所述第二端点设备包括用于捕获环境的图像的照相机，所述远程计算系统被配置来通过接收源自所述图像的数据来查明所述用户的所述位置。

9.如条款1所述的计算系统，其中所述远程计算系统被配置来通过查看与所述用户相关联的日历或所述用户的活动历史中的至少一个来查明所述用户的所述位置。

10.如条款1所述的计算系统，其中所述远程计算系统被配置来通过使用包括以下的至少一种分析评估所述端点设备中的所述一个或多个来选择所述第二端点设备：

距离分析，用于确定端点设备与所述用户的距离；

背景分析，用于确定端点设备的背景噪声的音量；

信噪比(SNR)分析，用于确定端点设备处相对于所述用户和背景噪声源的SNR；

回声分析，用于确定端点设备驻留在其中的环境的回声特性；

多普勒分析，用于确定来自所述用户的音频输入相对于端点设备的多普勒特性；以及

环境分析，用于确定接近端点设备的人数。

11.一个或多个具有计算机可执行指令的计算机可读介质，所述计算机可执行指令在由一个或多个处理器执行时引起所述一个或多个处理器执行包括以下的操作：

从第一计算设备接收来自第一用户的请求；

处理所述请求以生成响应；

确定接收所述响应的第二用户；

选择第二计算设备；以及

将所述响应传送给所述第二计算设备以便将所述响应呈现给所述第二用户。

12.如条款11所述的一个或多个计算机可读介质，其中所述请求包括文本格式或音频格式中的一个。

13.如条款11所述的一个或多个计算机可读介质，其中所述第一用户和所述第二用户是同一个人。

14.如条款11所述的一个或多个计算机可读介质，其中所述第一计算设备和所述第二计算设备是同一个计算设备。

15.如条款11所述的一个或多个计算机可读介质，其中所述第一计算设备驻留在第一位置处并且所述第二计算设备驻留在不同于所述第一位置的第二位置处。

16.如条款11所述的一个或多个计算机可读介质，其还包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时引起所述一个或多个处理器执行额外的操作，所述额外的操作包括确定用于将所述响应传送给所述第二用户的时间。

17.如条款11所述的一个或多个计算机可读介质，其还包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时引起所述一个或多个处理器执行额外的操作，所述额外的操作包括部分地基于对所述请求执行自然语言理解来确定用于将所述响应传送给所述第二用户的时间。

18.如条款11所述的一个或多个计算机可读介质，其还包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时引起所述一个或多个处理器执行额外的操作，所述额外的操作包括确定用于将所述响应传送给所述第二用户的时间，其中所述传送时间是至少部分地基于对所述第二用户的存在的确定。

19.如条款11所述的一个或多个计算机可读介质，其中选择第二计算设备包括查明所述第二用户的位置以及选择在所述位置处可用的第二计算设备。

20.如条款19所述的一个或多个计算机可读介质，其中查明所述第二用户的位置包括确定与所述第二用户相关联的设备的位置。

21.如条款11所述的一个或多个计算机可读介质，其中确定第二用户包括对所述请求执行自然语言理解。

22.如条款11所述的一个或多个计算机可读介质，其中选择第二计算设备包括轮询环境中的与所述第二用户相关联的计算设备以便检测所述第二用户是否存在。

23.如条款11所述的一个或多个计算机可读介质，其中选择所述第二计算设备包括以下中的至少一个：

确定所述第二计算设备与所述用户的距离；

确定所述第二计算设备的背景噪声的音量；

测量所述第二计算设备处的相对于所述用户和背景噪声源的信噪比；

确定所述第二计算设备驻留在其中的环境的回声特性；

确定来自所述用户的音频输入相对于所述第二计算设备的多普勒特性；或者

确定接近所述第二计算设备的人数。

24.一种计算机实现的方法，其包括：

在配置有可执行指令的一个或多个计算机系统的控制下，

接收请求；

处理所述请求以生成响应；

选择计算设备来传送所述响应；以及

将所述响应传送到所选择的计算设备。

25.如条款24所述的计算机实现的方法，其中接收请求包括从第一计算设备接收所述请求，并且其中传送所述响应包括将所述响应发送到不同于所述第一计算设备的第二计算设备。

26.如条款24所述的计算机实现的方法，其中接收请求包括从第一计算设备接收源自第一用户的请求，并且其中选择计算设备包括选择所述第一计算设备或第二计算设备中的一个用于将所述响应传送给不同于所述第一用户的第二用户。

27.如条款24所述的计算机实现的方法，其中接收请求包括接收指示由所述用户对第一计算设备的话音输入的音频输入，并且传送所述响应包括通过不同于所述第一计算设备的第二计算设备将用于音频输出的音频数据发送给所述用户。

28.如条款24所述的计算机实现的方法，其中选择计算设备来传送所述响应包括查明待接收所述响应的用户的位置以及从在所述位置处可用的多个计算设备中选择一个计算设备。

29.如条款28所述的计算机实现的方法，其中查明用户的位置包括以下中的至少一个：

轮询一个或多个光学设备以便视觉确认所述用户；

轮询一个或多个音频设备以便话音确认所述用户；

定位与所述用户相关联的电子设备；或者

查看与所述用户相关联的日历。

30.如条款24所述的计算机实现的方法，其中选择所述计算设备包括以下中的至少一个：

分析所述计算设备与用户的接近度；

分析所述计算设备的背景噪声的音量；

分析所述计算设备相对于用户和背景噪声源的信噪比；

分析所述计算设备驻留在其中的环境的回声特性；

分析来自用户的音频输入相对于所述计算设备的多普勒特性；或者

分析接近所述计算设备的人数。

31.如条款24所述的计算机实现的方法，其还包括确定用于返回所述响应的时间。

32.如条款24所述的计算机实现的方法，其还包括部分地通过对所述请求执行自然语言理解来确定用于返回所述响应的时间。

33.一种计算机实现的方法，其包括：

在配置有可执行指令的一个或多个计算机系统的控制下，

获取用于传送给用户的消息；

确定所述用户的位置；

选择一个或多个可用计算设备中的一个；以及

将所述消息传送给所选择的计算设备以便呈现给所述用户。

34.如条款33所述的计算机实现的方法，其还包括确定用于将所述消息传送给所述用户的时间。

35.如条款33所述的计算机实现的方法，其中获取消息包括从第一计算设备接收来自第一用户的消息，并且其中传送所述消息包括将所述消息传送给第二计算设备以便呈现给不同于所述第一用户的第二用户。

36.如条款33所述的计算机实现的方法，其中确定所述用户的位置包括以下中的至少一个：

轮询一个或多个光学设备以便视觉确认所述用户；

轮询一个或多个音频设备以便话音确认所述用户；

定位与所述用户相关联的电子设备；或者

查看与所述用户相关联的日历。

37.如条款33所述的计算机实现的方法，其中选择一个或多个可用计算设备中的一个包括确定在所述位置处可用的多个计算设备以及从在所述位置处可用的所述多个计算设备中选择所述一个计算设备。

38.如条款33所述的计算机实现的方法，其还包括重复所述确定、所述选择和所述传送以便将所述消息再发送给所述用户。

Claims

1.一种计算系统，包括：

远程计算系统；

多个端点设备，所述多个端点设备位于对一个或多个用户而言是本地的各种位置中，所述多个端点设备中的第一端点设备包括：

一个或多个处理器；

其中所述远程计算系统包括一个或多个可执行模块，所述一个或多个可执行模块被配置来产生对所述用户请求的响应、确定何时传送所述响应、当是时候传送所述响应时查明所述用户的位置、从所述多个端点设备中选择在所述用户的所述位置处可用的、以基于经查明的位置将所述响应提供给所述用户的第二端点设备，以及将所述响应发送给所述第二端点设备，

其中所述第二端点设备包括配置为捕获环境的图像的照相机，并且其中，所述远程计算系统被配置为通过接收从所述图像导出的数据来查明所述用户的所述位置；并且

其中所述第二端点设备还包括：

一个或多个处理器；

接口，所述接口用于接收来自所述远程计算系统的所述响应；以及

2.如权利要求1所述的计算系统，其中所述用户请求选自包括以下的请求的组：提醒、计时器、警报、日历条目、方向、指令和保留。

3.如权利要求1所述的计算系统，其中所述远程计算系统被配置来通过以下中的至少一个来确定何时传送所述响应：对所述用户请求执行自然语言理解处理、使用来自日历应用的信息、使用来自与所述用户相关联的用户简档的信息，或者使用关于与所述用户相关联的活动历史中的事件的信息。

4.如权利要求1所述的计算系统，其中所述第一端点设备还包括语音识别模块，所述语音识别模块被维持在所述一个或多个计算机可读存储介质中并且由所述一个或多个处理器执行以便将来自所述麦克风的、表示所述用户的所述音频输入的信号转换成文本。

5.如权利要求1所述的计算系统，其中所述远程计算系统被配置来通过从所述端点设备中的一个或多个接收音频数据来查明所述用户的所述位置。

6.一种计算机实现的方法，包括：

在位于对一个或多个用户而言是本地的各种位置中的多个端点设备中的第一端点设备处：由麦克风接收来自用户的音频输入，所述音频输入包含用户请求；以及

通过接口，将所述用户请求传输至远程计算系统，

在所述远程计算系统处：

产生对所述用户请求的响应；

确定何时传送所述响应；

当是时候传送所述响应时查明所述用户的位置；

选择在所述用户的所述位置处可用的所述多个端点设备中的第二端点设备，以基于经查明的位置将所述响应提供给所述用户；以及

将所述响应发送给所述第二端点设备，

在所述第二端点设备处：

由照相机捕获环境的图像，其中所述远程计算系统被配置为通过接收从所述图像导出的数据来查明所述用户的所述位置；

从所述远程计算系统接收所述响应；以及

至少由一个扬声器，以音频形式将所述响应输出给所述用户。

7.如权利要求6所述的计算机实现的方法，其中接收包含用户请求的音频输入包括接收指示由所述用户的话音输入的音频输入，并且发送所述响应至所述第二端点设备包括通过第二端点设备将用于音频输出的音频数据发送给所述用户。

8.如权利要求6所述的计算机实现的方法，其还包括部分地通过对所述请求执行自然语言理解来确定用于返回所述响应的时间。

9.一种计算机实现的方法，由远程计算系统执行，所述方法包括：

从第一端点设备接收用户请求；产生对所述用户请求的响应；

确定何时传送所述响应；

当是时候传送所述响应时查明用户的位置；

选择在所述用户的所述位置处可用的第二端点设备，以基于经查明的位置将所述响应提供给所述用户；以及将所述响应发送给所述第二端点设备，

其中通过接收从所述第二端点设备的照相机所捕获的图像导出的数据来查明所述用户的所述位置。

10.如权利要求9所述的计算机实现的方法，其中查明所述用户的位置还包括以下中的至少一个：

轮询所述第二端点设备的照相机以便视觉确认所述用户；

轮询一个或多个音频设备以便话音确认所述用户；

定位与所述用户相关联的电子设备；或者

查看与所述用户相关联的日历。

11.如权利要求9所述的计算机实现的方法，其中选择所述第二端点设备包括确定在经查明的位置处可用的一个或多个端点设备以及从在所述位置处可用的所述一个或多个端点设备中选择所述第二端点设备。