CN105814535B

CN105814535B - 呼叫中的虚拟助理

Info

Publication number: CN105814535B
Application number: CN201480052266.9A
Authority: CN
Inventors: 马塞洛·泰平
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-09-25
Filing date: 2014-09-22
Publication date: 2019-12-03
Anticipated expiration: 2034-09-22
Also published as: JP6318255B2; EP3050051B1; WO2015047932A1; JP2016533690A; US10134395B2; EP3050051A4; EP3050051A1; CN105814535A; US20150088514A1

Abstract

用于在用户之间的语音通信期间提供虚拟助理以便辅助所述用户的技术。例如，操作装置的第一用户可以与一个或多个另外用户的相应装置，诸如与第二用户的装置，建立语音通信。例如，所述第一用户可以利用她的装置以向所述第二用户的所述装置发出电话呼叫。虚拟助理还可以接入所述呼叫，并且一旦由呼叫中的用户调用，其可以识别来自所述呼叫的语音命令并可以为所述用户执行对应任务作为响应。

Description

呼叫中的虚拟助理

相关申请

本申请要求2013年9月25日提交的标题为“In-Call Virtual Assistants”的美国专利申请号14/037,077的优先权，所述申请以引用的方式整体并入本文。

技术领域

本发明涉及用于在用户之间的语音通信期间提供虚拟助理以便辅助用户的技术。

背景技术

语音通信系统允许彼此远离的用户通过一系列不同装置通信。一些装置(诸如移动电话)通过网络将语音数据发送到最终用户装置。配置具有网络摄像机的其他装置(诸如膝上计算机或平板)将语音数据和视频数据两者发送到最终用户装置。不管用户单独使用音频或使用音频和视频两者进行通信，这些语音通信系统在大量的用户中增加了连通性。

发明内容

本公开部分地描述用于在用户之间的语音通信期间提供虚拟助理以便辅助用户的技术。例如，操作装置的第一用户可以与一个或多个另外用户的相应装置诸如与第二用户的装置建立语音通信。例如，第一用户可以利用她的装置以向第二用户的装置发出电话呼叫或其他语音通信。此通信可以通过公共交换电话网络(PSTN)、蜂窝网络、互联网语音协议(VOIP)网络等等开始。

在建立语音通信后，或作为建立此通信的一部分，所述技术可以将另一个计算装置接入到语音通信，即托管虚拟助理用于为一个或两个用户执行任务的计算装置。例如，用户可以在语音通信期间询问特定区域的温度预报，可以要求虚拟助理安排会议或购买电影票等等。在从表示语音通信的音频的音频信号识别语音命令后，虚拟助理可以获得关于语音命令的信息，并且可以通过语音通信或通过频带外通信将所述信息输出到用户。例如，如果用户询问虚拟助理当前温度，那么托管虚拟助理的计算装置可以使用自动语音辨识以便识别语音命令，并且此后可以获得所述信息(即，在用户的位置处的当前温度)并且可以使用文本到语音来向将当前温度输出至参加电话呼叫的用户。另外地或另选地，托管虚拟助理的计算装置可以通过另一个信道提供此信息，诸如通过文本消息、电子邮件或任何其他类型的推送通知服务或协议。

在将虚拟助理接入到语音通信后，当相应用户需要虚拟助理的辅助时，语音通信上的用户中的一个或两个可以调用虚拟助理。用户可以用一些方式调用助理。例如，用户可以说出预定义的话语(例如，词、短语、声音或其组合)，当由托管虚拟助理的计算装置识别时，使得计算装置为了识别语音命令的目的开始对表示语音通信的音频的音频信号执行语音辨识。例如，当虚拟助理在语音通信上但是没有被调用时，虚拟助理可以仅针对预定义的话语监控表示语音通信的音频的音频信号，但是不可以对表示音频的音频信号执行进一步的语音辨识。一旦识别关键字匹配(或大于阈值的所陈述词或短语与预定义话语之间的相似度)，虚拟助理可以开始对表示语音通信的音频的音频信号执行语音辨识以便识别后续语音命令。

同时在其他实例中，电话呼叫上的用户可以用一些一个或多个其他方式调用虚拟助理。例如，用户可以通过选择用户的装置上的预定义的软按钮或物理按钮(例如，装置的小键盘上的磅(#)符号)、通过以预定义的方式移动装置(如由装置的加速度计或陀螺仪确定)等等来调用助理。在另外的其他实例中，可以响应一个或多个其他触发，诸如向特定用户的电话呼叫的发出、基于一个或多个两个用户的当前地理位置等等，调用虚拟助理。

在任何事件中，在调用虚拟助理后，虚拟助理可以开始执行语音辨识以便识别语音命令并且可以尝试识别提供命令的用户。虚拟助理可以用任何数量的方式识别此用户。例如，虚拟助理可以利用由通信网络(例如，PSTN、蜂窝网络等等)提供的信息。此信息可以包括指示与开始语音通信的装置相关联的电话号码的自动号码识别(ANI)、或指示与接收电话呼叫的装置相关联的电话号码的被叫方号码(CPN)。虚拟助理可以查询这些电话号码中的一者或两者并且可以将这些号码映射到用户。此后，虚拟助理可以在执行由用户请求的任务中使用此识别。例如，如果用户询问“外面的温度是多少”，那么虚拟助理可以为了确定用户的当前位置和在那个位置处的当前温度的目的参考与用户相关联的用户简介。在另一个示例中，如果用户要求“请在我们(呼叫中的人)之间安排会议”，那么虚拟助理可以参考与电话呼叫中的人相关联的日程表以便确定对于这种会议充分的时间和地点。

除了或替代使用由通信网络提供的信息，虚拟助理可以使用语音辨识技术来识别调用用户。例如，用户可以初始地利用虚拟助理“登记”他们的声纹或语音签名，以使得此声纹可以随后用来基于他们的语音特征识别用户。例如，虚拟助理可以比较调用用户的语音特征与一个或多个所存储语音签名的对应特征以便识别调用用户。定义用户的“语音签名”的这些语音特征可以包括音高、音调、频率、振幅、语法或任何其他音频特征。

在又一个示例中，虚拟助理可以通过参与和用户的对话来确定用户的身份。例如，虚拟助理可以请求用户陈述他的或她的姓名连同口令、对秘密问题的答案等等。在一些实例中，虚拟助理可以驻留在电话服务上，或可以与电话服务交互，以使得虚拟助理可以在调用用户陈述他的或她的口令时，将与非调用用户的呼叫分支放置到双向静音上。当然，虚拟助理还可以在频带外信道中与调用用户一起工作以便识别并认证用户。例如，一旦调用用户陈述他的或她的姓名，虚拟助理可以识别与用户相关联的电话号码、电子邮件地址等等，并且可以向那个号码或地址发送通信，从而要求用户确认他的或她的身份。一旦利用虚拟助理认证，虚拟助理可以执行由用户请求的动作。

在识别语音命令和请求用户的身份(和/或在呼叫的另一端上的用户的身份)后，虚拟助理可以确定用于作为响应执行的动作，所述动作可以包括在电话呼叫期间向用户提供对于输出一些可听内容有效的输出音频信号。例如，输出可以包括通知用户当前温度、指示会议已经安排、确认虚拟助理已经使用用户的支付信息在所请求时间为调用用户购买所请求的电影票等等。此外，在执行动作后，虚拟助理可以从“活动”模式转换回到“备用”模式中，在所述“备用”模式中虚拟助理保持在呼叫中但是等待调用。也就是，虚拟助理可以监控表示用于预定义话语的音频的音频信号，所述音频信号当被辨识时调用助理，但是助理以其他方式不对表示语音通信的音频的音频信号执行语音辨识。

如本文所使用，虚拟助理包括被配置成在用户之间的电话通信期间与一个或多个用户交互的软件、硬件或固件中的任何一个或组合。在一些实例中，虚拟助理包括用于对在语音通信的用户之间的音频执行语音辨识的功能性或用于执行动作作为响应的功能性。另外地或另选地，虚拟助理可以将信息输出至用户中的一个或两个(或如果多于两个参加语音通信的话，更多用户)。此信息可以作为语音通信的一部分输出和/或可以在频带外信道(例如，通过电子邮件、文本消息等等)中输出。在一些实例中，虚拟助理可听地(例如，在语音通信期间模仿人类语音)、文本地(例如，通过电子邮件或文本消息)或以任何其他方式输出此信息。

附图说明

详细说明参照附图来描述。在图中，参考数字中最左侧的数字标识首次出现该参考数字的图。在不同的图中使用的相同参考数字指示类似或相同的部件或特征。

图1示出包括第一用户使用装置以与第二用户的装置建立语音通信的说明性计算架构。所述架构还包括虚拟助理模块，所述虚拟助理模块实现被配置成由第一用户或第二用户调用并且作为响应识别来自调用用户的语音命令并且作为响应执行对应任务的虚拟助理。

图2A示出图1的第一用户拨号第二用户，以及第一用户的装置上的应用自动拨号与实现虚拟助理的一个或多个计算装置相关联的电话号码的示例性序列。

图2B示出图1的第一用户拨号第二用户此后在虚拟助理中开会的示例性序列。

图3示出图1的第一用户调用虚拟助理的示例序列以及识别和认证用户的虚拟助理的一个示例。

图4描写了虚拟助理模块可以实现的示例性过程的流程图。

具体实施方式

上文介绍的装置和技术可以在各种不同的架构和情境中实现。下文描述一个非限制性和说明性实现方式。

图1示出包括第一用户102(1)使用装置104(1)以通过网络106与第二用户102(2)的装置104(2)建立语音通信的说明性计算架构100。装置104(1)和104(2)可以包括能够维持彼此之间的语音通信的任何种类的计算装置，诸如蜂窝电话、智能电话、平板计算装置、台式计算装置、游戏主机或执行使这些装置能够建立这种通信的应用的任何其他类型的装置。如本文所使用，“语音通信”包括任何类型的通信，其中音频在用户装置之间传递，所述通信包括仅语音通信、音频/视频通信等等。同时网络106可以包括用于在用户装置之间提供语音数据的有线网络或无线网络中的任何一个或组合。例如，网络106可以包括PSTN、VoIP网络等等。

如图所示，架构100还可以包括一个或多个远程计算资源108，所述远程计算资源108可以托管虚拟助理模块110，所述虚拟助理模块110实现配置用于由第一用户102(1)或第二用户102(2)调用的虚拟助理。在语音通信期间响应于调用虚拟助理的这些用户中的一个，虚拟助理模块110可以识别来自调用用户的语音命令并且作为响应执行对应任务。

如图所示，远程计算资源108可以被实现为一个或多个服务器112(1)、112(2)、…、112(P)，并且在一些实例中，可以形成网络可访问计算平台的一部分，所述计算平台被实现为通过诸如互联网的网络维持和可访问的处理器、存储装置、软件、数据访问等等的计算基础设施。远程计算资源108不要求最终用户知道递送服务的系统的物理位置和配置。用于这些远程计算资源108的相关联公共表达包括“按需式计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”、“云服务”、“数据中心”等等。在一些实现方式中，远程计算资源108可以形成电话服务的全部或一部分，所述电话服务作用于在用户装置之间建立语音通信(例如，电话呼叫)并且托管用于辅助语音通信的虚拟助理。

服务器112(1)-(P)可以包括处理器114和存储虚拟助理模块110的存储器116。如图所示，虚拟助理模块110存储或以其他方式具有对接入模块118、调用模块120、语音辨识引擎122、说话者识别(ID)模块124和响应模块126的访问。接入模块118作用于将虚拟助理功能性(即，模块110的部件)接入到在示例用户装置104(1)与104(2)之间的语音通信。如图1所示，用户装置104(1)和104(2)两者可以与特定电话号码或装置可以可达的其他端点标识符相关联。此外，图1示出托管虚拟助理模块110的计算资源108也可以与电话号码(在此，“800-234-7894”)相关联。如此，一旦装置拨号此号码并在托管虚拟助理模块110的计算资源中开会，接入模块118可以允许虚拟助理模块110接入语音通信。当然，尽管图1示出计算资源108和相应客户端装置104与电话号码相关联，但是这些装置可以与一系列的其他端点标识符诸如统一资源标识符(URI)、VoIP端点标识符、会话启动协议(SIP)标识符等等相关联并且在所述系列的其他端点标识符处可达。

在所示示例中，一旦用户102(1)使用装置104(1)以拨号与装置104(2)相关联的号码，在装置104(1)上运行的应用可以自动地拨号与虚拟助理模块110相关联的号码用于接入模块110。例如，图1示出装置104(1)可以包括用于自动地拨号此号码的虚拟助理模块110。同时在另一个示例中，用户102(1)和/或用户102(2)可以通过将一方增加到语音通信并且拨号与计算资源108相关联的号码来手动地在计算资源108中开会。在任一实例中，虚拟助理模块110可以接收进入的电话呼叫的指示并且可以“应答”进入的呼叫以便接入呼叫。

在虚拟助理模块110接入呼叫后，调用模块120可以监控触发以便调用模块110的其他部件，诸如语音辨识引擎122。例如，调用模块120可以寻求识别由用户中的一个或两个说出的预定义话语，并且一旦识别此预定义话语，可以调用语音辨识引擎122。在其他示例中，调用模块120可以等待文本消息或来自用户的其他通信以便调用虚拟助理模块110的部件。

在接收对调用这些部件的请求后，调用模块可以调用语音辨识引擎122。语音辨识引擎122对基于由用户装置104(1)和104(2)的麦克风捕获的声音，诸如由用户102(1)和102(2)说出的话语，而生成的音频信号执行语音辨识。同时说话者ID模块124可以通过由语音网络(例如，ANI、CPN等等)、语音辨识、与用户的对话、与用户的频带外通信等等提供的信息来识别说出语音命令的用户的身份。

同时响应模块126可以响应于辨识来自表示语音通信的音频的音频信号的不同语音命令来执行某些动作。这可以包括将音频输出至装置104(1)和104(2)中的一个或两个。

尽管图1示出驻留在远离装置104(1)和104(2)的计算装置(例如，计算资源108)上的虚拟助理模块110，但是在其他实例中，虚拟助理模块110的部件可以使用户装置104(1)和104(2)中的一个或两个驻留在一个或多个其他实体上，或遍及多个其他位置。

不管语音辨识发生在何处，虚拟助理模块110可以从用户102(1)和102(2)接收声音输入，并且语音辨识引擎122可以执行语音辨识以便解释用户的操作请求或命令。请求可以基本上是对于任何类型的操作，诸如数据库查询、请求和消费娱乐(例如，游戏、查找和播放音乐、电影或其他内容等等)、人事管理(例如，日程指定、做笔记等等)、在线购物、金融交易等等。

为了提供一个示例，图1示出参与虚拟助理模块110接入的语音通信的用户102(1)和102(2)。在128(1)处，用户102(2)陈述以下内容：“我很兴奋明天飞往那里。温度将会怎么样？”作为响应，用户102(1)在128(2)处陈述以下内容：“我不知道。虚拟助理，明天的温度会怎么样？”在此示例中，响应于识别预定义短语“虚拟助理”，调用模块120调用识别来自128(2)的语音命令的语音辨识引擎122。说话者ID模块124使用上文所述的技术中的任何一个来识别用户102(1)。响应模块126然后使用此识别以便确定检查温度所在的地理位置(即，用户102(1)的位置)，检查那个位置处下一天的预报，并且在128(3)处将以下内容输出到两个装置：“明天西雅图的高温是72度。”

图2A示出用户102(1)拨号用户102(2)和用户102(1)的装置104(1)上的应用自动拨号与实现虚拟助理的计算资源108相关联的电话号码或其他端点标识符的示例序列。在“1”处，用户拨号与用户102(2)的装置104(2)相关联的电话号码。在“2”处，应用(例如，虚拟助理模块110)自动拨号与装置104(2)相关联的电话号码(444-555-1245)和与虚拟助理模块110相关联的电话号码(800-234-7894)两者。在“3”处，用户102(2)应答电话呼叫，并且用户102(2)和虚拟助理两者现在在电话呼叫中。虚拟助理保持在呼叫中等待调用，如上文所描述以及下文参考图3所示。

图2B示出用户102(1)将虚拟助理模块接入至语音通信的另一个示例序列。在“1”处，用户102(1)拨号与装置104(2)相关联的电话号码。在“2”处，用户102(2)应答呼叫，从而在装置104(1)与装置104(2)之间建立语音通信。在“3”处，用户102(1)(或用户102(2))通过拨号相关联的号码在虚拟助理模块110中开会。在“4”处，虚拟助理应答呼叫并且进入语音通信开会，从而制造多路会议呼叫。在一些实例中，可以响应于被接入呼叫自动地调用虚拟助理(不管接入使用图2A还是图2B的实施方案发生)，而在其他实例中，可以接入但不调用虚拟助理。此外，尽管所示示例描述两个移动装置连同虚拟助理的描述，但是在一些实例中，可以将任何数量的用户装置接入到语音通信中。

图3示出用户102(1)调用虚拟助理的示例序列以及识别和认证用户102(1)的虚拟助理的一个示例。在“1”处，用户102(1)调用已经接入语音通信的虚拟助理。此调用可以包括用户102(1)说出预定义的话语、选择装置104(1)上的预定义的软按钮或物理按钮等等。在后一实例中，虚拟助理接收由用户中的一个做出的按钮的选择的指示。在“2”处，虚拟助理指示用户102(1)提供用户的口令，并且还可以通知用户102(1)呼叫中的另一个用户(102(2))将听不到口令交换。在“3”处，虚拟助理执行对应于用户102(2)的呼叫分支的双向静音，以使得用户102(2)不能够听到虚拟助理与用户102(1)之间的交换。在“4”处，用户102(2)事实上被静音并且不能够听到交换。最后，在“5”处，用户102(1)提供口令(例如，可听地)，所述口令如果正确可以调用虚拟助理，从而使助理对对应于用户102(2)的呼叫分支解除静音，并且使助理开始对表示来自语音通信的音频的音频信号执行语音辨识以为了识别和响应于其中的语音命令的目的。

图4描写虚拟助理模块110可以实现的示例过程400的流程图。本文所描述的每个过程作为逻辑流程图示出，其每个操作代表可在硬件、软件或其组合中实现的一系列操作。在软件情境内，操作代表存储于一个或多个计算机可读介质上的计算机可执行指令，当由一个或多个处理器来执行时，执行所列举的操作。总体上，计算机可执行指令包括例行程序、程序、对象、部件、数据结构等，其执行特定功能或实施特定抽象数据类型。

计算机可读介质可以包括非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质可以包括硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪速存储器、磁卡或光卡、固态存储器装置或适用于存储电子指令的其他类型的存储介质。另外，在一些实施方案中，计算机可读介质可包括暂时性计算机可读信号(呈压缩或未压缩的形式)。计算机可读信号(无论是否使用载波调制)的实例包括但不限于托管或运行计算机程序的计算机系统可被配置来访问的信号，包括通过因特网或其他网络下载的信号。最后，不希望将描述操作的次序理解为限制性，并且任何数量所描述的操作可以任何次序和/或并行组合来实施此过程。

过程400包括在402处，将虚拟助理接入到在第一用户的装置与第二用户的装置之间建立的语音通信。在404处，虚拟助理可以从语音通信的音频内识别预定义的话语，并且作为响应，可以在406处调用其本身，从而使其本身准备好识别在语音通信的音频内的后续语音命令。

在408处，假设已经调用虚拟助理，虚拟助理可以开始对表示语音通信的音频的音频信号执行语音辨识。在410处，助理可以识别来自表示音频的音频信号的语音命令。作为响应，虚拟助理在412处可以执行与语音命令相关联的任务，并且可以在414处提供对于向两个用户装置输出可听内容有效的音频信号。例如，虚拟助理可以识别温度并输出温度，购买物品并输出购买的指示，安排约会并输出会面的时间、日期和位置等等。

尽管已用特定于结构特征的语言描述了主题，但是将理解，所附权利要求中定义的主题不必限于所述的具体特征。相反，具体特征作为实施权利要求的说明性形式来公开。

条款

1.一种系统，其包括：

一个或多个处理器；以及

一个或多个计算机可读介质，其存储计算机可执行指令，所述计算机可执行指令当被所述一个或多个处理器执行时，使得所述一个或多个处理器执行包括以下项的动作：

在所述第一用户的装置与第二用户的装置之间建立的语音通信期间从第一用户接收在所述语音通信期间调用虚拟助理的请求，一旦调用，所述虚拟助理对表示所述第一用户与第二用户之间的所述语音通信的音频的音频信号执行语音辨识，所述语音辨识的所述执行用于识别来自所述第一用户或所述第二用户中的至少一个的语音命令；

至少部分响应于接收所述请求，对表示所述第一用户与第二用户之间的所述语音通信的所述音频信号执行语音辨识用于识别语音命令；

响应于所述语音辨识的所述执行，识别来自所述第一用户与第二用户之间的所述语音通信的所述音频的语音命令；

至少部分响应于所述语音命令的所述识别，执行对应于所述语音命令的任务；以及

在所述语音通信期间将输出音频信号提供到所述第一用户的所述装置或所述第二用户的所述装置中的至少一个，所述输出音频信号被配置成使得可听输出与在所述用户的所述装置或所述第二用户的所述装置中的至少一个上的所述任务的所述执行相关联。

2.如条款1所述的系统，其中所述请求包括所述第一用户陈述预定义的话语，并且所述动作还包括在识别所述预定义的话语前，在不对表示所述第一用户与第二用户之间的所述语音通信的所述音频的所述音频信号执行语音辨识的情况下，监控表示用于所述预定义话语的所述音频的所述音频信号。

3.如条款1所述的系统，其中：

所述语音命令包括对于信息的请求；

所述任务的所述执行包括定位所述请求的信息；以及

所述输出音频信号的所述提供包括提供被配置成使得所述虚拟助理向所述第一用户和所述第二用户陈述所述请求的信息的输出音频信号。

4.如条款1所述的系统，其中所述语音通信包括将所述第一用户的所述装置与所述第二用户的所述装置以及与所述虚拟助理相关联的系统连接的会议呼叫。

5.如条款1所述的系统，其中与所述虚拟助理相关联的所述系统包括电话服务，所述电话服务在所述第一用户与所述第二用户之间建立所述语音通信。

6.一种方法，其包括：

在第一用户的装置与第二用户的装置之间的语音通信期间接收调用虚拟助理的请求；

至少部分响应于所述接收对表示所述语音通信的音频的音频信号执行语音辨识；

响应于所述语音辨识的所述执行，识别来自所述第一用户或所述第二用户中的至少一个的语音命令；以及

由所述虚拟助理向所述第一用户的所述装置或所述第二用户的所述装置中的至少一个提供输出音频信号，所述输出音频信号用于在所述语音通信期间输出可听内容。

7.如条款6所述的方法，其中所述请求包括所述第一用户或所述第二用户陈述预定义的话语，并且还包括识别来自表示所述语音通信的所述音频的所述音频信号内的所述预定义的话语，所述语音辨识的所述执行至少部分响应于所述预定义话语的所述识别发生。

8.如条款6所述的方法，其中对调用所述虚拟助理的所述请求的所述接收包括以下至少一项：

从所述第一用户的所述装置或所述第二用户的所述装置接收进入的电话呼叫的指示；或

接收所述第一用户或所述第二用户已经激活相应装置的物理按钮或软按钮的指示。

9.如条款6所述的方法，所述动作还包括将托管所述虚拟助理的装置接入到所述第一用户的所述装置与所述第二用户的所述装置之间的所述语音通信，作为在所述第一用户的所述装置与所述第二用户的所述装置之间建立所述语音通信的一部分。

10.如条款6所述的方法，所述动作还包括将托管所述虚拟助理的装置接入到所述第一用户的所述装置与所述第二用户的所述装置之间的所述语音通信，作为在所述第一用户的所述装置与所述第二用户的所述装置之间建立所述语音通信的一部分，并且其中不调用所述虚拟助理直到所述请求的所述接收。

11.如条款6所述的方法，所述动作还包括：

在所述第一用户的所述装置与所述第二用户的所述装置之间建立语音通信后，从所述第一用户或所述第二用户接收所述虚拟助理接入所述语音通信的请求；以及

并且至少部分响应于来自所述第一用户或所述第二用户的所述虚拟助理接入所述语音通信的所述请求的所述接收，接入所述虚拟助理。

12.如条款11所述的方法，其中所述虚拟助理接入所述语音通信的所述请求包括所述第一用户或所述第二用户拨号与所述虚拟助理相关联的电话号码。

13.如条款6所述的方法，所述动作还包括识别提供所述语音命令的用户，并且其中输出的所述可听内容至少部分基于所述用户的所述识别。

14.如条款13所述的方法，其中所述用户的所述识别包括：

参考指示与开始所述语音通信的装置相关联的电话号码的自动号码识别(ANI)或指示与接收对建立所述语音通信的请求的装置相关联的电话号码的被叫方号码(CPN)中的至少一个；以及

将所述ANI或所述CPN中的至少一个映射到相关联的用户。

15.如条款13所述的方法，其中所述用户的所述识别包括比较所述第一用户或所述第二用户的语音的频率、振幅、音高或另一个音频特征中的至少一个与一个或多个预存储的语音签名。

16.如条款13所述的方法，其还包括请求利用所述虚拟助理认证提供所述语音命令的所述用户。

17.如条款16所述的方法，其中所述用户利用所述虚拟助理认证的所述请求包括以下至少一项：

通过除了所述语音通信之外的通信信道与所述用户通信；或

通过所述语音通信与所述用户通信，所述虚拟助理在未提供所述语音命令的所述用户的所述装置处使所述语音通信静音，同时所述虚拟助理通过所述语音通信与提供所述语音命令的所述用户通信。

18.如条款6所述的方法，其中所述虚拟助理至少部分驻留在所述第一用户的所述装置、所述第二用户的所述装置、或远离所述第一用户的所述装置和所述第二用户的所述装置两者的计算装置上。

19.一种或多种计算机可读介质，其存储计算机可执行指令，所述计算机可执行指令当被所述一个或多个处理器执行时，使得所述一个或多个处理器执行包括以下项的动作：

将计算装置接入到在两个用户装置之间的语音通信，所述计算装置远离所述两个用户装置；

一旦所述两个用户装置中的一个的用户调用所述计算装置，由所述计算装置对表示所述语音通信的音频的音频信号执行语音辨识；以及

响应于对表示所述音频的所述音频信号执行所述语音辨识来识别来自所述两个装置中的一个的用户的语音命令。

20.如条款19所述的一种或多种计算机可读介质，所述动作还包括至少部分响应于所述语音命令的所述识别执行对应于所述语音命令的任务。

21.如条款19所述的一种或多种计算机可读介质，所述动作还包括至少部分响应于所述语音命令的识别或至少部分响应于执行对应于所述语音命令的任务，在所述语音通信上提供对于输出可听内容有效的输出音频信号并将其提供到所述两个用户装置中的至少一个。

22.如条款19所述的一种或多种计算机可读介质，其中一旦所述两个用户装置中的一个将所述语音通信发出到所述两个用户装置中的另一个，所述接入自动地发生。

23.如条款19所述的一种或多种计算机可读介质，其中一旦所述两个用户装置中的一个在所述两个用户装置建立所述语音通信后使用与所述计算装置相关联的电话号码开始会议呼叫，所述接入发生。

24.如条款19所述的一种或多种计算机可读介质，其中所述语音通信包括通过公共交换电话网络(PSTN)、蜂窝网络或互联网语音协议(VoIP)网络的通信。

Claims

1.一种实现虚拟助理的语音通信系统，所述语音通信系统包括：

一个或多个处理器；以及

将由计算装置托管的所述虚拟助理接入到第一用户的第一装置和第二用户的第二装置之间的语音通信数据的交换，所述计算装置远离所述第一装置和所述第二装置；

由托管所述虚拟助理的所述计算装置接收所述第一装置和所述第二装置之间所交换的所述语音通信；

对表示所述第一装置与所述第二装置之间所交换的所述语音通信数据的音频的音频信号的第一部分执行语音辨识；

识别所述音频信号的所述第一部分中的预定义的话语；

至少部分基于识别所述预定义的话语，调用所述虚拟助理；

对表示所述第一装置与所述第二装置之间所交换的所述语音通信数据的所述音频信号的第二部分执行语音辨识；

从所述音频信号的所述第二部分识别语音命令，所述语音命令独立于所述预定义的话语，并且在所述预定义的话语之后发生；

至少部分基于对所述语音命令的所述识别，执行对应于所述语音命令的任务；以及

将输出音频信号提供到所述第一装置或所述第二装置中的至少一个，所述输出音频信号被配置成使得可听输出与在所述第一装置或所述第二装置中的至少一个上的所述任务的所述执行相关联。

2.如权利要求1所述的语音通信系统，其中：

所述语音命令包括对于信息的请求；

所述任务的所述执行包括定位所述信息；以及

所述输出音频信号的所述提供包括提供被配置成使得所述虚拟助理向所述第一用户和所述第二用户陈述所述信息的输出音频信号。

3.如权利要求1所述的语音通信系统，其中所述第一装置，所述第二装置以及托管所述虚拟助理的所述计算装置被可通信地耦合。

4.如权利要求1所述的语音通信系统，其中托管所述虚拟助理的所述计算装置与电话服务相关联，所述电话服务在所述第一装置与所述第二装置之间交换所述语音通信数据。

5.如权利要求1所述的语音通信系统，所述动作还包括抑制对所述音频信号的第三部分执行语音辨识，所述第三部分在所述第二部分之后。

6.一种实现虚拟助理的方法，所述方法包括：

将由计算装置托管的所述虚拟助理接入到第一用户的第一装置与第二用户的第二装置之间的语音通信数据的交换，所述计算装置远离所述第一装置和所述第二装置；

由托管所述虚拟助理的所述计算装置接收所述第一装置和所述第二装置之间所交换的所述语音通信数据；

识别所述音频信号的所述第一部分中的预定义的话语；

至少部分基于识别所述预定义的话语，调用所述虚拟助理；

由所述虚拟助理向所述第一装置或所述第二装置中的至少一个提供输出音频信号，所述输出音频信号用于在所述语音通信期间输出可听内容。

7.如权利要求6所述的方法，还包括响应于所述预定义话语的所述识别，执行对所述音频信号的所述第二部分的所述语音辨识。

8.如权利要求6所述的方法，还包括接收所述第一装置和所述第二装置正在交换语音通信数据的指示，包括以下中的至少一项：

从所述第一装置或所述第二装置接收进入的电话呼叫的指示；或

9.如权利要求6所述的方法，还包括将托管所述虚拟助理的所述计算装置接入到所述第一装置与所述第二装置之间的通信。

10.如权利要求6所述的方法，还包括识别提供所述语音命令的用户，并且其中所述可听内容至少部分基于所述用户的所述识别。

11.如权利要求10所述的方法，其中所述用户的所述识别包括：

参考指示与发起所述语音通信数据的所述交换的装置相关联的电话号码的自动号码识别，或指示与接收对建立语音通信的请求的装置相关联的电话号码的被叫方号码中的至少一个；以及

将所述自动号码识别或所述被叫方号码中的所述至少一个映射到相关联的用户。

12.如权利要求10所述的方法，其中所述用户的所述识别包括比较所述第一用户或所述第二用户的语音的频率、振幅、音高或另一个音频特征中的至少一个与一个或多个预存储的语音签名。

13.如权利要求10所述的方法，其还包括请求利用所述虚拟助理认证提供所述语音命令的所述用户。

14.如权利要求6所述的方法，还包括抑制对所述音频信号的第三部分执行语音辨识，所述第三部分在所述第二部分之后。

15.如权利要求6所述的方法，还包括确定与所述第一用户或所述第二用户相关联的用户简介。