CN108228699B

CN108228699B - 协作性语音控制装置

Info

Publication number: CN108228699B
Application number: CN201710918710.6A
Authority: CN
Inventors: 维克托·克尔布内; 佩德罗·戈内·安德斯; 托马斯·德泽莱斯; 桑德罗·弗兹
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-22
Filing date: 2017-09-30
Publication date: 2022-02-11
Anticipated expiration: 2037-09-30
Also published as: US20230206923A1; GB2558342A; DE102017121086A1; CN108228699A; GB2558342B; US20200126563A1; DE102017121086B4; IE20170206A1; EP3559945B1; EP3559945A1; SG10201707702YA; GB201714754D0; US11521618B2; US11893995B2; US10559309B2; US20180182397A1; CN114566161A; DE202017105526U1; EP3559945A4; WO2018118136A1

Abstract

本申请涉及一种协作性语音控制装置。公开了包括用于在多个语音控制装置之间协作的在计算机存储介质上编码的计算机程序的方法、系统和装置。在一个方面，一种方法包括以下动作：由第一计算装置识别被配置成响应于特定的、预定义热词的第二计算装置；接收与话语相对应的音频数据；接收第二计算装置响应于该话语而输出的附加音频数据的转录；基于附加音频数据的转录并且基于话语，生成与附加音频数据的响应相对应的转录；并且提供与响应相对应的转录供输出。

Description

协作性语音控制装置

技术领域

本说明书总体上涉及一种自动语音识别。

背景技术

我们正处于现实启用语音的家庭或其他环境(也就是说，用户只需要大声说出查询或命令的环境并且基于计算机的系统将现场回答查询和/或致使命令被执行的现实)。可以使用分布于整个环境的各个房间或区域中的相连麦克风装置的网络来实现启用语音的环境(例如，家庭、工作场所、学校等)。通过这样的麦克风网络，在不需要在他/她之前或甚至附近有计算机或其他装置的情况下，用户能够从环境中的基本任何地方口头询问系统。例如，当正在厨房烹饪时，用户可能问系统“三杯中有多少毫升”，并且作为响应，例如以合成语音输出的形式从系统接收答案。可替选地，用户可能问系统诸如“离我最近的加油站什么时间关门”或准备离开房子时的“我今天应该穿外套吗？”的问题。另外，用户会询问系统的查询和/或发出与用户个人信息相关的命令。例如，用户会问系统“我何时与约翰会面？”或命令系统“当我回家时提醒我打电话给约翰。”

发明内容

可以使用热词来避免拾取没有涉及系统的周围环境中发出的话语。热词(也被称为“注意词”或“语音动作发起命令”)是说出的用于引起系统注意的预定词语或术语。在示例环境中，用于引起系统注意的热词是词语“好的，计算机”。当系统检测到用户已经说出该热词时，系统进入就绪状态，以便接收进一步的用户命令。

在启用语音的环境中，装置会连续监听热词。当相同环境中存在多个装置被配置成响应于特定的热词时，包括该热词的任何话语都可以触发所有装置并且提供来自这些多个装置的冗余响应。例如，Alice、Bob和Carl可能正在查找一家餐厅去吃午餐。Alice会说“好的，计算机，查找我附近的餐厅”。他们的三个电话全都可以同时地提供响应，例如，餐厅的列表。为了改善用户体验，可能期望电话彼此通信，以与实际对话类似的协作方式来提供不同的响应。Alice的电话可以提供附近餐厅的列表，Bob的电话可以提供选择由Alice电话提供的附近餐厅列表中的餐厅之一的响应。卡尔的电话可以基于卡尔在社交媒体上对所选定餐厅的评论，提供认可该餐厅的响应。

根据本说明书中描述的主题的一个创新方面，第一计算装置识别被配置成响应于特定的、预定义热词的一个或更多个其他计算装置。第一计算装置接收由用户说出的话语。在对与该话语相对应的音频数据执行语音识别之前，第一计算装置确定音频数据包括热词，并且第二计算装置已经正在处理音频。第一计算装置响应于话语而接收由第二计算装置输出的响应。基于该响应和该话语，第一计算装置生成响应并提供该响应供输出。因此，第一计算装置增强来自第二计算装置的响应，并且提供能够向用户提供附加信息的新响应。

总体上，本说明书中描述的主题的另一种创新性方面可以在包括以下动作的方法中实施：由第一计算装置识别被配置成响应于特定的、预定义热词的第二计算装置；接收与话语相对应的音频数据；接收第二计算装置响应于该话语而输出的附加音频数据的转录；基于附加音频数据的所述转录并且基于话语，生成与对附加音频数据的响应相对应的转录；并且提供与所述响应相对应的转录进行输出。

这些和其他实施例均可以可选地包括以下特征中的一个或更多个。在一些实现方式中，提供与所述响应相对应的所述转录供输出包括：将所述转录的初始部分提供给所述第一计算装置的语音合成器；以及向所述第二计算装置提供(i)所述转录的剩余部分和(ii)用于使用所述第二计算装置的语音合成器来输出所述转录的剩余部分的指令。

在一些实现方式中，所述动作还包括：在对与所述话语相对应的音频数据执行语音识别之前：确定与包括所述特定的、预定义热词的话语相对应的音频数据；以及接收指示所述第二计算装置正响应于所述音频数据的数据。

在一些实现方式中，提供与所述响应相对应的转录供输出包括向所述语音合成器提供与所述响应相对应的转录。

在一些实现方式中，与所述合成后的转录相对应的音频数据被第三计算装置接收，所述第三计算装置被配置成基于与所述合成后的转录相对应的音频数据、所述附加音频数据的所述转录相对应的音频数据和所述话语来生成响应。

在一些实现方式中，动作还包括：在提供与所述响应相对应的转录供输出之后，由所述第一计算装置接收与第二话语相对应的音频数据；基于所述附加音频数据的所述转录，基于所述话语并且基于所述第二话语，生成与针对对应于所述第二话语的所述音频数据的响应相对应的附加转录；以及提供所述附加转录供输出。

在一些实现方式中，所述动作还包括接收指示由所述第二计算装置使用的、用以输出所述附加音频数据的语音合成器的类型的数据，其中，接收了与所述响应相对应的所述转录的语音合成器的类型不同于由所述第二计算装置使用的、用以输出所述附加音频数据的语音合成器的类型。

在一些实现方式中，提供与所述响应相对应的转录供输出包括：

将所述转录提供到所述第一计算装置的显示器。

在一些实现方式中，接收指示所述第二计算装置正响应于所述音频数据的数据包括：从所述第二计算装置接收指示所述第二计算装置正响应于所述音频数据的短距离无线电信号。在一些实现方式中，接收指示所述第二计算装置正响应于所述音频数据的数据包括：通过局域网从所述第二计算装置接收指示所述第二计算装置正响应于所述音频数据的数据。在一些实现方式中，接收指示所述第二计算装置正响应于所述音频数据的数据包括：从服务器接收指示所述第二计算装置正响应于所述音频数据的数据。

在某些方面，确定与包括所述特定的、预定义热词的话语相对应的音频数据包括以下步骤：提取与所述话语相对应的音频数据的音频特征；通过处理音频特征来生成热词置信度评分；确定所述热词置信度评分满足热词置信度阈值；以及基于确定所述热词置信度评分满足热词置信度阈值，确定与所述话语相对应的音频数据包括所述特定的、预定义热词。

在一些实现方式中，生成与对所述附加音频数据的响应相对应的转录包括：确定与所述附加音频数据的转录相关联的用户信息，所述附加音频数据与所述第一计算装置的第一用户或与所述第二计算装置的第二用户相关联；以及其中，所述转录是基于所述用户信息生成的。

在某些方面，生成与对附加音频数据的响应相对应的转录包括以下动作：访问与附加音频数据的转录相关联的数据的动作；以及基于所访问的数据来生成转录。

这些动作还包括确定第一计算装置的位置以及基于第一计算装置的位置生成转录。所述动作还包括响应于接收到指示所述第二计算装置正响应于所述音频数据的数据，向所述第二计算装置或服务器提供与所述话语相对应的音频数据。

在一些实现方式中，所述动作还包括：生成与所述话语相对应的音频数据的第一音频指纹；从所述第二计算装置接收与所述话语相对应的音频数据的第二音频指纹；将所述第一音频指纹与所述第二音频指纹进行比较；以及基于所述第一音频指纹与第二音频指纹的比较，确定由所述第一计算装置接收的音频数据与由所述第二计算装置接收的音频数据相对应。

在一些实现方式中，进一步的动作包括从所述第二计算装置或服务器接收与所述话语相对应的音频数据的转录，其中，生成与对所述附加音频数据的响应相对应的所述转录是进一步基于与所述话语相对应的音频数据的所述转录的。

在一些实现方式中，所述第一计算装置和所述第二计算装置能够检测彼此的短距离无线电通信。

在一些实现方式中，所述第一计算装置和所述第二计算装置是共同定位的。

这方面的其他实施例包括在计算机存储装置上记录的相对应系统、设备和计算机程序，这些系统、设备和计算机程序被各自配置成执行方法的操作。

能够实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或更多个。第一，协作性语音控制装置系统能够通过以类似于实际对话的协调方式无缝地提供多个和顺序的响应，来使会话搜索更智能且更自然。在向查询提供响应之前，装置可以处理可用信息以产生响应。每个装置能够提供唯一的响应，该响应能够被添加到对话中并且能够是用户特定的或位置特定的。装置可以提供唯一的响应或将信息传递给另一个装置。向另一装置提供信息允许装置通过有意地省略唯一响应中的输出部分使得其他装置可以完成该响应，从而使对话更加人性化。第二，协作性语音控制装置系统能够解决多个装置以近乎相同的方式来响应于相同查询的问题。例如，这些装置之间的通信允许装置确定装置如何以及何时对查询响应。这样通过避免冗余输出来减少计算资源和电池电量的浪费。第三，协同语音控制装置系统能够用于通过在不同位置使用具有不同麦克风的多个装置来改进语音处理，以处理音频数据来获得音频数据更准确的转录。

在附图和以下描述中，阐述了本说明书中描述的主题的一个或更多个实施例的细节。根据说明书、附图和权利要求书，本发明的其他特征、方面和优点将变得清楚。

附图说明

图1是用于多个语音控制装置之间的协作的示例系统的示图。

图2是用于多个语音控制装置之间的协作的示例过程的示图。

图3示出了计算装置和移动计算装置的示例。

相同的附图标记在各个附图中指示相同的元件。

具体实施方式

图1是用于多个语音控制装置之间的协作的示例系统100的示图。总体上，系统100例示了由计算装置104a和104b检测到的用户Alice说出的话语102“好的，计算机，查找我附近好的牛排馆去吃午餐”。计算装置104a处理该话语并且提供响应“123大街的Al'sSteakhouse具有很好的评论”。基于话语102和由计算装置104a提供的响应，计算装置104b生成并提供后续响应“Al’s现在很忙，我们试试换成4大街的Lone Star Steakhouse。Bob非常喜欢这家”。

更详细地，图1中的事件顺序从阶段A开始。计算装置104a和104b识别彼此以及被配置成响应特定的、预定义的热词(hotword)的其他计算装置。在一些实现方式中，计算装置通过针对被配置成响应于热词的其他计算装置搜索局域网，从而识别彼此。例如，计算装置104b可以搜索局域网，并且可以将计算装置104a识别为被配置成响应于热词的另一个计算装置。

在一些实现方式中，计算装置通过识别登录到每个装置的用户来识别被配置成响应于该热词的其他计算装置。在一些实现方式中，并且在该示例中，计算装置104a可以与用户Alice相关联并且计算装置104b可以与用户Bob相关联。在这种情况下，Alice可以登录到计算装置104a中，并且Bob可以登录到计算装置104b中。Alice和Bob可以是具有可以被配置成响应于特定的、预定义的热词的相关联装置的一组用户的部分。这组用户可以是在公司的一群同事或一群朋友。每个计算装置可以共享诸如用户标识符的、与登录到特定计算装置的用户相关的信息。

在一些实现方式中，计算装置104a和104b二者可以与相同用户相关联。例如，Alice可以登录到计算装置104a和104b中。Alice可以在她的手中持有计算装置104a。计算装置104b可以是位于平板计算机上的家庭助理。计算装置104检测计算装置104b，并且每个计算装置共享诸如用户标识符的、与登录到计算装置的用户相关的信息。

在一些实现方式中，一旦计算装置104b已经将104a识别为被配置成响应于所述相同的热词的计算装置，计算装置104a和104b就可以共享并存储它们相应的装置标识符106和108。这些标识符可以是基于装置的类型、装置的IP地址、MAC地址、用户赋予装置的名称或其任何组合。例如，用于计算装置104a的装置标识符106可以是“Alice电话”。用于计算装置104b的装置标识符108可以是“Bob电话”。计算装置104a和104b具有相应的装置组110和112，计算装置将装置标识符存储在装置组110和112中。

在一些实现方式中，可以存在被配置成响应于特定的热词的多于两个计算装置。每个计算装置可以识别被配置成响应于特定的热词的其他计算装置，并且可以将用于其他计算装置的装置标识符存储在装置组中。

在一些实现方式中，计算装置可以被共同定位，使得它们共享相同位置或地点。计算装置可以在彼此之间的预定距离内、或者在相同房间内。计算装置可以处于相同声学环境中。在一些示例中，例如，当计算装置参与电话或视频会议时，计算装置可以被虚拟地共同定位。

在一些实现方式中，计算装置可以识别被配置成通过诸如Bluetooth(蓝牙)协议或Bluetooth低功耗(BLE)协议的短距离通信来响应于热词的其他计算装置。例如，计算装置104a可以通过短距离通信发送针对其它计算装置搜索的、被配置成响应于热词的信号。计算装置可以位于彼此之间的作为通过GPS或信号强度确定的诸如10米的特定距离内。第一计算装置可以检测由第二计算装置正发送的信号的强度并且将其转换成相对应的距离。计算装置可以采用这些技术中的一种或它们的组合，以识别被配置成响应于热词的其他计算装置。

在该示例中，在阶段B中，Alice在计算装置104a和104b附近说出话语102“好的，计算机，查找我附近好的牛排馆去吃午餐”。话语102分别由计算装置104a和104b的麦克风114和116检测。

计算装置104a和104b的相应麦克风114和116向相应的音频子系统118和120提供音频数据。相应的音频子系统118和120可以对音频数据进行缓冲、过滤和数字化。在一些实现方式中，计算装置还可以对音频数据执行结束点(endpointing)。音频子系统118和120可以包括用于存储过滤和数字化后的音频数据的音频缓冲器。

在阶段C中，每个计算装置104a和104b的相应音频子系统118和120将处理后的音频数据提供到相应热词器(hotworder)122和124。相应的热词器122和124将处理后的音频数据与已知的热词数据进行比较，并且计算指示话语102包括热词126的可能性的相应热词置信度评分。

计算装置104b的热词器124可以提取诸如过滤器组能量或梅尔(mel)频率倒谱系数的处理后的音频数据中的音频特征。热词器124可以使用分类窗口，以诸如通过使用支持向量机或神经网络来处理这些音频特征。基于音频特征的处理，如果计算装置104b的热词器124计算超过阈值热词置信度评分的热词置信度评分，则计算装置104b确定话语102包括热词126。类似地，计算装置104a的热词器122可以确定话语102包括热词126。

在一些实现方式中，计算装置中的一个或更多个将处理后的音频数据发送到服务器，并且服务器计算热词置信度评分。在此情形下，服务器包括与热词器122和124类似的热词器。服务器上的热词器可以确定话语102包括热词并且将通知发送到一个或更多个计算装置。

在一些实现方式中，在不需要对音频数据执行语音识别的情况下，系统确定音频数据包括热词。

在一些实现方式中，每个计算装置可以生成接收到的音频数据的音频指纹。计算装置104b可以生成与由计算装置104a的麦克风114检测到的话语相对应的音频数据的第一音频指纹。计算装置104a可以接收与由计算装置104b的麦克风116检测到的话语相对应的音频数据的第二音频指纹。可以这些音频指纹可以被比较，以确定计算装置104a和104b是否正响应于所述话语。

在一些实现方式中，来自计算装置的音频数据可以被发送到服务器。服务器可以包括以生成音频指纹并执行比较的音频指纹模块。在一些实现方式中，计算装置还可以将装置标识符与音频数据一起发送。在一些实现方式中，计算装置还可以将与计算装置相关联的位置信息和音频数据一起发送。

在阶段D中，启用语音的系统100将计算装置中的一个识别为话语102所针对的装置。在该示例中，Alice可以朝向她手中持有的计算装置104a说出话语102。计算装置104a被识别为话语102旨在用于的计算装置。计算装置104a将被话语102触发的其他装置通知其正要处理音频数据。在该示例中，计算装置104a将响应指示符128发送到计算装置104b，响应指示符128指示其正响应于与话语102相对应的音频数据。

在一些实现方式中，指示104a正响应于音频数据的响应指示符128可以是超声或可听音频信号、或诸如Bluetooth的短距离无线电信号。信号被104b和附近的任何其他计算装置接收。在一些实现方式中，通知信号可以包括特定的频率和/或图案。例如，通知信号可以是二十千赫兹，以指示第二计算装置将会对音频数据执行语音识别。

在一些实现方式中，指示104a正响应于音频数据的响应指示符128可以被104b通过本地网络来接收。在一些实现方式中，指示104a正响应于音频数据的响应指示符128可以被104b通过服务器来接收。

在一些实现方式中，确定哪个装置最初响应于用户话语可以涉及确定哪个装置最接近于用户。由计算装置接收到的音频数据的响度可以反映计算装置和音频的源之间的距离。对于直接路径信号传播，响度与源和接收器之间距离的平方大致成反比。

在一些实现方式中，计算装置可以使用以下技术中的一种或组合来计算音频数据的响度评分。一种技术可以是当用户正说出话语时，计算由麦克风接收到的声压或声压级。声压或声压级越高，响度也就越高。第二种技术是计算音频数据的均方根。音频数据的均方根值越高，响度也就越高。第三种技术是计算音频数据的声音强度。音频数据的声音强度越高，响度也就越高。第四种技术是计算音频数据的声功率。声功率越高，响度也就越高。具有最高响度评分的计算装置可以被识别为最初响应于话语102的计算装置。

在一些实现方式中，确定哪个装置最初响应于用户话语可以包括确定哪个装置接收到最清晰的音频数据。每个计算装置可以计算可以基于与话语102相关联的音频数据的信噪比而确定的清晰度评分。具有最高清晰度评分的计算装置可以被识别为最初响应于话语102的计算装置。

在一些实现方式中，确定哪个装置最初响应于用户话语可以包括对与话语102相对应的音频数据执行扬声器识别。这可以涉及将音频数据提供给计算装置104a和104b的相应扬声器识别模块154和156。扬声器识别模块154和156可以以在处理器上运行的软件来实现。扬声器识别模块154和156分析音频数据，以计算相应的说话者标识置信度评分，该说话者标识置信度评分指示说话者的身份与计算装置相关联的用户相匹配的置信度。例如，计算装置104a的扬声器识别模块154可以计算出置信度评分为0.8，并且计算装置104b的扬声器识别模块156可以计算出扬声器识别置信度评分为0.05，该置信度评分指示说话者是Alice的更大置信度。

在一些实现方式中，计算装置可以使用这些评分中的一个或它们的组合来确定总置信度评分。可以使用总置信度评分，以识别最初响应于用户话语102的计算装置。在一些实现方式中，每个计算装置可以将相应的评分或评分的组合以及相应的装置标识符发送到装置组中的其他计算装置。

在一些实现方式中，每个计算装置可以使用评分比较器来比较被配置成响应于热词的所有计算装置的总置信度评分。具有最高总置信度评分的计算装置可以紧随热词启动音频数据的语音识别。没有最高总置信度评分的计算装置可以等待指示另一计算装置已经开始处理音频数据的数据。

在一些实现方式中，确定哪个装置最初响应于用户话语可以包括分析计算装置的设置。例如，如果话语是法语并且附近存在具有法语语言设置的一部电话，则其能够是话语旨在用于的计算装置。

在一些实现方式中，确定哪个装置最初响应于用户话语可以通过分析在话语中包括的命令或查询的语义并且将其与计算装置的状态和信息相关联来进行。例如，如果查询是“我在两点钟与谁会面？”，则启用语音的系统可以确定查询是针对与日历同步的计算装置，并且在两点钟有预约。

在阶段E中，计算装置104a处理与话语102相对应的音频数据。音频数据可以被提供到语音识别器130，语音识别器130可以对符合热词的音频数据的部分执行语音识别。在该示例中，语音识别器130可以识别词语“查找我附近好的牛排馆去吃午餐”，并且识别和执行该命令。

在一些实现方式中，计算装置104a可以将符合热词的音频数据的部分发送到服务器。服务器可以包括与语音识别器130类似的语音识别器。服务器中包括的语音识别器可以执行语音识别并且将音频数据的转录提供给计算装置104a。然后，计算装置104a能够识别词语并且执行命令。

在一些实现方式中，计算装置104a可以通过访问与音频数据相关联的数据来生成对音频数据的响应。在这个示例中，计算装置104a在话语102中识别命令“查找我附近好的牛排馆去吃午餐”，并且可以执行web搜索以在附近找到牛排馆。计算装置104a还可从web访问客户评论以选择牛排馆，并且以产生与响应“123大街的Al's Steakhouse具有很好的评论”相对应的转录132。

在阶段F中，计算装置104a提供对与话语102相关联的音频数据而生成的响应作为输出。在一些实现方式中，这包括提供与对语音合成器134的响应相对应的转录132。语音合成器的输出可以被提供到计算装置的扬声器136。在该示例中，计算装置104a提供额外的音频数据138“123大街的Al's Steakhouse具有很好的评论”作为输出。

在一些实现方式中，与该响应相对应的转录132可以被发送到计算装置104a的显示器140。

在阶段G中，计算装置104b将与响应相对应的转录132发送到计算装置104b和任何其他识别的计算装置。

在一些实现方式中，计算机装置中的一个或更多个可以包括隐私模块，该隐私模块基于用户设置或偏好来管理或过滤正被发送或接收的数据。

在阶段H中，计算装置104b处理与话语102和由计算装置104b提供的附加音频数据的转录132相对应的音频数据，并且生成与响应相对应的新转录。在这个例子中，计算装置基于命令“查找我附近好的牛排馆去吃午餐”的响应，以及生成由计算装置104a提供的“123大街的Al's Steakhouse具有很好的评论”的响应。

在一些实现方式中，计算装置104a可以基于与音频数据相关联的用户信息142来生成响应。用户信息(例如，日历、联系人、媒体文件、个人偏好等)可以与计算装置的用户相关联。在该示例中，基于命令“查找我附近好的牛排馆去吃午餐”以及由计算装置104a提供的响应于“123大街的Al's Steakhouse具有很好的评论”，计算装置104b可以通过互联网来访问在线预约系统，并且可以访问Bob对餐厅的评论或个人偏好，以生成与响应于“Al现在很忙，我们试试换成4大街的Lone Star Steakhouse。Bob非常喜欢这家”相对应的转录。

在一些实现方式中，计算装置104b可以接收与话语102的音频数据相对应的转录，并且除了由计算装置104b提供的响应的转录和与话语相对应的音频数据之外还使用该转录。这可以帮助在计算装置104b可能离与说出该话语的用户更远的情况下。由于计算装置更靠近用户，因此其可提供话语102的更准确转录。这不再需要对相同音频数执行两次语音识别。

在阶段I中，计算装置104b响应于话语102和计算装置104a提供的附加音频数据而提供所生成的输出。在一些实现方式中，这包括提供与对语音合成器144的响应相对应的转录。语音合成器的输出可以被提供到计算装置104b的扬声器146。在该示例中，计算装置104a将话语148“Al现在很忙，我们试试换成4大街的Lone Star Steakhouse。

Bob非常喜欢这家”作为输出来提供。

在一些实现方式中，与该响应相对应的转录包括将转录提供到计算装置104a的显示器150。

在一些实现方式中，可以调整覆盖由语音合成器产生的语音(例如，音高、音调、重音、速度、转调等)的参数。这允许为每个计算装置创建自定义语音，从而改善用户体验。语音合成器可以使用机器学习的形式，以生成语音的参数表示，从而合成语音。例如，可以使用神经网络来生成语音参数。

在一些实现方式中，计算装置中的一个或更多个可以符合对问题的初始响应或用户在进一步继续之前响应的提示。例如，如果Alice说出话语“好的，计算机，查找我附近好的牛排馆去吃午餐”，Alice的装置可以提供附近餐厅的列表。Bob的装置可以访问Bob的个人信息并且提供响应“Bob喜欢阿根廷牛排，附近有很多好的牛排馆“你想试一下吗？”。计算装置中的一个或更多个可以等待对该问题的响应并且基于该响应来继续。在接收到响应“是”之后，Bob的装置可以提供后续响应“123麦迪逊大道上的Rural Society具有很好的评论”。

在一些实现方式中，协作性语音控制装置系统可以具有多于两个装置。例如，一组三个用户Alice、Bob和Carl可以正尝试获得去往附近公园的路线并且各自可以具有他们自己的装置。Alice说出话语“好的，计算机，将我导向Prospect公园”。Alice的装置可以访问Alice的个人信息，该个人信息表明她通常使用公共交通设施。Alice的装置可以将该信息连同从公共交通web工具获得的信息一起以提供响应“在12分钟内有一班从卡罗尔广场站(Carol Square Station)出发的火车。它在下午4:59分到达Prospect公园站。距离卡罗尔广场站有4分钟的步行路程，以及从Prospect公园站步行5分钟到达Prospect公园的入口。”Bob的装置可以通过网络接收此响应。在生成响应时，Bob的装置可以访问Bob的个人信息并且发现Bob通常喜欢开车，而且他已经将他的车停在了附近车库。这些装置可以检测距离车库的位置变化以及Alice、Bob和Carl之间的、关于开车而不是乘坐公共交通设施的讨论。Bob的装置可以使用web地图搜索工具以向公园提供驾驶方向。在驾驶期间，Carl的装置可以通过网络接收导向并且可以访问实时交通工具，以确定有更快的路线并且提供响应“如果您采用Main St而不是Rock Rd，则将快5分钟快。”

在一些实现方式中，在提供响应于之前，装置可以彼此协作，以产生更完整且相关的响应。这可以通过使用可用信息并且共享用户的个人信息来进行，前提是用户预先选择了共享个人信息。例如，如果Alice说“好的，计算机，查找我附近好的餐厅”，则所有装置可以在提供任何响应之前开始处理查询。Bob的电话可以向其他装置发送指示Bob是素食主义者的数据。这允许这些装置定制他们的响应，只提供欢迎素食主义者的餐厅选项。

在一些实现方式中，装置能够提供响应或者将信息传递到另一个装置。可以通过有意地协调这些响应或者通过将由装置的响应的部分放弃，以由其他装置完成来使对话更人性化或更幽默。例如，在以上示例中，Bob的电话已经共享了指示Bob是素食主义者的数据，响应于“我们要试下123大街上的Al's Steakhouse吗？”，Alice的电话没有提供响应并且等待Bob的电话提供响应“牛排是素食吗？”

图2是用于多个语音控制装置之间的协作的示例过程200的示图。过程200可以由诸如图1中的计算装置104a和104b的计算装置来执行。过程200确定第二计算装置正处理音频话语，并且接收对话语的响应的转录。过程200使用响应的话语和转录来产生响应。

第一计算装置识别被配置成响应于特定的、预定义的热词的第二计算装置(210)。在一些实现方式中，第一计算装置可以通过周期性地发送请求响应的超声波或无线电信号来进行该步骤。例如，当搜索识别热词的计算装置时，第一计算装置可以发送20.5千赫兹的超声波。作为响应，接收20.5千赫兹超声的计算装置可以用21千赫兹超声波来响应。在一些实现方式中，超声波或无线电信号能够用识别第一计算装置的信息进行编码。

在一些实现方式中，第一计算装置可以标识属于相同用户的其他计算装置。在设置新计算装置的同时，设置过程的部分可以是识别属于相同用户的其他计算装置。这可以通过检测用户登录到的其他装置来实现。一旦第一计算装置识别到另一计算装置，计算装置就可以使用对比特流进行编码的超声波频率信号来交换数据，使得当识别到热词时计算装置能够交换数据。

超声频率信号可以通过扬声器传输。例如，用户可以正设置家庭助理，并且设置过程的部分是搜索在附近并且响应于热词的其他计算装置。家庭助理可以识别用户登录到的电话和平板计算机。举例来说，恒温器、电话和平板计算机可以在识别出每个都共同位于相同房间中时使用超声信号来交换数据。超声信号可以包括识别装置中的每个的比特流。这些装置可以在检测到热词之后使用超声通道。

在一些实现方式中，计算装置可以通过扬声器识别来识别其它计算装置，通过识别经配置以在由相同用户输出热词时响应的计算装置，该其它计算装置被配置为响应于热词。例如，计算装置104a和104b可以被配置成当Alice说出热词时响应于Alice的声音。计算装置通过向彼此提供Alice的用户标识符来共享扬声器识别信息。

用户说出话语并且第一计算装置的麦克风接收话语的音频数据(220)。第一计算装置通过对音频数据进行缓冲、过滤、结束点、和数字化来处理音频数据。举例来说，用户可以说“好的，计算机。”并且第一计算装置的麦克风接收与“好的，计算机。”相对应的音频数据。第一计算装置的音频子系统对音频数据进行取样、缓冲、过滤和执行结束点，用于由第一计算装置进一步处理。

在一些实现方式中，第一计算装置确定与包括特定的、预定义热词的话语相对应的音频数据(230)。提取与话语相对应的音频数据的音频特征。在一些实现方式中，话语包括热词的可能性可以由热词置信度评分来表示。通过处理音频特征来生成热词置信度评分。

热词置信度评分可以被归一化为从0到1的标度，其中，1指示话语包括热词的可能性最高。第一计算装置可以将热词置信度评分与热词置信度阈值进行比较。如果热词置信度评分满足热词置信度阈值，则第一计算装置可以确定与话语相对应的音频数据包括特定的预定义热词。

如果热词置信度评分不满足热词置信度阈值，则系统确定该音频数据不包括该热词。例如，如果热词置信度阈值为0.75，则热词置信度评分超过0.75的音频数据将被标记为包括热词，并且热词置信度评分低于0.75的音频数据将被标记为不包括热词。

在一些实现方式中，第一计算装置通过将话语的音频数据与包括热词的一组音频样本进行比较，确定话语包括特定的、预定义的热词的可能性。

在一些实现方式中，第一计算装置接收指示第二计算装置正响应于音频数据的数据(240)。这可能是来自服务器的数据，或者来自第二计算装置并且通过本地网络的指示第二计算装置正响应于音频数据的数据。该数据可能是诸如超声波、短距离无线电信号、或局域无线信号的通知信号，以指示第二计算装置正在对音频数据发起语音识别处理。为了接收信号，第一计算装置可以确保第一计算装置的麦克风保持活动状态，短距离无线电接收器是活动状态的，或者这样的局域无线电的另一个无线电是活动的。

第一计算装置接收由第二计算装置响应于话语而输出的附加音频数据的转录(250)。

在一些实现方式中，第二计算装置可以基于与音频数据相关联的用户信息，响应于对接收到的数据的话语响应而生成附加音频数据的转录。用户信息(例如，日历、联系人、社交媒体信息、个人偏好等)可以与第一计算装置的用户相关联。

例如，如果Bob说出话语“好的，计算机，安排今天下午我与Bob的会面。”，则计算装置104b可能使用来自在计算装置104b上存储的、与Bob相关联的日历的信息，来提供会面时间的建议，并且可以提供响应于“下午3点或4点工作吗？”。

第一计算装置基于附加音频数据和话语的转录来生成与对附加音频数据的响应相对应的转录(260)。

在一些实现方式中，计算装置104a和104b中的一个或更多个可以确定计算装置的位置，并且使用位置信息以生成响应。例如，如果计算装置104a确定它处于发声响应可能不适当的地方(例如，在图书馆中)，则计算装置104a可以不提供响应，或者它可以向计算装置104A的显示器140提供响应。

在一些实现方式中，计算装置可以访问与附加音频数据的转录相关联的数据并且基于所访问的数据来生成转录。例如，如果附加音频数据的转录包括询问附近餐馆的建议的查询，则计算装置可以执行web搜索来访问与附近餐厅相对应的数据。计算装置可以使用所访问的这个数据，以生成与该响应相对应的转录。

计算装置提供与响应相对应的转录进行输出(270)。在一些实现方式中，这包括提供与对语音合成器的响应相对应的转录。语音合成器的输出可以被提供到计算装置的音频扬声器。

在一些实现方式中，与该响应相对应的转录可以被提供到计算装置的显示器。

在一些实现方式中，可以使用多个装置之间的协作，以提高语音识别的质量。由于不同的装置具有不同的传感器(麦克风)，并且在用户环境中的位置不同，所以它们都不能够正确地转录整个用户查询，而是组合所有计算装置的转录可以完美匹配该查询。在另一示例中，如果用户正在空间四周移动，并且不同的计算装置在说出查询期间的不同时间靠近用户，则通过使用来自计算装置中的每个的转录并且组合它们，可以获得更准确的转录。

图3示出了能够用于实现这里描述的技术的计算装置300和移动计算装置350的示例。计算装置300旨在表示诸如膝上型计算机、台式机、工作站、个人数字助理、服务器，刀片式服务器、大型机、和其他适当计算机的各种形式的数字计算机。移动计算装置350旨在表示诸如个人数字助理、蜂窝电话、智能电话、和其他类似计算装置的各种形式的移动装置。这里所示出的组件、它们的连接和关系及其功能意味着仅仅是示例性的，并不意味着是限制。

计算装置300包括处理器302、存储器304、存储装置306、与存储器304和多个高速扩展接口310连接的高速接口308以及与低速扩展接口314和存储装置306连接的低速接口312。处理器302、存储器304、存储装置306、高速接口308、高速扩展接口310和低速接口312中的每个使用各种总线进行互连，并且可以被安装在公共母板上或者在适当时以其他方式安装。处理器302能够处理在计算装置300内执行的指令，包括在存储器304中或存储装置306上存储的指令，以显示诸如与高速接口308联接的显示器316的外部输入/输出装置上的GUI的图形信息。在其他实现方式中，可以在适当时使用多个处理器和/或多条总线、以及多个存储器和多种类型的存储器。此外，可以连接多个计算装置，其中，每个装置提供必要操作的部分(例如，作为服务器群、一组刀片式服务器或多处理器系统)。

存储器304将信息存储在计算装置300内。在一些实现方式中，存储器304是易失性存储器单元。在一些实现方式中，存储器304是非易失性存储器单元。存储器304还可以是诸如磁盘或光盘的另一种形式的计算机可读介质。

存储装置306能够为计算装置300提供大量存储。在一些实现方式中，存储装置306可以是或包含诸如软盘装置、硬盘装置、光盘装置、或磁带装置、闪速存储器或其他类似固态存储装置的计算机可读介质或者包括存储区域网络中的装置或其他配置的装置阵列。指令能够被存储在信息载体中。当由一个或更多个处理装置(例如，处理器302)执行这些指令时，执行诸如上述方法的一种或多种方法。这些指令还可以由诸如计算机或机器可读介质(例如，存储器304、存储装置306或处理器302上的存储器)的一个或更多个存储装置进行存储。

高速接口308管理计算装置300的带宽密集型操作，而低速接口312管理较低带宽密集型操作。功能的这种分配仅仅是示例。在一些实现方式中，高速接口308与存储器304、显示器316(例如，通过图形处理器或加速器)和可接受各种扩展卡(未示出)的高速扩展接口310联接。在该实现方式中，低速接口312与存储装置306和低速扩展接口314联接。可以包括各种通信接口(例如，USB、Bluetooth(蓝牙)、以太网、无线以太网)的低速扩展接口314可以例如通过网络适配器与诸如键盘、指示装置、扫描仪或诸如交换机或路由器的网络装置的一个或更多个输入/输出装置联接。

计算装置300可以以多种不同形式来实现，如图中所示。例如，其可以被实现为标准服务器320，或者在一组这样的服务器中多次实现。另外，它可在诸如膝上型计算机322的个人计算机中实现。它还可以被实现为机架式服务器系统324的部分。可替选地，来自计算装置300中的组件可以与诸如移动计算装置350的移动装置(未示出)中的其他组件组合。这些装置中的每个可以包含计算装置300和移动计算装置350中的一个或更多个，并且整个系统可以由彼此通信的多个计算装置组成。

移动计算装置350包括处理器352、存储器364、诸如显示器354的输入/输出装置、通信接口366、和收发器368，等。移动计算装置350还可以被设置有诸如微驱动器或其他装置的存储装置，以提供额外的存储。处理器352、存储器364、显示器354、通信接口366、和收发器368中的每个使用各种总线互连，并且这些组件中的若干可被安装在公共母板上或在适当时以其他方式被安装。

处理器352能够执行移动计算装置350内的指令，包括存储在存储器364中的指令。处理器352可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。例如，处理器352可以提供对移动计算装置350的其他组件的协调(诸如，对用户接口的控制、由装置350运行应用、以及由装置350进行无线通信)。

处理器352可以通过与显示器354联接的控制接口358和显示接口356与用户通信。显示器354可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他适宜的显示技术。显示接口356可以包括用于驱动显示器354向用户呈现图形和其他信息的适宜电路。控制接口358可以从用户接收命令并将其转换，用于提交给处理器352。另外，外部接口362可以提供与处理器352的通信，以便使移动计算装置350与其他装置能够近区域通信。例如，外部接口362可以在一些实现方式中提供有线通信，或者在其他实现方式中提供无线通信，并且还可以使用多个接口。

存储器364将信息存储在移动计算装置350内。存储器364能够被实现为计算机可读介质、易失性存储器单元、或非易失性存储器单元中的一个或更多个。还可以提供扩展存储器374，将其通过扩展接口372连接到移动计算装置350，扩展接口372可以包括例如SIMM(单列直插存储器模块)卡接口。扩展存储器374可以为移动计算装置350提供额外的存储空间，或者还可以存储用于移动计算装置350的应用或其他信息。具体地，扩展存储器374可以包括以执行或补充上述处理的指令，并且还可以包括安全信息。因此，例如，扩展存储器374可以被设置为用于移动计算装置350的安全模块，并且可以用允许装置350被安全使用的指令对其进行编程。此外，可以借助SIMM卡连同附加信息(诸如，以非可攻击方式将识别信息置于SIMM卡上)一起来提供安全应用。

存储器可以包括例如闪存存储器和/或NVRAM存储器(非易失性随机存取存储器)，如下所讨论的。在一些实现方式中，这些指令被存储在信息载体中，使得当由一个或更多个处理装置(例如，处理器352)执行时指令，执行诸如上述方法的一种或多种方法。这些指令还能够由诸如一个或更多个计算机或机器可读介质(例如，存储器364、存储装置374、或处理器352上的存储器)的一个或更多个存储装置进行存储。在一些实施例中，例如，可以通过收发器368或外部接口362在传播信号中接收指令。

移动计算装置350可以通过通信接口366进行无线通信，通信接口366可以在必要时包括数字信号处理电路。通信接口366可以提供诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息服务)、或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电业务)的各种模式或协议下的通信等。可以例如通过使用射频的射频收发器368发生此通信。另外，可以例如使用Bluetooth、WiFi或其他此类收发器(未示出)发生短距离通信。另外，GPS(全球定位系统)接收器模块350可以向移动计算装置350提供附加的导航和位置相关无线数据，该数据可以酌情供在装置350上运行的应用使用。

移动计算装置350还可以使用音频编解码器360进行听觉通信，音频编解码器360可以从用户接收说出的信息并将其转换为能使用的数字信息。同样地，音频编解码器360可以诸如通过例如移动计算装置350的听筒中的扬声器来生成针对用户可听见的声音。此声音可以包括来自语音电话呼叫的声音，可以包括所记录的声音(例如，语音消息、音乐文件等)并且还可以包括在移动计算装置350上操作的应用所生成的声音。

计算装置350可以以多种不同形式来实现，如图中所示。例如，它可以被实现为蜂窝电话380。它还可以被实现为智能电话382、个人数字助理、或其他类似移动装置的部分。

这里描述的系统和技术的各种实现方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实现方式可以包括在可编程系统上能执行和/或能解释的一个或更多个计算机程序中的实现，该可编程系统包括可以是专用目的或通用目的的至少一个可编程处理器，其被联接到存储系统存储系统、至少一个输入装置和至少一个输出装置，以从其接收数据和指令并且发送数据和指令。

这些计算机程序(还称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以用高级程序和/或面向对象编程语言和/或汇编/机器语言来实现。如本文所使用的，术语“机器可读介质和计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，可编程处理器包括接收作为机器可读信号的机器指令的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里所描述的系统和技术可以在具有向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和指示装置(例如，鼠标或轨迹球)的计算机上实现，用户能用键盘和指示装置向计算机提供输入。也可以使用其他类型的装置来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；可从用户接收任何形式的输入(包括声音、语音或触觉输入)。

这里描述的系统和技术可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有用户可以通过其与这里描述的系统和技术的实现方式交互的图形用户界面或网络浏览器的客户端计算机)或此类后端组件、中间件组件或前端组件的任何组合的计算系统中实现。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统中的组件互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系是由于计算机程序在相应计算机上运行并且彼此具有客户端-服务器关系而引起的。

虽然上面已经详细描述了一些实现方式，但可以进行其他修改。例如，当将客户端应用描述为访问代理时，在其他实现方式中，可以由一个或更多个处理器(诸如，在一个或更多个服务器上执行的应用程序)实现的其他应用程序采用代理。另外，附图中描绘的逻辑流不需要是所示出的特定次序或顺序的次序来实现所期望的结果。另外，可以在所描述的流中提供其他动作，或者可以从所描述的流中消除动作，并且可以在所描述的系统中添加或去除其他组件。因此，其他实现方式在随附权利要求书的范围内。

Claims

1.一种由计算机实现的方法，所述方法包括：

由被配置成响应于特定的、预定义热词的第一计算装置识别被配置成响应于所述特定的、预定义热词的第二计算装置；

由所述第一计算装置接收用户说出的话语的音频数据；

由所述第一计算装置确定所述话语包括所述特定的、预定义热词；

由所述第一计算装置接收对所述话语的初始响应的转录，其中，所述初始响应包括由所述第二计算装置响应于所述话语而可听地输出的合成语音；

基于所述初始响应的所述转录并且基于所述话语，由所述第一计算装置生成对所述初始响应的后续响应，其中生成对所述初始响应的所述后续响应包括：

确定与所述第一计算装置的第一用户或与所述第二计算装置的第二用户相关联的用户信息和/或访问与所述初始响应相关联的数据和/或由所述第一计算装置确定所述第一计算装置的位置；以及

其中生成对所述初始响应的后续响应是基于所述用户信息和/或所访问的数据和/或所述第一计算装置的位置，以使得所述后续响应增强所述初始响应并且提供附加信息；以及

由所述第一计算装置提供所述后续响应的音频数据或所述后续响应的转录以供输出。

2.根据权利要求1所述的方法，其中，提供所述后续响应的音频数据或所述后续响应的转录以供输出包括：

将所述后续响应的所述转录的初始部分提供给所述第一计算装置的语音合成器；以及

向所述第二计算装置提供(i)所述后续响应的所述转录的剩余部分和(ii)用于可听地输出所述后续响应的所述转录的剩余部分的合成语音的指令。

3.根据权利要求1所述的方法，包括：

确定所述话语包括所述特定的、预定义热词包括：

在没有对所述音频数据执行语音识别的情况下确定所述话语包括所述特定的、预定义热词；以及

接收指示所述第二计算装置将输出对所述话语的所述初始响应的数据。

4.根据权利要求1所述的方法，其中，提供所述后续响应的音频数据或所述后续响应的转录以供输出包括：

向所述语音合成器提供所述后续响应的所述转录。

5.根据权利要求3所述的方法，其中，所述后续响应的转录的合成语音被第三计算装置接收，所述第三计算装置被配置成基于所述后续响应的所述转录的所述合成语音、所述初始响应的所述转录和所述话语来生成响应。

6.根据权利要求1所述的方法，包括：

在提供所述后续响应的所述转录供输出之后，由所述第一计算装置接收第二话语的音频数据；

基于所述初始响应的所述转录，基于所述话语并且基于所述第二话语，由所述第一计算装置生成对所述第二话语的附加响应的附加转录；以及

由所述第一计算装置提供所述附加转录供输出。

7.根据权利要求3所述的方法，包括：

接收指示由所述第二计算装置使用的、用以输出所述初始响应的语音合成器的类型的数据，

其中，接收了所述后续响应的所述转录的所述语音合成器的类型不同于由所述第二计算装置使用的、用以输出所述初始响应的所述语音合成器的类型。

8.根据权利要求1所述的方法，其中，提供所述后续响应的音频数据或所述后续响应的转录供输出包括：

将所述转录提供到所述第一计算装置的显示器。

9.根据权利要求3所述的方法，其中，接收指示所述第二计算装置将输出对所述话语的所述初始响应的数据包括：

从所述第二计算装置接收指示所述第二计算装置将输出对所述话语的所述初始响应的短距离无线电信号；

通过局域网从所述第二计算装置接收指示所述第二计算装置将输出对所述话语的所述初始响应的数据；或者

从服务器接收指示所述第二计算装置将输出对所述话语的所述初始响应的数据。

10.根据权利要求3所述的方法，其中，在没有对所述音频数据执行语音识别的情况下确定包括所述特定的、预定义热词的所述话语包括：

提取所述话语的音频数据的音频特征；

通过处理音频特征来生成热词置信度评分；

确定所述热词置信度评分满足热词置信度阈值；以及

基于确定所述热词置信度评分满足热词置信度阈值，确定所述话语包括所述特定的、预定义热词。

11.根据权利要求3所述的方法，进一步包括：

响应于接收到指示所述第二计算装置将输出对所述话语的所述初始响应的数据，由所述第一计算装置向所述第二计算装置或服务器提供所述话语的音频数据。

12.根据权利要求1所述的方法，进一步包括：

由所述第一计算装置生成所述话语的音频数据的第一音频指纹；

由所述第一计算装置从所述第二计算装置接收所述话语的音频数据的第二音频指纹；

由所述第一计算装置将所述第一音频指纹与所述第二音频指纹进行比较；以及

基于所述第一音频指纹与第二音频指纹的比较，由所述第一计算装置确定由所述第一计算装置接收的音频数据表示与由所述第二计算装置接收的音频数据相同的话语。

13.根据权利要求1所述的方法，进一步包括：

从所述第二计算装置或服务器接收与所述话语相对应的音频数据的第三转录；

其中，生成所述后续响应的所述转录是进一步基于所述第三转录的。

14.根据权利要求1所述的方法，其中，所述第一计算装置和所述第二计算装置被配置为使用短距离无线电来与彼此通信。

15.根据权利要求1所述的方法，其中，所述第一计算装置和所述第二计算装置是共同定位的。

16.根据权利要求1所述的方法，其中，接收对所述话语的所述初始响应的转录包括：

从所述第二计算装置接收对所述话语的所述初始响应的所述转录。

17.一种系统，所述系统包括：

一个或更多个计算机和一个或更多个存储装置，所述存储装置存储指令，所述指令在由所述一个或更多个计算机执行时使所述一个或更多个计算机执行操作，所述操作包括：

由所述第一计算装置接收用户说出的话语的音频数据；

18.一种非暂态计算机可读存储装置，所述非暂态计算机可读存储装置包括指令，所述指令在由一个或更多个计算机执行时使所述一个或更多个计算机执行操作，所述操作包括：

由所述第一计算装置接收用户说出的话语的音频数据；