CN109791762B

CN109791762B - 语音接口设备的噪声降低

Info

Publication number: CN109791762B
Application number: CN201780058659.4A
Authority: CN
Inventors: 肯尼斯·米克斯特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-03
Filing date: 2017-10-03
Publication date: 2023-09-05
Anticipated expiration: 2037-10-03
Also published as: US10748552B2; EP3520100B1; EP3799037B1; US10283138B2; WO2018067577A1; US20210225387A1; US20210201927A1; US20180096696A1; CN109791762A; US20190221227A1; EP4283613A3; EP3520100A1; EP4283613A2; EP3799037A1; US11869527B2

Abstract

一种具有一个或多个麦克风和扬声器的电子设备的方法，该电子设备被配置为通过包括基于语音的可供性(affordance)的多个可供性中的任一唤醒，包括确定电子设备周围的环境的噪声分布；确定噪声分布是否干扰基于语音的可供性；并且根据噪声分布干扰基于语音的可供性的确定，向用户呈现提示以使用多个可供性中除基于语音的可供性之外的可供性来唤醒电子设备。

Description

语音接口设备的噪声降低

技术领域

所公开的实现方式一般涉及语音接口和相关设备，包括但不限于用于语音接口设备的噪声降低的方法和系统。

背景技术

集成有麦克风的电子设备已经被广泛用于从用户收集语音输入并且根据该语音输入来实现语音激活功能。例如，许多现有技术的移动设备包括语音助理功能(例如，Siri，Google助理)，其被配置为使用语音输入来发起电话呼叫、进行餐馆搜索、在地图上开始导航、创建日历事件、向社交网络添加帖子、识别歌曲、以及完成许多其他任务。

位置(例如，家庭内的房间或空间)可以包括包含语音助理系统的多个设备和这中设备的一个或多个用户。由于设备尤其被配置为能够访问和呈现用户特定信息，因此期望语音助理设备能够适度地管理多个用户并且能够向适当的用户提供用户特定信息。还期望在语音助理设备当中有负责响应用户的语音输入的主导者，以便减少用户的困惑。此外，期望在语音助理设备处于嘈杂位置的情况下，语音助理设备包括噪声降低措施。

发明内容

因此，需要一种具有语音助理系统的电子设备和/或语音助理服务器系统，其并入了用于处理多个用户、用于多设备协调以确定主导者、以及用于噪声降低的方法和系统。设备和/或服务器系统可以被配置为基于与语音模型的比较来识别语音输入的说话者，并且个性化对所识别的说话者的响应。设备和/或服务器系统还可以被配置为在多个设备当中协商主导者(leadership)以对说话者响应。设备和/或服务器系统可以进一步被配置为检测设备周围的环境是否足够嘈杂，其中，唤醒设备的用于热词语音输入的替代方法是可取的。

根据一些实现方式，一种方法包括在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器的电子设备处：接收第一自由形式的语音输入；将所述第一语音输入与语音模型的集合比较，所述语音模型的集合与关联于所述电子设备的多个用户相关联，其中，针对所述电子设备训练所述语音模型；基于所述比较，确定所述第一语音输入与所述多个用户中的第一用户相对应；以及根据所述确定呈现响应。

在一些实现方式中，一种电子设备包括一个或多个麦克风、扬声器、一个或多个处理器；以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括用于执行下述操作的指令：接收第一自由形式的语音输入；将所述第一语音输入与语音模型的集合比较，所述语音模型的集合与关联于所述电子设备的多个用户相关联，其中，对所述电子设备训练所述语音模型；基于所述比较，确定所述第一语音输入与所述多个用户中的第一用户相对应；以及根据所述确定，呈现响应。

在一些实现方式中，一种非瞬时计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令，当所述指令由具有一个或多个麦克风、扬声器、以及一个或多个处理器的电子设备执行时，使所述电子设备执行包括下述的操作：接收第一自由形式的语音输入；将所述第一语音输入与语音模型的集合比较，所述语音模型的集合与关联于所述电子设备的多个用户相关联，其中，对所述电子设备训练所述语音模型；基于所述比较，确定所述第一语音输入与所述多个用户中的第一用户相对应；以及根据所述确定，呈现响应。

根据一些实现方式，一种方法包括在多个电子设备中的第一电子设备处进行以下操作，多个电子设备中的每个电子设备包括一个或多个麦克风、扬声器、一个或多个处理器和存储由用于所述一个或多个处理器执行的一个或多个程序的存储器：检测语音输入，确定用于所检测的语音输入的质量评分，将所述质量评分传达给所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的用于检测由所述其他设备的语音输入的质量评分，根据由所述第一电子设备生成的质量评分在用于语音输入的所生成的质量评分和所接收的质量评分当中为最高的确定，输出对所检测的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃输出对所检测的语音输入的可听响应，并且根据由所述第一电子设备生成的质量评分在用于由所述多个电子设备生成的语音输入的质量评分当中不是最高的确定，放弃输出对所检测的语音输入的响应。

根据一些实现方式，多个电子设备中的第一电子设备包括，以及所述多个电子设备中的每一个电子设备包括，一个或多个麦克风、扬声器、一个或多个处理器和存储用于由一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括用于下述的指令：检测语音输入，确定用于所检测的语音输入的质量评分，将所述质量评分传达给所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的、用于检测由所述其他设备的语音输入的质量评分，根据由所述第一电子设备生成的质量评分在所生成的质量评分和所接收的语音输入的质量评分中为最高的确定，输出对所检测的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃输出对所检测的语音输入的可听响应，并且根据由所述第一电子设备生成的质量评分在用于由所述多个电子设备生成的语音输入的质量评分当中不是最高的确定，放弃输出对所检测的语音输入响应。

根据一些实现方式，一种非瞬时计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令，当所述指令由多个电子设备中的第一电子设备执行时，所述多个电子设备中的每一个包括一个或多个麦克风、扬声器和一个或多个处理器，所述指令使所述电子设备执行包括下述的操作：检测语音输入，确定用于所检测的语音输入的质量评分，将所述质量评分传达给所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的、用于检测由所述其他设备的语音输入的质量评分，根据由所述第一电子设备生成的质量评分在所生成的质量评分和所接收的语音输入的质量评分中为最高的确定，输出对所检测的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃输出对所检测的语音输入的可听响应，并且根据由所述第一电子设备生成的质量评分在用于由所述多个电子设备生成的语音输入的质量评分当中不是最高的确定，放弃输出对所检测的语音输入响应。

在一些实现方式中，一种方法包括在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器的电子设备处，所述电子设备被配置为通过包括基于语音的可供性的多个可供性中的任一个来唤醒：确定所述电子设备周围的环境的噪声分布；确定所述噪声分布是否干扰所述基于语音的可供性；以及根据所述噪声分布干扰所述基于语音的可供性的确定，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备。

在一些实现方式中，一种电子设备包括一个或多个麦克风、扬声器、一个或多个处理器以及存储器，该存储器存储要由一个或多个处理器执行的一个或多个程序。所述电子设备被配置为通过包括基于语音的可供性的多个可供性中的任一个来唤醒。一个或多个程序包括用于下述的指令：确定所述电子设备周围的环境的噪声分布；确定所述噪声分布是否干扰所述基于语音的可供性；以及根据所述噪声分布干扰所述基于语音的可供性的确定，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备。

一种存储一个或多个程序的非瞬时计算机可读存储介质。一个或多个程序包括指令，当所述指令由电子设备执行时，使所述电子设备执行包括下述的操作，其中，所述电子设备具有一个或多个麦克风、扬声器和一个或多个处理器，所述电子设备被配置为通过包括基于语音的可供性的多个可供性中的任一个来唤醒：确定所述噪声分布是否干扰所述基于语音的可供性；以及根据所述噪声分布干扰所述基于语音的可供性的确定，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备。

附图说明

为了更好地理解各个所述的实现方式，结合以下附图，应当参考下文的实现方式的描述，其中，在整个附图中，相同的参考数字表示相对应的组件。

图1是根据一些实现方式的示例操作环境。

图2A-图2B是示出根据一些实现方式的被应用为以在操作环境中采集用户语音命令的语音接口的示例电子设备的框图。

图3是示出根据一些实现方式的在操作环境的服务器系统中的示例服务器的框图。示例服务器是语音助理服务器中的一个。

图4A-图4B是示出根据一些实现方式的示例设备主导者协商的图。

图5是示出根据一些实现方式的响应用户的语音输入的方法的流程图。

图6是示出根据一些实现方式的在多个语音接口设备当中协商设备主导者的方法的流程图。

图7是示出根据一些实现方式的减轻语音接口设备周围的噪声的方法的流程图。

图8A和图8B是根据一些实现方式的语音激活的电子设备的正视图和后视图。

图8C是根据一些实现方式的语音激活的电子设备的俯视图，以及图8D示出根据一些实现方式的由用于指示语音处理状态的全色LED的阵列显示的六个可视图案。

贯穿附图的若干视图，相同的参考数字指的是相对应的组件。

具体实施方式

虽然数字革命已经提供了从公开地分享信息到全球社区感觉的许多益处，新兴的新技术通常会引起消费者之间的混淆、怀疑和恐惧，阻止消费者从技术中受益。电子设备被方便地用作语音接口以从用户接收语音输入并且启动语音激活的功能，由此提供了免视和免提的解决方案以接近现有和新兴技术。具体地说，即使用户的视线被遮挡并且他的手已满，在电子设备处接收到的语音输入也能够携带指令和信息。为了实现免提和免视的体验，语音激活的电子设备不断地或仅在触发时监听环境(即，不断地处理从环境收集到的音频信号)。另一方面，用户身份与用户的语音和由用户使用的语言链接。为了保护用户身份，这些语音激活的电子设备通常被使用在受保护、受控制和隐私的空间的非公共场合(例如家和汽车)中。

根据一些实现方式，语音激活的电子设备将语音输入的说话者识别为一个或多个关联或注册的用户中的一个。对所识别的说话者个性化对由电子设备输出的、对说话者的响应。通过将说话者的语音输入与训练的语音模型的集合或语音指纹相比较来识别说话者。在一些实现方式中，由说话者使用以训练语音模型的单词和短语不一定是预定义的，并且为了电子设备识别说话者，不需要匹配稍后由说话者说出的词。

此外，根据一些实现方式，多个语音激活的电子设备在它们自身当中协商主导者以响应于来自用户的语音输入。协商可以是基于哪个设备最佳地检测到语音输入，或者哪个设备最接近于用户。另外，如果语音输入与这些设备中的一个特别相关，则该设备可以被选择以进行响应，即使它本来不会被选择用于响应；在确定哪个设备将是主导者中，考虑在语音输入中包括的命令与特定设备的相关性(例如，“停止音乐”应当是指播放音乐的设备)和接收语音输入的设备的状态(例如，“屏幕开启”与“屏幕关闭”)。

此外，根据一些实现方式，语音激活的设备确定周围噪声是否足够干扰对用于唤醒设备的说出热词(在一些实现方式中，“热词”是用于“唤醒”或触发语音激活的设备的用户定义的或预定义的词语或短语，以关注/响应于在该热词之后发出的说出命令)或其他说出的语音输入的检测。如果噪声足够干扰，设备会指示此情形，并且向用户给出以使用唤醒设备的替代方式或其他噪声降低措施的提示。

语音助理操作环境

图1是根据一些实现方式的示例操作环境。操作环境100包括一个或多个语音激活的电子设备190(例如，电子设备190-1至190-N)。一个或多个语音激活的电子设备190可以位于一个或多个位置中(例如，全部在建筑物的房间或空间中，遍及建筑物内的多个空间或遍及多个建筑物中(例如，一个在房屋中，以及一个在用户的车中))。环境100可选地包括与语音激活的电子设备190通信的一个或多个设备(例如，媒体设备、智能家居设备)(未示出)。

电子设备190通过通信网络110，可通信地耦合到语音助理服务的语音助理服务器112。电子设备190中的一个或多个可通信地耦合到本地网络104，本地网络104可通信地耦合到通信网络110(例如，电子设备190-1和190-2)。在一些实现方式中，本地网络104是在网络接口(例如，路由器)处实现的局域网。可通信地耦合到本地网络104的电子设备190还可以通过本地网络104彼此通信。

可选地，电子设备190中的一个或多个可通信地耦合到通信网络110，并且不在本地网络104上(例如，电子设备190-N)。例如，这些电子设备190不在与本地网络104相对应的Wi-Fi网络上，而是通过蜂窝连接连接到通信网络110。在一些实现方式中，通过语音助理服务器112，完成本地网络104上的电子设备190和不在本地网络104上的电子设备190之间的通信。电子设备190被注册在语音助理服务的设备注册表118中，由此对语音助理服务器112来说是已知的。

环境100还包括一个或多个内容主机114。内容主机114可以是根据用户语音请求从其流式传输的或是以其他方式获得内容的远程内容源。内容主机114可以是语音助理服务器112根据用户语音请求从其检索信息的信息源。

在一些实现方式中，电子设备190可以与用户域中具有相应用户账户的多个用户相关联。这些用户中的任一以及与设备无关的用户可以向电子设备190产生语音输入。电子设备190从这些用户102-1至102-M(包括相关和不相关联的用户)接收这些语音输入，并且电子设备190和/或语音助理服务器112继续针对语音输入而识别产生语音输入的用户。通过用户识别，可以对所识别的用户个性化对那个语音输入的响应。

在一些实现方式中，环境100包括多个电子设备190(例如，设备190-1至190-N)。设备190遍及整个环境100(例如，均在建筑物中的房间或空间内、遍布该建筑物、在建筑物内的一些和不在建筑物内的一些)。当用户102进行语音输入时，在这些设备190中的每个接收输入或不接收输入(例如，如果设备距离用户太远)。接收该输入的设备以不同的质量的程度接收输入；在设备处输入的语音的样本的质量是基于多个因素的，包括但不限于用户离设备的距离以及设备周围的噪声。多个设备190基于语音输入的样本的质量协商它们自己当中的主导者以响应用户，并且从用户102接收进一步的语音输入。

在一些实现方式中，电子设备190确定设备周围的噪声的等级，并且确定所确定的噪声的等级是否是足够高的以干扰识别语音输入中的热词，并且因此干扰通过语音唤醒设备，或者干扰识别语音请求。如果噪声的等级被确定为是足够高的以是干扰的，则电子设备190向用户指示噪声的等级是干扰的，并且向用户给出用户应当使用另一种方式来唤醒电子设备190(例如，激活按钮)的提示。可以以相同的展示，完成干扰噪声的等级的指示和使用另一种方式唤醒设备的提示(例如，照亮唤醒按钮)。

在一些实现方式中，一个或多个媒体设备被设置在操作环境100中以向一个或多个占用者提供媒体内容、新闻和/或其他信息。在一些实现方式中，由媒体设备提供的内容被存储在本地内容源中、从远程内容源(例如，内容主机114)流式传输，或者被本地生成(例如，通过本地文本到语音处理器，向操作环境的一个或多个占用者读取定制的新闻简报、电子邮件、文本、本地天气报告等)。在一些实现方式中，媒体设备包括将媒体内容直接输出给受众(例如，一个或多个用户)的媒体输出设备，以及联网以将媒体内容流式传输到媒体输出设备的演播(cast)设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。演播设备的示例包括但不限于机顶盒(STB)、DVD播放器、TV盒和诸如Google的Chromecast^TM流媒体设备的流媒体设备。

在一些实现方式中，媒体设备包括接收、处理和响应占用者的语音命令的一个或多个语音激活的电子设备190。在一些实现方式中，语音激活的电子设备190通过以下方式来响应语音命令：生成并且提供对语音命令的口头响应(例如，响应问题“现在是什么时间”而说出当前时间)；流式传输由用户请求的媒体内容(例如，“播放Beach Boys歌曲”)；阅读新闻报道或阅读为用户准备的每日新闻简报；播放在个人助理设备或本地网络上存储的媒体项目；改变状态或操作该操作环境100内的一个或多个其他连接的设备(例如，打开/关闭灯、仪器或媒体设备、锁定/解锁锁、开窗等)；或经由网络110，向服务器发出相对应的请求。

在一些实现方式中，一个或多个电子设备190被放置在操作环境100中，以收集用于启动包括媒体设备的媒体播放功能的各种功能的音频输入。在一些实现方式中，这些语音激活的电子设备190(例如，设备190-1至190-N)被放置在媒体设备附近，例如与演播设备和媒体输出设备相同的房间中。可替选地，在一些实现方式中，语音激活的电子设备190被放置在具有一个或多个智能家居设备但不具有任何媒体设备的房间中。可替选地，在一些实现方式中，将语音激活的电子设备190放置在没有联网的电子设备的位置中。此外，在一些实现方式中，建筑物中的房间或空间可以具有多个电子设备190。

在一些实现方式中，电子设备190包括至少一个或多个麦克风、扬声器、处理器和存储由处理器执行的至少一个程序的存储器。扬声器被配置为允许电子设备190将语音消息和其他音频(例如，可听的音调)传送到电子设备190位于在操作环境100中的位置，从而广播音乐、报告音频输入处理的状态、与电子设备190的用户通话或向其给出指令。作为语音消息的替代，视觉信号也能被用于向电子设备190的用户提供关于音频输入处理的状态的反馈。当电子设备190是移动设备(例如，移动电话或平板电脑)时，其显示屏被配置为显示关于音频输入处理的状态的通知。

在一些实现方式中，电子设备190是语音接口设备，其在语音助理服务器112和/或可选地云播服务服务器(未示出)的帮助下，联网以提供语音识别功能。例如，电子设备190包括向用户提供音乐，并且允许免视和免提访问语音助理服务(例如Google Assistant)的智能扬声器。可选地，电子设备190是以下项目中的一个：台式或膝上型计算机、平板电脑、包括麦克风的移动电话、包括麦克风和可选的扬声器的演播设备、包括麦克风和扬声器的音频系统(例如，立体声系统、扬声器系统、便携式扬声器)、包括麦克风和扬声器的电视机，以及包括麦克风和扬声器以及可选的显示器的汽车中的用户接口系统。可选地，电子设备190是简单且低成本的语音接口设备。通常，电子设备190可以是能够联网并且包括麦克风、扬声器以及用于与语音助理服务交互的程序、模块和数据的任何设备。假定简化和低成本的电子设备190，电子设备190包括发光二极管(LED)阵列而不是全屏显示器，并且在LED上显示可视图案以指示音频输入处理的状态。在一些实现方式中，LED是全色LED，并且LED的颜色可以被采用为要在LED上显示的可视图案的部分。在2016年5月13日提交的名为“LEDDesign Language for Visual Affordance of Voice User Interfaces”的美国临时专利申请No.62/336,566中描述了使用LED来显示可视图案以便传达信息或设备状态的多个示例，其全部内容通过引用整体并入本文。在一些实现方式中，使用与正在执行语音处理操作的电子设备相关联的常见显示器上显示的特征图像，显示指示语音处理操作的状态的可视图案。

在一些实现方式中，LED或其他可视显示器被用于传达多个参与电子设备的总语音处理状态。例如，在其中存在多个语音处理或语音接口设备(例如，如'566申请的图4A中所示并且如下文图8A中所复制的多个电子设备400；多个电子设备190)的操作环境中，与各个电子设备相关联的彩色LED的组(例如，如'566申请的图4A所示的LED 404)能被用于传达这些电子设备中的哪一个正在监听用户，以及这些监听设备中的哪一是主导者(其中，“主导者”设备通常率先响应于由用户发出的口头请求)。

更一般地，'566申请描述了(例如，参见第[0087]-[0100]段)用于使用LED的集合可视地指示电子设备的各种语音处理状态的“LED设计语言”，各种语音处理状态诸如为“热词检测状态和监听状态”、“思维模式或工作模式”、以及“响应模式或说话模式”。在一些实现方式中，根据'566申请的“LED设计语言”的一个或多个方面，使用LED的组表示本文中所述的语音处理操作的独特状态。这些可视指示器还能够与由正在执行语音处理操作的电子设备生成的一个或多个可听指示器结合。所得到的音频和/或视频指示器将使语音交互环境中的用户能够理解该环境中的各种语音处理电子设备的状态，并且以自然、直观的方式有效地与这些设备交互。

当来自电子设备190的语音输入被用于经由演播设备控制媒体输出设备时，电子设备190有效地实现对演播使能的媒体设备的控制的新等级。在具体的示例中，电子设备190包括具有远场语音接入的休闲娱乐扬声器，并且用作用于语音助理服务的语音接口设备。电子设备190能被放置在操作环境100的任何区域中。当多个电子设备190被分布在多个房间中时，它们变成被同步以从所有这些房间提供语音输入的演播音频接收器。

具体来说，在一些实现方式中，电子设备190包括具有连接到语音激活的语音助理服务(例如Google Assistant)的麦克风的Wi-Fi扬声器。用户能经由电子设备190的麦克风发出媒体播放请求，并且要求语音助理服务在电子设备190本身上或在另一连接的媒体输出设备上播放媒体内容。例如，用户能够通过向Wi-Fi扬声器说出“好的Google，在客厅电视上播放猫视频”而发出媒体播放请求。然后，语音助理服务通过以下方式来履行媒体播放请求：使用默认或指定的媒体应用程序在所请求的设备上播放所请求的媒体内容。

在一些实现方式中，用户能经由电子设备190的麦克风发出关于在显示设备上已经播放过或正在播放的媒体内容的语音请求(例如，用户能够询问关于媒体内容的信息、通过在线商店购买媒体内容，或撰写和发布有关媒体内容的社交帖子)。

在一些实现方式中，当用户经过房屋时，用户可能想要与电子设备190中的一个或多个进行当前媒体会话，并且能够从电子设备190中的一个或多个请求这类服务。这要求语音助理服务来将当前媒体会话从第一演播设备转移到未直接连接到第一演播设备或者不知道第一演播设备存在的第二演播设备。在媒体内容转移之后，耦合到第二演播设备的第二输出设备继续从音乐曲目或视频片段内的精确点，播放耦合到第一演播设备的第一输出设备先前播放的媒体内容，其中，放弃在第一输出设备上播放媒体内容。在一些实现方式中，接收转移媒体会话的请求的电子设备190能满足该请求。在一些实现方式中，接收转移媒体会话的请求的电子设备190将该请求中继到另一设备或系统(例如，集线器设备、语音助理服务器112)以进行处理。

此外，在一些实现方式中，用户可以经由电子设备190的麦克风，发出对信息或对执行动作或操作的请求。所请求的信息可以是私人的(例如，用户的电子邮件、用户的日历事件、用户的航班信息等)、非私人的(例如，体育评分、新闻报道等)或两者之间(例如，用户偏好的球队或体育的评分、来自用户偏好的来源的新闻报道等)。所请求的信息或动作/操作可能涉及访问个人信息(例如，利用由用户提供的支付信息购买数字媒体项目、购买实体商品)。电子设备190利用对用户的语音消息响应来响应当请求，其中，该响应可以包括例如对履行该请求的附加信息的请求、已经履行该请求的确认、不能够履行该请求的通知等。

在一些实现方式中，除了语音激活的电子设备190和媒体设备(例如，输出设备和演播设备)之外，操作环境100还可以包括一个或多个智能家居设备(未示出)。所集成的智能家居设备包括在智能家居网络中相互无缝集成和/或与中央服务器或云计算系统无缝集成的智能的、多感应的联网的设备，以提供各种有用的智能家居功能。在一些实现方式中，智能家居设备被设置在操作环境100的与演播设备和/或输出设备的位置相同的位置处，并且因此，相对于演播设备或输出设备位于接近已知距离或以已知距离被放置。

操作环境100中的智能家居设备可以包括但不限于一个或多个智能的、多感应的联网的恒温器；一个或多个智能的、联网的多感应危险检测器；一个或多个智能的、多感应的联网的入口通道接口设备(以下称为“智能门铃”和“智能门锁”)；一个或多个智能的、多感应的联网的报警系统；一个或多个智能的、多感应的联网的摄像机系统、以及一个或多个智能的、多感应的联网的墙壁开关；以及一个或多个智能的、多感应的联网的电源插座。在一些实现方式中，图1的操作环境100中的智能家居设备包括多个智能的、多感应的联网的设备(以下称为“智能家电”)，诸如冰箱、炉子、烤箱、电视机、洗衣机、干衣机、灯、立体声、对讲系统、车库门开启器、落地风扇、吊扇、壁式空调、泳池加热器、灌溉系统、安全系统、空间加热器、窗户AC单元、电动通风口等。在一些实现方式中，这些智能家居设备类型中的任一能够被配备有麦克风和本文所述的一个或多个语音处理能力，以便全部或部分地响应来自占用者或用户的语音请求。

在一些实现方式中，演播设备和语音激活的电子设备190的每一个能够与其他演播设备、语音激活的电子设备190、智能家居设备、中央服务器或云计算系统、和/或联网的其他设备(例如，客户端设备)数据通信并且能够与其共享信息。可以使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、BluetoothSmart、ISA 100.11a、WirelessHART、MiWi等)中的任一和/或各种定制或标准有线协议(例如，以太网、HomePlug等)中的任一或任何其他适当的通信协议(包括在本文档的提交日期时尚未开发的通信协议)执行数据通信。

通过通信网络(例如，互联网)110，演播设备、电子设备190和智能家居设备可以与服务器系统(本文也称为中央服务器系统和/或云计算系统)通信。可选地，服务器系统可以与制造商、支持实体，或关联于演播设备和显示给用户的媒体内容的服务提供商相关联。因此，服务器系统包括处理由语音激活的电子设备190收集的音频输入的语音助理服务器112、提供所显示的媒体内容的一个或多个内容主机114、基于分布式设备终端来创建虚拟用户域的云播服务服务器、和保持分布式设备终端在虚拟用户环境中的记录的设备注册表118。分布式设备终端的示例包括但不限于演播设备、媒体输出设备、电子设备190和智能家居设备。在一些实现方式中，这些分布式设备终端被链接到虚拟用户域中的用户账户(例如，Google用户账户)。应当显而易见的是，由电子设备190收集的音频输入的处理能够在电子设备190处、在语音助理服务器112处、在另一智能家居设备(例如，集线器设备)处或在上述所有或子集的一些组合处本地地被执行。

将显而易见的是，在一些实现方式中，电子设备190还在没有智能家居设备的环境中起作用。例如，即使在没有智能家居设备的情况下，电子设备190还能够响应于用户对信息或执行的动作，和/或启动或控制各种媒体播放功能的请求。电子设备190还能在广泛的环境中起作用，包括但不限于车辆、船舶、商业或制造环境中。

在一些实现方式中，电子设备190由包括热词(也称为“唤醒词”)的语音输入“唤醒”(例如，以激活用于电子设备190上的语音助理服务的界面、以使电子设备190处于电子设备190准备好接收对语音助理服务的语音请求的状态)。在一些实现方式中，电子设备190在电子设备190关于接收到语音输入已经为空闲至少预定时间量(例如5分钟)的条件下需要唤醒；该预定时间量与语音接口会话或对话超时之前所允许的空闲时间的量相对应。该热词可以是词或短语，并且可以是预先默认的和/或可以是由用户定制(例如，用户可以将用于特定电子设备190的昵称设置为设备的热词)的。在一些实现方式中，可以存在能够唤醒电子设备190的多个热词。用户可以说出该热词，等待来自电子设备190的确认响应(例如，电子设备190输出问候)，并且然后进行第一语音请求。可替选地，用户可以将热词和第一语音请求结合在一个语音输入中(例如，语音输入包括跟随热词后的语音请求)。

在一些实现方式中，由用户对电子设备190说出的语音输入通常可以是自由形式的或自然语言语音。也就是说，除了可能的某些特例(例如，用户需要首先说出热词以唤醒设备)之外，语音输入不需要严格限于预定句法内的词和短语的预定义的集合。

在一些实现方式中，除了向电子设备190说出热词之外，电子设备190包括唤醒设备的一个或多个附加的方式或可供性。该附件的方式或可供性可以包括例如激活电子设备190上的预定义的按钮或触摸传感器(例如，触摸感应阵列)。

在一些实现方式中，根据一些实现方式，语音激活的电子设备190与操作环境100的演播设备、客户端设备、或服务器系统交互。语音激活的电子设备190被配置为从邻近语音激活的电子设备190的环境接收音频输入。可选地，电子设备190存储音频输入并且至少部分地在本地处理音频输入。可选地，电子设备190经由通信网络110，将所接收的音频输入或部分处理过的音频输入传送到语音助理服务器112，用于进行进一步处理。演播设备被配置为从一个或多个内容主机114获得媒体内容或互联网内容，用于在耦合到演播设备的输出设备上显示。在一些实现方式中，演播设备和语音激活电子设备190在用户域中彼此链接，更具体地，演播设备和语音激活电子设备190经由用户域中的用户账户彼此相关联。演播设备的信息和电子设备190的信息与用户账户相关联地被存储在设备注册表118中。在一些实现方式中，存在用于演播设备的设备注册表和用于语音激活的电子设备190的注册表。在一些实现方式中，云播服务服务器管理演播设备注册表，以及语音助理服务器112管理语音激活的电子设备注册表。演播设备注册表可以引用在用户域中相关联的语音激活的电子设备注册表中的设备，或反之亦然。

在一些实现方式中，电子设备190中的一个或多个(以及一个或多个演播设备)经由客户端设备(未示出)被委托给语音助理服务。在一些实现方式中，语音激活的电子设备190不包括任何显示屏，并且依赖于客户端设备以在委托过程期间提供用户界面，并且对于演播设备也类似。具体地，客户端设备被安装有使用户界面能够促进对在客户端设备附近设置的新的语音激活的电子设备190进行委托的应用。用户可以在客户端设备的用户界面上发送请求，以启动对需要被委托的新电子设备190的委托过程。在接收到委托请求之后，客户端设备与需要被委托的新电子设备190建立短距离通信链路。可选地，基于近场通信(NFC)、蓝牙、蓝牙低能量(BLE)等建立短距离通信链路。然后，客户端设备将与无线局域网(WLAN)(例如，本地网络104)相关联的无线配置数据传送到新的或电子设备190。无线配置数据至少包括WLAN安全代码(即，服务集标识符(SSID)密码)，以及可选地，包括SSID、网际网协议(IP)地址、代理配置和网关配置。在经由短距离通信链路接收到无线配置数据之后，新电子设备190解码和恢复无线配置数据，并且基于无线配置数据加入WLAN。

在一些实现方式中，在客户端设备上显示的用户界面上录入附加的用户域信息，并且被用于将新电子设备190链接到用户域中的账户。可选地，附加用户域信息经由短距离通信链路与无线通信数据一起被传送到新电子设备190。可选地，在新设备已经加入WLAN之后，附加用户域信息经由WLAN被传送到新电子设备190。

一旦电子设备190已经被委托进入用户域，就可以经由多个控制路径来控制其他设备及其相关联的活动。根据一个控制路径，使用在客户端设备上的安装应用来控制其他设备及其相关联的活动(例如，媒体播放活动)。可替选地，根据另一控制路径，电子设备190被用于使对其他设备及其相关活动的免视和免提控制。

媒体输出设备上的语音激活的媒体播放

在一些实现方式中，在演播设备和语音激活的电子设备190均被委托并且链接到公共用户域之后，语音激活的电子设备190能够被用作语音用户界面，以使对流式传输到不包含远程控制的演播设备、客户端设备、或其他第二屏幕设备的媒体内容进行免视和免提控制。例如，用户可以给出诸如“在客厅扬声器上播放Lady Gaga”的语音命令。Lady Gaga音乐曲目或视频片段被流式传输到与“客厅扬声器”相关联的演播设备。既不涉及客户端设备，也不是在该客户端设备上加载的任何演播设备应用或媒体播放应用。

在一些实现方式中，代理服务(例如，语音助理服务、云播服务)将语音激活的电子设备190通信地链接到演播设备，并且使演播设备在不需要涉及客户端上的任何应用的情况下进行演播。具体地，由电子设备190捕获并且记录语音消息，并且语音消息被配置为在媒体输出设备上请求媒体播放。可选地，电子设备190在本地部分地处理语音消息。可选地，电子设备190经由通信网络110，将语音消息或部分处理过的语音消息传送到语音助理服务器112，用于进行进一步处理。语音助理服务器112或云播服务服务器确定语音消息包括第一媒体播放请求，并且第一媒体播放请求包括在媒体输出设备上播放媒体内容的用户语音命令和媒体输出设备的用户语音指示。用户语音命令进一步至少包括第一媒体播放应用的信息(例如，YouTube和Netflix)和需要被播放的媒体内容(例如LadyGaga音乐)。

根据媒体输出设备的语音指示，语音助理服务器112或云播服务服务器在设备注册表118中识别在用户域中与电子设备190相关联的并且耦合到媒体输出设备的演播设备。演播设备被配置为执行一个或多个媒体播放应用，用于控制媒体输出设备播放从一个或多个媒体内容主机114接收到的媒体内容。然后，云播服务服务器向演播设备发送包括第一媒体播放应用程序的信息和需要播放的媒体内容的第二媒体播放请求。在接收到云播服务服务器发送的信息之后，演播设备执行第一媒体播放应用并且控制媒体输出设备播放所请求的媒体内容。

在一些实现方式中，媒体输出设备的用户语音指示包括目的地媒体输出设备的描述。语音助理服务器112或云播服务服务器根据目的媒体输出设备的描述，在设备注册表118中识别多个媒体输出设备当中的目的地媒体输出设备。在一些实现方式中，目的地媒体输出设备的描述至少包括品牌(“三星电视”)或媒体输出设备的位置(“我的客厅电视”)。

在媒体输出设备当中进行语音激活的媒体转移

在一些实现方式中，操作环境100包括第一演播设备(未示出)和耦合到第一演播设备的第一输出设备(未示出)。操作环境100还包括第二演播设备(未示出)和耦合到第二演播设备的第二输出设备(未示出)。演播设备可选地位于操作环境100中的相同位置(例如，客厅)或两个不同位置(例如，两个房间)中。这些演播设备中的每一个被配置为从内容主机114获得媒体内容或互联网内容，用于在耦合到相应的演播设备的输出设备上进行显示。第一演播设备和第二演播设备二者均可通信地耦合到语音助理服务器112，可选的，耦合到云播服务服务器和内容主机114。

操作环境100进一步包括可通信地耦合到语音助理服务器112，以及可选地耦合到云播服务服务器的一个或多个语音激活的电子设备190。在一些实现方式中，语音激活的电子设备190独立于演播设备和输出设备而被放置。例如，电子设备190被放置在其中无演播设备或输出设备的房间中。在一些实现方式中，在接近第一演播设备和第一输出设备处放置第一电子设备190，例如第一电子设备190、第一演播设备和第一输出设备位于相同房间中。可选地，第二电子设备190独立于或接近于第二演播设备和第二输出设备被设置。

当在第一输出设备上播放媒体内容时，用户可以向电子设备190中的任何发送语音命令以请求将媒体内容的播放转移到第二输出设备。语音命令包括媒体播放转移请求。在一种情况下，在用户移动到目的地位置之前，用户向接近于第一演播设备设置的电子设备190发出语音命令。可替选地，在另一种情况下，在用户到达目的地位置之后，用户能够向接近于第二设备设置的电子设备190发出语音命令。

语音命令被传送到语音助理服务器112。语音助理服务器112向第一演播设备发送媒体显示信息请求，以请求目前正在耦合到第一演播设备的第一输出设备上播放的媒体内容的即时媒体播放信息。然后，第一演播设备将所请求的即时播放信息返回给语音助理服务器112，所请求的即时播放信息至少包括第一媒体播放应用(例如，YouTube)的信息、当前正在播放的媒体内容(例如，“Lady Gaga-National Anthem-Super Bowl 2016”)，以及与媒体内容的播放有关的时间位置。然后，第二演播设备从语音助理服务器112接收到包括即时播放信息的媒体显示请求，并且根据即时播放信息，执行控制第二输出设备以从该时间位置播放媒体内容的第一媒体播放应用。

例如，当在第一输出设备上播放音乐播放列表时，用户说出“在我的客厅扬声器上播放”。第一输出设备停止播放当前播放的歌曲，并且在客厅扬声器上恢复停止的歌曲。当歌曲完成时，客厅扬声器继续播放先前在第一输出设备上播放的音乐播放列表上的下一首歌曲。因此，当用户在操作环境100中走动时，媒体内容的播放将无缝地跟随用户，同时仅涉及有限的用户干预(即，发出语音命令)。

操作环境中涉及的各个设备

图2A-图2B是图示根据一些实现方式的被用作语音接口以在操作环境(例如，操作环境100)中收集用户语音命令的示例电子设备190的框图。电子设备190通常包括一个或多个处理单元(CPU)502、一个或多个网络接口504、存储器506、和用于互连这些组件(有时称为芯片组)的一个或多个通信总线508。电子设备190包括促进用户输入的一个或多个输入设备510，诸如按钮512、触摸感应阵列514，以及一个或多个麦克风516。电子设备190还包括一个或多个输出设备518，包括一个或多个的扬声器520、可选的LED阵列522、以及可选的显示器524。在一些实现方式中，LED的阵列522是全色LED的阵列。在一些实现方式中，根据设备的类型，电子设备190具有LED阵列522，或显示器524、或两者。在一些实现方式中，电子设备190还包括位置检测设备526(例如，GPS模块)和一个或多个传感器528(例如，加速度计、陀螺仪、光传感器等)。

存储器506包括诸如DRAM、SRAM、DDR RAM的高速随机存取存储器或其它随机存取固态存储器件，以及可选地，包括诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备、或一个或多个其他非易失性固态存储设备的非易失性存储器。存储器506可选地包括远离一个或多个处理单元502的一个或多个存储设备。存储器506或替选地存储器506内的非易失性存储器包括非瞬时计算机可读存储介质。在一些实现方式中，存储器506或存储器506的非瞬时计算机可读存储介质存储以下的程序、模块和数据结构，或其的子集或超集：

●操作系统532，其包括用于处理各种基本系统服务和用于执行硬件相关任务的过程；

●网络通信模块534，其用于经由一个或多个网络接口504(有线或无线)和诸如互联网、其他广域网、局域网(例如，本地网络104)、城域网等的一个或多个网络110，将电子设备190连接到其他设备(例如，服务器系统140、一个或多个演播设备、一个或多个客户端设备、一个或多个智能家居设备、和其他电子设备190)；

●输入/输出控制模块536，其用于经由一个或多个输入设备接收输入，并且经由一个或多个输出设备518，实现在电子设备190处呈现信息，包括：

○语音处理模块538，其用于处理在电子设备190周围的环境中收集的音频输入或语音消息，或者准备所收集的音频输入或语音消息，用于在语音助理服务器112处进行处理；

○LED控制模块540，其用于根据电子设备190的设备状态，在LED 522上生成可视图案；以及

○触摸感应模块542，其用于感应电子设备190的上表面上(例如，触摸传感器阵列514上)的触摸事件；

●语音激活的设备数据544，其用于至少存储与电子设备190相关联的数据，包括：

○语音设备设置546，其用于存储与电子设备190本身相关联的信息，包括通用设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)、用户域中的一个或多个用户账户的信息、关于处理非注册用户时限制的设置，以及与由LED 522显示的一个或多个可视图案相关联的显示规格；

○语音控制数据548，其用于存储与电子设备190的语音接口功能相关的音频信号、语音消息、响应消息和、其他数据；

○语音模型数据550，其用于存储对应于用户域中的、与电子设备190相关联的用户的语音模型或语音指纹；

●设备主导者模块552，其用于响应用户语音输入来确定多个电子设备190当中的主导者；

●语音模型训练模块554，其用于训练和生成语音模型或语音指纹550，该语音模型或语音指纹550能够被用于识别和区分用户域中的、与电子设备190相关联的用户；

●响应模块556，其用于执行在由语音助理服务器112生成的语音请求响应中包括的指令，并且在一些实现方式中，生成对某些语音输入的响应；以及

●噪声模块558，其用于确定电子设备190周围的噪声的等级，并且提供干扰噪声的等级的指示和使用替代方式来唤醒电子设备的提示。

在一些实现方式中，语音处理模块538包括以下模块：

●用户识别模块560，其用于识别和区分向电子设备190提供语音输入的用户；

●热词识别模块562，其用于确定语音输入是否包括用于唤醒电子设备190的热词并且识别语音输入中的这种热词；

●请求识别模块564，其用于确定在语音输入中包括的用户请求；以及

●识别质量模块566，其用于确定识别语音输入中的热词和/或请求的质量的度量(例如，评分)。

在一些实现方式中，噪声模块558包括以下模块：

●识别分析模块568，其用于分析不同噪声的等级如何影响语音处理模块538(例如，特别是热词识别模块562和/或请求识别模块564)的关于特定电子设备190的操作；

●用户音量阈值模块568，其用于对于离电子设备190的给定距离，来确定用户将向电子设备190发出语音输入的最高舒适音量等级；

●噪声确定模块572，其用于确定电子设备190周围的噪声的等级和噪声分布；

●噪声分布模块574，其用于训练和生成干扰识别语音输入中的热词和/或请求的噪声的噪声分布；以及

●噪声分布存储576，其用于存储已经被确定为干扰的噪声分布。

上述识别的元件的每一个可以被存储在前面提及的存储器件中的一个或多个，并且对应于用于执行上述功能的指令的集合。上述识别的模块或程序(即，指令的集合)不需要被实现为单独的软件程序、过程、模块、或数据结构，由此，在各个实现方式中，可以组合或者以其他方式重新布置这些模块的各种子集。在一些实现方式中，存储器506可选地存储上述识别的模块和数据结构的子集。此外，存储器506可选地存储以上未描述的附加的模块和数据结构。在一些实现方式中，在存储器506中存储的程序的子集、模块和/或数据能够被存储在由服务器系统140/语音助理服务器112上和/或由服务器系统140/语音助理服务器112执行。

在一些实现方式中，以上描述的存储器506中模块中的一个或多个是模块的语音处理库的部分。语音处理库可以被实现和嵌入在广泛的各种设备上。在2016年5月10日提交的名为“Implementations for Voice Assistant on Devices”的美国临时专利申请No.62/334,434中描述了语音处理库的示例，其全部内容通过引用全部并入本文。

图3是示出根据一些实现方式的操作环境(例如，操作环境100)的服务器系统140中的示例服务器的框图。示例服务器是语音助理服务器112中的一个。服务器140通常包括一个或多个处理单元(CPU)702、一个或多个网络接口704、存储器706、和用于互连这些组件(有时称为芯片组)的一个或多个通信总线708。服务器140能够包括促进用户输入的一个或多个输入设备710，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机，或其他输入按钮或控件。此外，服务器140能够使用麦克风和语音识别或者相机和手势识别来补充或替换键盘。在一些实现方式中，服务器140包括一个或多个相机、扫描仪、或光电传感器单元，用于捕获例如在电子设备上印刷的图形系列码的图像。服务器140还可能包括使用户界面和显示内容能够呈现的一个或多个输出设备712，包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器706包括诸如DRAM、SRAM、DDR RAM的高速随机存取存储器，或其它随机存取固态存储器件；以及可选地包括诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储设备或一个或多个其他非易失性固态存储设备的非易失性存储器。存储器706可选地包括远离一个或多个处理单元702的一个或多个存储设备。存储器706或可替选地存储器706内的非易失性存储器包括非瞬时计算机可读存储介质。在一些实现方式中，存储器706或存储器706的非瞬时计算机可读存储介质存储以下的程序、模块、和数据结构，或其子集或超集：

●操作系统716，其包括处理各种基本系统服务和用于执行硬件相关的任务的过程；

●网络通信模块718，其用于经由一个或多个网络接口704(有线或无线)和诸如互联网、其他广域网、局域网、城域网等的一个或多个网络110，将服务器系统140连接到其他设备(例如，服务器系统140中的各种服务器、客户端设备、演播设备、电子设备190和智能家居设备)；

●用户接口模块720，其用于使信息能够在客户端设备处呈现(例如，用于呈现应用826-830、小部件、网站及其网页，和/或游戏、音频和/或视频内容、文本等的图形用户界面)。

●命令执行模块721，其用于在服务器侧执行(例如，用于控制客户端设备、演播设备、电子设备190和智能家居设备并且评论由这些设备捕获的数据的游戏、社交网络应用、智能家居应用、和/或其他基于Web或非Web的应用)，包括下述中的一个或多个：

○演播设备应用722，其被执行以提供用于与演播设备相关联的设备配置、设备控制、和用户账户管理的服务器侧功能；

○一个或多个媒体播放器应用724，其被执行以提供用于与相对应的媒体源相关联的媒体显示和用户账户管理的服务器侧功能；

○一个或多个智能家居设备应用726，其被执行以提供用于相对应的智能家居设备的设备配置、设备控制、数据处理和数据评论的服务器侧功能；以及

○语音助理应用728，其被执行以布置对从电子设备190接收的语音消息的语音处理，或者直接处理语音消息以提取用户语音命令和用于用户语音命令的一个或多个参数(例如，演播设备或另一电子设备190的指示)；以及

●服务器系统数据730，至少存储(例如，在自动媒体输出模式和后续模式中的)与媒体显示的自动控制相关联的数据，包括以下项目中的一个或多个：

○客户端设备设置732，其用于存储与一个或多个客户端设备相关联的信息，包括通用设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)、以及用于自动媒体显示控制的信息；

○演播设备设置734，其用于存储与演播设备应用722的用户账户相关联的信息，包括以下项目中的一个或多个：账户访问信息、用于设备设置的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)，以及用于自动媒体显示控制的信息；

○媒体播放器应用设置736，其用于存储与一个或多个媒体播放器应用724的用户账户相关联的信息，包括以下项目中的一个或多个：账户访问信息、媒体内容类型的用户偏好、评论历史数据、和用于自动媒体显示控制的信息；

○智能家居设备设置738，其用于存储与智能家居应用726的用户账户相关联的信息，包括以下项目中的一个或多个：账户访问信息、用于一个或多个智能家居设备的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)；

○语音助理数据740，其用于存储与语音助理应用728的用户账户相关联的信息，包括以下项目中的一个或多个：账户访问信息、用于一个或多个电子设备190的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)；

○用户数据742，其用于存储与使用域中的用户相关联的信息，包括用户的订阅(例如，音乐流媒体服务订阅、视频流服务订阅、时事通讯订阅)、用户设备(例如，在设备注册表118中注册的、与相应的用户相关联的设备)、用户账户(例如，用户的电子邮件账户、日历账户、财务账户)和其他用户数据；以及

○用户语音简档744，用于存储用户域中的用户的语音简档，包括例如，用户的语音模型或语音指纹以及用户的舒适音量等级阈值。

●设备注册模块750，其用于管理耦合到语音助理服务器112的设备注册表118；

●设备主导者仲裁模块780，其用于在操作环境的电子设备190之间仲裁设备主导者确定；

●噪声模块790，其用于确定电子设备190周围的噪声的等级；以及

●语音处理模块7100，其用于处理电子设备190周围的环境中收集的音频输入或语音消息。

在一些实现方式中，语音助理服务器112主要负责用于处理语音输入和噪声降低，因此，在存储器706中的相应模块中包括以上参考图2A至图2B描述的存储器506中的程序、模块、和数据结构中的一个或多个(例如，包括有语音处理模块538的程序、模块和数据结构被包括在语音处理模块7100中，以及包括有噪声模块558内的程序、模块和数据结构被包括在噪声模块790中)。电子设备190将捕获的语音输入传送到语音助理服务器112用于进行处理，或者首先预处理语音输入，并且将经预处理的语音输入传送到语音助理服务器112以进行处理。在一些实现方式中，语音助理服务器112和电子设备190具有关于语音输入和噪声降低的处理的一些共享的和一些分开的责任，以及图2A-图2B中示出的程序、模块和数据结构可以被包括在语音助理服务器112和电子设备190中或在它们当中分配。图2A-图2B中示出的其他程序、模块、和数据结构(例如，语音模型数据550、语音模型训练模块554)或其类似物还可以被包括在语音助理服务器112中。

以上识别的元件中的每一个可以被存储在前述存储器件中的一个或多个中，并且对应于用于执行上述功能的指令的集合。该以上识别的模块或程序(即，指令的集合)不需要被实现为单独的软件程序、过程、模块、或数据结构，由此，在各种实现方式中，可以组合或以其他方式重新布置这些模块的各种子集。在一些实现方式中，存储器706可选地存储以上识别的模块和数据结构的子集。此外，存储器706可选地存储以上未描述的附加的模块和数据结构。

示例设备主导者协商

图4A-图4B图示了根据一些实现方式的多个电子设备(例如，电子设备190)之间的设备主导者协商的示例。在具有多个电子设备190的操作环境(例如，操作环境100)中，当环境中的用户进行语音输入时，多个电子设备190中的一个或多个检测和接收该语音输入。电子设备190确定它们自己当中的主导者，以响应用户的语音输入并且以检测来自用户的进一步的语音输入。

图4A示出了操作环境(例如，操作环境100)中的三个语音激活的电子设备1002-1至1002-3(例如，电子设备190)。它们都处于与例如在相同房间中的用户(未示出)相同的空间中。用户进行语音输入(例如，话语)(未示出)，以及三个电子设备1002-1至1002-3以不同质量的程度或等级来检测和捕获语音输入的样本。在电子设备处语音输入的捕获的样本的质量可能受包括但不限于以下项目中的一个或多个因素的影响：周围噪声、设备的能力、设备相对于用户的距离和位置、设备在空间内的位置等。

在一些实现方式中，电子设备中的每一个确定由该电子设备捕获的语音输入的相应的样本的质量的等级。质量等级可以被表示为评分或一些其他值。例如，在图4A中，电子设备1002中的每个已经捕获了用户的语音输入的相应的样本，并且已经被确定为用于其相应的样本的评分；电子设备1002-1处的样本被评分为0.98(在0至1的标度上，其中1对应于最高质量)，电子设备1002-2处的样本被评分为0.37，以及电子设备1002-3处的样本被评分为0.61。在一些实现方式中，电子设备1002处的识别质量模块566(图2B)确定相应的捕获的样本的质量等级。在一些实现方式中，用于评估语音样本的质量的标准包括例如样本的音量或振幅、存在或不存在噪声(例如，串扰、嘶嘶声)和相对应的等级、存在或不存在失真(例如，回波)及相对应的等级、样本的频率分布等。

电子设备1002彼此传送它们的质量评分。由此，例如，电子设备1002-1从电子设备1002-2和1002-3接收质量评分。电子设备1002-2从电子设备1002-1和1002-3接收质量评分。电子设备1002-3从电子设备1002-1和1002-2接收质量评分。如果所有电子设备1002在相同本地网络(例如，图1的本地网络104)上，则电子设备1002通过本地网络交换评分。例如，电子设备1002可以通过在本地网络内发送多播消息，将其质量评分发送到其他电子设备1002。如果电子设备1002中的至少一个不在本地网络上，则可以将评分发送到服务器系统140，并且语音助理服务器112的设备主导者仲裁模块780将评分分发到电子设备1002。可替选地，设备主导者仲裁模块780基于所接收到的评分来确定这些设备中的哪个是主导者，并且将确定的结果发送给设备。在一些实现方式中，电子设备1002通过语音助理服务器112和设备注册表118来发现彼此及其位置(例如，设备1002周期性地在语音助理服务器112内检查，并且基于设备注册表118中的信息，被告知与相同用户账户相关联的其他设备)。

在一些实现方式中，如果多个电子设备1002中的仅一个捕获到语音输入的样本(例如，其他电子设备1002距用户太远以不能检测到语音输入)，则其捕获语音输入样本的设备被确定为主导者。在一些实现方式中，如果电子设备1002未能捕获语音输入的样本(例如，设备离用户太远以致不能检测到语音输入)，则用于该语音输入的那个设备的质量评分为0.00或空(null)分；从要为主导者的竞争中排除具有“0.00”或空评分的设备。

当电子设备1002从其他电子设备1002接收到评分时，电子设备将其质量评分与来自其他设备的评分进行比较。如果其评分不是评分当中最好的(例如，最高)，则电子设备(例如，通过断电或“关闭”扬声器520)放弃输出对语音输入的响应(例如，由服务器系统140生成的响应)。如果其评分在评分当中是最好的，则电子设备输出对语音输入和后续语音输入的响应；该设备被确定为“主导者”。在一些实现方式中，主导者还继续检测和处理或预处理来自用户的后续语音输入(无论是处理语音输入并且生成响应的主导者、预处理语音输入以将其传送到生成这些响应的语音助理服务器112的主导者，还是简单地将语音输入传送到生成这些响应的语音助理服务器112的主导者)，以及非主导者放弃接收、检测、和处理来自用户的后续语音输入。

在一些实现方式中，响应于用户的语音输入(例如，包括该热词的语音输入)来执行主导者确定，以唤醒设备。在一些实现方式中，可以响应于来自用户的每个语音输入或者以来自用户的预定数目的语音输入为间隔(例如，以来自用户的每隔5个语音输入)来执行主导者确定。以这种方式，可以更新主导者确定以考虑改变条件(例如，用户四处走动、设备周围的噪声的等级改变等)。

在一些实现方式中，可以基于附加标准来推翻基于质量评分的主导者确定。也就是说，即使在其他情况下设备仅基于质量评分不会被确定为主导者，也可以将该设备确定为主导者。附加标准可以包括例如语音输入中的请求的类型或命令和设备的状态。例如，如果语音输入包括对播放或停止播放视频的请求，则该请求是与能够播放视频的电子设备1002(例如，智能电视、演播设备)特别相关，并且与仅作为音频设备的电子设备1002(例如，音响系统、便携式扬声器)不特别相关。当请求与电子设备1002特别相关时，即使该设备的质量评分不是最高，该电子设备1002也可以被确定为主导者。在一些实现方式中，如果请求是与该空间中的多个电子设备特别相关，则在与具有该请求与其特定相关的设备中，具有最佳质量评分的电子设备被确定为是主导者。作为另一示例，如果语音输入中的命令是用于改变设备状态的命令(例如，“屏幕关闭”)，则处于可适用于该命令的状态的设备(例如，屏幕当前处于开启状态的智能电视)可以被确定为是主导者，尽管质量评分较低，并且处于不适用于该命令的状态的设备(例如，屏幕已经关闭的智能电视)不被考虑为主导者。此外，如果请求/命令不与设备1002中的任何设备特别相关(例如，设备1002是能够通过语音接口服务器112与非语音接口的演播设备通信的仅音频的语音接口设备，以及命令是经由演播设备播放视频的请求)，则基于上述质量评分来进行主导者确定。在一些实现方式中，多个主导者确定标准(例如，如上所述，质量评分、命令的相关性、和设备的状态)可以被实现为多步骤主导者确定(例如，确定命令的相关性和设备状态以缩小主导者候选，然后基于质量评分来确定主导者；确定具有最高评分的设备，然后检查命令相关性或设备状态标准是否适用于其他设备)或者可以被实现为加权确定(例如，每个标准被考虑并且以加权评分进行加权)。

图4B示出图4A中的电子设备1002当中的设备主导者协商的结果。电子设备1002-1确定其质量评分在三个电子设备1002当中是最好的，并且假定主导者用于向用户输出响应。电子设备1002-2和002-3确定它们的质量评分在三个电子设备1002当中不是最好的，并且断电它们的扬声器520以及放弃向用户输出响应。

在一些实现方式中，不是主导者的电子设备1002还断电其麦克风516，由此，不会检测到来自用户的进一步语音输入；主导者设备还是有关检测和处理来自用户的进一步语音输入的主导者。在一些实现方式中，不是主导者的电子设备1002维持对它们的麦克风516供电，并且提供助理以重新检测来自用户的进一步语音输入。例如，主导者设备和非主导者设备接收和记录语音输入的相应的样本，并且将它们传送到语音助理服务器112，该语音助理服务器112可以一起使用多个样本以更好地处理语音输入(例如，聚集样本，选择用于处理的最佳样本，比较样本以获得每个样本的最好部分)。

在一些实现方式中，在来自用户的每一语音输入之后，电子设备1002重复如上所述的主导者确定过程。在一些实现方式中，在语音输入的预定数目的间隔之后，电子设备1002重复如上所述的主导者确定过程(例如，以每隔五个语音输入或以每隔10个语音输入来再次确定主导者)。

在一些实现方式中，在确定了主导者之后，电子设备1002中的一个或多个输出可视响应(例如，连同对语音输入的音频响应一起，所确定的主导者显示指示其是主导者的通知或预定LED灯图案)。

在一些实现方式中，电子设备1002中的每一个输出无论何时正在对用户(例如，接收和检测用户的语音输入)监听的、其正在监听的可视指示(例如，预定的LED灯图案)，并且然后，按照主导者确定仅主导者设备输出对语音输入的响应。例如，当用户正在说出语音输入时，电子设备1002-1至1002-3显示可视指示以指示它们在接收语音输入时正在监听，在此之后按照主导者确定仅主导者设备1002-1输出响应。

在一些实现方式中，电子设备1002通过使用一组LED显示特征化的可视图案——诸如'566申请的图4G中示出的图案中的一个(如以下图8D所示所复制的)，来指示其正在监听。可视图案能够是静态的(不变)或动态的(通过各个LED的颜色、亮度、占空比等变化，给出运动的效果)。在一些实现方式中，电子设备1002通过使用其LED显示另一特征化的可视图案，来指示其是多个监听设备当中的主导者。类似地，参与协商以确定哪个设备应当是主导者的多个监听设备能够通过使用它们相应的LED来显示另一特有可视图案，来指示正进行协商。

多用户个性化的示例过程

图5是图示根据一些实现方式的响应用户的语音输入的方法1100的流程图。在具有一个或多个麦克风、扬声器、一个或多个处理器、和存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备190处实现方法1100。

电子设备190经由一个或多个麦克风516a，从用户接收第一语音输入(1102)。电子设备190经由麦克风516来捕获和记录第一语音输入的样本。在一些实现方式中，从语音输入不需要严格地限于预定句法内的预定词和短语的集合的意义上，第一语音输入是自由形式的语音输入，语音输入可以例如是自然语言的语音输入。

电子设备190将第一语音输入与语音模型的集合进行比较(1104)，该语音模型的集合与关联于电子设备190的多个用户相关联，其中，对电子设备训练语音模型。用户识别模块560将第一语音输入的所记录的样本与语音模型数据550中的语音模型进行比较。语音模型数据550包括用户域中的、与电子设备190相关联的一个或多个用户(例如，注册到电子设备190的用户)的语音模型或语音指纹。在一些实现方式中，由语音模型训练模块554来对电子设备训练语音模型。

基于比较，电子设备190来确定第一语音输入与多个用户的第一用户相对应(1106)。例如，用户识别模块560识别语音模型数据550中的、最佳匹配第一语音输入的语音模型，并且根据该匹配的识别来确定说出第一语音输入的用户是匹配的语音模型与其相对应的用户。在一些实现方式中，用户识别模块560还确定语音模型和语音输入之间的匹配的置信等级或质量的一些其他类似度量或接近度，并且仅在匹配为最佳并且置信等级高于预定阈值的条件下才识别匹配。

电子设备190根据该确定呈现响应(1108)。在一些实现方式中，电子设备190根据确定和第一语音输入来生成响应。响应包括所识别的第一用户的身份的指示，以让第一用户知道他已经被识别。响应还包括对第一语音输入中的任何语音请求的响应。例如，响应于唤醒电子设备190的热词语音输入，电子设备190生成并且呈现(例如，输出)包括第一用户的姓名的语音问候(例如，“你好，David(Hello,David)”，“早上好，Mary(Good morningMary)”)。该响应可以包括对另一设备以执行操作的语音输出和/或指令。针对用于执行操作的指令，包括所识别的用户身份的指示，使得执行关于所识别的用户的操作。例如，如果操作正在播放来自音乐订阅的音乐，则该设备播放来自所识别的用户的音乐订阅的音乐。

在一些实现方式中，响应是可听语音输出，并且呈现该响应包括输出可听语音输出。电子设备190通过扬声器520输出的可听语音。

在一些实现方式中，电子设备基于第一语音输入来确定用户请求，并且根据所确定的用户请求生成响应。在一些实现方式中，根据确定和第一语音输入生成响应包括这些确定和生成操作。除了识别语音输入的说话者之外，电子设备190确定语音输入中的用户请求(例如，媒体回放请求、对新闻标题的请求、对要读取的电子邮件的请求等)，并且生成响应于该请求的应答(例如，请求的可听确认，用于为履行该请求而所需的更多信息的对用户的可听询问)。

在一些实现方式中，所确定的用户请求包括以唤醒电子设备的请求，并且这些响应包括可听问候，其中，问候语包括所确定的第一用户的身份的指示。如果语音输入包括热词(即，语音输入是对唤醒电子设备190的请求)，则所生成的响应包括包含第一用户的身份的可听问候语(例如，“早上好Dave(Good morning Dave)”)。问候语指示电子设备190已经唤醒并且指示作为由电子设备190识别的用户的身份。

在一些实现方式中，所确定的用户请求包括对信息的请求，并且根据所确定的请求生成响应包括获得关于第一用户的所请求的信息。如果请求是对信息的请求(例如，对读取用户的电子邮件的请求，对大声说出用户的即将到来的日历事件的请求)，电子设备190访问所识别的用户的信息(例如，用户的电子邮件、用户的日历)以生成响应。在一些实现方式中，获得关于所确定的第一用户的所请求的信息包括访问与第一用户相关联的账户；为了获得针对该响应的所识别的用户的信息，电子设备190访问用户的账户(例如，用户的电子邮件账户、用户的日历账户)。在电子设备190处，可以在语音设备设置546中存储用户账户信息。

在一些实现方式中，电子设备190接收第二语音输入，将第二语音输入与该语音模型的集合比较，基于该比较来确定第二语音输入与多个用户中的第二用户相对应，并且根据第二语音输入与第二用户相对应的确定来呈现响应。在一些实现方式中，电子设备根据该确定和第二语音输入来生成响应。如果与电子设备190相关联的不同用户对电子设备190说出语音输入，电子设备190以与识别第一用户的方式类似的方式来识别不同的用户-将不同用户的语音输入与语音模型进行比较并且找到最佳匹配。利用对不同的用户的识别，电子设备190能够基于这个新的识别来生成响应。因此，电子设备190能够通过将语音输入与语音模型比较并且基于该比较来识别说话的用户，从而在相关用户之间切换，因此用户不需要明确地说出将电子设备190的焦点从一个用户切换到另一用户的命令。

在一些实现方式中，电子设备190接收第三语音输入，将第三语音输入与该语音模型的集合比较，基于该比较来确定第三语音输入不与多个用户中的任一相对应，以及根据第三语音输入不与多个用户中的任一相对应的确定，限制电子设备的功能。如果不与电子设备190相关联的用户对电子设备190输出语音输入，则电子设备190接收该语音输入并且尝试识别用户。由于该用户不与电子设备190相关联，因此在语音模型数据550中不具有相关联的语音模型，电子设备190确定该用户是未识别的用户。对于该未识别的用户，电子设备190可以限制其功能，以防止个人或隐私信息被访问。例如，电子设备190可以仅作用于来自身份不明的用户、涉及非隐私或非个人信息的请求(例如，对体育评分、新闻、股票、天气的请求)。在一些实现方式中，电子设备190可以(例如通过忽略未识别的用户的语音输入或以指示该用户未被授权的响应进行应答)拒绝未识别的用户访问电子设备190的任何功能和语音助理服务。在一些实现方式中，对未识别的用户限制功能是基于对设备的设置(例如，语音设备设置546)。设备所有者能够设置例如是否对未识别的用户完全地限制功能，或仅限制到不涉及个人或隐私信息的功能。

在一些实现方式中，电子设备包括显示器，并且在显示器上显示所确定的第一用户的身份的指示。如果电子设备190包括显示器524，则电子设备190可以在显示器524上显示所识别的用户的身份(例如，显示所识别的用户的姓名、显示具有所识别的用户的姓名的问候语、显示与所识别的用户相关联的所识别的用户的照片、虚拟化身、或其他图像)，以指示电子设备190已经识别出语音输入的说话者，并且以给出用户用于验证该识别的机会。

在一些实现方式中，电子设备包括显示器，并且在显示器上显示与所确定的第一用户相关联的可视用户界面。如果电子设备190包括显示器524，则电子设备190可以显示利用所识别的用户识别的可视用户界面(例如，具有所应用的、与所识别的用户相关联的主题的用户界面)。在一些实现方式中，电子设备190在LED 522上显示与所识别的用户相关联的图案。

在一些实现方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，如在步骤1102中，并且将语音输入发送到语音助理服务器112。语音助理服务器112将语音输入与语音模型的集合(例如用户语音简档744中的语音模型)进行比较，该语音模型的集合与关联于电子设备190的多个用户相关联，并且基于该比较，确定说出语音输入的用户的身份，类似于步骤1104和1106。语音助理服务器112生成对语音输入的响应，并且将所生成的响应传送到电子设备190，电子设备190输出该响应。在一些实现方式中，语音助理服务器112识别用户，并且将用户识别结果传送到电子设备190，电子设备190根据从语音助理服务器112接收的识别结果来生成且输出响应。

在一些实现方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，如在步骤1102中，对语音输入执行预处理，并且将预处理的语音输入发送到语音助理服务器112。预处理可以包括识别说话用户，如在步骤1104和1106中，以及该识别结果伴随着对语音助理服务器112的语音输入。可替选地，由语音助理服务器112执行用户识别。语音助理服务器112接收预处理的语音输入，识别在尚未由电子设备190执行的条件下的说话用户(类似于步骤1104和1106)，生成对语音输入的响应，以及将所生成的响应传送到输出该响应的电子设备190。

在一些实现方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，并且将语音输入发送到语音助理服务器112，或执行预处理并且将预处理的语音输入发送到语音助理服务器112。语音助理服务器112将语音输入与语音模型的集合(例如，用户语音简档744中的语音模型)进行比较，语音模型的集合与关联于电子设备190的多个用户相关联，并且基于该比较来确定说出该语音输入的用户的身份，如在步骤1104和1105中。语音助理服务器112生成对语音输入的响应，并且将所生成的响应传送到输出响应的电子设备190。在一些实现方式中，语音助理服务器112识别用户，并且将用户识别结果传送到电子设备190，该电子设备190根据从语音助理服务器112接收的识别结果来生成并且输出响应。

如上所述，通过将语音模型或语音指纹与语音输入相匹配来识别说话的用户。在一些实现方式中，电子设备190被配置为执行用于捕获和训练语音模型或语音指纹的过程。例如，当用户将要与电子设备190相关联时(例如，注册到该设备)，电子设备190(例如，语音模型训练模块554)可以通过逐步的过程，启动并且引导用户与电子设备190相关联，以捕获和训练用户的语音模型。在该过程中，电子设备190可以提示用户说出一个或多个词或短语(例如，包括多个不同音素的热词、短语或句子)，以便生成和训练语音模型。该语音模型训练模块554可以指示LED控制模块540来照亮LED 522上的各种可视图案，以向用户指示语音模型捕获和训练过程的状态。在一些实现方式中，电子设备190将所训练的语音模型存储在语音模型数据550中，并且可选地，将所训练的语音模型传送到语音助理服务器112以进行存储(例如，存储在用户语音简档744中)。

在一些实现方式中，给定的用户具有用于用户与其相关联的每个电子设备190的语音模型。对特定设备训练各个设备190处的语音模型，因此考虑特定设备和相应的设备周围的环境。

在一些实现方式中，语音模型训练过程由语音助理服务器112结合电子设备190来执行。例如，当用户将与电子设备190相关联时，语音助理服务器112处的语音模型训练模块(未示出)将指令和音频输出传送到电子设备190。该电子设备190执行指令并且输出音频输出，以通过与由上述语音模型训练模块554执行的训练过程类似的训练过程来引导用户。电子设备190捕获对训练过程的用户的说出的语音输入，并且将所捕获的语音输入传送到语音助理服务器112，该语音助理服务器生成语音模型并且将它们存储在用户语音简档744中。在一些实现方式中，语音助理服务器112向电子设备190传送与该电子设备190相关联的用户的语音模型以(例如，在语音模型数据550中)进行存储和本地使用。

在一些实现方式中，当为用户生成和训练语音模型时，还对用户生成认证令牌。认证令牌向语音助理服务器112认证用户。将该说话者的语音输入与关联于不同用户的语音模型相匹配。当对说话者的语音输入发现匹配的语音模型时，使用与匹配的语音模型相关联的用户账户的认证令牌。在一些实现方式中，认证令牌是预先生成的，但是最初不与任何语音模型相关联。训练过程将作为训练过程的结果训练的语音模型与预先生成的认证令牌相关联。在一些实现方式中，在电子设备190识别到语音输入的说话者之后，将语音输入(或包含用户请求和由语音输入确定的相关联的参数的数据)连同与说话者相关联的认证令牌传送到语音助理服务器112；认证令牌向语音助理服务器112认证说话者。在一些实现方式中，说话者可以与已经委托给任何说话者的用户的认证令牌相关联。例如，与电子设备190相关联的用户可以配置他的账户以允许任何人使用他的音乐服务登录证书，使得其他用户能够访问用户设备190附近的任何连接的输出设备(例如，扬声器)。

在一些实现方式中，电子设备190通过(例如，使用蓝牙低能量或超声波RF)检测与说话用户相关联的附近的关键设备来识别说话的用户。

在一些实现方式中，内容主机114生成对语音输入的可听响应。例如，语音输入可以包括对与用户相关联的银行账户中的余额的请求(例如，“我的Chase账户中的余额是多少？”)。对于这样的语音输入，如上所述，电子设备190或语音助理服务器112识别说话的用户。在识别到用户并(例如从用户数据742)获得到银行账户信息之后，电子设备190或语音助理服务器112将对账户余额的查询(例如，通过应用编程接口(API))传送到与银行账户所在银行相关联的内容主机114(例如，银行的数据库系统)。银行内容主机响应于该请求来从其数据库中获取余额并且生成可听响应。银行内容主机将可听响应传送到电子设备190或语音助理服务器112(然后，语音助理服务器112将可听响应传送到电子设备190)，并且电子设备190输出可听响应。以这种方式，减少了通过网络和在设备上以数字形式传送和存储账户数据，这提升了用户数据的安全性和隐私。

设备主导者协商的示例过程

图6是示出根据一些实现方式的在多个语音接口设备当中协商设备主导者的方法1200的流程图。方法1200在两个或更多个电子设备190(电子设备1002)中的电子设备(例如，设备1002-1,1002-2或1002-3)处实现，其中，两个或更多个电子设备中的每一个包括一个或多个麦克风、扬声器、一个或多个处理器和存储用于由一个或多个处理器执行的一个或多个程序的存储器。

电子设备190检测语音输入(1202)。电子设备190经由麦克风516来捕获和记录来自用户的语音输入的样本。

电子设备190确定对所检测的语音输入的质量评分(1204)。电子设备190确定所捕获的语音输入样本的质量的评分、评级、或一些其他度量。样本的质量可能受到多种因素的影响，包括用户的与设备的距离、用户说出语音输入的音量、周围环境和噪音、设备的能力等。在一些实现方式中，用于评估语音样本的质量的标准包括例如样本的音量或振幅、存在或不存在噪声(例如，串扰、嘶嘶声)及相对应的等级、存在或不存在失真(例如，回波)及相对应的等级、样本的频率分布等。

电子设备190将质量评分传送到多个电子设备中的其他设备(1206)，并且接收由多个电子设备中的其他设备生成的质量评分，用于检测由其他设备输入的语音(1208)。电子设备190将对其语音输入样本的评分传送到多个电子设备的其他设备，并且从其他设备接收对语音输入的其相应的样本的评分。

根据由第一电子设备生成的质量评分在所生成的质量评分和所接收的该语音输入的质量评分当中为最高的确定，电子设备输出对所检测的语音输入的可听响应和/或可视响应(例如，通知或LED灯图案)，并且多个电子设备中的其他设备放弃对所检测的语音输入输出可听响应(1210)。在一些实现方式中，在关于语音输入的设备当中，具有最高评分(或更一般地，最佳评分)的设备可选地预处理其相应的语音输入样本，并且将语音输入样本或预处理的语音输入样本传送到语音助理服务器112，该语音助理服务器112生成对语音输入的包括可听输出(例如，用户请求的语音确认、读出用户所请求的信息)的响应，并且将响应传送到设备。可替选地，具有最高评分的设备生成对语音输入的响应。在任一情况下，具有最高评分的设备(例如，设备1002-1)输出响应，以及具有较低评分的其他设备(例如，设备1002-2和1002-3)不输出该响应。在一些实现方式中，作为主导者的电子设备(例如，在本文的示例中，具有最高评分的设备)还是关于处理或预处理来自该用户的后续语音输入的主导者。

根据由第一电子设备生成的质量评分在对由多个电子设备生成的语音输入的质量评分当中不是最高的确定，电子设备190放弃对所检测的语音输入输出响应。如果设备确定其评分在关于语音输入的设备中不是最高的(例如，设备1002-2和1002-3)，则设备不输出对语音输入的响应。例如，具有较低评分的设备关闭其扬声器520。在一些实现方式中，具有较低评分的设备也关闭其麦克风516，使得仅具有最高评分的设备正在检测进一步的语音输入。在一些实现方式中，根据由第一电子设备生成的质量评分在由多个电子设备生成的语音输入的质量评分当中不是最高的确定，电子设备190放弃对所检测的语音输入输出可听响应，并且可以输出可视响应(例如，设备未被确定为主导者的可视指示)。

在一些实现方式中，多个电子设备通过本地网络可通信地耦合，并且通过本地网络执行传送和接收。电子设备190通过本地网络(例如，本地网络104)可通信地耦合，并且可以通过本地网络彼此传送它们的评分。例如，设备可以通过本地网络多播或广播其评分。

如果设备中的至少一个不在本地网络上，则设备可以将其评分传送到语音助理服务器112。在一些实现方式中，设备主导者仲裁模块780将所接收的评分传送到设备，以及设备确定它们相应的评分是否是最高的。在一些实现方式中，设备主导者仲裁模块确定哪个评分是最高的，并且将确定的结果传送给设备。在一些实现方式中，集线器设备可以包括类似于设备主导者仲裁模块780的模块并且起相似的作用。

在一些实现方式中，质量评分包括语音输入的检测置信等级；质量评分是用于语音输入样本的置信等级值。在一些实现方式中，质量评分包括检测语音输入的信号与噪声的比等级；质量评分是用于语音输入样本的信号与噪声的比或值(例如，信号与噪声的比)。

在一些实现方式中，电子设备190识别语音输入中的命令，并且根据命令的类型与第一电子设备相关的确定，输出对所检测的语音输入的可听和/或可视响应。如果语音输入中的命令或请求被识别为与检测语音输入的多个设备中的一个设备特别相关的命令或请求，则该设备输出对该语音输入的响应，并且其他设备放弃输出该响应，即使与其命令具有特定相关性的设备在关于语音输入的设备当中不具有最高评分。具有特定相关性的命令或请求的示例包括视频回放请求(例如，对于演播或电视设备)和音乐回放请求(例如，对于音频系统或扬声器系统)。此外，如果命令或请求识别到用户希望履行该请求的特定设备(例如，因为命令明确地识别该设备，所以命令“在我的卧室TV上播放视频”具有与卧室中的TV设备的特别相关性)，或者命令/请求包括适用于设备的当前状态的设备状态参数(例如，“屏幕关闭”命令与屏幕为开启的设备相关，而与没有屏幕或屏幕关闭的设备无关)，则命令或请求可以具有与设备的特别相关性。

以这种方式，多个设备捕获语音输入的相应的样本，并且确定关于哪个样本是最佳的。基于该确定，这些设备中的一个响应于语音输入和来自用户的进一步语音输入。在一些实现方式中，多个设备对每个语音输入或者以预定数量的语音输入的间隔重复上述过程(例如，以每隔5个语音输入或以每隔10个语音输入再次确定主导者)。

在一些实现方式中，多个设备检测语音输入并且将其捕获的语音输入样本发送到语音助理服务器112。语音助理服务器112聚合样本或选择最佳质量样本用于处理，或者比较这些样本以获得每个样本的最佳部分。在一些实现方式中，当多个设备正在接收和检测语音输入时，设备分别显示正在监听用户的可视指示(例如，预定义的LED图案)。

噪声降低的示例过程

图7是图示根据一些实现方式的降低语音接口设备周围的噪声的方法1300的流程图。方法1300在具有一个或多个麦克风、扬声器、一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备190处实现。电子设备190被配置为通过包括基于语音的可供性(例如包括热词的语音输入)的多种可供性中的任何一种来唤醒。

电子设备确定电子设备周围的环境的当前噪声分布(1302)。在电子设备190是空闲的时，其可以运行噪声模块558(例如，噪声确定模块572)以确定其周围环境的噪声分布。在一些实现方式中，确定当前噪声分布包括确定噪声的噪声的等级(例如，音量)，以及捕获和处理环境噪声。该处理可以包括例如确定环境噪声的频率和其它参数。

电子设备确定噪声分布是否干扰基于语音的可供性(1304)。电子设备190将所确定的噪声分布与噪声分布存储576中的噪声分布进行比较并且评估噪声分布的参数，以确定噪声分布(即，电子设备190周围的当前噪声)是否干扰基于语音的可供性。

根据噪声分布干扰基于语音的可供性的确定，电子设备190向用户呈现提示以使用多个可供性中的除基于语音的可供性之外的可供性来唤醒电子设备(1306)。提示指示用户使用除基于语音的可供性之外的另一可供性来唤醒电子设备190。在一些实现方式中，提示也是或以其他方式包括周围噪声干扰热词识别的指示。例如，电子设备190可以在LED522上显示预定图案，该预定图案指示周围噪声干扰基于语音的可供性并且向用户提示用户应当使用另一可供性来唤醒设备(例如，按压按钮512、触摸触摸传感器阵列514、使用诸如智能电话的可通信地耦合到电子设备190的另一设备)。指示/提示可以被显示在显示器524上，或指示/提示可以通过扬声器520输出为声音或音调。

在一些实现方式中，其中，基于语音的可供性包括说出的热词。基于语音的可供性包括用户说出来唤醒电子设备190的热词，如上所述。

在一些实现方式中，确定噪声分布是否干扰基于语音的可供性包括，确定噪声分布是否消极地影响识别由电子设备检测到的语音输入中的热词。电子设备190确定(由噪声分布表示的)周围的噪声是否将消极地影响由电子设备190检测/识别热词(例如，噪声足够大以淹没用户的具有热词的语音输入，噪声具有会干扰用户的具有热词的语音输入的频率分布，该噪声将使用户的具有该热词的语音输入失真)。

在一些实现方式中，确定噪声分布是否消极地影响识别语音输入中的热词包括，将噪声分布与电子设备相关联的热词识别过程的噪声等级阈值比较。电子设备190(或语音助理服务器112)的识别分析模块568分析电子设备190的热词识别模块562(例如，当电子设备190是空闲的时)，以确定噪声将对由模块使用的算法或过程引起问题的噪声阈值。这些阈值被保存并且可以将其与当前噪声分布比较，以确定当前噪声分布是否将对热词识别模块562造成问题。热词识别模块的分析是相对于电子设备190的，由此，阈值在设备之间可以是不同的。

在一些实现方式中，确定噪声分布是否消极地影响语音输入中的热词的识别包括，将噪声分布与语音音量等级阈值比较，其中，基于离电子设备的预定距离来定义语音音量等级阈值。在需要基于预定距离的确定(例如，基于“典型用户距离”的预定义距离，超过该典型用户距离，语音输入会衰减)的情况下，电子设备190(或语音助理服务器112)的用户音量阈值模块570执行对用户的语音输入的分析，以确定用户将说出语音输入的最大舒适音量等级。

在一些实现方式中，确定噪声分布是否消极地影响识别语音输入中的热词包括，将噪声分布和与电子设备相关联的噪声分布的预定的集合比较，其中，已知噪声分布的预定集合的噪声分布消极地影响语音输入中的由电子设备对热词的识别。电子设备190将噪声分布与干扰热词检测的(例如，噪声分布存储576中)先前噪声分布比较。

在一些实现方式中，电子设备包括按钮，并且多个可供性中除了基于语音的可供性之外的可供性包括激活按钮。电子设备190包括物理按钮512，并且用户能够通过激活按钮512来唤醒设备，而不是说出具有热词的语音输入。

在一些实现方式中，向用户呈现提示以使用多个可供性中除了基于语音的可供性之外的可供性来唤醒电子设备，包括照亮电子设备上对应于多个可供性中的基于按钮的可供性的按钮。按钮512可以包括照明(例如，嵌入式LED灯)，以及电子设备190可以通过点亮按钮512提示用户使用按钮512而不是说出热词。

在一些实现方式中，向用户呈现提示以使用多个可供性中除了基于语音的可供性之外的可供性来唤醒电子设备包括输出预定的可听声音。电子设备190可以通过扬声器520输出预定声音或音调(或声音或音调的集合)来提示用户使用替代的可供性。

在一些实现方式中，电子设备包括显示器，并且向用户呈现提示以使用多个可供性中除了基于语音的可供性之外的可供性来唤醒电子设备包括在显示器上显示提示。电子设备190可以通过在显示器524上显示提示消息来提示用户使用替代的可供性。

在一些实现方式中，电子设备包括一个或多个LED灯，并且向用户呈现提示以使用多个可供性中不同于基于语音的可供性的可供性来唤醒电子设备包括使用一个或多个LED灯显示提示。电子设备190可以通过在LED 522上显示预定灯图案来提示用户使用替代的可供性。

图8A和图8B是根据一些实现方式的语音激活的电子设备190的正视图400和后视图420。电子设备190被设计为暖色且吸引人，并且自然地装配在家庭的许多区域中。电子设备190包括一个或多个麦克风402和全色LED 404的阵列。全色LED 404能够隐藏在电子设备190的上表面下方，并且当它们不亮时对用户不可见。在一些实现方式中，全色LED 404的阵列以环的方式被物理地布置。此外，电子设备190的背面可选地包括被配置为耦合到电源的电源连接器408。

在一些实现方式中，电子设备190呈现没有可见按钮的简洁外观，并且与电子设备190的交互是基于语音和触摸手势。可替选地，在一些实现方式中，电子设备190包括有限数目的物理按钮(例如，其背面上的按钮406)，并且除了语音和触摸手势外，与电子设备190的交互是进一步基于按压按钮。

在一些实现方式中，给出简化和低成本的电子设备190，电子设备190包括全色发光二极管(LED)的阵列，而不是全屏显示器。采用LED设计语言来配置全色LED的阵列的照明，并且实现指示电子设备190的不同语音处理状态的不同可视图案。LED设计语言由应用于全色LED中的固定集合的颜色、图案和特定运动的语法组成。语言中的元素被组合以在使用电子设备190期间，可视地指示特定设备状态。在一些实现方式中，全色LED的照明旨在明确地描绘其他重要状态当中的电子设备190的被动监听状态和主动监听状态。全色LED的放置符合电子设备190的物理限制，并且全色LED的阵列能够被使用在由第三方原始设备制造商(OEM)基于特定技术(例如，Google助理)制造的扬声器中。

当在由第三方OEM基于特定技术制造的扬声器中使用全色LED阵列时，全色LED和LED设计语言被配置为适合OEM扬声器的相对应物理用户界面。在这种情况下，OEM扬声器的设备状态保持不变，而表示设备状态的特定可视图案可能变化(例如，全色LED的颜色可以是不同，但通过相似的动画效果显示全色LED的颜色)。

在语音激活的电子设备190中，当电子设备190处理从其周围环境中收集的音频输入但不存储音频输入或将音频输入传送到任何远程服务器时，发生被动监听。相反，当电子设备190存储从其周围环境收集到的音频输入和/或与远程服务器共享音频输入时，发生主动监听。根据本申请的一些实现方式，电子设备190仅被动地监听周围环境中的音频输入，而不会破坏电子设备190的用户的隐私。

图8C是根据一些实现方式的语音激活的电子设备190的俯视图，以及图8D示出根据一些实现方式的由用于指示语音处理状态的全色LED的阵列显示的六个可视图案。在一些实现方式中，电子设备190不包括任何显示屏，并且与全屏显示器相比，全色LED提供简单且低成本的可视用户界面。全色LED可能隐藏在电子设备的上表面下方，并且当不亮时对用户不可见。参考图8C和图8D，在一些实现方式中，全色LED阵列以环的反函数被物理地设置。

对实施例做出了详细的参考，其示例在附图中被示出。在上文详述的描述中，已经阐述了许多具体细节，以便提供对各个所述的实现方式的全面理解。然而，对本领域的普通技术人员来说，显而易见的是，可以在没有这些具体细节的情况下实施各个所述的实现方式。在其他实例中，未详细地描述众所周知的方法、过程、组件、电路和网络，以免不必要地混淆实现方式的方面。

还将理解到，尽管术语第一、第二等在某些实例中被用于描述各种元件，但这些元件不应受这些术语的限制。这些术语仅用于区分各个元件。例如，第一设备可以被称为第二设备，以及类似地，第二设备可以被称为第一设备，而不脱离各个所述的实现方式的范围。第一设备和第二设备是两种设备，但它们不是相同设备。

本文的各个所述实现方式的描述中使用的术语仅出于描述特定实现方式的目的，而不是限制性的。如在各个所述的实现方式和所附权利要求的描述中所使用的，单数形式“一(a)”、“一(an)”和“所述(the)”旨在也包括复数形式，除非上下文另外清楚地指明。将进一步理解的是如本文使用的术语“和/或”是指和涵盖相关列出的项中的一个或多个的任何和所有可能表示。将进一步理解到当在本文中使用时，术语“包括”和/或“包含”指定所述特征、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

如本文所使用的，术语“如果”根据上下文可选地被解释为是指“何时”或“基于”或“响应于确定”或“响应于检测”或“根据确定”。类似地，短语“如果确定”或“如果检测到[所述条件或事件”可选地取决于上下文被解释为是指“在确定时”或“响应于确定”或“在检测到[所述条件或事件]时”或“响应于检测到[所述条件或事件]”或“根据检测到所述条件或事件的确定”。

对于以上讨论的系统收集关于用户的信息的情形，可以为用户提供加入/退出可以收集个人信息(例如，关于用户的偏好或智能设备的使用率的信息)的程序或功能组件的机会。此外，在一些实现方式中，某些数据可以在被存储或使用前以一种或多种方式进行匿名化，从而移除个人可标识信息。例如，用户的身份可以被匿名化，使得不能够对用户或与用户相关联地确定个人可标识信息，以及概括用户偏好或用户交互(例如，基于用户人口统计学来概括)，而不是与特定用户相关联。

虽然各个附图中的一些图按特定次序示出多个逻辑阶段，但是非次序相关的阶段可以被重新排序，以及其他阶段可以被组合或分解。虽然具体提及了一些重新排序或其他分组，但是对于本领域的普通技术人员来说，其他部分将是显而易见的，因此，本文呈现的排序和分组不是替选方案的详尽列表。此外，应当认识到，这些阶段可以用硬件、固件、软件或其任意组合来实现。

为了说明的目的，参照具体实现方式描述了进行上述描述。然而，上文的示例论述不旨在穷举或将权利要求的范围限制到所公开的精确形式。鉴于上述教导，许多修改和变化是可能的。选择实现方式以便最好地说明权利要求及其实际应用所依据的原理，从而使得本领域的技术人员最佳地使用具有适合于所预期的特定用途的各种改进的实现方式。

Claims

1.一种用于噪声降低的方法，包括：

在具有一个或多个麦克风、扬声器、一个或多个处理器，以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备处，所述电子设备被配置为通过多个可供性中的任一个来唤醒，所述多个可供性包括i)包括说出的热词的基于语音的可供性以及ii)除所述基于语音的可供性之外的可供性：

确定所述电子设备周围的环境的噪声分布，其中所述噪声分布包括频率分布；

确定所述噪声分布是否会干扰所述基于语音的可供性，其中确定所述噪声分布是否会干扰所述基于语音的可供性包括：通过确定所述频率分布是否会干扰所述热词，确定所述噪声分布是否会负面地影响识别由所述电子设备检测到的语音输入中的所述热词；以及

根据所述噪声分布会干扰所述基于语音的可供性的确定，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的所述可供性来唤醒所述电子设备。

2.如权利要求1所述的方法，其中，确定所述噪声分布是否会负面地影响识别语音输入中的所述热词包括：

将所述噪声分布与和所述电子设备相关联的噪声分布的预定集合相比较，其中，已知所述噪声分布的预定集合中的噪声分布负面地影响由所述电子设备识别语音输入中的所述热词。

3.如权利要求1或2所述的方法，其中，所述电子设备包括按钮，并且所述多个可供性中除所述基于语音的可供性之外的可供性包括所述按钮。

4.如权利要求3所述的方法，其中，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备包括：

照亮所述电子设备上的所述按钮。

5.如权利要求1或2所述的方法，其中，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备包括：

输出预定义的可听声音。

6.如权利要求1或2所述的方法，其中，所述电子设备包括显示器，并且其中，向用户呈现提示以使用所述多个可供性中除所述基于语音的可供性之外的可供性来唤醒所述电子设备包括：

在所述显示器上显示所述提示。

7.如权利要求1或2所述的方法，其中，所述电子设备包括一个或多个LED灯，并且其中，向用户呈现提示以使用所述多个可供性中不同于所述基于语音的可供性的可供性来唤醒所述电子设备包括：

使用所述一个或多个LED灯来显示所述提示。

8.一种电子设备，包括：

一个或多个麦克风；

扬声器；

一个或多个处理器；以及

存储器，所述存储器存储要由所述一个或多个处理器执行的一个或多个程序，所述电子设备被配置为通过包括基于语音的可供性的多个可供性中的任一个来唤醒，所述一个或多个程序包括用于执行权利要求1-7中的任一项的方法的指令。

9.一种存储一个或多个程序的非瞬时性计算机可读存储介质，所述一个或多个程序包括指令，当所述指令由具有一个或多个麦克风、扬声器、和一个或多个处理器的电子设备执行时，所述电子设备被配置为通过包括基于语音的可供性的多个可供性中的任一个来唤醒，使所述电子设备执行权利要求1-7中的任一项的方法。