CN108877126A

CN108877126A - 经由居家助手进行活动监视的系统、方法和设备

Info

Publication number: CN108877126A
Application number: CN201810195770.4A
Authority: CN
Inventors: 布赖恩·赫林
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-12
Filing date: 2018-03-09
Publication date: 2018-11-23
Also published as: US11830333B2; EP3622493A1; US20200410831A1; US10650647B2; US20180330589A1; US10380852B2; US11501615B2; US20240038037A1; EP4123609A1; EP3622493B1; US20230031831A1; US20190362608A1; WO2018208350A1

Abstract

本申请涉及经由居家助手进行活动监视的系统、方法和设备，包括用于监视居家环境中的活动的方法、设备、和系统。在一个方面中，在语音助手设备处执行的一种方法包括：(1)当在助手模式下操作时，接收在监视模式下操作的居住者语音命令；(2)响应于所述命令，转变到在所述监视模式下操作；(3)获得一个或者多个监视准则；(4)当在所述监视模式下操作时，检测声音；(5)获得有关所述声音是否满足所述一个或者多个监视准则的确定；以及(6)根据所述声音满足所述一个或者多个监视准则的确定：(a)获得所述声音的类别；以及(b)基于声音具有第一声音类别，经由所述一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应。

Description

经由居家助手进行活动监视的系统、方法和设备

技术领域

本文大体上涉及活动监视，包括但不限于：用于经由居家(home)助手设备来监视活动的方法和系统。

背景技术

集成有麦克风的电子设备已经被广泛用于收集来自用户的语音输入并且根据该语音输入实现语音启动式功能。例如，许多最先进的设备包括配置为使用语音输入来发起电话呼叫、进行餐馆搜索、以及完成许多其它任务的语音助手特征(例如，Siri、GoogleAssistant)。

另外，需要可以警告居民在住宅中或者住宅周围的意外或者未核准的活动的住宅监视设备。因此，期望语音助手设备能够监视房宅内的活动并且向居民和/或当局报告异常。

发明内容

因此，需要用于经由一个或者多个语音助手设备来监视有关房宅的活动的方法、设备、和系统。在随附权利要求书的范围内的系统、方法和设备的各个实施方式分别具有若干方面，这些若干方面中没有一个方面唯一地限定本文所描述的属性。在不限制随附权利要求书的范围的情况下，在考虑了本公开之后，并且具体在考虑了标题为“具体实施方式”的章节之后，将明白各个实施方式的各个方面如何被用于监视有关房宅的活动。

利用语音助手，有机会通过监视用户的居家环境并且在检测到意外事件时警告用户来使用户放心。当助手处于“住宅监视”模式时，启用麦克风和其它传感器，并且对音频或者其它有用的数据进行分析(例如，在服务器系统处进行分析)。如果检测到异常，则可以通知用户或者当局。然后，用户可以选择回顾意外事件，并且可选地，回顾到达助手设备和/或来自助手设备的实况流数据。

例如，一家人周末要去度假。在他们出门时，母亲要求他们的语音助手设备：“We’ll be away until Sunday night,can you keep an eye on things？(我们直到星期天晚上都不在家，你能照看财产吗？)”语音助手响应：“Ok Laura,I’ll notify you if I hearanything out of the ordinary.(好的Laura，如果我发现任何不寻常的事，我会通知您的。)”

在第一天，各种正常的可听事件发生而没有发生事故-汽车经过、鸟儿歌唱以及下了一点雨。助手注意到这些事件，但是这些事件被认为是常规的背景噪声。然而，在星期天早上，后门被强制打开并且闯入者进入住房。Laura很快得到通知，包括她能够回顾的事件记录。在监听了实况流之后，她联系当局，而化险为夷。

在一些实施方式中，用户主动启用住宅监视模式，可选地指定开始时间和结束时间。在一些实施方式中，类似地禁用监视(例如，“Hi assistant,we’re back！(嗨，助手，我们回来了！)”)，其中，确认和/或通知出现在用户的电话上或者来自助手设备。

在一些实施方式中，助手学习特定住房的正常背景噪声。例如，在使麦克风打开一段时长以收集必要数据的一个或者多个训练会话的情况下，语音助手开始辨识日常声音。总的来说，这些数据还可以提供总体人群的合适基线背景模型。

在一些实施方式中，当意外事件发生时，按照各种方式告知用户(例如，SMS、电子邮件、聊天、和/或电话呼叫)。在一些实施方式中，助手还例如通过打开灯、模拟吠犬、和/或联系邻居来在本地作出反应。

在一些实施方式中，一旦被警示发生意外事件，用户就可以从语音助手接收实时信息以更好地了解情形。例如，可以将实况音频流发送至用户设备。在一些实施方式中，也在没有通知的情况下直接访问音频流。

在一些实施方式中，除了监视住宅之外，助手还对住宅内的常规活动进行模仿。例如，基于学习的或者指定的时间表，打开和关闭住宅中的灯、电视机、和/或音频设备以使得看起来有人在家。

在一些实施方式中，除了用户对监视特征的明确管理之外，助手还配置为自动执行一些监视。例如，助手可以基于学习到的时间表或者用户的电话离开住宅的时间自动启用和/或禁用监视模式。

在一些实施方式中，用户明确要求语音助手为他/她监视住房。当被启用时，助手监听大声的和/或意外的噪声并且作出反应，例如，通过假装狗或者说话(“Who’s there？(谁在那里？)”)。在一些实施方式中，当用户关闭特征时，助手简要地总结听到的内容。

在一些实施方式中，将声音保存到音频历史记录中，所以，用户可经由链接或者搜索选项访问发生的事件的转录。在一些实施方式中，语音助手将记录中继给用户(例如，“Doyou want to hear them now？(您现在想听记录吗？)”)。

在一些实施方式中，当已知用户在家——例如通过其设备位置确定——时，抑制模拟响应(例如，吠叫)。在一些实施方式中，如果在用户已经或者即将到家之后检测到噪声，则该信号用于从吠叫切换到“Are you home？(您回来了？)”。在一些实施方式中，经由来自核准用户的“I’m home(我回来了)”或者“stop(停止)”命令来关闭警卫特征。

在一个方面中，一些实施方式包括一种能够在助手模式和监视模式下操作的语音助手设备。当在助手模式下操作时，该设备接收在监视模式下操作的居住者(occupant)语音命令。响应于该居住者命令，设备从在助手模式下操作转变到在监视模式下操作。设备获得一个或者多个监视准则，并且在监视模式下操作时检测声音。设备获得关于声音是否满足一个或者多个监视准则的确定。根据声音满足一个或者多个监视准则的确定：(1)获得声音的类别；以及(b)基于声音具有第一声音类别，经由一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应。

在另一方面中，一些实施方式包括一种用于监视居家环境中的活动的方法，该方法包括：(1)当在助手模式下操作时，接收在监视模式下操作的居住者语音命令；(2)响应于该居住者语音命令，从在助手模式下操作转变到在监视模式下操作；(3)获得一个或者多个监视准则；(4)当在监视模式下操作时，检测声音；(5)获得有关声音是否满足一个或者多个监视准则的确定；以及(6)根据声音满足一个或者多个监视准则的确定：(a)获得声音的类别；以及(b)基于声音具有第一声音类别，经由一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应。

在再一方面中，一些实施方式包括一种计算机系统，该计算机系统包括一个或者多个处理器和耦合至该一个或者多个处理器的存储器，该存储器存储配置为由一个或者多个处理器执行的一个或者多个程序，该一个或者多个程序包括用于执行本文所描述的方法中的任何方法的指令。

在再一方面中，一些实施方式包括一种存储一个或者多个程序的非暂时性计算机可读存储介质，该一个或者多个程序用于由计算系统的一个或者多个处理器执行，该一个或者多个程序包括用于执行本文所描述的方法中的任何方法的指令。

因此，设备、存储介质、和计算系统设置有用于监视住宅活动的方法，从而提高了这样的系统的有效性、效率、和用户满意度。这样的方法可以补充或者替代用于监视住宅活动的常规方法。

附图说明

为了更好地理解各个所描述的实施方式，应当结合以下附图来参考下面的实施方式描述，其中各附图中相似的附图标记指代对应的部分。

图1是根据一些实施方式的包括多个智能设备的示例操作环境。

图2是图示了根据一些实施方式的，包括多个语音启动式设备和服务器系统的另一示例操作环境的框图。

图3A是图示了根据一些实施方式的代表性语音启动式设备的框图。

图3B是图示了根据一些实施方式的在图3A中的语音启动式设备的音频处理模块的子模块的框图。

图4是图示了根据一些实施方式的代表性服务器系统的框图。

图5A和图5B是根据一些实施方式的代表性语音启动式设备的前视图和后视图。

图5C是根据一些实施方式的代表性语音启动式设备的顶视图。

图5D示出了根据一些实施方式的通过用于指示代表性语音启动式设备的语音处理状态的全色LED阵列显示的六个视觉图案。

图6A至图6F图示了根据一些实施方式的示例语音启动式设备交互。

图7A至图7B图示了根据一些实施方式的语音启动式设备的代表性用户界面。

图8是根据一些实施方式的用于利用语音助手设备来监视活动的方法的流程图表示。

贯穿附图中的若干视图，相似的附图标记指代对应的部分。

具体实施方式

现在将详细参考实施方式，在附图中图示了这些实施方式的示例。在下面的详细描述中，阐述了许多具体细节以提供对各种所描述的实施方式的透彻理解。然而，对于本领域的技术人员而言将显而易见的是，可以在没有这些具体细节的情况下实践各个所描述的实施方式。在其它实例中，没有详细描述众所周知的方法、过程、组件、电路、和网络以不必要地模糊实施方式的各个方面。

语音启动式设备——诸如语音助手和居家助手——被配置为监听其周围并且响应用户请求。这些相同的设备可以进一步配置为在用户离开时监视周围环境，从而向用户提供额外的安全性并使用户放心。语音启动式设备可以监听声音并且对声音进行分类以确定是否发生了用户可能感兴趣的事件。然后，设备可以警示用户、警示当局、和/或对事件进行响应(例如，通过询问谁在那里，或者对犬吠进行模拟)。另外，警示可以包括供用户回放的事件的记录、监听住宅中的当前声音的选项、和/或用于用户希望设备如何作出么响应的选项。

在智能居家环境中，语音启动式设备可以充分利用互连的设备的传感器和输出。例如，语音启动式设备可以使用来自其它智能设备的数据来更好地对检测到的事件进行分类以确定居家环境是否被占用，和/或经由另一智能设备来输出事件响应(例如，在具有扬声器并且安装在后院的智能相机处对犬吠进行模拟)。

图1是根据一些实施方式的示例操作环境100。操作环境100包括具有各种集成设备的结构150(例如，住房、办公楼、车库、或者活动房屋)。要了解，设备也可以集成到不包括整个结构150的操作环境100中，结构150诸如公寓、共管公寓、或者办公地点。进一步地，操作环境100可以控制和/或耦合至在实际结构150外部的设备。实际上，操作环境100中的若干设备不需要物理地位于结构150内。例如，控制泳池加热器114或者灌溉系统116的设备可以位于结构150的外部。

描绘的结构150包括多个房间152，该多个房间152经由壁154至少部分地彼此隔开。壁154可以包括内壁或者外壁。每个房间可以进一步包括地板156和天花板158。设备可以安装在壁154、地板156或者天花板158上，粘贴到壁154、地板156或者天花板158，与壁154、地板156或者天花板158集成，和/或由壁154、地板156或者天花板158支撑。在一些实施方式中，电子标签粘贴到壁154、地板156、天花板158、窗户、或者门。

在一些实施方式中，操作环境100的集成设备包括智慧型多感测网络连接的设备，该智慧型多感测网络连接设备在智能居家网络(例如，图2，本地网络204)中彼此无缝集成和/或与中央服务器或者云计算系统无缝集成以提供各种有用的智能居家功能。可选地，操作环境100包括一个或者多个语音启动式助手设备180(有时也称为语音助手或者居家助手)、一个或者多个智慧型多感测网络连接的恒温器102(以下称为“智能恒温器102”)、一个或者多个智能网络连接的多感测危险检测单元104(以下称为“智能危险检测器104”)、一个或者多个智慧型多感测网络连接的入口通道接口设备106和120(例如，“智能门铃106”和“智能门锁120”)、和一个或者多个智慧型多感测网络连接的警报系统122(以下称为“智能警报系统122”)。

在一些实施方式中，语音启动式助手设备180响应口头用户请求(例如，当处于助手模式时)并且响应在操作环境100中检测到的音频事件(例如，当处于监视模式时)。

在一些实施方式中，一个或者多个智能恒温器102检测环境气候特性(例如，温度和/或湿度)并且相应地控制HVAC系统103。例如，相应智能恒温器102包括环境温度传感器。

一个或者多个智能危险检测器104可以包括指向各个热源(例如，炉灶、烤箱、其它电器、壁炉等)的热辐射传感器。例如，在厨房153中的智能危险检测器104包括指向炉灶/烤箱112的热辐射传感器。热辐射传感器可以确定其指向的相应热源(或者其一部分)的温度，并且可以提供对应的黑体辐射数据作为输出。

智能门铃106和/或智能门锁120可以检测人接近或者离开位置(例如，外门)，控制门铃/门锁定功能(例如，从便携式电子设备166-1接收致动智能门锁120的闩的用户输入)，经由音频或者视觉方式通告人的接近或者离开，和/或控制有关安全系统的设定(例如，在居住者来去时启动或者停用安全系统)。

智能警报系统122可以检测极为接近的个体的存在(例如，通过使用内置IR传感器)，发出警报(例如，通过内置扬声器，或者通过向一个或者多个外部扬声器发送命令)，并且向智能居家网络内/外的实体或者用户发送通知。在一些实施方式中，智能警报系统122还包括用于验证用户的身份的一个或者多个输入设备或者传感器(例如，小键盘、生物计量扫描仪、NFC收发器、麦克风)和一个或者多个输出设备(例如，显示器、扬声器)。在一些实施方式中，智能警报系统122还可以设置为“武装”模式，从而使得检测到触发条件或者事件使得警报响起，除非执行解除武装动作。

在一些实施方式中，操作环境100包括一个或者多个智慧型多感测网络连接的壁开关108(以下称为“智能壁开关108”)以及一个或者多个智慧型多感测网络连接的壁插座接口110(以下称为“智能壁插座110”)。智能壁开关108可以检测环境照明状况，检测房间占用状态，并且控制一个或者多个灯的功率和/或明暗状态。在一些实例中，智能壁开关108还可以控制风扇——诸如吊扇——的功率状态或者速度。智能壁插座110可以检测房间或者围区(enclosure)的占用并且控制对一个或者多个壁插座的电力供应(例如，使得如果没有人在家则不向插座供电)。

在一些实施方式中，图1的操作环境100包括多个智慧型多感测网络连接的电器112(以下称为“智能电器112”)，诸如冰箱、炉灶、烤箱、电视机、洗衣机、烘干机、灯、音响、对讲系统、车库门开启器、落地扇、吊扇、壁式空调、泳池加热器、灌溉系统、安全系统、空间加热器、窗式空调单元、机动管道通风口等。在一些实施方式中，当插入时，电器可以向智能居家网络通告自身，诸如通过指示其是什么类型的电器，并且其可以自动地与智能居家的控件集成。可以通过有线或者无线通信协议来促进电器与智能居家的这样的通信。智能居家还可以包括可以由智能壁插座110控制的各种非通信传统电器140，诸如，旧的常规洗衣机/烘干机、冰箱等。操作环境100可以进一步包括可以由智能危险检测器104或者智能壁开关108提供的IR信号控制的各种部分通信传统电器142，诸如，红外(“IR”)控制的壁式空调或者其它IR控制的设备。

在一些实施方式中，操作环境100包括配置为提供在操作环境100中的视频监视和安全的一个或者多个网络连接的相机118。该相机118可以用于确定结构150和/或在结构150中的特定房间152的占用，并且因此可以充当占用传感器。例如，可以处理由相机118捕获到的视频以识别在结构150中(例如，在特定房间152中)的居住者的存在。可以基于例如特定个体的外观(例如，身高、面部)和/或移动(例如，其步行/步态)来识别该特定个体。可选地，相机118包括一个或者多个传感器(例如，IR传感器、雷达系统、运动检测器)、输入设备(例如，用于捕获音频的麦克风)、和输出设备(例如，用于输出音频的扬声器)。

此外或者替选地，操作环境100可以包括一个或者多个其它占用传感器(例如，智能门铃106、智能门锁120、触摸屏、IR传感器、麦克风、环境光传感器、运动检测器、智能夜灯170等)。在一些实施方式中，操作环境100包括射频识别(RFID)读取器(例如，在每个房间152或者其一部分中)，其基于位于居住者上或者嵌入居住者的RFID标签来确定占用。例如，RFID读取器可以集成到智能危险检测器104中。

操作环境100还可以包括与在住宅宅所外部但是在住宅的接近地理范围内的设备的通信。例如，操作环境100可以包括向操作环境100内的其它设备传送当前泳池温度和/或接收用于控制泳池温度的命令的泳池加热器监视器114。同样，操作环境100可以包括传送有关操作环境100内的灌溉系统的信息和/或接收用于控制这样的灌溉系统的控制信息的灌溉监视器116。

凭借网络连接，即使用户不接近设备，图1的智能居家设备中的一个或者多个智能居家设备也可以进一步允许用户与设备进行交互。例如，用户可以通过使用计算机(例如，台式计算机、膝上型计算机、或者平板)或者其它携式电子设备166(例如，移动电话，诸如，智能电话)来与设备通信。网页或者应用可以配置为接收来自用户的通信并且基于该通信来控制设备和/或向用户呈现有关设备的操作的信息。例如，用户可以查看设备(例如，炉灶)的当前设定点温度并且通过使用计算机来调整当前设定点温度。用户可以在该远程通信期间处于结构中或者在结构外部。

如上面讨论的，用户可以通过使用网络连接的计算机或者便携式电子设备166来控制操作环境100中的智能设备。在一些示例中，居住者中的一些或者全部(例如，居住在住宅中的个体)可以向操作环境100注册其设备166。可以在中央服务器处进行这样的注册以将居住者和/或设备认证为与住宅相关联并且准许居住者使用该设备来控制住宅中的智能设备。居住者可以使用其注册设备166来远程控制住宅中的智能设备，诸如，当居住者在工作或者休假时。当居住者实际位于住宅内部时——诸如当居住者坐在住宅内部的沙发上时，居住者还可以使用其注册设备来控制智能设备。应当了解，代替注册设备166或者除了注册设备166之外，操作环境100可以推断哪些个体居住在住宅中，并且因此是居住者，以及哪些设备166与这些个体相关联。同样，智能居家环境可以“学习”谁是居住者并且准许与这些个体相关联的设备166控制住宅中的智能设备。

在一些实施方式中，除了包含处理能力和感测能力之外，设备102、104、106、108、110、112、114、116、118、120、180、和/或122(统称为“智能设备“)能够与其它智能设备、中央服务器或者云计算系统、和/或网络连接的其它设备进行数据通信并且信息共享。可以通过使用各种定制的或者标准的无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)中的任何一种无线协议和/或各种定制的或者标准的有线协议(例如，以太网、HomePlug等)中的任何一种有线协议或者任何其它合适的通信协议——包括到本文的提交日期为止还未开发的通信协议——来实施数据通信。

在一些实施方式中，智能设备用作无线或者有线中继器。在一些实施方式中，智能设备中的第一智能设备经由无线路由器来与智能设备中的第二智能设备通信。智能设备可以经由至诸如互联网162的网络的连接(例如，网络接口160)来进一步彼此通信。通过互联网162，智能设备可以与智能居家提供者服务器系统164(在本文中也称为中央服务器系统和/或云计算系统)通信。智能居家提供者服务器系统164可以与制造者、支持实体、或者与智能设备相关联的服务提供者相关联。在一些实施方式中，用户能够通过使用智能设备本身来联系客户支持，而不需要使用其它通信手段——诸如电话或者互联网连接的计算机。在一些实施方式中，自动将软件更新从智能居家提供者服务器系统164发送至智能设备(例如，当软件更新可用时、当购买软件更新时、或者以例行间隔)。

在一些实施方式中，网络接口160包括常规网络设备(例如，路由器)，并且图1的操作环境100包括直接地或者经由网络接口160通信地耦合至网络162的集线器设备。集线器设备进一步通信地耦合至上述智慧型多感测网络连接的设备(例如，操作环境100中的智能设备)中的一个或者多个设备。可选地，这些智能设备中的每一个智能设备通过使用至少在操作环境100中可用的一个或者多个无线电通信网络(例如，ZigBee、Z-Wave、Insteon、蓝牙、Wi-Fi和其它无线电通信网络)来与集线器设备通信。在一些实施方式中，可以经由在智能电话、居家控制器、膝上型计算机、平板计算机、游戏控制台或者相似的电子设备上运行的应用(有时称为智能居家应用)来控制集线器设备和与集线器设备耦合/耦合至集线器设备的设备和/或与其交互。在一些实施方式中，这样的控制器应用的用户可以查看集线器设备或者耦合的智能设备的状态，将集线器设备配置为与新引入到居家网络的智能设备互操作，调试新的智能设备，以及调整或者查看连接的智能设备的设定等。在一些实施方式中，集线器设备将低能力智能设备的能力扩展为匹配相同类型的高能力智能设备的能力，集成多个不同设备类型的功能–甚至跨不同通信协议，并且被配置为使添加新设备和调试集线器设备简化。在一些实施方式中，集线器设备进一步包括用于存储与操作环境100中的智能设备有关或者由操作环境100中的智能设备输出的数据的本地存储设备。在一些实施方式中，数据包括以下中的一个或者多个：由相机设备输出的视频数据、由智能设备输出的元数据、智能设备的设定信息、智能设备的使用日志等。

在一些实施方式中，操作系统100包括本地存储设备以用于存储与操作环境100中的智能设备有关或者由操作环境100中的智能设备输出的数据。在一些实施方式中，该数据包括以下中的一个或者多个：由相机设备(例如相机118)输出的视频数据、由智能设备输出的元数据、智能设备的设定信息、智能设备的使用日志等。在一些实施方式中，本地存储设备经由智能居家网络(例如，图2，智能居家网络202)通信地耦合至一个或者多个智能设备。在一些实施方式中，本地存储设备经由有线和/或无线通信网络选择性地耦合至一个或者多个智能设备。在一些实施方式中，本地存储设备用于在外部网络状况较差时存储视频数据。例如，在相机118的编码比特率超过外部网络(例如，网络162)的可用带宽时使用本地存储设备。在一些实施方式中，本地存储设备在将视频数据输送至服务器系统之前暂时存储来自一个或者多个相机(例如，相机118)的视频数据。在一些实施方式中，本地存储设备是相机设备的组件。在一些实施方式中，每个相机设备包括本地存储。

要了解，“智能居家环境”可以指代住宅——诸如独户住房——的智能环境，但是本教导的范围不限于此。本教导还适用于但不限于双拼屋、联排别墅、多单元公寓楼、旅馆、零售商店、办公楼、工业建筑物或者其它结构，并且更一般地，任何居住空间或者工作空间。

还要了解，虽然可以使用术语用户、客户、安装者、房主、居住者、客人、租户、房东、维修人员等来指代在本文描述的一些特别情形的场境(context)中行动的一个或者多个人，但是这些引用不限制本教导关于正执行这样的动作的一个或者多个人的范围。因此，例如，在独户居民住宅的情况下，术语用户、客户、购买者、安装者、订户、和房主通常可能指代同一个人，因为户主通常是进行购买决定、购买单元、以及安装和配置单元的人并且也是单元的用户之一。然而，在其它场景——诸如房东-租户环境——中，关于购买单元，客户可以是房东，安装者可以是当地的公寓主管，第一用户可以是租户，并且关于遥控功能，第二用户可以再次是房东。重要的是，虽然执行动作的人的身份可能与由实施方式中的一个或者多个实施方式提供的特定优点有密切关系，但是不应当将这样的身份在其描述中解释为必要地将本教导的范围限制为具有这些特定身份的那些特定个体。

图2是图示了根据一些实施方式的，包括多个语音启动式设备和服务器系统的示例操作环境的框图。操作环境包括一个或者多个语音启动式电子设备180(例如，电子设备180-1至180-N)。可选地，一个或者多个语音启动式电子设备180位于一个或者多个位置。例如，语音启动式设备180可以全部位于结构——诸如结构150——的单个房间或者空间中；散布在结构内的多个空间中；或者散布在多个结构中(例如，住房中的一个并且用户的汽车中一个)。可选地，环境包括通信地耦合至语音启动式电子设备180的一个或者多个设备(例如，媒体设备和/或智能居家设备)(未示出)。

根据一些实施方式，语音启动式设备180通过通信网络210通信地耦合至智能居家服务器系统164的语音辅助服务器212。在一些实施方式中，语音启动式设备180中的一个或者多个(例如，图2中的语音启动式设备180-1和180-2)通信地耦合至本地网络204，该本地网络204通信地耦合至通信网络210。在一些实施方式中，本地网络204是实施在网络接口(例如，路由器)处的局域网。在一些实施方式中，通信地耦合至本地网络204的语音启动式设备180还通过本地网络204彼此通信。在一些实施方式中，语音启动式设备180彼此通信地耦合(例如，不经过本地网络204或者通信网络210)。

可选地，一个或者多个语音启动式设备180(例如，语音启动式设备180-N)通信地耦合至通信网络210并且不在本地网络204上。例如，这些语音启动式设备180不在与本地网络204相对应的Wi-Fi网络上，但是通过蜂窝连接连接至通信网络210。在一些实施方式中，通过语音辅助服务器212来执行在本地网络204上的语音启动式设备180与不在本地网络204上的语音启动式设备180之间的通信。在一些实施方式中，语音启动式设备180注册在设备注册表218中并且因此，对于语音辅助服务器212是已知的。

在一些实施方式中，操作环境还包括一个或者多个内容主机214。在一些实施方式中，内容主机214是远程内容源，根据用户语音请求从该远程内容源流送内容流送或者以其它方式获得内容。在一些实施方式中，内容主机214是语音辅助服务器212根据用户语音请求从其中检索信息的信息源。

在一些实施方式中，语音启动式设备180与在用户域中具有相应用户账户的多个用户相关联。在一些实施方式中，这些用户中的任何用户以及不与该设备相关联的用户可以向语音启动式设备180进行语音输入。在一些实施方式中，语音启动式设备180从这些用户202-1至202-M(例如，包括相关联的用户和非相关联的用户)接收这些语音输入，并且语音启动式设备180和/或语音辅助服务器212继续针对语音输入识别进行语音输入的用户。利用用户识别，可以针对识别到的用户定制对该语音输入的响应。

在一些实施方式中，环境包括多个语音启动式设备180(例如，设备180-1至180-N)。语音启动式设备180位于整个环境中(例如，全部位于结构中的房间或者空间内，散布在结构中，或者一些在结构内且一些不在结构内)。当用户202进行语音输入时，每个语音启动式设备180或者接收输入或者不接收输入(例如，如果设备离用户太远)。接收输入的设备以不同程度的质量接收输入；在设备处输入的语音样本的质量基于多个因子，包括但不限于：用户距离设备的距离和设备周围的噪声。在一些实施方式中，多个设备180基于语音输入样本的质量来在它们自己间协商用于响应用户并且接收来自用户102的进一步语音输入的领导者。

在一些实施方式中，语音启动式设备180确定设备周围的噪声水平并且确定所确定的噪声水平是否高得足以干扰对语音输入中的热词的辨识并且因此，干扰通过语音或者利用对语音请求的辨识的设备唤醒。在一些实施方式中，如果噪声水平被确定为高得足以成为干扰，则语音启动式设备180向用户指示噪声水平有干扰并且向用户提示该用户应当使用另一方式来唤醒语音启动式设备180(例如，启动按钮)。在一些实施方式中，经由相同的呈现(例如，照亮唤醒按钮)来完成对干扰噪声水平的指示和使用另一方式来唤醒设备的提示。

在一些实施方式中，一个或者多个媒体设备布置在操作环境中以向一个或者多个居住者提供媒体内容、新闻和/或其它信息。在一些实施方式中，由媒体设备提供的内容存储在本地内容源处，从远程内容源(例如，内容主机214)流送，或者在本地生成(例如，通过向操作环境的一个或者多个居住者阅读定制的新闻简报、电子邮件、文本、本地天气预报等的本地文本转语音处理器)。在一些实施方式中，媒体设备包括将媒体内容直接输出给观众(例如，一个或者多个用户)的媒体输出设备和联网以将媒体内容流送到媒体输出设备的投射设备(cast device)。媒体输出设备的示例包括但不限于：电视(TV)显示设备和音乐播放器。投射设备的示例包括但不限于：机顶盒(STB)、DVD播放器、TV盒、和媒体流送设备，诸如，Google的Chromecast^TM媒体流送设备。

在一些实施方式中，媒体设备包括接收、处理、和响应居住者的语音命令的一个或者多个语音启动式电子设备180。在一些实施方式中，语音启动式电子设备180通过以下操作来响应语音命令：生成并且提供针对语音命令的说出的响应(例如，响应于问题“whattime is it？(现在几点？)”而说出当前时间)；对用户请求的媒体内容进行流送(例如，“play a Beach Boys song(播放海滩男孩歌曲)”)；阅读为用户准备的新闻报道或者每日新闻简报；播放存储在个人助手设备或者本地网络上的媒体项；改变状态或者操作在操作环境内的一个或者多个其它连接的设备(例如，打开灯，打开/关闭电器或者媒体设备，对锁进行锁定/解锁，打开窗户等)；或者经由网络210向服务器发出对应请求。

在一些实施方式中，一个或者多个语音启动式设备180设置在操作环境中以收集用于发起各种功能——包括媒体设备的媒体播放功能——的音频输入。在一些实施方式中，这些语音启动式电子设备180(例如，设备180-1至180-N)布置在媒体设备附近，例如，在与投射设备和媒体输出设备相同的房间中。替选地，在一些实施方式中，语音启动式电子设备180布置在具有一个或者多个智能居家设备但是不具有任何媒体设备的房间中。替选地，在一些实施方式中，语音启动式电子设备180布置在没有联网电子设备的位置中。进一步地，在一些实施方式中，结构中的房间或者空间具有多个语音启动式设备180。

在一些实施方式中，语音启动式设备180包括至少一个或者多个麦克风、扬声器、处理器和存储供该处理器执行的至少一个程序的存储器。扬声器配置为允许语音启动式设备180将语音消息和其它音频(例如，可听音调或者模拟动物噪声)递送至语音启动式设备180位于操作环境中的位置。例如，广播音乐、报告音频输入处理的状态、和/或与语音启动式设备180的用户交谈或者向语音启动式设备180的用户给出指导。在一些实施方式中，使用视觉信号来向语音启动式设备180的用户提供有关音频输入处理的状态的反馈。例如，当语音启动式设备180是移动设备(例如，移动电话或者平板计算机)时，可选地，其显示屏幕配置为显示有关音频输入处理的状态的通知。

在一些实施方式中，语音启动式设备180是被网络连接以借助语音辅助服务器212和/或可选地借助云投服务服务器(未示出)来提供语音辨识功能的语音接口设备。例如，语音启动式设备180包括向用户提供音乐并且允许免注视和免提地访问语音助手服务(例如，Google Assistant)的智能扬声器。可选地，语音启动式设备180是台式计算机或者膝上型计算机、平板、包括麦克风的移动电话、包括麦克风以及可选地包括扬声器的投射设备、包括麦克风和扬声器的音频系统(例如，音响系统、扬声器系统、便携式扬声器)、包括麦克风和扬声器的电视机、或者在包括麦克风和扬声器以及可选地包括显示器的汽车中的用户界面系统。可选地，语音启动式设备180是简单并且低成本的语音接口设备。通常，语音启动式设备180可以是能够进行网络连接并且包括麦克风、扬声器、和用于实现语音助手服务的程序、模块、和数据的任何设备。根据一些实施方式，考虑到语音启动式设备180是简单的和低成本的，语音启动式设备180包括发光二极管(LED)阵列而不是全显示屏幕，并且在LED上显示视觉图案以向用户中继信息(例如，指示音频输入处理的状态)。在一些实施方式中，LED是全色LED，并且LED的颜色被用作待显示在LED上的视觉图案的一部分。在美国临时专利申请No.62/336,566中描述了使用LED来显示视觉图案以传达信息或者设备状态的多个示例。在一些实施方式中，通过使用示出在与执行语音处理操作的电子设备相关联的常规显示器上的特性图像来显示指示语音处理操作的状态的视觉图案。

在一些实施方式中，使用LED或者其它视觉显示器来传达多个参与电子设备的共同语音处理状态。例如，在存在多个语音处理或者语音接口设备(如，多个语音启动式设备180)的操作环境中，可以使用与相应电子设备相关联的彩色LED群组(例如，如在图5A中示出的LED 504)来传达电子设备中的哪些电子设备正在监听用户，以及监听设备中的哪些监听设备是领导者(其中，“领导者”设备通常率先响应用户发出的说出的请求)。

更一般地，可以采用“LED设计语言”来通过使用LED的集合在视觉上指示电子设备的各个语音处理状态，诸如，“热词检测和监听状态”、“思考或者工作模式”、“响应或者说话模式”、和“异常检测模式”。在一些实施方式中，通过根据‘566申请中的“LED设计语言”的一个或者多个方面使用一组LED来表示本文描述的语音处理操作的独特状态。这些视觉指示符还可以与由执行语音处理操作的电子设备生成的一个或者多个可听指示符组合。所得到的音频和/或视觉指示符使得语音交互环境中的用户能够理解环境中的各个语音处理电子设备的状态，并且按照自然、直观的方式来有效地与那些设备进行交互。

当使用来自语音启动式设备180的语音输入来经由投射设备控制媒体输出设备时，语音启动式设备180有效地启用对支持投射的媒体设备的新的控制水平。在一个具体示例中，语音启动式设备180包括休闲娱乐扬声器(casual enjoyment speaker)，其具有远场语音访问并且用作语音助手服务的语音接口设备。语音启动式设备180可以布置在操作环境100中的任何区域中。根据一些实施方式，当多个电子设备180分布在多个房间中时，该多个电子设备180成为被同步以提供来自所有这些房间的语音输入的投射音频接收器。

具体地，在一些实施方式中，语音启动式设备180包括具有连接至语音启动式语音助手服务(例如，Google Assistant)的麦克风的Wi-Fi扬声器。用户可以经由电子设备180的麦克风发出媒体播放请求，并且请求语音助手服务在语音启动式设备180本身或者另一耦合的媒体输出设备上播放媒体内容。例如，用户可以通过向Wi-Fi扬声器说出“OKGoogle,play cat videos on my Living room TV(好的，Google，在我的客厅TV上播放猫视频)”来发出媒体播放请求。然后，语音助手服务通过使用默认媒体应用或者指定媒体应用在请求的设备上播放所请求的媒体内容来实现媒体播放请求。

在一些实施方式中，用户可以经由语音启动式设备180的麦克风来发出有关已经在显示设备上播放了或者正在显示设备上播放的媒体内容的语音请求(例如，用户可以请求有关媒体内容的信息，通过在线商店购买媒体内容，或者撰写并且发布有关媒体内容的社交帖子)。

在一些实施方式中，随着用户在住房中移动，用户可能想要当前媒体会话随其一起，并且可以向一个或者多个语音启动式设备180请求这样的服务。在一些实施方式中，这需要语音助手服务将当前媒体会话从第一投射设备输送至不直接连接至第一投射设备和/或不知道第一投射设备的存在的第二投射设备。在媒体内容输送之后，耦合至第二投射设备的第二输出设备从音乐曲目内或视频剪辑内耦合至第一投射设备的第一输出设备停止播放媒体内容的确切点继续开始播放先前该第一输出设备的媒体内容。在一些实施方式中，接收到输送媒体会话的请求的语音启动式设备180可以满足该请求。在一些实施方式中，接收输送媒体会话的请求的语音启动式设备180将该请求中继到另一设备或者系统(例如，集线器设备、语音辅助服务器212)以供进行处置。

进一步地，在一些实施方式中，用户可以经由语音启动式设备180的麦克风来发出对信息或者执行动作或者操作的请求。所请求的信息可以是个人信息(例如，用户的电子邮件、用户的日历事件、用户的航班信息等)、非个人信息(例如，运动比分、新闻报道等)或者其间的某信息(例如，用户喜欢的团队或者运动的比分、来自用户的优选源的新闻报道等)。所请求的信息或者动作/操作可以涉及访问个人信息(例如，购买具有由用户提供的支付信息的数字媒体项，购买物质产品)。语音启动式设备180利用对用户的语音消息响应来响应请求，其中，可选地，响应包括：例如，对认证的请求、对用于实现请求的附加信息的请求、已经实现请求的确认、无法实现请求的通知等。

在一些实施方式中，除了语音启动式电子设备180和媒体设备(例如，输出设备和投射设备)之外，操作环境100还包括一个或者多个智能居家设备。集成智能居家设备包括在智能居家网络中彼此无缝集成和/或与中央服务器或者云计算系统无缝集成以提供各种有用的智能居家功能的智慧型多感测网络连接的设备。在一些实施方式中，智能居家设备布置在操作环境100中的与投射设备和/或输出设备相同的位置处，并且因此，位于投射设备和输出设备附近或者相对于投射设备和输出设备具有已知距离。在一些实施方式中，智能居家设备中的任何一个智能居家设备配备有如本文描述的麦克风和一个或者多个语音处理能力以整体地或者部分地响应来自居住者或者用户的语音请求。

在一些实施方式中，投射设备和语音启动式电子设备180中的每一个都能够与其它投射设备、语音启动式电子设备180、智能居家设备、中央服务器或者云计算系统、和/或网络连接的其它设备(例如，客户端设备)进行数据通信并且信息共享。可以通过使用各种定制的或者标准的无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)中的任何一种无线协议和/或各种定制的或者标准的有线协议(例如，以太网、HomePlug等)中的任何一种有线协议或者任何其它合适的通信协议——包括到本文的提交日期为止还未开发的通信协议——来实现数据通信。

通过通信网络(例如，互联网)210、投射设备、语音启动式设备180、和智能居家设备，可以与服务器系统164(有时也称为中央服务器系统和/或云计算系统)通信。在一些实施方式中，服务器系统164与制造者、支持实体、或者服务提供者相关联，该制造者、支持实体、或者服务提供者与投射设备和/或向用户显示的媒体内容相关联。根据一些实施方式，服务器系统164包括处理由语音启动式电子设备180收集的音频输入的语音辅助服务器212、提供显示的媒体内容的一个或者多个内容主机214、基于分布式设备终端创建虚拟用户域的云投服务服务器、和保持虚拟用户环境中的分布式设备终端记录的设备注册表218。分布式设备终端的示例包括但不限于：投射设备、媒体输出设备、语音启动式设备180和智能居家设备。在一些实施方式中，这些分布式设备终端链接至虚拟用户域中的用户账户(例如，Google用户账户)。应当了解，对由电子设备180收集的音频输入的处理可以在语音启动式设备180处、在语音辅助服务器212处、在另一智能居家设备(例如，集线器设备)处或者在上述设备的全部或者子集的某一组合处本地执行。

要了解，在一些实施方式中，语音启动式设备180还在没有智能居家设备的环境中运行。例如，即使不存在智能居家设备，语音启动式设备180也可以响应对信息或者动作的执行的用户请求，和/或启动或者控制各个媒体播放功能。语音启动式设备180还可以在广泛的环境中运行，包括但不限于：载具、船舶、商业、或者制造环境。

在一些实施方式中，通过包括热词(有时也称为“唤醒词”)的语音输入来“唤醒”语音启动式设备180(例如，当处于助手模式时)。例如，唤醒语音启动式设备180以启动在语音启动式设备180上的语音助手服务的接口和/或使语音启动式设备180处于语音启动式设备180准备好接收并且处理语音请求的状态。

在一些实施方式中，如果语音启动式设备180相对于语音输入的接收已经空闲了至少预定义时间量(例如，1分钟、5分钟、或者10分钟)，则语音启动式设备180需要唤醒。例如，预定义时间量与在语音接口会话或者对话超时之前允许的空闲时间量相对应。在一些实施方式中，热词是词项或者短语。在一些实施方式中，热词是预定义默认值或者由用户定制(例如，用户可以将特定电子设备180的昵称设置为设备的热词)。在一些实施方式中，存在可以唤醒语音启动式设备180的多个热词。根据一些实施方式，用户说出热词，等待来自语音启动式设备180的确收响应(例如，语音启动式设备180输出问候)，并且然后，进行第一语音请求。替选地，用户可以将热词和第一语音请求组合成一个语音输入(例如，语音输入包括热词，跟着是语音请求)。

在一些实施方式中，用户向语音启动式设备180说出的语音输入通常可以是自由形式或者自然语言语音。即，语音输入不必严格限于在预定义句法内的单词和短语的预定义集合，其中可能存在某些例外(例如，用户需要首先说出热词汇来唤醒设备)。

在一些实施方式中，语音启动式设备180包括除了向语音启动式设备180说出热词之外的用于唤醒设备的一种或者多种附加方式或者可供性(affordance)。附加方式或者可供性可以包括：例如，启动语音启动式设备180上的预定义按钮或者触摸传感器(例如，触摸感测阵列)。

在一些实施方式中，语音启动式电子设备180根据一些实现方式来与操作环境100中的投射设备、客户端设备、或者服务器系统进行交互。根据一些实施方式，语音启动式电子设备180配置为接收来自语音启动式电子设备180附近(例如，在设备180的麦克风的可听范围内)的环境的音频输入。可选地，语音启动式设备180存储音频输入和/或至少部分地在本地处理音频输入。可选地，语音启动式设备180经由通信网络210来将接收到的音频输入和/或部分地处理的音频输入传输至语音辅助服务器212以供进行处理。

在一些实施方式中，投射设备配置为从一个或者多个内容主机214获得媒体内容或者互联网内容以便显示在耦合至投射设备的输出设备上。在一些实施方式中，投射设备和语音启动式电子设备180在用户域中彼此链接。在一些实施方式中，投射设备和语音启动式设备180均与用户域中的相同用户账户相关联。在一些实施方式中，投射设备的信息和/或语音启动式设备180的信息与用户账户相关联地存储在设备注册表218中。在一些实施方式中，第一设备注册表用于投射设备并且第二注册表用于语音启动式电子设备180。在一些实施方式中，云投服务服务器管理投射设备注册表并且语音辅助服务器212管理语音启动式电子设备注册表。在一些实施方式中，投射设备注册表引用语音启动式电子设备注册表中的、在用户域中相关联的设备，反之亦然。

在一些实施方式中，经由客户端设备166来针对语音助手服务调试一个或者多个语音启动式设备180(以及可选地，一个或者多个投射设备)。在一些实施方式中，语音启动式电子设备180(和/或投射设备)不包括显示屏幕，并且依赖于客户端设备在调试过程期间提供用户界面。具体地，根据一些实施方式，客户端设备166安装有使得用户界面能够促进对布置在客户端设备附近的新语音启动式电子设备180的调试的应用。

例如，用户可以在客户端设备166的用户界面上发送发起需要调试的新电子设备180的调试过程的请求。在接收到调试请求之后，客户端设备与需要调试的新电子设备180建立短程通信链路。可选地，基于近场通信(NFC)、蓝牙、低功耗蓝牙(BLE)等来建立短程通信链路。然后，客户端设备将与无线局域网(WLAN)(例如，本地网络104)相关联的无线配置数据传达至新电子设备180。在一些实施方式中，无线配置数据包括以下中的一个或者多个：WLAN安全码、SSID、互联网协议(IP)地址、代理配置信息、和网关配置信息。在经由短程通信链路接收到无线配置数据之后，新电子设备180对无线配置数据进行解码并且恢复无线配置数据，并且基于无线配置数据来加入WLAN。

在一些实施方式中，经由显示在客户端设备上的用户界面来输入附加用户域信息，并且使用该附加用户域信息来将新电子设备180链接至用户域中的账户。在一些实施方式中，经由短程通信链路来连同无线通信数据将附加用户域信息传达至新电子设备180。在一些实施方式中，在新设备已经加入WLAN之后经由WLAN将附加用户域信息传达至新电子设备180。

一旦已经将语音启动式设备180调试到用户域中，可以经由多个控制路径来控制其它设备及其相关联的活动。根据一条控制路径，使用安装在客户端设备166上的应用来控制另一设备及其关联的活动(例如，媒体播放活动)。根据另一控制路径，使用语音启动式设备180来实现对另一设备及其关联的活动的免注视和免提控制。

图3A至图3B是图示了根据一些实施方式的，代表性语音启动式设备180的框图。语音启动式设备180包括一个或者多个处理单元(CPU)302、一个或者多个网络接口304、存储器306、和用于使这些组件互连的一条或者多条通信总线308(有时称为芯片集)。语音启动式设备180包括促进用户输入的一个或者多个输入设备310，诸如，按钮312、触摸感测阵列314、和/或一个或者多个麦克风316。语音启动式设备180还包括一个或者多个输出设备318，包括：一个或者多个扬声器320、LED阵列322、和/或显示器324。在一些实施方式中，LED阵列322是全色LED阵列。在一些实施方式中，取决于设备的类型，语音启动式设备180具有LED阵列322或者显示器324或者两者。在一些实施方式中，语音启动式设备180还包括位置检测设备326(例如，GPS模块)和一个或者多个传感器328(例如，加速度计、陀螺仪、光传感器等)。

存储器306包括高速随机存取存储器，诸如，DRAM、SRAM、DDR RAM、或者其它随机存取固态存储器设备；并且可选地，包括非易失性存储器，诸如，一个或者多个磁盘存储设备、一个或者多个光盘存储设备、一个或者多个闪速存储器设备、或者一个或者多个其它非易失性固态存储设备。可选地，存储器306包括远离一个或者多个处理单元302定位的一个或者多个存储设备。存储器306或者替选地在存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或者存储器306的非暂时性计算机可读存储介质存储以下程序、模块、和数据结构，或者其子集或者超集：

●操作系统332，该操作系统332包括用于处置各个基本系统服务和执行依赖于硬件的任务的程序；

●网络通信模块334，该网络通信模块334用于经由一个或者多个网络接口304(有线的或者无线的)和一个或者多个网络210——诸如互联网、其它广域网、局域网(例如，本地网络204)、城域网等——来将语音启动式设备180连接至其它设备(例如，服务器系统164、一个或者多个投射设备、一个或者多个客户端设备166、一个或者多个智能居家设备、和其它语音启动式设备180)；

●输入/输出控制模块336，该输入/输出控制模块336用于经由一个或者多个输入设备310来接收输入并且使得能够经由一个或者多个输出设备318来在语音启动式设备180处呈现信息；

●音频处理模块338，该音频处理模块338用于处理从语音启动式设备180周围的环境收集到的音频输入和语音消息，和/或准备收集到的音频输入和语音消息以便在语音辅助服务器212处处理；

●模式模块339，该模式模块339用于设置和调整语音启动式设备180的操作模式——诸如响应于用户输入、一个或者多个预定义时间表、和/或异常声音或者事件，该操作模式包括语音启动式设备180响应用户请求的助手模式和语音启动式设备180监视并且响应在其周围的意外声音的监视模式；

●LED控制模块340，该LED控制模块340用于经由LED 322来与用户通信；

●触摸感测模块342，该触摸感测模块342用于感测在语音启动式设备180的触敏表面上(例如，在触摸传感器阵列314上)的触摸事件；

●训练模块344，该训练模块344用于训练和生成可以用于识别声音、事件、和/或语音的语音和/或声音模型或者指纹，并且消除用户域中与语音启动式设备180相关联的用户的歧义；

●响应模块346，该响应模块346用于响应音频输入，包括：执行来自由语音辅助服务器212生成的语音请求响应的指令，生成对某些语音输入的响应(例如，在助手模式下)，和/或生成对某些音频事件和声音的响应(例如，在监视模式下)；

●设备领导权模块348，该设备领导权模块348用于响应于音频输入而确定多个语音启动式设备180当中的领导者；

●通知模块349，该通知模块349用于为用户生成和/或显示有关检测到的声音或者事件的通知和/或有关语音启动式设备的操作状态的通知；以及

●设备数据350，该设备数据350用于存储与语音启动式设备180相关联的数据，包括但不限于：

○语音设备设定352，该语音设备设定352存储与语音启动式设备180本身相关联的信息，诸如，公共设备设定(例如，服务层、设备型号、存储容量、处理能力、通信能力等)、用户域中的一个或者多个用户账户的信息、有关应对特定类型的用户(例如，非注册用户)时的限制的设定、以及与由LED 322显示的一个或者多个视觉图案相关联的显示规范；

○语音控制数据354，该语音控制数据354存储与语音启动式设备180的语音接口功能有关的音频信号、语音消息、响应消息、和其它数据；

○语音模型数据356，该语音模型数据356存储与用户域中与语音启动式设备180相关联的用户相对应的语音模型或者语音指纹；

○响应数据358，该响应数据358存储有关用于结合响应模块346来响应声音或者事件(例如，在处于监视模式时)的音频和/或视觉响应的信息；

○声音数据360，该声音数据360存储声音信息，诸如声音模型或者指纹、先前接收到的声音、预期声音等；

○排程数据362，该排程数据362存储有关用户时间表、设备模式时间表、操作环境时间表等的信息(例如，用于确定检测到的声音是否是预期的)；以及

○简档数据364，该简档数据364用于存储语音启动式设备180的简档信息，诸如设备的用户的用户简档、设备简档、环境简档等。

参照图3B，在一些实施方式中，音频处理模块338包括以下模块或者其子集或者超集：

●辨识分析模块368，该辨识分析模块368用于辨识声音和音频输入并且在一些实施方式中，对不同噪声水平影响音频处理模块338的操作(例如，热词辨识模块378、分类模块374、和/或请求辨识模块380的操作)的方式进行分析；

●音量模块370，该音量模块370用于基于与语音启动式设备180的用户距离来确定适当的输入和/或输出音量，例如，对于与语音启动式设备180的给定距离，用户将讲出语音输入的最高舒适音量水平；

●噪声模块372，该噪声模块372用于确定语音启动式设备180周围环境的噪声水平和/或噪声简档；

●分类模块374，该分类模块374用于对由语音启动式设备180检测(和/或由耦合至语音启动式设备180的一个或者多个设备检测)的声音、事件、和/或语音进行分类；

●用户识别模块376，该用户识别模块376用于识别由语音启动式设备180检测的用户和/或消除由语音启动式设备180检测的用户的歧义；

●热词辨识模块378，该热词辨识模块378用于确定语音输入是否包括用于唤醒语音启动式设备180的热词并且在语音输入中辨识这样的热词(例如，在助手模式期间)；

●请求辨识模块380，该请求辨识模块380用于确定包括在语音输入中的用户请求；以及

●请求质量模块382，该请求质量模块382用于确定用户请求的质量因子或者得分。

可选地，以上标识标识的模块中的每一个模块存储在本文描述的存储器设备中的一个或者多个存储器设备中，并且与用于执行上述功能的指令的集合相对应。以上标识的模块或者程序不需要被实现为单独的软件程序、过程、模块或者数据结构，并且因此，可以在各个实施方式中组合或者以其它方式重新布置这些模块的各个子集。在一些实施方式中，存储器306存储以上标识的模块和数据结构的子集。此外，可选地，存储器306存储未在上文中描述的附加模块和数据结构。在一些实施方式中，存储在存储器306中的程序、模块、和/或数据的子集存储在服务器系统164和/或语音辅助服务器212上和/或由服务器系统164和/或语音辅助服务器212执行。

在一些实施方式中，在上述存储器306中的一个或者多个模块是模块的语音处理库的一部分。语音处理库可以实现在并且嵌入在各种各样的设备上。在美国临时专利申请第62/334,434中描述了语音处理库的示例。

图4是图示了根据一些实施方式的代表性服务器系统164的框图。服务器系统164的示例服务器是语音辅助服务器212。服务器系统164包括一个或者多个处理单元(CPU)402、一个或者多个网络接口404、存储器406、和用于使这些组件互连的一条或者多条通信总线408(有时称为芯片集)。可选地，服务器系统164包括促进用户输入的一个或者多个输入设备410，诸如，键盘、鼠标、语音命令输入单元或者麦克风、触摸屏显示器、触敏输入板、手势捕获相机、或者其它输入按钮或者控件。此外，可选地，服务器系统164使用麦克风和语音识别或者相机和手势辨识来补充或者代替键盘。在一些实施方式中，服务器系统164包括用于捕获图像——例如印刷在电子设备上的图形系列代码——的一个或者多个相机、扫描仪、或者光传感器单元。可选地，服务器系统164包括使得能够呈现用户界面和显示内容的一个或者多个输出设备412，诸如，一个或者多个扬声器和/或一个或者多个视觉显示器。

存储器406包括高速随机存取存储器，诸如，DRAM、SRAM、DDR RAM、或者其它随机存取固态存储器设备；并且可选地，包括非易失性存储器，诸如，一个或者多个磁盘存储设备、一个或者多个光盘存储设备、一个或者多个闪速存储器设备、或者一个或者多个其它非易失性固态存储设备。可选地，存储器406包括远离一个或者多个处理单元402定位的一个或者多个存储设备。存储器406或者替选地在存储器406内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器406或者存储器406的非暂时性计算机可读存储介质存储以下程序、模块、和数据结构，或者其子集或者超集：

●操作系统416，该操作系统416包括用于处置各个基本系统服务和执行硬件相关任务的程序；

●网络通信模块418，该网络通信模块418用于经由一个或者多个网络接口404(有线的或者无线的)和一个或者多个网络——诸如互联网、其它广域网、局域网、城域网等——来将服务器系统164连接至其它设备(例如，在服务器系统164中的各个服务器、客户端设备、投射设备、电子设备180、和智能居家设备)；

●用户界面模块420，该用户界面模块420用于使得能够在服务器系统或者客户端设备处呈现信息(例如，用于呈现应用、小部件、其网及站网页、游戏、音频和/或视频内容、文本等的图形用户界面)；

●命令执行模块421，该命令执行模块421用于执行从一个或者多个远程设备(例如，与游戏、社交网络应用、智能居家应用、和/或用于控制设备的其它基于web或者非基于web的应用——诸如客户端设备、投射设备、语音启动式设备180、和智能居家设备相对应的)接收到的命令，包括以下中的一个或者多个：

○投射设备应用422，执行该投射设备应用422以提供用于与投射设备相关联的设备置配、设备控制、和/或用户账户管理的服务器侧功能；

○一个或者多个媒体播放器应用424，执行该一个或者多个媒体播放器应用424以提供用于与对应媒体源相关联的媒体显示、和/或用户账户管理的服务器侧功能；

○一个或者多个智能居家设备应用426，执行该一个或者多个智能居家设备应用426以提供用于对应智能居家设备的设备置配、设备控制、数据处理、和/或数据回顾的服务器侧功能；以及

○语音辅助应用428，执行该语音辅助应用428以安排对从语音启动式设备180接收到的语音消息的语音处理和/或处理该语音消息以例如提取用户语音命令和该用户语音命令的一个或者多个参数(例如，对投射设备或者另一电子设备180的指命)；

●设备注册模块430，该设备注册模块430用于管理设备注册表118；

●设备领导权调节器模块432，该设备领导权调节器模块432用于调节在操作环境中的语音启动式设备180之间的设备领导权确定；

●声音模块434，该声音模块434用于对由语音启动式设备180捕获到的声音进行分析以例如辨识用户、确定在语音启动式设备180周围的噪声水平、确定语音启动式设备180的预期声音、确定语音启动式设备180的预期声音时间表等；

●语音处理模块436，该语音处理模块436用于处理在语音启动式设备180周围的环境中收集到的音频输入和/或语音消息以例如，辨识单词或者短语和/或从用户命令中提取一个或者多个参数；

●分类模块438，该分类模块438用于对例如由语音启动式设备180捕获到的声音、噪声、语音、和/或音频事件进行分类；

●服务器系统数据440，该服务器系统数据440存储与服务器系统相关联的数据，包括但不限于：

○客户端设备设定442，该客户端设备设定442存储一个或者多个客户端设备的信息，诸如，公共设备设定(例如，服务层、设备型号、存储容量、处理能力、通信能力等)、和用于自动媒体播放控制的信息；

○客户端设备设定446，该客户端设备设定446存储投射设备和/或投射设备应用422的用户账户的信息，诸如账户访问信息、设备设定信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等))和自动媒体播放控制的信息；

○媒体播放设定448，该媒体播放设定448存储媒体播放器或者一个或者多个媒体播放器应用424的用户账户的信息，诸如账户访问信息，对媒体内容类型的用户偏好、回顾历史记录数据、和用于自动媒体显示控制的信息；

○智能居家设备设定450，该智能居家设备设定450存储智能居家设备和/或智能居家应用426的用户账户的信息——诸如账户访问信息和一个或者多个智能居家设备的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)；

○语音辅助数据452，该语音辅助数据452存储语音启动式设备和/或语音辅助应用428的用户账户的信息——诸如账户访问信息和一个或者多个电子设备180的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)；

○用户数据454，该用户数据454存储有关服务器系统164和/或语音启动式设备180的用户的信息，诸如用户的订阅(例如，音乐流送服务订阅、视频流送服务订阅、新闻订阅)、用户设备(例如，注册在与相应用户相关联的设备注册表118中的设备)、用户账户(例如，用户的电子邮件账户、日历账户、金融账户)、和其它用户数据；

○语音简档456，该语音简档456存储用户域中的用户和/或语音启动式设备180的用户的语音简档，包括：例如，用户的语音模型和/或语音指纹和/或用户的舒适音量水平阈值。

在一些实施方式中，服务器系统164包括用于为用户生成警示和/或通知的通知模块(未示出)。例如，在一些实施方式中，通知模块响应于由一个或者多个语音启动式设备180捕获到的声音或者音频事件来为用户生成警示。在一些实施方式中，通知模块根据声音或者音频事件的类别来生成警示或者通知。例如，将声音分类为未知声音(或者分类为意外声音)，并且生成警示并且将警示发送给语音启动式设备180的用户，通知他/她检测到未知或者意外声音。

在一些实施方式中，服务器系统164包括语音辅助服务器212，并且该语音辅助服务器212主要负责对语音输入的处理和噪声减轻。在一些实施方式中，在上面参照图3A至图3B描述的存储器306中的程序、模块、和数据结构中的一个或者多个包括在存储器406中的相应模块中(例如，与音频处理模块338一起包括的程序、模块、和数据结构被包括在语音处理模块436中)。在一些实施方式中，语音启动式设备180将捕获到的声音和/或语音输入传输至语音辅助服务器212以便进行处理。在一些实施方式中，语音启动式设备180首先预处理声音和/或语音输入，并且将经过预处理的声音和/或语音输入传输至语音辅助服务器212以便进行进一步处理，诸如，分类和/或辨识。在一些实施方式中，语音辅助服务器212和语音启动式设备180具有有关声音、语音输入的处理和噪声缓解的一些共享职责和一些分开的职责，并且在图3A至图3B中示出的程序、模块、和数据结构包括在语音辅助服务器212和语音启动式设备180两者中或者在语音辅助服务器212与语音启动式设备180之间划分。在一些实施方式中，在图3A-图3B中示出的其它程序、模块、和数据结构(例如，训练模块344)或者其类似物被包括在语音辅助服务器212中。

以上标识的模块中的每一个模块可以被存储在本文描述的存储器设备中的一个或者多个存储器设备中，并且与用于执行上述功能的指令的集合相对应。以上标识的模块或者程序不需要被实现为单独的软件程序、过程、模块或者数据结构，并且因此，可以在各个实施方式中组合或者以其它方式重新布置这些模块的各个子集。在一些实施方式中，可选地，存储器406存储以上标识的模块和数据结构的子集。此外，可选地，存储器406存储未在上文中描述的附加模块和数据结构。

图5A和图5B是根据一些实施方式的语音启动式电子设备180的前视图500和后视图520。根据一些实施方式，语音启动式设备180设计为温馨的并且诱人的，并且自然地融入住宅的许多区域。在一些实施方式中，语音启动式设备180包括一个或者多个麦克风502和全色LED阵列504。在一些实施方式中，全色LED 504隐藏在语音启动式设备180的顶表面下方并且在未亮起时对用户不可见。在一些实施方式中，全色LED阵列504物理地布置为环状。进一步地，可选地，语音启动式设备180的后侧包括配置为耦合至电源的电源连接器508。

在一些实施方式中，语音启动式设备180呈现没有可见按钮的干净外观，并且与语音启动式设备180的交互基于语音和触摸手势。替选地，在一些实施方式中，语音启动式设备180包括有限数目的物理按钮(例如，在其后侧的按钮506)，并且除了语音和/或触摸手势之外，与语音启动式设备180的交互进一步基于按压按钮。

在一些实施方式中，考虑到语音启动式设备180是简单的和低成本的，语音启动式设备180包括全色发光二极管(LED)阵列而不是全显示屏幕。在一些实施方式中，采用LED设计语言来配置对全色LED阵列的照亮，并且启用指示语音启动式设备180的不同语音处理状态的不同视觉图案。

根据一些实施方式，LED设计语言包括应用于全色LED的固定集合的颜色、图案、和特定运动的语法。组合语言中的元素以在视觉上指示在使用语音启动式设备180期间的特定设备状态。在一些实施方式中，照亮全色LED旨在清楚地描绘除其它重要的状态外的语音启动式设备180的被动监听状态和主动监听状态。对全色LED的放置符合语音启动式设备180的物理约束，并且可以在由第三方原始设备制造者(OEM)基于特定技术(例如，GoogleAssistant)制成的扬声器中使用全色LED阵列。当在由第三方OEM基于特定技术制成的扬声器中使用全色LED阵列时，全色LED和LED设计语言配置为适合OEM扬声器的对应物理用户界面。在这种情形下，OEM扬声器的设备状态保持不变，而表示设备状态的特定视觉图案可以改变(例如，全色LED的颜色可以不同但是以相似的动画效果显示)。

在语音启动式电子设备180中，当语音启动式设备180处理从其周围环境收集到的音频输入但是不存储音频输入或者将音频输入传输至任何远程服务器时，发生被动监听。相反，当语音启动式设备180存储从其周围环境收集到的音频输入和/或与远程服务器共享音频输入时，发生主动监听。根据一些实施方式，语音启动式设备180被动地监听在其周围环境中的音频输入，而不会破坏语音启动式设备180的用户的隐私，除非并且直到用户命令进入主动监听状态为止。

图5C是根据一些实施方式的语音启动式电子设备180的顶视图，并且图5D示出了根据一些实施方式的通过指示语音处理状态的全色LED阵列显示的六个视觉图案。在一些实施方式中，语音启动式设备180不包括任何显示屏幕，并且与全显示屏幕相比较，全色LED提供简单和低成本的视觉用户界面。全色LED可以隐藏在电子设备的顶表面下方，并且在未亮起时对用户不可见。参照图5C和图5D，在一些实施方式中，全色LED阵列物理地布置为环状。

图6A至图6F图示了根据一些实施方式的示例语音启动式设备交互。图6A示出了用户602与语音启动式设备102进行交互。在图6A中，用户602向语音启动式设备180询问当前温度。根据一些实施方式，用户602正在说“助手”，因为“助手”是热词，并且语音启动式设备180配置为在接收到热词之后进入主动监听状态。在图6A中图示的示例中，语音启动式设备180通过陈述当前温度为84度来响应用户602的查询。

图6B示出了用户602请求语音启动式设备180监视居家环境(例如，进入监视模式)。图6B还示出了语音启动式设备180确认接收到用户请求。根据一些实施方式，响应于用户请求，语音启动式设备180从助手模式改变到监视模式。在一些实施方式中，当处于监视模式时，语音启动式设备180监视居家环境中的声音，并且响应于意外声音或者异常声音，警告用户和/或当局。

图6C示出了不受欢迎的访问者604试图进入住宅。图6C进一步示出了语音启动式设备180检测来自访问者604的声音并且用以下查询进行响应：“is someone there？(有人吗？)”。在一些实施方式中，语音启动式设备180用来自用户602的预先记录的响应进行响应。在一些实施方式中，语音启动式设备180对用户602的语音进行模仿以使访问者604认为用户602在家。在一些实施方式中，语音启动式设备180检测声音并且将声音的记录发送至服务器系统164以便安进行处理和分类。在一些实施方式中，响应于从服务器系统164接收到类别或者指令，语音启动式设备180发出可听(例如，口头)响应。

图6D也示出了不受欢迎的访问者604试图进入住宅。在图6D中，语音启动式设备180检测来自访问者604的声音并且用有关警示当局的警告进行响应。在一些实施方式中，语音启动式设备180警示当局和/或用户602。

图6E也示出了不受欢迎的访问者604试图进入住宅。在图6E中，语音启动式设备180检测来自访问者604的声音并且用模拟犬吠进行响应。在一些实施方式中，语音启动式设备180基于一个或者多个用户或者设备设定来用查询(如在图6C中示出的)、警告(如在图6D中示出的)、或者模拟犬吠(如在图6E中示出的)进行口头响应。

图6F示出了用户602返回住宅并且向语音启动式设备180要求在用户离开时发生的音频事件(如果有的话)的概要或者列表。图6F还示出了语音启动式设备180通过列出在用户离开时发生的音频事件来响应用户602的查询。在一些实施方式中，语音启动式设备180回放音频事件的记录(例如，响应于对更多信息的用户请求)。在一些实施方式中，语音启动式设备180仅列出意外音频事件或者异常音频事件。在一些实施方式中，语音启动式设备180列出有关音频事件的附加细节，诸如时间、类别、持续时间、响应等(例如，响应于对更多细节的请求)。在一些实施方式中，语音启动式设备180引导用户访问对应的网页和/或应用界面。在一些实施方式中，对应的网页和/或应用界面包括有关在用户离开时发生的音频事件中的一些或者全部音频事件的信息。在一些实施方式中，对应的网页和/或应用界面使得能够回放音频事件。在一些实施方式中，响应于用户602断言她已经返回，语音启动式设备180改变到助手模式。在一些实施方式中，响应于用户启动门锁或者安全面板，语音启动式设备180改变到助手模式。在一些实施方式中，语音启动式设备180检测到用户602已经返回(例如，基于来自用户的个人设备的位置数据)并且响应于该检测而改变到助手模式。

图7A至图7B图示了根据一些实施方式的语音启动式设备的代表性用户界面。图7A示出了用户的显示用户界面702的移动设备700(例如，便携式设备166)，该用户界面702包括有关在用户的住宅处的音频的通知704。在一些实施方式中，响应于检测到意外声音或者异常声音，语音启动式设备180将通知发送给用户。在一些实施方式中，服务器系统164将通知发送给用户。通知704包括一个或者多个用户选项，诸如，收听音频事件的记录的选项708、收听来自住宅的实时音频的选项710、向当局警示住宅中发生潜在闯入或者紧急情况的选项712、和解除通知的选项714。

在一些实施方式中，通知包括打开移动设备700上的应用的选项，并且该应用使用户能够访问更多细节和/或响应音频事件。在一些实施方式中，将通知发送至用户的一个或者多个电子设备，诸如，移动电话、平板、膝上型计算机、台式计算机、智能手表等。在一些实施方式中，通知包括指示音频事件的类别的一个或者多个视觉特性。例如，主要用红色来显示分类为入侵者打破玻璃窗的声音的音频事件，而主要用绿色来显示分类为访问者按响门铃的声音的音频事件。

在一些实施方式中，语音启动式设备180与住宅中的一个或者多个智能设备耦合，并且通知包括用于查看来自与音频事件相关的智能设备中的一个或者多个智能设备的信息的可供性。例如，语音启动式设备180耦合至一个或者多个相机118，并且通知包括供用户查看来自相机的视频数据的可供性(例如，与音频事件对应的实况视频流和/或记录的视频)。

图7B示出了用户的显示用户界面702的移动设备700，该用户界面702包括有关在用户的住宅处的音频的通知720。在图7B的示例中，已经将音频事件分类为在厨房中打破玻璃，并且通知720指示该类别。通知720包括一个或者多个用户选项，诸如，监听记录的事件音频的选项708、经由语音启动式设备来与住宅通信的选项722(例如，将用户的话语从移动设备中继到语音启动式设备并且经由语音启动式设备的扬声器输出)、供用户选择语音启动式设备要输出的响应(例如，对犬吠进行模拟或者联系当局)的选项724、用于改变语音启动式设备180的操作模式(例如，从检测模式切换到助手模式或者睡眠模式)的选项726、和解除通知的选项714。在一些实施方式中，本文描述的用户选项中的一个或者多个用户选项是应用——诸如智能助手应用——内与通知相对应的选项(例如，作为通知中的选项的替选方案或者除了通知中的选项之外)。

在一些实施方式中，通知720(和/或与通知720相对应的应用)包括删除声音记录的用户选项。例如，用户确定声音包括用户的记录并且出于隐私请求删除声音记录。在该示例中，居家助手设备根据用户请求来删除声音录音的实例。

图8是根据一些实施方式的用于监视活动的方法800的流程图表示。在一些实施方式中，方法800由以下执行：(1)一个或者多个系统的一个或者多个电子设备，诸如，图1中的语音启动式设备180和/或操作环境100中的设备；(2)一个或者多个计算系统，诸如，图1的服务器系统164和图2的语音辅助服务器212；或者(3)其组合。在一些实施方式中，方法800由语音启动式设备180(图3A)或者其组件——诸如音频处理模块338——执行。在一些实施方式中，方法800由服务器系统164或者其组件——诸如语音处理模块436——执行。因此，在一些实施方式中，方法800的相应操作由上面提到的设备、系统、或者设备和/或系统的组合中的任何一个来执行。在一些实施方式中，方法800由存储在非暂时性计算机可读存储介质中并且由设备和/或计算系统的一个或者多个处理器——诸如语音启动式设备180的一个或者多个CPU 302和/或服务器系统164的一个或者多个CPU 402——执行的指令管控。为了方便起见，下面将方法800描述为由居家助手设备——诸如语音启动式设备180——执行。

当在助手模式下操作时，居家助手设备接收在监视模式下操作的居住者语音命令(802)。例如，图6B示出了用户602命令语音启动式设备180在监视模式下操作。在一些实施方式中，语音启动式设备180经由一个或者多个输入设备310——诸如麦克风、触摸传感器阵列、或者按钮——接收命令。在一些实施方式中，语音启动式设备180经由网络接口304从应用(例如，在用户的客户端设备上运行的应用)接收命令。在一些实施方式中，当在助手模式下操作时，居家助手设备监听由居家环境的居住者说出的一个或者更多个热词。在一些实施方式中，接收在监视模式下操作语音助手的居住者语音命令包括：经由一个或者多个麦克风从居住者接收自然语言命令。

响应于居住者命令，居家助手设备从在助手模式下操作转变到在监视模式下操作(804)。例如，响应于图6B中的用户602命令，语音启动式设备180转变到如在图6C至6E中示出的监视模式。在一些实施方式中，居家助手设备通过使用音频处理模块338来处理居住者命令。在一些实施方式中，居家助手设备通过使用模式模块339来从助手模式转变到监视模式。在一些实施方式中，当处于监视模式时，居家助手设备对在居家环境内的居住者活动进行模仿。例如，居家助手设备在特定时间启用特定灯或者电视机。

居家助手设备获得一个或者多个准则(806)。在一些实施方式中，居家助手设备从服务器系统(例如，服务器系统164)获得监视准则。在一些实施方式中，居家助手设备从本地数据库(例如，设备数据350)获得监视准则。在一些实施方式中，居家助手设备从用户接收监视准则(例如，经由在用户的客户端设备上的应用)。在一些实施方式中，监视准则包括分贝阈值。在一些实施方式中，监视准则包括特定音调、频率、音高等。在一些实施方式中，监视准则包括声音是否是环境的预期声音或者普通声音。在一些实施方式中，监视准则包括声音是否具有特定音频特性和/或特定类别。在一些实施方式中，监视准则包括声音是否来自特定居住者或者用户。

当在监视模式下操作时，居家助手设备检测声音(808)。例如，图6C示出了语音启动式设备180检测来自访问者604的声音并且发出响应。在一些实施方式中，居家助手设备经由麦克风316检测声音。在一些实施方式中，居家助手设备检测声音的系列或者序列并且对该系列或者序列进行分析(例如，确定声音的系列或者序列是否满足一个或者多个监视准则)。在一些实施方式中，居家助手设备确定检测到的声音是否包括热词。在一些实施方式中，居家助手设备确定辨识的和/或核准的用户是否说出热词。在一些实施方式中，根据确定声音包括由核准用户讲出的热词的确定，居家助手设备转变到助手模式。

在一些实施方式中，当处于监视模式下时，居家助手设备对特定声音将在特定时间在居家环境内出现进行预测；并且根据特定声音在特定时间未出现的确定，经由一个或者多个扬声器发出第二模拟居住者响应。例如，居家助手设备确定用户被预期为在特定时间进行口头登记，并且根据用户未登记的确定，发出模拟响应。在一些实施方式中，居家助手设备对特定声音将在特定时间在居家环境内发生进行预测；并且根据特定声音在特定时间未出现的确定，生成警示(例如，向用户和/或当局)。在一些实施方式中，针对缺少预期声音事件的模拟响应与针对检测到意外声音事件的模拟响应相同。

居家助手设备获得关于声音是否满足一个或者多个监视准则的确定(810)。在一些实施方式中，获得确定包括：在居家助手处进行确定(例如，经由音频处理模块338)。在一些实施方式中，获得确定包括：从服务器系统(例如，服务器系统164)获得确定。在一些实施方式中，获得关于声音是否满足一个或者多个监视准则的确定包括：获得关于声音是满足还是超过声音强度阈值的确定。在一些实施方式中，获得关于声音是否满足一个或者多个预定义准则的确定包括：获得关于声音是否是居家环境的预期声音的确定。例如，居家助手设备在给定时间检测到犬吠的声音，并且确定在给定时间发生的犬吠是否是针对特定居家环境的预期声音。在一些实施方式中，确定声音是否满足一个或者多个监视准则包括：确定在居家环境中的一个或者多个其它设备(例如，具有麦克风的一个或者多个智能设备)是否检测到该声音。在一些实施方式中，确定声音是否满足一个或者多个检测准则包括：确定声音是否起源于居家环境内(或者在居家环境周围的地理围栏内)。

在一些实施方式中，获得关于声音是否满足一个或者多个监视准则的确定包括：获得关于居家环境的居住者的个人设备当前是否远离居家环境的确定。例如，居住者的移动电话指示居住者在工作。在一些实施方式中，获得关于声音是否满足一个或者多个监视准则的确定包括：获得关于居家环境的居住者是否被预期当前处于居家环境内的确定。例如，居住者通常在当前时间在工作；或者居住者的日历指示居住者被预期为在工作。

在一些实施方式中，居家助手设备获得多个先前记录的居家环境声音。在一些实施方式中，获得声音不是居家环境的预期声音的确定包括：将声音与多个先前记录的居家环境声音相比较并且不获得匹配。在一些实施方式中，先前记录的居家环境声音包括来自居家环境的声音。在一些实施方式中，先前记录的居家环境声音包括来自多个居家环境(例如，与居住者的居家环境相似的居家环境)的声音。在一些实施方式中，对声音进行比较包括：将声音的音频简档与先前记录的声音的音频简档相比较。在一些实施方式中，对声音进行比较包括：将声音的音频指纹与先前记录的声音的音频指纹相比较。

根据声音满足一个或者多个监视准则的确定(812)：居家助手设备(1)获得声音的类别(814)；并且(2)基于声音具有第一声音类别，经由一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应(816)。在一些实施方式中，根据声音不满足一个或者多个监视准则的确定，居家助手设备停止获得声音的类别。在一些实施方式中，基于声音具有第二声音类别，居家助手设备停止经由一个或者多个扬声器发出模拟居住者响应。例如，声音被确定为住宅中的居住者的声音，并且因此，居家助手设备不采取任何动作。在一些实施方式中，获得声音的类别包括：确定声音是否包括已知声音或者未知声音。在一些实施方式中，获得声音的类别包括：识别声音(例如，将声音识别为打破玻璃的声音或者犬吠的声音)。在一些实施方式中，获得声音的类别包括：识别声音的可能源(例如，将声音识别为源自特定对象或者实体)。在一些实施方式中，获得类别包括从服务器系统164获得类别(例如，响应于将声音上传到服务器系统)。在一些实施方式中，获得类别包括：从在居家助手设备处的分类模块374获得类别。在一些实施方式中，居家助手设备获得声音的类别，而不获得关于声音是否满足一个或者多个监视准则的确定。在一些实施方式中，居家助手设备在不获得关于声音是否满足一个或者多个监视准则的确定的情况下发出第一模拟居住者响应。

在一些实施方式中，获得声音的类别包括：获得关于声音是否包括居家环境的居住者的语音的确定。例如，声音是居住者讲话的声音。在一些实施方式中，根据声音具有第一类别，居家助手存储声音(例如，以便进行进一步分析和/或回放)和/或将声音发送至服务器系统。在一些实施方式中，根据声音具有第二类别，居家助手停止存储声音并且停止将声音发送至服务器系统。

在一些实施方式中，获得声音的类别包括：获得关于居家环境的居住者的个人设备当前是否远离居家环境的确定。例如，居住者的移动电话指示居住者在工作。在一些实施方式中，获得声音的类别包括：获得关于居家环境的居住者是否被预期为当前处于居家环境内的确定。例如，居住者通常当时在工作；或者居住者的日历指示居住者被预期为在工作。在一些实施方式中，根据居家环境的居住者被预期为当前处于居家环境内的确定，居家助手设备经由一个或者多个扬声器发出第二模拟居住者响应，该第二模拟居住者响应与模拟居住者响应不同。例如，第一响应包括犬吠，而第二响应包括助手询问：“Are you homefrom work？(您下班回到家了吗？)”。

在一些实施方式中，多个模拟居住者响应包括以下中的一个或者多个：模拟动物响应(例如，犬吠)；预先记录的居住者响应(例如，说出“Who’s there(谁在那里)”的居住者记录)；识别请求(例如，对pin码的请求)；和模拟人类响应(例如，说出“Is someone there(有人吗)”)。

在一些实施方式中，居家助手设备用警报声音进行响应(例如，除了发出模拟响应之外，或者作为发出模拟响应的替选方案)。在一些实施方式中，居家助手设备用用户选择的声音进行响应。例如，居家助手设备使得用户能够记录或者上传期望的响应，并且居家助手设备根据检测到的声音具有第一声音类别的确定来发出期望的响应。

在一些实施方式中，根据声音满足一个或者多个监视准则的确定或者根据声音具有第一类别的确定，居家助手设备执行以下操作中的一项或者多项：调整居家环境的照明水平(例如，打开灯)；调整居家助手的用户界面以指示检测到声音满足一个或者多个预定义准则(例如，使助手上的LED闪烁)；存储声音(例如，以供用户稍后监听)；启用居家设备(例如，打开电视机或者无线电)；以及发送警示(例如，发送给用户和/或警方)。

在一些实施方式中，根据声音满足一个或者多个监视准则的确定或者根据声音具有第一类别的确定，居家助手设备使得居家环境的远程居住者能够监听声音。例如，居家助手设备存储声音以供稍后回放和/或将声音的记录发送至居住者的移动设备。在一些实施方式中，根据声音满足一个或者多个监视准则的确定或者根据声音具有第一类别的确定，居家助手设备使居家环境的远程居住者能够经由一个或者多个麦克风监听声音。例如，居家助手设备向远程居住者流送实时音频。在一些实施方式中，居家助手设备通过在居家助手与远程居住者或者用户的移动设备之间中继消息来使得远程居住者或者用户能够与居家环境交谈(例如，与住宅中的人交谈)。

在一些实施方式中，当在监视模式下操作时，居家助手设备接收在助手模式下操作的居住者命令；并且根据该居住者命令，转变到在助手模式下操作。在一些实施方式中，居家助手验证第二居住者命令包括来自核准用户的命令；并且根据对第二居住者命令的验证来转变到助手模式。

在一些实施方式中，居家助手设备接收在学习模式下操作计算机系统的居住者命令。在一些实施方式中，响应于居住者命令，居家助手设备转变到在学习模式下操作。在一些实施方式中，当在学习模式下操作时，居家助手设备对居家环境中的声音进行分析以识别在居家环境内的多个预期声音。

在一些实施方式中，当在学习模式下操作时，居家助手经由一个或者多个麦克风检测居家环境中的声音。在一些实施方式中，响应于检测到声音，居家助手设备向用户传输请求，该请求请求用户对第二声音进行分类(或者识别第二声音)。在一些实施方式中，响应于该请求，居家助手设备接收来自用户的声音的类别。例如，用户将先前检测到的隆隆噪声识别为车库门打开。在一些实施方式中，居家助手设备将声音与类别相关联。

在一些实施方式中，居家助手设备耦合至在居家环境内的一个或者多个附加居家助手设备。在一些实施方式中，根据声音满足一个或者多个监视准则的确定，居家助手设备请求一个或者多个附加居家助手设备中的至少一个附加居家助手设备模拟居住者对声音的响应。例如，第一居家助手检测声音，而第二居家助手对犬吠进行模拟(可选地，在第一居家助手对人进行模拟时)。在一些实施方式中，居家助手设备耦合至一个或者多个智能设备并且，响应于意外声音，指示一个或者多个智能设备进行响应(例如，通过启用锁、打开灯、发出警报等进行响应)。

在一些实施方式中，居家助手设备耦合至在居家环境内的一个或者多个附加计算机系统(例如，智能设备)。在一些实施方式中，居家助手设备从一个或者多个附加计算机系统中的至少一个附加计算机系统接收声音满足一个或者多个预定义准则的通知；并且响应于接收到声音的通知，经由一个或者多个扬声器发出第二模拟居住者响应。在一些实施方式中，一个或者多个预定义准则与居家助手设备的一个或者多个监视准则不同。例如，每个居家助手基于每个助手的对其居家环境的部分的学习具有不同的准则。作为一个示例，车库中的居家助手可能预期与汽车和车库门有关的声音，而在住宅的另一端处的居家助手不期望这样的声音。

对于上面讨论的系统收集有关用户的信息的情形，可以向用户提供机会来选择加入/退出可以收集个人信息(例如，有关用户的偏好或者对智能设备的使用的信息)的程序或者特征。另外，在一些实施方式中，在存储或者使用特定数据之前，可以按照一种或者多种方式来使该特定数据匿名，从而使得个人可识别信息被去除。例如，可以使用户的身份匿名，从而使得个人可识别信息无法被确定或者与用户相关联，并且使得用户偏好或者用户被泛化(例如，基于用户人口统计来泛化)而不是与特定用户相关联。

虽然各个附图中的一些附图按照特定顺序图示了若干逻辑阶段，但是可以对不依赖顺序的阶段进行重新排序并且可以组合或者分解其它阶段。虽然具体地提到了一些重新排序或者其它分组，但是其它重新排序或者其它分组对于本领域的普通技术人员而言将是显而易见的，所以，本文呈现的排序和分组不是详尽的替选方案列表。此外，应当认识到，阶段可以实现在硬件、固件、软件或者其组合中。

还要明白，虽然在一些实例中，本文使用术语第一、第二等来描述各种元件，但是这些件不应当受这些术语的限制。这些术语仅用于将一个元件与另一元件区分开来。例如，在不脱离各种所描述的实施方式的范围的情况下，可以将第一类型的类别称为第二类型的类别，并且同样，可以将第二类型的类别称为第一类型的类别。第一类型的类别和第二类型的类别都是类别的类型，但是它们不是相同类型的类别。

本文在对各种所描述的实施方式的描述中使用的术语仅用于描述特定实施方式，而不旨在进行限制。如在对各个所描述的实施方式和随附权利要求书的描述中使用的，单数形式“一”、“一个”、和“该”旨在也包括复数形式，除非上下文另外明确指出。还要明白，本文使用的术语“和/或”是指并且囊括一个或者多个相关的列出项的任何和所有可能组合。要进一步明白，当在本说明书中使用术语“包括”和/或“包含”时，指定存在所述特征、整体、步骤、操作、元件、和/或组件，但是不排除存在或者添加一个或者多个其它特征、整体、步骤、操作、元件、组件、和/或其组合。

如本文使用的，可选地，术语“如果”取决于上下文被解释为意指“在…时”或者“在…的时候”或者“响应于确定…”或者“响应于检测到…”或者“根据…的确定”。同样，可选地，短语“如果确定…”或者“如果检测到[所述状况或者事件]”取决于上下文被解释为意指“在确定…之后”或者“响应于确定…”或者“在检测到[所述状况或者事件]之后”或者“响应于检测到[所述状况或者事件]”或者“根据检测到[所述状况或者事件]的确定”。

出于说明之目的，已经参照具体实施方式描述了前面的描述。然而，上面的说明性讨论不旨在是详尽的或者将权利要求书的范围限制为所公开的精确形式。鉴于上面的教导，许多修改和变型是可能的。选择这些实施方式以最好地解释权利要求书及其实际应用的原理，从而使本领域的其它技术人员能够最佳地使用具有适于设想的特定用途的各种修改的实施方式。

Claims

1.一种用于监视居家环境中的活动的方法，包括：

在具有语音启动式用户界面、一个或者多个麦克风、一个或者多个扬声器、一个或者多个处理器、和存储器的计算机系统处，其中，所述计算机系统具有至少两个不同的操作模式，包括助手模式和监视模式：

当在所述助手模式下操作时，接收在所述监视模式下操作的居住者语音命令；

响应于所述居住者语音命令，从在所述助手模式下操作转变到在所述监视模式下操作；

获得一个或者多个监视准则；

当在所述监视模式下操作时，检测声音；

获得关于所述声音是否满足所述一个或者多个监视准则的确定；以及

根据所述声音满足所述一个或者多个监视准则的确定：

获得所述声音的类别；以及

基于声音具有第一声音类别，经由所述一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应。

2.根据权利要求1所述的方法，其中，所述多个模拟居住者响应包括以下中的一个或者多个：

模拟动物响应；

预先记录的居住者响应；

识别请求；以及

模拟人类响应。

3.根据权利要求1所述的方法，进一步包括：根据所述声音满足所述一个或者多个监视准则的确定，执行以下一项或者多项：

调整所述居家环境的照明水平；

调整所述居家助手的用户界面以指示检测到所述声音满足所述一个或者多个预定义准则；

存储所述声音；

启用居家设备；以及

发送警示。

4.根据权利要求1所述的方法，进一步包括：根据所述声音不满足所述一个或者多个监视准则的确定，停止获得所述声音的类别。

5.根据权利要求1所述的方法，进一步包括：基于所述声音具有第二声音类别，停止经由所述一个或者多个扬声器发出模拟居住者响应。

6.根据权利要求1所述的方法，进一步包括：根据所述声音满足所述一个或者多个监视准则的确定，使得所述居家环境的远程居住者能够执行以下一项或者多项：经由所述一个或者多个麦克风监听所述声音、监听所述居家环境。

7.根据权利要求1所述的方法，其中，获得关于所述声音是否满足所述一个或者多个预定义准则的确定包括：获得关于所述声音是否是所述居家环境的预期声音的确定。

8.根据权利要求7所述的方法，进一步包括：获得多个先前记录的居家环境声音；以及

其中，获得所述声音不是所述居家环境的预期声音的确定包括：将所述声音与所述多个先前记录的居家环境声音相比较。

9.根据权利要求1所述的方法，其中，获得所述声音的类别包括：获得关于所述声音是否包括所述居家环境的居住者的语音的确定。

10.根据权利要求1所述的方法，其中，获得所述声音的类别包括：获得关于所述居家环境的居住者是否被预期为当前处于所述居家环境内的确定。

11.根据权利要求10所述的方法，进一步包括：根据所述居家环境的所述居住者被预期为当前处于所述居家环境内的确定，经由所述一个或者多个扬声器发出第二模拟居住者响应，所述第二模拟居住者响应与所述模拟居住者响应不同。

12.根据权利要求1至11中的任一项所述的方法，进一步包括：

接收在学习模式下操作所述计算机系统的第二居住者命令；

响应于所述第二居住者命令，转变到在所述学习模式下操作；

当在所述学习模式下操作时，对所述居家环境中的声音进行分析以识别在所述居家环境内的多个预期声音。

13.根据权利要求1至11中的任一项所述的方法，进一步包括：

当在所述监视模式下操作时，接收在所述助手模式下操作的第二居住者命令；以及

根据所述第二居住者命令，转变到在所述助手模式下操作。

14.根据权利要求13所述的方法，进一步包括：

验证所述第二居住者命令包括来自核准用户的命令；以及

根据对所述第二居住者命令的验证转变到在所述助手模式下操作。

15.根据权利要求1至11中的任一项所述的方法，其中，所述计算机系统耦合至在所述居家环境内的一个或者多个附加计算机系统；以及

所述方法进一步包括：根据所述声音满足所述一个或者多个监视准则的确定，请求所述一个或者多个附加计算机系统中的至少一个附加计算机系统模拟居住者对所述声音的响应。

16.根据权利要求1至11中的任一项所述的方法，其中，所述计算机系统耦合至在所述居家环境内的一个或者多个附加计算机系统；以及

所述方法进一步包括：

从所述一个或者多个附加计算机系统中的至少一个附加计算机系统接收第二声音满足一个或者多个预定义准则的通知；以及

响应于接收到所述第二声音的通知，经由所述一个或者多个扬声器发出第二模拟居住者响应。

17.根据权利要求1至11中的任一项所述的方法，进一步包括：当处于所述监视模式时，对在所述居家环境内的居住者活动进行模仿。

18.根据权利要求1至11中的任一项所述的方法，进一步包括：

当处于所述监视模式时，对在特定时间在所述居家环境内的特定声音进行预测；以及

根据所述特定声音在所述特定时间未出现的确定，经由所述一个或者多个扬声器发出第二模拟居住者响应。

19.一种计算机系统，包括：

语音启动式用户界面；

一个或者多个麦克风；

一个或者多个扬声器；

一个或者多个处理器，所述一个或者多个处理器耦合至所述一个或者多个麦克风和所述一个或者多个扬声器；以及

存储器，所述存储器耦合至所述一个或者多个处理器，所述存储器存储配置为由所述一个或者多个处理器执行的一个或者多个程序，所述一个或者多个程序包括用于进行以下操作的指令：

在至少两个不同的模式下操作，所述至少两个不同的模式包括助手模式和监视模式；

获得一个或者多个监视准则；

当在所述监视模式下操作时，检测声音；

根据所述声音满足所述一个或者多个监视准则的确定：

获得所述声音的类别；以及

基于所述声音具有第一声音类别，经由所述一个或者多个扬声器发出多个模拟居住者响应中的第一模拟居住者响应。

20.一种存储一个或者多个程序的非暂时性计算机可读存储介质，所述一个或者多个程序包括指令，所述指令在由具有一个或者多个麦克风和一个或者多个扬声器的计算系统执行时使得所述系统：

在包括助手模式和监视模式的至少两个不同的模式下操作；

获得一个或者多个监视准则；

当在所述监视模式下操作时，检测声音；

根据所述声音满足所述一个或者多个监视准则的确定：

获得所述声音的类别；以及