CN112166350A

CN112166350A - 智能设备中的超声感测的系统和方法

Info

Publication number: CN112166350A
Application number: CN201880093672.8A
Authority: CN
Inventors: 东吉克·辛; 拉杰夫·农皮乌尔; 李炜; 郭健; 珍妮弗·耶拉姆·王; 安德鲁·克里斯托弗·费尔奇; 詹姆斯·保罗·托宾; 路·高; 布赖恩·西尔弗斯坦
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-05
Filing date: 2018-08-30
Publication date: 2021-01-01
Anticipated expiration: 2038-08-30
Also published as: EP3776008B1; EP3776008A1; US20210239831A1; EP4155782A1; EP3798685B1; EP4155782B1; EP3798685A1; WO2019236120A1; CN112166350B

Abstract

本文描述的各种实施例包括用于在电子设备上进行超声感测的方法、设备和系统。在一个方面，在具有存储器、一个或多个处理器、扬声器和麦克风的电子设备上执行一种方法。该方法包括，当经由扬声器和麦克风与用户可听地通信时：(1)经由扬声器发送一个或多个超声脉冲；(2)经由麦克风接收与一个或多个超声脉冲相对应的一个或多个信号；(3)基于一个或多个接收到的信号确定用户的定位；以及(4)基于所确定的定位调整扬声器和/或麦克风的一个或多个参数。

Description

智能设备中的超声感测的系统和方法

技术领域

这通常涉及超声感测，包括但不限于在智能家居环境中利用超声。

背景技术

具有麦克风和扬声器的音频设备被广泛使用。特别是，在住宅和商业环境使用音频设备已经大幅度增加，部分是由于较低的价格。

随着消费者需求改变以及家庭自动化和相关系统的复杂性增加，在设计这样的音频产品时出现各种新挑战，诸如占用率和定位检测。例如，音频设备使用过多的能量来不断监视诸如关键字的音频输入，或者需要手动的用户交互以在接收音频输入之前“唤醒”。作为另一示例，音频设备需要手动的用户交互以根据用户的相对定位和音频背景来调整音量和方向性。

发明内容

因此，存在对用于感测用户并与用户交互的系统和/或设备与更有效、准确和直观的方法的需求。这样的系统、设备和方法可选地补充或替代用于感测用户并与用户交互的常规系统、设备和方法。

所公开的方法通过修改设备上存在的可听麦克风和扬声器的操作，使各种各样的电子设备能够使用声音导航和测距(SONAR)。通过以这种方式启用SONAR，本公开以成本有效的方式解决了智能人感测和场景理解的工程问题。所公开的SONAR系统可选地通过飞行时间差分来捕获人的静态占有率、接近度、人的呼吸速率、空中手势(诸如挥手)以及相对室温曲线。另一个优点是，以这种方式使用SONAR便宜(不需要额外的硬件)，因为可以使用修改后的软件以将音频硬件的工作频段推向超声动态，这在自然场景中是听不见且反射的，以及因此人体感测的主要模式。另一个优点是，经由SONAR检测用户允许设备基于用户的接近度来调制传出信号(例如，传出超声和可听信号)，从而节省能量并减少设备之间的干扰。

本公开描述了根据一些实施方式的由可听范围音频硬件启用的超声感测系统(例如，SONAR)。使用超声感测系统的一个优点是能够检测和解释人类的呼吸提示以更好地帮助用户。另一个优点是能够在不使用专门硬件(例如，仅音频软件修改)的情况下递送人类的感测功能(例如，用户接近度)。例如，音频辅助设备可以使用同一麦克风和扬声器的集合来与附近的人可听地通信(例如，播放音乐、参与对话、倾听指令等)并执行超声感测。作为另一个示例，显示助理可以在同时使用同一扬声器执行超声感测的同时呈现视听内容。

根据一些实施方式，具有一个或多个麦克风和扬声器的电子设备(例如，音频设备和/或智能设备)被配置成可听(例如，口头)与用户交互，并且在这样做时，发送和接收超声脉冲(例如，频率等于或高于20kHz)。超声脉冲可选地用于确定用户的相对位置，并使设备能够相应地调整操作。调整操作可以包括调整音量级别和/或方向性，例如，具有多个扬声器的音频设备可以选择面向用户方向的扬声器以与用户通信。具有多个麦克风的设备可以基于用户的位置为用户指配麦克风的子集。基于用户的位置调整操作允许音频设备节省能量(并延长电池寿命)，减少音频对附近其他人和/或音频设备的干扰，并提供更好的用户体验。

根据一些实施方式，智能设备(例如，音频设备)包括多种类型的传感器，诸如无源红外(PIR)传感器、环境光传感器(ALS)、麦克风(例如，用于可听和/或超声波感应)、图像传感器、雷达模块和无线通信(Wi-Fi)信号分析模块。传感器可选配置成共同工作以完成任务。例如，智能设备可以在其中一些传感器被禁用的低功率模式下操作(例如，图像传感器、雷达模块、超声模块等)。在该示例中，智能设备可以使用低功率传感器，诸如PIR传感器或ALS，来检测运动并且然后“唤醒”，例如，激活一个或多个禁用的传感器。具体示例是使用PIR传感器检测运动，并且然后使相机、雷达模块或超声模块能够表征和/或跟踪运动。作为另一个示例，在弱光情况下，智能设备可以经由Wi-Fi信号分析检测运动，并且然后使雷达模块、超声模块或灯(例如，IR LED)和相机能够表征和/或跟踪运动。

根据一些实施方式，多个智能设备彼此通信地耦合。智能设备可以包括具有不同设备能力的各种设备类型。在一些实施方式中，智能设备一起工作以检测、表征和响应事件。例如，一个或多个智能设备可以接收来自用户的请求。在该示例中，请求被处理并且视觉和/或听觉响应被标识。为了向用户呈现响应，智能设备(例如，经由雷达或超声)确定用户的位所，(例如，经由Wi-Fi信号分析)确定其他智能设备的相对定位，(例如，经由雷达或超声波)标识智能设备和用户之间的任何障碍物，并(例如，基于响应的类型、设备和用户的定位、障碍物以及相应设备能力)选择最佳设备以响应用户。

在一个方面，一些实施方式包括在具有存储器、一个或多个处理器、扬声器和麦克风的音频设备处执行的方法。该方法包括，在经由扬声器和麦克风与用户可听地通信的同时：(1)经由扬声器发送一个或多个超声脉冲；(2)经由麦克风接收与一个或多个超声脉冲相对应的一个或多个信号；以及(3)基于接收到的一个或多个信号确定用户的定位。

在一些实施方式中，该方法进一步包括基于所确定的用户的定位来调整扬声器和/或麦克风的一个或多个参数。

在一些实施方式中：(1)该方法进一步包括：(a)扫描音频设备的超声环境；(b)基于扫描，确定用于一个或多个超声脉冲的一个或多个超声参数；并且(2)将一个或多个超声脉冲与一个或多个超声参数一起被发送。

在另一方面，一些实施方式包括在具有存储器、一个或多个处理器、扬声器和麦克风的音频设备处执行的方法。该方法包括：(1)经由扬声器以第一速率发送第一超声啁啾集；(2)经由麦克风接收与第一超声啁啾集相对应的第一信号集；(3)基于第一信号集确定人接近音频设备；(4)根据确定该人接近音频设备，以比第一速率快的第二速率发送第二超声啁啾集。

在另一方面，一些实施方式包括具有一个或多个处理器；麦克风；扬声器；以及存储器的智能或音频设备，该存储器存储一个或多个指令，该指令在由一个或多个处理器执行时执行本文所述的任何方法。

在另一方面，一些实施方式包括存储一个或多个程序的非暂时性计算机可读存储介质，一个或多个程序包括指令，当由(智能或音频)设备执行时，该指令使该设备执行本文所述的任何方法。

因此，给设备提供有用于检测用户并与用户交互的更有效的方法，从而通过此类设备增加精度、有效性、效率和用户满意度，同时减少功耗并延长电池寿命。这样的设备和方法可以补充或替代用于检测用户并与用户交互的常规系统和方法。

附图说明

为了更好地理解各种所描述的实施方式，应结合以下附图对下面的实施方式进行描述，其中贯穿整个附图相同的附图标记指代相应的部分。

图1是根据一些实施方式的示例智能家居环境。

图2A是图示根据一些实施方式的包括智能家居网络的代表性网络架构的框图。

图2B是根据一些实施方式的其中服务器系统与客户端设备和智能设备交互的代表性操作环境。

图2C图示根据一些实施方式的用于事件分析和分类的代表性系统架构。

图3是图示根据一些实施方式的代表性服务器系统的框图。

图4A是图示根据一些实施方式的代表性智能设备的框图。

图4B是图示根据一些实施方式的代表性音频装置的框图。

图5是图示根据一些实施方式的代表性客户端设备的框图。

图6A-6B图示根据一些实施方式的用于代表性音频设备的代表性操作序列。

图7A-7D图示根据一些实施方式的用于代表性音频设备的另一种代表性操作序列。

图8A-8C图示根据一些实施方式的用于多个智能设备的代表性操作序列。

图9A至图9C图示根据一些实施方式的用于多个智能设备的另一代表性操作序列。

图10A-10C是图示根据一些实施方式的用于代表性音频设备的代表性操作方法的流程图。

图11A-11C图示根据一些实施方式的用于代表性音频设备的另一种代表性操作序列。

图12图示根据一些实施方式的用于代表性音频设备的代表性操作序列。

图13A-13C是图示根据一些实施方式的用于代表性音频设备的代表性操作方法的流程图。

具体实施方式

智能家居环境可以包括让各种传感器混淆的特征，诸如墙壁和视觉障碍物、弱光条件以及大气变化。另外，在智能家居环境内彼此接近操作的多个智能设备引起附加干扰，例如，无线电干扰、红外干扰等。这些混淆的特征干扰智能设备与用户之间的交互，从而通过此类设备减少精度、有效性、效率和用户满意度。

根据一些实施方式，智能设备利用可以克服混淆特征的一个或多个传感器，诸如可以在弱光条件下检测用户的超声模块，或者可以通过视觉障碍物并且在弱光下检测用户的雷达模块。在一些实施方式中，智能设备利用多个传感器来检测用户并与用户交互。例如，智能设备使用PIR传感器确定用户是否接近设备，然后使用超声确定用户的定位和/或解释用户的手势、姿势、呼吸提示等。在此示例中，智能设备可以使用图像传感器标识用户，使用麦克风捕获可听见的用户请求，在用户在对象后面经过时使用雷达跟踪用户，并且使用Wi-Fi信号分析确定其他智能设备的定位(例如，在适当时切换用户交互，或调制信号输出以减少对其他设备的干扰)。以此方式，使智能设备能够克服智能家居环境的混淆的特征并确保更好的用户交互。

另外，智能设备可以利用多个传感器(或特定传感器的多个设置)来节省能量并增加电池寿命。例如，设备可以在低能量“睡眠”模式下操作，其中，禁用诸如图像传感器和雷达模块的高能量传感器节省能量。在此示例中，设备可以使用PIR或ALS传感器“唤醒”并启用更高能量的传感器。在另一示例中，设备以较低功率模式操作超声模块，其中以低占空比发射脉冲(例如，每500毫秒、1秒或3秒发射1个脉冲)。在该示例中，一旦在较低功率模式下检测到运动，设备就转变到较高功率模式，其中更频繁地发射脉冲(例如，每10毫秒、50毫秒或100毫秒1个脉冲)。另外，一旦设备确定用户的相对定位，设备就可以调制输出以节省能量并减少对附近其他设备的潜在干扰(例如，调制信号的占空比、频率、幅度和/或相位)。例如，在一些实施方式中，设备使用+3dB超声波信号来检测用户是否接近设备。在此示例中，一旦在接近范围内(例如，在10英尺、5英尺或3英尺内)检测到用户，设备就切换到+ldB信号(例如，可选地具有更高的占空比)。以此方式，一旦用户被标识为接近设备，就可以减少超声脉冲能量，因为超声脉冲不需要行进与在设备处于检测模式时一样远，这允许设备节省能源。

下面的表1图示可以包括在智能设备上的传感器的类型以及针对每种传感器的示例用例。

示例1-示例智能设备传感器和用例

如表1中所示，每种传感器类型都有特殊的用途和优点。但是，每个传感器也可能容易受到某些混淆的因素的影响。例如：(1)声干扰可能会混淆超声成像组件和麦克风；(2)气压和温度的变化可能会混淆超声成像组件和PIR传感器；(3)与传感器等距的多个实体可能会使用单个接收器混淆超声或雷达组件；(4)无线电干扰可能会使雷达组件和无线通信(Wi-Fi)信号分析组件混淆；(5)红外线干扰可能会混淆PIR传感器；(6)视觉障碍物可能会混淆视觉成像、PIR、ALS和超声组件；并且(7)弱光条件可能会使视觉成像组件混淆。同样，因为雷达可以穿透墙壁和对象，所以雷达组件可能很难确定设备视线中的实体。

在各种实施方式中，本文所述的设备(例如，电子设备、音频设备和/或智能设备)包括以上表1中所示的传感器的全部或子集。在一些实施方式中，本文描述的设备包括传感器集合，所述传感器集合被选择为彼此互补并克服如上所述的各种混淆因素。在一些实施方式中，本文描述的设备包括以低功率可操作的第一传感器集合和具有较高功耗的第二传感器集合。在一些实施方式中，第二传感器集合被禁用或处于睡眠模式，直到基于来自第一传感器集合的数据被激活为止，从而节省设备处的功耗。

在一些实施方式中，本文所述的设备将一个或多个设备接口元件(例如，麦克风和扬声器)用于多个目的。例如，音频助理和显示助理可选地将麦克风和扬声器用于助理功能性以及超声扫描(例如，如下图7A-7D所图示)。将相同的元件用于多种功能降低产品成本，并允许设备的形状因子更小。此外，利用标准的麦克风和扬声器允许设备的售后适配以执行超声扫描而无需新部件(例如，仅通过软件更新就可以启用)。以这种方式，本文描述的设备(例如，危险检测器、相机、路由器等)适于向消费者提供附加功能性。例如，可以(例如，经由软件补丁)更新安装在消费者家中的现有路由器，以执行Wi-Fi分析(请参见上面的表1)，同时继续执行提示用户最初购买路由器的路由器功能。另外，在智能家居环境中，用于相应设备的附加功能性可选地与家庭中的其他智能设备和/或智能家居服务器共享，以向用户提供更完整的智能家居体验。

现在转向附图，图1是根据一些实施方式的示例智能家居环境100。智能家居环境100包括具有各种集成设备的建筑物150(例如，房屋、办公楼、车库或移动房屋)。将理解的是，设备还可以被集成到不包括整个建筑物150的智能家居环境100中，诸如公寓、共管公寓或办公室空间。此外，智能家居环境100可以控制和/或耦合到实际建筑物150外部的设备。确实，智能家居环境100中的若干设备不需要物理上位于建筑物150内。例如，控制泳池加热器114或灌溉系统116的设备可以位于建筑物150的外部。

应当理解，“智能家居环境”可以指的是诸如单户住宅的家庭的智能环境，但是本教导的范围不限于此。本教导还适用于但不限于复式住宅、联排别墅、多单元公寓楼、旅馆、零售店、办公楼、工业建筑，并且更一般地是任何居住空间或工作空间。

还应当理解，尽管术语“用户”、“客户”、“安装者”、“房主”、“居住者”、“客人”、“租户”、“房东”和“维修人”等可以用来指代在本文描述的一些特定情况的场境下执行动作的一个或多个人，这些引用并不限制针对执行此类动作的一个人或多个人的本教导的范围。因此，例如，在单户居民住宅的情况下，术语“用户”、“客户”、“购买者”、“安装者”、“订户”和“房主”可能经常指同一个人，因为户主通常是做出购买决定、购买单元并且安装和配置单元的人，并且还是该单元的用户之一。但是，在其他场景下，诸如房东-租户环境，就购买该单元而言，客户可能是房东，就远程控制功能而言，安装者可能是本地公寓管理员，第一用户可能是租户，第二用户可能再次是房东。重要的是，尽管执行该动作的人的身份可能与一个或多个实施方式所提供的特定优势密切相关，但这种身份不应在随后的描述中解释为必然将本教导的范围限制为具有这些特定身份的特定的个人。

所描绘的建筑物150包括经由墙壁154至少部分地彼此隔开的多个房间152。墙壁154可以包括内墙壁或外墙壁。每个房间可以进一步包括地板156和天花板158。设备可以安装在墙壁154、地板156或天花板158上，与墙壁154、地板156或天花板158集成和/或由其支撑。

在一些实施方式中，智能家居环境100的集成设备包括智能、多感测、网络连接的设备，其在智能家居网络(例如，图2A的202)中彼此无缝集成和/或与中央服务器或云计算系统无缝集成，以提供各种有用的智能家居功能。智能家居环境100可以包括一个或多个智能、多感测、网络连接的恒温器102(以下称为“智能恒温器102”)、一个或多个智能、网络连接、多感测的危险检测单元104(下文称为“智能危险检测器104”)、一个或多个智能、多感测、网络连接的入口通道接口设备106和120(以下称为“智能门铃106”和“智能门锁120”)以及一个或多个智能、多感测、网络连接的警报系统122(以下称为“智能警报系统122”)。

在一些实施方式中，一个或多个智能恒温器102检测环境气候特征(例如，温度和/或湿度)并相应地控制HVAC系统103。例如，相应的智能恒温器102包括环境温度传感器。

一个或多个智能危险检测器104可以包括针对各个热源(例如，炉灶、烤箱、其他电器、壁炉等)的热辐射传感器。例如，厨房153中的智能危险检测器104包括针对炉灶/烤箱112的热辐射传感器。热辐射传感器可以确定其针对的各个热源(或其一部分)的温度，并且可以提供相应的黑体辐射数据作为输出。

智能门铃106和/或智能门锁120检测人接近或离开某个位所(例如，外门)，控制门铃/门锁定功能(例如，从便携式电子设备166接收用户输入以致动智能门锁120的门闩)，经由音频或视觉手段通告人的接近或离开和/或控制安全系统上的设置(例如，以在居住者出入时激活或停用安全系统)。在一些实施方式中，智能门铃106和/或智能门锁120是电池供电的(例如，不是线路供电的)。在一些实施方式中，智能门铃106包括相机118的一些或全部组件和特征。在一些实施方式中，智能门铃106包括相机118。在一些实施方式中，智能门铃106包括嵌入在门铃106中的相机118。在一些实施方式中，智能门铃106包括安装在门铃106上或附近的相机。在一些实施方式中，智能门铃106包括未安装在门铃之中、之上或附近，而是安装在门铃106邻近的相机118。在一些实施方式中，智能门铃106包括两个或更多个相机118(例如，一个相机面向入口，而另一个相机面向访客)。在一些实施方式中，智能门铃106具有与摄像机118分离的相机(在本文中有时也称为门铃相机106)。出于本公开的目的，对门铃106的与视频相关的引用是指一个或多个与门铃106相关联的相机。

智能警报系统122可以(例如，使用内置的IR传感器)检测近距离内的个人的存在，(例如，通过内置的扬声器，或者通过将命令发送给一个或多个外部扬声器)发出警报，并向智能家居网络100内/外的实体或用户发送通知。在一些实施方式中，智能警报系统122还包括用于验证用户的身份的一个或多个输入设备或传感器(例如，键盘、生物特征扫描仪、NFC收发器、麦克风)，以及一个或多个输出设备(例如，显示器、扬声器)。在一些实施方式中，智能警报系统122也可以被设置为“布防”模式，使得触发条件或事件的检测引起警报响起，除非执行撤防动作。

在一些实施方式中，智能家居环境100包括一个或多个智能、多感测、网络连接的墙壁开关108(以下称为“智能墙壁开关108”)，以及一个或多个智能、多感测、网络连接的墙壁插座接口110(以下称为“智能墙壁插座110”)。智能墙壁开关108检测环境照明状况，检测房间占用状态，和/或控制一个或多个灯的通电和/或暗淡状态。在一些情况中，智能墙壁开关108还控制风扇(诸如吊扇)的通电状态或速度。智能墙壁插座110可以检测房间或封闭空间的占用，并控制对一个或多个墙壁插座的电力供应(例如，使得没人在家时不向该插座供电)。

在一些实施方式中，图1的智能家居环境100包括多个智能、多感测、网络连接的电器112(以下称为“智能电器112”)，诸如冰箱、炉灶、烤箱、电视机、洗衣机、烘干机、灯、立体声音响、对讲机系统、车库门开启器、落地扇、吊扇、壁挂式空调、泳池加热器、灌溉系统、安全系统、空间加热器、窗式空调装置和电动通风口等。在一些实施方式中，当插上插头接通电源时，电器可以诸如通过指示其是什么类型的电器来向智能家居网络通告其自身，并且它可以自动地与智能家居的控件集成。可以通过有线或无线通信协议来促进电器到智能家居的这种通信。智能家居还可以包括各种非通信的传统电器140，诸如旧的常规洗衣机/烘干机、冰箱等，它们可以由智能墙壁插座110控制。智能家居环境100可以进一步包括各种部分通信的传统电器142(诸如，红外(“IR”)控制的壁式空调或其他IR控制的设备)，其可以通过由智能危险检测器104或智能墙壁开关108提供的IR信号进行控制。

在一些实施方式中，智能家居环境100包括一个或多个网络连接的相机118，其被配置成在智能家居环境100中提供视频监控和安全性。在一些实施方式中，相机118由电池供电(例如，不是线路供电)。在一些实施方式中，如下面更详细地描述的，相机118被配置成选择性地耦合到一个或多个网络和/或选择性地捕获、存储、传输视频数据(例如，基于视场内的运动的存在和特征)。在一些实施方式中，在低功率模式下，相机118使用始终开启或周期性开启的低功率传感器(诸如PIR传感器)来检测正在接近的访客。

在一些实施方式中，相机118用于确定建筑物150和/或建筑物150中的特定房间152的占用，并因此用作占用传感器。例如，可以处理由相机118捕获的视频以识别建筑物150中(例如，在特定房间152中)的居住者的存在。特定个体可以基于例如其外观(例如，身高、面部)和/或运动(例如，他们的步行/步态)来识别。相机118可以另外包括一个或多个传感器(例如，IR传感器、运动检测器)、输入设备(例如，用于捕获音频的麦克风)和输出设备(例如，用于输出音频的扬声器)。在一些实施方式中，相机118均被配置成以白天模式和低光模式(例如，夜间模式)工作。在一些实施方式中，相机118均包括一个或多个IR照明器，用于在相机以低光模式工作时提供照明。在一些实施方式中，相机118包括一个或多个室外相机。在一些实施方式中，室外相机包括附加特征和/或组件，诸如防风雨和/或太阳光线补偿。

在一些实施方式中，智能家居环境100包括一个或多个网络连接的门铃106，其被配置成在智能家居环境100的入口通道附近提供视频监控和安全性。门铃106可选地用于确定访客的接近和/或存在。特定个体可选地基于例如其外观(例如，身高、面部)和/或运动(例如，他们的步行/步态)来识别。门铃106可选地包括一个或多个传感器(例如，IR传感器、运动检测器)、输入设备(例如，用于捕获音频的麦克风)和输出设备(例如，用于输出音频的扬声器)。在一些实施方式中，门铃106被配置成以高光模式(例如，白天模式)和低光模式(例如，夜间模式)工作。在一些实施方式中，门铃106包括一个或多个IR照明器，该IR照明器用于在相机以低光模式工作时提供照明。在一些实施方式中，门铃106包括一个或多个灯(例如，一个或多个LED)，用于在低光状况下照亮门铃和/或向访客提供视觉反馈。在一些实施方式中，门铃106包括附加特征和/或组件，诸如防风雨和/或太阳光线补偿。在一些实施方式中，门铃106由电池供电并且以低功率或高功率模式运行。在一些实施方式中，在低功率模式下，门铃106使用始终开启或周期性开启的诸如PIR传感器的低功率传感器来检测接近的访客。在一些实施方式中，在检测到访客接近之后，门铃106切换到高功率模式以执行进一步的处理功能(如下所述)。

在一些实施方式中，智能家居环境100附加地或可替代地包括一个或多个其他占用传感器(例如，智能门铃106、智能门锁120、触摸屏、IR传感器、麦克风、环境光传感器、运动检测器、智能夜灯170等)。在一些实施方式中，智能家居环境100包括射频识别(RFID)读取器(例如，在每个房间152或其一部分中)，其基于位于居住者身上或嵌入在居住者体内的RFID标签来确定占用。例如，RFID读取器可以被集成到智能危险检测器104中。

在一些实施方式中，智能家居环境100包括物理家庭之外但在家庭的邻近地理范围内的一个或多个设备。例如，智能家居环境100可以包括泳池加热器监控器114，该泳池加热器监控器114将当前泳池温度传送至智能家居环境100内的其他设备和/或接收用于控制泳池温度的命令。类似地，智能家居环境100可以包括灌溉监控器116，其传送关于智能家居环境100内的灌溉系统的信息和/或接收用于控制这种灌溉系统的控制信息。

借助于网络连接，图1的一个或多个智能家居设备可以进一步允许用户与该设备进行交互，即使该用户不靠近该设备也是如此。例如，用户可以使用计算机(例如，台式计算机、膝上型计算机或平板电脑)或其他便携式电子设备166(例如，诸如智能电话的移动电话)与设备进行通信。网页或应用可以配置成从用户接收通信并基于该通信控制设备和/或向用户呈现有关设备操作的信息。例如，用户可以查看设备(例如，炉灶)的当前设定点温度，并使用计算机对其进行调节。用户可以在此远程通信期间位于建筑物中，也可以位于建筑物外部。

如上所述，用户可以使用网络连接的计算机或便携式电子设备166来控制智能家居环境100中的智能设备。在一些示例中，一些或全部居住者(例如，居住在家庭中的个人)可以向智能家居环境100注册他们的设备166。可以在中央服务器上进行这样的注册，以将居住者和/或设备认证为与家庭相关联，并向居住者授予使用该设备来控制家庭中的智能设备的权限。居住者可以使用其注册的设备166来远程控制家庭中的智能设备，诸如在居住者上班或度假时。当居住者实际上位于家庭内部时，诸如当居住者坐在家庭内部的沙发上时，居住者还可以使用其注册的设备来控制智能设备。应当理解，代替注册设备166或除了注册设备166之外，智能家居环境100可以推断哪些个人居住在家庭中并且因此是居住者以及哪些设备166与那些个人相关联。这样，智能家居环境可以“了解”谁是居住者并且允许与那些个人相关联的设备166控制家庭的智能设备。

在一些实施方式中，除了包含处理和感测能力之外，设备102、104、106、108、110、112、114、116、118、120和/或122(统称为“智能设备”)能够与其他智能设备、中央服务器或云计算系统和/或其他网络连接的设备进行数据通信和信息共享。可以使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、智能蓝牙(Bluetooth Smart)、ISA100.5A、WirelessHART、MiWi等)中的任何一种和/或各种定制或标准有线协议(例如，以太网、HomePlug等)中的任何一种或任何其他合适的通信协议(包括截至本文档提交之日尚未开发的通信协议)来进行数据通信。

在一些实施方式中，智能设备用作无线或有线中继器。在一些实施方式中，智能设备中的第一智能设备经由无线路由器与智能设备中的第二智能设备通信。智能设备可以进一步经由到诸如互联网162的网络的连接(例如，网络接口160)彼此通信。通过互联网162，智能设备可以与服务器系统164(本文也称为中央服务器系统和/或云计算系统)通信。服务器系统164可以与和智能设备相关联的制造商、支持实体或服务提供商相关联。在一些实施方式中，用户能够使用智能设备本身来联系客户支持，而不需要使用其他通信手段，诸如电话或连接互联网的计算机。在一些实施方式中，软件更新被自动从服务器系统164发送到智能设备(例如，当可用时、购买时或以例行间隔)。

在一些实施方式中，网络接口160包括常规的网络设备(例如，路由器)，并且图1的智能家居环境100包括集线器设备180，其直接或经由网络接口160通信地耦合到网络162。集线器设备180进一步通信地耦合至上述智能、多感测、网络连接的设备(例如，智能家居环境100的智能设备)中的一个或多个。这些智能设备中的每一个可选地使用至少在智能家居环境100中可用的一个或多个无线电通信网络(例如ZigBee、Z-Wave、Insteon、蓝牙、Wi-Fi和其他无线电通信网络)与集线器设备180通信。在一些实施方式中，可以经由在智能电话、家用控制器、膝上型计算机、平板计算机、游戏控制台或类似电子设备上运行的应用来控制集线器设备和/或与集线器设备耦合的设备或与其交互。在一些实施方式中，这样的控制器应用的用户可以查看集线器设备或耦合的智能设备的状态，配置集线器设备以与新引入家庭网络的智能设备进行互操作，调试新智能设备，以及调整或查看连接的智能设备的设置等。在一些实施方式中，集线器设备扩展了低能力智能设备的能力，以匹配相同类型的高能力智能设备的能力，集成了多种不同设备类型的功能——甚至跨越不同的通信协议，并且被配置成简化新设备的添加和集线器设备的调试。在一些实施方式中，集线器设备180进一步包括本地存储设备，该本地存储设备用于存储与智能家居环境100的智能设备有关或由其输出的数据。在一些实施方式中，数据包括下述中的一个或者多个：由相机设备输出的视频数据、由智能设备输出的元数据、智能设备的设置信息和智能设备的使用日志等。

在一些实施方式中，智能家居环境100包括本地存储设备190，用于存储与智能家居环境100的智能设备有关的数据或由智能家居环境100的智能设备输出的数据。在一些实施方式中，数据包括下述中的一个或者多个：由相机设备(例如，门铃106附带的相机)输出的视频数据、由智能设备输出的元数据、智能设备的设置信息和智能设备的使用日志等。在一些实施方式中，本地存储设备190经由智能家居网络(例如，智能家居网络202，图2A)通信地耦合到一个或多个智能设备。在一些实施方式中，本地存储设备190经由有线和/或无线通信网络选择性地耦合到一个或多个智能设备。在一些实施方式中，当外部网络状况差时，本地存储设备190用于存储视频数据。例如，当门铃106附带的相机的编码比特率超过外部网络(例如，网络162)的可用带宽时，使用本地存储设备190。在一些实施方式中，本地存储设备190在将视频数据传送到服务器系统(例如，服务器系统164)之前临时存储来自一个或多个门铃(例如，门铃106)的视频数据。

图2A是示出了根据一些实施方式的包括智能家居网络202的代表性网络架构200的框图。在一些实施方式中，智能家居环境100中的智能设备204(例如，设备102、104、106、108、110、112、114、116、118、120和/或122)与集线器设备180结合以在智能家居网络202中创建网状网络。在一些实施方式中，智能家居网络202中的一个或多个智能设备204用作智能家居控制器。附加地和/或可替代地，集线器设备180用作智能家居控制器。在一些实施方式中，智能家居控制器比其他智能设备具有更多的计算能力。在一些实施方式中，智能家居控制器处理输入(例如，来自智能设备204、电子设备166和/或服务器系统164的输入)并发送命令(例如，发送到智能家居网络202中的智能设备204)以控制智能家居网络100的操作。在一些实施方式中，智能家居网络202中(例如，在网状网络中)的一些智能设备204是“发言人”节点(例如，204-1)，而其他是“低功率”节点(例如，204-9)。智能家居环境100中的一些智能设备由电池供电，而其他智能设备具有常规且可靠的电源，诸如通过连接至智能家居环境的墙壁154后面的布线(例如，至120V线路电压线)。具有常规和可靠电源的智能设备称为“发言人”节点。这些节点通常配备有使用无线协议来促进与智能家居环境100中的各种其他设备以及与服务器系统164的双向通信的能力。在一些实施方式中，一个或多个“发言人”节点作为智能家居控制器工作。另一方面，由电池供电的设备是“低功率”节点。这些节点通常比发言人节点小，并且通常仅使用需要很少功率的无线协议(例如，Zigbee、ZWave、6LoWPAN、Thread、蓝牙等)进行通信。

在一些实施方式中，一些低功率节点不能进行双向通信。这些低功率节点发送消息，但它们无法“监听”。因此，智能家居环境100中的其他设备，诸如发言人节点，不能将信息发送到这些低功率节点。

在一些实施方式中，一些低功率节点仅能够进行有限的双向通信。例如，其他设备只能在特定时间段内与低功率节点进行通信。

如所描述的，在一些实施方式中，智能设备用作低功率和发言人节点以在智能家居环境100中创建网状网络。在一些实施方式中，智能家居环境中的各个低功率节点定期发出关于它们正在感测的内容的消息，且智能家居环境中的其他低功率节点(除了发出自己的消息外)还转发消息，从而导致消息在整个智能家居网络202中从节点到节点(即，设备到设备)传播。在一些实施方式中，智能家居网络202中的发言人节点(能够使用相对高功率通信协议(诸如IEEE 802.11)进行通信)能够切换到相对低功率通信协议，诸如IEEE802.15.4，接收这些消息，将消息转换为其他通信协议，并将转换后的消息发送给其他发言人节点和/或服务器系统164(使用例如相对高功率通信协议)。因此，使用低功率通信协议的低功率节点能够跨整个智能家居网络202以及通过互联网162向服务器系统164发送和/或接收消息。在一些实施方式中，网状网络使服务器系统164能够定期从家庭中的大多数或所有智能设备接收数据，基于数据进行推理，促进跨智能家居网络202内外的设备的状态同步以及向一个或多个智能设备发送命令以在智能家居环境中执行任务。

如所描述的，发言人节点和一些低功率节点能够“监听”。因此，用户、其他设备和/或服务器系统164可以将控制命令传送到低功率节点。例如，用户可以使用电子设备166(例如，智能电话)通过互联网将命令发送到服务器系统164，服务器系统164随后将命令中继到智能家居网络202中的一个或多个发言人节点。发言人节点可以使用低功率协议来将命令传送给整个智能家居网络202中的低功率节点，以及传送给未直接从服务器系统164接收到命令的其他发言人节点。

在一些实施方式中，作为智能设备204的示例的智能夜灯170(图1)是低功率节点。除了容纳光源之外，智能夜灯170还容纳诸如超声波或无源IR传感器的占用传感器以及诸如测量房间中的光的光敏电阻或单像素传感器的环境光传感器。在一些实施方式中，智能夜灯170被配置成在其环境光传感器检测到房间黑暗时以及当其占用传感器检测到有人在房间中时激活光源。在其他实施方式中，智能夜灯170仅被配置成在其环境光传感器检测到房间黑暗时激活光源。此外，在一些实施方式中，智能夜灯170包括低功率无线通信芯片(例如，ZigBee芯片)，该低功率无线通信芯片定期发出关于房间的占用和房间中的光量的消息，包括与占用传感器检测到房间中的人的存在的同时出现的即时消息。如上所述，这些消息可以在智能家居网络202内从节点到节点(即，从智能设备到智能设备)无线地(例如，使用网状网络)发送，以及通过互联网162发送到服务器系统164。

低功率节点的其他示例包括智能危险检测器104、相机118和门铃106等的电池供电版本。这些电池供电的智能设备通常位于无法获得恒定且可靠的电力的区域，并且可选地包括任意数量和类型的传感器，诸如图像传感器、占用/运动传感器、环境光传感器、环境温度传感器、湿度传感器、烟雾/火灾/热传感器(例如，热辐射传感器)和一氧化碳/二氧化碳传感器等。此外，电池供电的智能设备可以诸如通过使用如上所述的网状网络将与各个传感器中的每个传感器相对应的消息发送到其他设备和/或服务器系统164。

发言人节点的示例包括线路供电的智能门铃106、智能恒温器102、智能墙壁开关108和智能墙壁插座110。这些设备位于可靠电源附近并与之连接，因此可以包括更多的功耗组件，诸如一个或多个能够以多种协议进行双向通信的通信芯片。

在一些实施方式中，智能家居环境100包括服务机器人168(图1)，该服务机器人168被配置成以自主方式执行各种家庭任务中的任何一项。

如以上参考图1所解释的，在一些实施方式中，图1的智能家居环境100包括集线器设备180，其直接地或经由网络接口160通信地耦合到网络162。集线器设备180进一步使用至少在智能家居环境100中可用的无线电通信网络通信地耦合到一个或多个智能设备。无线电通信网络使用的通信协议包括但不限于ZigBee、Z-Wave、Insteon、EuOcean、Thread、OSIAN和低功耗蓝牙(Bluetooth Low Energy)等。在一些实施方式中，集线器设备180不仅转换从每个智能设备接收的数据以满足网络接口160或网络162的数据格式要求，而且转换从网络接口160或网络162接收的信息以满足与目标智能设备相关联的相应通信协议的数据格式要求。在一些实施方式中，除了数据格式转换之外，集线器设备180进一步处理从智能设备接收的数据或从网络接口160或网络162初步接收的信息。例如，集线器设备180可以整合来自多个传感器/连接的设备(包括相同和/或不同类型的传感器/设备)的输入，对这些输入执行更高级别的处理——例如，以评估整体环境并协调不同的传感器/设备之间的操作——和/或基于输入的集合和编程处理为不同的设备提供指令。还应注意，在一些实施方式中，网络接口160和集线器设备180被整合到一个网络设备。本文描述的功能表示智能设备、在代表性电子设备(例如，智能电话)上运行的控制应用、集线器设备180和经由互联网或其他广域网耦合到集线器设备的服务器的特定实施方式。该功能和相关联的操作的全部或一部分可以由所描述的系统的任何元件执行——例如，本文描述为由集线器设备的实施方式执行的全部或部分功能可以整体或部分地在服务器、一个或多个连接的智能设备和/或控制应用或其不同组合上以不同的系统实施方式执行。

图2B示出了代表性的操作环境，其中，服务器系统164提供数据处理，以监视和促进从智能设备204(诸如摄像机118或门铃相机106)捕获的数据查看事件(例如，运动、音频、安全性等)。如图2B所示，服务器系统164从位于各种物理位所(例如，住所、餐馆、商店、街道、停车场和/或图1的智能家居环境100内部或附近)的视频源222(包括相机118和/或门铃相机106)接收数据。在一些实施方式中，视频源222链接到一个以上的查看者账户(例如，多个用户账户可以订阅到单个智能家居环境)。在一些实施方式中，服务器系统164将视频源222的视频监控数据提供给与查看者账户相关联的客户端设备220。例如，便携式电子设备166是客户端设备220的示例。在一些实施方式中，服务器系统164包括视频处理服务器，该视频处理服务器向视频源和客户端设备220提供视频处理服务。在一些实施方式中，服务器系统164从一个或多个智能设备204接收非视频数据(例如，音频数据、元数据、数字数据等)。在一些实施方式中，非视频数据被分析以为由摄像机118和/或门铃相机106检测到的运动事件提供场境。在一些实施方式中，非视频数据指示(例如，由音频设备检测到的)音频事件、(例如，由外围监控设备检测到的)安全事件、(例如，由危险检测器检测到的)危险事件或(例如，由健康监测设备检测到的)医疗事件等已在智能家居环境100内发生。

在一些实施方式中，多个查看者账户链接到单个智能家居环境100。例如，智能家居环境100的多个居住者可以具有链接到智能家居环境的账户。在一些实施方式中，每个查看者账户与特定的访问级别相关联。在一些实施方式中，每个查看者账户具有个性化的通知设置。在一些实施方式中，单个查看者账户链接到多个智能家居环境100。例如，一个人可以拥有或占据或被指派以查看和/或管理多个智能家居环境100。在一些实施方式中，查看者账户对于每个智能家居环境都有不同访问级别和/或通知设置。

在一些实施方式中，视频源222中的每一个包括一个或多个摄像机118或门铃相机106，其捕获视频并将捕获的视频基本实时地发送到服务器系统164。在一些实施方式中，视频源222中的每一个包括一个或多个门铃相机106，其捕获视频并将捕获的视频实时地(例如，在1秒、10秒、30秒或1分钟内)发送到服务器系统164。在一些实施方式中，门铃106中的每一个包括摄像机，该摄像机捕获视频并将捕获的视频实时发送到服务器系统164。在一些实施方式中，视频源222包括控制器设备(未示出)，该控制器设备用作一个或多个门铃106与服务器系统164之间的中介。控制器设备从一个或多个门铃106接收视频数据，可选地对视频数据执行一些初步处理，并代表一个或多个门铃106(例如，实时)将视频数据和/或初步处理的结果发送到服务器系统164。在一些实施方式中，每个相机具有其自己的机载处理能力，以在将视频数据(例如，连同通过初步处理获得的元数据)发送到控制器设备和/或服务器之前，对捕获的视频数据执行一些初步处理。在一些实施方式中，一个或多个相机被配置成可选地本地存储视频数据(例如，用于以后用户请求时进行传输)。在一些实施方式中，相机被配置成对捕获的视频数据执行一些处理，并且基于该处理，基本实时地发送视频数据，在本地存储视频数据，或者忽略该视频数据。

根据一些实施方式，客户端设备220包括客户端侧模块或智能家居应用，诸如图5中的客户端侧模块528。在一些实施方式中，客户端侧模块通过一个或多个网络162与在服务器系统164上执行的服务器侧模块通信。客户端侧模块提供客户端侧功能，用于事件监视和查看处理以及与服务器侧模块的通信。服务器侧模块提供服务器侧功能，用于任意数量的客户端侧模块的事件监视和查看处理，每个客户端侧模块都驻留在各自的客户端设备220上。在一些实施方式中，服务器侧模块还提供用于任意数量的视频源222的视频处理和相机控制的服务器侧功能，该任意数量的视频源222包括任意数量的控制设备、相机118和门铃106。

在一些实施方式中，服务器系统164包括一个或多个处理器212、视频存储数据库210、账户数据库214、到一个或多个客户端设备216的I/O接口以及到一个或多个视频源218的I/O接口。到一个或多个客户端216的I/O接口促进面向客户端的输入和输出处理。账户数据库214存储用于向视频处理服务器注册的查看者账户的多个简档，其中，相应的用户简档包括针对相应的查看者账户的账户凭证以及链接到相应的查看者账户的一个或多个视频源。到一个或多个视频源218的I/O接口促进了与一个或多个视频源222(例如，一个或多个门铃106、相机118和相关联的控制器设备的组)的通信。视频存储数据库210存储从视频源222接收的原始视频数据以及各种类型的元数据，诸如运动事件、事件类别、事件类别模型、事件过滤器和事件掩蔽，以用于对每个查看者账户进行事件监视和查看的数据处理。

代表性客户端设备220的示例包括手持计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、膝上型计算机、台式计算机、蜂窝电话、智能电话、增强型通用分组无线电服务(EGPRS)移动电话、媒体播放器、导航设备、游戏机、电视机、遥控器、销售点(POS)终端、车载计算机、电子书阅读器或这些数据处理设备或其他数据处理设备中的任何两个或更多个的组合。

一个或多个网络162的示例包括局域网(LAN)和诸如互联网的广域网(WAN)。一个或多个网络162使用任何已知的网络协议来实现，包括各种有线或无线协议，诸如以太网、通用串行总线(USB)、FIREWIRE、长期演进(LTE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX或任何其他合适的通信协议。

在一些实施方式中，服务器系统164在一个或多个独立数据处理装置或计算机的分布式网络上实现。在一些实施方式中，服务器系统164还采用第三方服务提供商(例如，第三方云服务提供商)的各种虚拟设备和/或服务来提供服务器系统164的基础计算资源和/或基础设施资源。在一些实施方式中，服务器系统164包括但不限于服务器计算机、云服务器、分布式云计算系统、手持式计算机、平板计算机、膝上型计算机、台式计算机或这些数据处理设备或其他数据处理设备的任何两个或更多个的组合。

在一些实施方式中，服务器-客户端环境既包括客户端侧部分(例如，客户端侧模块)又包括服务器侧部分(例如，服务器侧模块)。在不同的实施方式中，操作环境的客户端和服务器部分之间的功能划分可能有所不同。类似地，在不同的实施方式中，视频源222和服务器系统164之间的功能划分可以不同。例如，在一些实施方式中，客户端侧模块是瘦客户端，其仅提供面向用户的输入和输出处理功能，并将所有其他数据处理功能委托给后端服务器(例如，服务器系统164)。类似地，在一些实施方式中，视频源222中的相应一个是简单的视频捕获设备，其连续捕获视频数据并将其流传输到服务器系统164，而对视频数据进行有限本地初步处理或不进行本地初步处理。尽管从服务器系统164的角度描述了本技术的许多方面，但是由客户端设备220和/或视频源222执行的相应动作对于本领域技术人将是显而易见的。类似地，可以从客户端设备或视频源的角度描述本技术的一些方面，并且由视频服务器执行的相应动作对于本领域技术人而言将是显而易见的。此外，一些方面可以由服务器系统164、客户端设备220和视频源222协作地执行。

在一些实施方式中，视频源222(例如，具有图像传感器的相机118或门铃106)将视频数据的一个或多个流传输到服务器系统164。在一些实施方式中，一个或多个流包括分别由图像传感器捕获的原始视频的各个分辨率和/或帧速率的多个流。在一些实施方式中，多个流包括：具有某一分辨率和帧速率(例如，对应于由图像传感器捕获的原始视频)的“主要”流(例如，226-1)，以及一个或多个附加流(例如，226-2至226-q)。附加流可选地是与“主要”流相同的视频流，但是具有不同的分辨率和/或帧速率，或者是捕获“主要”流的一部分的流(例如，裁剪为包括视场的一部分或主要流的像素)，其分辨率或帧速率与“主要”流相同或不同。在一些实施方式中，主要流和/或附加流被动态编码(例如，基于网络状况、服务器工作状况、相机工作状况、流中的数据的表征(例如，是否存在运动)、用户偏好等。

在一些实施方式中，将流226中的一个或多个从视频源222直接发送到客户端设备220(例如，而不路由到服务器系统164或由其处理)。在一些实施方式中，一个或多个流存储在门铃106(例如，在图4A的存储器426中)和/或本地存储设备190处(例如，专用记录设备)，诸如数字视频记录器(DVR)。例如，根据一些实施方式，门铃106存储由相机记录的最近24小时的视频画面。作为另一示例，根据一些实施方式，门铃106存储由相机记录的多达24小时的视频画面(例如，多达24小时的运动事件数据)。在一些实施方式中，一个或多个流的部分被存储在门铃106和/或本地存储设备109处(例如，与感兴趣的特定事件或时间相对应的部分)。

在一些实施方式中，服务器系统164将视频数据的一个或多个流传输到客户端设备220，以促进用户的事件监视。在一些实施方式中，一个或多个流可包括相同视频馈送的各个分辨率和/或帧速率的多个流。在一些实施方式中，多个流包括与视频馈送相对应的、具有某一分辨率和帧速率的“主要”流，以及一个或多个附加流。附加流可以是与“主要”流相同的视频流，但具有不同的分辨率和/或帧速率，或者是以与“主要”流相同或不同的分辨率和帧速率显示“主要”流的一部分的流(例如，裁剪为包括视场的部分或主要流的像素)。

图2C图示根据一些实施方式的包括视频源241、服务器系统164和客户端设备220的代表性系统架构240。在一些实施方式中，服务器系统164包括用于事件处理器248、事件分类器252、实体识别器250和面向用户的前端254的功能模块。事件处理器248获得事件候选(例如，通过处理视频流246，或通过从视频源241接收事件开始信息，或通过检测用户按下门铃相机的门铃按钮)。在一些实施方式中，事件候选包括运动事件候选。在一些实施方式中，事件候选包括音频事件候选。在一些实施方式中，事件候选包括用户按下门铃相机的门铃按钮。在一些实施方式中，事件候选包括音频、电磁、嗅觉和/或视觉方面。在一些实施方式中，事件候选包括运动事件、接近检测和通告检测。事件分类器252将事件候选分类为不同的事件类别(例如，基于来自事件处理器和/或实体识别器的数据)。面向用户的前端254生成事件警报和通知，并促进由查看者通过客户端设备220上的查看界面对检测到的实体和事件的查看。面向用户的前端254还接收对事件和实体类别的用户编辑、警报和事件过滤器的用户偏好和感兴趣区域的区域定义等。事件分类器可选地基于面向用户的前端接收的用户编辑来修改事件分类模型和结果。实体识别器可选地基于面向用户的前端接收的用户编辑来修改实体分类和/或标签。在一些实施方式中，服务器系统164还包括视频源数据数据库256、人数据258、事件分类模型数据库260以及事件数据和事件掩蔽数据库262。在一些实施方式中，人数据258包括人数据库。在一些实施方式中，这些数据库中的每一个是服务器数据库328的一部分(例如，数据存储数据库330的一部分)。

服务器系统164从视频源241(例如，来自图2B的视频源222)接收一个或多个视频流246，并且可选地接收事件候选信息242(诸如用于检测到的实体和事件(例如，来自在门铃106处执行的处理的实体和事件元数据)的初步表征信息)以及源信息244(诸如门铃106的设备设置)。在一些实施方式中，事件处理器248与视频源241和/或智能家居环境的一个或多个其他设备通信，例如，以请求附加图像数据、音频数据和传感器数据，诸如视频流246的高清晰度图像或元数据。服务器系统向客户端设备220发送针对事件264的警报、针对检测到的人的警报266、事件时间线信息268和/或视频数据270(例如，与检测到的人和/或事件对应的静态图像或视频片段)。在一些实施方式中，警报264将访客接近事件与其他类型的运动事件区分开。在一些实施方式中，警报264将在门铃106处捕获的运动事件与由其他智能设备(例如，相机118)捕获的运动事件区分开。服务器系统164可选地从客户端设备220接收用户信息，诸如事件信息272(例如，对事件类别的编辑)和区域定义274，以及人数据276(例如，检测到的人的分类)。

数据处理管道实时(例如，在10秒、30秒或2分钟之内)处理从视频源241(例如，包括门铃106和可选的控制器设备)接收的视频信息(例如，实时视频馈送)和/或从一个或多个智能设备接收的音频信息以识别和分类在智能家居环境中发生的事件，并向与智能家居环境的查看者账户相关联的客户端设备220发送实时事件警报(例如，在10秒、20秒或30秒之内)和/或刷新的事件时间线(例如，在30秒、1分钟或3分钟之内)。数据处理管道还处理存储的信息(诸如，来自视频源241的存储的视频馈送)以根据需要重新评估和/或重新分类事件，诸如当获得关于事件的新信息时和/或当获得关于事件类别的新信息(例如，从用户获得了新活动区域定义)时。

在智能设备处捕获视频和/或音频数据之后，对该数据进行处理以确定是否存在任何潜在的事件候选或人。在一些实施方式中，最初在智能设备(例如，视频源241、相机118或门铃106)处处理数据。因此，在一些实施方式中，智能设备向服务器系统164发送事件候选信息，诸如事件开始信息。在一些实施方式中，在服务器系统164处处理数据以用于事件开始检测。在一些实施方式中，视频和/或音频数据存储在服务器系统164上(例如，在视频源数据库256中)。在一些实施方式中，视频/音频数据存储在与服务器系统164不同的服务器上。在一些实施方式中，在检测到运动开始之后，从存储器中(例如，从视频源数据库256)检索视频流的相关部分。

在一些实施方式中，事件识别过程包括将视频流分割成多个片段，然后将每个片段内的事件候选分类。在一些实施方式中，对事件候选进行分类包括背景因素、实体检测和识别、每个运动实体的运动矢量生成、实体特征以及场景特征的聚合，以为事件候选生成运动特征。在一些实施方式中，事件识别过程进一步包括：对每个片段进行分类；基于片段的分类来生成或更新事件日志；基于片段的分类来为事件生成警报；对完整的事件进行分类；基于完整的事件更新事件日志；并基于完整的事件为该事件生成警报。在一些实施方式中，分类基于确定事件发生在特定感兴趣区域内。在一些实施方式中，分类基于确定事件候选涉及一个或多个感兴趣区域。在一些实施方式中，分类基于音频数据和/或音频事件表征。

事件分析和分类过程可以由智能设备(例如，视频源241)和服务器系统164协作地执行，并且任务的划分可以在不同的实施方式中针对不同的设备能力配置、功率参数和/或针对不同的网络、设备和服务器负载情况而变化。在服务器系统164将事件候选进行分类之后，可以将事件检测和分类的结果发送到与智能家居环境相关联的查看者。

在一些实施方式中，服务器系统164存储每个视频源241的原始或压缩的视频数据(例如，在视频源数据库256中)、事件分类模型(例如，在事件分类模型数据库260中)以及事件掩蔽和其他事件元数据(例如，在事件数据和事件掩蔽数据库262中)。在一些实施方式中，视频数据以一种或多种显示分辨率(诸如480p、780p、1080i和1080p等)存储。

在一些实施方式中，视频源241(例如，门铃106)经由一个或多个网络(例如，一个或多个网络162)将实时视频馈送传输到远程服务器系统164。在一些实施方式中，当视频数据被门铃106捕获时，视频数据的传输是连续的。在一些实施方式中，视频数据的传输与视频数据的内容无关，并且视频数据是从视频源241上传到服务器系统164进行存储，而不管是否已在视频数据中捕获了任何运动事件。在一些实施方式中，默认情况下，视频数据被存储在视频源241的本地存储设备中，并且仅与视频流中检测到的运动事件候选相对应的视频部分(例如，实时地或根据用户请求)被上传到服务器系统164。

在一些实施方式中，视频源241动态地确定视频流将以什么显示分辨率被上传到服务器系统164。在一些实施方式中，视频源241动态地确定将要向服务器系统164上传视频流的哪些部分。例如，在一些实施方式中，根据当前服务器负载和网络状况，视频源241可选地在视频流的不包含任何运动事件候选的其他部分之前优先上传与新检测到的运动事件候选相对应的视频部分；或者视频源241以比视频流的其他部分更高的显示分辨率上传与新检测到的运动事件候选相对应的视频部分。这种上传优先化有助于确保即使在网络状况和服务器负载均未达到最佳状态时，重要的运动事件也可以被实时检测到并向查看者发出警报。在一些实施方式中，视频源241实现两个并行的上传连接，一个用于上传由门铃106捕获的连续视频流，另一个用于上传与检测到的运动事件候选相对应的视频部分。在任何给定时间，视频源241确定是否需要暂时中止连续视频流的上传，以确保为与新检测到的运动事件候选相对应的视频片段的上传提供足够的带宽。

在一些实施方式中，与为运动事件处理而上传的视频片段相比，为云存储而上传的视频流具有更低的质量(例如，更低的分辨率、更低的帧速率、更高的压缩等)。

如图2C中所示，视频源241可选地包括视频门铃106和可选的控制器设备。在一些实施方式中，门铃106包括足够的机载处理能力以执行所有必要的本地视频处理任务(例如，针对运动事件候选的提示点检测、视频上传优先化、网络连接管理等)，并且门铃106直接与服务器系统164通信，而没有任何控制器设备充当中介。在一些实施方式中，门铃106捕获视频数据并将视频数据发送到控制器设备以用于必要的本地视频处理任务。控制器设备可选地执行多个相机的本地处理任务。例如，在一个智能家居环境(例如，图1的智能家居环境100)中可能有多个相机，并且单个控制器设备从每个相机接收视频数据并处理该视频数据以检测来自每个相机的视频流中的运动事件候选。控制器设备负责向从每个相机向服务器传输包含运动事件候选的视频段分配足够的传出网络带宽，然后使用剩余带宽将视频流从每个相机传输到服务器系统164。在一些实施方式中，连续的视频流被发送并存储在一个服务器处，而包含运动事件候选的视频片段被发送到不同的服务器设备并在其处进行处理。

在一些实施方式中，智能设备向服务器系统164发送附加源信息503。该附加源信息244可以包括关于设备状态(例如，IR模式、AE模式、DTPZ设置等)的信息和/或有关设备所处的环境(例如，室内、室外、夜间、白天等)的信息。在一些实施方式中，服务器系统164使用源信息244来执行事件检测、实体识别和/或对事件候选进行分类。在一些实施方式中，附加源信息244包括来自视频源241(例如，门铃106)执行的视频处理(诸如分类、对象/实体识别和运动掩蔽等)的一个或多个初步结果。

在一些实施方式中，在检测到事件开始插曲(incident)之后的视频部分被划分成多个片段。在一些实施方式中，分段继续直到获得事件结束信息(有时也称为“事件结束信号”)为止。在一些实施方式中，分段发生在服务器系统164内(例如，通过事件处理器248)。在一些实施方式中，分段包括生成重叠的片段。例如，每秒生成10秒的片段，以使新片段与先前片段重叠9秒。

在一些实施方式中，多个片段中的每个片段具有相同或相似的持续时间(例如，每个片段具有10-12秒的持续时间)。在一些实施方式中，第一片段的持续时间比后续片段的持续时间短。将第一片段保持较短允许进行实时的初始分类，并基于处理第一片段而发出警报。然后可以基于后续片段的处理来修改初始分类。在一些实施方式中，如果运动实体进入新感兴趣区域，则生成新片段。

在一些实施方式中，在事件处理器模块获得对应于事件候选的视频部分之后，事件处理器248获得背景因素并执行运动实体检测识别、针对每个运动实体的运动矢量生成以及特征识别。一旦事件处理器248完成这些任务，事件分类器252就汇总所有信息，并生成针对运动事件候选的分类。在一些实施方式中，事件处理器248和事件分类器252是视频处理模块322(图3)的组件。在一些实施方式中，在提交用于事件分类的运动事件候选之前，可选地执行误报抑制以拒绝一些运动事件候选。在一些实施方式中，确定运动事件候选是否为误报包括确定运动事件候选是否发生在特定区域中。在一些实施方式中，确定运动事件候选是否为误报包括分析运动事件候选的重要性分值。运动事件候选的重要性分值可选地基于与运动事件候选、背景特征、运动矢量、场景特征、实体特征、运动特征和运动轨迹等有关的感兴趣区域。

在一些实施方式中，视频源241具有足够的处理能力以执行并且确实执行实体检测、人识别、背景估计、运动实体识别、运动矢量生成和/或特征识别。

图3是示出根据一些实施方式的服务器系统164的框图。服务器系统164包括一个或多个处理单元(CPU)302、一个或多个网络接口304(例如，包括到一个或多个客户端设备的I/O接口和到一个或多个电子设备的I/O接口)、存储器306以及用于互连这些组件(有时称为芯片组)的一条或多条通信总线308。存储器306包括高速随机存取存储器，诸如DRAM、SRAM、DDR SRAM或其他随机存取固态存储器设备；以及可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器306可选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器306或可替代地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统310，包括用于处理各种基本系统服务和用于执行硬件相关任务的过程；

·网络通信模块312，用于经由一个或多个网络接口304(有线或无线)将服务器系统164连接到其他系统和设备(例如，客户端设备、电子设备以及连接到一个或多个网络162的系统)；

·服务器侧模块314，其提供用于设备控制、数据处理和数据查看的服务器侧功能，包括但不限于：

ο数据接收模块316，用于从电子设备接收数据(例如，来自门铃106的视频数据，图1)，并准备接收到的数据以供进一步处理并存储在数据存储数据库3160中；

ο设备控制模块318，用于生成和发送服务器发起的控制命令以修改电子设备(例如，智能家居环境100的设备)的操作模式，和/或接收(例如，从客户端设备220接收)并转发用户发起的控制命令以修改电子设备的操作模式；

ο数据处理模块320，用于处理电子设备提供的数据，和/或准备处理的数据并将其发送到设备以进行查看(例如，客户端设备220供用户查看)，包括但不限于：

·视频处理子模块322，用于处理(例如，分类和/或识别)接收到的视频流(例如，来自门铃106的视频流)内检测到的实体和/或事件候选者；

·用户界面子模块324，用于与用户通信(例如，发送警报、时间轴事件等，以及接收用户编辑和区域定义等)；以及

·服务器数据库328，包括但不限于：

ο数据存储数据库330，用于存储与每个用户账户的每个电子设备(例如，每个门铃)相关联的数据，以及数据处理模型、处理后的数据结果和与数据相关联的其他相关元数据(例如，数据结果的名称、电子设备的位所、创建时间、持续时间、电子设备的设置等)，其中，(可选)与集线器设备180或智能设备相关联的所有或部分值据和/或处理被安全地存储；

ο账户数据库332，用于存储用户账户的账户信息，包括用户账户信息(诸如用户简挡334)、链接的集线器设备和电子设备的信息和设置(例如，集线器设备标识)、集线器设备特定的机密、相关用户和硬件特性(例如，服务层、设备模型、存储容量、处理能力等)、用户界面设置、数据查看偏好等，其中，相关联的电子设备的信息包括但不限于一个或多个设备标识符(例如，MAC地址和UUID)、设备特定的机密和显示的标题；

ο设备信息数据库336，用于存储与一个或多个设备相关的设备信息，诸如设备简挡338，例如，设备标识符和集线器设备特定的机密，而与相应的集线器设备是否已与任何用户账户相关联无关；

ο事件信息数据库340，用于存储事件信息，诸如事件记录342和场境信息，例如描述正在接近的访客周围情况的场境数据；以及

ο表征数据348，例如，结合数据处理模块320，用于表征智能家居环境内的运动、人和事件。

上面标识的元素中的每一个可以被存储在一个或多个前面提到的存储设备中，并且对应于用于执行上述功能的一组指令。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程或模块，因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器306可选地存储以上标识的模块和数据结构的子集。此外，存储器306可选地存储以上未描述的附加模块和数据结构(例如，用于链接客户端设备、智能设备和智能家居环境的账户管理模块)。

图4A是示出了根据一些实施方式的代表性智能设备204的框图。在一些实施方式中，智能设备204(例如，图1的智能家居环境100的任何设备)包括一个或多个处理单元(例如，CPU、ASIC、FPGA、微处理器等)402、一个或多个具有无线电406的通信接口404、用户界面410、图像传感器418、传感器422、能量存储组件420、存储器426以及用于互连这些组件(有时称为芯片组)的一条或多条通信总线408。在一些实施方式中，用户界面410包括一个或多个输出设备412，其使得能够呈现媒体内容，包括一个或多个扬声器和/或一个或多个可视显示器。在一些实施方式中，用户界面410包括一个或多个输入设备414，包括便于用户输入的用户界面组件，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏式输入板、手势捕捉相机或其他输入按钮或控件。在一些实施方式中，用于门铃106的输入设备414是触觉或触敏门铃按钮。此外，一些智能设备204使用麦克风和语音识别或相机和手势识别来补充或替换键盘。

传感器422包括例如一个或多个热辐射传感器、环境温度传感器、湿度传感器、红外(IR)传感器(诸如无源红外(PIR)传感器)、接近传感器、距离传感器、占用传感器(例如，使用RFID传感器)、环境光传感器(ALS)、运动传感器424、位所传感器(例如GPS传感器)、加速度计和/或陀螺仪。

通信接口404包括例如能够使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、智能蓝牙(Bluetooth Smart)、ISA100.5A、WirelessHART、MiWi等)和/或各种定制或标准有线协议(例如，以太网、HomePlug等)或任何其他合适的通信协议，包括截至本文件提交之日尚未开发的通信协议)中的任何一种进行数据通信的硬件。无线电406启用智能家居环境中的一个或多个无线电通信网络，并使智能设备204能够与其他设备通信。在一些实施方式中，无线电406能够使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、线程、Z-Wave、智能蓝牙(BluetoothSmart)、ISA100.5A、WirelessHART、MiWi等)中的任何一种进行数据通信。

存储器426包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器426或可替代地存储器426内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器426或存储器426的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作逻辑428，包括处理各种基本系统服务和用于执行硬件相关任务的过程；

·通信模块430，用于耦合到经由一个或多个通信接口404(有线或无线)连接到一个或多个网络162的其他网络设备(例如，网络接口160，诸如提供互联网连接的路由器、网络存储设备、网络路由设备、服务器系统164、其他智能设备204、客户端设备220等)并与之通信；

·输入处理模块432，用于检测来自一个或多个输入设备414的一个或多个用户输入或交互，并解释检测到的输入或交互；

·用户界面模块434，用于提供和呈现用户界面，其中，可以配置和/或查看一个或多个设备(例如，智能设备204和/或智能家居环境100中的其他设备)的设置、捕获的数据和/或其他数据；

·一个或多个应用436，用于由智能设备(例如，游戏、社交网络应用、智能家居应用和/或其他基于Web或非基于Web的应用)执行，以控制设备(例如，执行命令、发送命令和/或配置智能设备204和/或其他客户端/电子设备的设置)以及用于查看设备捕获的数据(例如，设备状态和设置、捕获的数据或关于智能设备204和/或其他客户端/电子设备的其他信息)；

·设备侧模块438，其提供用于设备控制、数据处理和数据查看的设备侧功能，包括但不限于：

ο命令模块440，用于接收、转发和/或执行指令和控制命令(例如，来自客户端设备220、来自服务器系统164、来自在用户界面410上检测到的用户输入等)以操作智能设备设备204；以及

ο数据处理模块442，用于处理由一个或多个输入(例如，输入设备414、图像传感器418、传感器422、接口(例如，通信接口404、无线电装置440)和/或智能设备204的其他组件)捕获或接收的数据，用于准备处理后的数据并将其发送到远程设备(例如，客户端设备220)以供用户查看；

·传感器模块444，用于操作传感器422和相关电路，例如，用于基于来自一个或多个低功率传感器422的数据(例如，来自PIR传感器或ALS的数据)启用和禁用一个或多个高功率传感器，包括但不限于：

ο定位模块446，确定接近智能设备的用户(例如，传感器范围内的用户)的定位；以及

ο实体识别模块448，用于标识在接近智能设备范围内的人和其他实体(例如，宠物)；

·事件分析模块450，用于分析捕获的传感器数据，例如，以检测和/或识别接近的访客和场境信息，包括但不限于：

ο手势模块452，用于分析和/或解释用户的移动和手势；以及

·设备数据458，其存储与设备(例如，智能设备204)相关联的数据，包括但不限于：

ο账户数据460，存储与链接到智能设备204的用户账户有关的信息，例如，包括缓存的登录凭据、智能设备标识符(例如，MAC地址和UUID)、用户界面设置、显示偏好、身份验证令牌和标签和密码密钥等；

ο本地数据存储462，用于选择性地存储与智能设备204相关联的原始数据或处理后的数据，诸如由图像传感器418捕获的事件数据和/或视频数据；

ο传感器数据464，其存储传感器信息，诸如操作参数、捕获到的数据、训练集等等；以及；

ο表征数据470，用于由智能设备204检测到的或与智能设备204相关联的实体、人和/或事件。

每个以上标识的元素可以被存储在一个或多个先前提到的存储设备中，并且对应于用于执行上述功能的一组指令。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程或模块，因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器426可选地存储以上标识的模块和数据结构的子集。此外，存储器426可选地存储上面未描述的附加模块和数据结构，诸如用于管理传感器422的操作的传感器管理模块。

在一些实施方式中，智能设备204的一个或多个操作由服务器系统164和/或客户端设备220执行。这些操作包括但不限于由诸如应用436、设备侧模块438、传感器模块444和事件分析模块450的计算机执行程序指令或在计算机程序指令程序指令的控制下的操作。在一些实施方式中，与服务器系统164执行的与这些操作相关的设备数据458在服务器系统164上或由服务器系统164整体或者部分存储、维护和更新。

图4B是图示根据一些实施方式的音频设备479的框图。在一些实施方式中，音频设备479是智能设备204。在一些实施方式中，音频设备479是客户端设备220。如图4B所示，音频设备479包括麦克风(例如，麦克风480-1和480-2)、扬声器(例如，扬声器482-1和482-2)、传感器模块(例如，传感器模块444)和处理器(例如，一个或多个处理器402)。在一些实施方式中，处理器包括数字信号处理器(DSP)和/或中央处理单元(CPU)。在一些实施方式中，处理器是片上系统(SoC)的组件。在一些实施方式中，处理器负责音频设备479的多个操作，包括超声操作。

根据一些实施方式，扬声器482被配置成发射超声脉冲490(有时也称为超声啁啾)，并且麦克风480被配置成接收相应的超声信号492。在一些实施方式中，脉冲490的频率高于20千赫兹(kHz)。在一些实施方式中，脉冲490扫描频率范围(例如，在20kHz和60kHz之间的范围)。在一些实施方式中，信号492(例如，通过传感器模块444和处理器402)被分析以确定是否存在接近音频设备的运动(例如，确定用户是否接近音频设备)。在一些实施方式中，分析信号492包括将信号492的曲线与脉冲490的曲线进行比较。在一些实施方式中，分析信号492包括将信号492的曲线彼此进行比较。在一些实施方式中，分析信号492包括分析脉冲490的发送与信号492的接收之间的时序。在一些实施方式中，传感器模块444包括声音导航和测距(SONAR)模块。尽管上面描述了脉冲490，但是在一些实施方式中，发射连续波信号。在一些实施方式中，信号(例如，脉冲或连续波)的频率、幅度和/或相位被调制。

图5是图示根据一些实施方式的与用户账户相关联的代表性客户端设备220的框图。客户端设备220通常包括一个或多个处理单元(CPU)502、一个或多个网络接口504、存储器506以及用于互连这些组件(有时称为芯片组)的一条或多条通信总线508。可选地，客户端设备还包括用户界面510和一个或多个内置传感器590(例如，加速度计和陀螺仪)。用户界面510包括一个或多个输出设备512，其使得能够呈现媒体内容，包括一个或多个扬声器和/或一个或多个视觉显示器。用户界面510还包括一个或多个输入设备514，包括方便用户输入的用户界面组件，例如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕捉相机或其他输入按钮或控件。此外，一些客户端设备使用麦克风和语音识别或相机和手势识别来补充或替换键盘。在一些实施方式中，客户端设备包括用于捕获图像的一个或多个相机、扫描仪或照片传感器单元(未示出)。可选地，客户端设备包括位所检测设备516，诸如GPS(全球定位卫星)传感器或其他地理位所接收器，用于确定客户端设备的位所。

存储器506包括高速随机存取存储器，诸如DRAM、SRAM、DDR SRAM或其他随机存取固态存储器设备；并可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器506可选地包括远离一个或多个处理单元602定位的一个或多个存储设备。存储器506或可替代地存储器506内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器506或存储器506的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统518，包括用于处理各种基本系统服务和用于执行硬件相关任务的过程；

·网络通信模块520，用于经由一个或多个网络接口504(有线或无线)将客户端设备220连接到其他系统和设备(例如，客户端设备、电子设备和连接到一个或多个网络162的系统)；

·输入处理模块522，用于检测来自一个或多个输入设备514之一的一个或多个用户输入或交互，并解释检测到的输入或交互；

·一个或多个应用524，用于由客户端设备执行(例如，游戏、社交网络应用、智能家居应用和/或其他基于Web或非基于Web的应用)，以控制设备(例如，向集线器设备和/或其他客户端或电子设备发送命令、配置设置等)，并用于查看由设备捕获的数据(例如，设备状态和设置、捕获的数据或与集线器设备或其他连接的设备有关的其他信息)；

·用于提供和显示用户界面的用户界面模块526，在其中，可以配置和/或查看用于一个或多个设备(例如，智能家居环境100中的智能设备204)的设置、捕获的数据和/或其他数据；

·客户端侧模块528，其提供用于设备控制、数据处理和数据查看的客户端侧功能，包括但不限于：

ο设备控制模块530，用于根据用户输入生成用于修改智能设备(以及可选的其他电子设备)的操作模式的控制命令；

ο视频分析模块532，用于分析捕获的视频数据，例如，以检测和/或识别人、物体、动物和事件，诸如先前关于视频分析模块442所描述的；

ο数据查看模块534，用于提供用于查看来自服务器系统164或视频源222的数据的用户界面，包括但不限于：

·事件查看模块536，用于查看事件(例如，运动和/或音频事件)，并可选地启用用户对事件的编辑和/或更新；以及

·人查看模块538，用于查看有关检测到的人和其他实体的数据和/或图像，并可选地启用用户对人数据的编辑和/或更新；

ο呈现模块540，用于呈现用于与智能设备204和/或服务器系统164交互的用户界面和响应选项；以及

ο远程交互模块542，用于例如经由智能设备204和/或服务器系统164与远处的人(例如，智能家居环境100的访客)进行交互；

ο传感器模块543，用于操作传感器590和相关电路，例如，用于利用麦克风和扬声器以与用户进行可听见地通信并执行超声操作；以及

·客户端数据544，用于存储与用户账户和电子设备相关联的数据，包括但不限于：

ο账户数据546，用于存储与在客户端设备上加载的用户账户以及与该用户账户相关联的电子设备(例如，视频源501中的电子设备)有关的信息，其中，此类信息包括缓存的登录凭证、集线器设备标识符(例如，MAC地址和UUID)、电子设备标识符(例如，MAC地址和UUID)、用户界面设置、显示偏好、身份验证令牌和标签、密码密钥等；以及

ο本地数据存储数据库548，用于选择性地存储与电子设备(例如，诸如门铃106的视频源501的电子设备)相关联的原始或处理后的数据，可选地包括先前描述的实体数据。

每个以上标识的元素可以被存储在一个或多个先前提到的存储设备中，并且对应于用于执行上述功能的一组指令。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程、模块或数据结构，因此，这些模块的各个子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器506可选地存储以上标识的模块和数据结构的子集。此外，存储器506可选地存储以上未描述的附加模块和数据结构，诸如超声模块。在一些实施方式中，参考图5描述的程序、模块和数据结构或其子集或超集可以全部或部分地在服务器系统164上或由服务器系统164实现/托管。类似地，图3描述的程序、模块、以及数据结构，或其子集或超集可以全部或部分在参考图5描述的客户端设备上或由其实现或托管。

图6A-6B图示根据一些实施方式的用于音频设备602的代表性操作序列。图6A示出音频设备602发射一个或多个信号610。在一些实施方式中，信号610是超声(例如，具有在20kHz至90kHz范围内的频率的脉冲)，而在其他实施方式中，信号610具有其他频率(例如，无线电频率)。尽管图6A示出在特定方向中发射的信号610，但是在一些实施方式中，音频设备602具有足够的扬声器配置，以在并且基本上在所有方向上都发射并且确实发射信号(例如，以便绘制出其中音频设备602坐落的房间)。

图6B示出音频设备602接收与发射信号610相对应的反射信号612。在一些实施方式中，分析反射信号612以确定用户是否接近音频设备602。分析反射信号612以确定到音频设备602周围的对象和边界的距离。在一些实施方式中，分析反射信号612以确定音频设备602的周围的信号的信噪比(SNR)和/或超声背景。在一些实施方式中，音频设备602基于SNR和/或超声背景特性来调整后续超声信号的一个或多个参数(例如，频率、定时、幅度、占空比等)。

因此，如图6A-6B中所图示，根据一些实施方式，音频设备602(例如，使用超声和/或雷达)扫描其周围环境以确定下述中的一个或者多个：用户是否接近设备、周围的SNR、以及到周围的边界和对象的距离。

图7A-7D图示根据一些实施方式的音频设备602的另一代表性操作序列。图7A示出音频设备602(例如，以超声频率)发射信号702以检测用户704接近设备(例如，在设备的音频和/或视觉范围内)。图7B示出信号706(对应于发射信号702)从用户704反射回到音频设备602。图7B进一步图示音频设备602根据用户的检测向用户704打招呼。在一些实施方式中，音频设备602基于反射信号(例如，反射信号706和发射信号702之间的定时)来确定到用户704的距离。在一些实施方式中，音频设备602使用相同扬声器(例如，图4B的扬声器482-1)既发射信号702(例如，超声信号)又向用户704打招呼(例如，可听频率的信号)。在一些实施方式中，音频设备602能够经由超声模块(例如，SONAR模块)来检测用户的微小移动(例如，距离小于1cm)。因此，在一些实施方式中，音频设备602能够基于用户的呼吸移动来检测用户正在接近。

图7C示出用户704发出针对音频设备602的可听请求716。图7C进一步示出音频设备602对用户的请求716进行可听响应718，同时继续发射信号720。在一些实施方式中，音频设备602使用相同麦克风(例如，图4B的麦克风480-1)来接收反射信号706和用户的可听请求716。在一些实施方式中，基于到用户704的距离来调制音频设备的响应718(例如，音量级别被调整)。在一些实施方式中，音频设备602(例如，使用同一扬声器)以不同的频率同时发射响应718和信号720。在一些实施方式中，基于用户的定位，音频设备602确定用户请求716的强度(例如，以分贝为单位)，并以基本相同的强度(例如，在用户的强度的20％、10％或5％以内)在响应718中进行响应。

图7D示出音频设备602继续经由音频响应722与用户704进行可听通信并同时接收反射信号724。在一些实施方式中，音频设备602基于反射信号724确定用户的更新的定位。在一些实施方式中，音频设备602基于用户的定位来调整针对用户的信息的呈现。例如，音频设备602调整音频响应的音量级别和/或调整视觉呈现的缩放级别。在一些实施方式中，音频设备包括显示器，并且基于用户704到设备602的相对距离来调整显示器上的文本的字体大小。在一些实施方式中，音频设备602包括多个扬声器，并且音频设备602使用第一扬声器以向用户打招呼708(根据基于用户的初始定位确定第一扬声器是最佳的)，并且经由第二扬声器通过响应722进行响应(根据基于用户的更新的定位确定第二扬声器是最佳的)。

因此，根据一些实施方式，如图7A-7D中所图示，音频设备602与用户进行可听通信，同时使用不可听的信号来确定用户的定位。如在上面所讨论的，音频设备602可选地将相同的扬声器和麦克风用于可听信号和不可听信号，并可选地基于用户的定位来调制其与用户的可听通信。

图8A-8C图示根据一些实施方式的用于多个智能设备204的代表性操作序列。图8A示出在智能家居环境的窗口处的相机设备118、危险检测器104和音频设备602(统称为“智能设备”)以及访客806。图8A进一步示出发射信号808的相机设备118以及发射信号810的危险检测器104。在一些实施方式中，信号808是由相机设备118上的雷达模块支配的射频信号。在一些实施方式中，信号808是由相机设备118上的超声模块支配的超声信号。在一些实施方式中，信号810是由危险检测器104上的雷达模块支配的射频信号。在一些实施方式中，信号810是由危险检测器104上的超声模块支配的超声信号。在一些实施方式中，信号808和810以不同的频率(例如，不同的超声或无线电频率)同时发射。在一些实施方式中，信号808和810在时间上错开以便彼此不干扰。

图8B示出对应于发射信号808的反射信号814和对应于发射信号810的反射信号812。在一些实施方式中，相机设备118分析反射信号814以检测访客806的存在。在一些实施方式中，危险检测器104分析反射信号812以检测访客806的存在。在一些实施方式中，关于反射信号的数据在相机设备118和危险检测器104之间共享，以确定访客806的存在。例如，相机设备118可以发射被窗口反射的超声脉冲，并且危险检测器104可以发射穿过窗口并且反射离开访客806的射频脉冲。在该示例中，相机设备118和危险检测器104可以共享信息以确定访客806在关闭的窗口之外。

图8C示出响应于对访客806的检测而由音频设备602发射的警报响应816。在一些实施方式中，警报响应816基于所检测到的事件的表征。在一些实施方式中，事件的表征包括访客806的表征和场境信息(例如，一天中的时间、家安全状态等)。例如，警报是响应于下述中的一个或者多个而生成：确定访客对于智能家居系统未知、确定未预期到访客、确定访客不应徘徊在窗口、确定访客戴着口罩等。在一些实施方式中，事件的表征是基于来自多个智能设备(例如，相机设备118、危险检测器104和音频设备602)的传感器数据。

图9A-9C图示根据一些实施方式的用于多个智能设备204的另一代表性操作序列。图9A示出相机设备903和危险检测器902被定位在其中的第一房间(例如，车库)。图9A进一步示出房间中的火和使相机设备903和狗906(“Sparky”)之间的视野模糊的烟雾。图9A还示出危险检测器902发射信号904(例如，超声信号或射频信号)。图9B示出与发射信号904相对应的信号908从Sparky反射回到危险检测器902。在一些实施方式中，危险检测器902分析信号以确定房间中存在Sparky，以标识Sparky，并且/或者(例如，基于呼吸模式)评估Sparky的健康状况。在一些实施方式中，相机设备903和/或危险检测器902具有下述中的一个或者多个：用于检测来自火的热量的温度传感器、用于检测房间中烟雾的存在的烟雾检测器、用于检测来自于火和/或Sparky的可听声音的麦克风、检测烟雾中移动的PIR传感器等。在一些实施方式中，分析来自多个传感器的数据以确定：(1)房间中存在火；(2)房间中的可见度低；以及(3)门附近的房间中存在Sparky。在一些实施方式中，危险检测器902向应急人(例如，附近的消防局)警告车库中存在火和Sparky。

图9C示出第二危险检测器910经由可听响应912警告用户914。在一些实施方式中，危险检测器910从相机设备930和危险检测器902接收数据并评估车库中的情况以生成警报可听响应912。在一些实施方式中，危险检测器902或另一远程设备或服务器评估车库中的情况，确定用户的位所914，确定危险检测器910是警告用户的最佳智能设备914，并将该响应(例如，经由Wi-Fi、蓝牙等)中继到危险检测器910以呈现给用户。在一些实施方式中，基于下述中的一个或者多个来选择警告用户的最佳智能设备：与用户的距离、与用户的视线、在用户的可听范围内、设备的可听能力。在一些实施方式中，危险检测器902通知用户应急人已经被警告并建议用户撤离到安全距离。在一些实施方式中，危险检测器902向用户提供应急人的估计到达时间(例如，基于交通状况和来自应急人的信息)。

图10A-10C是图示根据一些实施方式的用于代表性音频设备的操作的方法1000的流程图。在一些实施方式中，方法1000由诸如音频设备479的音频设备或其他配备有音频的智能设备204(例如，相机设备118或危险检测器102)执行。在一些实施方式中，方法1000由诸如客户端设备220的用户设备执行。在一些实施方式中，方法1000由诸如传感器模块444和用户界面模块434的智能设备204的组件结合用户界面410和传感器422一起执行。在一些实施方式中，本文描述的方法1000的操作是可互换的，并且方法1000的相应操作由任何前述设备执行。在一些实施例中，方法1000由存储在非暂时性计算机可读存储介质中并且由设备的一个或多个处理器或控制器(诸如智能设备的处理器402)执行的指令支配。为了方便起见，下面将方法1000描述为由音频设备执行。

在一些实施方式中，音频设备扫描(1002)音频设备的超声周围(例如，如图6A-6B所示)。在一些实施方式中，扫描超声周围包括监视传入的超声噪声和/或发射的超声脉冲之间的信号以确定背景噪声和/或房间超声曲线。在一些实施方式中，音频设备经由射频分析(雷达)和/或无线通信(例如，Wi-Fi)信号分析(例如，确定到音频设备附近的对象和/或边界的距离)来扫描周围。

在一些实施方式中，音频设备基于扫描确定(1004)用于后续超声脉冲的一个或多个超声参数。例如，音频设备基于针对每个频率的信噪比来调整超声脉冲的频率、幅度和/或强度。在一些实施方式中，确定参数包括调整脉冲的定时以与其他超声源偏移。在一些实施方式中，确定参数包括标识扬声器的超声频带局部最大区域(例如，32kHz)并且调整参数以在局部最大处(例如，经由29kHz-35kHz扫频)发射超声脉冲(例如，啁啾)。在一些实施方式中，音频设备基于扫描来确定用于后续可听输出(例如，用于后续音乐、TTS或视听内容)的一个或多个可听参数。在一些实施方式中，基于扫描，音频设备标识房间边界和/或房间内的对象。

在一些实施方式中，基于扫描，音频设备执行房间自动均衡过程。例如，音频设备基于超声扫描(例如，基于所标识的房间边界和/或对象)来调整一个或多个低音频率参数。

手动房间均衡通常是每次房间或放置改变时都必须重复的麻烦的过程。用户必须具有麦克风，并且必须使用麦克风记录在房间中的各个位所处的音频输出响应。然后，用户必须基于收集的响应来应用所需的校正。此外，此手动均衡过程需要大量有关扬声器、麦克风和房间的知识，这对于普通用户而言太高级了。自动音频均衡为用户提供了实现最佳收听体验的机会，同时避免针对任何设置或校准过程的需求。此外，自动均衡过程使用户可以重新布置房间或移动扬声器，而不必担心进行另一个麻烦的手动均衡。

根据一些实施方式，自动均衡方法使用设备内的麦克风来感测从设备朝向后面的墙壁传播的波和从那些墙壁反射的任何波的相对贡献。在一些实例和实施方式中，在麦克风之间，预计直接来自于扬声器的波会产生一定的延迟或相移；并预计为从扬声器后面的墙壁反射的波减少麦克风之间的延迟或相移。

在一些实施方式中，测量一个或多个麦克风之间的相对相位(相位差)。在一些实施方式中，使用相对振幅频谱特征来确定频率(声学)响应。在一些实施方式中，相对振幅频谱特征与麦克风匹配和/或校准结合使用。在一些实例和实施方式中，给予权重相位差使麦克风之间的灵敏度差异对均衡过程的影响最小化。在一些实施方式中，均衡包括以低于阈值频率(例如，低于约300Hz，其中波长为约1.1m)校正频率响应。在一些实例和实施方式中，仅低于阈值频率的频率从扬声器在包括向后的所有方向中进行传播，并且因此是受到扬声器后面的墙壁或角落影响的唯一频率。

在一些实施方式中，获得传声器相对于彼此的相对定位，并将其用于确定相位差。在一些实施方式中，在没有任何关于麦克风相对于扬声器的相对定位的信息的情况下执行自动均衡。

在一些实施方式中，基于声学模型执行自动均衡。在一些实施方式中，设备基于房间位置来学习和识别模式，并且应用相应的均衡校正。

在一些实施方式中，使用机器学习来执行自动均衡。在一些实施方式中，机器学习包括针对位置和/或频率的范围的期望校正来训练设备(例如，训练目标可以从专家收听者或者通过在收听区中的辅助麦克风处测量频谱，或者通过使用在扬声器驱动器前面的辅助麦克风的ABC方法，获得)。

在一些实施方式中，一个或多个超声参数包括一个或多个频率设置和/或一个或多个定时设置。例如，音频设备分析扫描数据并确定音频设备坐落的房间10英尺长。在此示例中，音频设备调整后续超声脉冲的参数，以能够检测10英尺内的用户/人(并使10英尺外的扫描最小化)。在一些实施方式中，音频设备通过调整(例如，增加)啁啾速率、啁啾持续时间和/或强度来限制检测范围。

在一些实施方式中，扫描超声周围包括发送一个或多个测试脉冲。在一些实施方式中，扫描超声周围包括确定针对多个频率中的每个频率的信噪比。

在一些实施方式中，音频设备确定(1006)人是否在音频设备附近。在一些实施方式中，音频设备利用超声信号来确定(1008)该人是否在附近。在一些实施方式中，音频设备通过确定存在运动并表征运动(例如，确定该运动与人的步行、呼吸或跳跃相一致)来确定人(例如，用户)在附近。

在一些实施方式中，音频设备：(1)经由音频设备的传感器(例如，PIR传感器)检测运动；(2)响应于检测到运动，发送一个或多个第二超声脉冲；(3)接收对应于一个或多个第二超声脉冲的一个或多个第二信号；并且(4)基于一个或多个第二信号来表征运动。在一些实施方式中，传感器包括雷达组件、Wi-Fi信号分析组件、图像传感器、PIR传感器和/或ALS。在一些实施方式中，超声脉冲的占空比基于是否已经检测到运动(或实体/用户)。例如，当存在用户时，音频设备每秒发射一次超声脉冲，而当不存在用户时，音频设备每分钟发射一次超声脉冲(例如，以节省能量和/或最小化对其他设备的干扰)。作为另一个示例，当用户更加靠近设备时，音频设备发射具有较低强度的超声脉冲，而当用户更加远离设备时，则发射具有较高强度的超声脉冲。在一些实施方式中，音频设备基于所表征的运动来启用虚拟助理特征(例如，启用热词检测、向用户打招呼、可通信地耦合至虚拟助理服务器等)。在一些实施方式中，音频设备发送连续超声波并接收对应于该连续波的一个或多个信号。

在一些实施方式中，音频设备基于一个或多个接收到的信号(例如，基于呼吸模式、步态和/或心脏模式)来标识用户。

在一些实施方式中，音频设备被配置成以三种不同的超声模式操作，包括：用于占用检测的第一模式(例如，具有最低啁啾速率)；用于确定定位的第二模式(例如，在第一模式中检测到运动之后触发)；以及用于移动分析(诸如呼吸或手势表征)的第三模式(例如，具有最高啁啾速率)。例如，在第三模式下，为了进行运动分析，音频设备被配置成发射频率为25kHz至45kHz、脉冲持续时间为10毫秒(ms)至100ms并且占空比为25％至75％的啁啾。在一些实施方式中，第一模式利用超声脉冲的最高强度或体积，而第二模式和第三模式基于到用户的距离来减少超声脉冲的强度或体积。

在一些实施方式中，音频设备根据确定人在音频设备附近而向该人打招呼(1010)。在一些实施方式中，音频设备将该人识别为特定用户，并且问候是个性化问候(例如，如图7B所示)。

在经由扬声器和麦克风与人可听地通信时(1012)，音频设备经由扬声器发送(1014)一个或多个超声脉冲。例如，超声脉冲与对用户的可听响应交错在一起。在一些实施方式中，一个或多个超声脉冲中的每个超声脉冲是跨多个频率的啁啾扫频。在一些实施方式中，超声脉冲处于20kHz至90kHz的范围内。在一些实施方式中，超声脉冲扫频频率范围(例如25kHz至30kHz)。在一些实施方式中，每个超声脉冲具有0.1到50毫秒之间的持续时间。在一些实施方式中，超声脉冲具有在1％和50％之间的占空比。

当经由扬声器和麦克风与人可听地通信时(1012)，音频设备经由麦克风接收(1016)与一个或多个超声脉冲相对应的一个或多个信号。在一些实施方式中，音频设备被配置成具有大于90kHz的采样率。在一些实施方式中，音频设备被配置成具有10Hz的ping速率。

在经由扬声器和麦克风与人可听地通信时(1012)，音频设备基于一个或多个接收到的信号(例如，基于脉冲响应或线性和)来确定(1018)人的定位。在一些实施方式中，SONAR技术用于确定人的定位。在一些实施方式中，SONAR技术用于确定人的静态占有率、接近度、人的呼吸速率、空中手势(例如，挥手)、姿势和/或相对室温。在一些实施方式中，音频设备通过隔离超声带，执行绝对值运算以及随时间流逝求和来确定人的定位。在一些实施方式中，在确定用户的定位之后，音频设备调整随后的可听通信和/或超声脉冲的增益或音量级别(例如，使得最小化噪声污染并减少对智能家居环境中的其他音频设备的干扰。例如，在标识出与音频设备进行可听/讲出的通信/对话的参与者的人的位置之后，音频设备可以增加或减小作为该通信/对话的一部分的其可听输出的音量，以提供用户的位置处的理想/一致音量。在一些实施方式中，理想音量被确定为近似用户的位置处的默认/预定义的声音级别；基于用户确定的位置推断出的用户讲话音量；或基于上述因素和/或场境信息(诸如一天中的时间、设备在家居环境中的位所、背景环境的声音级别、用户的听觉能力以及其他人在音频设备附近的存在和位所)中的任何一个或多个的组合在用户的位置处的适当的声音级别。例如，根据确定用户离该设备相当远并且一天中的时间是中午，该设备增加文本语音转换(TTS)音量，以确保用户能够听到并理解后续声音输出。作为另一示例，根据确定用户非常近并且一个或多个孩子在附近睡觉，设备将TTS音量减小到用户能够听到和理解后续可听输出的级别，同时使对孩子的影响最小化。

在一些实施方式中，确定用户的定位包括确定用户与音频设备之间的距离。在一些实施方式中，音频设备基于所接收的信号来标识用户的运动。例如，音频设备在用户坐下时标识运动，并提出调整房间照明和/或接通娱乐系统。

在一些实施方式中：(1)音频设备从一个或多个第二音频设备接收定位数据；并且(2)进一步基于接收到的定位数据确定用户的定位。在一些实施方式中，所接收的定位数据包括超声数据、雷达数据、信道状态信息(CSI)、相对信号强度信息(RSSI)、视觉成像数据和/或PIR数据。

例如，音频设备：(1)经由音频设备处的发射器发送一个或多个雷达脉冲；并且(2)经由音频设备处的接收器接收与一个或多个雷达脉冲相对应的一个或多个第二信号。在该示例中，部分地基于一个或多个第二信号来确定用户的定位。在一些实施方式中，雷达数据还被用来跟踪在障碍物(例如，墙壁和对象)的后面和/或在弱光情况下的用户。

作为另一示例，音频设备接收一个或多个无线通信信号，并且在该示例中，用户的定位还基于一个或多个无线通信信号的分析，诸如Wi-Fi信号的信道状态信息(CSI)、接收信号强度信息(RSSI)和/或带宽(BW)信息。在一些实施方式中，CSI和/或RSSI被进一步用于(1)检测运动(例如，确定实体是否在接近)；(2)与远程设备(例如，智能家居环境中的其他智能设备204)同步。

作为另一示例，音频设备经由音频设备的图像传感器捕获音频设备的视场中的场景的一个或多个图像，并且在该示例中，用户的定位进一步基于对场景的一个或多个图像的分析。

在一些实施方式中，音频设备基于一个或多个接收到的信号在用户与一个或多个附加实体之间进行区分(例如，跟踪和/或标识)。在一些实施方式中，区分还基于附加超声数据、雷达数据、信道状态信息(CSI)、相对信号强度信息(RSSI)、视觉成像数据和/或PIR数据。在一些实施方式中，在用户和其他实体之间进行区分包括标识不同的呼吸、心脏和/或步态模式。

在一些实施方式中，音频设备基于一个或多个接收到的信号来标识(1020)一个或多个用户手势。在一些实施方式中，音频设备基于一个或多个用户手势来生成(1022)对人的响应。例如，音频设备将一只或多只手、脚或头部手势识别为用户响应(例如，头部摇动)并相应地响应。作为示例，在输出可听内容时，音频设备标识与暂停功能相对应的用户手势，并且作为响应，暂停可听内容。在一些实施方式中，音频设备利用多个麦克风(与用户变化的距离)来标识来自用户的三维手势。

在一些实施方式中，音频设备基于一个或多个接收到的信号来标识(1024)人的一个或多个呼吸提示。在一些实施方式中，音频设备基于一个或多个呼吸提示来生成(1026)对人的响应。例如，音频设备可以检测用户的呼吸问题并通知紧急服务。作为另一个示例，音频设备可选地配置成监视婴儿的呼吸模式，并且如果检测到潜在问题时通知婴儿的监护人。作为另一个示例，音频设备可以检测到用户感到困扰并提供援助。

在一些实施方式中，音频设备发射(1028)一个或多个第二超声脉冲，其被配置成确定音频设备的周围的温度。在一些实施方式中，音频设备接收(103)与第二超声脉冲相对应的一个或多个第二信号。在一些实施方式中，音频设备基于一个或多个第二信号来确定(1032)周围的温度。例如，音频设备使用飞行时间信息来标识温度变化和/或确定室温。

在一些实施方式中，音频设备基于所确定的人的定位来调整(1034)扬声器和/或麦克风的一个或多个参数。在一些实施方式中，音频设备根据所确定的人的定位来调整(1036)扬声器的音量级别(例如，调整扬声器的增益)。在一些实施方式中，音频设备具有多个扬声器，并且基于所确定的定位来选择特定的扬声器以进行可听通信。在一些实施方式中，音频设备包括多个麦克风，并且基于所确定的定位来选择特定的麦克风来出席用户。在一些实施方式中，音频设备具有多个扬声器，并且基于所确定的定位为后续的超声脉冲选择特定的扬声器。在一些实施方式中，音频设备包括多个麦克风，并且基于确定的定位选择特定的麦克风以接收后续的超声脉冲。

在一些实施方案中，音频设备基于所确定的人的定位向第二电子设备发送(1038)通知(例如，“唤醒”第二设备)。例如，音频设备确定用户在第二设备附近或正接近第二设备(例如，用户在传感器范围内)，并且向第二设备发送通知。

在一些实施方式中，音频设备被配置成可选地发射超声脉冲，该超声脉冲被配置成阻止动物(例如，可以听到超声范围内的声音的动物)接近音频设备。例如，为了使野生动物远离智能家居环境，或者使用户阻止宠物进入特定区域(例如，用户办公室)。

在一些实施方式中，音频设备确定动物(例如，可以听到超声波范围内的声音的家庭宠物)在附近，并调整后续超声脉冲的一个或多个参数(例如，调制后续脉冲)以将动物的不适最小化。例如，音频设备调整到比动物所能听到的更高的频率，或者音频设备减小强度、幅度和/或占空比以减小对动物的影响。

图11A-11C图示根据一些实施方式的音频设备602的另一代表性操作序列。图11A示出定位在房间1101内的音频设备602发射具有波形1104所图示的幅度和周期的超声啁啾1102。根据一些实施方式，在房间1101中未检测到人，并且因此波形1104具有较大的幅度(例如，具有足够的功率以感测整个房间)和较长的周期(例如，以节省功率并允许啁啾1102有足够的时间跨房间行进并返回而不受后续啁啾的干扰)。在一些实施方式中，图11A所图示的操作对应于第一状态(例如，对应于没有检测到的运动的状态)。例如，音频设备在处于第一状态时可以每秒、5秒或10秒发射1个啁啾。图11A进一步示出没有任何显示消息的显示器1103(例如，处于低功率(休眠)状态)。

图11B示出用户1106已经进入房间1101，并且音频设备602根据用户1106的检测发射具有相应波形1110的超声啁啾108。根据一些实施方式，波形1110比波形1106具有更低的幅度(例如，以节省功率并减少对其他设备的干扰)和更短的周期(例如，监视用户1106的定位和/或检测较小的移动，例如手势)。在一些实施方式中，图11B中图示的操作对应于第二状态(例如，对应于用户从设备跨房间的状态)。例如，音频设备可以在处于第二状态时每秒发射1、5或10个啁啾。图11B进一步示出显示器1103，其具有以第一放大率显示给用户1106的消息1105。

图11C示出用户1106已经移动到更靠近音频设备602并且音频设备602根据用户1106的接近度来发射具有相应波形1114的超声啁啾1112。根据一些实施方式，波形1114比波形1110具有更低的幅度(例如，以节省功率并减少对其他设备的干扰)并且较短的周期(例如，以监视用户1106的定位和/或检测较小的移动，例如手势)。在一些实施方式中，超声啁啾的幅度和/或周期基于用户1106的相对距离。在一些实施方式中，图11C所图示的操作对应于第三状态(例如，对应于用户与设备交互的状态)。例如，音频设备可以在处于第三状态时每秒发射10、20或30个啁啾。

在一些实施方式中，在图11C所图示的场景中发射的啁啾的子集可选地具有更高的放大率和更长的周期(例如，类似于图11A中的那些)。例如，可以发射周期性的高幅度啁啾，以扫描房间1101并确定是否第二人已经进入。在一些实施方式中，基于期望的扫描距离来选择啁啾的周期。例如，第一周期被用于在整个房间中扫描运动，而小于第一周期的第二周期用于跟踪跨房间在中途的用户。图11C进一步示出显示器1103，其具有基于用户1106更紧密的接近度以小于图11B中的第一放大率的第二放大率显示给用户1106的消息1107。根据一些实施方式，与消息1105相比，消息1107包括附加信息。如图11A-11C中所图示，音频设备602可选地耦合至显示器，并且当检测到用户1106时将唤醒显示器并且/或者基于到用户的相对距离来调整显示器的放大级别(例如，为用户呈现更有效的视觉体验)。如图11C所示，随着放大率级别的减小，音频设备602可选地向显示器添加附加信息(例如，附加文本)。

在一些实施方式中，音频设备602基于到用户1106的相对距离来调整可听输出的音量和/或视觉显示的放大率。例如，音频设备602随着用户1106接近而减少可听输出的音量以节省功率并且为用户呈现更一致的音频体验。

图12图示根据一些实施方式的用于代表性音频设备的代表性操作序列。首先，音频设备(例如，音频设备602)发射超声啁啾1202(例如，具有给定幅度、频率和周期)。第二，音频设备接收与所发射的啁啾1202相对应的响应信号1204。在一些实施方式中，音频设备周期性地发射啁啾，例如，定时使得不干扰啁啾响应1204。第三，音频设备确定连续响应1204之间的变化。在一些实施方式中，音频设备确定最近的啁啾响应集合(例如，最近的5、10或15个啁啾响应)的方差。第四，音频设备基于对方差1206的分析来确定人是否接近设备。在一些实施方式中，音频设备基于在啁啾响应中发生方差的位所来确定到人的相对距离，例如，啁啾响应开始时的方差指示人靠近该设备并且在啁啾响应结束的方差指示人远离设备。

图13A-13C是图示根据一些实施方式的用于代表性音频设备的操作的方法1300的流程图。在一些实施方式中，方法1300由诸如音频设备479的音频设备或其他配备音频的智能设备204(例如，相机设备118或危险检测器102)执行。在一些实施方式中，方法1300由诸如客户端设备220的用户设备执行。在一些实施方式中，方法1300由诸如传感器模块444和用户界面模块434的智能设备204的组件结合用户界面410和传感器422一起执行。在一些实施方式中，本文描述的方法1300的操作是可互换的，并且方法1300的相应操作由任何前述设备执行。在一些实施例中，方法1300由存储在非暂时性计算机可读存储介质中并且由设备的一个或多个处理器或控制器(诸如智能设备的处理器402)执行的指令支配。为了方便起见，下面将方法1300描述为由音频设备(例如，音频设备479)执行。

音频设备经由音频设备的扬声器(例如，扬声器482-1)以第一速率发送(1302)第一超声啁啾集(例如，啁啾1202)(例如，如图11A中所图示)。例如，第一速率对应于每10秒、30秒或1分钟1个啁啾。在一些实施方式中，音频设备经由多个扬声器(例如，扬声器482)发送第一超声啁啾集。

音频设备经由音频设备的麦克风(例如，麦克风480-1)接收(1304)与第一超声啁啾集相对应的第一信号集(例如，响应1204)(例如，如图4B和图12中所图示)。在一些实施方式中，音频设备经由多个麦克风(例如，麦克风480)接收第一信号集。在一些实施方式中，音频设备发送连续超声波并接收与连续波相对应的一个或多个信号。

音频设备基于第一信号集确定(1306)人接近音频设备。在各种实施方式中，与音频设备的接近度对应于人在超声啁啾的范围内、在音频设备的可听范围内或在音频设备的预设阈值距离内(例如，在设备的20英尺、10英尺或5英尺)。在一些实施方式中，音频设备分析响应之间的时间差，以确定该差是否是由于人接近音频设备而引起的。在一些实施方式中，音频设备将第一信号集与音频设备所定位的房间的房间响应进行比较。在一些实施方式中，音频设备基于第一信号集中的时间变化来标识(1308)人的接近度(例如，如以上关于图12所讨论的)。

在一些实施方案中，音频设备(例如，经由蓝牙)与不同的第二设备配对，并且利用相对设备定位来分析和解释啁啾响应中的方差。在一些实施方式中，音频设备发射第一啁啾集并分析在音频设备和第二音频设备两者处接收到的响应(例如，第二音频设备将响应信息发送到音频设备)。

在一些实施方式和情况中，音频设备基于第一信号集来检测存在混淆情况(例如，接近音频设备的振动或旋转的对象)。在一些实施方式中，根据检测到混淆情况，音频设备调整一个或多个检测准则(例如，音频设备遮掩或忽略由于混淆情况引起的方差)。在一些实施方式中，调整一个或多个检测准则包括增加接近度检测阈值(例如，仅在设备的减少的半径内扫描运动)。在一些实施方式中，调整一个或多个检测准则包括在预定时间量内禁用接近度检测(或分析)，或者直到不再检测到混淆情况为止。混淆情况可能包括旋转的风扇、活动的搅拌器或空气温度、压力或湿度的变化(例如，由于空调的激活)。在一些实施方式中，音频设备包括一个或多个附加传感器(例如，如以上表1所图示)，以标识和/或克服混淆情况。

在一些实施方式中，音频设备利用机器学习技术来标识和/或遮掩混淆情况。在一些实施方式中，音频设备利用机器学习技术来将移动的人与其他类型的运动或混淆情况区分开。在一些实施方式中，音频设备利用机器学习技术来标识和区分多个用户手势、姿势和/或呼吸模式。例如，机器学习技术用于对用户的手语进行分类、标识和响应。

在一些实施方式中，音频设备：(1)标识(1310)第一信号集的片段，该片段与接近音频设备的人一致；并且(2)确定(1312)该片段是否满足一个或多个检测准则。例如，音频设备标识第一信号集的片段，其指示存在距离设备5米的运动，并且音频设备分析该运动以确定其是否对应于移动的人(例如，而不是移动的动物或旋转的风扇)。在一些实施方式中，确定片段是否满足一个或多个检测准则包括确定所检测的运动是否具有与移动的人的速度、加速度和/或大小一致的速度、加速度和/或大小。

根据确定人接近音频设备，音频设备以比第一速率更快的第二速率发送(1314)第二超声啁啾集(例如，如图11B中所图示)。例如，第二速率对应于每1秒、5秒或10秒1个啁啾。在一些实施方式中，音频设备经由多个扬声器(例如，扬声器482)发送第二超声啁啾集。在一些实施方式中，音频设备在发送第二超声啁啾集的同时与人可听地交互(例如，如图7C中所图示)。在一些实施方式中，根据基于到人的相对距离来确定需要更少的幅度或增益来表征人，以小于第一啁啾集的幅度或增益来发送第二啁啾集。在一些实施方式中，以与第一啁啾集不同的频率和/或采样率发送第二啁啾集(例如，与第一啁啾集相比，第二啁啾集中的啁啾具有更高或更低的频率)。

在一些实施方式中，音频设备经由麦克风接收(1316)与第二超声啁啾集相对应的第二信号集。在一些实施方式中，分析第二信号集以表征人的移动(例如，表征呼吸模式、手势、姿势和/或表情)。例如，音频设备监视接近音频设备的人的睡眠模式，并向该人提供反馈。在一些实施方式中，音频设备基于第二信号集从人标识(1318)手势。在一些实施方式中，音频设备将由至少一个附加麦克风接收的信号与第二信号集中的相应信号进行比较(1320)(例如，以三角定位和/或确定检测到的移动的方向性)。

在一些实施方式中，音频设备确定(1322)到人的相对距离。例如，如以上关于图12所讨论的，音频设备基于在响应中检测到方差的位所来确定到人的相对距离。在一些实施方式中，音频设备基于到人的相对距离调整(1324)第二超声啁啾集的啁啾幅度。

在一些实施方式中，音频设备基于人的相对定位来调整(1326)音频设备上的用户界面的一个或多个特性。例如，音频设备基于相对定位唤醒显示器或调整亮度级别。在一些实施方式中，调整特性包括基于相对定位来重新定向用户界面(例如，转动显示器以面向人)。在一些实施方式中，音频设备根据人在音频设备的预定距离之内来激活(1328)显示器(例如，如图11B中所图示)。在一些实施方式中，音频设备调整(1330)所显示的文本的字体大小(例如，如图11B-11C中所图示)。在一些实施方式中，音频设备基于相对距离调整所显示的文本量(例如，如图11B-11C中所图示)。在一些实施方式中，音频设备调整(1332)由音频设备输出的可听内容的音量级别。

在一些实施方式中，音频设备经由麦克风接收(1334)与第二超声啁啾集相对应的第二信号集。

在一些实施方式中，音频设备基于第二信号集确定人紧密接近音频设备(例如，在设备的5英尺、2英尺或1英尺之内)。在一些实施方式中，根据确定人紧密接近音频设备，音频设备切换到交互模式。在一些实施方式中，交互模式包括激活一个或多个用户界面元素。在一些实施方式中，交互模式包括使设备重新定向以面对人。在一些实施方式中，交互模式包括以比第二速率更快的第三速率发送第三超声啁啾集。在一些实施方式中，交互模式包括分析与第三超声啁啾集相对应的接收到的信号，以标识用户手势和/或表情。在一些实施方式中，交互模式包括分析与第三超声啁啾集相对应的接收到的信号，以监视用户的呼吸模式(例如，以标识健康问题和/或确定人的情绪)。

在一些实施方式中，音频设备基于第二信号集确定(1336)该人不再接近音频设备。例如，第二信号集指示该人正在移动，或者已经移动远离音频设备超过阈值距离。在一些实施方式中，根据确定人不再接近音频设备，音频设备以比第二速率慢的第三速率发送(1338)第三超声啁啾集。在一些实施方式中，第三速率是第一速率。

在一些实施方式中，音频设备维持(1340)第一信号集的信号到第一超声啁啾集的相应超声啁啾的映射。例如，音频设备存储对所发送的啁啾的连续响应之间的时间方差的矢量和/或矩阵(例如，存储图12中的方差1206)。在一些实施方式中，音频设备例如在存储器426内将映射本地存储为设备数据458的一部分。

在一些实施方式中，音频设备从映射中标识(1342)房间响应。在一些实施方式中，房间响应对应于在房间未被占用时的房间的映射。在一些实施方式中，房间响应包括一个或多个矢量和/或矩阵。在一些实施方式中，房间响应例如作为存储器426内的设备数据458的一部分被本地存储在音频设备中。在一些实施方式中，音频设备获取音频设备的周围的环境数据；并基于环境数据更新所标识的房间响应(例如，基于房间内的改变的温度、压力或湿度更新房间响应)。在一些实施方式中，音频设备包括一个或多个环境传感器，其被配置成检测温度、压力和/或湿度的变化。在一些实施方式中，音频设备从远程设备或服务器接收环境数据。

在一些实施方式中，确定人正在接近音频设备包括从房间响应标识(1344)方差。例如，将来自一个或多个啁啾的响应与所存储的房间响应进行比较，以确定人是否正在接近。

在一些情况下，映射中可能会发生破坏。例如，音频设备可能正在将所有处理能力用于其他过程和/或经历缓冲区过载(溢出)状况，并且无法接收或分析啁啾响应。在一些实施方式中，响应于映射的破坏，音频设备丢弃(1346)映射。例如，音频设备确定已经发生破坏，并且将映射丢弃为过期(例如，而不是基于预先破坏映射来分析方差)。

在一些实施方式中，响应于映射的破坏，音频设备通过在预定的时间量内增加后续超声啁啾的啁啾速率来建立(1348)新映射。例如，音频设备确定已经发生破坏，并以更快的速率(例如，先前速率的两倍、五倍或十倍)发送啁啾，以便更快地建立新映射。例如，在破坏之前，设备以每秒八次的速率发射啁啾，并且在破坏之后，设备以每秒三十次的速率发射啁啾，以建立新映射(例如，对于5、10或30个啁啾)。在一些实施方案中，以对应于所需扫描距离的最大速率的速率(例如，对于5英尺的检测半径为10毫秒)发送后续超声啁啾。在一些实施方式中，响应于映射的破坏，音频设备禁用接近度检测(例如，检测人接近设备)，直到建立新映射为止。

尽管各个附图中的一些以特定顺序示出了多个逻辑阶段，但是不依赖于顺序的阶段可以被重新排序，并且其他阶段可以被组合或分解。尽管具体提到了一些重新排序或其他分组，但其他排序或分组对于本领域普通技术人而言将是显而易见的，因此，本文呈现的排序和分组并非替代方案的详尽列表。此外，应当认识到，这些阶段可以以硬件、固件、软件或其任何组合来实现。

还应理解，尽管在一些情况中，术语第一、第二等在本文中用于描述各种元件，但是这些元件不应受到这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如，在不脱离所描述的各种实施方式的范围的情况下，第一类别可以被称为第二类别，并且类似地，第二类别可以被称为第一类别。第一类别和第二类别都是类别，但是它们不一定是同一类别。

在本文的各种描述的实施方式的描述中使用的术语仅是出于描述特定实施方式的目的，并且不旨在进行限制。如在各种所描述的实施方式和所附权利要求的描述中所使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外明确指出。还应理解，本文所用的术语“和/或”是指并涵盖一个或多个相关联所列项目的任何和所有可能的组合。将进一步理解的是，当在本说明书中使用时，术语“包括(include)”、“包括(including)”、“包含(comprise)”和/或“包含(comprising)”规定了所述特征、整数、步骤、操作、元件和/组件的存在，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组。

如本文所用，取决于上下文，术语“如果”可选地解释为意指“何时”或“在……时”或“响应于确定”或“响应于检测到”或“根据确定……”。类似地，取决于上下文，短语“如果确定”或“如果检测到[所陈述的状况或事件]”可选地被解释为意指“在确定时”或“响应于确定”或“在检测到[所陈述的状况或事件]时”或“响应于检测到[陈述的状况或事件]”或“根据确定检测到[陈述的状况或事件]”。

为了说明的目的，已经参考特定实施方式描述了前述描述。然而，以上说明性讨论并非旨在穷举或将权利要求的范围限制为所公开的精确形式。鉴于以上教导，许多修改和变化是可能的。选择实施方式以便最好地解释权利要求及其实际应用所基于的原理，从而使本领域的其他技术人能够最佳地使用具有适于所设想的特定用途的各种修改的实施方式。

Claims

1.一种方法，包括：

在具有存储器、一个或多个处理器、扬声器和麦克风的电子设备处：

在经由所述扬声器和所述麦克风与用户可听地通信的同时：

经由所述扬声器发送一个或多个超声脉冲；

经由所述麦克风接收与所述一个或多个超声脉冲相对应的一个或多个信号；以及

基于一个或多个接收到的信号确定所述用户的定位。

2.根据权利要求1所述的方法，进一步包括：

扫描所述电子设备的超声周围；

基于所述扫描，确定用于所述一个或多个超声脉冲的一个或多个超声参数；

其中，所述一个或多个超声脉冲与所述一个或多个超声参数一起被发送。

3.根据权利要求2所述的方法，其中，所述一个或多个超声参数包括一个或多个频率设置和/或一个或多个定时设置。

4.根据权利要求2或3所述的方法，其中，扫描所述超声周围包括发送一个或多个测试脉冲。

5.根据权利要求2-4中的任一项所述的方法，其中，扫描所述超声周围包括确定用于多个频率中的每个频率的信噪比。

6.根据任意前述权利要求所述的方法，进一步包括基于一个或多个接收到的信号来标识所述用户。

7.根据任意前述权利要求所述的方法，进一步包括：

基于一个或多个接收到的信号来标识一个或多个用户手势；以及

基于所述一个或多个用户手势来生成对所述用户的响应。

8.根据任意前述权利要求所述的方法，其中，确定所述用户的定位包括确定所述用户与所述电子设备之间的距离。

9.根据任意前述权利要求所述的方法，进一步包括：

基于一个或多个接收到的信号来标识所述用户的一个或多个呼吸提示；和

基于所述一个或多个呼吸提示来生成对所述用户的响应。

10.根据任意前述权利要求所述的方法，进一步包括：

发射一个或多个第二超声脉冲，所述第二超声脉冲被配置成确定所述电子设备的周围的温度；

接收与所述第二超声脉冲相对应的一个或多个第二信号；以及

基于所述一个或多个第二信号来确定所述周围的温度。

11.根据任意前述权利要求所述的方法，进一步包括基于所确定的所述用户的定位来调整所述扬声器和/或麦克风的一个或多个参数。

12.根据任意前述权利要求所述的方法，进一步包括基于一个或多个接收到的信号来标识所述用户的运动。

13.根据任意前述权利要求所述的方法，其中，所述一个或多个超声脉冲中的每个超声脉冲包括跨多个频率的啁啾扫频。

14.根据任意前述权利所述的方法，进一步包括：

确定人是否在所述电子设备附近；和

根据确定人在所述电子设备附近，向所述人打招呼。

15.根据任意前述权利所述的方法，进一步包括：

经由所述电子设备的传感器检测运动；

响应于检测到所述运动，发送一个或多个第二超声脉冲；

接收与所述一个或多个第二超声脉冲相对应的一个或多个第二信号；以及

基于所述一个或多个第二信号来表征所述运动。

16.根据权利要求15所述的方法，进一步包括基于所表征的运动来启用虚拟助理特征。

17.根据任意前述权利所述的方法，进一步包括发射一个或多个超声脉冲，所述超声脉冲被配置成阻止宠物接近所述电子设备。

18.根据任意前述权利所述的方法，进一步包括根据所确定的所述用户的定位来调整所述扬声器的音量级别。

19.根据任意前述权利所述的方法，进一步包括从一个或多个第二电子设备接收定位数据；

其中，确定所述用户的定位进一步基于所接收到的定位数据。

20.根据任意前述权利要求所述的方法，进一步包括基于一个或多个接收到的信号在所述用户与一个或多个附加实体之间进行区分。

21.根据权利要求20所述的方法，其中，所述区分是基于所述用户的呼吸模式。

22.根据任意前述权利所述的方法，进一步包括：

经由所述电子设备处的发射器发送一个或多个雷达脉冲；

经由所述电子设备处的接收器接收与所述一个或多个雷达脉冲相对应的一个或多个第二信号；以及

其中，确定所述用户的定位进一步基于所述一个或多个第二信号。

23.根据任意前述权利所述的方法，进一步包括：

接收一个或多个无线通信信号；并且

其中，确定所述用户的定位进一步基于所述一个或多个无线通信信号。

24.根据任意前述权利所述的方法，进一步包括：

经由所述电子设备的图像传感器捕获所述电子设备的视野中的场景的一个或多个图像；并且

其中，确定所述用户的定位进一步基于对所述场景的所述一个或多个图像的分析。

25.根据任意前述权利所述的方法，进一步包括基于所确定的所述用户的定位，向接近所述用户的第二设备通知所述用户的存在。

26.一种方法，包括：

经由所述扬声器以第一速率发送第一超声啁啾集；

经由所述麦克风，接收与所述第一超声啁啾集相对应的第一信号集；

基于所述第一信号集确定人接近所述电子设备；以及

根据确定所述人接近所述电子设备，以比所述第一速率快的第二速率发送第二超声啁啾集。

27.根据权利要求26所述的方法，进一步包括：

经由所述麦克风接收与第二超声啁啾集相对应的第二信号集；和

基于所述第二信号集从所述人标识手势。

28.根据权利要求27所述的方法，其中，所述电子设备包括至少一个附加麦克风；并且

其中，从所述人标识所述手势包括将由所述至少一个附加麦克风接收到的信号与所述第二信号集中的相应信号进行比较。

29.根据权利要求26或27所述的方法，进一步包括：

确定到所述人的相对距离；和

基于到所述人的相对距离，调整所述第二超声啁啾集的啁啾幅度。

30.根据权利要求29所述的方法，其中，所述电子设备包括用户接口；并且

所述方法进一步包括基于所述人的相对定位来调整所述用户接口的一个或多个特性。

31.根据权利要求30所述的方法，其中，基于所述人的相对定位来调整所述用户接口的一个或多个特性包括根据所述人在所述电子设备的预定距离内来激活显示器。

32.根据权利要求30或31所述的方法，其中，基于所述人的相对定位来调整所述用户接口的所述一个或多个特性包括调整所显示的文本的字体大小。

33.根据权利要求30-32中的任一项所述的方法，其中，基于所述人的相对定位来调整所述用户接口的一个或多个特性包括调整由所述电子设备输出的可听内容的音量级别。

34.根据权利要求26至33中的任一项所述的方法，进一步包括：

基于所述第二信号集确定所述人不再接近所述电子设备；和

根据确定所述人不再接近所述电子设备，以比所述第二速率慢的第三速率发送第三超声啁啾集。

35.根据权利要求26-34中的任一项所述的方法，其中，确定所述人接近所述电子设备包括基于所述第一信号集中的时间方差来标识所述人的接近。

36.根据权利要求26-35中的任一项所述的方法，其中，确定所述人接近所述电子设备包括：

标识所述第一信号集的片段，所述片段与人接近所述电子设备一致；和

确定所述片段是否满足一个或多个检测准则。

37.根据权利要求36所述的方法，进一步包括：

检测混淆情况；和

根据检测所述混淆情况，调整所述一个或多个检测准则。

38.根据权利要求37所述的方法，其中，所述混淆情况包括风扇接近所述电子设备操作。

39.根据权利要求37所述的方法，其中，所述混淆情况包括电器接近所述电子设备振动。

40.根据权利要求37至39中的任一项所述的方法，其中，调整所述一个或多个检测准则包括增加接近度检测阈值。

41.根据权利要求37-39中的任一项所述的方法，其中，调整所述一个或多个检测准则包括在预设时间量内禁用接近度检测，或者直到不再检测到所述混淆情况为止禁用接近度检测。

42.根据权利要求26-41中的任一项所述的方法，进一步包括维持所述第一信号集中的信号到所述第一超声啁啾集中的相应超声啁啾的映射。

43.根据权利要求42所述的方法，进一步包括从所述映射中标识房间响应；并且

其中，确定所述人接近所述电子设备包括从所述房间响应标识方差。

44.根据权利要求43所述的方法，进一步包括：

获取所述电子设备的周围的环境数据；和

基于所述环境数据更新所标识的房间响应。

45.根据权利要求42-44中的任一项所述的方法，进一步包括，响应于所述映射的破坏，通过在预设时间量内增加后续超声啁啾的啁啾速率来建立新映射。

46.根据权利要求45所述的方法，进一步包括：响应于所述映射的破坏，丢弃所述映射。

47.根据权利要求45或46所述的方法，其中，所述破坏是由于所述电子设备处的缓冲器溢出造成的。

48.一种电子设备，包括：

一个或多个处理器；

麦克风

扬声器；以及

存储器，所述存储器存储一个或多个指令，所述指令在由所述一个或多个处理器执行时使所述电子设备执行根据权利要求1-47中的任何一项所述的方法。

49.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括指令，所述指令在由具有一个或多个处理器、存储器、麦克风和扬声器的电子设备执行时使所述电子设备执行根据权利要求1-47中的任何一项所述方法。