CN111630413B

CN111630413B - 基于置信度的应用特定的用户交互

Info

Publication number: CN111630413B
Application number: CN201980008174.3A
Authority: CN
Inventors: 阿什顿·尤德尔; 安德鲁·费尔奇; 詹姆斯·托宾
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-05
Filing date: 2019-06-05
Publication date: 2024-04-16
Anticipated expiration: 2039-06-05
Also published as: EP3721268B1; CN118394206A; EP3839580B1; EP3839580A1; CN111630413A; WO2019236764A1; EP3721268A1

Abstract

本申请针对一种用于控制执行应用的电子设备上的用户体验UX操作的方法。与应用相关联的非接触UX操作具有发起条件，该发起条件至少包括以所需置信度级别检测所需接近度范围内的存在和手势。然后，电子设备从第一传感器信号中确定相对于电子设备的存在的接近度。根据所确定的接近度在所需接近度范围内的确定，电子设备从第二传感器信号中确定与存在的接近度相关联的手势以及该手势的确定的相关联的置信度级别。根据所确定的手势和相关联的置信度级别满足发起条件的确定，电子设备发起与应用相关联的非接触UX操作。

Description

基于置信度的应用特定的用户交互

技术领域

本申请总体上涉及电子设备，包括但不限于显示助理设备，该显示助理设备提供与在显示助理设备上执行的应用相关联的非接触用户体验操作。

背景技术

与相机和麦克风集成在一起的电子设备非常流行。这些设备也称为智能家庭设备或智能助理设备。它们被广泛用于捕获和保存不断扩展的诸如数码照片的媒体文件的收集。它们还用于收集用户的语音输入，并根据语音输入实现不同的语音激活功能。例如，许多现有技术的移动设备都包括语音助理系统(例如，GOOGLE ASSISTANT)，其被配置成使用语音输入来发起电话呼叫、进行餐馆搜索、在地图上开始选择路线、创建日历事件、将帖子添加到社交网络、辨识歌曲并完成许多其他任务。这些电子设备还用于执行诸如语音呼叫和视频会议的功能。

尽管用于基于助理的消费用途的电子设备的普遍，但是这些电子设备很少关注其物理场境，而是依靠语音或触摸输入以在适当的时间发起发起其功能。然而，语音或触摸输入可能破坏用户的正常活动并损害电子设备的用户体验。使电子设备智能、场境化和令人愉悦是有益的，例如，前摄地实时预测其用户需求并向用户友好的界面提供更多相关信息。

发明内容

本公开通过提供一种电子设备(例如，显示助理设备)来解决在以上识别的缺陷，该电子设备控制与在其上执行的一个或多个应用相关联的场境化和非接触用户体验(UX)操作。电子设备被配置成根据存在的接近度来发起非接触UX操作(例如，使能够显示用户界面)，在正确的距离处示出正确的信息量和/或触摸控制选项。例如，基于用户的通常意图在远景中提供最有用的信息，并且当用户足够靠近电子设备时，在近景中提供附加信息和控件。非接触UX操作在存在的接近度变化时平稳转变。基于涉及与确定存在的接近度相关联的置信度级别的发起条件来发起每个非接触UX操作。

根据本申请的一个方面，一种用于控制用户体验(UX)操作的方法在具有一个或多个处理器和存储器的电子设备上实现。该方法包括：识别在电子设备上执行的第一应用和识别与第一应用相关联的第一非接触UX操作。第一UX操作具有发起条件，该发起条件至少包括以所需置信度级别的对在所需接近度范围内的存在和手势的检测。可选地，从多个预确定置信度级别中选择所需置信度级别。该方法进一步包括：识别第一传感器信号，该第一传感器信号可以被用于针对发起条件确定相对于电子设备存在的接近度；以及从第一传感器信号中确定相对于电子设备的存在的接近度。该方法还包括确定所确定的接近度是否在所需接近度范围内。该方法还包括根据所确定的接近度处于所需接近度范围内的确定，识别可用于捕获在所需接近度范围内的存在的手势的第二传感器信号，从第二传感器信号中确定与存在的接近度相关联的手势以及手势确定的相关联的置信度级别，并确定所确定的手势和相关联的置信度级别是否满足发起条件。该方法还包括，根据已经满足发起条件的确定，发起与第一应用相关联的第一UX操作。

根据本申请的另一方面，在具有一个或多个处理器和存储器的电子设备上实现一种用于控制用户体验(UX)操作的方法。该方法包括：识别在电子设备上执行的第一应用和识别与第一应用相关联的第一非接触UX操作。第一UX操作具有发起条件，该发起条件至少包括以所需置信度级别检测所需接近度范围中的存在。可选地，从多个预确定的置信度级别中选择所需置信度级别。该方法进一步包括：识别第一传感器信号，该第一传感器信号可用于针对所述发起条件来确定相对于电子设备的存在的接近度；从第一传感器信号，确定相对于电子设备的存在的接近度以及相关联的确定的置信度级别，和确定所确定的接近度和相关联的置信度级别是否满足发起条件。该方法还包括根据确定已经满足发起条件，发起与第一应用相关联的第一UX操作。

在一些实施方式中，发起条件包括第一发起条件。该方法进一步包括：识别在电子设备上执行的第二应用和识别与第二应用相关联的第二非接触UX操作。第二UX操作具有第二发起条件，该第二发起条件至少包括以第二所需置信度级别检测所需接近度范围中的存在。识别第一传感器信号以确定针对第一和第二UX操作两者相对于电子设备的存在的接近度。根据第一非接触UX操作的第一所需置信度级别和第二非接触UX操作的第二所需置信度级别中较高的置信度级别来识别第一传感器信号。此外，在一些实施方式中，第二所需置信度级别低于第一所需置信度级别。

在一些实施方式中，发起条件还包括以所需置信度级别检测在所需接近度范围内的所需手势。该方法还包括根据所确定的接近度和相关联的置信度级别满足发起条件的确定，识别第二传感器信号，该第二传感器信号可以用于捕获所需接近度范围内的存在的手势；从第二传感器信号确定与存在的接近度相关联的手势；以及基于手势的确定来更新相关联的置信度级别。该方法还包括确定所确定的手势和更新的置信度级别是否满足发起条件。根据对于存在的接近度和手势已经满足发起条件的确定来发起与第一应用相关联的第一UX操作。

在一些实施方式中，发起条件包括第一发起条件，该第一发起条件至少包括以第一所需置信度级别检测第一所需接近度范围中的存在。该方法还包括识别与第一应用相关联的第三非接触UX操作。第三UX操作具有第三发起条件，该第三发起条件至少包括以第三所需置信度级别检测第三接近度范围中的存在。第三所需接近度范围不同于第一所需接近度范围。该方法还包括根据已经满足第三发起条件的确定，终止第一UX操作并且发起与第一应用相关联的第三UX操作。在一些情况下，第一所需接近度范围内的每个位置具有大于阈值距离的距电子设备的第一距离，而第三所需接近度范围内的每个位置具有不大于阈值距离的距电子设备的第二距离。在一些实施方式中，第一UX操作被配置成在电子设备上显示第一用户界面，并且第三UX操作被配置成在电子设备上显示第二用户界面。第二用户界面被配置成显示比第一用户界面更多的信息，并且可选地包括至少一个可作用(actionable)项。

在另一方面，电子设备被配置成执行本文描述的任何方法。

在另一方面，一种非暂时性计算机可读存储介质存储一个或多个程序。一个或多个程序包括指令，所述指令在由电子设备执行时使计算机系统执行本文所述的任何方法。

在一些实施方式中，为在电子设备上可执行的一个或者多个应用提供可用的非接触UX操作到相应发起条件的映射(例如，查找表)，每个发起条件要求以从多个置信度级别中选择的所需置信度级别检测在所需接近度范围中的存在和手势。

该应用可以是主屏幕应用、安全应用、聊天或其他通信应用、媒体播放应用、安全应用、互联网浏览器等。

电子设备包括多个传感器，所述多个传感器能够以不同准确度检测存在和/或手势。传感器包括IR/运动、超声波、雷达、相机视频/静止图像、蓝牙无线电、WiFi无线电等。不同的传感器具有不同的固有分辨率能力，其至少部分地确定来自该传感器的信号可以通过其被用于以所需置信度级别检测存在和/或确定特定手势是否在所需接近度内发生的置信度。

在一些实施方式中，同一电子设备上的不同传感器可能能够以所需置信度级别检测存在和/或确定特定手势是否在所需接近度内发生，但是来自那些传感器的处理信号可能采取不同的时间量和需要不同的处理技术。例如，处理超声信号(可以使用设备上的DSP技术完成)可能比处理来自相机的视频(可能需要使用在电子设备和/或云中执行的机器学习处理)要快。使用什么样的信号和/或处理技术取决于与应用相关联的所需响应时间和/或针对相关联的UX操作的发起条件。

在一些实施方式中，电子设备使用不太准确的传感器信号(例如，来自PIR运动传感器的信号)执行初始快速确定，以识别存在，该识别可能不够准确从而无法确定是否已经为特定的手势触发特定的发起条件，并且然后，如果识别到存在(例如，在合适的所需范围内)，则将收集更准确的传感器信号并且然后进行处理(在更慢、更计算密集的过程中，诸如基于ML的过程)以确定特定手势是否在所需接近度内发生。

在一些实施方式中，基于置信度的UX发起处理使传感器的性能适应特定的发起条件的要求。例如，如果仅视频处理可用于以所需置信度级别识别媒体控制或安全控制手势，则基于置信度的确定处理可能会在使用不太准确的传感器信号识别存在之后控制电子设备以接通其屏幕到最大化亮度或接通其红外照明器，以更好地捕获面部或手势细节，以便于能够以所需置信度级别识别特定的非接触UX手势。

类似地，基于置信度的UX发起处理可以基于环境条件来增加信号强度，因此传感器和相关联的传感器处理可以以高信噪比进行操作，以便以所需置信度级别识别存在和/或手势。

例如，当播放音乐并且使用超声感测来识别手势时，可以增加超声信号量以提供改善的SNR，并且可以使用高精度的机器学习技术代替基于DSP的技术来处理所得的接收信号。

类似地，当存在背光或房间黑暗时，这可能会对于精确的面部检测提供太低的SNR，可以增加设备屏幕的亮度，以便为存在的面部和/或手势特征的视觉处理提供更高的SNR。

类似地，当环境安静和/或存在具有敏感听力的宠物时，可能不会使用超声感应来识别存在，或者可能会降低超声幅度，以避免使宠物感到不适。

在一些实施方式中，当多个应用在电子设备上同时执行，并且每个应用与一个或多个具有基于接近度的发起条件的非接触UX操作相关联时，电子设备采用适合于发起多个UX操作的最高相关联的所需置信度级别的用于接近度和/或手势识别的传感器和/或处理技术。

在一些实施方式中，当一个应用正在电子设备上执行并且该应用与具有基于接近度的发起条件的多个非接触UX操作相关联时，电子设备采用适合于针对发起多个UX操作的相关联的所需置信度级别的用于接近度和/或手势识别的传感器和/或处理技术。

ML技术可以在设备上和/或在云中执行。DSP技术可以在设备上和/或在云中执行，但是倾向于在设备上执行，因为它们可以在非常短的时间内提供结果。

在一些实施方式中，在可行的情况下采用对传感器输入的设备上处理，以减少从家庭和工作环境收集的信息到云的传输，这有益于用户隐私。

附图说明

为了更好地理解各种所描述的实施方式，应结合以下附图参考以下实施方式的描述，在所述附图中，相同的附图标记在整个附图中指代对应的部分。

图1A是根据一些实施方式的示例智能家庭环境。

图1B是图示根据一些实施方式的包括智能家庭网络的代表性网络架构的框图。

图2A是根据一些实施方式的示例操作环境，其中语音激活的电子设备(例如，显示助理设备)与智能家庭环境的投送设备(cast device)、客户端设备或服务器系统进行交互。

图2B是根据一些实施方式的其中语音激活的电子设备与智能家庭环境的投送设备、客户端设备或服务器系统交互的另一示例操作环境。

图2C是根据一些实施方式的其中语音激活的电子设备与智能家庭设备的智能家庭设备、集线器设备和服务器系统交互的另一示例操作环境。

图2D是根据一些实施方式的其中语音激活的电子设备与集线器设备、智能家庭环境的服务器系统以及第二设备交互的另一示例操作环境。

图2E是根据一些实施方式的其中语音激活的电子设备与集线器设备、智能家庭环境的服务器系统以及智能家庭环境中的人员交互的另一示例操作环境。

图3A是图示根据一些实施方式的示例显示助理设备的框图，并且图3B是根据一些实施方式的图3A中所示的显示助理设备的传感器的列表。

图4是图示根据一些实施方式的代表性服务器系统的框图。

图5A-5F分别是根据一些实施方式的显示助理设备的透视图、前视图、后视图、侧视图、顶视图和底视图。

图6是图示根据一些实施方式的代表性客户端设备的框图。

图7是根据一些实施方式的其中电子设备基于以所需置信度级别对所需接近度范围中的存在和/或手势的检测来控制第一非接触UX操作的代表性操作环境。

图8A是根据一些实施方式的UX操作和相关联的发起条件的列表，并且图8B是根据一些实施方式的汇总图8A中列出的针对UX操作的发起条件的表。

图9A-9F图示根据一些实施方式的根据六个不同应用的UX操作显示的图形用户界面。

图10A是根据一些实施方式的其中电子设备基于相对于电子设备的存在的接近度来控制应用的UX操作的另一代表性操作环境。

图10B和10C图示根据一些实施方式的根据与两个不同的接近度范围相对应的应用的两个不同的UX操作显示的两个用户界面。

图11是根据一些实施方式的控制UX操作的代表性方法的流程图。

图12A-12D是根据一些实施方式的控制UX操作的另一代表性方法的流程图。

贯穿附图的数个视图，相同的附图标记指代相应的部分。

具体实施方式

现在将详细参考实施方式，其示例在附图中示出。在下面的详细描述中，阐述许多具体细节以便提供对所描述的各种实施方式的透彻理解。然而，对于本领域的普通技术人员而言显而易见的是，可以在没有这些具体细节的情况下实践各种所描述的实施方式。在其他情况下，未详细描述公知的方法、过程、组件、电路和网络，以免不必要地使实施方式的各方面模糊。

集成有麦克风和相机的显示助理设备可用于收集来自用户的音频和视觉输入，并根据语音输入实现语音激活功能。一些显示助理设备包括被配置成使用音频输入执行许多任务的语音助理特征。这些显示助理设备的功能性可以进一步扩展以理解设置设备的智能家庭环境的场境，并自适应地发起场境化和非接触用户体验(UX)操作。电子设备被配置成根据存在的接近度和/或与该接近度相关联的手势发起非接触UX操作(例如，使能够显示用户界面)，从而在正确的距离示出正确的信息量和/或接触控制选项。例如，当用户接近显示助理设备时，其用户界面被更新以自动提供更多信息和可选择的功能可见性，无需用户干预(即，无需语音或触摸输入)。

图1A是根据一些实施方式的示例智能家庭环境100。智能家庭环境100包括具有各种集成设备(在本文中也称为“连接的”或“智能”设备)的结构150(例如，房屋、办公楼、车库或移动家庭)。将理解的是，智能设备也可以被集成到不包括整个结构150的诸如公寓、公寓住房或办公室空间的智能家庭环境100中。在一些实施方式中，智能设备包括以下中的一个或多个：个人客户端设备104(例如，平板计算机，笔记本计算机或移动电话)、显示设备106、媒体投送或流传输设备108、恒温器122、家庭保护设备124(例如，烟雾，火和二氧化碳检测器)、家庭安全设备(例如，运动检测器，窗户和门传感器和警报器)，包括连接的门铃/相机126、连接的锁具128、警报系统130和相机132、连接的墙壁开关应答器136、连接的电器138、WiFi通信设备160(例如集线器，路由器，扩展器)、连接的家庭清洁设备168(例如真空吸尘器或地板清洁器)、智能家庭通信和控制集线器180、语音助理设备192和显示助理设备190。

应当理解，术语“智能家庭环境”可以指的是诸如单户房屋之类的家庭的智能环境，但是本教导的范围不限于此。本教导还适用于但不限于联式房屋、联排别墅、多单元公寓楼、旅馆、零售店、办公楼、工业建筑、院子、公园、更一般地，任何居住空间或工作空间。

还应当理解，尽管术语用户、顾客、安装者、房主、居住者、客人、租户、房东、维修人员等可以用来指代在本文描述的某些特定情况的场境中行动的一个人员或多个人员，关于执行这种动作的一个人员或多个人员这些指代并不限制本教导的范围。因此，例如，术语用户，顾客，购买者，安装者，订户和房主通常是指代在单户居民住宅的情况下做出购买决定、购买单元、并安装和配置该单元并且也是该单元的用户之一的同一个人员。但是，在诸如房东-租户环境的其他情况下，关于购买单元，顾客可能是房东，安装者可能是本地公寓管理员，第一用户可能是租户，关于远程控制功能性，第二用户可能再次是房东。重要的是，尽管执行该动作的人员的身份可能与一个或多个实施方式所提供的特定优势密切相关，但这种身份不应在随后的描述中解释为必然将本教导的范围限制于具有这些特定身份的那些特定的个人。

所描绘的结构150包括多个房间152，这些房间152通过墙壁154至少部分地彼此分开。墙壁154可以包括内壁或外壁。每个房间可以进一步包括地板156和天花板158。

一个或多个媒体设备被设置在智能家庭环境100中，以向用户提供对本地存储或从远程内容源(例如，内容主机114)流传输的媒体内容的访问。在一些实施方式中，媒体设备包括直接向观众输出/显示/播放媒体内容的媒体输出设备106，以及将通过一个或多个网络接收到的媒体内容流传输到媒体输出设备106的投送设备108。媒体输出设备106的示例包括但不限于电视(TV)显示设备、音乐播放器和计算机监视器。投送设备108的示例包括但不限于中间流传输盒，投送设备(例如GOOGLE CHROMECAST设备)、机顶盒(STB)、DVD播放器和电视盒。

在示例智能家庭环境100中，媒体输出设备106设置在一个以上的位置，并且每个媒体输出设备106耦合到相应的投送设备108或包括嵌入式投送单元。媒体输出设备106-1包括硬连线到DVD播放器或机顶盒108-1的TV显示器。媒体输出设备106-2包括智能TV设备，其集成了嵌入式投送单元，以流传输媒体内容以显示给其观众。媒体输出设备106-3包括耦合到TV盒108-3(例如，Google TV或Apple TV产品)的常规TV显示器，并且这样的TV盒108-3流传输从媒体内容主机服务器114接收到的媒体内容，并提供对互联网的访问，以在媒体输出设备106-3上显示基于互联网的内容。

除了媒体设备106和108之外，一个或多个电子设备190和192被设置在智能家庭环境100中。电子设备190是显示助理设备，并且电子设备192是语音助理设备。在一些实施方式中，显示助理设备190也是语音助理设备。电子设备190和192收集用于发起设备190和192和/或媒体设备106和108的各种媒体播放功能的音频输入。在一些实施方式中，设备190和192被配置成提供本地存储的或从远程内容源流传输的媒体内容。在一些实施方式中，电子设备190和192是语音激活的，并且设置在媒体设备附近，例如在与投送设备108和媒体输出设备106相同的房间中。可替选地，在一些实施方式中，语音激活的显示助理设备190-1被设置在具有一个或多个智能家庭设备但没有任何媒体设备的房间中。可替选地，在一些实施方式中，语音激活的电子设备190被设置在没有联网的电子设备的位置。这允许设备190和192与媒体设备通信并且将正在一个设备上显示的内容共享给另一设备(例如，从设备190-1到设备190-2和/或媒体设备108)。

语音激活的电子设备190包括至少一个麦克风、扬声器、处理器和存储至少一个程序以供处理器执行的存储器。扬声器被配置成允许电子设备190将语音消息传递到电子设备190在智能家庭环境100中所处的位置，从而广播与正在显示的当前媒体内容有关的信息，报告音频输入处理的状态，与电子设备190的用户进行对话或向其提供指令。例如，在一些实施例中，响应于用户查询，该设备通过扬声器向用户提供可听信息。作为语音消息的替代，视觉信号还可以用于向电子设备190的用户提供关于音频输入处理的状态的反馈，诸如在设备上显示的通知。

根据一些实施方式，电子设备190是语音接口设备，其被网络连接以借助于服务器系统164来提供语音辨识功能。在一些实施方式中，服务器系统164包括云投送服务服务器116和/或语音/显示辅助服务器112。例如，在一些实施方式中，电子设备190包括向用户提供音乐(例如，在设备190或显示设备106上显示的视频内容的音频)的智能扬声器，并允许免视和免提访问语音助理服务(例如Google Assistant)。可选地，电子设备190是简单且低成本的语音接口设备，例如扬声器设备和显示助理设备(包括不具有触摸检测能力的显示屏)。

在一些实施方式中，语音激活的电子设备190除了麦克风、扬声器、处理器和存储器之外还集成了显示屏(例如，190-1和190-2)，并且被称为“显示助理设备”。显示屏被配置成除了可以经由语音激活的电子设备190的扬声器广播的音频信息之外，还提供附加视觉信息(例如，媒体内容，与媒体内容有关的信息等)。在用户在附近并且他或她的视线没有被遮挡的情况下，用户可以直接在显示助理设备的显示屏上检查附加视觉信息。可选地，附加视觉信息向电子设备190的用户提供关于音频输入处理的状态的反馈。可选地，附加视觉信息是响应于用户先前的语音输入(例如，用户查询)而提供的，并且可以与扬声器所广播的音频信息有关。在一些实施方式中，语音激活的电子设备190的显示屏包括触摸显示屏，该触摸显示屏被配置成检测其表面上的触摸输入(例如，通过触摸显示屏提供的指令)。可替选地，在一些实施方式中，语音激活的电子设备190的显示屏不是触摸显示屏，这是相对昂贵的并且会损害提供显示助理设备190作为低成本用户接口解决方案的目标。

当来自电子设备190的语音输入用于通过投送设备108控制电子设备190和/或媒体输出设备106时，电子设备190使得能够有效地实现对启用投送的媒体设备的新控制级别，而无论电子设备190是否具有其自己的显示器。在示例中，电子设备190包括具有远场语音访问的休闲娱乐扬声器，并且用作Google Assistant的语音接口设备。电子设备190可以设置在智能家庭环境100中的任何房间中。当多个电子设备190分布在多个房间中时，它们成为音频接收器，其被同步以提供来自所有这些房间的语音输入。例如，第一电子设备190可以接收指向第二电子设备190-2的用户指令(例如，“OK Google,show this photo albumon the Kitchen device(好的Google，在厨房设备上显示该相册)”的用户指令)。

具体地，在一些实施方式中，电子设备190包括具有麦克风的WiFi扬声器，该WiFi扬声器连接到语音激活的个人助理服务(例如，Google Assistant)。用户可以经由电子设备190的麦克风发布媒体播放请求，并要求个人助理服务在电子设备190本身和/或另一连接的媒体输出设备106上播放媒体内容。例如，用户可以通过向Wi-Fi扬声器说出“OKGoogle,Play cat videos on my Living room TV(好的Google，请在我的客厅电视上播放猫视频)”。然后，个人助理服务通过使用默认或指定的媒体应用在所请求的设备上播放所请求的媒体内容来满足媒体播放请求。

用户还可以经由电子设备190的麦克风发出与已在显示设备上播放和/或正在播放的媒体内容有关的语音请求。例如，用户可以指令设备提供与正在显示的当前媒体内容有关的信息，诸如媒体内容的所有权信息或主题。在一些实施方式中，当没有远程控制或第二屏幕设备对用户可用时，通过语音在显示设备上发起或去激活当前显示的媒体内容的隐藏式字幕。因此，用户可以通过免视和免提的语音激活的电子设备190打开显示设备上的隐藏式字幕，而无需涉及具有物理用户接口的任何其他设备，并且这种语音激活的电子设备190满足患有听力障碍的用户的联合无障碍要求。在一些实施方式中，用户希望在他们穿过房屋时与他们进行当前媒体会话。这需要个人助理服务将当前媒体会话从第一投送设备转移到第二投送设备，该第二投送设备不直接连接到第一投送设备或不知道第一投送设备的存在。在媒体内容转移之后，耦合到第二投送设备108的第二输出设备106从在耦合到第一投送设备108的第一输出设备106上停止了媒体内容的播放的相册或视频剪辑中的确切点继续播放先前该第一输出设备106的媒体内容。

在一些实施方式中，显示助理设备190包括显示屏和一个或多个内置相机。相机被配置成捕获图像和/或视频，然后将图像和/或视频传输(例如，流传输)到服务器系统164，以在客户端设备(例如，图2C的授权客户端设备104和220)上显示。

在一些实施方式中，语音激活的电子设备190、智能家庭设备也可以安装在智能家庭环境100的墙壁154、地板156或天花板158上，与之集成和/或由其支撑(考虑到智能家庭设备的存在，其也广泛地被称为智能家庭环境)。集成的智能家庭设备包括智能、多感测、网络连接的设备，它们可以无缝地相互集成在智能家庭网络中(例如，图1B中的102)和/或与中央服务器或云计算系统无缝集成，以提供各种有用的智能家庭功能。在一些实施方式中，智能家庭设备作为投送设备108和/或输出设备106被设置在智能家庭环境100的相同位置处，并且因此，被定位在相对于投送设备108和输出设备106附近或与其具有已知距离。

在一些实施方式中，智能家庭环境100中的智能家庭设备包括但不限于一个或多个智能、多感测、网络连接的相机系统132。在一些实施例中，由相机系统132捕获的内容应用户的请求(例如，“OK Google,Show the baby room monitor.(好的Google，显示婴儿室监视器。)”的用户指令)和/或根据家庭环境100的设置(例如，在晚上期间或响应于检测到入侵者而显示由相机系统捕获的内容的设置)而在电子设备190上显示。

智能家庭环境100中的智能家庭设备可以包括但不限于一个或多个智能、多感测、网络连接的恒温器122、一个或多个智能、网络连接的、多感测的危害检测器124、一个或多个智能、多感测、网络连接的入口接口设备126和128(以下称为“智能门铃126”和“智能门锁128”)、一个或多个智能、多感测、网络连接的警报系统130、一个或多个智能、多感测、网络连接的相机系统132和一个或多个智能、多感测、网络连接的墙壁开关136。在一些实施方式中，在图1的智能家庭环境100中的智能家庭设备包括多个智能、多感测、网络连接的电器138(以下称为“智能电器138”)，诸如冰箱、火炉、烤箱、电视、洗衣机、烘干机、灯、立体声音响、对讲机系统、车库门开启器、地板风扇、吊扇、壁式空调器、游泳池加热器、灌溉系统、安全系统、空间加热器、窗户AC单元、电动风管通风口等。

智能家庭环境100中的智能家庭设备可以附加地或可替选地包括一个或多个其他占用传感器(例如，触摸屏、IR传感器、周围环境光传感器和运动检测器)。在一些实施方式中，智能家庭环境100中的智能家庭设备包括射频识别(RFID)读取器(例如，在每个房间152或其一部分中)，其基于位于或嵌入在占用者中的RFID标签来确定占用。例如，RFID读取器可以被集成到智能危害检测器104中。

在一些实施方式中，除了包含感测能力之外，设备122、124、126、128、130、132、136、138和190(它们统称为“智能家庭设备”或“智能家庭设备120”)能够与网络连接的其他智能家庭设备、中央服务器或云计算系统和/或其他设备(例如，客户端设备104、投送设备108和语音激活的电子设备190)进行数据通信和信息共享。类似地，每个投送设备108和语音激活的电子设备190还能够与网络连接的其他投送设备108、语音激活的电子设备190、智能家庭设备、中央服务器或云计算系统164和/或其他设备(例如，客户端设备104)进行数据通信和信息共享。可以使用多种自定义或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)和/或各种自定义或标准有线协议(例如，以太网，HomePlug等)中的任何一种，或包括截至本文档提交之日尚未开发的通信协议的任何其他合适的通信协议，来执行数据通信。

在一些实施方式中，投送设备108、电子设备190和智能家庭设备用作无线或有线中继器。在一些实施方式中，投送设备108中的第一投送设备108经由无线路由器与投送设备108中的第二投送设备108和智能家庭设备120通信。投送设备108、电子设备190和智能家庭设备120还可以经由到诸如互联网110的网络的连接(例如，网络接口160)彼此通信。通过互联网110，投送设备108、电子设备190和智能家庭设备120可以与服务器系统164(在本文中也称为中央服务器系统和/或云计算系统)通信。可选地，服务器系统164可以与和投送设备108和显示给用户的媒体内容相关联的制造商、支持实体或服务提供商相关联。

通常，本文描述的任何连接的电子设备可以被配置有与环境中的用户交互的一系列能力。例如，电子设备可以被配置有一个或多个麦克风、一个或多个扬声器和语音交互能力，其中用户通过由麦克风接收到的语音输入和由扬声器回放以向用户呈现信息的可听输出与设备显示助理设备进行交互。类似地，电子设备可以配置有按钮、开关和/或其他触摸响应传感器(诸如触摸屏、触摸面板或电容式或电阻式触摸传感器)以接收用户输入，并具有触觉或其他触觉反馈能力以向用户提供触觉输出。电子设备还可以被配置有视觉输出能力，诸如显示面板和/或一个或多个指示器灯，以视觉地向用户输出信息，如在标题为“LEDDesign Language for Visual Affordance of Voice User Interfaces”的美国专利申请No.15/592,120中描述的，其通过引用并入本文。另外，电子设备可以配置有可以检测在电子设备附近的对象和人的移动的移动传感器，诸如，雷达收发器或PIR检测器，如在标题为“Systems,Methods,and Devices for Utilizing Radar-Based Touch Interfaces”的美国专利申请No.15/481,289中所描述的，其通过引用并入本文。

由这些传感器中的任何一个接收到的输入可以由电子设备和/或与电子设备通信耦合的服务器(例如，图1A的服务器系统164)处理。在一些实施方式中，电子设备和/或服务器处理和/或准备对用户输入的响应，该响应是由电子设备经由电子设备的输出能力中的一个或多个输出的。在一些实施方式中，电子设备经由电子设备的输出能力中的一个或多个输出信息，该信息不是直接响应于用户输入，而是由环境中的第二电子设备或由与电子设备通信耦合的服务器传输至电子设备。所传输的信息实际上可以是电子设备的输出能力可显示/可播放的任何类型。

服务器系统164提供数据处理，用于监视和促进检查来自由诸如摄相机132、智能门铃106和显示器助理设备190的智能设备120捕获的数据的事件(例如，运动、音频、安全性等)。在一些实施方式中，服务器系统164可包括：处理由语音激活的电子设备190收集的音频输入的语音/显示辅助服务器112、提供显示的媒体内容的一个或多个内容主机104以及基于分布式设备终端创建虚拟用户域的云投送服务服务器116。服务器系统164还包括用于在虚拟用户环境中保持分布式设备终端的记录的设备注册表。分布式设备终端的示例包括但不限于语音激活的电子设备190、投送设备108、媒体输出设备106和智能家庭设备122-138。在一些实施方式中，这些分布式设备终端被链接到虚拟用户域中的用户账户(例如，Google用户账户)。在一些实施方式中，这些功能性和内容主机中的每一个是服务器系统164内的不同服务器。在一些实施方式中，这些功能性的子集被集成在服务器系统164内。

在一些实施方式中，网络接口160包括常规网络设备(例如，路由器)。图1的智能家庭环境100还包括集线器设备180，该集线器设备180直接或通过网络接口160通信耦合到网络110。集线器设备180进一步通信耦合到上述智能、多感测、网络连接的设备(例如，投送设备108、电子设备190、智能家庭设备和客户端设备104)中的一个或多个。这些网络连接的设备中的每一个可选地使用至少在智能家庭环境100中可用的一个或多个无线电通信网络(例如，ZigBee、Z-Wave、Insteon、Bluetooth、Wi-Fi和其他无线电通信网络)与集线器设备180进行通信。在一些实施方式中，经由在智能电话、房屋控制器、膝上型计算机、平板计算机、游戏控制台或类似的电子设备上运行的应用，集线器设备180和与集线器设备耦合的设备可以得以控制和/或与其交互。在一些实施方式中，这样的控制器应用的用户可以查看集线器设备或耦合的网络连接设备的状态，配置集线器设备以与新引入到家庭网络的设备互操作，调试新设备以及调整或查看连接的设备的设置等。

图1B是图示根据一些实施方式的包括智能家庭网络102的代表性网络架构170的框图。

在一些实施方式中，智能家庭环境100的集成设备包括智能的、多感测的、网络连接的设备(例如，设备122、124、126、128、130、132、136和/或138)，这里统称为智能设备120，它们在智能家庭网络(例如，图1B中的102)中彼此无缝集成和/或与中央服务器或云计算系统(例如，服务器系统164)无缝集成，以提供各种有用的智能家庭功能。

在一些实施方式中，智能家庭环境100中的智能家庭设备120与集线器设备180结合以在智能家庭网络102中创建网状网络。在一些实施方式中，智能家庭网络102中的一个或多个智能设备120作为智能家庭控制器操作。另外和/或可替选地，集线器设备180作为智能家庭控制器操作。在一些实施方式中，智能家庭控制器比其他智能设备具有更多的计算能力。在一些实施方式中，智能家庭控制器处理输入(例如，来自智能设备120、电子设备190(图1A)和/或服务器系统164的)并发送命令(例如，到智能家庭网络102中的智能设备120)以控制智能家庭环境100的操作。在一些实施方式中，智能家庭网络102中(例如，在网状网络中)的智能设备120中的一些是“发言人”节点(例如，120-1)，而其他是“低功率”节点(例如，120-9)。智能家庭环境100中的智能设备中的一些由电池供电，而其他智能设备具有常规且可靠的电源，诸如通过连接至智能家庭环境的墙壁154后面的布线(例如，连接至120伏线电压电线)。具有常规和可靠电源的智能设备称为“发言人”节点。这些节点通常被配备有使用无线协议来促进与智能家庭环境100中的各种其他设备以及与服务器系统164的双向通信的能力。在一些实施方式中，一个或多个“发言人”节点作为智能家庭控制器操作。另一方面，由电池供电的设备是“低功率”节点。这些节点通常比发言人节点小，并且通常仅使用需要很少功率的无线协议进行通信，所述无线协议例如紫蜂、ZWave、6LoWPAN、线程、蓝牙等。

在一些实施方式中，一些低功率节点不能进行双向通信。这些低功率节点发送消息，但无法“收听”。因此，智能家庭环境100中的诸如发言人节点的其他设备不能将信息发送到这些低功率节点。在一些实施方式中，一些低功率节点仅能够进行有限的双向通信。例如，其他设备只能在特定时间段期间与低功率节点进行通信。

如所描述的，在一些实施方式中，智能设备用作低功率和发言人节点以在智能家庭环境100中创建网状网络。在一些实施方式中，智能家庭环境中的各个低功率节点有规律地发出有关其正在感测的内容的消息，并且智能家庭环境中的其他低功率节点——除了发出自己的消息之外——还转发消息，从而导致消息遍及智能家庭网络102从节点到节点(即，设备到设备)行进。在一些实施方式中，能够使用诸如IEEE 802.11的相对高功率的通信协议进行通信的智能家庭网络102中的发言人节点能够切换到诸如IEEE 802.15.4的相对低功率通信协议，以接收这些消息，将消息转变成其他通信协议，并将转变后的消息发送给其他发言人节点和/或服务器系统164(使用例如相对高功率的通信协议)。因此，使用低功率通信协议的低功率节点能够跨整个智能家庭网络102以及通过互联网110向服务器系统164发送和/或接收消息。在一些实施方式中，网状网络使服务器系统164能够定期从家庭中的大多数或所有智能设备接收数据，基于数据进行推理，促进跨智能家庭网络102内外的设备的状态同步，并且向智能设备中的一个或多个发送命令以在智能家庭环境中执行任务。

如所描述的，发言人节点和低功率节点中的一些能够“收听”。因此，用户、其他设备和/或服务器系统164可以将控制命令传送给低功率节点。例如，用户可以使用电子设备104(例如，智能电话)以通过互联网将命令发送到服务器系统164，该服务器系统164随后将命令中继到智能家庭网络102中的一个或多个发言人节点。发言人节点可以使用低功率协议来将命令传送到遍及智能家庭网络102中的低功率节点，也传送给未直接从服务器系统164接收命令的其他发言人节点。

在一些实施方式中，作为智能设备120的示例的智能夜灯170(图1)是低功率节点。除了容纳光源之外，智能夜灯170还容纳诸如超声或被动IR传感器的占用传感器和诸如测量室内光的光敏电阻器或单像素传感器的环境光传感器。在一些实施方式中，智能夜灯170被配置成在其环境光传感器检测到房间黑暗时以及当其占用传感器检测到有人在房间中时激活光源。在其他实施方式中，智能夜灯170仅被配置成在其环境光传感器检测到房间黑暗时激活光源。此外，在一些实施方式中，智能夜灯170包括低功率无线通信芯片(例如，紫蜂芯片)，该低功率无线通信芯片定期发出关于房间的占用和房间中的光量的消息，包括与占用传感器检测房间中人的存在一致的即时信息。如上面所提及的，这些消息可以在智能家庭网络102内从节点到节点(即，从智能设备到智能设备)无线地(例如，使用网状网络)发送，以及通过互联网110发送到服务器系统164。

低功率节点的其他示例包括智能危害检测器124、相机132、门铃126等的电池供电版本。这些由电池供电的智能设备通常位于无法接入恒定且可靠的电源的区域，并且可选地包括任意数量和类型的传感器，诸如图像传感器、占用/运动传感器、环境光传感器、环境温度传感器、湿度传感器、烟雾/火灾/热传感器(例如，热辐射传感器)、一氧化碳/二氧化碳传感器等。此外，电池供电的智能设备可以诸如通过使用如上所述的网状网络将与相应传感器中的每个传感器相对应的消息发送到其他设备和/或服务器系统164。

发言人节点的示例包括线路供电的智能门铃126、智能恒温器122、智能墙壁开关136和智能墙壁插头142。这些设备位于可靠电源附近并与其连接，并且因此可以包括更多的功耗组件，诸如一个或多个能够以多种协议进行双向通信的通信芯片。

在一些实施方式中，智能家庭环境100包括服务机器人168(图1)，该服务机器人168被配置成以自主方式执行各种家庭任务中的任何一项。

如以上参考图1所解释的，在一些实施方式中，图1的智能家庭环境100包括集线器设备180，其直接地或经由网络接口160通信地耦合到网络110。集线器设备180进一步使用至少在智能家庭环境100中可用的无线电通信网络通信地耦合到智能设备中的一个或多个。无线电通信网络使用的通信协议包括但不限于紫蜂、Z波、Insteon、EuOcean、线程、OSIAN、蓝牙低能量等。在一些实施方式中，集线器设备180不仅转换从每个智能设备接收到的数据以满足网络接口160或网络110的数据格式要求，而且转换从网络接口160或网络100接收到的信息以满足与目标智能设备相关联的相应通信协议的数据格式要求。在一些实施方式中，除了数据格式转换之外，集线器设备180还初步处理从智能设备接收到的数据或从网络接口160或网络110接收到的信息。例如，集线器设备180可以集成来自多个传感器/连接的设备(包括相同和/或不同类型的传感器/设备)的输入，对这些输入执行更高级别的处理——例如，以评估整体环境并协调不同的传感器/设备当中的操作——并且/或者基于输入的收集和编程处理对不同的设备提供指令。还应注意，在一些实施方式中，网络接口160和集线器设备180被集成到一个网络设备。本文描述的功能性表示智能设备、在代表性电子设备(诸如智能电话)上运行的控制应用、集线器设备180以及通过互联网或其他广域网耦合到集线器设备的服务器的特定实施方式。此功能性和相关联的操作的全部或一部分可以由所描述的系统的任何元素执行——例如，在本文中被描述为由集线器设备的实施方式执行的全部或部分功能性可以在服务器、一个或多个连接的智能设备和/或控制应用上或其不同组合上全部或部分以不同的系统实施方式执行。

图2A是根据一些实施方式的示例操作环境200，其中语音激活的电子设备190(例如，显示助理设备)与智能家庭环境100中的投送设备108、客户端设备104或服务器系统140交互。语音激活的电子设备190被配置成从接近语音激活的电子设备190的环境接收音频输入。可选地，电子设备190本地存储音频输入并且至少部分处理音频输入。可选地，电子设备190经由通信网络110将接收到的音频输入或部分处理的音频输入传输到服务器系统164以进行进一步处理。在一些实施方式中，投送设备108被配置成从一个或多个内容主机114获得媒体内容或互联网内容，以显示在耦合到投送设备108的输出设备106上。如上所述，投送设备108和语音激活的电子设备190在用户域中相互链接，并且更具体地说，经由用户域中的用户账户相互关联。投送设备108的信息和电子设备190的信息与用户账户相关联地存储在设备注册表118中。

在一些实施方式中，投送设备108不包括任何显示屏，并且语音激活的电子设备190包括具有显示屏的显示助理设备。投送设备108和显示助理设备190在调试过程期间都必须依靠客户端设备104以提供用户界面。具体地，客户端设备104安装有使用户界面能够促进调试新的投送设备108或设置在客户端设备104附近的新的显示助理设备190的应用。用户可以在客户端设备104的用户界面上发送请求，以发起针对需要调试的新的投送设备108或显示助理设备190的调试过程。在接收到调试请求之后，客户端设备104与需要调试的新的投送设备108或显示助理设备190建立短程通信链路。可选地，基于近场通信(NFC)、蓝牙、蓝牙低功耗(BLE)等来建立短程通信链路。然后，客户端设备104将与无线局域网(WLAN)相关联的无线配置数据传达到新的投送设备108或显示助理设备190。无线配置数据至少包括WLAN安全代码(即，服务集标识符(SSID)密码)，并可选地包括SSID、互联网协议(IP)地址、代理配置和网关配置。在经由短程通信链路接收到无线配置数据之后，新的投送设备108或显示助理设备190解码并恢复无线配置数据，并基于无线配置数据加入WLAN。

附加用户域信息被输入在客户端设备104上显示的用户界面上，并且被用来将新的投送设备108或显示助理设备190链接到用户域中的账户。可选地，附加用户域信息与无线通信数据一起经由短程通信链路被传达到新的投送设备108或显示助理设备190。可选地，在新设备加入WLAN之后，附加用户域信息通过WLAN被传达到新的投送设备108或显示助理设备190。

一旦投送设备108和显示助理设备190已经被调试进入用户域中，就可以通过两个控制路径(控制路径A和控制路径B)控制投送设备108、输出设备106及其相关联的媒体播放活动。根据控制路径A，安装在客户端设备104上的投送设备应用或一个或多个媒体播放应用用于控制投送设备108及其相关联的媒体播放活动。替代地，根据控制路径B，显示助理设备190用于使得能够实现对投送设备108及其相关联的媒体播放活动(例如，在输出设备106上的媒体内容播放的回放)的免视和免提控制。

在一些实施方式中，投送设备108和显示助理设备190是两个区别且不同的设备，其被配置成分别充当投送接收器设备和投送发射器设备。显示助理设备190可以提供信息或内容(其在本地生成或从另一个源接收)，以通过投送设备108投射到输出设备106上。可替选地，在一些实施方式中，投送设备108和显示助理设备190被结合在耦合到输出设备106的集成投送设备中。

在一些实施方式中，智能家庭环境100包括一个或多个智能家庭设备120(例如，图1中的恒温器122、危害检测器124、门铃126、门锁128、警报系统130、相机系统132、墙壁开关136和智能电器138)。无论智能家庭设备120是否具有显示屏，它都可以在调试过程期间依靠客户端设备104以提供用户界面。具体地，客户端设备104安装有智能设备应用，该智能设备应用使用户界面能够促进新智能家庭设备120的调试。像新的投送设备108或显示助理设备190一样，新的智能家庭设备120可以建立与客户端设备104的短程通信链路，并且将无线配置数据通过短程通信链路传送到新的智能家庭设备120，允许智能家庭设备120基于无线配置数据加入WLAN。此外，智能家庭设备120可选地链接到投送设备108和显示助理设备190也链接到的用户域的账户。一旦已将智能家庭设备120和显示助理设备190调试到用户域中，如根据控制路径B经由显示助理设备190控制投送设备108那样，可以根据控制路径C经由显示助理设备190监视和控制智能家庭设备120。例如，可以将语音命令输入到显示助理设备190中，以查阅安装在门旁的室外相机132的记录，并基于在录音中检测到的安全事件控制门锁128。

参考图2A，在投送设备108和语音激活的电子设备190都被调试并链接到公共用户域之后，语音激活的电子设备190可以用作语音用户接口以使得能够实现对流传输到投送设备108的媒体内容的免视和免提控制，而不涉及远程控制、客户端设备104或其他第二屏幕设备。例如，用户可以给出语音命令，诸如“Play Lady Gaga on Living Room speakers(在客厅扬声器上播放Lady Gaga)”。Lady Gaga音乐曲目或视频剪辑将被流传输到与“Living Room speakers(客厅扬声器)”关联的投送设备108。在另一个示例中，用户给出语音命令，诸如“Show photos of Morgan and I on the Kitchen display(在厨房显示器上显示Morgan和I的照片)”。因此，照片或视频剪辑被流传输到与“Kitchen display(厨房显示器)”相关联的投送设备108和/或电子设备190。不涉及客户端设备104，也不涉及在客户端设备104上加载的任何投送设备应用或媒体播放应用。

在一些实施方式中，服务器系统164包括云投送和显示辅助功能性。这些功能性可以在服务器系统164内的单个服务器中实现，诸如云投送服务服务器116和/或语音/显示辅助服务器112，或者可以与服务器系统164集成在一起。云投送服务116是代理服务，该代理服务将语音激活的电子设备190通信地连接到投送设备108，并使投送到投送设备108成为可能，而无需涉及客户端设备104上的任何应用。例如，语音消息由电子设备190记录，并且语音消息被配置成请求在媒体输出设备106上的媒体播放。可选地，电子设备190在本地部分地处理语音消息。可选地，电子设备190经由通信网络110将语音消息或部分处理的语音消息传输到服务器系统164(语音/显示辅助服务器112)以进行进一步处理。服务器系统164(云投送服务服务器116)确定语音消息包括第一媒体播放请求，并且第一媒体播放请求包括用于在媒体输出设备106上播放媒体内容的用户语音命令以及对该媒体输出设备106的用户语音指定。用户语音命令还至少包括第一媒体播放应用(例如，YouTube和Netflix)和需要播放的媒体内容(例如，包括Morgana作为主题的Lady Gaga音乐、照片和/或视频)的信息。此外，在一些实施方式中，用户语音命令还包括供电子设备190实施的指令，诸如对特定媒体内容的修改或与另一用户共享媒体内容。

根据对媒体输出设备的语音指定，云投送服务服务器116在设备注册表118(未示出)中识别在用户域中与电子设备190相关联并耦合到媒体输出设备106的投送设备。投送设备108被配置成执行一个或多个媒体播放应用，以控制媒体输出设备106播放从一个或多个媒体内容主机114接收的媒体内容。然后，云投送服务服务器116向投送设备108发送包括第一媒体播放应用的信息和需要播放的媒体内容的第二媒体播放请求。在接收到由云投送服务服务器116发送的信息时，投送设备108执行第一媒体播放应用，并控制媒体输出设备106播放所请求的媒体内容。

在一些实施方式中，对媒体输出设备106的用户语音指定包括对目的地媒体输出设备的描述。云投送服务服务器116根据对目的地媒体输出设备的描述在注册表中识别多个媒体输出设备中的目的地媒体输出设备。在一些实施方式中，对目的地媒体输出设备的描述至少包括品牌(“Samsung TV(三星电视)”)或媒体输出设备106的位置(“my LivingRoom TV(我的客厅电视)”)。

如图2A进一步所图示的，服务器系统164包括一个或多个处理器212、视频存储数据库210、设备和账户数据库214、到到一个或多个客户端设备的I/O接口216以及到一个或多个视频源的I/O接口218，将在图2C中更详细地描述。

图2B是根据本公开的一些实施方式的另一示例操作环境250，其中语音激活的电子设备190与智能家庭环境100的投送设备106、客户端设备104、其他电子设备190和/或服务器系统164交互。智能家庭环境100包括第一投送设备108-1和耦合到第一投送设备108-1的第一输出设备106-1或第一电子设备192-1。智能家庭环境100还包括第二投送设备108-2和耦合到第二投送设备108-2的第二输出设备106-2或第二电子设备190-2。投送设备108-1和108-2或电子设备190和192可选地位于智能家庭环境100中的相同位置(例如，客厅)或两个不同位置(例如，两个房间)中。投送设备108-1和108-2或电子设备190和192中的每个被配置成从媒体主机114获得媒体或互联网内容，以显示在耦合到相应投送设备108-1或108-2和/或电子设备190的输出设备106上。第一投放设备和第二投放设备两者，或电子设备190，都通信地耦合到云投送服务服务器116和内容主机114。

智能家庭环境100进一步包括一个或多个语音激活的电子设备190，它们通信地耦合到服务器系统164。在一些实施方式中，服务器系统164包括用于管理云投送(例如，云投送服务服务器116)或语音/显示辅助(例如，语音/显示辅助服务器112)的单独服务器。一个或多个语音激活的电子设备190和192包括至少一个显示助理设备(例如，显示助理设备190-1)。在一些实施方式中，语音激活的电子设备190独立于投送设备108和输出设备106而被设置。例如，如图1中所示，电子设备190-1被设置在没有投送设备108或输出设备106所位于的房间中。在一些实施方式中，第一电子设备192-1被设置为接近第一投送设备108-1和第一输出设备106-1，例如，第一电子设备192-1、第一投送设备108-1和第一输出设备106-1位于同一房间。可选地，第二电子设备190-2独立于第二投送设备108-2和第二输出设备106-2或接近于第二投送设备108-2和第二输出设备106-2而被设置。

在一些实施例中，当在第一输出设备106-1或电子设备190上播放媒体内容时，用户向任何电子设备190(例如，图2B中的190-1或190-2)发送语音命令，以请求媒体内容的被转移到第二输出设备106-2或第二电子设备190-2。语音命令包括媒体播放转移请求(例如，用于转移媒体内容的用户指令)。语音命令被传输到云投送服务服务器116。云投送服务服务器116向第一投送设备108-1发送媒体显示信息请求，以请求当前正在耦合到第一投送设备108-1的第一输出设备106-1上播放的媒体内容的即时媒体播放信息。然后，第一投送设备108-1将所请求的即时播放信息返回到服务器系统164(云投送服务服务器116)，该即时播放信息至少包括当前正在播放的媒体内容的信息(例如，“Lady Gaga–Half time show–Super Bowl 2017(Lady Gaga–中场秀–超级碗2017)”)，以及与播放媒体内容有关的时间位置。然后，第二投送设备108-2或第二电子设备190-2从云投送服务服务器116接收包括即时播放信息的媒体显示请求，并且根据即时播放信息，执行控制第二输出设备106-2或第二电子设备190-2从时间位置开始播放媒体内容的第一媒体播放应用。

图2C是根据一些实施方式的另一示例操作环境260，其中语音激活的电子设备190(例如，显示助理设备)与智能家庭环境100的智能家庭设备120(例如，智能恒温器122、危害感测检测器124、智能门铃126、以及网络连接的相机系统132)、集线器设备180和服务器系统164交互。

在一些实施方式中，显示助理设备190包括一个或多个内置相机(例如，图3A的相机362)，并且被配置成执行远程监视功能(例如，家庭监视)，其中相机捕获到的视频被流传输到远程服务器系统164，以监视授权用户的使用。服务器系统164提供数据处理，以监视并促进查阅来自由电子设备190和诸如智能门铃126的智能家庭环境100中的智能设备120以及网络连接的相机系统132捕获的数据(例如，视频数据)的事件(例如，运动、音频、安全等)。在一些实施方式中，配置成捕获视频数据的智能家庭设备120和电子设备190也称为视频源。通常，通常只有创建与设备相关联的账户的显示助理设备190的所有者(例如，房主)具有在监视模式下的实时流传输的视频的访问权。在一些实施方式中，所有者还可以给予“家庭”成员账户(例如，住宅中的其他成员)访问权，然后所述成员可以在监视模式下访问流传输的视频。“家庭”账户通常是在远程服务(例如，服务器系统164)处存储的两个或更多个账户之间的准许集。这些准许使得能够访问信息，诸如在这种情况下监视视频流，和/或控制各种事情(例如，控制智能家庭环境中的智能恒温器)。家庭账户通常是永久性的，并且可以通过设备和/或通过设备功能进行设置。在一些实施方式中，在监视模式下对视频内容的访问权仅对授权账户(例如，主账户和/或家庭账户)可用。

如图2C中所图示，服务器系统164从各种智能家庭设备120和位于各种物理位置(例如，家庭、餐馆、商店、街道、停车场和/或图1A的智能家庭环境100的内部或其附近)的电子设备190接收数据。在一些实施方式中，智能家庭设备120和电子设备190被链接到一个以上的查阅者账户(例如，多个用户账户可以被订用到单个智能家庭环境)。

在一些实施方式中，服务器系统164将视频源的视频监视数据提供给与查阅者账户相关联的客户端设备220。例如，便携式电子设备104是客户端设备220的示例。在一些实施方式中，服务器系统164包括视频处理服务器，该视频处理服务器向视频源和客户端设备220提供视频处理服务。在一些实施方式中，系统164从一个或多个智能设备120接收非视频数据(例如，音频数据、元数据、数字数据等)。在一些实施方式中，非视频数据被分析以提供由相机132和/或门铃相机126检测到的运动事件的场境。在一些实施方式中，非视频数据指示音频事件(例如，由音频设备检测到的)、安全事件(例如，由外围监视设备检测到的)、危害事件(例如，由危害检测器124检测到的)、医疗事件(例如，由健康监视设备检测到的)等已在智能家庭环境100内发生。

在一些实施方式中，多个查阅者账户被链接到单个智能家庭环境100。例如，智能家庭环境100的多个居住者可以具有被链接到智能家庭环境的账户。在一些实施方式中，在设备调试过程期间，房主还为家庭的其他成员创建查阅者账户(例如，“家庭”成员账户)，从而授权他们访问家庭监视数据。在一些实施方式中，每个查阅者账户与特定的访问级别相关联。在一些实施方式中，每个查阅者账户具有个性化的通知设置。在一些实施方式中，单个查阅者账户被链接到多个智能家庭环境100。例如，一个人员可以拥有或占用或被指派以查阅和/或管控多个智能家庭环境100。在一些实施方式中，查阅者账户具有针对每个智能家庭环境的不同访问级别和/或通知设置。

在一些实施方式中，每个视频源包括一个或多个语音激活的显示助理设备190、视频相机132或门铃相机126，它们捕获视频并将捕获的视频基本实时地发送到服务器系统164。在一些实施方式中，每个视频源包括一个或多个电子设备190，其捕获视频并将所捕获的视频实时地(例如，在1秒、10秒、30秒或1分钟内)发送到服务器系统164。在一些实施方式中，每个视频源包括一个或多个门铃相机126，其捕获视频并将捕获的视频实时地(例如，在1秒、10秒、30秒或1分钟内)发送到服务器系统164。在一些实施方式中，每个门铃126包括视频相机，该视频相机捕获视频并将捕获的视频实时发送到服务器系统164。

在一些实施方式中，视频源包括控制器设备(未示出)，该控制器设备用作一个或多个门铃126与服务器系统164之间的中介。控制器设备从一个或多个门铃106接收视频数据，可选地对视频数据执行一些初步处理，并且代表一个或多个门铃126将视频数据和/或初步处理的结果(例如，实时)发送到服务器系统164。在一些实施方式中，每个相机具有其自己的机载处理能力，以在将视频数据(例如，连同通过初步处理获得的元数据)发送到控制器设备和/或服务器系统164之前对捕获的视频数据执行一些初步处理。在一些实施方式中，相机中的一个或多个被配置成可选地本地存储视频数据(例如，用于如果用户请求，则稍后传输)。在一些实施方式中，相机被配置成对捕获的视频数据执行一些处理，并且基于该处理，或者基本实时地发送视频数据，在本地存储视频数据或者忽视视频数据。

根据一些实施方式，客户端设备220包括客户端侧模块或智能家庭应用，诸如图6中的客户端侧模块628。在一些实施方式中，客户端侧模块通过一个或多个网络110与在服务器系统164上执行的服务器侧模块通信。客户端侧模块为事件监视和查阅处理以及与服务器侧模块的通信提供客户端侧功能性。服务器侧模块提供服务器侧功能性，用于对驻留在相应客户端设备220上的任何数量的客户端侧模块进行事件监视和查阅处理。在一些实施方式中，服务器侧模块还提供服务器侧功能性，用于对任何数量的视频源进行视频处理和相机控制，所述任何数量的视频源包括任何数量的控制设备、电子设备190、相机132和门铃126。

在一些实施方式中，服务器系统164包括一个或多个处理器212、视频存储数据库210、账户数据库214、到一个或多个客户端设备的I/O接口216以及到一个或多个视频源的I/O接口218。到一个或多个客户端的I/O接口216促进面向客户端的输入和输出处理。账户数据库214存储用于向视频处理服务器注册的查阅者账户的多个简档，其中相应的用户简档包括针对相应的查阅者账户的账户凭证，并且一个或多个视频源链接到相应的查阅者账户。到一个或多个视频源的I/O接口218促进与一个或多个视频源的通信。视频存储数据库210存储从视频源接收的原始视频数据，以及各种类型的元数据，诸如运动事件、事件类别、事件类别模型、事件过滤器和事件掩码，以用于事件监视的数据处理和每个查阅者账户的查阅中。在一些实施方式中，一些视频源(例如，显示助理设备190)被配置成执行基于事件的记录，从而通常收集视频和音频数据并将其流传输到服务器系统164，以在授权的客户端设备上显示，而无需记录(例如，视频和音频数据未由服务器存储)。在这种模式下，视频源被配置成当由视频源感测到人员和/或事件时开始记录(例如，视频和音频数据存储在服务器系统164上，例如，存储在视频存储数据库210上或本地存储在设备上)。

代表性客户端设备220的示例包括手持计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、膝上型计算机、台式计算机、蜂窝电话、智能电话、增强型通用分组无线电服务(EGPRS)移动电话、媒体播放器、导航设备、游戏机、电视、遥控器、销售点(POS)终端、车载计算机、电子书阅读器、或这些数据处理设备或其他数据处理设备中的任何两个或多个的组合。

一个或多个网络110的示例包括局域网(LAN)和诸如互联网的广域网(WAN)。一个或多个网络110使用任何已知的网络协议来实现，包括各种有线或无线协议，诸如以太网、通用串行总线(USB)、防火墙、长期演进(LTE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX或任何其他合适的通信协议。

在一些实施方式中，服务器系统164在一个或多个独立数据处理装置或计算机的分布式网络上实现。在一些实施方式中，服务器系统164还采用第三方服务提供商(例如，第三方云服务提供商)的各种虚拟设备和/或服务来提供服务器系统164的底层计算资源和/或基础设施资源。在一些实施方式中，服务器系统164包括但不限于服务器计算机、云服务器、分布式云计算系统、手持式计算机、平板计算机、膝上型计算机、台式计算机或这些数据处理设备或其他数据处理设备中的任意两个或多个的组合。

在一些实施方式中，服务器-客户端环境包括客户端侧部分(例如，客户端侧模块)和服务器侧部分(例如，服务器侧模块)两者。在不同的实施方式中，操作环境的客户端和服务器部分之间的功能性划分可能有所不同。类似地，视频源和服务器系统164之间的功能性划分可以在不同的实施方式中变化。例如，在一些实施方式中，客户端侧模块是瘦客户端，其仅提供面向用户的输入和输出处理功能，并将所有其他数据处理功能委托给后端服务器(例如，服务器系统164)。类似地，在一些实施方式中，视频源中的相应一个是简单的视频捕获设备，其连续捕获视频数据并将其流传输到服务器系统164并且对视频数据进行限制的或不进行本地初步处理。尽管从服务器系统164的角度描述了本技术的许多方面，但是由客户端设备220和/或视频源222执行的对应动作对于本领域的技术人员将是显而易见的。类似地，可以从客户端设备或视频源的角度描述本技术的一些方面，并且由视频服务器执行的对应动作对于本领域的技术人员将是显而易见的。此外，一些方面可以由服务器系统164、客户端设备220和视频源222协作地执行。

在一些实施方式中，视频源经由通信网络110向服务器系统164传输视频数据的一个或多个流224。在一些实施方式中，一个或多个流包括由图像传感器捕获到的原始视频的具有相应分辨率和/或帧速率的多个流。在一些实施方式中，多个流包括具有一定分辨率和帧速率(例如，对应于由图像传感器捕获的原始视频)的“主”流，以及一个或多个附加流。附加流可选地是与“主”流相同但是以不同的分辨率和/或帧速率的相同视频流，或者以与“主”流相同或者不同的分辨率和/或帧率捕获的“主”流的一部分的流(例如，裁剪以包括视场的一部分或者主流的像素)。在一些实施方式中，主流和/或附加流被动态编码(例如，基于网络条件、服务器操作条件、相机操作条件、流中的数据表征(例如，是否存在运动)、用户偏好、等等)。

在一些实施方式中，视频源将视频数据的一个或多个流224直接传输到客户端设备220(例如，无需被路由到服务器系统164或由其处理)。在一些实施方式中，视频源经由集线器设备180将视频数据的一个或多个流226传输到服务器系统164。在一些实施方式中，一个或多个流被存储在电子设备190处(例如，在图3A的存储器306中)和/或本地存储设备(例如，专用记录设备，未示出)，诸如数字视频录像机(DVR)。例如，根据一些实施方式，语音激活的电子设备190存储由相机记录的最近24小时的视频片段。作为另一示例，根据一些实施方式，语音激活的电子设备190存储由相机记录的多达24小时的视频片段(例如，多达24小时的运动事件数据)。在一些实施方式中，一个或多个流的部分被存储在语音激活的电子设备190和/或本地存储设备处(例如，与感兴趣的特定事件或时间相对应的部分)。

在一些实施方式中，服务器系统164将视频数据的一个或多个流传输到客户端设备220以促进用户的事件监视。在一些实施方式中，一个或多个流可以包括相同视频馈送的具有相应分辨率和/或帧速率的多个流。在一些实施方式中，多个流包括与视频馈送相对应的具有一定分辨率和帧速率的“主”流，以及一个或多个附加流。附加流可以是与“主”流相同但是以不同的分辨率和/或帧速率的相同视频流，或者是示出以与“主”流相同或者不同的分辨率和/或帧速率的“主”流的一部分的流(例如，裁剪以包括视场或者主流的像素的部分)。

图2D是根据一些实施方式的另一个示例操作环境270，其中语音激活的电子设备190(例如，显示助理设备)与集线器设备180、智能家庭环境100的服务器系统164和第二设备230交互。

在一些实施方式中，语音激活的电子设备190(显示助理设备)包括一个或多个内置相机，并且被配置成执行视频(和音频)通信功能，其中视频和音频被设备190的内置相机和麦克风(例如，使用图3的相机362和麦克风342)捕获，并经由远程服务器系统164传输到参与视频通信的一个或多个第二设备230。通常，视频通信功能可以由接近(并登录到)显示助理设备的用户启用。与图2C中描述的监视用途不同，正在参与和设备190的用户的视频通信的第二设备230的用户不必是“家庭”账户成员。换句话说，一个或多个第二设备230和/或与第二设备230相关联的账户可以与和显示助理设备相关联的授权用户账户无关。在视频通信的情况下，另一方(例如，第二设备230)对视频流的访问仅是在呼叫持续时间内持续的临时准许。

代表性第二设备230的示例包括手持计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、膝上型计算机、台式计算机、蜂窝电话、智能电话、增强型通用分组无线电服务(EGPRS)移动电话、电子书阅读器、另一个显示助理设备(例如，图2D中的230-n)或这些数据处理设备或其他数据处理设备中的任意两个或多个的组合。

在一些实施方式中，流中的一个或多个被存储在电子设备190(例如，在图3A的存储器306中)和/或本地存储设备(例如，未示出的专用记录设备)中，诸如数字视频录像机(DVR)。在一些实施方式中，流中的一个或多个被存储在服务器系统处(例如，在图3A的存储器306中)和/或数据库(例如，视频存储数据库210)中。

图2E是根据一些实施方式的另一示例操作环境280，其中语音激活的电子设备190(例如，显示助理设备)与集线器设备180、智能家庭环境100的服务器系统164和智能家庭环境100中的人员248交互。

在一些实施方式中，语音激活的电子设备190(显示助理设备)被配置成由授权用户使用。在一些实施方式中，在不活动的时段之后，电子设备190进入锁定状态，并且在用户可以进一步与设备190交互之前提示用户输入密码以解锁设备190。在一些实施方式中，电子设备190被配置成(例如，使用图3A中的存在传感器365)检测站立在接近电子设备190(例如，在其前面)的一个或多个人员248。在一些实施方式中，电子设备190具有使设备能够区分房间中的人和其他对象的技术。电子设备190执行脸部匹配功能(例如，脸部辨识或脸部解锁功能)，从而捕获人员的一个或多个图像(例如，使用图3A的相机362)，并将其与服务器系统164中的授权人员的数据库242进行比较。根据捕获到的图像与授权人员数据库242中的图像之间的匹配，电子设备164解锁自身以使能够与授权用户进行进一步的交互。在一些实施方式中，将授权用户的图像本地存储在电子设备190上(例如，图3A的授权用户数据340)，并且在设备上本地执行捕获到的图像与授权用户的图像之间的比较。

在一些实施方式中，在电子设备190已经被解锁之后，电子设备190还基于用户识别来通过选择或调节内容来与用户交互。例如，如通过引用整体并入本文的在2018年10月8日提交的标题为“Systems and Methods for Displaying Media Files”的PCT申请No.PCT/US18/54861中所讨论的，电子设备190基于用户识别自动地组织诸如媒体文件的内容，并显示对所组织的内容的选择以供进一步的用户交互。在一些实施方式中，可以使用电子设备190的相机362来执行该用户识别。类似地，可以基于面部匹配操作的结果来启用或禁用电子设备190的设备功能性。

图3A是图示根据一些实施方式的示例显示助理设备190的框图，该示例显示助理设备190被作为语音接口应用以收集智能家庭环境100中的用户语音命令。显示助理设备190通常包括一个或多个处理单元(CPU)302、一个或多个网络接口304、存储器306以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线308。显示助理设备190包括被配置成捕获图像和视频的一个或多个相机。显示助理设备190包括一个或多个输出设备312，包括一个或多个扬声器350、显示器352和一个或多个指示器灯(例如，LED)353，其被配置成显示包括显示助理设备190的操作模式的相机362的状态的视觉指示。在一些实施方式中，显示助理设备190还包括过滤器361。在一些实施方式中，过滤器361软件功能可见性，其选择性地(例如，在显示助理设备190的特定模式下)进行调整相机362的视场(例如，角度)的。在一些实施方式中，显示助理设备190还包括检测事件或变化的传感器363。

如图3A进一步图示的，显示助理设备190还包括促进用户输入的一个或多个输入设备310，包括一个或多个麦克风342、音量控件344和隐私控件346。音量控件344是配置成接收控制扬声器350的音量级别或重置显示助理设备300的用户动作(例如，按下增大音量按钮或减小音量按钮，在延长的时间长度内同时按下增大音量和减小音量按钮)。隐私控件346被配置成接收控制显示助理设备的隐私设置的用户动作(例如，是否去激活麦克风342和/或相机362)。在一些实施方式中，隐私控件346是位于显示助理设备190上的物理按钮。在一些实施方式中，显示助理设备190的输入设备310包括集成在显示面板352上并且被配置成检测其表面上的触摸输入的触摸检测模块(图3A中未示出)。在一些实施方式中，显示助理设备300的输入设备310包括相机模块，该相机模块被配置成捕获视场的图像和/或视频流。另外，和/或可替选地，在一些实施方式中，显示助理设备190包括模式控制模块370，其被配置成控制相机功能。可替选地，显示助理设备190的输入设备310不包括任何相机或触摸检测模块，并且与相机相关的功能被包括在的模式控制模块370中，因为它们相对昂贵并且能够损害提供显示助理设备190作为低成本用户界面解决方案的目标。

在一些实施方式中，显示助理设备190还包括存在传感器365，其被配置成检测用户在显示助理设备190周围的预确定区域中的存在。在一些情况下，显示助理设备190在睡眠或休眠模式时进行操作，该睡眠或休眠模式去激活音频输入的检测和处理，并且不会从睡眠或休眠模式中唤醒或收听环境(即，处理从环境中收集的音频信号)，直到存在传感器365检测到用户在预确定区域的存在为止。存在传感器365的示例是被配置成检测用户的存在的超声传感器。

存储器306包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器306可选地包括一个或多个存储设备，其远离一个或多个处理单元302(或CPU)。存储器306或可替选地存储器306内的非易失性存储器包括非易失性计算机可读存储介质。在某些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统314，包括处置各种基本系统服务和执行硬件相关任务的例程；

·网络通信模块316，用于经由一个或多个网络接口304(有线或无线)和诸如互联网、其它广域网、局域网、城域网网络等的一个或多个网络110将显示助理设备190连接到其他设备(例如，服务器系统164、投送设备108、客户端设备104、客户端设备220、第二设备230、智能家庭设备120、集线器设备180、以及其它语音激活的电子设备190)；

·输入/输出控制模块318，用于经由一个或多个输入设备310接收输入，使能够经由一个或多个输出设备312在显示助理设备190处呈现信息，包括：

ο用户体验(UX)发起模块319，用于根据相应基于置信度的发起条件控制与多个用户应用相关联的非接触UX操作，包括使用传感器信号确定存在的手势和/或接近度，监视该确定的置信度级别，并根据已经满足对应的发起条件的确定来发起非接触UX操作之一；

ο语音处理模块322，用于处理在显示助理设备190周围环境中收集的音频输入或语音消息，或准备收集的音频输入或语音消息以在服务器系统164(语音/显示助理服务器112或云投送服务服务器118)上进行处理；

ο显示助理模块324，用于显示附加的视觉信息，包括但不限于媒体内容项(例如，YouTube视频剪辑)、新闻帖子、社交媒体消息、天气信息、个人图片、音频输入处理的状态以及智能家庭设备的读数；和

ο触摸感测模块326，用于感测显示助理设备190的顶表面上的触摸事件；和

·一个或多个用户应用328，用于响应于从显示助理设备190周围环境中收集的音频输入或语音消息中提取的用户命令，包括但不限于媒体播放应用、互联网搜索应用、社交网络应用和智能设备应用；

·显示助理设备数据330，至少存储与显示助理设备190相关联的数据，包括：

ο显示助理设置332，用于存储包括常用设备设置(例如，层、设备型号、存储容量、处理能力、通信能力等)的与显示助理设备190本身相关的信息、显示助理设备190链接到的虚拟用户域中的用户账户334的信息以及与多个应用的多个非接触UX操作相对应的多个UX发起条件336；

ο语音控制数据338，用于存储音频信号、语音消息、响应消息以及与显示助理设备190的语音接口功能有关的其他数据；

ο授权用户数据340，用于存储被授权使用显示助理设备的用户的信息，包括授权用户的图像、语音信息、指纹信息；和

ο本地数据存储348，用于选择性地存储与显示助理设备190相关联的原始或处理后的数据，诸如由相机362捕获的事件数据和/或视频数据；

·模式控制模块370，用于启用显示助理设备190的各种操作模式以及用于这些模式之间的交互(例如，模式切换)，包括：

ο监视模块372，用于将相机362捕获的视频传输到服务器系统164，用于监视用途。监视用途包括将视频传输到一个或多个被授权访问视频的远程客户端(例如，客户端设备104和客户端设备220)；

ο助理模块374，用于处理和响应于指向显示助理设备190的语音命令和触摸屏命令，包括显示媒体文件；

ο视频聊天376，用于启用显示助理设备190的用户和第二设备230(图2D)的用户之间的视频电话(例如，视频会议呼叫)；和

ο面部辨识378，用于使显示助理设备190能够访问授权用户，其中由相机362捕获的人员(例如，图2E中的人员248)的一个或多个图像(i)被传输到服务器系统164以用于与授权人员数据库242进行比较和/或(ii)在本地与授权用户数据340进行比较。

UX发起模块319包括数字信号处理(DSP)模块320和机器学习(ML)模块321。DSP模块320被配置成使用数字信号处理算法分析传感器信号以检测存在或相关联手势的接近度。ML模块320被配置成使用机器学习算法(例如，通过生成特征向量并应用一个或多个分类器)来分析传感器信号以检测存在或相关联手势的接近度。

在一些实施方式中，多个UX发起条件336被存储在存储器306中的查找表中。查找表使UX发起条件336中的每个与多个应用的多个非接触UX操作中的相应一个相关联。每个应用与多个非接触UX操作中的一个或多个相关联，所述非接触UX操作中的每个还与UX发起条件336中的一个相关联。例如，根据在两个不同的接近度范围内用户到显示助理设备190的接近度，媒体播放应用与显示两个不同的媒体播放用户界面的两个非接触UX操作相关联。

上述每个标识的元素可以存储在一个或多个前述存储设备中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、例程、模块或数据结构，并且因此，这些模块的各个子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器306可选地存储以上标识的模块和数据结构的子集。此外，存储器306可选地存储以上未描述的附加模块和数据结构。

图3B是根据一些实施方式的图3A中所示的显示助理设备190的传感器360的列表。显示助理设备190包括相机362、超声传感器363、运动传感器364、存在传感器365、红外传感器366、飞行时间传感器367、无线电检测和测距(RADAR)传感器368和光检测和测距(LiDAR)传感器360中的一个或多个。每个传感器360配置成检测智能家庭环境100中的存在、手势或两者。存在和/或手势的检测与具有置信度值的接近度或接近度范围相关联。该置信度值可选地是量化指标或多个预确定置信度级别(例如，最高、高、中和低)之一。参考2018年6月5日提交的标题为“Systems and Methods of Ultrasonic Sensing in Smart Devices”的美国临时专利申请No.62/680,982和2017年4月6日提交的标题为“Systems,Methods,andDevices for Utilizing Radar-Based Touch Interfaces”的美国专利申请No.15/481,289讨论了关于超声传感器363和RADAR传感器368的更多细节，这申请中的每一个通过引用整体并入。

图4是图示根据一些实施方式的服务器系统164的框图。服务器系统164包括一个或多个处理器(例如，CPU)402、一个或多个网络接口404(例如，包括到一个或多个客户端设备的I/O接口以及到一个或多个电子设备的I/O接口，诸如到图2中到客户端的I/O接口216和到相机的I/O接口218)、存储器406和用于将这些组件互连的一个或多个通信总线408(有时称为芯片组)。存储器406包括高速随机存取存储器，诸如DRAM、SRAM、DDR SRAM或其他随机存取固态存储器设备；并可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器406可选地包括远离一个或多个处理器402的一个或多个存储设备。存储器406或可替选地存储器406内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器406或存储器406的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统410，包括处置各种基本系统服务和执行与硬件有关的任务的例程；

·网络通信模块412，用于经由一个或多个网络接口404(有线或无线)将服务器系统164连接到其他系统和设备(例如，连接到一个或多个网络110的客户端设备、电子设备和系统)；

·服务器侧模块414，其提供用于设备控制、数据处理和数据查阅的服务器侧功能性，包括但不限于：

ο数据接收模块416，用于从电子设备接收数据(例如，来自显示助理设备190的视频数据和音频数据，图2C)，并准备接收到的数据以供进一步处理并存储在服务器数据库428中；

ο设备控制模块418，用于生成和发送服务器发起的控制命令以修改电子设备(例如，智能家庭环境100的显示助理设备190和智能设备120)的操作模式，和/或(例如，从客户端设备220和客户端设备104)接收用户发起的控制命令并将该用户发起的控制命令转发以修改电子设备的操作模式；

ο数据处理模块420，用于处理电子设备提供的数据，和/或准备处理后的数据并将该处理后的数据发送到设备以供查阅(例如，发送到客户端设备220以供用户查阅)，包括但不限于：

·□视频处理模块422，用于处理(例如，分类和/或辨识)接收到的视频流(例如，来自显示助理设备190或智能门铃126的视频流)内的检测到的实体和/或事件候选；

·□用户接口模块423，用于与用户通信(例如，发送提醒、时间线事件等以及接收用户编辑和区域定义等)；

·□用户体验(UX)发起模块424，用于根据相应的基于置信度的发起条件控制与多个应用相关联的非接触UX操作，其中UX发起模块424至少包括机器学习(ML)模块425，该机器学习(ML)模块425配置成接收来自客户端设备的手势辨识请求并使用机器学习模型确定存在的手势；

·□实体辨识模块426，用于分析和/或识别在智能家庭环境中检测到的人员；和

·□模式模块427，用于将有关显示助理设备190的操作模式的信息传送给服务器系统164和/或客户端设备；和·服务器数据库428，包括但不限于：

ο视频存储数据库210(参见图2)，用于存储从视频源(包括显示助理设备、相机132和智能门铃126)接收到的原始视频数据，以及诸如运动事件、事件类别、事件类别模型、事件过滤器和事件掩码的各种类型的元数据，以在事件监视的数据处理和每个查阅者账户的查阅中使用。

ο设备和账户数据库214，用于存储设备和账户数据，包括：

·□针对用户账户的账户数据432，包括诸如用户简档434的用户账户信息、链接集线器设备和电子设备的信息和设置(例如，集线器设备标识)、集线器设备特定的秘密、相关用户和硬件特性(例如，服务层、订用、设备型号、存储容量、处理能力等)、用户接口设置、数据查阅偏好等，其中关联电子设备的信息包括但不限于一个或多个设备标识符(例如，MAC地址和UUID)、设备特定秘密和显示的标题；

·□用户简档434，包括向视频处理服务器注册的查阅者账户的简档，其中相应的用户简档包括相应查阅者账户的账户凭证，以及被链接到相应查阅者账户的一个或者多个视频源；

·□与一个或多个设备相关的设备信息436，诸如设备简档438，例如，设备标识符和集线器设备特定的秘密，而与相应的集线器设备是否已与任何用户账户相关联无关；

ο数据存储430，用于存储与每个用户账户的每个电子设备(例如，每个显示助理设备190)相关联的数据，以及数据处理模型、处理后的数据结果和与数据相关联的其他相关元数据(例如，数据结果的名称、电子设备的位置、创建时间、持续时间、电子设备的设置等)，其中(可选地)安全地存储与集线器设备180或智能设备相关联的全部或部分数据和/或处理

ο授权人员数据库242(图2E)，用于存储电子设备(例如，显示助理设备190)的授权用户的信息，包括图像、声纹、指纹、置信度级别等；

ο事件信息440，诸如事件记录442和场境信息，例如描述正在接近的访客周围情况的场境数据；

ο先前图像444，诸如在各种照明条件下由相机捕获的先前背景图像和/或实体图像；和

ο实体信息446，诸如识别和/或表征实体的信息(例如，在智能家庭环境100中)。

上述每个标识的元素可以存储在前面提及的存储设备中的一个或多个中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、例程或模块，并且因此这些模块的各个子集可以在各种实施方式中被组合或以其他方式重新安排。在一些实施方式中，存储器306可选地存储以上标识的模块和数据结构的子集。此外，存储器306可选地存储上面未描述的附加模块和数据结构(例如，用于链接客户端设备、智能设备和智能家庭环境的账户管理模块)。

在一些实施方式中，存储器406包括语音/显示助理应用(未示出)，其被执行以安排对从语音激活的电子设备190接收到的语音消息的语音处理，直接处理该语音消息以提取用户语音命令和投送设备108或另一个语音激活的电子设备190的指定，并且/或者使语音激活的电子设备190播放媒体内容(音频或视频)

在一些实施方式中，服务器系统164包括云投送服务(例如，图1A和2A的云投送服务器116)。存储器406还包括投送设备应用422，该投送设备应用422被执行以提供用于与投送设备108相关联的设备供应、设备控制和用户账户管理的服务器侧功能性。云投送功能的更多细节在2019年12月7日提交的标题为“Display Assistant Device”的PCT申请No.PCT/US15/64449中找到，该专利申请通过引用被整体合并于此。

图5A-5E分别是根据一些实施方式的显示辅助装置190的透视图、前视图、后视图、侧视图、顶视图和底视图。显示助理设备190包括基座502和屏幕504(例如，图3A的显示器352)。基座502被配置用于坐落在表面上。屏幕504具有后表面506，在该后表面506处屏幕504由基座支撑。

基座502充当扬声器箱。扬声器(例如，图3A的扬声器350)被隐藏在基座内部，并且被配置成基本朝向显示助理设备的前视图投射声音。

在一些实施方式中，边框区域包括一个或多个麦克风孔512。一个或多个麦克风342放置在麦克风孔512的后面，并配置成从显示助理设备190的周围环境收集声音。

在一些实施方式中，显示助理设备190还包括相机开口520，其容纳被配置成捕获设备的视场的相机(例如，图3A的相机362)。例如，在一些实施方式中，在设备上显示的媒体内容包括由设备的相机捕获的主题。在一些实施方式中，相机被配置成检测显示助理设备190坐落的智能家庭环境100中的光照条件。在一些实施方式中，显示助理设备190被配置成根据光照条件来调整其屏幕504的亮度级别。相机362被设置在边框区域的后面，并经由边框区域的透明部分(例如，传感器开口520)暴露于光线。在一些实施方式中，显示助理设备包括多个相机开口520，每个相机开口被配置成保持相机。在一些实施方式中，相机开口520(和相机362)可以被定位在显示助理设备190的屏幕侧和后侧上。在一些实施方式中，显示助理设备190与智能家庭环境交互，并且在一些实施方式中，当场景(例如，显示助理设备190所位于的房间)照明不佳时时机载环境光传感器(ALS)通过使用屏幕504(例如，图3A的显示器352)投射照明。

在一些实施方式中，显示助理设备190包括状态指示器灯516(图3A的指示器灯353)，例如，LED灯，其被配置成显示相机状态的视觉指示，包括显示助理设备190的操作模式。

参考图5C，显示助理设备190进一步包括音量控件344、隐私控件346和电源适配器接口518。在此示例中，音量控件按钮514和隐私控件346被设置在屏幕506的后表面506上，并且电源适配器接口518被设置在基座502的后表面502B上。音量控件344包括配置成接收用户输入的机械配件(例如，按钮、旋钮、开关)，用于调节显示助理设备190中的扬声器的音量级别。在示例中，音量控件344包括两个按钮(分离的或连接的)，其被配置成分别发起扬声器的音量级别的增加或者减少。在一些实施方式中，可以同时按下音量控件344的两个按钮以重置显示助理设备190，而与控制扬声器的音量级别无关。注意，音量控件344没有设置在显示助理设备190的屏幕504的任何边缘上。相反，音量控件344被布置在屏幕504的后表面506上，并且具有距屏幕504的短边缘的预定义的距离，使得当用户通过屏幕504的短边缘紧握显示助理设备190时，音量控件344可易于用户的手指接近。

此外，设置在后表面506上的隐私控件346被配置成向显示助理设备190的用户提供隐私保护。例如，隐私控件346可以使显示助理设备190的一个或多个麦克风342静音，并禁用相机362。在一些实施方式中，隐私控件346的激活还使显示助理设备190与互联网断开连接，同时将显示助理设备保持耦合在局域网中，并且/或者将显示助理设备从显示助理设备190可用的所有通信网络断开连接。隐私控件346启用的隐私保护的类型可以根据与显示助理设备190相关联的人员的身份和/或特定时刻的时间改变。

在图5C的该示例中，显示助理设备190的电源适配器接口518被设置在基座502的后表面502B上。电源适配器接口518包括插座(female connector)，以接收被配置成将显示助理设备190连接到外部电源(例如，直流电源)的插头(male connector)。显示助理设备190包括隐藏在基座502中的电源板。该电源板电耦合到电源适配器接口518，并被配置成利用外部电源驱动显示助理设备190。在一些实施方式中，显示助理设备190必须始终连接到外部电源，并且当外部电源断开连接时被断电。可替选地，在一些实施方式中，电源板包括可再充电电池。可再充电电池被配置成用外部电源充电，并且当外部电源与显示助理设备190断开连接时，临时驱动显示助理设备190。

参考图5D，在一些实施方式中，基座502沿着中心轴线510延伸，并且当基座502坐落在表面上时，基座502的中心轴线510不垂直于表面。可选地，基座502具有前表面502A和后表面502B，两者均与中心轴线510平行。当基座坐落在表面上时，基座502的中心轴线510、前表面502A和后表面502B向前倾斜了基角α。注意，基座的前表面502A比基座的后表面502B短，例如，前表面502A的高度仅为后表面502B的高度的20％。当屏幕504由基座502在其后表面506处支撑时，屏幕504不垂直于该表面，而是基本上面向前方并且稍微向后倾斜了屏幕角β，以为普通用户提供期望的观看角度。在示例中，基座角α和屏幕角β均等于15度，除了基座向前倾斜了15度的基座角α和屏幕向后倾斜了15度的屏幕角β之外。通过这些手段，当钝力F撞击显示助理设备500的顶部边缘或显示助理设备500的屏幕202发生用户触摸时，显示助理设备500不容易翻倒(向前或向后)。

应注意，图5A-5D集中于显示助理设备190的整体外观和机械特征。关于显示助理设备190的功能的更多细节已在上面参考图1-4进行了描述。

图6是图示根据一些实施方式的与用户账户相关联的代表性客户端设备220(图2中的客户端设备220和图1中的客户端设备104)的框图。客户端设备220通常包括一个或多个处理器(例如，CPU)602、一个或多个网络接口604、存储器606、以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线608。可选地，客户端设备还包括用户接口610和一个或多个传感器690(例如，加速度计和陀螺仪)。用户接口610包括能够呈现媒体内容的一个或多个输出设备612，包括一个或多个扬声器和/或一个或多个视觉显示器。用户接口610还包括一个或多个输入设备614，包括促进用户输入的用户接口组件，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机或其他输入按钮或控件。此外，一些客户端设备使用麦克风和语音辨识或相机和手势辨识来补充或替换键盘。在一些实施方式中，客户端设备包括用于捕获图像的一个或多个相机、扫描仪或照片传感器单元(未示出)。可选地，客户端设备包括位置检测组件616，诸如GPS(全球定位卫星)传感器或其他地理位置接收器，用于确定客户端设备的位置。

存储器606包括高速随机存取存储器，诸如DRAM、SRAM、DDRSRAM或其他随机存取固态存储器设备；并可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器606可选地包括远离一个或多个处理单元602的一个或多个存储设备。存储器606或可替选地存储器606内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器606或存储器606的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统618，包括用于处置各种基本系统服务和用于执行硬件相关任务的例程；

·网络通信模块620，用于经由一个或多个网络接口604(有线或无线)将客户端设备220连接到其他系统和设备(例如，连接到一个或多个网络110的客户端设备、电子设备和系统)；

·输入处理模块622，用于从一个或多个输入设备614之一检测一个或多个用户输入或交互，并解释检测到的输入或交互；

·一个或多个应用623，用于由客户端设备执行(例如，游戏、社交网络应用、智能家庭应用624和/或其他基于Web或非基于Web的应用)以控制设备(例如，向集线器设备和/或其他客户端或电子设备发送命令、配置设置等等)，并且用于查阅由设备捕获的数据(例如，设备状态和设置、捕获到的数据或关于集线器设备或其他连接的设备的其他信息)。在一些实施方式中，用户能够使用智能家庭应用624来配置针对显示助理设备190的设置，包括用于监视(例如，实时取景、事件历史、通知)开/关模式、在家/离开辅助和活动区域的设置。在一些实施方式中，智能家庭应用624使用户能够排定将激活相机362用于家庭监视的时间。在一些实施方式中，使用户能够经由智能家庭应用624配置图像和/或视频馈送的质量、要使用的带宽以及麦克风342的设置。在一些实施方式中，智能家庭应用624向用户提供移动显示助理设备190将使得到记录或者没有得到记录的事物随着活动区域变形的教育(例如，培训视频、手册、弹出消息通知)。在一些实施方式中，当显示助理设备190四处移动时，智能家庭应用624禁用区域或调整区域。在一些实施方式中，显示助理设备190被配置成在其移动时向云(例如，向服务器系统164)发送通知；

·用户界面模块626，用于提供和显示用户界面，其中一个或者多个设备(例如，智能家庭环境100中的智能设备120、语音激活的显示助理设备190)的设置、捕获的数据和/或其他数据可以被配置和/或查看；

·客户端侧模块628，其提供用于设备控制、数据处理和数据查阅的客户端侧功能性，包括但不限于：

ο设备控制模块630，用于根据用户输入生成用于修改智能设备(例如，智能设备120和显示助理设备190以及可选的其他电子设备)的操作模式的控制命令；

ο视频分析模块632，用于分析捕获的视频数据，例如，以检测和/或辨识人员、对象、动物和事件；

ο数据查阅模块634，用于提供用于查阅来自服务器系统164或视频源222的数据的用户界面，包括但不限于：

·□事件查阅模块636，用于查阅事件(例如，运动和/或音频事件)，并可选地使得能实现用户对事件的编辑和/或更新；和

·□人员查阅模块638，用于查阅有关检测到的人员和其他实体的数据和/或图像，并可选地使得能实现用户对人员数据的编辑和/或更新；

ο呈现模块640，用于呈现用于与智能设备120和/或服务器系统164交互的用户界面和响应选项；和

ο远程交互模块642，用于例如经由智能设备120和/或显示助理设备190和/或服务器系统164与远程人员(例如，智能家庭环境100的访客)进行交互；以及

·客户端数据644，存储与用户账户和电子设备相关联的数据，包括但不限于：

ο账户数据646，存储与在客户端设备上加载的用户账户以及与该用户账户相关联的电子设备(例如，视频源501中的)有关的信息，其中此类信息包括缓存的登录凭证、集线器设备标识符(例如，MAC地址和UUID)、电子设备标识符(例如，MAC地址和UUID)、用户接口设置、显示偏好、认证令牌和标签、密钥等；

ο本地数据存储648，用于选择性地存储与电子设备(例如，视频源501中的，诸如门铃106)相关联的原始或处理后的数据，可选地包括先前描述的实体数据；以及

ο先前图像650，诸如在各种光照条件下由相机捕获的先前背景图像和/或实体图像。

上述每个标识的元素可以存储在前面提到的一个或多个存储设备中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、例程、模块或数据结构，并且因此，这些模块的各个子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器606可选地存储以上标识的模块和数据结构的子集。此外，存储器606可选地存储以上未描述的附加模块和数据结构。

图7是根据一些实施方式的呈现的操作环境700，其中电子设备190基于以所需置信度级别的对所需接近度范围702中的存在和/或手势的检测来控制第一非接触UX操作。电子设备190执行与包括第一非接触UX操作的多个非接触UX操作相对应的第一应用(例如，媒体播放应用、安全警报应用)。当满足发起条件时，例如，当电子设备190以所需的置信度级别检测在所需接近度范围702中的存在和手势时，发起第一非接触UX操作。该手势包括与第一非接触UX操作相关联的预定义手势。可选地，以所需置信度级别检测存在和手势。可选地，所需置信度级别应用于手势的检测，同时存在独立于所需置信度级别被检测，因为可以容易地以足够高的置信度来检测存在(例如，使用常规的存在传感器365)。就是说，在一些实施方式中，当电子设备190顺序地检测到所需接近度范围中的存在并且确定是否可以以所需的置信度级别来检测包括预定义手势的手势时，发起第一非接触UX操作。

基于第一传感器信号，相对于电子设备检测用户存在的接近度。在一些情况下，电子设备190包括第一传感器(例如，超声传感器363)，该第一传感器被配置成收集第一传感器信号并在电子设备190处本地检测用户的存在的接近度。可替选地，在一些情况下，第一传感器不同于电子设备190，并且被配置成收集第一传感器信号，检测用户的存在的接近度并且经由通信网络110之一向电子设备190提供存在的接近度的信息。第一传感器可选地集成在智能家庭设备120中，包括但不限于个人客户端设备104、显示设备106、媒体投送或流传输设备108、WiFi通信设备160、集线器设备180、恒温器122、家庭保护设备124(例如，烟雾、火警和二氧化碳检测器)、家庭安全设备(例如，监看相机、运动检测器、窗户和门传感器)等。

基于第二传感器信号，相对于电子设备190检测与存在的接近度相关联的手势。在一些情况下，电子设备包括第二传感器(例如，相机362)，该第二传感器被配置成收集第二传感器信号并在电子设备190处本地检测与存在的接近度相关联的手势。例如，第二传感器是集成在电子设备190中的可见光或红外相机。可替选地，在一些情况下，第二传感器与电子设备190不同，并配置成收集第二传感器信号，检测与存在的接近度相关联的手势并且经由通信网络110之一向电子设备提供手势信息。可选地，第二传感器是独立相机132。可选地，第二传感器集成在智能家庭设备120中，包括但不限于个人客户端设备104、显示设备106、媒体投送或流传输设备108、WiFi通信设备160、集线器设备180、恒温器122、家庭保护设备124(例如，烟雾、火和二氧化碳检测器)、家庭安全设备(例如，监看相机、运动检测器、窗户和门传感器)等。可选地，第一传感器和第二传感器彼此不同。可选地，第一传感器和第二传感器不是彼此不同，并且单个传感器被配置成例如使用两个不同的传感器设置来提供第一传感器信号和第二传感器信号。

此外，在一些实施方式中，第一传感器信号和第二传感器信号彼此不同。可选地，顺序地接收第一传感器信号和第二传感器信号，以分别检测存在的接近度和手势。可选地，第一传感器信号和第二传感器信号被同时接收。可替选地，在一些实施方式中，第一传感器信号不是与第二传感器信号不同，即，单个信号被接收并且被用于检测存在的接近度和手势。例如，视频数据由电子设备190的相机362捕获，并且用于检测与存在相关联的接近度和手势。在一些实施方式中，第二传感器信号被处理以在存在的接近度被检测为处于所需的接近度范围702内的条件下检测手势，从而保留计算资源(具体地，电子设备190中有限的本地计算资源)免于不必要的在某些情况下可能会很复杂的手势检测。

在一些实施方式中，第一传感器(例如，超声传感器363)被配置成通过发射第一传感器信号并在其从其感测范围内的对象反射时收集第一传感器信号来检测存在的接近度。在一些实施方式中，第一传感器信号不是源自第一传感器(例如，相机362)，而是被收集从而允许电子设备190检测存在的接近度。类似地，在一些实施方式中，第二传感器(例如，超声波传感器363)被配置成通过发射第二传感器信号并在第二传感器信号从其感测范围中的对象反射时收集第二传感器信号来检测与存在的接近度相关联的手势。在一些实施方式中，第二传感器信号不是源自第二传感器(例如，相机362)，而是被收集从而允许电子设备190检测与存在的接近度相关联的手势。

图8A是根据一些实施方式的UX操作和相关联的发起条件的列表800，并且图8B是根据一些实施方式的概述图8A中列出的UX操作的发起条件的表880。图9A-9F图示根据一些实施方式的根据六个不同应用的UX操作显示的图形用户界面(GUI)。作为相应应用的UX操作发起的结果，显示每个GUI。在一些实施方式中，根据以预定义置信度级别确定存在的接近度满足发起条件来发起应用的UX操作。在一些实施方式中，根据以预定义置信度级别确定存在的接近度和相关联的手势都满足发起条件来发起应用的UX操作。在一些实施方式中，定义关于是否响应于以预定义的置信度级别仅检测到接近度而触发UX操作或者是否响应于以预定义的置信度级别检测到接近度和手势两者而触发UX操作的用户设置。

参考图9A，在一些实施方式中，UX操作810被发起以在GUI 910上显示一个或多个功能可见性904(即，可作用项)，使得用户可以与一个或多个功能可见性904交互并控制电子设备190。在该示例中，十个数字图标和确认图标被显示在GUI 910上以接收安全代码的用户输入，并且当用户输入与存储在电子设备190中的安全代码一致时，电子设备190被解锁。在发起UX操作810之前，电子设备190具有黑屏或正在呈现信息(例如，显示每日更新或静态图像)。当根据相应的发起条件802发起UX操作810时，GUI 910被自动显示以代替在电子设备190上呈现的内容(如果有的话)，不需要用户进行物理接触来控制电子设备190。

根据发起条件802，当电子设备19检测到0在3英尺的距离内的存在接近度时，UX操作810被发起以显示GUI 910，并且存在的接近度的检测仅需要处于低置信度级别以发起UX操作810。在一些实施方式中，通过噪声抑制来检测存在的接近度，并且对用于接近度检测的第一传感器信号进行滤波以抑制噪声。在一些实施方式中，电子设备190在发起UX操作810之前监视存在的接近度至少50毫秒(ms)，即，第一传感器信号持续至少50ms。在一些实施方式中，发起条件802基于存在的接近度的改变。例如，发起条件802要求响应于用户正在接近电子设备190——即，存在的接近度随时间减小——的确定而发起UX操作810并且显示功能可见性904。因此，存在的接近度包括存在的接近度改变。电子设备190在第一时间确定存在的初始接近度并且在第一时间之后的第二时间确定存在的更新接近度。关于存在的初始接近度来确定存在的更新接近度的接近度改变。

参考图9B，在一些实施方式中，发起UX操作820以在GUI 920上显示错过的消息通知914。例如，错过的消息通知914指示自上次更新以来在一个或多个预定义社交媒体应用中多少错过的消息是可获得的。在发起UX操作820之前，电子设备190具有黑屏或正在呈现一些其他信息(例如，显示每日更新或静态图像)。一个或多个社交媒体应用正在电子设备的后台中执行。当根据对应的发起条件812来发起UX操作820时，错过的消息通知914自动显示在GUI 920上，不需要用户进行物理接触来控制电子设备190。

根据发起条件812，当电子设备190检测到在6英尺的距离内的存在的接近度时，发起UX操作820以显示GUI 920，并且存在的接近度的检测仅需要处于低置信度级别以发起UX操作820。在一些实施方式中，通过噪声抑制来检测存在的接近度，并且对用于接近度检测的第一传感器信号进行滤波以抑制噪声。在一些实施方式中，电子设备190在发起UX操作820之前监视存在的接近度至少50ms，即，第一传感器信号持续至少50ms。在一些实施方式中，发起条件812基于存在的接近度的改变。例如，发起条件802要求响应于用户正在接近电子设备190——即，存在的接近度随时间减小——的确定而发起UX操作820。存在的接近度包括存在的接近度改变。电子设备在第一时间确定存在的初始接近度，并在第一时间之后的第二时间确定存在的更新接近度。关于存在的初始接近度来确定存在的更新接近度的接近度改变。可替选地，在一些实施方式中，发起条件812与存在的接近度的改变无关，即，发起条件802要求错过的消息通知914在GUI 920上显示，而不管用户是否正在接近或离开电子设备190。

在一些实施方式中，UX操作820’被发起以经由电子设备190的扬声器播放错过的消息通知914，这比在GUI 920上显示该通知对日常生活更具有打扰性。根据发起条件812，当电子设备190检测到在6英尺的距离内的存在的接近度并且需要存在的接近度的检测处于高置信度级别时，UX操作820’被发起以经由扬声器播放错过的消息通知914。

参考图9C，在一些实施方式中，UX操作830被发起以在GUI 930上显示问候和每日更新消息924和/或经由电子设备190的扬声器播放消息924的信息。例如，问候和每日更新消息924指示一天中的时间、天气图标和温度。在发起UX操作830之前，电子设备190可选地具有黑屏，并且在电子设备的后台执行管理问候和每日更新的应用。当根据相应的发起条件822发起UX操作830时，问候和每日更新消息924自动显示在GUI 930上或经由扬声器播放，不需要用户进行物理接触来控制电子设备190。

根据发起条件822，因为电子设备190检测到在6英尺距离内的存在的接近度，所以UX操作830被发起以显示GUI 930，并且存在的接近度的检测仅需要处于低置信度级别以发起UX操作830。但是，当经由电子设备190的扬声器播放消息924时(无论是否显示消息924)，存在的接近度的检测被上升到高置信度级别以发起UX操作830。在一些实施方式中，通过噪声抑制来检测存在的接近度，并且对用于接近度检测的第一传感器信号进行滤波以抑制噪声。在一些实施方式中，在发起UX操作830之前，电子设备190在扩展的持续时间(例如，至少5秒)内监视存在的接近度，即，第一传感器信号持续至少5秒。此外，在一些实施方式中，在发起UX操作830之前，除了存在的接近度之外，电子设备190还在扩展的持续时间内监视存在的非接近度。在示例中，发起条件822要求仅当存在的接近度在距电子设备190的6英尺的距离内持续至少3秒时并且当在检测到存在的接近度之前在同一距离内未检测到任何存在的接近度达20秒时，发起UX操作830。

在一些实施方式中，电子设备190被配置成确定电子设备190所位于的对应的智能家庭环境中的噪声级别。根据确定噪声级别不大于阈值噪声级别(例如，环境安静并且用户刚刚醒来)，电子设备190发起UX操作830以显示问候和每日更新消息924和/或经由扬声器播放问候和每日更新消息924。可替选地，根据确定噪声级别大于阈值噪声级别(例如，环境嘈杂且用户活跃)，电子设备190没有发起UX操作830以显示或经由扬声器播放问候和每日更新消息924。

参考图9D，在一些实施方式中，发起UX操作840以增加或减少在电子设备190上播放的声音的音量。可选地显示GUI 940，指示UX操作840的执行。当根据对应的发起条件832来发起UX操作840时，自动调整声音的音量，不需要用户进行物理接触来控制电子设备190。在一些实施方式中，根据发起条件832，当电子设备190检测到距电子设备190 4英尺的距离之内的存在的接近度时，UX操作840被发起以调整声音的音量。可替选地，在一些实施方式中，当电子设备190检测到在距电子设备4-8英尺的范围内的存在的接近度时，UX操作840被发起以调整声音的音量。可选地，对存在的接近度的检测需要处于低置信度级别以减小声音的音量，并且必须处于高置信度级别以增加声音的音量。在一些实施方式中，在发起UX操作840以调整声音的音量之前，电子设备190监视存在的接近度达扩展的持续时间(例如，至少1秒钟内)。

注意，在一些实施方式中，发起条件810、820、820’、830和840中的任何一个可以包括以所需置信度级别检测具有相应的所需接近度范围的相应手势。例如，发起条件810包括两次或更多次挥手的检测，并且发起条件830包括拍手的检测。用于增大和减小声音的音量的发起条件840分别包括举起手和放下手的检测。对于发起条件810、820、820’、830和840中的任何一个，与被识别以检测存在的接近度的第一传感器信号同时或在被识别以检测存在的接近度的第一传感器信号之后，第二传感器信号被识别以检测相应手势。第二传感器信号可选地与第一传感器信号相同或不同。在示例中，为了分别检测接近度和手势，超声传感器以两个信噪比顺序地发射第一传感器信号和第二传感器信号。在另一个示例中，电子设备分别依靠超声传感器信号和视频信号来检测存在的接近度和手势。

此外，对于发起条件810、820、820’、830和840中的任何一个，电子设备190可以在发起对应的UX操作之前监视手势达延长的持续时间。在一些实施方式中，鉴于所需的置信度级别，电子设备190应用机器学习模型来确定与存在的接近度相关联的手势。

参考图9E，在一些实施方式中，发起UX操作850以经由电子设备190触发安全警报系统。可选地显示GUI 950，指示执行UX操作850。当根据对应的发起条件842发起UX操作850时，启用安全警报系统以检测紧急情况(例如，火灾、入侵)，不需要用户进行物理接触来控制电子设备190。在一些实施方式中，根据发起条件832，当电子设备190检测到在距电子设备190 15英尺的距离内的存在的接近度和/或与该接近度相关联的手势时，UX操作850被发起以启用安全警报系统。在一些情况下，在涉及可能的紧急情况响应(例如，911呼叫)的情况下，检测接近度和/或手势需要最高的置信度级别。在一些实施方式中，在发起UX操作850以调整声音的音量之前，电子设备190监视存在的接近度达扩展的持续时间(例如，至少5秒)。

在一些实施方式中，发起条件842基于存在的接近度的改变(例如，用户是否正在接近或离开电子设备、接近电子设备的速度)。电子设备应用第一传感器设置(例如，第一信噪比)以在第一时间确定存在的初始接近度并且在第一时间之后的第二时间确定存在的更新接近度。关于存在的初始接近度来确定存在的更新接近度的接近度改变。根据确定存在的接近度的改变大于阈值改变(例如，在1秒内0.3码)，电子设备190应用第二传感器设置(例如，第二信噪比)以继续监视存在的接近度和/或与存在的接近度相关联的手势。在一些实施方式中，根据确定存在的接近度的改变大于阈值改变，电子设备190应用机器学习模型以监视存在的接近度和/或与存在的接近度相关联的手势。在一些实施方式中，电子设备190被配置成确定电子设备190所位于的对应的智能家庭环境中的噪声级别。根据确定噪声级别大于阈值噪声级别(例如，环境嘈杂)，电子设备190应用机器学习模型以监视存在的接近度和/或与存在的接近度相关联的手势。

在一些实施方式中，机器学习模型至少包括第一分类器和第二分类器。第二分类器具有比第一分类器更高的复杂度级别，并且需要来自电子设备的更多计算和缓存资源。当机器学习模型用于确定存在的接近度或与存在相关联的手势时，使用第一分类器从传感器信号(例如，用于检测存在的接近度的第一传感器信号、用于检测手势的第二信号)中确定中间接近度/手势数据，并且与中间接近度/手势数据的确定相关联地来确定第一置信度级别。然后，电子设备190确定第一置信度级别是否满足所需置信度级别。根据第一置信度级别满足所需的置信度级别，电子设备190使用第二分类器从中间接近度/手势数据中确定接近度或手势。相反，根据第一置信度级别不满足所需的置信度级别，电子设备190终止使用第二分类器从中间手势数据中确定接近度或手势，从而保留电子设备190的计算和缓存资源。

参考图9F，在一些实施方式中，发起UX操作860以经由电子设备190记录睡眠状况(例如，深度睡眠、浅睡眠、醒着)。GUI 960被可选地显示，指示UX操作860的执行。在UX操作860被发起之前，电子设备190可能具有黑屏，并且睡眠监视应用在电子设备190的后台被执行。当UX操作860根据对应的发起条件852被发起时，睡眠监视应用自动记录睡眠状况，不需要用户进行物理接触来控制电子设备190。在一些实施方式中，根据发起条件852，当电子设备190检测到距电子设备190的预定义距离(例如，10英尺)内的存在的接近度时UX操作860被发起以记录睡眠状况，并且检测存在的接近度需要低置信度级别。

电子设备190连续监视存在的接近度，并基于存在的接近度来确定即时运动级别。根据确定即时运动级别不大于中等运动级别达扩展的持续时间(例如，至少10秒)，电子设备190使UX操作860能够将睡眠状况记录为深度睡眠状态。相反，根据确定即时运动级别大于活跃运动级别达另一扩展的持续时间(例如，至少4秒)，电子设备190使UX操作860能够将睡眠状况记录为醒着状态。此外，根据确定即时运动级别大于中等运动但小于活跃运动级别，电子设备190使UX操作860能够将睡眠状况记录为浅睡眠状态。

参考图8A，除了使用第一传感器信号检测存在的接近度之外，UX操作870还涉及使用第二传感器信号以所需置信度级别来确定所需接近度范围内的手势。所需的置信度级别随电子设备190所位于的智能家庭环境的噪声级别而变化。例如，当在智能家庭环境中播放音乐时，用于确定手势的所需置信度级别为高置信度级别，而在安静的智能家庭环境中，所需的置信度级别被降低为中置信度级别。UX操作870与应用(例如，媒体播放应用)相关联。UX操作870的示例包括调整音量840、快进或暂停视频剪辑的播放以及关闭应用。

更具体地，当在智能家庭环境中播放音乐时，根据发起条件862，当电子设备190检测到在距电子设备190 1-5英尺范围内的存在的接近度时与应用(例如，媒体播放应用)相关联地发起UX操作870。由于音乐的播放，存在的接近度和与存在相关联的手势的检测需要处于高置信度级别。相反，当未播放音乐且智能家庭环境安静时，根据发起条件872，当电子设备190检测到在距电子设备190 1-8英尺范围内的存在的接近度时，发起相同的UX操作870，并且对存在的接近度和与存在相关联的手势的检测需要处于中置信度级别。因此，当将电子设备190设置在嘈杂的环境中时(例如，电子设备190周围的噪声级别超过阈值噪声级别)时，为了检测存在的接近度和相关联的手势而折中所需的置信度级别和检测范围。

在一些实施方式中，在发起UX操作870之前，电子设备190监视存在的接近度和/或手势达扩展的持续时间(例如，至少0.5秒)。在一些实施方式中，电子设备190设备190应用机器学习模型来监视存在的接近度和/或与存在的接近度相关联的手势。可选地，机器学习模型包括按顺序实现的分类器集合(例如，第一分类器和第二分类器)，使得当分类器之一无法提供所需的置信度级别时，可以终止对接近度或手势的确定。注意，在一些实施方式中，当电子设备190周围的噪声级别超过阈值噪声级别时应用机器学习模型，即，当没有音乐播放时，不应用机器学习模型。

在一些实施方式中，第一传感器信号和第二传感器信号源自电子设备的超声传感器，并分别用于检测存在的接近度和相关联的手势，以用于发起UX操作870。电子设备190分别将第一设置和第二设置应用于超声传感器以供予(render)第一传感器信号和第二信号。与第一传感器信号相比，第二传感器信号与更高的信噪比相关联。在一些情况下，顺序地应用第一传感器信号和第二传感器信号以顺序地检测到存在的接近度和相关联的手势。将第一和第二设置顺序地应用于超声传感器，以获得在第一传感器信号之后的第二传感器信号。也就是说，在一些实施方式中，仅当确定存在的接近度在所需的接近度范围内时才应用第二设置(例如，具有较高的信噪比)。

可替选地，在一些实施方式中，第一传感器信号从电子设备的超声传感器产生，并且用于检测存在的接近度。第二传感器信号包括由电子设备的相机捕获的视频信号，并用于检测发起UX操作870的手势。在一些情况下，电子设备190接通电子设备190的显示器以照亮电子设备的相机的视场。

参考图8B，在根据置信度级别、接近度范围、检测持续时间、接近度改变、噪声级别是否被控制并且机器学习模型是否被应用中的一个或多个定义的发起条件下，发起应用的非接触UX操作。根据发起条件，响应于存在的接近度的检测、相关联的手势或接近度和手势两者而发起UX操作(例如，显示功能可见性)。当对于发起UX操作需要存在的接近度和相关联手势两者时，对相关联的手势的检测可选地取决于对存在的接近度的检测或独立于对存在的接近度的检测而操作。

在一些实施方式中，在电子设备190上执行两个不同的应用，并且UX操作中的两个分别与两个不同的应用相关联。第一应用的第一UX操作具有第一发起条件，该第一发起条件包括以第一所需置信度级别的对在所需接近度范围内的存在和/或手势的检测。第二应用的第二UX操作具有第二发起条件，该第二发起条件包括以第二所需置信度级别的至少对所需接近度范围中的存在和/或手势的检测。识别传感器信号以检测第一和第二UX操作两者的存在的接近度或手势。在一些实施方式中，根据第一非接触UX操作的第一所需置信度级别和第二非接触UX操作的第二所需置信度级别中的较高置信度级别来识别传感器信号。

在一些实施方式中，对于非接触UX操作，多个第一传感器具有不同的类型，并且能够以所需的置信度级别来检测在所需的接近度范围内的存在的接近度。选择多个第一传感器中的一个以提供传感器信号，该传感器信号用于根据其检测时延来检测存在的接近度。类似地，在一些实施方式中，多个第二传感器具有不同的类型，并且能够以所需的置信度级别在所需的接近度范围内检测手势。选择多个第二传感器中的一个以提供传感器信号，该传感器信号用于根据其检测时延来检测手势。例如，与已选择的第二传感器相比，另一个未选择的第二传感器可以提供辨识手势的高精度和更高的置信度级别，但是因为其检测时延不与所选择的第二传感器的检测时延一样好，所以未被选择。

对于列表880中的每个非接触UX操作，从多个预确定置信度级别中选择相应的置信度级别。可选地，多个预确定置信度级别包括根据置信度值的三个或更多个阈值定义的四个置信度级别的层级。四个置信度级别的层级包括低置信度级别、中置信度级别、高置信度级别和最高置信度级别。

用户应用(例如，媒体播放应用)与一个或多个非接触UX操作可选地相关联，并且每个非接触UX操作与相应的发起条件相关联。在一些实施方式中，发起条件被预定义，并且存储在电子设备190的存储器中。在一些实施方式中，图3A中的UX发起模块319被配置成接收用户输入以定制预定义的发起条件。在一些实施方式中，UX发起模块319允许用户选择绕过发起条件的用户设置，从而禁用对应的非接触UX操作。

图10A是根据一些实施方式的其中电子设备190基于存在相对于电子设备190的接近度来控制应用的UX操作的另一代表性操作环境1000。该应用具有两个不同的非接触UX操作，第一UX操作和第二UX操作。第一UX操作对应于第一发起条件，该第一发起条件至少包括以第一所需置信度级别的对第一所需接近度范围1002中的存在的接近度的检测。第二UX操作对应于第二发起条件，该第二发起条件至少包括以第二所需的置信度级别的对第二所需的接近度范围1004中的存在的接近度的检测。第二所需接近度范围1004不同于第一所需接近度范围1002。在一些实施方式中，第二所需接近度范围1004与第一所需接近度范围1002部分重叠。在第一所需接近度范围和第二所需接近度范围的重叠接近度范围中，基于哪一个最近被发起的或运动的方向(即，存在的接近度的改变)来发起第一和第二UX操作中的一个。可替选地，在一些实施方式中，第二所需接近度范围1004不与第一所需接近度范围1002重叠，并且与其分离了一定距离。在一些实施方式中，第二所需接近度1004范围与第一所需接近度范围1002相邻，并且通过距电子设备190具有阈值距离的响应点1010分离。UX操作在响应点1010的两侧处被发起。

在示例中，第一所需接近度范围1002比第二所需接近度范围1004更远离电子设备190。启用第一UX操作以在第一所需接近度范围1002中显示第一用户界面1006，并且第二UX操作被启用以在第二所需接近度范围1004中显示第二用户界面1008。在一些实施方式中，在显示第一用户界面1006之后，电子设备190确定满足第二发起条件并终止第一UX操作以发起第二UX操作并将第一用户界面1006替换为第二用户界面1008。类似地，在一些实施方式中，在显示第二用户界面1008之后，电子设备190确定满足第一发起条件并且终止第二UX操作以发起第一UX操作并且将第二用户界面1008替换成第一用户界面1006。

第二用户界面1008比第一用户界面1006更加复杂，因为用户更靠近电子设备190，并且可以更好地看到并且到达电子设备190的屏幕。第二用户界面1008被配置成显示比第一用户界面1006更多的信息，并且可选地包括一个或多个功能可见性(即，可作用项)。在一些实施方式中，第二用户界面1008具有与第一用户界面1006不同的焦点区域。在一些实施方式中，第二用户界面1008具有与第一用户界面1006不同的格式(例如，可滚动，以较小的字体大小显示更多的内容)。在示例媒体显示应用中，第一用户界面1006包括静态图像或显示有进度条1006B的视频剪辑1006A。当用户接近电子设备190——例如，经过响应点1010——时，第二用户界面1008被显示以呈现三个附加的功能可见性1012，用于快进、倒回以及播放/暂停显示的媒体内容。

图10B和10C图示根据一些实施方式的根据与两个不同的接近度范围1002和1004相对应的应用(例如，每日更新应用)的第一和第二UX操作显示的两个用户界面1006和1008。第一用户界面1006在背景上显示包括时间、天气图标和温度的主信息1022。第二用户界面1006除了主信息1022之外还显示辅信息1024和一个或多个功能可见性1026。辅信息1024包括接下来几个小时的温度、一天中的最高温度和最低温度以及位置。可以选择一个或多个功能可见性1026中的每一个以控制电子设备190或显示补充信息。在此示例中，显示的功能可见性1026被配置成使能够显示接下来的24小时的天气信息。

在一些实施方式中，与发起第二用户界面1008的第二UX操作同时启用UX操作830。尽管第二用户界面1008未示出声音音量的增加，如果已经确定存在的接近度和手势满足发起条件840则声音的音量被可选地升高。换句话说，当通过存在的接近度、相关联的手势以及已确定的置信度级别满足多个非接触UX操作的相应的发起条件时，可以同时发起该多个非接触UX操作。在发起多个非接触UX操作之前，基于这些UX操作的发起条件来选择一个或多个传感器信号，以便以所需的置信度级别和期望的时延来检测存在的接近度和/或相关联的手势。

图11是根据一些实施方式的控制UX操作的代表性方法1100的流程图。方法1100由电子设备(例如，显示助理设备190)执行，并且可选地由存储在非暂时性计算机可读存储介质中并且由电子设备的一个或多个处理器执行的指令管控。图11中所示的每个操作可以对应于存储在计算机存储器或非暂时性计算机可读存储介质(例如，图3A中的设备190的存储器306)中的指令。该计算机可读存储介质可以包括磁盘或光盘存储设备，诸如闪存的固态存储设备，或其他非易失性存储设备或者设备。存储在计算机可读存储介质上的指令可以包括下述中的一个或者多个：源代码、汇编语言代码、目标代码或由一个或多个处理器解释的其他指令格式。方法1100中的一些操作可以被组合和/或一些操作的顺序可以被改变。

电子设备识别在电子设备上执行的第一应用(1102)以及与第一应用相关联的第一非接触UX操作(1104)。第一UX操作具有发起条件，该发起条件至少包括以所需的置信度级别检测在所需的接近度范围内的存在和手势。可选地，从多个预确定的置信度级别中选择所需的置信度级别(例如，最高、高、中、低)。

然后，电子设备识别(1106)第一传感器信号，该第一传感器信号可用于针对发起条件确定相对于电子设备的存在的接近度，并从第一传感器信号确定(1108)相对于电子设备的存在的接近度以及确定的接近度是否在所需的接近度范围内。在一些实施方式中，发起条件包括第一发起条件。在电子设备上执行第二应用。识别与第二应用相关联的第二非接触UX操作，并且该第二非接触UX操作具有第二发起条件，该第二发起条件至少包括以第二所需置信度级别来检测在所需接近度范围中的存在和手势。识别第一传感器信号以确定针对第一和第二UX操作两者相对于电子设备的存在的接近度，并且识别第二传感器信号以确定针对第一和第二UX操作两者的与存在相关联的手势。根据第一非接触UX操作的第一所需置信度级别和第二非接触UX操作的第二所需置信度级别中的较高置信度级别来识别第一传感器信号和第二传感器信号。在此示例中，第二所需置信度级别低于第一所需置信度级别。

根据所确定的接近度处于所需接近度范围内的确定(1110)，电子设备识别(1112)第二传感器信号，该第二传感器信号可用于捕获所需接近度范围内的存在的手势。第二传感器信号被用于从第二传感器信号中确定(1114)存在的接近度相关联的手势以及对该手势的确定的相关联的置信度级别。在一些实施方式中，电子设备190还确定与对存在的接近度的确定相关联的第一置信度级别以及第一置信度级别是否满足发起条件。根据第一置信度级别满足发起条件的确定，第二传感器信号被识别并用于确定手势。在一些实施方式中，基于包括至少第一分类器和第二分类器的机器学习模型，从第二传感器信号确定与存在的接近度相关联的手势。第二分类器具有比第一分类器更高的复杂度级别，并且仅在在应用第一分类器并且产生满足所需置信度级别的中间置信度级别时才应用第二分类器。

在一些实施方式中，第一传感器信号和第二传感器信号都源自电子设备的超声传感器。将第一设置应用于超声传感器以供予第一传感器信号，并且将第二设置应用于超声传感器以供予第二传感器信号。与第一传感器信号相比，第二传感器信号与更高的信噪比相关联。可替选地，在一些实施方式中，从电子设备的超声传感器产生第一传感器信号，并且第二传感器信号包括由电子设备的相机捕获的视频信号。

电子设备确定(1116)所确定的手势和相关联的置信度级别是否满足发起条件，并根据已经满足发起条件的确定来发起(1118)与第一应用相关联的第一UX操作。在一些实施方式中，第一应用与具有第三发起条件的第三非接触UX操作相关联。第三发起条件至少包括以第三所需置信度级别检测在第三所需接近度范围中的存在和手势，并且第三所需接近度范围与第一所需接近度范围不同。根据已经满足第三发起条件的确定，电子设备190终止第一UX操作并且发起与第一应用相关联的第三UX操作。识别一个或两个传感器信号以检测第三所需接近度范围中的存在和手势。该一个或两个传感器信号可选地与被应用以检测第一所需接近度范围中的存在和手势的信号相同或不同。

应该理解，已经描述图11中的操作的特定顺序仅是示例性的，并且不意图指示所描述的顺序是其中可以执行操作的唯一顺序。本领域的普通技术人员将认识到控制如本文所述的UX操作的各种方式。另外，应注意，本文关于方法1200(例如，图12A-12D)描述的其他过程的细节也可以类似于上文关于图11所描述的方法1100的方式适用。为了简洁，这里不再重复这些细节。

图12A-12D是根据一些实施方式的控制UX操作的另一代表性方法1200的流程图。方法1200由电子设备(例如，显示助理设备190)执行，并且可选地由存储在非暂时性计算机可读存储介质中并且由电子设备的一个或多个处理器执行的指令管控。图12A-12D中所示的每个操作可以对应于存储在计算机存储器或非暂时性计算机可读存储介质(例如，图3A中的设备190的存储器306)中的指令。该计算机可读存储介质可以包括磁盘或光盘存储设备、诸如闪存的固态存储设备、或其他一个或多个非易失性存储设备。存储在计算机可读存储介质上的指令可以包括下述中的一种或多种：源代码、汇编语言代码、目标代码或由一个或多个处理器解释的其他指令格式。方法1100中的一些操作可以被组合和/或一些操作的顺序可以被改变。

电子设备识别在电子设备上执行的第一应用(1202)以及与第一应用相关联的第一非接触UX操作(1204)。第一UX操作具有发起条件，该发起条件至少包括以所需置信度级别检测所需接近度范围中的存在。可选地，从多个预确定置信度级别中选择所需置信度级别。第一UX非接触UX操作的示例包括但不限于显示触摸控制界面810、显示消息或通知820、经由扬声器播放消息或通知820’、经由扬声器播放问候和更新830、增加声音的音量840、减少声音的音量640以及启用安全警报系统850。

在一些实施方式中，第一非接触UX操作是(1206)与第一应用相关联的两个相对的非接触UX操作(例如，音量增大和音量减小)之一，并且两个相对的非接触UX操作具有彼此不同的两个所需的置信度级别。在一些实施方式中，与第一应用相关联的第一非接触UX操作(例如，图8A中的操作870)对应于两个所需置信度级别中的一个。这两个所需的置信度级别对应于安静的智能家庭环境和嘈杂的智能家庭环境。对应于安静智能家庭环境的第一所需置信度级别低于对应于嘈杂智能家庭环境的第二所需置信度级别。在一些实施方式中，多个预确定置信度级别包括(1208)根据置信度值的三个或更多个阈值定义的四个置信度级别的层级，并且四个置信度级别的层次包括低置信度级别、中置信度级别、高置信度级别和最高置信度级别。

电子设备识别(1210)第一传感器信号，该第一传感器信号可以用于针对发起条件确定相对于电子设备的存在的接近度。在一些实施方式中，电子设备接收指令以监视与第一应用相关联的第一非接触UX操作，并且获得包括(1212)脉冲串的第一传感器信号。在一些实施方式中，第一传感器信号由红外传感器、超声传感器、相机、飞行时间传感器、运动传感器、存在传感器、RADAR传感器和LiDAR传感器中的一个提供(1214)。在一些实施方式中；电子设备从多个不同类型的传感器中选择(1216)第一传感器，所述多个不同类型的传感器能够根据检测精度或检测时延以所需的置信度级别来检测在所需的接近度范围内的存在。第一传感器被配置成提供第一传感器信号。

在一些实施方式中，发起条件包括第一发起条件。电子设备识别在电子设备上执行的第二应用(1218)以及与第二应用相关联的第二非接触UX操作(1220)。第二UX操作具有第二发起条件，该第二发起条件包括以第二所需置信度级别检测在所需接近度范围中的存在。识别第一传感器信号以针对第一和第二UX操作两者确定相对于电子设备的存在的接近度。此外，在一些实施方式中，第二所需的置信度级别低于(1222)第一所需的置信度级别，并且根据第一非接触UX操作的第一所需的置信度级别和第二非接触UX操作的第二所需的置信度级别中的较高的置信度级别来识别第一传感器信号。

电子设备从第一传感器信号确定(1224)相对于电子设备存在的接近度以及该确定的相关联的置信度级别。可选地，对第一传感器信号进行滤波以至少部分地抑制第一传感器信号的噪声。在一些实施方式中，根据第一传感器信号的预确定持续时间确定存在的接近度(1226)，并且第一传感器信号的预确定持续时间是应用特定和操作特定的。在一些实施方式中，所识别的存在的接近度包括(1228)存在的接近度改变(例如，以指示是否用户正在接近或者离开电子设备)。为了确定存在的接近度改变，电子设备在第一时间确定存在的初始接近度，并在第一时间之后的第二时间确定存在的更新接近度，并识别相对于存在的初始接近度的存在的更新接近度的接近度改变。

电子设备确定(1230)所确定的接近度和相关联的置信度级别是否满足发起条件。根据确定已经满足发起条件的确定，电子设备发起(1250)与第一应用相关联的第一UX操作。

在一些实施方式中，发起条件还包括以所需的置信度级别的对在所需的接近度范围内的所需手势的检测。根据所确定的接近度和相关联的置信度级别满足发起条件的确定，电子设备进一步识别(1232)第二传感器信号，该第二传感器信号可用于捕获所需接近度范围内的存在的手势，并从第二传感器信号确定(1236)与存在的接近度相关联的手势。可选地，第二传感器信号被滤波以至少部分地抑制第二传感器信号的噪声。基于对手势的确定来更新相关联的置信度级别(1242)。电子设备还确定(1244)确定的手势和更新的置信度级别是否满足发起条件。根据对于存在的接近度和手势已经满足发起条件的确定来发起与第一应用相关联的第一UX操作。在一些实施方式中，第二传感器信号由红外传感器、超声传感器、相机、飞行时间传感器、运动传感器、存在传感器、RADAR传感器和LiDAR传感器之一提供。

在一些实施方式中，基于机器学习模型从第二传感器信号确定(1238)与存在的接近度相关联的手势。机器学习模型可选地至少包括(1240)第一分类器和第二分类器，该第二分类器与第一分类器相比具有更高的复杂度级别。具体地，电子设备使用第一分类器和第一置信度级别从第二传感器信号确定中间手势数据，以及第一置信度级别是否满足所需的置信度级别。根据第一置信度级别满足所需的置信度级别，电子设备继续使用第二分类器从中间手势数据确定手势。可替选地，根据第一置信度级别不满足所需的置信度级别，电子设备终止使用第二分类器从中间手势数据确定手势。注意，在一些实施方式中，在服务器系统164处实现第二分类器，即，电子设备将中间手势数据提供给远离电子设备的服务器系统164，并从服务器系统164接收最终手势数据。在一些情况下，电子设备的用户可以选择隐私设置以禁用手势确定中涉及服务器系统164以避免安全问题，并且为了遵守隐私设置，电子设备将实现整个机器学习模型，其本地包括第二分类器。

在一些实施方式中，第一传感器信号和第二传感器信号两者源自(1246)电子设备的超声传感器。将第一设置应用于超声传感器以供予第一传感器信号，并且将第二设置应用于超声传感器以供予第二传感器信号。第二传感器信号与第一传感器信号相比与更高的信噪比相关联。可替选地，在一些实施方式中，从电子设备的超声传感器生成第一传感器信号(1248)，并且第二传感器信号包括由电子设备的相机捕获的视频信号。此外，在一些情况下，与第一应用相关联的第一UX操作的发起包括接通电子设备的显示器以照亮电子设备的相机的视场。

在一些实施方式中，第一传感器信号和第二传感器信号中的每一个包括脉冲的串。可选地，脉冲的串持续达检测与第一UX操作相关联的存在和手势所需的扩展的持续时间，例如，用于调整声音音量840的1秒。可选地，脉冲的串持续直到接收到指令以停止发起第一UX操作为止。

在一些实施方式中，发起条件包括(1252)第一发起条件，其至少包括以第一所需置信度级别检查第一所需接近度范围中的存在。电子设备识别(1252)与第一应用相关联的第三非接触UX操作。第三UX操作具有第三发起条件，该第三发起条件至少包括以第三所需置信度级别检测第三所需接近度范围中的存在。第三所需接近度范围不同于第一所需接近度范围。根据已经满足第三发起条件的确定，电子设备终止(1258)第一UX操作并发起与第一应用相关联的第三UX操作。

在一些实施方式中，第一所需接近度范围内的每个位置具有(1254)距电子设备的第一距离，该第一距离大于阈值距离，并且第三所需接近度范围内的每个位置具有距电子设备的第二距离，该第二距离不大于阈值距离。此外，在一些实施方式中，第一UX操作被配置成在电子设备上显示(1256)第一用户界面。第三UX操作被配置成在电子设备上显示第二用户界面，并且第二用户界面被配置成比第一用户界面显示更多的信息，并且至少包括可作用项(例如，触摸控件)。也就是说，随着用户接近电子设备，例如，在阈值距离内移动，第二用户界面代替第一用户界面以向用户提供附加信息和可作用项。上面参考图10A-10C讨论在相同应用的两个非接触UX操作之间转变的更多细节。

应当理解，已经描述图12A-12D中的操作的特定顺序仅是示例性的，并不旨在指示所描述的顺序是可以执行操作的唯一顺序。本领域的普通技术人员将认识到控制如本文所述的UX操作的各种方式。另外，应注意，本文相对于方法1100(例如，图11)描述的其他过程的细节也可以类似于上文相对于图12A-12D描述的方法1200的方式应用。为了简便起见，此处不再重复这些细节。

根据本申请的一些实施方式，电子设备(例如，显示助理设备)被配置成实施与在其上执行的一个或多个应用相关联的场境化和非接触用户体验(UX)操作。电子设备被配置成根据存在的接近度和/或与存在相关联的手势来发起非接触UX操作(例如，启用用户界面的显示)，在正确的距离处显示正确的信息量和/或触摸控制选项。例如，基于用户的通常意图在远景中提供最有用的信息，并且当用户足够靠近电子设备时，在近景中提供附加信息和控件。就是说，基于涉及与对存在的接近度和相关联的手势的确定相关联的置信度级别的发起条件来发起每个非接触UX操作。

在本文中对各种所描述的实施方式的描述中使用的术语仅是出于描述特定实施方式的目的，而并非旨在进行限制。如在各种所描述的实施方式和所附权利要求的描述中所使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外明确指出。还应理解，本文所用的术语“和/或”是指并涵盖一个或多个相关联所列项目的任何和所有可能的组合。将进一步理解的是，当在本说明书中使用时，术语“包括”、“包括”、“包含”和/或“包含”规定了所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组。另外，将会理解，尽管术语“第一”、“第二”等在本文中可用于描述各种元件，但是这些元件不应受到这些术语的限制。这些术语仅用于区分一个元件和另一个元件。

如本文所用，取决于上下文，术语“如果”可选地解释为表示“在…时”或“一旦…”或“响应于确定”或“响应于检测到”或“根据确定”。类似地，取决于上下文，短语“如果确定”或“如果检测到[所陈述的状况或事件]”可选地被解释为意指“一旦确定”或“响应于确定”或“在检测到[所陈述的状况或事件]时”或“响应于检测到[所陈述的条件或事件]”或“根据确定检测到所[陈述的条件或事件]”。

应当理解，“智能家庭环境”可以指的是诸如单户住宅之类的家庭的智能环境，但是本教导的范围不限于此。本教导还适用于但不限于联式房屋、联排别墅、多单元公寓楼、旅馆、零售店、办公楼、工业建筑并且更一般地任何居住空间或工作空间。

为了说明的目的，已经参考特定实施例描述了前述描述。然而，以上说明性讨论并非旨在穷举或将权利要求限制为所公开的精确形式。鉴于以上教导，许多修改和变化是可能的。选择和描述实施例以便最佳地解释操作原理和实际应用，从而使本领域的其他技术人员能够实现。

尽管各种附图以特定顺序示出了多个逻辑阶段，但是可以将不依赖于顺序的阶段重新排序，并且可以组合或分解其他阶段。尽管具体提到了一些重新排序或其他分组，但其他分组对于本领域普通技术人员而言将是显而易见的，因此，本文呈现的排序和分组并非详尽的替代列表。此外，应当认识到，这些阶段可以以硬件、固件、软件或其任何组合来实现。

为了说明的目的，已经参考特定实施方式描述了以上描述。然而，以上说明性讨论并非旨在穷举或将权利要求的范围限制为所公开的精确形式。鉴于以上教导，许多修改和变形是可能的。选择实施方式是为了最好地解释权利要求及其实际应用所基于的原理，从而使本领域的其他技术人员能够最佳地使用具有适于所设想的特定用途的各种修改的实施方式。

Claims

1.一种用于控制用户体验UX操作的方法，包括：

在具有一个或多个处理器和存储器的电子设备上：

识别正在所述电子设备上执行的第一应用；

识别与所述第一应用相关联的第一非接触UX操作，所述第一UX操作具有第一发起条件，所述第一发起条件至少包括以第一所需置信度级别检测在所需接近度范围中的存在，所述第一所需置信度级别是从多个预确定置信度级别中选择的；

识别正在所述电子设备上执行的第二应用；和

识别与所述第二应用相关联的第二非接触UX操作，所述第二UX操作具有第二发起条件，所述第二发起条件至少包括以第二所需置信度级别检测在所述所需接近度范围中的存在；

识别第一传感器信号，所述第一传感器信号能够被用于针对所述第一和第二发起条件确定相对于所述电子设备的存在的接近度；

从所述第一传感器信号中确定相对于所述电子设备的所述存在的接近度以及所述确定的相关联的置信度级别；

确定所确定的接近度和相关联的置信度级别是否满足所述第一发起条件；以及

根据已经满足所述第一发起条件的所述确定，发起与所述第一应用相关联的所述第一UX操作。

2.根据权利要求1所述的方法，其中，所述第二所需置信度级别比所述第一所需置信度级别低，并且所述第一传感器信号根据所述第一非接触UX操作的所述第一所需置信度级别和所述第二非接触UX操作的所述第二所需置信度级别中的较高置信度级别来识别。

3.根据权利要求1所述的方法，其中，所述第一发起条件进一步包括以所述第一所需置信度级别检测在所述所需接近度范围中的所需手势，进一步包括根据所确定的接近度和相关联的置信度级别满足所述第一发起条件的确定：

识别第二传感器信号，所述第二传感器信号能够被用于捕获所述所需接近度范围内的所述存在的手势；

从所述第二传感器信号中确定与所述存在的接近度相关联的手势；

基于所述手势的所述确定来更新所述相关联的置信度级别；

确定所确定的手势和所更新的置信度级别是否满足所述第一发起条件，其中，与所述第一应用相关联的所述第一UX操作是根据针对所述存在的接近度和所述手势已经满足所述第一发起条件的确定来发起的。

4.根据权利要求3所述的方法，其中，所述第一传感器信号和所述第二传感器信号两者源自所述电子设备的超声传感器，进一步包括：

将第一设置应用于所述超声传感器以供予所述第一传感器信号；

将第二设置应用于所述超声传感器以供予所述第二传感器信号，其中，所述第二传感器信号与所述第一传感器信号相比与更高的信噪比相关联。

5.根据权利要求4所述的方法，其中，将所述第一设置和所述第二设置顺序地被应用于所述超声传感器，以在所述第一传感器信号之后获得所述第二传感器信号。

6.根据权利要求3所述的方法，其中，所述第一传感器信号从所述电子设备的超声传感器中生成，并且所述第二传感器信号包括由所述电子设备的相机捕获的视频信号。

7.根据权利要求6所述的方法，其中，发起与所述第一应用相关联的所述第一UX操作进一步包括：

接通所述电子设备的显示器以照亮所述电子设备的相机的视场。

8.根据权利要求3所述的方法，其中，与所述存在的接近度相关联的所述手势是基于机器学习模型来从所述第二传感器信号中确定。

9.根据权利要求8所述的方法，其中，所述机器学习模型至少包括第一分类器和第二分类器，所述第二分类器与所述第一分类器相比具有更高的复杂度级别，并且确定所述手势进一步包括：

使用所述第一分类器从所述第二传感器信号中确定中间手势数据；

确定与所述中间手势数据的所述确定相关联的第一置信度级别；

确定所述第一置信度级别是否满足所述第一所需置信度级别；

根据所述第一置信度级别满足所述第一所需置信度级别，使用所述第二分类器从所述中间手势数据中确定所述手势；和

根据所述第一置信度级别不满足所述第一所需置信度级别，终止使用所述第二分类器从所述中间手势数据中确定所述手势。

10.根据权利要求1-9中的任一项所述的方法，其中，所述第一传感器信号由以下中的一个提供：红外传感器、超声传感器、相机、飞行时间传感器、运动传感器、存在传感器、RADAR传感器和LiDAR传感器。

11.根据权利要求10所述的方法，其中，多个传感器具有不同的类型，并且能够以所述第一所需置信度级别检测在所述所需接近度范围中的所述存在，进一步包括：

根据检测时延来选择第一传感器，所述第一传感器被配置成提供所述第一传感器信号。

12.根据权利要求1-9中的任一项所述的方法，进一步包括：

接收用于监视与所述第一应用相关联的所述第一非接触UX操作的指令；和

响应于用于监视所述第一非接触UX操作的所述指令，获得包括脉冲串的所述第一传感器信号。

13.根据权利要求12所述的方法，其中，所述存在的接近度是从所述第一传感器信号的预确定的持续时间中确定，并且所述第一传感器信号的所述预确定的持续时间是应用特定的和操作特定的。

14.根据权利要求1-9中的任一项所述的方法，其中，所识别的存在的接近度包括所述存在的接近度改变，并且确定所述存在的接近度包括：

在第一时间确定所述存在的初始接近度；

在所述第一时间之后的第二时间确定所述存在的更新接近度；和

相对于所述存在的初始接近度来识别所述存在的更新接近度的所述接近度改变。

15.根据权利要求1-9中的任一项所述的方法，进一步包括：

对所述第一传感器信号进行滤波以至少部分地抑制所述第一传感器信号的噪声。

16.根据权利要求1-9中的任一项所述的方法，其中，所述多个预确定置信度级别包括根据置信度值的三个或更多个阈值定义的四个置信度级别的层级，并且所述四个置信度级别的层级包括低置信度级别、中置信度级别、高置信度级别和最高置信度级别。

17.根据权利要求1-9中的任一项所述的方法，其中，所述第一非接触UX操作是以下中的一个：显示触摸控制界面、显示消息或通知、经由扬声器播放消息或通知、经由所述扬声器播放问候和更新、增加声音的音量、减少声音的音量以及启用安全警报系统。

18.根据权利要求1-9中的任一项所述的方法，其中，所述第一非接触UX操作是与所述第一应用相关联的两个相对的非接触UX操作中的一个，并且所述两个相对的非接触UX操作具有彼此不同的两个所需置信度级别。

19.根据权利要求1-9中的任一项所述的方法，其中，与所述第一应用相关联的所述第一非接触UX操作与对应于安静智能家庭环境和嘈杂智能家庭环境的两个所需置信度级别中的一个所需置信度级别相对应，所述两个所需置信度级别中的与所述安静智能家庭环境相对应的第一所需置信度级别比所述两个所需置信度级别中的与所述嘈杂智能家庭环境的第二所需置信度级别低。

20.根据权利要求1-9中的任一项所述的方法，进一步包括：

识别与所述第一应用相关联的第三非接触UX操作，所述第三UX操作具有第三发起条件，所述第三发起条件至少包括以第三所需置信度级别检测第三所需接近度范围中的所述存在，所述第三所需接近度范围与和所述第一发起条件相关联的所述所需接近度范围不同；和

根据已经满足所述第三发起条件的确定，终止所述第一UX操作并发起与所述第一应用相关联的所述第三UX操作。

21.根据权利要求20所述的方法，其中，所述第一所需接近度范围中的每个位置具有距所述电子设备的第一距离，所述第一距离大于阈值距离，并且所述第三所需接近度范围中的每个位置具有距所述电子设备的第二距离，所述第二距离不大于所述阈值距离。

22.根据权利要求21所述的方法，其中：

所述第一UX操作被配置成在所述电子设备上显示第一用户界面；以及

所述第三UX操作被配置成在所述电子设备上显示第二用户界面，所述第二用户界面被配置成与所述第一用户界面相比显示更多的信息并且至少包括可作用项。

23.一种电子设备，包括：

一个或多个处理器；

具有存储在其上的指令的存储器，所述指令在由所述一个或多个处理器执行时，使所述处理器执行根据权利要求1-9中的任一项所述的方法中的操作。

24.一种具有存储在其上的指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时，使所述处理器执行根据权利要求1-9中的任一项所述的方法中的操作。