CN110709930B

CN110709930B - 用于提供有关检测到的事件的信息的方法、系统和介质

Info

Publication number: CN110709930B
Application number: CN201880037153.XA
Authority: CN
Inventors: 亚当·尚皮
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-07-21
Filing date: 2018-06-14
Publication date: 2023-12-01
Anticipated expiration: 2038-06-14
Also published as: JP2020528158A; US11567726B2; BR112019024646A2; EP3613045A1; JP6745419B1; CN110709930A; WO2019018083A1; US20190026066A1; KR20200005741A; EP3613045B1; KR102338888B1

Abstract

提供了用于提供信息的方法、系统和介质。在一些实现中，提供了一种用于提供信息的方法，该方法包括：将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联；以及从用户设备接收包括触发项的查询；响应于接收查询，确定将从来自用户的环境中的记录设备组的至少一个记录设备传输音频数据；基于触发项包括在所接收的查询中，识别第一记录设备；从第一记录设备接收音频数据；基于所接收的音频数据，识别用户的环境中的有生命对象的特性；以及在用户设备上呈现指示有生命对象的特性的信息。

Description

用于提供有关检测到的事件的信息的方法、系统和介质

技术领域

所公开的主题涉及用于提供与检测到的事件有关的信息的方法、系统和介质。

背景技术

许多人拥有多个用户设备，该多个用户设备可能都能够在人的家中记录音频和/或视频数据。例如，人在他们的家中可能具有多个移动设备、虚拟助手设备、一个或多个智能电视和/或其他这样的设备，并且这些设备可能位于不同的房间中。在许多情况下，设备可能能够记录指示诸如孩子哭泣的人可能感兴趣的事件的音频数据或视频数据。但是，可能难以使用设备来检测感兴趣的事件并将事件的信息提供给人。

因此，期望提供用于提供与检测到的事件有关的信息的新方法、系统和介质。

发明内容

根据所公开的主题的各种实现，提供了用于提供信息的方法、系统和介质。

根据所公开的主题的一些实现，提供了一种用于提供信息的方法，该方法包括：将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联；从用户设备接收包括触发项的查询；响应于接收查询，确定将从来自用户的环境中的记录设备组的至少一个记录设备传输音频数据；基于触发项包括在所接收的查询中，识别第一记录设备；从第一记录设备接收音频数据；基于所接收的音频数据，识别用户的环境中的有生命对象的特性；以及在用户设备上呈现指示有生命对象的特性的信息。

根据所公开的主题的一些实现，提供了一种用于提供信息的系统，该系统包括：硬件处理器，该硬件处理器被编程为：将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联；从用户设备接收包括触发项的查询；响应于接收查询，确定将从来自用户的环境中的记录设备组的至少一个记录设备传输音频数据；基于触发项包括在所接收的查询中，识别第一记录设备；从第一记录设备接收音频数据；基于所接收的音频数据，识别用户的环境中的有生命对象的特性；以及在用户设备上呈现指示有生命对象的特性的信息。

根据所公开的主题的一些实现，提供了一种包含计算机可执行指令的非暂时性计算机可读介质，该计算机可执行指令在由处理器执行时使处理器执行用于提供信息的方法，该方法包括：将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联；从用户设备接收包括触发项的查询；响应于接收查询，确定将从来自用户的环境中的记录设备组的至少一个记录设备传输音频数据；基于触发项包括在所接收的查询中，识别第一记录设备；从第一记录设备接收音频数据；基于所接收的音频数据，识别用户的环境中的有生命对象的特性；以及在用户设备上呈现指示有生命对象的特性的信息。

根据所公开的主题的一些实现，提供了一种用于提供信息的系统，该系统包括：用于将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联的装置；用于从用户设备接收包括触发项的查询的装置；响应于接收查询，用于确定将从来自用户的环境中的记录设备组的至少一个记录设备传输音频数据的装置；用于基于触发项在所接收的查询中的包括来识别述第一记录设备的装置；用于从第一记录设备接收音频数据的装置；用于基于所接收的音频数据来识别用户的环境中的有生命对象的特性的装置；以及用于在用户设备上呈现指示有生命对象的特性的信息的装置。

在一些实现中，将第一记录设备与触发项相关联是基于由第一记录设备先前记录的音频数据的。

在一些实现中，将第一记录设备与触发项相关联是基于在用户的环境内的第一记录设备的已知位置的。

在一些实现中，将第一记录设备与触发项相关联是基于第一记录设备的推断的位置的，其中，所述推断的位置基于先前接收的来自用户设备的查询来确定。

在一些实现中，信息在包括使所接收的音频数据被用户设备呈现的可选输入的用户接口内呈现。

在一些实现中，信息在包括使第一记录设备记录附加的音频数据的可选输入的用户接口内呈现。

在一些实现中，该系统进一步包括：用于从记录设备组中的第二记录设备接收第二音频数据的装置；用于基于所接收的第二音频数据来检测与有生命对象有关的事件的装置；用于确定用户设备的用户是否可能对所检测的事件感兴趣的装置；以及响应于确定用户可能对所检测的事件感兴趣，用于使对所检测的事件的指示被呈现在用户设备上的装置。

附图说明

当结合以下附图考虑时，参考所公开主题的以下详细描述，可以更充分地理解所公开主题的各种目的、特征和优点，在附图中，相同的附图标记识别相同的元件。

图1示出了根据所公开的主题的一些实现的在用户的家中的用户设备的说明性布局的示例。

图2示出了根据所公开的主题的一些实现的适合于实现本文所述的用于提供与检测到的事件有关的信息的机制的说明性系统的示意图。

图3示出了根据所公开的主题的一些实现的可以在图2的服务器和/或用户设备中使用的硬件的详细示例。

图4示出了根据所公开的主题的一些实现的用于响应于用户查询而提供信息的过程的示例。

图5示出了根据所公开的主题的一些实现的用于响应于检测到的事件而提供信息的过程的示例。

具体实施方式

根据各种实现，提供了用于提供与检测到的事件有关的信息的机制(该机制可以包括方法、系统和介质)。

在一些实现中，本文描述的机制可以从位于遍及用户的家或其他环境的一个或多个设备收集音频数据和/或视频数据，并且可以使用所收集的数据向用户提供例如关于用户的家中的有生命对象或人的信息。例如，在一些实现中，该机制可以提供关于用户的孩子、宠物、老年亲人和/或任何其他合适的人或有生命对象的当前状态或活动的信息。作为更特定的示例，在一些实现中，该机制可以向用户提供提醒或消息，该提醒或消息指示用户的婴儿醒来并在哭泣、用户的狗在用户的家中的特定房间中的家具处抓挠和/或任何其他合适的信息。在一些实现中，该机制可以响应于从用户接收到查询而提供信息。例如，在一些实现中，响应于接收到诸如“我的狗在做什么”的查询，该机制可以激活一个或多个设备以检测用户的狗(例如，基于指示狗的存在的音频数据、基于指示狗的存在的图像或视频数据和/或任何其他合适的信息)，并且然后可以基于来自设备的数据向用户提供响应。附加地或替代地，在一些实现中，该机制可以使用一个或多个设备来检测用户可能感兴趣的事件(例如，“您的婴儿在哭泣”、“您的猫的食物盘空了”和/或任何其他合适的事件)，并可以向用户提供指示检测到的事件的提醒或消息。

附加地或替代地，在一些实现中，该机制可以基于设备中的每个的性能来确定位于遍及用户的家或环境的一个或多个设备中的哪些可以响应于从用户接收到的查询而提供信息。例如，在一些实现中，响应于接收到诸如“打开婴儿房间的实况麦克风”的查询，该机制可以确定在用户的家中的设备中的哪些在与“婴儿房间”相关联的位置处或附近并可以确定与“婴儿”房间位置相关联的设备中的哪些具有可以被打开的麦克风性能。作为响应，该机制可以激活所确定的设备的麦克风并在与提供查询的用户相关联的扬声器或其他音频输出(例如，移动设备上的扬声器、在移动设备的位置处或附近的位置处的显示设备上的扬声器、通过局域网连接到移动设备的媒体接收器等)上回放由激活的麦克风捕获的音频信号。

在一些实现中，用于收集音频数据和/或视频数据的一个或多个设备可以是任何合适类型的设备，诸如虚拟助手设备、语音控制的扬声器、web相机、移动设备(例如，移动电话、平板计算机和/或任何其他合适类型的移动设备)、智能恒温器、智能电视和/或任何其他合适类型的设备。注意，在一些实现中，一个或多个设备可以以任何合适的方式通信地耦合。例如，在一些实现中，一个或多个设备可各自连接到环境内的通信网络(例如，WiFi网络、局域网、蓝牙网络和/或任何其他合适的网络)。

在一些实现中，本文描述的机制可以使用任何合适的信息来选择利用其收集数据的一个或多个设备。例如，在一些实现中，该机制可以将特定设备与特定查询项相关联。作为更特定的示例，在一些实现中，该机制可以将词“婴儿”与位于用户的家的特定房间中的设备(例如婴儿监视器)相关联。在一些这样的实现中，该机制可以基于任何合适的信息将特定设备与特定位置相关联，该合适的信息诸如由用户提供(例如，经由设置接口和/或以任何其他方式提供)的显式指示和/或经由隐式推断(例如，基于确定通常与婴儿相关联的声音已频繁地从由特定设备收集的音频数据中被检测到和/或以任何其他合适的方式)。

在一些实现中，可以响应于检测到特定词或短语而激活收集音频数据和/或视频数据的设备，该特定词或短语例如是用户的查询中包括的词或短语。作为更具体的示例，在一些实现中，设备可以响应于确定词“婴儿”、“狗”和/或任何其他合适的词已经被说出而开始记录数据。附加地或替代地，在一些实现中，设备可以连续地记录音频数据和/或视频数据，并且可以分析记录的数据以确定用户可能感兴趣的事件是否在记录的数据中被指示。在一些实现中，设备可以以任何合适的方式存储记录的数据。例如，在一些实现中，可以将数据存储在任何合适大小的循环缓冲器中，并且如果确定数据不包括用户可能感兴趣的音频或视频信号，则可以删除所收集的数据。

在一些实现中，该机制可以响应于查询或指示检测到的事件的信息而在可以允许用户请求附加信息的用户接口内呈现信息。例如，在一些实现中，该机制可以指示已经检测到特定事件(例如，“您的婴儿在哭泣”、“您的狗在抓挠您的沙发”和/或任何其他合适的事件)并且用户接口可以允许用户请求将记录的音频和/或视频呈现在特定用户设备上(例如，在呈现用户接口的用户设备上、在用户的家内的不同用户设备上和/或任何其他合适的用户设备)。作为另一个示例，在一些实现中，用户接口可以允许用户激活特定的麦克风或相机(例如，与记录与事件的检测相关联的数据的设备相关联的麦克风或相机和/或任何其他合适的设备)以记录附加音频或视频数据，并在特定用户设备上(例如，在呈现用户接口的用户设备上、在用户的家内的不同用户设备上和/或在其他任何其他合适的用户设备上)呈现附加音频或视频数据。

图1示出了用户的家中的用户设备的布局的说明性示例。在一些实现中，用户的家可以包括多个房间，例如，卧室102、客厅104、厨房106和浴室108。虽然在图1中未示出，但是在一些实现中，用户设备可以附加地或替代地位于外部位置，例如用户的汽车、用户的办公室和/或任何其他合适的位置。用户的家可以包含任何合适数量的用户设备，诸如电视110、移动设备112和/或虚拟助手设备116。在一些实现中，用户的家可以包括任何其他合适的设备，诸如智能恒温器、台式计算机、膝上型计算机、平板计算机、可穿戴计算机、语音控制的扬声器、投影仪、web相机和/或任何其他合适的设备。

在一些实现中，电视110、移动设备112、虚拟助手设备116和用户的家中的任何其他设备可以以任何合适的方式被连接和/或通信地耦合。例如，在一些设备中，设备可以各自通过可以放置在用户的家中的任何合适位置的路由器114连接到通信网络。注意，虽然在图1中示出了一个电视、一个移动电话和一个虚拟助手设备，但是在一些实现中，可以包括每种类型的任何合适数量的设备。

如图1所示，在一些实现中，用户的家中的第一设备可以记录包括对诸如婴儿哭泣或狗吠叫的事件的检测的数据。如以下结合图4和5所述，与记录的数据和/或检测到的事件有关的信息然后可以被呈现在用户的家中的第二设备上。例如，如图1所示，与来自卧室102中的虚拟助手设备116的对用户的狗的记录相对应的视频或音频数据可以被呈现在客厅104中的电视110上。在一些这样的实现中，响应于从诸如移动设备112的第三设备接收到请求，视频或音频数据可以被呈现在电视110上，如以下结合图4和5更详细描述的。

转向图2，示出了根据所公开的主题的一些实现的可以使用的用于提供与检测到的事件有关的信息的硬件的示例200。如所图示，硬件200可以包括一个或多个服务器202、通信网络204和/或一个或多个用户设备206，诸如用户设备208和210。

服务器202可以是用于提供对本文所述的用于呈现信息的机制的访问的任何合适的服务器，诸如处理器、计算机、数据处理设备或这些设备的任何合适的组合。例如，在一些实现中，服务器202可以存储指示用户设备的类型和/或用户设备在用户的家内的位置的信息。作为另一示例，在一些实现中，服务器202可以向特定用户账户认证在用户的家中的一个或多个用户设备。作为又一个示例，在一些实现中，服务器202可以从用户设备接收音频和/或视频数据(例如，从与设备相关联的麦克风接收记录的音频数据、从与设备相关联的麦克风接收记录的视频数据和/或任何其他合适的音频和/或视频数据)，并且可以处理音频和/或视频数据以确定数据的特性(例如，音频数据是否包括有生命对象的一个或多个特性，例如与婴儿相关联的噪声；音频数据和/或视频数据是否包括狗或其他宠物的噪声或图像；和/或任何其他合适的识别特性)。

在一些实现中，通信网络204可以是一个或多个有线和/或无线网络的任何合适的组合。例如，通信网络210可以包括以下中的任何一个或多个：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线(DSL)网络、帧中继网络、异步传送模式(ATM)网络、虚拟专用网(VPN)和/或任何其他合适的通信网络。用户设备206可以被一个或多个通信链路链接到可以经由一个或多个通信链路链接到服务器202的通信网络204。通信链路可以是适合于在用户设备206和服务器202之间传达数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其他合适的通信链路或这样的链路的任何合适的组合。

用户设备206可以包括适合于接收音频和/或视频数据、处理音频和/或视频数据、基于音频和/或视频数据向用户设备的用户呈现信息和/或任何其他合适的功能的任何一个或多个用户设备。例如，在一些实现中，用户设备206可以包括移动设备，诸如移动电话、平板计算机、可穿戴计算机、膝上型计算机、交通工具(例如，汽车、船、飞机或任何其他合适的交通工具)娱乐系统和/或任何其他合适的移动设备。作为另一个示例，在一些实现中，用户设备206可以包括媒体回放设备，诸如电视、投影仪设备、游戏控制台、台式计算机和/或任何其他合适的非移动设备。作为又一个示例，在一些实现中，用户设备206可以包括虚拟助手设备、语音控制的扬声器和/或任何其他合适类型的设备。

在更特定的示例中，用户设备206可以是包括用于呈现从一个或多个媒体内容源接收的媒体的硬件和/或软件的显示设备。例如，用户设备206可以包括电视、智能电视、监视器、机顶盒、音频视频(AV)接收器、任何其他合适的媒体回放设备和/或其任何合适的组合。更具体地，用户设备206可以包括显示器、扬声器、用于渲染诸如模拟和/或数字视频和/或音频数据的媒体内容的硬件和/或软件、电源等。用户设备206在一些实现中可以包括用于从各种源接收视频和/或音频数据的各种输入端口。这样的输入端口可包括一个或多个HDMI端口、一个或多个分量视频端口、一个或多个复合视频端口、一个或多个USB端口、一个或多个S-Video端口、一个或多个TOSLINK端口、一个或多个同轴端口、一个或多个以太网端口(无论是有线的还是无线的)等。

在另一更特定的示例中，用户设备206可以是可以接收音频信号并将音频信号(潜在地通过一个或多个中间设备)输出到一个或多个扬声器的任何合适的设备。例如，用户设备206可以是音频视频(AV)接收器、扬声器、放大器、音频开关、HDMI开关、任何其他合适的音频系统和/或其任何合适的组合。更特别地，用户设备206可以包括扬声器、用于渲染诸如模拟和/或数字音频和/或视频数据的媒体内容的硬件和/或软件、电源等。用户设备206可以包括用于接收来自各种源的音频和/或视频数据的各种输入端口。这样的输入端口可包括一个或多个HDMI端口、一个或多个分量视频端口、一个或多个复合视频端口、一个或多个USB端口、一个或多个S-Video端口、一个或多个TOSLINK端口、一个或多个同轴端口、一个或多个以太网端口(无论是有线的还是无线的)等。附加地或替代地，在一些实现中，用户设备206可以被配置为通过任何合适的无线连接——诸如通过到局域网的连接(例如，经由遵从有时也称为Wi-Fi连接的IEEE 802.11x协议系列中的一个的连接)或外部声音系统106与计算设备102之间的无线连接，诸如自组织无线网络连接、短距离无线通信协议(例如，蓝牙、低功耗蓝牙、无线USB等)等——接收音频信号。

虽然将服务器202图示为一个设备，但是在一些实现中，可以使用任何适当数量的设备来执行由服务器202执行的功能。例如，在一些实现中，可以使用多个设备来实现由服务器202执行的功能。

虽然在图2中示出了两个用户设备208和210以避免使附图过于复杂，但是在一些实现中可以使用任何合适数量的用户设备和/或任何合适类型的用户设备。

在一些实现中，可以使用任何合适的硬件来实现服务器202和用户设备206。例如，在一些实现中，可以使用任何合适的通用计算机或专用计算机来实现设备202和206。例如，可以使用专用计算机来实现移动电话。任何这样的通用计算机或专用计算机可以包括任何合适的硬件。例如，如在图3的示例硬件300中所图示的，这样的硬件可以包括硬件处理器302、存储器和/或存储304、输入设备控制器306、输入设备308、显示/音频驱动器310、显示和音频输出电路系统312、通信接口314、天线316和总线318。

在一些实现中，硬件处理器302可以包括任何合适的硬件处理器，例如微处理器、微控制器、数字信号处理器、专用逻辑和/或用于控制通用计算机或专用计算机的运行的任何其他合适的电路系统。在一些实现中，硬件处理器302可以由存储在服务器(例如，诸如服务器202中的一个)的存储器和/或存储304中的服务器程序控制。例如，在一些实现中，服务器程序可以使硬件处理器302使用任何合适的技术来分析接收到的音频和/或视频数据、存储特定设备与特定类型的查询的关联和/或执行任何其他动作。在一些实现中，硬件处理器302可以由存储在用户设备206的存储器和/或存储304中的计算机程序控制。例如，计算机程序可以使硬件处理器302记录音频和/或视频数据、基于记录的音频和/或视频数据检测事件、使与记录的数据有关的信息被呈现和/或执行任何其他合适的动作。

在一些实现中，存储器和/或存储304可以是用于存储程序、数据、媒体内容和/或任何其他合适的信息的任何合适的存储器和/或存储。例如，存储器和/或存储304可以包括随机存取存储器、只读存储器、闪存、硬盘存储、光学介质和/或任何其他合适的存储器。

在一些实现中，输入设备控制器306可以是用于控制和接收来自一个或多个输入设备308的输入的任何合适的电路系统。例如，输入设备控制器306可以是用于接收来自触摸屏、来自键盘、来自鼠标、来自一个或多个按钮、来自语音辨识电路、来自麦克风、来自相机、来自光学传感器、来自加速度计、来自温度传感器、来自近场传感器和/或任何其他类型的输入设备的输入的电路系统。

在一些实现中，显示/音频驱动器310可以是用于控制和驱动对一个或多个显示/音频输出设备312的输出的任何合适的电路系统。例如，显示/音频驱动器310可以是用于驱动触摸屏、平板显示器、阴极射线管显示器、投影仪、一个扬声器或多个扬声器和/或任何其他合适的显示和/或呈现设备的电路系统。

通信接口314可以是用于与一个或多个诸如如图2中所示的网络210的通信网络接合(interface)的任何合适的电路系统。例如，接口314可以包括网络接口卡电路系统、无线通信电路系统和/或任何其他合适类型的通信网络电路系统。

在一些实现中，天线316可以是用于与通信网络(例如，通信网络206)无线地通信的任何合适的一个或多个天线。在一些实现中，可以省略天线316。

在一些实现中，总线318可以是用于在两个或更多个组件302、304、306、310和314之间进行通信的任何合适的机制。

根据一些实现，任何其他合适的组件可以被包括在硬件300中。

转向图4，根据所公开的主题的一些实现示出了用于响应于用户的查询而提供信息的过程的示例400。

过程400可以通过在402处从用户设备接收查询开始。在一些实现中，查询可以请求与例如用户的家中的一个或多个有生命对象有关的任何合适类型的信息。查询的示例可以包括“收听我的在卧室中的婴儿”、“我的狗在做什么？”和/或任何其他合适的查询。在一些实现中，查询可以指示任何合适的信息，诸如特定的有生命对象(例如，孩子、宠物和/或任何其他合适的有生命对象或人)、位置(例如，卧室、地下室、楼上、楼下、后院和/或任何其他合适的位置)、动作(例如，睡觉、哭泣、吠叫和/或任何其他合适的动作)和/或任何其他合适的信息。在一些实现中，查询可以以任何合适的方式被接收，该合适的方式例如是作为由用户设备经由与用户设备相关联的麦克风接收到的语音查询、作为经由用户设备上的键盘输入的文本查询和/或以任何其他合适的方式。在一些实现中，查询可以指示房间和/或将被激活的特定设备。例如，在一些实现中，查询可以指定婴儿监视器将被激活、特定房间中的虚拟助手设备将被激活和/或任何其他合适的设备。作为更特定的示例，在一些实现中，查询可以指示来自特定设备的音频将经由用户设备被记录和呈现(例如，实时地和/或具有任何合适的延迟)。

在404处，过程400可以识别用户的家中的一个或多个设备以接收和/或记录与接收到的查询有关的信息。在一些实现中，一个或多个设备可以是任何合适类型的设备，诸如移动设备(例如，移动电话、平板计算机和/或任何其他合适类型的移动设备)、虚拟助手设备、web相机和/或任何其他合适类型的设备。

在一些实现中，过程400可以基于任何合适的信息来识别一个或多个设备。例如，在一些实现中，过程400可以基于包括在查询中的信息来识别一个或多个设备。作为更特定的示例，在查询包括位置信息(例如，卧室、室外、后院、楼下和/或任何其他合适的位置信息)的情况下，过程400可以识别位于所指示的位置中和/或在所指示的位置附近的一个或多个设备。作为特定示例，在查询指示将从用户的家的厨房中记录信息的情况下，过程400可以识别位于厨房中或附近的一个或多个设备。作为另一个更特定的示例，在查询指示特定的有生命对象或人(例如，用户的孩子或宠物和/或任何其他合适的有生命对象或人)的情况下，过程400可以识别有生命对象或人通常位于的通常位置(例如，孩子的卧室、客厅和/或任何其他合适的位置)附近的一个或多个设备。在一些这样的实现中，过程400可以基于诸如显式地提供的信息的任何合适的信息(例如，被指示为婴儿监视器的设备、被指示为位于特定房间中的设备)和/或基于隐式地推断的信息来识别有生命对象或人通常位于的通常位置附近的一个或多个设备。例如，在过程400基于隐式地推断的信息识别一个或多个设备的情况下，可以基于定位已知在特定房间内的设备或者基于先前已经从设备记录的声音或图像来识别设备。作为更具体的示例，过程400可以基于确定先前已经使用特定设备记录了通常与婴儿相关联的声音来将特定设备识别为可能在婴儿的房间中。在一些这样的实现中，过程400可以向用户设备的用户请求对特定设备位于推断的位置的确认(例如，经由呈现诸如“该设备是婴儿监视器吗？”的问题的接口和/或以其他任何合适的方式)。

注意，在一些实现中，查询可包括可被视为触发项的一个或多个词，该触发项例如可为或包括触发词或触发短语，如下文结合框410更详细描述的。例如，在一些实现中，触发词或触发短语可以包括人或有生命对象的类型(例如，“婴儿”、“狗”和/或任何其他合适类型的人或有生命对象)和/或人或有生命对象的特定名称(例如，用户的孩子或宠物的名称)。在一些这样的实现中，例如基于由设备记录的先前检测到的声音或图像，触发词或触发短语可以与特定设备相关联，如下面结合框410更详细地描述的。在一些实现中，如果确定查询不包括任何触发词和/或查询中没有词或短语先前已与特定设备相关联，则过程400可以响应于接收到查询而确定将激活用户的环境中的多个设备(例如，所有设备、特定位置附近的所有设备、能够记录视频数据的所有设备和/或任何其他合适的设备组)以记录音频和/或视频数据。

注意，在一些实现中，过程400可以使用任何合适的技术或技术组合来确定哪些设备在特定位置中或附近。例如，在一些实现中，过程400可以使用所存储的已经由用户显式地提供的信息，该信息例如指示特定的虚拟助手设备位于特定的位置、特定的智能电视位于特定的卧室和/或任何其他合适的位置和设备组合。作为另一示例，在一些实现中，过程400可以基于先前的查询已经先前地确定了特定设备与位置之间的关联，如下面结合框410更详细地描述的。在一些这样的实现中，过程400可以使用隐式地确定的位置信息以识别一个或多个设备。

作为另一示例，在一些实现中，过程400可以基于确定与接收到的查询相关联的信息所需的设备性能来识别一个或多个设备。作为更具体的示例，在查询指示音频信息可能有用的情况下，过程400可以识别包括麦克风和/或与麦克风相关联的一个或多个设备(例如，移动设备、web相机、虚拟助手设备和/或任何其他合适的设备)。作为特定示例，诸如“我的婴儿在哭泣吗？”的查询可能指示音频信息可能有用。作为另一更具体的示例，在查询指示视频信息可能有用的情况下，过程400可以识别包括相机和/或与相机相关联的一个或多个设备。作为特定示例，诸如“我的狗在哪里？”的查询可能指示视频信息可能有用。

作为又一示例，在一些实现中，过程400可以在接收到查询的用户设备上呈现向用户设备的用户请求对记录设备的指示的用户接口。作为更具体的示例，在一些实现中，过程400可以呈现可用的记录设备组，并且可以请求用户选择记录设备中的一个或多个来记录与查询有关的数据。在一些这样的实现中，过程400可以以任何合适的方式识别可用的记录设备，该合适的方式例如是通过识别连接到在用户的家中的通信网络(例如，WiFi网络、LAN、蓝牙网络和/或任何其他合适的通信网络)的记录设备。

在406处，过程400可以从一个或多个设备接收数据。例如，在一些实现中，过程400可以从与设备中的每个相关联的麦克风和/或相机接收音频记录和/或视频记录。注意，在一些实现中，可以从任何合适数量(例如，一个、两个、五个和/或任何其他合适数量)的设备接收数据。过程400可以以任何合适的方式接收数据。例如，在一些实现中，过程400可以使与设备相关联的麦克风被激活以记录音频数据。作为另一个示例，在一些实现中，过程400可以使与设备相关联的相机被激活以记录图像和/或视频数据。注意，在一些实现中，与设备相关联的麦克风和/或相机可能已经被激活，并且过程400可以使音频和/或视频数据被保存以便处理。在一些实现中，过程400可以使捕获的音频和/或视频数据被传输到服务器202以便处理。

在一些实现中，过程400可以捕获音频和/或视频数据并处理记录的音频和/或视频数据，直到确定捕获的数据包括与查询有关的信息为止。例如，在查询指示请求了关于用户的婴儿的信息的情况下，过程400可以记录音频和/或视频数据，直到在记录的数据中检测到与婴儿相关联的声音(例如，哭泣、咿呀学语声和/或任何其他合适的声音)为止。作为另一示例，在查询指示请求了关于用户的狗的信息的情况下，过程400可以记录音频和/或视频数据，直到与狗相关联的声音(例如，吠叫、抓挠和/或任何其他合适的声音)被记录和/或狗的图像被捕获为止。在一些实现中，可以在处理之前以任何合适的方式存储音频数据和/或视频数据。例如，在一些实现中，音频数据和/或视频数据可以被存储在任何合适大小的循环缓冲器中，并且被确定为与查询不相关的数据在其被处理和/或分析之后可以被丢弃。作为更具体的示例，在查询指示请求了关于用户的婴儿的信息的情况下，过程400可以记录来自一个或多个设备的音频数据块，分析记录的音频数据块以确定在记录的音频数据中是否存在与婴儿相关联的声音，并且如果确定不存在与婴儿相关联的声音，则删除记录的音频数据块。作为另一更具体的示例，过程400可以记录来自一个或多个设备的视频数据块，分析记录的视频数据块以确定在记录的视频数据中是否存在与查询相关联的图像(例如，用户的婴儿的图像、用户的宠物的图像和/或任何其他合适的图像内容)，并且如果确定不存在与查询关联的图像，则删除记录的视频数据块。

在一些实现中，过程400可以任何合适的方式分析记录的音频数据。例如，在一些实现中，过程400可以比较音频数据和/或基于记录的音频数据生成的签名以确定记录的音频数据是否与存储在声音数据库中的声音匹配。在一些实现中，声音数据库可以包括任何合适的声音，诸如婴儿哭泣、狗吠叫、狗或猫抓挠、孩子玩耍和/或可以用于识别记录的声音的任何其他合适的声音。在一些实现中，过程400可以使用任何合适的技术生成音频指纹以将记录的音频与声音数据库中的声音进行比较。例如，在一些实现中，过程400可以生成指示与任何合适的频率相对应的频谱的音频指纹和/或任何其他合适的信息。

在408处，过程400可以基于用户查询和所接收的数据向用户呈现信息。在一些实现中，过程400可以呈现与用户查询有关的任何合适的信息。例如，在查询是“收听我的在卧室中的婴儿”的情况下，过程400可以呈现来自卧室的音频记录、来自卧室的视频记录、对记录的数据的描述(例如，“卧室中没有噪声”、“您的婴儿仍在睡觉”和/或任何其他合适的描述)和/或任何其他合适的对查询的响应。在呈现音频数据、图像数据和/或视频数据的情况下，过程400可以以任何合适的方式呈现音频数据、图像数据和/或视频数据。例如，在一些实现中，过程400可以在由用户用于输入查询的用户设备上呈现任何合适的音频或视频。作为另一示例，在一些实现中，音频和/或视频可以在包括用于交互的任何其他合适的选项的用户接口内被呈现，该任何其他合适的选项诸如用于在不同的用户设备上呈现音频和/或视频的可选输入、用于记录来自同一记录设备的附加音频和/或视频数据的可选输入和/或任何其他合适的选项。作为另一示例，在查询询问是或否问题的情况下，过程400可以呈现查询的答案。是/否问题的更具体示例可以包括：“我的婴儿在睡觉吗？”；“我的狗在吠叫吗？”和/或其他合适的问题。

注意，在一些实现中，呈现信息的用户设备可以远离用户的家和/或记录设备。例如，在一些实现中，当在远程位置(例如，用户的办公室、旅途中和/或任何其他合适的远程位置)时，用户设备的用户可能已经经由用户设备传输了查询，并且可能使用由用户的家内的记录设备记录的数据请求关于用户的家(例如，用户的家中的有生命对象或人)的信息。

在410处，过程400可以将一个或多个设备中的至少一个设备与一个或多个触发项相关联，所述触发项可以例如是或包括查询中的触发词和/或触发短语。例如，在一些实现中，设备可以与查询中的一个或多个触发词相关联以识别用于在将来回答相似的查询的合适的设备。在一些实现中，过程400可以基于任何合适的信息将至少一个设备与查询中的一个或多个触发词相关联。例如，在查询请求关于用户的孩子的信息并且特定设备检测到与孩子相关联的声音或噪声(例如，特定卧室中的虚拟助手设备和/或任何其他合适的设备)的情况下，过程400可以将特定设备与孩子和/或查询中使用的孩子的名称相关联。作为另一个示例，在查询引用特定位置(例如卧室、客厅和/或任何其他合适的位置)的情况下，过程400可以将记录相关数据(例如宠物的声音或图像和/或任何其他合适的相关数据)的设备与特定位置相关联。

注意，在一些实现中，过程400可以关于查询使用任何合适的自然语言处理技术以将至少一个设备与查询中的一个或多个词相关联。例如，在查询是“收听我的在另一个房间中的婴儿”的情况下，过程400可以确定用户的家中有不只一个房间(例如，除了用户当前处于的房间之外的房间)并可以确定包括检测婴儿的设备的房间是“另一个房间”。

另外，注意，在一些实现中，过程400可以响应于检测到触发词或触发短语而开始记录音频和/或视频数据。例如，在一些实现中，触发词或触发短语可以包括人或有生命对象的类型和/或人或有生命对象的特定名称。作为更具体的示例，在一些实现中，触发词可以包括“婴儿”、“狗”、“猫”、用户的孩子的名称、用户的宠物的名称和/或任何其他合适的词或名称。作为另一示例，在一些实现中，触发词或触发短语可以包括用户的环境中的位置，诸如“厨房”、“客厅”、“婴儿的房间”和/或任何其他合适的位置。在一些实现中，响应于检测到触发词或触发短语，过程400可以从任何合适的设备开始记录以确定与触发词或触发短语相关联的声音或图像是否被包括在记录的音频或视频数据中。例如，在检测到的触发词是“婴儿”的情况下，过程400可以开始记录音频和/或视频数据以确定是否可以检测到与婴儿相关联的声音。在一些实现中，过程400可以响应于检测到触发字或触发短语而激活任何合适的设备。另外地或替代地，在一些实现中，过程400可以基于触发词或触发短语来选择要激活的设备。例如，在一些实现中，在检测到的触发词是“婴儿”的情况下，过程400可以激活先前已经检测到与婴儿相关联的声音的一个或多个设备和/或已知在与如用户所指示的婴儿相关联的位置(例如，婴儿的房间和/或任何其他合适的位置)中的一个或多个设备。

转向图5，根据所公开的主题的一些实现，示出了用于检测事件并呈现指示该事件的信息的过程的示例500。

在502处，过程500可以通过从一个或多个设备接收数据开始。例如，如上文结合图4的框406所描述，数据可以包括从与设备相关联的麦克风和/或相机记录的任何合适的音频数据和/或视频数据。在一些实现中，音频数据和/或视频数据可以具有任何合适的长度(例如，一秒、两秒、十秒和/或任何其他合适的长度)。在一些实现中，数据可以由服务器从一个或多个设备接收以进行处理和分析。

在504处，过程500可以基于接收到的数据来检测事件，该事件是有生命对象或人的特性的部分或包括有生命对象或人的特性。在一些实现中，事件可以涉及特定的有生命对象或人。例如，在一些实现中，事件可能是用户的婴儿在哭泣、用户的孩子醒来、用户的狗在吠叫、用户的宠物在家具处抓挠和/或其他任何合适的事件。在一些实现中，过程500可以使用任何合适的技术或技术的组合来检测事件。例如，在一些实现中，过程500可以分析记录的音频数据以确定音频数据是否包括特定的声音(例如，婴儿哭泣或咿呀学语声、孩子说话、玩具的声音、狗吠叫或抓挠和/或任何其他合适的声音)。作为另一示例，在一些实现中，过程500可以分析记录的视频数据以确定视频中是否包括特定的有生命对象或人以及如果视频中包括人或有生命对象，确定人或有生命对象的当前状态或活动。作为更具体的示例，在一些实现中，过程500可以使用任何合适的图像处理或图像辨识技术来确定视频数据是否包括狗并且然后可以确定狗是正在睡觉还是醒着、吠叫还是安静和/或任何其他合适的特性。注意，在一些实现中，过程500可以使用任何合适的技术或技术的组合来分析记录的数据以检测事件。例如，在一些实现中，过程500可以将基于记录的音频数据生成的音频指纹与已知声音的数据库(如以上结合图4的框406所述)进行比较以确定记录的音频数据是否包括已知声音，诸如婴儿哭泣或狗吠叫。作为另一示例，在一些实现中，过程500可以使用任何合适的图像辨识技术来分析记录的视频数据以确定记录的视频数据是否包括已知的有生命对象或人(例如，用户的宠物、用户的孩子和/或任何其他合适的已知的有生命对象或人)和/或特定类型的有生命对象或人(例如，孩子、狗、猫和/或任何其他合适类型的有生命对象或人)。

在一些实现中，过程500可以确定用户是否将对检测到的事件感兴趣的可能性。在一些实现中，过程500可以基于任何合适的信息来确定可能性。例如，在一些实现中，过程500可以基于已经呈现给用户的先前信息以及基于用户对先前呈现的信息的反应来确定可能性。作为更具体的示例，在过程500确定先前已经向用户呈现了对相同或相似事件的指示(例如，“您的婴儿在哭泣”、“您的狗在抓挠沙发”和/或任何其他合适的事件)的情况下，过程500可以确定用户是否基于事件请求了附加信息(例如，请求查看与事件有关的音频或视频数据、请求激活与检测到的事件相关联的设备以记录附加音频或视频数据和/或请求任何其他合适的附加信息)。继续该示例，在过程500确定用户先前已请求附加信息的情况下，过程500可以相对于处理500确定用户已经通常不请求附加信息的情况指派相对较高的可能性(例如，大于50％、大于70％和/或任何其他合适的可能性)。附加地或替代地，在一些实现中，过程500可以向所确定的可能性指派置信度值。在一些这样的实现中，置信度值可以基于检测到的事件或类似事件已经被呈现给用户的次数。例如，在一些实现中，相对于已经被呈现给用户先前十次的检测到的事件，已经被呈现给用户仅先前一次的检测到的事件可以被指派相对较低的置信度值。此外，在一些实现中，置信度值可以基于用户对先前呈现的类似事件的响应的可变性。在一些实现中，置信度值可以基于从用户设备的用户接收的显式反馈。例如，在一些实现中，在呈现对检测到的事件的指示(例如，“我听见你的狗吠叫”、“我听见你的婴儿哭泣”和/或任何其他合适的检测到的事件)之后，过程500可以呈现请求关于检测到的事件是否正确和/或是否对检测到的事件感兴趣的反馈的消息。作为更特定的示例，在一些实现中，请求反馈的消息可以是“您的狗在吠叫吗？”和/或“您是否对该事件感兴趣？”在一些这样的实现中，消息可以包括用于响应于该消息而从用户接收反馈的任何合适的用户接口控件，诸如用于选择“是”或“否”的单选按钮和/或任何其他合适的用户接口控件。在一些这样的实现中，显式反馈可以用于在将来设置类似的检测到的事件的置信度值。

在506处，过程500可以经由用户设备上的用户接口呈现指示事件的信息。例如，在一些实现中，过程500可以呈现指示已经检测到哭泣的婴儿、已经检测到吠叫的狗的消息和/或任何其他合适的消息。

在一些实现中，过程500可以基于任何合适的信息来确定是否呈现指示事件的信息。例如，在一些实现中，如果所确定的用户将对事件感兴趣的可能性超过预确定阈值(例如，大于50％、大于70％和/或任何其他合适的可能性)，则过程500确定要呈现信息。作为另一示例，在一些实现中，如果所确定的可能性超过第一预确定阈值并且所确定的置信度值超过第二预确定阈值(例如，大于50％，大于70％和/或任何其他合适的置信度值)，则过程500可以确定要呈现信息。作为另一示例，在一些实现中，过程500可以基于用户偏好来确定是否要呈现信息。作为更具体的示例，在一些实现中，用户偏好可以指示用户想要在一天中的某些时间(例如，晚上9点至早上6点之间和/或任何其他合适的时间)期间接收从特定的记录设备(例如，婴儿监视器、特定的语音控制扬声器和/或任何其他合适的设备)获得的信息。作为另一个更具体的示例，在一些实现中，用户可以显式地激活有关用户的家中的特定记录设备或对象的提醒。

在508处，过程500可以经由用户接口接收对呈现附加信息的请求。例如，在一些实现中，用户接口可以附加地包括一个或多个可选输入以允许用户请求附加信息。例如，在一些实现中，用户接口可以包括可选输入，该可选输入在被选择时使记录的音频数据经由用户设备被呈现。作为另一示例，在一些实现中，用户接口可以包括可选输入，该可选输入在被选择时使与记录与检测到的事件相对应的数据的设备相关联的麦克风被激活，并且使附加的记录的音频数据经由用户设备被呈现。作为又一个示例，在一些实现中，用户接口可以包括可选输入，该可选输入在被选择时使记录的音频数据或视频数据被呈现在诸如附近的电视机的第二用户设备上。

在一些实现中，可以以任何顺序或次序实行或执行图4和图5的过程的上述框中的至少一些，而不限于附图中所示的和结合附图描述的顺序和次序。另外，图4和5的上述框中的一些框可以在适当情况下被基本同时或并行地实行或执行以减少时延和处理时间。附加地或替代地，可以省略图4和图5的过程中的上述框中的一些。

在一些实现中，任何合适的计算机可读介质可以用于存储用于执行本文的功能和/或过程的指令。例如，在一些实现中，计算机可读介质可以是暂时性的或非暂时性的。例如，非暂时性计算机可读介质可以包括介质，诸如磁性介质(诸如硬盘，软盘和/或任何其他合适的磁性介质)、光学介质(诸如光盘、数字视频盘、蓝光盘和/或任何其他合适的光学介质)、半导体介质(诸如闪存、电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)和/或任何其他合适的半导体介质)、在传输期间不短暂或不缺乏任何持久性表象的任何合适的介质和/或任何合适的有形介质。作为另一个示例，暂时性计算机可读介质可以包括网络上、电线、导体、光纤、电路、在传输期间短暂且缺乏任何持久性表象的任何合适的介质和/或任何合适的无形介质中的信号。

在本文描述的系统收集关于用户的个人信息或利用个人信息的情况下，可以向用户提供控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前位置的信息)的机会。此外，在存储或使用某些数据之前，可能会以一种或多种方式处理该数据，使得个人信息被移除。例如，可以处理用户的身份，使得针对用户没有个人可识别信息可以被识别，或者在获得位置信息的情况下可以将用户的地理位置概括化(诸如，到城市、ZIP码或州级别)，使得无法确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息并且内容服务器如何使用信息。

因此，提供了用于提供与检测到的事件有关的信息的方法、系统和介质。

虽然已经在前述说明性实现中描述和说明了本发明，但是应当理解，本公开仅是通过示例的方式做出的，并且在不脱离仅由以下权利要求书限定的本发明的本发明的精神和范围的情况下在本发明的实现的细节中可以做出许多改变。可以以各种方式组合和重新布置所公开的实现的特征。

Claims

1.一种用于提供信息的方法，包括：

将位于用户的环境中的记录设备组中的第一记录设备与触发项相关联，其中，所述触发项指示与所述第一记录设备相关联的有生命对象以及所述用户的所述环境内的所述第一记录设备的位置；

从用户设备接收包括所述触发项的查询；

基于所接收的查询，确定将从在所述用户的所述环境中的所述记录设备组中的至少一个记录设备传输音频数据；

基于所述触发项包括在所接收的查询中，从所述记录设备组中识别将接收所述音频数据的所述第一记录设备；

响应于检测到所述触发项以及识别所述第一记录设备，激活所述第一记录设备并且从所述第一记录设备接收所述音频数据；

在从所激活的第一记录设备接收的所述音频数据内检测在所述用户的所述环境中在所述触发项中指示的与所述有生命对象相关的事件；

基于已在所述用户设备上被呈现给所述用户的先前信息来确定所述用户对所检测的事件感兴趣的可能性，其中，基于所检测的事件在所述用户设备上被呈现给所述用户的次数，置信度值被指派给所确定的可能性；以及

响应于确定所述用户对所检测的事件感兴趣的所述可能性大于第一预确定阈值并且响应于确定所述置信度值大于第二预确定阈值，在所述用户设备上呈现指示与所述有生命对象相关的所述事件的信息。

2.根据权利要求1所述的方法，其中，将所述第一记录设备与所述触发项相关联是基于由所述第一记录设备先前记录的音频数据的。

3.根据权利要求1所述的方法，其中，将所述第一记录设备与所述触发项相关联是基于在所述用户的所述环境内的所述第一记录设备的已知位置的。

4.根据权利要求1所述的方法，其中，将所述第一记录设备与所述触发项相关联是基于所述第一记录设备的推断的位置的，其中，所述推断的位置基于先前接收的来自所述用户设备的查询来确定。

5.根据权利要求1所述的方法，其中，所述信息在用户接口内被呈现，所述用户接口包括使所接收的音频数据被所述用户设备呈现的可选输入。

6.根据权利要求1所述的方法，其中，所述信息在用户接口内被呈现，所述用户接口包括使所述第一记录设备记录附加的音频数据的可选输入。

7.一种用于提供信息的系统，所述系统包括：

硬件处理器，所述硬件处理器被编程为：

从用户设备接收包括所述触发项的查询；

8.根据权利要求7所述的系统，其中，将所述第一记录设备与所述触发项相关联是基于由所述第一记录设备先前记录的音频数据的。

9.根据权利要求7所述的系统，其中，将所述第一记录设备与所述触发项相关联是基于在所述用户的所述环境内的所述第一记录设备的已知位置的。

10.根据权利要求7所述的系统，其中，将所述第一记录设备与所述触发项相关联是基于所述第一记录设备的推断的位置的，其中，所述推断的位置基于先前接收的来自所述用户设备的查询来确定。

11.根据权利要求7所述的系统，其中，所述信息在用户接口内被呈现，所述用户接口包括使所接收的音频数据被所述用户设备呈现的可选输入。

12.根据权利要求7所述的系统，其中，所述信息在用户接口内被呈现，所述用户接口包括使所述第一记录设备记录附加的音频数据的可选输入。

13.一种存储计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令在被计算机执行时使所述计算机执行根据权利要求1至6中的任一项所述的方法。