CN107111363A

CN107111363A - 监视

Info

Publication number: CN107111363A
Application number: CN201580069677.3A
Authority: CN
Inventors: J·莱佩宁; A·埃罗南; A·莱赫蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-12-24
Filing date: 2015-12-18
Publication date: 2017-08-29
Anticipated expiration: 2035-12-18
Also published as: WO2016102759A1; EP3037916B1; PL3037916T3; JP6600359B2; CN107111363B; US10540542B2; JP2018509670A; EP3037916A1; PH12017501186A1; US20180005024A1

Abstract

一种方法，包括：自动处理来自场景的所记录的第一传感器数据，以便从所述场景中的用户动作自动识别第一用户输入；响应于识别所述第一用户输入，自动进入学习状态以使得能够：自动处理来自所述场景的所述第一传感器数据，以便从所述第一用户输入之后的所述场景捕获特定空间事件序列，以及自动处理与所述场景的所述第一传感器数据不同的来自所述场景的后续记录的第二传感器数据，以便在所述后续记录的第二传感器数据中自动识别与所捕获的空间事件序列相对应的空间事件序列。

Description

监视

技术领域

本发明的实施例涉及监视场景。具体地说，它们涉及场景的自动监视。

背景技术

当前监视系统(例如监控系统)可以包括一个或多个摄像机以便进行具有或没有音频记录的视频记录，这些摄像机经由导线或无线连接到集线器，该集线器存储从场景记录的数据或者实现该数据的存储。在某些实例中，操作者可以能够使用集线器对摄像机和/或集线器的设置进行编程。

发明内容

根据本发明的各种实施例但不一定所有实施例，提供一种根据权利要求1至14中的任一项所述的方法。

根据本发明的各种实施例但不一定所有实施例，提供一种根据权利要求15所述的装置。

根据本发明的各种实施例但不一定所有实施例，提供一种装置，包括：至少一个处理器；以及

至少一个存储器，其包括计算机程序代码

所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起，导致所述装置至少执行根据权利要求1至14中的任一项所述的方法。

根据本发明的各种实施例但不一定所有实施例，提供一种计算机程序，当在计算机上运行时，所述计算机程序执行：根据权利要求1至14中的任一项所述的方法。

附图说明

为了更好地理解用于理解简要描述的各种实例，现在将仅通过实例的方式参考附图，这些附图是：

图1示意性地示出系统的一个实例；

图2示出状态机的一个实例；

图3示出处理模块的一个实例；

图4示出计算机程序的传送机制的一个实例；

图5A示出产生状态机的新的学习后的响应状态的过程的一个实例；以及

图5B示出从监视状态转变到新的学习后的响应状态并且执行关联的学习后的响应动作的过程的一个实例；以及

图6示出图5B中所示的状态机的变型；

图7A和7B示出用于控制学习后的响应状态的产生的用户界面的一个实例；以及

图8A和8B示出用于控制学习后的响应状态的产生的另一用户界面的一个实例。

具体实施方式

所述系统100是监视至少一个场景的系统。场景内的用户可以通过在场景内执行动作，控制系统的操作。例如，用户能够控制系统以使得用户可以实现某种行为，并且系统可以在将来识别相似行为。

图1示意性地示出系统100，系统100包括：一个或多个传感器110，其被配置为记录来自场景140的传感器数据112；处理模块120，其被配置为处理从场景140记录的传感器数据112，以便自动识别在该场景140中发生的事件，并且作为识别结果自动做出决策；以及通信模块130，其被配置为当由处理模块120做出通信决策时进行通信。

被识别的某些事件但不一定所有事件可能涉及场景140中的物体152或特定物体152。物体可以是场景140中的无生命物体、动物、人或特定人150。在系统100的某些实例但不一定所有实例中，系统100是实时识别系统，并且自动识别和决策(如果有)与记录传感器数据112基本上同时发生。

系统100可以用于监控、监视或其它应用。系统100可以用于企业、公共区域或家中。一种预期使用是作为家庭监控系统。

例如当用户是场景140中的人150时，系统100可使用户能够控制监视。例如当用户是场景140中的人150时，系统100可使用户能够控制识别和/或识别结果。

在某些实例但不一定所有实例中，系统100可以包括多个分离装置。例如，传感器110可以被容纳在一个或多个单独装置中，处理模块120可以被容纳在一个或多个装置中，并且通信模块130可以被容纳在一个或多个装置中。如果系统100的一个或多个组件被容纳在分离装置中，则这些装置可以彼此在本地或远离，并且如果它们远离，则它们可以例如通过网络通信。

在某些实例但不一定所有实例中，系统100可以被容纳在单个装置中。

传感器110被配置为记录来自场景140的传感器数据112或者实现来自场景140的传感器数据112的记录。

场景140可以包括例如具有固定相对位置的静态组件，例如静态物体。这些静态物体在场景的三维空间(场景空间)中具有不同的静态位置。场景140可以包括移动组件，例如移动物体。随着时间的推移，移动物体在场景空间中具有不同的位置。相对于不同传感器数据112或不同时间对“场景”的参考暗示被感测的场景140的这些静态组件的连续性，它不一定暗示部分或全部动态组件的连续性(尽管可能发生这种情况)。

传感器数据112的记录可以仅包括临时记录，或者它可以包括永久记录，或者它可以包括临时记录和永久记录两者。临时记录暗示临时地记录数据。这可以例如在感测期间发生，在动态存储器处发生，在缓冲区(例如循环缓冲区)、寄存器、高速缓存等处发生。永久记录暗示数据采取可寻址数据结构(其可以从可寻址存储空间检索)的形式，并且因此可以被存储和检索直到被删除或覆盖，然而可能发生也可能不发生长期存储。

传感器110可以被配置为将传播波(例如声波和/或光波)转换为电信号，这些电信号将来自场景140的传播波数据编码为传感器数据112。

在某些实例但不一定所有实例中，传感器110相对于场景空间被固定在空间中。在其它实例中，传感器110相对于场景空间可移动或正在移动。

在某些实施例但不一定所有实施例中，传感器是图像传感器114或者包括图像传感器114。图像传感器114的一个实例是数字图像传感器，其被配置为作为摄像机操作。可以操作此类摄像机以便记录静态图像和/或视频图像。

在某些实施例但不一定所有实施例中，可以以立体或其它空间分布式布置配置摄像机，以使得从不同角度查看场景140。这使得能够产生三维图像和/或处理，以便例如经由视差效应确定深度。

在某些实施例但不一定所有实施例中，传感器110是音频传感器116或者包括音频传感器116。音频传感器116的一个实例是一个或多个麦克风。可以以立体或其它空间分布式布置(例如麦克风阵列)配置麦克风，以使得从不同角度对场景140进行采样。这可以实现三维空间音频处理，其允许音频在场景140内的定位。

在某些实施例但不一定所有实施例中，传感器是深度传感器118或者包括深度传感器118。深度传感器118可以包括发送器和接收器。发送器发送信号(例如，人不能感测的诸如超声或红外光的信号)并且接收器接收反射的信号。使用单个发送器和单个接收器，可以经由测量从发送到接收的飞行时间获得某些深度信息。可以通过使用更多发送器和/或更多接收器(空间多样性)获得更好的分辨率。在一个实例中，发送器被配置为使用空间相关模式，以光(优选地为不可见光，例如红外光)“绘制”场景。由接收器检测某种模式允许对场景140进行空间解析。可以通过飞行时间和/或立体视法(如果接收器相对于发送器处于立体位置中)确定到场景140的被空间解析部分的距离。

在这些“被动”或“非主动”深度感测实例中，要感测的人150或物体152是被动的并且仅反射由发送器发射的入射光或声波。但是，此外或备选地可以使用“主动”实例，它们需要被感测物体处的活动。作为一个实例，人可以携带定位装置，其被配置为在场景空间内定位该定位装置。定位装置可以例如使用加速度计测量定位装置从参考位置的运动。可以可选地使用陀螺仪确定方向。此外或备选地，定位装置可以通过向多个接收器发送和/或从多个发送器接收，经由三角测量(三边测量)实现定位。

在所示实例但不一定所有实例中，处理模块120包括存储子模块122、处理子模块124、识别子模块126、以及控制子模块128。尽管“模块”被分别描述和示出，但它们可以(尽管它们不需要)分离或者以不同组合被组合。例如，处理子模块124、识别子模块126、以及控制子模块128可以由同一电路执行，或者在同一计算机程序的控制下执行。备选地，处理子模块124、识别子模块126、以及控制子模块128中的一者或多者可以由专用电路或专用计算机程序执行。可以使用软件、专用硬件或者已编程硬件和软件的混合执行所述子模块。

存储子模块122可以用于存储未处理的传感器数据110和/或处理后的传感器数据110(场景数据)、计算机程序、场景空间模型以及由处理模块120使用的其它数据，尽管其它子模块可以具有它们自己的存储器。

处理子模块124可以被配置为处理传感器数据112，以便确定对于场景140有意义的场景数据。

处理子模块124可以被配置为执行图像处理，其中传感器数据110包括来自一个或多个摄像机114的图像数据。处理子模块124可以被配置为执行音频处理，其中传感器数据110包括来自一个或多个麦克风116的音频数据。

处理子模块124可以被配置为使用传感器数据112自动执行以下一个或多个任务，以便产生对于场景140具有潜在意义的场景数据：

使用机器(计算机)视觉执行以下一者或多者：

检测(移动或静止)物体或人，

对(移动或静止)物体或人进行分类，和/或

跟踪(移动或静止)物体或人；

使用空间分析执行以下一者或多者：

使用深度确定在场景空间中定位(移动或静止)物体，和/或

产生场景空间图；和/或

使用行为分析将在场景140中发生的事件描述为可能有意义的符号。

图像处理的一个实例是“梯度特征直方图”分析，其针对图像产生强度梯度或边缘方向的分布。图像可以被分为小的连通区域(单元)，并且对于每个单元，针对该单元内的像素产生梯度方向或边缘方向的直方图。这些直方图的组合然后表示描述符。

音频处理的一个实例是“梅尔频率倒谱系数”确定、例如使用音频波束成形技术的空间音频处理、音频事件识别或分类、说话者识别或验证或语音识别。

可以例如使用相对于背景模型的差分(背景减除)或者相对于前一个图像的差分(时间差分)实现运动检测，或者使用某种其它方法(例如使用基于向量的方法的光流分析)实现运动检测。

可以例如使用基于图形的分析和/或基于运动的分析实现物体分类。

人的分类可以是物体是人的分类或者物体是特定人(标识)的分类。可以使用属性或属性组合实现标识，这些属性唯一地标识一组可能人内的某人。属性的实例包括：特定于某人或者可能特定于某人的生物特征，例如其面部或其语音；其身材和尺码；其行为。

可以通过标记物体并且记录被标记物体在场景140中的位置实现物体跟踪。可能需要算法处理以下一个或多个事件：物体进入场景140；物体离开场景140；物体再次进入场景140；物体遮挡；物体合并。如何处理这些事件在本领域中是公知的。

物体跟踪可以用于确定物体或人何时改变。例如，在大的宏观规模上跟踪物体允许产生与物体一起移动的参考帧。该参考帧然后可以用于通过使用相对于物体的时间差分，跟踪物体的随时间演化的形状变化。这可以用于检测小规模的人运动，例如手势、手部移动、面部移动。这些是相对于用户的场景无关的(仅)用户移动。

系统100可以相对于人体跟踪多个物体和/或点，例如人体的一个或多个关节。在某些实例中，系统100可以执行人体的全身骨骼跟踪。

系统100可以在手势识别等中使用相对于人体的一个或多个物体和/或点的跟踪。

行为分析需要使用有意义符号描述在场景140中发生的事件。事件可以是在空间-时间实例处发生的某事，或者它可以是空间-时间序列(随着时间推移的空间-时间实例模式)。事件可以涉及物体(或人)的运动或者人与物体的交互。

在某些实现但不一定所有实现中，事件可以由推定符号表示，该推定符号根据从机器(计算机)视觉分析和/或空间分析确定的参数来定义。这些参数对以下某些项或更多项进行编码：发生什么、在何处发生、何时发生以及何人执行。

识别子模块126被配置为将对场景140中的事件进行编码的推定(putative)符号识别为与特定意义相关联的有意义符号。

识别子模块126可以被配置为识别推定符号，所述推定符号根据从机器(计算机)视觉分析和/或空间分析确定的参数来定义，并且由处理子模块124产生为具有意义。识别子模块126可以例如存储或访问有意义参考符号的数据库，并且可以使用相似性测试判定推定符号是否与有意义符号“相似”。

识别子模块126可以被配置为机器(计算机)推理引擎或其它识别引擎，例如人工神经网络或参数空间中的群集。在某些实例中，可以经由监督式学习来训练识别子模块126，以便将有意义符号识别为与参考符号相似。

控制子模块128依赖于已在场景140中发生有意义事件来响应该事件的确定：

a)如果推定符号与响应符号相似，则有意义事件是“响应”事件，并且控制子模块128执行响应动作。

在某些实例但不一定所有实例中，可以由用户对执行的动作进行编程。在某些实例但不一定所有实例中，可以经由用户在场景内的运动发生编程。下面参考图5A和5B提供实例。执行的动作的实例可以是生成警报或通知。

可以经由通信模块130提供警报或通知。通信模块130可以经由无线电波无线地或者经由到本地或远程装置的有线连接进行通信。此类装置的实例包括但不限于显示器、电视、音频输出装置、诸如移动电话或个人计算机之类的个人设备、投影仪或其它用户输出装置。

在某些实例但不一定所有实例中，可以由用户对响应符号进行编程。例如，如在下面参考图5A和5B进一步详细描述的，用户能够对由有意义响应符号表示的有意义事件进行编程或教导。由用户产生的响应符号可以被添加到参考符号数据库，或者以其他方式用于将推定符号识别为有意义符号。在某些实例但不一定所有实例中，可以经由用户在场景140内的运动发生编程。由有意义符号表示的有意义事件的实例包括执行的特定动作或移动，例如用户输入手势。

b)如果推定符号与用户控制符号相似，则有意义事件是“用户控制事件”，并且控制子模块128实现用户监视控制和/或用户响应控制。

如在下面参考图5A和5B进一步详细描述的，“用户控制”事件的一个实例是由学习符号表示的学习事件。推定符号与学习符号匹配的这一识别使用户能够对有意义响应事件和/或该响应事件的响应动作进行编程或教导。执行的动作的实例可以是生成警报或通知。

可以从图2进一步理解处理模块120的操作，图2示出处理模块120的状态机200。状态机200具有监视状态210、用户控制状态220、以及自动响应状态230。

在监视状态210下，传感器110提供传感器数据112，并且处理子模块124自动处理传感器数据112(视频和/或音频和/或深度)以便产生具有潜在意义的场景数据。识别子模块126自动处理场景数据，以便在场景数据内标识实际意义(即，有意义符号)。

有意义符号是预定的，即，在识别之前已发生的确定符号的动作。但是，“预定”不应被视为表示确切的或固定的。用于相似性匹配的符号仅具有预先确定，它可以动态演化或者可以是固定的。

如果识别子模块126确定已在场景140中发生有意义事件，则控制子模块128根据该事件自动响应。如果有意义事件是“响应”事件，则状态机200转变到响应状态230，并且控制子模块128执行与该响应事件相关联的响应动作。如果事件是“用户控制”事件，则状态机200转变到用户控制状态220，并且以与该用户控制状态220关联的方式实现监视和/或响应的用户控制。

特定手势用户输入可以用作“用户控制”事件。手势用户输入是作为用户输入对于系统100具有意义的手势。手势可以是静态的或移动的。移动手势可以包括移动或者包含一系列移动的移动模式。例如，它可以是进行圆周运动或侧向运动或上下运动或空间中的符号跟踪。移动手势可以例如是装置无关的手势或装置相关的手势。移动手势可以涉及用户输入物体(例如，用户的一个或多个身体部分、或者其它装置)相对于传感器110的移动。身体部分可以包括用户的手部或用户的手部的一部分，例如一个或多个手指和拇指。在其它实例中，用户输入物体可以包括用户身体的不同部分，例如其头部或手臂。三维移动可以包括用户输入物体沿着任何三个正交方向的运动。该运动可以包括用户输入物体朝向或远离传感器110移动以及沿着平行于传感器的平面移动或者此类运动的任意组合。手势可以是非接触式手势。非接触式手势在手势期间的任何时间都不与装置传感器接触。手势可以是绝对手势，其根据与传感器110的绝对位移来定义。此类手势可能被束缚，因为它在场景空间中的精确位置处执行。备选地，手势可以是相对手势，其根据手势期间的相对位移来定义。此类手势可能未被束缚，因为它不需要在场景空间中的相对精确位置处执行，并且可以在大量任意位置处执行。手势可以被定义为位移的演化、随时间相对于原点的被跟踪点的演化。可以例如使用时间变量参数(例如位移、速度)或者使用其它运动学参数，根据运动定义手势。未被束缚的手势可以被定义为相对位移Δd随相对时间Δt的演化。可以沿着一个空间维度(1D手势)、两个空间维度(2D手势)或三个空间维度(3D)执行手势。

在某些实例中，系统100可以在手势识别中相对于人体跟踪一个或多个物体和/或点。例如，系统100可以在手势识别中执行人体的全身骨骼跟踪。

处理器模块120或处理器模块120的一部分可以作为控制器电路实现。控制器电路120可以单独以硬件实现，单独具有包括固件的软件中的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图3中所示，控制器120可以使用指令实现，这些指令例如通过在通用或专用处理器310中使用可执行计算机程序指令322实现硬件功能，可执行计算机程序指令322可以存储在计算机可读存储介质(磁盘、存储器等)上以便由此类处理器310执行。

处理器310被配置为从存储器320读取并且向存储器320写入。处理器310还可以包括输出接口和输入接口，处理器310经由输出接口输出数据和/或命令，经由输入接口将数据和/或命令输入到处理器310。

存储器320存储包括计算机程序指令(计算机程序代码)的计算机程序322，当被加载到处理器310中时，计算机程序322控制处理模块120的操作。计算机程序322的计算机程序指令提供逻辑和例程，这些逻辑和例程使处理模块能够执行参考图1和2讨论的方法。处理器310通过读取存储器320能够加载和执行计算机程序322。

系统100因此可以包括装置120，其包括：

至少一个处理器310；以及至少一个存储器320，其包括计算机程序代码322，至少一个存储器320和计算机程序代码322被配置为与至少一个处理器310一起，导致装置120至少执行图1的方框124、126、128中的一个或多个。

如图4中所示，计算机程序322可以经由任何合适的传送机制324到达此类装置。传送机制324可以例如是非瞬时性计算机可读存储介质、计算机程序产品、存储设备、诸如压缩盘只读存储器(CD-ROM)或数字通用光盘(DVD)之类的记录介质、有形地包含计算机程序322的制品。传送机制可以是被配置为可靠地传输计算机程序322的信号。装置120可以将计算机程序322作为计算机数据信号传播或传输。

尽管存储器320被示出为单个组件/电路，但它可以被实现为一个或多个单独组件/电路，它们的部分或全部可以是集成的/可移动的，和/或可以提供永久/半永久/动态/缓存存储装置。

尽管处理器310被示出为单个组件/电路，但它可以被实现为一个或多个单独组件/电路，它们的部分或全部可以是集成的/可移动的。处理器310可以是单核或多核处理器。

对“计算机可读存储介质”、“计算机程序产品”、“有形地包含的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应被理解为不仅包含具有不同架构(例如单/多处理器架构和顺序(冯·诺依曼)/平行架构)的计算机，而且还包含专用电路，例如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其它处理电路。对计算机程序、指令、代码等的引用应被理解为包含用于可编程处理器的软件或固件，例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑设备等的配置设置。

如在本申请中使用的，术语“电路”指以下所有各项：

(a)仅硬件电路实现(例如仅模拟和/或数字电路中的实现)；以及

(b)电路和软件(和/或固件)的组合，例如(如适用)：(i)处理器(多个)的组合或(ii)处理器(多个)/软件的各部分(包括共同工作以便导致诸如移动电话或服务器之类的装置执行各种功能的数字信号处理器(多个)、软件和存储器(多个))；以及(c)电路，例如需要软件或固件以便操作(即使软件或固件未实际存在)的微处理器(多个)或微处理器(多个)的一部分。

该“电路”定义适用于本申请中(包括在任何权利要求中)对该术语的所有使用。作为进一步实例，如在本申请中使用的，术语“电路”还包含只有一个处理器(或多个处理器)或一个处理器的一部分以及它的(或它们的)附带软件和/或固件的实现。术语“电路”还包含(例如并且如果适用于特定权利要求元素)用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝网络设备或其它网络设备中的相似集成电路。

图1中所示的方框124、126、128可以表示方法中的步骤和/或计算机程序322中的代码部分。方框的特定顺序的例示不一定暗示方框具有必需或优选的顺序，并且可以改变方框的顺序和布置。此外，省略某些方框可以是可能的。

图5A和5B示出可如何由用户，并且具体地说由场景140内的用户动作对如先前描述的状态机200进行编程。图5A示出使用新用户控制状态220(学习状态222)产生状态机200的新响应状态230(学习后的响应状态232)的过程。图5B示出从监视状态210转变213为新的学习后的响应状态232以及执行关联的学习后的响应动作的过程。

如前所述，在监视状态210下，传感器110提供传感器数据112，并且处理子模块124自动处理传感器数据112(视频和/或音频和/或深度数据)以便产生具有潜在意义的场景数据。识别子模块126自动处理场景数据，以便在场景数据内标识作为有意义符号的实际意义。

有意义符号是预定的，即，已发生在识别之前确定符号的动作。但是，“预定”不应被视为表示确切的或固定的。用于相似性匹配的符号仅具有在先确定，它可以动态演化或者可以被固定。

如果识别子模块126通过识别有意义符号确定已在场景140中发生有意义事件，则控制子模块128根据事件/符号自动地响应。

如果识别子模块126通过识别学习符号确定已在场景140中发生学习事件，则控制子模块128通过转变211为学习状态222自动地响应。可以向用户提供反馈指示，例如已进入学习状态222的可听或可见确认。

在学习状态222下，通过在场景140内执行动作，用户能够定义新“响应事件”(学习后的响应事件)和对应的新响应符号(学习后的响应符号)，并且在状态机200中产生新响应状态(学习后的响应状态232)，如图5B中所示。

在学习状态222下，通过在场景140内执行其它动作，用户可以能够定义与新的学习后的响应状态232关联的响应操作(学习后的响应动作)。

参考图5B，如前所述，在监视状态210下，传感器110提供传感器数据112，并且处理子模块124自动处理传感器数据112(视频和/或音频和/或深度数据)以便产生具有潜在意义的场景数据。识别子模块126自动处理场景数据，以便在场景数据内标识作为有意义符号的实际意义。

如果有意义事件例如是“学习后的响应”事件，则状态机200转变213为学习后的响应状态232，并且控制子模块128执行与该学习后的响应状态232关联的学习后的响应动作。当推定符号与新定义的学习后的响应符号相似时，状态机200从监视状态210转变到学习后的响应状态232。

再次参考图5A，在监视状态210下，传感器110提供传感器数据112，并且处理子模块124自动处理传感器数据112(视频和/或音频和/或深度数据)以便产生具有潜在符号意义的场景数据。识别子模块126自动处理场景数据，以便将由用户在场景数据112内产生的学习符号标识为用于将状态改变为学习状态222的用户输入命令。

可以例如使用从传感器数据112获得的视频数据、音频数据、以及深度数据中的任何一个或多个定义学习符号。

在某些实例但不一定所有实例中，仅视频数据用于识别学习符号。在该实例中，学习符号如前所述可以是通过被跟踪用户相对于被跟踪用户处的参考帧的运动来限定的随时间演化的场景无关的符号序列。学习符号的一个实例是手势用户输入。

在某些实例但不一定所有实例中，音频数据和/或深度数据用于识别学习符号。在该实例中，学习符号可以是通过被跟踪用户的动作来限定的随时间演化的场景无关的符号序列。例如，可以确定深度图，并且然后使用机器学习推断用户的变化的身体位置。这可以例如在大约每秒30帧的速率下完成。用户的关节位置被产生为输出，并且手势可以被定义为包括用户的关节位置的符号。在音频输入的情况下，可检测的手势的一个实例可以是拍手。

在学习状态222下，处理模块120的处理子模块124自动处理来自场景140的所记录的传感器数据112。这涉及场景140的同时发生的视频数据和/或音频数据和/或深度数据的处理，以便在识别由用户输入的学习符号(其导致转变211为学习状态222)之后的场景中捕获特定空间事件序列。

“空间”事件是这样的事件：其显式或隐式地至少部分由其指定该空间事件的空间属性来定义。为了在空间事件之间具有相似性，必须在空间属性中具有相似性。可以例如相对于场景空间内的平面、线或点来定义空间属性。例如，空间事件可以具有如由深度数据确定的深度作为空间属性。深度表示场景空间中的平面。例如，空间事件可以具有如由视频数据确定的成像平面内的位置作为空间属性。该位置表示场景空间中的线。例如，空间事件可以具有如通过将音频数据用于波束成形确定的承载(bearing)作为空间属性。该承载表示场景空间中的线。如果空间事件具有如由深度数据确定的深度以及如由视频数据确定的成像平面内的位置作为空间属性，则空间事件是场景空间内的点。如果空间事件具有如由深度数据确定的深度以及如由音频数据确定的承载作为空间属性，则空间事件是场景空间内的点。如果空间事件具有如由视频数据确定的成像平面内的位置以及如由音频数据确定的承载作为空间属性，则空间事件可以是场景空间内的点或位置。如果空间事件具有如由深度数据确定的深度、如由视频数据确定的成像平面内的位置、以及如由音频数据确定的承载作为空间属性，则空间事件是场景空间内的点或位置。

序列是“特定”的，因为它未被脚本化或未被预定。

处理子模块124使用特定空间事件序列产生新的学习后的响应状态232，并且产生用于转变213为该新状态232的学习后的响应符号。

处理子模块124通过分析所记录的传感器数据112，在场景中捕获特定空间事件序列。它在学习符号之后的场景中标识该特定空间事件序列，并且存储该特定空间事件序列的符号记录，以便使能在所记录的传感器数据(视频数据和/或音频数据和/或深度数据)中后续识别与所捕获的空间事件序列相对应的空间事件序列。

特定空间事件序列可以包括与通过被跟踪用户的运动指定的物体或位置有关的随时间演化的场景相关的符号序列。此外或备选地，特定空间事件序列可以包括与通过被跟踪用户和物体的交互指定的物体-用户交互有关的随时间演化的场景相关的符号序列。

例如，可以确定深度图，并且然后使用机器学习推断用户的变化的身体位置。这可以例如在大约每秒30帧的速率下完成。用户的关节位置被产生为输出，并且手势可以被定义为包括用户的关节位置的符号。

在场景140中捕获特定空间事件序列可以例如包括处理场景140的视频数据和/或深度数据和/或音频数据，以便在场景140中检测除用户姿势或位置变化以外的变化。实际上已从视频中丢弃用户，以使得检测由用户导致的变化而不是用户的变化。

在场景140中捕获特定空间事件序列另外可以例如包括除了视频数据和/或深度数据之外，还处理场景140的音频数据以便检测场景140中的签名噪声。

处理子模块124使用所捕获的特定空间事件序列产生新的学习后的响应状态232，并且产生用于转变213为该新状态232的学习后的响应符号。因此，它使能在监视状态210期间自动处理来自场景140的后续记录的传感器数据112，并且当场景的后续记录的传感器数据被自动识别为包括与所捕获的空间事件序列相对应的空间事件序列时，转变213为学习后的响应状态232。

再次参考图5B，在监视状态下，处理模块120的处理子模块124处理场景的后续记录的传感器数据，以使识别子模块126能够在后续记录的视频中识别与所捕获的空间事件序列相对应的空间事件序列。处理模块120的识别子模块126处理场景的后续记录的传感器数据，以便在后续记录的传感器数据中识别与所捕获的空间事件序列相对应的空间事件序列。

由处理模块120处理以使能由识别子模块126将后续记录的空间数据中的空间事件序列识别为对应于所捕获的空间事件序列的传感器数据可以包括视频数据和/或音频数据和/或深度数据。

场景140的由处理模块120的识别子模块126处理以便将后续记录的传感器数据中的空间事件序列识别为对应于捕获的空间事件序列的后续记录的传感器数据可以包括视频数据和/或音频数据和/或深度数据。

由处理模块120处理以使能识别的传感器数据可能更复杂，并且来自多于由识别子模块126处理(以便将空间事件序列识别为对应于所捕获的空间事件序列)的后续传感器数据的传感器。由处理模块120处理以使能识别的传感器数据可以例如包括深度数据和视频数据，而由识别子模块126处理以便将空间事件序列识别为所捕获的空间事件序列的后续传感器数据可以例如包括视频数据或深度数据。

再次参考图5A，从学习状态222转变212回到监视状态210可以以多种方式发生。在某些实例中，它可以在用户已控制新的学习后的响应状态232以及用于转变213为该新状态232的学习后的响应符号的产生之后自动发生，或者可以响应于诸如可听事件之类的用户动作而发生。在其它实例中，它可以在用户已另外对与学习后的响应状态232关联的学习后的响应动作进行编程之后自动发生。

可以通过以下操作在学习状态222下发生学习后的响应动作的编程：在处理器子模块124处自动处理场景140的传感器数据112(视频和/或音频和/或深度数据)，以使能由识别子模块126自动识别与特定学习后的响应动作关联的预定动作符号。响应于所述识别，控制子模块128对状态机200进行编程以使得当进入学习后的响应状态232时，执行学习后的响应动作。

预定动作符号可以是通过被跟踪用户相对于被跟踪用户处的参考帧的运动来限定的随时间演化的场景无关的符号序列。预定动作符号可以是用户输入手势。例如，可以确定深度图，并且然后使用机器学习推断用户的变化的身体位置。这可以例如在大约每秒30帧的速率下完成。用户的关节位置被产生为输出，并且手势可以被定义为包括用户的关节位置的符号。

从以上所述将认识到，可以在两个预定事件之间发生学习后的响应事件的编程，这两个预定事件即为导致转变211到学习状态222的学习事件、以及导致从学习状态222转变212的另一个预定事件。可以因此假设，要被用作可识别的学习后的响应事件的有意义事件位于两个预定事件之间，并且为了确定表示学习后的响应事件的学习响应符号而对传感器数据1123的处理可能具有时间限制。例如，可以在与识别导致转变到学习状态222/从学习状态222转变的预定事件之一或两者的预定义时间关系下，发生在场景中捕获特定空间事件序列以便定义与学习后的响应事件相对应的学习后的响应符号。

图6示出图5B中所示的状态机的变型。在该状态机200中，状态机不从学习状态222转变到监视状态210，而是转变到另一个用户控制状态220，即编程控制状态224。

学习状态222如前所述操作，但是，学习后的响应状态、学习后的响应符号和学习后的响应动作尚未被实现但被推定。直到从编程控制状态224转变到监视状态210，才发生推定学习后的响应状态232(以及学习后的响应符号和学习后的响应动作)的实现。

在编程控制状态224下，处理模块120可以执行消歧测试，然后接受表示学习后的响应事件的推定学习后的响应符号作为学习后的响应符号，以便随后在监视状态210期间对照推定符号进行相似性匹配。

例如，如果新的推定学习后的响应符号与已有学习后的响应符号相似，则可阻止进一步使用新的推定学习后的响应符号，或者可能请求用户重复学习后的响应事件，以使得可以产生新的学习后的响应符号。

备选地，消歧算法可以改变推定学习后的响应符号，以使得它与已有学习后的响应符号和其它已有学习后的响应符号不相似。改变可以例如包括推定学习后的响应符号定义中的其它上下文数据，例如用户的标识、一天中的时间、一周中的天等。消歧算法可以是自动的，或者它可以在用户控制下。如果在用户控制下发生，则它可能如下所述发生。

在编程控制状态224下，无论是否发生消歧测试，处理模块120都可以提供选项以便用户定义所捕获的特定事件序列(其定义学习后的响应符号)。

可以向用户示出视频数据，其包括从中确定推定学习后的响应符号的“目标视频”。目标视频可以在较长一部分视频内示出。目标视频可能标识也可能不标识在定义推定学习后的响应符号中被给予重要性的图像特征、区域以及事件。

用户能够控制用于确定推定学习后的响应符号、再次处理传感器数据以及产生新推定学习后的响应符号的过程的各个方面。

例如，用户能够控制目标视频，以使得它在视频的不同部分处开始和/或在视频的不同部分处结束。

例如，用户能够控制哪些图像特征、区域和事件在定义推定学习后的响应符号中被给予重要性。用户可以例如能够添加或删除或编辑在定义推定学习后的响应符号中被给予重要性的现有图像特征、区域和事件。

如果选择了区域，并且推定学习后的响应符号基于音频数据，则可以使用音频波束成形，以使得仅来自场景140的该区域的音频用于产生推定学习后的响应符号。

如果选择了区域，则仅来自场景140的该区域的传感器数据可以用于产生推定学习后的响应符号。传感器数据可以包括视频数据和/或音频数据和/或深度数据。

如果音频和/或视频和/或深度数据用于产生推定学习后的响应符号，则音频、视频和深度的对焦区域可以独立地由用户控制。

用于该用户控制的用户界面可以是用户的个人通信设备(例如，移动蜂窝电话、个人数字助理等)上的用户界面。

图7A和7B示出此类用户界面的一个实例。在该实例中，上显示部分10显示在推定学习后的响应事件之前的场景140，并且下显示部分显示在推定学习后的响应事件期间的目标视频或者来自目标视频的代表性静态图像。用户在A1改变为A2时希望推定学习后的响应符号表示学习后的响应事件。但是，系统100已选择在B1改变为B2时表示学习后的响应事件的推定学习后的响应符号。在上显示部分10和下显示部分20中使用指示符(虚线)指示该选择。用户通过触摸下显示部分20的显示A1的部分来控制推定学习后的响应符号，并且通过到事件A2的侧向跟踪运动来滚动30视频。这向系统100指示应基于A1到A2的变化而不是B1到B2的变化来确定新的推定学习后的响应符号。

图8A和8B示出此类用户界面的另一个实例。在该实例中，上显示部分10显示在推定学习后的响应事件之前的场景140，并且下显示部分显示在推定学习后的响应事件期间的目标视频或者来自目标视频的代表性静态图像。用户在A1改变为A2时希望推定学习后的响应符号表示学习后的响应事件。但是，系统100已选择在B1改变为B2时表示学习后的响应事件的推定学习后的响应符号。在上显示部分10中使用选择指示符(虚线)指示该选择。用户通过触摸上显示部分20的显示选择指示符的部分，并且使用触摸跟踪运动40将指示符移动到A1处而且放下指示符，来控制推定学习后的响应符号。这向系统100指示应基于A1处的变化而不是B1处的变化来确定新的推定学习后的响应符号。

因此将认识到，用户可以控制捕获特定事件序列在空间-时间中的发生。这可以涉及控制其中发生捕获的场景空间和/或当发生捕获时视频序列内的场景时间。

作为一个实例，用户能够将特定事件序列的捕获限制为场景的一个或多个部分，或者扩展到整个场景。

为了更好地理解本发明，下面提供可如何在家庭环境中使用本发明的某些实例。但是，本发明并不限于这些实例。

用户做出编程手势，例如，用户使用一只手指向摄像机并且然后举起另一只手的食指。备选地，用户可以拍手并且这可以从音频被分析和检测。这开始学习状态222。

用户执行他想要编程以便将来识别的行为。例如，用户可以打开门，打开灯，调整加热，打开冰箱，走出房间，进入房间，跌倒在地板上，坐在沙发上，打开或关闭柜门，洗盘子，浇花，启动或停止咖啡机或烤面包机，将衣服放入洗衣机/从洗衣机取走衣服，走到医药箱，将水倒入杯子中并且喝掉，重现医疗状况的症状(例如发作)等。

用户做出结束编程手势，其可选地也对学习后的响应动作进行编程。

例如，用户将其手放在耳朵旁边，犹如接听电话以便指示学习后的响应应是通过电话与他接触。作为另一个实例，用户将其手放在其前面并且操作，犹如在其上键入以便指示学习后的响应应是通过电子邮件或文本消息传送与他接触。

这针对行为产生新的学习后的响应状态232，并且还产生与该学习后的响应状态关联的学习后的响应动作。

随后，当在相同场景140或可能另一个被监视场景中发生相似行为时，系统100自动执行学习后的响应动作。

可以识别大量行为，例如：打开/关闭窗户、门或冰箱；人坐下、跌倒、躺下；离开房间、进入房间、疾病发作、人与诸如咖啡机/烤面包机/洗衣机之类的设备交互、倒水、喝水、设备打开(不关闭)；某些声音，例如外部噪声、狗吠声、人产生的噪声；灯打开/关闭。

在某些实例中，学习后的响应动作可以取决于其它参数并且因此可能被延迟。例如，当用户离开房屋时，用户可能仅接收到窗户打开或者设备打开的警报。可能希望将系统100与其它系统集成以便提供其它参数。

在上述实例中，应该认识到，在学习状态220下发生的视频捕获可以涉及与在监视状态210下发生的视频监视相同的场景140。实际上，在学习状态220下发生的视频捕获可以是与在监视状态210下发生的视频监视相同的摄像机。

在本文中使用的术语“包括”具有包含意义而非排他意义。即，对包括Y的X的任何引用指示X可以包括仅一个Y或者可以包括多于一个Y。如果旨在使用具有排他意义的“包括”，则将通过参考“包括仅一个”或者通过使用“由…组成”在上下文中解释清楚。

在该简要描述中，已参考各种实例。相对于实例对特征或功能的描述指示这些特征或功能存在于该实例中。本文中术语“实例”或“例如”或“可能”的使用(无论是否显式说明)都表示此类特征或功能至少存在于所述实例(无论是否作为实例描述)中，并且它们可以但不一定存在于部分或全部其它实例中。因此，“实例”、“例如”或“可能”指一类实例中的特定实例。实例的属性可以是仅该实例的属性或者该类的属性或者该类的子类(其包括该类中的某些但并非所有实例)的属性。因此隐含地公开了参考一个实例而不参考另一个实例描述的特征可以(如果可能)用于该另一个实例中，但不一定必须用于该另一个实例中。

从以上所述将认识到，已公开发明的以下实例：

一种方法，包括：自动处理来自场景的所记录的第一传感器数据，以便从所述场景中的用户动作自动识别第一用户输入；响应于识别所述第一用户输入，自动进入学习状态以使得能够：自动处理来自所述场景的所述第一传感器数据，包括处理所述场景的第一视频，以便在所述第一用户输入之后的场景中捕获特定事件序列；以及自动处理来自所述场景的后续记录的第二传感器数据，包括与所述场景的第一视频不同的所述场景的第二视频，以便在后续记录的第二视频中自动识别与所捕获的事件序列相对应的事件序列。

一种方法，包括：自动处理来自场景的所记录的第一传感器数据，以便从所述场景中的用户动作自动识别第一用户输入；响应于识别所述第一用户输入，自动进入学习状态以使得能够：自动处理来自所述场景的第一传感器数据，包括处理所述场景的第一深度数据，以便在所述第一用户输入之后的场景中捕获特定事件序列；以及自动处理来自所述场景的后续记录的第二传感器数据，包括与所述场景的第一深度数据不同的所述场景的第二深度数据，以便在后续记录的第二视频中自动识别与所捕获的事件序列相对应的事件序列。

一种方法，包括：自动处理来自场景的所记录的第一传感器数据，以便从所述场景中的用户动作自动识别第一用户输入；响应于识别所述第一用户输入，自动进入学习状态以使得能够：自动处理来自所述场景的第一传感器数据，包括处理所述场景的第一视频和/或第一深度数据，以便在所述第一用户输入之后的场景中捕获特定事件序列；以及自动处理来自所述场景的后续记录的第二传感器数据，包括与所述场景的第一视频和/或深度数据不同的所述场景的第二视频和/或第二深度数据，以便在后续记录的第二视频和/或深度数据中自动识别与所捕获的事件序列相对应的事件序列。

尽管已参考各种实例在前面各段中描述了本发明的实施例，但应该认识到，可以对给出的实例进行修改而不偏离如所要求保护的本发明的范围。

可以在除显式描述的组合之外的组合中使用在前面说明中描述的特征。

尽管已参考某些特征描述了功能，但可以由其它特征(无论是否被描述)执行这些功能。

尽管已参考某些实施例描述了特征，但这些特征还可以存在于其它实施例(无论是否被描述)中。

尽管在上述说明书中致力于关注被认为具有特定重要性的本发明的那些特征，但是应该理解，申请人要求保护任何可专利的特征或在上文中提及和/或在附图中示出的特征(无论是否已被特别强调)的组合。

Claims

1.一种方法，包括：

自动处理来自场景的所记录的第一传感器数据，以便从所述场景中的用户动作自动识别第一用户输入；

响应于识别所述第一用户输入，自动进入学习状态以使得能够：

自动处理来自所述场景的所述第一传感器数据，以便从所述第一用户输入之后的所述场景捕获特定空间事件序列，以及

自动处理与所述场景的所述第一传感器数据不同的来自所述场景的后续记录的第二传感器数据，以便在所述后续记录的第二传感器数据中自动识别与所捕获的空间事件序列相对应的空间事件序列。

2.根据权利要求1所述的方法，其中所述第一传感器数据记录第一视频中的手势用户输入。

3.根据权利要求1或2所述的方法，其中来自所述场景的第一传感器数据包括至少所述场景的第一视频，所述方法包括：自动处理所述场景的所记录的第一视频，以便从所述场景中的用户移动自动识别所述第一用户输入。

4.根据任一上述权利要求所述的方法，其中所述第一用户输入是通过被跟踪用户相对于所述被跟踪用户处的参考帧的运动来限定的随时间演化的场景无关的序列。

5.根据任一上述权利要求所述的方法，其中所述第一传感器数据包括第一视频和第一音频，所述方法包括：

处理所述场景的所记录的第一视频，以便在所述第一用户输入之后的所述场景中捕获特定视频事件序列；

处理所述场景的所记录的第一音频，以便在所述第一用户输入之后的所述场景中捕获特定音频事件序列；

处理与所述场景的所述第一视频不同的所述场景的后续记录的第二视频，以便在所述后续记录的第二视频中识别与所捕获的视频事件序列相对应的视频事件序列；以及

处理与所述场景的所述第一音频不同的所述场景的后续记录的第二音频，以便在所述后续记录的第二音频中识别与所捕获的音频事件序列相对应的音频事件序列。

6.根据任一上述权利要求所述的方法，包括：

分析所记录的传感器数据以便在所述第一用户输入之后的所述场景中捕获特定空间事件序列，方式为：

在所述第一用户输入之后的所述场景中标识特定空间事件序列；以及

存储所述特定空间事件序列的符号记录，以使得能够在所记录的传感器数据中后续识别与所捕获的空间事件序列相对应的空间事件序列。

7.根据任一上述权利要求所述的方法，其中所述特定空间事件序列是与由被跟踪用户的运动指定的物体或位置有关的随时间演化的场景相关的符号序列，和/或其中所述特定空间事件序列是与由被跟踪用户和物体的交互指定的所述物体-用户交互有关的随时间演化的场景相关的符号序列。

8.根据任一上述权利要求所述的方法，其中在所述场景中捕获所述特定空间事件序列包括处理所述场景的所述第一视频以便在所述场景中检测除用户姿势或位置变化以外的变化。

9.根据任一上述权利要求所述的方法，包括在所述学习状态期间自动处理至少所述场景的视频和/或深度数据，以便至少从所述场景中的用户移动自动识别第二预定用户输入，并且响应于所述识别，对所述后续记录的第二视频中的空间事件序列对应于所捕获的空间事件序列的识别响应进行编程。

10.根据权利要求9所述的方法，其中所述第二预定用户输入是通过被跟踪用户相对于所述被跟踪用户处的参考帧的运动来限定的随时间演化的场景无关的符号序列。

11.根据任一上述权利要求所述的方法，包括在与识别所述第二预定用户输入的预定义时间关系下，在所述场景中捕获所述特定空间事件序列。

12.根据任一上述权利要求所述的方法，包括在监视状态下记录所述场景的第二传感器数据；以及

处理所述场景的所记录的第二传感器数据，以便在所记录的第二视频中识别与所捕获的空间事件序列相对应的空间事件序列。

13.根据任一上述权利要求所述的方法，包括提供选项，所述选项用于用户定义所捕获的特定空间事件序列。

14.根据任一上述权利要求所述的方法，包括提供选项，所述选项用于用户定义在所述后续记录的第二视频中自动识别与所捕获的空间事件序列相对应的空间事件序列的结果。

15.一种装置或系统，其包括用于执行任一上述权利要求所述的方法的部件。