CN107925821B

CN107925821B - 监控

Info

Publication number: CN107925821B
Application number: CN201680048788.0A
Authority: CN
Inventors: A·莱蒂尼米; J·莱帕宁; A·埃罗南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-08-14
Filing date: 2016-08-10
Publication date: 2020-12-11
Anticipated expiration: 2036-08-10
Also published as: EP3131311B1; US10402984B2; JP6592183B2; CN107925821A; WO2017029434A1; EP3131311A1; US20190019295A1; JP2018523424A

Abstract

一种方法，包括：处理所接收的图像数据和/或所接收的深度数据以跟踪在监控场景空间中移动的对象；确定所跟踪的移动对象在监控场景空间中的方位；以及根据所跟踪的移动对象在监控场景空间中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频信号。

Description

监控

技术领域

本发明的实施例涉及监控场景。具体地，本发明的实施例涉及场景的自动监控。

背景技术

目前的监控系统可以包括一个或多个传感器，这些传感器经由线缆或无线连接到存储或使能存储从场景记录的数据的集线器。

发明内容

根据本公开的各种但并非全部示例，提供了如所要求保护的方法。

根据本公开的各种但并非全部示例，提供了如所要求保护的装置。

根据本公开的各种但并非全部示例，提供了一种装置，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起，使所述装置至少执行如所要求保护的方法。

根据本公开的各种但并非全部示例，提供了计算机程序代码，所述计算机程序代码在由至少一个处理器执行时，使得如所要求保护的方法被执行。

根据本公开的各种但并非全部示例，提供了一种计算机程序，所述计算机程序在计算机上运行时，执行如所要求保护的方法。

根据本公开的各种但并非全部实施例，提供了如所要求保护的示例。

附图说明

为了更好地理解有助于理解简要说明的各种示例，现在将仅以示例的方式参照附图，其中：

图1示意性示出系统的示例；

图2示出状态机的示例；

图3示出处理模块的示例；

图4示出用于计算机程序的传送机制的示例；

图5示出系统的操作的示例；

图6示出可由系统执行的方法的示例；

图7示出所跟踪的对象的方位的示例；

图8示出用于根据所跟踪的移动对象的方位，自适应地对来自麦克风的输出进行滤波的系统的示例；

图9A-9E示出使用该系统根据所跟踪的移动对象的方位，自适应地对来自麦克风的输出进行滤波的示例；

图10A-10B示出使用该系统根据所跟踪的移动对象的方位，自适应地对来自麦克风的输出进行滤波的示例。

具体实施方式

所描述的系统100是监控至少一个场景，并根据所跟踪的移动对象在该场景中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频信号的系统。

图1示意性地示出了系统100，其包括：一个或多个传感器110，其被配置为记录来自场景140的传感器数据112；处理模块120，其被配置为处理从场景140记录的传感器数据112，以自动识别在场景140中发生的事件并自动作出决定作为识别的结果；以及通信模块130，其被配置为在处理模块120做出要通信的决定时进行通信。

一些但并非全部被识别的事件可涉及场景140中的对象152或特定对象152。对象可以是场景140中的无生命物体、动物、人或特定的人。在系统100的一些但并非全部示例中，系统100是实时识别系统，并且基本上在记录传感器数据112的同时进行自动识别和决定(如果有的话)。

系统100可以用于监视、监控或其它应用。系统100可以在企业、公共场所或在家中使用。

例如当用户是在场景140中的人150时，系统100可使用户能够控制监控。例如当用户是在场景140中的人150时，系统100可使用户能够控制识别和/或识别的结果。

在一些但并非全部示例中，系统100可以包括多个分立装置。例如，传感器110可被安置在一个或多个单独的装置中，处理模块120可被安置在一个或多个装置中，通信模块130可被安置在一个或多个装置中。在系统100的一个或多个组件被安置在分立装置中的情况下，这些装置可以是本地的或彼此远程，在它们是远程的情况下，它们例如可通过网络进行通信。

在一些但并非全部示例中，系统100可被安置在单个装置中。

传感器110被配置为记录或使能记录来自场景140的传感器数据112。

场景140可以包括例如具有固定相对位置的静态组件，例如静态物体。这些静态物体具有场景的三维空间(场景空间)中的不同的静态位置。场景140可以包括移动组件，例如移动物体。移动物体随时间具有场景空间中的不同的位置。提及与不同的传感器数据112或不同的时间相关的“场景”意味着感应到场景140的那些静态组件的连续性，但并非意味着感应到一些或全部动态组件的连续性，尽管这可能发生。

传感器数据112的记录可仅包括临时记录，或者可包括永久记录，或者可包括临时记录和永久记录两者。临时记录表示临时记录数据。这例如可在感应期间发生，在动态存储器处发生，在诸如循环缓冲器、寄存器、高速缓存等的缓冲器处发生。永久记录表示数据采用可寻址数据结构的形式，可从可寻址存储空间中检索，因此可被存储和检索直到被删除或覆盖，尽管长期存储可能或可能不发生。

传感器110可被配置为将诸如声波和/或光波的传播波转换成电信号，将来自场景140的传播波数据进行编码作为传感器数据112。

在一些但并非全部示例中，传感器110相对于场景空间140在空间中固定。在其它示例中，传感器110相对于场景空间140可移动或在移动。

在一些但并非全部实施例中，传感器110是或包括图像传感器114。图像传感器114的一个示例是被配置为作为照相机工作的数字图像传感器。这样的照相机可操作以记录静态图像和/或视频图像。

在一些但并非全部实施例中，照相机可采用立体或其它空间分布布置来配置，以便从不同的角度对场景140进行视觉采样。这可使得能够例如经由视差效应来创建三维图像和/或处理以建立深度。

在一些但并非全部实施例中，传感器110是或包括音频传感器116。音频传感器116的一个示例是一个或多个麦克风。麦克风可采用诸如麦克风阵列的立体或其它空间分布布置来配置，以便从不同的角度对场景140进行音频采样。这可使能三维空间音频处理，其允许音频在场景140内的定位。

在一些但并非全部实施例中，传感器是或包括深度传感器118。深度传感器118可包括发射器和接收器。发射器发射信号(例如，诸如超声波或红外光的人类不能感应到的信号)，接收器接收反射信号。使用单个发射器和单个接收器，可经由测量从发射到接收的飞行时间来获得一些深度信息。可通过使用多个发射器和/或多个接收器(空间分集)实现更好的分辨率。在一个示例中，发射器被配置为用光“描绘(paint)”场景140，优选地用诸如红外光的不可见光用空间相关的图案来描绘场景。接收器对某些图案的检测允许在空间上分辨场景140。到场景140的空间分辨部分的距离可通过飞行时间和/或立体视觉(如果接收器相对于发射器处于立体位置)来确定。

在这些“被动”或“非主动”深度感应的示例中，将要被感应的人150或对象152是被动的，仅仅反射由发射器发射的入射光或声波。然而，可附加地或替代地使用“主动”示例，其在感应的对象处要求主动性。作为一个示例，人150可以携带被配置为在场景空间140内定位定位装置的定位装置。定位装置例如可使用加速度计测量定位装置从参考位置开始的运动。可以选择性地使用陀螺仪来确定定向。附加地或可替代地，定位装置可通过向多个接收器发送和/或从多个发送器接收来经由三角测量(三边测量)使能定位。

在所示的示例，但并非全部示例中，处理模块120包括存储子模块122、处理子模块124、识别子模块126和控制子模块128。虽然这些“模块”被单独描述和示出，但它们可以是(尽管不必)单独的或采用不同组合而组合的。例如，处理子模块124、识别子模块126和控制子模块128可由相同的电路或在相同的计算机程序的控制下执行。可替代地，处理子模块124、识别子模块126和控制子模块128中的一个或多个可由专用电路或专用计算机程序执行。这些子模块可使用软件、专用硬件或编程硬件和软件的组合来执行。

存储子模块122可用于存储由处理模块120使用的未处理传感器数据和/或处理的传感器数据112(场景数据)、计算机程序、场景空间模型和其它数据，尽管其它子模块可具有它们自己的存储器。

处理子模块124可被配置为处理传感器数据112以确定对场景140有意义的场景数据。

处理子模块124可被配置为执行图像处理，其中，传感器数据110包括来自一个或多个照相机114的图像数据。

处理子模块124可被配置为执行音频处理，其中，传感器数据110包括来自一个或多个麦克风116的音频数据。

处理子模块124可被配置为使用传感器数据112自动执行以下任务中的一项或多项以创建对场景140具有潜在含义的场景数据：

使用机器(计算机)视觉执行以下中的一项或多项：

检测(移动或静止)对象或人，

将(移动或静止)对象或人进行分类，和/或

跟踪(移动或静止)对象或人；

使用空间分析执行以下中的一项或多项：

使用深度确定在场景空间中定位(移动或静止)对象；和/或

创建场景空间的映射；和/或

使用行为分析描述在场景140中发生的事件作为潜在有意义的符号。

图像处理的一个示例是“梯度特征直方图”分析，其创建了图像的强度梯度或边缘方向的分布。图像可被划分成小的连接的区域(单元)，对于每个单元，为单元内的像素创建梯度方向或边缘定向的直方图。这些直方图的组合则代表描述符。

音频处理的一个示例是“梅尔频率倒谱系数”确定，例如使用音频波束形成技术、音频事件识别或分类、说话人识别或验证或语音识别的空间音频处理。

运动检测例如可使用相对于背景模型的差分(背景减除)或相对于先前图像的差分(时间差分)，或者使用一些其它诸如使用基于矢量的方法的光流分析的方法来实现。

对象分类例如可使用基于形状的分析和/或基于运动的分析来实现。

人的分类可以是对象是人的分类或者对象是特定的人(识别)的分类。识别可使用唯一识别一组可能的人中的人的属性或属性的组合来实现。属性的示例包括：对于一个人是或可能是特定的生物特征，诸如他们的脸或他们的声音；他们的外形和体型；他们的行为。

对象跟踪可通过标记对象并记录所标记的对象在场景140中的位置来实现。该算法可能需要处理以下事件中的一个或多个：对象进入场景140；对象从场景140离开；对象重新进入场景140；对象遮挡、对象合并。如何处理这些事件在本领域中是已知的。

对象跟踪可用于确定对象或人何时发生变化。例如，在大的宏观范围上跟踪对象允许创建随对象一起移动的参照系。该参照系则可用于通过使用关于对象的时间差分来跟踪对象形状的时间演变。这可用于检测小范围人体运动，诸如姿势、手部运动、面部运动。这些是与用户相关的场景独立(仅)用户运动。

该系统可跟踪与人体相关的多个对象和/或点，例如人体的一个或多个关节。在一些示例中，系统100可执行人体的全身骨骼跟踪。

系统100可使用与人体相关的一个或多个对象和/或点的跟踪来进行姿势识别等。

行为分析要求使用有意义的符号体系来描述发生在场景140中发生的事件。事件可能是在时空实例中发生的事情，或者它可能是时空序列(随时间推移的时空实例模式)。事件可涉及对象(或人)的运动或者人与对象的交互。

在一些但并非全部实现中，事件可由根据从机器(计算机)视觉分析和/或空间分析确定的参数而定义的推定符号表示。这些参数对以下中的一些或更多个进行编码：发生了什么、发生在哪里、何时发生和谁在做。

识别子模块126被配置为将对场景140中的事件进行编码的推定符号识别为与特定含义相关联的有意义的符号。

识别子模块126可被配置为将根据从机器(计算机)视觉分析和/或空间分析确定的参数而定义并由处理子模块124生成的推定符号识别为具有含义。识别子模块126例如可存储或访问有意义的参考符号的数据库，并且可使用相似性测试以确定推定符号是否与有意义的符号“相似”。

识别子模块126可被配置为机器(计算机)推理引擎或其它识别引擎，诸如人工神经网络或参数空间中的聚类(clustering)。在一些示例中，识别子模块126可经由指导的学习来训练以识别与参考符号相似的有意义的符号。

控制子模块128响应根据事件而确定在场景140中发生了有意义的事件：

a)如果推定符号与响应符号相似，则有意义的事件是“响应”事件，控制子模块126执行响应动作。

在一些但并非全部示例中，执行的动作可由用户编程。在一些但并非全部示例中，编程可经由场景内的用户的运动而发生。

b)如果推定符号与控制符号相似，则有意义的事件是“控制”事件，控制子模块126使能监控的用户控制和/或响应的用户控制。

例如，用户可能够对被添加到参考符号数据库中的有意义的响应符号进行编程或教导。在一些但并非全部示例中，编程可经由场景140内的用户的运动而发生。

例如，当推定符号与响应符号匹配时，用户可能够对执行的动作进行编程或教导。

处理模块120的操作可根据图2来进一步理解，图2示出了处理模块120的状态机200。状态机200具有监控状态210、控制状态220和自动响应状态230。

在监控状态210中，传感器110提供传感器数据112，处理子模块124自动处理传感器数据112(视频和/或音频和/或深度)以创建具有潜在含义的场景数据。识别子模块126自动处理场景数据以识别场景数据内的实际含义，即有意义的符号。

有意义的符号是预先确定的，预先确定是在识别之前已经发生的确定符号的动作。但是，“预先确定”不应当被认为是确切或固定意义的。用于相似性匹配的符号仅仅是事先确定的，它可以动态演进或者可以是固定的。

如果识别子模块126确定在场景140中已经发生有意义的事件，则控制子模块126根据事件自动进行响应。如果有意义的事件是“响应”事件，则状态机200转换到响应状态230，并且控制子模块126执行响应动作。响应动作可以与响应事件相关联。如果事件是“用户控制”事件，则状态机200转换到控制状态220，并且使能监控和/或响应的用户控制。该使能可采用与控制状态220相关联的方式进行。

特定的姿势用户输入可用作“用户控制”符号。姿势用户输入是作为用户输入对于系统100具有含义的姿势。

在一些示例中，系统100可以在姿势识别中跟踪与人体相关的一个或多个对象和/或点。例如，系统100可以在姿势识别中执行人体的全身骨骼跟踪。

处理器模块120或处理器模块120的一部分的实现可以是作为控制器电路。控制器电路120可仅采用硬件实现，可具有采用仅包括固件的软件的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图3所示，控制器120可使用指令来实现，这些指令例如通过在通用或专用处理器310中使用可存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器310执行的可执行计算机程序指令322来使能硬件功能。

处理器310被配置为从存储器320中读取和写入存储器320。处理器310还可以包括处理器310经由其输出数据和/或命令的输出接口和经由其向处理器310输入数据和/或命令的输入接口。

存储器320存储包括计算机程序指令(计算机程序代码)的计算机程序322，所述计算机程序指令在被加载到处理器310中时，控制处理模块120的操作。计算机程序322的计算机程序指令提供使处理模块能够执行参照附图1、2、5、6、7、8、9和/或10讨论的方法的逻辑和例程。处理器310通过读取存储器320能够加载并执行计算机程序322。

因此，系统100可包括装置120，其包括：

至少一个处理器310；以及包括计算机程序代码322的至少一个存储器320，至少一个存储器320和计算机程序代码322被配置为与至少一个处理器310一起，使装置120至少执行图1的框124、126、128中的一个或多个和/或图6和/或图8的框中的一个或多个。

如图4所示，计算机程序322可经由任何合适的传送机制324到达这样的装置。传送机制324例如可以是非暂时性计算机可读存储介质、计算机程序产品、存储器件、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、有形具体化计算机程序322的制造产品。传送机制可以是被配置为可靠传送计算机程序322的信号，诸如调制的电磁波或数字编码的电信号。装置120可将计算机程序322作为计算机数据信号进行传播或传输。

虽然存储器320被示出为单个组件/电路，但其可被实现为一个或多个单独的组件/电路，其中的一些或全部可以是集成/可移除的和/或可提供永久/半永久/动态/缓存存储。

虽然处理器310被示出为单个组件/电路，但其可被实现为一个或多个单独的组件/电路，其中的一些或全部可以是集成/可移除的。处理器310可以是单核或多核处理器。

提及“计算机可读存储介质”、“计算机程序产品”、“有形具体化计算机程序”等，或者“控制器”、“计算机”、“处理器”等，应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机，而且还包括诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其它处理电路的专用电路。提及计算机程序、指令、代码等，应当被理解为包括用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中使用的，术语“电路”是指以下的全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)电路和软件(和/或固件)的组合，诸如(如果适用)：(i)处理器的组合或(ii)处理器/软件的部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器的装置执行各种功能)；

(c)电路，诸如微处理器或微处理器的一部分，其需要软件或固件来操作，即使软件或固件并不是物理存在的。

“电路”的这一定义应用于在本申请中的该术语的全部使用，包括在任何权利要求中的使用。作为另一个示例，如在本申请中使用的，术语“电路”还涵盖仅处理器(或多个处理器)或处理器的部分及其伴随的软件和/或固件的实现。术语“电路”还涵盖(例如且如果适用于具体要求的元件)用于移动电话或服务器中的类似集成电路、蜂窝网络设备或其它网络设备的基带集成电路或应用处理器集成电路。

图1中示出的框124、126、128和/或图6和/或图8中示出的框可表示方法中的步骤和/或计算机程序322中的代码段。对框的特定顺序的描述并不意味着对于框存在要求或优选的顺序，并且框的顺序和布置可变化。此外，可以省略一些框。

图5示出了系统100的操作的示例。图5的示例中的部分a示出了场景140。场景140是真实世界场景。场景140包括三维空间，因此可被视为场景空间140。场景空间140由系统100监控。因此，场景空间可被视为监控场景空间140。在图5的示例中，监控场景空间140是包括四个墙壁、天花板和地板的房间。

在一些示例中，监控场景空间140可以不包括边界。附加地或可替代地，在示例中，监控场景空间140可以包括多个在空间上可能连接或可能不连接的房间。

在图5的示例中，人150站在监控场景空间140中。人150正在执行至少一个姿势用户输入146以定义至少一个计算机实现的虚拟边界144。姿势用户输入146可被称为姿势146，并且可如在上面参考图2所描述的。姿势146可被视为边界指示姿势146。

在所示的示例中，人150正在执行姿势146以定义单个计算机实现的虚拟边界144。

姿势146包括在监控场景空间140中的位置沿着路径148的运动。在图5的示例中，姿势146包括人150沿着路径148移动他手中的对象152。在该示例中，路径148是横穿监控场景空间140的直线。

在示例中，路径148可以包括在一个空间维度、两个空间维度或三个空间维度中的任何运动，并且可以采取任何形式。

图5的示例的部分c示出了监控场景空间140的俯视图，其中人150被示出为做出姿势146以定义计算机实现的虚拟边界144。

从图5的示例的部分a和c中可以看出，姿势146从场景140中的具有坐标(x,y,z)的位置处开始，其中x是从左边墙壁开始测量的，y是从前面墙壁开始测量的，z是从地板开始测量的。姿势146在具有坐标(x',y',z')的终点位置(未在图5中示出)处结束。

在图5的示例中，姿势146包括人150沿着横穿监控场景空间140的直线的路径148从起始位置(x,y,z)开始移动对象152。

在所示的示例中，姿势146包括一个空间维度中的运动，因为x的值沿着路径148改变，而y和z的值保持不变。

在其它示例中，x、y和/或z的值可以从监控场景空间140中的任何起始位置处开始沿着路径148以任何方式改变。

图5的示例的部分b和d示出了监控空间142。监控空间142包括由系统100创建并使用的监控场景空间140的虚拟表示。监控空间142例如可通过传感器110接收的数据(诸如所接收的图像数据和/或深度数据)构成。部分b和d分别示出了与图5的部分a和c中所示相同的视图。

在一些示例中，系统100可以使用监控场景空间140的几何形状信息来构成监控空间142。例如，系统100可在构成监控空间142时使用监控场景空间140的三维模型。监控场景空间140的三维模型可由系统100创建和/或可通过系统100接收。用于创建监控场景空间140的三维模型的方法在本领域中是已知的。

系统100可以使用监控空间142来监控场景空间140。例如，系统可以使用监控空间142来实现并监控至少一个计算机实现的虚拟边界144。

如图5的部分a与b以及部分c与d之间的箭头所指示的，在监控空间142与监控场景空间140之间存在对应关系。在一些示例中，监控空间142与监控场景空间140之间可存在一对一映射M。

在其它示例中，在监控场景空间140与监控空间142之间可存在尺度不变的变换。

系统100识别由人150执行的姿势146，并且作为响应在监控空间142中实现至少一个虚拟边界144。在一些示例中，识别姿势146可包括处理诸如图像数据的所接收的数据。例如，系统100可以分析一个或多个视频馈送。

在示例中，虚拟边界144的至少一部分由监控场景空间140中的路径148确定，并且虚拟边界144的至少一部分位于监控空间中与监控场景空间140中的路径148的位置等同的对应位置处。

例如，虚拟边界144的至少一部分可以在与监控场景空间140中的路径148的位置等同的监控空间中的位置处沿着路径148实现。

姿势146可以是如在上面关于图2所描述的绝对姿势或系留姿势。

如图5的示例中的部分b和d中所示，虚拟边界144是沿着路径144从监控空间142中的点(x,y,z)开始实现的。监控空间中的点(x,y,z)等同于监控场景空间140中的点(x,y,z)。

系统100可以将虚拟边界144扩展到路径148之外。系统100可以使用监控场景空间140的几何形状的信息(诸如三维模型)来扩展虚拟边界144。

在一些示例中，系统100可以将虚拟边界144扩展到与监控场景空间140中的至少一个物理边界相对应的监控空间142中的至少一个边界。例如，系统100可以将虚拟边界144从第一墙壁扩展到第二墙壁和/或从地板扩展到天花板(参见图6)。

在图5的示例中，附图的部分d中的虚线示出了虚拟边界144到与监控场景空间140的左墙壁和右墙壁相对应的监控空间142的左边界和右边界的扩展。

在一些示例中，用户可以指示包括虚拟边界的一部分的路径148包围一个区域，然后系统100可以自动完成虚拟边界144包围该区域。例如，用户可以画出是形状的一部分和/或包括形状的一部分的路径148，然后系统100可以在实现虚拟边界144时完成该形状。

作为示例，用户可以画出半圆形的路径，然后系统100可以自动将虚拟边界144扩展为包括完整的圆。

在一些示例中，用户可使用姿势146和/或一个或多个其它输入向系统100指示虚拟边界144应当被扩展以完成包围一个区域的边界。

在一些示例中，系统100可从所画出的路径148推断虚拟边界144应当被扩展以包围一个区域，并且可自动扩展虚拟边界144。

系统100可以向用户提供反馈以确认系统100已经识别姿势146并且已经实现虚拟边界144。反馈可以包括任何合适的反馈，例如音频和/或视觉和/或触觉反馈等。附加地或可替代地，系统100可以向一个或多个设备发送一个或多个消息以通知用户：系统100已经实现虚拟边界144。

系统100可以在监控场景空间140的一部分相对于至少一个虚拟边界144发生变化时，处理所接收的数据以产生响应事件。例如，系统100可以处理由传感器110接收的数据，诸如音频和/或图像数据，以产生响应事件。系统可以分析一个或多个音频和/或视频馈送以产生响应事件。在一些示例中，处理所接收的数据以产生响应事件可被视为监控虚拟边界144。

在示例中，可以使用相同的传感器(诸如照相机)来识别定义至少一个虚拟边界144的姿势146并且用于监控至少一个虚拟边界144。

在一些示例中，处理所接收的数据以产生响应事件可包括处理所接收的数据以监控虚拟边界144以检测跨越虚拟边界144的活动和/或在虚拟边界144的阈值内的活动。例如，系统100可以处理音频和/或图像和/或深度数据以监控虚拟边界144以检测跨越虚拟边界144或在虚拟边界144的阈值内的活动。

系统100可允许用户验证一个或多个虚拟边界144已经被实现，而无需产生响应事件。例如，用户可以使用姿势146在监控场景空间140中的位置处定义虚拟边界144，然后可以与监控场景空间140中的该位置进行交互以验证虚拟边界144“就位”。在示例中，用户可以将其身体的至少一部分(诸如他的手)移过监控场景空间中的该位置，然后系统100可以提供反馈以确认用户已经接触和/或跨越虚拟边界144。可以提供任何合适的反馈，例如，音频和/或视觉和/或触觉反馈。附加地或可替代地，系统100可以向用户的一个或多个设备发送至少一个消息。

在示例中，即使在用户已经验证虚拟边界144之后，系统100也可以开始处理所接收的数据以产生响应事件。例如，直到用户已经验证虚拟边界144之后，系统100才将产生警报和/或递增计数器。

响应事件例如可以引发或改变空间音频处理。响应事件例如可以改变来自多个空间分集麦克风的输出的自适应滤波，以改变产生的组合音频信号。这种改变例如可能影响定向增益，也可能不影响定向增益。这种改变可以使定向增益增强由所跟踪的对象产生的音频或者由所跟踪的对象以外的对象产生的音频。

系统100的用户(诸如人150)可以配置响应事件。例如，用户可以执行由系统100识别的一个或多个附加姿势146以配置响应事件。附加地或可替代地，用户可使用诸如平板电脑或移动电话的设备向系统100提供输入以配置响应事件。

在一些示例中，系统100可以在与任意对象152相关的监控场景空间140的一部分相对于虚拟边界144发生变化时，处理所接收的数据以产生响应事件。例如，系统可以在任何对象152跨越、接触和/或进入虚拟边界144的阈值内时，产生响应事件。这种虚拟边界144可被认为是一般的虚拟边界144。

在其它示例中，系统可以在与一个或多个用户指定的对象152相关的监控场景空间140的一部分相对于虚拟边界144发生变化时，处理所接收的数据以产生响应事件。

例如，在执行姿势146以定义至少一个虚拟边界144之后，系统100的用户150可以执行姿势146以向系统100指示一个或多个对象152。例如，用户150可以使用他的手或移动设备指向一个或多个对象152，和/或可以在设备的取景器中定位一个或多个对象。

在其它示例中，指示一个或多个对象的姿势146可以在定义虚拟边界144的姿势146之前执行。

系统100可以识别指示一个或多个对象152的姿势146，并且作为响应，系统100可以仅在与所指示的对象152相关的监控场景空间140的一部分相对于虚拟边界144发生变化时才产生响应事件。例如，系统100可以仅在所指示的对象152中的一个跨越、接触和/或进入虚拟边界144的阈值内时才产生响应事件。这种虚拟边界144可被认为是对象特定的虚拟边界。

参考图5的示例，人150可以执行姿势146以定义虚拟边界144，然后系统100可以识别姿势146并且实现虚拟边界144。

人150然后可以执行其它姿势，诸如指向他自己或另一个人或对象。系统识别这些其它姿势并且监控仅与所指向的对象相关的虚拟边界144。例如，只有在该对象跨越、接触和/或进入虚拟边界144的阈值内时，而不是在任何其它对象150跨越、接触和/或进入虚拟边界144的阈值内时，系统100才可产生响应事件。

在一些示例中，可以有条件地监控和/或有条件地使能/禁用虚拟边界144。例如，当满足一个或多个标准时，系统100可在监控场景空间140的一部分相对于虚拟边界144发生变化时处理所接收的数据以产生响应事件，否则，不处理所接收的数据以产生响应事件。

标准可以预定义和/或可以由用户使用姿势和/或一个或多个附加输入来配置。

在示例中，可以使用任何准则/标准。例如，可以使用任何时间和/或物理标准。在示例中，虚拟边界144可根据一天中的时间和/或一周中的天和/或一个月中的周和/或一年中的月来有条件地监控，和/或独立于监控场景空间140中的一个或多个对象152的存在而有条件地监控。

图6示出了由系统100执行以产生组合音频信号421的方法400的示例。

在框402处，系统100处理所接收的图像数据和/或所接收的深度数据以跟踪在监控场景空间中移动的对象。

在框404处，系统100确定所跟踪的移动对象在监控场景空间中的方位。

在框406处，系统100根据所跟踪的移动对象在监控场景空间中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频信号。

框400、402、404可以实时发生，以实时产生组合音频输出信号。

图7示出了监控场景空间140中的所跟踪的移动对象150。还示出了坐标系。在该示例中，使用球坐标系来定义所跟踪的移动对象150在监控场景空间中从起点“O”的方位401。起点“O”位于多个空间分集的麦克风处。方位401的球坐标是

其中，θ'是极角θ的值，在0度与180度之间；

是方位角

的值，在0度与360度之间。

系统100可被配置为根据所跟踪的移动对象150在监控场景空间140中的方位401，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频信号，该音频信号例如具有定向增益403，该定向增益403增强由所跟踪的对象150产生的音频。组合音频输出信号例如可以具有在目标方向

上的定向增益403，其中，θ”是极角θ的值，在0度与180度之间；

是方位角

的值，在0度与360度之间。

目标方向

由所跟踪的移动对象150的方位

确定。目标方向

与方位

可对齐(相同)，如图7的示例中所示，其中，目标方向

也是所跟踪的移动对象150的方位

或者目标方向

与方位

可不对齐(不同)。

图8示出了系统100的示例。

在该示例中，处理模块120被配置为处理所接收的图像数据112和/或所接收的深度数据112以跟踪在监控场景空间140中移动的对象150。处理模块120被配置为确定所跟踪的移动对象150在监控场景空间140中的方位401。处理模块120被配置为根据所跟踪的移动对象150在监控场景空间140中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波以产生组合音频信号421。组合音频输出信号421可以实时产生。因此，系统100是多输入413、单输出421(MISO)的。

在图8的示例中，波束形成器模块420被配置为对每个来自多个空间分集麦克风412的输出(x_i)413创建独立的滤波器系数(f_i)414。每个滤波器416对来自特定麦克风412的输出(x_i)413进行滤波，以对每个麦克风412产生滤波后的输出417。例如，每个滤波器416可以是由系数f_i 414定义的有限脉冲响应(FIR)滤波器，其对来自特定麦克风412的输出(x_i)413进行滤波，以对每个麦克风412产生滤波后的输出417。多个空间分集麦克风412的滤波后的输出417被相加以产生组合音频输出信号S 421。

波束形成器模块420可以控制组合音频输出信号S 421的定向增益。例如，特定的滤波器系数(f_i)414可被用于每个来自麦克风412的输出(x_i)413以实现期望的增益。例如，可以选择滤波器系数(f_i)414以产生全向增益，或者可以选择不同的滤波器系数(f_i)414以产生在目标方向上的增益。

例如，可以根据所跟踪的移动对象150在监控场景空间140中的方位401来创建滤波器系数(f_i)414以产生组合音频输出信号(S)421，该信号具有在目标方向上的定向增益403。

上述波束形成器模块420是滤波求和波束形成器模块。在一些示例中，滤波求和波束形成器模块可以是延迟求和波束形成器模块。延迟求和波束形成器使用滤波器系数(f_i)414在时域中将特定延迟添加到每个来自多个空间分集麦克风412的输出(x_i)413中。

如果多个空间分集麦克风412(标记为i，其中，i＝1、2...N)沿着单位矢量d以规则间隔D对齐，则在第一个(i＝1)麦克风412处的起点与第i个麦克风之间的标量间隔是D*i，第一个(i＝1)麦克风412与第i个麦克风之间的矢量间隔S _i是D*i*d。如果定向增益403在具有单位矢量t的目标方向上，则第i个滤波器与起点(i＝1)相比较的路径长度差Li是沿着目标方向单位矢量t对齐的矢量间隔S_i 的分量，其由矢量间隔S_i 和目标方向单位矢量t的矢量点(数量)积给出(Li＝S_i ·t＝D*i*d·t，其中，“·”是矢量点(数量)积)。由第i个滤波器与起点(i＝1)相比较的路径长度差Li引入的相位差

是路径长度差L_i除以波长λ再乘以2π弧度

滤波器f_i可以是

因此，由第i个滤波器向来自对应的麦克风412的对应输出413引入的相位延迟与(D*i*d)·t成正比，其中，“·”是矢量点(数量)积。滤波器f_i是exp(j*D*i*d·t*2π/λ)，其中，λ是声音的波长。定向增益403的目标方向t取决于所跟踪的移动对象150的方位401。

推广到任意起点，如果多个空间分集麦克风412中的每一个都在沿着单位矢量d _i的距离D_i处，并且定向增益403在具有单位矢量t的目标方向上，则由每个滤波器i向来自对应的麦克风412的对应输出413引入的相位差(相对于任意原点)是D_i*d _i·t*2π/λ，其中，“·”是矢量点(数量)积。由每个滤波器i向来自对应的麦克风412的对应输出413引入的相位差(相对于在第一个(i＝1)麦克风412处的起点)是[D_i*d _i·t-D₁*d ₁·t]*2π/λ，其中，“·”是矢量点(数量)积。滤波器f_i是exp(j*(D_i*d _i·t-D₁*d ₁·t)*2π/λ)，其中，λ是声音的波长。定向增益403的目标方向t取决于所跟踪的移动对象150的方位401。

在一些但并非全部示例中，系统100可附加地包括后置滤波器424，以用于对具有在目标方向上的定向增益403的组合音频输出信号(S)421进行滤波。后置滤波器424例如可以是减少噪声的自适应后置滤波器。

多个空间分集麦克风412可被配置为例如一维、二维或三维的固定阵列。在一些但并非全部示例中，多个空间分集麦克风412可以是设备的内部麦克风，被永久地集成为设备的硬件，而不是作为外围设备在外部附着或互连。

图9A至9E示出了所使用的系统100如何根据所跟踪的移动对象150在监控场景空间140中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波以产生组合音频信号421的一些示例。

在这些示例中，系统100根据所跟踪的移动对象150在监控场景空间140中相对于与监控场景空间140对应的监控场景空间142中的计算机实现的虚拟边界144的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波416，如上所述。

在这些示出的示例中，监控场景空间的不同部分由与监控场景空间140对应的监控场景空间142中的不同的计算机实现的虚拟边界144划定。应当理解，边界的数量、形状和其它属性仅仅是说明性的，监控场景空间的任何一个或多个部分可以由监控场景空间142中的一个或多个不同的计算机实现的虚拟边界144以任何合适的方式划定。

监控场景空间的第一部分A由与监控场景空间140对应的监控场景空间142中的第一计算机实现的虚拟边界144划定。

监控场景空间的第二部分B由与监控场景空间140对应的监控场景空间142中的第二计算机实现的虚拟边界144划定。

监控场景空间的第三部分C由与监控场景空间140对应的监控场景空间142中的第三计算机实现的虚拟边界144划定。

监控场景空间的第四部分D由与监控场景空间140对应的监控场景空间142中的第四计算机实现的虚拟边界144划定。

在该示例中，第四部分D与第一部分A、第二部分B和第三部分C中的每一个共享边界144。也即是说，第一部分A、第二部分B和第三部分C构成被第四部分D分隔的隔离岛。

系统100检测所跟踪的对象150的移动并且可确定所跟踪的对象150是在第一部分、第二部分、第三部分还是第四部分中以及它位于该部分中的何处。

如图9A所示，当所跟踪的对象150在第一部分A中时，系统100根据所跟踪的移动对象150在监控场景空间中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波416以产生组合音频信号421。组合音频信号(S)421具有在目标方向上的定向增益403，其中，目标方向由所跟踪的移动对象150的方位

确定。目标方向

与方位

未对齐。目标方向

不是所跟踪的移动对象150的方位

而是在第一部分A内的预定固定方位161。目标方向

在所跟踪的移动对象150在第一部分A内移动时不变。

如图9B和9D所示，当所跟踪的对象150在第四部分D中时，系统100根据所跟踪的移动对象150在监控场景空间中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波以产生组合音频信号421。组合音频信号S 421例如具有全向增益403。

如图9C所示，当所跟踪的对象150在第二部分B中时，系统100根据所跟踪的移动对象150在监控场景空间中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波416以产生组合音频信号421。组合音频信号(S)421具有在目标方向上的定向增益403，其中，目标方向由所跟踪的移动对象150的方位

确定。目标方向

与方位

对齐(相同)。目标方向

也是所跟踪的移动对象150的方位

并且在所跟踪的移动对象150在第二部分B内移动时改变161。

如图9E所示，当所跟踪的对象150在第三部分C中时，系统100根据所跟踪的移动对象150在监控场景空间中的方位401，自适应地对来自多个空间分集麦克风412的输出413进行滤波416以产生组合音频信号421。组合音频信号(S)421具有在目标方向上的定向增益403，其中，目标方向由所跟踪的移动对象150的方位

确定。目标方向

与方位

未对齐。目标方向

不是所跟踪的移动对象150的方位

而例如是在第三部分C外部的预定固定方位161，或者是不同的所跟踪的移动对象的方位。在该示例中的目标方向

在所跟踪的移动对象150在第三部分C内移动时不变。

在部分A、B、C、D之间跨越虚拟计算机实现的边界144的移动可如前面所描述的被检测到，并且在上面针对每个部分描述的自适应滤波可以是如前面所描述的响应事件。自适应滤波随后根据检测所跟踪的对象150跨越至少一个计算机实现的虚拟边界144从监控场景空间的一部分到监控场景空间的另一部分的移动而改变。

如前面所描述的，计算机实现的虚拟边界可由创建部分A、B、C、D的用户来预定义。

用户还可以根据所跟踪的移动对象150在监控场景空间中的方位401，对每个部分定义如何对来自多个空间分集麦克风412的输出413进行滤波416。

例如，用户可以定义组合音频信号(S)421是具有定向增益403还是具有全向增益。

例如，用户可以定义在目标方向上的定向增益403如何由所跟踪的移动对象150的方位

确定。

例如，用户可以定义目标方向

与方位

是否对齐。

例如，当目标方向

与方位

未对齐时，用户可以定义目标方向

的特性，诸如它是固定的还是可变的以及它的值。

在图9A和图9C所示的示例中，来自多个空间分集麦克风412的输出413的自适应滤波416具有被配置为增强由所跟踪的对象150产生的音频的定向增益。

在图9D所示的示例中，来自多个空间分集麦克风412的输出413的自适应滤波416具有被配置为增强由所跟踪的对象150以外的对象产生的音频的定向增益。

根据上述内容可以理解，处理模块120可以在监控场景空间142的一部分相对于至少一个虚拟边界144发生变化时，处理所接收的数据112以产生响应事件；以及

响应于响应事件，改变来自多个空间分集麦克风412的输出413的自适应滤波416以产生组合音频输出信号421。处理所接收的数据112以产生响应事件包括处理所接收的图像数据和/或所接收的深度数据以跟踪在监控场景空间中移动的对象150，并相对于至少一个虚拟边界监控所跟踪的对象，以检测跨越至少一个虚拟边界的移动和/或在至少一个虚拟边界的阈值内的移动。处理所接收的数据以产生响应事件可以是有条件的，例如，只有在至少一个条件被满足时才执行，如果至少一个条件都不满足，则不执行。

图10A和图10B示出了所使用的系统100如何根据所跟踪的移动对象150A、150B在监控场景空间140中的方位，自适应地对来自多个空间分集麦克风412的输出413进行滤波416以产生组合音频信号421的一些示例。

在这些示例中，系统100根据所跟踪的移动对象150A或所跟踪的移动对象150B在监控场景空间142中相对于计算机实现的虚拟边界144的方位，自适应地对来自多个空间分集麦克风412的输出413进行滤波416。

监控场景空间的第一部分A由与监控场景空间140对应的监控场景空间142中的第一计算机实现的虚拟边界144划定。监控场景空间的第二部分B由与监控场景空间140对应的监控场景空间142中的第二计算机实现的虚拟边界144划定。

系统100同时跟踪多于一个的对象。系统100同时跟踪对象150A和对象150B。

当对象150A在第一部分A中时，来自多个空间分集麦克风412的输出413的自适应滤波416具有被配置为增强由所跟踪的对象150A而不是所跟踪的对象150B产生的音频的定向增益。

当对象150A在第二部分B中时，来自多个空间分集麦克风412的输出413的自适应滤波416具有被配置为增强由所跟踪的对象150B而不是所跟踪的对象150A产生的音频的定向增益。

将理解，当满足不同的条件时，可使得来自多个空间分集麦克风412的输出413的自适应滤波416发生改变。例如，这样的条件的满足可以基于仅所跟踪的对象150A的方位、基于仅所跟踪的对象150B的方位、或者基于所跟踪的对象150A和所跟踪的对象150B的方位。条件可以基于仅所跟踪的对象150A的方位、基于仅所跟踪的对象150B的方位、或者基于所跟踪的对象150A和所跟踪的对象150B的方位而改变。

在本文中使用的术语“包括”具有包容而非排它性的含义。也即是说，任何提到“X包括Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”。如果意图使用具有排它性含义的“包括”，则将通过提及“仅包括一个”或通过使用“由...组成”在上下文中明确说明。

在此简要描述中，已经参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必存在于一些或所有其它示例中。因此“示例”、“例如”或“可以”是指一类示例中的特定的实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开针对一个示例但未针对另一个示例描述的特征可以但不必用于其它示例。

尽管本发明的实施例已经在前面的段落中参考各种示例进行了描述，但应当理解，可在不背离本发明要求保护的范围的情况下对给出的示例进行修改。

在前面的描述中描述的特征可用于除了明确描述的组合以外的组合中。

尽管已经参考某些特征描述了功能，这些功能可由其它特征来执行，无论是否描述。

尽管已经参考某些实施例描述了特征，这些特征也可存在于其它实施例中，无论是否描述。

在前面的描述中试图指出被认为是特别重要的本发明的特征时，应当理解，申请人要求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已经强调。

Claims

1.一种用于监控场景的方法，包括：

处理所接收的图像数据和/或所接收的深度数据以跟踪在监控场景空间中移动的对象；

确定所跟踪的移动对象在所述监控场景空间中的方位；

根据所跟踪的移动对象在所述监控场景空间中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频输出信号，其中，所述组合音频输出信号具有在目标方向上的定向增益；

定义由至少一个计算机实现的虚拟边界分隔的至少所述监控场景空间的第一部分和所述监控场景空间的第二部分；

检测所跟踪的移动对象跨越所述至少一个计算机实现的虚拟边界从所述监控场景空间的所述第一部分到所述监控场景空间的所述第二部分的移动；以及

根据检测到所跟踪的移动对象跨越所述至少一个计算机实现的虚拟边界从所述监控场景空间的所述第一部分到所述监控场景空间的所述第二部分的移动，将所述目标方向从第一方向改变为第二方向，其中，所述第一方向是与所述监控场景空间的所述第一部分相关联的一个或多个目标方向中的一个，所述第二方向是与所述监控场景空间的所述第二部分相关联的一个或多个目标方向中的一个，其中，所述第二方向与所述第一方向不同。

2.根据权利要求1所述的方法，其中，所述组合音频输出信号具有增强由所跟踪的移动对象产生的音频的定向增益。

3.根据权利要求1所述的方法，其中，所述目标方向由所跟踪的移动对象的方位确定，和/或其中，所述目标方向是所跟踪的移动对象的方位。

4.根据权利要求1所述的方法，包括：

定义由计算机实现的虚拟边界划定的所述监控场景空间的多个部分；

检测所跟踪的移动对象跨越一个或多个计算机实现的虚拟边界从所述监控场景空间的始发部分到所述监控场景空间的目的地部分的移动；

根据检测到所跟踪的移动对象跨越一个或多个计算机实现的虚拟边界从所述监控场景空间的始发部分到所述监控场景空间的目的地部分的移动，将指向所述监控场景空间的所述始发部分内的预定方位的所述目标方向改变为指向所述监控场景空间的所述目的地部分内的预定方位。

5.根据权利要求1所述的方法，还包括：

提供一个或多个计算机实现的虚拟边界的用户预定义和/或一个或多个目标方向的用户预定义。

6.根据权利要求1所述的方法，其中，根据所跟踪的移动对象在所述监控场景空间中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波以产生组合音频输出信号包括：使用根据所跟踪的移动对象在所述监控场景空间中的方位而配置的滤波求和波束形成器或延迟求和波束形成器。

7.根据权利要求1所述的方法，包括：

确定对来自所述多个空间分集麦克风的输出的自适应滤波是对所述输出使用公共滤波还是对所述输出使用不同滤波。

8.根据权利要求1所述的方法，包括：

确定对来自所述多个空间分集麦克风的输出的自适应滤波是具有被配置为增强由所跟踪的移动对象产生的音频的定向增益还是具有被配置为增强不是由所跟踪的移动对象产生的音频的定向增益；以及/或者

确定对来自所述多个空间分集麦克风的输出的自适应滤波是具有被配置为增强由所跟踪的移动对象产生的音频的定向增益还是具有被配置为增强由不同对象产生的音频的定向增益。

9.根据权利要求1所述的方法，其中，

处理所接收的图像数据和/或所接收的深度数据以跟踪在监控场景空间中移动的对象、确定所跟踪的移动对象在所述监控场景空间中的方位、以及根据所跟踪的移动对象在所述监控场景空间中的方位，自适应地对来自多个空间分集麦克风的输出进行滤波是实时发生的，以实时产生所述组合音频输出信号。

10.根据权利要求1所述的方法，其中，所述多个空间分集麦克风构成均匀间隔的阵列和/或构成固定阵列和/或是装置的内部麦克风。

11.根据任一前述权利要求所述的方法，包括：

当所述监控场景空间的一部分相对于至少一个虚拟边界发生变化时，处理所接收的数据以产生响应事件；

响应于所述响应事件，改变对来自所述多个空间分集麦克风的输出的自适应滤波以产生组合音频输出信号。

12.根据权利要求11所述的方法，包括：

识别至少一个姿势以在监控空间中定义所述至少一个计算机实现的虚拟边界，其中，所述监控空间与所述监控场景空间之间存在对应关系；

使得所述至少一个虚拟边界在与所述监控场景空间对应的所述监控空间中实现。

13.一种用于监控场景的装置，包括用于执行权利要求1至12中至少一项所述的方法的装置。

14.一种计算机可读存储介质，在其上存储有计算机程序代码，所述计算机程序代码在由至少一个处理器执行时，至少使得权利要求1至12中至少一项所述的方法被执行。