CN105027550A

CN105027550A - 用于处理视觉信息以检测事件的系统和方法

Info

Publication number: CN105027550A
Application number: CN201380057713.5A
Authority: CN
Inventors: L·奥戈尔曼; T·K·霍; Y·殷
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2012-11-06
Filing date: 2013-03-13
Publication date: 2015-11-04
Anticipated expiration: 2033-03-13
Also published as: EP2918071B1; KR101655102B1; WO2014074139A1; US20150235379A1; KR20150065847A; CN105027550B; EP2918071A1; WO2014074139A9; JP5986689B2; US9256955B2; JP2015535110A

Abstract

系统和方法处理包括至少一个运动中的对象的视觉信息。通过以下步骤对所述视觉信息进行处理：定位所述视觉信息中的所述对象的至少一个空间边缘；在N个帧上为所述至少一个空间边缘生成多个时空梯度；接下来根据所述时空梯度生成运动模糊图像。对所述运动模糊图像执行回归分析，以确定所述对象的运动方向信息，接下来基于所述运动方向信息为所述N个帧生成场景活动向量。基于所述场景活动向量在所述视觉信息中检测事件。

Description

用于处理视觉信息以检测事件的系统和方法

相关申请的交叉引用

本申请要求享有2012年11月6日提交的美国临时专利申请61/722,885的优先权，其内容通过引用全部结合至此。

背景技术

一个或多个实施方式涉及处理视觉信息。

已经开发出了多种处理技术，通过利用-举例来说-混合高斯模型(MOG)，分层贝叶斯模型和隐马尔可夫模型来检测视频中的特征。特征位于一个帧中，尝试找到随后相邻帧中的匹配特征，或者在相邻帧之间执行块匹配。这些技术已经被证明因为计算复杂性而耗时，还发现容易受光线变化、遮蔽、旋转、比例差异和其他影响而产生误差。

此外，这些技术执行从下而上法来寻找特征。这种方法基于区域来定位特征，举例来说，所述区域可以是预选的尺寸为n x n的固定块。自下而上法还检测，分割和跟踪一个特征，接下来尝试检测，分割和跟踪数量越来越多更大数量的特征。当特征的数量变得巨大时，无法以任何精确度来检测或跟踪对象。因此，自下而上法被证明对于很多应用而言是不适合的。

发明内容

根据本发明的一个实施方式，提供了一种以实现低误差率的方式精确地检测特征和事件的方法。

根据另一个实施方式，提供了一种用于实时检测特征和事件的方法，该方法可以被证明在紧急情况下、公共安全或其他应用中是有益的。

根据另一个实施方式，提供了一种用于检测视频中的大量特征和事件而不随着特征或事件的数量增加损失精确度的方法。

根据另一个实施方式，提供了一种用于以低误差率检测复杂场景或人群中的特征和事件的方法。

根据另一个实施方式，提供了一种利用趋势和异常无监督学习来检测特征/事件的方法。

根据另一个实施方式，提供了一种利用相干统计法检测特征和事件的方法，所述相干统计法涉及对视觉信息中的特征进行自上而下分组和非离散跟踪。

根据另一个实施方式，提供了一种利用自上而下法检测特征和事件的方法，所述自上而下法是基于视觉信息中的运动边缘的位置，而不是基于像素，更具体地，包括固定数量像素的预选区域。

根据另一个实施方式，提供了一种基于生成将在检测视觉信息中的更高级运动边缘时使用的时空梯度(gradient)而定位运动边缘的方法。

根据另一个实施方式，提供了一种基于对运动边缘而非预选的固定空间区域或预选的固定时间长度(剪辑或长方体长度)进行定位而对视觉信息执行事件检测的方法。相反，根据至少一个实施方式，使用了多分辨率空间表示。

根据另一个实施方式，提供了一种基于对视觉信息中的运动边缘或活动而非预选的固定数量像素进行定位而执行事件检测的方法。

根据另一个实施方式，提供了一种对视觉信息执行事件检测的方法，该方法利用统计法寻找帧中的特征的运动，无需匹配帧之间的特征。

根据另一个实施方式，在维持完全时间分辨率的同时实施前面所提到的方法，由此可以高精确度地检测和测量事件的开始和结束。

根据一个实施方式，处理信息的方法包括：接收包括至少一个运动中的对象的视觉信息；定位所述视觉信息中的所述对象的至少一个空间边缘；在N个帧上为所述至少一个空间边缘生成多个时空梯度，其中N≥3；根据所述时空梯度生成运动模糊图像；对所述运动模糊图像执行回归分析，以确定所述对象在所述N个帧中的运动方向信息；基于所述运动方向信息为所述N个帧生成场景活动向量；以及基于为所述N个帧生成的场景活动向量在所述视觉信息中检测事件。

可以通过以下步骤生成所述时空梯度：获得所述N个帧中的每一个的空间边缘图像；以及基于所述空间边缘图像中的一个相应空间边缘图像和移动平均线确定所述时空梯度。所述移动平均线是基于背景边缘图像的。

可以通过以下步骤生成所述场景活动向量：将所述N个帧中的每一个划分为块；确定每个块的特征参数；为每个块生成场景活动向量；以及基于为所述N个帧的每个块生成的场景活动向量确定所述N个帧的场景活动向量。

所述特征参数可以包括以下参数中的一个或多个：基于所述块中的一个相应块中的非零方向值的和的第一参数；基于所述块中的一个相应块中的主导方向的第二参数；基于所述块中的一个相应块中的主导颜色的第三参数；基于所述块中的一个相应块中的运动的平均速度的第四参数；基于所述块中的一个相应块中的所述对象的运动方向的一致度或均匀度的第五参数；基于密度的第六参数；或基于时频的第七参数。

根据另一个实施方式，用于处理信息的装置包括被配置为存储控制程序的存储区域和被配置为基于所述控制程序对视觉信息进行处理的控制器。所述控制器可以通过以下步骤处理所述视觉信息：定位视觉信息中一个对象的至少一个空间边缘；在N个帧上为所述至少一个空间边缘生成多个时空梯度，其中N≥3；根据所述时空梯度生成运动模糊图像；执行回归分析以确定所述对象在所述N个帧中的运动方向信息；基于所述运动方向信息为所述N个帧生成场景活动向量；以及基于为所述N个帧生成的所述场景活动向量在所述视觉信息中检测事件。

所述控制器可以通过以下步骤生成所述时空梯度：获得所述N个帧中的每一个的空间边缘图像；以及基于相应空间边缘图像和移动平均线确定所述时空梯度。

所述控制器可以通过以下步骤生成所述场景活动向量：将所述N个帧中的每一个划分为块；确定每个块的特征参数；为每个块生成场景活动向量；以及基于为所述N个帧的每个块生成的场景活动向量确定所述N个帧的场景活动向量。

根据另一个实施方式，提供了一种系统。该系统包括如上所述用于处理信息的装置，被配置为提供视觉信息的一个或多个视频源，被配置为生成反馈信息的一个或多个反馈装置，以及被配置为呈现来自所述处理装置的输出的反馈生成器接口。所述反馈生成器接口还被配置为控制所述反馈装置以生成所述反馈信息。

根据另一个实施方式，提供了一种非瞬时性计算机可读介质。所述非瞬时性计算机可读介质存储一组可执行指令，当执行时，所述指令将处理装置被配置为执行任意上述的方法实施方式。

另一个实施方式涉及一种计算机程序，该计算机程序适于执行任意上述和/要求保护的方法。举例来说，计算机程序适于执行包括以下步骤的方法：接收包括至少一个运动中的对象的视觉信息；定位所述视觉信息中的所述对象的至少一个空间边缘；在N个帧上为所述至少一个空间边缘生成多个时空梯度，其中N≥3；根据所述时空梯度生成运动模糊图像；对所述运动模糊图像执行回归分析，以确定所述对象在所述N个帧中的运动方向信息；基于所述运动方向信息为所述N个帧生成场景活动向量；以及基于为所述N个帧生成的所述场景活动向量在所述视觉信息中检测事件。

附图说明

根据下面的详细描述和附图，可以完全理解本发明，其中相似的元素用相似的附图标记表示，这只是以举例方式进行说明，因此不对本发明构成限制。

图1显示了用于处理视觉信息的装置的一个实施方式。

图2显示了用于处理包括视觉信息的信息的方法的实施方式中包括的操作。

图3显示了用于为视频帧生成时空梯度的方法的一个实施方式中包括的操作。

图4显示了用于为视频帧生成纹理差异图像的方法的一个实施方式中包括的操作。

图5显示了用于为视频帧生成场景活动向量的方法的一个实施方式中包括的操作。

图6A至6D显示了用于为场景活动向量生成场景参数的一个实施方式中包括的操作。

图7A至7D显示了用于为场景活动向量生成场景参数的另一个实施方式中包括的操作。

图8显示了如何基于为一段时间内的视频帧生成的场景活动向量而检测事件的例子。

图9A显示了走廊场景的视频帧，图9B显示了利用光流技术为图9A所示视频帧生成的运动特征的例子，图9C显示了基于图9A所示视频帧中的空间图像的位置而生成的运动特征的例子。

图10A显示了走廊的视频帧，该走廊上有多个人，将为这些人生成运动边缘，图10B显示了走廊和相机位置的布局。

图11A和11B显示了事件检测的时间轮廓。

图12显示了紧急情况下人群的视频帧。

图13显示了图12所示视频帧的可信度值。

图14A显示了为视频帧生成的分数的例子，图14B显示了视频帧的场景活动向量。

图15显示了帧的不同水平分区的例子。

图16显示了图15所示分开的水平的参数。

图17显示了场景活动向量参数的例子。

图18显示了为检测多个视频帧中的事件而生成的时空长方体的例子。

图19显示了不同时间的场景活动向量分数。

图20显示了不同日期的场景活动向量值。

图21显示了游戏的一个实施方式的截图。

图22显示了互动式数字招牌应用。

图23显示了用于实施互动式实施方式的系统的图。

具体实施方式

下面参考附图更充分地描述各种示例实施方式，在附图中出现时了某些示例实施方式。

虽然能够对示例实施方式进行各种修改并且以替代形式实现，但是在附图中以举例方式显示了这些实施方式，并在这里对其进行详细描述。但是，应该理解，这不意味着示例实施方式限制为所公开的特定形式。相反，示例实施方式涵盖落入本公开的所有修改，等价或替代。在整个对附图的描述中，相似的数字表示相似的元素。

虽然在这里会使用术语“第一”，“第二”等描述不同元素，但是这些元素不应受这些术语限制。这些术语仅被用于将一个元素与另一个元素区分开。例如，在不超出本公开的范围的前提下，可以将第一元素称为第二元素，同样，可以将第二元素称为第一元素。这里使用的术语“和/或”包括相关列出项目中的一个或多个的任意和所有组合。

当将一个元素称为是与另一个元素“连接”，或“耦合”时，它可以直接连接或耦合至另一个元素，或者可以存在中介元素。相反，当将一个元素称为是与另一个元素“直接连接”或“直接耦合”时，不存在终结元素。用于描述元素之间的关系的其他词语应该以类似方式进行解释(例如，“在……之间”与“直接在……之间”，“相邻”与“直接相邻”等。)

这里使用的术语目的只是为了描述特定实施方式，不应理解为限制性的。除非另有说明，单数形式“一”，“一个”和“所述”应该还包括复数形式。还应该理解，这里使用的术语“包括”，“包含”指定存在所陈述的特征，整数，步骤，操作，元素，和/或组件，但是不排除存在或增加一个或多个其他特征，整数，步骤，操作，元素，组件，和/或它们的分组。

需要注意，在一些替代实施方式中，功能/动作发生的顺序可能以与图中所示顺序不同。例如，连续心事的两个图可能实际上基本上同时地执行，或者以相反顺序执行，这取决于所涉及的功能/动作。

除非另有限定，这里使用的所有术语(包括技术术语和科学术语)的意思与本领域技术人员常规理解的意思相同。还应该理解，术语-例如，在常用字典中限定的术语-应该解释为含义与它们在相关技术领域背景下的含义一致，除非这里明确定义，不应该理想化或过度正式地解释。

示例实施方式的一部分和相应细节描述表示为控制器执行的算法。这里所指的算法是指产生所需结果的一系列有条理的步骤。这些步骤需要对物理量进行物理操作。通常，尽管不一定，这些量的形式是能够被存储，传输，组合，比较和操作的光信号，电信号或磁信号。已经证明，将这些信号称作比特，值，元素，符号，字符，术语，数字等是很方便的，这主要是为了通用。

在下面的描述中提供了特定细节，从而提供对示例实施方式的彻底理解。但是，本领域技术人员可以理解，示例实施方式可以脱离这些特定细节实施。例如，可能以框图显示系统，从而避免用不必要的细节使示例实施方式模糊不清。在其他例子中，公知的方法，结构和技术可能显示为不包括不必要的细节，从而避免使示例实施方式模糊不清。

在下面的描述中，将参考动作和操作的符号表示(例如，形式为流程图，作业图，数据流图，结构图，方框图等)来描述说明性实施方式，所述动作和操作的符号表示可以实施为程序模块或功能性流程，包括执行特定任务或执行实施特定抽象数据类型的例行程序，程序，对象，组件，数据结构等，并可以利用现有硬件在现有网元，现有终端用户设备和/或后处理工具(例如，移动设备，膝上计算机，台式计算机等)上实施。上述现有硬件可以包括一个或多个中央处理单元(CPU)，数字信号处理器(DSP)，专用集成电路，现场可编程门阵列(FPGA)计算机等。

除非特别指定，或显而易见，诸如“处理”，或“运算”，或“计算”，或“确定”或“显示”等这样的术语指的是计算机系统或相似电子计算设备的动作或流程，计算机系统或电子计算设备对计算机系统的寄存器和存储器中表示为物理量，电子量的数据进行操作，并将其转换为其它数据，在计算机系统存储器或寄存器或其它此类信息存储，传输或显示设备中，其它数据同样被表示为物理量。

虽然流程图可能将操作描述为连续的过程，但是很多操作可能并行或同时操作。此外，操作的顺序可以重新安排。过程可以在当其操作完成时结束，但是可能还包括未在图中显示的额外步骤。过程可以对应于方法，函数，程序，子例行程序，子程序等。当过程对应于函数时，它的结束可以对应于将函数返回至调用函数或主函数。

还应该注意，示例实施方式的被实施为软件的各个方面通常编码在某些形式的有形(或记录)存储介质上，或者在某些类型的传输介质上实施。此外，术语“存储介质”可以表示用于存储数据的一个或多个设备，包括只读存储器(ROM)，随机存取存储器(RAM)，磁性RAM，磁盘存储介质，光学存储介质，闪存设备和/或用于存储信息的其他有形机器可读介质。术语“计算机可读介质”可以包括，但是不限于便携或固定存储设备，光学存储设备和能够存储，包含或携带指令和/或数据的各种其他介质。

此外，示例实施方式可以通过硬件，软件，固件，中间件，微码，硬件描述语言，或其组合实施。当以过硬件，软件，固件或中间件实施时，执行必要任务的程序代码或代码段可以存储在机器或计算机可读介质，例如计算机可读存储介质中。当以软件实施时，一个或多个处理器将执行必要任务。

代码或代码段可以表示过程，函数，子程序，程序，例行程序，子例行程序，模块，软件包，类，或指令，数据结构或程序语句的任意组合。可以通过传递和/或接收信息，数据，命令行参数，参数或存储内容将代码段耦合至另一个代码段或硬件电路。信息，命令行参数，参数，数据等可以通过任意合适的手段被传递，转发或传输，所述手段包括存储器共享，消息传递，令牌传递，网络传输等。

术语“终端”可以与移动用户，移动台，移动终端，用户，订阅者，无线终端，用户装置和/或远程站同义，并可以描述具有无线通信网络中无线资源的远程用户。因此，终端可以是无线电话，具有无线装置的笔记本电脑，具有无线装置的器具等。

术语“基站”可以理解为一个或多个小区站点，基站，节点B，增强型节点B，接入点，和/或任意无线频率通信终点站。尽管当前网络架构可能考虑移动/用户设备和接入点/小区站点之间的区别，但是后面描述的示例实施方式可以应用于区别不是这么明显的架构，例如点对点(ad-hoc)和/或网状网络架构。

从基站到终端的通信可以称为下行或前向链路通信。从终端到基站的通信可以称为上行或反向链路通信。

图1显示了用于处理视觉信息的装置的一个实施方式。视觉信息可以是从各种源接收的视频，图形，或其组合。可以对视觉信息进行处理以执行检测，监控，和/或跟踪功能，下面将更详细地描述。

如图1所示，装置包括控制器10，第一存储区域20，和第三存储区域30。这些特征可以包括在处理系统中，举例来说，该处理系统可以是个人计算机，智能电话，pad或pod式装置，平板，游戏系统，公共或私人控制系统，安全系统或用于处理信息的便携或固定装置。

控制器10可以包括微处理器和/或基于第一存储区域20中存储的控制程序运行的一个或多个其他控制电路。控制器10执行控制程序以执行下面更详细描述的某些功能。第一存储区域20可以是只读存储器，硬盘驱动器，或其他类型的存储区域。

第二存储区域30存储信息，该信息包括从-举例来说-接口40接收的视觉信息。第二存储区域可以是随机存取存储器或其他类型的易失存储器，硬盘驱动器，或数据库。第一存储区域20和第二存储区域30可以是装置内的组件，或者这些存储区域中的一者或二者可以通过核实的连接器或其他接口与装置连接。

例如，在游戏应用中，将由控制器10处理的信息可以是视频和/或图形信息，该视频和/或图形信息存储在高密度磁盘(CD)或与装置连接的其他可移除存储介质上，或基于来自高密度磁盘(CD)或与装置连接的其他可移除存储介质的数据而生成。或者，视觉信息可以通过互联网或其他网络以串流或下载格式接收。

如同上面提到的那样，在至少一个实施方式中，控制器10通过接口40接收视觉信息。当视觉信息包括视频时，接口40可以连接至视频源50。视频源可以包括在装置中，或者可以与装置本地连接，或通过远程馈送或连接与装置连接。例如，视频源可以是闭合电路，监控，或通过网络与装置连接的网络相机，或者视频源可以是装置的内部相机。

装置还可以包括或连接至输入装置60以接收输入到控制器10中的命令，指令或其他信号。输入装置-举例来说-可以是键盘，小键盘，鼠标，游戏控制器，或者其他装置，其他装置可以由用户操作以将信号输入到控制器中，从而基于第一存储区域20中存储的控制程序执行一个或多个功能。

装置还可以包括或连接至显示器70以输出控制器10执行的处理功能的结果。根据一个实施方式，显示器输出与控制器10执行的功能对应的事件检测信息，紧急情况信息或告警信息，统计信息和/或图像，视频和/或纹理信息。所显示信息的特定例子将在下面更详细地描述。

图2显示了用于处理包括视觉信息的信息的方法的一个实施方式。该方法可以由图1所述的装置或不同装置执行。根据该实施方式，对视觉信息进行处理以执行事件检测。事件可以是一个或多个人或一群人，人或对象的运动，紧急状况或情况，游戏活动，对人或对象的跟踪，行为识别，模式识别，或其他类型的滑动，情况或事件。下面更详细地对特定示例实施方式进行讨论。

在执行事件检测的过程中，初始操作包括接收视觉信息，该视觉信息包括至少一个感兴趣的对象(S210)。视觉信息可以是视频，图形或它们的组合。在一个实施方式在，视觉信息包括来自视频源的视频。视频源可以是相机，该相机实时或近乎实时地接收视频以进行处理，或者视频可以被预加载和存储，随后进行分析以检测事件。此外，或替代地，视觉信息可以是计算机生成，将在-举例来说-游戏或其他应用中使用的视频，数据，或图形。

取决于应用，视觉信息中的对象可能不同。例如，对象可以是公共或私人区域-室内或户外-中的人或一群人或人群。此外，或替代地，对象可以是将被监控或跟踪，或者其存在或运动将被确定的非人类对象。此外，或替代地，对象可以是可能在-举例来说-游戏应用中出现的图形对象的位置或运动。

在接收到视觉信息之后，方法以至少三个阶段执行：1)运动特征计算，2)场景活动向量确定，和3)事件检测。这些阶段可以根据下面描述的方式执行。在描述这些阶段中的操作时，假定视觉信息是视频信息。但是，这些阶段同样可以应用于单独的，或与视频结合在一起的图形或其他类型的视觉信息。

运动特征计算

第一阶段包括定位视觉信息中的至少一个空间边缘(S220)。空间边缘可以对应于感兴趣的对象，但是，该方法可能先前并不知道该对象。相反，方法的第一节点仅仅定位空间边缘，随后在稍后阶段中决定边缘是否对应于事件。(为了说明目的，对空间边缘的讨论是相对于感兴趣的对象，更具体地基于对象的状态，状况，或活动对事件进行检测)。

举例来说，可以利用最小区域边缘检测器来定位空间边缘，最小区域边缘检测器的例子是利用索贝尔(Sobel)边缘检测技术来定位边缘的检测器。该空间边缘可以位于已接收视频的第一帧中，或者该空间边缘的定位操作可以在某个时间启动，或者在视频中的一定数量帧过去之后启动。该某个时间或一定数量的帧可以由控制程序确定，可以响应于由控制器生成的控制信号而被执行，和/或可以响应于基于用户的动作而通过输入装置接收到的控制信号被启动。

定位操作可以包括至检测对象的一个空间边缘，或者可以包括检测对象的多个空间边缘。例如，在对象是一个人或一群人的情况下，定位操作可以定位多个边缘，所述边缘-举例来说-对应于人的轮廓或剪影和/或人群中不同人的轮廓或边缘的全部或一部分。另外地，或替代地，定位操作可以包括检测视频的同一帧中的多个对象的一个或多个空间边缘，其中对象可以是多个人，结构，车辆或其他对象，或其组合。

在视频的帧中定位至少一个空间边缘之后，该方法继续，生成N个帧上的至少一个空间边缘的多个时空梯度(S230)。N的值可以是两个或两个以上，在一个实施方式中N≥3。另外地，或替代地，可以基于相对于视频的时间周期来确定帧的数量。时间周期可以横跨视频的整个长度，或者可以对应于某个兴趣时间，该兴趣时间是基于-举例来说-用户输入信号而被指定或控制。当将数量逐渐增多的帧纳入考虑时，事件检测的可能性可以改善。

在一个实施方式中，根据以下等式，时空梯度生成为空间差异的时间差异“Δ”。

G_{t} (x, y) = \frac{Δ}{Δ t} (\frac{Δ I (x, y)}{Δ x}, \frac{Δ I (x, y)}{Δ y}) - - - (1)

其中Gt(x,y)是帧t上，在帧中的位置(x，y)处的时空梯度，I(x,y)是光线强度，ΔI(x,y)/Δx是x处的空间边缘(在y处情况类似)。如上所示，可以-举例来说-通过最小区域边缘检测器，例如前面提到的Sobel检测器来发现空间边缘。

在等式(1)中，符号表示梯度是基于一段时间内已定位边缘的空间变化计算出来的，所述时间可以根据多个帧来测量。多个帧可以包括两个帧，或者多于两个帧。当时间较长，多达数秒或数分钟时，可以考虑数百帧。在一个应用中，特别是在方法的公共安全应用中，可以对视频进行24小时或更长的时间的连续分析。

在生成梯度的过程中，空间边缘的差异(或变化)可以基于当前空间边缘图像和相同帧或其他帧中该图像的指数移动平均线之间的差异。指数移动平均线可以-举例来说-对应于相同帧中的背景边缘图像，空间x和y边缘定位在该相同帧中。梯度可以表示为被考虑的时间周期(多个帧)内的多个梯度图像。

图3显示了如何基于等式(1)计算N个帧上的的梯度图像G_t(x,y)。首先，在第一帧中确定于空间边缘对应的光线强度I(x,y)(S310)。当定位多个空间边缘时，可以确定每个边缘的光线强度。确定了每个帧的光线强度I(x,y)之后，确定帧的x处的空间边缘图像(S320)。在该操作之后，确定帧的y处的空间边缘图像

在下一个操作中，基于光线强度，x和y处的空间边缘图像和移动平均线生成空间边缘图像G_t(x,y)，举例来说，所述移动平均线对应于背景边缘图像(S340)。这些操作继续，直到为时间周期Δt(多个帧)生成了可以表示为对应梯度G_t(x,y)图像的时空梯度。

在获得梯度G_t(x,y)图像(或差异图像)之后，可以基于相对于选定值的一个或多个阈值对图像进行量化(S360)，从而获得具有有意义边缘的二进制图像。可以基于等式(2)执行量化：

如果G_t＞τ，则G’_t(x,y)＝1，否则等于0 (2)

该量化过程的更详细描述可以基于等式(3)执行，其中对应于梯度图像在时间t和t-1之间的差异。

在上述等式中，时间t-1可以对应于在与时间t对应的帧之前发生的帧。该帧可以是与时间t对应的帧之前的相邻帧，或者在与时间t和t-1对应的帧之间可以存在一个或多个中间帧

此外，在等式(3)中，符号B(x,y,t-1)对应于时间t-1上空间边缘的梯度，符号E(x,y,t)对应于时间t上空间边缘的梯度。因此，表示一个梯度，该梯度表明该空间边缘在相应帧中的差异，举例来说，所述差异可以作为空间边缘在这些帧之间的移动的结果而生成。空间边缘可以对应于n x n个像素，所述像素包括之前定位的空间边缘。

考虑等式(3)，如果空间边缘E和B之间不存在差异(或者至少该空间边缘的差异低于阈值)，则梯度图像E量化为值0。如果这些空间边缘之间存在差异，则梯度图像量化为值1。如果空间图像不在于时间t和t-1对应的帧中出现，则梯度图像量化为值2。

返回至图2，在下一个操作中，根据时空梯度生成多个运动模糊图像(S240)。更具体地，如等式(4)和(5)所示，可以通过结合每个帧中的各个量化梯度图像和k个之前帧的单调衰减的权重w_k来生成运动模糊图像：

B_{t} (x, y) = \cup_{k = 1}^{K} w_{k} G_{t - k}^{'} (x, y) - - - (4)

w_k＝W-k+1,1≤k≤K,W≥K (5)

在等式(4)中，执行“加权逻辑OR”，其中如果G′_t-k＝1或0，则结果不是0或1，而是w_k。如果一个以上G′_t-k等于1，则选择与最长衰减边缘对应的最小值权重)。因此，根据一个实施方式，运动模糊图像包括当前帧中的空间边缘的高位值，和对于K个帧而言，之前的一个帧减去1，以此类推。该图像看起来像对象的边缘的单个快照，该对象的移动引起模糊。

在下一个操作中，对运动模糊图像执行回归分析，从而确定对象在N个帧中的运动方向信息(S250)。更具体地，对于为每个运动模糊结果做出贡献的每个帧周期(K个帧)，在x和y处对平均运动模糊位置应用线性回归拟合，在每个运动模糊帧的(x，y)位置周围具有wxw个窗口。

根据拟合的斜率，ρ_x和ρ_y，可以根据以下等式计算运动方向θ：

ρ_{x} (x, y, t) = c o v (k, \overset{&OverBar;}{X_{B}} (k)) / v a r (\overset{&OverBar;}{X_{B}} (k)) - - - (6)

ρ_{y} (x, y, t) = cov (k, \overset{&OverBar;}{Y_{B}} (k)) / V a r (\overset{&OverBar;}{Y_{B}} (k)) - - - (7)

θ(x,y,t)＝arctan(ρ_y/ρ_x) (8)

在以上等式中，在帧时间t上，并且针对每个帧延迟的1≤k≤K的平均运动模糊位置在wxw大小的窗口中被发现，–w/2≤(i,j)≤w/2：

\overset{&OverBar;}{X_{B}} (k) = \underset{i, j}{Σ} (x + i) B_{t} (x + i, y + j, k) / w_{k} - - - (9)

\overset{&OverBar;}{Y_{B}} (k) = \underset{i, j}{Σ} (y + j) B_{t} (x + i, y + j, k) / w_{k} - - - (10)

位置x和y之间的协方差和平均运动模糊位置分别为：

cov (k, {\overset{&OverBar;}{X}}_{B} (k)) = Σ_{k = 1}^{K} k {\overset{&OverBar;}{X}}_{B} (k) - \frac{1}{K} Σ_{k = 1}^{K} k Σ_{k = 1}^{K} {\overset{&OverBar;}{X}}_{B} (k) - - - (11)

cov (k, {\overset{&OverBar;}{Y}}_{B} (k)) = Σ_{k = 1}^{K} k {\overset{&OverBar;}{Y}}_{B} (k) - \frac{1}{K} Σ_{k = 1}^{K} k Σ_{k = 1}^{K} {\overset{&OverBar;}{Y}}_{B} (k) - - - (12)

平均运动模糊位置的协方差分别为：

var ({\overset{&OverBar;}{X}}_{B} (k)) = Σ_{k = 1}^{K} {\overset{&OverBar;}{X}}_{B}^{2} (k) - \frac{1}{K} {(Σ_{k = 1}^{K} {\overset{&OverBar;}{X}}_{B} (k))}^{2} - - - (13)

var ({\overset{&OverBar;}{Y}}_{B} (k)) = Σ_{k = 1}^{K} {\overset{&OverBar;}{Y}}_{B}^{2} (k) - \frac{1}{K} {(Σ_{k = 1}^{K} {\overset{&OverBar;}{Y}}_{B} (k))}^{2} - - - (14)

运动模糊图像的回归拟合可以允许本实施方式基于比两个相邻帧更多的帧生成高级运动特征，但是也可以执行两个帧的实施方式。运动模糊图像的回归拟合可以允许本实施方式基于比两个相邻帧更多的帧生成高级运动特征，但是也可以执行两个帧的实施方式。

边缘纹理转换。方法的前述阶段可以通过以下方式修改或补充：根据视频帧中的空间边缘生成纹理。下面描述应用于走廊的示例。

参考图4，从走廊中的相机接收视频帧410。视频帧410包括多个随时间(帧)而移动的多个空间边缘。在这种情况下，空间边缘与走廊中向不同方向走的人相关。视频帧410中的空间边缘可以被描述为边缘纹理T(t)420，边缘纹理T(t)420随时间在不同帧中移动。因此，可以说边缘纹理或空间边缘具有不同空间和时间特征。

可以根据以下等式，通过将空间边缘转换为纹理CM而生成边缘纹理：

C_{M} (x, y, t) = \underset{i}{Σ} \underset{j}{Σ} [&dtri; E (x - i, y - j, t) = M] - - - (15)

其中w/2≤i，j≤w/2，并且M＝{0,1,2}。在该等式中，可以为w x w个窗口上的梯度边缘的差异求和。

一旦定位帧中的纹理(空间边缘)之后，确定移动平均线。移动平均线可以对应于-举例来说-背景图像，该背景图像是根据在时间t针对视频帧410和在时间t-1针对前一帧420获得的边缘纹理T(t)的差异得到的。例如，背景图像可以对应于帧的在时间t和t-1之间不移动的部分。背景图像可以被认为是对应于移动平均线430。

边缘纹理T(t)和移动平均线(背景图像)可以表达为梯度图像450中的梯度。在该梯度图像中，边缘纹理T(t)被显示为由与时间t上的空间边缘对应的线ET表示的明亮部分。移动平均线被显示为图像450的由线MA表示的较暗部分。

一旦生成了梯度图像，取边缘纹理T(t)和移动平均线之间的差异以产生纹理差异D(t)460。与D(t)对应的差异图像470可以对应于在时间t叠加在输入视频帧上的边缘纹理T(t)。边缘纹理可以在差异图像中显示，举例来说，以不同颜色显示。

边缘纹理的差异可以被量化，其中值0表示没有纹理，值1表示相对于之前帧的相同纹理，值2表示不同的或新的纹理，值3表示由于-举例来说-低可信度而出现的未决情况。边缘纹理差异的量化可以-举例来说-根据以下等式基于统计平均和可信度而被执行：

如果C0(x,y,t)＜w2/T2，则

&dtri; T (x, y, t) = 0 - - - (16)

如果则C1(x,y,t)＞w2/T3，并且C1(x,y,t)＞2C2(x,y,t)，

&dtri; T (x, y, t) = 1

如果则C2(x,y,t)＞w2/T3，并且C2(x,y,t)＞2C1(x,y,t)，

&dtri; T (x, y, t) = 2

否则

&dtri; T (x, y, t) = 3

场景活动向量

参考图2，方法的第二阶段包括基于运动方向信息生成N个帧的场景活动向量(S260)。更具体地，一旦确定了每个与空间边缘对应的位置上的运动方向信息，对于每个帧，将特征组织为场景活动向量SAV(t)。

根据一个实施方式，这是通过多级表示实现的，多级表示包括连续以2x2的方式将帧划分为块。参考图5，目标为生成场景活动向量的第一操作包括将N个帧中的第一帧划分为一个或多个块(S510)。例如，在0级，整个帧可以被认为是一个块。在1级，帧可以划分为4个块。在2级，帧可以划分为16个块，以此类推。

在划分出块之后，方法继续，确定帧中的每个块的一组特征参数(S520)。也就是说，每个块通过一个或多个特征参数来描述。也就是说，每个块通过一个或多个特征参数来描述。(在一个实施方式中，在操作S520中确定N个帧中的每一个中的每个块的所有这些特征参数)。

分数s是每个块中非零方向值的和。

主导方向d是块中所有方向θi(x,y,t)的圆形平均(弧度为0-2π)，其中i＝1,…n-1。

可信度C_d是圆方差的倒数，范围为0-1，其中：

\underset{&OverBar;}{d} = a r c t a n (\underset{i}{Σ} s i n (θ_{i}) / \underset{i}{Σ} c o s (θ_{i})) - - - (17)

c_{d} = \frac{1}{n} \sqrt{{(\underset{i}{Σ} {cosθ}_{i})}^{2} + {(\underset{i}{Σ} {sinθ}_{i})}^{2}} - - - (18)

速度是一个度量，该度量不是通过前述方法只利用相邻帧直接获得的，而是通过利用更高级的方法支持可靠地获得的。

颜色是主导颜色，其中颜色被量化为多种颜色。例如，颜色的数量可以是三种颜色：红，绿，蓝。或者，颜色的数量可以多于三种颜色。例如，在一个实施方式中，颜色的数量可以是以下十种颜色：红，橙，黄，绿，蓝绿，蓝，紫，黑，灰和白。

附加参数包括密度和时频。密度是基于每单位块区域中移动的像素的百分比。时频是基于当前帧上的事件和之前最近检测到的事件之间的帧的数量的倒数。举例来说，这些参数可以用作运动特征，运动特征描述视频剪辑的帧中的块区域中发生的活动。

根据一个实施方式，可以提供这些参数中的每一个的可信度值。可信度值可以提供对相应参数值的不一致或方差缺乏的度量。可信度值可以给予统计方差的反转，统计方差反过来可以缩放为某个范围，例如，0-1。例如，如果块区域只有一个颜色值，则它的方差可以是0并且它的可信度可以是1。如果块具有值为3的颜色量化(RGB)并且每个颜色具有相同权重，则方差可能最大，可信度可以为0。

基于这些特征参数，生成块的场景活动向量F(S530)。接下来确定帧中是否有更多的块(S540)。如果有，则重复上述操作，直到为帧中的所有块都生成了场景活动向量。m级上的块b的场景活动向量可以表示为Fmj(x,y,s,d,cd)，其中(x,y)是块的左上角坐标的位置。场景活动向量(SAV)包含所有块的特征，如下所示：

SAV(t)＝[F_bm(x,y,s,d,c_d)] (19)

其中m＝0,…,L级，b＝1,…4/每级(针对非重叠块)。

在下一个操作中，基于为帧中的块生成的场景活动向量生成整个帧的场景活动向量(S550)。接下来确定是否还有额外帧要分析，例如，多年前分析的帧是否是需要分析的最后一个帧(S560)。如果不是，则重复操作S510至S550。如果是，则执行方法的下一个阶段，即事件检测。

在执行事件检测阶段之前，先讨论如何执行第一和第二阶段以生成场景活动向量的方向和速度参数的几个例子。

根据第一示例，可以通过将K个不同纹理帧分组在一起来确定运动模糊图像，所述纹理帧的量级加权有时间衰减因子，由此使最近的特征具有最高值M(x，y)。在这里，M(x，y)表示二维运动模糊图像。

在确定运动模糊图像之后，对它们执行回归分析。回归分析可以是线性回归，该线性回归包括将平面拟合到运动模糊图像中，从而根据以下等式确定运动的梯度：

ρ_X＝Cov(x,M(x,y))/Var(x) (20)

ρ_y＝Cov(y,M(x,y))/Var(y) (21)

在执行现行回归之后，可以计算运动流参数。如上所示，运动流参数可以包括方向和速度。方向可以对应于通过线性回归分析执行的平面拟合的斜率方向，速度可以与平面拟合的斜率的倒数成正比。

图6A至图6D显示了前述操作的例子。在图6A中，以概念形式显示了视频帧中包括的人，显示的空间边缘620对应于这个人。

在图6B中，该空间边缘由显示为t，t-1，t-2，t-3和t-4的多个时间衰减因子加权。在该示例中，空间边缘的宽度随着衰减因子的增加而增加。基于这些时间衰减因子中的一个或多个生成运动模糊图像。

在图6C中，显示的图形标出了通过回归分析得到的沿着x方向的运动模糊图像M(x)的值。如图所示，回归分析将与空间边缘的时间延迟相对应的点拟合至公共平面，或者在线性回归的情况下，将所述点与线拟合，所述公共平面或线具有斜率ρ。

在图6D中，在与人的空间边缘相对应的场景活动向量中使用的方向参数是基于线的斜率，在与人的空间边缘相对应的场景活动向量中使用的速度参数是基于斜率的倒数。

根据第二示例，如图7A所示，为视频中的人730分配两个空间边缘710和720。空间边缘710和720可以分别对应于前边缘和后边缘。随后通过将对n个不同纹理帧进行分组来生成空间边缘的运动模糊图像，所述纹理帧的量级加权有时间衰减因子，由此使最近的特征具有最高值M(x，y)。时间衰减因子的例子在图7B中显示，并被用于生成为两个空间边缘中的每一个描述的运动模糊图像上的相应点。

执行回归分析以将点拟合至具有斜率ρ的平面或线。线740可以对应于该回归分析。例如，图7C中M(x)的斜率对应于与运动模糊值M(x)的线性回归拟合。

在图7D中，不对运动模糊值自身执行线性回归拟合，而是对运动模糊值的第一瞬间执行线性回归拟合，其中计算每个运动模糊周期或衰减的第一瞬间值。下面的线对应于与运动模糊值M(x)的回归拟合。在该示例中，每个延迟有两个运动模糊值。上方的线对应于与运动模糊值的每个延迟的第一瞬间的回归拟合，因此，第一点是下方绘图上的两个点的第一瞬间，第二点是下方绘图上的下两个点的第一瞬间，以此类推。

在图7C和7D中，垂直轴对应于M(x,y)的运动模糊图像/帧的运动模糊值。但是，为了简化绘图的说明，垂直轴被标记为M(x)。就此而言，x和y维是可分离的，对y的解释跟在对x的解释后面。对应于运动模糊值的第一瞬间，其中为每个帧延迟和每个x，y位置取得它们的值的平均数。

可以基于M(x)和中的曲线生成方向和速度参数。根据一个实施方式，基于等式(20)和(21)中针对x和y给出的协方差和方差的比值，并且基于通过以下等式确定的方向和速度来确定这些参数：

方向：θ＝atan(ρ_x/ρ_y) (22)

速度：v～1/(ρ_x ²+ρ_y ²)^1/2，其中～表示成比例关系 (23)

事件检测

再次参考图2，方法的第三阶段包括基于为N个帧生成的场景活动向量来在视觉信息中检测事件。(块S270)。该事件可以是视觉信息中的活动，状况或内容状态。例如，事件可以对应于出现了感兴趣对象的缺席或者该对象的特定运动或特定类型的运动。事件还可以对应于在此讨论的其他任意类型的事件。

根据一个实施方式，事件可以是具有实质场景运动的连续的帧序列，并且其开始和结束可以根据或者基于在方法的第二阶段中生成的场景活动向量SAV(t)中的一个或多个的分数(表示为|SAV(t)|)来测量。

在每个帧被认为是一个块的示例情况下(即，在0级块的情况下)，可以基于统计变化检测技术来提取或确定事件的开始和结束。该技术的一个例子称为累计求和(CUSUM)技术，该技术可以通过生成控制图来实施。

更具体地，CUSUM技术被实施以检测单变量事件序列中的变化的证据的连续累计，并在累计的证据超过阈值时发送事件的开始。监控波动和偶然猛增被抑制或作为噪音被忽视，从而实现对由实质场景活动限定的事件的检测。同样，通过检测至少预定时间周期内没有变化或低于阈值的变化的连续累计来检测事件的结束。现在讨论CUSUM技术的特定实施方式。

根据该实施方式，为事件检测设置阈值δ。可以基于-举例来说-早先训练会话来设置阈值，早先训练会话对应于生成与将要检测的事件的类型对应的场景活动向量。例如，一定大小的人群的聚集可以对应于一定水平的场景活动向量，一个或多个人的移动可以对应于一定水平的场景活动向量。阈值的δ范围可以设置为低于这些SAV值，但是高于被认为是不感兴趣事件(例如，人或对象不移动，几个人的聚集不被认为是人群，等等)的SAV值。

可以监控为视频的帧生成的SAV值并将它们与阈值进行比较，从而检测事件的开始(起点)和/或结束(终点)。另外地，或替代地，可以监控SAV值的变化并将其与阈值比较。例如，可以确定一系列帧的|SAV(t)|的差异值，记为Δ，接下来比较差异值和阈值δ。在这种情况下，阈值设置为如果SAV值的变化超过一定量，就触发事件检测，例如，事件可以是连贯帧之间的活动的增加或减少。

如果差异比阈值小，则认为场景未改变。此外，在帧具有正在进行的事件或不存在事件的情况下，可以为超过阈值的差异分配可能性。下面是分配示例：

p₁＝Prob(|Δ|≥δ|在事件中)＝p_IN (24)

p₂＝Prob(|Δ|<δ|在事件中)＝1-p_IN (25)

p₃＝Prob(|Δ|≥δ|不在事件中)＝1-p_OUT (26)

p₄＝Prob(|Δ|<δ|不在事件中)＝p_OUT (27)

可以根据-举例来说-训练序列来估计可能性p_IN和p_OUT。在一个实施方式中，在我们获得已标记序列之前，以及在收集到足够的已标记序列之后寻求从数据对其进行估计，我们从值0.7开始。此外，可以使用两个CUSUM图S和E来检测事件的起点和终点。方法可以在两个图之间交替计算，以打开图S(初始S＝0)和关闭图E开始，接下来迭代每个事件步长I。

首先，根据差异Δi计算对数概似比统计量:

如果|Δ_i|≥δ，则L_i＝log(p₁/p₃) (28)

如果|Δ_i|<δ，则L_i＝log(p₂/p₄) (29)

其次，如果图S打开，计算起点的累积和，Si＝max(Si-1+Li,0)。如果Si超过Hstart，则找到之前最接近的点tstart，由此Si＝0，并将其标记为事件起点。继续进行，通过关闭S，打开E，并将Ei初始化为0来找到事件终点。

再次，如果图E打开，计算终点的累积和，Ei＝max(Ei-1-Li,0)。如果Ei超过阈值Hend，则找到之前最接近的点tend，由此Ei＝0，并将其标记为事件终点。通过关闭图E，打开图S并将Si初始化为0来寻找下一个起点。

实质上，当连续步骤的联合可能性累计以提供事件正在发生的足够证据时，作为方法的该阶段的基础的算法寻找所述点，并回溯以找到该累计的起点。同样，算法将连续联合可能性累计到表明事件不再存在的哪一点，并回溯以找到终点。通过利用一批已标记事件对参数δ，p_in和p_out进行调整，可以对检测的敏感度进行精细调节。

图8显示了根据该算法执行的事件检测的例子。在图8中，基于为所示时间周期内的视频帧生成的SAV值(或SAV值的变化或差异)来生成线X。更具体地，该线X对应于上述对SAV值生成的对数值，用于检测事件的阈值可以设置为2，例如，δ＝2。

当线X超过阈值时，如标记810所示，检测到事件的开始。当线X掉落到阈值下面时，如标记820所示，检测到事件的结束。较小的干扰(例如，由标记830表示)作为噪音被忽视，因为线X不因为这些干扰而超过阈值。

在前述方法中，基于可能性和阈值来检测事件。为尝试消除假事件检测的值分配阈值。可以不仅通过检测线X何时超过阈值，还可以通过要求线X超过阈值一段最小时间来进一步防止假事件检测。该额外要求会消除线X中的突然猛增，该突然猛增可能有噪音或其他一些异常的发生引起。

检测到的事件可以具有可变长度。另外地，或替代地，与每个事件对应的|SAV(t)|值可以具有一定形状，该形状取决于相机的设置(观察角度)和场景中的活动模式(例如，交通(traffic)监控应用中的可能的交通流量)。通过合适的标准化，可以利用标准相似性度量来比较轮廓形状。聚类程序接下来可以发现典型模式，并根据这些事件的档案进行标准化。

前述方法和装置实施方式可以在各种应用中使用以实现事件检测，现在对它的一些例子进行讨论。第一应用涉及三种场景下的人的运动：1)低亮度走廊中的一个或几个人；2)在外面环境中移动的人；和3)地铁站台上的一群人。在每种情况下生成的数据集阐明了对于不同事件和人群大小而言，不同的特征参数是如何不同的。

事件检测：

走廊中一个人的运动

在方法的该应用中，生成视频的K个帧上的运动边缘的场景活动向量(SAV)，所述视频由设置在建筑走廊中的相机获得。根据已拟合和平均的时空梯度图像生成SAV，从而减少噪声。

图9A显示了视频的帧，该帧包含感兴趣的对象，该对象的形式是在低亮度条件下的走廊中走动的人。

图9B显示了利用不同技术生成运动特征，在这种情况下，对图9A所示的视频帧实施光流技术。光流技术发现两个连续帧上的像素之间的运动对应关系，假定照明恒定，对象移动少。在图9B中，使用5x5网格大小来发现运动。

图9C显示了根据本实施方式的一个例子为图9A中的视频帧生成的运动特征活动。在实施该实施方式的过程中，生成场景活动向量(SAV)以与K个帧上的运动边缘拟合。在图9A所示的帧中，对规模水平为5的SAV而言，在非运动区域中的活动要少得多。

与图9B相比，基于生成时空梯度而发现的运动特征极大地降低了噪声，并产生了运动边缘，该运动边缘提供对帧中在走廊中走动的人的运动的更精确的表现。此外，本实施方式对于每帧使用了大约45毫秒，在OpenCV中实施的图9B所示的光流技术需要90毫秒，是本实施方式的两倍长。

事件检测：

走廊中人的运动

在该应用中，方法被用于检测视频中的运动，该视频是多个人走过由互连和/或交叉走廊构成的网络。图10A显示了相机获得的视频帧，图10B显示了走廊的布局，其中三角形对应于检测到的不同的运动类型(例如，事件)。可能在多个视频帧上检测到的运动包括-举例来说-走向相机，停留在走廊中，左转，右转，一个人走开，和一个人在一个走廊中闲逛。

在该应用中，方法实施如下。首先，如同前面描述的那样计算场景活动向量SAV(t)。接下来在基于CUSUM统计变化检测的基础上检测事件。图10A显示了为图10A前景中走向相机的人生成的SAV(t)值的例子。

检测到事件之后，方法可以包括多个附加步骤，附加步骤包括对检测的事件进行分类。根据一个实施方式，事件分类可以通过执行k均值聚类，然后执行异常检测来实现。

k均值聚类步骤可以通过比较时域轮廓来执行。首先，基于每个事件期间的峰值分数将时域轮廓缩放到相同高度。其次，高度标准化的轮廓利用三次样条插值，并重新取样为100时间步长。持续事件和峰值分数现在已标准化的轮廓接下来发送给利用欧几里得距离的聚合聚类程序(带完全链接)。在选定高度切割产生的树状图，从而获得代表通常发生模式的分段群集。与各自的群集的中心点具有较大距离的轮廓被识别为是异常的。

图11A显示了根据该步骤生成的聚类中心的时域轮廓。时域轮廓有三种主要形状。第一种形状是向左偏形状(A1)，该形状代表一人或多人靠近相机视图，然后从相机视图走开的运动。结果，运动区域随时间(帧)减小。

第二种形状是向右偏形状(A2)，该形状代表一人或多人从后面进入相机视图，然后走向相机的运动。结果，运动区域随时间(帧)增大。

第三种形状是对称形状(A3)，该形状代表人垂直走过相机。结果，SAV分数大体上是恒定的，或者落入相对窄的范围内，例如，位于标准化高分辨率分数的窄范围内。

图11B显示了为异常检测阶段生成的曲线的例子。这些曲线中的每一个是由SAV度量的运动活动的轨迹。图11A显示了通过统计聚类确定是最常见的五个轨迹形状。图11B中的曲线是不靠近(至少在给定的公差内)任何主要轨迹群集的轨迹。因此，图11B显示这些轨迹发生频率较低，因此被认为是异常的。更具体地，可以基于异常轨迹离聚类中心的距离来检测异常轨迹，其中超过阈值的距离表明轨迹不属于该群集。

事件检测：紧急事件

在该应用中，方法被用于基于户外校园区域中人群的运动检测户外校园区域的紧急情况。在视频的开始，人们在相机视图内随机走动，直到发生(模拟的)紧急情况。此时，视频显示人群以单向运动(由叠加在该视频帧上的箭头显示)逃散。图12显示了在此期间的视频帧。(还可以实施该方法基于人群在多个方向上的突然移动来检测紧急情况)。

与走廊示例不同，SAV分数轮廓可能无益于对所有类型的事件检测进行分类。更具体地，与走廊运动检测示例不同，本情况下的视频在人们最初对紧急情况做出反应时通常具有相同的陡峭的开始斜率。例如，当人们逃散时生成平坦的平台，当人们退出相机视图时生成陡峭的结尾斜率。但是，在该应用中，可以基于视频中人们的退出方向执行事件检测和/或分类。

图13显示了为10个事件(在x轴上4分17秒)生成的SAV可信度值cd(在y轴上为0-1.0)。在可信度比依经验选择的阈值大的事件上方象征性地显示主导方向d。在图13中，主导方向由峰值上方的向上箭头，向下箭头，向左箭头或向右箭头显示，低可信度由交叉箭头显示。基于这些参数，可以检测出同类运动事件和异类运动事件，并将它们从彼此分开，可以根据它们的方向过滤SAV来对同类运动事件进行分类。

可以利用不同规模水平的不同空间块中的SAV分数轮廓来执行更精确(精细)的分类。图14A中的绘图显示了活动根据位置和规模水平而不同。更具体地，场景获得分数vs时间图包括曲线，这些曲线显示了从0秒到大约4分钟获得的视频帧中的不同块或位置上的活动。这些绘图可以被认为是1级绘图。图14B中的绘图B1，B2和B3分别显示了事件的SAV分数，事件对应于图14A中不同级别(例如，0-2)的虚线和块0，1和40之间的峰值。

事件检测：

地铁站台上人群的运动

在该应用中，方法被用于检测地铁站台上的人去的存在和/或运动。该应用中的视频对应于五个15分钟的视频剪辑，这些剪辑记录了等待，进入和离开列车的乘客。由于当列车到达时地铁站总是很拥挤，随着对应的人群运动生成SAV分数峰值。

在检测到空间边缘并且生成了相应的梯度图像之后，每个帧可以如同前面描述的那样划分为不同界别的多个帧。如图15所示，0级对应于真个帧，1级对应于4个块，2级对应于16个块，3级对应于64个块。通过利用为参数生成的可信度值决定使用哪个级别，其中高可信度值(例如，高于参考值得可信度值)表明该级别的块具有良好的参数值一致性，能够放心使用。如果参数值的可信度值在特定级别不高(例如，低于参考值)，则分析留意下一个级别(较小的块尺寸)，直到找到块的可信度值高于参考值或选定阈值的级别。

一旦选择了级别，就确定每个块中的运动特征的数量。图16显示了在逐级的基础上为划分的块生成的最大数量运动特征的例子。例如，对于512x512的图像尺寸和4个级别的滑动长度，即128，64，32和16，L1＝2，L2＝5并且SAV特征长度是300x 4＝12,240(是完全262,000像素图像的大约5％)。图15显示了SAV作为特征的多尺度向量。

图17显示了针对拥挤的地铁站台这一情况如何对场景活动向量执行运动特征过滤的例子。在随着时间生成了场景活动向量SAV(t)之后，可以基于一个或多个运动特征(例如，方向，速度，颜色等)对这些向量进行过滤。例如，可以用过滤来选择方向为东北向，速度缓慢，主导颜色为红色或蓝色的SAV向量。

如图18所示，在帧t中，过滤了两个块。第一块对应于蓝色，第二块对应于红色。过滤是通过定位帧中具有高可信度过滤特征(在该情况下是红色或蓝色)的块。接下来随着时间(随后的帧)SAV(t)，SAV(t+n)，SAV(t+2n)，SAV(t+3n)等穿过时空长方体或隧道对这些进行跟踪。接下来可以基于这些过滤的特征确定开始点和结束点。当时空隧道中不再出现高可信度的过滤特征和/或当隧道结束时出现结束点。

图19显示早晨时候车站的不同时间周期的SAV分数图，每个峰值表明列车到站。所有的峰形都是相似的，因为活动是相似的。但是，峰值的持续时间，或退出时间表明密度，峰值周期给出列车频次。例如，8:00和9:00am之间，周期是4分钟，从10：:45到中午延长为8分钟。

附加应用涉及利用不同位置上设置的一个或多个摄像机位人们提供协助，实现各种目的。摄像机可以是位于地铁站台的公共像机，交通相机，商场相机，机场和其他类型的运输站，运动场馆，广告显示器，需要安全或监控的区域，大学校园，停车场，或位于其他公共场所的相机。根据这里所述的目的，摄像机还可以私密地位于或组合到包括公共相机的网络中。

根据一个实施方式，基于一个或多个相机，或相机网络提供的视频来执行事件检测，相机可以是公共相机，私密相机，或公共相机和私密相机的组合。事件检测可以根据任意上述实施方式来实施，并可以与附加特征组合，从而为公共安全和/或与公众的通信提供更加完整的手段。

一个实施方式涉及为了监控公共安全的目的而执行事件检测。事件检测是根据任意上述实施方式来执行，并且事件检测包括监控(或跟踪)与接收到的视频中的帧中的一个或多个感兴趣对象的空间边缘相关的运动。

其他应用涉及提供公共安全帮助和信息。当前的监控系统无法以任何方式告知被监控者他们是否正被当局看到。在紧急情况下或者当被监控者遇到危难时，这是有问题的。接下来的实施方式允许相机的被监控者与相机管理方互动。

公共照片相机。在该应用中，上述的事件检测方法被用于允许同位于一个或多个网络相机可视区域内的公众进行通信。将要检测的事件包括处于危难情况下的人做出的各类姿势。这些姿势包括快速挥动双手，四处跳，尖叫产生的头部姿势，掉到地上，以及其他身体运动。

当检测到这些事件时，相机可以装配到一个或多个设备中，从而与需要帮助的人进行通信。设备包括各种类型的音频和/或视频和/或视觉警报或指示器和/或双向扬声器其他或允许人和官员之间进行双向通信的视频监控器。方法还可以包括被用于警示官员事件被检测到的警报或其他警告消息。举例来说，在需要监控多个分数或甚至几百个公共相机的指挥中心中特别有用。当被警示时，官员可以做出回应，发送信号激活前面所述类型的警报或扬声器系统。

根据一个变型实施方式，人可以站在相机视场内的特定位置上。可以通过显而易见的方式将位置标出来，从而能够方便地被公众看到。方法可以将特定位置上的人的存在检测为事件。该位置可以-举例来说-通过地上的油漆圈标出。对在该位置上的人的检测可以由控制中心里的官员或计算机监控程序解释为呼叫注意。

例如，官员可以对该呼叫做出回应，出现在与相机关联的公共显示器上。这表明呼叫被确认了，在另一端上有人，该官员看到进行呼叫的人和他或她的周围。该实施方式的一个变型可以由具有GPS功能的智能电话上加载的校园专用或城市专用应用程序实现。当应用程序被激活时，位置和手机号码被发送给官方，以实现语音或视频连接，在语音或视频连接中，官员可以通过手机听到或看到人，并通过公共相机看到人周围的更宽广的区域。

公共活动晴雨表。如同前面所讨论的那样，前述方法实施方式中的至少一个可以用于根据基准测量活动的趋势。基准可以被认为是正常活动，从基准偏离可以被检测为事件。当应用于公共安全时，对这些事件进行检测的好处甚至更大。

更具体地，前述方法实施方式用作公众的活动晴雨表，显示相机位置处的活动当时是如何与正常活动(例如，基准)相比的。

图20描绘了针对工作场所两天内的视频生成的场景活动向量。第一天是星期天(已标出)，其中趋势图(几个月数据的统计)显示存在非常少的活动。更具体地，星期天的SAV图显示了与三个检测到的事件对应的三个猛增。第一个事件是在星期天早晨检测到的，其他两个事件是在中午检测到的。

相反，在星期一的图中，趋势线显示了工作时间内的多个猛增，在午餐时事件检测达到峰值，下午活动减弱。当前的活动图显示了与这一天中的“超趋势”事件对应的5到7个猛增。

因此，该实施方式的活动晴雨表可以用来-举例来说-监控当SAV图上的事件检测具有较少活动时城市街道上威胁公共安全的事件(例如，犯罪)，活动较少意味着工作事件结束了，犯罪可能性可能增大。

此外，所述活动晴雨表可以通知公众什么时候访问公园，体育馆，游泳池更安全，或可以被用于识别什么时候活动开始增多，达到加入排队以观看表演的最佳时间。此外，该晴雨表可以提供与交通堵塞相关的信息，或不存在交通堵塞的信息，依赖于此，有助于对穿过城市区域的旅游进行规划。

角落四周。前述用于检测事件的方法实施方式可以在笔记本或个人计算机上实现，或实现为智能电话，pod或pad式设备(例如，用户设备或终端)上的应用程序。例如，一个实施方式可以基于用户设备或终端上的视频，举例来说，这是通过互联网。

视频可以从一个或多个公共或私密相机获得。举例来说，智能电话应用程序可以使司机能够看到将要到来的十字路口的视频。在该实施方式中，方法可以实施为应用程序，该应用程序使城市行人能够看到数百个沿着所需路径设置的多个相机的视图，或者改应用程序使人能够看到来自最近相机的近视图加上相同区域的鸟瞰图，从而确定环境，趋势，或活动或事件的状况。如果视频视图中发生了不寻常的活动，则可以由-举例来说-围绕视频的红色闪框或其他一些警告来指示。人们可以选择接下来的路径。

游戏应用。事件检测实施方式还可以游戏的形式应用。举例来说，游戏可以实施为使公众明白不同公共场所设置的相机现在能够以附加或不同模式，即互动模式运行。

一种类型的游戏可以设置为具有以下规格。第一，游戏可以使用前述事件检测实施方式来识别模式，事件，或活动，然后将它们与已经针对公共安全监控计算出来的视频分析结果(例如，SAV模式)比较。例如，来自之前事件的视频可以被用作参考SAV值，目的是为了能够实现模式识别。

第二，游戏可以考虑改变环境或其他公共空间条件。例子包括可变的自然采光，天气条件和可能产生事件或模式检测错误的其他效应。游戏还可以考虑不具有明确限定边界的广大空间，举例来说，该空间可以包括那些包括没有玩游戏的人或不是游戏参与者的人的区域。可以编写实施游戏方法的软件以对这些意外事件进行补偿。

第三，可以实施游戏来吸引路过者和活跃游戏者。例如，不同的相机位置可以装备有双向通信装置，监控器，扬声器和/或能够用于引起，邀请或使人们玩游戏的其他警报或通信设备。

第四，游戏可以实时进行，因此适合于在-举例来说-娱乐公园或其他娱乐设施中使用。

第五，可以实施游戏来保护正在玩游戏和/或没有玩游戏但是位于正在录视频的相机的视场中的人的身份。举例来说，这可以通过模糊或遮蔽(例如，使用头像，图标或其他图形)人们的脸和/或身体和/或身份信息，例如车牌来实现。

最近开发的名为Brooklyn Blooms的游戏包含上述特征。在该游戏中，视频中的人的图像由形式为花的图形对象替代。花在运动位置上生长，并且活动越多长得就越快越密。

在默认模式中，路人可以抬头看显示器，该显示器显示花正在他所走过的公共空间中离奇地生长。付出更多的注意力，他可以发现花正沿着它自己的路径和正在移动的人的其他位置生长。他可以继续或停止更主动地参与游戏。通过进行尽可能多的运动以尝试用花充满空间来玩这个游戏。更多的游戏者会更快地填充屏幕。当他和/或人群成功地创造出足够大和漂亮的花园时，游戏停止，显示游戏时间和视频奖励。

接下来可以清除花朵空间，以准备下一次“种植”。下表显示了在游戏期间收集的统计数据的例子。

图21显示了游戏的截屏。在该截屏中，显示的视频帧包括户外广场的背景，该户外广场是纽约大学理工学院校园的一部分。背景图像中的人被移除并由花朵替代。就每一帧而言，以逐渐变大的比例来从上到下对花进行渲染，以匹配相机视角并给出花从地面长出的幻觉。

在背景图像的右侧显示两个其他的可选视频窗口。右下方的窗口显示当前视频，右上方的窗口将实时场景活动向量特征显示为颜色覆盖，该颜色覆盖表明运动的不同方向(在该情况下，8种颜色对应于8个方向)。在该窗口中可以看见活动区域的对应关系，方向特征，以及不同生长阶段的花。可以实施附加的游戏以实现教育目的。

广告/数字招牌。前述方法实施方式还可以用于数字招牌，数字招牌是用于广告，信息和/或娱乐目的。举例来说，当应用于数字广告签名时，前述方法实施方式可以确定对招牌上显示的产品或服务的兴趣等级。例如，当检测到一大群人时，可以假定产品或服务对公众的吸引力很大。这种应用因此可以作为营销策略的一部分来实施。(实施方式还可以用于非数字招牌)。

此外，数字招牌正从单向(被动)信息流转变为具有一定程度的双向(主动)信息传输能力。例如，主动招牌可以是这样的：主动招牌中的显示系统捕获与正在观看招牌的人相关的信息。捕获的信息可以被处理以进行面部识别，从而确定观看者的身份，年龄，和/或性别，以及确定观看者对招牌内容，例如，广告产品或服务的注意力程度或感兴趣程度。但是，在这些情况下，不与观看者进行互动。

根据一个实施方式，提供不同类型的，形式为互动显示系统的招牌。该系统使一个或多个观看者-举例来说-控制显示器和/或与显示系统的管理方进行交流。一个实施方式对应于互动公共相机系统，该系统是基于对于公众可用的相机网络的无所不在这一特性。

该实施方式的一个例子在图22中显示，它显示了在一个或多个观看者和数字招牌之间发生的互动交流。在该示例中，智能相机捕捉包括观看者的场景，观看者通过相机积极交流以控制显示器的内容。

在另一个实施方式中，可以借助相机视频以互动方式使用传统的招牌。此外，在前面的实施方式中，互动可以通过公共监视器，智能电话，音频系统发生，或者甚至人可以在用户的视觉请求下出现。这些实施方式的互动性还适合于与多群人一起使用，而不仅是一个或两个人。

因此，前述实施方式提供了方法，该方法用于执行运动特征过滤，从而对各种环境和应用中的拥挤或不拥挤场景的视频中的事件进行检测和/或分类。与其他方法不同，这些实施方式中的至少一个是基于运动边缘而非区域来检测事件。也就是说，一个或多个运动边缘在视频帧中，而非固定的像素块区域中检测到。为这些边缘生成场景活动向量，并且这些向量接下来被用于检测和/或分类视频中的事件。

通过该方法，与光流技术和其他技术相比，可以根据时空梯度在统计学意义上计算更高水平的运动特征，从而增加关于照明变化的鲁棒性。

根据这些方法中的一个或多个，考虑到和人及人群的复杂性和数量，采用自上而下法。这些实施方式也可以用于显示运动特征，事件检测和多尺度表达是如何适合于检测不同类型的事件或事件特征的。这些方法中的至少一个涉及使用与在一定时间(或者多个视频帧)内测量的场景活动向量一起生成的分数(或活动的幅度)，多尺度位置，方向，和分数的事件周期。

图23显示了用于实施上述互动式实施方式的系统的图。如图所示，一个或多个视频源装置2300可以相对于一个或多个反馈装置2340共置。反馈装置2340可以是音频装置(扬声器)，视频显示器等。处理装置2310从视频源装置2300接收视觉信息，并向反馈生成器借口2320发送输出。处理装置2300可以是图1所示的装置，其中视频源50是视频源装置2300，显示器70可以形成反馈生成器借口2320的一部分。基于根据处理装置2310的输出的事件检测，反馈生成器借口2320可以控制反馈装置2340生成反馈信息。例如，在公共照片电话实施方式中，反馈生成器借口2320处的官员可以从处理装置2300(例如，显示器70)接收告警，并且官员可以使告警在扬声器(反馈装置)上播放。与人工干预不同，反馈生成器借口2320可以是全自动化的。例如，在游戏应用中，在反馈接口2320(例如，计算机系统)上运行的游戏应用程序将处理装置2310的输出转换为视频模式(例如，花)，并在显示器(反馈装置)上显示这些视频模式。

因此，事件检测实施方式的上述应用使用来自一个或多个相机的视频，从而在包括公共安全，信息，监控和跟踪，以及游戏的多种环境中实现双向通信。

描述了示例实施方式，很明显，这些示例实施方式可以不同方式变化。这些变化不应该被视为偏离了示例实施方式的精神和范围，对于本领域技术人员而言显而易见的所有这些修改包括在权利要求的保护范围内。

Claims

1.一种用于处理信息的方法，该方法包括：

接收包括至少一个运动中的对象的视觉信息；

定位所述视觉信息中的所述对象的至少一个空间边缘；

在N个帧上为所述至少一个空间边缘生成多个时空梯度，其中N≥3；

根据所述时空梯度生成运动模糊图像；

对所述运动模糊图像执行回归分析，以确定所述对象在所述N个帧中的运动方向信息；

基于所述运动方向信息为所述N个帧生成场景活动向量；以及

基于为所述N个帧生成的场景活动向量在所述视觉信息中检测事件。

2.如权利要求1所述的方法，其中生成所述时空梯度包括：

获得所述N个帧中的每一个帧的空间边缘图像；以及

基于所述空间边缘图像中的一个相应空间边缘图像和移动平均线确定所述时空梯度。

3.如权利要求2所述的方法，其中所述移动平均线是基于背景边缘图像的。

4.如权利要求2所述的方法，其中包括至少一个空间边缘的区域小于所述N个帧的尺寸。

5.如权利要求1所述的方法，其中所述对象的位置在所述N个帧中的一个或多个帧中变化。

6.如权利要求1所述的方法，其中为所述N个帧生成所述场景活动向量包括：

将所述N个帧中的每一个帧划分为块；

确定每个块的特征参数；

为每个块生成场景活动向量；以及

基于为所述N个帧的每个块生成的场景活动向量确定所述N个帧的场景活动向量。

7.如权利要求6所述的方法，其中所述特征参数包括以下参数中的一个或多个：

基于所述块中的一个相应块中的非零方向值的和的第一参数；

基于所述块中的一个相应块中的主导方向的第二参数；

基于所述块中的一个相应块中的主导颜色的第三参数；

基于所述块中的一个相应块中的运动的平均速度的第四参数；

基于所述块中的一个相应块中的所述对象的运动方向的一致度或均匀度的第五参数；

基于密度的第六参数；或

基于时频的第七参数。

8.如权利要求7所述的方法，其中所述第二参数是基于所述块中的一个相应块的运动向量信息的。

9.如权利要求1所述的方法，其中检测事件包括：

识别所述N个帧的场景活动向量的变化；以及

当所述场景活动向量的变化超过阈值至少K个帧时，确定发生了事件。

10.如权利要求1所述的方法，该方法还包括：

当M个帧的场景活动向量小于所述阈值时，确定所述事件的结束，其中M≤N。

11.如权利要求1所述的方法，其中：

所述对象是一个或多个人，并且

所述事件对应于所述一个或多个人的运动。

12.如权利要求1所述的方法，其中：

所述对象是交通，并且

所述事件对应于一种类型的交通流量。

13.如权利要求1所述的方法，其中：

所述对象是游戏中的对象，并且

所述事件对应于所述游戏中的活动。

14.一种用于处理信息的装置，该装置包括：

被配置为存储控制程序的存储区域；以及

被配置为基于所述控制程序对视觉信息进行处理的控制器，所述控制器被配置通过通过以下步骤处理所述视觉信息：

定位所述视觉信息中的所述对象的至少一个空间边缘；

根据所述时空梯度生成运动模糊图像；

执行回归分析，以确定所述对象在所述N个帧中的运动方向信息；

基于所述运动方向信息为所述N个帧生成场景活动向量；以及

15.如权利要求14所述的装置，其中所述控制器被配置为通过以下步骤生成所述时空梯度：

获得所述N个帧中的每一个帧的空间边缘图像；以及

16.如权利要求14所述的装置，其中所述控制器被配置为通过以下步骤为所述N个帧生成所述场景活动向量：

将所述N个帧中的每一个帧划分为块；

确定每个块的特征参数；

为每个块生成场景活动向量；以及

17.如权利要求16所述的装置，其中所述特征参数包括以下参数中的一个或多个：

基于所述块中的一个相应块中的主导方向的第二参数；

基于所述块中的一个相应块中的主导颜色的第三参数；

基于密度的第六参数；或

基于时频的第七参数。

18.如权利要求14所述的装置，其中所述控制器被配置为通过以下步骤在所述视觉信息中检测事件：

识别所述N个帧的场景活动向量的变化；以及

19.一种系统，该系统包括：

如权利要求16所述的装置；

被配置为提供所述视觉信息的一个或多个视频源；

被配置为生成反馈信息的一个或多个反馈装置；以及

被配置为呈现来自所述处理装置的输出、并且被配置为控制所述反馈装置生成所述反馈信息的反馈生成器接口。

20.如权利要求19所述的系统，其中所述反馈装置是音频呈现装置和视频呈现装置中的至少一者。

21.一种非瞬时性计算机可读介质，该非瞬时性计算机可读介质存储一组可执行指令，当执行时，所述指令将处理装置被配置为执行如权利要求1所述的方法。