CN103069434B

CN103069434B - 用于多模式视频事件索引的方法和系统

Info

Publication number: CN103069434B
Application number: CN201180038736.2A
Authority: CN
Inventors: 翟昀; R·S·福瑞斯; L·M·布朗; A·汉帕博; R·P·博比特
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2010-08-17
Filing date: 2011-08-16
Publication date: 2015-09-16
Anticipated expiration: 2031-08-16
Also published as: US20120045090A1; US9147259B2; US20150356745A1; WO2012022744A3; US9299162B2; US8532336B2; US20130336535A1; US20140050356A1; WO2012022744A2; US9123129B2; US9064325B2; US20150339831A1; CN103069434A; US9652863B2; US20130336534A1

Abstract

本发明公开涉及多模式视频事件索引，所述多模式视频事件索引包括对于来自视频流输入的图像，确定对象独特性的质量。如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个模式中选择高质量分析模式，并经硬件设备将其应用到视频输入图像以确定视频输入图像中的对象活动，否则就选择低质量分析模式，并经硬件设备将其应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

Description

用于多模式视频事件索引的方法和系统

技术领域

本发明涉及视频中的活动分析，并且尤其涉及准确地确定并区分对象运动和由其代表的活动。

背景技术

视频监控使得能够通过远离监视人员的一个或多个区域的视频显示器进行对象监视。示例性应用包括公共和私人区域的安全性监控，例如在停车场监视人和车辆的运动、在诸如火车站和娱乐厅的集结区域监视被抛弃的行李或者物体、在边境或门口监视未授权的进入、在安全区域监视未授权的车辆或对象运动和移除，等等。但是，在人力资源分配方面，对视频反馈的人为审查与分析是耗时的而且有可能是低效的，因而相应地期望实现用于视频分析的自动化系统。

用于确定对象运动、活动和行为的自动化视频分析提出了许多挑战。变化数量的活动数据、天气条件、场景中拥挤的人或者物体、地理区域特征及其它因素常常证明要通过视频分析算法作出这种确定的准确结果是有问题的。

US 20090103888公开了一种包括检测单元和分类单元的装置。检测单元分析视频帧序列并且从视频帧中提取某些特征。然后，分类单元根据所确定的视频活动水平把视频帧分类到不同的语义类中。

US 20050175091公开了一种视频编码应用中的速率控制系统。给定视频中的图片，可以确定其空间与时间内容的复杂性并且给该图片分配复杂性指示器。利用这种信息，该系统随后公开了具有受控位速率的、用于H.264/AVC标准的编码方法。

US 6680748公开了一种具有多种工作模式的图像获取系统。一种模式是捕捉静止图像而另一种模式是捕捉运动图片。捕捉到的这两种类型的数据都可以存储在图像捕捉系统上。

发明内容

用于多模式视频事件索引的方法的一种实施例包括对于来自视频流输入的图像，确定对象独特性的质量。如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个模式中选择高质量分析模式，并经硬件设备将其应用到视频输入图像以确定视频输入图像中的对象活动，否则就选择低质量分析模式，并经硬件设备将其应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

在另一种实施例中，用于多模式视频事件索引的计算机系统包括处理单元、计算机可读存储器与计算机可读存储系统，所述计算机可读存储系统具有用于对于来自视频流输入的图像，确定对象独特性的质量；如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动的程序指令。程序指令还用于如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

在另一种实施例中，用于多模式视频事件索引的计算机程序产品包括计算机可读存储介质和存储在其上的程序指令，所述程序指令对于来自视频流输入的图像，确定对象独特性的质量；如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动；及如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

在另一种实施例中，用于多模式视频事件索引的服务提供计算机基础设施，该计算机基础设施对于来自视频流输入的图像，确定对象独特性的质量；如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动；及如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

从第一方面来看，本发明提供了一种用于多模式视频事件索引的方法，所述方法包括：对于来自视频流输入的图像，确定对象独特性的质量；如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并经硬件设备将高质量分析模式应用到来自视频流输入的图像以确定视频输入图像中的对象活动；及如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并经硬件设备将低质量分析模式应用到来自视频流输入的图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

优选地，本发明提供了一种方法，其中对于视频输入图像，确定对象独特性的质量包括：确定提供视频输入的摄像机相对于视频输入中的场景是移动的还是静止的，并且场景的质量的阈值水平是固定的。

优选地，本发明提供了一种方法，其中对于视频输入图像，确定对象独特性的质量包括：确定视频输入图像中场景的照明量，并且质量的阈值水平是场景的照明量；其中高质量分析模式是通过从场景图像中除去强阴影来提供对象活动检测的强阴影分析模式；及其中低质量分析模式是在没有从场景图像中除去阴影的情况下解析视频图像以进行对象活动检测的低亮度分析模式。

优选地，本发明提供了一种方法，其中确定场景的照明量包括：确定场景的天气条件是晴天、下雨、下雪、有雾、多云或者夜间，并且其中阈值照明量是晴天。

优选地，本发明提供了一种方法，还包括：经可编程硬件设备对视频输入应用背景消减(background subtraction)，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差；其中确定对象独特性的质量包括：确定检测到的前景对象活动的水平；其中选择并应用高质量分析模式包括：选择基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动来跟踪前景对象；其中选择并应用低质量分析模式包括：选择非基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动，以根据提取出的前景对象外观(appearance)属性确定对象运动而不跟踪前景对象；及还包括：把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引。

优选地，本发明提供了一种方法，其中确定检测到的前景对象活动的水平包括：确定前景相对于图像整体的密度；及其中阈值活动水平是密度值。

优选地，本发明提供了一种方法，其中选择基于对象跟踪的模式还包括：确定前景相对于图像整体的第一密度是否大于或等于第一时刻时的阈值密度值；确定前景相对于图像整体的第二密度是否小于最小值，所述最小值小于第一时刻之后的第二时刻时的阈值密度值；确定第一时刻和第二时刻之间所经过的时间；比较经过的时间与稳定时间段；及如果经过的时间小于稳定时间段，就选择基于对象跟踪的模式。

优选地，本发明提供了一种方法，其中选择基于对象跟踪的模式还包括：确定前景的密度大于或等于阈值活动水平的持续时间；比较所述持续时间与指定时间段；如果所述持续时间小于指定时间段，就选择基于对象跟踪的模式。

优选地，本发明提供了一种方法，其中前景的密度是多个单个密度在所述指定时间段内的平均值。

优选地，本发明提供了一种方法，还包括：通过给较新的密度赋予比较旧的密度更高的权重来确定所述多个单个密度在所述指定时间段内的平均值。

从另一方面来看，本发明提供了一种用于多模式视频事件索引的系统，所述系统包括：处理单元、计算机可读存储器与计算机可读存储系统；第一程序指令，用于对于来自视频流输入的图像，确定对象独特性的质量；第二程序指令，用于如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动；及第三程序指令，用于如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同；其中，第一、第二和第三程序指令被存储在计算机可读存储系统上以供处理单元经由计算机可读存储器执行。

优选地，本发明提供了一种系统，其中第一程序指令还用于通过确定视频输入图像中场景的照明量来对于视频输入图像，确定对象独特性的质量，并且其中场景的质量的阈值水平是照明量；其中高质量分析模式是通过从场景图像中除去强阴影来提供对象活动检测的强阴影分析模式；及其中低质量分析模式是在没有从场景图像中除去阴影的情况下解析视频图像以进行对象活动检测的低亮度分析模式。

优选地，本发明提供了一种系统，还包括：第四程序指令，用于对视频输入应用背景消减，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差；其中第一程序指令还用于通过确定检测到的前景对象活动的水平来确定对象独特性的质量；其中第二程序指令还用于选择基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动来跟踪前景对象；其中第三程序指令还用于选择和应用非基于对象跟踪的模式并将非基于对象跟踪的模式应用到视频输入的检测到的前景对象活动，以根据提取出的前景对象外观属性确定对象运动而不跟踪前景对象；及第五程序指令，用于把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引；及其中第四和第五程序指令被存储在计算机可读存储系统上以供处理单元经由计算机可读存储器执行。

优选地，本发明提供了一种系统，其中第一程序指令还用于将检测到的前景对象活动的水平确定为前景相对于图像整体的密度；及其中阈值活动水平是密度值。

优选地，本发明提供了一种系统，其中第二程序指令还用于通过以下来选择和应用基于对象跟踪的模式：确定前景的密度大于或等于阈值活动水平的持续时间；比较所述持续时间与指定时间段；和如果所述持续时间小于指定时间段，就选择基于对象跟踪的模式。

从另一方面来看，本发明提供了一种用于多模式视频事件索引的计算机程序产品，该计算机程序产品包括：计算机可读存储介质；第一程序指令，用于对于来自视频流输入的图像，确定对象独特性的质量；第二程序指令，用于如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动；及第三程序指令，用于如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同；并且其中，第一、第二和第三程序指令被存储在计算机可读存储介质上。

优选地，本发明提供了一种计算机程序产品，其中第一程序指令还用于通过确定视频输入图像中场景的照明量来对于视频输入图像，确定对象独特性的质量，并且其中场景的质量的阈值水平是照明量；其中高质量分析模式是通过从场景图像中除去强阴影来提供对象活动检测的强阴影分析模式；及其中低质量分析模式是在没有从场景图像中除去阴影的情况下解析视频图像以进行对象活动检测的低亮度分析模式。

优选地，本发明提供了一种计算机程序产品，还包括：第四程序指令，用于对视频输入应用背景消减，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差；其中第一程序指令还用于通过确定检测到的前景对象活动的水平来确定对象独特性的质量；其中第二程序指令还用于选择基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动来跟踪前景对象；其中第三程序指令还用于选择和应用非基于对象跟踪的模式并将非基于对象跟踪的模式应用到视频输入的检测到的前景对象活动，以根据提取出的前景对象外观属性确定对象运动而不跟踪前景对象；及第五程序指令，用于把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引；及其中第四和第五程序指令被存储在计算机可读存储介质上。

优选地，本发明提供了一种计算机程序产品，其中第一程序指令还用于将检测到的前景对象活动的水平确定为前景相对于图像整体的密度；及其中阈值活动水平是密度值。

优选地，本发明提供了一种计算机程序产品，其中第二程序指令还用于通过以下来选择和应用基于对象跟踪的模式：确定前景的密度大于或等于阈值活动水平的持续时间；比较所述持续时间与指定时间段；和如果所述持续时间小于指定时间段，就选择基于对象跟踪的模式。

从另一方面来看，本发明提供了一种用于多模式视频事件索引的服务，该服务包括：提供计算机基础设施，该计算机基础设施可以操作来：对于来自视频流输入的图像，确定对象独特性的质量；如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动；及如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同。

优选地，本发明提供了一种服务，其中计算机基础设施还可以操作来：通过确定视频输入图像中场景的照明量来对于视频输入图像，确定对象独特性的质量，并且其中场景的质量的阈值水平是照明量；其中高质量分析模式是通过从场景图像中除去强阴影来提供对象活动检测的强阴影分析模式；及其中低质量分析模式是在没有从场景图像中除去阴影的情况下解析视频图像以进行对象活动检测的低亮度分析模式。

优选地，本发明提供了一种服务，其中计算机基础设施还可以操作来：对视频输入应用背景消减，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差；其中通过确定检测到的前景对象活动的水平来确定对象独特性的质量；选择基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动来跟踪前景对象；选择非基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动，以根据提取出的前景对象外观属性确定对象运动而不跟踪前景对象；及把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引。

优选地，本发明提供了一种服务，其中计算机基础设施还可以操作来：将检测到的前景对象活动的水平确定为前景相对于图像整体的密度；及其中阈值活动水平是密度值。

优选地，本发明提供了一种服务，其中计算机基础设施还可以操作来通过以下来选择和应用基于对象跟踪的模式：确定前景的密度大于或等于阈值活动水平的持续时间；比较所述持续时间与指定时间段；和如果所述持续时间小于指定时间段，就选择基于对象跟踪的模式。

有利地，本发明提供了根据检测到的不同环境条件在不同分析模式之间切换的手段。

附图说明

现在将参考附图仅仅作为例子描述本发明的实施例，附图中：

图1说明了根据本发明一优选实施例的、用于确定对象运动的方法或系统；

图2说明了根据本发明一优选实施例的实施例；

图3说明了根据本发明一优选实施例的另一实施例；

图4a和4b是根据本发明一优选实施例的边界框距离测量的图形说明；

图5是根据本发明一优选实施例的基于规则的对象分类的图形说明；

图6是根据本发明的tripwire（绊网）分类器的一优选实施例的说明；及

图7是本发明一优选实施例的计算机实现。

附图不一定是按比例绘制的。附图仅仅是示意性的表示，而不是要描绘本发明的具体参数。附图仅仅是要绘出本发明的典型实施例，而且因此不应当被认为是限定本发明的范围。在附图中，相似的标号表示相似的元件。

具体实施方式

如本领域技术人员将认识到的，本发明的各方面可以体现为系统、方法或者计算机程序产品。相应地，本发明的各方面可以采取完全硬件实施例、完全软件实施例（包括固件、驻留软件、微代码等）或者结合软件与硬件方面的实施例，本文一般称为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意适当的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意适当的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意适当的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意适当的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等等，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置或其它设备以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

在历史上，对象活动与政策、规章等的顺应性一般是通过直接的人为监控来执行的。例如，安全与保安人员可以观看瞄准某些区域的摄像机，以发现与安全政策的偏离、非法侵入、偷窃行为、对禁区的未授权接近，等等。但是，人的视觉注意可能是低效的，尤其是对于大量的视频数据。由于许多因素，说明性地包括感兴趣活动的很少发生、与任务关联的基本乏味及在具有视觉混乱与其它扰乱的环境中对象跟踪的可靠性差，人为的视频监控可能既昂贵又低效。

自动化的视频监控系统与方法也被提出或已知，其中计算机或者其它可编程设备直接分析视频数据并且尝试确定所关心活动的发生。但是，在实际的现实世界环境与应用中，现有技术的自动化视频监控系统与方法中确定与区分视频流对象中的人与对象运动常常是不可靠的，这种不可靠有时候是由于混乱、差的或者变化的照明与对象分辨率及扰乱性的竞争性视觉信息而导致的。

现在参考图1，说明了根据本发明的、用于确定对象运动的多模式视频事件索引方法、基础设施或系统的双模式实施例。在10，对于来自视频流输入的图像，确定对象图特性的质量，并且相应地选择要应用到该视频流输入的合适的视频分析模式。本例作出二元的高或低质量确定，其中为确定对象的运动而选择基于高质量的分析模式12，在其它时候就选择基于低质量的模式16。应当理解，检测与图像中的对象独特性有关的图像质量包括并且根据本发明选择合适的视频分析模式包括多于两种不同的模式或水平；例如，对于对象独特性的低、中和高水平或质量中的每一个，有三种不同的模式可供选择，或者低和高质量模式可以组合应用于中等水平，而且还可以给出更多的选项。

本发明的实施例还提供了用于不同模式的不同警报生成：在本例中，基于对象跟踪的模式12的实现导致在14作为基于跟踪的分析的函数而生成警报，而非基于跟踪的模式16的实现导致在18作为非基于跟踪的分析的函数而生成警报。12和16的分析结果及14和18的警报生成结果可以在19写入到索引以供报告和进一步分析之用，例如写到数据库以供数据分析之用。

本发明提供了响应指示识别、辨别和跟踪对象运动中的结果（包括警报和告警生成）的可靠性的对象独特性的质量而对合适的视频分析过程进行自动选择。对于视频图像确定一个或多个对象独特性质量可以包含多个标准与过程中的一个或多个。例如，图2说明了根据本发明的、用于响应确定并区分出视频图像的不同天气条件——包括但不限于晴天、多云或者变化的云量（例如，完全多云或者部分多云）、下雨、下雪等等——而在20自动切换到合适的视频解析设备的实施例。在20识别指定的天气条件可以通过应用到视频输入的图像的视频分析来实现，例如通过测量视频图像的光强度并且将其与阈值照明值比较来确定晴天或光照良好的场景。在20的识别还可以响应其它的输入或选择过程——例如，单独的天气预报应用可以报告已知包括场景的合适白天时间的某几个小时期间晴朗的天空——进行。

当天气是晴天时，室外的运动对象常常会留下具有清晰边界的影子，而且在20对晴朗白天条件的识别导致选择提供对象检测与跟踪的强阴影分析模式或者设备22，这种模式或设备很好地处理强阴影，例如，通过在图像分析中除去或者以别的方式考虑强阴影，并且其中在24的警报确定是响应强阴影分析设备22的输出进行的。否则，如果场景不是晴天，例如是多云、下雨、下雪、有雾、黄昏、黎明等等，其中光线很昏暗而且对象的影子不是很好辨别，就选择低亮度分析模式或设备26，例如该模式或设备26不使用阴影去除技术来解析视频事件，并且其中在28的警报确定是响应低亮度分析设备26的输出进行的。22和26的分析结果及24和28的警报生成结果相应地在30写入到索引以供报告和进一步分析之用。

本发明的实施例可以通过背景消减法确定视频图像中对象的活动水平，然后选择合适的对象运动确定模式；对于低活动水平，每个运动对象可以在其跨一个场景移动的时候被跟踪，但是，为了处理高活动场景（例如，在市区场景中每天某几个小时中很典型的那些场景），所述实施例通过对象外观属性的检索与处理来确定对象运动，而不进行对象跟踪。因而，图3说明了一种实施例，该实施例在102对视频流输入应用背景消减（BGS），以便检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差。在104，在背景消减之后，确定前景对象的活动水平，并且相应地选择要应用到视频的合适的视频分析模式。因而，对于较低的活动水平，选择基于对象跟踪模式的、适于通过跟踪独特的前景对象来确定对象运动的色域跟踪器124；而对于较高的活动水平，选择非基于跟踪模式的、更适于根据提取出的前景对象外观属性来确定较低质量的对象运动而不进行对象跟踪的颜色BGS分类器132。

图3中所说明的实施例还可能适于区分天气或照明场景条件，例如关于图2的实施例所描述的，其中，不是在强阴影模式/设备22与低亮度模式/设备26之间选择，而是所述实施例可以在跟踪模式/设备 124与非跟踪模式/设备132之间选择。因而，与更适合使用低水平的跟踪模式/设备的晴天或晴朗天气场景图像相反，在104对视频图像是在下雨、下雪或有雾条件下获得的识别可以指示使用高水平的非跟踪模式/设备。

在104确定视频输入的图像质量可以包括确定视频输入场景中的照明量并且通过与指定照明水平的比较来选择合适的模式；例如，相对于阳光明媚的或者更好照明的场景，夜间或者更差照明的场景可能导致较高的前景-背景比率，这指示使用高水平的非跟踪模式132。相对于那些取自静止或相对固定的照相机的、更适于使用低水平的跟踪模式/设备124的图像，来自移动的摄像机的视频输入也可以指示使用高水平的非跟踪模式/设备132。

在104，其它的图像质量也可以指示相对对象活动。例如，前景对象或活动的更高密度可能由于混乱或差的图像质量而造成的，甚至在低对象运动水平可能出现的时候，也触发非跟踪分析124的“高水平”选项。

本发明的有些实施例通过使用切换确定模块在104执行活动水平检测，该切换确定模块取得102的BGS结果并且查看图像的密度，以确定作为前景与背景之比的函数的活动水平或质量。因而，有些例子可以利用相对于整个图像的阈值前景密度值（例如，60%的百分比），高于该阈值的密度在104触发对高水平模式、非跟踪分析的选择。另一个例子使用40%作为阈值密度百分比，而且还有其它的百分比也可以实践。

例如，通过使用时间一致性分析，本发明的实施例还可以在104作为比率数据的稳定性的函数执行活动水平检测。因而，有些实施例可能需要在10至少在一个或多个指定的时间段上超过一个或多个阈值密度百分比（60%、40%，等等），如果没有的话，那么即使已经超过阈值，也仍然可以选择低水平/基于跟踪的分析。在一个例子中，如果在第一个较早的时刻满足的阈值密度（例如，60%）在被选择来代表稳定周期或持续时间（例如，在一或者两秒之内或者是其它时间段内）的经过时间段中的随后的第二时刻降到指定的最小值（例如，不超过30%），那么尽管超过了阈值密度，也仍然可以在10选择低水平/基于跟踪的分析。稳定性和/或密度也可以被看作为时间上的平均值，而且在有些实施例中是通过相对于其它时间段给一些时间段进一步加权（例如，给较近的时间或时间的平均值赋予比较旧的时间和/或平均值相对更高的权重）。

其活动与水平可以包括多种特性与动作，例如，相对于静止的背景或其它运动对象，对象移动的次数、一个或多个对象的速度或加速度，图像的相对质量（例如，不同的相对照明水平，例如由于阳光、云、夜间、雾；由于雨、雪或者其它环境元素和因素的遮蔽等）。偏离的前景-背景比率值的其它例子或者造成原因也可能出现，而且本发明可修改成通过选择合适的高、低或者甚至中间模式来响应所述成因。

更特别地，本发明的实施例可以通过背景消减法确定视频图像中对象的活动水平，然后选择合适的对象运动确定模式；对于低活动水平，可以在每个运动对象跨一个场景移动时跟踪它，但是，对于处理高活动场景（例如，在市区场景中每天某几个小时中很典型的那些场景），所述实施例通过对象外观属性的检索与处理来确定对象运动而不进行对象跟踪。

背景减法器102可以对背景消减应用统计方法，例如1999年在ICCV Frame-Rate Workshop由T.Horprasert、D.Harwood和L.S.Davis在“A statistical approach for real-time robust background subtraction and shadow detection”中所教导的。通过在每个像素独立地给背景统计性建模，这种实施例使背景消减对照明变化更健壮。因而，一种示例性估计过程计算红-绿-蓝（RGB）颜色空间中的亮度失真和颜色失真，其中每个像素{i}由四元组（E_i,s_i,a_i,b_i）建模，其中{E_i}是具有在{n}个背景帧上计算的像素的红、绿和蓝分量的中值的向量；{s_i}是具有颜色值的标准偏差的向量；{a_i}是亮度失真的变量；而{b_i}是色度失真的变量。

通过比较背景图像与当前图像之间的差别，给定的像素{i}可以分成四类中的一类：原始背景、有阴影背景或者影子、高亮度背景和前景。分类阈值可以通过统计性学习来自动计算，其中规一化亮度失真、规一化色度失真的直方图是通过在背景学习期间捕捉的长序列由组合数据构建的，并且其中阈值是根据作为直方图的函数的期望检测率而自动选择的。因而，前景像素可以传给在104选择的合适分析模式，剩余的像素集合到一起作为背景，而孤立的像素可以被除去，并且应用形态闭合算子来联结附近的前景像素。

还可以提供积极的背景估计来处理在训练图像中移动的对象，其中第一帧被存储为原型背景图像并且与后续的训练帧有所差别，当构建统计性背景模型时，排除了定义运动对象的显著差别的区域。在训练集合中看不到的照明变化是通过由总体增益控制修改背景消减法和过程算法来处理的，其中全局增益控制在将像素强度与所存储的中值比较之前对像素强度应用全局缩放因子，该缩放因子是假设相邻帧之间的照明变化是很小的而在前一图像的非前景区域上计算的；而且进一步通过由在当前非前景区域的像素值中进行混和而采用的背景适应，一方面，慢慢地学习对运动对象不起作用的局部外观变化。所述过程降低了背景估计算法对数据集之间及期间照明变化的敏感性。

对于视频图像场景中的每个像素，背景减法器102的实施例还可以应用高斯混合模型方法。在一个例子中，对于选自3至5的{K}个高斯模型的混合，在时刻{t}像素{X}的概率可以描述如下：

P (X_{t}) = Σ_{i = 1}^{k} ω_{i, j} * η (X_{t}, μ_{i, t}, Σ_{i, t}) . - - - (1)

其中

η (X_{t}, μ, Σ) = \frac{1}{{(2 π)}^{\frac{n}{2}} {| Σ |}^{\frac{1}{2}}} e^{- \frac{1}{2} {(X_{t} - μ_{t})}^{T} Σ^{- 1} (X_{t} - μ_{t})} . - - - (2)

并且

ω_i，j＝(1-α)ω_i，j-1+α(M_k，t). (3)

其中，{μ}是中值，{α}是学习速率而{M_k,t}对于匹配的模型是1并且对于其余的模型是0。通过假设红、绿和蓝像素值是独立的而且具有相同的方差：

Σ_k，t＝σ_k ²I. (4)

在通过由{ω/α}的值给高斯模型排序之后，第一个{B}分布被选作背景模型，其中

B = {\arg \min}_{b} (Σ_{k = 1}^{b} ω_{k} > T), - - - (5)

其中，{T}是背景模型的最小部分。在既对于灰度级又对于RGB视频输入的一种示例性实现中，对于三个高斯模型（K=3），α可以设置成0.005，而T可以设置成0.4。

当存在快速的照明变化时，高斯方法与系统的混合可能产生大面积的假阳性前景。本发明的有些实施例通过把纹理信息集成到前景掩模中以便除去假阳性区域来解决这个问题，这是因为假阳性区域中由于照明变化造成的纹理应当类似于背景中的纹理。梯度值对于照明变化不太敏感，使得能够导出准确的局部纹理差值测量。因而，纹理相似性测量可以在当前帧与背景图像之间在像素{X}被定义为：

S (X) = \frac{\underset{u &Element; W_{x}}{Σ} 2 | | g (u) | | \cdot | | g_{b} (u) | | \cos θ}{\underset{u &Element; W_{x}}{Σ} ({| | g (u) | |}^{2} + {| | g_{b} (u) | |}^{2})}, - - - (6)

其中，{W_x}指示中心在像素{X}的{M乘N}邻域，{g}和{g_b}分别是当前帧和背景图像的梯度向量，而{θ}是向量之间的角度。梯度向量{g(X)=(g^x(X),g^y(X))}及偏导数{g^x(X)}和{g^y(X)}是由苏贝尔算子获得的。在由于快速照明变化造成的假阳性前景区域中，在当前帧与背景之间没有纹理变化，因此{S(X)≈1}。对于{S(X)≥T_s}的区域，将除去前景掩模。在有些实施例中，相似性阈值被设置成{T_s=0.7}。

高斯方法与系统的混合可以使用颜色信息进行阴影去除。对于灰度级图像，本发明的有些实施例通过使用强度信息来代替颜色信息，解决这个问题。例如，强度的规一化互相关可以在当前帧与背景图像之间的前景区域的每个像素处计算。对于在{M乘N}个邻居中的像素{X}，规一化互相关可以计算为：

NCC(X)＝

\frac{\underset{u &Element; W_{x}}{Σ} I_{t} (u) \cdot I_{b} (u) - \frac{1}{MN} \underset{u &Element; W_{x}}{Σ} I_{t} (u) \underset{u &Element; W_{x}}{Σ} I_{b} (u)}{\sqrt{(\underset{u &Element; W_{x}}{Σ} {I_{t}}^{2} (u) - \frac{1}{MN} {[\underset{u &Element; W_{x}}{Σ} I_{t} (u)]}^{2}) (\underset{u &Element; W_{x}}{Σ} {I_{b}}^{2} (u) - \frac{1}{MN} {[\underset{u &Element; W_{x}}{Σ} I_{b} (u)]}^{2})}} . - - - (7)

其中，{Wx}指示中心在像素{X}的{M乘N}邻域，{I_t(u)}和{I_b(u)}分别是当前帧和背景在像素{u}的强度。如果{NCC(X)≥T_s}而且{I_t(X)≥T_I}，则像素{X}是阴影，其中可以添加约束{I_t(X)≥T_I}来避免在非常暗的区域中的阴影检测。否则，像素{X}就是真正的前景。

再次参考图3，在104指示/检测到的低活动水平导致选择基于跟踪的分析过程/方法，其包括色域跟踪器124、对象分类器122、颜色分类器126和跟踪警报检测器128。色域跟踪器124使用基于外观的建模来解决跟踪晶格中由于边界框(bounding box)跟踪所产生的复杂结构。更具体地，每个视频帧的前景区域被分组成连接分量；在有些实施例中，尺寸过滤器用于除去小的分量。每个前景分量都是由边界框和图像掩模来描述的，其中图像掩模指示边界框中属于前景的那些像素，并且其中前景像素的集合可以表示为{F}。

图4a和4b说明了根据本发明的边界框距离测量。对于每个连续的帧，通过构造显示每个前景区域与全部当前有效的轨迹之间的距离的距离矩阵，对应性过程尝试关联每个前景区域与一个现有的轨迹。因而，图4a中边界框A和B之间的距离是从A的质心{C_a}到B上最靠近的点或者从B的质心{C_b}到A上最靠近的点的距离中较小的那个。如果任何一个质心{C_a}或者{C_b}位于另一个边界框中，如图4b所示，那么距离就是零。一方面，与质心{C_a}和{C_b}之间的欧几里德距离相反，利用边界框距离避免了当两个边界框或者对象A和B合并或分离时欧几里德距离中的大跳跃。观察之间的时间距离也可以被添加，在一方面以不利于有一段时间没有看到迹象的轨迹。

然后，边界框距离矩阵可以表示为二进制数据，导致关联轨迹与前景区域的对应性矩阵并且行对应于现有的轨迹且列对应于当前片段中的前景区域。在一种实施例中，对应性矩阵的分析产生四种可能的结果：现有的对象、新对象、检测到合并和检测到分离。更具体而言，对于很好隔开的运动对象，对应性矩阵将在每一行或列中具有至多一个非零元素，因而分别关联每条轨迹与一个前景区域及关联每个前景区域与一条轨迹。全部都是零元素的列代表场景中还没有与任何轨迹关联的新对象，并且导致新轨迹的创建。全部都是零元素的行代表不再可见的轨迹（因为它们离开了场景，或者它们是由于背景消减的伪像而产生的）。

在合并对象的情况下，两条或多条轨迹可以对应于一个前景区域，即，对应性矩阵中的列可以具有多于一个非零项。当对象分离时，例如当一组中的人彼此分开走时，单条轨迹将对应于多个前景区域，导致对应性矩阵的一行中有多于一个非零元素。当单条轨迹对应于多于一个边界框时，所有那些边界框都合并到一起，并且处理继续进行。如果到目前为止作为一个对象被跟踪的两个对象应当分离，那么各部分将继续作为一个对象被跟踪，直到它们足够分开，这使得两个边界框都不再与该轨迹对应，并且创建新轨迹。

一旦创建了轨迹，就初始化了对象的外观模型。这种外观模型在每次相同的对象被跟踪到下一帧时被修改。关于对象合并的检测，外观模型用于解决模糊性。

对于每条轨迹，色域跟踪器124建立代表对象的每个像素{x}的外观的红-绿-蓝（RGB）颜色外观模型{M_RGB(x)}，及代表对于该像素，该对象被观察到的可能性的关联概率掩模{P_c(x)}。为了符号的简化，{x}代表像素坐标，而且假设它是图像坐标，但在实践当中外观模型只是建模图像的规一化到当前质心的局部区域，该局部区域关于图像坐标平移。但是，在任何已知对准的时候，都允许为图像中的任何点{x}计算{P_c}和{M_RGB}，并且其中{P_c(x)}在建模区域之外为零。

当创建了新的轨迹时，就创建了具有与前景区域的边界框相同尺寸的矩形外观模型。该模型是通过把轨迹的前景分量的像素拷贝到颜色模型中来初始化的。对应的概率被初始化为0.4，而且不对应于这条轨迹的像素给予为零的初始概率。

对于后续的帧，通过在当前前景区域中进行混和来更新外观模型。颜色模型是通过对于全部的前景像素来混和当前图像像素与颜色模型而被更新的，并且所有的概率掩模值都可以利用以下公式来更新（对于α=λ=0.95）：

以这种方式，可以与它们的观察概率一起维护前景区域中像素的外观的持续更新模型。阈值可以应用到观察概率，使得作为掩模的处理能够找出对象的边界，而且这种处理还给出了关于对象中不严格变化的信息，例如保留关于被行人的腿抹掉的整个区域的观察信息。

对象分类器122通过基于规则的分类器标记场景中的对象。例如，对象可以按照尺寸与形状或者按照对象的类型来分类：单个人、多个人、车辆、其它，等等。通常，对于每个对象，对象分类器122都找出轮廓的面积、长度及主轴的长度与朝向并且计算该对象的“分散(dispersedness)”，其被定义为周长的平方与面积之比。已经发现，分散对于区分一个或多个人的两维（2D）图像对象与各单个车辆的那些2D图像对象是有用的。对于每个2D图像对象，对象分类器122还确定哪个主轴最接近垂直并且计算更接近水平的轴的长度与更接近垂直的轴的长度之比{r}。图5提供了从比率{r}导出的、基于规则的分类的说明。例如，比率{r}可以用于区分单个人的前景区域与代表多个人的前景区域；相对其宽度来说，单个人的图像一般显著更高，而多个人的一团随着可见的人数而宽度增长。此外，时间一致性可以用于提高健壮性，使得被清楚跟踪的对象——其偶尔可能会被分错类——可以使用其分类历史来改进结果。

颜色分类器126跟踪指定颜色的对象。颜色分类器126可以建立在色域跟踪器124之上，由此一帧一帧地执行颜色量化并且对在一个场景中被跟踪的每个对象提供特定的颜色。在一种实施例中，颜色分类器126是双锥形的颜色分类器，它通过把每个视频帧的RGB像素映射到双锥形色调、饱和度、亮度（HSL）颜色空间来把颜色信息量化成颜色，其中HSL颜色空间是由从白（完全亮）到黑变化的垂直亮度轴值、角度色调数据和径向颜色饱和度数据来定义的。通过确定颜色与亮度之间的角截止(cutoff)和饱和度截止，然后依赖它们是位于导出的亮度/饱和度曲线之外还是在HSL空间的水平中面之上或之下，重新把像素标记为白色的或者黑色的，来将HSL颜色空间量化成颜色。在一种实施例中，通过提供色调之间的四个截止：黄色/绿色、绿色/蓝色、蓝色/红色和红色/黄色，颜色分类器126把颜色信息量化成六种颜色（黑色、白色、红色、蓝色、绿色和黄色）。在一个例子中，对于室外的市区场景视频输入，截止为60°、150°、225°和-15°。颜色分类器126还把HSL空间中水平面之上（即，对于足够的亮度）而且其强度与饱和度在定义的曲线之外的点分类为白色的，而把水平面之下的那些点分类为黑色的。颜色分类器126的实施例还可以创建量化颜色的累积直方图，随后选择该对象的主导颜色，例如在直方图中具有最大票数的颜色。

跟踪警报检测器128响应色域跟踪器124输出的对象跟踪而生成警报。在有些实施例中，感兴趣的区域（ROI）被配置成代表目标区域，而且规则被指定成定义区域警报：例如，对在ROI内部或外部启动的对象、穿过ROI的对象、从外面进入ROI的对象或者曾经在ROI内部的指定对象触发警报。位置相对性也可以通过对象的不同部分来推导：例如，对象的头或者最高点、质心、脚部或者最低点，或者对象的整体。为了触发警报，有些实施例还可以对目标对象应用一个或多个筛分(sizing)阈值。

在104指示/检测到的高活动水平在图3的例子中导致选择非基于跟踪的分析过程/方法，其包括颜色BGS分类器132和非跟踪警报检测器134，更具体地，是在不进行对象跟踪的情况下执行颜色检索。颜色BGS分类器132的有些实施例利用通过针对每种颜色应用时间间隔（例如，两秒、三秒，而且其它时间间隔也可以实践）和尺寸阈值利用背景消减检测到的前景对象内部的颜色片段。对于每个前景对象，例如通过以上关于双锥形颜色分类器126所描述的方法与系统来量化颜色，并且利用对每种颜色的连接分量分析来执行分段。因而，对于每个时间间隔中的每个颜色检测，如果找到那种颜色的比预定义尺寸阈值大的连接分量，那么该时间间隔中那种颜色的最大分量就存储为用于颜色检索的关键帧。

参考图6，颜色BGS分类器132的实施例还可以在来自感兴趣的区域119的视频图像中定义虚拟边界线120（即，虚拟绊网）。虚拟边界线120通常是任意形状，这可以是用户定义的，而且可以利用基于计算机的视频处理技术放到数字视频中。虚拟边界线120被监视，统计值可以被编译，侵入可以被检测、事件可以被记录、响应可以被触发，等等。更具体而言，颜色BGS分类器132沿虚拟边界线120的每一侧建立一组重叠的地面小块区域(ground patch region)125。（可以认识到，该组地面小块区域125中的每一个都能够具有任何数量的几何形状（例如，方形、矩形，等等），而且不限于在图6中绘出的重叠圆形。）

因而，颜色BGS分类器132可以实时地处理视频数据，以识别在感兴趣的区域119中检测到的对象的属性。对象可以利用多种方法来检测，包括但不限于：背景建模、对象检测与跟踪、空间强度域梯度分析、基于菱形搜索块的（DSBB）梯度下降运动估计，或者用于检测和识别由传感器设备捕捉到的对象的任何其它方法。在一种示例性实施例中，颜色BGS分类器132分析每个地面小块区域125，以识别其中的前景对象，然后计算所识别出的前景对象的当前外观特征。具体而言，地面小块历史模型是利用从该组地面小块区域125中的每一个提取出的属性更新的。在一种示例性实施例中，提取根据各种属性，包括但不限于外观、颜色、纹理、梯度、边缘检测、运动特性、形状、空间位置等，把每个属性关联到地面小块历史模型。与捕捉所提取出的属性和/或对象的更具体描述的附加元数据一起，与每个所提取出的属性关联的数据动态映射到每个地面小块区域的组/模型中。例如，一个地面小块历史模型可以包括关于每个地面小块区域的信息，包括但不限于：地面小块区域中心位置、地面小块区域半径、时间戳、帧号、历史小块模型的历史（例如，颜色直方图、外观特征，等等）、空间临近的和/或在虚拟边界线的相对侧上的邻近地面小块区域的列表或者指示每个地面小块区域的一般运动方向的小块运动向量。

地面小块历史模型被持续地更新，并且对照来自先前接收到的传感器数据（即，视频输入）的属性被交叉参考，来确定是否每个地面小块区域的外观都已经改变。为了实现这个目的，颜色BGS分类器132分析更新后的地面小块历史模型以检测在一组地面小块区域125中的至少一个中捕捉到的对象是否穿过视频图像中的虚拟边界线120。具体而言，颜色BGS分类器132可以为一组地面小块区域125中的每一个分析地面小块历史模型中的外观特征，并且基于这组地面小块区域125中每一个的地面小块历史模型中的外观特征，确定在这组地面小块区域125中是否存在一对相似的地面小块区域。

颜色BGS分类器132还确定各对相似地面小块区域的位置。例如，比较被分析的特定小块与虚拟边界线120另一侧上的邻近地面小块区域之间的外观相似性。在一对中的每一个区域位于感兴趣视频区域119中虚拟边界线120的不同侧的情况下，比较每一对的运动方向。在有些实施例中，各对相似地面小块区域是通过强加属性相似性约束来匹配的，然后，利用诸如光流估计、仿射变换、最小方差（SSD）等技术来估计该对中对象运动的方向。如果成对地面小块区域的匹配是由于相同的对象导致的，那么它们的移动方向应当是一致的（即，两个块都具有指向虚拟边界线的相同侧的运动向量），但是，如果对的匹配是由具有相似外观的不同对象导致的，那么匹配对的移动方向一般来说是不同的。因而，通过强加这种运动方向一致约束，由于匹配不同对象造成的假阳性减少了。为了确定一个对象是否在所需的方向上移动，其运动方向可以与虚拟边界线穿越方向130比较（例如，内部（+）到外部（-）或者反过来）。

如果在虚拟边界线穿越方向130与对象运动方向之间确定存在匹配，那么就由非跟踪警报检测器134生成警报，如果该对相似地面小块区域中的每一个的运动方向都基本上相同，就检测到对象穿过感兴趣视频区域119的虚拟边界线120。另外，应当指出，由非跟踪警报检测器134生成的运动检测警报可以在目标感兴趣区域（ROI）119拥有在期望时间间隔内持续的足量运动能量的时候被触发，其中所述时间间隔可以根据需要被选择或修改成例如一秒、两秒、五分钟，等等。这种特征的应用包括游荡检测、ROI占有率估计和对象接近检测。在市区场景中，非跟踪警报检测器134可以提供简化的被丢弃对象警报，例如在通过指定停车区域周围的ROI119可以检测到停放的车辆的地方。与低水平分析模式的跟踪警报检测器128相反，由非跟踪警报检测器134产生的运动检测警报可以考虑ROI的全局运动能量，而不区分各单个对象。

索引编写器136从非跟踪警报检测器134和跟踪警报检测器128接收输入，还从颜色分类器126和对象分类器122接收关于跟踪警报检测器128数据的数据。除了提供实时警报及其索引以外，索引编写器136还使得能够基于从低和高水平分析中提取出的属性，例如对象类型（人、车辆）、颜色、尺寸、速度、人体部分还有许多其它属性，进行数据搜索。在有些实施例中，当检测到新的事件时，这些属性不断地作为XML元数据被吸收到DB2数据库中。一方面，索引编写器136使得能够通过组合从多个数据源捕捉到的不同视觉属性或者甚至非视觉数据来进行综合搜索。

现在参考图7，本发明一实施例的示例性计算机实现包括根据本发明的与设备336（例如，摄像机或者视频服务器）通信的计算机或者其它可编程设备304，其中，该计算机或者其它可编程设备304例如响应通过计算机网络基础设施308驻留在存储器316或者存储系统332中的文件中的计算机可读代码302而分析视频数据以确定对象运动。除其它之外，所述实现是要证明本发明可以在网络环境（例如，互联网、广域网（WAN）、局域网（LAN）或者虚拟个人网（VPN）等）中实现。通过网络308的通信可以经各种类型通信链路的任意组合进行：例如，通信链路可以包括可以利用有线和/或无线传输方法的任意组合的可寻址连接。

在通信经互联网进行的时候，连接性可以通过传统的基于TCP/IP套接字的协议提供，而互联网服务提供商可以用于建立到互联网的连接性。还有，网络基础设施308是要证明本发明实施例的应用可以由为其它人提供实现、部署和/或执行本发明的功能的服务提供商部署、管理、服务等。

计算机304包括各种部件，有些部件在计算机304中说明了。更特别地，如图所示，计算机304包括与一个或多个外部I/O设备/资源328和存储系统332通信的处理单元（CPU）312。总的来说，处理单元312可以执行计算机程序代码，诸如实现图1中所说明的一个或多个处理步骤的代码，所述代码存储在存储器316和/或存储系统332中。

网络基础设施308仅仅是说明用于实现本发明的各种类型的计算机基础设施。例如，在一种实施例中，计算机基础设施308包括经网络通信的两个或多个计算设备（例如，服务器簇）。而且，计算机304仅仅代表可以包括多种硬件组合的各种可能的计算机系统。就此而言，在其它实施例中，计算机304可以包括包括硬件和/或执行具体功能的计算机程序代码的任何专用计算制造物品、包括专用和通用硬件/软件的组合的任何专用计算制造物品，等等。在每一种情况下，程序代码和硬件都可以分别利用标准的编程和工程技术来创建。

而且，处理单元312可以包括单个处理单元，或者可以跨一个或多个位置的一个或多个处理单元分布，例如分布在客户端和服务器上。类似地，存储器316和/或存储系统332可以包括驻留在一个或多个物理位置的各种类型的数据存储和/或传输介质的任意组合。另外，I/O接口328可以包括用于与外部服务器和/或客户端（未示出）中的一个或多个交换信息的任何系统。还有，应当理解：未示出的一个或多个附加部件（例如，系统软件、数学处理单元，等等）可以包括在计算机304或者服务器或者客户端中。

一种实施例基于订阅、广告和/或费用执行本发明的处理步骤。即，服务提供商可以提供对视频数据的自动分析以确定对象运动。在这种情况下，服务提供商可以创建、维护和支持等等计算机基础设施，诸如为一个或多个消费者执行本发明的处理步骤的网络计算机基础设施308。作为回报，服务提供商可以根据订阅和/或收费协定从消费者收取报酬或者服务提供商可以从广告内容向一个或多个第三方的销售中收取报酬。

在再一种实施例中，本发明提供了一种计算机实现的方法，用于执行上述为了确定对象运动而自动分析视频数据的过程、系统和物品中的一个或多个。在这种情况下，可以提供计算机基础设施，诸如计算机基础设施308，而且可以获得（例如，创建、购买、使用、修改，等等）用于执行本发明的处理步骤的一个或多个系统并且将其部署到该计算机基础设施。就此而言，系统的部署可以包括以下中的一个或多个：（1）在计算设备，诸如计算机/设备304/336，上安装来自计算机可读介质的程序代码；（2）把一个或多个计算设备添加到计算机基础设施；及（3）结合和/或修改计算机基础设施的一个或多个现有系统以使得计算机基础设施能够执行本发明的处理步骤。

在这里所使用的术语仅仅是为了描述特定的实施例而不是要作为本发明的限制。如在此所使用的，除非上下文明确地另外指出，否则单数形式“一个”和“这个”是要也包括复数形式。还应当理解，当在本说明书使用时，术语“包括”和/或“包含”指定了所述特征、整数、步骤、操作、元素和/或部件的存在，但是并不排除一个或多个其它特征、整数、步骤、操作、元素、部件和/或其组的存在或添加。如在此所使用的，应当理解，术语“程序代码”和“计算机程序代码”是同义词而且意味着任何语言、代码或符号形式的一组指令的任何表示，所述指令要使具有信息处理能力的计算设备直接地或者在以下a）和b）的任何一个或两个之后执行特定的功能，其中a）是转换成另一种语言、代码或符号；b）是在不同材料形式中复制。就此而言，程序代码可以体现为应用/软件程序、组件软件/函数库、操作系统、用于特定计算和/或I/O设备的基本I/O系统/驱动器等中的一种或多种。

在本说明书中描述的某些例子和元件，包括在权利要求中的和在附图中说明的那些，可以通过唯一性形容词与其它的区分开或者从中识别出（例如，多个元件中的“第一”元件与另一个“第二”或“第三”区分开，“主”与“次”区分开，一个或“另一个”物品，等等）。这种识别形容词通常用于减少混淆或不确定性，而不是要将权利要求限制到任何所说明的具体元件或实施例或者要暗示任何权利要求元件、限制或处理步骤的任何优先性、次序或等级。

以下权利要求中所有装置或步骤加功能元素的对应结构、材料、动作及等价物是要包括结合具体要求的其它要求元素执行所述功能的任何结构、材料或行为。已经出于说明和描述的目的而给出了本发明的描述，但这不是详尽的或者要把本发明限定到所公开的形式。在不背离本发明范围与主旨的情况下，许多修改和变化对本领域普通技术人员都将是显而易见的。实施例的选择和描述是为了最好地解释本发明的原理和实践应用，并使本领域普通技术人员能够理解本发明具有适于预期特定使用的各种修改的各种实施例。

Claims

1.一种用于多模式视频事件索引的方法，所述方法包括：

对于来自视频流输入的图像，确定对象独特性的质量；

如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并经硬件设备将高质量分析模式应用到来自视频流输入的图像以确定视频输入图像中的对象活动；

如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并经硬件设备将低质量分析模式应用到来自视频流输入的图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同；

经可编程硬件设备对视频输入应用背景消减，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差；

其中确定对象独特性的质量包括：确定检测到的前景对象活动的水平；

其中选择并应用高质量分析模式包括：选择基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动来跟踪前景对象；

其中选择并应用低质量分析模式包括：选择非基于对象跟踪的模式并将其应用到视频输入的检测到的前景对象活动，以根据提取出的前景对象外观属性确定对象运动而不跟踪前景对象；及

还包括：把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引。

2.如权利要求1所述的方法，其中对于视频输入图像，确定对象独特性的质量还包括：

确定提供视频输入的摄像机相对于视频输入中的场景是移动的还是静止的，并且场景的质量的阈值水平是固定的。

3.如权利要求1所述的方法，其中对于视频输入图像，确定对象独特性的质量还包括：

确定视频输入图像中场景的照明量，并且质量的阈值水平是场景的照明量；

其中高质量分析模式还包括通过从场景图像中除去强阴影来提供对象活动检测的强阴影分析模式；及

其中低质量分析模式还包括在没有从场景图像中除去阴影的情况下解析视频图像以进行对象活动检测的低亮度分析模式。

4.如权利要求3所述的方法，其中确定场景的照明量包括：

确定场景的天气条件是晴天、下雨、下雪、有雾、多云或者间，并且其中阈值照明量是晴天。

5.如权利要求1所述的方法，其中确定检测到的前景对象活动的水平包括：

确定前景相对于图像整体的密度；及

其中阈值活动水平是密度值。

6.如权利要求5所述的方法，其中选择基于对象跟踪的模式还包括：

确定前景相对于图像整体的第一密度是否大于或等于第一时刻时的阈值密度值；

确定前景相对于图像整体的第二密度是否小于最小值，所述最小值小于第一时刻之后的第二时刻时的阈值密度值；

确定第一时刻和第二时刻之间所经过的时间；

比较经过的时间与稳定时间段；及

如果经过的时间小于稳定时间段，就选择基于对象跟踪的模式。

7.如权利要求5所述的方法，其中选择基于对象跟踪的模式还包括：

确定前景的密度大于或等于阈值活动水平的持续时间；

比较所述持续时间与指定时间段；

如果所述持续时间小于指定时间段，就选择基于对象跟踪的模式。

8.如权利要求7所述的方法，其中前景的密度是多个单个密度在所述指定时间段内的平均值。

9.如权利要求8所述的方法，还包括：

通过给较新的密度赋予比较旧的密度更高的权重来确定所述多个单个密度在所述指定时间段内的平均值。

10.一种用于多模式视频事件索引的系统，所述系统包括：

用于对于来自视频流输入的图像，确定对象独特性的质量的装置；

用于如果所确定的检测到的对象独特性的质量的水平满足质量的阈值水平，就从多个视频分析模式中选择高质量分析模式，并将高质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动的装置；

用于如果所确定的检测到的对象独特性的质量的水平不满足质量的阈值水平，就从多个视频分析模式中选择低质量分析模式，并将低质量分析模式应用到视频输入图像以确定视频输入图像中的对象活动，其中所述低质量分析模式与所述高质量分析模式不同的装置；

用于经可编程硬件设备对视频输入应用背景消减，以检测前景对象活动作为在当前帧图像信息与图像的上下文背景的静态信息之间的差的装置；

还包括：用于把跟踪前景对象的结果和得自提取出的前景对象外观属性的对象运动确定写入到索引的装置。

11.如权利要求10所述的系统，其中用于对于视频输入图像，确定对象独特性的质量的装置还包括：

用于确定提供视频输入的摄像机相对于视频输入中的场景是移动的还是静止的，并且场景的质量的阈值水平是固定的的装置。

12.如权利要求10所述的系统，其中用于对于视频输入图像，确定对象独特性的质量的装置还包括：

用于确定视频输入图像中场景的照明量，并且质量的阈值水平是场景的照明量的装置；

13.如权利要求12所述的系统，其中用于确定视频输入图像中场景的照明量，并且质量的阈值水平是场景的照明量的装置包括：

用于确定场景的天气条件是晴天、下雨、下雪、有雾、多云或者夜间的装置，并且其中阈值照明量是晴天。

14.如权利要求10所述的系统，其中确定检测到的前景对象活动的水平包括：

确定前景相对于图像整体的密度；及

其中阈值活动水平是密度值。

15.如权利要求10所述的系统，其中选择基于对象跟踪的模式还包括：

确定第一时刻和第二时刻之间所经过的时间；

比较经过的时间与稳定时间段；及

16.如权利要求10所述的系统，其中选择基于对象跟踪的模式还包括：

确定前景的密度大于或等于阈值活动水平的持续时间；

比较所述持续时间与指定时间段；

17.如权利要求16所述的系统，其中前景的密度是多个单个密度在所述指定时间段内的平均值。

18.如权利要求17所述的系统，还包括：

用于通过给较新的密度赋予比较旧的密度更高的权重来确定所述多个单个密度在所述指定时间段内的平均值的装置。