CN105164695B

CN105164695B - 用于探测视频数据中的高兴趣事件的系统和方法

Info

Publication number: CN105164695B
Application number: CN201380073448.XA
Authority: CN
Inventors: N·罗摩克里希南; I·纳伊姆
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2012-12-21
Filing date: 2013-12-21
Publication date: 2019-03-08
Anticipated expiration: 2033-12-21
Also published as: WO2014100780A1; EP2936388A1; EP2936388B1; CN105164695A; US20140176708A1; US9589190B2

Abstract

一种用于在视频数据中事件辨识的方法，其包括：辨识具有相应于对象在视频数据中的位置和运动方向中的至少一个的数据的特征向量，在使用包括多个基向量的字典的情况下生成相应于所述特征向量的估计的特征向量，辨识估计的特征向量和特征向量之间的误差，响应于所辨识的误差超过一个阈值地辨识视频数据中的高兴趣事件以及仅仅响应于所述误差超过所述阈值地在视频输出设备上显示包括所述高兴趣事件的视频数据。

Description

用于探测视频数据中的高兴趣事件的系统和方法

技术领域

本公开普遍涉及视频监视的领域并且更特别地涉及用于辨识视频数据中的高兴趣事件的系统和方法，所述视频数据也包括低兴趣事件。

背景技术

视频监视系统广泛地应用于不同的目的，其包括安全保卫和公共安全。在典型的视频监视系统中，为了监视活动在不同的地点使用一个或多个摄像机。例如，视频监视系统生成公共场所、运输设备、零售商店、工业设施和住宅以及其它的私有财产的图像。监视系统通常包括为了以后回放归档所记录的视频的一些或全部的数据存储设备以及能够实现现场的和所归档的视频数据的回放的一个或多个视频输出设备。

在一些监视系统中，摄像机生成视频数据，所述视频数据由一个或多个人员运行者监视，所述人员运行者可以观看视频中的活动并且如果他们看到事件则可以采取适当的行动。例如在零售商店处的监视系统中，运行者观看商店中的个人的现场视频并且如果一个人企图偷窃商品则向安保人员发出警告。在另一示例中，运行者监视来自监视高速公路的繁忙区段的交通摄像机的视频馈给，以便发现交通事故或者交通拥塞。如果发生了事故，则运行者联系紧急响应人员，然后他们广播交通警告以通知所述繁忙交通区段中的其他驾驶员。

更广泛地，当所记录的视频示出“高兴趣事件”时，监视视频监视系统的运行者通常采取行动。如以上所描述的那样，高兴趣事件的确切性质在不同的背景和使用视频监视系统的运行者的任务之间发生变化。如在此所使用的那样，术语“高兴趣事件”涉及所记录的视频数据中的促使视频监视系统的运行者采取行动的任何事件。行动包括但不限于，借助基于在视频中所示出的事件的信息来联系其他人员、回放在事件发生之前的附加的归档的视频拍摄、或者在事件发生之后更密切地监视视频中的对象以便追踪对象的活动。

除高兴趣事件以外，视频数据通常包含“低兴趣事件”。如在此所使用的那样，术语“低兴趣事件”涉及任何没有促使运行者采取行动的事件或者缺乏事件。例如，在以上所描述的交通监视系统中，车辆沿着道路行驶行驶作为常规交通流的一部分是低兴趣事件。在零售商店视频监视系统中，没有活动的空的通道是另一低兴趣事件。在多个视频监视系统中所生成的视频数据主要包括低兴趣事件伴随较偶然的高兴趣事件，所述高兴趣事件以不可预测的方式与低兴趣事件混合。

在视频监视系统用于广泛的领域期间，运行所述系统的人员运行者通常漏掉高兴趣事件。在一些示例中，视频监视系统为限制数量的人员运行者收集过多的视频而不能有效地回放。附加地，当人员运行者回放具有仅仅对于延长的时间发生的低兴趣事件的视频时，人员运行者失去专注于视频的能力并且可能不能识别出高兴趣事件。因此，视频监控系统的使得运行者能够辨识记录在视频数据中的更大比例的高兴趣事件的改进可能是有利的。

发明内容

在一个实施例中，已经开发了一种用于监视视频数据的方法。所述方法包括辨识事件的具有相应于对象在视频数据中的位置和运动方向中的至少一个的数据的特征向量、在使用包括多个基向量的字典的情况下生成相应于所述特征向量的估计的特征向量、辨识所估计的特征向量和所辨识的特征向量之间的误差、响应于所辨识的误差超过一个阈值地辨识视频数据中的高兴趣事件、仅仅响应于所辨识的误差超过所述阈值地在视频输出设备上显示包括高兴趣事件的视频数据。

在另一实施例中，已经开发了一种视频监视系统。所述系统包括配置用于生成事件的视频数据的摄像机(在视频数据中每一个事件包括对象)、配置用于显示由摄像机生成的视频数据的一部分的视频输出设备以及与摄像机、视频输出设备和存储器有效连接的处理器。所述处理器配置用于辨识事件的包含相应于对象在从摄像机接收的视频数据中的位置和运动方向中的至少一个的数据的特征向量、在使用存储在存储器中的包括多个基向量的字典的情况下生成相应于特征向量的估计的特征向量、辨识估计的特征向量和特征向量之间的误差、响应于所辨识的误差超过一个阈值地辨识视频数据中的高兴趣事件并且仅仅响应于所辨识的误差超过阈值地在视频输出设备上显示包括高兴趣事件的视频数据。

附图说明

图1：视频监视系统的示意图；

图2：用于辨识视频监视系统中的高兴趣和低兴趣事件的过程的框图；

图3：用于由视频监视系统中的训练数据生成事件字典的稀疏编码过程的框图；

图4A：用于修改包含已编码的数据的字典以便包括相应于另一低兴趣事件的过程的框图，所述已编码的数据相应于所观察的低兴趣事件；

图4B：用于修改包含已编码的数据的字典以便从所述字典移除高兴趣事件的过程的框图，所述已编码的数据相应于所观察的低兴趣事件；

图5：用于生成记录在视频监视系统中的相似事件的索引以便能够有效地搜索相似事件的过程的框图；

图6：示出从视频和传感器数据中提取的元数据的框图以及用于由多个类型的元数据生成特征向量的过程；

图7：用于在图1的系统中的视频和传感器数据中辨识出的事件中的元数据的元数据特征向量、事件字典和由事件字典中的基向量生成的估计的特征向量的简化示图；

图8：训练数据特征向量和相应的稀疏权重向量的简化示图，所述稀疏权重向量用于生成图1的系统中的事件字典中的基向量。

具体实施方式

为了促进在此所描述的实施例的原理的理解的目的，现在参照附图和随后的说明书中的描述。主题的范围不受所述参照限制。所述描述也包括所示出的实施例的任何改变和修改并且还包括所描述的实施例的原理应用，如本文档所属领域的技术人员通常进行的那样。

如在此所使用的那样，术语“稀疏编码”涉及用于生成相应于多个输入的数据的方法，所述数据在使用多个“基向量”和“稀疏权重向量”的情况下编码为向量。基向量在使用惩罚优化过程(penalized optimization process)的情况下生成，所述惩罚优化过程应用于多个在训练过程期间提供的多个预确定的输入向量。在一个实施例中，对于所述类型已知的优化过程用于生成相应于多个输入训练向量的基向量和稀疏权重向量。术语“稀疏”用于涉及以下向量或者矩阵：其描述具有多个元素的向量或矩阵，其中给大多元素分配零值。如在此所使用的那样，当应用于向量时术语“维度”涉及向量中的元素的数量。例如，具有三个元素的行向量或者列向量称为具有维度3，而另一个具有四个元素的行向量或者列向量称为具有维度4。

如在此所使用的那样，术语“字典”涉及在使用稀疏编码过程的情况下生成的多个基向量。在训练过程期间生成字典之后，字典中的基向量用于辨识任意输入向量和用于在训练过程期间生成字典中的基向量的输入向量之间的相似程度。优化技术用于在使用稀疏权重向量的情况下选择基向量的组合以便生成估计任意输入向量的重构向量。在重构估计向量和实际输入向量之间所辨识的误差提供输入向量和字典之间的相似度的测量。

如在此所使用的那样，术语“元数据”涉及在视频或者其它传感器数据中所辨识的对象的特性。例如，如果对象跟随一个穿过视频摄像机的视场的路径，则相应于对象的元数据包括对象在视频数据的帧中的二维位置、对象的速度、对象的运动方向、对象的大小以及对象存在于摄像机的视场中的时间持续。如以下所描述的那样，参照对象的所观察的元数据来辨识事件。元数据不要求以特定性来辨识对象。在一个实施例中，元数据不辨识对象是特定的人或者甚至人类。然而，如果事件与所期望的人动作相似，则替代的实施例推断出元数据相应于人、如朝一个方向并且以相应于人走过摄像机的速度运动的对象的元数据。附加地，仅仅对于短的时间追踪单个对象并且元数据不在延长的时间期间上辨识相同的对象。因此，除为了以后的调取存储视频数据拍摄以外，所存储的元数据和高兴趣事件根据元数据的辨识不需要个人可辨识信息(PII)的收集和存储。

图1示出视频监视系统100，其配置用于记录关于场景中的对象的视频和传感器数据并且显示所选择的用于附加地分析并且从人员运行者反馈的视频。视频监视系统100包括一个或多个视频摄像机104、可选择的非摄像机的传感器108、交互式的监视终端120、移动电子设备116、处理并且分析视频的系统130。在图1中，摄像机104、传感器108、移动电子设备116、监视终端120和分析系统130通过数据网络112、例如一个或多个局域网(LANs)和广域网(WANs)通信。

在系统100中，摄像机104包括任何产生示出对象在场景内的运动的视频数据的单色的、彩色的、多光谱的或者高光谱的成像设备。如在所述领域中已知的那样，摄像机104生成视频数据作为图像的序列，所述图像以规律的间隔生成。每一个图像称为“帧”并且单个帧被记录并且以时间顺序显示，以便示出对象在摄像机的视场中的运动。在一些实施例中，摄像机104包括用于在弱光条件中探测运动对象的光增强器或者红外传感器。例如，近红外的电荷耦合器件(CCD)或者补充金属氧化物半导体(CMOS)传感器探测对于没有辅助的人眼通常不可见的近红外频带中的能量。

在一些实施例中，每一个摄像机104包括用于实施数字信号处理并且编码图像数据的硬件和软件。例如，摄像机104对图像数据使用滤波器并且在将视频数据发送到分析系统130之前以压缩的格式、例如MPEG-2或者H.264来编码图像数据。在一个实施例中，摄像机104安装到机动化的保持装置上，所述机动化的保持装置使得摄像机能够摆动并且倾斜以便观看围绕摄像机的更宽的区域，而在另一个实施例中，摄像机以固定的视角安装。在一些实施例中，摄像机包括可调节的变焦透镜，所述变焦透镜能够实现所记录的视频中的变焦水平的调节。

在图1的实施例中，视频监视系统100包括可选择的非视频传感器108。与传统的摄像机不同，非视频传感器包括宽范围的传感设备。传感器108的示例包括但不限于运动传感器、接近传感器、温度传感器、声学传感器和测距传感器。如以下所描述的那样，视频监视系统100基于与在使用摄像机104和传感器108的情况下所监视的对象相关联的元数据来辨识事件。元数据由所记录的视频并且由从传感器108接收的数据生成。来自多个摄像机和传感器的数据在时间和空间上相关联，以便使得视频监视系统100能够在使用多个传感设备的情况下辨识关于所探测的对象的元数据。

在视频监视系统100中，交互式的监视终端120和移动电子设备116使得一个或多个人员运行者能够回放所记录的视频拍摄并且调节视频监视系统100，以便改善高兴趣事件的辨识。移动电子设备116和监视终端120都包括至少一个视频输出设备、如LCD屏幕，其显示由摄像机104记录的视频数据的所选择的区段。移动电子设备116和监视终端120也输出由传感器108收集的数据。

在运行期间，移动电子设备116和监视终端120接收视频数据的分析系统130辨识为相应于高兴趣事件的限制的集。在系统100中，移动电子设备116是平板电脑、智能手机或者其它在使用到网络112的无线数据连接的情况下发送并且接收数据的可便携电子设备。在一个实施例中，安全保障人员或者其他人员携带移动电子设备116并且在前往事件位置期间回放所记录的高兴趣事件的视频。监视系统120通常是个人计算机(PC)或者其它使得运行者能够回放记录在视频数据中的事件的交互式电子设备。移动电子设备116和监视终端120的人员运行者回放视频并且辨识在视频中所示出的事件是否真正相应于高兴趣事件。人员运行者给分析系统130提供反馈，这在减少实际上不是高兴趣事件的假阳性事件的出现的同时增大辨识视频数据中的高兴趣事件的准确性。监视系统100也给人员运行者提供搜索能力，以便在使用移动电子设备116和监视终端120的情况下回放所记录的事件以及其它相似事件的视频。

分析系统130包括数据存储系统132和事件监视系统150。数据存储系统132涉及存储器的一种形式，因为数据存储系统132将用于以后检索的数字数据存储在视频监视系统100中。数据存储系统132包括一个或多个数字数据存储设备、例如磁盘驱动器阵列、固态存储设备、随机存取存储器(RAM)等等。在视频监视系统100中，视频摄像机104和传感器108通过网络112将所记录的数据发送到分析系统130以便作为视频和传感器数据134存储在数据存储系统132中。数据存储系统132也存储元数据和为了在视频和传感器数据134中所示出的事件中的对象所生成的特征向量136。数据存储系统132存储事件字典138，其包括由训练数据的稀疏编码生成的字典和为了有效搜索索引相似事件的事件搜索索引140。数据存储系统132在使用例如存储视频和传感器数据134之间的关系的关系数据库、所辨识的事件元数据和特征向量136以及相似事件的搜索索引140的情况下来组织数据。替代的实施例在使用关键值数据储存器、分层数据结构以及其它用于有效存储和检索数字数据的适合的格式的情况下存储数据。

在分析系统130中，事件监视系统150是包括多个硬件和软件模块的处理器。事件监视系统150辨识相应于视频和传感器数据中的事件的元数据，提取相应于事件的元数据的特征、辨识所提取的特征与用于生成字典的特征相似还是不相似并且当辨识出高兴趣事件时警告移动电子设备116和监视终端120的人员运行者。在一个实施例中，事件监视系统150由包括分析视频数据的多个中央处理单元(CPU)和图形处理单元(GPU)核的计算机簇构成。在一个实施例中，所述簇包括多个独立的计算设备，所述计算设备称为“节点”，所述节点在使用网络、例如局域网(LAN)或者广域网(WAN)的情况下彼此通信。在一个实施例中，计算机节点的全部或者一部分动态地通过外部服务提供商以所谓的“云”配置提供并且访问。事件监视系统150的一些实施例可选择地包括附加的信号处理与计算设备，所述信号处理与计算设备包括数字信号处理器(DSPs)、现场可编程门阵列(FPGAs)和专用集成电路(ASICs)。事件监视系统150包括数据存储设备，所述数据存储设备保存所存储的所编程的用于由CPU和GPU核执行的指令，并且事件监视系统150通信地与数据存储系统132耦合，用于访问视频和传感器数据134、事件元数据136、事件字典138和事件搜索索引140。事件监视系统150包括视频内容分析(VCA)与元数据生成模块152、事件特征提取模块154、自主训练模块156、优选级辨识模块158、视频回放与字典更新模块160和事件索引模块162。

在事件监视系统150中，VCA模块152对从摄像机104接收的视频数据134应用视频内容分析。VCA模块152生成相应于在视频数据中所辨识的对象的元数据。在包括由多个摄像机生成的数据的实施例中，VCA模块152配置用于辨识视频数据的相应区段，以便当对象在多个摄像机的视场之间运动时追踪对象的行为。在事件监视系统150的实施例中，VCA模块152生成以柱状图形式的相应于位置、速度、运动方向和大小的元数据。元数据还包括相应于对象在视频数据中存在多长时间的时间持续。在一些配置中，分析系统130使用对于每一个对象辨识的元数据的所有或者对于每一个对象辨识的所选择的元数据中的仅仅一些来辨识视频数据中的事件。

参照所辨识的对象在视频数据的每一个帧中的二维位置来生成位置直方图。当对象运动时，当对象沿着轨迹运动时视频数据的不同帧中的坐标变化。在一个实施例中，分析系统130生成关于对象的联合二维位置分布的直方图。通过二维直方图数据中的每一个列的叠加(stacking)，将二维直方图转换成一维的特征向量。在另一个实施例中，分析系统130对于图像数据的每一个维度(如x和y维度)生成独立的直方图，并且将所述直方图联系起来生成一个单独的位置特征向量。在两个维度方面描述位置直方图期间，替代的实施例以三个维度辨识对象的位置。例如，立体摄像机可以生成三维视频数据，或者当摄像机录对象时外部传感器、例如激光测距仪辨识对象和摄像机之间的间距。如以上所描述的那样，如果附加的传感器提供相应于对象在三维空间中的速度的数据，则分析系统130可选择地由三维直方图或者相应于对象的速度的三个单独的一维直方图生成特征向量。

速度直方图包括相应于对象在视频数据中的运动速率和运动方向的数据。例如，对象的速度包括相应于对象沿着视频数据中的x轴和y轴的运动的速率和方向的分量。分析系统130或者由二维速度直方图或者由一维速度直方图的组合以与以上所描述的位置直方图相似的方式生成速度特征向量。

方向直方图包括对象在视频数据中的运动方向的出现。在一个实施例中，沿着八个基本方向的集来辨识运动方向，所述八个基本方向在二维的视频数据帧中彼此成45°角地布置。运动方向的直方图包括用于每一个运动方向和在视频数据中对象在每一个方向上运动的次数的八个不同的元面(bins)。

对象在图像数据中的大小可以在时间上变化，或者由于在对象的大小方面的实际变化或者由于在视频数据中对象朝向或者远离摄像机地运动。在一种配置中，分析系统130生成相应于对象的每一个大小多频繁地在视频数据中被观察到的大小直方图。在一个实施例中，所述大小直方图是相应于每一个图像帧的对象所占据的面积的一维直方图，而在另一个实施例中生成包括对象在图像数据中沿着x和y轴的维度的二维直方图。

时间持续元数据表明对象在视频数据中被观察到的时间长度。与以上所描述的其它元数据元素不同地，时间持续不是直方图而仅仅是一个数值、例如时间戳或者视频数据的帧的数量，相应于对象在视频中多长时间地被观察到。如以上所描述的那样，对象在视频数据中期间被辨识，但不是唯一地被辨识。例如，如果单个对象进入摄像机104的视场、离开视场并且然后在以后的时间再次出现在视场中，则分析系统130在示出对象的视频数据的两个集之间不将对象的身份直接联系。替代地，分析系统130将对象的行为辨识为两个分开的事件并且辨识相应于或者单个对象、彼此影响的多个对象的元数据并且辨识相应于对象的类型、例如人、车辆、包裹或者其它对象的元数据。

在事件监视系统150中，特征事件提取模块154对于VCA模块152在使用相应于事件的元数据的情况下辨识的每一个事件生成一个特征向量。每一个特征向量是固定维度的数值向量，其中特征向量中的每一个项相应于所辨识的事件的元数据的至少一部分。在每一个事件的特征向量是固定维度的向量期间，不同的事件通常具有广泛变化的元数据特性。例如，在开始、停止以及改变方向期间运动经过摄像机的对象具有与以恒定速度运动经过场景的另一对象非常不同的轨迹。事件特征提取模块标准化由不同的元数据生成的特征向量，其用于在训练过程期间生成字典并且用于在所监视的视频和传感器数据中辨识高兴趣和低兴趣事件。

在事件监视系统150中，自主训练模块156在使用由在视频和传感器数据中辨识的所选择的元数据生成的多个特征向量的情况下生成事件字典138中的基向量。用于生成事件字典138中的基向量的特征向量称为“训练数据”。用于训练的视频和传感器数据被选择成包括大量的普通的低兴趣事件。例如，如果系统100中的视频摄像机104和传感器108监视具有行人交通的走廊，则所选择的训练数据包括经过走廊的普通的行人交通的拍摄。训练数据可以包括小数量的高兴趣事件，但是高兴趣事件的数量通常比低兴趣事件的数量低得多。如以下更详细地描述的那样，自主训练模块156自主地、即没有人的交互地生成事件字典138，并且事件字典138包括基向量和稀疏权重向量，它们以最大的准确性生成低兴趣事件的估计。

图1示出事件监视系统150的实施例，所述事件监视系统将用于一个或多个字典的事件字典数据138存储在数据存储系统132中。在一个实施例中，基于在大的视频数据集中的时间或空间上的变化生成多个字典。例如在一个实施例中，视频监视系统100监视办公建筑物的入口并且事件字典数据138包括两个事件字典。一个事件字典相应于规律的工作小时并且所述字典由相应于在工作小时期间收集的视频和传感器数据的元数据特征向量生成。第二个字典相应于正常工作小时之外的晚上和清晨。如果事件发生在正常工作小时之外，则可以将在正常工作日期间被分类为低兴趣事件的事件分类为高兴趣事件，并且两个字典使得相同的事件能够根据事件发生的时间不同地分类。在一个实施例中，分析系统130根据时间戳从事件字典数据138中自动地选择一个事件字典以用于分类事件的感兴趣水平，所述时间戳相应于事件在视频和传感器数据134中被观察的时间。替代的实施例包括附加的事件字典，所述附加的事件字典相应于不同的时间范围，其包括相应于星期中的特定日的事件字典、相应于假期的事件字典和相应于经常性事件、例如在竞技场上举行的运动事件和音乐会的事件字典。在另外的实施例中，事件字典数据138包括相应于不同位置的多个事件字典，在系统100的运行期间不同类型的事件活动发生在所述不同位置处。

在一些配置中，特征事件提取模块154使用以上所描述的不同类型的元数据的仅仅一部分来生成每一个事件的特征向量。例如，在一个实施例中，所述事件特征提取模块154由仅仅运动的位置与方向直方图生成特征向量。在另一实施例中，事件特征提取模块154由位置与速度直方图生成特征向量，其中速度直方图包括相应于对象在事件期间的运动方向和运动速率的数据。

在监视视频和传感器数据期间，优先级辨识模块158对于在视频和传感器数据中所辨识的事件从事件特征提取模块154接收特征向量。优先级辨识模块158访问事件字典138并且在使用字典数据138中的基向量的情况下实施惩罚优化过程，以便生成用于事件的所辨识的特征向量的估计的特征向量。如果所辨识的特征向量和所估计的特征向量之间的差小于一个预确定的阈值，则相应于特征向量的事件被辨识为与已经在事件字典中编码的事件相似并且被分配低优先级状态。然而，如果所辨识的特征向量和所估计的特征向量之间的差超过所述预确定的阈值，则给相应的事件分配高兴趣的状态。

在事件监视系统150中，视频回放与字典更新模块160从数据存储系统132中的视频和传感器数据134检索视频以及可选择地传感器数据，以便通过移动电子设备116和监视终端120进行回放。视频回放模块160显示视频和传感器数据134的相应于来自优先级辨识模块158的高兴趣事件的部分。在一些实施例中，视频回放模块160插入覆盖图形或者其它标记以便突出视频的包括高兴趣事件的部分。人员运行者回放视频和传感器数据并且如果所辨识的事件是高兴趣事件则采取适当的行动或者检索额外的视频拍摄。在一些示例中，优先级辨识模块158通过进一步分析辨识出人员运行者确定的实际上不是高兴趣事件的高兴趣事件。人员运行者通过显示在移动电子设备116或者监视终端120上的图形用户界面(GUI)输入一输入，其表明事件是低兴趣事件。视频回放与字典更新模块160从移动电子设备116或者监视终端120接收信号并且更新事件字典138以便将未来的相似事件分类为低兴趣事件而不是高兴趣事件。在另一个运行模式中，视频回放模块160显示视频数据的被辨识为仅仅包括低兴趣事件的区段。人员运行者分析所记录的视频，并且如果视频数据包括不正确地辨识为低兴趣事件的高兴趣事件，则移动电子设备116或者监视终端120向视频回放与字典更新模块160发送另一信号以表明所述事件实际上是高兴趣事件。然后，视频回放与字典更新模块160从事件字典138中删除相应于所述事件的一个或多个基向量，以便未来的相似事件辨识为高兴趣事件。

在事件监视系统中，人员运行者经常回放在视频和传感器数据中所辨识的相似事件。事件监视系统150中的事件索引模块162接收相应于每一个事件的特征向量并且更新事件搜索索引140，以便能够实现相应于相似事件的视频和传感器数据的有效检索。事件索引模块162通过在使用惩罚优化过程和事件字典138中的基向量的情况下生成稀疏权重向量以与优先级辨识模块158相同的方式来辨识相似的事件。事件索引模块在使用例如聚类算法的情况下辨识多个相似事件的估计的特征向量。事件搜索索引140使得人员运行者能够以有效的方式检索相似事件的视频和传感器数据，而不必手动地回放所记录的视频的长度区段。事件索引模块162生成用于所记录的视频和传感器数据中的低优先级和高优先级的事件的索引。在一个实施例中，当事件监视系统150在视频和传感器数据中辨识出新的事件时，事件索引模块162以连续的方式更新事件搜索索引140。

在图1示出视频监视系统100的示例性的实施例期间，替代的实施例包括硬件和软件组件的不同组合。例如在一个替代的实施例中，单个摄像机包含事件监视系统150、事件特征提取模块154、自主训练模块156和优先级辨识模块158，所述事件监视系统包括实现VCA与元数据生成模块152的硬件和软件组件。摄像机存储事件字典用于辨识事件元数据中的高兴趣事件和低兴趣事件。摄像机向PC工作站或者其它适合的计算设备发送视频数据，所述计算设备存储视频数据并且提供GUI以控制摄像机并且回放摄像机辨识的高兴趣事件的视频。在另一实施例中，包括数据存储系统132和事件监视系统150的分析系统130实施为在PC工作站上执行的软件应用。工作站通过数据网络112从一个或多个摄像机接收图像数据并且PC工作站中的处理器执行用于运行工作站中的组件的软件应用，以便实施分析系统130和视频监视终端120的功能。

图2示出用于辨识视频和传感器数据中的高兴趣事件的过程200。在以下的描述中，参照过程200实施或者完成一些功能或动作涉及配置有所编程的指令的一个或多个控制器或处理器，所述指令用于实现实施功能或动作或者运行一个或多个组件以实施功能或动作的过程。为了阐明的目的，参照图1的视频监视系统100来描述过程200。

在分析系统130分别从摄像机104和传感器108接收视频和传感器数据时，过程200开始(方框204)。在视频监视系统100中，摄像机104和摄像机108使数据流到数据存储系统132，所述数据存储系统归档视频和传感器数据134以便分析和回放。在一些配置中，除数据存储在数据存储系统132中以外，移动电子设备116和监视终端120观看流视频数据作为现场馈给。

视频监视系统100辨识事件并且在“在线”模式中给视频和传感器数据中的事件分配优先级。也就是说，当事件出现在视频和传感器数据中时，视频监视系统100辨识它们并且辨识由事件的元数据生成的特征向量相应于高兴趣事件还是低兴趣事件。因此，系统100借助高兴趣事件的发生和高兴趣事件由人员运行者的回放之间的相对小的时间延迟来辨识高兴趣事件。相比之下，“批量”模式要求在可以辨识任何事件之前记录大量的视频数据。除以在线模式的运行以外，视频监视系统100可以以批量模式运行，以便例如回放先前所记录的视频数据的归档，从而辨识所归档的视频数据中的高兴趣事件。

当分析系统130辨识相应于视频和传感器数据中的不同对象的事件并且在事件期间提取对象的元数据时，所述过程200继续(方框208)。在事件监视系统150中，VCA与元数据生成模块152处理视频和传感器数据并且生成用于对象位置、速度、运动方向、大小和事件的时间持续中的一个或多个的元数据。如以上所描述的那样，元数据的一些类型编码成一维或二维的直方图，所述直方图转换成一维向量，所述一维向量用于生成描述事件的特征向量。

当事件监视系统150中的事件特征提取模块154由关于所述事件的元数据生成相应于所辨识的事件的特征向量时，所述过程200继续(方框212)。事件特征提取模块154在使用事件的元数据的一些或者所有的情况下生成固定维度的特征数据。如在图6中所示出的那样，事件数据604包括多个关于各个对象和事件的元数据。每一个事件的元数据包括位置直方图608A、速度直方图608B、运动方向直方图608C、对象大小直方图608D和时间持续值608E。为了从多个元数据直方图生成特征向量，事件特征提取模块154对元数据实施关联与标准化运算612。所述关联过程将用于元数据的直方图向量处理为固定维度的向量并且生成特征向量作为直方图的关联。例如，如果将位置直方图转换成32个元素的向量并且将运动方向直方图转换成8个元素的向量，则所关联的特征向量包括40个项。

标准化过程能够实现用于具有广泛不同的时间持续的事件的固定维度的特征向量的生成。在标准化过程期间，事件特征提取模块154实施一种或多种标准化方法、例如单元标准过程(unit normprocess)。所述单元标准过程调节关联特征向量的每一个集中的元素，使得每一个特征向量中的所有元素的欧式总和等于预确定的值(例如1)。在一个示例中，用于第一事件的特征向量包括位置直方图向量中的多个不同位置，而用于第二事件的另一特征向量包括小得多的数量的不同位置，因为第二事件具有比第一事件短得多的时间持续。单元标准过程确保第一和第二向量的欧式总和相等，即使每一个向量中的单个元素值不同。在一个替代的实施例中，在使用基于轨迹长度的相应于特征向量中的所观察的元数据元素的总数量的方法的情况下标准化特征向量，其中向量中的每一个元素被特征向量的和除。在另一替代的实施例中，标准化过程使特征向量中的每一个元素被特征向量中的最大元素的值除。在另一替代的实施例中，特征向量元素被视频和传感器数据中的相应于单个对象或者相应对象的组的事件的总数量除。

事件特征提取模块154生成相应于对于事件所辨识的元数据的最终标准化特征向量616。在一些实施例中，事件特征提取模块154由元数据的仅仅所选择的部分、例如对象位置608A和运动方向608C或者对象位置608A和速度608B生成所关联且已标准化的特征向量616。在其它实施例中，使用所有元数据。在图6示出元数据的示意性示例期间，特征向量可以包括来自元数据的不同部分的元素。例如，在系统100中，传感器108的一些实施例生成关于对象和事件的附加的元数据、例如对象的温度变化或者在事件期间由对象发出的声音。事件特征提取模块154关联并且标准化附加的元数据以形成用于事件的每一个的固定维度的特征向量。

再次参照图2，当事件监视系统150实施惩罚优化过程、例如优化过程来生成相应于事件的特征向量和存储在字典中的基向量的稀疏权重向量时(方框216)，所述过程200继续。在事件监视系统150中，优先级辨识模块158实施优化过程以辨识事件字典中的小数量的基向量，所述基向量通过与稀疏权重向量中的权重值相乘来标度，然后求和用于生成相应于所观察的特征向量的估计的特征向量(方框218)。在事件监视系统150中，稀疏权重向量具有相应于存储在事件字典数据138中的基向量的数量的维度。稀疏权重向量中的每一个项提供用于事件字典中的相应基向量的相对权重值，稀疏权重向量中的零值表明相应的基向量不用于生成估计的特征向量。为了生成估计的特征向量，优先级辨识模块158使用稀疏权重向量中的非零项来从字典中选择基向量并且加权所述基向量以便通过稀疏向量中的权重和所选择的基向量的线性组合来生成估计的特征向量。

图7示出所观察的特征向量750、事件字典732、相应于所观察的特征向量750和事件字典732中的基向量的稀疏权重向量764和估计的特征向量752的简化示例，所估计的特征向量由从事件字典732选择的已加权的基向量的线性组合生成。在图7中，所观察的特征向量750是具有维度K的向量，即特征向量750包括K个具有不同的值的数值元素，所述不同的值相应于所观察的元数据特征O。事件字典732包括N个与所观察的特征向量750相同维度K的基向量。在图7的实施例中，N的值大于K的值，即事件字典732包括比基向量和所观察的特征向量750的维度K更大数量的基向量。以上所描述的优化过程760生成具有维度N的稀疏权重向量764，在那里稀疏向量764中的每一个元素相应于事件字典732中的N个基向量中的一个。在稀疏权重向量764中，元素的大多数具有数值零、例如元素770。稀疏权重向量中的零值表明相应的基向量、例如事件字典732中的基向量734在所观察的特征向量750的估计的生成期间具有零权重(即被忽略)。

在过程200期间，分析系统130由稀疏向量764中的项和字典732中的相应基向量的每一个的线性组合来生成相应于所观察的特征向量750的估计的特征向量。因为稀疏向量764中的项的大多数为零，所以事件字典732中的N个基向量的仅仅小的数量用于生成估计的特征向量。例如，稀疏向量764中的元素770是零，并且事件字典732中的相应基向量734不用于生成估计的特征向量。在图7中，虚线的矩形740示出来自事件字典732的分别相应于稀疏权重向量764中的非零元素772和774的两个基向量736和738。非零的稀疏向量项中的数值加权事件字典732中的基向量中的每一个的组合，所述基向量用于借助已加权的基向量的线性组合来生成估计的特征向量。例如，在图7中所示出的实施例中，元素772的数值的权重值N1由基向量736中的每一个元素D1相乘，而元素774的数值的权重值N2由基向量738中的每一个元素D2相乘。求和加权基向量的每一个中的相应元素以便生成估计的特征向量752。估计的特征向量752是具有与所观察的特征向量750相同维度K的向量，其中估计的特征向量752中的每一个元素O’是观察特征向量750中的相应元素值O的估计。

在过程200期间，事件监视系统150辨识来自事件特征提取模块的观察特征向量和在优先级辨识模块158中生成的估计的特征向量之间的误差(方框220)。在一个实施例中，所述误差被辨识为以下两项的和：1.观察特征向量中的相应元素和估计的特征向量之间的差的欧式和，2.估计稀疏权重向量的L1范数(例如非零项的绝对值的和)。例如，如果观察特征向量和估计的特征向量具有40个元素，则误差向量也包括40个元素，所述40个元素中的每一个包括相应元素之间的差。优先级辨识模块158将误差向量中的元素的欧式和辨识为标量误差量。辨识误差相应于观察特征向量和在事件字典中所代表的特征向量的空间之间的相似度或者不相似度。较小的误差值表明观察特征向量具有与由字典所代表的特征向量的较强的相似度，而较大的误差值表明观察特征向量和字典之间的不相似。

在过程200期间，视频监视系统100参照辨识误差和预确定的误差阈值之间的对比将事件优先化为或者高兴趣事件或者低兴趣事件。如果辨识误差小于一个预确定的阈值(方框224)，则优先级辨识模块158将事件辨识为低兴趣事件(方框236)。事件监视系统150将相应于低兴趣事件的事件元数据存储在数据存储系统132中的事件元数据数据库136中。即使事件最初被分类为低兴趣事件，为了存档的目的并且为了由人员运行者进一步回放，监视系统100也保留相应于所述事件的视频和传感器数据134以及元数据136。如以下所描述的那样，在一些示例中，最初被分类为是低兴趣事件的事件之后被分类为高兴趣事件。

如果辨识误差超过预确定的阈值(方框224)，则优先级辨识模块158将事件辨识为高兴趣事件(方框228)。在监视系统100中，事件监视系统150向移动电子设备116和监视终端120发送警告信号以表明高兴趣事件的辨识(方框232)。在一个实施例中，警告信号包括示出高兴趣事件的相应的视频和传感器数据134。警告信号可以包括关于事件的附加信息，并且在一些实施例中分析系统130叠加附加信息以便突出视频数据中的高兴趣事件。因此，在一种运行模式中，分析系统130限制视频数据向人员运行者的显示以便仅仅包括高兴趣事件。因为当回放延长的、主要包括低兴趣事件的视频区段时人员运行者通常在辨识高兴趣事件方面变得较没有效率，所以分析系统130限制视频的显示以使人员运行者的注意力集中在高兴趣事件上。

在运行期间，视频监视系统100实施过程200以便将在视频和传感器数据中所辨识的每一个事件分类为低感兴趣事件或者高兴趣事件。在一个实施例中，事件监视系统150包括并行处理的、同时分类多个事件的硬件和软件组件。事件监视系统150直接向一个或多个人员运行者发出警告以便回放高兴趣事件的视频。

如以上所描述的那样，在过程200期间视频分析系统130基于事件字典138辨识记录在视频和传感器数据中的事件是高兴趣事件还是低兴趣事件。图3示出用于由视频和传感器数据生成事件字典的过程300。在以下的描述中，参照过程300实施或者完成一些功能或动作涉及一个或多个配置有所编程的指令的控制器或处理器，所述指令用于实现实施功能或动作或者运行一个或多个组件以实施功能或动作的过程。为了阐明的目的，参照图1的视频监视系统100来描述过程300。

为了生成事件字典，分析系统130接收一组视频和传感器训练数据(方框304)。视频和传感器数据通常包括视频记录和相应于视频监视系统100在运行期间所观察的所期望的活动的相关传感器数据。例如，监视建筑物入口的视频监视系统接收训练数据，所述训练数据接管典型活动的数小时或者数天的时期。在过程300不需要人员干预期间，人员运行者可选择地确认，训练视频和传感器数据主要包含不需要进一步人员分析的低兴趣事件。例如，建筑物入口的视频数据示出进入和离开建筑物的人的常规活动，而没有示出消防演习或者其它高兴趣事件。训练数据可以包括一些高兴趣事件，但是高兴趣事件应当比低兴趣事件不频繁得多。

在过程300期间，分析系统130辨识视频和传感器训练数据中的多个事件并且辨识相应于事件中的对象的元数据(方框308)。在事件监视系统150中，VCA与元数据生成模块152以与参照过程200中的方框208的过程所描述的那样相同的方式来辨识事件的每一个中的对象的元数据。在过程300期间，事件特征提取模块154生成多个特征向量(方框312)。事件特征提取模块154以与以上参照过程200中的方框212的处理所描述的那样相同的方式生成每一个特征向量。

在形成由训练视频和传感器数据中的所观察的事件的元数据构成的多个特征向量之后，分析系统130实施惩罚优化过程以便生成用于描述训练数据中的特征向量的基向量的字典(方框316)。在视频监视系统100中，自主训练模块156从事件特征提取模块154接收特征向量并且生成事件字典。所生成的字典包括多个N基向量，它们中的每一个具有与固定维度的特征向量相同的维度K。根据字典的所期望的复杂度来选择要生成的基向量的数量。一般而言，特征向量辨识的准确性随着基向量的数量的增加而增加，但是计算的复杂度和相应的训练时间也随着基向量的数量的增加而增加。在一个实施例中，将基向量的数量选择为“过完备的(overcomplete)”，即基向量的数量超过特征向量的维度。如在所述领域中已知的那样，过完备的字典提供对可能存在于单个特征向量的项中的噪声的耐受。

在过程300期间，训练模块156将相应于训练数据中的每一个特征向量的稀疏权重向量辨识为惩罚优化过程的一部分(方框318)。例如，自主训练模块156在多个特征向量上实施优化过程以便生成事件字典中的基向量和用于训练数据中的元数据特征向量的每一个的相应的稀疏权重向量。优化过程以迭代的方式实施，其中基向量借助随机数据初始化并且优化过程给定特征向量地优化稀疏权重向量。然后，优化过程给定稀疏权重向量地优化基向量并且优化所给定的特征向量。优化过程以迭代的方式继续，直至字典中的基向量和相应于训练数据特征向量的稀疏权重向量收敛到稳定的值，所述稳定的值对于训练特征向量的所给定的集构成事件字典。优化过程包括确保稀疏权重向量主要由具有小数量的非零权重项的零项元素组成的运算。在对于来自一个或多个图像的像素输入使用优化过程或者另一惩罚优化过程的情况下事件字典的生成对于本领域通常是已知的。然而，在过程300中事件字典由相应于元数据的特征向量生成，所述元数据关于视频数据中的事件，而不是由相应于包括在视频数据的一个或多个帧中的像素的特征向量生成。

图8示出训练数据和相应的字典的示意性示例。图8示出M个训练向量702，在那里每一个训练向量具有维度K。训练向量702中的每一个是从预确定的视频与传感器元数据中提取的元数据元素的已单元标准化的特征向量。在图8中，事件字典732包括N个基向量，在那里每一个基向量具有与训练数据702中的特征向量相同的维度K。如以上所描述的那样，在一些实施例中，N个基向量的数量是预确定的数量，其大于每一个特征向量的维度数量K，从而构成过完备的事件字典。虽然不需要，但是在许多实施例中训练数据702中的特征向量M的数量超过事件字典732中的基向量的数量N。优化过程由训练特征向量702生成字典732中的N个基向量中的元素，如以上所描述的那样。在视频监视系统100中，数据存储系统132存储事件字典数据138，所述事件字典数据包括在事件字典732中所示出的基向量。

在图8中，以上所描述的优化过程也生成M个稀疏权重向量712，其中每一个稀疏权重向量相应于训练数据中的特征向量702中的一个。稀疏向量712中的每一个具有维度N，在那里稀疏向量712的每一个中的N个元素中的每一个相应于事件字典732中的N个基向量中的一个。如以上所描述的那样，相应于稀疏权重向量712的每一个中的非零元素的基向量的线性组合生成估计的特征向量，所估计的特征向量相应于训练数据702中的原始训练特征向量。

在分析系统130中，相应于训练特征向量702的稀疏向量712不需要用于在生成字典732之后辨识视频和传感器数据中的高兴趣事件和低兴趣事件。然而，在视频监视系统100的一个实施例中，数据存储系统132将在训练过程期间生成的稀疏向量712存储为训练数据142。如以下所描述的那样，视频监视系统100使用相应于训练数据并且相应于视频和传感器数据中的所观察的其他元数据特征向量的稀疏向量，以便在视频和传感器数据中搜索相似的事件并且使得运行者反馈能够添加基向量或者从事件字典中移除基向量以减小在辨识高兴趣事件和低兴趣事件中的误差。

再次参照图3，在生成事件字典之后，训练模块156可选择地辨识默认误差阈值，所述默认误差阈值用于分类视频和传感器数据中的高兴趣事件和低兴趣事件(方框320)。在一个实施例中，训练模块156辨识估计的特征向量中的误差范围，所估计的特征向量在应用于训练数据中的元数据特征向量时由事件字典生成。误差阈值设置为预确定的在训练数据中所观察的最大误差的百分数、例如99％或者99.9％。在不同的配置中，增大误差阈值以减小在所观察的元数据特征向量中辨识高兴趣事件的频率，而减小误差阈值以增大在所观察的元数据特征向量中辨识高兴趣事件的频率。

在生成事件字典和误差阈值之后，训练模块156将事件字典数据和预确定的误差阈值存储在数据存储系统132的事件字典138中(方框324)。存储事件字典数据138用于以后的检索并且用于辨识视频和传感器数据中的附加事件是高兴趣事件还是低兴趣事件。在以上所描述的过程300的所述实施例中，系统100以批量模式在使用大量的预确定的训练数据的情况下生成基础字典。在另一实施例中，以在线模式在使用系统100从视频和传感器数据中的单个事件提取的所观察的元数据特征向量的情况下实施过程300。当观察到新事件时，分析系统130更新事件字典138中的基向量。在另一实施例中，系统100在使用预确定的训练数据142的情况下以批量模式生成事件字典138，然后以在线模式参照在系统100的运行期间从视频和传感器数据134中提取的新观察的元数据特征向量来持续地更新事件字典。如以下所描述的那样，在过程300以自主的方式生成事件字典期间，视频监视系统100利用人员反馈来调节事件字典的内容以便增大高兴趣事件探测的准确性。

在运行期间，视频监视系统100如以上参照图2所描述的那样在使用如以上参照图3所描述那样地生成的事件字典的情况下辨识高兴趣事件和低兴趣事件。当辨识出高兴趣事件时，事件监视系统100警告人员运行者并且人员运行者在使用移动电子设备116或者监视终端120的情况下回放视频数据。分析系统130分类为高兴趣的一些事件实际上不是高兴趣事件。当分析系统130不正确地将低兴趣事件辨识为高兴趣事件时，发生“假阳性(false-positiv)”辨识。

图4A示出过程400，所述过程使得人员运行者能够给分析系统130提供反馈以便将附加的基向量添加到事件字典数据138，这减少假阳性误差的出现。在以下的描述中，参照过程400实施或者完成一些功能或动作涉及一个或多个配置有所编程的指令的控制器或者处理器，所述指令用于实现实施功能或动作或者运行一个或多个组件以实施功能或动作的过程。为了阐明的目的，参照图1的视频监视系统100来描述过程400。

在分析系统130辨识出视频数据中的高兴趣事件并且人员运行者回放相应于所述事件的视频和传感器数据之后，过程400开始(方框404)。在事件监视系统150中，为了人员回放，视频回放与字典更新模块160检索并且发送视频和传感器数据134的所选择的部分到移动电子设备116和监视终端120。如果人员运行者确定在视频中所示出的事件是高兴趣事件(方框408)，则人员运行者采取适当的行动并且分析系统130保留当前的事件字典(方框420)。

然而在一些情形中，分析系统130辨识出高兴趣事件，人员运行者确定所述高兴趣事件不是高兴趣事件(方框408)。人员运行者通过移动电子设备116或者监视终端120中的GUI或者其它用户界面输入一个输入以表明所辨识的事件不是高兴趣事件。如以上参照过程300所描述的那样，事件字典由训练数据中的大量事件生成。如以上参照过程200所描述的那样，高兴趣事件相应于具有元数据特征向量的事件，所述元数据特征向量与由字典中的基向量和相应于重辨识的事件的稀疏权重向量生成的估计的特征向量相比具有相对大的误差，所述稀疏权重向量在使用优化过程的情况下生成。

在过程400期间，分析系统130响应于人员运行者确定事件不是高兴趣事件地生成相应于假阳性事件的特征向量的新的基向量(方框412)。在分析系统130中，视频回放与字典更新模块160可以访问用于假阳性的高兴趣事件的特征向量(X_t)、优先级辨识模块158在过程200期间生成的估计的特征向量并且访问事件字典数据138。视频回放与字典更新模块160通过首先将稀疏权重向量中的相应于估计的特征向量的元素的大多数设置成零来生成新的基向量，以便生成新的估计的特征向量新的估计向量在使用小数量的非零元素的情况下由具有最大的值的稀疏权重向量生成，并且将具有较小的值的元素设置成零，因为较小的值通常代表噪声。随后，视频回放与字典更新模块160从假阳性事件的观察特征向量减去新的估计的特征向量以便生成基向量B：

在生成基向量B之后，视频回放与字典更新模块160将基向量B添加到事件字典数据138(方框416)。已更新的事件字典134现在包括相应于假阳性事件并且相应于具有相似的元数据特征向量的其他事件的基向量。在分析系统130中，更新与训练数据142相关联地存储的稀疏权重向量以便包括用于新的基向量的附加的零值项。当分析系统130辨识出对于附加的元数据特征向量的兴趣水平时，惩罚优化过程生成具有相应于事件字典中的基向量的新数量的维度的稀疏向量。当视频监视系统在视频和传感器数据中记录附加的事件时，分析系统130将与假阳性事件相似的新事件分类为低兴趣事件而不是高兴趣事件。

除假阳性误差以外，当事件实际上是高兴趣事件时，视频监视系统100可能偶尔将视频和传感器数据中的事件分类为低兴趣事件。无法辨识高兴趣事件涉及“假阴性”辨识误差或者错失的探测。

图4B示出过程450，所述过程使得人员运行者能够给分析系统130提供反馈，以便将一个或多个基向量从事件字典数据138中移除，这减少假阴性误差的出现。在以下的描述中，参照过程450实施或者完成一些功能或动作涉及一个或多个配置有所编程的指令的控制器或处理器，所述指令用于实现实施功能或动作或者运行一个或多个组件以实施功能或动作的过程。为了阐明的目的，参照图1的视频监视系统100来描述过程450。

当视频监视系统100向人员运行者示出低兴趣事件的视频和传感器数据时，过程450开始(方框454)。如以上参照过程200所描述的那样，分析系统130通常向移动电子设备116或者监视终端120发送相应于高兴趣事件的视频数据。然而在另一运行模式中，视频回放与字典更新模块160选择视频和传感器数据134的部分用于由人员运行者的回放。在一种配置中，所选择的视频和传感器数据包括随机选择的低兴趣事件。人员运行者回放视频的短的区段，所述短的区段通常持续数秒或者数分钟以防止人员运行者失去对在视频数据中所示出的事件的注意力。如果人员运行者确认视频和传感器数据中的每一个事件是低兴趣事件(方框458)，则分析系统130保留当前的事件字典数据138以便辨识视频和传感器数据中的高优先级事件和低优先级事件(方框470)。

在一些情形中，人员运行者确定，低兴趣事件实际上是被不正确地分类的高兴趣事件(方框458)。在视频监视系统100中，人员运行者通过移动电子设备116或者监视终端120中的GUI或者其它输入界面提供输入，以便说明先前所辨识的低兴趣事件应当被分类为高兴趣事件。当用于生成事件字典的训练数据包括与假阴性事件相似的一个或多个事件时，通常发生假阴性的辨识。因为可以从字典中的基向量以相当小的误差来估计用于假阴性事件的元数据的特征向量，所以分析系统130将所述事件不正确地分类为低兴趣事件。

响应于表明低兴趣事件实际上是高兴趣事件的信号的接收，视频回放与字典更新模块160辨识事件字典数据138中的相应于所辨识的事件的特征向量的一个或多个基向量(方框462)。为了辨识相应于用于假阴性事件的特征向量的基向量，视频回放与字典更新模块160首先由原始训练数据中的事件的元数据来辨识特征向量X_s，所述特征向量与所辨识的假阴性事件的特征向量X_t最相似。在一个实施例中，视频回放与字典更新模块160通过在使用借助数据字典138的惩罚优化过程的情况下由特征向量X_t生成的稀疏权重向量和与训练数据142一起存储在数据存储系统132中的训练特征向量的稀疏权重向量的相关联来辨识特征向量X_s。视频回放与字典更新模块160在使用惩罚优化过程、例如以上参照图2中的方框216的处理所描述的优化过程的情况下生成分别相应于观察特征向量X_t和X_s的稀疏权重向量和随后，视频回放与字典更新模块160通过稀疏权重向量之间的元素关联来查找元素。所述关联是具有与稀疏权重向量和相同维度的另一向量。因为稀疏权重向量分别具有相应于事件字典中的基向量的数量的维度，关联向量中的每一个元素也相应于事件字典中的基向量中的一个。例如，如在图8中所示出的那样，关联向量具有稀疏权重向量712的维度N并且所述关联向量的每一个元素相应于事件字典732中的N个基向量中的一个。在所述关联向量中，索引I处的具有关联向量中的所有元素的最大值的元素相应于事件字典中的N个基向量中的基向量B_I。

在辨识相应于关联向量中在索引I处的最大值元素的基向量B_I之后，视频回放与字典更新模块160将所辨识的特征向量B_I从事件字典138中删除(方框466)。一旦从事件字典中删除基向量B_I，字典就生成用于随后的事件的估计的特征向量，所估计的特征向量具有与假阴性的事件相似的元数据特征向量，而没有所删除的基向量B_I的益处。在没有基向量B_I的情况下，估计的特征向量具有较大的误差，所述误差增大事件监视系统150将新事件辨识为高兴趣事件而不是低兴趣事件的可能性。除将基向量从字典中删除以外，分析系统130也从存储在训练数据142中的稀疏权重向量中删除相应的项，并且用于随后事件的特征向量的惩罚优化过程生成具有相应于字典138中的基向量的新数量的维度的稀疏权重向量。在过程450描述从事件字典中删除单个基向量期间，一个替代的实施例借助与假阴性事件的特征向量的强烈关联来辨识训练数据中的两个或更多个事件的特征向量，并且视频回放与字典更新模块160从事件字典138中删除两个或更多个基向量。

过程400和450使得人员运行者能够提高在视频监视系统100中探测的准确性。在用于生成事件字典138的基线训练以自主的方式实施期间，事件监视系统100还使得人员反馈能够减少视频数据中的不同事件的假阳性和假阴性分类的发生。因此，视频监视系统100训练事件字典以便辨识高兴趣事件和低兴趣事件，而不需要消耗大量时间并且遭受人员误差的广泛的人员输入。然而，视频监视系统100使得人员运行者能够提高在所选择的情形中事件分类的准确度，其中专注的人员运行者能够以比自主的事件分类过程更高的准确性来分类特定事件。

在视频监视系统的运行期间，人员运行者通常回放相似事件的视频和传感器数据。例如，交通监视系统的运行者搜索最新的事件，其中车辆以主导交通的相反方向在道路上行驶。在传统的视频监视系统中，相似事件的搜索通常需要手动地回放长的视频区段。手动的搜索是耗时的并且人员运行者可能在手动回放期间忽视相关事件。图5示出索引过程500，所述索引过程使得视频监视系统100能够辨识所记录的视频和传感器数据中的相似事件，以便能够有效地检索相应于相似事件的视频区段。在以下的描述中，参照过程500实施或者完成一些功能或动作涉及一个或多个配置有所编程的指令的控制器或处理器，所述指令用于实现实施功能或动作或者运行一个或多个组件以实施功能或动作的过程。为了阐明的目的，参照图1的视频监视系统100来描述过程500。

在过程500中，索引过程接收由相应于视频和传感器数据中的大量事件的元数据生成的特征向量(方框504)。在分析系统130中，事件索引模块162配置用于接收在事件特征提取模块154中所生成的元数据特征向量。附加地，事件索引模块访问事件元数据和特征向量136，所述特征向量与在所归档的视频和传感器数据134中的所辨识的事件相关联地存储在数据存储系统132中。事件索引模块162生成事件搜索索引140，所述事件搜索索引在使用事件的特征向量作为输入数据的情况下关联相似的事件。在一个实施例中，当分析系统130辨识出视频和传感器数据中的新事件时，事件索引模块162更新事件搜索索引140。在另一实施例中，事件搜索索引140将相应于小数量的最大非零值的索引编号存储在相应于所索引的特征向量中的每一个的稀疏权重向量中。在一个替代的实施例中，包括相同的稀疏权重索引中的一些或者所有的所观察的事件的特征向量被认为是相似的。例如，如果惩罚优化过程生成用于两个包括索引A，B和C处的最大权重值的观察特征向量的稀疏权重向量，则用于两个观察特征向量的重建估计的特征向量包括相应于索引A，B和C的基向量。因此，所得到的用于两个观察特征向量的估计的特征向量是相似的并且搜索索引根据相似的稀疏权重向量值将两个观察特征向量彼此关联。

再次参照图5，过程500以相应于视频和传感器数据中的事件的所辨识的特征向量的估计的特征向量的生成继续(方框508)。在分析系统130中，在使用事件字典138的情况下以与以上参照图2中的方框216的处理所描述的那样相同的方式来生成估计的特征向量。在一个实施例中，数据存储系统132中的特征向量数据136包括与每一个事件的每一个观察特征向量相关联的稀疏权重向量，从而事件监视系统150对于每一个事件仅仅需要生成估计的特征向量一次。

当事件索引模块162辨识相应于所辨识的事件中的每一个的估计的特征向量之间的差来寻找相似的估计的特征向量时，所述过程500继续(方框512)。事件索引模块162辨识估计的特征向量之间的差以辨识具有小差异的相似的估计的特征向量的组并且在具有大差异的不相似的估计的特征向量之间进行区分。在一个实施例中，事件索引模块162利用聚类过程将相似的事件分组成聚类。在一个实施例中，事件索引模块162辨识先前所辨识的估计的特征向量的聚类，所估计的特征向量具有与新辨识的事件的估计的特征向量的最大相似度。当辨识出新的事件时，事件索引模块162更新所聚类的信息。

过程500以相似事件的索引基于相似稀疏权重向量的所辨识的组的生成继续(方框516)。在数据存储系统132中，事件搜索索引140包括用于在视频和传感器数据134中所辨识的每一个事件的唯一标识符。事件搜索索引使每一个事件与具有相似的估计的特征向量的其它事件相关联。一旦事件索引模块162辨识出相似的事件，则在使用例如由数据库索引服务的情况下生成事件搜索索引，所述数据库索引服务由商业上可供使用的数据库管理系统提供。

一旦过程500生成并且更新事件搜索索引，则分析系统130响应于从移动电子设备116或者监视终端120所接收的查询来检索用于相似事件的视频和传感器数据(方框520)。例如，人员运行者在使用监视终端120的情况下回放视频拍摄并且为了进一步回放在使用GUI的情况下输入查询来请求相似事件的视频拍摄的实例。分析系统130接收所述请求并且在事件搜索索引140中辨识相似事件。分析系统130检索相应于所述相似事件的视频和传感器数据134以便通过监视终端120回放。在一些实施例中，所述请求说明相似事件的视频区段应当以按年的顺序或者根据在不同事件的估计的特征向量之间所辨识的相似程度来排列。

应当理解，上述变型方案及其他特征和功能或者其替代方案由此可以期望地组合到多个其他不同的系统、应用或者方法中。可能随后由本领域技术人员所做出的各种目前没有预见到或没有预料到的替代方案、修改方案、变形方案或者改进方案也旨在由以下权利要求包含。

Claims

1.一种用于监视视频数据的方法，所述方法包括：

辨识事件的特征向量，所述特征向量具有相应于对象在视频数据中的位置和运动方向中的至少一个的数据；

在使用包括多个基向量的字典的情况下生成相应于所述特征向量的估计的特征向量，生成估计的特征向量进一步包括：

借助所辨识的特征向量和所述字典中的多个基向量实施惩罚优化过程，以便生成相应于所辨识的特征向量的稀疏权重向量，所述稀疏权重向量包括多个元素，其中，每一个元素相应于所述字典中的一个基向量；以及

由所述字典中的多个基向量的加权和生成所估计的特征向量，所述多个基向量相应于所述稀疏权重向量中的具有非零权重值的元素；

辨识所估计的特征向量和所辨识的特征向量之间的误差；

响应于所辨识的误差超过一个阈值，辨识所述视频数据中的高兴趣事件；

仅仅响应于所辨识的误差超过所述阈值，在视频输出设备上显示包括所述高兴趣事件的所述视频数据；

从所述视频输出设备接收表明所显示的视频数据不包括高兴趣事件的第一信号；以及

响应于所述第一信号的接收，更新所述字典，所述字典的更新进一步包括：

基于稀疏权重向量生成修改的稀疏权重向量，以将稀疏权重向量中的小于预确定的阈值的任何值设为零；

由字典中的相应于所述修改的稀疏权重向量中的具有非零权重值的元素的多个基向量的另一加权和生成另一估计的特征向量；

基于事件的特征向量与另一估计的特征向量之间的差生成附加的基向量；以及

将所述附加的基向量包括在所述字典中。

2.根据权利要求1所述的方法，所述特征向量还包含：

相应于所述对象在所述视频数据中的运动速度的数据。

3.根据权利要求1所述的方法，所述特征向量还包含：

相应于所述对象在所述视频数据中的大小的数据。

4.根据权利要求1所述的方法，所述特征向量还包含：

相应于所述对象在所述视频数据中存在的时间长度的数据。

5.根据权利要求1所述的方法，所述方法还包括：

响应于所辨识的误差在所述阈值以下，辨识所述视频数据中的低兴趣事件；

显示包括所述低兴趣事件的视频数据；

接收表明所显示的视频数据中的所述低兴趣事件是高兴趣事件的信号；

响应于所述信号的接收，更新所述字典。

6.根据权利要求5所述的方法，所述字典的更新还包括：

辨识所述字典中的相应于所述对象的特征向量的基函数；

将所辨识的基函数从所述字典中移除。

7.根据权利要求1所述的方法，所述特征向量中的相应于所述对象的位置的数据还包括：

相应于所述对象在所述视频数据中的二维位置坐标的直方图。

8.根据权利要求1所述的方法，所述特征向量中的相应于所述对象的运动方向的数据还包括：

相应于所述对象在所述视频数据中的运动方向的直方图。

9.根据权利要求1所述的方法，所述方法还包括：

接收多个训练特征向量，所述多个训练特征向量相应于多个对象中的每一个在训练视频数据中的位置和运动方向中的至少一个；

生成多个包括随机项的训练基向量和多个包括随机项的稀疏权重向量，所述多个稀疏权重向量中的每一个权重向量相应于所述多个基向量中的一个基向量；

借助所述多个训练特征向量、所述多个训练基向量和所述多个稀疏权重向量实施优化过程以便生成所述字典中的多个基向量，所述字典中的所述多个基向量和所述稀疏权重向量中的每一个配置用于以小于一个预确定的最大误差地生成相应于所述多个训练特征向量中的一个的估计的特征向量。

10.根据权利要求9所述的方法，其中，所述优化过程是惩罚优化过程。

11.根据权利要求9所述的方法，所述方法还包括：

由所述字典中的所述多个基向量和所述多个稀疏权重向量生成多个估计的特征向量，每一个估计的特征向量相应于所述多个训练向量中的训练向量的一个；

辨识所述多个所估计的特征向量中的每一个所估计的特征向量和所述多个训练特征向量中的相应的训练特征向量之间的多个误差；

参照所述多个误差中的最大误差来辨识所述阈值，以便辨识高兴趣事件。

12.根据权利要求1所述的方法，所述方法还包括：

辨识相应于多个事件的多个特征向量，所述多个特征向量包括相应于多个对象在视频数据中的位置和运动方向中的至少一个的数据；

在使用所述字典的情况下生成相应于所述多个特征向量的多个估计的特征向量；

辨识所述多个估计的特征向量中的多个组，每一个组包括多个具有至少一个预确定的相似度水平的特征向量；

生成包括多个事件的索引，所述索引相应于估计的特征向量的所辨识的组中的一个，所述索引使所述多个事件中的每一个事件与相应的视频数据相关联，以便在所述视频输出设备上显示相应于所述多个事件的视频数据。

13.一种视频监视系统，所述视频监视系统包括：

配置用于生成事件的视频数据的摄像机，在所述视频数据中每一个事件包括一个对象；

配置用于显示由所述摄像机生成的视频数据的部分的视频输出设备；

与所述摄像机、所述视频输出设备和存储器操作性地连接的处理器，所述处理器配置用于：

辨识事件的特征向量，所述特征向量包含相应于对象在从所述摄像机接收的视频数据中的位置和运动方向中的至少一个的数据；

在使用存储在所述存储器中的包括多个基向量的字典的情况下生成相应于所述特征向量的估计的特征向量，所述处理器还配置用于：

借助所辨识的特征向量和所述字典中的多个基向量实施惩罚优化过程，以便生成相应于所辨识的特征向量的稀疏权重向量，

所述稀疏权重向量包括多个元素，其中，每一个元素相应于所述字典中的一个基向量；以及

辨识所估计的特征向量和所述特征向量之间的误差；

仅仅响应于所辨识的误差超过所述阈值，在所述视频输出设备上显示包括所述高兴趣事件的视频数据；

响应于所述第一信号的接收，更新所述字典，所述处理器还配置用于：

将所述附加的基向量包括在所述字典中。

14.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

辨识所述事件的特征向量，所述特征向量具有相应于所述对象在所述视频数据中的运动速度的数据。

15.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

辨识所述事件的特征向量，所述特征向量具有相应于所述对象在所述视频数据中的大小的数据。

16.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

辨识所述事件的特征向量，所述特征向量具有相应于所述对象在所述视频数据中存在的时间长度的数据。

17.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

响应于所辨识的误差位于所述阈值以下，辨识所述视频数据中的低兴趣事件；

显示包括所述低兴趣事件的视频数据；

响应于所述信号的接收，更新所述字典。

18.根据权利要求17所述的视频监视系统，所述处理器还配置用于：

辨识所述字典中的基函数，所述基函数相应于所述对象的特征向量；

从所述存储器中的所述字典中移除所辨识的基函数。

19.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

生成相应于所述对象在所述视频数据中的二维位置坐标的直方图；

参照相应于所述对象在所述视频数据中的二维位置坐标的直方图生成所述特征向量。

20.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

生成相应于所述对象在所述视频数据中的运动方向的直方图；

参照相应于所述对象在所述视频数据中的运动方向的直方图生成所述特征向量。

21.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

生成多个训练特征向量，所述多个训练特征向量相应于多个对象中的每一个对象在存储在所述存储器中的训练视频数据中的位置和运动方向中的至少一个；

借助所述多个训练特征向量、所述多个训练基向量和所述多个稀疏权重向量来实施优化过程，以便生成所述字典中的多个基向量，所述字典中的多个基向量和所述稀疏权重向量中的每一个配置用于以小于一个预确定的最大误差地生成相应于所述多个训练特征向量中的一个的估计的特征向量；

将用于所述字典的多个基向量存储在所述存储器中。

22.根据权利要求21所述的视频监视系统，其中，所述处理器实施惩罚优化过程来生成用于所述字典的多个基向量。

23.根据权利要求21所述的视频监视系统，所述处理器还配置用于：

由所述字典中的多个基向量和所述多个稀疏权重向量生成多个估计的特征向量，每一个估计的特征向量相应于所述多个训练向量中的一个训练向量；

辨识所述多个估计的特征向量中的每一个估计的特征向量和所述多个训练特征向量中的相应的训练特征向量之间的多个误差；

参照所述多个误差中的最大误差来辨识所述阈值；

将所辨识的阈值存储在所述存储器中以辨识高兴趣事件。

24.根据权利要求13所述的视频监视系统，所述处理器还配置用于：

辨识相应于多个事件的多个特征向量，所述多个特征向量具有相应于多个对象在视频数据中的位置和运动方向中的至少一个的数据；

生成包括多个事件的索引，所述索引相应于估计的特征向量的所辨识的组中的一个，所述索引将所述多个事件中的每一个事件与相应的视频数据相关联，以便在所述视频输出设备上显示相应于所述多个事件的视频数据。