CN104303193A

CN104303193A - 基于聚类的目标分类

Info

Publication number: CN104303193A
Application number: CN201280065011.7A
Authority: CN
Inventors: 朱红卫; 法曾·艾格达斯; 格雷格·米勒
Original assignee: Pelco Inc
Current assignee: Pelco Inc
Priority date: 2011-12-28
Filing date: 2012-12-12
Publication date: 2015-01-21
Anticipated expiration: 2032-12-12
Also published as: US20130170696A1; EP2798578A2; WO2013101460A3; CN104303193B; US8744125B2; WO2013101460A2

Abstract

根据本公开的用于识别在视频内容中的目标的一种方法示例包括：接收被摄像机捕捉的场景的视频内容；检测在视频内容中的目标；识别目标在一系列帧的视频内容上沿着的踪迹；将关于目标的目标特征从视频内容中提取出来；和基于目标特征对目标进行分类。对目标进行分类还包括：使用空间不变目标特征确定关于目标的跟踪级别分类；使用空间变化特征确定关于目标的全局聚类分类；和基于关于目标的跟踪级别分类和关于目标的全局聚类分类确定关于目标的目标类型。

Description

基于聚类的目标分类

背景

视频监控系统用于捕捉大量公共场所、私人场所和政府场所的视频内容。例如，视频监控系统通常用于飞机场、火车站、商店和购物中心、工厂和有人、车辆等出现的其它场所。相机可以捕捉大量的视频内容并且内容可以被监控系统进行记录和存储一段时间，使得曾经出现的人和车辆等可以被识别。手动搜索记录的被视频监控系统捕捉的视频内容可能是极其劳动密集和耗费时间的。视频分析算法已经被开发出，其可以用于将高级别的信息从已经开发出来的摄像机捕捉的视频内容中提取出来。视频分析算法可以用于在这个已经被捕捉的视频内容中识别目标。如果用户想能够在视频内容上进行搜索，在视频内容中的目标必须是被识别的和分类的。例如，用户可能希望搜索显示在预定一段时间期间车辆进入或离开工厂的视频内容。如果例如车辆和人的目标已经在捕捉的视频内容中被识别，那么搜索算法可以被用于识别潜在的相关内容，而不需要用户手动检查在感兴趣期间捕捉的所有视频内容。

视频分析算法可以帮助自动进行目标分类。目标分类可以包括一些方面：(1)特征计算和(2)基于特征的分类。一般而言，各种目标特征可以被用于目标分类。目标分类的常规方法的示例可以在授予Venetianer等人的名称为“Spurious Object Detection in a Video Surveillance System”的美国专利7,391,907中找到，其论述了使用关于目标特征的整套度量的系统，包括：形状一致性度量、大小一致性度量、大小度量、结构一致性度量、颜色一致性度量、速度一致性度量、移动方向一致性度量、显著移动度量、绝对移动度量和持续移动度量。在没有相机校准信息的情况下，有效考虑到关于目标分类的所有这些度量是非常困难的。因此，仅仅少数选择的特征被经常在实际应用中使用。通常在常规系统中使用的特征是目标大小和目标纵横比(高度与宽度的比例)和目标形状。例如，人的目标纵横比和汽车的目标纵横比通常是非常不同的，并且可以用作判别特征以在视频内容中的人和汽车之间进行区分。目标纵横比可以视作简化的形状特征，如果它被看作目标的拟合椭圆的长轴长度和目标的拟合椭圆的短轴长度的比值的近似。

在计算机视觉领域，关于目标检测、分类越来越对复杂的特征感兴趣，包括，小波(即，哈尔特征)、视觉词袋、尺度不变特征变换(SHIFT)特征(或其简化版本SURF)、HoF(光流直方图)、HoG(梯度方向直方图)。这些特征已经被证明在包括视频监控的广阔应用范围中理论上有效。然而，可能由于复杂、效率低下或者不适合，到目前为止在视频监控领域很少有使用这些特征的实用的系统的存在。

公布的Brown等人的名称为“Video Object classification”的美国专利申请号US2010/0054535A1讨论了，计算关于视频序列上的每个被跟踪目标的梯度方向直方图(HoG)的差值，和监视车辆和人之间的变形级别(人的变形级别被认为高于车辆的变形级别)、并且通过最大后验(MAP)方法对被跟踪目标进行分类。这种方法要求被跟踪和分类的目标具有相当大的尺寸以容许直方图的计算，其不适合于其中目标是小的或者目标远离相机的应用。这种方法要求校准信息。此外，由于MAP的使用，在一开始就需要关于每个目标类型的场景上的可能性和先验概率，这对涉及大量相机的许多监控应用其是不切实际的。此外，这种方法并不对目标进行分类直到对目标的跟踪完成，即正当目标消失时。因此，这种方法不适用于对需要对目标类型进行实时报警的应用。

在目标类型分类中，主要存在两类用于视频监控应用的方法：非基于学习型和基于学习型，其被应用于一组选定的目标特征。非基于学习分类器假定用于每个感兴趣的目标类型的选定特征的可用粒度，并且计算在特征值和参考(原形)值之间的距离并做出相应的分类决定。非基于学习分类器易于对相机的设置、采光和图像噪声中的变化敏感，并且当运用到视频监控应用时可能设置系统规定的参数。

基于学习的分类器包括监督方法和非监督方法。监督方法(例如最近邻、神经网络和支持向量机)要求训练关于每一类的数据。训练过程可能使耗时的并且要求对监控相机中的每一个实施离线。为了使得现有分类器对系统中涉及的变化起作用，例如由于移动、光照条件、视频噪声或添加新的目标特征，需要用于监督方法的新的或附加的训练过程。这可能限制基于学习的分类器的应用为通常在处理功率和存储器方面具有限制资源的基于边缘设备的视频应用。

例如自组织映射(SOM)、自适应共振理论(ART)网络的无监督方法不需要训练数据。该种方法能动态建立分类器，并且这种类型的分类器提供比监督和非学习方法两者更好的适应性，但是非监督方法能遭受在目标分类中的漂移的问题，并且需要特别的小心以防止在目标分类中的漂移的发生。

公布的Cobb等人的名称为“Visualizing and Updating Classification in aVideo Surveillance System”的美国专利申请号2011/0050897A1讨论了通过将自适应共振理论(ART)网络应用到从自组织映射(SOM)神经网络产生的节点的目标分类的方法。SOM-ART网络处理像素级微观特征以自适应学习和组织微观特征为目标类型聚类。这是非监督学习方法，并且不需要训练数据。除了在处理功率和存储器方面的它的高资源的要求之外，这种方法不能提供有效的方式来利用重要属性：被跟踪的目标在现场具有相同的目标类型。此外，它需要手动分配以从产生的聚类映射到有意义的目标类型。

概要

根据本公开的用于识别在视频内容中的目标的示例方法包括：接收由摄像机捕捉的场景的视频内容；检测在视频内容中的目标；识别目标在一系列视频内容的帧上遵循的踪迹；从视频内容中提取关于目标的目标特征；以及基于目标特征对目标进行分类。对目标进行分类还包括：使用空间不变的目标特征确定关于目标的跟踪级别分类；使用空间变化特征确定关于目标的全局聚类分类；并且基于关于目标的跟踪级别分类和关于目标的全局聚类分类确定关于目标的目标类型。

实现这样的方法可以包括一个或多个以下特征。确定关于目标的跟踪级别分类还包括：基于与目标相关联的纵横比确定关于目标的跟踪级别分类。确定关于目标的跟踪级别分类还包括：基于与目标相关联的纵横比和与目标相关联的定向纵横比确定关于目标的跟踪级别分类。确定关于目标的跟踪级别分类包括：构建与关于被跟踪的目标的纵横比相关联的定向聚类；和构建与关于被跟踪的目标的定向纵横比相关联的定向聚类；和基于与纵横比相关联的定向聚类和与定向纵横比相关联的定向聚类确定关于目标的跟踪级别分类；和基于跟踪级别分类更新关于被跟踪的目标的跟踪级别分类结果的直方图。确定关于目标的全局聚类分类还包括基于目标的大小确定关于目标的全局聚类分类。确定关于目标的全局聚类分类还包括：更新关于被持续被跟踪的目标访问的位置的目标大小的本地模型；通过将全局聚类与本地模型相关联更新全局聚类，本地模型具有与全局聚类相关联的目标大小匹配的目标大小并且被持续被跟踪的目标访问。更新全局聚类包括：更新与相匹配的目标相关联的跟踪级别分类结果的直方图；基于匹配的目标更新定向聚类，定向聚类与被跟踪目标的定向纵横比和纵横比相关联；创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突；，并创建聚类-类型映射以将全局聚类转换为确定的目标类型。确定目标是否已经在一个方向连续移动了至少预定阈值距离，并且如果目标已经移动的距离还没有大于预定阈值距离，基于关于目标的全局聚类分类而不是基于关于目标的跟踪级别分类确定关于目标的目标类型。

根据本公开的被配置为识别在被摄像机捕捉的视频内容中的目标的监控系统示例包括：用于接收被摄像机捕捉的场景的视频内容的装置；用于检测在视频内容中的目标的装置；用于识别目标在一系列帧的视频内容上遵循的踪迹的装置；用于从视频内容中提取出关于目标的目标特征的装置；和基于目标特征对目标进行分类的装置。对目标进行分类包括：用于使用空间不变的目标特征确定关于目标的跟踪级别分类的装置；用于使用空间变化特征确定关于目标的全局聚类分类的装置；和用于基于关于目标的跟踪级别分类和基于关于目标的全局聚类分类确定关于目标的目标类型的装置。

这样的监控系统的实现可以包括一个或多个以下特征。用于确定关于目标的跟踪级别分类的装置还包括：用于基于与目标相关联的纵横比确定关于目标的跟踪级别分类的装置。用于确定关于目标的跟踪级别分类的装置还包括用于基于与目标相关联的纵横比和与目标相关联的定向纵横比确定关于目标的跟踪级别分类的装置。用于确定关于目标的跟踪级别分类的装置包括：用于构建与关于被跟踪的目标的纵横比相关联的定向聚类的装置；用于构建与被跟踪的目标的定向纵横比相关联的定向聚类的装置；和用于基于与纵横比相关联的定向聚类和与定向纵横比相关联的定向聚类确定关于目标的跟踪级别分类的装置；和用于基于跟踪级别分类更新关于被跟踪的目标的跟踪级别分类结果的直方图的装置。用于确定关于目标的全局聚类分类的装置包括用于基于目标大小确定关于目标的全局聚类分类的装置。用于确定关于目标的全局聚类分类的装置包括：用于更新关于被持续被跟踪的目标访问的位置的目标大小的本地模型的装置；用于通过将本地模型与全局聚类相关联更新全局聚类的装置，本地模型具有与全局聚类相关联的目标大小匹配的目标大小并且被持续被跟踪目标访问。用于更新全局聚类的装置包括：用于更新与相匹配的目标相关联的跟踪级别分类结果的直方图的装置；用于基于相匹配的目标更新定向聚类的装置，定向聚类与被跟踪目标的定向纵横比和纵横比相关联；用于创建关于每个全局聚类的目标大小的特征映射，以解决在全局聚类合并中的冲突的装置；和用于创建聚类-类型映射以将全局聚类转换为确定目标类型的装置。用于确定所述目标是否已经在一个方向连续移动至少预定阈值距离的装置；和用于如果目标移动的距离没有大于预定阈值距离，基于关于目标的全局聚类分类而不是基于关于目标的跟踪级别分类确定关于目标的目标类型的装置。

根据本公开的被配置为识别在被摄像机捕捉的视频内容中的目标的监控系统的示例包括：有形的、非暂时性计算机可读存储器、存储在存储器中的包含处理器可执行代码的多个模块、连接到存储器和被配置为访问存储在存储器中的多个模块的处理器、视频处理模块。视频处理模块被配置为：接收被摄像机捕捉的场景的视频内容；检测在视频内容中的目标；识别目标在一系列帧的视频内容上遵循的踪迹；将关于目标的目标特征从视频内容中提取出来；并基于目标特征对目标进行分类。为了对目标进行分类，视频处理模块还被配置为：使用空间不变目标特征确定关于目标的跟踪级别分类；使用空间变化特征确定关于目标的全局聚类分类；和基于关于目标的跟踪级别分类和关于目标的全局聚类分类确定关于目标的目标类型。

这样的监控系统的实现可以包括一个或多个以下特征。被配置为确定关于目标的跟踪级别分类的视频处理模块还被配置为基于与目标相关联的纵横比确定关于目标的跟踪级别分类。被配置为确定关于目标的跟踪级别分类的视频处理模块还被配置为基于与目标相关联的纵横比和与目标相关联的定向纵横比确定关于目标的跟踪级别分类。被配置为确定关于目标的跟踪级别分类的视频处理模块还被配置为：构建与关于被跟踪的目标的纵横比相关联的定向聚类；和构建与关于被跟踪的目标的定向纵横比相关联的定向聚类；和基于与纵横比相关联的定向聚类和与定向纵横比相关联的定向聚类确定关于目标的跟踪级别分类；和基于跟踪级别分类更新关于被跟踪的目标的跟踪级别分类结果的直方图。被配置为确定关于目标的全局聚类分类的视频处理模块还被配置为基于目标大小确定关于目标的全局聚类分类。被配置为确定关于目标的全局聚类分类的视频处理模块还被配置为：更新关于被持续被跟踪的目标访问的位置的目标大小的本地模型，通过将本地模型与全局聚类相关联更新本地聚类，本地模型具有与全局聚类相关联的目标大小匹配的目标大小并且被持续被跟踪的目标访问。被配置为更新全局聚类的视频处理模块还被配置为：更新与相匹配目标相关联的跟踪级别分类结果的直方图；基于相匹配的目标更新定向聚类，定向聚类与被跟踪的目标的定向纵横比和被跟踪目标的纵横比相关联；创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突；和创建聚类-类型映射以将全局聚类转换为确定的目标类型。视频处理模块还被配置为：确定目标是否已经在一个方向连续移动至少预定阈值距离；和如果目标已经移动的距离没有大于预定阈值距离，基于目标的全局聚类分类而不是基于目标的跟踪级别分类确定关于目标的目标类型。

根据本公开的具有在其上存储有识别在视频内容中的目标的计算机可读指令的有形的计算机可读介质的示例包括被配置为引起计算机执行以下操作的指令：接收被摄像机捕捉的场景的视频内容；检测在视频内容中的目标；识别目标在一系列帧的视频内容上遵循的踪迹；将关于目标的目标特征从视频内容中提取出来；和基于目标特征对目标进行分类。对目标进行分类的指令包括实现以下操作的指令：使用空间不变目标特征确定关于目标的跟踪级别分类；使用空间变化特征确定关于目标的全局聚类分类；和基于关于目标的跟踪级别分类和关于目标的全局聚类分类确定关于目标的目标类型。

这样的监控系统的实现可以包括一个或多个以下特征。引起计算机确定关于目标的跟踪级别分类的代码还包括引起计算机基于与目标相关联的纵横比确定关于目标的跟踪级别分类的代码。引起计算机确定关于目标的跟踪级别分类的代码还包括引起计算机基于与目标相关联的纵横比和与目标相关联的定向纵横比确定关于目标的跟踪级别分类的代码。引起计算机确定关于目标的跟踪级别分类的代码还包括引起计算机进行以下操作的代码：构建与关于被跟踪目标的纵横比相关联的定向聚类；构建与关于被跟踪目标的定向纵横比相关联的定向聚类；基于与纵横比相关联的定向聚类和与定向纵横比相关联的定向聚类确定关于目标的跟踪级别分类；和基于跟踪级别分类更新关于被跟踪目标的跟踪级别分类结果的直方图。引起计算机确定关于目标的全局聚类分类的代码还包括引起计算机基于目标大小确定关于目标的全局聚类分类的代码。引起计算机确定关于目标的全局聚类分类的代码包括引起计算机执行以下操作的代码：更新关于被持续被跟踪目标访问的位置的目标大小的本地模型；通过将本地模型与全局聚类相关联来更新全局聚类，本地模型具有与全局聚类相关联的目标大小匹配的目标大小并且被持续被跟踪目标访问。更新全局聚类的代码还包括实现以下操作的代码：更新与相匹配的目标相关联的跟踪级别分类结果的直方图；基于相匹配的目标更新定向聚类，定向聚类与被跟踪目标的定向纵横比和被跟踪目标的纵横比相关联；创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突；和创建聚类-类型映射以将全局聚类转换为确定的目标类型。引起计算机确定以下内容的代码：确定目标是否已经在一个方向连续移动预定阈值距离；和如果目标已经移动的距离没有大于预定阈值距离，基于目标的全局聚类分类而不是基于目标的跟踪级别分类确定关于目标的目标类型。

附图简述

图1是可以用于实现本文公开的技术的视频监控系统100的框图。

图2是可以用于实现图1中示出的视频分析服务器的服务器的框图。

图3是可以用于实现图1中示出的摄像机的摄像机的框图。

图4是用于通过摄像机捕捉的视频内容中的目标分类的方法的流程图。

图5是示出了关于使用目标特征的目标分类的示例技术的步骤的框图。

图6是关于目标分类方法的流程图。

图7提供了示出了图6中示出的技术可以如何应用于传送目标的跟踪信息以获得全局聚类的示例。

图8是示出了全局聚类和本地模型之间的关系的示例图。

图9是示出了关于基于跟踪级别结果(在跟踪取得的目标类型方面)和全局聚类结果(在基于目标类型的聚类方面)确定最终目标分类结果的方法的流程图

图10A、图10B和图10C示出了示例特征映射。

图11A、图11B和图11C示出了示例目标分类结果。

详细描述

用于固定位置监控相机的基于聚类的目标分类的技术在本文进行了公开。确定出现在监控相机视野的目标的目标类型是被监控相机捕捉的视频内容的视频分析处理的重要方面。视频监控应用可以使用被检测的目标的目标类型以响应被检测的目标来确定监控系统应采用哪种处理和/或响应。例如，视频监控软件可以被配置触发警报以响应于在被监视的特定位置检测某些类型的目标。在一个示例中，视频监控软件可以被配置为检测有人在银行金库或其它限制区域的出现，其中出现人应该触发警报或向保安人员报警未经授权的出现。视频监控软件也可以被配置为搜索与特定类型目标相关的事件。例如，视频监控软件可以被配置为识别在特定位置出现和离开的大型卡车。在另一个示例中，视频监控软件可以被配置为对在零售店出现的人的数目进行计数或对在停车场的车辆的数目进行计数。

对在视频内容中的进行目标分类的常规方法需要花费用户的大量手工劳动。常规方法的有效性通常取决于预置参数，其必须被限定为与每个感兴趣的目标类型相关联的选择的特征。例如，这些参考值可以包括人、汽车、厢式货车或卡车的平均尺寸大小的大小和纵横比。为了使用这些参考值，通常做出某些假设。例如，在常规系统中视频监控软件通常需要相机的设置保持不变使得从视频内容中提取的关于目标的数据不会被场景中的噪声污染。即使轻微移动相机使得预置参考值无效，因为预置参考值可能不再与新的相机设置一致。

此外，大的阴影和反射能干扰常规技术对被监视的场景中的目标进行提取和分类。例如，用于检测在室外场景中的目标的一组参考值，例如，大小尺寸和纵横比的参数，在阴天起作用但是在晴天有可能不起作用，因为阴影可能引起在目标大小和纵横比方面与视频分析算法所考虑到的存在显著差异。在另一个示例中，针对白天场景选择的参考特征值可能不适用于夜间场景。来自过往车辆的灯光可能引起在由常规视频分析算法进行的目标检测中的误差。在目标特征中的大的改变也可以引起常规算法不能正确进行目标分类。

目标特征

本文公开的技术通过使用两种不同类型的视觉特征((1)空间变化特征，和(2)空间不变特征)对目标进行分类提供了改进的目标分类。空间变化特征相对于正在被监视场景内的目标位置而变化。空间变化特征的示例包括目标大小、宽度和高度。在许多视频监控应用中，相机被定向向下向前，意味着相机向下成一定的角度对着相机前面的场景(例如，如相对于面向垂直向下或垂直向上朝着场景)。由于场景的相机的透视图，空间变化特征例如目标大小、宽度、和高度能随着目标相对于相机移动而变化。空间不变特征是与随着在场景中的目标位置相对于相机变化而不发生变化的目标相关的特征。空间不变特征的示例包括目标的形状和目标的纵横比。

本文公开的目标分类技术能基于与从视频内容中提取的目标相关联的空间不变特征的跟踪级别总结(summarization)对目标进行分类。踪迹代表，从目标在相机的视野首次出现到目标在相机的视野消失的时间，在相机视野中的相同主体的可视目标的序列。在示例中，摄像机可以被定位以监视停车场，并且监控系统的视频分析算法，可以被配置为当汽车进入相机的视野时，基于纵横比、形状和/或其它不变特征来识别被相机捕捉的视频内容中的汽车。

使用观察到的不变特征，视频分析算法可以建立代表在被摄像机捕捉的视频内容的帧中检测的可视的目标的序列的踪迹。通过比较在两个帧中的目标的不变特征，视频分析算法可以通过识别在不同帧的视频内容中检测的可视目标之间的关联构建踪迹。如果可视目标的不变特征相匹配，那么在每个帧中的可视目标很有可能代表来自场景的相同目标。返回到其中汽车进入摄像机的视野的示例，视频分析算法可以构建代表汽车前进通过被摄像机捕捉的在一系列帧的视频内容上的正被监视的场景的踪迹。视频分析算法能识别在一系列帧的视频内容上代表汽车的可视目标，并通过比较可视目标的例如可视目标的纵横比和/或形状的不变特征来确定可视目标表示相同目标，进行确定那些可视目标代表相同目标，汽车。

本文公开的目标分类技术也可以通过场景级别目标聚类对目标进行分类。在视频内容中检测的可视目标可以通过确定目标属于哪种聚类进行分类。视频分析算法可以通过检查目标的空间变化特征将可视目标与聚类相关联。例如，目标大小、宽度、和高度可以用于确定目标属于哪种聚类。

本文公开的技术可以使用基于踪迹的分类和基于聚类的分类两者以提供关于在被摄像机捕捉的视频内容中识别的目标类型稳健决策。

本文公开的技术可以使用各种目标特征用于对进行目标分类，包括：(1)目标大小：代表在特定时间点的视频内容中的特定目标的区域(像素数)；(2)目标纵横比：目标的高度与目标的宽度的比值(高度和宽度可以表示为像素数)；和(3)目标定向纵横比：在垂直方向的目标长度与目标显著移动方向上在平行方向的目标长度的比值。关于目标的显著移动方向代表目标在一个方向上沿着连续移动显著距离的方向。在目标被认为已经移动了被认为是显著移动的足够距离之前，目标必须移动的阀值距离可以被限定用于每个实现。目标可以由边界框或其轮廓代表，其可以得出以上关于目标的三个特征。

系统图

图1是可以用于实现本文公开的技术的视频监控系统100的框图。视频监控系统100包括摄像机105。摄像机105被配置为捕捉场景视频，量化数据，并通过网络115将数据传送到视频分析服务器120。网络115可以包括一个或多个局域网(LAN)、广域网(WAN)、或其组合。网络115可以是因特网。视频分析服务器120可以被配置为执行视频分析算法，其实现在本文公开的用于对由摄像机105捕捉的视频内容中的被识别进行目标分类的技术。在图1中示出的示例中，视频监控系统100包括单个摄像机105，但是视频监控系统可包括多个摄像机105。

摄像机105可以被布置在要被监视的固定位置。例如，摄像机105可以布置在娱乐场所、商店、大型购物中心、政府设施、工业园区、飞机场、或通向被监控位置的其它位置。摄像机105可以安装在室内或室外，并且可以被配置为监视人、车辆交通、或移动穿过相机的视野的其它目标。典型的视频监控系统可以包括被放置在遍布开始被监视的设施的数以百计的相机。

视频分析服务器120可以位于和摄像机105相同的位置或远程位置。视频分析服务器120可以位于安全操作中心或位于不受天气和环境条件影响的位置的其他位置，但是摄像机105可以位于相机容易遭受热应力、风、雨、灰尘、烟、污染和其它环境条件的位置。

视频分析服务器120可以被配置为关于被摄像机105捕捉到视频内容执行视频分析算法。视频分析算法可以实现本文公开的用于对由摄像机105捕捉的视频内容中的被识别的目标进行分类的技术。视频分析算法可以被配置为建立正在被摄像机105监视的场景的背景的模型。场景的背景的模型可以由视频分析算法用于在接收来自摄像机的视频内容中的背景目标和前景目标之间进行区分。视频分析算法可以被配置为在初始化期间通过分析由摄像机105捕捉的视频内容构建背景模型以识别包含场景背景的目标。视频分析服务器120可以被配置为定期更新背景的模型。更新背景可以使得分析算法能够适应照明情况(例如白天和夜晚)的改变或天气情况(例如阴天和晴天)的改变。

例如，前景目标可以包括监控系统100被配置监视的人、车辆、或其它目标。由视频分析服务器120采用的分析算法也可以识别背景目标，例如岩石、树木、建筑物和是背景的一部分的和不应当触发警告的已经被检测的可疑目标的其它目标。分析算法可以从前景目标例如出现在场景中的人、动物或车辆中区分这样的背景目标。

分析算法也可以被配置为识别是背景的一部分的移动。例如，分析算法可以识别在风中移动的树木或在微风中摆动的旗帜并且可以从在前景中的移动区分这种移动。因此，分析算法可以在是前景的一部分的移动和是背景的一部分的移动之间进行区分，并允许分析算法识别潜在的威胁或感兴趣的事件而不会创建由在场景的背景中的移动引起的错误警报。

图2是图1中示出的视频分析服务器120的示例的框图。视频分析服务器120包括处理器205、存储器220、数据存储230、和网络接口240。存储器220包括网络接口模块222、视频处理模块224、和数据存取模块226。存储器220可以包括一种或多种类型的有形的、非暂时性的计算机可读存储器，例如随机存取存储器(RAM)、只读存储器(ROM)、闪存、或其组合。模块222、模块224、和模块226可以包括可以由处理器205执行的处理器可执行指令。

处理器205可以包括被配置为访问存储器220的一个或多个微处理器。处理器205可以从存储器220中读取数据和将数据写入到存储器220。处理器205也可以从存储器220中读取可执行程序代码并执行程序代码。

数据存储230可以包括可以被用于存储通过网络115从摄像机105接收的视频数据、量化数据、和/或其它相关数据的有形的、非暂时性存储器。数据存储230也可以用于存储由在存储器220中实现的各种模块产生的数据和/或接收来自摄像机105的视频内容。在替代实施方式中，数据存储230可以在存储器230中实现。

网络接口模块222可以被配置为通过网络接口240接收来自网络115的数据。网络接口模块222也可以被配置为通过网络115将信息传送到摄像机105或其它网络连接的设备。

视频处理模块224被配置为处理接收的来自摄像机105的视频内容。视频处理模块224可以被配置为从摄像机105接收视频内容和将视频内容存储在数据存储230中。

视频处理模块224可以将一种或多种视频分析算法应用于从摄像机105接收的视频内容。视频分析算法可以实现本文公开的目标分类技术。视频分析算法也可以被配置为识别事件，例如在正被监视的位置的人、车辆或动物的出现，并且对事件触发响应，例如，发出警报或触发继电器以执行一些动作，例如关门。

视频处理模块224也可以被配置为将来自摄像机105的视频内容存储在数据存储230中。视频处理模块224也可以被配置为将目标分类数据存储在数据存储230中。例如，视频处理模块224可以被配置为关于从摄像机105接收的视频内容执行视频分析算法以对在视频内容中发现的目标进行分类。视频处理模块224可以在数据存储230中存储与视频内容相关的目标类型以便于在存储的视频内容中搜索特定类型的目标。

数据存取模块226可以被配置为访问在数据230中存储的数据并且将数据写入到数据存储230。数据存取模块226可以被配置为从存储器220中读取数据和/或将数据写入存储器220。数据存储230可以用于访问由视频处理模块224根据从摄像机105接收的数据导出的存储的图像模型和存储的背景模型。

图3是在图1中示出的摄像机105的示例的框图。摄像机105包括处理器305、存储器320、图像传感器330、镜头335、和网络接口340。存储器320包括网络接口模块322和视频量化模块324。存储器320可以包括一种或多种类型的有形的、非暂时性计算机可读存储器，例如随机存取存储器(RAM)、只读存储器(ROM)、闪存、或其组合。模块可以包括可以被处理器305执行的处理器可执行指令。

镜头335被配置为捕捉从正被摄像机105监视的场景接收的光。镜头335可以将接收的光集中在图像传感器330上。

图像传感器330可以被配置为检测被镜头335捕捉的光。图像传感器330可以包括各种类型的图像传感器，例如数字电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)有源像素传感器。也可以使用其它类型的图像传感器。

处理器305可以包括被配置为访问存储器320的一个或多个微处理器。处理器305可以从存储器320中读取数据和将数据写入存储器320。处理器305也可以从存储器320中读取可执行程序代码并执行程序代码。存储器320可以包括一组模块，其包含可以被处理器305执行的可执行程序代码。

网络接口模块322被配置为通过网络接口340从网络115接收数据。网络接口模块322也可以被配置为通过网络115传送信息到视频分析服务器120或其它网络连接的设备。

视频量化模块324被配置为处理从图像传感器330接收的传感器数据以创建代表正被摄像机105监视的场景的视频内容。

视频量化模块324可以被配置为将高位视频内容转换为可以被由视频分析服务器120执行的视频分析算法处理的低位视频内容。例如，视频量化模块324可以被配置为将由热传感器产生的例如12位或16位数据的大于8位的视频数据转换为分析算法所期望的8位数据。

目标分类

图4是用于对由摄像机捕捉的视频内容进行目标分类的方法的流程图。视频内容的帧由摄像机(例如摄像机105)捕捉(阶段401)。捕捉的图像帧被处理为以对相机的视野的背景建模(阶段402)。可以被创建的背景的模型以识别在相机视野中的哪些项目属于背景和识别相机视野中的哪些项目在前景中。在背景中的项目，例如树木、岩石、标牌、家具、和不需要被视频分析算法进行跟踪或分类的其它这样的背景项目。各种技术可以被用于开发例如混合高斯模型、移动平均、和非参数方法的背景的模型。其它技术也可以被用于创建背景的模型。一旦已经开发出来背景的模型，前景像素则可以从被摄像机105捕捉的视频内容提取出来，并且前景像素然后可以聚集在一起以形成运动块(阶段403)。目标然后可以被在连续帧的视频内容上被跟踪(阶段404)，并且可以提取关于每个被跟踪目标的目标特征(阶段405)。然后可以使用被提取的目标特征对目标进行分类(阶段406)。

图5是示出了关于使用目标特征进行目标分类的示例技术的步骤的框图。方法包括目标跟踪(阶段501)，然后是基于目标大小的全局聚类(阶段502)和基于纵横比的跟踪级别分类(阶段503)。基于目标大小的全局聚类和基于纵横比的跟踪级别分类的结果然后融合为最终的目标类型决定(阶段504)。这些阶段中的每一个将在随后的附图中在示例中更加详细地进行描述。

对每个被跟踪的目标而言，当使用以下分类步骤时可以识别目标类型：(1)使用与目标相关联的目标大小信息确定目标属于哪个聚类；(2)使用显著移动方向的目标纵横比和定向目标纵横比识别目标类型(如果可能)；和(3)融合全局聚类和跟踪级别分类的结果以确定关于目标的目标类型。基于与已经出现在场景中的被跟踪目标相关联的目标大小识别全局聚类，并且全局聚类中的每一个可以被映射到某些类型的目标(例如，人、车辆或其它类型的目标)。聚类到目标类型的映射是自动完成的。用户不需要选择目标属于哪种聚类。

图6是关于目标分类方法的流程图。在图6中示出的方法可以被视频分析服务器120的视频处理模块224执行。方法包括两个主要部分，跟踪级别分类部分和基于全局聚类的分类部分。

方法开始于接收被摄像机105捕捉的视频的帧(阶段601)。摄像机105可以捕捉视频内容并通过网络115将视频内容传送到视频分析服务器120。

在场景中的目标然后可以被提取出和被跟踪(阶段602)。本领域的各种已知技术可以用于从接收的来自摄像机的视频的帧中提取和用于跟踪通过场景的被提取的目标。关于从连续帧的视频内容中提取的目标中的每一个可以保持历史轨迹。历史轨迹代表目标已经接管时间的路径。

然后可以做出确定是否存在还没有被处理的任何持续的目标踪迹(阶段603)。从视频内容中提取的目标中的每一个的历史轨迹可以被检查以确定目标是否有持续的踪迹。可以基于从帧到帧的目标的大小确定踪迹的持续。踪迹，可以基于目标是否仍然落入目标的平均大小的左右的预定范围内，而被识别为是持续的。目标的平均大小可以通过预定的帧的数量被计算出。例如，通过视频内容的至少最近的五个帧可以确定目标的平均大小。如果目标的大小保持恒定或帧到帧渐变(小于预定阈值)，目标被确定具有帧到帧的持续的踪迹。否则，如果目标大小中的变化超出阈值，踪迹被确定为是不持续的。目标将连续被跟踪，并且在后续帧的视频内容的上将开发新的平均值，但是，在这个点，出于目标分类的目的，可以作为噪声丢弃。一些摄像机以每秒三十帧的速度捕捉视频内容。例如，如果目标没有在最小数量的帧中出现，目标不太可能是场景中的真实物体并且可以作为噪声丢弃。

尚未被处理的持续目标踪迹(T)被选择(阶段604)，针对目标的当前位置是否支持目标纵横比和目标定向纵横比的更新做出确定(阶段605)。如果目标满足所有以下条件，则执行更新：1)目标已经出现在关于至少某些数量的帧(例如，5帧)的场景中；2)目标没有在场景的任何边界区域内，也没有邻近用户想要排除的任何区域；3)目标已经离开目标首次在场景中出现的位置至少预定距离；4)目标的大小已经被确定为是持续的。

如果目标的当前位置支持目标纵横比和目标定向纵横比的更新，目标的踪迹可以被检查以确定目标是否正在进行显著的移动(阶段606)。显著的移动是目标已经在一个方向上持续移动了至少预定阈值距离的移动。关于目标的显著移动方向代表目标已经持续移动显著距离所沿着的方向。目标可以或者由边界框或者由其轮廓来代表，并且边界框或者轮廓的位置可以帧到帧进行比较以确定目标是否已经做出了显著的移动。

如果目标没有做出显著的移动，目标的纵横比和目标的定向纵横比将不会被计算出，并且方法继续阶段603以进行处理下一个未处理的踪迹。如果目标没有做出显著的移动，目标在这个帧将不会被分类(因为在阶段604中它还没有被证明作为持续被跟踪的目标)。但是，目标不会被认为是背景的一部分，并且如果目标变得持续，目标将可以在以后的帧中被分类。

如果目标已经做出了显著的移动，计算出目标的纵横比(阶段608)并且计算出目标的定向纵横比(阶段609)。目标的纵横比是在二维图形帧中目标的高度与目标的宽度的比值。目标的定向纵横比代表就显著移动方向而言在垂直方向的目标的长度与在水平方向的目标的长度的比值。一些目标的纵横比可以随着目标方向的改变而改变。例如，如果在帧中车辆转弯并且开始或者向上移动或者向下移动，从左到右行驶穿过帧的车辆的纵横比可能改变。大多数的车辆长于它们的宽度。因此，车辆的纵横比很有可能取决于车辆行驶的方向而改变。当车辆水平移动穿过帧时，代表车辆的目标宽度很有可能大于高度，当车辆垂直沿着帧移动时，代表车辆的目标高度很有可能较大。然而，不考虑车辆在场景中移动的方向，车辆的定向纵横比很有可能保持恒定。作为对比，对于出现在被监控的场景中的人而言，人的纵横比很有可能显得相对恒定。不考虑人出现在场景中的地点或者人行进的方向，人的纵横比很有可能不会改变。然而，人的定向纵横比很有可能随着人改变运动的方向而改变。在目标的纵横比和目标的定向纵横比之间的差值可以用于帮助对目标进行分类。

踪迹(T)的定向聚类然后可以被用于对与目标相关联的纵横比信息(阶段611)和与目标相关联的定向纵横比信息(阶段610)进行更新。目标可以具有与目标的纵横比相关联的定向聚类和具有与目标的定向纵横比相关联的定向聚类。如果目标不具有关于与该目标相关联的纵横比的定向聚类，那么可以为该目标创建关于纵横比的定向聚类。此外，如果目标不具有关于与该目标相关联的定向纵横比的定向聚类，那么关于该目标的定向纵横比的定向聚类可以被创建。

定向聚类可以使用三高斯混合模型进行更新，其自动学习与目标的移动方向相关联的这两个纵横比的统计数据。例如，360度(从-180度到180度)的全方向范围可以被量化为18个容器，每个容器覆盖两个相反的10度范围(例如，第一方向容器在直角坐标系中范围从-5度到5度，和从-175度到175度)。每个方向容器可以具有三个高斯模型，每个高斯模型特征在于三个值：计数(概率)、平均值、和关于踪迹的显著移动方向的(定向)目标纵横比的标准差。

然后可以基于踪迹的定向聚类对目标进行分类(阶段613)。如果踪迹的定向聚类具有关于所有获得的方向容器(包括离垂直方向的大于45度的至少一个方向容器)的在预先设定范围(例如范围从2到5)内的相对相似的目标纵横比的平均值，则目标可以识别为人，因为不考虑目标的移动方向目标纵横比保持恒定。类似地，如果踪迹的定向聚类具有在所有获得的定向容器中在另一个预先设定范围(例如范围从0.25到0.5)中的相似的定向纵横比的平均值，则目标可以被识别为汽车。

然后可以使用目标的两个纵横比对目标进行分类(阶段613)。当使用目标的两个纵横比对目标进行分类时，可以更新跟踪级别分类结果的直方图。在这个直方图中具有最大计数的类别容器可以用于确定跟目标的踪级别分类的当前暂时结果。目标跟踪级别分类结果也可以用于更新目标(如果有的话)属于哪一个全局聚类的统计数据，其为包括跟踪级别分类结果的直方图和两个纵横比的定向聚类(阶段615)。跟踪级别分类结果可以用于将全局聚类映射到真实的目标类型。这种映射在下面进行详细讨论。全局聚类的形成也在下文进行详细讨论。

聚类处理也被执行以基于目标大小组合目标成聚类。聚类信息可以用于帮助对目标进行分类。聚类处理包括两种类型的聚类：网格级聚类和场景级聚类。对计算效率而言，相机的整个视野可以通过或者均匀缩小或者根据相机的远景信息(如果有的话)减小为网格阵列(网格映射)。例如，640x480像素的场景可以通过8x8缩小使用80x60网格映射来表示。在映射中的每个网格对应一个本地场景区域并且具有与该网格相关联的高斯混合模型。每当持续被跟踪的目标访问网格区域时，与该网格相关联的高斯混合模型可以用目标大小信息进行更新。

聚类处理开始于计算关于与踪迹(T)相关联的的目标的目标大小(阶段609)。与被目标访问的网格区域相关联的高斯混合模型可以基于与目标相关联的目标大小进行更新(阶段612)。

目标大小可以用于在踪迹的目标中心查找匹配的高斯模型(M)(阶段614)。当被跟踪的目标与在目标中心的位置的本地网格模型匹配时，踪迹和匹配的本地网格可以交互以初始化或更新全局聚类(阶段616)。在踪迹和本地网格模型之间的交互在下文进行详细的描述。

一旦被跟踪的目标与就其目标大小特征而言的全局聚类相匹配，目标被分配目标类型(阶段617)。通过现有的聚类到类型映射(如果有的话)给目标分配目标类型，并且得出尺寸大小的目标还与得出目标的跟踪级别的目标类型相结合为关于与目标相关联的确定的目标类型的最终分类决定(阶段618)。

建立全局聚类

图7提供了示出了图6中示出的技术可以如何被应用于传送目标的踪迹信息以获得全局聚类的示例。图7中示出的基于聚类的处理，是通过识别和维护在相机(场景)的整个视野上的目标大小的空间本地(本地)聚类进行操作的。这些本地聚类可以连接在一起或链接在一起以形成基于目标踪迹的全局聚类。在图7中示出的示例中，被跟踪的目标的踪迹(T)已经访问了四个网格(G1、G2、G3和G4)。网格G1、网格G2、网格G3和网格G4中的每一个具有与根据目标大小的三高斯模型表示的它们相关联的本地聚类。与踪迹T(由以粗线示出的峰表示)相匹配的那些模型形成全局聚类并且携带统计信息，例如，在被识别的网格区域中踪迹T属于的聚类的目标大小的概率、平均值和标准差。

更新全局聚类

本部分描述了用于可以与图4到图6中示出的方法一起使用的更新全局聚类的技术。如果网格落在距离踪迹的目标中心的预定距离内，则网格被认为是被踪迹“击中”。如果网格落在该预定距离内，则与该网格相关联的本地模型可以使用高斯混合模型的机理进行更新。

本部分重点介绍如何建立和维护关于被监视场景的全局聚类的列表。下文定义在本文使用的术语。已经被分配给全局聚类的目标踪迹(或本地模型)在本文被称为聚类踪迹(或聚类模型)。目标踪迹(或本地模型)持有踪迹所属的聚类的标识符。否则，如果踪迹(或本地模型)还没有被分配给全局聚类，那么目标踪迹(或本地模型)被称为非聚类目标踪迹(或非聚类模型)。

如果非聚类踪迹击中聚类模型，非聚类踪迹持有聚类模型的聚类标识符。如果非聚类踪迹根据其计数(概率)击中持续足够长(大于预定的时间长度)的非聚类模型，则创建关于这个模型的新的全局聚类并且踪迹也采取表示踪迹被分配这个新的聚类的这个新的聚类标识符。如果踪迹然后访问在场景中的其它位置，与踪迹相关联的新的聚类标识符可以被传送到被踪迹访问的那些位置。

如果被聚类的踪迹击中非聚类模型，非聚类模型持有被聚类踪迹的聚类标识符，同时相匹配的模型被推入全局聚类的组成模型列表。这种方法提供一种通过踪迹分配在场景上的全局聚类标识符的方法。

在图8中出现的说明性示例以说明在全局聚类和它们的组成本地模型之间的关系。对给定的全局聚类而言，属于聚类的相关联的本地模型被保持如从图8中的聚类开始的有向线所表示。对给定的聚类的本地模型而言，记录本地模型所属的全局聚类。在图8中示出的示例中，存在两个可视的全局聚类，全局聚类1和全局聚类n。与这些全局聚类中的每一个相关联的本地模型被从全局聚类指向他们的组成本地模型的双向箭头识别。在全局聚类和全局聚类的各自的本地模型之间的双向链接提供灵活的方式以支持全局聚类的操作和修改。

如果聚类踪迹击中与不同聚类相关联的聚类模型(其中聚类标识符不同)，两个全局聚类则可以合并。例如，如果与聚类(参见图6的阶段615)相关联的纵横比和定向纵横比与在两纵横比的它们的定向聚类中互相一致，那么两个全局聚类可以被合并。然而，如果任一踪迹目标的纵横比超出距离与被聚类踪迹(在标准偏差的相对意义上)击中的聚类模型相关联的全局聚类的平均值的预定距离，则在被聚类的踪迹和被聚类的模型之间已经发生冲突，并且被聚类的踪迹和被聚类的模型没有被合并。

在处理合并两个全局聚类期间，通过分析关于与当前踪迹相关的全局聚类要被合并到的聚类的目标大小的特征映射，来监视潜在的冲突。特征映射是显示了穿越关于全局聚类的场景的目标大小特征的平均值的图像。例如，对被定位以向下看和向前看的静止相机而言，随着目标移动远离相机目标可以显得逐渐变小。因此，在远离相机的位置中的目标类型的平均目标大小值应该小于当目标更靠近相机时的目标类型的平均目标大小值。为了说明这个影响，创建关于每个全局聚类的特征映射，其每个像素值指示了在场景中的在相关网格的平均大小。如果两个不相关的全局聚类被合并，合并器可能引入噪声到特征图像，导致像素相比于相邻的像素具有显著高或显著低的值。如果彼此接近的两个全局聚类具有非常不同的特征值，则这可以指示聚类是不合适用于合并的候选者，并且潜在的合并误差可以通过避免在这些情况下的合并来避免。鉴于此，可以定期进行噪声去除处理以去除那些与它们的周围的区域不兼容的网格模型以减少在邻近的网格之间的冲突。

全局聚类中的每一个可以维护以组成踪迹所属的目标类型的直方图形式的跟踪级别分类结果的记录。如果踪迹是全局聚类的被聚类的踪迹，踪迹则被认为是全局聚类的组成踪迹。可以采用大多数表决方案以将全局聚类映射到具有最大计数的目标类型。因此，可以自动建立在全局聚类和目标类型之间的映射。

确定最终目标分类结果

如何确定最终目标分类结果可以取决于以上描述的两种分类结果的可用性：跟踪级别结果(在跟踪取得的目标类型方面)和全局聚类结果(在基于聚类的目标类型方面)。如果分类结果中只有一个是可用的，可用的结果用作最终的目标分类结果。如果两个分类结果都是可用的并且两个结果与跟踪目标类型相吻合，任何一种结果可以被选作最终目标分类结果。

如果两个分类结果是可用的，但是结果相冲突，全局聚类得出的结果被选作最终目标分类结果超过跟踪级别结果被选作最终目标分类结果。选择全局聚类得出的结果，因为在对目标进行分类中，由于视频分析算法如何能够稳健地确定这些特征，目标大小通常是比两个纵横比(即目标纵横比和定向目标纵横比)更可靠的特征。在实施方式中，其中视频分析算法能够更加稳健地确定目标纵横比和发生结果冲突，跟踪级别结果可以被选作最终目标分类。由于在场景中的目标大小的空间变化性质，目标大小特征识别目标类型可以次于两个纵横比。

图9是示出了用于基于跟踪级别结果(在跟踪取得的目标类型方面)和全局聚类结果(在基于聚类的目标类型方面)确定最终目标分类结果的方法的流程图。图9中示出的方法对应于图6中示出的方法的步骤618。被跟踪的目标从被摄像机105捕捉的视频内容中提取的目标中挑选出来用于分类(阶段901)。针对是否存在可用于匹配被跟踪目标的全局聚类数据做出确定(阶段902)。如果存在可用的全局聚类数据，针对被跟踪的目标是否是与被跟踪目标相关联的全局数据做出确定(阶段903)。对于在阶段902和阶段903中的确定，如果答案是否定的，那么聚类得出的目标类型不能被分配到目标。因此，使用跟踪级别分类可以做出最终目标类型确定。如果存在可用的全局聚类数据，并且被跟踪的目标与全局聚类相关联，那么基于聚类的目标类型可以通过聚类到类型映射从全局聚类信息中获得(阶段904)。基于聚类的目标类型然后可以被输出为最终目标分类结果(阶段905)。

也可以执行跟踪级别分类步骤。可以获得与目标相关联的跟踪取得的目标类型(阶段906)。针对跟踪取得的目标类型是否被确定关于目标做出确定(阶段907)。如果跟踪取得的目标类型是可用的，那么跟踪取得的目标类型可以输出为最终目标分类结果(阶段908)。否则，跟踪取得的目标类型是不可用的，并且没有确定输出(阶段909)。

通过以上决定规则，当被监控的场景涉及阴影和光的反射的逐步变化时，仍然可以获得正确的分类，如通常在晴天的门外场景的情况下或者被过往车辆灯光的反射影响的夜间场景的情况下。在有了阴影和反射的情况下，从视频分析方法获得的目标纵横比和目标定向纵横比可以与典型目标类型的所期待范围极大地不同，其将使得在跟踪级别分类中使用的先前的假设无效。然而，随着全局聚类适应在场景中的目标大小的逐步变化，由于使用学习方案和演化变化的参数的能力，相同类型的目标仍然能够被聚类为相同的全局聚类。只要从全局聚类到目标类型的映射是有效的，基于全局聚类的分类仍然可以产生正确的结果。

为了建立从全局聚类到目标类型的正确映射，通过仅仅考虑高度可信的跟踪级别分类结果可以采用保守的策略用于更新全局聚类的统计数据(目标类型的直方图)。因此，更新的全局聚类可以仍然保持先前(具有高度可信度)跟踪级别分类结果的记录，同时更新其大小特征到噪声场景以确保来自全局聚类的分类的正确性。

此外，例如一群人的非单一目标类型，可以通过比较地分析两个纵横比，和通过参考全局聚类的目标大小值，以及通过考虑附加特征(例如目标形状)(如果可能的话)，进行检测。基本上，本发明提供了一种用于向下向前看的静止相机来将目标分类为根据目标大小的场景级别聚类，同时使用两个纵横比进行目标分类的方法。然而，本文公开的技术可以以各种不同的方式进行使用以有益于视频监控应用。例如，全局聚类方法可以应用于任何目标特征(而不是仅仅目标大小)以形成场景级别聚类，其可以提供用于选择特征的统计数据总结和有益于提取关于场景活动的语义信息。在另一个示例中，有了在场景中对已知的目标类型(例如人)的学习聚类，相机可以被自动校准。

最终目标分类结果示例

图10A-图10C和图11A-图11C示出了根据本文公开的各种技术的特征映射和目标分类结果的一些示例。图10A示出了在处理被摄像机捕捉的视频内容的图像帧558之后获得的特征映射。图11A示出了连同分类结果的被摄像机捕捉的帧558的相应图像。图10B示出了在处理在相同场景被相同摄像头捕捉的视频内容的图像帧1174之后获得的特征映射。图11B示出了帧1174的相应图像和在该帧的分类结果。图10C示出了关于帧数量5462的特征映射，并且图11C示出了被摄像机捕捉的帧5462的图像和在该帧的分类结果。图10A、图10B、和图10C中的每一个包括四个特征映射。在特征映射中的每个像素值指示在关于相关联的全局聚类的相关网格的目标大小的平均值，使得较亮的值对应于更大的目标大小。左上的特征映射对应于全局聚类1，右上的特征映射对应于全局聚类2，左下的特征映射对应于全局聚类3，并且右下的特征映射对应于全局聚类4。

一般而言，在运行以上所述的提出的目标分类技术之初，全局聚类是脆弱的、小的并且空间在场景中延伸。随着学习过程进行和在场景中更多活动的发生，全局聚类逐步合并并且变得更大，且聚类的数量可以保持减少并收敛到已经在场景中出现的目标类型的真实数量。在该示例中，聚类1代表通过自动获得的聚类到类型的映射的目标类型“人”，聚类2代表目标类型“汽车”，以及聚类3关于目标类型“厢式货车”，而聚类0指示到目前为止还没有被识别或未知的目标类型，其可以被分类为特定的类别或取决于它的将来目标和在场景中它们将访问的位置永远保持未分类。这些映射可以通过在图11A、图11B和图11C中的放在被跟踪目标上的目标类型标识符证明。

描述的各种示例性逻辑块、模块、和算法阶段可以被实现为电子硬件、计算机软件、或两者的组合。为了清楚说明硬件和软件的交互性，各种说明性组件、块、模块和阶段已经在以上概括地描述了它们的功能方面。这样的功能是否实现为硬件或软件取决于施加在整个系统上的设计约束。描述的功能可以以变化的方式实现。此外，在模块、块或阶段内的分组功能是为了便于说明。特定的功能可以从一个模块或块中移去而不脱离本公开的内容。

描述的各种示例性的逻辑块和模块可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它可编程逻辑设备、分立门或晶体管逻辑、离散硬件组件、或被设计为执行本文描述的功能的其任何组合，来实现或执行。通用处理器可以是微处理器，但是在替代方案中，处理器可以是任何处理器、控制器、微控制器、或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器、多个微处理器、与DSP核心合作的一个或多个微处理器、或任何其它此类配置的组合。

描述的方法或算法的操作可以直接在硬件、被处理器执行的软件模块、或在两者的组合中执行。软件模块可以存在于RAM存储器、闪存、ROM存储器、EPROM存储器、EERPROM存储器、寄存器、硬盘、可移动硬盘、CD-ROM、或任何其它形式的存储介质中。示例性存储介质可以耦合到处理器，使得处理器可以从存储介质中读取信息和向存储介质中写入信息。在替代方案中，存储介质可以集成到处理器。处理器和存储介质可以存在于ASIC中。

可以对以上提供的描述做出各种变化和修改而不脱离本公开或所附权利要求的范围。例如，尽管元件可能以单数描述或要求，也可包括复数。此外，所有的或部分的方面和/或实施例可以与其它方面和/或实施例一起被利用。

Claims

1.一种用于识别在视频内容中的目标的方法，包括：

接收被摄像机捕捉的场景的视频内容；

检测在所述视频内容中的目标；

识别所述目标在所述视频内容的一系列帧上所遵循的踪迹；

将关于所述目标的目标特征从所述视频内容中提取出来；以及

基于所述目标特征对所述目标进行分类，其中对所述目标进行分类还包括：

使用空间不变目标特征确定关于所述目标的跟踪级别分类；

使用空间变化特征确定关于所述目标的全局聚类分类；以及

基于关于所述目标的所述跟踪级别分类和关于所述目标的所述全局聚类分类确定关于所述目标的目标类型。

2.根据权利要求1所述的方法，其中确定关于所述目标的跟踪级别分类还包括：基于与所述目标相关联的纵横比确定关于所述目标的所述跟踪级别分类。

3.根据权利要求2所述的方法，其中确定关于所述目标的所述跟踪级别分类还包括：基于与所述目标相关联的所述纵横比和与所述目标相关联的定向纵横比确定关于所述目标的所述跟踪级别分类。

4.根据权利要求2所述的方法，其中确定关于所述目标的所述跟踪级别分类还包括：

构建与关于被跟踪目标的所述纵横比相关联的定向聚类；

构建与关于所述被跟踪目标的定向纵横比相关联的定向聚类；

基于与所述纵横比相关联的所述定向聚类和与所述定向纵横比相关联的所述定向聚类确定关于所述目标的所述跟踪级别分类；以及

基于所述跟踪级别分类更新关于所述被跟踪目标的跟踪级别分类结果的直方图。

5.根据权利要求1所述的方法，其中确定关于所述目标的所述全局聚类分类还包括：基于所述目标的大小确定关于所述目标的所述全局聚类分类。

6.根据权利要求5所述的方法，其中确定关于所述目标的所述全局聚类分类还包括：

更新关于持续被跟踪目标所访问的位置的目标大小的本地模型；

通过将本地模型与全局聚类相关联来更新所述全局聚类，所述本地模型具有与所述全局聚类相关联的目标大小相匹配的目标大小并且被所述持续被跟踪目标访问，并且其中更新所述全局聚类还包括：

更新与相匹配的目标相关联的跟踪级别分类结果的直方图；

基于所述相匹配的目标更新定向聚类，所述定向聚类与被跟踪目标的定向纵横比和被跟踪目标的纵横比相关联；

创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突；以及

创建聚类到类型映射以将全局聚类转换为确定的目标类型。

7.根据权利要求1所述的方法，还包括：

确定所述目标是否已经在一个方向上连续移动了至少预定阈值距离；以及

如果所述目标已经移动的距离还没有大于所述预定阈值距离，则基于所述目标的所述全局聚类分类而不是基于所述目标的跟踪级别分类确定关于所述目标的所述目标类型。

8.一种监控系统，其被配置为识别在被摄像机捕捉的视频内容中的目标，所述系统包括：

用于接收被摄像机捕捉的场景的视频内容的装置；

用于检测在所述视频内容中的目标的装置；

用于识别所述目标在所述视频内容的一系列帧上所遵循的踪迹的装置；

用于将关于所述目标的目标特征从所述视频内容中提取出来的装置；和

用于基于所述目标特征对所述目标进行分类的装置，其中对所述目标进行分类还包括：

用于使用空间不变目标特征确定关于所述目标的跟踪级别分类的装置；

用于使用空间变化特征确定关于所述目标的全局聚类分类的装置；和

用于基于关于所述目标的所述跟踪级别分类和关于所述目标的所述全局聚类分类确定关于所述目标的目标类型的装置。

9.根据权利要求8所述的系统，其中用于确定关于所述目标的跟踪级别分类的所述装置还包括：用于基于与所述目标相关联的纵横比确定关于所述目标的所述跟踪级别分类的装置。

10.根据权利要求9所述的系统，其中用于确定关于所述目标的所述跟踪级别分类的所述装置还包括：用于基于与所述目标相关联的所述纵横比和与所述目标相关联的定向纵横比确定关于所述目标的所述跟踪级别分类的装置。

11.根据权利要求9所述的系统，其中用于确定关于所述目标的所述跟踪级别分类的所述装置还包括：

用于构建与关于所述被跟踪目标的所述纵横比相关联的定向聚类的装置；和

用于构建与关于所述被跟踪目标的定向纵横比相关联的定向聚类的装置；和

用于基于与所述纵横比相关联的所述定向聚类和与定向纵横比相关联的所述定向聚类确定关于所述目标的所述跟踪级别分类的装置；和

用于基于所述跟踪级别分类更新关于所述被跟踪目标的跟踪级别分类结果的直方图的装置。

12.根据权利要求8所述的系统，其中用于确定关于所述目标的所述全局聚类分类的所述装置还包括：用于基于所述目标的大小确定关于所述目标的所述全局聚类分类的装置。

13.根据权利要求12所述的系统，其中用于确定关于所述目标的所述全局聚类分类的所述装置还包括：

用于更新关于持续被跟踪目标访问的位置的目标大小的本地模型的装置；

用于通过将本地模型与全局聚类相关联来更新所述全局聚类的装置，所述本地模型具有与所述全局聚类相关联的目标大小相匹配的目标大小并且被所述持续被跟踪目标访问，并且其中用于更新所述全局聚类的所述装置还包括：

用于更新与相匹配的目标相关联的跟踪级别分类结果的直方图的装置；

用于基于所述相匹配的目标更新定向聚类的装置，所述定向聚类与被跟踪目标的定向纵横比和被跟踪目标的纵横比相关联；

用于创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突的装置；和

用于创建聚类到类型映射以将全局聚类转换为确定的目标类型的装置。

14.根据权利要求8所述的系统，还包括：

用于确定所述目标是否已经在一个方向上连续移动了至少预定阈值距离的装置；和

用于如果所述目标已经移动的距离还没有大于所述预定阈值距离，基于所述目标的所述全局聚类分类而不是基于所述目标的所述跟踪级别分类确定关于所述目标的所述目标类型的装置。

15.一种用于识别在被摄像机捕捉的视频内容中的目标的监控系统，所述系统包括：

有形的、非暂时性计算机可读存储器；

多个模块，所述多个模块包含处理器可执行代码，被存储在所述存储器中；

处理器，所述处理器被连接到所述存储器并且被配置为访问在所述存储器中存储的所述多个模块；以及

视频处理模块，其被配置为：

接收被摄像机捕捉的场景的视频内容；

检测在所述视频内容中的目标；

识别所述目标在所述视频内容的一系列帧上所遵循的踪迹；

基于所述目标特征对所述目标进行分类，其中，为了对所述目标进行分类，所述视频处理模块还被配置为：

使用空间不变目标特征确定关于所述目标的跟踪级别分类；

使用空间变化特征确定关于所述目标的全局聚类分类；以及

16.根据权利要求15所述的系统，其中被配置为确定关于所述目标的跟踪级别分类的所述视频处理模块还被配置为基于与所述目标相关联的纵横比确定关于所述目标的所述跟踪级别分类。

17.根据权利要求16所述的系统，其中被配置为确定关于所述目标的所述跟踪级别分类的所述视频处理模块还被配置为基于与所述目标相关联的所述纵横比和与所述目标相关联的定向纵横比确定关于所述目标的所述跟踪级别分类。

18.根据权利要求16所述的系统，其中被配置为确定关于所述目标的所述跟踪级别分类的所述视频处理模块还被配置为：

构建与关于所述被跟踪目标的所述纵横比相关联的定向聚类；

基于与所述纵横比相关联的所述定向聚类和与定向纵横比相关联的所述定向聚类确定关于所述目标的所述跟踪级别分类；和

19.根据权利要求15所述的系统，其中，被配置为确定关于所述目标的所述全局聚类分类的所述视频处理模块还被配置为基于所述目标的大小确定关于所述目标的所述全局聚类分类。

20.根据权利要求19所述的系统，其中，被配置为确定关于所述目标的所述全局聚类分类的所述视频处理模块还被配置为：

更新关于持续被跟踪目标访问的位置的目标大小的本地模型；

通过将本地模型与全局聚类相关联来更新所述全局聚类，所述本地模型具有与所述全局聚类相关联的目标大小相匹配的目标大小并且被所述持续被跟踪目标访问，并且其中被配置为更新所述全局聚类的所述视频处理模块还被配置为：

更新与相匹配的目标相关联的跟踪级别分类结果的直方图；

创建关于每个全局聚类的目标大小的特征映射以解决在全局聚类合并中的冲突；和

创建聚类到类型映射以将全局聚类转换为确定的目标类型。

21.根据权利要求15所述的系统，其中所述视频处理模块还被配置为：

确定所述目标是否已经在一个方向上连续移动了至少预定阈值距离；和

如果所述目标已经移动的距离还没有大于所述预定阈值距离，则基于所述目标的所述全局聚类分类而不是基于所述目标的所述跟踪级别分类确定关于所述目标的所述目标类型。

22.一种有形的计算机可读介质，其在其上存储有识别在视频内容中的目标的计算机可读指令，所述指令包括被配置为引起计算机进行以下操作的指令：

接收被摄像机捕捉的场景的视频内容；

检测在所述视频内容中的目标；

识别所述目标在所述视频内容的一系列帧上所遵循的踪迹；

基于所述目标特征对所述目标进行分类，其中引起所述计算机对所述目标进行分类的所述指令还包括引起计算机进行以下操作的指令：

使用空间不变目标特征确定关于所述目标的跟踪级别分类；

使用空间变化特征确定关于所述目标的全局聚类分类；和

23.根据权利要求22所述的介质，其中引起所述计算机确定关于所述目标的跟踪级别分类的代码还包括引起所述计算机基于与所述目标相关联的纵横比确定关于所述目标的所述跟踪级别分类的代码。

24.根据权利要求23所述的介质，其中引起所述计算机确定关于所述目标的所述跟踪级别分类的所述代码还包括引起所述计算机基于与所述目标相关联的所述纵横比和与所述目标相关联的定向纵横比确定关于所述目标的所述跟踪级别分类的代码。

25.根据权利要求23所述的介质，其中引起所述计算机确定关于所述目标的所述跟踪级别分类的所述代码还包括引起所述计算机进行以下操作的代码：

26.根据权利要求22所述的介质，其中引起所述计算机确定关于所述目标的所述全局聚类分类的所述代码还包括引起所述计算机基于所述目标的大小确定关于所述目标的所述全局聚类分类的代码。

27.根据权利要求26所述的介质，其中引起所述计算机确定关于所述目标的所述全局聚类分类的所述代码还包括引起所述计算机进行以下操作的代码：

更新关于持续被跟踪目标访问的位置的目标大小的本地模型；和

通过将本地模型与全局聚类相关联更新所述全局聚类，所述本地模型具有与所述全局聚类相关联的目标大小相匹配的目标大小并且被所述持续被跟踪目标访问，并且其中更新所述全局聚类的所述代码还包括引起所述计算机进行以下操作的代码：

更新与相匹配的目标相关联的跟踪级别分类结果的直方图；

创建聚类到类型映射以将全局聚类转换为确定的目标类型。

28.根据权利要求22所述的介质，还包括引起所述计算机进行以下确定操作的代码：