CN103380619B

CN103380619B - 搜索记录的视频

Info

Publication number: CN103380619B
Application number: CN201180068091.7A
Authority: CN
Inventors: 格雷格·米勒; 法曾·艾格达斯; 王磊
Original assignee: Pelco Inc
Current assignee: Pelco Inc
Priority date: 2010-12-30
Filing date: 2011-12-29
Publication date: 2017-10-10
Anticipated expiration: 2031-12-29
Also published as: AU2011352094B2; CN103380619A; WO2012092451A3; AU2011352094A1; EP2659672A2; EP2659672A4; WO2012092451A2; US20200265085A1; US20120173577A1

Abstract

本公开的实施例提供用于创建与视频数据相关的元数据的系统和方法。该元数据可以包括有关视频场景内所看到的对象和/或该视频场景内发生的事件的数据。一些实施例允许用户通过搜索所记录的元数据来搜索特定的对象和/或事件。在一些实施例中，元数据通过接收视频帧和开发用于视频帧的背景模型来创建。然后，使用该背景模型可以在视频帧中识别前景对象。一旦这些对象被识别，就可以对它们进行分类和/或可检测到与前景对象相关的事件。然后，前景对象的事件以及分类可以被记录为元数据。

Description

搜索记录的视频

技术领域

本发明总体上涉及搜索记录的视频。

背景技术

搜索记录的视频可能是极其耗时且是使用大量劳力的过程。视频监控系统通常包括用于记录监控摄像机捕获的视频的记录器。最初，视频盒带记录器被用于记录这种数据，然而，为了找到所关注的部分，搜索这些磁带只能通过人员查看这些磁带来进行。通过使用算法来搜索特定的项目，数字视频记录器的发展改进了搜索过程，例如可以进行搜索一个项目何时已经从摄像机正在观看的区域消失。然而，快速方便地找到特定的视频片段的能力还没有得到显著改善；这个过程仍然需要人员查看视频，这和VCR磁带的情况一样。

视频分析正在迅速获得视频安全产业内的关注，并且使用十分高级的技术从数字视频流中提取高级信息的系统和组件正在开始进行部署。视频分析通常是在两个位置中的一个位置中进行实施：1)在“边缘”，即，在摄像机端，或2)在“前端”，系统中的具有显著的处理能力的设备。在视频分析中，最早期的尝试是在前端实施的，因为实现有意义的分析所需要的计算马力的数量仅在个人计算机类型的平台可用。因此，模拟视频通过视频采集卡传送到PC，该视频采集卡会数字化视频并且向分析软件提供这些帧。计算机将在这些数字帧上进行各种计算，并且检测各种动作，以及随后将这些结果通过专有的图形用户接口直接地报告给操作者，或经由到达另一系统的某一信令系统(通常是IP网络)来产生信息，该另一系统可以记录这种信息，或在某一监控系统内产生警报或事件。

发明内容

提供了一种用于创建与视频数据相关的元数据的系统和方法的实例。元数据可以包括有关视频场景内所看到的对象和/或该视频场景内发生的事件的数据。本公开的一些实施例允许用户通过搜索所记录的元数据来搜索特定的对象和/或事件。在一些实施例中，元数据通过接收视频帧和开发用于视频帧的背景模型来创建。然后，使用该背景模型可以在视频帧中识别前景对象。一旦这些对象被识别，就可以对它们进行分类和/或可检测到与前景对象相关的事件。然后，前景对象的事件以及分类可以被记录为元数据。

提供了一种用于创建与视频帧相关的元数据的方法。接收视频帧并且从该视频帧中开发背景模型。然后，通过使用背景模型将前景对象从视频帧中分离。可以对前景对象进行分类。例如，这种分类可以基于对象颜色、长宽比以及位置来描述前景对象的特征。然后，前景对象的分类可以记录在元数据中。

提供了一种用于创建关于视频帧的元数据的方法。该方法可以包括接收视频帧；开发用于视频帧的背景模型，使用背景模型从视频帧中分离出前景对象；将前景对象识别为先前识别的前景对象；基于前景对象的特征将前景对象进行分类；以及在元数据中记录该对象的分类。用于分类的前景对象的特征可以包括视频帧内的对象位置、对象的颜色以及对象的长宽比。

提供了另一种方法。可通过用户接口从用户接收搜索查询。该搜索查询可以包括用于搜索对象的分类以及与对象相关的事件两者中的任意一者或两者的信息。然后，可以检索与搜索查询相关的元数据文件。该元数据文件可以包括关于视频帧内的对象分类以及对象事件两者中的任意一者或两者的信息。可以在所检索的元数据文件中搜索与搜索查询相匹配的元数据。并且匹配搜索查询的视频片段的列表可以通过用户接口提供。

提供了一种视频摄像机系统，其包括视频摄像机，输出端口以及处理器。视频摄像机可被配置成捕获场景的视频数据，并且将视频数据输出为数字数据。该处理器可以与该摄像机通信地耦合。该处理器可以被配置成：从视频摄像机接收视频数据，开发用于视频数据的背景类型，使用背景类型从视频数据上分离前景对象，在视频数据的视频场景内识别前景对象的位置，确定前景对象的颜色，并且在元数据中记录前景对象的位置和颜色。输出端口可以通信地耦合到处理器上并且被配置成输出元数据。

提供了一种视频处理系统，其包括视频输入端口、处理器和视频输出端口。该视频输入端口可以被配置成接收视频数据。该处理器可以通信地耦合到视频输入端口和视频输出端口上。该处理器可以被配置成：开发用于视频数据的背景模型，使用背景模型从视频数据中分离出前景对象，确定前景对象的相对位置，并确定前景对象的相对颜色。视频输出端口可以被配置成将前景对象的相对位置和颜色输出为元数据。

在一些实施例中，背景模型可以包括短期背景模型和长期背景模型两者中的任意一者或两者。在一些实施例中，阴影和反射可以从视频数据中去除。在一些实施例中，可以检测到与前景对象相关的事件，并将其存储在元数据中。在一些实施例中，前景对象可以按以下一个或多个特征进行分类：视频帧内的前景对象的位置、对象的大小、对象的颜色、对象类型和/或对象的长宽比。

在一些实施例中，事件可以包括对象进入帧中，对象离开帧，摄像机破坏，对象保持静止，对象与另一个对象结合，对象分裂成两个对象，对象进入某个区域，对象离开某个区域，对象穿过绊网，对象被去除，对象被放弃，对象计数，对象游荡和/或对象定时器。

在一些实施例中，前景对象可以按照对象类型和/或对象速度进行分类。在一些实施例中，通过使用概率高斯模型来构造背景模型。在一些实施例中，通过从视频帧中减去背景模型以返回前景对象，前景对象就可以从视频帧中分离。在一些实施例中，与对象相关的分类数据被记录为与视频数据分开的元数据。

也提供了一种用于搜索视频数据的方法。可以通过用户接口从用户接收搜索查询。该搜索查询可以包括多个查询维度。可以计算查询维度和在视频数据库中存储的元数据中识别的对象维度之间的距离度量。可以通过用户接口来提供视频片段列表。该视频片段可以包括距离度量小于阈值的对象。

也提供了一种非暂时的计算机可读介质，其包括处理器可执行的用于进行元数据搜索的代码。该代码使处理器通过用户接口接收来自用户的包括一组查询维度的搜索查询，并且计算这组查询维度和与视频帧中所识别的对象相关的一组对象维度之间的距离，并通过用户接口提供视频片段的列表。该视频片段可以包括距离度量小于阈值的对象。

也提供了一种视频处理系统，其包括用户接口，视频存储设备以及处理器。该用户接口可以被配置成接收用户输入。该视频数据存储设备可以存储视频元数据。该处理器可通信地耦合到用户接口以及视频数据存储设备上。该处理器可以被配置成通过用户接口接收包括多个查询值的搜索查询，并且计算该查询值与视频存储设备中存储的视频元数据相关的对应值之间的距离度量。

在一些实施例中，搜索查询可以包括对象分类和/或对象事件。在一些实施例中，搜索查询可以包括识别特定摄像机的视野中的对象位置、分类中的范围和/或事件的范围的信息。

在一些实施例中，查询维度和对象维度与对象的分类、和对象相关的事件、x轴位置、y轴位置、颜色、x轴速度、y轴速度和/或长宽比相关。在一些实施例中，可以使用来计算距离，其中，x_n是第n个对象维度和q_n是第n个查询维度。

此处所描述的项目和/或技术可以提供一个或多个以下功能，以及其它没有提到的功能。例如，通过使用本文所描述的实施例，可以连同元数据实时地产生视频数据，该元数据包括与视频数据中捕获的对象以及事件相关的信息。此外，基于先前记录的视频数据，可以分析视频数据以及创建元数据。此外，根据一些实施例，用户可以依据元数据中记录的对象和/或事件的特征，来搜索元数据以找到所需的视频数据。还可以提供各种其它的功能。虽然已经对项目/技术效果对进行了描述，通过所述之外的方式可能实现显著的效果，并且所述的项目/技术未必达到这种显著的效果。

附图说明

图1是根据本公开的一些实施例的视频监控系统的方框图，其中，搜索记录的视频的各个方面都可以实现。

图2是图1中所示的工作站的一个实施例的方框图。

图3是图1中所示的视频源的一个实施例的方框图。

图4是根据一些实施例的用于分析场景的过程。

图5是示出了输入搜索标准的一个实施例的屏幕截图。

图6是示出了根据一些实施例的输入搜索标准的一个实施例的屏幕截图。

图7是示出了根据一些实施例的输入搜索标准的一个实施例的屏幕截图。

图8是捕获和制作用于数据库搜索的帧的过程。

图9是根据一些实施例的用于接收搜索帧并且制作搜索帧用于搜索的过程。

图10是根据一些实施例的用于执行用户所请求的搜索的过程。

图11是根据一些实施例的基于所请求的搜索而产生报告的过程。

图12是根据一些实施例的用于检测和去除视频帧中的阴影和反射的流程图。

图13是根据一些实施例的用于检测视频帧中的阴影和反射的流程图。

本文所述的过程和系统以及伴随的优点、应用及其特征，通过研究下面的详细描述、附图以及权利要求将会被更充分地理解。

具体实施方式

此处描述了用于创建描述关于视频场景的对象和/或事件的元数据的技术。通过实时地分析视频场景，以产生带描述视频场景内的对象的特征和/或视频场景内发生的事件的特征的信息的文件，可以创建元数据。在一些实施例中，可以实时地创建元数据。在一些实施例中，摄像机可以收集道路场景的视频数据。可以对一段视频帧创建关于场景的背景信息。根据背景信息，可以识别前景对象并基于前景对象的特征来分类前景对象。与该对象相关的一个或多个事件也可以从视频数据中确定。然后，对于该对象和/或该对象的事件的分类可以与视频数据相关联地记录下来。

例如，视频摄像机可用于捕获道路场景的视频数据。并且背景模型可以根据视频数据进行开发。这种背景模型可以包括静态对象以及场景的特征。例如，街道场景的背景模型可能包括街道、树木、标志、建筑物等。通过使用背景模型，可以识别和分类前景对象。例如，穿过该场景的汽车可以被识别和分类为汽车。也可对它们的颜色和/或尺寸进行分类。与所识别的汽车相关的各种事件也可以被确定。例如，这种事件可以包括汽车在正确或错误的方向上行驶，或汽车停在特定的位置很长一段时间。各种其它的事件可以被识别。随后，这种对象数据和事件数据可以被记录为与视频数据相关的元数据。随后，这种元数据可以用于搜索和检索所感兴趣的视频数据。

参考图1，视频监控系统10以方框图的形式示出。视频监控系统10可以包括从1到n的多个视频源，这些视频源被标记为12、14和16，并且被连接至网络18。例如，视频源12、14和16可以包括，静止或全动态视频摄像机。此外，视频源12、14和16可以产生原始的数字或模拟视频数据。如果视频源12、14和16产生模拟视频数据，数字转换器可用于数字化该视频数据。视频源12、14和16可以捕获并且提供彩色或单色视频数据。

网络18可以是一个封闭的网络、局域网络或广域网络，例如因特网。多个数字视频记录器(DVR)20和21也被连接到网络18上用于记录来自视频源12、14和16的视频。在一些实施例中，一个或多个数字视频记录器20或21可以是网络视频记录器，或者可以被直接连接到显示器或工作站上。该数字视频记录器可以包括任何类型的视频存储设备，这种视频存储设备包括硬盘驱动器和/或闪存驱动器。正如这里所使用的，所记录的视频包括全动态视频和按一定时间间隔拍摄的静态照片。存储器22可以被连接到网络18上，以为所记录的视频提供额外的存储空间，例如，这种记录的视频可以从数字视频记录器20中被转移以用于短期或长期存储。存储器22可以被连接到网络18上(如图所示)，或直接被连接到数字视频记录器20上，例如扩展箱。工作站24可以被连接到网络18上，以向用户提供显示和输入功能。工作站24可以是带有软件的通用计算机，以便于实现软件搜索方法以搜索记录的视频数据，并且以便于提供图形用户接口以搜索记录的视频数据，或者它可以仅是显示器以及用户输入设备，用于访问视频监控系统10以及使用视频数据搜索方法。用于搜索记录的视频数据的图形用户接口软件和视频搜索软件可以驻留在系统中的任何地方，例如，在工作站24、数字视频记录器20或存储器22上。视频源、视频记录器、网络和/或工作站的各种其它的组合都可以被使用。

图2示出了用于执行视频数据搜索方法的工作站24的一个实施例。处理器26被连接到ROM 28、RAM 30和存储器32上，该存储器可以是硬盘驱动器、压缩磁盘驱动器、光盘驱动器等等。处理器26可以是智能设备，例如，个人计算机的中央处理单元(CPU)(例如那些由公司或生产的CPU)、微控制器、专用集成电路(ASIC)等等。处理器26执行软件程序以显示储存在ROM 28或存储器32中的图形用户接口。处理器26向显示器36提供输出信号以显示用于实施视频数据搜索方法的图形用户接口。用户输入设备34可以是鼠标、慢进/快进控制器、键盘或连接到处理器26的其它合适的输入设备，用于提供用户输入来搜索所存储的视频数据。由工作站24搜索的记录的视频数据可以存储在视频监控系统10的数字视频记录器20、数字视频记录器21或存储器22这些中的一个多个中。

设备管理器可以用于存储(例如，在ROM 28、RAM 30或存储器32中)处理器可读的、处理器可执行的软件代码，该代码包含用于控制处理器26以执行下述功能(虽然该说明可理解为软件执行功能)的指令。例如，这些功能实现各种视频对象分类和/或事件识别系统。通过网络连接进行下载，从磁盘上传等等，该软件可以加载到存储器上。此外，该软件可能不是直接可执行的，例如，需要在执行之前进行编译。

根据一些实施例，视频源的实例示于图3中，其适合于图1中视频源12、14或16中的任意一个。摄像机38向处理器40提供原始视频数据。处理器40可以包括任何类型的处理单元和存储器。处理器40可以将该原始视频数据压缩成数字视频格式，例如MPEG。处理器40还可以执行不同的任务，这些任务包括数据修改、数据打包，元数据创建等等。例如，这种压缩的视频数据可以例如流式传输到通信设备42(例如，网络设备、调制解调器、无线接口等)以传送到网络18。虽然摄像机38、处理器40(服务器和/或编码器)以及通信设备42已经作为单独的设备示出，它们的功能可以被提供在单个设备或两个设备中而不是如图所示的三个单独的设备中。

场景分析器算法可以在摄像机38、处理器40和/或工作站24上执行，以检测摄像机38的视野中的场景内的特征或发生情况；例如检测和跟踪所监控的场景中的对象。如果在摄像机38或处理器40上进行场景分析，有关事件和对象的信息可以作为元数据与视频数据一起被发送到网络18上。例如，这种视频数据可以包括，检测到穿越拉线的人员或检测到红色车辆。另外，视频可以通过网络18流式传输，然后在该流式视频被存储之前，例如可以通过DVR 20进行分析。

参考图4，分析场景的过程100包括所示的方框。然而，过程400仅是实例，而非限制性的。过程100可以改变，例如，对步骤进行增加、删除、重新排列、组合和/或同时操作。例如，在方框120、125和130处，可以构造背景模型。也可能对所示出和描述的过程100进行其它的改变。在一些实施例中，过程100可以在包含于或耦合至视频源或视频摄像机的处理器内实现。在一些实施例中，过程100可以实时地对视频数据进行操作。也就是说，当捕获视频帧时，过程100识别对象和/或检测对象事件的速度能够与视频源捕获视频帧的速度一样快，甚至比其更快。例如，如果视频源每秒钟捕获30个视频帧，那么可以以相同的速度或更快的速度在每个帧或一系列帧上执行过程100。

通过捕获视频帧，过程100可以在方框105处开始。视频帧可以实时地从视频源进行捕获或从数据获取。过程100利用了用于排除静态背景图像、带有无语意意义的重复动作(例如，树木在风中移动)的图像的高斯模型，可以用来从所感兴趣的对象中减去场景背景。也可以使用其它模型。为了检测场景中的对象，将高斯混合模型应用于视频帧(或帧)中以创建背景，如方框110、120、125和130所示。即使这种背景是拥挤的并且在场景中存在运动，也可以通过这种方法来产生背景模型。对于实时的视频处理来说，高斯混合建模是非常耗时的，并且由于其计算特性，难以进行优化。为了加速背景相减的处理，选择最可能的模型来描述相应的像素。降级的单高斯模型可以在方框130处被构建，并且在方框135处被应用。可以使用各种其它的背景训练算法或过程来创建背景场景。在方框115处，反射可以被检测到并且从视频帧中去除。

在一些实施例中，第二背景模型可以与如上所述的背景模型相结合使用，或用作单独的背景模型。可以这样做，例如，以提高对象检测的精度，或去除由于在一个地方逗留了一段时间后已经远离这个地方的对象而导致检测到的错误对象。因此，例如，在第一“短期”背景模型之后，可以应用第二“长期”背景模型。除了以更慢的速度进行更新以外，长期背景的构建过程与短期背景模型相同。也就是说，它使用在一段较长的时间内的更多的视频帧来创建背景模型。如果使用短期背景检测到对象，但对象被视为来自长期背景的背景的一部分，则所检测到的对象就是错误的对象(例如，对象在一个地方停留了一段时间便离开)。在这种情况下，短期背景模型的对象区域应该随着长期背景模型的对象区域进行更新。否则，如果对象出现在长期背景中，但它却是短期背景中的背景，那么该对象就已融入到短期背景中。如果在两个背景模型中都检测到该对象，那么该对象是前景对象的几率是很高的。使用长期背景模型是可选的。

对于所捕获的视频帧来说，在方框135处应用背景相减方法以便于提取前景像素。根据分割结果，在方框140处对背景模型进行更新。由于背景不会迅速改变，没有必要在每一帧中更新整个图像的背景模型。然而，如果每N个(N>0)帧更新一次背景模型，具有背景更新的帧的处理速度与不具有背景更新的帧的处理速度是显著不同的，并且这有时可以导致运动检测误差。为了克服此问题，在每一帧中只有一部分背景模型进行更新，使得每帧的处理速度都是相同的并且实现了速度优化。在方框145，在形态滤波后，前景像素被分组到图像斑点(image blob),即具有类似像素的组中。这些图像斑点代表在当前帧中检测到的对象。

例如，为了消除因分段误差而造成的小的噪声图像斑点，并且按照场景中的对象的尺寸找到合格的对象，可以使用场景校准法检测斑点尺寸。对于场景校准来说，假设了透视地平面模型。合格的对象应该是高于地平面模型中的阈值高度(例如，最小高度)并且窄于阈值宽度(例如，最大宽度)。通过在不同的垂直高度处指定两条水平的平行线段，并且这两条线段应该与现实世界中的地平面的消失点(透视图中的一个点，平行线看上去聚集于此)的长度相同，可以对于地平面模型进行计算，对地平面的消失点可以进行定位，并根据实际对象的位置到消失点的距离，可以计算出实际对象的尺寸。斑点的最大/最小宽度/高度在该场景的底部进行限定。如果所检测到的图像斑点的归一化宽度/高度小于最小的宽度/高度，或归一化宽度/高度宽于最大宽度/高度，则该图像斑点将被丢弃。在方框150处，可检测反射和阴影，并且可将它们从视频帧中去除。

在去除阴影之前或之后，可以进行反射的检测和去除。为了去除任何有可能的反射，第一个步骤就是检查与整个场景的像素数量相比，前景像素的比例是否很高。如果前景像素的比例高于阈值，那么会出现以下情况。参照图12，用于去除反射的过程1200包括所示的方框。在方框1210处，通过从背景图像中减去当前帧的亮度，生成差分图像。在方框1220处，可以进行对反射和阴影的检测和去除。这可以通过多种方式进行。例如，可以计算差分图像的直方图，并且可以找到直方图的最大值(或超过阈值的点)。如果最大值显著地偏离零，那么就会检测到反射。为了去除这样的反射效果，在当前帧中的每个像素的亮度可以被偏移且偏移量与直方图最大值偏离于零的量相同。做这样的假设，即每个像素已经从初始亮度偏移了相同的值。然后，通过使用一些过程来检测并且去除阴影。

由于阴影具有与背景相同的纹理图案，在方框1230处，图像相关技术可以被用于检测阴影。如果背景和当前帧之间的相关性超过预先设定的阈值(例如，0.95)，那么当前的图像块比背景暗，并且当前的图像块可视为可能包括阴影效果。另外，在方框1240处，可使用边缘检测来检测阴影。当前视频帧内的每个像素沿x轴和y轴的梯度都可被确定。如果梯度的绝对值大于阈值，那么对应的像素就是边缘像素。对于前景图像来说，如果背景具有确定的边缘，可以检测当前帧的相应的图像块以观察边缘图案是否相似。如果对于两个图像来说，大部分的边缘像素是相同的，那么相应的图像块可以包括阴影。在方框1250处，垂直投影检测可以用于检测阴影。阴影通常出现在对象的底部，并且该阴影在该对象中的垂直投影远远窄于相应的对象，因此，可以通过根据该对象的垂直投影的计算来调整对象的尺寸来去除阴影。从该对象的两侧来看，如果垂直投影少于垂直投影的最大值的一定比例，当前的垂线可以是候选阴影。在方框1260处，可以将两种或更多的阴影检测技术结合起来，用于从视频帧中去除阴影。

图13中所示的方法1300是用于阴影检测的另一种技术。在方框1310处，对于包含根据背景相减算法检测出的前景像素的每一个图像块来说，可以进行测量当前帧和背景图像块的亮度差值。如果当前的前景像素的亮度比背景暗，那么过程1300进行到方框1320处，否则，过程1300进行到方框1395处，并且该图像被识别为对象块。在方框1320处，可以计算当前帧的图像块与背景之间的相关性。如果相关性小于阈值，该块就不类似于背景，并且过程1300进行到方框1395处，在此，图像块被标记为对象块。否则，过程1300进行到方框1340。在方框1340处，检测当前帧的图像块和背景的边缘。在方框1350处，测量边缘像素以观察是否有足够的边缘像素用于边缘图案匹配。如果在当前帧和背景图像中具有足够的边缘，过程1300进行到方框1360处。如果没有，过程1300进行到方框1370。在方框1360处，如果在当前帧和背景中的边缘图案不相似，则确定该块为对象块，过程1300进行到方框1395。否则，过程1300进行到方框1380。在方框1370中，如果仅仅在一个块中没有足够的边缘，确定该块为对象块并且过程1300进行到方框1395。否则，方法1300进行到方框1380，在此，计算整个对象的前景像素的垂直投影。如果垂直投影小于根据最大垂直投影确定的自适应阈值，在步骤1390中，该块可视为阴影块，否则，在方框1395处，它被确定为对象块。

如果不存在可以映射到所检测到的图像斑点的对象，那么将创建用于图像斑点的新对象。否则，在方框155处，图像斑点将被映射到现有的对象上。新创建的对象将不会被进一步地处理，直到它在一段时间内出现在场景中，并且向周围移动超过最小距离。以这种方式，许多虚假的对象可以被过滤掉。

采用上述方法，可以跟踪场景中的对象。下一个块是在方框160处，对场景内的对象分类。根据对象外形的长宽比、物理尺寸和竖直轮廓将单个的人从车辆或一组人中分类出来。竖直轮廓定义为对象区域中的前景像素的顶部像素的竖直坐标的一维投影。该竖直轮廓可先通过低通滤波器过滤。由于单个人的尺寸总是小于车辆的尺寸，所以根据校准的对象尺寸，可以细化分类结果。通过外形差异，可以将一组人和车辆进行分类。例如，根据像素的人的宽度大小可以在该对象的位置处进行确定。宽度的比例可以用于检测沿着竖直轮廓的峰值和谷值。如果该对象的宽度大于一个人的宽度并且在该对象中检测到不止一个峰值，那么非常有可能的是该对象是一组人，而不是车辆。在对象的图(例如缩略图)上的基于离散余弦变换(DCT)或其它变换诸如离散正弦变换、沃尔什变换、哈达马德变换、快速傅立叶变换、小波变换等等的颜色描述都可以应用于提取所检测到的对象的颜色特征(量化的变换系数)。

在方框170处，可检测到的事件的样本列表可以包括下列事件：对象进入场景中、对象离开该场景、摄像机受到破坏、对象在场景中是静止的、对象合并、对象分开、对象进入预定区域中、对象离开预定区域、对象穿越绊网、对象被去除、对象被丢弃、对象以与某个区域或绊网的预定禁止方向相匹配的方向移动、对象计数、对象删除(例如，当对象静止的时间长于预定的一段时间并且它的尺寸大于预定区域中的大部分)，对象丢弃(例如，当对象静止的时间长于预定的一段时间并且它的尺寸小于预定区域中的大部分)，停留计时器(例如，在长于指定的停留时间内，该对象在预定的区域内是静止的或很少移动)，以及对象游离(例如，当对象在预定的区域中的时间长于指定的停留时间)。

在方框180处，可根据所跟踪的对象的运动或根据源自跟踪的事件来创建元数据。这种描述在统一的表达中将对象信息与事件进行结合。例如，可以通过这些对象的位置、颜色、大小、长宽比来对它们进行描述。这些对象也可以与带有相应的对象标识符和时间戳的事件相关。所有的事件都应该经由规则处理器使用规则来产生，这些规则被定义以使场景分析软件决定哪种对象信息和事件可以提供在与视频帧相关的元数据中。这些规则可以通过任何数目的给定方式建立，例如通过配置系统的系统管理者或通过能够重新配置系统中的一个或多个摄像机的授权用户来建立。

视频源(例如，图1中的视频源12)可以一些不同的方法提供包含视频数据和元数据的搜索帧，其随后将用于搜索视频。例如，该视频源可以针对在视频流中的每个帧提供与帧相关的元数据以及帧本身，从而使每个视频帧成为搜索帧。可选地，视频源可以通过提供在预定的间隔的JPEG图像以及与JPEG图像相关的元数据来创建搜索帧，随后可以将搜索帧压缩并且通过网络(例如，图1中的网络18)发送。在另一个可选择的实施例中，视频源可以通过在MPEG兼容流中提供与每一个I-帧相关的元数据来创建搜索帧。可以使用这些方法的任何上述实施例来提供多个搜索帧。例如，每个记录将代表例如在半秒间隔所拍摄的对象快照，以创建大量的小记录。例如，多个搜索帧可以包含在预定的间隔的JPEG图像以及与每个JPEG图像相关的元数据。举例来说，如果源自视频源的视频流由DVR(例如，图1中的DVR20)接收，那么源自视频源的搜索帧也将由DVR接收。依据创建搜索帧所使用的方法，DVR可以接收搜索帧，并将它们存储在例如用于周期性的单独的JPEG图像的适当的文件中，或者，例如，在适当的文件中存储来自MPEG兼容流的I帧的副本。与每个搜索帧相关的元数据可以从视频数据中进行分离或复制该元数据，从而创建元数据搜索文件。用于每个搜索帧的元数据都以适当的方式(例如时间戳)与搜索帧相关或与搜索帧的视频数据相关，使得例如当通过工作站24来搜索元数据搜索文件时，结果可以在显示器上显示给用户。用户可以分开地搜索网络中的每个DVR和存储设备，使得当监控系统扩大时，搜索可以容易地缩放。因此，可以具有并行运行的许多较小的数据库。这在这种类型的系统中运行良好，因为搜索可以彼此独立地运行，并且分开的数据库使系统容易地进行缩放。

可选地，用于该系统的一些或者所有的元数据搜索文件可以存储在一个存储位置(例如，存储器22或工作站24)中。元数据搜索文件是二进制平面文件，对这种文件可以快速地进行检索和搜索。与搜索结果相关联的时间戳用来定位相应的视频数据以便于显示给用户。

用户可以将有关所需搜索的输入提供给工作站。搜寻标准不必是精确的搜索。而且，例如，如图5所示，通过将显示在显示器212上的指针210移动到特定摄像机的视野中的位置214，用户可以提供输入。可选地，如图6所示，用户将显示在显示器222上的指针220移动到特定摄像机的视野中的特定对象224上以便于指示所需颜色，例如对象224的颜色，或指示进一步搜索的对象，例如，对象224。用户所使用的视野可以是实时的视野或者来自所录制的视频。可选地，通过分别在颜色框236、238和240上使用滑块230、232和234，用户可以输入对所需颜色的搜索，其中颜色框236、238和240提供不同程度的颜色例如红色、绿色和蓝色，以用于产生图7中显示在显示器244上的窗口242中所需的搜索颜色。用户查询的搜索特征可以用于找到与所选对象相似的对象。可替换地或附加地，搜索可被限定在用户定义的区域中和时间段内。给定特定的规则或一组规则，搜索过程将会检索数据库以获得该特征的搜索范围内的所有记录。所得结果将根据对象特征的相似性进行排序。所查询的特征可以是颜色、位置、速度、对象尺寸、长宽比、对象类型、事件等等的范围。用户可以在场景中设置一个或多个检测区并且使用规则逻辑来限定输出结果。

用户的查询所需的搜索标准可以如同在特定的位置定位对象那么简单，或者可以包含许多不同的属性，例如位置、大小、颜色、特定的运动等等。以下是一个例子，其中用户的兴趣在于查找位于特定的位置的对象。对于对象的编码位置(x、y坐标)来说，x和y的坐标范围是从0到255，也就是8位数值。如果搜索位于100、200(朝着场景的上中部)的对象，搜索就可以指定返回位于确切位置(100，200)的所有对象。然而，如果有的话，这种搜索可能会得到很少的结果，因为只有很少的对象精确地处于位置(100，200)。如果一个对象处于(99，200)处，搜索引擎将无法获得匹配。事实上，如果操作者正在生成可视化查询，其中，他点击屏幕上的接近如上所述的对象所处的位置的位置，那么这种点击将是相当不精确的。因此，获得精确的匹配也是不太可能的。可选的查询可以是查找例如x在w/2内并且y在h/2内的所有对象。这会找到落入(q＝100、200)位置周围的正方形内的所有对象。这种可选的查询优于试图获得精确的匹配，但是再次，可视化查询是十分不精确的，并且该对象可能仅处于该框的外面，并将再次不能产生匹配，尽管已经“足够接近”以满足这种搜索。扩大搜索窗口将包括更多的匹配，但是用户所需的是找到最接近位置(100、200)的所有事物。

一种用于确定最接近用户建立的搜索标准的对象的实施例如下：

x_q＝查询的x轴位置

y_q＝查询的y轴位置

x_n＝数据库中第n个对象的x轴位置

y_n＝数据库中第n个对象的y轴位置

查询位置到数据库中的任意对象的距离d计算如下：

如果搜索过程遍历数据库中的每条记录，并且计算每个对象到查询位置的距离，然后对结果进行排序，数据库中最接近该查询的对象将位于列表前部。使用这种方法并不需要用户指定搜索范围；它总是仅仅返回最接近的对象，或者通过在排序列表中提供前n个结果，它可以返回距离查询位置最接近的n个对象的列表。因此，本实施例使得用户能够用他的鼠标点击帧，从而请求找到与这一点接近的任何对象。

可以将同样的技术扩展到更复杂的搜索中，例如查询在进入特定的车道后以高速穿过该场景的红色轿车。换句话说，用户需要关于颜色、位置、速度和长宽比(例如，汽车与人相比是宽对象)的所有接近的匹配。颜色具有三个维度(y，u，v)，位置有两个维度(x，y)，速度具有两个维度(u,v)，以及长宽比具有一个维度。因此，该搜索方法需要与查询中的八个维度匹配。使用下面的等式来计算八维空间中的距离，例如其显示计算30个独立的参数的等式。

一般来说，用户生成的查询可能不会十分精确，这正是本搜索实施例为什么极其有用的原因，即，它按优先级列表提供了模糊匹配。用户可以通过名称来指定颜色，例如，淡蓝色，或者可以从如上所述的颜色选择器中选择颜色。其它的搜索标准可以允许用户选择用于颜色的一般性例子。

对于查询来说，并非所有的参数都是已知的或者是不完全已知的。例如，用户可能仅仅知道他正在寻找一辆浅色的车(更加注意亮度Y却没有注意u和v，即，色度)。仅仅知道该对象的位置处于该场景的上半部分(注意位置的y分量却很少注意x分量)。因此，用户可能需要权衡各个查询分量的重要性的搜索方法的实施例；本实施例中的计算方法如下：

其中n是每个对象的维度数量，w_i是各分量的加权因子，q_i是查询的第i个维度的分量值，x_i是数据库中的对象的第i个维度的分量值。

查询可以遍历数据库中的所有对象，并且可以找到最接近的匹配的d的最小值。还可以找到一定数量的d的最低值，并且可以将这些结果呈现给用户以用于视觉确认。由于标准的关系数据库不执行这种类型的数学查询，该方法需要检查每条记录与目标查询的差距。具备每秒搜索数百万记录的能力的现代CPU可以十分容易地计算这种类型的计算。这将允许搜索方法的该实施例在短短的几秒钟内，在48-频道的数字视频记录器的每个频道上执行专门的查询。

参考图8，捕获并制作用于数据库搜索的帧的过程300包括所示的方框。然而，过程300仅是实例，而非限制。例如，通过添加、去除、重新排列、组合和/或同时执行某些步骤，过程300可以进行更改。此外，当捕获视频帧时，过程300可以实时地发生。在方框310处做出关于是否是捕获帧的时间的决定。帧捕获之间的预定时间可以设置为任何所需的间隔，例如每半秒。如果所分配的时间已经过去了，那么在方框320处，帧的视频数据被捕获。随后，在方框330处，根据为特定摄像机设置的规则，进行视频数据的分析。在方框340处，根据该分析所创建的元数据与视频数据相结合，并且在方框350处，例如，可以将源自过程300的数据库搜索帧提供给网络、直接地提供给DVR或工作站，或例如通过DVD刻录机记录到合适的介质中，以供日后分析。

参考图9，接收和处理用于随后搜索的搜索帧的过程400包括所示的方框。然而，过程400仅是实例而非限制。例如，通过添加、去除、重新排列、组合和/或同时执行某些步骤，过程400可以进行更改。在方框410处，例如，通过DVR接收来自网络18的搜索帧。在方框420处，来自搜索帧的元数据被存储在元数据搜索文件中以用于随后例如通过工作站24进行搜索。然后，在方框430，与搜索帧相关的视频数据可以被存储。在一些实施例中，视频数据可以与元数据搜索文件分开地存储或与视频数据组合存储。

参考图10，用于执行用户所要求的搜索的过程500包括所示的方框。然而，过程500仅是实例而非限制。例如，通过添加、去除、重新排列、组合和/或同时执行某些步骤，过程500可以进行更改。在方框510处，过程500等待来自用户的查询。在方框520处，当收到查询时，得到用于搜索的合适文件。通过工作站24获得的合适文件可以存储在例如DVR20中。在方框540中，根据用于多维搜索的上述等式，按照用户提供的标准来进行模糊搜索。在方框550处，例如，搜索的结果可以在显示器36上提供给用户。随后，在方框560处，过程500等待用户在搜索结果中选择一个或多个所列出的条目。在方框570处，当用户选择了结果条目时，过程500随后检索与该条目相关联的视频数据，然后在方框580处，将其显示在显示器36上以便于用户查看。

除了查询功能，公开讨论的搜索方法能够产生在指定的一段时间内的统计报告以显示在此期间事件发生的类型以及事件数目。对于每个事件来说，如果需要的话，可以进行特定的细分。例如，在过去的一天内的人数计数的报告可以以五分钟的间隔给出。从元数据和相应的视频内容中也可以产生视频概略，以从视频中提取对象，并将它们贴在一起，从而在单一的图像中生成视频概略。

参考图11，根据所要求的搜索生成报告的过程600可以包括所示的方框。然而，过程600仅是实例而非限制。例如，通过添加、去除、重新排列、组合和/或同时执行某些步骤，过程600可以进行更改。在方框610处，由用户设定搜索报告标准。随后，在判定点620，过程600根据由用户指定的时间框确定是否到产生报告的时间。随后，当一段合适的时间已经过去，如每天生成一次报告的24小时，过程600在方框630处检索用于搜索的元数据，在640处执行模糊搜索并且在方框650处提供报告结果。

其他的实施例和实现在本公开以及所附的权利要求的范围和精神之内。例如，由于软件的性质，上述的功能、流程图以及过程都可以使用由处理器执行的软件、硬件、固件、硬布线或任意这些的组合来实施。实现功能的特征在物理上也可以处于各种位置，包括它们被分布使得部分功能在不同的物理位置上实现。此外，如此处所使用的，包括权利要求书中使用的，在前面冠有“至少一个”的一列项目中所使用的“或”，指的是分隔的列表，使得例如“A、B或C中的至少一个”的列表是指A或B或C或AB或AC或BC或ABC(即，A和B和C)。

此处所述和所示的过程和方法可以被存储在计算机可读介质中，其是指用于存储计算机可访问的数据的任何存储设备。计算机可读介质的实例包括磁性硬盘、软盘、光盘(例如CD-ROM或DVD)、磁带、存储芯片以及用于携带计算机可读的电子数据的载波，例如用于发送和接收电子邮件或访问网络的那些。

尽管本文所述的各种实施例都属于视频监控系统，但是使用由监测环境以外的商业和非商业的个人捕获的视频数据，可以使用相同的过程和方法。例如，可由消费者摄像机创建搜索文件。这些文件可以随后直接下载到个人计算机或固态存储设备、磁带、磁盘或其它存储设备上，所述其它存储设备可以随后在消费者选定的时间下载到个人计算机。本文所述的搜索过程可以驻留在个人计算机上，以使用关于视频监控系统描述的相同方式来分析视频，从而允许用户无需观看数小时的视频数据就可以找到所感兴趣的视频。

此外，公开了不止一项发明。

Claims

1.一种用于搜索视频数据的方法，所述方法包括：

经由用户接口显示对多个查询维度的指示；

通过所述用户接口从用户接收搜索查询，其中，所述搜索查询包括所述多个查询维度，其中，所述多个查询维度包括选自包含以下项的列表的至少一个维度：x轴位置、y轴位置、颜色、x轴速度、y轴速度以及长宽比；

计算所述多个查询维度与视频数据库内存储的元数据中所识别的对象的维度之间的距离度量；以及

通过所述用户接口提供视频片段的列表，其中，所述视频片段包括距离度量小于阈值的对象。

2.根据权利要求1所述的方法，其中，所述多个查询维度与对象的分类或跟对象相关的事件两者中的任意一者或两者相关。

3.根据权利要求2所述的方法，其中，所述搜索查询包括对象分类和对象事件两者中的任意一者或两者，以及针对与对象分类和对象事件两者中的任意一者或两者相匹配的元数据的搜索。

4.根据权利要求1所述的方法，还包括：

从用户接收识别所述视频片段的列表中的指示的视频片段的指示；

检索所述指示的视频片段；以及

向用户显示所述指示的视频片段。

5.根据权利要求1所述的方法，其中，所述搜索查询包括识别特定摄像机的视野中的对象位置的信息。

6.根据权利要求1所述的方法，其中，所述搜索查询包括分类内的范围和事件的范围两者中的任意一者或两者。

7.根据权利要求1所述的方法，其中，所述多个查询维度按优先级列表提供模糊匹配，并且其中，使用如下公式计算所述距离度量以便权衡各个查询维度分量的重要性：

<mrow> <mi>d</mi> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mi>n</mi> </mrow> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

其中n是每个对象的维度数量，w_i是各查询维度分量的加权因子，q_i是查询的第i个维度的分量值，x_i是所述视频数据库中的对象的第i个维度的分量值。

8.一种用于搜索视频数据的计算机系统，所述计算机系统包括：

用于经由用户接口显示对一组查询维度的指示的模块；

用于通过所述用户接口从用户接收包括所述一组查询维度的搜索查询的模块，其中，所述查询维度包括指示颜色、长宽比、速度或位置中的一个或多个的值；

用于计算所述一组查询维度和每个与视频帧中所识别的对象相关的对象维度组之间的距离度量的模块；及

用于通过所述用户接口提供视频片段的列表的模块，其中，所述视频片段包括距离度量小于阈值的对象。

9.根据权利要求8所述的用于搜索视频数据的计算机系统，其中，用于计算所述距离度量的模块使用以下公式：

其中，x_n是第n个对象维度并且q_n是第n个查询维度。

10.根据权利要求8所述的用于搜索视频数据的计算机系统，还包括：

用于从元数据检索一组对象维度的模块。

11.根据权利要求8所述的用于搜索视频数据的计算机系统，其中，所述阈值是第二个最低的距离度量。

12.根据权利要求8所述的用于搜索视频数据的计算机系统，其中，所述查询维度按优先级列表从而提供模糊匹配，并且其中，使用如下公式计算所述距离度量以便权衡各个查询维度分量的重要性：

其中n是每个对象的维度数量，w_i是各查询维度分量的加权因子，q_i是查询的第i个维度的分量值，x_i是所述视频帧中的对象的第i个维度的分量值。

13.一种视频处理系统，包括：

用户接口，其被配置成显示对多个查询值的指示和接收用户输入；

视频数据存储设备，其包括与视频数据相关的视频元数据；以及

处理器，其通信地耦合到所述用户接口和所述视频数据存储设备，其中，所述处理器被配置成：

使所述用户接口显示对所述多个查询值的指示；

通过所述用户接口接收包括所述多个查询值的搜索查询，其中，所述查询值包括指示对象位置坐标、对象速度值、对象长宽比或对象颜色中的一个或多个的值；以及

计算所述查询值和与所述视频数据存储设备内存储的所述视频元数据相关的一组对象值之间的距离度量。

14.根据权利要求13所述的视频处理系统，其中，所述处理器还被配置成通过所述用户接口提供距离度量小于阈值的视频片段的列表。

15.根据权利要求13所述的视频处理系统，其中，所述处理器还被配置成提供与具有最低距离度量的对象相关的视频片段，所述最低距离度量来自与对应的多组对象值相关的多个距离度量。

16.根据权利要求13所述的视频处理系统，其中，所述查询值包括用于对象颜色的三个值。

17.根据权利要求13所述的视频处理系统，其中，所述多个查询值按优先级列表从而提供模糊匹配，并且其中，使用如下公式计算所述距离度量以便权衡各个查询值分量的重要性：

其中n是每个对象的查询值数量，w_i是各查询值分量的加权因子，q_i是查询的第i个值的分量值，x_i是所述视频数据存储设备中的对象的第i个查询值的分量值。