CN102726047B

CN102726047B - 侦测系统

Info

Publication number: CN102726047B
Application number: CN201080050940.1A
Authority: CN
Inventors: 朴光勋
Original assignee: Industry Academic Cooperation Foundation of Kyung Hee University
Current assignee: Industry Academic Cooperation Foundation of Kyung Hee University
Priority date: 2010-03-19
Filing date: 2010-12-17
Publication date: 2016-06-08
Anticipated expiration: 2030-12-17
Also published as: JP5596801B2; WO2011115356A1; US9082278B2; US20110228092A1; CN102726047A; JP2013527998A

Abstract

一种侦测系统包括：输入单元，接收通过使用第一摄像机而获取的多个视频帧；视频处理单元，对多个视频帧执行预测和编码处理；运动对象跟踪单元，基于来自预测和编码处理的结果的至少一部分，在视频帧之间跟踪运动对象，以产生所跟踪的运动对象的位置信息；以及控制单元，基于位置信息产生控制信号，并将控制信号发送给第二摄像机，以控制第二摄像机的移动。

Description

侦测系统

背景技术

侦测系统常用于自动检测特定的感兴趣事件，例如入侵者的出现，丢弃的包裹以及特定面容。该系统还用于监视受限区域，例如银行、公共机构、拥塞的道路等。鉴于对这种侦测系统的需求不断增加，存在的兴趣在于对捕获的多种情况的视频图像进行编码以及跟踪运动对象，以通过数据网络进行高效传输，用于遥控，而不会增大侦测系统中这种高计算负载的硬件成本或复杂度。

发明内容

解决问题的方案

提出了侦测系统和侦测系统的多种实施例。在一个实施例，通过非限制性示例，一种侦测系统包括：输入单元，配置为接收通过使用第一摄像机而获取的多个视频帧；视频处理单元，配置为对所述多个视频帧执行预测和编码处理；以及运动对象跟踪单元，配置为基于来自预测和编码处理的结果的至少一部分，在所述多个视频帧之间跟踪运动对象，以产生所跟踪的运动对象的位置信息。该侦测系统还包括：控制单元，配置为基于位置信息产生控制信号，并将控制信号发送给第二摄像机，以控制第二摄像机的移动。

以上发明内容仅仅是说明性的，而绝不是限制性的。除了上述示例性的各方案、各实施例和各特征之外，参照附图和以下详细说明，将清楚其他方案、其他实施例和其他特征。

附图说明

图1示出了侦测系统的示例实施例的示意框图。

图2示出了图1所示侦测系统中的视频处理单元的示意框图。

图3a到3c示出了图1侦测系统执行的帧内预测处理的示意图。

图4示出了图1侦测系统执行的帧间预测处理的示意图。

图5a到5e示出了采样视频图像、以及图1侦测系统计算的采样视频图像的有关预测和编码信息。

图6a到6d示出了对图5a所示采样视频图像执行的运动分类的结果。

图7是侦测方法的示例实施例的流程图。

图8是运动对象跟踪处理的示例实施例的流程图。

图9是运动分类处理的示例实施例的流程图。

具体实施方式

在以下详细说明中，参考了作为详细说明的一部分的附图。在附图中，类似符号通常表示类似部件，除非上下文另行指明。具体实施方式部分、附图和权利要求书中记载的示例性实施例并不是限制性的。在不脱离在此所呈现主题的精神或范围的情况下，可以利用其他实施例，且可以进行其他改变。应当理解，在此一般性记载以及附图中图示的本公开的各方案可以按照在此明确考虑并作为本公开一部分的多种不同配置来设置、替换、组合和设计。

将理解，根据本公开示例实施例的系统和方法可以多种形式实现，包括硬件、软件、固件、专用处理器或其组合。例如，本公开的一个或多个示例实施例可以实现为具有程序的应用或其他适合的计算机可执行指令，它们有形地实现在例如程序存储设备(例如，硬盘、磁软盘、RAM、ROM、CD-ROM等)至少一个计算机可读介质上，并可由包括计算机和计算机系统的具有适当配置的任何设备或机器执行。一般而言，计算机可执行指令可以具有程序模块形式，包括例程、程序、对象、组件、数据结构等，其执行特定任务或实现特定抽象数据类型。在多种实施例中可以按需组合或分配程序模块的功能。将进一步理解，由于附图中示出的构成系统组件和过程操作的一些可以实现为软件，所以系统单元/模块之间的连接(或方法操作的逻辑流)可以依据本公开多种实施例所编程的方式而不同。

图1示出了侦测系统100的示例实施例的示意框图。如图所示，侦测系统100可以包括输入单元120、视频处理单元130、运动对象跟踪单元140和摄像机控制单元150。

输入单元120可以从例如摄像机、可携式摄像机等图像捕获设备(未示出)接收多个视频帧。例如，输入单元120可以耦合至第一摄像机112并接收第一摄像机112捕获或拍摄的具有视频帧的视频。依据具体实施要求，第一摄像机112可以是广角摄像机。在一些实施例中，输入单元120可以是通过采用例如串行端口、并行端口、PS/2端口、通用串行总线(USB)链接、火线或IEEE1394链接等数字接口协议，或采用例如红外接口、ZigBee、高清多媒体接口(HDMI)、高带宽数字内容保护(HDCP)、无线保真度(Wi-Fi)、局域网(LAN)、广域网(WAN)等无线接口连接等，来实现通信协议(有线或无线)的接口单元。输入单元120可以将视频帧变换为数字图像数据。输入单元120可以使用多种已知数据处理技术中的任何技术，例如模数转换、量化等，以从视频帧获得数字图像数据。数字图像数据可以表示图像帧的特征，例如图像帧多个像素位置处的强度、颜色等。在一个实施例中，输入单元120可以包括将视频帧变换为数字图像数据的数字转换器(未示出)。

视频处理单元130可以处理输入单元120生成或产生的数字图像数据，例如从图像捕获设备(例如第一摄像机112)捕获的视频帧产生的数字图像数据。例如，作为数字图像数据的处理的一部分，视频处理单元130可以执行预测和编码处理，以产生编码比特流，可以通过数据网络将编码比特流传输给遥控单元(未示出)。在一个实施例中，视频处理单元130可以产生预测和编码信息并将它们传输给运动对象跟踪单元140。运动对象跟踪单元140可以通过使用预测和编码信息，在多个视频帧之间捕获、识别、检测和/或跟踪对象。稍后详细描述预测和编码处理和对象跟踪。

摄像机控制单元150配置为控制第二摄像机114的操作。依据具体实施要求，第二摄像机114可以是广角摄像机。摄像机控制单元150可以配置为基于运动对象跟踪单元140产生的信息(例如，视频帧中运动对象的位置信息)，产生控制信号，并传输所产生的控制信号以控制第二摄像机114的操作或运动。第二摄像机114的操作可由摄像机控制单元150控制，稍后将详细描述控制信号的产生。

在一些实施例中，侦测系统100(或侦测系统100的各个单元，例如视频处理单元130、运动对象跟踪单元140和摄像机控制单元150)可以包括处理器、微处理器、数字信号处理器(DSP)、微控制器等。侦测系统100可以包括至少一个嵌入式系统存储器以存储和操作软件应用，包括操作系统、至少一个应用程序和其他程序模块。侦测系统100促进用于管理和控制侦测系统100的操作的合适操作系统的运行。这些操作可以包括向和从相关的软件应用程序/模块输入和输出数据。操作系统可以提供软件应用程序/模块与例如侦测系统100的硬件组件之间的接口。

在一些实施例中，侦测系统100可以包括配置为存储数据的存储器(未示出)，数据在侦测系统100的组件或单元/模块之间传输。侦测系统100的多个组件或单元/模块可以利用存储器(包括易失性和非易失性)用于数据处理。例如，输入单元120可以将经由一个或多个图像捕获设备获取的一个或多个数字图像数据(例如，经由第一摄像机112的数字图像数据)存储在存储器中，以由视频处理单元130处理。视频处理单元130可以从存储器获取数字图像数据并进行处理。

图2示出了图1所示视频处理单元的示例实施例的示意框图。视频处理单元130可以包括预测模块132和变换/编码模块134。预测模块132可以从输入单元120(或存储器)接收图像数据，并以宏块(例如，16×16显示像素)为单位处理图像数据的视频帧，以基于先前编码的视频数据产生当前宏块的运动估计(例如，运动矢量)的有关信息(以下称为“预测信息”)。可以基于来自当前视频帧的先前编码视频数据确定当前宏块的预测信息(以下称为“帧内预测”或“帧内编码”)，或者可以基于来自已经编码并传输的其他视频帧的先前编码视频数据确定当前宏块的预测信息(以下称为“帧间预测”或“帧间编码”)。预测模块132可以从当前宏块中减去所预测的宏块(可以由预测信息表示)，以形成残差信息。以下将参照图3到5详细描述预测信息和残差信息的产生。变换/编码模块134可以从预测模块132接收残差信息，并例如通过使用离散余弦变换(DCT)来变换残差信息，以输出系数集，然后系数集被量化。可以例如使用可变长度编码和/或算术编码方法将量化的变换系数转换成比特流，以通过数据网络传输。

在一些实施例中，视频处理单元130的预测模块132可以通过使用运动估计方法，例如由运动图像专家组(MPEG)或H.264等压缩标准支持的可变大小块运动估计，来产生预测信息。根据H.264标准，如图3a到3c所示，可以使用4×4、8×8或16×16块大小来执行视频帧中的帧内预测，以根据相同视频帧内的先前编码的周围的像素来预测当前宏块。H.264标准利用相邻宏块/块之间的空间相关性来进行帧内预测。具体地，可以通过较早解码的上侧和左侧宏块中的相邻像素，来预测当前宏块。对于luma预测采样，可以针对每个4×4子块、8×8块或16×16宏块，形成预测块。针对每个4×4和8×8luma块，从总共9种预测模式选择一种情况；对于16×16luma块，4种模式；对于每个色度块，4种模式。

在4×4帧内预测模式中，可以从上侧或左侧的4×4块的相邻像素预测每个4×4块luma采样的值。在一个实施例中，如图3a所示，存在预测模块132可以选择的9个不同方向。每个预测方向对应于先前解码的采样的空间相关线性组合的特定集合，该集合用作每个输入采样的预测。为说明目的，图3b示出了像素“a”到“p”的4×4像素块，属于要被编码的宏块。像素A到M是在预测当前4×4块的像素时使用的已经解码的相邻像素。图3c示出了9种4×4帧内预测模式。例如，对于模式2(DC)，通过(A+B+C+D+I+J+K+L)/8来预测所有像素(标记为“a”到“p”)。模式0指定了垂直预测模式，其中根据A预测像素(标记为“a”、“e”、“i”和“m”)，根据B预测像素(标记为“b”、“f”、“j”和“n”)，以此类推。如果采用水平预测(模式1)，从像素E预测像素“a”到“d”，从像素F预测像素“e”、“f”、“g”、“h”。对于模式3(对角线左下)、模式4(对角线右下)、模式5(垂直向右)、模式6(水平向下)、模式7(垂直向左)和模式8(水平向上)，根据预测采样A-M的加权平均，形成预测的采样。例如，通过在模式4中对(I*4+M*2+A*4)取整和对(B*4+C*2+D*4)取整，并在模式8中对(I*2+J*2)取整和对(J*4+K*2+L*4)取整，来分别预测采样“a”和“d”。通过使编码块与其预测之间的残差最小，为每个块选择最佳的预测模式。

如图4所示，帧间预测可以使用一系列块大小(例如，可变大小块，从16×16像素一直到4×4像素)，从先前编码视频帧中的类似区域预测当前视频帧中的像素或宏块。具体地，可以执行帧间预测来找到相继视频帧之间运动补偿块的最佳匹配。然后可以确定运动矢量来表示当前视频帧与先前编码帧中两个宏块(即，两个最佳匹配宏块)之间的相对位移。例如，H.264支持具有多种选项的从16×16到4×4亮度采样的运动补偿块大小。每个宏块的亮度分量(16×16采样)可以4种方式划分为16×16、16×8、8×16或8×8。如果选择8×8模式，则该宏块内的4个8×8宏块分区中的每一个可以进一步以4种方式划分为8×8、8×4、4×8或4×4。对于每个分区或子分区，要求单独的运动矢量。可以对每个运动矢量编码以用于传输。

如上详细所述，由视频处理单元130的预测模块132产生的预测信息可以包括运动矢量，运动矢量表示当前视频帧与先前编码帧中两个宏块之间的相对位移。在一个实施例中，可以根据由二维矢量表示的运动矢量，得到运动位移，该二维矢量提供从当前视频帧中的坐标到先前编码视频帧中的坐标的偏移。在可变大小块运动估计方法中，可以在计算运动矢量时使用不同宏块大小，例如4×4、4×8、8×4、8×8、8×16、16×8和16×16。

图5a示出了包括例如行走的人等运动对象的采样视频图像，图5b示出了以多种宏块大小划分图像。例如，如图5b所示，可以将较大大小的块(一般使用斜线表示)分配给视频帧中相对静止和同质的图像区域，例如背景区域510。相反，可以将较小大小的块(一般使用空白框表示)分配给视频帧中包含复杂运动对象(例如，如图5b所示，移动或行走的人)的图像区域，例如前景区域520。图5c示出了可以基于图5b所示图像的划分而得到的运动矢量。如图5c所示，如果小对象(例如，图像区域520中)在静止背景(例如，图像区域510中)上运动，则可以通过运动估计得到可变大小的运动矢量。在这种情况下，可以从静止背景得到具有小的值(或甚至不具有值)的运动矢量。可以通过执行多种块匹配方法来计算运动矢量。根据H.264标准，针对该标准中定义的所有块大小，在当前视频帧与先前编码帧之间执行最佳块匹配的穷尽搜索，来确定运动矢量。备选地，可以使用其他任何类型的块匹配方法，包括自适应块匹配方法，来提高块匹配性能。

在一些实施例中，预测信息可以包括残差数据，通过从当前视频帧中的宏块减去预测的宏块(可以由预测信息表示)，来确定该残差数据。包含大量残差数据的图像区域或宏块可以表示复杂运动对象的可能性较大。如图5d所示，包含较大值的残差信息的宏块可以表示例如移动的人等运动对象(例如，图像区域520中)。

在一些实施例中，预测信息可以包括与视频帧中要分配的宏块的类型有关的信息(“宏块类型信息”)。如上所述，在可变大小块运动估计方法中，较小大小的块可以分配在视频帧中包含复杂运动对象的图像区域中。例如，如图5b所示，具有运动对象的图像区域520很可能包括分配给该图像区域的较小大小的块。在一个实施例中，块大小不大于预定尺寸(例如，4×4)的宏块可以被定义为“复杂”型宏块。例如，可以确定视频帧中被分配了复杂型宏块的图像区域包含运动对象。在一个实施例中，在确定图像区域是否包含运动对象时，可以使用“跳过宏块”。一般而言，跳过宏块定义为其宏块的有关信息不被传输，并且直接从参考视频帧(或从先前编码视频帧)取得针对该宏块的图像区域，这是因为当前视频帧与参考视频帧中两个块之间的相关性较高。例如，跳过宏块可以定义为不包含运动对象的宏块(例如，图5b中斜线指示的宏块)。此外，被跳过宏块包围的复杂型宏块可以定义为不包含运动对象的宏块。宏块类型信息可以包括与宏块是否要在帧内编码模式下处理有关的信息。要在帧内编码模式下处理的宏块确定为对应于包含运动对象的图像区域。

返回参照图2，变换/编码模块134可以基于预测模块132产生的预测信息，产生编码信息。具体地，变换/编码模块134可以执行预测信息的变换和量化。根据H.264，在变换处理中，可以使用4×4或8×8整数变换(离散余弦变换(DCT)的近似形式)，来变换包括预测信息的残差数据。由变换/编码模块134执行的变换处理可以输出系数集，其中每个系数是针对标准基本图案的加权值。将变换处理的输出(变换系数的块)量化，即，每个系数除以整数值。变换/编码模块134可以执行编码处理，将量化的变换系数与其他信息(例如，使解码器能够重建预测信息的信息、关于压缩数据结构的信息等)一起编码，以形成压缩比特流。在编码处理中，可以使用可变长度编码和/或算术编码将预测信息转换为二进制码。

在一些实施例中，运动对象跟踪单元140可以执行运对象跟踪处理以在连续视频帧中检测和跟踪运动对象。可以基于预测模块132产生的预测信息和/或变换/编码模块134产生的编码信息，执行运动对象跟踪处理。在帧内编码模式中，编码信息可以包括每宏块编码比她的数目。例如，图5e示出了对于采样视频图像(如图5a所示)，每宏块编码比特的数目，其中淡色的区域或宏块对于每宏块包括更多编码比特。这种编码信息可以包含关于残差数据的信息。具体地，来自宏块的大量残差数据要求分配更多比特对该宏块编码。例如，如果分配来对宏块编码的比特的数目大于预定值，则可以定义该宏块包括运动对象。由运动对象跟踪单元140执行的运动对象跟踪处理可以与预测模块132和变换/编码模块134执行的任何处理同时进行。运动对象跟踪单元140可以基于由预测模块132和变换/编码模块134产生的预测信息和编码信息的至少一部分或者预测信息和编码信息的组合，执行运动对象跟踪处理。

在一些实施例中，运动对象跟踪单元140可以基于预测信息和编码信息的至少一部分，执行第一运动分类，以产生包含运动对象的候选图像区域(或宏块)的列表。然后，运动对象跟踪单元140可以基于预测信息的至少一部分，执行第二运动分类，以产生包含运动对象的最终图像区域的列表。可以通过从候选图像区域的列表中去除基于预测信息不满足特定分类准则的图像区域，来执行第二运动分类。下面将描述第一和第二运动分类的示例。

为了执行第一运动分类，在一个实施例中，运动对象跟踪单元140可以基于预测模块132产生的可变大小运动矢量，确定当前视频帧中包含运动对象的图像区域或宏块。运动矢量的幅度表示相对于先前编码视频帧，当前视频帧中包含对象的宏块(大小为16×16的宏块，或大小更小的块，例如16×16、16×8、8×16、8×8、8×4、4×8或4×4)的位移。因此，如果运动矢量具有的幅度越大，则宏块具有运动对象的可能性就越高。图6a示出了图5a所示采样视频图像的运动矢量，指示了具有更大幅度的运动矢量的图像区域610到650。例如，如果当前视频帧中宏块(例如图6a中图像区域611到615)的运动矢量的幅度大于预定值，则可以将该宏块确定为包括运动对象的候选图像区域。

在另一实施例中，运动对象跟踪单元140可以基于预测模块132产生的残差信息，确定候选图像区域或宏块。包含大量残差数据的宏块表示复杂运动对象的概率较大。图6b示出了图5a所示采样视频图像的残差信息，指示了具有更大幅度的残差信息的图像区域621到628。例如，如果当前视频帧中宏块(例如图6b中图像区域621到628)的残差信息的幅度大于预定值，则可以将该宏块确定为包括运动对象的候选图像区域。在另一实施例中，运动对象跟踪单元140可以根据预测模块132产生的宏块类型信息来确定候选图像区域或宏块。如果向宏块指定了帧内编码模式，则该宏块可能是运动对象的一部分。例如，如果宏块类型信息指示要在帧内编码模式下处理当前视频帧中的宏块，则运动对象跟踪单元140可以将该宏块确定为包括运动对象的候选图像区域。

作为另一示例，如果宏块类型信息指示当前视频帧中的宏块被确定为复杂型(例如，块大小不大于4×4的宏块)，则可以将该宏块确定为包含运动对象的候选图像区域。如上所述，具有运动对象的图像区域(或宏块)将很可能包括分配给该图像区域的较小大小的块。图6c示出了以多种大小的宏块划分采样视频图像(如图5a所示)。如图所示，如果在视频图像的一些区域(例如图6c中图像区域631到634)中图像划分非常复杂，则这些图像区域可能是包括运动对象的区域的一部分。

在一些实施例中，运动对象跟踪单元140可以基于变换/编码模块134产生的编码信息，执行第一运动分类。例如，包括残差信息幅度较大的宏块在内的图像区域(图6b中，图像区域621到628)可以向这些宏块分配较大数目的比特。包括被分配较大数目比特的宏块在内的图像区域可以是包括运动对象的区域的一部分。例如，如果编码信息指示被分配以对宏块编码的比特的数目大于预定数目，则可以将该宏块确定为包括运动对象的候选图像区域。被分配以对宏块编码的比特的数目可以依据该宏块所表示的图像的复杂度，而用于确定候选图像区域的预定数目可以基于被分配以对宏块编码的比特的平均数目来设定。可以由变换/编码模块134基于先前输入的图像数据来计算这种比特平均数目。具体地，可以对被分配以编码视频帧中包括的所有宏块的比特的数目求和，然后用比特数目之和除以宏块的数目，来计算比特的平均数目。在一个实施例中，变换/编码模块134可以保持最新更新的平均比特数目，以执行第一运动分类。

在第二运动分类中，运动对象跟踪单元140可以基于预测信息向运动对象跟踪过程应用附加的分类准则，从而确定包括运动对象的图像区域的最终列表。可以通过从候选图像区域列表中去除不满足分类准则的图像区域，来执行第二运动分类。稍后将描述用于第二运动分类的附加分类准则的示例。在一个实施例中，可以使用宏块的大小作为用于第二运动分类的分类准则。例如，如果在运动对象跟踪过程中使用可变大小块运动估计方法(如上参照图6a和6b所示)，则可以从候选图像区域列表中去除大小不大于预定值(例如，4x4)的宏块。例如，可以从图6a的候选图像区域611到615中去除大小较小的图像区域614和615，而可以从图6b的候选图像区域621到628中去除大小较小的图像区域623到628。在另一实施例中，包围宏块的宏块的类型可以用作分类准则。例如，如果在运动对象跟踪过程中使用宏块类型信息(如上参照图6c所述)，并且候选图像区域列表中包括的宏块是由跳过宏块包围的复杂类型宏块，则可以从候选图像区域列表中去除该宏块。例如，可以从图6c的候选图像区域631到634中去除图像区域633和634，这些图像区域具有由跳过宏块(由斜线块指示)包围的复杂类型宏块。

在一些实施例中，运动对象跟踪单元140可以基于上述各个运动分类结果的至少一部分的加权组合，来执行附加的运动对象跟踪过程。这种附加运动对象跟踪过程可以作为第一和第二运动分类完成之后的可选步骤来执行。在一些实施例中，加权的“与(AND)”运算可以用于确定第一和第二运动分类的加权组合，以确定包含运动对象的图像区域或宏块。例如，如图6D所示，运动对象跟踪单元140可以基于如上参照图6a到6c所述的各个运动分类结果的“与”组合，来执行运动对象跟踪过程。例如，对于根据相应的运动分类准则确定的候选图像区域(或宏块)的各个列表，可以给出从0.0到1.0范围内的预定权重。在一个实施例中，可以将较大权重(例如0.7)给予根据预测信息确定的候选图像区域列表，而将较小权重(例如0.3)给予根据编码信息确定的候选图像区域列表。可以通过以预定权重组合各个候选图像区域列表，并选择权重大于预定值(例如0.5)的图像区域，来确定最终图像区域列表。此外，运动对象跟踪单元140可以执行第一运动分类和第二运动分类中的至少一个，来确定包括运动对象的图像区域的最终列表。一旦确定了包括运动对象的图像区域的最终列表，运动对象跟踪单元140可以基于包括运动对象的图像区域的最终列表，产生所跟踪的运动对象的位置信息。在一个实施例中，所跟踪的运动对象的位置信息可以包括当前视频帧内运动对象的二维坐标。

如图1所示，摄像机控制单元150可以基于来自运动对象跟踪单元140的位置信息产生控制信号，并将控制信号发送给第二摄像机114(例如PZT摄像机)。摄像机控制单元150可以例如使用通信模块向第二摄像机114发送控制信号，以控制第二摄像机114的移动。控制信号可以操作或控制第二摄像机114摇镜头和/或镜头推近/拉远，使得第二摄像机114可以捕获运动对象跟踪单元140正在跟踪的对象(例如，人)的特征部分(例如，面部)。摄像机控制单元150可以定义第一摄像机112与第二摄像机114之间的位置关系。在一些实施例中，第一摄像机112与第二摄像机114可以查看相同区域的不同部分，使得可以将第一视频帧中的一点映射到第二图像帧中的另一点。第一图像帧和第二图像帧可以分别由第一摄像机112和第二摄像机114捕获或获取。摄像机控制单元150可以使用第一图像帧中被跟踪的运动对象的位置信息、以及第一摄像机112和第二摄像机114之间的位置关系，从而产生控制信号以控制第二摄像机114的移动。例如，摄像机控制单元150可以使用第一摄像机112和第二摄像机114之间的位置关系来处理第一图像帧中被跟踪的运动对象的位置信息，以估计第二摄像机114通过摇镜头和/或镜头推近/拉远而要覆盖和强调的位置。这样，摄像机控制单元150可以允许第二摄像机114捕获正被跟踪的对象的特征部分。在一些实施例中，第二摄像机114可以耦接至另一视频处理单元(未示出)以进行进一步处理，例如将正被跟踪的对象的特征部分编码成视频图像(例如，以MPEG或H.264格式)或静止图像(例如，以JPEG格式)。

侦测系统100可以包括显示器(未示出)以提供视觉输出(例如视频，诸如第一摄像机112捕获的视频和/或第二摄像机114捕获的视频)、以及/或者数字图像数据的处理结果等，以供例如操作者查看。该显示器可以包括但不限于平板显示器(包括CRT显示器)以及其他适合的输出设备。侦测系统100也可以包括其他外围输出设备(未示出)，例如扬声器或打印机。

在一些实施例中，侦测系统100还可以包括通信模块，其提供经由有线或无线通信协议至至少一个外部设备的逻辑连接性。可以采用数据接口协议(例如串行端口、并行端口、PS/2端口、通用串行总线(USB)链接、火线或IEEE1394链接)或无线接口连接(例如红外接口、ZigBee、高清多媒体接口(HDMI)、高带宽数字内容保护(HDCP)、无线保真度(Wi-Fi)、局域网(LAN)、广域网(WAN))等。在一些实施例中，通信模块可以包括调制解调器以通过移动通信系统进行通信，移动通信系统例如是全球移动通信系统(GSM)、全球定位系统(GPS)、数字移动多媒体(DMB)、码分多址(CDMA)、高速下行链路分组接入(HSDPA)、Wi-Bo无线宽带等。将理解，本公开中描述的连接方法仅是示例，可以使用在设备/计算机之间建立通信链接的其他方法。

在联网环境中，依据所需实施方式，侦测系统100的部分或全部组件可以通过两个或更多个设备实现为分布式系统。例如，视频处理单元130和运动对象跟踪单元140可以实现在服务器上，侦测系统100的其他模块/组件可以实现在移动设备或终端处。在该示例中，移动终端可以经由通信模块向服务器发送视频帧(例如，由移动终端中安装的第一摄像机112捕获)的数字图像数据，使得服务器可以执行视频编码和运动对象跟踪处理，并发送控制信号，以便移动终端操作其中安装的摄像机(例如，第二摄像机114)来进行进一步处理。侦测系统100可以使用至一个或多个远程设备(例如，远程计算机)的逻辑连接在联网环境中操作。远程计算机可以是个人计算机、服务器、手持或膝上设备、路由器、网络PC、对等设备或其他常见网络节点，并且典型地可以包括本公开中描述的有关侦测系统100的一些部件或所有部件。

图1的侦测系统100只是适当操作环境的一个示例，不是要用于限制本发明。适合于本公开所述的图像处理的其他已知计算系统、环境、和/或配置包括但不限于个人计算机、例如蜂窝电话等便携式设备、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、可编程的消费电子设备、网络个人计算机、小型计算机、大型计算机、包括图1所示任意单元或设备的分布式计算环境等。

图7是侦测方法的示意实施例的流程图。在框710，视频处理单元130产生关于当前视频帧的预测信息。第一视频帧可以由第一摄像机112(例如，广角摄像机)捕获或获取。视频处理单元130可以使用例如模数转换、量化等多种公知数据处理技术中的任意技术，将视频帧转换为数字图像数据。作为数字图像数据的处理的一部分，视频处理单元130可以执行预测、变换和编码处理，以生成要经由数据网络发送给远程单元的比特流。在一个实施例中，视频处理单元130可以宏块(例如，大小为4×4、4×8、8×4、8×8、8×16、16×8和16×16个显示像素)为单位处理视频帧，以产生视频帧的预测信息和编码信息。如上详细所述，预测信息可以包括运动矢量、残差数据和宏块类型信息中的至少一个。编码信息可以包括帧内编码模式下每宏块的编码比特的数目。视频处理单元130可以使用运动估计方法，例如运动图像专家组(MPEG)或H.264等公知压缩标准所支持的可变大小块运动估计，来产生预测信息和编码信息。

在框720，运动对象跟踪单元140基于预测信息和编码信息的至少一部分，或者基于预测信息和编码信息的组合，跟踪当前视频帧中的运动对象。图8是运动对象跟踪单元140执行的运动对象跟踪过程的示意实施例的流程图，包括基于预测信息和编码信息的运动分类的两个步骤810和820。运动对象跟踪单元140可以执行附加步骤830，来计算步骤810和820的单独的运动分类结果的加权组合。

在步骤810，运动对象跟踪单元140执行第一运动分类，以确定包含运动对象的候选图像区域或宏块的列表。在第一运动分类中，可以基于框710中产生的运动矢量、残差数据和宏块类型信息中的至少一个，确定候选图像区域的列表。如上详细所述并在图9的框910中示出的，可以基于可变大小运动矢量来执行第一运动分类。例如，如果针对当前视频帧中宏块的可变大小运动矢量的幅度大于预定值，则可以将宏块确定为包含运动对象的候选图像区域。在框920，可以基于残差数据执行第一运动分类。例如，如果针对当前视频帧中宏块的残差数据的幅度大于预定值，则可以将该宏块确定为包含运动对象的候选图像区域。此外，在框930，可以基于帧内编码模式的有关信息，执行第一运动分类。例如，如果宏块类型信息指示当前视频帧中宏块要以帧内编码模式处理，则可以将该宏块确定为包含运动对象的候选图像区域。在框940，可以基于宏块类型信息执行第一运动分类。例如，如果宏块类型信息指示当前视频帧中宏块是复杂类型的(例如，宏块的块大小不大于4×4)，则可以将该宏块确定为包含运动对象的候选图像区域。此外，在框950，可以基于每宏块编码比特，执行第一运动分类。例如，如果编码信息指示被分配以编码宏块的比特的数目大于预订数目，则可以将该宏块确定为包含运动对象的候选图像区域。如上详细所述，可以基于被分配以编码宏块的比特的平均数目，设定确定候选图像区域时使用的预定数目。比特的平均数目可由变换/编码模块134基于先前输入的图像数据来计算。

在框820，运动对象跟踪单元140执行第二运动分类，以确定包含运动对象的图像区域或宏块的最终列表。如上详细所述，在第二运动分类中，如果宏块或图像区域不满足预定准则，则可以从框810中确定的候选运动区域列表中去除这些宏块。如上详细所述，如果在运动对象跟踪过程中使用可变大小块运动估计，则可以从候选图像区域列表中去除大小不大于预定值(例如4×4)的宏块。此外，如果复杂类型宏块被跳过宏块包围，则可以从候选图像区域列表中去除该宏块。

在框830，运动对象跟踪单元140可以基于框810和820中确定的单独运动分类结果的至少一部分的加权组合，来执行附加的运动对象跟踪过程。在一些实施例中，可以使用加权“与”运算来确定第一和第二运动分类结果的加权组合，以用于确定包含运对象的图像区域或宏块。如上详细所述，对于根据各个运动分类准则而确定的候选图像区域(或宏块)的相应列表，可以给予范围从0.0到1.0的预定权重。可以通过以预定权重组合各个候选图像区域列表，并选择权重大于预定值(例如，0.5)的图像区域，来确定最终图像区域列表。

返回参照图7，在框730，一旦在框720确定了包含运动对象的最终图像区域的列表，运动对象跟踪单元140就可以基于该包含运动对象的最终图像区域的列表，产生所跟踪的运对象的位置信息。运动对象跟踪单元140可以将位置信息发送给摄像机控制单元150，摄像机控制单元150基于被跟踪的运动对象的位置信息，产生控制信号，以控制第二摄像机114(例如，窄角摄像机)的操作。例如，摄像机控制单元150可以发送控制信号来操纵第二摄像机114，以使第二摄像机114摇镜头和/或推近/拉远镜头。摄像机控制单元150使用控制信号来操作第二摄像机114，以捕获被跟踪的对象(例如，人)的特定部分(例如，面部)。摄像机控制单元150可以使用第一摄像机112与第二摄像机114之间的位置关系、以及当前视频帧中被跟踪对象的位置信息，来产生控制信号以控制第二摄像机114的移动。在一些实施例中，第二摄像机114可以将被跟踪对象的特定部分的有关信息发送给其他视频处理单元，以用于进一步处理，例如，将被跟踪对象的所述部分编码为视频图像(例如，按照MPEG或H.264格式)或静止图像(例如，按照JPEG格式)。

本公开不限于在本申请中描述的具体示例，这些具体示例意在说明不同方案。本领域技术人员清楚，不脱离本公开的精神和范围，可以做出许多修改和变型。本领域技术人员根据之前的描述，除了在此所列举的方法和装置之外，还可以想到本公开范围内功能上等价的其他方法和装置。这种修改和变型应落在所附权利要求的范围内。本公开应当由所附权利要求的术语及其等价描述的整个范围来限定。应当理解，本公开不限于具体方法、试剂、化合物组成或生物系统，这些都是可以改变的。还应理解，这里所使用的术语仅用于描述具体示例的目的，而不应被认为是限制性的。

至于本文中任何关于多数和/或单数术语的使用，本领域技术人员可以从多数形式转换为单数形式，和/或从单数形式转换为多数形式，以适合具体环境和应用。为清楚起见，在此明确声明单数形式/多数形式可互换。

本领域技术人员应当理解，一般而言，所使用的术语，特别是所附权利要求中(例如，在所附权利要求的主体部分中)使用的术语，一般地应理解为“开放”术语(例如，术语“包括”应解释为“包括但不限于”，术语“具有”应解释为“至少具有”等)。本领域技术人员还应理解，如果意在所引入的权利要求中标明具体数目，则这种意图将在该权利要求中明确指出，而在没有这种明确标明的情况下，则不存在这种意图。例如，为帮助理解，所附权利要求可能使用了引导短语“至少一个”和“一个或多个”来引入权利要求中的特征。然而，这种短语的使用不应被解释为暗示着由不定冠词“一”或“一个”引入的权利要求特征将包含该特征的任意特定权利要求限制为仅包含一个该特征的实施例，即便是该权利要求既包括引导短语“一个或多个”或“至少一个”又包括不定冠词如“一”或“一个”(例如，“一”和/或“一个”应当被解释为意指“至少一个”或“一个或多个”)；在使用定冠词来引入权利要求中的特征时，同样如此。另外，即使明确指出了所引入权利要求特征的具体数目，本领域技术人员应认识到，这种列举应解释为意指至少是所列数目(例如，不存在其他修饰语的短语“两个特征”意指至少两个该特征，或者两个或更多该特征)。另外，在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

本领域技术人员应当理解，出于任意和所有目的，例如为了提供书面说明，这里公开的所有范围也包含任意及全部可能的子范围及其子范围的组合。任意列出的范围可以被容易地看作充分描述且实现了将该范围至少进行二等分、三等分、四等分、五等分、十等分等。作为非限制性示例，在此所讨论的每一范围可以容易地分成下三分之一、中三分之一和上三分之一等。本领域技术人员应当理解，所有诸如“直至”、“至少”、“大于”、“小于”之类的语言包括所列数字，并且指代了随后可以如上所述被分成子范围的范围。

根据上述内容，可以理解为了说明目的，描述了本公开的多个实施例，在不背离本公开的范围和精神的前提下可以进行多种改变。因此，这里所公开的多个实施例不是限制性的，本公开的真实范围和精神由所附权利要求表征。

Claims

1.一种侦测系统，包括：

输入单元，配置为接收通过第一摄像机获取的多个视频帧；

视频处理单元，配置为产生关于所述多个视频帧的预测和编码信息；

运动对象跟踪单元，配置为基于预测和编码信息的至少一部分，在所述多个视频帧之间跟踪运动对象，以产生所述运动对象的位置信息，其中所述运动对象跟踪单元配置为：

基于预测信息和编码信息的至少一部分，执行第一运动分类，以确定包括运动对象的候选宏块的列表；

基于预测信息的至少一部分，通过从候选宏块的列表中去除不满足准则的宏块，执行第二运动分类，以确定包括运动对象的最终宏块的列表；

对于根据相应的运动分类准则确定的候选宏块的各个列表给出预定权重，其中将较大权重给予根据预测信息确定的候选宏块的列表，而将较小权重给予根据编码信息确定的候选宏块的列表；

通过以预定权重组合各个候选宏块的列表，并选择权重大于预定值的宏块，来确定最终宏块的列表；

基于包括运动对象的最终宏块的列表产生所述运动对象的位置信息；以及

摄像机控制单元，配置为基于位置信息产生控制信号，并将控制信号发送给第二摄像机，以控制第二摄像机的移动，使得能够捕获运动对象的特征部分。

2.如权利要求1所述的系统，其中，视频处理单元包括：

预测模块，配置为产生关于所述多个视频帧的预测信息，预测信息包括运动矢量、残差数据和宏块类型信息中的至少一个；以及

变换/编码模块，配置为产生编码信息，编码信息指示被分配以编码所述多个视频帧中宏块的比特的数目。

3.如权利要求1所述的系统，其中，运动对象跟踪单元基于宏块的运动矢量，执行第一运动分类，其中如果运动矢量的幅度大于预定值，则将该宏块确定为包括在候选宏块列表中。

4.如权利要求1所述的系统，其中，运动对象跟踪单元基于宏块的残差数据，执行第一运动分类，其中如果残差数据的幅度大于预定值，则将该宏块确定为包括在候选宏块列表中。

5.如权利要求1所述的系统，其中，运动对象跟踪单元基于宏块类型信息执行第一运动分类，其中如果宏块类型信息指示宏块要以帧内编码模式来处理，则将该宏块确定为包括在候选宏块列表中。

6.如权利要求1所述的系统，其中，运动对象跟踪单元基于宏块类型信息执行第一运动分类，其中如果宏块类型信息指示宏块包括MxM个图像像素，M不大于预定数，则将该宏块确定为包括在候选宏块列表中。

7.如权利要求1所述的系统，其中，运动对象跟踪单元基于编码信息执行第一运动分类，其中如果编码信息指示用于宏块的编码比特的数目大于预定数，则将该宏块确定为包括在候选宏块列表中。

8.如权利要求1所述的系统，其中，在运动对象跟踪单元执行的基于预测信息的至少一部分从候选宏块的列表中去除宏块的第二运动分类中，如果预测信息指示宏块包括MxM个图像像素，M不大于预定数，则确定将该宏块从候选宏块列表中去除。

9.如权利要求1所述的系统，其中，在运动对象跟踪单元执行的基于预测信息的至少一部分从候选宏块的列表中去除宏块的第二运动分类中，如果预测信息指示宏块被跳过宏块包围，则确定将该宏块从候选宏块列表中去除。

10.如权利要求1所述的系统，其中，第二摄像机是PTZ摄像机，其中基于控制信号使PTZ摄像机摇镜头或倾斜以拍摄视频。

11.一种侦测方法，包括：

产生关于从第一摄像机获取的多个视频帧的预测信息和编码信息；

基于预测信息和编码信息的至少一部分，在所述多个视频帧之间跟踪运动对象，预测信息包括关于所述多个视频帧的运动矢量、残差数据和宏块类型信息中的至少一个；

其中跟踪运动对象包括：基于预测信息和编码信息的至少一部分，执行第一运动分类，以确定包括运动对象的候选宏块的列表；

其中跟踪运动对象包括：基于预测信息的至少一部分，通过从候选宏块的列表中去除不满足准则的宏块，执行第二运动分类，以确定包括运动对象的最终宏块的列表；

其中跟踪运动对象包括：对于根据相应的运动分类准则确定的候选宏块的各个列表给出预定权重，其中将较大权重给予根据预测信息确定的候选宏块的列表，而将较小权重给予根据编码信息确定的候选宏块的列表；通过以预定权重组合各个候选宏块的列表，并选择权重大于预定值的宏块，来确定最终宏块的列表；

基于包括运动对象的最终宏块的列表产生所述运动对象的位置信息

基于所述运动对象的位置信息产生控制信号；以及

将控制信号发送给第二摄像机，以控制第二摄像机的移动，使得能够捕获运动对象的特征部分。

12.如权利要求11所述的方法，其中，在第一运动分类中，如果运动矢量的幅度大于预定值，则将宏块确定为包括在候选宏块列表中。

13.如权利要求11所述的方法，其中，在第一运动分类中，如果残差数据的幅度大于预定值，则将该宏块确定为包括在候选宏块列表中。

14.如权利要求11所述的方法，其中，在第一运动分类中，如果宏块类型信息指示宏块要以帧内编码模式来处理，则将该宏块确定为包括在候选宏块列表中。

15.如权利要求11所述的方法，其中，在第一运动分类中，如果宏块类型信息指示宏块包括MxM个图像像素，M不大于预定数，则将该宏块确定为包括在候选宏块列表中。

16.如权利要求11所述的方法，其中，在第一运动分类中，如果编码信息指示用于宏块的编码比特的数目大于预定数，则将该宏块确定为包括在候选宏块列表中。

17.如权利要求11所述的方法，其中，在第二运动分类中，如果预测信息指示宏块包括MxM个图像像素，M不大于预定数，则确定将该宏块从候选宏块列表中去除。

18.如权利要求11所述的方法，其中，在第二运动分类中，如果预测信息指示宏块被跳过宏块包围，则确定将该宏块从候选宏块列表中去除。

19.一种侦测系统，包括：

输入单元，配置为接收通过第一摄像机获取的多个视频帧；

运动对象跟踪单元，配置为基于预测和编码信息的至少一部分，在所述多个视频帧之间跟踪运动对象，以产生所述运动对象的位置信息，其中运动对象跟踪单元配置为基于预测信息和编码信息的至少一部分，确定所述多个视频帧中包括运动对象的候选宏块列表，其中位置信息基于候选宏块中的至少一些，其中所述运动对象跟踪单元配置为：

摄像机控制单元，配置为基于位置信息产生控制信号，并将控制信号发送给第二摄像机，以控制第二摄像机的移动。

20.如权利要求19所述的侦测系统，其中，运动对象跟踪单元配置为基于宏块的运动矢量、宏块的残差数据和宏块类型信息中的一个或多个，执行第一运动分类，其中在以下情况中的至少一个情况下将该宏块包括在候选宏块列表中：运动矢量的幅度大于预定值，残差数据的幅度大于预定值，以及当宏块类型信息指示宏块要以帧内编码模式处理。

21.如权利要求19所述的侦测系统，其中，在第一运动分类中，当编码信息指示用于宏块的编码比特的数目大于预定数时，或者当宏块类型信息指示宏块包括MxM个图像像素，M不大于预定数时，将该宏块包括在候选宏块列表中。

22.如权利要求20所述的侦测系统，其中，在从候选宏块列表中去除宏块的第二运动分类中，如果预测信息指示宏块包括MxM个图像像素，M不大于预定数，或者如果预测信息指示宏块被跳过宏块包围，则确定将该宏块从候选宏块列表中去除。

23.如权利要求19所述的侦测系统，其中，控制信号能够控制第二摄像机的移动以捕获运动对象的特征部分。