CN101371275A

CN101371275A - 视频信号分析

Info

Publication number: CN101371275A
Application number: CNA200780002618XA
Authority: CN
Inventors: 安德里亚·卡瓦拉罗; 许利群
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2006-01-20
Filing date: 2007-01-17
Publication date: 2009-02-18
Also published as: EP1811457A1; EP1974326A1; EP1974326B1; US20100150403A1; WO2007083104A1

Abstract

通过下述步骤分析视频信号：针对每一帧导出多个参数，所述参数包括(a)作为该帧的图片要素与参考帧的相应定位的图片要素之间的差异的函数的至少一个参数；和(b)作为该帧的图片要素与前一帧的相应定位的图片要素之间的差异的函数的至少一个参数；和(c)作为该帧的图片要素的估算速度与先前帧的相应定位的图片要素的估算速度之间的差异的函数的至少一个参数。基于这些参数，为每一帧分配一种或者多种预定分类。然后可以将在这些分类分配中发生变化的点识别为场景变化。

Description

视频信号分析

技术领域

本发明涉及视频信号的分析。

背景技术

随着IP-CCTV系统在安保、安全和信息收集方面的广泛应用，每天都会产生大量的视频数据。例如，仅希思罗(Heathrow)机场就安装了超过6000个监视摄像机。为了处理这些海量的视频数据，急需设计出智能视频分析/理解算法，以有效地“过滤”输入的视频流，而只将与特定领域应用相关的物体/事件/行为信息传递给人类操作者，供其操作或者决策，包括异常事件检测、场景概要、浏览和理解等。

监视摄像机捕捉的视频数据是数据图像格式的，由不相关像素的集合来表示。有价值的信息往往埋没在这种无组织的数据中。为了更好地利用图像和图像序列，应以更加结构化的格式来表示视觉信息。对视觉信息管理这一问题的一种直接解决方案是基于内容的表达。基于内容的表达概述了图像数据的视觉有意义部分。这种表达更加容易被计算机和人来理解和使用。基于内容的表达通常是就探测到然后要追踪的视频对象(例如，人和车辆)而言的。然而，在分析拥挤的场景时或者当摄像机由于物理场地限制而不能顺利定位(例如，不是鸟瞰)时，这种表达模型通常会失效。诸如背景减除和blob(二进制大对象)跟踪的传统图像处理算法对分析这种场景也没有太大帮助。除了使用3D信息来消除阻挡[7]，还没有关于这类序列的文献。

因此，需要研究其他形式的表达，使得能够使用单目视频来探测关注事件。在本说明书中，我们将以视频形式探测关注事件的处理称为监视场景变化探测(SSCD)。SSCD旨在探测输入视频的相关变化，以提醒操作员进行干预，和/或使系统自动索引视频数据库。并且，提取关键帧来表示关注事件对于监视视频概况十分有用。

场景变化探测(SCD)的工作通常旨在对广播视频进行分析，广播视频通常是根据剧本拍摄并在工作室中进行后期处理。SCD是发现具有明显不同语义的视频场景之间的转换的处理。场景是用于表现视频情节的上下文连贯性的一组镜头(shot)。镜头或者摄像机转场(camera break)是在诸如切(cut)、淡入淡出(fade)、划(swap)的编辑效果之间的一组连续帧。场景可以包括许多不同的镜头或者几个镜头之间的随机交替。

然而，监视场景变化探测(SSCD)需要从不同角度来观察。SSCD同时取决于视觉场景的复杂性和执行的监视任务。与SCD相比，SSCD的目的是不同的：(例如，用静态摄像机)捕捉的物理场景设置通常是相同的，但是由于目标或快或慢的动态移动以及照明条件的变化，视频内容是不断变化的。

SSCD之前的工作主要是基于以对象为中心的分析范例，假定目标可以探测和追踪，并且该特定的视觉事件也是可以适当定义的。通常，事件是在由几个对象组成的简单场景中探测的，并且通过非常清晰的语义来表征(例如，从场景中去除对象/向场景中放置对象[9]，打开/关闭抽屉[4])。其他工作解决了具有已知语义的特定环境，例如Hauptmann等人解决了疗养院环境。在他们的工作中，在低密度场景中进行基于对象的分析，该低密度场景包含清晰且预定的语义，旨在首先识别个体(老人)，然后表征他们的活动。Stringa和Regazzoni展示了一套系统，用于探测场景中的永久变化，或者探测火车站的候车室中遗留的包裹[9]。而且，该工作表明，当场景变得更加拥挤或者复杂时，系统的性能具有下降的趋势，导致不可避免的故障。最后，在[2]中，Amer等人研究了内容无关事件识别，尽管场景只包含几个对象并且系统是基于追踪的。

为了克服复杂场景中基于对象的表达的限制，一些研究基于像素级别的活动而解决了动态场景分析难题。在[8]中，Ng和Gong将低级别的基于像素的表达与领域语义联系在一起。然而，该算法是在只包含一个人的场景上进行论证的。其他工作解决了在像素级别的视频中基于活动的监视难题，而未考虑特定语义[5，11]。在[11]中，Xiang等人发现了blob级别事件，用于在不使用分割(segmentation)和分组(clustering)的情况下进行行为描述(behaviour profilling)。该方法旨在基于像素的局部强度时间历史来发现时间事件，然后将其分组到相邻像素的组中。对场景中有意义的事件的数量及其位置(与人工标记相对)进行自动学习和探测。然而，仅仅使用了低密度的场景和探测到具有清晰语义的事件，例如顾客挑选物品、收银员在柜台收取钱币。[5]中的工作最接近我们想要实现的目标，也就是，基于低级别信息来发现监视场景变化。然而，该工作旨在航空器进站活动，这表示与场景相关的语义是非常清晰的。而且，用于事件探测的方法是基于活动总是在画面的相同区域内发生的假设(例如，场景是高度结构化的)。

综上所述，在文献中发现的基于低级别特征的工作要么解决了约束完备的情况(例如，机场停机坪)，要么旨在探测可以建模的定义明确的事件。现有技术只能开始解决拥挤场景的问题，但是我们关注的工作只是用易于发现的对象来论证的[14]。而且，语义通常是清晰的，并且被学习或者是人工标记。相反，本发明的目的是研究如何从监视视频中提取有用信息，在所述监视视频中语义可能是不清晰的，活动的数量和位置是未知的并且可能随时间而变化。

动态视觉场景分析的当前解决方案主要是基于对象探测和追踪。这些解决方案假定可以从背景中精确地分割出视频对象，并且被监视的场景是由清晰的语义(事件、行为等)来表征的。然而，在许多现实世界情景中，需要分析拥挤的场景，因此限制了传统表达方法的应用。而且，在这种场景中，语义不一定是清晰的；不容易预先定义关注事件或者异常行为的含义。为此，我们研究了不同的方向。

发明内容

本发明在权利要求书作了限定。

附图说明

现在将参照附图以示例的方式来描述本发明的一些实施方式，附图中：

图1：本发明要分析的动态场景的例子。场景可能是拥挤的并且摄像机的位置不一定合适，造成目前用在先进视频监视中的深入研究过的图像处理算法没有多大作用。

图2：可以认为是传统的基于运动的分析与基于对象的分析之间的方法。

图3：提供的分析工具的框图。

图4：AOI中场景变化的分析：(a)当前帧与前一帧之间随时间变化的像素的归一化量(绿色曲线)以及当前帧与参考帧之间随时间变化的像素的归一化量(红色曲线)；(b)光流场强度的时间分布；(c)光流场方向的时间分布。这些曲线分别对应于图1上图和下图所示的监视场景。

图5、6和7：用于分析三个测试视频序列的关注区域(AOI)的例子。

图8：从室内监视序列“互动的三个人”中提取的关键帧的例子。可以注意到在关键帧的选择中有一些冗余。

图9：从序列“塔桥-路边”中提取的关键帧的例子。可以注意到由于强阴影会有一些误报警。

图10：从序列“塔桥-人行道”中提取的关键帧的例子。

图11：“虚拟磁环”的例子，“虚拟磁环”用于在交通监视情景中用布置在适当位置的摄像机进行车辆计数。该图片示出了如何采用所提供的工具来简化之前已经解决了的场景动态学问题。图中的峰对应于通过“虚拟磁环”的车辆。

图12：“透视虚拟磁环”的例子，“透视虚拟磁环”用于对车辆进行计数和探测反向行驶的车辆。可以从曲线的形状得出该信息，而无需移动矢量的明确计算。

具体实施方式

现在我们将描述一种鉴于分析非常拥挤的动态视觉场景和不容易用明确语义来表征的场景而设计出的算法。对于这些类型的场景，依赖于同时追踪大量对象(例如，低密度场景的监视)的传统的以对象为中心的分析范例不起作用。另一方面，依赖于已知事件的明确建模的简单的基于运动的分析方法由于场景没有明确定义的语义的事实也不起作用。后一种方法在特定情形下起作用，例如，探测在单行地下通道中走错方向的行人，在这种情况下要求(或者语义)是简单而明确的。

研究出的解决方案在一定程度上处于(高级别)的基于对象的分析和(低级别的)基于运动的视觉场景分析之间。该解决方案是中间级别的分析方法，其使用某种格式的局域变化信息和低级别移动信息来探测有意义的场景变化(图2)。由于本发明的目的是解决同时存在大量对象的复杂和拥挤的场景，所以首先探测明显的时间变化区域，然后对探测区域进行移动活动分析。通过时间分割来识别时间变化，即通过被称为变化探测的处理将关注区域内的像素分成移动像素和不移动像素两类。变化探测后接着进行“移动活动”分析，顾名思义，其根据移动矢量的强度和方向直方图来计算探测区域的动态特性。另选的是，可以并行地进行变化探测和移动活动分析。

图3示出了提供的视觉场景变化/分割分析系统的框图。我们从介绍每个框的功能开始，然后讨论所研究的特征的实施细节。

■ 监视区域。首先，对于每个输入视频帧t，探测关注区域(AOI)中的“移动”区域或者空间支持；可以在GUI上交互地选择AOI，或者根据累积的移动信息或者已有知识来自动设置AOI。

■ 特征提取和分析。提取两种类型的特征用于后续场景分析，包括当前帧的AOI内的变化像素的归一化量和光流场。对每个AOI分别进行该处理。

(i)针对前一帧和参考帧来计算当前帧中的变化像素的归一化量，细节见“变化探测”部分。可以分别存储这两种局域变化信息，并且用两个曲线在GUI上显示出来以方便反馈。

(ii)在两个连续帧之间计算光流场。光流是可以与表观移动相关联的表观速度的分布。表观移动是当分析强度函数的时间变化时我们认为是移动的那种移动。通过使用[13]中给出的Lucas & Kanade方法分析连续帧t和帧t-1的强度函数，来估算每个像素的光流。然后利用计算出的光流场和探测到的移动区域，根据光流移动矢量的两个归一化直方图来计算移动活动特征，所述两个直方图一个表示强度，另一个表示方向。强度直方图不是均匀量化的，下面马上进行说明。

■ 分类。然后基于适用于如上所述的移动活动的变化的经验阈值进行分类。分类步骤确定场景变化是否明显，从而需要记录关注视频帧(“关键帧”)或者应当发出警告。假定要分析无约束的场景并且很难区分正常场景和要关注的异常场景，当前系统既不基于特定学习也不基于识别方法。但是如果已知，则任意现有技术都是有帮助的并且容易纳入。将在下文给出分类框的细节。

■ 后处理。可以添加时间后处理步骤，以调整分类的结果和去除冗余的快照(关键帧)。后处理基于以下假设：关注事件具有特定时间跨度，因此应当为每个事件只生成一个关键帧。为此使用了时间阈值。

变化探测

应注意，上下文中的表达“场景变化”不应与后期制作视频材料中发生的场景变化相混淆，在后期制作视频材料中在来自不同摄像机的镜头进行切。例如，在诸如新闻、肥皂剧或者纪录片的从位于许多不同位置的多个摄像机以多个角度拍摄的广播节目中，节目制作人仔细编辑所生成的毛片(rushes)，以制成最终产品。在这种情况下，可以将场景变化清除地定义为摄像机转场(切)或者估计的移动矢量统计的突然变化。在本文中，我们主要考虑对来自单个摄像机的视频信号的分析(优选为实时地)。通过固定的用于连续监视特定场所的监视摄像机“被动地”捕捉现实世界视频，目的是探测同一场所的任何有意义的视觉“场景”(或者活动)变化。这种场景变化不是由于摄像机移动引起的，而是由于对象(行人、车流、人群)在摄像机的实际视野范围内移动而引起的。在室外情形下，还需要处理迷惑性的环境变化，例如由于云的移动或者背景树的摇摆而引起的环境变化。因此，在这两种情况下，场景变化的含义不同，后一种情况下场景变化通常是渐变。

通过评估从要研究的场景提取的特征的时间行为，可以定义监视场景变化。可以基于特征的值及其随时间的变化，针对AOI来分析时间行为。然而，应注意，特征值本身的大小并不重要，例如通过的卡车、汽车或者自行车不应触发系统，除非有特殊应用的要求(例如，人的计数、不同类型车辆的计数等)。特征值的变化是重要的：它携带了与场景的动态学有关的信息。例如，AOI中光流场的突然变化可能对应于某人突然停下或者某人开始奔跑。该事件需要触发警告，或者触发对关键帧的捕捉。此外，还可以根据场景占有率(scene occupancy)来定义关注场景变化。

为了从突然的场景变化中得到信息，我们计算变化探测曲线的斜率。变化探测曲线表示了AOI中随时间发生变化的像素数量。AOI的占有率携带了与场景有多拥挤有关的信息。与场景变化相对应的关注事件为：空到拥挤、拥挤到停止、拥挤到移动。

变化探测的要求是双重的：一个是对于照度变化的鲁棒性，另一个是易于计算从而可以实时应用。在该研究中，帧t的变化探测信息是通过将其与前一帧t-1以及参考帧t₀进行比较来计算的(图4a)。使用AOI来去除场景中非关注部分。因此，我们定义：

N_R(t)是与适当更新过的参考帧相差大于阈值的像素的归一化数量，从而它表示场景的背景部分的图片。这将包含所有固定对象(包括被前景对象临时模糊的对象)；经过适应，它还将包含表现为前景但是保持足够长时间的静止使得它们被认为是当前背景的一部分的对象，例如停泊的车辆。

N_P(t)是与前一帧相差大于阈值的像素的归一化数量。

令CD_R(t)＝CD(t，t₀)为针对适当参考背景而定义的帧t处的变化信息，CD_P(t)＝CD(t，t-1)为针对前一帧t-1而定义的帧t处的变化信息。计算变化信息作为RGB颜色空间中带阈值的像素与像素差异，并且在后文中，我们着重举例说明从CD_P(t)计算变化信息的处理：

针对三个图像平面(R、G和B)中的每一个计算像素与像素差异。如果对于一个颜色平面，像素的绝对差值小于预定阈值(T_r、T_g或T_b)，则将该颜色平面的像素设置为“0”(即，标记为无变化)；反之，大于阈值的任何差值都将生成“1”标记(例如，像素已经变化)。

具体来说，如果图像中根据笛卡尔坐标x，y的R、G、B像素值为r(x，y，t)、g(x，y，t)和b(x，y，t)，则如果三个图像平面(R、G和B)中的每一个的绝对像素与像素差异超过预定阈值(T_r、T_g或T_b)，那么遮罩M_rP、M_gP、M_bP为1：

如果|r(x，y，t)-r(x，y，t-1)|>T_r，则CD_rP(x，y，t)＝1；否则CD_rP(x，y，t)＝0

如果|g(x，y，t)-g(x，y，t-1)|>T_g，则CD_gP(x，y，t)＝1；否则CD_gP(x，y，t)＝0

如果|b(x，y，t)-b(x，y，t-1)|>T_b，则CD_bP(x，y，t)＝1；否则CD_bP(x，y，t)＝0

如果任何颜色发生了变化，则组合遮罩CD_P为1：

，利用逻辑OR(“或”)运算符。

然后利用逻辑OR运算符来合并三个图像平面的像素与像素差异的结果。该处理生成了二进制遮罩CD_P(t)，其突出了当前帧的AOI中相对前一帧发生了变化的区域。可以应用类似的过程来获得相对于适当参考遮罩的CD_R(t)遮罩。

然后针对AOI的大小，分别对这两种变化遮罩所包含的像素数量进行归一化，从而得到N_R(t)和N_P(t)。

于是，归一化的像素数量为

N_{P} = \frac{1}{N} \underset{AOI}{Σ} {CD}_{P} (x, y, t)

其中对AOI中的所有N个像素进行求和。

通过相同的公式，用角标R替代角标P，用t0替代t-1，给出相对于参考帧的变化的计数值N_R。

分类：变化

N_R(t)和N_P(t)随时间的曲线提供了探测关注场景变化的有用信息。

·如果N_R(t)和N_P(t)都较小，则场景为空。这可以翻译成如下条件：

N_R(t)<T1 AND N_P(t)<T2 (1)

·如果N_R(t)与N_R(t-1)类似，而N_P(t)与N_P(t-1)不同或者较大，则场景的内容是移动的。这可以翻译成如下条件：

N_R(t)＝N_R(t-1)AND(N_P(t)>T3 OR N_P(t)≠N_P(t-1)) (2)

在第二种情况下，当N_P(t)≠N_P(t-1)时，场景的内容正在加速或者减速。

·如果N_R(t)与N_R(t-1)类似，而N_P(t)较小，则场景的内容是静止的或者场景是满(拥挤)的。这可以翻译成如下条件：

N_R(t)＝N_R(t-1)AND N_P(t)<T4 (3)

移动特征分析

对变化探测的上述分析还不能足够清楚地挑选出有意义的场景变化，因为它不能提供出现在场景中的对象(例如，人群或者单个人/车辆)是否改变了其移动方向的说明，以及在改变了的情况下给出在那条路线上改变和强度有多大。为了提供这种信息，通过光流场估算来计算移动特征。光流是一种针对每个像素x，y来确定该像素的矢量速度(u，v)的估计值的方法。这是一种公知的技术，由Lucas和Kanade[13]等人提出，目前利用诸如英特尔的开放源代码计算机视觉库(Intel′s open-source ComputerVision Library)的标准库程序就可以用计算机实现。下面的片段是使用该函数的参考：

CalcOpticalFlowLK

计算两个图像的光流

void cvCalcOpticalFlowLK(const CvArr^＊ imgA，const CvArr^＊ imgB，CvSize winSize，CvArr^＊ velx，CvArr^＊ vely)；

imgA

第一图像，8位，单通道。

imgB

第二图像，8位，单通道。

winSize

用于对像素进行分组的平均窗口的大小。

velx

与输入图像相同大小的光流的水平分量，32位浮点，单通道。

vely

与输入图像相同大小的光流的垂直分量，32位浮点，单通道。

函数cvCalcOpticalFlowLK利用Lucas & Kanade算法来计算第一输入图像的每个像素的流。

如上所述，为了减少噪声的影响和加速计算，只考虑探测到变化的区域的移动场。我们优选使用幅值和方向bm，bp而非分量u，v：

m = \sqrt{u^{2} + v^{2}},

p是m cos p＝u且m sin p＝v时的角度。

然后通过强度和方向直方图将它们表示在每个区域中，从而可以同时考虑方向和速度变化。

所得的m和p值被分别量化为k和q二进制数。对每个范围内的读数量进行计数，从而给出直方图：

将光流场的强度范围分成不均匀的量化级别。如果有更多的关于作为场景语义基础的移动矢量的统计分布的信息，则可以改变这种级别。由于未携带重要信息，所以可以丢弃例如小于的低强度值。令H_m(t)为移动强度直方图：

H_m(t)＝[b_m，1(t)，b_m，2(t)，…b_m，k(t)] (5)

对于k＝10(注意，根据强度的平方根值)的二进制分布的例子可以为：[5，10]；[10，20]；[20，40]；[40，60]；[60，80]；[80，100]；[100，150]；[150，200]；[200，250]；[250，....]。

光流场的方向直方图被量化为均匀二进制数，尽管如果预先知道一些信息，也可以进行不均匀的量化。令H_P(t)为方向直方图：

H_p(t)＝[b_p，1(t)，b_p，2(t)，…b_p，q(t)] (6)

例如，q＝8级别量化将导致以45°规则间隔布置的二进制数。

为了利用移动特征的时间变化，我们计算两个连续直方图之间的距离。按照下式针对强度直方图来计算距离D，

D (H_{m} (t), H_{m} (t - 1)) = \frac{1}{k} Σ_{i = 1}^{k} \frac{| b_{m, i} (t) - b_{m, i} (t - 1) |}{b_{m, i} (t) + b_{m, i} (t - 1)} - - - (7)

对所有k个二进制数进行求和。类似地，对于方向直方图，

D (H_{p} (t), H_{p} (t - 1)) = \frac{1}{q} Σ_{i = 1}^{q} \frac{| b_{p, i} (t) - b_{p, i} (t - 1) |}{b_{p, i} (t) + b_{p, i} (t - 1)} - - - (8)

对所有g个二进制数进行求和。

分类：移动/组合

可以充分利用与移动活动的变化有关信息来了解是否有速度变化或者方向变化。在这两种情况下，确定阈值以限定被认为相对于关注事件是相关的变化的量。

应注意，我们优选地以表明AOI中的移动像素的数量大于阈值的变化分析为条件来进行以下测试。

如果强度直方图之间的距离较大，则速度有变化。例如，某人开始奔跑或者停住。这可以翻译成如下条件：

D(H_m(t)，H_m(t-1))>TH₁ (9)

如果方向直方图之间的距离较大，则场景的内容中发生了方向的相对变化。这可以翻译成如下条件：

D(H_p(t)，H_p(t-1))>TH₂ (10)

只有当AOI中的移动像素的数量大于阈值时，才考虑移动活动的变化：

N_R(t)>TH₃ (11)

分类

上述操作的结果是将场景分类为下述一种或者更多种：

场景为空(公式1)；

场景的内容是移动的(公式2)；

场景的内容是静止的或者场景是满(拥挤)的(公式3)；

场景的内容正在加速或者减速(N_P(t)≠N_P(t-1)条件下的公式2)；

速度有变化(公式9 AND公式11)；

方向有变化(公式10 AND公式11)。

分类的下一个阶段是识别场景变化。在该实施方式中，根据这六种标题其类别不同于前一帧的类别的一帧被认为是表示场景变化。因此，通过这些类别之间的变化来表征序列的关注部分。

一旦探测到了场景变化，就有多种方法来提取关键帧或者有代表性的帧。通常，我们选择两个场景变化之间的中间帧。这非常像处理成品视频(例如，新闻、故事片等)分析的方式，其中我们选择关键帧来表示每个探测到的快照的视觉内容。另选的是，当探测到如上所述的场景变化时，将这一瞬间的帧存储为关键帧。

后处理

由于属于相同语义事件的单个事件(例如，相同的场景变化)的时间接近性，利用上述分类方法得到的结果可能包含比所期望的更多的警告/关键帧。因此，可以使用时间阈值来丢弃彼此靠近的关键帧(或者警告)。时间阈值的值是与领域相关的，对于监视街道的摄像机，其范围在1至2秒，对于监视人行道的摄像机，其范围在5至10秒。该准则就是不允许在前一警告或者关键帧之后n秒生成警告或者记录关键帧。

在更加复杂的实施中，我们还引入了时间阈值T₁，以规定最后的关键帧至少要相隔T₁个帧，其中T₁的值取决于要研究的情景(例如，预期的对象速度)。例如，在监视车流量时使用较小的阈值(例如，T₁＝50帧或者2秒)，而在监视行人时使用较大的阈值(例如T₁＝250帧或者10秒)。在探测到场景变化之后，在等于时间阈值的时间间隔内不存储任何额外的关键帧(如果有的话)。

实验研究

我们在此给出了利用所提供的动态视觉场景分析工具而获得的对快速变化的拥挤视觉场景进行取样探测和分类的结果。此外，我们还提供了这种分析工具在传统监视任务中的进一步使用的例子。

让我们考虑图5至7所示的视觉场景，其中分别用红色多边形标出了空间支持(关注区域)。在GUI中示出了垂直红线以分别显示

-连续帧中发生变化的像素的归一化量的时间差异，或者N_R(t)-N_R(t-1)和N_P(t)-N_P(t-1)；

-连续帧中光流场的强度直方图的距离和方向直方图的距离(公式(7)和公式(8))。

绘制的线越长，差异就越大。

我们回忆一下，在之前对场景分析工具包的讨论中，需要几个阈值来进行必要的探测和分类决定。在我们的研究中，基于对小的有代表性的数据集的试验，凭经验来确定阈值的值。值得注意的是，对不同研究序列使用了相同的阈值，而并未以可觉察的方式影响结果。在变化探测的情况下，将用于每个RGB平面的像素与像素差异的阈值设置为相同的值，或者T_r＝T_g＝T_b＝10(假定这些量的范围是0至255)；TH₁＝0.4、TH₂＝0.3；TH₃＝AOI大小的10％。

图8、9和10给出的结果示出了关键帧的例子，表示三个不同情景中的有意义的监视场景变化。基于分析工具自动提取关键帧，并对应于相应监视视频的概要。在图8中，探测室内办公室监视变化，并且关键帧表示几个人之间的关注交互。可以注意到，所选的关键帧中有一些冗余。可以通过基于关键帧之间的颜色和纹理来使用相似性量度，来消除这些冗余。此外，在图9中，监视繁忙的交通场景；可以注意到，由于关注区域上非常强的阴影，包含了一些误测。在图10中，正在检查挨着地铁站入口的开放空间；较低的摄像机视角、无约束的入口和出口点以及场景中人员的聚合和分离是主要的挑战。

在诸如交通监视的受约束场景中，提出的系统还可以用来提供其他功能。除了探测监视场景变化以外，提出的分析工具所实现的应用还有监视交通状况和收集通过摄像机范围内特定位置的所有车辆的快照。之前的应用提供了与交通密度有关的信息(高/中/低)，可用于根据长期收集的统计数据来制定规划和在发生事故或者异常交通状况时生成警告。后一种应用可以生成车辆数据库，可通过内容(颜色、大小、车牌)或者时间查询来加速对特定车辆的搜索。例如，该工具可以车辆的数量进行自动计数(图11)并且仅基于变化探测信息来探测是否有车辆反向行驶(图12)。该方法的优点是与场景布局有关的预先了解的信息使我们无需计算移动矢量即可使用变化探测信息。

在该例中，我们展示了基于视频的分析框架，用于确定场景活动变化而无需依赖于清晰定义的语义。特别是要研究的视频数据代表高密度动态场景，该场景是基本上全部或者部分堵塞的，并且在全局范围上(例如，由飘动的云造成的)和局部范围上(例如，投下的阴影)经常发生照明条件的变化。本发明的目的是解决超出传统监视视频摄像机情景的事物，或者安装在高杆上的摄像机以提供鸟瞰的场景[10][12]，更确切地说，是由于场所限制而安装在某些不同和典型位置(例如，电话亭的顶部)的摄像机，因此相对地面具有较低的位置(参见图1)。对于摄像机监视场景来说，这个位置不好，特别是当场景变得拥挤时，会产生大量的堵塞。摄像机的位置有时处于通常的监视摄像机和用于在桥梁或者高速路入口捕捉车牌号的摄像机的位置之间(因此，其位置更类似其中在受约束的空间中存在一些参与者的“智能会议室(smart room)”中的摄像机的位置)。给定这种类型场景的特征和可能缺乏的语义，提出的解决方案并未充分利用基于示例的场景变化训练，因此可以探测未知和不可预见的场景变化。这种算法易于计算，提供了既鲁棒又灵活的增益。提出的框架可以容易地适应语义明确的情景，也可以用于诸如对象计数、队列测量和入侵者探测的简单问题。

因此，我们提出了一种鲁棒的时间分割算法，用于动态视觉场景分析和监视场景变化探测。所提出的算法既不使用追踪也不使用基于对象的表达来进行场景分析，它专门用于表征拥挤场景。而且，该算法根据活动和活动变化无需使用语义即可得到有用的视频表达。这种表达使得可以进行自动的场景描述和探测相关事件。该算法基于评估连续视频帧中的局域变化和移动信息及其时间差异。通过取当前帧与前一帧以及参考背景帧的差异，来计算局域变化；借助于来自光流场的移动强度和方向直方图来描述局部移动信息。所提出的系统是可升级的，可适用于解决诸如对象计数、队列测量、禁区入侵者探测的简单问题。

参考文献：

1.H.Zhong，J.Shi，M.Visontai，“Detecting unusual activity in video，”in Proc.of IEEEConference on Vision and Pattern Recognition(CVPR 2004)，Washington DC，USA，June-July 2004.

2.A.Amer，E.Dubois，A.Mitiche，“Context-independent real-time event recognition:application to key-image extraction，”in Proc.of ICPR 2002，Quebec，Canada，August2002.

3.A.Cavallaro and T.Ebrahimi，“Change detection based on color edges，”in Proc，ofInternational Symposium on Circuits and Systems(iSCAS-2001)，Sydney，Australia，May2001.

4.D.DeMenthon，D.Doermann，“Video Retrieval using Spatio-Temporal Descriptors，”Proc.of ACM Multimedia 2003，Berkeley，CA，USA，November 2003.

5.A.Graves and S.Gong，“Spotting scene change for indexing surveillance video，”Proc.ofBMVC 2003.

6.A G.Hauptmann，J.Gao，R.Yan，Y.Qi，J.Yang，and H.D.Wactlar，“Automatedanalysis of nursing home observations，”IEEE Pervasive Computing，Apr-June 2004.

7.A.Mittal and L.S.Davis，“M2Tracker:a multi-view approach to segmenting and trackingpeople in cluttered scenes using region-based stereo，”Proc.of ECCV 2002.

8.J.Ng and S.Gong，“Learning plxel-wise signal energy for understanding semantics，”Proc.of BMVC，2001，pp.695-704.

9.E.Stringa and C.S.Regazzoni，“Real-time video-shot detection for scene surveillanceapplications，”IEEE Trans.on Image Processing，2000.

10.www.visualsurveillance.org，last accessed December 2004.

11.T.Xiang，S.Gong and D.Parkinson，“Autonomous visual events detection andclassification without explicit object-centred segmentation and tracking，”Proc.of BMVC2002.

12.Zhao and R.Nevatia，“Tracking multiple humans in complex situations，”IEEE Trans.onPattern Analysis and Machine Intelligence，26(9)，September 2004，pp.1208-1221.

13.B.Lucas，T.Kanade，“An iterative image registration technique with an application tostereo vision，”Proc.of 7th International Joint Conference on Artificial Intelligence，1981，pp.674-679.

14.Valestin，oral presentation at EWIMT 2004

Claims

1.一种分析视频信号的方法，该方法包括以下步骤

-针对每一帧导出多个参数，所述参数包括

(a)作为该帧的图片要素与参考帧的相应定位的图片要素之间的差异的函数的至少一个参数；和

(b)作为该帧的图片要素与前一帧的相应定位的图片要素之间的差异的函数的至少一个参数；和

(c)作为该帧的图片要素的估算速度与先前帧的相应定位的图片要素的估算速度之间的差异的函数的至少一个参数；

-基于所述参数，为每一帧分配一种或者多种预定分类；以及

识别在所述分类分配中发生变化的点。

2.根据权利要求1所述的方法，该方法包括以下预备步骤：在该信号所表示的图像内识别一个或者多个关注区域，并且仅对该区域或者那些区域进行分析。

3.根据权利要求2所述的方法，该方法包括以下步骤：当存在多个关注区域时，对每个区域分别进行所述导出和分配步骤。

4.根据权利要求1至3中任意一项所述的方法，其中一个参数是与该参考帧的差异大于限定程度的图片要素的数量。

5.根据前述权利要求中任意一项所述的方法，其中一个参数是与该前一帧的差异大于限定程度的图片要素的数量。

6.根据前述权利要求中任意一项所述的方法，其中使用光流方法来计算该估算速度。

7.一种分析视频信号的方法，该方法包括以下步骤

-针对每一帧导出多个参数，所述参数包括

(a)作为该帧的图片要素与前一帧的相应定位的图片要素之间的差异的函数的至少一个参数；和

(b)作为该帧的图片要素的估算速度与先前帧的相应定位的图片要素的估算速度之间的差异的函数的至少一个参数；

-基于所述参数，为每一帧分配一种或者多种预定分类；以及

识别在所述分类分配中发生变化的点。

8.根据前述权利要求中任意一项所述的方法，其中该视频信号是来自单个摄像机的连续视频信号。