CN104093001A

CN104093001A - 一种在线动态视频浓缩方法

Info

Publication number: CN104093001A
Application number: CN201410352819.4A
Authority: CN
Inventors: 曹建荣; 徐阳; 李振宇; 孙雪梅
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2014-10-08
Anticipated expiration: 2034-07-23
Also published as: CN104093001B

Abstract

本发明公开了一种在线动态视频浓缩方法，对传统的视频摘要技术进行了大量的改进，是对其的继承与发展。该发明可以从海量监控视频中自动的提取出人们所感兴趣的目标体与事件，通过对这些目标体的跟踪，来获取其在监控视频每一帧中的位置与速度等信息，然后将这些出现在不同时间段的目标体分别提取出来并临时保存在运动目标列表中，在选择好合适的背景后再将这些保存的目标体逐个的拼接到同一个背景中，这样便实现了在不同时间段出现的目标体在同一时间段同时展示的视觉效果，达到了动态视频浓缩的目的。

Description

一种在线动态视频浓缩方法

技术领域

本发明涉及一种在线动态视频浓缩方法。

背景技术

随着当今平安城市与智慧城市的大力发展，越来越多的监控摄像头被安放，例如道路交通、住宅小区、政府、银行和学校等等，但随之而来的是与日俱增的海量监控视频。当人们对这些视频进行调取查询时，仅仅采用快进快退方式对监控视频进行浏览来确定发生事件时的时间，这种传统的浏览方式既耗时，往往又会遗漏重要的视频信息，显然已经远远不能满足人们对监控视频信息访问和检索的需求。因而智能视频浓缩技术应运而生。

近年来，传统的视频摘要技术得到了长足发展，国内外的许多高校以及公司等科研机构都取得了不小的成果。传统的视频摘要技术中帧是组成视频的最小视觉单位，不可再分。根据摘要视频是否保持视频动态特性，可以将视频摘要分为视频略览(Video Summary)和视频梗概(Video Skimming)两大类：

视频略览是从视频的镜头中抽取一小部分静态图像(称为关键帧)的集合来概括原始的镜头内容。近几年来，视频摘要技术取得了一些发展，又提出了一些构建视频摘要的技术。Stephan Kopf等针对历史记录片利用颜色、摄像机的运动和辨识的物体作为特征，用K均值法对镜头聚类后提取构成视频摘要的镜头；Shi Lu等利用颜色特征由描述时空关系的方向图对镜头集建模来提取组成视频摘要的关键帧；Jae-Ho Lee等利用MPEG-7颜色描述子对家庭视频提取组成视频摘要的关键帧。基于关键帧提取的视频略览技术的优点是简单易行、计算复杂度低，缺点是丢失了视频动态特性，因而表现力不生动。

视频梗概是从原始视频中选择能够刻画原始视频内容的小片段或者镜头内容加以编辑合成，所以它本身就是一个视频片断，因此保持了原始视频的动态特性。视频梗概分为两类：视频概述(Summary Sequence)和精彩片断(Highlight)。

视频概述描述了整个视频的大致内容，大都采用故事单元类的结构信息，包括对话和诸如惊天动地的场面、生死离别的场景之类的吸引人的事件等，一般用于电影视频的剪辑、宣传片以及家庭视频的浏览等。精彩片断侧重于提取视频的最重要片段，包含原始视频中最吸引人的部分，一般用于电视新闻节目中新闻条目的抽取、体育视频中足球的射门镜头、篮球中的广角镜头和特写镜头等精彩动作的检测等。

传统的视频摘要技术，不论视频略览或者视频梗概，组成镜头的“帧”都作为不可再分的最小表示单位，这种方法特别适合于电影、纪录片、新闻和体育等这类视频素材来提取视频摘要。对于摄像机固定的监控场景，不像其它视频素材有镜头的划分，若采用传统的视频摘要方法，其得到的视频中不可避免地存在着大量的冗余信息。

发明内容

本发明为了解决上述问题，提出了一种在线动态视频浓缩方法，该系方法从海量监控视频中自动的提取出人们所感兴趣的目标体与事件，通过对这些目标体的跟踪，来获取其在监控视频每一帧中的位置与速度等信息，然后将这些出现在不同时间段的目标体分别提取出来并临时保存在运动目标列表中，在选择好合适的背景后再将这些保存的目标体逐个的拼接到同一个背景中，这样便实现了在不同时间段出现的目标体在同一时间段同时展示的视觉效果，达到了动态视频浓缩的目的。

为了实现上述目的，本发明采用如下技术方案：

一种在线动态视频浓缩方法，包括以下步骤：

(1)通过Vibe算法检测出运动目标：建立背景模型，比较待分类像素和背景模型的相似度，若相似度满足设定值，则判断为背景，否则为前景；

(2)对前景进行检测之后，通过搜索连通域，判断同一运动目标是否被分割成了多个区域，如果判断结果为是，则进行连通域合并，直到目标检测完成；

(3)对前期获取到的运动目标进行跟踪，利用Kalman滤波器结合最小空间距离算法来预测每个运动目标的坐标位置，并进行不断更新、跟踪，清除消失的运动目标并不断记录运动目标的新坐标位置；

(4)基于前期的目标检测与目标跟踪，设定监测阈值，并统计步骤(3)中保存的目标数量，当此数值等于设定的阈值时，将在第二个模块中保存的所有前景目标同时拼接到一帧处理好的背景中，以实现将不同时间出现的运动目标在同一时间呈现出来的效果。

所述步骤(1)的具体方法为：为每个像素点存储一个样本集，样本集中采样值就是该像素点过去的像素值和其邻域的像素值，为每个像素点p_t(x)建立一个包含N个样本的背景模型：

M(x)＝{p₁,p₂,...,p_N} (1)

其中，p₁，p₂，…，p_n分别为N个样本，通过比较待分类像素p_t(x)与背景模型M(x)的相似度，如果相似，即判断为背景，否则为前景；相似度按如下方式来定义：定义一个以p_t(x)为球心，R为半径的球体S_R(p_t(x))，用A来表示球体与背景模型的交集，即可用来判断相似度：

A＝{S_R(p_t(x))Ι{p₁,p₂,...,p_N}} (2)

当A大于一个给定的阈值时，待分类像素即为背景，否则为前景。

所述步骤(2)的具体为：通过Vibe算法对前景分割存在以下情况：经过Vibe算法进行前景分割后，如果同一个目标被分割成了很多个目标块，那这些目标块的最小外接矩形在相对位置上还是存在一定的位置关系的：一是较小的框完全被较大的框所包含；二是两个框之间有交集，但并不完全包含；三是两个矩形框之间并没有交集，但是他们成上下关系，且质心之间的水平与垂直距离都小于一定的阈值。

所述步骤(2)的具体方法为：假设有两个矩形窗分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个框中心点的水平距离为：

X_d＝|x(A)-x(B)| (3)

垂直距离为：

Y_d＝|y(A)-y(B)| (4)

如果是较小的框完全被较大的框所包含，则符合判决条件1，即：

X_d≤|W(A)-W(B)|/2 (5)

和

Y_d≤|H(A)-H(B)|/2 (6)

直接将被包含在内部的矩形框去掉即可。

如果两个框之间有交集，但并不完全包含，则符合判决条件2，即：

X_d≤α₁×|W(A)+W(B)|/2 (7)

和

Y_d≤α₂×|H(A)+H(B)|/2 (8)

如果两个矩形框之间并没有交集，但是他们成上下关系，且质心间的水平与垂直距离都小于一定的阈值，则符合以下条件，即：

X_d≤β₁×|W(A)+W(B)|/2 (9)

和

Y_d≤β₂×|H(A)+H(B)|/2 (10)

则把这几个矩形框的最大外接矩形画出来，把内部的矩形框全部删除即可，其中，α₁、α₂、β₁和β₂是系数。

所述步骤(3)的具体方法为：对前期获取到的运动对象进行跟踪，也就是确定同一目标体在图像序列的不同帧中的位置的过程，即已知在视频的第n帧中的某个目标，去搜寻第n+1帧及后续帧中该目标的位置等信息，如果找到了，就说明跟踪成功；否则，可能就跟踪失败或者是目标消失。

所述步骤(3)的具体方法，包括以下步骤：

第一步，针对已经检测到的所有的运动目标，分别对每一个目标i，首先利用Kalman滤波器来预测该目标在下一帧中的坐标位置，此位置记为预测位置；

第二步，针对下一帧中检测到的所有目标，对每一个目标j的坐标位置记为待定位置；

第三步，对某个i的预测位置，如果与其距离最近的待定位置是目标j的位置，同时针对该目标j的待定位置，与其距离最近的预测位置是i的位置，则说明目标i与目标j匹配成功，即跟踪成功，然后再用j的信息来更新旧目标i的信息，并同时根据目标j的位置与运动信息来更新Kalman滤波器，以调整其参数，进行更加鲁棒性的预测；

第四步，对于没有匹配成功的某个目标i的预测位置，说明该目标已经消失，因而将该目标从跟踪列表中清除即可；对于没有匹配成功的目标j的待定位置，说明目标j为新出现的目标，则为其开辟新的存储空间，并初始化其运动轨迹。

所述步骤(3)中，将已经成功跟踪的所有目标的最小外接矩形彩色前景保存到前景容器中，将每个目标在每一帧的位置及大小信息保存到目标列表中，将经过Vibe背景建模得到的所有背景保存在背景容器中。

所述步骤(4)中，针对背景的处理，本发明采用平均背景法，即在进行目标检测与跟踪的过程中，将通过Vibe背景建模算法得到的每一帧背景图像保存下来，在进行视频浓缩时取这些背景帧的平均值作为背景来与前景目标进行拼接。

所述步骤(4)具体方法包括：

(4-1)统计所保存的目标数量，当等于设定的阈值N时，便执行第二步；否则继续执行第一步；

(4-2)针对所选定的浓缩密度N，即计划浓缩的一帧图像中会有N个目标，计算从第一个目标出现到第N个目标出现时经过Vibe背景建模算法所得到的所有视频背景帧的平均值作为所要拼接的背景帧BG(x,y)，其中(x,y)表示坐标值；

(4-3)对平均背景BG(x,y)，将先前保存的前景目标的最小外接矩形中所有的像素的位置点(x,y)所对应的BG(x,y)中的位置点(x,y)的像素值赋值为0，同时再将对应前景中点(x,y)的像素值复制到点BG(x,y)处，这样即完成了一个像素点的拼接；

(4-4)针对由(4-3)得到的所有拼接的目标，比较其中任意两个目标的遮挡情况，对发生遮挡的区域位置所对应的两个目标的位置进行半透明化操作，使两个目标的遮挡区域都能被看到；

(4-5)对所有运动目标都进行拼接过程，并进行遮挡检测与遮挡处理，再将得到的拼接帧连续播放出来，即可得到了动态的浓缩视频；将之前保存的彩色前景图像与背景图像的缓存清除，来进行下一轮的保存与浓缩操作。

所述步骤(4-4)的具体方法为：比较过程如下：假设其中有两个目标分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个目标中心点的水平距离如上面公式(3)所示，垂直距离如上述(4)所示，如果式：

X_d＜W(A)/2+W(B)/2 (11)

和式

Y_d＜H(A)/2+H(B)/2 (12)

同时都成立，则说明两个目标发生了遮挡，当发生遮挡时，其中被遮挡部分的目标就会丢失了对应的像素信息，因而此时就要对发生遮挡的区域位置所对应的两个目标的位置进行半透明化操作，即把发生遮挡的两个目标的遮挡区域的像素值进行一下加权操作，即两个目标的对应位置的像素值各乘0.5，再相加，然后再拼接到对应的背景上，这样处理后即便发生了遮挡，两个目标的遮挡区域也都能被看到。

本发明的有益效果为：

1.不需要对整个视频文件进行读取，而是可以边拍摄边进行浓缩操作，即所谓的在线的视频浓缩，而且其可以通过人为的或自动的设定浓缩视频的浓缩密度，即浓缩视频中同一帧中的目标数量；

2.适用于内存比较小的设备运行，只要将浓缩的密度设定的比较小的话，其消耗的内存就会相应的减小，节省了硬件资源；

3.浓缩密度的大小可以根据监控环境来设定的，适合不同内存的主机系统；

4.通过整合前景检测模块中的多连通域融合算法，使得检测结果更加准确。

附图说明

图1为视频浓缩示意图；

图2为Vibe算法模型示意图；

图3为目标检测算法流程图；

图4为视频浓缩基本原理图；

图5为原始视频截图；

图6为浓缩视频截图；

图7为本发明的流程图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

发明主要分为三大模块：

第一是运动目标检测模块。该模块的主要作用就是将运动的前景检测出来，也就是将每一帧图像的每个像素点进行一个分类操作：属于前景，或者是背景。基于视频浓缩系统实时性的考虑，在此我们选择改进后的Vibe前景检测算法，即基本的Vibe背景建模算法和多连通域融合算法相结合的新方法。

基本的Vibe背景建模算法的思想就是为每个像素点存储一个样本集，样本集中采样值就是该像素点过去的像素值和其邻域的像素值，然后将每一个新的像素值和样本集进行比较来判断是否属于背景点，同时其采用了随机选择机制和邻域传播机制来建立和更新背景模型。它对于各种视频流、不同颜色空间、多种场景内容及变化的场景都适用，从而有效的提高了准确度，增加了抗噪能力和减少了计算负载，其模型示意图如下图2所示：

如图2所示，为每个像素点p_t(x)建立一个包含N个样本的背景模型：

M(x)＝{p₁,p₂,...,p_N} (1)

通过比较待分类像素p_t(x)与背景模型M(x)的相似度，即可判断出该像素是前景还是背景。如果相似，即判断为背景，否则为前景。其中相似度按如下方式来定义：如上图1所示，定义一个以p_t(x)为球心，R为半径的球体S_R(p_t(x))，用A来表示球体与背景模型的交集，即可用来判断相似度：

A＝{S_R(p_t(x))Ι{p₁,p₂,...,p_N}} (2)

但由于像建筑物楼道等环境具有光线差，摄像机质量不高，拍出的视频对比度较低等缺点，往往会导致用Vibe算法的检测精度变差，因而本发明在此基础上提出了基于空间位置分布特征的多连通域融合算法，通过分析先前由Vibe算法分割得到的数个连通域之间的空间分布关系，将属于同一运动目标的不同连通域进行融合。用改进后的算法进行运动检测，就会得到更加精确的检测结果。

在经过Vibe算法进行前景分割后，如果同一个目标被分割成了很多个目标块，那这些目标块的最小外接矩形在相对位置上还是存在一定的位置关系的：一是较小的框完全被较大的框所包含；二是两个框之间有交集，但并不完全包含；三是两个矩形框之间并没有交集，但是他们主要成上下关系，且质心的水平与垂直距离都小于一定的阈值。针对如上所述的三种情况，我们有如下的解决方案：

假设有两个矩形窗分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个框中心点的水平距离为：

X_d＝|x(A)-x(B)| (3)

垂直距离为：

Y_d＝|y(A)-y(B)| (4)

针对上述的第一种关系，即如果符合判决条件1，即：

X_d≤|W(A)-W(B)|/2 (5)

和

Y_d≤|H(A)-H(B)|/2 (6)

则说明它们符合第一种关系，因而直接就把被包含在内部的矩形框去掉即可。

而针对后两种关系的处理方式是相似的，即先判断如果符合判决条件2，即：

X_d≤α₁×|W(A)+W(B)|/2 (7)

和

Y_d≤α₂×|H(A)+H(B)|/2 (8)

或者是满足：

X_d≤β₁×|W(A)+W(B)|/2 (9)

和

Y_d≤β₂×|H(A)+H(B)|/2 (10)

则把这几个矩形框的最大外接矩形画出来，把内部的矩形框全部删除即可。其中，α₁、α₂、β₁和β₂是系数，经过大量实验后可得出当这四个系数分别取1.1、1.1、1.5和0.25时会得到精确的检测结果。

如下图3所示，运动目标检测是运动跟踪的基础，将检测出来的运动目标传送给目标跟踪模块，再对该目标进行跟踪。

第二是运动目标跟踪模块。该模块的主要作用是对前期获取到的运动对象进行跟踪，也就是确定同一目标体在图像序列的不同帧中的位置的过程。即已知在视频的第n帧中的某个目标，去搜寻第n+1帧及后续帧中该目标的位置等信息，如果找到了，就说明跟踪成功；否则，可能就跟踪失败或者是目标消失。

本发明在跟踪模块提出了基于空间距离的目标跟踪方法，即是指两帧视频图像中的目标在二维空间中相距有多远。为简单起见，把运动目标的最小外接矩形的中心代表该目标在图像上的位置。采用空间距离来作为判断依据，既能节省了存储空间，又同时减少了计算量和计算复杂度。

本发明中运动跟踪模块的具体步骤如下：

第三步，对某个i的预测位置，如果与其距离最近的待定位置是目标j的位置，同时针对该目标j的待定位置，与其距离最近的预测位置是i的位置，则说明目标i与目标j匹配成功，即跟踪成功，然后再用j的信息来更新旧目标i的信息，并同时根据目标j的位置与运动信息来更新Kalman滤波器，以调整其参数，进行更加鲁棒性的预测。

将已经成功跟踪的所有目标的最小外接矩形彩色前景保存到前景容器中，将每个目标在每一帧的位置及大小信息保存到目标列表中，将经过Vibe背景建模得到的所有背景保存在背景容器中。这些已经保存好的元素将用于模块三的视频浓缩算法。

第三是动态视频浓缩模块。该模块是基于前期的目标检测与目标跟踪，通过设定一个阈值，并统计第二个模块中保存的目标数量，当此数值等于设定的阈值时，将在第二个模块中保存的所有前景目标同时拼接到一帧处理好的背景中，以实现将不同时间出现的运动目标在同一时间呈现出来的效果。将这样的拼接好的视频帧一帧一帧的播放出来，就形成了动态的浓缩视频。

针对背景的处理，本发明采用平均背景法，即在进行目标检测与跟踪的过程中，将通过Vibe背景建模算法得到的每一帧背景图像保存下来，在进行视频浓缩时取这些背景帧的平均值作为背景来与前景目标进行拼接。

对于非在线的视频浓缩方法，其并不能边拍摄视频边进行浓缩运算，而必须要对保存于本地的视频全读取完毕后才可进行浓缩操作，因而其会存在某些不足之处：一是不具备实时性。该方法往往是在拍摄了一段很长的监控视频后先将该段视频保存下来，再对其进行浓缩运算，这样会导致时间的延后性大大增加，而且在对长时间监控视频浓缩的过程中所需要的时间较长，更不利于后期对视频的查询与检索；二是对硬件的要求较高。对于长时间的监控视频，系统需要对整个视频文件进行读取，并将视频中的所有运动目标在所有帧中的位置与运动信息保存到缓存中，由于视频文件大，需要保存的内容就多，因而这些方法就需要较大的内存设备才可以运行，增加了设备的成本。

而本发明专利提出了一种在线的视频浓缩方法，其并不需要对整个视频文件进行读取，而是可以边拍摄边进行浓缩操作，而且其可以通过人为的或自动的设定浓缩视频的浓缩密度，即浓缩视频中同一帧中的目标数量。并且该方法可以适用于内存比较小的设备运行，只要将浓缩的密度设定的比较小的话，其消耗的内存就会相应的减小，节省了硬件资源。

如图4所示，横轴是表示位置信息，纵轴是表示时间信息，视频浓缩的目的就是使得在不同时间区间出现的目标与发生的事件在同一时间段内同时发生，极大地压缩空闲时间段，充分的利用时间与空间，提高其利用率。

如图7所示，图中目标团块即为运动目标。该模块的执行步骤如下所述：

第一步，统计第二个模块中所保存的目标数量，当等于设定的阈值N时，便执行第二步；否则继续执行第一步。

第二步，针对所选定的浓缩密度N，即计划浓缩的一帧图像中会有N个目标，计算从第一个目标出现到第N个目标出现时经过Vibe背景建模算法所得到的所有视频背景帧的平均值作为所要拼接的背景帧BG(x,y)，其中(x,y)表示坐标值。

第三步，针对第二步中所选取到的平均背景BG(x,y)，根据这样的策略进行“挖洞”：对平均背景BG(x,y)，将先前保存的前景目标的最小外接矩形FG(x,y)中所有的像素的位置点(x,y)所对应的BG(x,y)中的位置点(x,y)的像素值赋值为0，同时再将对应前景FG(x,y)中点(x,y)的像素值复制到点BG(x,y)处，这样即完成了一个像素点的拼接。针对所有运动目标的所有像素点进行上述的拼接过程，即完成了一帧图像的拼接，此时即把本来不在同一时间出现的运动目标在同一时刻出现，即完成了一个静态的浓缩过程。

第四步，针对由第三步得到的这一静态浓缩帧中的所有拼接的目标，比较其中任意两个目标的遮挡情况，比较过程如下：假设其中有两个目标分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个目标中心点的水平距离如上面公式(3)所示，垂直距离如上述(4)所示，如果式：

X_d＜W(A)/2+W(B)/2 (11)

和式

Y_d＜H(A)/2+H(B)/2 (12)

同时都成立，则说明两个目标发生了遮挡，当发生遮挡时，其中被遮挡部分的运动目标就会丢失了对应的像素信息，因而此时就要对发生遮挡的区域位置所对应的两个目标的位置进行半透明化操作，即把发生遮挡的两个目标的遮挡区域的像素值进行一下加权操作，即两个目标的对应位置的像素值各乘0.5，再相加，然后再拼接到对应的背景上，这样处理后即便发生了遮挡，两个目标的遮挡区域也都能被看到。

第五步，针对第二个模块中保存的所有运动目标都进行上述的拼接过程，并进行遮挡检测与遮挡处理，再将得到的拼接帧连续播放出来，即可得到了动态的浓缩视频。

第六步，当前述N个运动目标已经浓缩完之后，则将之前保存的彩色前景图像与背景图像的缓存清除，来进行下一轮的保存与浓缩操作。

在此模块中，在同一背景图像上拼接的运动目标数量N可由客户来设定，人们如果想让浓缩的密度N大一点的话就把N设定的大一些，而如果想让浓缩密度N小一些的话就把N设定的小一些。浓缩密度N的大小一般是根据监控环境来设定的，例如在比较狭小的楼道内，N就可以设定的较小；而如果在比较广阔的场地上，N就可以设定的较大。N可以是3个、4个或者5个，也可以是十几个甚至更多，随着数量的增多，消耗的内存也会增大；当然，该数量也可交由系统自动的设定，根据主机系统的硬件参数来自动调整，系统内存大的话就可设定的大一些，系统内存较小的话就设定的小一些。

视频压缩效果图如图5、图6所示，出现在不同时间的同一楼道内的四个人，其运动轨迹能够在同一时段的视频中出现，节省了大量的监视查看时间。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种在线动态视频浓缩方法，其特征是：包括以下步骤：

(1)通过Vibe算法检测运动的前景，将每一帧图像的每个像素点进行分类：建立背景模型，比较待分类像素和背景模型的相似度，若相似度满足设定值，则判断为背景，否则为前景；

(3)对前期获取到的运动目标进行跟踪，利用Kalman滤波器结合最小空间距离算法来预测每个运动目标的坐标位置，并进行不断更新、跟踪，清除消失的运动对象并不断记录运动目标的新坐标位置；

(4)基于前期的目标检测与目标跟踪，设定阈值，并统计步骤(3)中保存的目标数量，当此数值等于设定的阈值时，将在第二个模块中保存的所有前景目标同时拼接到一帧处理好的背景中，以实现将不同时间出现的运动目标在同一时间呈现出来的效果。

2.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(1)的具体方法为：为每个像素点存储一个样本集，样本集中采样值就是该像素点过去的像素值和其邻域的像素值，为每个像素点p_t(x)建立一个包含N个样本的背景模型：

M(x)＝{p₁,p₂,...,p_N} (1)

通过比较待分类像素p_t(x)与背景模型M(x)的相似度，如果相似，即判断为背景，否则为前景；相似度按如下方式来定义：定义一个以p_t(x)为球心，R为半径的球体S_R(p_t(x))，用A来表示球体与背景模型的交集，即可用来判断相似度：

A＝{S_R(p_t(x))Ι{p₁,p₂,...,p_N}} (2)

3.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(2)的具体为：通过Vibe算法对前景分割存在以下情况：经过Vibe算法进行前景分割后，如果同一个目标被分割成了很多个目标块，那这些目标块的最小外接矩形在相对位置上还是存在一定的位置关系的：一是较小的框完全被较大的框所包含；二是两个框之间有交集，但并不完全包含；三是两个矩形框之间并没有交集，但是他们成上下关系，且质心之间的水平与垂直距离都小于一定的阈值。

4.如权利要求3所述的一种在线动态视频浓缩方法，其特征是：所述步骤(2)的具体方法为：假设有两个矩形窗分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个框中心点的水平距离为：

X_d＝|x(A)-x(B)| (3)

垂直距离为：

Y_d＝|y(A)-y(B)| (4)

X_d≤|W(A)-W(B)|/2 (5)

和

Y_d≤|H(A)-H(B)|/2 (6)

直接将被包含在内部的矩形框去掉即可；

X_d≤α₁×|W(A)+W(B)|/2 (7)

和

Y_d≤α₂×|H(A)+H(B)|/2 (8)

X_d≤β₁×|W(A)+W(B)|/2 (9)

和

Y_d≤β₂×|H(A)+H(B)|/2 (10)

5.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(3)的具体方法为：对前期获取到的运动对象进行跟踪，也就是确定同一目标体在图像序列的不同帧中的位置的过程，即已知在视频的第n帧中的某个目标，去搜寻第n+1帧及后续帧中该目标的位置等信息，如果找到了，就说明跟踪成功；否则，可能就跟踪失败或者是目标消失。

6.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(3)的具体方法，包括以下步骤：

7.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(3)中，将已经成功跟踪的所有目标的最小外接矩形彩色前景保存到前景容器中，将每个目标在每一帧的位置及大小信息保存到目标列表中，将经过Vibe背景建模得到的所有背景保存在背景容器中。

8.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(4)中，针对背景的处理，本发明采用平均背景法，即在进行目标检测与跟踪的过程中，将通过Vibe背景建模算法得到的每一帧背景图像保存下来，在进行视频浓缩时取这些背景帧的平均值作为背景来与前景目标进行拼接。

9.如权利要求1所述的一种在线动态视频浓缩方法，其特征是：所述步骤(4)具体方法包括：

10.如权利要求9所述的一种在线动态视频浓缩方法，其特征是：所述步骤(4-4)的具体方法为：比较过程如下：假设其中有两个目标分别为A和B，宽度分别记为W(A)和W(B)，高度记为H(A)和H(B)，中心点坐标记为(x(A),y(A))、(x(B),y(B))，则两个目标中心点的水平距离如上面公式(3)所示，垂直距离如上述(4)所示，如果式：

X_d＜W(A)/2+W(B)/2 (11)

和式

Y_d＜H(A)/2+H(B)/2 (12)