CN103189861B

CN103189861B - 在线视频浓缩装置、系统及方法

Info

Publication number: CN103189861B
Application number: CN201080065438.8A
Authority: CN
Inventors: 李子青; 冯仕堃; 雷震; 王睿
Original assignee: Beijing Zhongke Aosen Technology Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Keaosen Data Technology Co Ltd
Priority date: 2010-08-10
Filing date: 2010-12-31
Publication date: 2015-12-16
Anticipated expiration: 2030-12-31
Also published as: CN103189861A; WO2012019417A1; CN102375816B; CN102375816A; WO2012019417A8

Abstract

提供了一种在线视频浓缩装置、系统及方法。该方法包括：步骤1，获取一帧图像；步骤2，分割该图像的前景图像和背景图像，针对分割出的前景图像执行步骤3，针对分割出的背景图像执行步骤5；步骤3，从该前景图像中提取出运动物体；步骤4，循环执行步骤1至步骤3，累积从各帧前景图像中分别提取出的运动物体，形成运动物体序列，直到循环次数达到预定值；步骤5，循环执行步骤1至步骤2，累积各帧图像的背景图像，从中提取特定n帧背景图像作为主背景序列，直到循环次数达到预定值；步骤6，将该主背景序列与该运动物体序列进行拼接，形成浓缩视频。该方法利用在线浓缩方式，缩短了浓缩视频长度，尽量保留视频中的运动物体信息。

Description

在线视频浓缩装置、系统及方法

技术领域

本发明涉及一种针对视频流的分析与处理领域，特别是涉及一种在线视频浓缩系统及方法。

背景技术

近年来，数字媒体的高速发展，公共安全情势受到社会和公众的广泛关注，多媒体和安防视频数据成爆炸式增长。传统耗时的简单原始的浏览方式已远远不能满足人们对视频信息访问和查询的需求。因此，迫切需要快速便捷，且具有良好的视觉效果的视频浏览查阅方法和系统。

目前的视频浏览方法，可以分为视频略览(VideoSummary)、视频梗概(VideoSkimming)和视频摘要(VideoSynopsis)三大类：

1.视频略览是从原始视频中提取一部分图像的集合来概括原始的视频内容，而这些代表原始视频的图像就称为关键帧(Keyframe)。对其浏览的方式包括故事板(Storyboard，参见SUchihashi，JFooteandAGirgensohn，“Videomanga：Generatingsemanticallymeaningfulvideosummaries”，ACMMultimedia，1999.)和场景转移图(STG，参见BYeoandBLiu，“Rapidsceneanalysiscompressedvideo”，IEEETrans.OnCircuitsandSystemsforVideoTechnology，5(6)：533-544，1995)等。基于关键帧提取的视频略览的优点在于简单易行，且计算复杂度低。不足之处在于关键帧表达机制丢失了视频的动态特性，因而表现力不生动。

2.视频梗概是从原始视频中提取能够表达原始视频的小片段或者镜头内容加以编辑合成，它本身就是一个视频片断，因此保持了原始视频的动态特性。视频梗概分为两类：视频概述(SummarySequence，参看NaphadeandHuang，“Semanticvideoindexingusingaprobabilisticframework”，ICPR，2000)和精彩片断(Highlight，参看ZhongandChang，“Structureanalysisofsportsvideousingdomainmodels”，ICME，2001)。与视频略览相似，视频梗概技术把帧作为组成视频的最小视觉单位，而对于背景相对稳定的监控视频，结果都不可避免的存在大量的冗余信息。

3.视频摘要是从完整的原始视频中提取所有运动物体序列，然后将这些序列重排到摘要视频空间，以达到压缩视频的效果。这种技术允许不同时间段出现的运动物体出现在摘要视频空间的同一帧(参看A.Rav-Acha，Y.Pritch，andS.Peleg，“MakingaLongVideoShort：DynamicVideoSynopsis”，CVPR，2006)。视频摘要的优点是能够以较大的比例压缩视频，如对于某些特定场景，视频摘要能将24小时的监控视频压缩到一分钟以内。它的缺点是算法复杂度高，对硬件要求高。首先它需要将提取的所有运动物体信息存放到内存里加以运算，往往原始视频可能长达数小时，需要存放的大量运动物体信息对内存将是巨大的挑战。其次，传统的视频摘要方法是通过模拟退火算法求解运动物体序列重排到摘要视频空间里的位置，由于重排问题数据量庞大，且模拟退火算法里的能量函数计算复杂，导致了整个方法复杂度高，难以实时使用。

发明内容

本发明解决的技术问题在于：对实时获取的视频图像进行在线视频浓缩，缩短浓缩视频长度，并尽可能的保留视频中的运动物体信息。

本发明进一步解决的问题在于：实现便捷的视频浏览查阅，具有较好的视觉效果。

本发明进一步解决的问题在于：显示运动物体在时间上的并发，尽量避免相互遮挡。

本发明进一步解决的问题在于：降低硬件需求和算法复杂度。

为解决上述问题，本发明公开了一种在线视频浓缩方法，针对每一帧当前获取的图像依次实时执行该方法，该方法包括：一种在线视频浓缩方法，包括以下步骤：步骤1，获取一帧图像；步骤2，分割该图像的前景图像和背景图像，针对分割出的前景图像执行步骤3，针对分割出的背景图像执行步骤5；步骤3，从该前景图像中提取出运动物体；步骤4，循环执行步骤1-步骤3，累积从各帧前景图像中分别提取出的运动物体，形成运动物体序列，直到循环次数达到预定值；步骤5，循环执行步骤1-步骤2，累积各帧图像的背景图像，从中提取特定n帧背景图像作为主背景序列，直到循环次数达到预定值；步骤6，将该主背景序列与该运动物体序列进行拼接，形成浓缩视频。

本发明还提供了一种在线视频浓缩系统，其包括：图像分割单元，用于分割所接收的每一帧图像的背景图像和前景图像；运动物体提取单元，用于从该前景图像中提取运动物体；运动物体序列提取单元，用于累积从各帧前景图像分别提取出的运动物体，形成运动物体序列；主背景序列提取单元，用于从图像分割单元提取多帧背景图像，并从中提取特定n帧背景图像作为主背景序列，n是大于的整数；拼接单元，用于将该主背景序列与该运动物体序列进行拼接，形成浓缩视频。

本发明的在线视频浓缩方式针对实时提取的运动物体序列进行处理，保证在第一时间即可针对原始视频图像产生浓缩视频。无需在获得全部原始视频图像后再开始进行视频浓缩，节省了存储空间，也避免了现有的获得全部原始视频图像的方式中，内存需同时对全部运动物体序列进行处理所带来的内存消耗，降低了对硬件的需求。同时，每次处理一个运动物体序列的机制能够保证计算速度达到实时要求，提高了处理速度。

本发明还在尽量避免相互遮挡的前提下显示时间上的并发，将不同时间出现的运动物体在一帧中同时显示，以节约浓缩视频的长度。所生成的浓缩视频，可以方便的供用户对视频事件进行快速便捷的浏览查阅，而且针对同一运动目标可以体现出连续的动作变化，具有良好的视觉效果。

本发明的方法和系统使用的算法具有较高的合理性以及运行效率，降低了复杂度。

附图说明

图1A所示为本发明的在线视频浓缩系统的结构框图；

图1B所示为本发明在线视频浓缩系统中主背景序列提取单元的结构框图；

图1C所示为本发明在线视频浓缩系统中运动物体序列提取单元的结构框图；

图2A-2D所示为本发明在线视频浓缩方法的流程图；

图3A-3C所示为本发明的在线主背景序列选择方式的示意图；

图4所示为本发明的视频浓缩的效果图；

图5所示为本发明的两级浓缩视频缓存空间的示意图；

图6所示为本发明的运动物体相互遮挡示意图；

图7A、7B所示为时间直方图的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明将原始视频图像中出现的运动目标体现在浓缩视频中，并体现出其动作的连续性，具有动态效果。

更进一步的，本发明将并未同时出现的运动目标，同时显示在一帧浓缩视频中。

更进一步的，本发明还可尽量避免不同运动目标的相互遮挡。

更进一步的，在本发明中，当原始视频图像中出现的运动目标较少时，同样长度的浓缩视频可对应更长的原始视频图像，即，视频浓缩的效率高，降低了浓缩视频的长度。

更进一步的，本发明可以根据监控现场的实际情况，动态调整一段浓缩视频所对应的原始视频图像的长度。

更进一步的，本发明对硬件的要求低，算法复杂度低。

参照图1A所示的本发明的在线视频浓缩系统100的结构示意图，该系统100包括在线视频浓缩装置10和图像获取装置20、存储装置30、显示装置40以及检索装置50。

图像获取装置20用于实时地获取视频图像，其可例如为一监控摄像头，将实时获取的视频图像实时地传送至在线视频浓缩装置10。

在线视频浓缩装置10用于实时针对当前获取的每一帧图像进行在线处理。即，获取图像与视频浓缩同步进行，并非在保留全部视频后再启动视频浓缩处理。在线视频浓缩装置10可设置在一板卡、图形处理器(Graphicsprocessingunit，GPU)或嵌入式处理盒上。

在线视频浓缩装置10包括图像分割单元101、运动物体提取单元102、运动物体序列提取单元103、主背景序列提取单元104、拼接单元105、浓缩视频缓存空间106以及开始播放时间确定单元107。

本发明的视频浓缩包括对背景的浓缩和对前景的浓缩，图像分割单元101接收来自图像获取装置20的图像，并对收到的每一帧图像进行前景图像和背景图像的分割。

图像分割单元101可以采用现有技术的混合高斯模型(具体参见C.Stauffer，W.E.L.Grimson，″Adaptivebackgroundmixturemodelsforreal-timetracking″，CVPR，Vol.2，1999)对输入视频图像进行背景建模，得到每一帧图像的背景图像；然后将每一帧图像与相应的背景图像相减，再利用现有技术的图割算法(具体参见J.Sun，W.Zhang，X.Tang，H.Shum，″BackgroundCut″，ECCV，2006)得到精确的前景图像。此外，优选地利用GPU来实现该在线视频浓缩装置10，可以加快图割算法的计算速度，详细说明参见(V.Vineet，P.J.Narayanan，″CUDAcuts：FastgraphcutsontheGPU″，CVPRWorkshops，2008)。

图像分割单元101将分割后的背景图像传送至主背景序列提取单元104，将前景图像传送至运动物体提取单元102。图像分割单元101也用于统计当前帧前景图像的像素个数，将该像素个数也输送至主背景序列提取单元104。

主背景序列提取单元104接收多帧背景图像，并从中提取n帧作为主背景序列。在本发明中，n为浓缩视频缓存空间的大小，n值为预先设定的正整数。例如可为25。

如图1B所示，该主背景序列提取单元104进一步包括：

第一记录器1041，针对获取的每一帧背景图像记录一恒定数字，表示平等的选择每帧背景图像。即，主背景序列提取单元104每接收到一帧背景图像，第一记录器1041记录一个恒定数字，例如为“1”，也可为其他数字。

第二记录器1042，针对主背景序列提取单元104获取的每一帧背景图像记录其前景图像的像素个数。表示倾向选择运动物体多的图像对应的背景图像。

直方图处理单元1043，用于构建两个时间直方图H_t、H_a，时间直方图H_t的每一个区间的值是该第一记录器记录的值，时间直方图H_a的每一个区间的值为该第二记录器记录的值。直方图处理单元1043还对H_t、H_a进行归一化，分别得到H′_t、H′_a。

加权平分单元1044，其用于根据H_t、H_a，构建加权时间直方图H_new。

H_new＝(1-λ)H′_t+λH′_a，λ为加权系数。在主背景序列提取单元104累积收到n帧背景图像后，加权平分单元1044将加权时间直方图H_new的面积平均分成n份。运动物体提取单元102针对接收到的每一帧前景图像，提取其中的运动物体。

运动物体序列提取单元103接收运动物体提取单元102提取出的运动物体，形成运动物体序列。

参见图1C，运动物体序列提取单元103进一步包括跟踪链表1031以及一匹配判断单元1032。跟踪链表1031用于存储从每帧图像中提取出的运动物体，其中，属于同一运动目标的运动物体将依次顺序存储在该跟踪链表1031里以组成一运动物体序列。

匹配判断单元1032用于利用跟踪算法对当前获取的运动物体与跟踪链表里已有的未最终形成的运动物体序列中的运动物体进行匹配，如果匹配，将该当前获取的运动物体添加在相应的运动物体序列中的末位，即，对该相应的运动物体序列进行更新，增加该运动目标的一个最新的动作，如果不匹配，认为该当前获取的运动物体对应一新的运动目标，将该运动物体添加到跟踪链表中作为另一新的运动物体序列的第一帧，同时认为跟踪链表里已有的未得到匹配的运动物体序列已最终形成。

拼接单元105接收来自主背景序列提取单元104的主背景序列和来自运动物体序列提取单元103的运动物体序列，并将该主背景序列与该运动物体序列拼接起来，形成浓缩视频。

浓缩视频缓存空间106，参见图1，其包括一级浓缩视频缓存空间1061和二级浓缩视频缓存空间1062，该两级浓缩视频缓存空间的容量均为n帧，与主背景序列的帧数一致。如图5所示为两级浓缩视频缓存空间的示意图。该浓缩视频缓存空间106也可以只包括一级浓缩视频缓存空间。

开始播放时间确定单元107，用于针对浓缩视频缓存空间106中的每一帧，计算该帧中一当前形成的运动物体序列与其他运动物体序列的遮挡率，并选择开始播放时刻，开始播放时间确定单元107还用于判断浓缩视频缓存空间是否已满。

存储装置30，用于存储拼接单元105生成的浓缩视频。

显示装置40，可为一显示屏，用于播放该浓缩视频供用户观看。

检索装置50，用于对生成的浓缩视频进行检索。检索装置50可例如为一搜索引擎。

该在线视频浓缩装置10还可包括一用户接口，供导出该浓缩视频。本发明所谓运动物体，是指记录了某个真实的运动目标在连续帧里出现的颜色信息的图像。该运动目标例如为人、宠物、能移动的车体等可移动物。运动目标在图像获取装置20的拍摄区域里走过，通常被图像获取装置20拍摄在连续的多帧图像中，故而，从多帧图像中可提取出针对同一运动目标的运动物体序列，该序列体现了该运动目标在此次经过拍摄区域时的情景，该序列还能够体现出同一运动目标的在不同时刻的动作变化。

图2A示出了本发明一种在线视频浓缩方法的流程图，该方法包括步骤：步骤200，启动在线视频浓缩系统；步骤201，开始步骤，同时设置K＝0；步骤202，获取一帧图像，K加1；步骤203，分割该图像的前景图像和背景图像，分割后同时执行步骤204和205；步骤204，从分割后的图像中获得前景图像，转入步骤206；步骤205，从分割后的图像中获得背景图像，转入步骤207；步骤206，从该前景图像中提取出运动物体，转入步骤208；步骤208，累积从K帧该前景图像中分别提取出的运动物体，形成运动物体序列，转入步骤209；步骤207，累积K帧该图像的背景图像，从中提取特定n(n≤K)帧背景图像作为主背景序列，转入步骤209；步骤209，判断k是否等于M，如果等于，则转入步骤210，否则返回步骤202，也就是循环执行步骤202、203，204，205，206，207，208；步骤210，将该主背景序列与该运动物体序列进行拼接，转入步骤211；步骤211，判断视频流是否结束，如果是，则转入步骤212，否则转入步骤201，也就是循环执行步骤201，202，203，204，205，206，207，208，209，210；步骤212，结束在线视频浓缩系统。

在该方法中，上述循环执行步骤204，206，208的次数与循环执行步骤205，207的次数相同。

即，针对一帧图像，同时对其前景图像和背景图像进行所述处理。

在本发明的一实施例中，步骤203还包括统计当前帧前景图像的像素个数。

以下更详细地描述上述方法的具体实现过程。

视频浓缩的其中一个重要组成部分是对背景的浓缩，在步骤207中，最终需要从所接收到的M幅背景图像中，在线的选择出n幅背景图像作为主背景序列，以出现在最终的浓缩视频中。通常情况下，M远大于n。本发明依据以下原则进行主背景序列的选择：第一，体现时间的自然推移变迁现象。随着时间推移，同一背景环境中的光线等会发生变化，则视频浓缩需体现出对所有背景的平等选择；第二，反映运动目标在原始视频图像中出现多寡的真实情况。倾向选择运动物体出现的多的图像的背景图像。

也就是说，在线选择出的主背景序列，其中各帧背景图像被选几率均等，并且，所对应的前景图像的像素多。

选择主背景序列进一步包括：1、第一记录器1041针对获取的每一帧背景图像记录一恒定数字表示平等的选择每帧背景图像，例如为“1”，也可为其他数字；2、第二记录器1042针对获取的每一帧背景图像记录其前景图像的像素个数，表不倾向选择运动物体多的图像对应的背景图像；3、构建两个时间直方图H_t、H_a，时间直方图H_t的每一个区间的值是上述对每一帧背景图像记录的值，时间直方图H_a的每一个区间的值为上述针对每一帧图像记录的前景图像的像素个数值。图7A、7B所示为时间直方图H_t、H_a的示意图。图7A表示一个每个时刻都是1的时间直方图。图7B体现了一24小时监控视频的活动量直方图，横坐标代表时刻，纵坐标为相应时刻的活动量(其对应了当前时刻前景图像的像素个数)，该图反映了在白天时刻活动量大，而在晚上活动量则少。4、对H_t、H_a进行归一化，分别得到H′_t、H′_a。由于可能循环跳转执行步骤202，第一、第二记录器所记录的值将不断增加，当前的H_t、H_a、H′_t、H′_a也在随时被构建。该归一化处理可采用目前常见的归一化手段，例如，累加直方图每一个区间的值得到一累加值，然后再用直方图每一个区间的值除以这个累加值作为每一区间的新值。其他归一化处理方式也也适用于本发明。5、根据H_t、H_a，构建加权时间直方图H_new。H_new＝(1-λ)H′_t+λH′_a，λ为加权系数，范围是大于等于0小于等于1，可由用户设定。

在步骤207中，当累积收到n帧背景图像后，加权时间直方图H_new的面积就被平均分成n份，参见图3A的平分方式，每份面积中，所有y值相同的位置代表一帧图像。选取每一份面积的一特定位置(特定y值)所对应的图像，提取该图像的背景图像，以组成该主背景序列。该特定位置可例如为该区间的第一帧或最后一帧，或其他位置。只要每份面积选择的位置一致即可。以下以第一帧为例进行描述。

这种基于两个记录器的主背景序列选择方法，综合考虑了公平选择背景图像以及对内容密集的图像的倾向，使出现在浓缩视频中的背景更合理。

请参阅图3A所示，为本发明的在线主背景序列选择方法的示意图。

假设图中Si(i＝1，2……n)为加权时间直方图H_new被均分的n份面积，PBi(PrincipalBackground，i＝1，2……n)为当前时刻选择的用于组成主背景序列的背景图像。随着时间的推进，不断接收到新的背景图像。图中的x为加权时间直方图H_new中针对新的背景图像的缓冲区，即，针对新的背景图像新构成的直方图数据。该缓冲区可随着所接收到的新的背景图像的增加而增长。CPB(CandidatePrincipalBackground)代表新的待选背景图像。CPB位于x的该特定位置，例如为第一帧。

为了避免x无限增长，同时，为了保证在任一时刻都保证当前所挑选的主背景序列符合上述两个原则。需要不断更新主背景序列，判断新的背景图像能否加入主背景序列，现有的主背景序列是否需要剔除部分背景图像，以保证主背景序列的帧数n不变。

本发明优选采用将相邻面积合并的方式剔除一帧背景图像，并将CPB加入主背景序列，即，两个相邻面积合并，剔除第二块的背景图像。合并包括两种情况，一种如图3B所示，为本发明的合并操作的示意图，S_j和S_j+1合并成新的S′_j，x变成新的S′_n。一种如图3C所示，为本发明的合并操作的示意图，x与S_n合并成新的S′_n。这两种情况的结果都能生成S′_i(i＝1，...，n)。本发明在合并操作之后将x清零。而在触发一次合并操作前，CPB是确定的，x可以增长。

本发明将通过如下方式，选择合适时机触发上述合并。

加权时间直方图H_new均分n份并接收到一CPB时，开始计算当前的S_i(i＝1，...，n)的方差var_s。

其中S_i为H_new的每份均分面积值。

同时，假设当前触发了合并操作，则计算以上每一种可能的合并操作方式所对应的方差var_s’，该合并操作共包括n种方式，故而可计算出n个var_s’。从该n个var_s’中选取最小值var_min，该最小值var_min对应了使S′_i(i＝1，...，n)的方差最小的合并操作的方式。进一步判断该var_min是否符合一预设规则，即是否小于var_s，或者var_min是否大于α*var_s(1.1＜α＜2.5)，α还可根据实际需要确定为其他值，该预设规则有利于面积的趋近均分。如果是，根据该var_min所对应的合并操作方式，触发此次合并操作。如果是第一种合并情况，也就是var_min小于var_s，则在主背景序列中剔除合并的相邻面积的第二块面积的第一帧背景图像并增加该CPB，清零x；如果是第二种情况，也就是var_min大于α*var_s，则保持原有的主背景序列，清零x，将CPB替换为下一新接收到的背景图像。如果上述判断为否，则不触发合并操作。等待接收到新的背景图像，也就是x发生了增长后，再次进行上述合并时机的计算。

这种动态的主背景选择机制，可以保证在任一时刻，H_new的面积尽可能的被均分为n份，所选择的主背景序列随时都符合上述两个原则。这样可以保证后续无论在哪个时刻触发步骤211的拼接步骤，所得到的浓缩视频的背景图像都在所有背景图像中更具有典型性。且任一时刻都不会存储所有的背景图像。

在进行背景提取的同时，前景图像的浓缩是视频浓缩的另一重要组成部分。在执行步骤207的同时执行步骤208，参照图2B，在步骤206中从前景图像提取运动物体具体包括步骤2061，接收一帧前景图像的前景掩码(mask)，对该前景掩码做连通性分析，还包括步骤2062，根据连通性分析的结果构建运动物体。即，从前景图像中提取运动物体。

该连通性分析一般通过广度(深度)优先或形态学算法找出连通区域，在此基础上统计连通区域的个数、位置等等信息，该位置信息为该运动物体在该图像中的位置，该方法是本领域的已有技术，具体可参考((美)冈萨雷斯等著，″数字图像处理″，电子工业出版社)。从前景图像中提取出的运动物体记载在一集合中，该集合可例如为通过一跟踪链表1031实现。

跟踪链表1031用于存储从每帧图像中提取出的运动物体，其中，属于同一运动目标的运动物体将依次顺序存储在该跟踪链表1031里以组成一运动物体序列。

参照图2B，步骤206进一步包括，步骤2063，利用跟踪算法对当前获取的运动物体与跟踪链表1031里已有的未最终形成的运动物体序列中的运动物体进行匹配，如果匹配，转入步骤2064，将该当前获取的运动物体添加在相应的运动物体序列中的末位，即，对该相应的运动物体序列进行更新，增加该运动目标的一个最新的动作。如果不匹配，执行步骤2065，认为该当前获取的运动物体对应一新的运动目标，将该运动物体添加到跟踪链表中作为另一新的运动物体序列的第一帧。步骤2064和步骤2065的输出都是步骤2066，即跟踪列表里没有匹配到运动物体视为已经提取完毕的运动物体序列。鉴于运动目标的移动速度远远慢于图像获取装置20每帧的拍摄速度，该“不匹配”代表图像获取装置20没有连续的拍摄到一运动目标的图像，可见该运动目标已脱离图像获取装置20的拍摄区域，那么当前出现的运动物体不可能对应在先的运动目标，而应对应新出现的另一运动目标。可见，该判断是否匹配的步骤，也可以作为判断运动物体序列是否形成的标准。

例如，当三个运动目标A、B、C同时并排进入该图像获取装置20的拍摄区域时，提取到三个运动物体，并分别插入跟踪链表1031中，随着拍摄的继续，每个运动目标都累积了多个运动物体以组成一运动物体序列。当三个运动目标几乎同时离开图像获取装置20的拍摄区域时，图像获取装置20拍摄到的有关这三个运动目标的最后一帧图像，可能只包括其中一个运动目标A，判断出运动目标B、C的运动物体序列不再得到匹配，认定运动目标B、C的运动物体序列已同时形成，运动目标A的运动物体序列未形成，需继续执行步骤202，当运动目标A的运动物体序列也不再得到匹配时，认定运动目标A的运动物体序列已形成。

步骤2063中所述“匹配”，即，判断两运动物体间的颜色、大小、面积和/或灰度等因素的一致性是否达到一预定匹配阈值，如果高于该匹配阈值，认定二者匹配。

此时，运动物体序列与主背景序列已经分别生成完毕，可以将所生成的运动物体序列的每一帧依照其位置信息，依次插入该主背景序列的n帧中。

通过步骤2063的判断，可能同时提取出一个或多个运动物体序列，每个运动物体序列可能包括多帧，即，每个运动物体序列可能包括多于n帧的运动物体也可能等于或少于n帧。对于少于等于n帧的运动物体序列，可直接插入该主背景序列中，对于多于n帧的运动物体序列，可将前n帧插入该主背景序列中，其余可放弃。

当图像获取装置20获取图像达到一预定条件时，将当前拼接的结果作为一最终拼接结果，作为此次视频浓缩的一个输出。同时执行步骤211，看视频流是否结束，如果是，则转入步骤212，即结束在线视频浓缩系统，如果不是，则循环执行步骤201，提取新的主背景序列与新的运动物体序列，以前述方法得到又一个输出。该预定条件例如为达到预定的时长时，或者，已提取出的运动物体序列的数目达到一预定数目，即，每预定时长的原始视频提取一段浓缩视频，或者每监控到预定个运动目标提取一段浓缩视频。该预定条件可根据需要确定。从而在图像获取装置20的一段监控时间内，利用本发明的技术方案可以得到一段或多段浓缩视频，可以呈现在该段监控时间，所监控到的所有运动目标。

然而，上述方案可能存在不同的运动物体相互遮挡的问题，故而，本发明进一步公开了一种可以尽量避免不同运动物体的相互遮挡的视频浓缩方式，以更清楚的显示运动物体在时间上的并发，便于用户快速便捷的查阅浓缩视频。

如图4所示为本发明的图像浓缩的示意图。

在本发明的一实施例中，在步骤208之后，还包括步骤2081：如果在步骤208中一旦有运动物体序列形成，则当前形成的运动物体序列的每一帧就会被立即依次填充至该浓缩视频缓存空间106中。

特别是，如果该浓缩视频缓存空间106是二级缓存的情况下，该运动物体序列中的每个运动物体，将根据其在原始视频图像中的位置信息，从一级浓缩视频缓存空间1061的第一帧开始填充。整个运动物体序列可以横跨整个浓缩视频缓存空间106。在浓缩视频缓存空间包括一级和二级的实施例中，一个运动物体序列在一级浓缩视频缓存空间里放不下的部分可以直接放在二级浓缩缓存空间。

设置该浓缩视频缓存空间106是为了确定该当前形成的运动物体序列的开始播放时刻。在本发明中，开始播放时刻只能是一级浓缩视频缓存空间1061中的0到n-1帧中的某一帧。开始播放时刻就是，该运动物体序列从哪一帧开始执行步骤210的拼接步骤。该运动物体序列中该帧之前的各帧中的运动物体可以放弃或者直接删除。

如图6所示为本发明的运动物体相互遮挡示意图。插入一级浓缩视频缓存空间1061中的当前形成的运动物体序列的运动物体可能遮挡其他运动物体，也可能被其他运动物体遮挡，或者同时遮挡与被遮挡。假设插入规则为，针对浓缩视频缓存空间106中的同一帧，先插入的运动物体序列的运动物体显示在上层，遮挡出现在同一位置的后插入的运动物体序列的运动物体。由于当前形成的运动物体序列可能是一个也可能是多个，如果是多个，那么需要依次插入该浓缩视频缓存空间106，故而当前形成的运动物体序列中的一个，可能同时遮挡与被遮挡。当然也可以采用其他插入规则，也会同时出现上述两种遮挡情况。其他插入规则例如为，根据物体深度设置显示的优先顺序，物体深度的定义后述。深度深(浅)的，显示在上层，优先显示。

随后执行步骤2082，针对一级浓缩视频缓存空间1061中的每一帧，计算该帧中一当前形成的运动物体序列与其他运动物体序列的遮挡率，并选择开始播放时刻，遮挡率的具体计算方法后述。这样，得到了每个可能的开始时刻的遮挡率。

从计算得到的所有遮挡率中选择一小于特定阈值的遮挡率，以该遮挡率所对应的一级浓缩视频缓存空间中的位置作为该运动物体序列在该拼接步骤210中拼接的起点(开始播放时刻)，如果不存在小于该特定阈值的遮挡率，将该运动物体序列作为等待数据。

这种选择起点的方式可以使得在最终浓缩视频中，该运动物体序列至少有一帧的相互遮挡在容忍范围内，可以看的清楚，体现了对应运动目标的信息。

该特定阈值对应于浓缩程度，即，阈值越大，浓缩视频内的运动物体越拥挤，相互遮挡越严重，在同样的运动目标出现速率的前提下，浓缩视频所对应的原始视频图像的长度越长，反之亦然。该特定阈值可预先设定。

将该运动物体序列作为等待数据，即，认为太过拥挤，相互遮挡严重，当前的一级浓缩视频缓存空间1061没有足够的空间容纳此运动物体序列。

步骤2082还可以以下方式实现，对所有遮挡率进行升序排列，在排序队列的前5％(或其他特定数量、特定百分比)中随机挑选一个遮挡率，若该遮挡率大于等于该特定阈值，将该运动物体序列作为等待数据，否则作为拼接起点。可随机挑选一个遮挡率，也可依照其他规则挑选。

将该运动物体序列作为等待数据，可通过将该运动物体序列放置于一等待链表的方式实现。

在步骤2082之后执行步骤2083，判断浓缩视频缓存空间是否已满。

具体的，判断等待数据的数量是否超过一预设值，如果超过，执行步骤2085，如果没超过，执行步骤2084。

在一实施例中，判断该等待链表是否超过一预定长度(该预定长度例如为5-10之间任一)，如果超过，执行步骤2085，如果没超过，执行步骤2084。

该“超过”代表浓缩视频缓存空间106在当前的遮挡容忍度下已满，没有空间继续容纳新的运动物体序列，则在此时触发步骤2085，设置M的值为K。

步骤2084执行设置M＝K+1，使得步骤209执行“否”的操作，也就是重复执行步骤202。步骤2085执行设置M＝K，使得步骤209执行“是”的操作，也就是执行步骤210。

本申请对于每一帧的遮挡率的计算，仅需要计算当前浓缩视频缓存空间内存储的运动物体序列之间的遮挡率，由于当前浓缩视频缓存空间内存储的运动物体序列的个数相对较小，排列组合的结果少，故而在计算时，内存不用如现有技术般存储所有的运动物体序列，计算海量的排列组合结果对应的遮挡率，大幅降低了硬件需求。

前述遮挡率通过如下方法获得：

首先，根据运动物体边框的坐标粗略地确定此物体的深度，在摄像机俯视拍摄情况下，离摄像机越近的物体其边框的最低点的纵坐标越大，则其深度越深；反之，在摄像机仰视拍摄情况下，则离摄像机越近的物体其边框的最低点的纵坐标越小，则其深度越深，即离摄像机越近深度越深。

其次，根据该深度信息判断出此运动物体与存在缓存空间里的其它运动物体的相互遮挡情况。

如图6所示，运动物体OBJ2遮挡了运动物体OBJ1，同时，运动物体OBJ2被运动物体OBJ3所遮挡。

对于第一种情况，计算OBJ2在第t帧遮挡OBJ1的惩罚面积(惩罚面积是根据遮挡的面积而反馈的一个面积数值)：

A_{2, t}^{1 +} = \{\begin{matrix} C_{1,2}^{t} & if C_{1,2}^{t} < β \cdot A_{1}^{t} \\ κ \cdot A_{2}^{t} & otherwise \end{matrix},

其中表示在第t帧OBJ2遮挡OBJ1的惩罚面积，表示在第t帧OBJ1和OBJ2的边框相互遮挡的面积，分别表示在第t帧OBJ1和OBJ2的边框面积，β为一阈值，表示被遮挡物体最大容忍的遮挡率，κ表示惩罚冲击系数，为用户设定。

对于第二种情况，OBJ2在第t帧被OBJ3遮挡的惩罚面积计算如下：

A_{2, t}^{3 -} = \{\begin{matrix} C_{2,3}^{t} & if C_{2,3}^{t} < β \cdot A_{2}^{t} \\ κ \cdot A_{2}^{t} & otherwise \end{matrix},

其中表示在第t帧OBJ2被OBJ3遮挡的惩罚面积。OBJ2最终的惩罚面积可通过下式计算：

C_{2} = Σ_{t} (Σ_{i} A_{2, t}^{i - 1} + Σ_{j} A_{2, t}^{j +})

其中∑_t表示对时间轴进行积分，∑_i表示在t帧里对遮挡OBJ2的物体进行枚举，∑_j则表示在t帧里对被OBJ2遮挡的物体进行枚举。

故OBJ2的遮挡率可定义如下：

{Rate}_{2} = C_{2} / Σ_{t} A_{2}^{t}

其中，上式分母为OBJ2沿着时间轴累加自身的边框面积总和。

该遮挡率还可基于相互遮挡面积，通过其他方式计算得到，本领域的技术人员所进行的明显变型，均在本发明的公开范围内。

本发明通过上述浓缩视频缓存空间106，确定了开始播放时刻，降低了浓缩视频中各个运动物体间的相互遮挡。

在步骤210中，拼接单元105将浓缩视频缓存空间中的运动物体序列与主背景序列进行无缝拼接，特别是一级浓缩视频缓存空间中的运动物体序列与主背景序列进行无缝拼接。

所述无缝拼接技术，包括遵循物理视觉效果角度考虑的运动物体遮挡问题的处理方法。所述无缝拼接技术，采用基于像素颜色值相似和梯度相似的准则，拼接合成浓缩视频。像素颜色值相似表示的是拼接的时候，要尽量使源图像的颜色在边缘处与目标图像相等，而梯度相似则要求拼接好的图像的纹理与源图像的纹理一致。

具体的，利用改进的泊松图像编辑技术(YaelPritch，AlexRav-Acha，andShmuelPeleg，“NonchronologicalVideoSynopsisandIndexing”，PAMI，vol30，no.11，2008)将一级浓缩视频缓存空间里的运动物体序列与主背景序列进行无缝拼接，进而生成浓缩视频。

在播放该浓缩视频时，人眼感受到的仍是表现力生动的动态视频，视觉感知效果好，有利于用户对视频内容的查阅。

该拼接单元105生成的浓缩视频被存储在存储装置30中。该浓缩视频可通过显示屏来播放供用户观看。该浓缩视频还可通过用户接口被导出。该浓缩视频还可通过例如搜索引擎被检索。

在步骤210执行完毕后，可继续执行一系列初始化操作，随后执行步骤211。也就是说，在得到一段浓缩视频后，还可继续进行视频浓缩。实现对原始视频图像的不间断的浓缩。

如图2D所示为本发明的初始化流程图。

步骤213，将一级浓缩视频缓存空间1061清空；步骤214，交换一级浓缩视频缓存空间1061与二级浓缩视频缓存空间1062的存储内容；步骤215，将等待数据强制地填充至一级浓缩视频缓存空间1061；步骤216，清空等待数据和主背景序列，以至于能让步骤208和步骤207在重新开始执行进行初始化操作，并在原始视频图像的视频流尚未结束时，执行步骤211。

通过步骤214，可以使得之前未参加视频浓缩的二级浓缩视频缓存空间1062中的运动物体可以参加下一次的视频浓缩。

本发明的算法具有较高的合理性以及运行效率，降低了复杂度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线视频浓缩方法，包括以下步骤：

步骤1，获取一帧图像；

步骤2，分割该图像的前景图像和背景图像，针对分割出的前景图像执行步骤3，针对分割出的背景图像执行步骤5；

步骤3，从该前景图像中提取出运动物体；

步骤4，循环执行步骤1-步骤3，累积从各帧前景图像中分别提取出的运动物体，形成运动物体序列，直到循环次数达到预定值；

步骤5，循环执行步骤1-步骤2，累积各帧图像的背景图像，从中提取特定n帧背景图像作为主背景序列，直到循环次数达到预定值，n是大于0的整数；

步骤6，将该主背景序列与该运动物体序列进行拼接，形成浓缩视频；

其中，步骤5进一步包括，当累积收到n帧图像后，提取这n帧图像的背景图像以组成主背景序列；当再接收到新的图像时，判断新的背景图像是否能加入主背景序列，并判断现有的主背景序列是否需要剔除部分背景图像，以保证主背景序列的帧数n不变，其中所述n帧背景是从累积各帧图像中在线提取的，故不需要存储各帧图像的背景图。

2.如权利要求1所述的方法，其特征在于，在步骤5中，提取主背景序列遵循：平等选择每一帧背景图像，以及，选择所对应的前景图像的像素多的背景图像。

3.如权利要求1所述的方法，其特征在于，步骤5进一步包括：

构建两个时间直方图H_t、H_a，时间直方图H_t的每一个区间的值是针对每一帧背景图像记录的恒定数字，时间直方图H_a的每一个区间的值为依次所获取的每帧图像的前景图像的像素个数；

对H_t、H_a进行归一化，分别得到H′_t、H′_a；

得到加权时间直方图H_new，H_new＝(1-λ)H′_t+λH′_a，λ为加权系数；

将加权时间直方图H_new的面积平均分成n份，选取每一份面积的一特定位置所对应的图像，提取该图像的背景图像以组成该主背景序列。

4.如权利要求3所述的方法，其特征在于，在该主背景序列生成之后新获得背景图像时，计算Si的方差vars，Si为加权时间直方图H_new被均分后的每一份面积，计算所有相邻面积合并方式所得到的面积Si’所对应的方差vars’，从中选择最小值，当该最小值与vars的关系符合预设规则时，依据该最小值对应的相邻面积合并方式，进行面积合并，该主背景序列舍弃该合并的两块相邻面积中的一块的该特定位置所对应的图像的背景图像。

5.如权利要求1所述的方法，其特征在于，步骤4之后还包括一开始播放时间确定步骤：

将该运动物体序列的每一帧根据开始播放时间依次填充至一浓缩视频缓存空间，该浓缩视频缓存空间包括一级浓缩视频缓存空间和二级浓缩视频缓存空间；两级浓缩视频缓存空间的容量均为n帧；该运动物体序列的开始播放时间只限定于一级浓缩视频缓存空间，当一级浓缩视频缓存空间存放不下整个运动物体序列时，运动物体序列剩余的部分存放至二级浓缩视频缓存空间；

计算该运动物体序列的每个运动物体与处于同一帧的每个该一级浓缩视频缓存空间中已存在的运动物体序列的运动物体的遮挡率；

从计算得到的所有遮挡率中选择一小于一阈值的遮挡率，以该遮挡率所对应的一级浓缩视频缓存空间中的位置作为该运动物体序列在步骤6中被拼接的起点。

6.如权利要求5所述的方法，其特征在于，从计算得到的所有遮挡率中选择一小于该阈值的遮挡率的步骤进一步包括：将所有遮挡率依大小进行排列，从最小的前特定数量或前特定百分比个遮挡率中选择一个，判断其是否小于该阈值，如果是，将其作为被选择的遮挡率，如果否，将该运动物体序列作为等待数据，当该等待数据的数量超过一预设值时，将该主背景序列与该运动物体序列进行无缝拼接。

7.如权利要求6所述的方法，其特征在于，等待数据的数量超过一预设值表明一级浓缩视频缓存空间已经不能容纳新的运动物体序列，然后可执行步骤6的拼接，接着重复执行步骤1直到视频结束为止，这种方式的结果是最终的浓缩视频是根据输入视频的内容所决定的。

8.一种在线视频浓缩装置，其包括：

图像分割单元，用于分割所接收的每一帧图像的背景图像和前景图像；

运动物体提取单元，用于从该前景图像中提取运动物体；

运动物体序列提取单元，用于累积从各帧前景图像分别提取出的运动物体，形成运动物体序列；

主背景序列提取单元，用于从图像分割单元提取多帧背景图像，并从中提取特定n帧背景图像作为主背景序列，n是大于0的整数；

拼接单元，用于将该主背景序列与该运动物体序列进行拼接，形成浓缩视频；

所述主背景序列提取单元用于当累积收到n帧图像后，提取这n帧图像的背景图像以组成主背景序列；当再接收到新的图像时，判断新的背景图像是否能加入主背景序列，并判断现有的主背景序列是否需要剔除部分背景图像，以保证主背景序列的帧数n不变，其中，n帧背景是从累积各帧图像中在线提取的，故不需要存储各帧图像的背景图。

9.如权利要求8所述的装置，其特征在于，该图像分割单元利用混合高斯模型进行背景建模，以得到每一帧图像的背景图像，将图像与该图像的背景图像相减，以得到该图像的前景图像。

10.如权利要求9所述的装置，其特征在于，该主背景序列提取单元平等选择每一帧背景图像，以及，选择所对应的前景图像的像素多的背景图像。

11.如权利要求10所述的装置，其特征在于，该主背景序列提取单元进一步包括：

第一记录器，针对获取的每一帧背景图像记录一恒定数字，表示平等的选择每帧背景图像；

第二记录器，针对获取的每一帧背景图像记录其前景图像的像素个数；

直方图处理单元，构建两个时间直方图H_t、H_a，时间直方图H_t的每一个区间的值是针对每一帧背景图像记录的恒定数字，时间直方图H_a的每一个区间的值为依次所获取的每帧图像的前景图像的像素个数，对H_t、H_a进行归一化，分别得到H′_t、H′_a，得到加权时间直方图H_new，H_new＝(1-λ)H′_t+λH′_a，λ为加权系数；

加权平分单元，将加权时间直方图H_new的面积平均分成n份，选取每一份面积的一特定位置所对应的图像，提取该图像的背景图像以组成该主背景序列。

12.如权利要求11所述的装置，其特征在于，该加权平分单元还用于在该主背景序列生成之后新获得背景图像时，计算Si的方差vars，Si为加权时间直方图H_new被均分后的每一份面积，计算所有相邻面积合并方式所得到的面积Si’所对应的方差vars’，从中选择最小值，当该最小值与vars的关系符合预设规则时，依据该最小值对应的相邻面积合并方式，进行面积合并，该主背景序列舍弃该合并的两块相邻面积中的一块的该特定位置所对应的图像的背景图像。

13.如权利要求8所述的装置，其特征在于，该运动物体提取单元用于对该前景图像进行连通性分析，根据连通区域构建运动物体。

14.如权利要求8或13所述的装置，其特征在于，该运动物体序列提取单元进一步包括一匹配判断单元，用于将从当前获取的图像中提取出的运动物体与已有的运动物体的集合中运动物体进行匹配判断，如果匹配，将该从当前获取的图像中提取出的运动物体加入该集合，如果不匹配，认为当前已有的运动物体的集合形成了该运动物体序列。

15.如权利要求8所述的装置，其特征在于，该装置还包括：

浓缩视频缓存空间，该浓缩视频缓存空间包括一级浓缩视频缓存空间和二级浓缩视频缓存空间，两级浓缩视频缓存空间的容量均为n帧，该运动物体序列的每一帧依次被填充至该浓缩视频缓存空间。

16.如权利要求15所述的装置，其特征在于，该装置还包括：

开始播放时间确定单元，用于计算该运动物体序列的每个运动物体与处于同一帧的该浓缩视频缓存空间中已存在的运动物体序列的运动物体的遮挡率，从计算得到的所有遮挡率中选择一小于一阈值的遮挡率，以该遮挡率所对应的浓缩视频缓存空间中的位置作为该运动物体序列被拼接的起点。

17.如权利要求16所述的装置，其特征在于，该开始播放时间确定单元还用于将所有遮挡率依大小进行排列，从最小的前特定数量或前特定百分比个遮挡率中选择一个，判断其是否小于该阈值，如果是，将其作为被选择的遮挡率，如果否，将该运动物体序列作为等待数据。

18.如权利要求17所述的装置，其特征在于，该拼接单元在该等待数据的数量超过一预设值时，将该主背景序列与该运动物体序列进行无缝拼接。

19.一种在线视频浓缩系统，其包括：

一图像获取装置，用于实时的获取图像，并将获取的图像传送到图像分割单元；

如权利要求8-18任一项所述的在线视频浓缩装置。

20.如权利要求19所述的系统，其特征在于，该系统还包括：

显示装置，用于对拼接后的浓缩视频进行显示；

存储装置，用于对拼接后的浓缩视频进行存储；

检索装置，用于对拼接后的浓缩视频进行检索。