CN101689394B

CN101689394B - 用于视频索引和视频概要的方法和系统

Info

Publication number: CN101689394B
Application number: CN200780050610.0A
Authority: CN
Inventors: 什穆埃尔·皮莱格; 耶尔·普里切; 亚历山大·拉维-阿查; 阿维塔尔·古特曼
Original assignee: Yissum Research Development Co of Hebrew University of Jerusalem
Current assignee: Brifkam Co Ltd
Priority date: 2007-02-01
Filing date: 2007-12-09
Publication date: 2014-03-26
Anticipated expiration: 2027-12-09
Also published as: BRPI0720802A2; BRPI0720802B1; JP5355422B2; AU2007345938A1; US8818038B2; CA2676632A1; CA2676632C; CN101689394A; JP2010518673A; EP2119224A1; US20130027551A1; US20100092037A1; WO2008093321A1; AU2007345938B2; KR20090117771A; EP3297272A1; KR101456652B1; US8311277B2

Abstract

在用于从源视频生成概要视频的系统和方法中，根据一个或多个限定约束选择至少三个不同的源对象，每个源对象均是来自源视频的至少三个不同帧的图像点的相关子集。通过使用从特定时期获取的图像点进行时间采样，从每个所选源对象采样一个或多个概要对象。对于每个概要对象，确定在概要视频中用于开始显示每个概要对象的各自时间，并且对于每个概要对象和每帧，可以确定用于显示概要对象的各自颜色转换。通过在它们的各自时间和颜色转换处显示所选概要对象来显示概要视频，使得在概要视频中同时显示至少三个点，这三个点中的每个均从源视频中不同的各自时间获取。

Description

用于视频索引和视频概要的方法和系统

相关申请

本申请是于2007年5月24日公开的WO2007/057893，(Rav-Acha等人)于2006年11月15日提交的“Method and systemfor producing a video synopsis”的部分继续申请，并且还要求于2007年2月1日提交的临时申请序列号为60/898,698、于2007年4月13日提交的序列号为60/911,839、以及于2007年9月12日提交的序列号为60/971,582的优先权，其全部内容结合于此作为参考。

技术领域

本发明涉及视频摘要和视频索引领域。

背景技术

以下列出被认为与本发明的背景相关的现有技术参考并且它们的内容结合于此作为参考。其他参考在上述US临时申请第60/898,698号、第60/911,839号以及第60/971582号中涉及并且它们的内容结合于此作为参考。此处参考的承认将不被推断为意味着它们与在此所披露的本发明的专利性以任何方式相关。每个参考均通过在方括号中的数字来识别，并且从而在说明书中通过方括号中包括的数字来引用现有技术。

[1]A.Agarwala，M.Dontcheva，M.Agrawala，S.Drucker，A.Colburn，B.Curless，D.Salesin，and M.Cohen.Interactive digitalphotomontage.In SIGGRAPH，pages 294-302，2004.

[2]Y.Boykov and V.Kolmogorov.An experimental comparison ofmin-cut/max-flow algorithms for energy minimization in vision.IEEE Trans.on Pattern Analysis and Machine Intelligence，26(9)：1124-1137，Sep.2004.

[3]S.Cohen.Background estimation as a labeling problem.InICCV’05，pages 1034-1041，Washington，DC，2005.

[4]A.Divakaran，K.Peker，R.Radhakrishnan，Z.Xiong，and R.Cabasson.Video summarization using mpeg-7 motion activity andaudio descriptors.Technical Report TR-2003-34，MERL-AMitsubishi Electric Research Laboratory，Cambridge，Massachusetts，May 2003.

[5]G.Doretto，A.Chiuso，Y.Wu，and S.Soatto.Dynamic textures.Int.J.Computer Vision，51：91-109，2003.

[6]M.Irani，P.Anandan，J.Bergen，R.Kumar，and S.Hsu.Efficientrepresentations of video sequences and their applications.SignalProcessing：Image Communication，8(4)：327-351，1996.

[7]H.Kang，Y.Matsushita，X.Tang，and X.Chen.Space-time videomontage.In CVPR’06，pages 1331-1338，New-York，June 2006.

[8]C.Kim and J.Hwang.An integrated scheme for object-basedvideo abstraction.In ACM Multimedia，pages 303-311，NewYork，2000.

[9]S.Kirkpatrick，C.D.Gelatt，and M.P.Vecchi.Optimization bysimulated annealing.Science，4598(13)：671-680，1983.

[10]V.Kolmogorov and R.Zabih.What energy functions can beminimized via graph cuts？In ECCV，pages 65-81，2002.

[11]Y.Li，T.Zhang，and D.Tretter.An overview of video abstractiontechniques.Technical Report HPL-2001-191，HP Laboratory，2001.

[12]J.Nam and A.Tewfik.Video abstract of video.In 3rd IEEEWorkshop on Multimedia Signal Processing，pages 117-122，Copenhagen，Sept.1999.

[13]J.Oh，Q.Wen，J.lee，and S.Hwang.Video abstraction.In S.Deb，editor，Video Data Mangement and Information Retrieval，pages321-346.Idea Group Inc.and IRM Press，2004.

[14]M.Oren，C.Papageorgiou，P.Shinha，E.Osuna，，and T.Poggio.Atrainable system for people detection.In Proceedings of ImageUnderstanding Workshop，pages 207-214，1997.

[15]M.Gangnet P.Perez and A.Blake.Poisson image editing.InSIGGRAPH，pages 313-318，July 2003.

[16]C.Pal and N.Jojic.Interactive montages of sprites for indexingand summarizing security video.In Video Proceedings ofCVPR05，pageII：1192，2005.

[17]R.Patil，P.Rybski，T.Kanade，and M.Veloso.People detectionand tracking in high resolution panoramic video mosaic.In Int.Conf.on Intelligent Robots and Systems(IROS 2004)，volume 1，pages 1323-1328，October 2004.

[18]N.Petrovic，N.Jojic，and T.Huang.Adaptive video fast forward.Multimedia Tools and Applications，26(3)：327-344，August 2005.

[19]A.Pope，R.Kumar，H.Sawhney，and C.Wan.Video abstraction：Summarizing video content for retrieval and visualization.InSignals，Systems and Computers，pages 915-919，1998.

[20]A.Rav-Acha，Y.Pritch，and S.Peleg.Making a long video short：Dynamic video synopsis.In CVPR’06，pages 435-441，New-York，June 2006.

[21]A.M.Smith and T.Kanade.Video skimming and characterizationthrough the combination of image and language understanding.In CAIVD，pages 61-70，1998.

[22]J.Sun，W.Zhang，X.Tang，and H.Shum.Background cut.InECCV，pages 628-641，2006.

[23]Y.Weiss and W.T.Freeman.On the optimality of solutions of themax-product belief propagation algorithm in arbitrary graphs.IEEE Transactions on Information Theory，47(2)：723-735，2001.

[24]X.Zhu，X.Wu，J.Fan，A.K.Elmagarmid，and W.G.Aref.Exploring video content structure for hierarchical summarization.Multimedia Syst.，10(2)：98-115，2004.

[25]S.Peleg and A.Rav-Acha，WO2007/057893“Method and systemfor producing a video synopsis”

[26]J.Assa，Y.Caspi，and D.Cohen-Or.Action synopsis：Poseselection and illustration.In SIGGRAPH，pages 667-676，2005.

[27]Carsten Rother，Lucas Bordeaux，Youssef Hamadi，and AndrewBlake.Autocollage.ACM Transactions on Graphics，25(3)：847-852，July 2006.

[28]Aseem Agarwala.Efficient gradient-domain compositing usingquadtrees.ACM Transactions on Graphics (Proceedings ofSIGGRAPH 2007)，2007.

[29]G.Brostow and I.Essa.Motion based decompositing of video.InICCV’99，pages 8-13，Corfu，1999.

[30]J.Shi and J.Malik，Normalized cuts and image segmentation，IEEE Transactions on Pattern Analysis and Machine Intelligence，22(8)：888-905，2000.

[31]O.Boiman and M.Irani.Detecting irregularities in images and invideo.In ICCV，pages I：462-469，Beijing，2005.

[32]B.M.Carvalho，G.T.Herman，and T.Y.Kong.Simultaneous fuzzysegmentation of multiple objects.Discrete Applied Mathematics，Vol 151，No.1-3，Oct 2005，pp 55-77.

[33]G.T.Herman and B.M.Carvalho.Multiseeded SegmentationUsing Fuzzy Connectedness.IEEE Transactions on PatternAnalysis and Machine Intelligence，v.23no.5，pp.460-474，May2001.

[34]A.Levin，A.Rav-Acha，and D.Lischinski.Spectral Matting.IEEE Conf.on Computer Vision and Pattern Recognition(CVPR)，Minneapolis，June 2007.

[35]N.E.Apostoloff and A.W.Fitzgibbon.Bayesian video mattingusing learnt image priors.In Proceedings IEEE Computer SocietyConference on Computer Vision and Pattern Recognition(CVPR)，June 2004，Washington DC.

背景技术

由于必须观看视频片断以确定是否已经记录了任何感兴趣的事，因此通过原始视频的收集进行分类是耗时的。虽然该乏味的任务在个人视频收集中可能是可行的，但是当包括由监控摄像机和网络摄像机记录的无限视频时，这是不可能的。上百万的网络摄像机每天24小时覆盖全世界，拍摄它们的观察范围。据报道，仅在UK就有上百万的监控摄像机覆盖城市街道。很多网络摄像机甚至将它们的视频公开地发布在互联网上用于每个人观看。多种安全性摄像机在商店、机场以及其他公共区域中也是在线可用的。

利用网络摄像机的多个问题之一在于提供原始的、未编辑的数据。从而，多数监控视频从来不会被观看或检查。在我们更早的WO2007/057893[25]中，我们提出了一中用于通过结合来自场景的多个原始图像的所选部分来创建缩短视频的视频概要的方法。视频片断描述了随着时间的可视活动，并且对时间轴进行压缩允许在更短时间内观察这样的片断的摘要。快进(在所选帧之间跳过多个帧)是用于视频摘要的最常用工具。快进的特殊情况被称为“时间推移”，生成非常慢处理(像花的生长)的视频等。由于快进可能丢失在丢掉的帧期间的快速活动，所以已经开发出了用于自适应快进的方法[12，18，4]。这样的方法尝试在不太感兴趣的或较低活动的时期内跳过帧，而在比较感兴趣的或较高活动的时期内保持帧。类似的方法从视频提取最能表示其内容的短视频序列的集合[21]。

进行视频摘要的多种方法完全消除了时间轴，并且通过选择几个关键帧来示出视频的概要[8，24]。这些关键帧可以被任意选择，或根据一些重要标准进行选择。但是，关键帧表示失去了视频的动态方面。对视频提取的全面调查出现在[11，13]中。

在以上两种方法中，全部的帧被用作基本建造块。一种不同的方法连同用于视频索引的元数据一起使用一些镶嵌图像[6，19，16]。在这种情况下，静态概要图像包括来自不同时间的对象。

用于视频概要的基于对象的方法首先出现在[20，7]中，其中在空间-时间域中表示移动对象。表示跨过视频的连续帧的对象或活动的图像的一部分的连接被称为“管件(tubes)”。当对象由空间-时间域中的管件表示时，术语“对象”和“管件”在以下描述中被可交换地使用。这些论文[20，7]引入了一个新概念：创建一个结合了来自不同时间的活动的概要视频(见图1)。

基于对象的方法一个实例在转让给本申请人的WO2007/057893[25]中披露，其中，获取示出一个或多个对象的运动的输入视频中的帧的子集。来自示出在第一动态场景中的对象的非空间重叠外观的子集的所选部分被从多个输入帧复制到在输出视频序列中的减少数量帧，使得在输出视频中同时示出在输入视频中在不同时间看到的对象的多个位置。

在参考[20，7]中所披露的方法基于以下观察：如果不强制按照时间发生顺序，可以在更短视频中示出更多动作。将这种方法扩展到无限视频序列(诸如，使用监控摄像机获取的)的概要以将输出视频的持续时间限制到期望限度将是有用的，但不过以降低特征损失的风险的被控方式进行。

长视频的有效索引、检索和浏览正变得重要，尤其是假定无限收集视频的监控摄像机的数量快速增加。传统视频索引使用利用关键字对视频进行手动注释，但是该方法是耗时的并且对于监控摄像机是不切实际的。基于从输入视频选择代表性关键帧或代表性时间间隔，已经提出了另外的视频索引方法。

视频概要可以被用于索引、检索和浏览在短概要视频中示出的所覆盖时期内的多个对象。然而，由于同时示出多个不同对象，检查简单概要视频可能混淆。

US20060117356(微软)披露了一种视频浏览器，该视频浏览器提供整个视频记录中发生的独特事件的相互关系浏览。具体地，该视频浏览器对视频进行处理以生成一组视频子画面，该组视频子画面表示在整个视频时期内发生的独特事件。这些独特事件包括(例如)在该视频所覆盖的整个时期的全部或一部分内发生的运动事件、安全事件、或其他预定事件类型。一旦该视频已被处理为确定了子画面，则然后这些子画面被设置在从该视频提取到的背景图像上以创建相互关系的静态视频蒙太奇。该相互关系的视频蒙太奇在单个静态帧中示出了该视频内发生的全部事件。用户在该蒙太奇中选择子画面会导致，或者播放该视频中所确定的所选子画面的那部分，或者在动态视频蒙太奇内同时播放所选子画面。

WO0178050(Inmotion Technology Ltd.)披露了用于利用甚至来自于单个视频摄像机的标准视频胶片以自动方式获得(例如)体育事件的频闪仪序列。该序列可以被表示为摄影属性的静态图像，或者可以用一直存在摄像机运动的视频序列表示(在这种情况下，该视频序列可以被渲染为在频闪仪画面上摇镜头运动或被渲染为运动对象沿着其路线留下拖尾轨迹的拷贝的动画频闪仪序列。例如，多个摄像机可以用于扩展视场或用于对多个序列进行比较。

JP-2004-336172披露了一种用于使监控视频缩短的系统，其保持了事件的先后顺序，而不会在同时的运动对象之间分离开。保持先后顺序基本上限制了缩短的可能性。此外，不建议对对象进行索引，使得概要视频中的对象的原始时间可以被容易地确定。

发明内容

根据本发明的第一方面，提供了一种用于从视频监控摄像机所生成的基本无限的源视频流生成概要视频的的计算机实现方法，该方法包括：

实时接收源视频流中的至少三个不同源对象的基于对象的描述，每个源对象均是来自源视频流的至少三个不同帧的图像点的相关子集；

连续保持所接收到的基于对象的描述的队列，基于对象的描述包括用于各个源对象的持续时间和位置；

基于给定标准从队列选择至少三个源对象的子集，

通过进行时间采样而从每个所选源对象采样一个或多个概要对象；

为每个概要对象确定用于在概要视频中开始显示每个概要对象的各自显示时间；以及

通过分别在所选概要对象或从所选概要对象获得的对象的各自预定显示时间显示所选概要对象或从所选概要对象获得的对象来生成概要视频；

使得在概要视频中同时显示至少三个点，这些点中的每个点均从源视频流中的不同各自时间获得，以及在概要视频中在不同时间显示至少两个点，这些点均从同一时间获得。

根据本发明的第二方面，提供了一种用于从视频监控摄像机所生成的基本无限的源视频流生成概要视频的系统，该系统包括：

源对象选择器，适于耦合至对象存储器，对象存储器存储源视频流中的至少三个不同源对象的基于对象的描述的连续保持的队列，基于对象的描述包括每个各自源对象的持续时间和位置，源对象选择器用于根据一个或多个限定约束选择至少三个不同源对象，每个源对象均是来自源视频流的至少三个不同帧的图像点的相关子集；

概要对象采样器，耦合至所述源对象选择器，用于通过使用从指定时期获取的图像点进行时间采样而从每个所选源对象采样一个或多个概要对象；

时间选择单元，耦合至概要对象采样器，用于为每个概要对象确定用于在概要视频中开始显示每个概要对象的各自显示时间；

拼接单元，耦合至时间选择单元，用于在所选概要对象或从所选概要对象获得的对象的各自显示时间拼接所选概要对象或从所选概要对象获得的对象，以生成连续的概要视频帧，使得在概要视频帧中同时显示至少三个点，这些点中的每个点均从源视频流中不同的各自时间获取；以及

概要帧存储器，耦合至拼接单元，用于存储该概要视频帧。

本发明所披露的视频概要是时间紧凑的视频表示，能够进行视频浏览和检索并且允许不同特征的索引，以允许所选特征是独立的并且在指定时间间隔内它们的时间前进被显示。根据本发明的一些实施例，采用基于视频概要的分级视频索引，其中，索引基于首先选择希望对象或活动的分类，并且仅在之后选择单个对象或活动。该过程可以重复以允许多级分级索引。

参考图1中示出的空间-时间域在[25]中描述涉及本发明的一般类型的视频概要的实例。视频开始于人在地上走，并且在一段不活动的时期之后，鸟在天空中飞。不活动帧在多数视频提取方法中被忽略。视频概要基本上更紧凑，同时播放人和鸟。当在这些空间位置没有其他活动发生时，这通过将事件从它们的原始时间间隔移到其他时间间隔作出图像区域的最佳使用。这样的操作释放了事件的时间上的连贯性。为了扩展本发明所采用的类似技术，它们在此将不被重复并且读者应参考WO2007/057893的全部描述。为了简短的原因并且为了不模糊本发明，其在一些方面可以被看作WO2007/057893的改进，以下仅详细描述与本发明相关的那些特征。

将该原理应用至如通过网络摄像机和监控摄像机获得的无限视频涉及多个额外挑战：

■由于没有存储器是无限的，所以当总结无限视频时存在“忘记”事件的需要。

■在长视频中背景的外观基本上改变，例如，白天到黑夜。当创建概要的背景以及当将对象插入到背景中时，要解决这些改变。

■由于不同时间的活动可以同时出现并且甚至在另一时间的背景上，当拼接所有这些以给出输出视频时需要特别注意。

■不管数据的巨大量如何，都要求对用户查询的快速响应。

通过给观看者观看除现场视频流之外的无限视频的摘要的能力，视频概要可以使监控摄像机和网络摄像机更加有用。为了能够实现以上效果，概要服务器可以观看所输入的现场视频，分析用于感兴趣事件的视频，并且记录该视频的基于对象的描述。该描述为每个网络摄像机列出了感兴趣的对象、它们的持续时间、位置、以及它们的外观。

可以由系统答复的查询可以类似于“我想要在一分钟内观看来自该网络摄像机在最后一小时内拍摄的视频的概要”，或者“我想要在五分钟内观看上周的概要”等。响应于这样的查询，最感兴趣的事件(“管件”)从所希望的时期收集，并且被组合成希望长度的概要视频。当每个对象均包括指向其原始时间的指针时，概要视频是对原始视频的索引。

虽然网络摄像机视频是无限的，并且对象的数量是无限的，但是用于每个网络摄像机的可用数据存储器可以是有限的。为了保持有限对象队列，我们提供了当空间被耗尽时从该队列中去除对象的程序。当选择用于在概要中的包含物的对象而进行时，从队列中去除对象应该根据类似重要性标准作出，允许最终最优化以查看更少的对象。

在本发明的上下文和所附权利要求中，术语“视频”与在其最通用术语中的“电影”同义，仅提供作为符合后处理的计算机图像文件是可访问的并且包括任何一种电影文件，例如数字、模拟。摄像机优选地在固定位置，这意味着它可以旋转和变焦距，但是在迄今所提出的技术中进行时不经过平移运动。与本发明相关的场景在至少一些时间是动态的。

为了描述本发明，将使用我们称为“空间时间域”的约束来创建概要视频。空间时间域可以通过沿时间轴连续地堆叠所有帧从图像的输入序列构建。然而，将明白，直到与实际实现有关，不必须实际上例如通过实际上在动态源场景的时间2D帧内进行堆叠来构建空间时间域。更特别地，源帧被独立地处理以构建目标帧，但是这将帮助理解引用空间时间域，就像其是物理构建而不是概念上的构建。

附图说明

为了理解本发明并且示出实际如何实现本发明，现在参考附图仅通过非限制性实例来描述实施例，其中：

图1是示出通过同时播放时间移位的特征来产生紧凑视频概要的现有方法的图形表示；

图2a至图2d示出了来自在不同时间在斯图加特机场的监控摄像机的背景图像；

图3a至图3d示出了在从图2a至图2d的对应背景上被示出“变平”的提取的四个管件；

图4a和图4b示出了来自“台球”场景的提取的两个管件；

图5a和图5b示出了在图2中所示的机场场景中的活动的空间分布；

图6用图表示出了图2中所示的机场场景中的活动的时间分布，通过移动对象的数量来衡量；

图7是根据本发明的实施例的示出基于概要的分级视频索引和搜索的结构的框图；

图8示出了对出现在图12中所示的停车场的监控视频中的对象进行分组的结果；

图9示出了来自图13中所示的停车场视频的索引分级中的“顶级概要”的帧，其中，同时呈现了不同组的代表；

图10a和图10b示出了来自在斯图加特机场经过24小时拍摄的视频的概要帧；

图11示出了从在台球俱乐部经过9小时拍摄的视频中的三个帧生成的概要帧；

图12a和图12b示出了从在俄罗斯圣彼得堡一晚上拍摄的视频生成的概要帧；

图13a和图13b示出了网络摄像机在安静的停车场花费五小时生成的概要帧；

图14是示出根据本发明的系统的主要功能的框图；以及

图15是示出根据本发明执行的原理操作的流程图。

当然，在图中作为代表帧示出的视频概要的实例最好在视频中观看。可以在http://www.vision.huji.ac.il/video-synopsis/访问实例。

具体实施方式

计算活动管件

从每个对象，通过选择对象出现在其中的帧的子集来创建片断。这样的片断可以表现不同时间间隔，可选地，以不同采样率获得。

为了应用这样的技术以生成无限视频的有用概要，应该识别感兴趣的对象和活动(管件)。在许多情况下，感兴趣的指示是简单的：移动对象是感兴趣的。虽然我们在很多实例中使用对象运动作为感兴趣的指示，但是例外必须被注意。一些动作可能不太重要，就像树上的树叶或天空中的云。场景中的人或其他大型动物可能是重要的，甚至当他们不移动时。虽然我们不处理这些例外，但是可以结合对象识别(例如，人物检测[14，17])、动态纹理[5]、或非正常活动的检测[31]。我们将给出视频概要的简单实例，给出对对象的不同分类的参数选择。

背景构建

为了能够分割移动前景对象，我们从背景构建开始。在短视频片断中，背景的外观不改变，并且它可以通过使用整个片断的时间中值(temporal median)来建立。在监控摄像机的情况下，由于照明的改变、背景对象的改变等，背景的外观随着时间而改变。在这种情况下，用于每个时间的背景可以使用在每帧之前和之后的几分钟的时间中值来计算。我们通常使用经过四分钟的中值。用于背景构建的其他方法也是可以的，甚至当使用更短时间窗时[3，9]，但是由于其效率原因，我们使用了中值。

图2a至图2d示出了来自在斯图加特机场的监控摄像机的背景图像。图2a和图2b示出了白天的图像，而图2c和图2d是在晚上。所停的汽车和所停的飞机变为了背景的一部分。

我们使用[22]的简化来计算表示动态对象的空间时间管件。这通过将背景减法和极小截结合在一起来进行，以获得前景对象的流畅片断。如在[22]中，当图像梯度与运动边界不太相关时，与背景梯度一致的图像梯度被削弱。所得到的“管件”是在3D空间时间域中的相关组件，并且以下简单描述它们的生成。

假设B为当前背景图像，并且假设I为待处理的当前图像。假设V为I中的所有像素的集合，并且假设N为I中的所有邻近像素对的集合。加标函数f标记图像中的每个像素r作为前景(f_r＝1)或背景(f_r＝0)。所希望的加标f通常最小化吉布斯能量[2]：

E (f) = \underset{r &Element; V}{Σ} E_{1} (f_{r}) + λ \underset{(r, s) &Element; N}{Σ} E_{2} (f_{r}, f_{s}), - - - (1)

其中，E₁(f_r)是一元颜色项(term)，E₂(f_r，f_s)是相邻像素r和s之间的成对对比项，并且λ是用户限定的权重。

作为成对对比项，我们使用[22]提出的公式：

E₂(f_r，f_s)＝δ(f_r-f_s)·exp(-βd_rs)，(2)

其中，β＝2<||(I(r)-I(s)||²>^-1是权重因子(<·>是图像采样的期望值)，并且d_rs是由背景梯度削弱的图像梯度，并且由以下等式给出：

d_{rs} = {| | I (r) - I (s) | |}^{2} \cdot \frac{1}{1 + {(\frac{| | B (r) - B (s) | |}{K})}^{2} \exp (\frac{- z_{rs}^{2}}{σ_{z}})} - - - (3)

在该等式中，z_rs衡量前景和背景之间的不同点：

z_rs＝max||I(r)-B(r)||，||I(s)-B(s)||，(4)

并且，K和σ_z是参数，如[22]建议的分别被设定为5和10。

对于一元颜色项，假设d_r＝||I(r)-B(r)||为图像I和当前背景B之间的色差。用于像素r的前景(1)和背景(0)被设置为：

E_{1} (1) = \{\begin{matrix} 0 & d_{r} > k_{1} \\ k_{1} - d_{r} & otherwise \end{matrix}, - - - (5)

E_{1} (0) = \{\begin{matrix} \infty & d_{r} > k_{2} \\ d_{r} - k_{1} & k_{2} > d_{r} > k_{1} \\ 0 & otherwise \end{matrix},

其中，k₁和k₂是用户限定阈值。根据经验，k₁＝30/255和k₂＝60/255在我们的实例中工作得很好。

我们不使用具有无限权重的更低阈值，这是由于我们的算法的随后阶段可以鲁棒性地处理被错误地识别作为前景的像素。由于相同原因，我们在空间时间域中构建所有前景像素的掩膜(mask)，并且将3D形态学膨胀施加在该掩膜上。结果，每个对象均被来自背景的多个像素围绕。该事实将通过拼接算法在随后使用。

最后，3D掩膜被分组成相关组件，被表示为“活动管件”。图3a至图3d示出了在图2的对应背景上被示出“变平”的四个提取的管件。左管件对应于地面车辆，同时右管件对应于在后面在跑道上的飞机。图4a和图4b示出了使用来自“台球”场景的两个提取的管件获得概要帧，以在单个帧中描述大量在时间上分离的表演者。

每个管件b均由其特征函数来表示

χ_{b} (x, y, t) = \{\begin{matrix} | | I (x, y, t) - B (x, y, t) | | & t &Element; t_{b} \\ 0 & otherwise \end{matrix}, - - - (6)

其中，B(x，y，t)是背景图像中的像素，I(x，y，t)是输入图像中的代表像素，并且t_b是该对象存在的时间间隔。

用于分割移动对象的其他方法也是可以的。例如，在二元分割中，图像中的每个元素均可以被分类为属于对象或不属于对象。分割还可以是模糊的，给图像中的每个元素指定对象中的成员的级别。在[32、33、34、35]中描述了合适的方法。在[33]中解释模糊连通性的概念。模糊分割有时被称为模糊编织(matting)[35]，并且被大量用于图形中，用于插入不同背景的对象[35]。在我们的工作中，我们以二元处理所有对象。然而，模糊对象的扩展是简单的。例如，成本函数的所有元素均可以乘以所涉及的元素的模糊成员值。而且，当模糊对象被插入到图像中时，成员值可以被用于“阿尔法编织(alpha matting)”，允许透明效果。

管件之间的能量

我们现在限定管件之间的相互关系能量。该能量将在之后由最佳阶段使用，创建具有最大活动的概要，同时避免在对象之间的冲突和重叠。假设B为所有动作管件的集合。每个管件b基于原始视频流中的有限时间片断来限定

t_{b} = [t_{b}^{s}, t_{b}^{e}] .

基于时间映射M生成概要视频，及时地将对象b从输入视频中的原始时间移动到视频概要中的时间片断

{\hat{t}}_{b} = [{\hat{t}}_{b}^{s}, {\hat{t}}_{b}^{e}] .

M

(b) = \hat{b}

表示管件b到概要的时间位移，并且当b不被映射到输出概要时，

我们将最佳概要视频限定为使以下能量函数最小化的概要视频：

E (M) = \underset{b &Element; B}{Σ} E_{a} (\hat{b}) + \underset{b, b^{'} &Element; B}{Σ} (α E_{t} (\hat{b}, {\hat{b}}^{'}) + β E_{c} (\hat{b}, {\hat{b}}^{'})), - - - (7)

其中，E_a是活动成本，E_t是时间一致性成本，以及E_c是冲突成本，如以下限定。由用户根据它们用于特定查询的相对重要性来设定权重α和β。减小冲突成本的权重(例如)将导致更密集的视频，其中，对象可能重叠。增加该权重将导致更稀疏视频，其中，对象不重叠并且呈现更少的活动。用于通过改变β获得的不同概要的实例在图10b中给出。

在提取活动管件之后，基于像素的成本可以由基于对象的成本来替换。特别地，与诸如在[25]中描述的现有方法相关的拼接成本由等式(7)中的冲突成本代替(在以下描述)。该成本由于将两个不同对象拼接在一起而受到惩罚，即使它们的外观类似(例如，两个人)。另外，限定了“时间一致性”成本，使得由于对象(或管件)之间的时间相关性的妨碍而受到惩罚。概要的这样的特征很难用基于像素的成本来表达。

活动成本

活动成本支持具有最大活动的概要电影。由于未被映射到概要中的有效时间的对象而受到惩罚。当管件被排除在概要之外时，即，

Figure 682034DEST_PATH_GSB00000582687300011

那么

E_{a} \hat{(b)} = \underset{x, y, t}{Σ} χ_{\hat{b}} (x, y, t), - - - (8)

其中，x_b(x，y，t)是在等式(6)中限定的特征函数。对于每个管件b，其映射部分地包括在最终概要中，我们限定类似于等式(8)的活动成本，但是仅将不进入概要的像素增加到活动成本中。

冲突成本

对于每两个“移位”管件和它们之间的每个相对时间位移，我们将冲突成本限定为由它们的活动衡量加权的它们的空间时间重叠的域：

E_{c} (\hat{b}, {\hat{b}}^{'}) = \underset{x, y, t &Element; {\hat{t}}_{b} \cap {\hat{t}}_{b^{'}}}{Σ} χ_{\hat{b}} (x, y, t) χ_{{\hat{b}}^{'}} (x, y, t) - - - (9)

其中，

Figure 962394DEST_PATH_GSB00000582687300015

是概要视频中的b和b′的时间交集。该表达式将给出对颜色类似于背景的像素的低惩罚，但是被加入到形态学膨胀处理中的活动管件中。改变冲突成本E_c的权重改变了图10b中所示的概要视频的对象的密度。

时间一致性成本

时间一致性成本增加了保留事件的形态学顺序(chronologicalorder，也叫时间顺序)的偏见。形态学顺序的保留对于具有强相互关系的管件是更加重要的。例如，优选地保持相互交谈的两个人的相对时间，或保持具有因果关系的两个事件的形态学顺序。但是，很难检测这样的相互关系。相反地，每对管件之间的相互关系量d(b，b′)被估计用于它们的相对空间-时间距离，如下描述的：

如果

则

d (b, b^{'}) = \exp (- \min_{t &Element; {\hat{t}}_{b} \cap {\hat{t}}_{b^{'}}} {d (b, b^{'}, t)} / σ_{space}), - - - (1)

其中，d(b，b′，t)是来自帧t中的b和b′的最近活动像素对之间的欧氏距离，并且σ_space确定管件之间的空间相互关系程度。

如果管件b和b′不共享在概要视频的共同时间，并且假设b被映射到比b′更早的时间，则它们的相互关系随着时间按指数减小：

d (b, b^{'}) = \exp (- ({\hat{t}}_{b^{'}}^{s} - {\hat{t}}_{b}^{e}) / σ_{time}), - - - (2)

其中，σ_time是限定时间的程度的参数，其中，事件仍然被认为具有时间相互关系。

时间一致性成本通过对违反这些关系的情况进行惩罚来保持对象之间的时间相关的优选：

其中，C是由于不保留时间一致性的事件而受到惩罚的常量。

能量最小化

由于等式(7)和(15)中的整体能量函数被写成关于单个管件或管件对限定的能量条件的总和，其可以通过多种基于MRF的技术(诸如信任扩散[23]或图形分割[10])来最小化。在我们的实现中，我们使用给出很好结果的更简单模拟退火方法[9]。在所有可能的时间映射M的空间中应用模拟退火，包括当在概要视频中根本不使用管件的特殊情况。

每个状态均描述包括在概要中的管件的子集，并且邻近状态被限定为单个活动管件被去除或改变其映射到概要的状态。在最初状态，我们使用所有管件均移位到概要电影的开始的状态。而且，为了加速计算，可以将管件的时间位移限制到10帧的跳跃。

无限视频的概要

如前所述，成百万的网络摄像机和监控摄像机覆盖世界，一天24小时拍摄它们的观察区域。利用这些摄像机的问题之一在于它们提供未编辑的原始数据。例如，一个两小时的影片，通常从成百或上千小时的原始视频电影胶片创建。在不编辑的情况下，多数网络摄像机数据是不相关的。而且，由于时区不同，在另一洲观察摄像机仅在非动作的时间期间是方便的。

本发明的重要特征在于通过给观看者观看无限视频的摘要(除摄像机提供的现场视频流之外)的能力使得网络摄像机源更有用。用户可以希望在五分钟内观看在前一周拍摄的所有内容的概要。为了实现该效果，我们描述可以基于在WO2007/057893中描述的基于对象的概要(但是包扩允许处理无限视频的其他组件)的系统。

在该系统中，服务器可以观看所输入的现场视频，分析感兴趣事件的视频，并且记录视频的基于对象的描述。该描述为每个摄像机列出了感兴趣的对象、它们的持续时间、位置、以及它们的外观。

两个阶段处理被提出用于无限视频的概要：

1)在线阶段，在视频拍摄期间。该阶段被实时进行。

■对象(管件)检测和分割。

■将检测到的对象插入到对象序列中。

■当到达空间限制时从对象队列去除对象。

2)响应阶段，根据用户查询构建概要。取决于感兴趣的时段中的活动量，该阶段可能花费几分钟。该阶段包括：

■构建改变背景的时间推移视频。背景改变通常由白天-黑夜的差别而导致，但是还可以是开始(停止)移动的对象的结果。

■选择将包括在概要视频中的管件并且计算这些管件的视觉上吸引人的时间配置。

■将管件和背景拼接到连贯视频中。该动作将考虑来自不同时间的活动可以同时出现，并且在来自另一时间的背景上。

预处理-过滤掉静态帧

很多监控摄像机和网络摄像机都对长期没有活动的场景进行成像。对于存储效率，对应这段时期的帧通常在在线阶段期间被过滤掉。剩余帧的原始时间与每个帧记录在一起。在一种实现中，根据两个标准记录帧：(1)由在进入帧和最后保持的帧之间的平方差的和(SSD)衡量的场景的整体改变。该标准根据在整个帧中逐渐的照明改变来表达的照明改变。(2)由小窗中的最大SSD衡量的移动对象的存在。

通过假设在非常短的持续时间(例如，小于一秒)内移动对象不重要，可以仅在几帧内测量一次视频活动。

对象队列

处理无限视频的主要挑战之一是开发一种方案以当新对象到达时“忘记”旧对象。丢弃最老活动的原有方案不是很好，用户可能希望得到可以包括来自整个时期的对象的长持续时间的摘要。相反地，我们提出了一种可选方案，该方案旨在估计每个目标对未来可能的查询的重要性并且从而丢弃对象。

被表示为空间-时间域中的管件的所有所检测的对象被存储在等待用户查询的队列中。当对象被插入该队列中时，其活动成本(等式(8))被计算以加速概要视频的未来构建。当网络摄像机生成的视频是无限的时，很可能在某一点耗尽所分配的空间，因而对象将必须从队列中去除。

当从队列中去除对象(管件)时，我们优选去除最不可能包括在最终概要中的对象。在我们的实例中，我们使用了可以有效计算的三个简单标准：“重要性”(活动)、“冲突可能性”、以及“老化”。但是，其他选项也是可能的，例如，当对特定外观或活动感兴趣时。

对于对象的重要性的可能衡量是如等式(8)中限定的特征函数的总和。

由于在接收到用户查询之前不计算冲突成本，因此使用在场景中的空间活动分布来作出管件冲突成本的估计。该空间活动由图像表示，该图像是每个空间位置中的所有对象的活动像素的总和，将和归一化。为每个独立的对象(该时间不被归一化)计算类似空间活动分布。这两个活动分布之间的相关性被用作用于该对象的“可能冲突”成本。图5a和图5b示出了图2中所示的机场场景中的动作的空间分布，其中，密度是活动值的对数。图5a示出了单个管件的活动分布，并且图5b示出了整个管件的平均值。如所预计的，最高活动是在车道和跑道上。管件的可能冲突在具有更高活动的区域中更高。

考虑概要中的对象的希望分布，存在多个可能的方法来执行从队列去除更旧的对象。例如，用户可以将注意力集中在新一些事件上，而在旧事件重要的情况下保留这些旧事件的一些表示。可选地，该概要应该具有每个时间间隔的统一表示。例如，在24小时的概要中，如果可应用的话，用户可以将注意力集中在观看来自每个和每小时的对象。

在第一种方法中，我们可以假设队列中的对象的密度应该随着对象的老化按指数减小。例如，如果我们将老化轴划分为离散的时间间隔，则在t的间隔处的对象数量N_t将成比例

N_{t} = K \frac{1}{σ} e^{- \frac{t}{σ}}, - - - (13)

其中，σ是衰减系数，并且K被确定以控制队列中的对象总数。当对象应当从队列被去除时，每个时间间隔t内的对象数量与N_t进行比较。使用活动成本和可能冲突仅估计来自数量超过N_t的时间间隔t的对象。将去除具有最小活动和最大冲突的对象。

图6中出现了对象到达队列的时间分布的实例，其用图表示出了经过29小时在图2的机场场景处由移动对象的数量衡量的活动的时间分布。在该期间存在1920个对象。队列中的对象的指数衰减将导致与乘以衰减指数的到达分布成比例的老化分布。

概要生成

可以通过诸如“我想看过去一天播放的该摄像机的一分钟概要”来访问该对象队列。给定输入视频的希望时期以及概要的希望长度，概要视频使用四个操作来生成。(i)生成背景视频。(ii)一旦限定了背景视频，就为每个对象并且为概要中的每个可能时间计算一致性成本。(iii)能量最小化步骤确定管件(空间-时间对象)在概要中是否出现以及何时出现。(iv)所选管件与背景时间推移结合以得到最终概要。这些操作在本部分中描述。原始视频减少到基于对象的表示能够提供对查询的快速响应。

在用户查询之后，生成第二(更小)对象队列，仅具有来自希望时期的对象。为了提供快速最优化，预先计算在更小队列中每两个对象之间的等式(9)中的冲突成本。

时间推移背景

概要视频的背景是时间推移背景视频，在将活动管件加入到概要之前生成。背景视频具有两个任务：(i)应该表示随着时间(例如，白天-黑夜转变等)的背景改变。(ii)应该表示动作管件的背景。这两个目标是冲突的，这是由于最好当背景视频仅覆盖活动时期时作出表示活动管件的背景(例如，忽略多数夜晚时间)。

我们通过构建两个时间分布来解决该折中。(i)图6中所示的视频流的时间活动分布H_a。(ii)统一的时间分布H_t。我们通过插入两个时间分布λ·H_a+(1-λ)·H_t来计算第三时间分布，其中，λ是用户给定的权重。λ＝0时，背景时间推移视频在时间上是统一的，而不管活动如何，但是λ＝1时，背景时间推移视频将包括仅来自活动时期的背景。我们通常使用0.25＜λ＜0.5。

根据所插入的时间分布，背景帧被选择用于时间推移背景视频。该选择被作出，使得每两个所选背景帧之间的柱状区域是相等的。更多帧被从活动持续时间选择，但是不完全忽略非活动时期。

可选地，背景可以由合成背景代替，并且对象将被放置在该合成背景的顶部。

与背景的一致性

由于我们不假设精确地分割移动对象，我们优选地将管件拼接到具有更类似外观的背景图像。通过增加新能量项E_b(M)，可以考虑该管件与背景的一致性。该项将衡量将对象拼接到时间推移背景的成本。一般地，假设

为映射的管件

的颜色值，并且假设B_out(x，y，t)为时间推移背景的颜色值，我们设定：

E_{s} (\hat{b}) = \underset{x, y &Element; σ (\hat{b}), t &Element; {\hat{t}}_{b} \cap t_{out}}{Σ} | | I_{\hat{b}} (x, y, t) - B_{out} (x, y, t) | |, - - - (14)

其中，

是在所映射的活动管件

的边界中的像素的集合，并且t_out是输出概要的持续时间。该成本假设每个管件都由来自其原始背景的像素围绕(从我们的活动掩膜的形态学膨胀得到)。

等式(14)中的背景一致性项被添加到等式(7)中描述的能量函数，给出了：

E (M) = \underset{b &Element; B}{Σ} (E_{a} (\hat{b}) + γ E_{s} (\hat{b})) +

(15)

+ \underset{b, b^{'} &Element; B}{Σ} (α E_{t} (\hat{b}, {\hat{b}}^{'}) + β E_{c} (\hat{b}, {\hat{b}}^{'})),

其中，α，β，γ为依赖查询的用户所选权重。

拼接概要视频

拼接来自不同时期的管件提出了对现有方法(诸如[1，16])的挑战。一次拼接所有管件可能导致来自不同对象的颜色的混合，这是不希望的效果。最好保留不同对象之间的尖锐相变，同时消除仅在对象和背景之间的接缝。对象的精确分割可以解决该问题，但是精确分割是不现实的。相反地，由于当生成活动管件时我们应用的形态学膨胀，每个管件的边界都由背景像素构成。

由[27]提出的α-泊松图像混合可以是用于在对象之间进行拼接的很好的解决方法，但是不如用于将对象拼接到背景的泊松编辑[15]。所建议的方法被用于观察所有对象均具有类似背景(直到照明改变)，并且独立地将每个管件拼接到该时间推移背景。任何混合方法均是可能的，并且我们使用泊松编辑的修改：我们增加了保护对象原始外观的调整，即使对象原始外观被拼接到具有不同照明条件的背景图像(例如，在白天所看到的人，被拼接在晚间背景的顶部)

还应该注意，贴到背景上的对象不需要在图形上与源视频中的对应对象一致。例如，概要视频中的至少一个对象可以通过在空间上扭曲对象或用预定符号或图标代替源视频中的对应对象来形成。而且，当对象被加入到概要视频时，对象的像素值可以不一定代替背景值。新值可以是背景和对象的平均值，创建透明效果。

假设Ω为图像域，具有边界

假设f，b为前景对象(管件)和背景(时间推移)像素颜色，并且假设S为经过Ω内部的拼接对象的未知值。利用调整的泊松混合的结果由以下来给出：

\min_{s} \underset{Ω}{Σ} [{(Δs - Δf)}^{2} + λ {(s - f) .}^{2}], suchthat s_{&PartialD; Ω} = b_{&PartialD; Ω}, - - - (16)

其中，λ是调整项的权重。在[28]中，示出了在梯度域内的拼接可以非常有效地被进行。

在将每个管件拼接到背景之后，通过假设每个像素为来自所拼接的活动管件

的对应像素的权重平均值，将重叠管件混合到一起，其中权重与活动度量成比例。可选地，通过使具有最大活动度量的像素代替权重平均值，可以避免透明性。

当结合“对象管件”时，可以使用深度排序，其中，更近管件将堵塞未来管件。可以使用简单的“水平面”推断，假设垂直图像位置较低的对象也更近。其他深度排序方法包括[29]。对象遮挡情况的频率取决于冲突成本(防止这样的情况)相对于其他成本的相对权重。

索引

基于概要的分级视频索引旨在提供使用可视查询来表示和浏览视频内容的紧凑和容易的方法，甚至用于在监控摄像机中的情况的无限视频。图7示出了基于概要的分级视频索引和搜索的总体结构。在该系统中，我们假设希望进行索引的视频已经被选择，例如“最后一小时”、“最后36小时”等。

为了建立所提出的索引，视频首先被分析并且活动/重要的对象被从视频中提取以生成基于对象的视频表示。

在索引的第二阶段，使用任意分组方法将对象分组成类似对象的组。执行这样的分组的可能方法是基于每对对象之间的一些类似性衡量的亲和力(类似性)矩阵。

对象之间的亲和力(类似性)

对象之间的亲和力衡量可以基于多种特征，包括但不限于对象的空间-时间表示之间的相关性。为了执行有效的类似性衡量，被表示为在视频的空间-时间表示中的3D管件的对象可以首先被扭曲至普通坐标系，并且空间时间-对准可以被执行以克服它们可能的不同位置和级别。这样的扭曲可能是有用的，这是由于其导致对在视频和多种投影转换中的对象的空间-时间位置不变的类似性衡量。具有相似运动路径但是处于视频中的不同位置的相似对象将被认为相似，即使由于透明效果使得它们的原始外观不同。其他亲和力衡量可以是对象的形状、尺寸、或颜色，并且可以是现有技术中已知的许多其他可能类似性衡量。

分组

一旦已经构建了亲和力矩阵，诸如[30]的分组方法可以被用于将每个对象分类到其对应分类。需要重点注意的是，分组处理还可以被用于帮助识别“不规则”对象和行为。没有被分组到任何一个分类的对象可以被怀疑是“唯一的”或“不规则的”，并且可以利用在稍后描述的概要生成的处理中进行特殊标记被可视化。

图8示出了对在停车场拍摄的从24小时的视频序列中提取的对象的这种自动分组处理的实例。在所描述的六个帧中，来自六个分类的对象示出了：(i)向右走的人；(ii)向左走的人；(iii)向建筑物走的人；(iv)向右移动的车；(v)向左移动的车；(vi)将停的车或将开走的车。

可选地，可以使用概率分组，由此代替哪个对象属于哪个分类的艰难决定，概率向量可以被限定用于每个对象和不同分类。这可以被用在分级索引处理中。例如，对象可以与多于一个的分类相关，如果它很适合那些分类。当表明具有属于不同分类的基本相等概率时，这还可以用在不规则活动被确定的情况下。

分级索引

一旦分组被确定，并且对象被分到分组，用于索引的分级视频概要序列的集合就可以基于该分组(来自分组的概要——Synopsisfrom Clusters，SFC)来生成。

一种可行的索引分级可以首先呈现给用户“顶级概要”：概要视频包括仅包括来自每个分组的一些表示，例如，来自图8中所示的分组，“顶级”概要可以呈现来自每个分类的一个对象：一辆向右移动的车、一辆向左移动的车、一个向右走的人、一个向左走的人等。来自这样的概要的单个帧在图9中示出，其中，同时呈现了不同分组的表示。用户可以通过选择在“顶级”概要中的对象之一来选择对象的整个分类。该选择将导致呈现给用户仅示出所选分组中的对象的概要视频。

顶级概要可以被用作相互关系索引工具以达到原始视频中的活动或每个希望对象。一旦用户选择了特定分组或分组的集合，那么就显示分级中的下一概要。这样的概要将包括更多代表或者甚至来自那些分组的所有对象。在该阶段，用户可以指定他希望的对象并且到达该对象在输入视频中的原始时间。在每个分类中存在多个对象并且很难生成短概要的情况下，可能将更多等级加入到分级并且从每个原始分组生成多个子分组。例如，选择“向右移动的车”分组可以生成卡车和轿车的两个子分组。在这种情况下，在得到搜索的最终结果之前，需要选择一个子分组，示出具有多数原始对象的概要。

这样的方法提供到基于可视查询的非常大视频的非常快的搜索和索引工具，并且能够在合理时间内到达原始视频中的每个对象和活动。

实例

我们测试关于从互联网拍摄的几个视频流的视频概要。当帧速率在互联网上不恒定，并且帧周期性地降低时，无论何时，我们利用时间邻近性，我们不对帧的数量进行计数，但是我们使用每个帧的绝对时间。

图10和图12来自位于户外的摄像机，但是图11来自位于具有恒定照明的室内摄像机。在多数实例中，主要“感兴趣”的每个管件均为其中移动像素的数量。

图10a和图10b示出了视频概要中的对象的密度的冲突成本的选择的效果。图10a示出了来自在斯图加特机场24小时拍摄的视频的20秒概要的帧。图10b示出了降低成本函数中的“冲突惩罚”基本上增加了对象密度，从而允许对象之间的更多重叠。图12示出了基于形状的优选。在图12a中，使用了规则的成本函数，并且优选大对象(移动汽车)。在图12b中，优选小的、黑的对象，示出了完全不同的步行者活动。图11示出了来自台球俱乐部9小时拍摄的视频的短概要的帧。注意，在该概要中每桌多个表演者。

用户化能量函数

在多数情况下，不是对所有对象都感兴趣。交通监控摄像机仅对汽车感兴趣，但是其他应用可以优选步行者。对象的过滤可以在多个地方进行。在进入队列之前，对象可以被滤掉，并且在这种情况下，将绝不可能检索到它们。可选地，对象可以仅在查询阶段被过滤。在这种情况下，队列将包括所有对象，并且不同查询可以从该队列提取不同对象。还可以创建用于每个应用的用户化能量函数。

用户化的简单实例在图12b中示出，其中，仅小的、黑的对象从对列中被选择。虽然原始概要多数包括汽车，但是新概要多数包括步行者。另一实例出现在图13中，其中，当移动对象停止并且变为背景的一部分时，能量函数包括“相变”的元素。图13a示出了来自观看安静的停车场的网络摄像机花费五小时的短概要的帧。高分被给予相变(例如，停止并变为背景的移动对象)。视频概要多数包括停止的车辆。图13b示出了可选概要，其中，优选没有相变的对象，使得仅示出经过的汽车和步行者。

概要说明

存在用于指定视频概要的持续时间和质量的一些方案。

(a)让用户指定视频概要的希望持续时间和用于对象冲突的惩罚。在这种情况下，最优阶段将最大化可以包括在指定约束下的概要中的活动量。

(b)让用户指定视频概要的希望持续时间和包括在其中的动作的百分比。最优阶段将生成具有在指定约束下的最小冲突的视频概要。

(c)让用户指定丢失对象的允许百分比和用于对象冲突的惩罚。最优阶段将最小化在指定约束下的概要的持续时间。

根据我们的经验，我们具有实现的选项(a)，其中，视频概要的持续时间由用户确定为硬性条件。监控视频可以优选选项(b)或(c)，确保多数对象呈现在概要中。

基于对象的速度改变

快进是用于视频摘要的最常用工具，并且一直被应用至整个帧。例如，“时间推移”视频在短时间慢处理中被显示，就像花的成长等。一些现有方法建议适当快进[12，18，4]，但是仍然限于整个帧的框架。利用视频概要，每个对象基于其重要性或基于其原始速度可以具有其自己的“快进”。慢对象而不是快对象可以被加速。可选地，快对象可以被放慢用于更容易地观看。

对象速度改变可以以简单方式进行，例如，使所有移动对象有统一速度。为此目的，慢对象将被加速，并且快对象将被减速。可选地，对象的速度的改变可以在最优阶段被确定，给对象的速度改变一些惩罚。在损害增加最优的复杂性的情况下，将基于对象的速度改变加到最优阶段可以进一步改进概要视频的时间压缩率。

对象的速度改变可以通过对来自在一些所选时期的对象的像素进行采样来执行。如果所选时期的数量小于管件中的帧的数量，那么整体效果为对象被加速。如果所选时期的数量大于管件中的帧的数量，对象被放慢。当所选时期没有准确落在帧上，那么在该时刻的像素可以从在时间上最接近所选时刻的邻近帧处的邻近像素插入。可以使用任何可能的插入方法。

前景背景相变

当移动对象变为静态并且与背景结合时，或者当静态对象开始移动时，发生相变。实例是停着的或将开走的车。在多数情况下，相变是重要事件，并且我们检测和标记用在查询阶段的相变。

我们可以通过查看对应于管件的开始和结束的背景改变来找到相变。当这些相变解释背景中的改变时，它们是重要的。由于相变对应于背景中的改变，因此将相变拼接到背景应该被给于特殊关注。当相变没有在正确的时间被插入到背景时，两种效果可以在概要视频中发生。(i)背景对象将没有理由地出现和消失，导致闪烁效果。(ii)当移动对象停止移动时，它们将消失，而不是变成背景的一部分。为了最小化视频概要中的这种效果，相变应该在对应于它们的原始时间被插入时间推移背景中。

系统硬件

参考图14，示出了根据本发明的系统10的框图，该系统用于从摄像机11拍摄的源视频生成概要视频。系统10包括用于存储第一源视频的视频帧的子集的视频存储器12，第一源视频示出了包括位于各个x，y坐标处的多个像素的至少一个对象的移动。预处理器13处理所拍摄的在线视频。预处理器13可以包括用于对视频帧进行预先对准的对准单元14。在这种情况下，摄像机11将耦合至对准单元14，以将预先对准的视频帧存储在视频存储器12中。对准单元14通过以下进行操作：

计算在源视频中的帧之间的图像运动参数；

扭曲在源视频中的视频帧，使得成像的场景中的静态对象在视频中将是静态的。

预处理器13还包括源对象检测器15，源对象检测器检测在源视频中的对象并且对在对象存储器16中的所检测对象进行排序。如上所述，当对象被插入到队列中，其活动成本(等式(8))被计算以加速概要视频的未来构建，这还通过预处理器13作出。将明白，完全示出预处理器13的原因在于当从无限源视频创建概要视频时它的使用。本发明还设想了没有预处理器13的减化系统，其适于耦合至对象存储器16，用于操作对象队列，以根据限定的标准创建概要视频。这样的系统可以通过图14中的其余组件来实现，这将在以下描述。

从而，用户界面17耦合至对象存储器16，用于允许用户限定的约束被限定。这样的约束可以被使用，例如，来限定将被总结的源视频中的时间窗。它还可以被用户限定概要视频所需的持续时间。用户界面17还用于选择对象或对象分类，用于索引目的。应该想到，约束还可以被预先限定，在这种情况下，本发明的一些实施例将不要求用户界面17。

源对象选择器18耦合至对象存储器16，用于根据用户限定的约束或由系统限定的默认约束从子集中选择至少三个不同源对象。不同源对象中的每个均是来自源视频的至少三个不同帧的图像点的相关子集。分组单元19可以选择性地耦合至源对象选择器18，用于根据所限定的标准对对象进行分组，其可以由用户使用用户界面17来指定。概要对象采样器20耦合至源对象选择器18或者耦合至分组单元19(当提供时)，用于通过使用从一些所选帧获得的图像点进行时间选择来从每个所选源对象采样一个或多个概要对象。“采样器”可以被用于改变各个对象的速度。帧发生器21包括仅允许将所选分组包括在概要视频中的分组选择器22。帧发生器21还包括时间选择器23，用于为每个概要对象选择用于在概要视频中开始播放的各个时间。帧发生器21进一步包括颜色转换单元24，用于为每个概要对象和每个帧选择用于显示概要对象的各个颜色转换。可选地，帧发生器21可以包括扭曲单元25，用于在拼接到概要视频之前在空间上使对象扭曲。在说明书和所付权利要求的上下文中，术语“扭曲”可以包括对象的任何空间编辑。如上所述，这可以包括用诸如图标的另一对象代替其中的全部对象，或它可以简单地包括在它被拼接在概要视频中之前，达到对对象的轻微的几何调整。帧发生器21中的拼接单元26拼接所选的颜色转换后的概要对象，以生成连续概要视频帧。概要视频的帧被存储在概要帧存储器27中，用于随后的处理或通过显示单元28进行显示，显示单元以它们指定的时间和颜色转换显示在时间上转换的对象。

系统10实际上可以通过具有图形卡或工作站以及适当的外围设备的适当编程计算机来实现，所有都如现有技术中已知的那样。

图15是示出根据本发明的实施例的由系统10执行的原理操作的流程图。

结束语

基于对象的概要可以被用于创建短视频，短视频为诸如由监控摄像机记录的无限视频流的概要。该方法包括两个阶段。在输入阶段，其实时地执行，视频流被分析并且感兴趣的对象被检测并被从它们的背景分割。虽然已经描述了基于动作的对象感兴趣函数，但是用于对象检测、识别、以及分割的任意其他方法都可以被用于生成“管件”-每个对象的3D空间-时间表示。

队列管理必须桥接无限视频和有限存储器之间的空白，并且能够对用户查询进行快速响应。已经描述了多种方法，用于一旦队列变满则确定哪个对象应该从队列被去除，但是其他方法也是可能的。甚至用于从队列去除的对象的随机选择也可以工作地很好。

第二阶段发生在给出用户查询之后。队列的子集基于感兴趣的时期来提取，并且对象管件被设置(通过时间位移)来产生最佳视频概要。要求离线计算的该阶段将视频概要传输至用户。

一些非常感兴趣的方面涉及背景中的周期性。白天-夜晚周期特别用于检测。在多数情况下，当单个概要覆盖几天时，时间推移背景可以仅覆盖一天，但是动作将来自所有天。这应该是给予用户指定查询的选项。

应该明白，除了特别限于二元分割，“图像点”的参考应该还包括通过插入或通过诸如模糊分割的非二元分割方法确定的图像点。

还应该明白，当源视频是单色的，颜色转换单元可以被用于在拼接之前确定将被施加至所选概要对象的适当灰度等级转换。从而，在所附权利要求的上下文中，术语“颜色”不应该仅限于RGB，还可以是单色的。

还应该注意，颜色或灰度等级的转换仅是可以在拼接之前施加至所选概要对象的转换的一种类型。如上所述，当从跨过长持续时间的源视频生成概要视频以确保背景一致性时，这是特别有用的。但是，当概要视频被从源视频获取时，这可能是不太重要的，其中，背景色调在要求的时间窗内充分恒定。

还应该明白，根据本发明的系统可以是适当编程的计算机。同样地，本发明预期了可由用于执行本发明的方法的计算机执行的计算机程序。本发明进一步预期了实际收录由用于执行本发明的方法的机器执行的指令的程序的机器可读存储器。

Claims

1.一种用于从视频监控摄像机所生成的基本无限源视频流生成概要视频的方法，所述方法包括：

实时接收所述源视频流中的至少三个不同源对象的基于对象的描述，每个源对象均是来自所述源视频流的至少三个不同帧的图像点的相关子集；

连续保持所接收到的基于对象的描述的队列，所述基于对象的描述包括用于各个源对象的持续时间和位置；

基于给定标准从所述队列选择至少三个源对象的子集，并通过进行时间采样而从每个所选源对象采样一个或多个概要对象；

为每个概要对象确定用于在所述概要视频中开始显示每个概要对象的各自显示时间；以及

通过分别在所选概要对象或从所述所选概要对象获得的对象的各自预定显示时间显示所述所选概要对象或所述从所选概要对象获得的对象来生成所述概要视频；

使得在所述概要视频中同时显示至少三个活动，所述至少三个活动中的每个活动均从所述源视频流中的不同各自时间获得，以及在所述概要视频中在不同时间显示源视频中同时发生的至少两个活动。

2.根据权利要求1所述的方法，进一步包括：

为所述概要视频中的每个概要对象和每个帧确定用于显示所述概要对象的各自颜色转换；以及

以所述所选概要对象或从所述所选概要对象获得的对象的各自颜色转换显示所述所选概要对象或从所述所选概要对象获得的对象。

3.根据权利要求1所述的方法，其中，所述源对象之一是背景对象。

4.根据权利要求3所述的方法，包括：将所述概要对象或从所述概要对象获得的对象和所述背景对象拼接成无缝视频。

5.根据权利要求1至3中任一项所述的方法，其中，从所述队列选择所述源对象以及对用于开始显示每个概要对象的各自时间进行确定以使成本函数最优化。

6.根据权利要求3所述的方法，其中，所述背景对象以合成方式生成。

7.根据权利要求1至3中任一项所述的方法，其中，所述概要视频中的每个对象均指向所述源视频流中所述各个对象可见的时间片断。

8.根据权利要求7所述的方法，其中，对概要对象进行选择导致对所述源视频流中由所选概要对象所指向的时间片断进行播放。

9.根据权利要求1至3中任一项所述的方法，其中，所述概要视频中的至少一个概要对象是通过用预定符号替换所述源视频流中的对应的源对象而形成的。

10.根据权利要求1至3中任一项所述的方法，其中，所述源对象或概要对象首先被分组成多个类似分类，并且其中，所述概要视频包括与至少预定数量的所述多个类似分类相关的概要对象。

11.根据权利要求1至3中任一项所述的方法，其中，源对象或概要对象首先被分组成类似分类，并且其中，不显示来自至少一个用户所选分类的所述概要对象。

12.根据权利要求1至3中任一项所述的方法，其中，对一个或多个源对象进行选择包括：

计算用于将所述概要对象拼接到所述概要视频上的成本函数；以及

选择概要对象，这些概要对象的成本函数被认为是近乎最佳。

13.根据权利要求1至3中任一项所述的方法，其中，从所述队列选择至少三个非重叠源对象包括：基于用户限定的约束对源对象进行过滤，并使过滤后的源对象局限于在指定时间窗内出现的源对象。

14.根据权利要求1至3中任一项所述的方法，其中，对至少三个非重叠源对象进行选择包括：确定感兴趣分数。

15.根据权利要求1至3中任一项所述的方法，其中，所述概要视频包含所述源视频流中的所有移动对象。

16.根据权利要求1至3中任一项所述的方法，其中，所述源视频流是通过单个摄像机拍摄的。

17.根据权利要求16所述的方法，包括：将所述单个摄像机保持在固定位置。

18.根据权利要求17所述的方法，其中，使所述摄像机在所述固定位置相对于一个轴旋转。

19.根据权利要求1至3中任一项所述的方法，包括：在显示所述概要对象中的至少一个概要对象之前在空间上编辑所述至少一个概要对象。

20.根据权利要求1至3中任一项所述的方法，包括预先对准所述源视频流，以通过以下处理产生稳定的源视频流：

(a)计算在所述源视频流中的帧之间的图像运动参数；

(b)扭曲所述源视频流中的所述视频帧，以使静态对象在所述稳定的源视频流中呈现为静态。

21.根据权利要求1至3中任一项所述的方法，被用于视频监控。

22.根据权利要求1至3中任一项所述的方法，被用于以下组中的至少一项：视频索引、视频浏览和视频检索。

23.根据权利要求22所述的方法，包括：为所述概要视频中的像素保持指向所述源视频流中的对应像素的指针。

24.一种用于从视频监控摄像机所生成的基本无限的源视频流生成概要视频的系统(10)，所述系统包括：

源对象选择器(18)，适于耦合至对象存储器(16)，所述对象存储器存储所述源视频流中的至少三个不同源对象的基于对象的描述的连续保持的队列，所述基于对象的描述包括各个源对象的持续时间和位置，所述源对象选择器(18)适于根据一个或多个限定约束选择至少三个不同源对象，每个源对象均是来自所述源视频流的至少三个不同帧的图像点的相关子集；

概要对象采样器(20)，耦合至所述源对象选择器(18)，用于通过使用从指定时期获取的图像点进行时间采样从每个所选源对象采样一个或多个概要对象；

时间选择器(23)，耦合至分组选择器(22)，用于为每个概要对象确定用于在所述概要视频中开始显示每个概要对象的各自显示时间；

拼接单元(26)，耦合至扭曲单元(25)，用于在所选概要对象或从所述所选概要对象获得的对象的各自显示时间拼接所述所选概要对象或从所述所选概要对象获得的对象以生成连续的概要视频帧，使得在所述概要视频帧中同时显示至少三个活动，所述至少三个活动中的每个均从所述源视频流中的不同各自时间获得，并且其中，在所述概要视频中在不同时间显示源视频中同时发生的至少两个活动；以及

概要帧存储器(27)，耦合至所述拼接单元(26)，用于存储所述概要视频帧。

25.根据权利要求24所述的系统，进一步包括：显示单元(28)，耦合至所述概要帧存储器(27)，用于显示所述概要视频。

26.根据权利要求24或25所述的系统，进一步包括：颜色转换单元(24)，耦合至所述时间选择器(23)，用于为每个概要对象和每个帧确定用于显示所述概要对象的各自颜色转换；

所述拼接单元(26)，耦合至所述颜色转换单元(24)，用于以所选概要对象或从所述所选概要对象获得的对象的各自颜色转换来拼接所述所选概要对象或从所述概要对象获得的对象。

27.根据权利要求24或25所述的系统，进一步包括：用户界面(17)，耦合至所述对象存储器(16)，用于允许对用户限定的约束进行限定。

28.根据权利要求24或25所述的系统，进一步包括：分组单元(19)，用于根据所限定的标准对源对象或概要对象进行分组。

29.根据权利要求24或25所述的系统，进一步包括：预处理器(13)，用于处理拍摄到的在线视频以检测所述源视频流中的所述对象，所述预处理器(13)适于耦合至用于将所述对象存储在其中的所述对象存储器(16)。

30.根据权利要求29所述的系统，其中，所述预处理器(13)包括：对准单元(14)，用于预先对准在所述源视频流中的视频帧。

31.根据权利要求30所述的系统，其中，所述对准单元(14)适于：

计算所述第一序列中的帧之间的图像运动参数；以及

扭曲所述第一序列中的所述视频帧，使得所述第一动态场景中的所述静态对象在所述视频中是静态的。

32.根据权利要求24或25所述的系统，其中，所述帧发生器包括：编辑单元(25)，用于在拼接到所述概要视频之前在空间上编辑至少一个概要对象。

33.根据权利要求24或25所述的系统，适用于以下组中的至少一项：视频索引、视频浏览和视频检索。