CN103778237B

CN103778237B - 一种基于活动事件时空重组的视频摘要生成方法

Info

Publication number: CN103778237B
Application number: CN201410040054.0A
Authority: CN
Inventors: 马华东; 李文生; 张海涛; 魏汪洋; 杨军杰; 高鸿; 高一鸿; 黄灏; 赵晓萌
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2017-02-15
Anticipated expiration: 2034-01-27
Also published as: CN103778237A

Abstract

一种基于活动事件时空重组的视频摘要生成方法，先对原始视频进行预处理，去除空白帧，再对预处理后的视频进行结构化分析：以原始视频中活动目标为对象，提取其中所有关键活动目标的事件视频，并弱化各活动目标事件间的时间关联，按照其活动范围不相冲突的原则对各活动目标事件进行时序重组；同时参照用户的视觉感受合理提取背景图像，生成延时的动态背景视频；最后将这些活动目标事件与延时动态背景视频实现无缝缝合，形成时间短、内容精、信息全面的视频摘要，且最终生成的视频摘要能同时出现多个活动目标。该方法能够高效、快速地生成用于视频浏览或检索的视频摘要，且该视频摘要能够更合理地表达视频的语义信息，更加符合用户的视觉感受。

Description

一种基于活动事件时空重组的视频摘要生成方法

技术领域

本发明涉及一种智能分析技术，确切地说，涉及一种基于活动事件时空重组的视频摘要生成方法，属于计算机人工智能、数字视频图像处理和视频监控或视频检索的技术领域。

技术背景

在社会公共安全领域，视频监控系统已经成为维护社会治安、加强社会管理的一个重要技术手段。成千上万的监控摄像头设置在城市的大街小巷、各个企事业的不同场合，执行其昼夜不停地录像使命。这些海量视频文件的特点是存储的数据量大、时间长，通过录像寻找相关线索时需要耗费大量的人力、物力和时间，效率极其低下。因此，在视频监控系统中，如何对原始视频进行浓缩、高效、快速地处理，对海量视频数据中用户感兴趣的内容进行分析并提取所需要的内容，以便作为快速搜寻和过滤的重点，具有重要的指导意义。

视频摘要就是一种快速浏览与检索视频的有效工具。视频摘要是对视频的结构和内容进行分析，从原始视频中提取出有意义的内容，并将其以设定方式重新组合，形成简洁、能充分表现视频语义内容的概要，同时也可作为原始视频文件的索引，以供用户快速寻找到每个事件的具体信息。

目前，视频摘要主要分为两类：静态视频摘要和动态视频摘要。其中，静态视频摘要是从视频流中抽取有代表性的多个图像，即通过一系列关键帧组成相应的语义单元，用于概括描述视频内容。关键帧是反映视频主要内容的一帧或多帧图像，它的使用可以大大减少视频索引的数据量，同时也为查询和检索视频提供了一个组织框架。选取关键帧的准则是考虑各帧之间的非相似性，以包括颜色、运动为衡量标准的视觉特性来抽取关键帧。Tonomura等人最早提出把每组镜头的第一帧作为关键帧。随后，Zhao等人使用最近邻特征线的方法获取关键帧。Narasimha等人用神经网络的方法提取关键帧。动态视频摘要是提供整个视频内容的基本描述的粗略印象，侧重于摘要内容的全面或最重要的片段。

以上两种视频摘要的共性是要严格遵循时间顺序，并以损失大量活动信息为代价来达到快速浏览视频的目的，因此其不能很好地表达视频的语义信息，且无法应用在监控视频的场景。

发明内容

有鉴于此，本发明的目的是在不丢失大量视频图像信息的基础上，提供一种基于活动事件时空重组的视频摘要生成方法，用于高效、快速地生成完成用于视频浏览或检索的视频摘要。本发明的思路为：先对原始视频进行去除空白帧的预处理，再对预处理后的视频进行结构化分析，提取原始视频中所有关键的活动事件，并弱化各个活动目标事件间的时间关联，按照其活动范围不相冲突的原则对活动目标事件进行时序重组，同时参照用户的视觉感受合理提取背景图像，生成延时动态背景视频，最后将这些活动目标事件与延时动态背景视频进行无缝缝合，形成结构紧凑、简短精练、内容丰富且信息全面的视频摘要，最终生成的视频摘要会同时出现多个活动目标。该视频摘要同时也可作为原始视频文件的索引，用于视频检索和快速浏览。实践证明，本发明方法能够生成良好的视频摘要。

为了达到上述目的，本发明提供了一种基于活动事件时空重组的视频摘要生成方法，其特征在于：先对原始视频进行预处理，去除空白帧，再对预处理后的视频进行结构化分析：以原始视频中的活动目标为对象，提取其中所有关键活动目标的事件视频，并弱化各个活动目标事件之间的时间关联，按照其活动范围不相冲突的原则对各个活动目标事件进行时间上的重新组合；同时参照用户的视觉感受合理提取背景图像，生成延时的动态背景视频；最后将这些活动目标事件与延时动态背景视频实现无缝缝合，形成时间简短、内容精练、信息全面的视频摘要，且最终生成的视频摘要能够同时出现多个活动目标；所述方法包括下列操作步骤：

(1)对原始视频进行预处理：删除其中活动目标没有运动或变化的空白帧，以避免空白帧对后续分析视频时的干扰，节省系统资源和提高系统运行速度；该步骤包括下列操作内容：

(11)运用背景差分算法提取活动目标的轮廓；

(12)分别计算所获得的各个前景中每个活动目标的轮廓面积，再判断计算得到的每个活动目标的轮廓面积是否大于自定义设置的轮廓面积阈值，以判定该轮廓是否为噪声；若是，则保存该轮廓所在帧；若否，则判定该轮廓为噪声，剔除当前帧；

(2)对预处理后的视频进行结构化分析：对各个活动目标进行检测、跟踪和描述，以形成多个活动目标事件；其中每个活动目标事件是视频中同一个活动目标运动或变化所位于的帧的集合；该步骤包括下列操作内容：

(21)检测活动目标：运用背景减除法提取初步的前景团块，再对前景团块进行腐蚀膨胀的形态学处理和以图像形式保存每个前景目标区域所在的团块，并插入至该活动目标事件的运动视频中；同时，保存该团块的包括标识、起始时间和结束时间、持续时间的各个运动轨迹信息；

(22)采用连通区域一致性分析法判断步骤(21)中检测到的前景目标是否为新的活动目标；所述连通区域是图像中的像素值相同、且位置相邻的前景像素组成的图像区域，连通区域分析是寻找图像中的各个连通区域并加以标记；

(23)采用基于均值漂移(Mean Shift)权重的粒子滤波算法，实时跟踪新的活动目标或团块，并实时记录各个活动目标或团块的轨迹信息，以及截取当前图像中各个团块所占的图像区域，再分别添加至各自的活动目标视频中；

(24)收集各个活动目标或团块运动或变化在视频中所位于的帧，形成各个活动目标事件；

(3)生成视频摘要：采用贪心算法对各个活动目标事件的时间进行重新排序，再建立延时的动态背景视频，最后将收集的两种视频实现无缝缝合，以使视频内容在时间和空间上进一步紧凑浓缩为视频摘要；该步骤包括下列操作内容：

(31)对活动目标事件进行重新组合：为了能够快速浏览或检索视频，在提取原始视频中所有重要活动目标后，采用贪心算法对各个活动目标事件的时序进行重新排列，以使视频内容在时间和空间上得到进一步浓缩；该步骤(31)包括下列操作内容：

(31A)对活动目标事件执行预处理：为避免出现监控场景中经常出现的两种情况：视频中存在多个目标的活动时间明显较长，或整个监控视频中仅有一个活动目标事件、且其活动时间较长，要对各个目标活动事件进行预处理，即“切片”操作：将活动目标事件按照自定义的时间长度阈值进行切分，形成对应的时长较短的多个活动目标事件；

(31B)利用贪心算法对活动目标事件进行时序重组：在保证活动目标运动范围的空间信息不变的前提下，对活动目标事件在原始视频的时间轴上进行平移，使得视频摘要中每帧出现的活动目标数量最大化；该步骤(31B)包括下述五个操作步骤：

(a)按照原始视频中每个活动目标事件中的目标活动起始时间的先后顺序，对视频中各个活动目标事件进行排序，得到排序后的各个活动目标事件依次为：事件1、事件2、.....、事件n，其中，自然数n为活动目标事件的总数；

(b)设置第1个活动目标事件、即事件1的插入视频的初始时间为零，则该事件1中活动时长最大的目标的活动时长GroupT₁＝Max(T₁,T₂，....,T_i,...,T_n)，其中，自然数下标i为活动目标事件序号，T_i为该活动时长最大的目标在序号为i的事件中的活动时长；这样就得到第1个活动目标事件的插入时间为GroupT₁；然后，按照上述方法分别依次计算每个活动目标事件的插入视频时间GroupT_i；

(c)定义两个活动目标事件之间允许的最大时间冲突阈值Con_max，即两个活动目标事件的活动时长能在时间轴上重叠范围；再以事件1为基准，依次计算和判断后续各个事件i与其发生冲突的时间值Con_xi是否不大于Con_max；

若Con_xi<Con_max，则确定事件i与事件1能够同时发生，两者属于同一事件集，且其活动时长互不冲突，再标记事件i为已处理事件，后续不再处理；

若Con_xi≥Con_max，则确定事件i与事件1不能同时发生，两者没有关联，其活动时长有冲突，再标记事件i为已处理事件，后续不再处理；

(d)从下一个标记为未处理的活动目标事件起始，反复返回执行步骤(c)，得到下一个活动目标事件的各个参数，直至将所有的活动目标事件都标记为已处理为止；此时得到各个活动目标事件的时间总长度为：GroupTi＝Max(T₁,......T_k,.....,T_p,......T_q,......)，其中，自然数下标p和q都是事件序号，且p≤q≤n；T_p和T_q分别为事件p和q的时间长度；得到后续下一个活动目标事件的插入时间为GroupTi；

(e)根据步骤(d)的结果计算背景视频总时间：若设置有n个活动目标事件，则其背景视频的总长度为其中，GroupTi为序号为i事件的时长；

(32)建立延时的动态背景视频：因监控视频日以继夜，而每个时段出现的运动对象数不均匀，即随时间变迁，活动目标的数量会变化；为使生成的视频摘要更符合用户视觉习惯，采用遗传算法从预处理后的视频中选取背景帧；

(33)实现视频缝合：基于帧对活动目标进行边缘虚化处理，避免在视频缝合时出现遮挡而使活动目标边缘模糊，也避免各活动目标事件之间的彼此遮挡，再根据获得的各个活动目标事件的插入时间，将活动目标事件与得到的背景视频实现无缝缝合，形成视频摘要。

本发明基于活动事件时空重组的视频摘要生成方法的基础是：以原始视频中的活动目标为对象，提取活动目标事件的视频并进行重新组合，再和延时动态背景视频缝合，生成一个简短的视频摘要。该视频摘要包含原始视频中所有重要的活动，通过同时播放多个活动目标事件，即使这些事件在原始视频中发生于不同时间段，从而将整个视频浓缩成一个简短的活动目标事件摘要。

本发明方法的主要创新技术有三项：运用背景差分法对原始视频进行删除空白帧的预处理，利用遗传算法对背景视频帧进行筛选，以及运用贪心算法获取活动目标事件在时序上重新组合的最优解。

本发明与现有技术相比较，具有以下两大优点：

贪心算法主要用于获取问题的局部最优解，尤其是针对活动安排的问题，也就是在所给的活动集合中挑选最大的相容活动子集合。本发明运用贪心算法对活动目标事件在时序上的重新组合和安排进行优化，以使视频摘要能够更合理地表达视频的语义信息。其具体操作思路是：弱化各个活动事件之间的时间关联，按照其活动范围不相冲突的原则，实现活动事件在时间轴上的重组；也就是在保证活动目标事件中的目标主体活动范围的空间信息不变的前提下，将活动目标事件在原始视频的时间轴上进行平移，使得视频摘要中的每一帧出现的活动目标达到最大数量。

遗传算法是通过不断迭代运算，求解获得问题的最优解。本发明是运用遗传算法对背景视频帧进行筛选，以使获得的延时动态背景视频更加符合用户的视觉感受。具体操作是：将整个视频看作一个样本集，并将整个视频分为若干段落，每个段落看作为一个样本，再依据自定义的适应度函数(本发明将适应度函数定义为各个时段内出现的活动目标数量的多少)，考核各个样本的适应度大小，以设定比例从样本集中筛选提取背景帧。因为本发明建立延时的动态背景视频的选择参数简单，故在执行遗传算法的相关步骤(32)中，只进行了遗传算法的一次迭代操作，就完成了采用从预处理后的视频中选取背景帧的期望目标，使得生成的视频摘要更符合用户视觉习惯；且操作步骤简单、容易实现。

附图说明

图1为本发明基于活动事件时空重组的视频摘要生成方法操作步骤流程图。

图2为本发明方法中步骤1的预处理操作步骤流程图。

图3为活动目标事件信息的三种表示形式示意图。

图4为本发明方法中步骤2的视频结构化分析操作步骤主要过程示意图。

图5为本发明方法中步骤3的视频摘要的生成过程示意图。

图6为活动目标事件“切片”效果示意图。

图7为监控视频中人员数量随时间变化而变化的示意图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明基于活动事件时空重组的视频摘要生成方法是：先对原始视频进行预处理，去除空白帧，再对预处理后的视频进行结构化分析：以原始视频中的活动目标为对象，提取其中所有关键活动目标的事件视频，并弱化各个活动目标事件之间的时间关联，按照其活动范围不相冲突的原则对各个活动目标事件进行时间上的重新组合；同时参照用户的视觉感受合理提取背景图像，生成延时的动态背景视频；最后将这些活动目标事件与延时动态背景视频实现无缝缝合，形成时间简短、内容精练、信息全面的视频摘要，且最终生成的视频摘要能够同时出现多个活动目标。

参见图1，介绍本发明方法的三个具体操作步骤：

步骤1，对原始视频进行预处理：删除其中活动目标没有运动或变化的空白帧，以避免空白帧对后续分析视频时的干扰，节省系统资源和提高系统运行速度。因此，该步骤对空白帧进行判断和删除的操作包括下列内容(参见图2)：

(11)运用背景差分算法提取活动目标的轮廓；该步骤具体操作内容如下：

(11a)采用混合高斯模型GMM(Gaussian mixture model)进行背景建模：

混合高斯模型是用正态分布曲线的高斯概率密度函数精确量化事物(如视频图像的像素)，将每幅图像的像素分解为多个基于高斯概率密度函数形成的模型。混合高斯模型是用3～5个高斯模型表征图像中每个像素的特征，且在获得每帧新图像后，更新混合高斯模型，再用当前图像中的每个像素与混合高斯模型进行匹配；若匹配成功，则判定该像素为背景；否则，判定该像素为前景。

(11b)运用差分法循环提取原始视频中每帧的前景目标区域，将当前帧与步骤(11a)获得的背景按照下述两个公式：差分图像F(x,y)＝|P(x,y)-B(x,y)|和二值图像进行运算；式中，变量(x,y)是像素坐标，P(x,y)为当前帧图像，B(x,y)为背景图像，T是根据背景噪声设置的阈值，用于区分活动目标和背景噪声引起的不同变化，以消除背景噪声影响；FB(x,y)是根据差分图像F(x,y)和阈值T得到的二值图像。

(11c)提取步骤(11b)获得的前景目标区域的边缘像素，就得到前景目标的轮廓。

(12)分别计算所获得的各个前景中每个活动目标的轮廓面积，再判断计算得到的每个活动目标的轮廓面积是否大于自定义设置的轮廓面积阈值，以判定该轮廓是否为噪声；若是，则保存该轮廓所在帧；若否，则判定该轮廓为噪声，剔除当前帧。

步骤2，对预处理后的视频进行结构化分析：对各个活动目标进行检测、跟踪和描述，以形成多个活动目标事件组成的活动目标事件集。

每个活动目标事件是视频中同一个活动目标运动或变化所位于的帧的集合。参见图3，介绍三种活动目标的信息：

(A)活动目标的快照：快照为该活动目标事件的图像，其是选取某个活动目标事件中的某一帧(且通常为第一帧)、再以图像形式存储，以供快速检索并浏览原始视频中符合条件的该活动目标或其对应的其他活动目标事件。

(B)活动目标的视频：以视频形式存储的每个活动目标事件，为后续的视频缝合或视频检索提供便利。

(C)活动目标的轨迹：以文本形式保存的每个活动目标事件的运动轨迹信息，具体内容包括：该活动目标的标识ID、其在原始视频中的起始时间与结束时间、在视频摘要中的插入时间、是否做过优化处理及其活动范围。

参见图4，介绍步骤2的视频结构化分析的下列操作内容：

(22)采用连通区域分析法判断步骤(21)中检测到的前景目标是否为新的活动目标；所述连通区域是图像中的像素值相同、且位置相邻的前景像素组成的图像区域，连通区域分析是寻找图像中的各个连通区域并加以标记；

(23)采用基于均值漂移(Mean Shift)权重的粒子滤波算法，实时跟踪新的活动目标或团块，并实时记录各个活动目标或团块的轨迹信息，以及截取当前图像中各个团块所占的图像区域，再分别添加至各自的活动目标视频中。

(24)收集各个活动目标或团块运动或变化在视频中所位于的帧，形成各个活动目标事件。

步骤3，生成视频摘要：采用贪心算法对各个活动目标事件的时间进行重新排序，再建立延时的动态背景视频，最后将收集的两种视频实现无缝缝合，以使视频内容在时间和空间上进一步紧凑浓缩为视频摘要。

该步骤3包括下列三个主要操作内容(参见图5所示)：

(31)对活动目标事件进行重新组合：为了能够快速浏览或检索视频，在提取原始视频中所有重要活动目标后，采用贪心算法对各个活动目标事件的时序进行重新排列，以使视频内容在时间和空间上得到进一步浓缩和紧凑。该步骤(31)包括下列操作内容：

(31A)对活动目标事件执行预处理：为避免出现监控场景中经常出现的两种极端情况：视频中存在多个目标的活动时间明显较长，或整个监控视频中仅有一个活动目标事件、且其活动时间较长，要对各个目标活动事件进行预处理，即执行“切片”操作：将活动目标事件按照自定义的时间长度阈值进行切分，形成对应的时长较短的多个活动目标事件。

例如，参见图6所示：32.avi的视频长度为16s，现在被“切分”为两个对应的小视频段32_0.avi(10s)和32_1.avi(6s)。

该“切片”操作包括下述三个操作步骤：

(a)设置活动目标事件中目标的最长活动时间阈值T_max；

(b)依次扫描和判断每个活动目标事件中的目标活动时长T_i是否大于阈值T_max，若是，则将该活动目标事件按照基准阈值T_max进行切片分割；若否，则维持不变；式中，自然数下标i是活动目标事件的序号，其最大数为n；

(c)修改活动目标事件的下述轨迹信息：包括该事件所含的“切片”数，各个“切片”的开始时间、持续时间和活动范围。

(31B)利用贪心算法对活动目标事件进行时序重组：在保证活动目标运动范围的空间信息不变的前提下，对活动目标事件在原始视频的时间轴上进行平移，使得视频摘要中每帧出现的活动目标的数量最大化。

该步骤对活动目标事件进行时序重组的操作包括下述内容：

(a)按照原始视频中每个活动目标事件中的目标活动起始时间的先后顺序，对视频帧中各个活动目标事件进行排序，得到排序后的各个活动目标事件依次为：事件1、事件2、.....、事件n，其中，自然数n为活动目标事件的总数；

(e)根据步骤(d)的结果计算背景视频总时间：若设置有n个活动目标事件，则其背景视频的总长度为其中，GroupTi为序号为i事件的时长。

(32)建立延时的动态背景视频：因监控视频日以继夜，而每个时段出现的运动对象数量是不均匀的，即随时间变迁，活动目标的数量会变化(参见图7所示)。例如，在工作日早晚上下班期间会出现两个高峰期，而其他时间段分布较为零散；而在休息日期间相对均匀，尤其是白天时段。鉴于这种随时间变迁、运动目标数量也发生变化的情况，为使生成的视频摘要更符合用户视觉习惯，采用遗传算法从预处理后的视频中选取背景帧。

该步骤(32)运用改进的遗传选择算法的具体过程包括下列操作内容：

(32A)将背景视频均分为多个时间段，即分为自然数t个样本，且t≥2。例如，将背景视频分为4段，即分割为4个样本进行处理，则t＝4；

(32B)将每个时段内的活动目标数Num_s作为适应度函数的变量，则根据公式f(X_s)＝Num_s统计每个时间段原始视频的适应度函数值，即每个时段发生的活动目标事件的数量，并求得某个背景样本X_s被选中的概率p(X_s)为：

式中，自然数i为背景视频样本序号，自然数m表示背景视频的样本总数；

(32C)根据前述步骤(e)得到的背景视频总时长和步骤(32B)得到的各个背景样本X_s被选中的概率，求解得在各个时段内应提取的背景帧的帧数.

(32D)根据步骤(32C)得到的各个时间段中需要提取的背景帧的帧数，对预处理后的原始视频提取背景帧。

Claims

1.一种基于活动事件时空重组的视频摘要生成方法，其特征在于：先对原始视频进行预处理，去除空白帧，再对预处理后的视频进行结构化分析：以原始视频中的活动目标为对象，提取其中所有关键活动目标的事件视频，并弱化各个活动目标事件之间的时间关联，按照其活动范围不相冲突的原则对各个活动目标事件进行时间上的重新组合；同时参照用户的视觉感受合理提取背景图像，生成延时的动态背景视频；最后将这些活动目标事件与延时动态背景视频实现无缝缝合，形成时间简短、内容精练、信息全面的视频摘要，且最终生成的视频摘要能够同时出现多个活动目标；所述方法包括下列操作步骤：

(11)运用背景差分算法提取活动目标的轮廓；

2.根据权利要求1所述的方法，其特征在于：所述活动目标的信息有三种：

(A)活动目标的快照：快照为该活动目标事件的图像，其是选取某个活动目标事件中的某一帧、且通常为第一帧，再以图像形式存储，以供快速检索并浏览原始视频中符合条件的该活动目标或其对应的其他活动目标事件；

(B)活动目标的视频：以视频形式存储的每个活动目标事件，为后续的视频缝合或视频检索提供便利；

3.根据权利要求1所述的方法，其特征在于：所述步骤(11)包括下列操作内容：

(11a)采用混合高斯模型GMM进行背景建模：该混合高斯模型是用正态分布曲线精确量化视频图像，将每幅图像的像素分解为多个基于高斯概率密度函数形成的模型；混合高斯模型是用3～5个高斯模型表征图像中每个像素的特征，且在获得每帧新图像后，更新混合高斯模型，再用当前图像中的每个像素与混合高斯模型进行匹配；若匹配成功，则判定该像素为背景；否则，判定该像素为前景；

(11b)运用差分法循环提取原始视频中每帧的前景目标区域，将当前帧与步骤(11a)获得的背景按照下述两个公式：差分图像F(x,y)＝|P(x,y)-B(x,y)|和二值图像进行运算；式中，变量(x,y)是像素坐标，P(x,y)为当前帧图像，B(x,y)为背景图像，T是根据背景噪声设置的阈值，用于区分活动目标和背景噪声引起的不同变化，以消除背景噪声影响；FB(x,y)是根据差分图像F(x,y)和阈值T得到的二值图像；

4.根据权利要求1所述的方法，其特征在于：所述步骤(31A)中的“切片”操作包括下述三个操作步骤：

(a)设置活动目标事件中目标的最长活动时间阈值T_max；

(b)依次扫描和判断每个活动目标事件中的目标活动时长T_i是否大于阈值T_max，若是，则将该活动目标事件按照基准阈值T_max进行切片分割；若否，则维持不变；T_i中自然数下标i是活动目标事件的序号，其最大数为n；

5.根据权利要求1所述的方法，其特征在于：所述步骤(32)包括下列操作内容：

(32A)将背景视频均分为多个时间段，即分为自然数t个样本，且t≥2；

(32C)根据前述步骤(e)得到的背景视频总时长和步骤(32B)得到的各个背景样本X_s被选中的概率，求解得在各个时段内应提取的背景帧的帧数；