CN102184242B

CN102184242B - 跨摄像头视频摘要提取方法

Info

Publication number: CN102184242B
Application number: CN 201110126198
Authority: CN
Inventors: 刘安安; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2011-05-16
Filing date: 2011-05-16
Publication date: 2013-08-14
Anticipated expiration: 2031-05-16
Also published as: CN102184242A

Abstract

本发明涉及视频处理、内容分析和检索。为用户提供一个精简但内容完整的视频提纲，本发明采取的技术方案是，跨摄像头视频摘要提取方法，包括下列步骤：(1)预处理：视频镜头分割、关键帧提取及显著性表示；(2)跨摄像头视频镜头网络构建和分析；(3)基于用户需求的跨摄像头视频摘要生成；本发明主要应用于视频处理、内容分析和检索。

Description

跨摄像头视频摘要提取方法

技术领域

本发明涉及视频处理、内容分析和检索，具体讲涉及跨摄像头视频摘要提取方法。

背景技术

视频摘要技术可以有效去除不包含显著视频语义事件的视频片段并压缩用户感兴趣的视频片段，从而将长时的视频数据的主要内容用精简的视频片段进行表征，对于实现快速视频浏览、检索和降低存储需求具有重要意义。现有的视频摘要技术多是针对单目摄像头采集的视频内容进行自动分析。但是当面对带有重叠区域的多摄像头采集的海量视频时，仅仅将现有技术应用于各个独立摄像头采集视频进行视频摘要时忽略了各摄像头采集视频内容的时间和空间的关联特性以及内容的重复性，因此现有方法并不能有效去除多摄像头冗余视频内容。

发明内容

为克服现有技术的不足，并为用户提供一个精简但内容完整的视频提纲，本发明采取的技术方案是，跨摄像头视频摘要提取方法，包括下列步骤：

(1)预处理：视频镜头分割、关键帧提取及显著性表示：

利用图像的视觉特征和无监督聚类方法将各摄像头采集的视频分别进行镜头分割和关键帧提取；通过背景建模和运动区域提取衡量各镜头的运动强度，保留运动强度足够明显的镜头作为视频摘要的候选；提取视频关键帧的颜色、纹理和形状特征并构建数学模型来计算候选镜头各独立特征的重要性，最后采用线性方式融合多特征重要性，从而形成视频镜头显著性表示；

(2)跨摄像头视频镜头网络构建和分析：

以跨摄像头视频镜头网络来表征所提取的各视频的候选镜头的时间和空间的关联，其中，每个节点S_ij及视频片段表示第i个摄像头采集的视频中的第j个镜头，各节点数值表示镜头显著性，节点间的连线表示二者相关联，并且关联强度由两镜头的相似性度量，在上述视频镜头分割及显著性表示的基础上，得到所需构建网络的各节点及其重要性，跨摄像头视频镜头网络构建和分析的核心问题转化为相似镜头集团的发现，由如下两步骤实现：

1)节点间关联强度的计算：计算并融合镜头间的两类相似性从而度量两个镜头的相似性：a.时序关联性：不同视频中时序相近的镜头更可能包含视觉相近的视频内容，因而相似性越高；b.视觉相似性：具有相近低层视觉描述的镜头相似度越高；

2)跨摄像头视频镜头网络解耦：采用自顶向下的网络集团分析法进行跨摄像头视频镜头网络分解；

(3)基于用户需求的跨摄像头视频摘要生成：

视频摘要提取方法为：对于包含n个镜头的镜头集团C_s，最终生成的视频摘要是否包含某个镜头由标记向量x＝{x₁，...，x_i...，x_n}表示，其中x_i为1时表示该镜头被保留，x_i为0时表示该镜头被去除，定义上述多目标优化问题目标函数为：

x^{*} = \arg \max_{x} {- α_{1} \cdot n (f_{1} (x)) + α_{2} \cdot n (f_{2} (x))}

s . t . \{\begin{matrix} f (x) \leq F_{\max} \\ s (x) &GreaterEqual; S_{\min} \end{matrix}

其中：

表示摘要总长，F_i表示镜头i对应帧数；

表示视频内容显著度，S_i表示镜头i显著性；F_max和S_min分别表示视频摘要生成时限定的最大长度和最小显著性；n(·)表示归一化操作，本发明不失一般性的采用向量线性归一化；系数α_i用于满足不同需求的动态摘要生成，由用户自由指定，上述多目标优化问题为典型的整数规划问题，采用整数规划算法求解。

本发明具有以下技术效果：

本发明可以有效去除跨摄像头所采集的带有重叠区域的视频中不包含显著视频语义事件的视频片段，并压缩用户感兴趣的潜在视频片段，从而将长时的视频数据的主要内容用精简而完备的视频摘要进行表征，对于实现快速视频浏览、检索和降低存储需求具有重要意义。

附图说明

图1时空关联的多视角视频镜头网络。

图2基于自顶向下网络集团发现的跨摄像头视频镜头网络解耦。

具体实施方式

充分利用具有重叠覆盖区域的多摄像头视频内容，通过各视角监控视频内容的关联最大程度的去除冗余视频内容。拟提出的多视角视频摘要方法包括如下三个关键问题：

(1)预处理：视频镜头分割、关键帧提取及重要性表示：

视频摘要技术处理的基础对象是视频镜头，因此需要将无结构的视频数据分割成不同镜头，并采用各镜头中最能代表给镜头视觉内容的关键帧来代表该镜头主要特征，不失一般性的，本发明采用图像的视觉特征和无监督聚类方法实现视频镜头分割和关键帧提取[1]。在此基础上，通过背景建模和运动区域提取衡量各镜头的运动强度，从而保留运动强度足够明显的镜头作为视频摘要的候选，具体可以参考文献[3]。最后，提取视频镜头各帧图像的颜色、纹理和形状等低层视觉特征，然后通过高斯模型计算各独立特征的重要性，最后通过线性方法实现多特征重要性的融合。本发明中，主要采用的颜色特征包括：颜色直方图[4]；纹理特征包括：Gabor特征[5]；形状特征包括：方向梯度直方图[6]。

(2)跨摄像头视频镜头网络构建分析：

跨摄像头视频摘要技术的核心是充分利用具有时空关联的视频信息实现相似视频镜头的匹配，因此如何组织和分析跨摄像头视频镜头成为该问题研究的关键。为了保持和充分利用独立视频在时间序列上的视觉内容关联性以及各视频在相近时间段的视觉内容相似性，本发明提出时空关联的跨摄像头视频镜头网络来表征上面所提取的各视频的候选镜头，如图1所示。

其中，每个节点S_ij及图中的阴影视频片段表示第i个视角视频中的第j个镜头；各节点数值表示镜头重要性；节点间的连线表示二者相关联，并且关联强度由两镜头的相似性度量。在上述所介绍的镜头分割和镜头重要性评价基础上，可以得到所需构建网络的各节点及其重要性，因此多视角视频镜头网络分析的核心问题转化为相似镜头集团的发现，由如下两步骤实现：

1)节点间关联强度的计算：为了度量镜头的相似性，拟计算并融合镜头间的两类相似性从而度量两个镜头间的相似性：

a.时序关联性：该特性用来度量两个镜头在时间维上的重合度，不同视频中视频镜头的重合度越高，则镜头更可能包含视觉相近的视频内容，具体计算公式如下：

Similarity < S_{im,}, S_{jn} > = \frac{Min (T_{im}^{End}, T_{jn}^{End}) - Max (T_{im}^{Start}, T_{jn}^{Start})}{Max (T_{im}^{End}, T_{jn}^{End}) - Min (T_{im}^{Start}, T_{jn}^{Start})}

其中，

分别表示镜头S_im和S_jn的起始帧和终止帧；Min和Max分别表示取最小值和最大值操作。注：如果相似度值小于0，则将其修正为0，表明两个镜头在时序上完全不关联。

b.视觉相似性：该特性用来度量两个镜头在视觉内容上的相似性，具有相近低层视觉描述的镜头相似度越高。为了简化镜头相似间相似性的计算，本发明中采用两个镜头各自关键帧间的相似性来代表镜头相似性，各种能够表征某种视觉特性的图像特征都可以用来计算两个关键帧的相似性，本发明中不失一般性的，采用图像的HSV空间的512维归一化灰度直方图H＝{h₁，h₂，...，h_n}和128维梯度直方图E＝{e₁，e₂，...，e_n}来表征图像特征，并采用线性融合方式计算二者相似度，具体计算公式如下：

Similarity(S_im，S_jn)＝w₁Similarity_H+w₂Similarity_E

{Similarity}_{H} = Σ_{t = 1}^{512} \min (h_{im, t}, h_{jn, t})

{Similarity}_{E} = Σ_{k = 1}^{128} \min (e_{im, k}, e_{jn, k})

其中，Similarity表示两镜头相似度计算；w_i表示不同特征相似度线性融合的权重，不失一般性的，本发明中采用等权重分配；Similarity_H和Similarity_E分别表示颜色直方图和梯度直方图两个特征的相似度；h_im，t和h_jn，t分别表示镜头S_im和S_jn的关键帧的第t维颜色直方图特征；e_im，k和e_jn，k分别表示镜头S_im和S_jn的关键帧的第t维梯度直方图特征。

2)跨摄像头视频镜头网络解耦：上述跨摄像头视频镜头网络构建方法往往使得该网络结构过于复杂，不利于视频摘要的提取，因此需要通过该网络连通性分析提取网络的代表性集团作为后续视频摘要生成的候选视频镜头。本发明中借鉴文献[7]的方法，采用自顶向下的网络解耦方法，先检测网络中的子团，然后再通过对K团特性的分析实现网络集团的划分。该方法由以下两步组成：

●子团的检测

定义一个网络中所有最大完全子图为子团(Clique)。由于子团不可能是其他更大的子团的子集，所以通过降序的方法指定子团的大小并在网络中搜索存在的子团。指定子团的尺寸后，将重复选择一个节点，提取所有包含该节点的符合该尺寸的子团，然后在网络中删除该节点及与其相连的边。直到网络中已无任何节点，降低子团的尺寸，重复上述操作检测改变尺度后的所有的子团。其中，对于尺度为s并且包含节点v的子团的检测通过如下方法实现：

1)首先，构建点集A，满足其中所有节点相互链接，初始A仅包含点v。其次，构建另一个点集B，满足其中每个节点与A中任意节点相连，但不一定与B中所有节点相连，初始B仅包含v的邻居。

2)选择点集B中的节点w并加入A中，将B更新为A中已有成员的公共邻居。通过递归的方法，我们将A扩大使其尺寸达到规定尺度s。

3)如果在A达到尺寸s前B已为空集，或者A与B的并集是已经提取的子团的子集，则递归停止，重新检查其他潜在的子团。如果递归过程中A的尺寸达到s，则一个新的子团被发现。保留该子团，重新检测其他潜在的子团。

●K团-集团的发现

一个复杂网络的基本组成是节点(Node)，由于部分节点之间的关联远大于与网络中其他节点的关联，这些节点组成了集团(Community)。一个复杂的集团中往往仍存在大量相互重叠的子结构，我们将这些存在公共节点的全连通的基本单元称为K团(K-clique)，其中K表示一个团中节点的数目。因此，我们定义K团-集团(K-clique-communiy)为：一个集团为若干K团的集合，并且满足其中所有K团可以通过邻近K团连通。

在提取了所有规定尺寸的子团基础上，可以构建子团的重叠矩阵。在这个对称矩阵中，每一行(或列)对应一个团，矩阵中对角线外每个元素表示两个子团的公共节点的个数，对角线元素表示一个子团的尺寸。对于指定的K，K团-集团等价于若干连通的子团，并且满足：临近且连通的子团的公共节点至少有k-1个。因此，去掉重叠矩阵对角线外小于k-1的元素，并去掉对角线上小于k的元素，用1替换剩下所有元素。然后，通过连通性分析，我们即获得了该网络中所有K团-集团。

该方法可以直接用于无向无权图的集团发现。但是通常的网络往往是有权图，因此可以制定阈值Th2从而将有权图转换为无权图。增大Th2往往使得集团尺寸变小。另一个重要的参数则是K团的尺寸k，增大k同样可以使得集团表小，但集团将更加紧致。为了更好的分析整个网络结构的统计特性，需要根据实验统计经验性参数，本发明参考性参数为：Th2＝0.6，k＝8。

网络解耦例子如图2所示，其中，网络解耦后的不同镜头集团用虚线区域表示。

(3)基于用户需求的多视角视频动态摘要

从直观角度可知，理想的跨摄像头视频摘要应当满足如下2个条件：1)最小化视频摘要长度；2)最大化视频内容显著性。因此，跨摄像头视频摘要问题转化为最小化视频摘要长度以及最大化视频内容显著性两个约束条件下的最优化问题。此外，为了满足用户需求的多样性，应当使得上述各目标的权重动态可调，因此所需构建最优化问题应该能够通过参数的调节实现动态视频摘要的生成。因此，跨摄像头视频摘要提取方法为：

对于包含n个镜头的镜头集团C_s，最终生成的视频摘要是否包含某个镜头由向量x＝{x₁，...，x_i...，x_n}，其中x_i为1时表示该镜头被保留，x_i为0时表示该镜头被去除。因此，定义上述视频摘要提取的目标函数为：

x^{*} = \arg \max_{x} {- α_{1} \cdot n (f_{1} (x)) + α_{2} \cdot n (f_{2} (x))}

s . t . \{\begin{matrix} f (x) \leq F_{\max} \\ s (x) &GreaterEqual; S_{\min} \end{matrix}

其中：

表示摘要总长，F_i表示镜头i对应帧数；

表示视频内容显著度，S_i表示镜头i显著性；F_max和S_min分别表示视频摘要生成时限定的最大长度和最小显著性；n(·)表示归一化操作，本发明不失一般性的采用向量线性归一化；系数α_i用于满足不同需求的动态摘要生成，由用户自由指定。上述多目标优化问题为典型的整数规划问题，所以可以采用整数规划算法求解[2]

[1]Zhuang，Y.，Rui，Y.，Huang，T.S.，and Mehrotra，S.Adaptive Key FrameExtraction using Unsupervised Clustering.In Proceedings of ICIP(1).1998，866-870.

[2]J.E.Beasley，editor.Advances in Linear and Integer Programming.Oxford Science，1996.

[3]Anan Liu*，Jintao Li，Yongdong Zhang，Yan Song，Sheng Tang，Zhaoxuan Yang，AnInnovative Model of Tempo and Its Application in Action Scene Detection for MovieAnalysis，Proceeding of IEEE Workshop on Applications of Computer Vision(WACV2008)，America，2008，pp：1～6.

[4]M.Stricker，M.Orengo，Similarity of Color Images，SPIE Storage and Retrievalfor Image and Video Databases，1995.

[5]W.Y.Ma，B.S.Manjunath，A Comparison of Wavelet Transform Features for TextureImage Annotation，IEEE International Conference on Image Processing，1995.

[6]N.Dalal，B.Triggs，Histograms of Oriented Gradients for Human Detection，International Conference on Computer Vision and Pattern Recognition，2005.

[7]G.Palla，I.Derényi，I.Farkas，et al，Uncovering the Overlapping CommunityStructure of Complex Networks in Nature and Society，Nature，2005，435(7043)：814～818.

Claims

1.一种跨摄像头视频摘要提取方法，其特征是，包括下列步骤：

(1)预处理：视频镜头分割、关键帧提取及显著性表示：

(2)跨摄像头视频镜头网络构建和分析：

(3)基于用户需求的跨摄像头视频摘要生成：

视频摘要提取方法为：对于包含n个镜头的镜头集团Cs，最终生成的视频摘要是否包含某个镜头由标记向量x＝{x₁，...，x_i...，x_n}表示，其中x_i为1时表示该镜头被保留，x_i为0时表示该镜头被去除，定义多目标优化问题目标函数为：

x^{*} = \underset{x}{\arg \max} {{- a}_{1} \cdot n (f_{1} (x)) + a_{2} \cdot n (f_{2} (x))}

s . t . \{\begin{matrix} f (x) \leq F_{\max} \\ s (x) &GreaterEqual; S_{\min} \end{matrix}

其中：

表示摘要总长，F_i表示镜头i对应帧数；

表示视频内容显著度，S_i表示镜头i显著性；F_max和S_min分别表示视频摘要生成时限定的最大长度和最小显著性；n(·)表示归一化操作，采用向量线性归一化；系数α_i用于满足不同需求的动态摘要生成，由用户自由指定，上述多目标优化问题为典型的整数规划问题，采用整数规划算法求解。