CN101872346B

CN101872346B - 一种自动生成视频导航系统的方法

Info

Publication number: CN101872346B
Application number: CN2009100820866A
Authority: CN
Inventors: 胡卫明; 曾祥林; 吴偶; 朱明亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2009-04-22
Filing date: 2009-04-22
Publication date: 2012-07-04
Anticipated expiration: 2029-04-22
Also published as: CN101872346A

Abstract

本发明公开了一种自动生成视频导航系统的方法，包括：使用双阈值的镜头切割算法将视频切割成多个镜头；使用主导集聚类算法提取镜头的关键帧；使用主导集聚类算法将镜头聚类成镜头组；然后将镜头组构造成场景。本发明大大提高了视频的结构化程度，制作了视频的层次目录，极大方便了用户对视频内容的获取和浏览。本发明可以方便的制作DVD的目录，为视频检索技术提供支持。在视频已经融入人们生活的今天，具有极大的实用价值和应用前景。

Description

一种自动生成视频导航系统的方法

技术领域

本发明涉及计算机应用技术领域，特别涉及视频的结构分析方法及视频导航系统。

背景技术

随着计算机技术和多媒体技术的发展，个人计算机和数码设备越来越普遍，人们在生活中观看和拍摄越来越多的视频。网络通信技术的发展使得视频在互联网上方便的传播，一些视频门户网站应运而生，比如国内的优酷和土豆，国外的youtube等。普通百姓可以将日常生活中拍摄的视频上传到视频网站上供其他用户观看。数字视频已经成为人们学习和娱乐中不可缺少的一部分。

相对于文本和图像，视频具有信息量丰富的优点，但是也有数据量巨大，结构化程度低的缺点。目前用户对视频内容的获取只能是线性的。用户如果想了解一段视频的内容，只能从头浏览到尾，充其量可以使用快进快退的方式加快浏览的速度。要想实现用户对视频内容的有效获取，就要通过分析视频的结构来提高视频的结构化程度。视频导航系统就是基于视频的内容对视频结构进行分析，制作视频目录，方便用户对视频的浏览。对于一本厚厚的书，如果没有目录，读者只能一页一页浏览来了解书的内容或者寻找感兴趣的内容；但是有了目录，读者就可以首先浏览目录，大致了解书的内容或者直接定位感兴趣的部分。正如书的目录分为章，节等层次，视频的目录也是分层次的。在视频的结构分析中，一般把视频的结构分成四个层次，从上到下依次是：场景，镜头组，镜头，视频帧。其中视频帧是视频在时间轴上的采样；镜头对应摄像机一个动作开始到结束期间拍摄的连续视频帧序列，是视频的基本物理单位；场景是视频传达语义的基本单位，由时间上连续和语义上相关的一组镜头组成。镜头组是介于镜头和场景之间的层次，由内容上相似的镜头组成。视频结构分析一般先把视频切割成镜头，然后使用机器学习或数据挖掘的方法将镜头构造成场景。视频导航系统主要是依靠场景和镜头两个目录层次，方便用户对视频内容的浏览。

另外，视频导航系统是视频摘要的基础，在视频导航系统的基础上可以制作视频摘要和概述。在视频检索中用户可以快速浏览视频摘要来判断得到的结果是不是自己想要的。同时视频导航系统中得到的视频层次结构可以用来帮助建立视频索引。总之，视频结构分析是基于内容的其他视频分析技术的基础；视频导航系统有着重要的实用意义和应用前景。

发明内容

为了解决现有技术的问题，本发明的目的是提高视频的结构化程度，方便用户对视频的内容获取和浏览，我们使用机器学习的方法对视频导航系统进行了研究，为此，本发明提出了一种自动生成视频导航系统的方法。

为达成所述目的，本发明提供一种自动生成视频导航系统的方法，该方法包括以下步骤：

步骤S1：提取视频帧的颜色直方图，使用双阈值镜头切割算法将视频数据自动切割成多个镜头；

步骤S2：使用主导集聚类算法，对每一个镜头提取关键帧；

步骤S3：利用镜头视觉内容上的相似度和时间维上的距离来计算镜头间的相似度矩阵，然后使用主导集聚类算法将镜头聚类成镜头组；

步骤S4：将时间上交叉的镜头组构造成场景；

步骤S5：视频浏览系统的界面，用于获取和浏览视频的内容。

优选地，所述双阈值镜头切割算法使用了两个大小不同的阈值T_b和T_s，该算法给出了大阈值T_b的自适应设置，具体设置方法为T_b＝μ+α₁σ，α₁∈[5，6]；对于小阈值T_s则使用固定阈值的设置方法，使用自适应的方法来设置小阈值T_s来适应不同内容的视频，设置方法为T_s＝μ+α₂σ；其中μ为视频数据的相邻帧间差的平均值，σ为视频数据的相邻帧间差的标准差，α₂∈[2，3]。

优选地，所述提取一个镜头的关键帧的步骤如下：使用直方图的交计算镜头内的帧间相似度矩阵；使用主导聚类算法对一个镜头的视频帧聚类，获得多个聚类团；然后从聚类团中选择关键类；再从每一个关键类中选择代表帧为关键帧。

优选地，所述使用主导集聚类算法对所述的一个镜头的视频帧聚类的步骤包括：当镜头内的90％视频帧已经被聚类，则聚类过程停止；对于剩下的镜头内的视频帧使用主导集快速分类算法，将他们分到已形成的聚类团中，或做为噪声直接忽略掉。

优选地，所述关键类的选择，是对所述聚类团进行时间连续性分析，当聚类团内含有的时间连续性序列的长度大于镜头内视频帧总数的15％时，这样的聚类团才被选择为关键类；其余的聚类团被认为含有太多的噪声，不具有代表性，被直接忽略掉。

优选地，所述每一个关键类的代表帧的选择，是选择聚类内的连续帧序列中的中间帧作为该关键类的代表帧；所有关键类的代表帧就构成了镜头的关键帧。

优选地，所述镜头间的相似度计算使用镜头在视觉内容上的相似度，同时又使用了在时间维上的惩罚，用于将内容上相似且时间上距离近的镜头聚到一个镜头组里面去。

优选地，所述镜头在视觉内容上的相似度的计算时，把镜头看做是关键帧的集合，按照如下公式根据关键帧的相似度计算镜头的相似度：

ColSim ({shot}_{i}, {shot}_{j}) = \min_{f^{x} &Element; {shot}_{i}} \max_{f^{y} &Element; {shot}_{j}} (ColSim (f^{x}, f^{y})),

其中ColSim(f^x，f^y)表示属于不同的两个镜头shot_i和shot_j的关键帧的相似度，ColSim(shot_i，shot_j)表示两个镜头shot_i和shot_j的相似度；使用颜色自动相关图计算关键帧的相似度，其计算公式如下

ColSim (f^{x}, f^{y}) = \exp (\frac{- d^{2}}{δ}),

其中f^x，f^y表示不同的两个关键帧；d是使用L2距离测度计算的两个关键帧的颜色自动相关图的距离；δ为大于零的参数用于调节关键帧的相似度的衰减速度。

优选地，所述时间维上的惩罚使用了指数衰减的方法进行建模，其公式如下：

W ({shot}_{i}, {shot}_{j}) = \{\begin{matrix} \exp (- \frac{dist (i, j)}{σ}) & if & dist (i, j) < D \\ 0 & otherwise \end{matrix},

其中W(shot_i，shot_j)表示镜头shot_i和shot_j间的相似度的时间维上的惩罚系数；

dist (i, j) = | \frac{b_{i} + e_{i}}{2} - \frac{b_{j} + e_{j}}{2} |

表示两个镜头中间帧的距离，b_i，e_i分别是镜头shot_i的开始帧和结束帧，b_j，e_j分别是镜头shot_j的开始帧和结束帧；σ为大于零的参数表示镜头间的相似度的衰减速度；D是一个固定的阈值，控制着镜头间的相似度大于零的长度。

优选地，视频浏览系统的界面是以树状目录的形式显示视频数据的内容和以平面结构的形式显示视频数据的内容。

本发明的有益效果：本发明提出了一种新型的镜头关键帧提取方法，能够自动决定关键帧的个数，很好的适应镜头内容的复杂程度，渐进产生层次分明的关键帧集合，很好的适用显示终端(比如在手机上)空间有限或传输宽带有限的情况；提出了一种使用主导集聚类算法进行镜头聚类实现场景切割的方法，能够根据视频的内容自动决定镜头组的个数，不需要先验知识。

附图说明

图1为本发明生成视频导航系统的流程图。

图2为本发明双阈值镜头切割算法检测镜头边界的示意图。

图3为本发明基于主导集聚类提取关键帧的方法的流程图，方框中的实线是主导集聚类算法，虚线是主导集快速分类算法。

图4为本发明主导集聚类算法的示意图。

图5为本发明由镜头组构造场景的示意图。

图6为本发明视频导航系统的界面。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施方式仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的方法需要的硬件最低配置为：P4 3.0G CPU，512M内存的计算机；在此配置水平的硬件上，采用C++语言编程实现本方法。

本发明的整体流程图如图1所示。主要包括镜头切割，镜头的关键帧提取，镜头聚类，镜头组构造场景，视频导航系统界面五个部分。下面详细给出该发明技术方案中所涉及的各个细节问题的说明。

(一)镜头切割

本发明使用张宏江博士提出的双阈值镜头切割算法把视频切割成多个镜头。在双阈值镜头切割算法中本发明使用的特征是颜色特征，颜色描述子是在HSV空间中使用8×4×1量化等级后的颜色直方图。对于相邻两帧p和q(q＝p+1)，颜色直方图的距离使用L1距离：

{SD}_{p, q} = Σ_{j = 1}^{32} | H_{j} (p) - H_{j} (q) |

其中H(p)，H(q)分别表示p和q帧的颜色直方图；SD_p，q表示相邻两帧的帧间差异。

如图2示出，双阈值镜头切割算法中使用了两个大小不同的阈值T_b和T_s，原算法给出了大阈值T_b的自适应设置方法，具体设置方法为T_b＝μ+α₁σ，α₁∈[5，6]；对于小阈值T_s则使用固定阈值的设置方法。本发明使用自适应的方法来设置小阈值T_s来适应不同内容的视频，具体设置方法为T_s＝μ+α₂σ。其中μ为视频数据的相邻帧间差的平均值，σ为视频数据的相邻帧间差的标准差，α₂∈[2，3]。双阈值镜头切割算法检测镜头边界的具体过程如下：如果相邻视频帧的帧间差异SD_p，q大于T_b则认为在p帧和q帧之间发生了切变；如果T_b＞SD_p，q＞T_s则将第q帧标记为可能渐变的开端。然后将该帧和后续帧比较，称为“累计比较”。在镜头渐变过程中，这个累计差会逐渐增大，当帧间差减小到小于小阈值T_s，而累计差已经超过大阈值T_b时，则认为渐变的过程已经结束。注意在这个过程中只有当相邻帧间差超过T_s时才计算累计差。如果相邻帧间差小于小阈值T_s而累计差小于大阈值T_b，就放弃先前标注的渐变可能的开始点，寻找下一个可能的渐变。该过程的示意图为图2所示，其中T_b是大阈值，T_s是小阈值，SD_p，q是视频内的相邻帧间差异，SD′_p，q是视频内的相隔帧间差异。实际的渐变过程中有可能个别相邻帧间差小于小阈值T_s，我们可以允许有几帧(比如2帧)的相邻帧间差小于小阈值T_s，然后再判断镜头的边界。这种策略在处理实际视频时非常有效。

(二)镜头的关键帧提取

同一镜头内的视频帧在内容上有很大的冗余性，关键帧是一种简洁且有效的表示镜头的方法。本发明使用主导集聚类算法提取每一个镜头的关键帧，其流程图如图3所示，主要包括四个步骤：

(1)计算镜头内帧间的相似度矩阵：

这一步直接使用镜头切割步骤中提取的颜色直方图，使用直方图的交来计算两帧之间的相似度，进而得到镜头内的帧间相似度矩阵。两个颜色直方图的交的表达式为：

Sim(hist₁，hist₂)＝∑_imin(hist₁(i)，hist₂(i))

其中hist₁，hist₂分别是两帧视频帧的颜色直方图。

(2)使用主导集聚类算法聚类：

对镜头的视频帧使用主导集聚类算法和主导集快速分类算法进行聚类。主导集聚类算法的示意图如图4所示，图中的样本表示尚未被聚类的样本，随着聚类过程的进行，尚未聚类的样本越来越少，生成了层次清晰的聚类团1、聚类团2、聚类团3、……聚类团n，其具体算法流程如表1所示；主导集快速分类算法的流程如表2所示。当镜头内的90％视频帧已经被聚类，聚类过程停止；对于剩下的镜头内的视频帧使用主导集快速分类算法，将他们要么分到已形成的聚类团中，要么做为噪声直接忽略掉。

(3)选择关键类：

对主导集聚类得到的多个聚类团进行时间连续性分析。只有聚类团内含有的时间连续性序列的长度大于镜头内视频帧总数的15％时，这样的聚类团才被选择为关键类；其余的聚类团被认为含有太多的噪声，不具有代表性，被直接忽略掉。

(4)选择关键帧：

在每一个关键类中，选择连续帧序列中的中间帧作为该关键类的代表帧。所有关键类的代表帧就组成了镜头的关键帧集合。

(三)镜头聚类

本发明首先使用主导集聚类算法将镜头聚类成镜头组，其主要步骤如下：

(1)计算镜头间的相似度矩阵：

经过关键帧提取之后，一个镜头可以用关键帧的集合来表示。颜色自动相关图是最好的颜色特征描述子之一，相对于颜色直方图，嵌入了颜色的空间分布信息。对每一帧关键帧提取在HSV颜色空间上使用16×4×1量化等级后的颜色自动相关图，距离集合为D＝{1，3，5，7}，使用L2距离测度来计算两个关键帧的颜色自动相关图的距离d，采用下面的公式计算两个关键帧之间的相似度：

ColSim (f^{x}, f^{y}) = \exp (- \frac{d^{2}}{δ})

其中f^x，f^y表示不同的两个关键帧；d是使用L2距离测度计算的两个关键帧的颜色自动相关图的距离；δ＞0用于调节关键帧的相似度的衰减速度，本发明在实现中设置δ＝1。

那么根据颜色特征镜头在视觉内容上的相似度为：

ColSim ({shot}_{i}, {shot}_{j}) = \min_{f^{x} &Element; {shot}_{i}} \max_{f^{y} &Element; {shot}_{j}} (ColSim (f^{x}, f^{y}))

其中ColSim(f^x，f^y)表示属于不同的两个镜头shot_i和shot_j的关键帧的相似度，ColSim(shot_i，shot_j)表示两个镜头shot_i和shot_j的相似度；视频时间维度上的信息也非常重要，时间上越远的镜头属于同一场景的可能性越小，所以本发明对镜头的相似度进行时间维度上的惩罚，惩罚因子如下：

W ({shot}_{i}, {shot}_{j}) = \{\begin{matrix} \exp (- \frac{dist (i, j)}{σ}) & if & dist (i, j) < D \\ 0 & otherwise \end{matrix}

其中W(shot_i，shot_j)表示镜头shot_i和shot_j间的相似度在时间维上的惩罚系数；

dist (i, j) = | \frac{b_{i} + e_{i}}{2} - \frac{b_{j} + e_{j}}{2} |

表示两个镜头中间帧的距离，b_i，e_i分别是镜头shot_i的开始帧和结束帧，b_j，e_j分别是镜头shot_j的开始帧和结束帧。σ＞0控制着惩罚因子的衰减速度，本发明在实现时设置σ＝750；D是窗口的长度，本发明在实现时设置D＝2000。

所以镜头间的相似度可以表示为：

ShotSim(shot_i，shot_j)＝ColSim(shot_i，shot_j)×W(shot_i，shot_j)

(2)使用主导集聚类算法对镜头聚类：

得到镜头间的相似度矩阵之后，对相似度矩阵进行归一化，然后使用主导集聚类算法对镜头进行聚类得到镜头组。

(四)由镜头组构造场景

使用交叉连接的方法将所有在时间上交错的镜头组构造成场景，场景边界两侧的镜头不会属于同一个镜头组，其示意图如图5所示，一个圆表示一个镜头，有线相连的两个镜头表示属于同一个镜头组，构造的两个场景之间的任何两个镜头不存在连接。定义从镜头b开始，属于镜头组A的最后一个镜头序号为last(A，b)＝max_{i≥b，Label(i)＝A}i。由镜头组构造场景的具体算法如下：

1.l←m，e←last(label(l)，m)

2.while l≤e

if last(label(l)，m)＞e，e←last(label(l)，m)

l←l+1

3.shot_m，shot_m+1，…，shot_m+e构成一个场景。

(五)视频导航系统

本发明在镜头切割，关键帧提取，场景切割的基础上实现了视频的导航系统，其界面如图6所示。界面左侧是视频的树状层次目录，分为场景和镜头两级；右侧是视频结构的平面缩略图，每一个场景用其包含的镜头的关键帧来表示。用户通过浏览场景的关键帧可以粗略了解场景的内容，如果想观看该场景的内容可以点击树形目录中对应的场景，打开视频播放窗口播放视频。另外，播放窗口中还显示了场景的相关信息，如开始和结束的时间等。可以发现通过视频导航系统，用户对视频内容的获取和浏览方便了很多，可以实现对视频内容的非线性获取，比传统的快进快退的形式灵活多了。

表1给出了主导集聚类算法的详细步骤，其输入是N×N的相似度矩阵，然后得到一个聚类团，将聚类团中的样本剥离出来，得到一个更小的相似度矩阵，直至相似度矩阵为空，最后输出一系列聚类团。

表1主导集聚类算法的流程

表2给出主导集快速分类算法的详细步骤，输入是一个新样本与原来N个样本的相似度组成的矢量，输出是l^*。如果l^*＞0表示新样本所属的聚类团的标号，如果l^*＝0则表示新样本和原来的样本都不相似，自己应该单独属于一个新的聚类团。

表2主导集快速分类算法的流程

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种自动生成视频导航系统的方法，其特征在于，该方法包括以下步骤：

步骤S2：使用主导集聚类算法，对每一个镜头提取关键帧；

步骤S3：利用镜头在视觉内容上的相似度ColSim(shot_i，shot_j)、时间维上的惩罚系数W(shot_i，shot_j)、以及利用镜头在视觉内容上的相似度和时间维上的惩罚系数计算镜头间的相似度：

ShotSim(shot_i，shot_j)＝ColSim(shot_i，shot_j)×W(shot_i，shot_j)，从而获得镜头间的相似度矩阵，然后使用主导集聚类算法将镜头聚类成镜头组；

步骤S4：将时间上交叉的镜头组构造成场景；

步骤S5：在镜头切割、提取关键帧、镜头组构造场景的基础上制作视频导航系统。

2.根据权利要求1所述的自动生成视频导航系统的方法，其特征在于，所述双阈值镜头切割算法使用了两个大小不同的阈值T_b和T_s，该算法给出了大阈值T_b和小阈值T_s的自适应设置来适应不同内容的视频，具体设置方法为T_b＝μ+α₁σ，α₁∈[5，6]；T_s＝μ+α₂σ，α₂∈[2，3]；其中μ为视频数据的相邻帧间颜色直方图的距离的平均值，σ为视频数据的相邻帧间颜色直方图的距离的标准差。

3.根据权利要求1所述的自动生成视频导航系统的方法，其特征在于，所述对每一个镜头提取关键帧的步骤如下：使用直方图的交计算镜头内的帧间相似度矩阵；使用主导聚类算法对一个镜头的视频帧聚类，获得多个聚类团；然后从聚类团中选择关键类；再从每一个关键类中选择代表帧。

4.根据权利要求3所述的自动生成视频导航系统的方法，其特征在于，对所述一个镜头的视频帧聚类的步骤包括：当镜头内的90％视频帧已经被聚类，则聚类过程停止；对于剩下的镜头内的视频帧使用主导集快速分类算法，将他们分到已形成的聚类团中，或做为噪声直接忽略掉。

5.根据权利要求3所述的自动生成视频导航系统的方法，其特征在于，所述关键类的选择，是对所述聚类团进行时间连续性分析，当聚类团内含有的时间连续性序列的长度大于镜头内视频帧总数的15％时，这样的聚类团才被选择为关键类；其余的聚类团被认为含有太多的噪声，不具有代表性，被直接忽略掉。

6.根据权利要求3所述的自动生成视频导航系统的方法，其特征在于，所述每一个关键类的代表帧的选择，是选择聚类团内的连续帧序列中的中间帧作为该关键类的代表帧；所有关键类的代表帧就构成了镜头的关键帧。

7.根据权利要求1所述的自动生成视频导航系统的方法，其特征在于，所述镜头间的相似度矩阵计算使用镜头在视觉内容上的相似度，同时又使用了在时间维上的惩罚，用于将内容上相似且时间上距离近的镜头聚到一个镜头组里面去。

8.根据权利要求7所述的自动生成视频导航系统的方法，其特征在于，所述镜头在视觉内容上的相似度的计算时，把镜头看做是关键帧的集合，按照如下公式根据关键帧的相似度计算镜头的相似度：

ColSim ({shot}_{i}, {shot}_{j}) = \min_{f^{x} &Element; {shot}_{i}} \max_{f^{y} &Element; {shot}_{j}} (ColSim (f^{x}, f^{y})),

ColSim (f^{x}, f^{y}) = \exp (- \frac{d^{2}}{δ}),

其中f^x，f^y表示不同的两个关键帧；d是使用L2距离计算的两个关键帧的颜色自动相关图的距离；δ为大于零的参数用于调节关键帧的相似度的衰减速度。

9.根据权利要求7所述的自动生成视频导航系统的方法，其特征在于，所述时间维上的惩罚使用了指数衰减的方法进行建模，其公式如下：

W ({shot}_{i}, {shot}_{j}) = \{\begin{matrix} \exp (- \frac{dist (i, j)}{σ}) & if          dist (i, j) < D \\ 0 & otherwise \end{matrix},

其中W(shot_i，shot_j)表示镜头shot_i和shot_j间的相似度的时间维上的惩罚系数；表示两个镜头中间帧的距离，b_i，e_i分别是镜头shot_i的开始帧和结束帧，b_j，e_j分别是镜头shot_j的开始帧和结束帧；σ为大于零的参数表示镜头间的相似度的衰减速度；D是一个固定的阈值，控制着镜头间的相似度大于零的长度。

10.根据权利要求1所述的自动生成视频导航系统的方法，其特征在于，视频导航系统的界面左侧是视频的树状层次目录，分为场景和镜头两级，右侧是视频结构的平面缩略图，每一个场景用其包含的镜头的关键帧来表示。