CN101577824B

CN101577824B - 基于邻近i帧dc图像相似度的压缩域关键帧提取方法

Info

Publication number: CN101577824B
Application number: CN 200910022941
Authority: CN
Inventors: 孙钦东; 王倩; 郭晓军; 胡敏
Original assignee: Xian University of Technology
Current assignee: Xi'an Boyi Intelligent Technology Co., Ltd.
Priority date: 2009-06-12
Filing date: 2009-06-12
Publication date: 2011-01-19
Anticipated expiration: 2029-06-12
Also published as: CN101577824A

Abstract

本发明公开了一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法，该方法首先计算原始视频中邻近I帧DC图像的相似度，形成相似度集合，其次利用聚类算法Kmeans对邻近I帧的DC图像相似度集合进行聚类，最后根据聚类结果中各I帧的相关度值进行关键帧提取。本发明充分利用相邻I帧相似度较大的特点，来减少计算次数以避免大量不必要的计算和应用聚类方法Kmeans对相似度集合S_dist在较短时间内完成聚类，改变了先镜头分割后提取关键帧的思路，简化了视频关键帧提取过程，并保证了结果的有效性；而且，本发明可处理多种类型视频文件的关键帧提取。

Description

基于邻近I帧DC图像相似度的压缩域关键帧提取方法

技术领域

本发明属于网络视频内容分析技术领域，涉及一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法。

背景技术

随着网络多媒体技术的深入发展，网络视频已逐渐成为信息表达的一种主流方式。在网络视频内容分析中，由于视频本身数据量较大，若对全部的视频帧进行分析需要花费大量的时间和空间，无法满足对实时性有一定要求的场合。由于视频内容在时空上具有一定的相关性，而关键帧通常能反应出视频的主要内容。因此，通过提取关键帧并进行分析，可以有效减少视频处理的数据量，降低计算的时空复杂度，提高网络视频内容分析的效率。

目前，对于关键帧的提取方法，国内外学者做了大量的研究工作，根据所处理的视频数据对象，可以将这些方法分为像素域的关键帧提取和压缩域的关键帧提取。针对像素域上的关键帧提取，可以通过对帧内像素进行光流分析来计算运动量，并选取单个镜头中运动量局部最小值处的帧作为关键帧。也可以通过利用帧的颜色直方图，边界方向直方图以及小波统计等特征来度量出帧与帧之间的差异，并选取两个连续差异较大帧的中间帧作为关键帧。还可以通过对帧间颜色直方图的差异应用低通滤波器来突出编辑持续效果，以此进行镜头分割，并在此基础上应用自适应时域采样方法提取关键帧。上述方法都是在视频完全解压缩后进行的，所以计算量比较大，效率较低难以满足实时性的要求。

压缩域视频处理技术是直接面向数据量较小的压缩视频数据，在不解压或者少解压的情况下对视频进行处理，可以大大提高视频的处理速度，因此压缩域上的关键帧提取方法研究也引起的广泛关注。有一种方法利用视频帧所包含各类型宏块的数量差异衡量帧与帧之间的差距，并应用高斯滤波和离散曲线进化方法进行关键帧的提取。另一种方法给出了利用压缩域运动向量的感知运动能量来选择关键帧的方法，并在基于MPEG-7的视频文件中取得了较好的效果。还有一种是针对在MPEG压缩视频域中基于DC系数图像直方图和运动矢量的关键帧提取方法，主要应用于视频检索中视频摘要的提取。这些方法的共同点是利用视频压缩域中的某些特征(如运动矢量MV、宏块类型等)来确定镜头边界，实现镜头分割，并从分割出的镜头中提取出关键帧，且所做的实验多数是针对MPEG系列视频压缩标准的。而目前开放的视频压缩标准比较多，上述方法在应用于其它视频压缩标准如H.261、H.263时处理速度的效果不明显。

发明内容

本发明的目的是提供一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法，可以快速准确地完成网络视频关键帧提取过程，解决了现有关键帧提取方法存在的只能处理单一视频标准的缺点，简化了视频关键帧提取过程。

本发明所采用的技术方案是，一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法，该方法按照以下步骤实施：

步骤1：假设VS为待处理的原始视频流，DCⁱ为VS中第i个I帧所对应的DC图像，i＝1，2，3，...，n，n为I帧总数，则相邻I帧DC图像的相似度d_j定义为：

d_{j} = dist (j, j + 1) = Σ_{l = 0}^{L} {({DC}_{l}^{j} - {DC}_{l}^{j + 1})}^{2} - - - (1)

公式(1)中j＝1，2，3，...，n-1；L＝W_DC×H_DC，W_DC，H_DC分别为DC图像的宽度和高度；S_dist为所有VS中所有相似度d_j构成的集合，即S_dist＝{d₁，d₂，...，d_i，...，d_n-1}，K为聚类总个数，R_DC为I帧相关度集合，且R_i∈R_DC，其中R_i为VS中第i个I帧的相关度，S_RF为关键帧集合，且初始时S_RF＝φ，

利用公式(1)计算相邻DC图之间的距离d_j，得到序列S_dist；

步骤2：设置聚类总个数K的值，K＞0，并利用Kmeans方法对步骤1得到的S_dist进行聚类，

得到Class1，Class2，Classi，...，ClassK，i＝1，2，...，K；

步骤3：按照公式(2)

R_{j + 1} = \{\begin{matrix} 1 & if & p = q, & d_{j} &Element; {Class}_{p}, & d_{j + 1} &Element; {Class}_{q} \\ 2 & if & p &NotEqual; q, & d_{j} &Element; {Class}_{p}, & d_{j + 1} &Element; {Class}_{q} \end{matrix}, - - - (2) [\begin{matrix} [\begin{matrix} 1 & if & p = q \end{matrix}] & d_{j} = c; adsf \end{matrix}]

计算VS中每个I帧的相关度R_j+1，

其中p，q＝1，2，...，K；j＝0，1，2...，n-1；R₁＝1，R_n＝1；

所有VS中每个I帧的相关度R_j+1构成帧相关度集合R_DC；

步骤4：对于帧相关度集合R_DC，若s，t，e满足条件

\{\begin{matrix} R_{s} = 2, R_{e} = 2 \\ R_{s + 1} = R_{s + 2} = \cdot \cdot \cdot = R_{t} = \cdot \cdot \cdot R_{e - 2} = R_{e - 1} = 1 \end{matrix}, - - - (3)

其中s，e＝1，2，...，n-1；s≤e且s≤t≤e；

则将s，t，e并入集合S_RF中，即S_RF＝S_RF∪{s，t，e}；

步骤5：重复步骤4，直到找出所有满足条件的s、t、e为止，S_RF即为最终所提取的关键帧集合。

本发明的方法，该方法在压缩域上直接进行关键帧提取，改变了先镜头分割后关键帧提取的思路，能够提高视频内容分析的速度，可以快速完成网络视频关键帧提取过程，并保证结果的有效性和准确性；本发明可处理多种类型视频文件的关键帧提取，能够应对视频文件种类多、压缩格式多等情况。

附图说明

图1是本发明方法实施例在5个不同的视频中，根据不同的聚类个数K值提取出的关键帧数量曲线图；

图2是本发明方法实施例针对图1中不同的5个视频和不同的聚类个数值的情况下关键帧提取过程所需的时间开销曲线图；

图3是本发明方法实施例在聚类个数值固定的情况下，对一段视频在不同的播放时间内所提取的关键帧数量曲线图；

图4是本发明方法实施例针对图3中视频各播放时间内关键帧提取过程所对应的时间开销曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明方法考虑到存在多个视频压缩标准和网络视频内容审计的实时性等因素，利用压缩域内I帧的DC图像特征，给出了一种在压缩域内快速提取关键帧的方法。假设VS为待处理的原始视频流，DCⁱ为VS中第i个I帧所对应的DC图像，i＝1，2，3，...，n。n为I帧总数，则相邻I帧DC图像的相似度d_j定义为：

d_{j} = dist (j, j + 1) = Σ_{l = 0}^{L} {({DC}_{l}^{j} - {DC}_{l}^{j + 1})}^{2} - - - (1)

公式(1)中j＝1，2，3，...，n-1；L＝W_DC×H_DC，W_DC，H_DC分别为DC图像的宽度和高度。为了方便描述，在这里做如下的约定：S_dist为VS中所有相似度d_j构成的集合，即S_dist＝{d₁，d₂，...，d_i，...，d_n-1}。K为聚类总个数。R_DC为I帧相关度集合，且R_i∈R_DC，R_i为VS中第i个I帧的相关度。帧相关度是指与某个I帧相关联的类的个数。S_RF为关键帧集合，且初始时S_RF＝φ。本发明的基于邻近I帧DC图像相似度的压缩域关键帧提取方法(简称KSIDCIS)的具体实施步骤如下：

步骤1：利用公式dist(j，j+1)计算相邻DC图之间的距离d_j，得到序列S_dist；

步骤2：设置聚类总个数为K(K＞0)，并利用Kmeans方法对S_dist进行聚类，得到Class1，Class2，Classi，...，ClassK，i＝1，2，...，K；

步骤3：按照公式(2)

R_{j + 1} = \{\begin{matrix} 1 & if & p = q, & d_{j} &Element; {Class}_{p}, & d_{j + 1} &Element; {Class}_{q} \\ 2 & if & p &NotEqual; q, & d_{j} &Element; {Class}_{p}, & d_{j + 1} &Element; {Class}_{q} \end{matrix}, - - - (2)

计算VS中每个I帧的相关度R_j+1，其中p，q＝1，2，...，K；j＝0，1，2...，n-1；R₁＝1，R_n＝1；所有VS中每个I帧的相关度R_j+1构成帧相关度集合R_DC；

步骤4：对于帧相关度集合R_DC，若s，t，e满足条件

\{\begin{matrix} R_{s} = 2, R_{e} = 2 \\ R_{s + 1} = R_{s + 2} = \cdot \cdot \cdot = R_{t} = \cdot \cdot \cdot R_{e - 2} = R_{e - 1} = 1 \end{matrix}, - - - (3)

其中s，e＝1，2，...，n-1；s≤e且s≤t≤e；则将s，t，e并入集合S_RF中，即S_RF＝S_RF∪{s，t，e}。

步骤5：重复步骤4，直到找出所有满足条件的s、t、e为止，且S_RF为最终所提取的关键帧集合。

即本方法先利用公式(1)求出两个相邻I帧DC图像之间的相似度d_j，然后执行步骤2，此时Kmeans聚类方法可将相似度集合S_dist中的所有元素dj聚集成不同的类，以确定相邻I帧是否相似，若连续的多个d_j被分在同一个类中，则说明这些d_j值大小接近，其所对应的多个连续I帧相似性也较强，此时可选取这些I帧中的任意一帧作为关键帧来代表这些连续I帧内容；若这些d_i被分散在多个不同的类中，则说明这些d_j值大小变化剧烈，其所对应的多个连续I帧的内容差异较大(如发生镜头突变切换等)，此时这些d_j值被划分成多段，应选择分段点d_j所对应的j帧作为关键帧。例如，对于一段连续的d_j值d₂～d₁₀，若d₂～d₄，d₅，d₆～d₁₀分别属于不同的类，则分段点为d₅，此时应将第5号I帧作为关键帧。步骤3、步骤4和步骤5给出了选取关键帧的过程。其中，若d_j，d_j+1属于同一类，则第j+1个I帧的相关度R_j+1＝1，否则，R_j+1＝2，此时说明在第j+1个I帧处，帧内容发生了较大变化；且很容易得出R₁和R_n分别为1。S_RF为所提取的关键帧编号组成的集合。

从上述过程可以看出，本发明KSIDCIS方法的空间开销主要是存储DC图像的空间开销S，但在计算出相似度的集合S_dist后，后续步骤都没有涉及到S，则此时空间开销S可以被释放，可见，尽管S值较大，但由于它在执行过程中存在时间较短，且仅被使用一次，所以S对空间开销的影响是短暂的，因此本发明KSIDCIS方法的空间性能完全满足实际应用要求。

此外，本方法也具有较高的时间效率，从以下两方面可以看出：

(1)本发明KSIDCIS方法充分利用相邻I帧相似度较大的特点，只计算相邻I帧DC图像的相似度，而不是计算任意两个DC图像相似度，将计算次数从N*N次减少到N-1次，避免大量不必要的计算，节约了时间开销。

(2)通过结合聚类方法Kmeans收敛较快的特性，在选取适当K值的情况下，可对相似度集合S_dist在较短时间内完成聚类。由于集合S_dist中的各元素为一维向量，各聚类中心点的维数也为一维向量，这使得聚类方法计算量大大降低，提高了聚类处理效率。

表1和图1、2、3、4给出了本发明的实验结果，实验中的视频数据均来自于YouTube网站。表1中给出了6个具体实施例的视频文件的编号、视频文件的大小及播放时间、各视频中所含I帧的总数量以及视频的类别。表2给出了视频文件的原始URL地址。

表1

表2视频文件URL列表

V1	http://www.youtube.com/watch？v＝i1cC3dnfTkQ&feature＝related
		V2	http://www.youtube.com/watch？v＝2BveRkLEIPs&feature＝related
V3	http://www.youtube.com/watch？v＝58wTwba9YOc&feature＝ytn％3Amptnews
		V4	http://www.youtube.com/watch？v＝IbFdyzodS5o&feature＝related

V5	http://www.youtube.com/watch？v＝q1Y6iqePELk
		V6	http://www.youtube.com/watch？v＝eiQvAO42s98

图1是在5个不同的视频中，根据不同的聚类个数K值提取出的关键帧数量曲线图，图中横坐标表示视频的编号，纵坐标是关键帧数量；图2是本发明方法实施例针对图1中不同的5个视频和不同的聚类个数值的情况下关键帧提取过程所用的时间开销曲线图，图中横坐标表示视频的编号，纵坐标表示提取关键帧所花费的时间；图中，U表示视频中I帧的总数，K表示聚类的个数，时间坐标轴的单位是10^-4秒。由图1、2可以看出，选取合适的聚类个数K值，能够在压缩域上提取出合适的可以反应视频主要内容的关键帧数量。

图3是在特定的聚类个数值下，一段特定的视频在不同的播放时间内关键帧数量曲线图，图中横坐标表示一段特定视频的播放时间(单位为分钟)，纵坐标表示关键帧的数量；图4给出了各播放时间内关键帧提取过程所花费的时间，是针对图3中提取出的不同数量的关键帧所对应的时间开销曲线图，图中横坐标表示关键帧数量，纵坐标表示提取相应的关键帧所花费的时间，U表示视频中I帧的总数，K表示聚类的个数，时间坐标轴的单位是10^-4秒。本发明对播放时间较长的视频文件V6，完成了在聚类K值为固定值时，取不同播放时间(间隔为2分钟)的情况下进行关键帧提取的实验。由图3、4可以看出，在特定的聚类个数K值固定的情况下，对于同一个视频，虽然随着视频播放时间的增加，关键帧的数目会增加，提取关键帧的时间开销会随着视频文件播放时间长度的增加呈总体上升趋势，但其时间开销保持在毫秒级，可以满足实时性要求。

本发明方法考虑到存在多个视频压缩标准和网络视频内容审计的实时性等因素，利用压缩域内I帧的DC图像特征，给出了一种在压缩域内快速提取关键帧的方法，改变了先镜头分割后关键帧提取的思路，在保证准确性的条件下，简化了视频关键帧提取过程，能够提高视频内容分析的速度，可以快速完成网络视频关键帧提取过程，并保证结果的有效性和准确性；同时，本发明可处理多种类型视频文件的关键帧提取，面向各种视频压缩标准(如MPEG-1/2/4、H.261、H.263等)的视频文件，解决了现有关键帧提取方法存在的只能处理单一视频标准的缺点，能够应对视频文件种类多、压缩格式多等情况。

Claims

1.一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法，其特征在于，所述的DC图像为直流分量图像，该方法按照以下步骤实施：

d_{j} = dist (j, j + 1) = Σ_{l = 0}^{L} {({DC}_{l}^{j} - {DC}_{l}^{j + 1})}^{2} - - - (1)

公式(1)中j＝1，2，3，...，n-1；L＝W_DC×H_DC，W_DC，H_DC分别为DC图像的宽度和高度；S_dist为VS中所有相似度d_j构成的集合，即S_dist＝{d₁，d₂，…，d_i，…，d_n-1}，K为聚类总个数，R_DC为I帧相关度集合，且R_i∈R_DC，其中R_i为VS中第i个I帧的相关度，S_RF为关键帧集合，且初始时S_RF＝φ，

利用公式(1)计算相邻DC图之间的距离d_j，得到序列S_dist；

得到Class1，Class2，Classi，...，ClassK，i＝1，2，...，K；

步骤3：按照公式(2)

R_{j + 1} = \{\begin{matrix} 1 & if & p = q, d_{j} &Element; {Class}_{p}, d_{j + 1} &Element; {Class}_{q} \\ 2 & if & p &NotEqual; q, d_{j} &Element; {Class}_{p}, d_{j + 1} &Element; {Class}_{q} \end{matrix}, - - - (2)

计算VS中每个I帧的相关度R_j+1，

其中p，q＝1，2，...，K；j＝0，1，2...，n-1；R₁＝1，R_n＝1；

所有VS中每个I帧的相关度R_j+1构成帧相关度集合R_DC；

步骤4：对于帧相关度集合R_DC，若s，t，e满足条件

\{\begin{matrix} R_{s} = 2, R_{e} = 2 \\ R_{s + 1} = R_{s + 2} = . . . = R_{t} = . . . R_{e - 2} = R_{e - 1} = 1 \end{matrix} - - - (3)

其中的s，e＝1，2，…，n-1；s≤e且s≤t≤e；

则将s，t，e并入集合S_RF中，即S_RF＝S_RF∪{s，t，e}；